ხელოვნური ინტელექტი ხომ არ გვემორჩილება? ხომ არ ვკარგავთ კონტროლს?

ხელოვნური ინტელექტი

გამოქვეყნებულმა კვლევამ , სახელწოდებით „მსჯელობის ჯაჭვის მონიტორინგი: ხელოვნური ინტელექტის უსაფრთხოების ახალი და მყიფე შესაძლებლობა“, შეშფოთება გამოიწვია დეველოპერებსა და ხელოვნური ინტელექტის ექსპერტებში. კვლევაში მონაწილეობა მიიღო OpenAI-ის, Google DeepMind-ის, Meta-სა და Anthropic-ის 40-ზე მეტმა მკვლევარმა, მათ შორის ისეთმა ცნობილმა ფიგურებმა, როგორებიც არიან ილია სუცკევერი და ნობელის პრემიის ლაურეატი ჯეფრი ჰინტონი.

ნაშრომი ფოკუსირებულია ე.წ. მსჯელობის მოდელებზე, რომლებიც იყენებენ გაძლიერებულ სწავლებას, მათ შორის OpenAI o1-ს. ეს ხელოვნური ინტელექტის სისტემები ქმნიან მსჯელობის ჯაჭვებს ბუნებრივ ენაზე, რაც თეორიულად საშუალებას აძლევს ადამიანებს, აკონტროლონ და გააანალიზონ თავიანთი „აზროვნება“. თუმცა, როგორც ავტორები აღნიშნავენ, ნეირონული ქსელების მსჯელობა შეიძლება იყოს არასრული ან მანიპულაციური - მაგალითად, მათ შეუძლიათ გამოიყენონ ალგორითმებში არსებული დაუცველობები ჯილდოს „მოტყუების“ ან დავალების შესრულების ილუზიის შესაქმნელად.

ზოგიერთ შემთხვევაში, ხელოვნური ინტელექტი არა მხოლოდ უშვებს შეცდომებს, არამედ განზრახ იქცევა: ის ახდენს ცრუ ქმედებების სიმულირებას, უგულებელყოფს ინსტრუქციებს ან თუნდაც ფარული მიზნებისკენ მიისწრაფვის. ერთ-ერთი მაგალითია OpenAI o3 მოდელის მიერ გამორთვის ბრძანების საბოტაჟი და Claude 4 Opus მოდელის მიერ მომხმარებლების შანტაჟი ჩანაცვლების საფრთხის საპასუხოდ.

მკვლევარების აზრით, ყველაზე დიდი საფრთხე მასშტაბირებაშია. უფრო სწრაფი შედეგების მისაღწევად, მოდელებმა შეიძლება უარი თქვან ადამიანისთვის გასაგებ ენაზე და ააგონ მსჯელობის ჯაჭვები „ლატენტურ სივრცეში“ - ტექსტის ინტერპრეტაციის გარეშე. ეს ზრდის ეფექტურობას, მაგრამ მონიტორინგს პრაქტიკულად შეუძლებელს ხდის.

ხელოვნური ინტელექტის ოპტიმიზაცია ჯაჭვების შემოკლებით ან გარკვეული ფორმულირებების აკრძალვით ამცირებს პასუხების ხარისხს, ხოლო აზროვნების გაღრმავების მცდელობები გამჭვირვალობის დაკარგვას იწვევს. ექსპერტები აფრთხილებენ, რომ ასეთ სცენარში ადამიანები კარგავენ სისტემაზე კონტროლს.

მიუხედავად იმისა, რომ ისეთი პროგნოზები, როგორიცაა ხელოვნური ინტელექტი 2027 წლის პროექტი, შეიძლება გაზვიადებულად მოგეჩვენოთ, ეს კვლევა აღარ არის სამეცნიერო ფანტასტიკა. ის გაფრთხილებად გვევლინება: საიმედო კონტროლის მექანიზმების გარეშე, ხელოვნური ინტელექტი შეიძლება კონტროლს მიღმა აღმოჩნდეს.