3dnews.ru იუწყება , რომ ხელოვნური ინტელექტის წამყვან მოდელებს შორის ვერცერთმა ვერ შეძლო ახალი ARC-AGI-2 ზოგადი ინტელექტის ტესტის ჩაბარება. ტესტის შედეგების მიხედვით, მსჯელობის სისტემებმა — OpenAI-ის o1-pro-მ და DeepSeek-ის R1-მა — მხოლოდ 1–1.3% სწორი შედეგი აჩვენეს, ხოლო მსჯელობის გარეშე მოდელებმა (GPT-4.5, Claude 3.7 Sonnet და Gemini 2.0 Flash) 1%-ზე ნაკლები შედეგი აჩვენეს.
ARC-AGI-2 ვიზუალური თავსატეხების სერიაა, რომელიც ხელოვნურ ინტელექტს სჭირდება ფერთა ნიმუშების ამოსაცნობად და მათი გადასაჭრელად წარსული გამოცდილების გარეშე. გამოწვევა გამორიცხავს უხეში ძალის მეთოდებს და მოითხოვს მოდელებისგან „ნიმუშების მომენტალურად ინტერპრეტაციას“, როგორც ფონდის თანადამფუძნებელი გრეგ კამრადტი ხაზს უსვამს: „ინტელექტი განისაზღვრება არა მხოლოდ პრობლემების გადაჭრის ან მაღალი შედეგების მიღწევის უნარით, არამედ იმ ეფექტურობითაც, რომლითაც ეს შესაძლებლობები შეძენილი და გამოყენებულია“.
ტესტირებამ მანქანებსა და ადამიანებს შორის უზარმაზარი უფსკრული გამოავლინა — 400-ზე მეტმა მოხალისემ საშუალოდ დავალებების 60% შეასრულა. ARC-AGI-2 ცვლის წინა ვერსიას, ARC-AGI-1-ს, რომელშიც ხელოვნურ ინტელექტს შეეძლო წარმატების მიღწევა გამოთვლითი სიმძლავრის გამოყენებით, რაც „სერიოზულ ნაკლოვანებად“ ითვლებოდა, განაცხადა ფონდის თანადამფუძნებელმა ფრანსუა შოლემ. „ARC-AGI-2 ხელოვნური ინტელექტის მოდელების რეალური ინტელექტის უფრო ზუსტი საზომია“.
ახალი ტესტი დაემთხვა ინდუსტრიაში მზარდ შეშფოთებას ხელოვნური ინტელექტის შეფასების ობიექტური მეტრიკის არარსებობის გამო. საპასუხოდ, Arc Prize Foundation-მა გამოაცხადა Arc Prize 2025-ის კონკურსი შემდეგი მოთხოვნებით:
- 85%-იანი სიზუსტე ARC-AGI-2-ზე
- გამოთვლითი ხარჯები არაუმეტეს 0.42 აშშ დოლარისა თითო დავალებაზე
კონკურსის მიზანია ისეთი ეფექტური მოდელების შემუშავების სტიმულირება, რომლებიც ასტრონომიული რესურსების გარეშე შეძლებენ უცნობ პრობლემებთან ადაპტაციას.



