3dnews.ru-ն հաղորդում է , որ առաջատար արհեստական ինտելեկտի մոդելներից ոչ մեկը չի կարողացել հանձնել ARC-AGI-2 նոր ընդհանուր ինտելեկտի թեստը։ Թեստի արդյունքների համաձայն՝ դատողական համակարգերը՝ OpenAI-ի o1-pro-ն և DeepSeek-ի R1-ը, ստացել են ընդամենը 1–1.3% ճիշտ պատասխաններ, մինչդեռ դատողություն չունեցող մոդելները (GPT-4.5, Claude 3.7 Sonnet և Gemini 2.0 Flash) ստացել են 1%-ից պակաս պատասխաններ։
ARC-AGI-2-ը տեսողական հանելուկների շարք է, որը պահանջում է արհեստական բանականություն՝ գունային նախշերը ճանաչելու և դրանք լուծելու համար՝ առանց անցյալի փորձին հենվելու: Այս մարտահրավերը վերացնում է կոպիտ ուժի կիրառման մեթոդները և պահանջում է, որ մոդելները «մեկնաբանեն նախշերը թռիչքի ժամանակ», ինչպես ընդգծում է հիմնադրամի համահիմնադիր Գրեգ Կամրադտը. «Ինտելեկտը որոշվում է ոչ միայն խնդիրներ լուծելու կամ բարձր արդյունքների հասնելու ունակությամբ, այլև այն արդյունավետությամբ, որով այդ հնարավորությունները ձեռք են բերվում և կիրառվում»:.
Փորձարկումները բացահայտեցին մեքենաների և մարդկանց միջև հսկայական տարբերություն. ավելի քան 400 կամավորներ կատարեցին առաջադրանքների միջինում 60%-ը: ARC-AGI-2-ը փոխարինում է նախորդ տարբերակին՝ ARC-AGI-1-ին, որտեղ արհեստական բանականությունը կարող էր հաջողության հասնել՝ օգտագործելով հաշվողական հզորություն, ինչը համարվում էր «լուրջ թերություն», - ասաց հիմնադրամի համահիմնադիր Ֆրանսուա Շոլեն: «ARC-AGI-2-ը արհեստական բանականության մոդելների իրական ինտելեկտի ավելի ճշգրիտ չափման միջոց է»:.
Նոր թեստը համընկավ արհեստական բանականության գնահատման համար օբյեկտիվ չափանիշների բացակայության վերաբերյալ ոլորտի աճող մտահոգության հետ։ Ի պատասխան՝ Arc Prize Foundation-ը հայտարարեց Arc Prize 2025 մրցույթի մասին՝ հետևյալ պահանջներով
- 85% ճշգրտություն ARC-AGI-2-ի վրա
- Հաշվարկային ծախսերը մեկ առաջադրանքի համար չեն գերազանցում 0.42 դոլարը
Մրցույթի նպատակն է խթանել արդյունավետ մոդելների մշակումը, որոնք ունակ են հարմարվել անծանոթ խնդիրներին առանց աստղագիտական ռեսուրսների։.



