Արհեստական ​​բանականությունը ձախողեց թեստը. ARC-AGI-2-ը շփոթված մեքենաներ է

արհեստական ​​բանականություն

3dnews.ru-ն հաղորդում է , որ առաջատար արհեստական ​​ինտելեկտի մոդելներից ոչ մեկը չի կարողացել հանձնել ARC-AGI-2 նոր ընդհանուր ինտելեկտի թեստը։ Թեստի արդյունքների համաձայն՝ դատողական համակարգերը՝ OpenAI-ի o1-pro-ն և DeepSeek-ի R1-ը, ստացել են ընդամենը 1–1.3% ճիշտ պատասխաններ, մինչդեռ դատողություն չունեցող մոդելները (GPT-4.5, Claude 3.7 Sonnet և Gemini 2.0 Flash) ստացել են 1%-ից պակաս պատասխաններ։

ARC-AGI-2-ը տեսողական հանելուկների շարք է, որը պահանջում է արհեստական ​​բանականություն՝ գունային նախշերը ճանաչելու և դրանք լուծելու համար՝ առանց անցյալի փորձին հենվելու: Այս մարտահրավերը վերացնում է կոպիտ ուժի կիրառման մեթոդները և պահանջում է, որ մոդելները «մեկնաբանեն նախշերը թռիչքի ժամանակ», ինչպես ընդգծում է հիմնադրամի համահիմնադիր Գրեգ Կամրադտը. «Ինտելեկտը որոշվում է ոչ միայն խնդիրներ լուծելու կամ բարձր արդյունքների հասնելու ունակությամբ, այլև այն արդյունավետությամբ, որով այդ հնարավորությունները ձեռք են բերվում և կիրառվում»:.

Փորձարկումները բացահայտեցին մեքենաների և մարդկանց միջև հսկայական տարբերություն. ավելի քան 400 կամավորներ կատարեցին առաջադրանքների միջինում 60%-ը: ARC-AGI-2-ը փոխարինում է նախորդ տարբերակին՝ ARC-AGI-1-ին, որտեղ արհեստական ​​բանականությունը կարող էր հաջողության հասնել՝ օգտագործելով հաշվողական հզորություն, ինչը համարվում էր «լուրջ թերություն», - ասաց հիմնադրամի համահիմնադիր Ֆրանսուա Շոլեն: «ARC-AGI-2-ը արհեստական ​​բանականության մոդելների իրական ինտելեկտի ավելի ճշգրիտ չափման միջոց է»:.

Նոր թեստը համընկավ արհեստական ​​բանականության գնահատման համար օբյեկտիվ չափանիշների բացակայության վերաբերյալ ոլորտի աճող մտահոգության հետ։ Ի պատասխան՝ Arc Prize Foundation-ը հայտարարեց Arc Prize 2025 մրցույթի մասին՝ հետևյալ պահանջներով

  • 85% ճշգրտություն ARC-AGI-2-ի վրա
  • Հաշվարկային ծախսերը մեկ առաջադրանքի համար չեն գերազանցում 0.42 դոլարը

Մրցույթի նպատակն է խթանել արդյունավետ մոդելների մշակումը, որոնք ունակ են հարմարվել անծանոթ խնդիրներին առանց աստղագիտական ​​ռեսուրսների։.