3dnews.ru хабарлауынша , жетекші жасанды интеллект модельдерінің ешқайсысы жаңа ARC-AGI-2 жалпы интеллект сынағынан өте алмады. Тест нәтижелеріне сәйкес, ойлау жүйелері — OpenAI-дің o1-pro және DeepSeek-тің R1 — тек 1–1,3% дұрыс баға алды, ал ойлау қабілеті жоқ модельдер (GPT-4.5, Claude 3.7 Sonnet және Gemini 2.0 Flash) 1%-дан аз балл жинады.
ARC-AGI-2 - жасанды интеллекттен түс үлгілерін танып, оларды өткен тәжірибеге сүйенбей шешуді талап ететін бірқатар визуалды жұмбақтар. Бұл қиындық күшті қолдану әдістерін жояды және модельдерден «үлгілерді жылдам түсіндіруді» талап етеді, өйткені қордың негізін қалаушы Грег Камрадт атап өтеді: «Интеллект тек мәселелерді шешу немесе жоғары нәтижелерге қол жеткізу мүмкіндігімен ғана емес, сонымен қатар бұл мүмкіндіктердің игерілуі мен қолданылуының тиімділігімен де анықталады».
Тестілеу машиналар мен адамдар арасындағы үлкен алшақтықты анықтады — 400-ден астам ерікті тапсырмалардың орта есеппен 60%-ын орындады. ARC-AGI-2 алдыңғы нұсқасын, ARC-AGI-1-ді алмастырады, онда жасанды интеллект есептеу қуатын пайдаланып табысқа жете алады, бұл «елеулі кемшілік» деп саналды, - деді қордың негізін қалаушылардың бірі Франсуа Шолле. «ARC-AGI-2 - жасанды интеллект модельдерінің нақты интеллектін дәлірек өлшеу».
Жаңа тест жасанды интеллектті бағалауға арналған объективті көрсеткіштердің жоқтығына қатысты салалық алаңдаушылықтың артуымен тұспа-тұс келді. Осыған байланысты Arc Prize Foundation келесі талаптармен Arc Prize 2025 байқауын жариялады:
- ARC-AGI-2 бойынша 85% дәлдік
- есептеу шығындары әр тапсырма үшін $0,42-ден аспайды
Байқаудың мақсаты - астрономиялық ресурстарсыз таныс емес мәселелерге бейімделе алатын тиімді модельдерді әзірлеуді ынталандыру.



