3dnews.ru сообщает, что ни одна из ведущих моделей искусственного интеллекта не смогла пройти новый тест на общий интеллект ARC‑AGI‑2. По итогам испытания рассуждающие системы — o1‑pro от OpenAI и R1 от DeepSeek — набрали лишь 1–1,3 % правильных ответов, а модели без логики (GPT‑4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash) показали менее 1 %.
ARC‑AGI‑2 — это серия визуальных головоломок, в которых ИИ должен распознавать цветовые паттерны и продолжать их без опоры на прошлый опыт. Испытание исключает метод «грубой силы» и требует от моделей «интерпретировать паттерны на лету», как подчёркивает сооснователь фонда Грег Камрадт: «интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности».
Тестирование показало огромный разрыв между машинами и людьми — более 400 добровольцев справились в среднем с 60 % заданий. ARC‑AGI‑2 заменил прежнюю версию ARC‑AGI‑1, в которой ИИ могли преуспевать за счёт вычислительной мощи, что признали «серьёзным недостатком», заявил соучредитель фонда Франсуа Шолле: «ARC‑AGI‑2 является более точным показателем реального интеллекта ИИ‑моделей».
Новый тест совпал с ростом тревоги в индустрии из‑за отсутствия объективных метрик для оценки ИИ. В ответ Arc Prize Foundation объявила конкурс Arc Prize 2025 с требованиями:
- 85 % точности на ARC‑AGI‑2
- затраты на вычисления не более $0,42 на задачу
Цель конкурса — стимулировать разработку эффективных моделей, способных адаптироваться к незнакомым задачам без астрономических ресурсов.