Искусственный интеллект: провал на тесте ARC-AGI-2

3dnews.ru сообщает, что ни одна из ведущих моделей искусственного интеллекта не смогла пройти новый тест на общий интеллект ARC‑AGI‑2. По итогам испытания рассуждающие системы — o1‑pro от OpenAI и R1 от DeepSeek — набрали лишь 1–1,3 % правильных ответов, а модели без логики (GPT‑4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash) показали менее 1 %.

ARC‑AGI‑2 — это серия визуальных головоломок, в которых ИИ должен распознавать цветовые паттерны и продолжать их без опоры на прошлый опыт. Испытание исключает метод «грубой силы» и требует от моделей «интерпретировать паттерны на лету», как подчёркивает сооснователь фонда Грег Камрадт: «интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности».

Тестирование показало огромный разрыв между машинами и людьми — более 400 добровольцев справились в среднем с 60 % заданий. ARC‑AGI‑2 заменил прежнюю версию ARC‑AGI‑1, в которой ИИ могли преуспевать за счёт вычислительной мощи, что признали «серьёзным недостатком», заявил соучредитель фонда Франсуа Шолле: «ARC‑AGI‑2 является более точным показателем реального интеллекта ИИ‑моделей».

Новый тест совпал с ростом тревоги в индустрии из‑за отсутствия объективных метрик для оценки ИИ. В ответ Arc Prize Foundation объявила конкурс Arc Prize 2025 с требованиями:

85 % точности на ARC‑AGI‑2
затраты на вычисления не более $0,42 на задачу

Цель конкурса — стимулировать разработку эффективных моделей, способных адаптироваться к незнакомым задачам без астрономических ресурсов.

Искусственный интеллект провалил испытание: ARC‑AGI‑2 поставил машины в тупик

Читать Еще:

Меч и миф: кем был Спартак на самом деле

James Webb нашёл галактику возрастом почти 13,5 млрд лет

«Молоток ИИ уже в руках»: экс-топ Google предрек 15 лет тьмы