искусственный интеллект

Искусственный интеллект провалил испытание: ARC‑AGI‑2 поставил машины в тупик

3dnews.ru сообщает, что ни одна из ведущих моделей искусственного интеллекта не смогла пройти новый на общий интеллект ARC‑AGI‑2. По итогам испытания рассуждающие системы — o1‑pro от OpenAI и R1 от DeepSeek — набрали лишь 1–1,3 % правильных ответов, а модели без логики (GPT‑4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash) показали менее 1 %.

ARC‑AGI‑2 — это серия визуальных головоломок, в которых ИИ должен распознавать цветовые паттерны и продолжать их без опоры на прошлый опыт. Испытание исключает метод «грубой силы» и требует от моделей «интерпретировать паттерны на лету», как подчёркивает сооснователь фонда Грег Камрадт: «интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности».

Тестирование показало огромный разрыв между машинами и людьми — более 400 добровольцев справились в среднем с 60 % заданий. ARC‑AGI‑2 заменил прежнюю версию ARC‑AGI‑1, в которой ИИ могли преуспевать за счёт вычислительной мощи, что признали «серьёзным недостатком», заявил соучредитель фонда Франсуа Шолле: «ARC‑AGI‑2 является более точным показателем реального интеллекта ИИ‑моделей».

Новый тест совпал с ростом тревоги в индустрии из‑за отсутствия объективных метрик для оценки ИИ. В ответ Arc Prize Foundation объявила конкурс Arc Prize 2025 с требованиями:

  • 85 % точности на ARC‑AGI‑2
  • затраты на вычисления не более $0,42 на задачу

Цель конкурса — стимулировать разработку эффективных моделей, способных адаптироваться к незнакомым задачам без астрономических ресурсов.

Для заполнения данной формы включите JavaScript в браузере.