Искусственный интеллект провалил Последний экзамен человечества

Ученые со всего мира проверили пределы возможностей ИИ. Обновлённый тест Humanity’s Last Exam был описан в материале The Conversation, а результаты опубликованы в Nature. Итоги оказались неожиданно слабыми даже для самых мощных моделей.

Над бенчмарком работала группа из почти тысячи исследователей. Они создали предельную проверку для машинного интеллекта. Название теста сразу задало тон — «Последний экзамен человечества».

В экзамен вошли 2500 сложных вопросов. Они охватывают математику, биологию, физику и гуманитарные науки. Даже модели уровня GPT-5 и Gemini 2.5 Pro набрали около 25 процентов.

Зубрежка вместо мышления

ИИ уверенно справляется со школьными и типовыми заданиями. Но в этом тесте он оказался беспомощным. Причина — способ обучения нейросетей.

Если ответ есть в интернете или обучающих данных, модель его находит. Но вопросы экзамена не имеют готовых решений. Они требуют логики и применения знаний в новых условиях.

Примером стал перевод надписи на древнем языке. Таких текстов нет в учебниках. Здесь и выяснилось, что за «интеллектом» часто скрывается память.

Гонка за баллами

После публикации теста разработчики начали натаскивать модели. Новые версии, такие как GPT-5.2 и Gemini 3 Pro, уже показывают 30–38 процентов. Ученые подчеркивают: это не рост интеллекта.

Авторы статьи отмечают: «Человеческий интеллект первичен, язык — это инструмент». У моделей язык и есть интеллект, под ним ничего нет. Высокие баллы не означают умение принимать сложные решения.

Исследователи советуют не доверять бенчмаркам слепо. Экзамен показал, что до гибкого человеческого разума машинам ещё далеко.