Ученые со всего мира проверили пределы возможностей ИИ. Обновлённый тест Humanity’s Last Exam был описан в материале The Conversation, а результаты опубликованы в Nature. Итоги оказались неожиданно слабыми даже для самых мощных моделей.
Над бенчмарком работала группа из почти тысячи исследователей. Они создали предельную проверку для машинного интеллекта. Название теста сразу задало тон — «Последний экзамен человечества».
В экзамен вошли 2500 сложных вопросов. Они охватывают математику, биологию, физику и гуманитарные науки. Даже модели уровня GPT-5 и Gemini 2.5 Pro набрали около 25 процентов.
Зубрежка вместо мышления
ИИ уверенно справляется со школьными и типовыми заданиями. Но в этом тесте он оказался беспомощным. Причина — способ обучения нейросетей.
Если ответ есть в интернете или обучающих данных, модель его находит. Но вопросы экзамена не имеют готовых решений. Они требуют логики и применения знаний в новых условиях.
Примером стал перевод надписи на древнем языке. Таких текстов нет в учебниках. Здесь и выяснилось, что за «интеллектом» часто скрывается память.

Гонка за баллами
После публикации теста разработчики начали натаскивать модели. Новые версии, такие как GPT-5.2 и Gemini 3 Pro, уже показывают 30–38 процентов. Ученые подчеркивают: это не рост интеллекта.
Авторы статьи отмечают: «Человеческий интеллект первичен, язык — это инструмент». У моделей язык и есть интеллект, под ним ничего нет. Высокие баллы не означают умение принимать сложные решения.
Исследователи советуют не доверять бенчмаркам слепо. Экзамен показал, что до гибкого человеческого разума машинам ещё далеко.



Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.