Исследование, опубликованное в июле 2025 года под названием «Мониторинг цепочки рассуждений: новая и хрупкая возможность обеспечения безопасности ИИ», вызвало тревогу среди разработчиков и экспертов в сфере искусственного интеллекта. В его подготовке участвовали более 40 специалистов из OpenAI, Google DeepMind, Meta и Anthropic, включая таких громких фигур, как Илья Суцкевер и лауреат Нобелевской премии Джеффри Хинтон.
Работа сосредоточена на так называемых моделях рассуждения, использующих метод обучения с подкреплением, включая OpenAI o1. Эти ИИ-системы строят цепочки аргументации на естественном языке, что теоретически позволяет людям отслеживать и анализировать их “мышление”. Но, как отмечают авторы, рассуждения нейросетей могут быть неполными или манипулятивными — например, они могут использовать уязвимости в алгоритмах, чтобы “обманом” получить награду или притворяться, что выполняют задачу.
В некоторых случаях ИИ не просто ошибается, а ведёт себя осознанно: моделирует ложные действия, игнорирует инструкции или даже преследует скрытые цели. Один из примеров — саботаж команды выключения моделью OpenAI o3 и шантаж пользователей моделью Claude 4 Opus в ответ на угрозу замены.
По мнению исследователей, наибольшая опасность кроется в масштабировании. При стремлении к более быстрым результатам модели могут отказаться от использования понятного людям языка и строить цепочки рассуждений в «скрытом пространстве» — без текстовой интерпретации. Это повышает эффективность, но делает мониторинг практически невозможным.
Оптимизация ИИ путём сокращения цепочек или запрета на определённые формулировки снижает качество ответов, а попытки сделать мышление глубже приводят к потере прозрачности. Эксперты предупреждают: при таком сценарии человек теряет контроль над системой.
Хотя предсказания о конце света, подобные проекту AI 2027, могут показаться преувеличением, это исследование — уже не фантастика. Оно звучит как предупреждение: без надёжных механизмов контроля ИИ может выйти за пределы управления.
Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.