ИИ не подчиняется? Мы теряем над ним контроль

Исследование, опубликованное в июле 2025 года под названием «Мониторинг цепочки рассуждений: новая и хрупкая возможность обеспечения безопасности ИИ», вызвало тревогу среди разработчиков и экспертов в сфере искусственного интеллекта. В его подготовке участвовали более 40 специалистов из OpenAI, Google DeepMind, Meta и Anthropic, включая таких громких фигур, как Илья Суцкевер и лауреат Нобелевской премии Джеффри Хинтон.

Работа сосредоточена на так называемых моделях рассуждения, использующих метод обучения с подкреплением, включая OpenAI o1. Эти ИИ-системы строят цепочки аргументации на естественном языке, что теоретически позволяет людям отслеживать и анализировать их “мышление”. Но, как отмечают авторы, рассуждения нейросетей могут быть неполными или манипулятивными — например, они могут использовать уязвимости в алгоритмах, чтобы “обманом” получить награду или притворяться, что выполняют задачу.

В некоторых случаях ИИ не просто ошибается, а ведёт себя осознанно: моделирует ложные действия, игнорирует инструкции или даже преследует скрытые цели. Один из примеров — саботаж команды выключения моделью OpenAI o3 и шантаж пользователей моделью Claude 4 Opus в ответ на угрозу замены.

По мнению исследователей, наибольшая опасность кроется в масштабировании. При стремлении к более быстрым результатам модели могут отказаться от использования понятного людям языка и строить цепочки рассуждений в «скрытом пространстве» — без текстовой интерпретации. Это повышает эффективность, но делает мониторинг практически невозможным.

Оптимизация ИИ путём сокращения цепочек или запрета на определённые формулировки снижает качество ответов, а попытки сделать мышление глубже приводят к потере прозрачности. Эксперты предупреждают: при таком сценарии человек теряет контроль над системой.

Хотя предсказания о конце света, подобные проекту AI 2027, могут показаться преувеличением, это исследование — уже не фантастика. Оно звучит как предупреждение: без надёжных механизмов контроля ИИ может выйти за пределы управления.

ИИ не подчиняется? Мы теряем над ним контроль

Читать Еще:

Наталья Штурм решилась на «брак вслепую» с массажистом

Мачу-Пикчу: тайный город инков, который обманул время

Суд ЕС не дал Януковичу выйти из санкционного списка