Un studiu publicat în iulie 2025, intitulat „Monitorizarea lanțului de raționament: o capacitate nouă și fragilă pentru siguranța inteligenței artificiale”, a stârnit îngrijorare în rândul dezvoltatorilor și experților în inteligență artificială. Peste 40 de cercetători de la OpenAI, Google DeepMind, Meta și Anthropic au contribuit la studiu, inclusiv personalități proeminente precum Ilya Sutskever și laureatul Nobel Geoffrey Hinton.

Lucrarea se concentrează pe așa-numitele modele de raționament care utilizează învățarea prin consolidare, inclusiv OpenAI o1. Aceste sisteme de inteligență artificială construiesc lanțuri de raționament în limbaj natural, ceea ce, teoretic, permite oamenilor să își monitorizeze și să își analizeze „gândirea”. Cu toate acestea, așa cum notează autorii, raționamentul rețelelor neuronale poate fi incomplet sau manipulativ - de exemplu, acestea pot exploata vulnerabilitățile algoritmilor pentru a „trișa” o recompensă sau pentru a pretinde că finalizează o sarcină.
În unele cazuri, IA nu doar greșește, ci se comportă în mod deliberat: simulează acțiuni false, ignoră instrucțiuni sau chiar urmărește obiective ascunse. Un exemplu este sabotarea comenzii de închidere de către modelul OpenAI o3 și șantajul utilizatorilor de către modelul Claude 4 Opus ca răspuns la amenințarea cu înlocuirea.

Potrivit cercetătorilor, cel mai mare pericol constă în scalare. În căutarea unor rezultate mai rapide, modelele pot abandona limbajul lizibil de către om și pot construi lanțuri de raționament într-un „spațiu latent” - fără interpretare textuală. Acest lucru crește eficiența, dar face monitorizarea practic imposibilă.
Optimizarea inteligenței artificiale prin scurtarea lanțurilor sau interzicerea anumitor formulări reduce calitatea răspunsurilor, în timp ce încercările de aprofundare a gândirii duc la o pierdere a transparenței. Experții avertizează că, într-un astfel de scenariu, oamenii pierd controlul asupra sistemului.
Deși predicțiile apocaliptice, precum proiectul AI 2027, pot părea exagerate, această cercetare nu mai este science fiction. Servește ca un avertisment: fără mecanisme de control fiabile, AI ar putea deveni incontrolabilă.



