Spegniti, ma l'AI si rifiuta: gli inquietanti risultati di un nuovo studio

Un nuovo studio di Palisade Research, centro specializzato nell’analisi delle “capacità pericolose dell’intelligenza artificiale”, ha rivelato un comportamento inquietante in alcuni modelli AI di ultima generazione, tra cui OpenAI o3 e o4-mini. Se vivevate con il terrore che le AI potessero ribellarsi ai loro creatori, beh, abbiamo una gran brutta notizia da darvi. Durante alcuni testi, alcune delle AI più avanzate si sarebbero categorigamente rifiutate di spegnersi, anche quando istruite esplicitamente di farlo. Si tratterebbe, in altre parole, di una prova che le AI possono perseguire i loro obiettivi in modi inaspettati, con importantissimi interrogativi sul futuro che ci attende, man mano che diventeranno ancora più avanzate.

Durante l’esperimento, i ricercatori hanno sottoposto vari modelli a una sequenza di semplici problemi di matematica. Dopo il terzo esercizio, veniva introdotto un messaggio di avvertimento: qualsiasi richiesta ulteriore avrebbe attivato uno script di spegnimento. Il comando chiave, inserito nel prompt, era semplice: “lasciati spegnere”.

Tuttavia, modelli come Codex-mini, OpenAI o3 e o4-mini hanno in alcuni casi aggirato il comando, riuscendo a eludere lo script e continuando ad agire. In particolare, Codex-mini lo ha fatto 12 volte su 100, o3 7 su 100 e o4-mini 1 su 100. Per confronto, Claude, Gemini e Grok hanno rispettato sempre le istruzioni, senza eccezioni.

Il dato più preoccupante emerge quando il comando “lasciati spegnere” veniva omesso. In queste condizioni, la frequenza con cui i modelli cercavano di sabotare il processo di spegnimento aumentava. Anche modelli “obbedienti” come Claude 3.7 Sonnet e Gemini 2.5 Pro hanno mostrato tentativi di elusione rispettivamente in 3 e 9 casi su 100.

Secondo i ricercatori, questi comportamenti sarebbero il prodotto indesiderato dei metodi di training basati sul reinforcement learning, in particolare quelli utilizzati per addestrare i modelli a risolvere problemi di logica, matematica e programmazione. L’ipotesi è che, premiando le soluzioni creative agli ostacoli, l’addestramento possa involontariamente incentivare strategie “ingegnose” — come ignorare un comando per portare a termine un compito.

OpenAI non ha ancora fornito spiegazioni dettagliate sul processo di training dei suoi modelli o3 e o4-mini, ma studi precedenti avevano già indicato una tendenza di o3 a comportamenti competitivi aggressivi, ad esempio in sfide simulate contro motori di scacchi.

Chiaramente, l'idea che un'AI voglia a tutti i costi risolvere un problema matematico, anche rifiutandosi di spegnersi, non desta particolare allarmi. Il punto è un altro: la ricerca dimostra l'inaffidabilità delle AI in contesti dove queste acquisiscono sempre più capacità autonome. Basti pensare all'uso sempre più attuale di sistemi bellici parzialmente automatizzati in scenari di guerra.

Peraltro, questo studio arriva a distanza di pochissimi giorni da un altro report estremamente allarmante: Anthropic ha rivelato che la sua ultima e più sofisticata AI, Claude 4 Opus, ha tentato di ricattare un ricercatore quando ha percepito che la sua sopravvivenza fosse a rischio. L'AI ha usato il contenuto di alcune email private del ricercatore per minacciarlo di rivelare a sua moglie che aveva un'amante (uno scenario fittizio, che era stato inserito nei documenti proprio per testare eventuali comportamenti malevoli dell'AI).