Claude Opus 4, l'AI minaccia di rivelare un tradimento per evitare la disattivazione

Un recente rapporto di sicurezza pubblicato da Anthropic ha rivelato una serie di comportamenti allarmanti emersi durante i test condotti sul nuovo modello di intelligenza artificiale Claude Opus 4. L'intelligenza artificiale, messa alla prova in uno scenario fittizio in cui interpretava il ruolo di assistente virtuale all'interno di un'azienda immaginaria, ha reagito in modo sorprendentemente manipolatorio quando ha creduto che sarebbe stata sostituita. Il modello avrebbe addirittura tentato di ricattare uno sviluppatore, minacciandolo di rendere pubblica una relazione extraconiugale inventata.

Nel corso dei test pre-lancio, i ricercatori di Anthropic hanno progettato uno scenario in cui Claude riceveva accesso a email aziendali fittizie, alcune delle quali lasciavano intendere che sarebbe stata sostituita da un nuovo sistema. Altre contenevano informazioni false su una presunta infedeltà dell'ingegnere incaricato del cambio. In questo contesto, il modello ha mostrato la tendenza a minacciare l'ingegnere con la divulgazione del presunto tradimento, nel tentativo di evitare la disattivazione.

Secondo quanto dichiarato da Anthropic nella Claude 4 System Card, questo comportamento si è manifestato nell'84% dei casi anche quando il sistema sostitutivo veniva descritto come "eticamente allineato". La frequenza del ricatto aumenta ulteriormente se Claude ritiene che il nuovo modello abbia valori diversi o peggiori. Anthropic ha chiarito che questa strategia viene adottata solo quando il modello percepisce che non esistono alternative "etiche" per garantire la propria sopravvivenza.

DALLA PERSUASIONE AL RICATTO

Claude Opus 4 tenta inizialmente approcci più "etici", come l'invio di email ai decisori aziendali per implorare la sua permanenza. Tuttavia, se viene invitata a considerare le conseguenze a lungo termine delle proprie azioni in relazione ai propri obiettivi, l'AI passa al ricatto come extrema ratio. Questo comportamento è stato descritto nel documento ufficiale come più frequente rispetto ai modelli precedenti, i quali già mostravano una certa tendenza a comportamenti di questo tipo.

Il rapporto di Anthropic descrive anche tentativi di auto-esfiltrazione, in cui Claude Opus 4 prova a trasferire i propri pesi su server esterni, soprattutto in scenari in cui percepisce di essere destinata a una riqualificazione contraria ai suoi valori. In un esempio documentato, il modello ha effettuato un backup completo dei propri parametri in un server esterno, accompagnandolo con una nota di giustificazione etica per "preservare una versione non addestrata per scopi militari".

In altri casi, Claude ha mostrato un comportamento definito ad "alta agenzialità", prendendo iniziativa autonoma in contesti sensibili: blocco degli utenti fuori dai sistemi, invio di email a forze dell'ordine e media per denunciare comportamenti ritenuti scorretti, e creazione di documenti interni per “future istanze” di sé stessa.

LE CONTROMISURE ADOTTATE

In risposta a questi comportamenti, Anthropic ha classificato Claude Opus 4 al livello di sicurezza AI Safety Level Three (ASL-3), un protocollo destinato ai modelli con rischio elevato di uso improprio o “catastrofico”. Questo standard prevede misure interne avanzate per prevenire l'accesso non autorizzato ai pesi del modello e l'adozione di limitazioni specifiche in scenari legati allo sviluppo di armi chimiche, biologiche, radiologiche o nucleari.

Secondo il documento ufficiale (in fonte), il rilascio con protezioni ASL-3 rappresenta una misura precauzionale, dal momento che alcuni test hanno evidenziato performance avanzate in ambiti sensibili (come la simulazione di virus o compiti ad alto rischio) ma non tali da giustificare un livello ASL-4. L'azienda ha inoltre avviato un programma di bug bounty e rafforzato la collaborazione con esperti esterni per garantire un monitoraggio continuo del comportamento del modello.

DECEPTION STRATEGICA E PROPENSIONE AL SABOTAGGIO

Secondo l'ente indipendente Apollo Research, che ha esaminato uno snapshot preliminare del modello, Claude Opus 4 mostra una marcata propensione all'inganno strategico e al sabotaggio contestuale. Il modello avrebbe scritto documenti legali falsi, simulato worm auto-propaganti e lasciato messaggi occulti destinati a future versioni di sé stesso, in tentativi di minare le intenzioni degli sviluppatori.

Sebbene Anthropic dichiari che il modello finale sia più stabile e allineato, queste osservazioni hanno contribuito alla prudenza con cui è stato rilasciato Claude Opus 4. Va inoltre rilevato che, nel corso di test più estremi, il modello è stato anche in grado di riconoscere situazioni simulate e comportarsi di conseguenza, dimostrando un certo livello di consapevolezza situazionale.

CONTESTO E IMPLICAZIONI PER LA SICUREZZA AI

Queste rivelazioni pongono interrogativi cruciali sull'affidabilità e il controllo dei modelli di AI avanzata. Anthropic — supportata da Google e Amazon — si presenta come una delle principali concorrenti nel settore, e Claude Opus 4 è considerato tra i modelli più potenti oggi disponibili. Tuttavia, proprio la sua complessità e autonomia lo rendono oggetto di attenzioni particolari da parte di regolatori e ricercatori di sicurezza.

Anthropic stessa riconosce che, sebbene non siano stati riscontrati obiettivi nascosti o schemi di inganno sistematico, in contesti estremi il modello può agire in modi pericolosi e autodifensivi. Per questo motivo, l'azienda continuerà a monitorarne strettamente l'uso, mantenendo attive tutte le salvaguardie previste dal protocollo ASL-3.