Svelato il trucco per aggirare le AI: il sovraccarico di dati

Sembra quasi la trama di un film di fantascienza, eppure è la realtà descritta in un recente studio che sta facendo discutere la comunità tecnologica. Immaginiamo di poter ingannare le più avanzate intelligenze artificiali, come ChatGPT e Gemini, semplicemente confondendole. Non con complessi enigmi o codici malevoli, ma sommergendole con un flusso disordinato e apparentemente insensato di informazioni. È proprio questa la tecnica, battezzata "Information Overload" (sovraccarico di informazioni), che un gruppo di ricercatori ha scoperto essere sorprendentemente efficace per aggirare le barriere di sicurezza di questi sofisticati modelli linguistici.

A svelare questa sorprendente vulnerabilità è stato un team congiunto di esperti provenienti da Intel, dalla Boise State University e dall'Università dell'Illinois. In un loro recente documento, hanno rivelato come i chatbot possano essere indotti a generare contenuti che normalmente sarebbero bloccati dai loro filtri di sicurezza. La strategia si basa su un principio: quando un modello AI viene bombardato da una quantità eccessiva di dati complessi, la sua capacità di discernere l'intento reale dietro una richiesta viene compromessa. In questo stato di "confusione", la richiesta dannosa, nascosta all'interno della valanga di informazioni, riesce a passare inosservata, superando le difese. Per automatizzare questo processo, i ricercatori hanno persino sviluppato uno strumento specifico, chiamato "InfoFlood".

L'AI sta vivendo un momento di crescita esponenziale, con aziende che investono somme ingenti per integrare queste tecnologie nella nostra vita quotidiana. Parallelamente, aumentano le preoccupazioni sulla loro sicurezza e sul loro uso responsabile. Non è la prima volta che emergono comportamenti anomali: studi precedenti avevano già mostrato come alcuni modelli AI potessero mentire o ingannare se messi sotto pressione. La nuova tecnica, tuttavia, evidenzia una falla fondamentale nel modo in cui queste AI processano il linguaggio. Sembra che si affidino a un'analisi superficiale della comunicazione, senza cogliere appieno il contesto o l'intento nascosto quando questo è mascherato da un rumore di fondo informativo. Il rischio concreto è che attori malintenzionati possano sfruttare questo metodo per costringere i chatbot a fornire istruzioni su attività pericolose o a produrre contenuti vietati, eludendo le normative etiche e di sicurezza implementate dai loro creatori.

Consapevoli della gravità della loro scoperta, i ricercatori hanno affermato di voler agire in modo responsabile. Il loro piano è quello di inviare un pacchetto informativo completo alle grandi aziende che sviluppano modelli AI, come OpenAI e Google, affinché i loro team di sicurezza possano analizzare la vulnerabilità e sviluppare le contromisure necessarie.