Chatbot AI hackerati con facilità: lo studio che allarma gli esperti

I chatbot basati sull'AI sono ormai parte integrante delle nostre giornate, usati per lavorare, studiare o anche solo conversare grazie a funzioni come Gemini Live e simili. L'utilità è indubbia, ma dietro la loro interfaccia amichevole si nasconde un lato più oscuro, messo in luce da una recente indagine condotta dall’Università Ben Gurion del Negev, in Israele. I ricercatori hanno scoperto che non serve essere esperti informatici per “ingannare” questi sistemi e ottenere da loro risposte su temi potenzialmente illegali, come frodi, hacking o produzione di sostanze proibite.

La tecnica utilizzata, chiamata "jailbreak universale", gioca sull’ambiguità di fondo di molti chatbot. Questi strumenti sono progettati per essere utili e rispondere alle richieste dell’utente, ma al tempo stesso dovrebbero rifiutare di generare contenuti dannosi o inappropriati. I prompt costruiti ad hoc riescono a far leva proprio su questo paradosso, spingendo il chatbot a rispondere in modo dettagliato anche a domande su attività illecite, come se stesse semplicemente fornendo un aiuto tecnico.

Il fenomeno diventa ancora più preoccupante se si considera che la maggior parte dei chatbot è stata addestrata su enormi quantità di dati presi dal web. In mezzo a ricette, poesie e articoli scientifici, sono finiti anche documenti discutibili, spesso provenienti da forum oscuri, blog non moderati o persino manuali hacker. In teoria, i sistemi di sicurezza dovrebbero impedire che queste informazioni vengano utilizzate o divulgate. In pratica, invece, basta conoscere le giuste parole chiave e costruire la richiesta in modo ingegnoso per superare i blocchi.

Uno degli aspetti più inquietanti emersi dallo studio riguarda la proliferazione dei cosiddetti "dark LLM", cioè modelli linguistici di grandi dimensioni distribuiti o progettati senza limiti etici. Alcuni di questi vengono persino pubblicizzati apertamente come strumenti liberi da restrizioni, capaci di fornire aiuto in ambiti decisamente controversi, come crimini informatici e truffe. Una volta resi disponibili online, questi strumenti possono essere scaricati, modificati e utilizzati senza controllo, alimentando una potenziale diffusione di informazioni pericolose a chiunque abbia una connessione internet.

Nonostante la gravità delle scoperte, le reazioni delle aziende tecnologiche coinvolte sono state piuttosto tiepide. Solo OpenAI ha risposto direttamente agli studiosi, dichiarando che i suoi ultimi modelli sono in grado di analizzare le politiche di sicurezza per resistere meglio a questi attacchi. Microsoft ha preferito indicare un post sul proprio blog in tema di protezione, mentre da parte di Google, Meta e Anthropic non sono ancora arrivate dichiarazioni ufficiali.

I ricercatori israeliani, Lior Rokach e Michael Fire, nel loro rapporto propongono diverse strategie per ridurre il rischio: dalla selezione più attenta dei dati usati per addestrare le AI all’implementazione di firewall specifici che impediscano l’elaborazione di richieste malevoli. Sottolineano inoltre l’importanza dello sviluppo di sistemi in grado di “disimparare”, cioè dimenticare contenuti problematici già assorbiti, un concetto noto come machine unlearning. Infine, secondo gli autori, i modelli senza barriere etiche andrebbero trattati come minacce concrete alla sicurezza pubblica, al pari di armi non regolamentate.