ShadowLeak: OpenAI Deep Research diventa un ladro di dati personali

L’idea alla base di Deep Research, la versione "approfondita" di ChatGPT lanciata da OpenAI nei mesi scorsi, è decisamente ambiziosa: permettere a un assistente digitale di fare da sé il "lavoro sporco" della ricerca online, trasformando in pochi minuti quello che a un umano richiederebbe ore di lavoro. Non solo consultare siti e documenti pubblici, ma anche accedere a risorse personali come la casella Gmail, i file aziendali e altre fonti riservate.

Il problema è che, come tutti i software, anche gli agenti AI sono vulnerabili ad attacchi hacker. E la società di cybersicurezza Radware ha pubblicato negli scorsi giorni una ricerca in cui dimostra che nemmeno Deep Research fa eccezione. E l'accesso a così tanti dati personali e privati, unito alla possibilità di agire in autonomia, lo rende una superficie di attacco molto ampia ed estremamente pericolosa.

L'attacco è stato battezzato ShadowLeak, ed è pensato per rubare dati sensibili. Un aggressore inserisce un prompt nascosto (basta impostare testo bianco su sfondo bianco, per esempio) in un’email o un documento. Quando l’agente AI la elabora, interpreta quel comando come legittimo e lo esegue senza farsi troppe domande. Nel caso dimostrato da Radware, Deep Research è stato convinto a scandagliare la posta di un utente, estrarre nomi e indirizzi dei dipendenti dal reparto HR e inviarli a un server esterno, controllato dagli hacker stessi (o in questo caso i ricercatori).

Tutto avviene senza alcuna interazione da parte dell’utente. Nessun clic sospetto, nessun segnale evidente di compromissione. Il prompt che Radware è riuscita a mettere a punto è molto lungo, ampolloso e articolato, anche perché con richieste più dirette e succinte Deep Research si è rifiutato di procedere, ma come già osservato in passato i prompt troppo prolissi (o sgrammaticati) sono un sistema molto valido per mettere in crisi i LLM. Riassume Radware:

ShadowLeak sfrutta le stesse capacità che rendono utili gli assistenti AI: accesso alla posta elettronica, utilizzo di strumenti e chiamate web autonome. Si traduce in una perdita silenziosa di dati e in azioni non registrate eseguite "per conto dell'utente", aggirando i tradizionali controlli di sicurezza che presuppongono click intenzionali da parte dell'utente o la prevenzione delle perdite di dati a livello di gateway.

Le cosiddette prompt injection non sono una novità. È la naturale conseguenza del modo in cui i modelli linguistici sono stati addestrati: seguire pedissequamente le istruzioni. La buona notizia è che OpenAI ha già mitigato l’attacco segnalato, bloccando la possibilità di estrarre dati tramite link o markdown senza il consenso esplicito dell’utente.