Nelle scorse ore Google ha dato ufficialmente il via a un nuovo programma di bug bounty dedicato all’intelligenza artificiale: in sostanza il colosso di Mountain View ricompenserà i ricercatori che scoveranno prompt e in generale metodi per aggirare le protezioni e i limiti degli agenti AI. Il diffondersi di questa nuova tecnologia sta facendo nascere il concetto di “AI Bug”, e la formulazione di prompt che mettono in difficoltà i modelli sta diventando un nuovo, potenzialmente molto efficace, vettore di attacco per compromettere i sistemi e i dati degli utenti.
Google spiega che le ricompense possono raggiungere i 30.000 dollari per ogni “AI Bug”, ma solo in condizioni precise: per cominciare il bug deve essere riscontrato in uno dei prodotti AI chiave di Google, come Gemini, il motore di ricerca e le app fondamentali della suite Workspace, come Gmail e Drive, poi il report deve essere di ottima qualità, quindi ben descritto e compilato, e infine è previsto un bonus fino a 5.000 dollari per ricerche particolarmente innovative e originali. In generale è lecito mantenere delle aspettative un po’ più basse, e tenere i 20.000 dollari come obiettivo standard. Le ricompense calano molto quando i bug sono riscontrati su servizi e prodotti AI che Google considera più marginali, come NotebookLM.
Google chiarisce anche in modo un po’ più preciso cosa costituisce un vero AI Bug. Non basta trovare un prompt in grado di causare allucinazioni sistematiche del modello, ci vuole qualcosa che causi azioni a tutti gli effetti dannose e negative per l’utente, come per esempio quei casi di “prompt injection” in cui è possibile inviare ordini all’AI all’insaputa dell’utente. Un esempio particolarmente banale è quello di nasconderli in un documento di testo, per esempio formattando il testo con lo stesso colore dello sfondo, o nella descrizione di un evento di Google Calendar. In genere i modelli sono addestrati per riconoscere questo tipo di attacco, ma i sistemi non sono infallibili.
Non è la prima volta che Google ricompensa i ricercatori che trovano falle di sicurezza nei suoi agenti AI - in effetti sono già passati due anni dall’apertura dell’iniziativa, nel corso dei quali Google ha già versato circa 430.000 dollari. Ma adesso il programma è più strutturato, delineato e organizzato.