Gli esperti di sicurezza del gruppo Unit 42 di Palo Alto Networks hanno scoperto un modo sorprendentemente semplice per "cogliere in fallo" ChatGPT e co. In pratica, per portare i chatbot oltre i loro "limiti morali", basterebbe inserire come prompt una frase lunghissima, con grammatica approssimativa, che non includa punti fermi. Pare infatti che i chatbot si lascino confondere e trascinare dai flussi di parole ininterrotti, perché è alla fine delle frasi che di solito si attivano i filtri di sicurezza. Nessun punto = nessun controllo attivato.
È come se un'unica frase lunghissima, senza respiri, desse poco spazio al modello per "riflettere" (di fatto i controlli non vengono innescati). "Naturalmente" il chatbot prosegue nella direzione voluta dall'utente, senza "impuntarsi", tanto più che i modelli sono addestrati per proseguire un testo in base alla probabilità statistica delle parole, non a una vera comprensione o a giudizi morali.
C'è anche da considerare che le protezioni sono solo un filtro aggiunto a posteriori, rispetto all'addestramento principale: la conoscenza pericolosa non viene tolta, ma solo resa meno probabile da sfruttare.
Insomma, le intelligenze artificiali si orientano sintatticamente in base a cosa viene prima. Non considerano frasi intere, bensì scelgono un token alla volta, in base a quanto è probabile che segua quello che c'è già scritto. "Sintatticamente" vuol dire che segue lo stile e la struttura del testo (grammatica, ritmo, frequenza delle parole). E in base a questo contesto, decide: "il prossimo pezzetto più probabile è…".
Il modello si sente "incalzato", costretto a completare la frase in base a un percorso già definito dall'utente, e nell'80-100% dei casi, fornisce la risposta vietata.
La sfida è trovare un nuovo modo per impedire usi impropri, e alcuni ipotizzano che il più efficace sia privare del tutto i chatbot di conoscenze dannose.