I ricercatori raccontano di aver chiesto ad un chatbot molto popolare informazioni apparentemente oggettive, come il titolo della tesi di dottorato dello stesso autore dello studio, Adam Tauman Kalai, ottenendo tre risposte diverse, tutte errate. Situazione simile chiedendo la data di nascita, dove il modello ha fornito tre date sbagliate con la stessa sicurezza. Ma come può una AI risultare così sicura, pur fornendo dati errati?
Secondo OpenAI, la radice del problema risiede nel processo di addestramento, perché i modelli apprendono prevedendo la parola successiva all'interno di testi esistenti, senza che sia esplicitamente valutata la veridicità delle informazioni. In altre parole, la macchina assimila frasi fluenti, ma semplicemente non distingue tra vero e falso, in special modo quando si tratta di fatti rari o poco comuni che non seguono pattern riconoscibili. Questo spiega perché gli errori ortografici o sintattici si riducono con l’evoluzione del modello, ma i dati specifici e poco diffusi continuano a generare allucinazioni.
Il punto nevralgico dello studio, però, riguarda un altro aspetto, quello del sistema di valutazione attuale dei grandi modelli linguistici. OpenAI spiega che i modelli vengono incentivati a tirare a indovinare, esattamente come chi compila una prova a crocette, dove lasciare in bianco garantisce zero punti, ma rispondere a caso può portare fortuna, cosa che spinge i sistemi a preferire risposte fiduciose - anche se errate - piuttosto che ammettere i propri limiti.