Un nuovo studio pubblicato su Cognitive Science e guidato dalla professoressa Lisa Aziz-Zadeh, del USC Center for the Neuroscience of Embodied Cognition, affronta un quesito insolito ma decisamente importante: un modello linguistico come ChatGPT può davvero "vedere" i colori o comprenderne le sfumature metaforiche? I risultati mostrano come l'elaborazione basata solo sul linguaggio abbia limiti significativi rispetto all'esperienza umana.
LINGUAGGIO, ESPERIENZA E METAFORAChatGPT funziona analizzando enormi quantità di testo e producendo risposte secondo schemi statistici. Espressioni come "vedere nero" o "sentirsi rosso" fanno parte del suo addestramento, ma a differenza degli esseri umani il modello non ha mai percepito direttamente un cielo blu o una mela rossa.
"ChatGPT usa un’enorme quantità di dati linguistici per calcolare probabilità e produrre risposte che sembrano molto umane”, ha spiegato Aziz-Zadeh, autrice senior della pubblicazione. “Quello che ci interessa esplorare è se l’apprendimento statistico dei modelli linguistici sia sufficiente per elaborare il linguaggio, e come l’esperienza vissuta contribuisca a questo processo”.
Alla ricerca hanno partecipato studiosi di UC San Diego, Stanford, Université de Montréal, University of the West of England e Google DeepMind. Lo studio è stato sostenuto anche da un Google Faculty Gift, dalla Barbara and Gerson Bakar Faculty Fellowship e dalla Haas School of Business dell'Università di Berkeley, senza coinvolgimento diretto di Google nella raccolta e nell'analisi dei dati.
COLORI TRA UMANI E AII ricercatori hanno condotto sondaggi online con quattro gruppi: adulti vedenti, adulti daltonici, pittori che lavorano regolarmente con i colori, e ChatGPT. Tutti hanno associato colori a concetti astratti e interpretato metafore note ("allerta rossa") e nuove ("festa molto rosa").
I dati hanno mostrato che vedenti e daltonici fornivano risposte simili, mentre i pittori erano più efficaci con le metafore nuove, grazie all'esperienza diretta con i pigmenti. ChatGPT ha prodotto associazioni coerenti e spiegazioni basate su riferimenti culturali ed emotivi, come "Rosa è spesso associato a felicità, amore e gentilezza, il che suggerisce che la festa fosse piena di emozioni positive". Tuttavia il modello è risultato meno convincente nell'uso di riferimenti esperienziali e ha incontrato difficoltà con metafore insolite come "la riunione lo rese viola" o con l'inversione delle associazioni ("l'opposto del verde").
Secondo Aziz-Zadeh, lo studio dimostra che gli esseri umani non si affidano soltanto all'apprendimento statistico per interpretare il linguaggio, ma che l'esperienza corporea e diretta del mondo costituisce una componente essenziale del ragionamento. Toccare i colori, percepirli con la vista, o associarli a esperienze vissute permette di costruire significati più ricchi e sfumati di quanto non faccia un modello linguistico basato unicamente su testi.
Per questo, l'équipe di ricerca sottolinea come l'intelligenza artificiale, pur mostrando coerenza nelle associazioni e capacità di spiegazione, resti confinata a un livello simbolico e culturale. In prospettiva, l'integrazione di input sensoriali — visivi, tattili o legati ad altre forme di percezione — potrebbe rappresentare un passaggio decisivo per colmare parte del divario tra le capacità umane e quelle dei modelli linguistici, avvicinando le AI a una cognizione più vicina a quella reale.