Samsung TRUEBench, il benchmark per valutare la produttività reale dei modelli AI

https://www.hdblog.it/samsung/articoli/n632753/samsung-truebench-benchmark-produttivita-reale/

HDblog.it Sep 25, 2025 · 2 mins read
Samsung TRUEBench, il benchmark per valutare la produttività reale dei modelli AI
Share this

Samsung Electronics ha annunciato il lancio di TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark), un benchmark proprietario ideato da Samsung Research per misurare la produttività dei modelli linguistici di grandi dimensioni (LLM) in scenari di utilizzo concreto. L'obiettivo è fornire uno strumento capace di valutare l'efficacia delle AI in contesti lavorativi reali, andando oltre i limiti degli attuali benchmark che, secondo l'azienda, risultano troppo centrati sull'inglese, basati su domande e risposte a turno singolo e poco rappresentativi delle dinamiche aziendali quotidiane.

STRUTTURA E METODOLOGIA DEL TEST

TRUEBench si articola in 2.485 set di test suddivisi in 10 categorie e 46 sotto-categorie, disponibili in 12 lingue e con supporto a scenari multilingue. Le prove spaziano da richieste semplici, composte da appena otto caratteri, a testi più complessi e articolati fino a oltre 20.000 caratteri, includendo attività come generazione di contenuti, analisi di dati, traduzioni e sintesi di documenti di grandi dimensioni.

Per garantire una valutazione coerente e affidabile, il benchmark combina l'intervento umano con quello dell'AI: i criteri vengono prima elaborati da annotatori umani, successivamente controllati dal modello per individuare errori o contraddizioni, quindi perfezionati nuovamente da revisori umani. Questa procedura iterativa consente di ottenere standard di valutazione più accurati e riduce il margine di soggettività. Inoltre, per superare ogni singolo test è necessario che il modello soddisfi tutte le condizioni previste, assicurando una misurazione più rigorosa delle prestazioni.

TRUEBench adotta anche un sistema di scoring automatico basato su criteri convalidati congiuntamente da esseri umani e AI. In questo modo vengono considerati non solo la correttezza delle risposte, ma anche aspetti legati alle esigenze implicite degli utenti, rispecchiando più fedelmente le reali dinamiche di un ambiente di lavoro.

DISPONIBILITÀ E OBIETTIVI

I dati di TRUEBench, inclusi i campioni di test e le classifiche, sono pubblicati sulla piattaforma open-source Hugging Face, dove è possibile confrontare fino a cinque modelli contemporaneamente. Oltre alle prestazioni, vengono riportati anche dati relativi alla lunghezza media delle risposte, così da fornire una visione d'insieme che tiene conto sia dell'efficienza che della qualità. Tutti i dettagli sono disponibili sulla pagina dedicata di Hugging Face.

“Samsung Research porta con sé una profonda esperienza e un vantaggio competitivo derivante dall'uso reale dell'AI”, ha dichiarato Paul (Kyungwhoon) Cheun, CTO della DX Division di Samsung Electronics e responsabile di Samsung Research. “Ci aspettiamo che TRUEBench stabilisca nuovi standard di valutazione per la produttività e rafforzi la leadership tecnologica di Samsung”.