OpenAI rivoluziona la voce: arriva il nuovo modello gpt-realtime

https://www.hdblog.it/tecnologia/articoli/n629824/openai-voce-nuovo-modello-gpt-realtime/

HDblog.it Aug 29, 2025 · 1 min read
OpenAI rivoluziona la voce: arriva il nuovo modello gpt-realtime
Share this

I passi in avanti nel campo dell'intelligenza artificiale si susseguono a un ritmo sempre più serrato, e l'ultima mossa di OpenAI ha un sapore particolare. Non stiamo parlando di un nuovo modello qualunque, ma di gpt-realtime, l'ultimo gioiello nel campo della sintesi vocale, che promette miglioramenti radicali nel modo con cui comunichiamo con l'AI, e soprattutto con un costo inferiore rispetto al passato.

L'annuncio di gpt-realtime arriva dopo il lancio, lo scorso anno, della Realtime API, che aveva già aperto la strada a migliaia di sviluppatori per creare esperienze vocali naturali all'interno delle loro app. A quanto pare il nuovo modello eleva le capacità di interazione a un nuovo livello, poiché tra le sue qualità più evidenti c’è una maggiore espressività e una naturalezza che rende la voce artificiale quasi indistinguibile da quella umana.

La capacità di comprendere e seguire istruzioni complesse è stata affinata, e gli errori nel richiamare i vari strumenti di cui si serve l'AI sono diminuiti. Questo progresso è supportato anche da un'interpretazione più precisa dei messaggi di sistema e delle istruzioni fornite dagli sviluppatori.

Per quanti sono appassionati di dati e di numeri, gpt-realtime ha segnato un balzo in avanti significativo nei principali test di riferimento. Sul Big Bench Audio, ad esempio, ha raggiunto un’accuratezza dell’82,8%, superando ampiamente il modello precedente che si fermava al 65,6%. Lo stesso trend si riscontra nel MultiChallenge audio benchmark, dove il punteggio è salito al 30,5% dal 20,6%, e nella valutazione ComplexFuncBench, passata dal 49,7% al 66,5%. Dati che non lasciano dubbi sulla superiorità del nuovo arrivato.

Oltre a tutte queste migliorie tecniche, OpenAI ha arricchito il suo ecosistema vocale con novità concrete. L'offerta di voci si è allargata con l'introduzione di "Marin" e "Cedar", che si aggiungono alle sei già esistenti, tutte aggiornate per suonare ancora più naturali e fluide. E per gli sviluppatori, l'API è stata potenziata con nuove funzionalità, come il supporto per server remoti MCP, la possibilità di utilizzare immagini come input e il supporto alle chiamate telefoniche tramite il protocollo SIP. Infine, una piccola grande comodità: ora è possibile salvare e riutilizzare i prompt per velocizzare il lavoro.