Google potenzia Gemini 2.5 con nuove funzionalità e ragionamento avanzato

https://www.hdblog.it/google/articoli/n619128/google-potenzia-gemini-ragionamento-avanzato/

HDblog.it May 21, 2025 · 5 mins read
Google potenzia Gemini 2.5 con nuove funzionalità e ragionamento avanzato
Share this

Nel corso del keynote di apertura del Google I/O 2025, la conferenza annuale dedicata agli sviluppatori, l'azienda di Mountain View ha annunciato una nuova serie di aggiornamenti per la famiglia di modelli Gemini 2.5, rafforzando ulteriormente la propria offerta AI sia sul fronte tecnico che esperienziale. L'obiettivo dichiarato è quello di realizzare un "assistente AI universale", capace di comprendere il contesto, pianificare e agire.

"Questo è il nostro obiettivo finale per l'app Gemini: un'AI personale, proattiva e potente", ha dichiarato Demis Hassabis, CEO di Google DeepMind.

Presentati in anteprima e illustrati anche sul blog ufficiale, i miglioramenti interessano tanto Gemini 2.5 Pro quanto il più leggero 2.5 Flash, con novità in termini di performance, usabilità, sicurezza e interazione multimodale.

GEMINI 2.5 Pro: IL MODELLO PIU' EVOLUTO

Gemini 2.5 Pro, il modello più evoluto annunciato finora da Google, si distingue per una finestra contestuale da un milione di token, che gli consente di affrontare compiti su contesti lunghi e video in modo avanzato. È attualmente primo nella classifica WebDev Arena con un punteggio ELO di 1420 e domina tutte le categorie della LMArena, che valuta i modelli in base alle preferenze umane.

Dall'integrazione con la famiglia LearnLM, sviluppata con esperti nel campo dell'educazione, 2.5 Pro è diventato anche il modello di riferimento nell'ambito dell'apprendimento. Educatori e specialisti ne hanno apprezzato le prestazioni pedagogiche in scenari reali, riconoscendogli la leadership nei cinque principi della scienza dell'apprendimento.

"Abbiamo visto utenti creare di tutto, da schizzi trasformati in app interattive a simulazioni di intere città", ha raccontato Hassabis, sottolineando l'entusiasmo della community di sviluppatori.

DEEP THINK: RAGIONAMENTO AVANZATO CON IPOTESI MULTIPLE

Google ha annunciato anche di aver iniziato i test su Deep Think, una modalità sperimentale di ragionamento avanzato progettata per Gemini 2.5 Pro. Utilizzando le più recenti tecniche di ricerca sviluppate da DeepMind, il modello è in grado di considerare ipotesi multiple prima di rispondere

Tra i benchmark affrontati, Deep Think ha ottenuto punteggi notevoli rispondendo a domande tratte direttamente dall'edizione 2025 della United States of America Mathematical Olympiad (USAMO). Ha inoltre eccelso nel benchmark LiveCodeBench, dedicato alla programmazione competitiva, e ha raggiunto l'84,0% su MMMU, test per il ragionamento multimodale. È stato inoltre valutato positivamente su Humanity's Last Exam, un benchmark che unisce conoscenza generale e capacità inferenziale.

Hassabis ha sottolineato come l'esperienza di AlphaGo abbia dimostrato che i modelli migliorano quando hanno più tempo per ragionare, e proprio da questa osservazione è nata l'idea di Deep Think. Attualmente, la funzione è disponibile solo per un gruppo selezionato di tester tramite l'API Gemini, mentre Google prosegue con valutazioni di sicurezza di frontiera prima di renderla pubblicamente disponibile.

GEMINI 2.5 FLASH: PIÙ EFFICIENTE E VELOCE

Gemini 2.5 Flash, il modello progettato per velocità e ottimizzazione dei costi, ha ricevuto un importante aggiornamento. È ora più efficiente, utilizza il 20-30% di token in meno e ha migliorato le prestazioni nei benchmark per ragionamento, multimodalità, programmazione e contesti lunghi. Flash è attualmente secondo solo a Pro nella classifica LMArena.

È disponibile in anteprima attraverso tre canali: Google AI Studio per gli sviluppatori, Vertex AI per le aziende e l'app Gemini per il pubblico generale. Il rilascio generale è previsto per l'inizio di giugno.

DIALOGO AUDIO NATURALE E SINTESI VOCALE ESPRESSIVA

Una delle novità principali riguarda l'introduzione dell'output audio nativo, disponibile in anteprima nell'API Live. Il modello può ora rispondere vocalmente in modo più naturale, con il supporto per tono, accento e stile narrativo personalizzabile: è possibile ad esempio chiedere una voce "melodrammatica" per raccontare una storia.

Sono in fase di test ulteriori funzionalità vocali avanzate:

  • Dialogo empatico, con rilevamento dell'emozione nella voce dell'utente;
  • Audio proattivo, capace di ignorare conversazioni di fondo e intervenire al momento giusto;
  • Ragionamento in tempo reale all'interno dell'API Live, per compiti vocali complessi.

Google ha inoltre rilasciato anteprime della nuova sintesi vocale per 2.5 Pro e 2.5 Flash, con supporto a due voci e oltre 24 lingue. I modelli possono passare da una lingua all'altra con fluidità e gestire anche sfumature vocali come i sussurri. "Il parlato è espressivo e capace di cogliere sfumature sottili", hanno spiegato Koray Kavukcuoglu e Tulsee Doshi di Google DeepMind.

STRUMENTI ESTERNI E SICUREZZA AVANZATA

Google sta estendendo le capacità di Project Mariner all'API Gemini e a Vertex AI. Si tratta di agenti AI in grado di navigare autonomamente pagine web per completare attività per conto dell'utente, come cercare informazioni o eseguire azioni online. Queste funzionalità, già in uso da aziende partner, verranno rese disponibili agli sviluppatori nel corso dell'estate.

Dal lato della sicurezza, Google ha implementato nuove protezioni contro le prompt injection indirette, ovvero comandi nascosti nei dati elaborati dal modello. L'efficacia delle nuove contromisure ha permesso di migliorare sensibilmente la resilienza di Gemini 2.5, rendendolo il modello più sicuro finora realizzato dalla società.

SUPPORTO AVANZATO PER SVILUPPATORI

Per migliorare ulteriormente l'esperienza degli sviluppatori, Gemini 2.5 Pro e Flash integrano ora riassunti del ragionamento nell'API Gemini e in Vertex AI. Questi estratti organizzano il flusso logico del modello in un formato strutturato, con intestazioni, dettagli chiave e spiegazioni delle azioni compiute (come l'attivazione di strumenti).

Inoltre, Google ha esteso anche a 2.5 Pro il sistema dei "budget di ragionamento", già introdotto in Flash. Gli sviluppatori possono così regolare la quantità di token dedicati alla riflessione, bilanciando costi, accuratezza e latenza delle risposte. La funzione sarà disponibile in produzione nelle prossime settimane.

Infine, è stato aggiunto il supporto SDK per le definizioni del Model Context Protocol (MCP) nell'API Gemini, per facilitare l'integrazione con strumenti open source e semplificare lo sviluppo di applicazioni agentiche. Google sta anche valutando la distribuzione di server MCP e tool ospitati per supportare questo ecosistema.

UNO SGUARDO AL FUTURO

"Stiamo vivendo un momento storico straordinario in cui l'AI rende possibile un futuro straordinario", ha dichiarato Hassabis. L'impegno di Google è quello di proseguire con ricerca d'avanguardia, sicurezza responsabile e ascolto della comunità di sviluppatori. Altri aggiornamenti sono attesi nei prossimi mesi, a conferma del ritmo sostenuto di innovazione che caratterizza la roadmap di Gemini.