Google DeepMind ha svelato il suo ultimo progresso nel campo dell'intelligenza artificiale generativa: Genie 3. A soli sette mesi dal suo predecessore, questo nuovo "modello di mondo fondazionale" è capace di creare un ambiente interattivo partendo da un semplice testo o un'immagine.
L'aspetto più interessante è che il mondo non è statico, ma viene generato continuamente, fotogramma per fotogramma, permettendo all'utente di navigarlo e modificarlo in tempo reale. Utilizzando una tastiera, è possibile esplorare queste simulazioni con una risoluzione di 720p a 24 frame al secondo, un traguardo che rende l'esperienza fluida e visivamente appagante.
Il vero salto di qualità di Genie 3 rispetto alla versione precedente, tuttavia, risiede nella sua memoria. Uno dei limiti più evidenti di Genie 2 era la sua incapacità di ricordare elementi della scena una volta che uscivano dall'inquadratura per più di una decina di secondi. Genie 3, invece, spinge molto più in là questo orizzonte, mantenendo una coerenza visiva per diversi minuti. Questo significa che se ci si allontana da un oggetto e poi si torna indietro, l'AI ricorderà il suo aspetto e la sua posizione, un passo fondamentale per creare simulazioni più credibili e persistenti.
Sebbene la possibilità di generare mondi virtuali al volo stuzzichi la fantasia del settore videoludico, DeepMind inquadra Genie 3 principalmente come uno strumento di ricerca. I giochi e le simulazioni sono da sempre un campo di prova cruciale per lo sviluppo dell'AI, come dimostrano i precedenti esperimenti con giochi complessi come Go e StarCraft.
Questi "modelli di mondo" rappresentano il livello successivo: ambienti virtualmente infiniti in cui addestrare altri modelli di AI, i cosiddetti "agenti incarnati" (embodied agents). In un'epoca in cui i dati di addestramento di alta qualità scarseggiano, la capacità di generare dati sintetici interattivi e su larga scala potrebbe accelerare significativamente i progressi verso un'intelligenza artificiale generale.
Naturalmente, la tecnologia non è ancora perfetta. Genie 3 non è in grado di ricreare luoghi del mondo reale e, come molte AI generative, è soggetto ad "allucinazioni". A volte produce elementi video scorretti, come persone che sembrano camminare all'indietro o testo che risulta un ammasso confuso di caratteri. Inoltre, l'interazione degli agenti AI all'interno di questi mondi è ancora limitata al semplice movimento; manca loro la capacità di ragionamento per alterare l'ambiente in modo autonomo. Considerato l'enorme costo computazionale che si cela dietro la generazione di un video interattivo in tempo reale, per ora Genie 3 rimane uno strumento a disposizione di un gruppo selezionato di ricercatori, un assaggio affascinante ma ancora lontano dall'uso su vasta scala.