Apple sfida i giganti dell’AI con un modello di analisi video molto promettente

https://www.hdblog.it/apple/articoli/n629206/apple-ai-algoritmo-analisi-video-record-benchmark/

HDblog.it Aug 24, 2025 · 2 mins read
Apple sfida i giganti dell’AI con un modello di analisi video molto promettente
Share this

Apple ha presentato una nuova famiglia di modelli AI open source, SlowFast-LLaVA-1.5, che promette di rivoluzionare l’analisi dei video lunghi. L’idea di fondo: invece di affidarsi a sistemi giganteschi e costosi, Cupertino ha puntato su un approccio più efficiente e “furbo”, capace di fare meglio con meno.

Ma perché è importante? Semplificando molto, i modelli di intelligenza artificiale che si occupano di analizzare e capire i video funzionano generalmente in modo piuttosto lineare: scompongono un filmato in fotogrammi, analizzano ciò che succede in ciascuno e poi mettono insieme tutti i dati, in modo tale da descrivere la scena o rispondere a domande su di essa. Il problema è che, se presi in sequenza, i fotogrammi di un video sono praticamente tutti uguali: analizzarli tutti rappresenta un gigantesco spreco di tempo e risorse hardware - con la pressoché assoluta garanzia di saturare la “context window”, essenzialmente la memoria del modello.

Ci sono sistemi più evoluti ed efficienti per svolgere questi compiti, ma quello di Apple è particolarmente innovativo e funziona, almeno in determinati contesti. Come lascia intendere il nome, il modello è costituito da due flussi di analisi complementari: uno “lento”, che elabora pochi fotogrammi ma in modo molto approfondito, per capire bene cosa c’è e cosa succede nella scena; e uno “veloce”, che osserva molti frame ma in modo più superficiale, così da comprendere come evolve la scena nel tempo. Questo mix permette al modello di essere efficiente senza perdere i dettagli.

I risultati sono molto promettenti. SlowFast-LLaVA-1.5, disponibile in varianti da 1, 3 e 7 miliardi di parametri, ha superato modelli molto più grandi nei test standard di comprensione video, come LongVideoBench e MLVU. Persino la versione più compatta (quella da 1 miliardo di parametri, appunto) ha stabilito nuovi record. Non solo: il modello funziona bene anche su immagini statiche, dimostrando di essere un sistema versatile, utile anche per OCR, ragionamento logico e scenari complessi ricchi di testo.

Ci sono però dei limiti molto significativi. Per scelta dei ricercatori stessi, il modello può elaborare al massimo 128 fotogrammi per ogni video, selezionati a intervalli regolari. 32 di questi vengono analizzati dall’algoritmo “Slow”, gli altri 96 da quello “Fast”. Per contesto, ricordiamo che al giorno d’oggi la maggior parte dei flussi video che vediamo su internet o in TV si aggira tra i 24 e i 120 fotogrammi al secondo: questo significa che l’algoritmo non analizza mai più di qualche secondo. È evidente che in un video lungo qualche minuto rischia di perdersi moltissimi momenti chiave.

Ciononostante, il valore dell’esperimento è concreto e innegabile. Apple ha ottenuto uno stato dell’arte - e l'ha fatto peraltro usando solo dataset pubblici, evitando approcci un po’ più questionabili e poco trasparenti che usano diverse grandi realtà del settore AI. E ora il modello è disponibile su GitHub e Hugging Face, pronto per essere testato da sviluppatori e ricercatori.