DeepSeek di nuovo sotto accusa: "modello addestrato con i dati di Gemini"

La versione aggiornata dell’AI R1, denominata R1-0528, si è distinta per le sue ottime performance nei benchmark di matematica e programmazione, ma è proprio questa efficienza a destare sospetti: secondo alcuni ricercatori, potrebbe essere frutto di addestramento su dati generati da modelli concorrenti, in particolare dalla famiglia Gemini di Google.

Il sospetto è emerso dopo che Sam Paech, sviluppatore australiano noto per i suoi test sull’intelligenza emotiva nelle AI, ha pubblicato su X un’analisi che indicherebbe forti somiglianze tra il linguaggio usato da R1-0528 e quello del modello Gemini 2.5 Pro. Anche se le affinità non costituiscono una prova definitiva, un altro sviluppatore, noto per il progetto “SpeechMap” sull’analisi delle tracce cognitive dei modelli, ha segnalato che le “catene di pensiero” del nuovo DeepSeek sembrano imitate da quelle di Gemini.

Non è la prima volta che DeepSeek finisce sotto la lente. Già a dicembre, il suo modello V3 aveva insospettito diversi ricercatori dopo che in più occasioni si era identificato come ChatGPT, suggerendo un possibile addestramento su conversazioni estratte dal sistema di OpenAI.

Secondo Nathan Lambert, ricercatore di AI2, la strategia di DeepSeek è un atto quasi dovuto: “Se fossi in loro, userei un’enorme quantità di dati sintetici generati dai migliori modelli disponibili. Hanno soldi ma poche GPU, così ottimizzano la potenza di calcolo.”

Gli Stati Uniti hanno ristretto l'esportazione di chip avanzati, inclusi l'H20 di NVIDIA, verso la Cina, limitando le capacità delle aziende locali. Utilizzare dati sintetici provenienti da modelli rivali consente, almeno in parte, di aggirare i limiti hardware, consentendo di ottenere ottimi risultati nonostante i mezzi limitati.

Questo è possibile attraverso la cosiddetta distillazione, una tecnica in cui un modello grande e complesso insegna a un modello più piccolo a imitare le sue previsioni. L’obiettivo è ottenere un modello leggero che mantenga prestazioni simili a quello originale.

La distillazione in sé non è nuova, ma viola i termini di servizio di OpenAI se applicata ai suoi modelli per creare prodotti rivali. Inoltre, la crescente diffusione di contenuti sintetici sul web (alimentata da bot, content farm e clickbait generati da AI) rende difficile per le aziende distinguere dati “originali” da quelli già elaborati da altri modelli, aumentando il rischio di contaminazione dei dataset.