Il progetto si fonda su un patrimonio imponente basato su quasi 120 milioni di voci già presenti su Wikipedia e nei database collegati. Grazie all’integrazione con il Model Context Protocol, uno standard che facilita la comunicazione tra sistemi AI e fonti di dati, le informazioni diventano più facilmente accessibili tramite domande formulate in linguaggio naturale, senza quindi dover conoscere query specifiche.
A guidare l’iniziativa è stata la sezione tedesca di Wikimedia, in collaborazione con Jina.AI, azienda specializzata in ricerca neurale, e DataStax, società di dati in tempo reale controllata da IBM. Non è la prima volta che Wikidata offre contenuti leggibili dalle macchine: in passato esistevano già strumenti di ricerca, ma erano limitati a ricerche per parola chiave o a query SPARQL, poco intuitive per chi non avesse competenze tecniche.
Il nuovo sistema, invece, è pensato per dialogare con le moderne architetture di retrieval-augmented generation, sempre più diffuse nello sviluppo di modelli linguistici. Questi strumenti consentono alle AI di attingere a fonti esterne durante la generazione di risposte, cosa che garantisce maggiore accuratezza e affidabilità. In altre parole, gli sviluppatori avranno a disposizione un archivio organizzato e verificato dalla comunità di Wikipedia, in grado di integrare conoscenze precise e contestualizzate.
Ad esempio, cercando la parola “scienziato”, il sistema non restituirà solo un elenco di biografie, ma includerà anche sottocategorie come i fisici nucleari o i ricercatori di Bell Labs, immagini autorizzate da Wikimedia, traduzioni in più lingue e concetti affini come “ricercatore” o “studioso”. Il database è disponibile pubblicamente su Toolforge, e il 9 ottobre Wikimedia organizzerà un webinar dedicato agli sviluppatori interessati.
L’iniziativa emerge in un momento in cui le aziende di AI sono alla ricerca disperata di dati di qualità. Non a caso, come ha sottolineato Philippe Saadé, project manager di Wikidata, il valore di questa novità non è solo tecnico, ma anche politico in un certo senso: