Anthropic ha speso milioni di dollari per acquistare migliaia di libri da dare letteralmente in pasto all'AI Claude. È successo davvero, è tutto nero su bianco all'interno di alcuni documenti ufficiali della corte USA del Northern District of California. E purtroppo non c'è nulla di anomalo o che il tribunale a stelle e strisce abbia potuto fare per rendere "giustizia" ai poveri libri: la corte ha stabilito infatti che la pratica rientra nel "fair use" dal momento che i libri (anche se non inizialmente) erano stati regolarmente acquistati e sono stati usati per un processo "trasformativo".
Spiegare perché è avvenuto è piuttosto semplice e anche intuitivo. L'AI, non lo scopriamo certo adesso, ha fame di informazioni. Va addestrata, e più è alta la qualità del materiale di partenza, migliori saranno le capacità finali del modello. In altri termini, i libri sono stati distrutti perché "colpevoli" di essere ben scritti, dunque di essere un'ottima base per ottenere modelli linguistici ad alte prestazioni.
Sfogliando la sentenza si apprende che nel febbraio 2024 Anthropic ha assunto Tom Turvey, ex responsabile del progetto Google Libri, affidandogli l'incarico di ottenere "tutti i libri del mondo". L'intenzione era quella di replicare quanto il dirigente aveva già fatto in Google negli anni passati, dal momento che il modus operandi adottato a Mountain View per la digitalizzazione dei libri era stato giudicato inappuntabile (sul piano legale) da un tribunale e aveva di fatto creato un precedente.
Precedente che è stato replicato per allenare Claude. Così sono state acquistate tonnellate di libri, le pagine rimosse dalla rilegatura e scansionate (fisicamente) una per una per creare i file digitali necessari ad addestrare il modello AI. Ovviamente alla fine i fogli sono stati gettati via, quindi i libri, di fatto, sono stati distrutti. Si poteva usare un approccio differente, più rispettoso della natura della fonte? Sì, esistono dei metodi non distruttivi per ottenere lo stesso risultato ma sarebbero stati meno rapidi e più costosi, e Anthropic ha fatto delle valutazioni differenti.
Il giudice Alsup che si è occupato del caso ha stabilito che l'operazione era da ritenersi "fair use", ma solo perché Anthropic aveva acquistato legalmente i libri, distrutto ogni copia cartacea dopo la scansione e tenuto per sé i file digitali senza distribuirli.