Figurati se questo impedirà di usare i nostri dati. Non sono nessuno ma ho mille modi per fregare i dati dei miei clienti se volessi, non se ne accorgerebbe nessuno, senza lasciare traccia nei log. Copia/incolla e ciaone. La privacy e i dati sono alla mercè di chiunque abbia accesso ai sistemi. Se diamo i nostri dati ai social, li useranno, punto.
bigggggggggggggComunque io ci lavoro con questi modelli e sinceramente ancora non ho capito cosa ci dovrebbero fare con questi dati degli utenti, forse è un'opposizione semmai un giorno, eventualmente, qualcuno volesse farlo.
Gli LLM, per renderli più potenti, vengono addestrati su dati di sempre maggiore qualità, quindi testi ben scritti (nel senso di grammaticalmente corretti) e che contengano informazioni nuove, e corrette, oppure, altro esempio, vengono addestrati in modo da risolvere sfide di programmazione.
Non mi è mai capitato di vedere qualche dataset che contenesse posti di instagram o roba così, anche perchè fondamentalmente il testo di bassa qualità, ripetitivo o scorretto peggiora le performance di un modello.
Il massimo che ho visto sono le risposte da alcuni forum molto tecnici di reddit o stackoverflow (quindi comunque roba molto selezionata).
I post su facebook semplicemente sono inutili, anzi dannosi, per allenare un LLM.