Cloudflare aggiorna robots.txt: più controllo sull'uso dei contenuti da parte delle AI

Il file robots.txt è da decenni uno degli strumenti basilari di internet. Inserito in ogni sito, indica ai motori di ricerca e ai bot quali pagine possono essere indicizzate e quali no, agendo come una sorta di cartello digitale “vietato l’ingresso”. Per molto tempo l’equilibrio ha funzionato: Google, Bing e gli altri grandi motori hanno rispettato queste regole e i proprietari dei siti ne hanno tratto beneficio. Con l’avvento dell’AI, però, lo scenario è radicalmente cambiato.

Oggi i bot non si limitano più a catalogare i contenuti, ma li copiano per addestrare chatbot o generare risposte dirette. Molte aziende di AI ignorano completamente robots.txt, arrivando persino a mascherare i propri crawler per aggirare i divieti.

È in questo contesto che Cloudflare, società che protegge circa il 20% del traffico mondiale online, ha introdotto la Content Signals Policy, un’estensione del tradizionale robots.txt pensata per consentire agli editori di specificare se e come i loro contenuti possano essere utilizzati dai sistemi di intelligenza artificiale.

LE NUOVE REGOLE

La nuova policy non si limita più a stabilire quali pagine siano accessibili ai bot, ma aggiunge istruzioni su come i contenuti possano essere usati una volta raggiunti. Gli editori hanno a disposizione tre “segnali”:

search: consente l’uso dei contenuti per l’indicizzazione e la comparsa nei risultati di ricerca con link o snippet.
ai-input: riguarda l’impiego diretto nelle risposte generate da chatbot e assistenti.
ai-train: determina se i contenuti possano essere utilizzati per addestrare o perfezionare modelli di intelligenza artificiale.

I segnali funzionano con valori binari, sì o no. Un sito, ad esempio, può decidere di apparire nei risultati di ricerca ma di vietare l’utilizzo dei propri materiali per l’addestramento AI. Cloudflare ha già reso disponibile questa funzione su oltre 3,8 milioni di domini. Le impostazioni predefinite prevedono search su “yes”, ai-train su “no” e ai-input neutrale, in attesa di una scelta esplicita da parte del gestore del sito.

CRESCITA DEL TRAFFICO BOT E FREE-RIDER PROBLEM

Nel presentare la policy, Cloudflare ha evidenziato il contesto che ha portato alla sua introduzione. L’azienda stima che il traffico generato dai bot supererà quello umano entro il 2029 e che nel 2031 i soli bot produrranno più traffico dell’intero internet attuale. Una prospettiva che mette sotto pressione i creatori di contenuti, già oggi costretti a sostenere costi elevati per servire data scrapers, ossia i programmi automatizzati che visitano siti web e copiano in modo sistematico i contenuti presenti, che non garantiscono alcuna forma di ritorno.

Si tratta del cosiddetto “free-rider problem”, in cui gli operatori dei siti sostengono gli oneri senza ricevere compensazioni né benefici significativi in termini di visibilità o referral traffic. In passato, anche senza guadagni diretti, il sistema dei link e delle citazioni assicurava almeno attribuzione e scoperta di nuovi contenuti. Oggi, invece, parte del materiale raccolto viene riutilizzato per alimentare piattaforme di AI che competono economicamente con gli stessi creatori.

ENFORCEMENT, ASPETTI LEGALI E GOOGLE

Un altro punto cruciale è quello dell'enforcement. Molti bot continueranno a ignorare i nuovi segnali, rendendo necessario un rafforzamento delle misure di difesa. Cloudflare stessa consiglia di affiancare ai content signals strumenti come firewall applicativi web, capaci di filtrare e monitorare il traffico, e sistemi di gestione dei bot basati su machine learning, in grado di distinguere gli utenti reali dal traffico automatizzato malevolo.

La policy ha però anche una valenza giuridica. Cloudflare specifica che i content signals costituiscono un'espressa riserva di diritti ai sensi dell'articolo 4 della Direttiva UE 2019/790 sul copyright nel mercato digitale. Un dettaglio che potrebbe rafforzare la posizione legale dei publisher in eventuali contenziosi contro le aziende di AI.

Resta aperta la questione di Google. L'azienda utilizza lo stesso Googlebot sia per l'indicizzazione della ricerca sia per le funzionalità AI Overviews, costringendo i publisher a una scelta difficile: permettere a Google di usare i contenuti anche per l'AI oppure rinunciare alla visibilità nei risultati di ricerca. Una condizione che penalizza soprattutto i piccoli editori, dipendenti dal traffico di Google per raggiungere i lettori.

VERSO UN NUOVO STANDARD DEL WEB

Cloudflare sottolinea che i content signals non sono una misura tecnica anti-scraping, ma un modo per esprimere in modo standardizzato le proprie preferenze. Per incoraggiarne l'adozione globale, la policy è stata rilasciata sotto licenza CC0, quindi chiunque può implementarla liberamente, anche senza essere cliente Cloudflare.

Oltre a questa iniziativa, la società sta sperimentando un sistema di “pay-per-crawl”, che consentirebbe ai proprietari di domini di far pagare ai bot di AI l'accesso ai contenuti. In assenza di pagamento, i crawler riceverebbero un codice di errore "402 Payment Required".

Il successo della Content Signals Policy dipenderà però da un fattore decisivo: la volontà dei grandi player del web di rispettarla. Se accolta, potrebbe nascere un nuovo standard capace di riequilibrare il rapporto tra creatori e intelligenza artificiale. In caso contrario, il futuro potrebbe vedere un aumento di blocchi drastici e un'ondata di azioni legali, mentre la tensione sul ruolo dei contenuti nell'era dell'AI continuerà a crescere.