Nuovo metodo di “hacking benevolo” rende i modelli AI più sicuri

https://www.hdblog.it/tecnologia/articoli/n630960/hacking-benevolo-ai-sicurezza/

HDblog.it Sep 09, 2025 · 2 mins read
Nuovo metodo di “hacking benevolo” rende i modelli AI più sicuri
Share this

Un nuovo studio dell’Università della California, Riverside, propone un approccio originale per rendere i modelli di intelligenza artificiale più sicuri anche quando vengono ridotti per funzionare su dispositivi meno potenti, ad esempio i nostri smartphone. La tecnica, definita “benevolent hacking”, si concentra sulla ristrutturazione interna delle reti neurali in modo che mantengano i meccanismi di protezione, anche quando parti della loro architettura vengono eliminate per motivi di efficienza.

Con la diffusione dell’AI oltre i data center e le grandi infrastrutture cloud, sempre più sistemi vengono adattati per smartphone, auto o elettrodomestici. Per risparmiare energia e memoria, molte versioni ridotte perdono però proprio i livelli di controllo che impediscono la produzione di contenuti pericolosi, come istruzioni per costruire armi o messaggi di incitamento all’odio. Il problema è ancora più evidente con i modelli open source, che possono essere scaricati, modificati e usati senza supervisione, rendendo più semplice anche l’eventuale manipolazione da parte di utenti malintenzionati.

Il gruppo guidato dal professor Amit Roy-Chowdhury ha dimostrato che le semplificazioni strutturali compromettono spesso i filtri di sicurezza. Nelle prove condotte su LLaVA 1.5, un modello multimodale capace di interpretare testi e immagini, bastava associare una foto innocua a una domanda pericolosa perché il sistema fornisse risposte rischiose, arrivando persino a descrivere procedure per fabbricare ordigni.

Per affrontare questa vulnerabilità, i ricercatori non hanno aggiunto barriere esterne, come software di controllo supplementari, ma hanno ripensato l’architettura dall’interno. Dopo una fase di riaddestramento mirata, il modello ha imparato a riconoscere e rifiutare le richieste dannose in modo nativo, senza perdere velocità o adattabilità, nemmeno in versione ridotta. Questo significa che anche i dispositivi con risorse limitate possono ospitare AI capaci di gestire in sicurezza i prompt degli utenti.

Gli studenti coinvolti, Saketh Bachu ed Erfan Shayegani, stanno già lavorando per rafforzare ulteriormente la tecnica, cercando di integrare meccanismi di protezione in ogni livello della rete neurale. L’obiettivo è costruire modelli più resistenti e affidabili, pronti per applicazioni quotidiane senza dover sacrificare la tutela contro usi impropri.

Roy-Chowdhury ha sottolineato come il progetto sia ancora agli inizi, ma rappresenti un passo concreto verso un equilibrio tra apertura e responsabilità. Se da un lato i modelli open source favoriscono innovazione e accessibilità, dall’altro pongono rischi che non possono essere ignorati. Tecniche di “hacking benevolo” come questa potrebbero diventare strumenti chiave per garantire che l’AI resti un alleato e non un pericolo, anche quando si trova a operare fuori dai server delle grandi aziende.