Un interprete sicuro traccia il flusso dei dati per bloccare azioni pericolose innescate da testi manipolati
In contesto: L’iniezione di prompt è un difetto intrinseco nei grandi modelli linguistici, che permette agli attaccanti di deviare il comportamento dell’IA inserendo comandi malevoli nel testo di input. La maggior parte delle difese si basa su barriere interne, ma gli attaccanti trovano regolarmente modi per aggirarle, rendendo le soluzioni esistenti temporanee nella migliore delle ipotesi. Ora, Google ritiene di aver trovato una soluzione definitiva.
Dal momento in cui i chatbot sono diventati di uso comune nel 2022, una vulnerabilità di sicurezza nota come iniezione di prompt ha afflitto gli sviluppatori di intelligenza artificiale. Il problema è semplice: i modelli linguistici come ChatGPT non riescono a distinguere tra istruzioni dell’utente e comandi nascosti all’interno del testo che elaborano. I modelli considerano tutto il testo inserito (o recuperato) come affidabile e lo trattano come tale, il che permette ai malintenzionati di inserire istruzioni malevole nella loro query. Questo problema è ancora più grave ora che le aziende stanno integrando queste IA nei nostri client di posta elettronica e altri software che potrebbero contenere informazioni sensibili.
DeepMind di Google ha sviluppato un approccio radicalmente diverso chiamato CaMeL (Capacità per l’Apprendimento Automatico). Invece di chiedere all’intelligenza artificiale di auto-regolarsi – cosa che si è dimostrata inaffidabile – CaMeL tratta i grandi modelli linguistici (LLM) come componenti non affidabili all’interno di un sistema sicuro. Crea confini rigorosi tra le richieste degli utenti, contenuti non affidabili come email o pagine web, e le azioni che un assistente IA è autorizzato a compiere.
CaMeL si basa su decenni di principi di sicurezza del software collaudati, inclusi il controllo degli accessi, il tracciamento del flusso dei dati e il principio del privilegio minimo. Invece di fare affidamento sull’IA per intercettare ogni istruzione malevola, limita ciò che il sistema può fare con le informazioni che elabora.
Ecco come funziona. CaMeL utilizza due modelli linguistici separati: uno “privilegiato” (P-LLM) che pianifica azioni come l’invio di email, e uno “in quarantena” (Q-LLM) che legge e analizza solo contenuti non affidabili. Il P-LLM non può vedere email o documenti grezzi – riceve solo dati strutturati, come “email = get_last_email().” Il Q-LLM, invece, non ha accesso a strumenti o memoria, quindi anche se un attaccante lo inganna, non può compiere nessuna azione.
Tutte le azioni utilizzano codice – specificamente una versione semplificata di Python – e vengono eseguite in un interprete sicuro. Questo interprete traccia l’origine di ogni pezzo di dati, monitorando se proviene da contenuti non affidabili. Se rileva che un’azione necessaria coinvolge una variabile potenzialmente sensibile, come l’invio di un messaggio, può bloccare l’azione o richiedere conferma all’utente.
Simon Willison, lo sviluppatore che ha coniato il termine “iniezione di prompt” nel 2022, ha lodato CaMeL come “la prima mitigazione credibile” che non si basa su più intelligenza artificiale ma invece attinge lezioni dall’ingegneria della sicurezza tradizionale. Ha notato che la maggior parte dei modelli attuali rimane vulnerabile perché combina prompt degli utenti e input non affidabili nella stessa memoria a breve termine o finestra di contesto. Quel design tratta tutto il testo allo stesso modo – anche se contiene istruzioni malevole.
CaMeL non è ancora perfetto. Richiede che gli sviluppatori scrivano e gestiscano le politiche di sicurezza, e i frequenti prompt di conferma potrebbero frustrare gli utenti. Tuttavia, nei test preliminari, si è comportato bene contro scenari di attacco reali. Potrebbe anche aiutare a difendere contro minacce interne e strumenti malevoli bloccando l’accesso non autorizzato a dati sensibili o comandi.
Se ami leggere i dettagli tecnici non diluiti, DeepMind ha pubblicato la sua ampia ricerca nel repository accademico arXiv di Cornell.
Messaggi simili:
- Futuro di AI e Giornalismo a Rischio: OpenAI sfida i Giganti dell’Informazione in una Battaglia Legale
- I telefoni Google Pixel ricevono il rilevamento delle truffe grazie all’intelligenza artificiale integrata sul dispositivo
- Microsoft ammette: bug di Outlook Classic causa picchi CPU, scopri la soluzione!
- ChatGPT può aiutare a ridurre le emissioni ospedaliere?
- Firefox 138 Trasforma la Barra degli Indirizzi in un Centro Comandi!

Nicola Costanzo esplora il mondo della tecnologia e dell’innovazione. I suoi articoli illuminano le sfide digitali che plasmano il nostro futuro.