DeepMind Rivoluziona gli LLM: Nuovo Metodo per Contrastare l’Iniezione di Prompt

Un interprete sicuro traccia il flusso dei dati per bloccare azioni pericolose innescate da testi manipolati

In contesto: L’iniezione di prompt è un difetto intrinseco nei grandi modelli linguistici, che permette agli attaccanti di deviare il comportamento dell’IA inserendo comandi malevoli nel testo di input. La maggior parte delle difese si basa su barriere interne, ma gli attaccanti trovano regolarmente modi per aggirarle, rendendo le soluzioni esistenti temporanee nella migliore delle ipotesi. Ora, Google ritiene di aver trovato una soluzione definitiva.

Dal momento in cui i chatbot sono diventati di uso comune nel 2022, una vulnerabilità di sicurezza nota come iniezione di prompt ha afflitto gli sviluppatori di intelligenza artificiale. Il problema è semplice: i modelli linguistici come ChatGPT non riescono a distinguere tra istruzioni dell’utente e comandi nascosti all’interno del testo che elaborano. I modelli considerano tutto il testo inserito (o recuperato) come affidabile e lo trattano come tale, il che permette ai malintenzionati di inserire istruzioni malevole nella loro query. Questo problema è ancora più grave ora che le aziende stanno integrando queste IA nei nostri client di posta elettronica e altri software che potrebbero contenere informazioni sensibili.

DeepMind di Google ha sviluppato un approccio radicalmente diverso chiamato CaMeL (Capacità per l’Apprendimento Automatico). Invece di chiedere all’intelligenza artificiale di auto-regolarsi – cosa che si è dimostrata inaffidabile – CaMeL tratta i grandi modelli linguistici (LLM) come componenti non affidabili all’interno di un sistema sicuro. Crea confini rigorosi tra le richieste degli utenti, contenuti non affidabili come email o pagine web, e le azioni che un assistente IA è autorizzato a compiere.

LEGGI  Rivenditore tenta estorsione su RTX 5080, si arrende dopo proteste online!

CaMeL si basa su decenni di principi di sicurezza del software collaudati, inclusi il controllo degli accessi, il tracciamento del flusso dei dati e il principio del privilegio minimo. Invece di fare affidamento sull’IA per intercettare ogni istruzione malevola, limita ciò che il sistema può fare con le informazioni che elabora.

Ecco come funziona. CaMeL utilizza due modelli linguistici separati: uno “privilegiato” (P-LLM) che pianifica azioni come l’invio di email, e uno “in quarantena” (Q-LLM) che legge e analizza solo contenuti non affidabili. Il P-LLM non può vedere email o documenti grezzi – riceve solo dati strutturati, come “email = get_last_email().” Il Q-LLM, invece, non ha accesso a strumenti o memoria, quindi anche se un attaccante lo inganna, non può compiere nessuna azione.

Tutte le azioni utilizzano codice – specificamente una versione semplificata di Python – e vengono eseguite in un interprete sicuro. Questo interprete traccia l’origine di ogni pezzo di dati, monitorando se proviene da contenuti non affidabili. Se rileva che un’azione necessaria coinvolge una variabile potenzialmente sensibile, come l’invio di un messaggio, può bloccare l’azione o richiedere conferma all’utente.

Simon Willison, lo sviluppatore che ha coniato il termine “iniezione di prompt” nel 2022, ha lodato CaMeL come “la prima mitigazione credibile” che non si basa su più intelligenza artificiale ma invece attinge lezioni dall’ingegneria della sicurezza tradizionale. Ha notato che la maggior parte dei modelli attuali rimane vulnerabile perché combina prompt degli utenti e input non affidabili nella stessa memoria a breve termine o finestra di contesto. Quel design tratta tutto il testo allo stesso modo – anche se contiene istruzioni malevole.

LEGGI  Il supercomputer da 40,4 petaflop di NEC unisce CPU Intel Xeon e acceleratori AMD Instinct

CaMeL non è ancora perfetto. Richiede che gli sviluppatori scrivano e gestiscano le politiche di sicurezza, e i frequenti prompt di conferma potrebbero frustrare gli utenti. Tuttavia, nei test preliminari, si è comportato bene contro scenari di attacco reali. Potrebbe anche aiutare a difendere contro minacce interne e strumenti malevoli bloccando l’accesso non autorizzato a dati sensibili o comandi.

Se ami leggere i dettagli tecnici non diluiti, DeepMind ha pubblicato la sua ampia ricerca nel repository accademico arXiv di Cornell.

Messaggi simili: