Finalmente capiamo come funzionano i Modelli di Linguaggio: non è solo predizione di parole!

Anthropic ha appena analizzato il cervello di Claude con uno scanner

In contesto: Le continue migliorie apportate dalle aziende di intelligenza artificiale ai loro modelli potrebbero far pensare che abbiamo finalmente compreso il funzionamento dei grandi modelli di linguaggio (LLM). Tuttavia, i LLM rimangono una delle tecnologie di massa meno comprese di sempre. Ma Anthropic sta cercando di cambiare questa situazione con una nuova tecnica chiamata tracciamento dei circuiti, che ha permesso all’azienda di esplorare alcuni meccanismi interni del suo modello Claude 3.5 Haiku.

Il tracciamento dei circuiti è una tecnica relativamente nuova che permette ai ricercatori di seguire passo dopo passo il processo con cui un modello di IA costruisce le sue risposte – un po’ come seguire il cablaggio di un cervello. Questo metodo funziona collegando tra loro diversi componenti del modello. Anthropic l’ha utilizzato per osservare gli ingranaggi interni di Claude. Questo ha rivelato alcuni metodi di ragionamento veramente strani e a volte inumani, che il bot non avrebbe ammesso di utilizzare se interrogato direttamente.

Nel complesso, il team ha esaminato 10 comportamenti differenti in Claude. Tre di questi si sono distinti.

Uno era piuttosto semplice e consisteva nel rispondere alla domanda “Qual è l’opposto di piccolo?” in diverse lingue. Si potrebbe pensare che Claude possa avere componenti separati per l’inglese, il francese o il cinese. Invece, prima determina la risposta (qualcosa legato alla “grandezza”) usando circuiti neutri rispetto alla lingua, poi sceglie le parole giuste per abbinarle alla lingua della domanda.

Questo significa che Claude non si limita a rigurgitare traduzioni memorizzate – sta applicando concetti astratti attraverso le lingue, quasi come farebbe un umano.

LEGGI FCC verso il divieto: stop ai laboratori cinesi per testare elettronica USA

Poi c’è la matematica. Chiedi a Claude di sommare 36 e 59, e invece di seguire il metodo standard (aggiungere le unità, portare le decine, ecc.), fa qualcosa di molto più strano. Inizia approssimando aggiungendo “circa 40 e circa 60” o “circa 57 e circa 36” e alla fine arriva a “circa 92”. Nel frattempo, un’altra parte del modello si concentra sui numeri 6 e 9, realizzando che la risposta deve finire con un 5. Combinando questi due passaggi insoliti, giunge a 95.

Tuttavia, se chiedi a Claude come ha risolto il problema, descriverà con sicurezza il metodo standard da scuola elementare, nascondendo il suo effettivo e bizzarro processo di ragionamento.

La poesia è ancora più strana. I ricercatori hanno incaricato Claude di scrivere una coppia di versi che facessero rima, dandogli lo spunto “Una coppia di versi: Vide una carota e dovette afferrarla.” Qui, il modello ha scelto la parola “coniglio” per far rima con “afferrarla”. Poi, sembra costruire la linea successiva con quella fine già decisa, sfornando infine il verso “La sua fame era come quella di un coniglio affamato.”

Questo suggerisce che i LLM potrebbero avere più preveggenza di quanto si pensasse e che non si limitano semplicemente a prevedere una parola dopo l’altra per formare una risposta coerente.

In definitiva, queste scoperte sono importanti – dimostrano che possiamo finalmente vedere come operano questi modelli, almeno in parte.

Tuttavia, Joshua Batson, scienziato di ricerca presso l’azienda, ha ammesso al MIT che si tratta solo della “punta dell’iceberg”. Tracciare anche una singola risposta richiede ore e c’è ancora molto da capire.

Messaggi simili:

LEGGI Email trapelata rivela dettagli sulla misteriosa morte del fondatore di HowStuffWorks, Marshall Brain

Nicola Costanzo

Nicola Costanzo esplora il mondo della tecnologia e dell’innovazione. I suoi articoli illuminano le sfide digitali che plasmano il nostro futuro.