Scoperta rivoluzionaria: Modello di ragionamento sotto i 50$ sfida OpenAI!

Il modello è dotato di un trucco “di attesa” che gli permette di rivedere e rifinire le risposte

Perché è importante: Tutti stanno cercando modi nuovi e innovativi per aggirare gli ingenti costi legati alla formazione e alla creazione di nuovi modelli di intelligenza artificiale. Dopo l’impressionante debutto di DeepSeek, che ha scosso la Silicon Valley, un gruppo di ricercatori ha sviluppato un concorrente open source che pare eguagliare le capacità di ragionamento di OpenAI o1.

Ricercatori dell’Università di Stanford e dell’Università di Washington hanno elaborato una tecnica per creare un nuovo modello di IA chiamato “s1”. Hanno già reso disponibile il codice sorgente su GitHub, insieme al codice e ai dati utilizzati per svilupparlo. Un articolo pubblicato lo scorso venerdì ha spiegato come il team sia riuscito a ottenere questi risultati attraverso astuti trucchi tecnici.

Invece di addestrare un modello di ragionamento da zero, un’impresa costosa che può richiedere milioni di dollari, hanno preso un modello di linguaggio già pronto e lo hanno “perfezionato” utilizzando la distillazione. Hanno estratto le capacità di ragionamento da uno dei modelli di intelligenza artificiale di Google – nello specifico, Gemini 2.0 Flash Thinking Experimental. Successivamente, hanno addestrato il modello base a imitare il suo processo di risoluzione dei problemi passo dopo passo su un piccolo dataset.

Questo approccio è stato utilizzato anche da altri in precedenza. Infatti, DeepSeek è stato accusato da OpenAI di utilizzare la distillazione. Tuttavia, il team Stanford/UW ha trovato un modo estremamente economico per implementarlo tramite il “fine-tuning supervisionato”.

Questo processo implica l’insegnamento esplicito al modello su come ragionare utilizzando esempi curati. Il loro intero dataset consisteva solo di 1.000 domande e soluzioni accuratamente selezionate estratte dal modello di Google.

LEGGI  Le complicazioni chirurgiche hanno davvero dimostrato il valore della funzionalità Medical Records di Apple

TechCrunch segnala che il processo di formazione ha richiesto 30 minuti, utilizzando 16 GPU Nvidia H100. Ovviamente, queste GPU costano una piccola fortuna – circa 25.000 dollari l’una – ma il noleggio si aggira su meno di 50 dollari in crediti di calcolo cloud.

I ricercatori hanno inoltre scoperto un ingegnoso trucco per potenziare ulteriormente le capacità di s1. Hanno istruito il modello a “attendere” prima di fornire la risposta finale. Questo comando ha permesso al modello più tempo per verificare il proprio ragionamento e arrivare a soluzioni leggermente migliorate.

Il modello non è privo di limitazioni. Poiché il team ha utilizzato il modello di Google come insegnante, sorge la questione se le competenze di s1, sebbene impressionanti per il suo costo minimo, possano essere scalate per eguagliare il meglio che l’IA ha da offrire. Inoltre, c’è il potenziale per una protesta da parte di Google. Potrebbero attendere per vedere come procede il caso di OpenAI.

Messaggi simili: