Super Mario come benchmark per l'IA: Scopri il nuovo metodo oltre matematica e logica!

Una sfida unica

Il contesto generale: La valutazione delle intelligenze artificiali rimane un problema complesso, con molte aziende spesso accusate di selezionare solo i risultati più lusinghieri, ignorando quelli meno favorevoli. Invece di concentrarsi solo su prove di matematica e logica, forse è giunto il momento di considerare un test più insolito – uno che metta alla prova le IA in un modo che gli esseri umani capiscono istintivamente: Super Mario Bros. Dopotutto, se un assistente AI non riesce a navigare strategicamente tra Goombas e Koopa Troopas, possiamo davvero fidarci che operi efficacemente nel nostro mondo complesso?

I ricercatori dell’Hao AI Lab dell’Università della California, San Diego, hanno messo alla prova diversi modelli linguistici di punta in Super Mario Bros., offrendo una nuova prospettiva sulle capacità delle IA.

L’esperimento si è avvalso di una versione emulata del classico gioco Nintendo, integrata con un framework personalizzato chiamato GamingAgent, sviluppato dal Hao Lab. Questo sistema permetteva ai modelli di IA di controllare Mario generando codice Python. Per guidare le loro azioni, i modelli ricevevano istruzioni basilari, come “Salta quel nemico”, insieme a visualizzazioni della schermata che mostravano lo stato del gioco.

Sebbene Super Mario Bros. possa sembrare un semplice gioco a scorrimento laterale 2D, i ricercatori hanno scoperto che sfida le IA a pianificare sequenze di mosse complesse e ad adattare strategie di gioco in tempo reale.

Claude-3.7 è stato testato su Pokémon Red, ma cosa succede con giochi in tempo reale come Super Mario 🍄🌟?

Abbiamo messo gli agenti di gioco IA in partite LIVE di Super Mario e abbiamo scoperto che Claude-3.7 ha superato gli altri modelli con semplici euristiche. 🤯

Claude-3.5 è anche forte, ma meno capace di… pic.twitter.com/bqZVblwqX3

– Hao AI Lab (@haoailab) 28 febbraio 2025

Quando si trattava di padroneggiare Super Mario Bros., il miglior performer è stato il Claude 3.7 di Anthropic, che ha dimostrato riflessi impressionanti, concatenando salti precisi ed evitando abilmente i nemici. Anche il suo predecessore, il Claude 3.5, si è comportato bene.

LEGGI Ritardi per Nvidia Blackwell: Problemi di Surriscaldamento nelle GPU dei Data Center!

Sorprendentemente, modelli pesantemente basati sul ragionamento come il GPT-4o di OpenAI e il Gemini 1.5 Pro di Google si sono trovati in difficoltà. Nonostante la loro reputazione per forti capacità di ragionamento, hanno lottato con le richieste del gioco.

Si è scoperto che il ragionamento logico non è la chiave per eccellere in Super Mario Bros. – il tempismo lo è. Anche un leggero ritardo può far cadere Mario in un fosso. I ricercatori dell’Hao suggeriscono che i modelli più deliberativi probabilmente impiegavano troppo tempo per calcolare la loro prossima mossa, portando a morti frequenti e inopportune.

Ovviamente, utilizzare videogiochi retrò per valutare le IA è per lo più un esperimento giocoso piuttosto che una valutazione seria. Se un’IA può battere Super Mario Bros. ha poco impatto sulla sua utilità nel mondo reale, ma vedere modelli sofisticati lottare con quello che sembra un gioco da ragazzi è indubbiamente divertente.

Per coloro che sono curiosi di sperimentare, l’Hao AI Lab ha reso disponibile il suo framework GamingAgent su GitHub.

Messaggi simili:

Nicola Costanzo

Nicola Costanzo esplora il mondo della tecnologia e dell’innovazione. I suoi articoli illuminano le sfide digitali che plasmano il nostro futuro.

LEGGI Gara al Vertice per i Display OLED: SDC Lancia il Primo Schermo 720Hz!