Blackwell sta creando non pochi problemi a Nvidia
In sintesi: Il successo straordinario di Nvidia negli ultimi anni è stato principalmente dovuto alla dominanza dei suoi hardware nel redditizio mercato dell’intelligenza artificiale. Tuttavia, con i suoi nuovi chip AI Blackwell, il Team Green sta incontrando alcune rare difficoltà. Oltre ad aver già subito ritardi, nuovi rapporti indicano che le GPU stanno riscontrando problemi di surriscaldamento quando installate in rack server di alta capacità.
Fonti che hanno parlato con The Information affermano che le GPU Blackwell, progettate per compiti di intelligenza artificiale e per il calcolo ad alte prestazioni, stanno surriscaldando.
Il problema si verifica quando i chip sono integrati nei rack server personalizzati di Nvidia, che ospitano 72 processori e consumano fino a 120kW per rack. Si dice che Nvidia abbia chiesto più volte ai fornitori di ridisegnare i rack per tentare di risolvere il problema migliorando il sistema di raffreddamento. Sfortunatamente, ciò sta causando ulteriori ritardi nel lancio di Blackwell.
Il surriscaldamento può non solo compromettere gravemente le prestazioni dei chip, ma ha anche il potenziale di danneggiare l’hardware, che è molto costoso.
Nvidia sta minimizzando il rapporto. Parlando con Reuters, un portavoce ha affermato che l’azienda sta collaborando con i principali fornitori di servizi cloud e che i ridisegni ingegneristici sono normali e da aspettarsi.
È stato riportato ad agosto che i chip AI Blackwell stavano affrontando ritardi significativi a causa di difetti di progettazione scoperti tardivamente nella produzione. Il produttore TSMC ha identificato un problema nel dado del processore che collega due GPU Blackwell sui chip GB100 e GB200, causando deformazioni e guasti al sistema. Questi chip utilizzano il packaging CoWoS-L di TSMC, che impiega un interposer RDL con ponti di interconnessione in silicio locale per raggiungere tassi di trasferimento dati di circa 10 TB/s. Il problema è sorto da una discrepanza nelle proprietà di espansione termica tra vari componenti, causando deformazioni e guasti al sistema.

Nvidia ha dovuto modificare gli strati metallici superiori dei chip e le strutture di bump per correggere il problema precedente di Blackwell, ritardando la data di produzione di massa dei chip fino alla fine di ottobre e il tempo di spedizione fino a fine gennaio – inizialmente erano previsti per la spedizione nel secondo trimestre del 2024.
Non sappiamo ancora se l’ultimo problema con Blackwell causerà ulteriori ritardi nelle spedizioni. Il CEO di Nvidia, Jensen Huang, ha descritto la domanda di Blackwell come “pazzesca”, quindi un altro contrattempo sarebbe un duro colpo per clienti come Microsoft, Google e Meta.
Messaggi simili:
- Nvidia Svela la Nuova GPU AI Blackwell Ultra B300 e il Futuro Roadmap Vera Rubin
- Nvidia “Blackwell Ultra” GB300: 288GB di memoria HBM3e e consumo di 1400W!
- Arm punta a conquistare metà del mercato CPU dei data center entro fine anno
- Nvidia annuncia la correzione dello schermo nero per RTX 5000, aggiornamento driver imminente!
- Micron presenta il primo SSD PCIe 5.0 da 60TB al mondo per carichi di lavoro AI e archiviazione cloud

Nicola Costanzo esplora il mondo della tecnologia e dell’innovazione. I suoi articoli illuminano le sfide digitali che plasmano il nostro futuro.