Ritardi per Nvidia Blackwell: Problemi di Surriscaldamento nelle GPU dei Data Center!

Blackwell sta creando non pochi problemi a Nvidia

 

In sintesi: Il successo straordinario di Nvidia negli ultimi anni è stato principalmente dovuto alla dominanza dei suoi hardware nel redditizio mercato dell’intelligenza artificiale. Tuttavia, con i suoi nuovi chip AI Blackwell, il Team Green sta incontrando alcune rare difficoltà. Oltre ad aver già subito ritardi, nuovi rapporti indicano che le GPU stanno riscontrando problemi di surriscaldamento quando installate in rack server di alta capacità.

Fonti che hanno parlato con The Information affermano che le GPU Blackwell, progettate per compiti di intelligenza artificiale e per il calcolo ad alte prestazioni, stanno surriscaldando.

Il problema si verifica quando i chip sono integrati nei rack server personalizzati di Nvidia, che ospitano 72 processori e consumano fino a 120kW per rack. Si dice che Nvidia abbia chiesto più volte ai fornitori di ridisegnare i rack per tentare di risolvere il problema migliorando il sistema di raffreddamento. Sfortunatamente, ciò sta causando ulteriori ritardi nel lancio di Blackwell.

Il surriscaldamento può non solo compromettere gravemente le prestazioni dei chip, ma ha anche il potenziale di danneggiare l’hardware, che è molto costoso.

Nvidia sta minimizzando il rapporto. Parlando con Reuters, un portavoce ha affermato che l’azienda sta collaborando con i principali fornitori di servizi cloud e che i ridisegni ingegneristici sono normali e da aspettarsi.

È stato riportato ad agosto che i chip AI Blackwell stavano affrontando ritardi significativi a causa di difetti di progettazione scoperti tardivamente nella produzione. Il produttore TSMC ha identificato un problema nel dado del processore che collega due GPU Blackwell sui chip GB100 e GB200, causando deformazioni e guasti al sistema. Questi chip utilizzano il packaging CoWoS-L di TSMC, che impiega un interposer RDL con ponti di interconnessione in silicio locale per raggiungere tassi di trasferimento dati di circa 10 TB/s. Il problema è sorto da una discrepanza nelle proprietà di espansione termica tra vari componenti, causando deformazioni e guasti al sistema.

LEGGI  AMD e le nuove schede grafiche dominano Steam, record di quote per i CPU!

Nvidia ha dovuto modificare gli strati metallici superiori dei chip e le strutture di bump per correggere il problema precedente di Blackwell, ritardando la data di produzione di massa dei chip fino alla fine di ottobre e il tempo di spedizione fino a fine gennaio – inizialmente erano previsti per la spedizione nel secondo trimestre del 2024.

Non sappiamo ancora se l’ultimo problema con Blackwell causerà ulteriori ritardi nelle spedizioni. Il CEO di Nvidia, Jensen Huang, ha descritto la domanda di Blackwell come “pazzesca”, quindi un altro contrattempo sarebbe un duro colpo per clienti come Microsoft, Google e Meta.

Messaggi simili: