Genera Video AI con Soli 6GB di VRAM: Scopri Come!

FramePack rende la diffusione di video ad alta qualità sorprendentemente leggera

In breve: La generazione di video AI potrebbe presto non essere più limitata a costose sottoscrizioni o server di alta potenza. Grazie a una recente innovazione, persino un laptop da gaming potrebbe generare video AI completi.

L’innovazione è stata sviluppata da Lvmin Zhang di GitHub e Maneesh Agrawala dell’Università di Stanford. I due hanno sviluppato FramePack, un’architettura di rete neurale che consente la diffusione di video ad alta qualità con soli 6GB di VRAM. Questo rappresenta un traguardo significativo, specialmente considerando la dimensione del modello – 13 miliardi di parametri – che gli permette di generare clip complete di 60 secondi a 30 FPS utilizzando solo una GPU di fascia media.

Il segreto di FramePack risiede nel suo funzionamento. I modelli tradizionali di diffusione video si basano sui fotogrammi generati precedentemente per prevedere il successivo. Man mano che aumenta la lunghezza del video, aumenta anche il “contesto temporale” – il numero di fotogrammi passati che il modello deve considerare – portando a una maggiore richiesta di memoria. Questo è il motivo per cui la maggior parte dei modelli richiede 12GB di VRAM o più per funzionare efficacemente.

FramePack rovescia questa situazione. Invece di permettere che l’uso della memoria si gonfi con clip più lunghe, comprime i fotogrammi di input basandosi sulla loro importanza in un contesto di lunghezza fissa, mantenendo l’impronta della memoria compatta e consistente indipendentemente dalla durata del video.

Questa innovazione permette al modello di processare migliaia di fotogrammi, anche con grandi architetture, su GPU di livello laptop. Inoltre, consente l’addestramento con dimensioni di batch comparabili a quelle utilizzate nei modelli di diffusione di immagini.

LEGGI  ChatGPT Ricerca Web Aperta a Tutti, Nessun Accesso Necessario!

Ma FramePack non si limita solo a ridurre la richiesta di memoria, affronta anche il problema del drifting – una questione comune dove la qualità del video si degrada nel tempo. Utilizzando schemi di compressione intelligenti e tecniche di programmazione, FramePack aiuta a mantenere la consistenza visiva dall’inizio alla fine.

Per concludere, il modello include una GUI user-friendly. Gli utenti possono caricare immagini, inserire prompt di testo e visualizzare un’anteprima dal vivo mentre i fotogrammi vengono generati. Su una RTX 4090, le velocità di generazione ottimizzate raggiungono fino a 0,6 fotogrammi al secondo. Naturalmente, le prestazioni sono inferiori su GPU meno potenti, ma anche una RTX 3060 può gestirlo.

Attualmente, FramePack supporta le GPU Nvidia RTX serie 30, 40 e la nuova serie 50, a condizione che supportino i formati di dati FP16 o BF16. Non è ancora confermato il supporto per le GPU AMD o Intel, ma il modello funziona su più sistemi operativi, inclusi Linux.

È possibile trovare i dettagli completi del modello e il codice sorgente su GitHub.

Messaggi simili: