
Pubblicato su arXiv[1], il nuovo report tecnico descrive Aquarius, un avanzato sistema per la generazione video su scala industriale, progettato per applicazioni pubblicitarie ad alta fedeltà. Il modello permette di produrre video lunghi, coerenti e personalizzati con risoluzioni elevate e varietà di proporzioni.
Un sistema completo per la generazione video
Aquarius non è un singolo modello, ma una vera e propria famiglia composta da architetture scalabili fino a 13,4 miliardi di parametri. Si basa su un’architettura DiT (Diffusion Transformer) e impiega VAE 3D per codificare e decodificare i dati visivi. Le versioni “Single” e “Multimodal” coprono rispettivamente modelli da 2B e 13,4B, capaci di generare contenuti da semplici descrizioni testuali o immagini. Il sistema è pensato per girare su migliaia di xPU, con un’infrastruttura che ottimizza memoria e prestazioni.
Pipeline distribuita e dati filtrati con precisione
Alla base del progetto c’è Aquarius-Datapipe, una sofisticata pipeline per la preparazione dei dati, che sfrutta Ray per gestire decine di migliaia di CPU e GPU. I video vengono filtrati per risoluzione, qualità visiva e contenuti inappropriati, con l’ausilio di algoritmi OCR, modelli estetici e segmentazione facciale. Il processo culmina nella generazione di didascalie strutturate che descrivono scena, soggetti, movimento, ambientazione e altro.
Applicazioni pubblicitarie e avatar su misura
Uno dei punti di forza di Aquarius è la capacità di generare video personalizzati e avatar digitali fedeli a un’immagine di riferimento. Questo è particolarmente utile nel contesto pubblicitario, dove è fondamentale mantenere la coerenza visiva del protagonista. Il sistema può anche realizzare video realistici con movimenti naturali, ambientazioni dettagliate e scene coerenti, il tutto partendo da semplici prompt testuali.
Efficienza, addestramento e velocità di inferenza
Durante l’addestramento, Aquarius utilizza strategie come Flow Matching e una suddivisione per stadi che include fasi distinte per immagini e video. L’intero sistema è stato ottimizzato per minimizzare il consumo di memoria e accelerare l’inferenza con tecniche come il caching del DiT. In fase di produzione, è stato raggiunto un impressionante utilizzo del 36% di MFU. Inoltre, la generazione video può essere accelerata fino a 2,35 volte grazie a un’attenta progettazione dell’infrastruttura distribuita.


