Video marketing con avatar realistici e pubblicità generate in 4 secondi, ecco il progetto Aquarius

Pubblicato su arXiv[1], il nuovo report tecnico descrive Aquarius, un avanzato sistema per la generazione video su scala industriale, progettato per applicazioni pubblicitarie ad alta fedeltà. Il modello permette di produrre video lunghi, coerenti e personalizzati con risoluzioni elevate e varietà di proporzioni.

Un sistema completo per la generazione video

Aquarius non è un singolo modello, ma una vera e propria famiglia composta da architetture scalabili fino a 13,4 miliardi di parametri. Si basa su un’architettura DiT (Diffusion Transformer) e impiega VAE 3D per codificare e decodificare i dati visivi. Le versioni “Single” e “Multimodal” coprono rispettivamente modelli da 2B e 13,4B, capaci di generare contenuti da semplici descrizioni testuali o immagini. Il sistema è pensato per girare su migliaia di xPU, con un’infrastruttura che ottimizza memoria e prestazioni.

Pipeline distribuita e dati filtrati con precisione

Alla base del progetto c’è Aquarius-Datapipe, una sofisticata pipeline per la preparazione dei dati, che sfrutta Ray per gestire decine di migliaia di CPU e GPU. I video vengono filtrati per risoluzione, qualità visiva e contenuti inappropriati, con l’ausilio di algoritmi OCR, modelli estetici e segmentazione facciale. Il processo culmina nella generazione di didascalie strutturate che descrivono scena, soggetti, movimento, ambientazione e altro.

Applicazioni pubblicitarie e avatar su misura

Uno dei punti di forza di Aquarius è la capacità di generare video personalizzati e avatar digitali fedeli a un’immagine di riferimento. Questo è particolarmente utile nel contesto pubblicitario, dove è fondamentale mantenere la coerenza visiva del protagonista. Il sistema può anche realizzare video realistici con movimenti naturali, ambientazioni dettagliate e scene coerenti, il tutto partendo da semplici prompt testuali.

Efficienza, addestramento e velocità di inferenza

Durante l’addestramento, Aquarius utilizza strategie come Flow Matching e una suddivisione per stadi che include fasi distinte per immagini e video. L’intero sistema è stato ottimizzato per minimizzare il consumo di memoria e accelerare l’inferenza con tecniche come il caching del DiT. In fase di produzione, è stato raggiunto un impressionante utilizzo del 36% di MFU. Inoltre, la generazione video può essere accelerata fino a 2,35 volte grazie a un’attenta progettazione dell’infrastruttura distribuita.

Approfondimenti

  1. [2505.10584] Aquarius: A Family of Industry-Level Video Generation Models for Marketing Scenarios
Condividi questo articolo

C’è un errore?

Hai trovato un errore in questa pagina? Segnalacelo!

Disclaimer notizie

Questo blog non rappresenta una testata giornalistica in quanto viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n° 62 del 7.03.2001. L’autore non è responsabile di altri siti collegati tramite link né del loro contenuto che può essere soggetto a variazioni nel tempo.

Notizie scientifiche.it usa i cookie per migliorare l'esperienza di navigazione (Leggi di più)


Dati articolo