
Uno studio pubblicato su Electronics[1] presenta un nuovo modello basato su GAN per la super-risoluzione facciale, capace di migliorare nettamente i dettagli ad alta frequenza e la coerenza strutturale dei volti ricostruiti.
Un salto di qualità nella ricostruzione facciale
Il nuovo approccio supera i limiti delle GAN esistenti grazie a tre innovazioni principali: blocchi residui ibridi con attenzione multi-scala, un modulo di potenziamento guidato dai contorni e una rete discriminatrice multiscala. L’obiettivo è ricostruire volti ad alta risoluzione a partire da immagini molto degradate, migliorando al contempo stabilità e fedeltà visiva.
Dettagli ad alta frequenza al centro del progetto
Per risolvere i problemi di sfocatura nelle aree critiche come occhi, denti e capelli, gli autori hanno inserito un modulo chiamato Edge-guided Enhancement Block. Questo identifica e potenzia selettivamente le regioni ricche di dettagli attraverso una combinazione di maschere spaziali e attivazioni Tanh. In parallelo, i blocchi MHARB sfruttano l’attenzione spaziale e ai canali per rafforzare la rappresentazione delle aree salienti.
Un addestramento raffinato e stabile
Il processo di addestramento è stato pensato per essere graduale: il tasso di apprendimento e i pesi delle funzioni di perdita vengono modulati nel tempo, bilanciando precisione strutturale e realismo percettivo. L’uso di tre discriminatori su scale diverse consente di controllare sia la coerenza globale che la qualità delle texture locali.
Risultati superiori e stabilità senza precedenti
Nei test su CelebA-HQ e DIV2K, il modello ha superato classici come SRCNN, ESRGAN e SwinIR in tutti i principali indicatori: PSNR, SSIM e LPIPS. Le immagini ricostruite sono risultate più realistiche e stabili, con una notevole capacità di generalizzazione. Le analisi ablation confermano che ogni componente progettuale ha contribuito all’elevato rendimento del sistema, con le prestazioni migliori ottenute usando 16 blocchi residui.


