Riassunto analitico
I modelli generativi, una classe di modelli che apprende come generare nuove istanze dei dati, sono stati protagonisti di un aumento di popolarità grazie al miglioramento delle capacità di calcolo e a nuovi sviluppi teorici. Tra i più impattanti vi è stata l’introduzione dei modelli a diffusione (diffusion models). Questi modelli apprendono come generare immagini varie e di alta qualità tramite la lenta degradazione e successiva ricostruzione del dato. Un grande numero di lavori fa uso di architetture U-Net, basate sulla convoluzione. Questo operatore è la scelta tradizionale nella Visione Artificiale (Computer Vision) grazie ai suoi bias induttivi, molto adatti a processare immagini. Sono in corso diversi dibattiti riguardo i suoi limiti (come la difficoltà a modellare relazioni a lungo raggio). Un’alternativa è la self-attention, largamente usata in Neural Language Processing (NLP). Integrata nel Vision Transformer (ViT), raggiunge risultati allo stato dell’arte nella classificazione di immagini, modellando con successo dipendenze a lungo raggio. Questo lavoro introduce un’architettura basata su ViT nei diffusion models, proponendo vari modelli e miglioramenti. La nuova architettura è chiamata ViTU. La scelta di questa soluzione potrebbe aiutare a superare i bias induttivi della convoluzione e potenzialmente portare a modelli migliori, come sta succedendo in altri campi. Vengono presentati risultati qualitativi e quantitativi su MNIST e LSUN[towers], dove i modelli mostrano performance convincenti.
|
Abstract
Generative models, a class of architectures that learns how to generate new data instances, have experienced a surge in popularity thanks to increased computing capabilities and new theoretical breakthroughs. Among the most impactful upturns, we find the introduction of diffusion models. By slowly destroying the data using a fixed process and then restoring it, they learn to generate high-quality and diverse samples. A huge variety of works make use of U-Net-like architectures, based on convolution. This operator, well-versed in image processing thanks to its inductive biases, is the traditional choice in Computer Vision. However, there is a debate about its limitations (such as its difficulty to model long-range relationships). An alternative is self-attention, widely used in Neural Language Processing (NLP), capable of modeling long-range dependencies. Embedded in the Vision Transformer (ViT), currently achieves state of the art results in image classification.
This work introduces a ViT-based architecture in diffusion models, proposing several different models and improvements. The new architecture is referred to as ViTU. Such application could help overcome the inductive biases of convolution and potentially bring forth more powerful models, similar to what is happening in other tasks. Qualitative and quantitative results, presented on MNIST and LSUN[towers], show promising performances.
|