Tesi etd-11102021-192235

Tipo di tesi

Tesi di laurea magistrale

Autore

BRUNO, PAOLO

URN

etd-11102021-192235

Titolo

Studio ed applicazione di downsampling bidimensionale in modelli Vision Transformer

Titolo in inglese

Investigating Bidimensional downsampling in Vision Transformer models

Struttura

Dipartimento di Ingegneria

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
BARALDI LORENZO	Primo relatore
AMOROSO ROBERTO	Correlatore
CORNIA MARCELLA	Correlatore

Parole chiave

2D
Deep Learning
Image Classification
Pooling
Vision Transformer

Data inizio appello

2021-12-02

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2061-12-02

Riassunto analitico

Visual image Transformer (ViT) ed altre architetture per la classificazione di immagini basate sul Transformer hanno raggiunto performance promettenti negli ultimi due anni.
Tuttavia, i modelli ViT richiedono grandi dataset, un uso eccessivo di memoria e potenza computazionale per ottenere risultati state-of-the-art comparabili con architetture tradizionali, come Convolutional Neural Networks e Long Sort-Term Memory.
Il generico modello del ViT mantiene l'intera lunghezza della sequenza delle patch durante l'inferenza, questa è rindondante e manca di rappresentazione gerarchica.
In continuità con la pubblicazione "Scalable Vision Transformers with Hierarchical Pooling" di Pan Zizheng et al., la quale progressivamente fa pool dei token per restringere la lunghezza della sequenza e quindi ridurre il costo computazionale con l'applicazione di max-pool 1D, esploriamo la possibilità di applicare operazioni di max-pool 2D sull'output dei Transformer encoder.
Abbiamo empiricamente dimostrato che alcune delle nostre configurazioni "tiny" con downsampling 2D performano meglio dei modelli precedenti.
Il margine di miglioramento delle performance si riduce quando applichiamo il nostro pooling su configurazioni "small", come DeiT-S o HVT-S.
Abbiamo condotto estesi esperimenti sul dataset CIFAR-100 e considerato metriche quali la Top1 accuracy e i FLOPs per capire come ridurre la lunghezza della sequenza di token senza influenzare le performance di classificazione.
Per provare la validità della nostra proposta, abbiamo eseguito esperimenti sul dataset ImageNet.

Abstract

Visual image Transformers (ViT) and other Transformer-based architecture for image classification have achieved promising performance in the last two years. However, ViT models require large datasets, excessive use of memory and computational power to get state-of-the-art results compared to other traditional architectures, such as Convolutional Neural Networks and Long Sort-Term Memory. The generic ViT model maintains a full-length patch sequence during inference, which is redundant and lacks hierarchical representation. In continuity with the paper "Scalable Vision Transformers with Hierarchical Pooling" of Pan Zizheng et al., which progressively pools visual tokens to shrink the sequence length and hence reduces the computational cost with the application of 1D max-pool, we explore the possibility of applying 2D max-pooling operators on the outputs of the Transformer encoders. We empirically find that some of our "tiny" configurations with 2D downsampling outperform previous models. The performance margin is reduced when we apply our pooling layer on "small" configurations, like DeiT-S or HVT-S. We conduct extensive experiments on CIFAR-100 dataset and consider metrics such as Top1 accuracy and FLOPs to understand how to reduce the token sequence length without affecting the classification performance. To prove the validity of our proposal, we also performed experiments on the large ImageNet dataset.

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore