Riassunto analitico
Visual image Transformer (ViT) ed altre architetture per la classificazione di immagini basate sul Transformer hanno raggiunto performance promettenti negli ultimi due anni. Tuttavia, i modelli ViT richiedono grandi dataset, un uso eccessivo di memoria e potenza computazionale per ottenere risultati state-of-the-art comparabili con architetture tradizionali, come Convolutional Neural Networks e Long Sort-Term Memory. Il generico modello del ViT mantiene l'intera lunghezza della sequenza delle patch durante l'inferenza, questa è rindondante e manca di rappresentazione gerarchica. In continuità con la pubblicazione "Scalable Vision Transformers with Hierarchical Pooling" di Pan Zizheng et al., la quale progressivamente fa pool dei token per restringere la lunghezza della sequenza e quindi ridurre il costo computazionale con l'applicazione di max-pool 1D, esploriamo la possibilità di applicare operazioni di max-pool 2D sull'output dei Transformer encoder. Abbiamo empiricamente dimostrato che alcune delle nostre configurazioni "tiny" con downsampling 2D performano meglio dei modelli precedenti. Il margine di miglioramento delle performance si riduce quando applichiamo il nostro pooling su configurazioni "small", come DeiT-S o HVT-S. Abbiamo condotto estesi esperimenti sul dataset CIFAR-100 e considerato metriche quali la Top1 accuracy e i FLOPs per capire come ridurre la lunghezza della sequenza di token senza influenzare le performance di classificazione. Per provare la validità della nostra proposta, abbiamo eseguito esperimenti sul dataset ImageNet.
|
Abstract
Visual image Transformers (ViT) and other Transformer-based architecture for image classification have achieved promising performance in the last two years.
However, ViT models require large datasets, excessive use of memory and computational power to get state-of-the-art results compared to other traditional architectures, such as Convolutional Neural Networks and Long Sort-Term Memory.
The generic ViT model maintains a full-length patch sequence during inference, which is redundant and lacks hierarchical representation.
In continuity with the paper "Scalable Vision Transformers with Hierarchical Pooling" of Pan Zizheng et al., which progressively pools visual tokens to shrink the sequence length and hence reduces the computational cost with the application of 1D max-pool, we explore the possibility of applying 2D max-pooling operators on the outputs of the Transformer encoders.
We empirically find that some of our "tiny" configurations with 2D downsampling outperform previous models.
The performance margin is reduced when we apply our pooling layer on "small" configurations, like DeiT-S or HVT-S.
We conduct extensive experiments on CIFAR-100 dataset and consider metrics such as Top1 accuracy and FLOPs to understand how to reduce the token sequence length without affecting the classification performance.
To prove the validity of our proposal, we also performed experiments on the large ImageNet dataset.
|