Tesi etd-06172022-104834

Tipo di tesi

Tesi di laurea magistrale

Autore

SARTO, SARA

URN

etd-06172022-104834

Titolo

Transformer combinato con tecniche di retrieval per generazione di didascalie di immagini

Titolo in inglese

Retrieval-Augmented Transformer for Image Captioning

Struttura

Dipartimento di Ingegneria "Enzo Ferrari"

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
CUCCHIARA RITA	Primo relatore
CORNIA MARCELLA	Correlatore
BARALDI LORENZO	Secondo relatore

Parole chiave

computer vision
didascalie immagini
image captioning
language generation
retrieval

Data inizio appello

2022-07-14

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2062-07-14

Riassunto analitico

Questa tesi tratta dello sviluppo di un nuovo sistema di image captioning che sfrutta un'architettura completamente basata sull'operatore attentivo, in cui viene integrato il retrieval per migliorare le descrizioni delle immagini.

Quando si parla di captioning si intende la generazione di una descrizione testuale di una immagine, unendo il campo della visione artificiale con l'elaborazione del linguaggio naturale. Questo è un compito complesso che richiede sia di comprendere cosa è raffigurato nell'immagine e sia di generare una descrizione in linguaggio naturale, che deve essere grammaticalmente e semanticamente corretta. Solitamente l'architettura più utilizzata per questo tipo di compito è composta da un codificatore visivo per estrarre le informazioni visive e un passaggio generativo dal quale si ottiene la descrizione.

Rispetto ai classici metodi di descrizione automatica delle immagini, questa tesi combina queste architetture con tecniche di retrieval e, quindi, restituisce da una memoria esterna suggerimenti di didascalie simili a quelle fornite in input.

La scelta di integrare anche il retrieval in questo genere di architetture, deriva dall'osservazione di recenti sviluppi nell'ambito di modelli linguistici i quali hanno raggiunto ottime prestazioni, ma usando una grande quantità di parametri (nell'ordine del miliardo) e di dati. Quindi, l'idea sottostante a questa nostra proposta è quella di ottenere buoni risultati e disaccoppiare la tradizionale associazione tra grandezza del modello e numero di parametri. Infatti, dato che il nostro modello è in grado di accedere ad una memoria esterna dalla quale ottiene descrizioni di immagini simili a quella fornita in input, è capace di andare oltre ai soli dati visti durante il training e di migliorare la propria descrizione grazie ai suggerimenti ricevuti dalla memoria esterna.

Sperimentalmente, valutiamo l'efficacia della nostra soluzione sul dataset COCO, rispetto ad un modello completamente attentivo che non impiega l'utilizzo della memoria esterna e con un adattamento dell'architettura RETRO.

Con questo lavoro, dimostriamo che l'utilizzo di una memoria esterna può migliorare significativamente la qualità della generazione e che l'aggiunta di una componente di retrieval ai modelli multimodali può essere una soluzione valida.

Secondo la metrica CIDEr, otteniamo un nuovo stato dell'arte su COCO e, inoltre, al migliore della nostra conoscenza, la nostra proposta è il primo modello a integrare una memoria basata sul retrieval in una pipeline di image captioning.

Il lavoro svolto è inoltre testimoniato da un paper, accettato per la presentazione orale a International Conference on Content-based Multimedia Indexing 2022 (CBMI).

Abstract

This thesis deals with the development of a new image captioning system that exploits an architecture completely based on the attention operator, in which retrieval is integrated to enhance image descriptions. When we talk about captioning, we mean generating a textual description of an image by combining the field of computer vision with natural language processing. This is a complex task that requires both understanding what is depicted in the image and generating a natural language description, which must be grammatically and semantically correct. Usually the most commonly used architecture for this type of task consists of a visual encoder to extract the visual information and a generative step from which the description is obtained. Compared to classical automatic image description methods, this thesis combines these architectures with retrieval techniques and, thus, returns caption suggestions similar to those provided as input from an external memory. The decision to also integrate retrieval into this kind of architecture starts from the observation of recent developments in the area of language models that have achieved very good performance, but using a large number of parameters (on the order of a billion) and data. Thus, the idea underlying our proposal is to achieve good results and decouple the traditional association between model size and number of parameters. In fact, since our model is able to access an external memory from which it obtains image descriptions similar to the one provided as input, it is able to go beyond just the data seen during training and improve its description thanks to the suggestions received from the external memory. Experimentally, we evaluate the effectiveness of our solution on the COCO dataset, compared to a fully attentive model that does not employ the use of external memory and with an adaptation of the RETRO architecture. With this work, we show that the use of external memory can significantly improve the quality of generation and that adding a retrieval component to multimodal models can be a viable solution. According to the CIDEr metric, we obtain a new state of the art on COCO and, moreover, to the best of our knowledge, our proposal is the first model to integrate a retrieval-based memory into an image captioning pipeline. The research activity realized in the context of this thesis has been accepted for oral presentation at International Conference on Content-based Multimedia Indexing 2022. (CBMI).

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore