Riassunto analitico
Questa tesi tratta dello sviluppo di un nuovo sistema di image captioning che sfrutta un'architettura completamente basata sull'operatore attentivo, in cui viene integrato il retrieval per migliorare le descrizioni delle immagini.
Quando si parla di captioning si intende la generazione di una descrizione testuale di una immagine, unendo il campo della visione artificiale con l'elaborazione del linguaggio naturale. Questo è un compito complesso che richiede sia di comprendere cosa è raffigurato nell'immagine e sia di generare una descrizione in linguaggio naturale, che deve essere grammaticalmente e semanticamente corretta. Solitamente l'architettura più utilizzata per questo tipo di compito è composta da un codificatore visivo per estrarre le informazioni visive e un passaggio generativo dal quale si ottiene la descrizione.
Rispetto ai classici metodi di descrizione automatica delle immagini, questa tesi combina queste architetture con tecniche di retrieval e, quindi, restituisce da una memoria esterna suggerimenti di didascalie simili a quelle fornite in input.
La scelta di integrare anche il retrieval in questo genere di architetture, deriva dall'osservazione di recenti sviluppi nell'ambito di modelli linguistici i quali hanno raggiunto ottime prestazioni, ma usando una grande quantità di parametri (nell'ordine del miliardo) e di dati. Quindi, l'idea sottostante a questa nostra proposta è quella di ottenere buoni risultati e disaccoppiare la tradizionale associazione tra grandezza del modello e numero di parametri. Infatti, dato che il nostro modello è in grado di accedere ad una memoria esterna dalla quale ottiene descrizioni di immagini simili a quella fornita in input, è capace di andare oltre ai soli dati visti durante il training e di migliorare la propria descrizione grazie ai suggerimenti ricevuti dalla memoria esterna.
Sperimentalmente, valutiamo l'efficacia della nostra soluzione sul dataset COCO, rispetto ad un modello completamente attentivo che non impiega l'utilizzo della memoria esterna e con un adattamento dell'architettura RETRO.
Con questo lavoro, dimostriamo che l'utilizzo di una memoria esterna può migliorare significativamente la qualità della generazione e che l'aggiunta di una componente di retrieval ai modelli multimodali può essere una soluzione valida.
Secondo la metrica CIDEr, otteniamo un nuovo stato dell'arte su COCO e, inoltre, al migliore della nostra conoscenza, la nostra proposta è il primo modello a integrare una memoria basata sul retrieval in una pipeline di image captioning.
Il lavoro svolto è inoltre testimoniato da un paper, accettato per la presentazione orale a International Conference on Content-based Multimedia Indexing 2022 (CBMI).
|
Abstract
This thesis deals with the development of a new image captioning system that exploits an architecture completely based on the attention operator, in which retrieval is integrated to enhance image descriptions.
When we talk about captioning, we mean generating a textual description of an image by combining the field of computer vision with natural language processing. This is a complex task that requires both understanding what is depicted in the image and generating a natural language description, which must be grammatically and semantically correct. Usually the most commonly used architecture for this type of task consists of a visual encoder to extract the visual information and a generative step from which the description is obtained.
Compared to classical automatic image description methods, this thesis combines these architectures with retrieval techniques and, thus, returns caption suggestions similar to those provided as input from an external memory.
The decision to also integrate retrieval into this kind of architecture starts from the observation of recent developments in the area of language models that have achieved very good performance, but using a large number of parameters (on the order of a billion) and data. Thus, the idea underlying our proposal is to achieve good results and decouple the traditional association between model size and number of parameters. In fact, since our model is able to access an external memory from which it obtains image descriptions similar to the one provided as input, it is able to go beyond just the data seen during training and improve its description thanks to the suggestions received from the external memory.
Experimentally, we evaluate the effectiveness of our solution on the COCO dataset, compared to a fully attentive model that does not employ the use of external memory and with an adaptation of the RETRO architecture.
With this work, we show that the use of external memory can significantly improve the quality of generation and that adding a retrieval component to multimodal models can be a viable solution. According to the CIDEr metric, we obtain a new state of the art on COCO and, moreover, to the best of our knowledge, our proposal is the first model to integrate a retrieval-based memory into an image captioning pipeline.
The research activity realized in the context of this thesis has been accepted for oral presentation at International Conference on Content-based Multimedia Indexing 2022. (CBMI).
|