Riassunto analitico
La descrizione automatica delle immagini (image captioning) consiste nella generazione di una didascalia testuale di un'immagine, collegando il campo della visione artificiale con il campo dell'elaborazione del linguaggio naturale. Questo compito può essere suddiviso in due parti: la prima cerca di estrarre dall'immagine informazioni utili che saranno poi utilizzate dal modello per capire cosa è presente nell'immagine, la seconda cerca di creare una descrizione in linguaggio naturale sulla base delle conoscenze precedentemente ottenute dall'immagine. Questa didascalia deve essere grammaticalmente e semanticamente corretta, oltre che il più simile possibile ad una descrizione dell'immagine ideata da un umano. Un'architettura tipica per questo compito è composta da un "codificatore di immagini" che estrae le informazioni dall'immagine (chiamate "caratteristiche") e un "descrittore" che genera la didascalia date queste caratteristiche. Questa tesi descrive un nuovo approccio al compito di descrizione delle immagini. La nostra proposta si chiama CAMEL, CAptioning with MEan teacher Learning: si basa sull'interazione di due diversi modelli linguistici che interagiscono e imparano l'uno dall'altro durante la fase di apprendimento, seguendo il paradigma di apprendimento Mean Teacher con distillazione della conoscenza (Knowledge Distillation). L'architettura del modello è una struttura codificatore-decodificatore multistrato con slot di memoria negli strati del codificatore e una connessione a rete tra tutti i livelli. Sperimentalmente, valutiamo l'efficacia della soluzione proposta sul dataset COCO e con diversi estrattori di caratteristiche. Confrontandoci con le proposte esistenti, dimostriamo che il nostro modello fornisce una qualità della didascalia allo stato dell'arte con un numero significativamente ridotto di parametri. Secondo la metrica CIDEr, otteniamo un nuovo stato dell'arte su COCO durante il training senza l'utilizzo di dati esterni.
|
Abstract
Image captioning is a task which aims to generate the textual description of an image, linking the computer vision field with the natural language processing field. This task can be divide in two different part: the first one tries to extract useful information from the image which will be later used by the model to understand what is in the image, the second one tries to create a natural language description based on the knowledge previously obtained from the image. This caption must be grammatically and semantically correct, and beyond that it should be as similar as possible to a human-made description of the image. A typical architecture for this task is composed by an "image encoder" which extracts the information from the image (called "features") and a "captioner" which generates the caption given these features.
This thesis describes a novel approach to the image captioning task. Our proposal is called CAMEL, CAptioning with MEan teacher Learning: it is based on the interaction of two different language models that interact and learn from each other during the training phase, following a Mean Teacher learning paradigm with Knowledge Distillation. The architecture of the model is a multi-layer encoder-decoder structure with memory slots in the encoder layers and a mesh-like connection between all the layers. Experimentally, we assess the effectiveness of the proposed solution on the COCO dataset and with different visual feature extractors. When comparing with existing proposals, we demonstrate that our model provides state of the art caption quality with a significantly reduced number of parameters. According to the CIDEr metric, we obtain a new state of the art on COCO when training without using external data.
|