Riassunto analitico
Image captioning consiste nella descrizione automatica di un'immagine con linguaggio naturale. Il compito è impegnativo perché collega insieme due diversi domini: Computer Vision (CV) e Natural Language Processing (NLP). Infatti, un sistema di image captioning ha almeno due componenti, rispettivamente dedicati a ciascuna modalità. Innanzitutto, un codificatore visivo estrae le caratteristiche visive da un'immagine. Quindi, questi vengono utilizzati per condizionare un modello linguistico per produrre una frase che descriva la stessa immagine. Le attuali soluzioni all'avanguardia per questo compito ricorrono tutte a reti neurali addestrate su dataset di larga scala. Per soddisfare la domanda sempre crescente di dati di questi algoritmi, i dataset esistenti vengono solitamente integrati con campioni raccolti da Internet. La qualità di questo approccio non è ottimale perché spesso le coppie immagine-testo dal web mostrano uno scarso allineamento. Visti i recenti incoraggianti progressi nell' Intelligenza Artificiale (IA) generativa, questa tesi mira a valutare la possibilità di utilizzare immagini sintetiche per migliorare un modello di image captioning basato su deep learning. In particolare, sfruttiamo le immagini prodotte da un algoritmo di stable diffusion condizionato dalle didascalie del dataset COCO. La nostra architettura segue il paradigma codificatore-decodificatore, nel quale sfruttiamo un codificatore visivo precedentemente addestrato con Contrastive Language–Image Pre-training (CLIP). Per ottenere un punto di riferimento iniziale, cominciamo addestrando questo modello su COCO. Quindi, analizziamo come cambiano le sue prestazioni mentre sostituiamo le immagini reali con quelle sintetiche in modo probabilistico. Infine, applichiamo tecniche avanzate di data augmentation, come Mixup, per combinare campioni reali e artificiali. Per quanto ne sappiamo, siamo i primi a valutare questa strategia con dati sintetici nel campo di image captioning. Sperimentalmente, riusciamo a migliorare le prestazioni di base, mantenendo la stessa architettura e operando solo a livello di dati. Il ruolo dei dati sintetici in questo lavoro è giustificato dai nostri studi ablativi, in cui gli stessi miglioramenti non si ottengono sostituendo le immagini artificiali con altre simili reali.
|
Abstract
Image captioning consists of the automated description of an image with natural language. The task is challenging because it links together two different domains: Computer Vision (CV) and Natural Language Processing (NLP). Indeed, a captioning system has at least two components, dedicated to each modality respectively. First, a visual encoder extracts visual features from an image. Then, these are used to condition a language model to produce a sentence that describes the very same image. Current state-of-the-art solutions for this task all resort to neural networks trained on large-scale datasets. To meet the always-increasing demand for data from those algorithms, existing datasets are usually integrated with samples collected from the Internet. The quality of this approach is sub-optimal because often image-text pairs from the web show a poor alignment. Encouraged by recent advancements in generative Artificial Intelligence (AI), this thesis aims to assess the possibility to use synthetic images to enhance a deep learning captioning model. In particular, we leverage images produced by a stable diffusion algorithm conditioned on the captions of the COCO dataset. Our architecture follows the encoder-decoder paradigm, where we leverage a vision encoder pre-trained with Contrastive Language–Image Pre-training (CLIP). To obtain a baseline reference point, we start by training this model on COCO. Then, we analyze how its performance changes as we replace real images with synthetic ones in a probabilistic manner. Finally, we apply advanced data-augmentation techniques, such as Mixup, to combine real and artificial samples. To the best of our knowledge, we are the first ones to evaluate this strategy with synthetic data in the field of image captioning. Experimentally, we manage to improve the baseline performance, keeping the same architecture and only operating at the data level. The role of synthetic data in this work is justified by our ablation studies, in which the same improvements can't be achieved by substituting artificial images with similar real-world counterparts.
|