Riassunto analitico
La diffusione di modelli linguistici di grandi dimensioni (LLM) con capacità senza precedenti di elaborazione del linguaggio naturale (NLP) ha stimolato una significativa ricerca in questo settore. In particolare, i ricercatori hanno cercato di migliorare ulteriormente le loro già notevoli capacità di generare testo integrando più modalità di input, con varie combinazioni di testo, immagini o addirittura altri tipi di input come il suono. Questo ha ulteriormente ampliato il campo di applicazione di questi modelli. Partendo da queste basi, la mia tesi si concentra sull'esplorazione e sul potenziamento dei modelli tramite il concetto di retrieval-augmented generation, con un'enfasi particolare sui compiti di recupero di immagini e testi da immagini. Il concetto di retrieval-augmented generation implica lo sfruttamento di fonti di conoscenza esterne per migliorare le capacità generative dei LLM, migliorando così le loro prestazioni su compiti specifici. Questo approccio è simile al modo in cui gli esseri umani applicano le loro conoscenze pregresse per comprendere nuove informazioni e gestire vari compiti senza iniziare da da zero. La prima parte della tesi, i capitoli 1, 2, 3 e 4, è un'introduzione al moderno mondo dell'intelligenza artificiale. La descrizione parte dal neurone e dalle prime reti neurali, fino a tutti i modelli più importanti per quanto riguarda l'elaborazione del linguaggio naturale, l'elaborazione delle immagini, LLMs, e modelli multimodali. Il capitolo 5 segna il passaggio all'obiettivo centrale della tesi: valutare i principali image encoders, testando le loro capacità di retrieval in tre distinti VQA datasets. Questa analisi mira a determinare l'image encoder più efficace per migliorare le prestazioni del modello multimodale. Per quanto riguarda la metrica, la scelta è caduta sulla Recall. Nel contesto del information retrieval e di machine learning, la Recall misura la capacità del modello di identificare correttamente tutte le istanze rilevanti all'interno di un set di dati. Dopo aver identificato gli image encoder con le migliori prestazioni, questi sono serviti come base per lo sviluppo di un nuovo modello utilizzando il learning contrastivo. Questo approccio cerca l'allineamento tra le rappresentazioni visive e testuali, migliorando sia l'accuratezza che la robustezza del retrieval. Come dimostrano i risultati, il nuovo modello supera le prestazioni dei singoli image encoders, dimostrando le sue superiori capacità di retrieval.
|
Abstract
The release of large language models (LLMs) with unprecedented capabilities to
perform natural-language processing (NLP) tasks has spurred significant research
in this area. In particular, researchers have seeked to further improve their already
impressive text generation capabilities by integrating multiple input modalities, with
various combinations of text, image or even other kinds of input like sound. This
has further broadened the scope for application of these models.
Building upon this foundation, my thesis focuses on the exploration and en-
hancement of retrieval-augmented generation using large language models, with a
particular emphasis on the task of image-from-image and text-from-image retrieval.
The concept of retrieval-augmented generation involves leveraging external knowl-
edge sources to enhance the generative capabilities of LLMs, thus improving their
performance on specific tasks. This approach is akin to how humans apply prior
knowledge to understand new information and handle various tasks without starting
from scratch.
The first part of the thesis, chapter 1,2,3 and 4 is an introduction to the modern
artificial intelligence world. The description starts from the neuron and the first
neural networks, up to all the most important models for what concerns Natural
language processing, image processing, LLMs and Multi-modal models.
Chapter 5 marks the transition to the core objective of the thesis: evaluating
leading image encoders by testing their retrieval capabilities across three distinct
visual question answering (VQA) datasets. This analysis aims to determine the
most effective image encoder for enhancing multimodal model performance.
Concerning the metric, the choice fell on the Recall. In the context of information
retrieval and machine learning, Recall measures the ability of the model to correctly
identify all relevant instances within a dataset.
After identifying the best-performing image encoders, they served as the founda-
tion for developing a new model using contrastive learning. This approach seeks to
improve the alignment between visual and textual representations, enhancing both
retrieval accuracy and robustness.
As demonstrated by the results, the new model surpasses the performance of
individual image encoders, showcasing its superior retrieval capabilities.
|