Riassunto analitico
Questa tesi è incentrata sull’intelligenza artificiale, con un focus specifico sui modelli linguistici multimodali di grandi dimensioni (MLLM). La ricerca esplora come questi modelli avanzati integrano e processano diversi tipi di dati, come testo e immagini, per migliorare le capacità di comprensione e generazione attraverso più modalità. Un modello linguistico multimodale di grandi dimensioni (MLLM) è un sistema avanzato di IA che combina le potenti capacità di ragionamento dei modelli linguistici (LLM), come GPT-3 o LLaMA-3, con la capacità di processare, comprendere e generare risposte in più modalità, inclusi testo, immagini, audio, video e altro. Questa integrazione consente agli MLLM di interpretare e rispondere a input complessi multimodali, migliorando la loro versatilità e applicabilità in una vasta gamma di compiti. In questo lavoro ci concentriamo su Natural Language Processing (NLP) e Computer Vision (CV), esplorando in particolare scenari che coinvolgono input multimodali (immagine + testo) e output basati su testo. Un esempio di tale compito è il Visual Question Answering (VQA). L’architettura di un MLLM si suddivide in tre componenti principali: LLM backbone, Modality Encoder e Adapter. Il Modality Encoder ha il compito di estrarre caratteristiche dalle modalità non testuali; per le immagini, questo encoder è generalmente un modello visivo pre-addestrato, come CLIP (Contrastive Language–Image Pre-training). L’Adapter funge da ponte tra l’encoder e l’LLM: poiché gli LLM sono limitati all’interpretazione del testo, le caratteristiche multimodali devono essere proiettate nello spazio testuale per consentire un’integrazione efficace. Il MLLM di riferimento utilizzato per gli esperimenti in questa ricerca è LLaVA (Large Language and Vision Assistant), un modello all’avanguardia nell’IA multimodale che combina le capacità dei grandi modelli linguistici con la comprensione visiva. La ricerca si focalizza sul ruolo degli Adapter, esplorando come diverse architetture di adapter possano migliorare le prestazioni dei modelli multimodali. L’analisi sperimentale presentata in questo lavoro esplora l’efficacia di questi adapter nel migliorare non solo l’accuratezza del captioning delle immagini, ma anche le capacità di ragionamento generale del modello quando affronta contenuti visivi complessi. Un contributo fondamentale di questa tesi è la valutazione approfondita dell’adapter Honeybee CAbstractor, integrato nel framework LLaVA in sostituzione dell’adapter ml2px, un MLP (Multilayer Perceptron) a due layer con funzioni di attivazione GELU tra i livelli. Lo studio comparativo dimostra come questo cambiamento di architettura influenzi la capacità del modello di generalizzare in diversi domini semantici. Inoltre, questo lavoro esamina più in generale i benefici nella scelta di un adapter rispetto a un altro, concentrandosi sul potenziale di accelerare l’addestramento del modello, ridurre la quantità di features multimodali richieste dall’MLLM e ottimizzare lo spazio nella finestra di contesto del modello.
|
Abstract
This thesis centers on artificial intelligence, specifically delving into the realm of multimodal Large Language Models (MLLMs). This research explores how these advanced AI models integrate and process diverse data types, such as text and images, to enhance understanding and generation capabilities across multiple modalities.
A Multimodal Large Language Model (MLLM) is an advanced AI model that combines the powerful reasoning abilities of Large Language Models (LLMs), such as GPT-3 or LLaMA-3, with the ability to process, understand, and generate responses across multiple modalities, including text, images, audio, video, and more. This integration enables MLLMs to interpret and respond to complex multimodal inputs, enhancing their versatility and applicability in a range of tasks. In this work, we focus on Natural Language Processing (NLP) and Computer Vision (CV), specifically exploring scenarios involving multimodal inputs (image + text) and text-based outputs. An example of such a task is Visual Question Answering (VQA).
The architecture of an MLLM is divided into three parts: LLM backbone, Modality Encoder, and Adapter. The Modality Encoder is responsible for extracting features from non-text modalities. For images, this encoder is typically a pretrained visual model, such as CLIP (Contrastive Language–Image Pre-training). The Adapter acts as a bridge between the encoder and the LLM; since LLMs are limited to interpreting text, multimodal features must be projected into the text space to enable effective integration.
The reference MLLM used for the experiments in this research is LLaVA (Large Language and Vision Assistant), a model at the forefront of multimodal AI that combines the capabilities of large language models (LLMs) with visual understanding. The research focuses on the role of Adapters, specifically how different adapter architectures can enhance the performance of multimodal models.
The experimental analysis presented in this work explores the effectiveness of these adapters in improving not only the accuracy of image captioning but also the general reasoning capabilities of the model when dealing with complex visual content. A key contribution of this thesis is the in-depth evaluation of the Honeybee CAbstractor adapter, integrated into the LLaVA framework as a replacement for the ml2px adapter, a two-layer Multilayer Perceptron (MLP) with GELU activation functions between layers. The comparative study demonstrates how such an architectural shift impacts the model’s ability to generalize across different semantic domains.
Furthermore, this work examines the broader benefits of selecting one adapter over another, focusing on the potential to accelerate model training, reduce the quantity of multimodal features required by the MLLM, and optimize space within the model’s context window.
|