Riassunto analitico
Il cervello umano è capace di ragionare integrando diverse modalità, tra cui la visione e il linguaggio. L’Intelligenza Artificiale (IA) ha cercato di imitare questo processo usando i cosiddetti modelli linguistici multimodali di grandi dimensioni (MLLM), che tipicamente consistono in un encoder visuale e un modello linguistico di grandi dimensioni (LLM). Sfruttando questi due componenti, insieme ad un adeguato adattatore, molto sforzo è stato fatto per unire efficacemente la visione e il linguaggio. Tuttavia, i difetti visivi sono ancora una sfida chiave. Molti studi hanno evidenziato che la causa principale risiede nella parte visuale, che di solito dipende da modelli basati sul pre-allenamento contrastivo linguaggio-immagine (CLIP). Infatti, nonostante le loro capacità in zero-shot, faticano a produrre buone rappresentazioni visive nella maggior parte dei casi. Questo problema influenza fortemente la combinazione del linguaggio e della visione, portando ad errori nei compiti a valle dei MLLM. Un approccio proposto in letteratura è quello di mettere insieme le caratteristiche visuali di due diversi encoder visuali in vari modi, ma non è stato completamente studiato nella ricerca finora, in particolare attraverso diversi domini. Questa tesi si propone di analizzare ulteriormente questa strategia con diverse configurazioni di MLLM, evidenziandone i vantaggi e gli svantaggi e allargando il campo a nuove possibili soluzioni. Gli esperimenti dimostrano che mescolando le caratteristiche visive in modo diverso si ottiene un forte miglioramento delle capacità visive dei MLLM. I risultati di questa tesi aprono nuove direzioni per migliorare l’integrazione tra visione e linguaggio.
|
Abstract
Human brain is capable of reasoning by integrating different modalities, including vision and language. Artificial Intelligence (AI) has attempted to mimic this process by using Multimodal Large Language Models (MLLMs), that typically consist of a visual encoder and a Large Language Model (LLM). By leveraging these two components, along with a proper adapter, a lot of effort has been made to effectively merge vision and language together. However, visual shortcomings are still a key challenge. Many studies have pointed out that the main cause lies in the vision part, which often relies on models based on Contrastive Language-Image Pre-training (CLIP). Indeed, despite their zero-shot capabilities, they struggle to produce good visual representations in most of cases. This issue strongly influences the combination of language and vision, leading to errors in downstream tasks of MLLMs. A proposed approach in the literature suggests mixing visual features from two different visual encoders in various ways, but it has not been fully investigated in research so far, particularly across different domains. This dissertation aims to further analyse this strategy with different configurations of MLLMs, highlighting its advantages and disadvantages and broadening the scope to new possible solutions. Experiments show that mixing visual features in a different way results in strongly enhancing visual capabilities of MLLMs. Findings of this thesis open up new directions for improving the integration between vision and language.
|