Riassunto analitico
I Multimodal Large Language Models (MLLMs) hanno recentemente dimostrato notevoli capacità nell'affrontare task multimodali, ovvero attività che richiedono la comprensione congiunta di dati provenienti da modalità eterogenee, quali immagini e testo. Questi modelli stanno rivoluzionando numerosi ambiti applicativi, tra cui la generazione automatica di descrizioni visive, l'interpretazione di contenuti multimediali e la risposta a domande basate su input visivi. Tuttavia, nonostante gli sviluppi promettenti, i MLLMs presentano ancora diverse limitazioni che ne compromettono l'affidabilità e ne rallentano l'adozione in contesti reali. Uno dei problemi più critici è il fenomeno delle "visual hallucinations", ossia la generazione di output testuali non coerenti con il contenuto visuale fornito in input. Tali errori si manifestano, ad esempio, quando il modello cita oggetti e/o dettagli inesistenti nell'immagine fornita oppure interpreta erroneamente ciò che vede, producendo risposte incoerenti o fuorvianti. Questa tesi esplora l'applicazione della Direct Preference Optimization (DPO) come possibile strategia per mitigare il fenomeno delle allucinazioni visive. Originariamente nata nell'ambito del Natural Language Processing, la DPO serve ad allineare il comportamento del modello alle preferenze umane, attribuendo una probabilità maggiore a risposte giudicate migliori dagli utenti. Nel contesto di questo lavoro, l'obiettivo é ottimizzare il comportamento del modello affinché prediliga risposte più coerenti con il contenuto visuale rispetto a quelle contenenti descrizioni imprecise o fuorvianti. Attraverso un parameter efficient fine-tuning del modello LLaVA con DPO come obiettivo e grazie alla valutazione su benchmark progettati per la rilevazione di allucinazioni, questo elaborato si propone di esaminare l'efficacia di questo metodo nel migliorare l'affidabilità dei MLLMs, contribuendo a una loro più ampia e sicura applicabilità in contesti reali.
|
Abstract
Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable capabilities in dealing with multimodal tasks, i.e., tasks that require the joint understanding of data from heterogeneous modalities, such as images and text. These models are revolutionizing numerous application areas, including automatic generation of visual captions, multimedia content understanding and visual question answering.
However, despite promising developments, MLLMs still have several limitations that compromise their reliability and slow their adoption in real-world contexts. One of the most critical problems is the phenomenon of "visual hallucinations", i.e., the generation of textual outputs that are inconsistent with the visual content provided as input. Such errors occur, for example, when the model mentions objects and/or details that do not exist in the provided image or misinterprets what it sees, producing inconsistent or misleading responses.
This thesis explores the application of Direct Preference Optimization (DPO) as a possible strategy to mitigate the phenomenon of visual hallucinations. Originally developed in the field of Natural Language Processing, DPO is used to align model behavior with human preferences by assigning a higher probability to responses judged to be better by users. In the context of this work, the goal is to optimize the model behavior so that it prefers responses that are more consistent with visual content than those containing inaccurate or misleading descriptions.
Through parameter-efficient fine-tuning of the LLaVA model with DPO as training objective and through evaluation on benchmarks designed for hallucination detection, this work aims to examine the effectiveness of this method in improving the reliability of MLLMs, contributing to their wider and safer applicability in real-world contexts.
|