Riassunto analitico
Questa tesi rientra nell'ambito dell'intelligenza artificiale (IA). Più precisamente, si colloca nei campi della Visione Artificiale (CV) e dell'Elaborazione del Linguaggio Naturale (NLP), in quanto esplora le capacità dei Modelli Multimodali di Linguaggio di Grandi Dimensioni (MLLM) applicati al compito di Image Captioning: il compito di produrre descrizioni in linguaggio naturale di qualsiasi immagine. Nel recente passato, questo compito veniva svolto progettando reti neurali profonde ad hoc per questo scopo specifico, ottenendo risultati molto soddisfacenti, ma con una certa mancanza di capacità di generalizzazione e una tendenza al sovradattamento. Oggi, la recente evoluzione degli MLLM ha rivoluzionato questo concetto, poiché modelli di uso generale possono essere impiegati per svolgere il compito di image captioning con un'accuratezza e capacità di ragionamento senza precedenti, andando ben oltre lo scopo della semplice descrizione. Questa tesi esplora i limiti dei MLLM standard pre-addestrati applicati al compito di image captioning e studia modi efficienti per affinarli, rendendoli efficaci captioner ad ampio spettro che, sfruttando il vasto pre-addestramento del modello di base, possono produrre risultati soddisfacenti in più domini semantici. Questo adattamento al compito di captioning è stato realizzato applicando tecniche di fine-tuning efficiente dei parametri (PEFT), poiché queste permettono di adattare il comportamento di un modello allenando solo una piccola porzione dei suoi parametri, offrendo un'alternativa leggera al fine-tuning completo. In questo contesto specifico, l'adattamento PEFT si è dimostrato persino più efficace rispetto al fine-tuning completo, soprattutto se si considerano le capacità di generalizzazione del modello.
|
Abstract
This thesis falls into the scope of artificial intelligence (AI). More precisely, within the topics of Computer Vision (CV) and Natural Language Processing (NLP), as it explores the capabilites of Multimodal Large Language Models (MLLMs) applied to the task of Image Captioning: the task of producing natural language descriptions of any given picture. In the recent past, this task was carried out by designing ad-hoc deep neural networks for this sole purpose, leading to very satisfactory results, but somewhat lacking in generalization capabilities and prone to overfitting. Now, recent evolution of MLLMs has revolutionized this concept, as general purpose models can be employed to perform image captioning with unprecedented accuracy and reasoning capabilities, going well beyond the purpose of simple captioning. This thesis explores the limits of standard pre-trained MLLMs applied to the task of image captioning, and studies efficient ways to fine-tune them to make them effective general-purpose captioners that, leveraging the broad pre-training of the base LLM, can yield satisfactory results on multiple semantic domains. This adaptation to the captioning task has been carried out by applying techniques of parameter efficient fine-tuning (PEFT), as they allow for an adaptation of the behaviour of a model by training just a small portion of its parameters, allowing for a lightweight alternative to full fine-tuning. In this specific setting, PEFT adaptation has even proven to be more effective with respect to full fine-tuning, especially when taking into account the generalization capabilities of the model.
|