Riassunto analitico
Questa tesi si colloca nell’ambito dell’Intelligenza Artificiale, più precisamente è il frutto dell’intersezione tra il campo del linguaggio (“Natural Language Processing”) e quello che viene denotato come “Computer Vision”. Si basa sull’analisi e sviluppo di nuovi algoritmi per la generazione di descrizioni in linguaggio naturale relative ad immagini di qualsivoglia natura. È considerata una vera e propria tesi di ricerca in quanto, poiché sono già esistenti tecniche che operano in questo ambito, l’obiettivo di questo elaborato consiste nel ricercare un nuovo algoritmo che possa sostituire quelli attuali migliorandone le prestazioni. Si propone quindi una nuova tecnica di Deep Learning basata su una rete formata da un codificatore e relativo decodificatore che utilizza un meccanismo di attenzione, utilizzando, al posto dei classici rilevatori di oggetti, la parte visiva del modello come codificatore di immagini, completandolo con un modello di recupero informazioni di tipo testuale. Questa interazione tra dati di diversa natura fa acquisire al modello la proprietà di essere definito “cross-modale” dove la componente di estrazione agisce come un’approssimazione della tecnica k-NN basata su una memoria esterna. I modelli classici di deep learning utilizzati nella visione sono efficaci a svolgere un compito preciso, ma richiedono uno sforzo significativo per adattarsi a svolgere un nuovo lavoro. Per questo motivo, il primo componente importante su cui si basa questa tesi è CLIP, una rete neurale formata da un codificatore di immagini e da un codificatore di testo per capire quali immagini sono state accoppiate con quali descrizioni del dataset, utilizzato durante il processo di addestramento. Dopo aver eseguito una sorta di classificazione di quelle che sono le caratteristiche (features) importanti dell’immagine, il modello proposto consente di eseguire un’ulteriore estrazione di features da una fonte di dati esterna in modo da aggiungere particolarità, accuratezza e informazioni alle caratteristiche che sono state estratte dall’immagine originale. Pertanto, si propone in seguito un modello definito “captioner” composto da due codificatori ed un decodificatore. Il primo codificatore è necessario per creare, a partire dall’immagine di input, una generica ma differenziante rappresentazione (embedding). In merito, si adotta un ulteriore codificatore che ha il compito di creare una propria rappresentazione a partire dalle descrizioni che sono state recuperate e quindi estratte dalla base di conoscenza esterna. Per quanto concerne il decodificatore, è quel componente adibito alla generazione della descrizione. Per fare ciò, si propongono due architetture diverse costituite entrambe da un elemento (gate) che permette di focalizzare l’attenzione in modo differente in base all’immagine ricevuta in input. Entrambe le versioni consistono nell’applicazione di meccanismi di “self-attention” e “cross-attention” tra le frasi definite di ground-truth e le descrizioni che sono state recuperate dalla base di conoscenza esterna. Si tratta dunque di un nuovo meccanismo che perfeziona notevolmente le tecniche attuali presenti in letteratura.
|
Abstract
This thesis falls within the scope of Artificial Intelligence, more precisely it is the result of the intersection between the field of language (Natural Language Processing) and what is denoted as “Computer Vision”. The project focuses on the analysis and development of new algorithms for the generation of natural language descriptions relating to any kind of images. Since there are already existing techniques in literature that operate in this area, it is a full-fledged research thesis with the goal of searching for a new algorithm that can replace the current ones by improving their performance. Accordingly, we propose a new deep learning technique based on a network formed by an encoder and relative decoder which uses an attention mechanism, applying, instead of the classic object detectors, the visual part of the model as an image encoder, completing it with a textual information retrieval model. This interaction between data of different nature makes the model acquire the property of being defined as “cross-modal” in which the extraction component acts as an approximation of the k-NN technique based on an external memory.
The classic deep learning models applied in vision are effective at accomplishing a specific task but require significant effort to perform a new job. For this reason, the first important component on which this thesis is based is CLIP, a neural network formed by an image encoder and a text encoder to understand which images have been coupled with which descriptions of the dataset used during the training process. After having performed a sort of classification of what are the important characteristics (features) of the image, the proposed model allows to perform a further features extraction from an external data source in order to add particularities, accuracy and information to the properties extracted in the original image. Consequently, a model called “captioner”, composed of two encoders and a decoder which will be fundamental in the description generation phase, is proposed. The first encoder is necessary to create, starting from the input image, a generic but differentiating representation (embedding). In this respect, a further codifier is proposed which has the task of creating its own representation starting from the descriptions that have been extracted from the external knowledge base. As regards the decoder, it is that component used for the generation of the description. To perform this operation, two different architectures are established, both consist of an element (gate) that allows to focus attention on different ways based on the input image received. Both versions include the application of “self-attention” and “cross-attention” mechanisms between the defined ground-truth sentences and the descriptions that have been retrieved from the external knowledge base. It is therefore a new model that greatly improves the current techniques available in literature.
|