Riassunto analitico
Negli ultimi anni, una delle più interessanti sfide relative alla visione artificiale (Computer vision), alla elaborazione digitale delle immagini (Image processing) ed alla elaborazione del linguaggio naturale (Natural language processing), è la “Descrizione in linguaggio naturale delle immagini" (Image captioning). Si tratta, in altre parole, di progettare e realizzare sistemi e modelli in grado di analizzare le immagini al fine di fornirne una descrizione didascalica in linguaggio naturale quanto più possibile conforme ed omogenea a quella che produrrebbe una persona o un gruppo di persone. È quindi possibile suddividere il problema in due componenti principali: una prima che riguarda l’analisi dell’immagine e del suo contenuto (ad es.gli oggetti, le persone, gli animali ecc.) ed una seconda, un modello di linguaggio, che si occupa della generazione di una frase in linguaggio naturale. In questo ambito, i vari modelli proposti ed adottati, nel corso del tempo, hanno dimostrato di essere in grado di raggiungere importanti risultati sia dal punto di vista di applicazioni relative al recupero delle immagini (image retrieval) che di applicazioni multimediali. Tuttavia, queste soluzioni sono fortemente legate all’utilizzo di dataset noti e dati organizzati in una coppia (immagine, descrizione), dove ogni elemento importante dell’immagine è annotato e disponibile durante la fase di training per l’addestramento del modello. L’applicazione di questi sistemi a casi reali è però un aspetto ancora molto impegnativo a causa dell’elevata varietà di “concetti visuali" (ad es. oggetti, animali ecc.) da prendere in considerazione e delle situazioni in cui questi concetti non siano stati esaminati durante la fase di training, rendendo di fatto il modello “incapace" di riconoscerli e di riportarli correttamente nella didascalia finale. Per questi motivi, recentemente, è stato creato un nuovo paradigma per la valutazione dei modelli di descrizione delle immagini, noto come “Novel Object Captioning" (NOC) ovvero “Descrizione di nuovi oggetti", che ha come obiettivo quello di creare modelli in grado di riconoscere e descrivere correttamente concetti visivi non disponibili durante la fase di allenamento del modello stesso e di verificarne l’efficacia in casi reali. Nello specifico, lo scopo di questa tesi è quello di creare un nuovo modello di Novel Object Captioning, in grado di ottenere risultati migliori in termini di riconoscimento e descrizione di “nuovi oggetti" (novel objects) e, più in generale, di “nuovi concetti visivi". Viene ideato e proposto l’utilizzo del componente “Selector Transformer", che si occupa di riconoscere “concetti visivi" rilevanti all’interno dell’immagine, indipendentemente dall’esperienza accumulata durante la fase di training, e di costruire opportunamente la didascalia finale imponendo adeguati vincoli al modello di linguaggio.
|