Tesi etd-03192021-172124

Tipo di tesi

Tesi di laurea magistrale

Autore

CAGRANDI, MARCO

URN

etd-03192021-172124

Titolo

Novel Object Captioning: Descrivere oggetti non presenti nel training set

Titolo in inglese

Struttura

Dipartimento di Ingegneria

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
CUCCHIARA RITA	Primo relatore
CORNIA MARCELLA	Correlatore
STEFANINI MATTEO	Correlatore
BARALDI LORENZO	Secondo relatore

Parole chiave

descrizione immagini
image captioning
novel objects
selettore selector
transformer

Data inizio appello

2021-04-15

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2061-04-15

Riassunto analitico

Negli ultimi anni, una delle più interessanti sfide relative alla visione artificiale (Computer vision), alla elaborazione digitale delle immagini (Image processing) ed alla elaborazione del linguaggio naturale (Natural language processing), è la “Descrizione in linguaggio naturale delle immagini" (Image captioning). Si tratta, in altre parole, di progettare e realizzare sistemi e modelli in grado di analizzare le immagini al fine di fornirne una descrizione didascalica in linguaggio naturale quanto più possibile conforme ed omogenea a quella che produrrebbe una persona o un gruppo di persone. È quindi possibile suddividere il problema in due componenti principali: una prima che riguarda l’analisi dell’immagine e del suo contenuto (ad es.gli oggetti, le persone, gli animali ecc.) ed una seconda, un modello di linguaggio, che si occupa della generazione di una frase in linguaggio naturale. In questo ambito, i vari modelli proposti ed adottati, nel corso del tempo, hanno dimostrato di essere in grado di raggiungere importanti risultati sia dal punto di vista di applicazioni relative al recupero delle immagini (image retrieval) che di applicazioni multimediali. Tuttavia, queste soluzioni sono fortemente legate all’utilizzo di dataset noti e dati organizzati in una coppia (immagine, descrizione), dove ogni elemento importante dell’immagine è annotato e disponibile durante la fase di training per l’addestramento del modello. L’applicazione di questi sistemi a casi reali è però un aspetto ancora molto impegnativo a causa dell’elevata varietà di “concetti visuali" (ad es. oggetti, animali ecc.) da prendere in considerazione e delle situazioni in cui questi concetti non siano stati esaminati durante la fase di training, rendendo di fatto il modello “incapace" di riconoscerli e di riportarli correttamente nella didascalia finale. Per questi motivi, recentemente, è stato creato un nuovo paradigma per la valutazione dei modelli di descrizione delle immagini, noto come “Novel Object Captioning" (NOC) ovvero “Descrizione di nuovi oggetti", che ha come obiettivo quello di creare modelli in grado di riconoscere e descrivere correttamente concetti visivi non disponibili durante la fase di allenamento del modello stesso e di verificarne l’efficacia in casi reali. Nello specifico, lo scopo di questa tesi è quello di creare un nuovo modello di Novel Object Captioning, in grado di ottenere risultati migliori in termini di riconoscimento e descrizione di “nuovi oggetti" (novel objects) e, più in generale, di “nuovi concetti visivi". Viene ideato e proposto l’utilizzo del componente “Selector Transformer", che si occupa di riconoscere “concetti visivi" rilevanti all’interno dell’immagine, indipendentemente dall’esperienza accumulata durante la fase di training, e di costruire opportunamente la didascalia finale imponendo adeguati vincoli al modello di linguaggio.

Abstract

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore