Riassunto analitico
Questa tesi propone un modello di Deep Learning e Computer Vision che permette di effettuare una generalizzazione del task inerente alla image-sentence retrieval. Viene proposto un modello di Visual-Semantic Embedding in grado di allineare immagini e testo tra due domini diversi, basandosi solo sulla supervisione dei dati su un dominio generalizzato. Le rappresentazioni intermedie vengono utilizzate per proiettare immagini e frasi in uno spazio di embedding comune di dimensione fissata. Si utilizzano le capacità del modello proposto con lo scopo di allineare testo e immagini provenienti da un dominio completamente diverso, da quello su cui è stato allenato, utilizzando un approccio semi-supervisionato. Il modello proposto è stato allenato su dataset generici quali MS-COCO, Flickr30K e Flickr8K; invece, per la valutazione vengono utilizzati domini più specifici inerenti all’ambito culturale e fashion quali EsteArtworks e DeepFashion.
|