Riassunto analitico
Quando intravediamo una persona in mezzo ad una folla, è spesso difficile distinguerne l'intera figura. Le occlusioni, dovute alla presenza di altri soggetti, portano ad una mancanza di informazioni visuali che normalmente potrebbero essere utilizzate per riconoscere, re-identificare o semplicemente classificare l'individuo in questione. Grazie alla nostra esperienza pregressa e all'immaginazione, possiamo farci un'idea relativa alle parti del corpo non visibili. Allo stesso modo, soluzioni realizzate attraverso modelli di AI, possono provare ad immaginare le informazioni visuali mancanti. Infatti, le deep neural network, se appositamente addestrate con immagini di persone visibili e di soggetti occlusi, mostrano prestazioni alquanto sorprendenti nella risoluzione di questo problema. L'obiettivo di questo lavoro è quello di generare immagini di persone completamente visibili, a partire da una loro versione parzialmente occlusa. In particolare, tali immagini dovranno raffigurare individui con silhouettes plausibili e, congiuntamente, dovranno preservare gli attributi osservabili (es. uomo/donna) delle figure di riferimento. A tale scopo, si è proposto un nuovo approccio che sfrutta diverse architetture facenti parte dello stato dell'arte, in particolare: Unet, GAN e reti neurali per la classificazione di attributi. Il modello finale è stato addestrato con un'apposita funzione di loss che ha lo scopo di orientare la rete a rimuovere le occlusioni tenendo in considerazione anche gli attributi delle persone. Gli esperimenti volti a valutare la bontà del modello sono stati effettuati sia su dati sintetici che su dati reali. I risultati ottenuti sono sorprendenti e si allineano con quelli presenti in letteratura. Questo studio non è che un inizio di quella che può essere una più ampia ricerca sul riconoscimento del comportamento delle persone in ambienti affollati.
|