Riassunto analitico
L’utilizzo di Convolutional Neural Network(CNN) ha permesso di ottenere risultati eccellenti in molteplici applicazioni reali della Computer Vision. Questi risultati sono stati possibili sopratutto grazie alla disponibilità di enormi quantità di dati annotati con i quali le CNN sono state allenate. Raccogliere e annotare dati per ogni nuovo task e dominio applicativo risulta però essere un processo oneroso e non sempre si ha a disposizione un quantitativo sufficiente di dati per il training. É quindi necessario sviluppare dei metodiper trasferire efficacemente la conoscenza appresa da un dominio source con molti dati annotati a un dominio target simile, ma i cui i dati annotati sono pochi o non sono presenti. Nel training supervisionato si assume che i dati utilizzati siano indipendenti e identicamente distribuiti, mentre quando si considerano diversi domini, pur essendo simili tra di loro, si ha a che fare con distribuzioni differenti, ma correlate. Questo problema è noto in letteratura come domain shift. Nel caso di immagini questo è causato da molteplici fattori, come l’illuminazione, la posa e la qualità delle immagini stesse. A causa del domain shift, una CNN allenata con dati provenienti da un dominio source ha performance peggiori quando viene utilizzata su dati provenientida un dominiotarget. Uno scenario reale in cui questo accade è l’autonomous driving, dove delle CNN sono allenate per effettuare una segmentazione semantica della scena in modo da individuare pedoni, strade, etc. Il processo di training di questo task richiede di avere immagini in cui ogni pixel ha una annotazione. Intuitivamente, la creazione di dataset per questo ambito risulta essere molto complesso e richiede tempi elevati. Per evitare di dover compiere manualmente l’annotazione delle immagini, una nuova linea di ricerca si sta focalizzando sul generare scene utilizzando simulatori fotorealistici che permettano di avere in automatico una corretta annotazione delle immagini. Alcuni esempi di questo sono dataset come GTA, Synthia e Virtual KITTI. Si è però visto che a causa del domain shift, CNN allenate con le immagini sintetiche hanno performance peggiori quando vengono utilizzate su immagini reali. Per cercare di risolvere questo problema è nato il Domain Adaptation(DA), un insieme di tecniche di apprendimento che cercano di sfruttare i dati annotati di un dominio source per imparare un task da applicare poi su un dominio target in presenza di un domain shift.
|