Riassunto analitico
L'obiettivo di questo lavoro è ottenuto con l'approccio Domain Separation, che è un insieme di tecniche che cercano di separare le features che hanno il maggiore impatto sul divario tra due domini, sintetico e reale. Potendo identificare quali features sono invarianti tra i due domini, sarà possibile concentrarsi su questi e assicurarsi che una Convolutional Neural Network funzioni correttamente su dati reali anche se è stata trainata solo con dati sintetici. Di conseguenza, questo progetto utilizza un Feature Extractor, ovvero una rete neurale che estrae le features da un'immagine di input e le separa in due sottoinsiemi: il primo sottoinsieme corrisponde a features indipendenti dal dominio, ovvero quelle che non dipendono dal dominio e sono le stesse indipendentemente dal fatto che provengano da un frame sintetico o reale, mentre il secondo sottoinsieme corrisponde a features specifiche del dominio, che sono quelle che dipendono dal dominio e danno più problemi agli algoritmi di Domain Adaptation. Cerchiamo di dimostrare che trainando una rete di Pose Estimation con dati sintetici e testandola con dati reali considerando solo le features indipendenti, otterremo la stessa accuratezza come se avessimo trainato la rete con dati reali.
|
Abstract
The goal of this work is obtained with the Domain Separation approach, which are a set of techniques that try to separate the features that have the greatest impact on the gap between two domains, synthetic and real. By being able to identify which features are invariant between the two domains, it will be possible to focus on these and make sure that a Convolutional Neural Network works correctly on real data even if it has been trained only with synthetic data.
Consequently, this project uses a Feature Extractor, that is a neural network that extracts the features from an input image, and separates them into two subsets: the first subset corresponds to Domain Independent Features, i.e. those which don't depend on the domain and that are the same whether they come from a synthetic or real frame, while the second subset corresponds to Domain Specific Features, which are the ones that depend on the domain and give more problems to the Domain Adaptation algorithms. We try to show that by training a Pose Estimator network with synthetic data and testing it with real data considering only the independent features, then we will obtain the same accuracy as if we had trained the network with real data.
|