Riassunto analitico
La recente introduzione sul mercato di nuovi sensori RGB-D, economici ma con elevati standard di funzionamento, ha stimolato l'interesse della comunità scientifica riguardo l'utilizzo delle immagini di profondità, in vari campi della Visione Artificiale. Tali sensori, essendo basati su illuminatori attivi, sono preferibili nel caso in cui sia necessario sviluppare soluzioni in grado di operare in ambienti a bassa, variabile o totalmente assente luminosità. Le immagini di profondità quindi rappresentano il tipo di dato ideale con cui lavorare nei contesti applicativi presi in esame in questa tesi, ovvero il campo automotive e quello dell'interazione uomo-macchina in ambienti indoor. Nel primo caso, si propone lo sviluppo di un sistema in grado di monitorare lo stato psico-fisico del conducente, tramite la stima continua dell'orientazione della testa e del busto, e l'individuazione delle zone salienti del volto. Nel secondo caso, richiamando il concetto di Interfacce Naturali, in cui l'interazione uomo-macchina non è veicolata dai tradizionali dispositivi fisici ma direttamente dal corpo umano, si propongono soluzioni volte al rilevamento e alla classificazione di gesti e stima della direzione dello sguardo. In questa tesi, per i problemi di visione sopra riportati, si propongono soluzioni allo stato dell'arte basate sul paradigma del deep learning. In particolare, vengono descritti due framework: POSEidon, realizzato per la stima accurata e in tempo reale della posizione 3D della testa, a partire da immagini di profondità e dalle loro corrispondenti RGB, e JanusNet, architettura che sfrutta la Privileged Information per determinare l'identità di un soggetto, basandosi sui soli dati di profondità del viso. Viene inoltre presentata l'architettura Face-from-Depth, in grado di generare immagini di volti dalle corrispettive immagini di profondità e viceversa. Viene dimostrato come tale tecnica, tra le più originali e innovative di questa tesi, possa essere impiegata in maniera proficua per migliorare le prestazioni delle soluzioni sopra descritte. Infine, per favorire l'attuabilità delle soluzioni proposte in reali contesti applicativi, si è affrontato il problema del rilevamento della testa all'interno di frame video acquisiti con sensori RGB-D, proponendo soluzioni real time e in grado di gestire la variabilità negli scenari di impiego. La realizzazione dei framework è stata resa possibile grazie all'acquisizione di nuovi dati e le relative annotazioni. I dataset creati, tra cui Pandora e MotorMark, sono orientati al deep learning e sono stati resi pubblicamente accessibili, in quanto rappresentano ad oggi lo standard di riferimento per la comunità scientifica e le aziende del settore.
|
Abstract
Recently, the introduction of new, cheap but high-quality RGB-D sensors has increased the interest of the academic community regarding the use of depth maps, in various fields of the Computer Vision.
Since these sensors are based on active illuminators, they are useful to develop solutions that are able to work in environments with a low, variable or absent illumination source.
Therefore, depth maps are the ideal type of data for the areas of applications investigated in this thesis, like the automotive and the indoor human-computer interaction fields.
In the first case, a complete system to monitor the driver physical and psychic status is proposed, exploiting the continuous head and shoulder pose estimation, and the detection of the driver facial landmarks.
In the second case, recalling the concept of the Natural User Interfaces, in which the human-machine interaction is not conveyed by the traditional physical devices but directly by the human body, a method to detect and classify gestures and to estimate the user gaze is presented.
In this thesis, for the aforementioned vision-based problems, we present state of the art and deep learning-based solutions.
In particular, two frameworks are described: POSEidon, designed for an accurate and real-time 3D head pose estimation, through depth maps and corresponding RGB images, and JanusNet, an architecture that, exploiting the Privileged Information paradigm, is able to perform the face verification task with only depth data.
Moreover, we introduce the Face-from-Depth model, a deep architecture able to generate face images from depth data and vice versa. We show how this technique, one of the most innovative and original parts of this work, can be used to boost the performance of the presented solutions.
Finally, in order to increase the feasibility of the proposed methods, we tackle the head detection task in videos acquired with RGB-D sensors. A real-time and robust system, that is able to handle the variability and the complexity of the scene, is proposed.
These frameworks are based on novel datasets, e.g. Pandora and MotorMark, that have been acquired and annotated. These datasets are deep learning-oriented and have been publicly released and they represent the reference standards for the scientific community and the related companies.
|