Riassunto analitico
Il rilevamento dei pedoni attraverso la visione artificiale è un elemento fondamentale per un insieme di applicazioni nel contesto di "smart cities", come la sorveglianza di aree sensibili, sicurezza personale, monitoraggio e controllo del flusso pedonale per menzionarne solo alcuni. Di recente, c'è stato un crescente interesse per le architetture di deep learning al fine di svolgere tale compito. Uno degli obiettivi critici di questi algoritmi è di generalizzare le conoscenze acquisite durante la fase di training in nuovi scenari con varie caratteristiche, disporre di un set di dati adeguatamente etichettato è fondamentale per il raggiungimento di questo obiettivo. Il problema principale è che l'annotazione manuale di un set di dati di solito richiede molto sforzo umano ed è un'operazione che necessita tempo e denaro. Per questo motivo in questo lavoro abbiamo introdotto MotSyn (Mot Synthetic), un nuovo dataset di immagini sintetiche raccolte da un videogioco 3D realistico in cui le etichette sono generate automaticamente sfruttando le posizioni dei pedoni 2D estratte dal motore grafico, il tutto senza l'ausilio di alcun supporto umano. Abbiamo usato questo nuovo set di dati sintetici per allenare una rete neurale convolutiva computazionalmente efficiente (CNN) pronta per essere installata in dispositivi intelligenti a bassa potenza, come le telecamere intelligenti. Un'ampia sperimentazione condotta su diversi set di dati del mondo reale mostra risultati molto competitivi rispetto ad altri metodi presentati in letteratura in cui gli algoritmi vengono addestrati utilizzando dati del mondo reale.
|
Abstract
The detection of pedestrians through artificial vision is a fundamental element for a title of applications in the context of "smart cities", such as surveillance of sensitive areas, personal safety, monitoring and control of pedestrian flow to mention only a few. Recently, there has been a growing interest in deep learning architectures in order to accomplish this task. One of the critical objectives of these algorithms is to generalize the knowledge acquired during the training phase in new scenarios with various characteristics, having an adequately labeled data set is fundamental for achieving this objective. The main problem is that manually annotating a dataset usually requires a lot of human effort and is an operation that requires time and money. For this reason, in this work we have introduced MotSyn (Mot Synthetic), a new dataset of synthetic images collected from a realistic 3D video game in which labels are automatically generated using the 2D pedestrian positions extracted from the graphics engine, all without the help of any human support.
We used this new synthetic data set to train a computationally efficient convolutional neural network (CNN) ready to be installed in low-power smart devices, such as smart cameras. Extensive experimentation conducted on different real-world datasets shows very competitive results compared to other methods presented in the literature where algorithms are trained using real-world data.
|