Riassunto analitico
Negli ultimi anni, il campo della guida autonoma è stato oggetto di un aumento di interesse sia da parte delle case automobilistiche sia da parte degli istituti di ricerca. Per auto a guida autonoma si intende un veicolo in grado di percepire l'ambiente circostante e di muoversi in sicurezza, senza o con il minimo intervento umano. In particolare, la percezione è il primo stadio della pipeline di un'auto a guida autonoma, la quale utilizza un’apposita suite di sensori, combinata con applicativi software per analizzare e comprendere l'ambiente intorno al veicolo. I sistemi più recenti sono basati su reti neurali che richiedono per l’allenamento una grande quantità di dati annotati, che possono essere molto costosi da ottenere, in quanto, spesso è richiesto l’intervento umano per etichettare manualmente i dati o per supervisionare e correggere la generazione automatica delle etichette. A tale scopo, in questo lavoro di tesi, è stata eseguita una ricerca approfondita dei simulatori e dei dataset sintetici e reali open source per la guida autonoma. Successivamente, è stato generato un dataset sintetico e infine è stato fatto uno studio sulle architetture allo stato dell’arte nella stima della profondità, dando particolare importanza alle reti che utilizzano una singola immagine RGB come input. Dopo un'analisi dei sistemi esistenti, si è deciso di realizzare un dataset sintetico utilizzando Carla [Dosovitskiy et al., 2017], un simulatore di guida autonoma open source. Il dataset generato (Carla dataset) è composto da 53k immagini e ha etichette accurate per depth estimation, semantic segmentation e 2D object detection. In seguito, sono state scelte due architetture per la stima della profondità, BTS [Lee et al., 2019] e DenseDepth [Alhashim et al., 2019]. Le due architetture sono state allenate con Carla dataset per valutare e confrontare l’accuratezza delle due reti, rimanendo all’interno del dominio sintetico. In seguito, le due architetture sono state utilizzate per eseguire l’inferenza su un dataset reale non etichettato realizzato nella città di Trondheim (Norvegia) a cura del NapLab (NTNU Autonomous Perception Laboratory), laboratorio di percezione per veicoli a guida autonoma dell'università NTNU, presso il quale è stata svolta parte di questa attività di tesi. Infine, le reti sono state testate con diverse modalità e diversi tipi di dati di allenamento e sono state valutate qualitativamente sul dataset reale. I risultati ottenuti mostrano le potenzialità dell’utilizzo del dataset sintetico realizzato e che l'uso di dati simulati per pre-allenare le architetture per la stima della profondità, può contribuire a migliorare l'accuratezza del sistema, soprattutto quando i dati annotati acquisiti nel mondo reale sono limitati, e ridurre la necessità di grandi quantità di dati reali annotati manualmente.
|