Riassunto analitico
In questa tesi viene descritto il metodo utilizzato per implementare un modello di detection e tracking delle persone, attraverso la predizione dell'output compresso di un Volumetric Heatmap Autoencoder (VHA), al fine di poter gestire in modo compresso i dati volumetrici. Infatti, i dati volumetrici grezzi e non compressi, essendo sparsi e di grandi dimensioni, rendono difficile l'implementazione di reti neurali che li gestiscano direttamente. I dati tridimensionali utilizzati sono stati ottenuti dal nuovo dataset sintetico MOTSynth, che ci ha permesso di generare heatmap 3D dei centri e mappe 3D di altezza e larghezza delle bounding box. Queste mappe sono compresse dal VHA in una fase iniziale. Il codice del VHA viene predetto da una rete separata, che ha come input l'immagine reale, e viene poi decompresso dal decoder del VHA. Questo approccio funziona correttamente e si conferma una buona soluzione per la gestione dei dati volumetrici. Nello spazio tridimensionale risulta anche più facile realizzare il tracking, che abbiamo cercato di implementare con un elementare approccio di Nearest Neighbor basato su SORT.
|
Abstract
This thesis describes the method used to implement a people detection and tracking model by predicting the compressed code from a Volumetric Heatmap Autoencoder (VHA), in order to be able to handle in a compressed way the volumetric data.
As a matter of fact, raw and uncompressed volumetric data, given their sparsity and large size, make it difficult to implement neural networks that directly work on them.
The three-dimensional data used were obtained from the new synthetic dataset MOTSynth, which allowed us to generate 3d heatmaps of the centers and 3D maps of height and width of the bounding boxes. These maps are compressed by the VHA at an early stage. The compressed code is predicted by a separate network that has the actual image as input. The predicted VHA code is then decompressed by the VHA decoder.
Our approach works correctly and is confirmed to be a good solution to handle volumetric data. In the three-dimensional space it turns out to be also easier to realize the tracking, which we tried to realize with a simple SORT based Nearest Neighbor technique.
|