Tesi etd-09262021-141336

Tipo di tesi

Tesi di laurea magistrale

Autore

MANCUSI, GIANLUCA

URN

etd-09262021-141336

Titolo

Apprendimento su output compresso per la detection ed il tracking delle persone utilizzando dati sintetici 3D

Titolo in inglese

Learning on Compressed Output to detect and track people using 3D synthetic data

Struttura

Dipartimento di Ingegneria "Enzo Ferrari"

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
CUCCHIARA RITA	Primo relatore
CALDERARA SIMONE	Correlatore
FABBRI MATTEO	Correlatore

Parole chiave

computer vision
deep learning
people detection
people tracking
synthetic data

Data inizio appello

2021-10-21

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2061-10-21

Riassunto analitico

In questa tesi viene descritto il metodo utilizzato per implementare un modello di detection e tracking delle persone, attraverso la predizione dell'output compresso di un Volumetric Heatmap Autoencoder (VHA), al fine di poter gestire in modo compresso i dati volumetrici.
Infatti, i dati volumetrici grezzi e non compressi, essendo sparsi e di grandi dimensioni, rendono difficile l'implementazione di reti neurali che li gestiscano direttamente.
I dati tridimensionali utilizzati sono stati ottenuti dal nuovo dataset sintetico MOTSynth, che ci ha permesso di generare heatmap 3D dei centri e mappe 3D di altezza e larghezza delle bounding box. Queste mappe sono compresse dal VHA in una fase iniziale. Il codice del VHA viene predetto da una rete separata, che ha come input l'immagine reale, e viene poi decompresso dal decoder del VHA.
Questo approccio funziona correttamente e si conferma una buona soluzione per la gestione dei dati volumetrici. Nello spazio tridimensionale risulta anche più facile realizzare il tracking, che abbiamo cercato di implementare con un elementare approccio di Nearest Neighbor basato su SORT.

Abstract

This thesis describes the method used to implement a people detection and tracking model by predicting the compressed code from a Volumetric Heatmap Autoencoder (VHA), in order to be able to handle in a compressed way the volumetric data. As a matter of fact, raw and uncompressed volumetric data, given their sparsity and large size, make it difficult to implement neural networks that directly work on them. The three-dimensional data used were obtained from the new synthetic dataset MOTSynth, which allowed us to generate 3d heatmaps of the centers and 3D maps of height and width of the bounding boxes. These maps are compressed by the VHA at an early stage. The compressed code is predicted by a separate network that has the actual image as input. The predicted VHA code is then decompressed by the VHA decoder. Our approach works correctly and is confirmed to be a good solution to handle volumetric data. In the three-dimensional space it turns out to be also easier to realize the tracking, which we tried to realize with a simple SORT based Nearest Neighbor technique.

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore