Riassunto analitico
Una delle aree più significative e impegnative della computer vision è quella del rilevamento e del tracciamento degli oggetti, che ha trovato largo impiego in una varietà di settori, tra cui i veicoli a guida autonoma, il rilevamento di anomalie, il monitoraggio della salute, la sicurezza e altro ancora. L'efficienza dei detector e dei tracker di oggetti è aumentata in modo significativo grazie al rapido progresso delle reti di Deep Learning (DL), alla capacità di elaborazione delle GPU e alla presenza di grandi quantità di dataset. In questa tesi, l'obiettivo principale è stato quello di analizzare nuove tecniche di Deep Learning in relazione all'assenza o alla scarsità di dati etichettati. Infatti, il lavoro svolto consiste nello studio, analisi e benchmarking di due tecniche di addestramento nei domini semi-supervisionati e auto-supervisionati relativamente al rilevamento e al tracciamento di persone attraverso tecniche recenti come il Teacher-Student Mutual Learning e la Cross Input Consistency. In entrambi gli esperimenti, il flusso di lavoro è stato orientato all'obiettivo di ridurre ulteriormente la dipendenza dai dataset etichettati, a causa dell'elevato costo in termini economici e soprattutto di tempo dell'attività di etichettatura. Pertanto, le tecniche analizzate sono state reimplementate utilizzando framework più aggiornati come PyTorch e sfruttando il dataset sintetico MOTSynth creato dal laboratorio Aimagelab dell’Università degli Studi di Modena e reggio Emilia in collaborazione con l'Università di Monaco.
|
Abstract
One of the most significant and challenging areas of computer vision is object detection and tracking, which has found wide use in a variety of areas, including autonomous vehicles, anomaly detection, health monitoring, security and more. The efficiency of object detectors and trackers has increased significantly due to the rapid advancement of Deep Learning (DL) networks, the processing capability of GPUs, and the presence of large amounts of datasets. In this thesis, the main objective was to analyze new Deep Learning techniques related to the absence or scarcity of labelled data. As a matter of fact, the work achieved consists of the study, analysis and benchmarking of two training techniques in semi-supervised and self-supervised domains relatively for People Detection and People Tracking through recent techniques such as Teacher-Student Mutual Learning and Cross Input Consistency. In both experiments, the workflow was directed to the goal of further reducing the dependence on labelled datasets due to the high cost in terms of both economic and especially time cost of the labelling activity. Therefore, the analyzed techniques were reimplemented using more and up-to-date frameworks such as PyTorch and exploiting the synthetic MOTSynth dataset created by the Aimagelab laboratory in collaboration with the University of Munich.
|