Riassunto analitico
La percezione della posa umana da un sistema di intelligenza artificiale è stata un argomento molto discusso nella letteratura di Computer Vision. Questa percezione può essere intesa come una capacità, da parte del sistema di visione, di ottenere le informazioni di configurazione delle varie parti del corpo umano utilizzando input ottenuti da sensori. Tali informazioni circa la figura umana acquisiscono un valore aggiuntivo nel momento in cui permettono al sistema di localizzare le sezioni del corpo umano in uno spazio tridimensionale utilizzando delle informazioni provenienti da uno dei sensori più diffusi per la raccolta dei dati: la camera RGB. Gli applicativi di un sistema di visione intelligente capace di stimare la posa umana 3D sono molteplici: la robotica collaborativa, in cui robot e operatore umano collaborano condividendo lo stesso spazio di lavoro, l'analisi del movimento umano, la realtà aumentata o la realtà virtuale, la salute, l'automotive... Sarebbero ancora più numerosi se si riuscissero ad ottenere anche delle informazioni di tracciamento dei corpi in modo da seguire i movimenti che quest'ultimi eseguono all'interno della scena 3D. In questo modo il sistema potrebbe tracciare il movimento di una o più persone e prevedere quella che potrebbe essere l'azione successiva in base al comportamento corrente. Questi appena citati, sono tutti temi particolarmente attuali che probabilmente nel prossimo futuro faranno parte delle vite di ognuno di noi. Per questo motivo, il seguente elaborato mira a presentare la creazione e l'implementazione di un sistema di visione artificiale capace di stimare la posa di uno o più corpi umani e di tracciare tali pose per identificarle e seguirle all'interno di una scena tridimensionale, il tutto partendo da un'acquisizione di una sequenza di frame consecutivi ottenuti da una singola camera RGB. Dopo un'analisi approfondita della letteratura e dello stato dell'arte della human pose estimation il lavoro si è focalizzato sull'effettiva implementazione del sistema di visione utilizzando come base di partenza una soluzione attualmente presente nello stato dell'arte della Human Pose Estimation 3D. Successivamente, ottenuta la posa umana tridimensionale, l'obiettivo si è spostato sul tracciamento dello scheletro ottenuto dalla pose estimation. Per testare il sistema così ottenuto sono state registrate alcune sequenze di circa 9000 frame utilizzando due camere RGBD in modo da mettere alla prova il sistema avendo a disposizione una ground truth, anche se solo approssimativa, della figura umana.
|