Riassunto analitico
L’obiettivo di questa tesi è quello di definire un framework per aumentare la sicurezza di un soggetto umano in un ambiente indoor mediante tecniche di videosorveglianza automatica. Alla base del progetto risiede l’idea che una persona anziana, sola in casa, abbia la necessità di essere controllata e assistita a distanza dai parenti tramite un sistema intelligente, nel contemporaneo rispetto della sua privacy e senza la necessità di un costante contatto visivo. In Italia, infatti, negli ultimi decenni, in seguito all’aumento considerevole della speranza di vita, molti di noi si sono ritrovati a prendersi cura dei più anziani. L’infrastruttura proposta è basata su una o più telecamere RGB-D, che permettono di rilevare la geometria tridimensionale della scena, abilitando il sistema ad una stima più corretta della posa del soggetto, della sua localizzazione all’interno di un ambiente e delle sue azioni. La pipeline tradizionalmente applicata alle telecamere RGB, composta da people detection, people tracking, posture estimation e action recognition è stata adattata e affinata per il corretto funzionamento sulle immagini RGB-D, sfruttandone il maggior contenuto informativo. In particolare, il framework Openpose è stato applicato alle immagini di ampiezza fornite dal sensore infrarossi e integrato con le mappe di profondità per ottenere le coordinate tridimensionali di 18 giunti dello scheletro del soggetto desiderato. I giunti del soggetto vengono poi forniti ad un classificatore per il riconoscimento di azioni in interesse, in particolare le cadute, e di interazioni con gli oggetti all’interno dell’ambiente. L’addestramento del classificatore e l’analisi delle prestazioni del sistema sono stati effettuati su un dataset appositamente acquisito.
|
Abstract
The goal of this work is to define a framework to increase the security of a human subject in an indoor environment through automatic video surveillance techniques.
At the basis of the project lies the idea that an elderly person, alone in the house, has the need to be controlled and assisted remotely by relatives, through an intelligent system, while respecting its privacy and without a constant eye contact. In Italy, in fact, in the last decades, following the considerable increase of life expectancy, many of us found ourselves taking care of senior citizens.
The proposed infrastructure is based on one or more RGB-D cameras, which provides the detection of the three-dimensional geometry of the scene, enabling the system to reach a better estimation of the pose of the subject, its location within an environment and his actions.
The pipeline traditionally applied to RGB cameras, made up of people detection, people tracking, posture estimation and action recognition has been adapted and refined for correct operation on RGB-D images, taking advantage of its greater knowledge content. In particular, the Openpose framework has been applied to amplitude images provided by the infrared sensor and integrated with the depth maps to obtain the three-dimensional coordinates of 18 joints of the desired subject's skeleton. The joints of the subject are then provided to a classifier for the recognition of actions of interest, especially falls, and interactions with objects within the environment. The classifier training and the performance analysis of the system were established on a specially acquired dataset.
|