Riassunto analitico
CISC, acronimo francese di “banco intelligente, sociale e connesso”, era un banco informazioni innovativo in sviluppo da un consorzio di aziende della regione dell’Occitania. L’obiettivo del consorzio era quello di creare un dispositivo di alta gamma e modulare che combinasse modalità di interazione suggerite dalla ricerca e dall’industria per definire nuovi standard in termini di esperienza utente. Questa tesi tratta la progettazione della prima versione di un classificatore di apprendimento supervisionato per le funzionalità di riconoscimento delle azioni ospitate dal modulo di un suo prototipo. Il classificatore era in grado di rilevare alcune categorie di azioni semplici basandosi sul modello scheletrico delle parti superiori del corpo degli utenti, oltre ad alcuni parametri geometrici e temporali correlati. La progettazione del classificatore necessitò di una fase preliminare in cui l’infrastruttura software del modulo, basata sul middleware ROS, fu adattata per ospitare una serie di sessioni di interazione e generare nel mentre registrazioni video di persone che si interfacciavano con esso. Le informazioni di posa, contenute nei 26 video ottenuti dalle sessioni, permisero di determinare dei set di dati che furono a loro volta usati per eseguire un confronto finale tra classificatori, suddiviso in due fasi. Nella prima fase, oltre 30 algoritmi di machine learning furono addestrati e testati per valutare le loro prestazioni di classificazione su singolo fotogramma. Il più efficace fu poi coinvolto nella seconda fase, durante la quale fu combinato con un metodo di assegnazione delle classi basata su finestre temporali. In questo modo, si permise alla classificazione di tener conto della correlazione tra fotogrammi adiacenti all’interno di una sequenza. La migliore combinazione in termini di varianti proposte del metodo e lunghezze di fotogrammi considerate fu successivamente integrata nel sistema di riconoscimento delle azioni.
|
Abstract
CISC, a French acronym for “intelligent, social, and connected counter”, was an innovative help desk under development by a consortium of companies in the Occitania region of France. The consortium’s goal was to create a high-end and modular device that combined ways of interaction suggested by industry and academia to define new standards in terms of user experience. This thesis deals with the development of the first version of a supervised learning classifier powering the action recognition functionalities handled by a module present in one of CISC’s early prototypes. The classifier was capable to detect some basic action categories by focusing on the skeletal model of users’ upper body parts, plus some related geometrical and temporal parameters. Classifier design needed a preliminary phase where the module’s software infrastructure, based on the ROS middleware, had to be adapted to host a series of interaction sessions and generate video recordings of people interfacing with it. The pose information contained in the 26 videos obtained from the sessions allowed to determine datasets that were in turn exploited to run a final two-phase classifier comparison. In the first phase, over 30 state-of-the-art machine learning algorithms were trained and tested to evaluate their single-frame detection performances. The most effective algorithm was then involved in the second phase, where it was combined with a class assignment method based on time windows in order to improve classification consistency over sequences of frames and thus improve the overall accuracy. The best combination in terms of the proposed variants of the method and the considered frame windows was the solution chosen to power the action recognition system.
|