Riassunto analitico
L'umanità ha sempre sviluppato strumenti e metodi per semplificare i compiti e migliorare la qualità della vita. Dall'invenzione dei bracci robotici, queste macchine hanno ridotto la fatica richiesta nei lavori pesanti e aumentato la sicurezza generale. Con l'avvento dell'intelligenza artificiale, i robot stanno diventando più empatici e interattivi, rendendo essenziale lo sviluppo di una solida interazione uomo-robot (HRI). Un aspetto chiave dei robot interattivi è la loro capacità di rilevare l’intenzione dell’utente e di interpretare su cosa si stia focalizzando: in questi compiti la capacità di stimare la direzione dello sguardo umano gioca un ruolo cruciale.
L'obiettivo di questa tesi è stato sviluppare un framework per la rilevazione della direzione dello sguardo e quindi il tracciamento dei movimenti oculari. In primo luogo, esso risolve il problema di stimare ciò che si guarda “in the wild”, ovvero al di fuori del laboratorio. In secondo luogo, fornisce una base per la ricerca futura in questo campo. Il framework utilizza gli occhiali Project Aria di Meta, un dispositivo progettato per accelerare la ricerca sulla realtà aumentata ed estesa (AR/XR), e integra diverse tecnologie, dalle reti neurali all’elaborazione Structure From Motion (SFM). La direzione dello sguardo può essere localizzata in modo efficace all'interno di un ambiente 3D, consentendone la riproiezione su multiple viste in terza persona.
Inoltre, un nuovo dataset è stato registrato per dimostrare le capacità del framework e offrire un potenziale strumento di benchmarking e di validazione per nuovi modelli in questo campo. Il dataset consiste in una collezione di partecipanti che eseguono azioni comuni indossando gli occhiali Project Aria, ripresi da un secondo paio degli stessi occhiali e da un robot Pepper con cui essi interagiscono. Questo lavoro potrebbe risolvere le sfide esistenti e far progredire la ricerca nel campo dell’HRI.
|
Abstract
Humanity has always developed tools and skills to simplify tasks and improve the quality of life.
Since the invention of robotic arms, these machines have reduced the physical demands of labor intensive jobs and increased safety. With the advent of artificial intelligence, robots are becoming more empathetic and interactive, making a robust human-robot interaction (HRI) essential. A key aspect of interactive robots is their ability to detect users’ intention to engage and interpret their focus of attention — tasks where estimating human gaze plays a crucial role.
The goal of this thesis is to develop a framework for gaze estimation and eye tracking. Firstly, it addresses the practical challenge of estimating eye movements “in the wild”. Secondly, it provides a baseline for the future research in this field. The framework makes use of Meta’s Project Aria glasses, a device designed to accelerate research in augmented and extended reality (AR/XR), and integrates multiple technologies, from neural networks to Structure From Motion (SFM) processing. The gaze direction can effectually be localized within a 3D environment, allowing tracking across multiple third-person perspectives.
A new dataset has also been recorded to demonstrate the framework’s capabilities and offer a potential benchmark and validation tool for new gaze estimation models, especially in HRI context. It consists of recordings of participants performing common actions while wearing Project Aria glasses, captured from another pair of glasses and a Pepper robot the participant interacts with. This dataset could address existing challenges in the field and advance further research in HRI.
|