Tesi etd-09282023-192252

Tipo di tesi

Tesi di laurea magistrale

Autore

ROSSI, DANIEL

URN

etd-09282023-192252

Titolo

Stima della Posa 3D a partire da Immagini RGB con Transformers e Deformable Attention

Titolo in inglese

3D Human pose estimation from RGB images with Transformers and Deformable Attention

Struttura

Dipartimento di Ingegneria "Enzo Ferrari"

Corso di studi

Ingegneria informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
VEZZANI ROBERTO	Primo relatore
GARATTONI LORENZO	Correlatore

Parole chiave

Computer Vision
Deformable Attention
Pose Estimation
Tracking
Trasformers

Data inizio appello

2023-10-19

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2063-10-19

Riassunto analitico

Il processo di stima della posa 2D è un compito critico nel campo della visione artificiale, con numerose applicazioni in campi come la robotica, la realtà aumentata, il riconoscimento dei gesti e la sorveglianza. Per raggiungere risultati competitivi in questo contesto, è essenziale identificare e localizzare con precisione le posizioni dei giunti di un soggetto all'interno di un'immagine bidimensionale o di un fotogramma di un video. Queste informazioni sono cruciali per comprendere la postura, il movimento e le interazioni del soggetto con l’ambiente. Sebbene siano disponibili molte tecniche per affrontare questo problema, la maggior parte si concentra esclusivamente sulla stima della posa. Tuttavia, queste tecniche potrebbero essere notevolmente migliorate incorporando la tecnologia di tracking, espandendo ulteriormente le loro potenziali applicazioni. Il nostro approccio presenta una nuova architettura in termini di fusione della stima della posa umana con il tracking, che utilizza transformers per facilitare la stima della posa multi-persona dalle immagini RGB di soggetti umani. Per raggiungere questo obiettivo, il sistema deve differenziare con precisione gli individui dallo sfondo dell'immagine e identificare ogni pixel che corrisponde ad una articolazione per ogni persona, senza eventuali errori nell'ordinamento dei giunti o nell'attribuire erroneamente l'appartenenza congiunta alla persona sbagliata. La nostra metodologia fornisce la posa delle entità raffigurate nell'immagine corrente e tiene traccia di queste pose nel tempo. Sfruttiamo il meccanismo di attenzione del transformer per catturare l'intero contesto dell'immagine e migliorare la localizzazione dei punti chiave. Inoltre, incorporiamo le informazioni sul movimento nella rete incorporando un componente di tracking che mira a stimare i punti chiave con maggiore precisione, tenendo conto anche della distanza tra il rilevamento sul fotogramma precedente e quello sul fotogramma corrente. La capacità di monitorare l’output della rete nel tempo consente la sua applicazione retrospettiva a una gamma più ampia di contesti. Infine, proponiamo una nuova metodologia di raffinamento dei punti chiave che mira a migliorare l'output della rete neurale del transformer primario.

Abstract

The process of estimating 2D poses is a critical task in the field of computer vision, with numerous applications in fields such as robotics, augmented reality, gesture recognition, and surveillance. To achieve this task, it is essential to identify and precisely locate the joint positions of a subject within a two-dimensional image or video frame. This information is crucial to understanding the subject’s posture, movement, and interactions with the environment. While there are many techniques available to tackle this problem, most focus solely on pose estimation. However, these techniques could be greatly improved by incorporating tracking technology, expanding their potential applications even further. Our approach presents a novel architecture in terms of merging Human pose with tracking, that utilizes transformers to facilitate Multi-Entity Pose estimation from RGB images of human subjects. To achieve this, the system needs to accurately differentiate the individuals from the background in the image and identify each pixel that corresponds to a joint for each person, without any errors in the ordering of joints or misattributing joint membership to the wrong person. Our methodology provides the pose of the entities depicted in the current image and tracks these poses over time. We leverage the attention mechanism of the transformer to capture the entire image context and enhance the localization of the keypoints. Furthermore, we incorporate motion information into the network by incorporating a tracking component that aims to predict keypoints with better precision, while also taking into account the distance between the detection on the previous frame and the one on the current frame. The ability to track the network output over time enables its retrospective application to a wider range of contexts. Lastly, we propose a novel keypoint refinement methodology that aims to enhance the output of the primary transformer neural network.

File

Nome file		Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file		Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
	modulo_embargo_tesi_FIRMATO.pdf	252.89 Kb	00:01:10	00:00:36	00:00:31	00:00:15	00:00:01
Ci sono 3 file riservati su richiesta dell'autore.
Contatta l'autore