Riassunto analitico
Questa tesi presenta la pipeline PULSE (Pose Unification and Learning for Synthesis Enhancement), sviluppata per perfezionare la stima 3D della posa umana in tempo reale. Il sistema utilizza gli output di SnapPose3D, un framework basato su modelli di diffusione, che genera per ciascun frame 20 ipotesi sintetiche rappresentanti una distribuzione probabilistica della posa, senza richiedere l'elaborazione di sequenze temporali. Poiché queste soluzioni iniziali contengono rumore e possibili outlier, la pipeline si concentra sull'aggregazione e il raffinamento tramite reti autoencoder, con l'obiettivo di ridurre il Mean Per Joint Position Error (MPJPE) e ottenere stime più precise. La ricerca esplora diverse tecniche di aggregazione applicate in differenti fasi della pipeline e confronta varianti architetturali degli autoencoder, inclusi modelli tradizionali e variational autoencoder. I risultati sperimentali evidenziano come la scelta del metodo di aggregazione e il posizionamento strategico delle operazioni influenzino in maniera determinante le performance, garantendo una soluzione efficace per applicazioni dinamiche come la realtà aumentata, il motion capture e l'interazione in ambienti virtuali. Complessivamente, il contributo principale di questo lavoro risiede nell'integrazione sinergica di tecniche di aggregazione e raffinamento, che consente di migliorare notevolmente la qualità della stima della posa 3D in scenari real-time.
|