Riassunto analitico
Il processo di stima della posa 2D è un compito critico nel campo della visione artificiale, con numerose applicazioni in campi come la robotica, la realtà aumentata, il riconoscimento dei gesti e la sorveglianza. Per raggiungere risultati competitivi in questo contesto, è essenziale identificare e localizzare con precisione le posizioni dei giunti di un soggetto all'interno di un'immagine bidimensionale o di un fotogramma di un video. Queste informazioni sono cruciali per comprendere la postura, il movimento e le interazioni del soggetto con l’ambiente. Sebbene siano disponibili molte tecniche per affrontare questo problema, la maggior parte si concentra esclusivamente sulla stima della posa. Tuttavia, queste tecniche potrebbero essere notevolmente migliorate incorporando la tecnologia di tracking, espandendo ulteriormente le loro potenziali applicazioni. Il nostro approccio presenta una nuova architettura in termini di fusione della stima della posa umana con il tracking, che utilizza transformers per facilitare la stima della posa multi-persona dalle immagini RGB di soggetti umani. Per raggiungere questo obiettivo, il sistema deve differenziare con precisione gli individui dallo sfondo dell'immagine e identificare ogni pixel che corrisponde ad una articolazione per ogni persona, senza eventuali errori nell'ordinamento dei giunti o nell'attribuire erroneamente l'appartenenza congiunta alla persona sbagliata. La nostra metodologia fornisce la posa delle entità raffigurate nell'immagine corrente e tiene traccia di queste pose nel tempo. Sfruttiamo il meccanismo di attenzione del transformer per catturare l'intero contesto dell'immagine e migliorare la localizzazione dei punti chiave. Inoltre, incorporiamo le informazioni sul movimento nella rete incorporando un componente di tracking che mira a stimare i punti chiave con maggiore precisione, tenendo conto anche della distanza tra il rilevamento sul fotogramma precedente e quello sul fotogramma corrente. La capacità di monitorare l’output della rete nel tempo consente la sua applicazione retrospettiva a una gamma più ampia di contesti. Infine, proponiamo una nuova metodologia di raffinamento dei punti chiave che mira a migliorare l'output della rete neurale del transformer primario.
|
Abstract
The process of estimating 2D poses is a critical task in the field of computer vision, with numerous applications in fields such as robotics, augmented reality, gesture recognition, and surveillance. To achieve this task, it is essential to identify and precisely locate the joint positions of a subject within a two-dimensional image or video frame. This information is crucial to understanding the subject’s posture, movement, and interactions with the environment. While there are many techniques available to tackle this problem, most focus solely on pose estimation. However, these techniques could be greatly improved by incorporating tracking technology, expanding their potential applications even further. Our approach presents a novel architecture in terms of merging Human pose with tracking, that utilizes transformers to facilitate Multi-Entity Pose estimation from RGB images of human subjects. To achieve this, the system needs to accurately differentiate the individuals from the background in the image and identify each pixel that corresponds to a joint for each person, without
any errors in the ordering of joints or misattributing joint membership to the wrong person. Our methodology provides the pose of the entities depicted in the current image and tracks these poses over time. We leverage the attention mechanism of the transformer to capture the entire image context and enhance the localization of the keypoints. Furthermore, we incorporate motion information into the network by incorporating a tracking component that aims to predict keypoints with better precision, while also taking into account the distance between the detection on the previous frame and the one on the current frame. The ability to track the network output over time enables its retrospective application to a wider range of contexts. Lastly, we propose a novel keypoint refinement methodology that aims to enhance the output of the primary transformer neural network.
|