Riassunto analitico
Teorie sociologiche ed osservazioni empiriche sul campo hanno da tempo identificato i gruppi e i leader come gli elementi fondamentali che danno forma alla folla ed al suo comportamento. Questo porta ad un livello di astrazione intermedio, posto tra la folla come un flusso di persone e la folla come un insieme di individui. Di conseguenza, anche l'analisi automatica delle folle in computer vision sta sperimentando un’evoluzione, dando sempre più peso ai leader e ad i gruppi piuttosto che ai singoli individui. In questo lavoro, presentiamo alcune soluzioni, considerate stato dell’arte, per rispondere al problema della rilevazione dei gruppi e l’identificazione dei loro leader, algoritmi in grado di tenere conto di fattori fisici e sociologici osservando la folla per brevi periodi di tempo.
Gli algoritmi presentati sono inquadrati come problemi di apprendimento strutturato sull'insieme delle traiettorie degli individui. Tuttavia, il modo in cui le traiettorie sono utilizzate per predirre la struttura della folla non è dato a priori, ma piuttosto imparato da dati annotati, consentendo al metodo stesso di adattarsi a diversi scenari, densità di folla, culture e altre complessità non osservabili. Inoltre, indaghiamo il rapporto tra i leader e i loro gruppi, e proponiamo un modo per sfruttare l’indicazione di leadership come conoscenza preliminare per la identificare il resto del gruppo.
Entrambi i task presentati, la rilevazione di gruppi sociali e dei loro leader, ipotizza la disponibilità delle traiettorie delle persone: Si indaga quindi la stabilità delle soluzioni quando l’input non è dato, ma piuttosto stimato direttamente dal video. In letteratura, questo problema è noto come il multi-target tracking. Primo, introduciamo un nuovo metodo per risolvere questo task all’interno della stessa camera o in un network di sorveglianza. Secondo, discutiamo i limiti dei moderni sistemi di valutazione delle performance per questo task e proponiamo una nuova, più consistente, soluzione.
Durante lo sviluppo di questa attività di ricerca, abbiamo anche introdotto il più grande dataset ad oggi per il multi-camera multi-target tracking, con annotazioni manuali su più di 2000 le identità e i rispettivi gruppi sociali, su un totale di 8 telecamere. Questo sforzo, frutto di una collaborazione con Ergys Ristani e il prof. Carlo Tomasi della Duke University, è ora una sfida ufficiale del sito MOTchallenge.net, il benchmark punto di riferimento per i sistemi di multi-target tracking.
|
Abstract
Social theories and empirical observations on the field have long identified small groups and leaders as the basic elements which shape the crowd. This leads to an intermediate level of abstraction that is placed between the crowd as a flow of people, and the crowd as a collection of individuals. Consequently, automatic analysis of crowd in computer vision is also experiencing a shift in focus from individuals to groups and from small groups to their leaders. In this work, we present state of the art solutions to the groups and leaders detection problem, which are able to account for physical factors as well as for sociological evidence observed over short temporal spans.
The presented algorithms are framed as structured learning problems over the set of individuals’ trajectory. However, the way trajectories are exploited to predict the structure of the crowd is not fixed but rather learnt from recorded and annotated data, enabling the method to adapt these concepts to different scenarios, densities, cultures and other unobservable complexities. Additionally, we investigate the relation between leaders and their groups and propose the first attempt to exploit leadership as prior knowledge for group detection.
Both presented methods to detect social groups and identify leadership assume the availability of people trajectory, we deepen the analysis by investigating the robustness of such approaches as trajectories are estimated rather than given. In literature, this task is referred to as multi-target tracking. We first introduce new methods to track people and social groups both within and across cameras, and then discuss and propose new more consistent performance evaluation schemes for these tasks.
As a byproduct of the aforementioned research topics, we also introduce the largest to date manually annotated dataset for multi-camera multi-target tracking, with more than 2000 identities and respective social groups labeled over 8 static cameras. This effort, resulting from a collaboration with Ergys Ristani and prof. Carlo Tomasi from Duke University, has now become an official track of the MOTchallenge.net website, the de-facto benchmark for multi-target tracking systems.
|