Riassunto analitico
Sono state proposte metodologie per l'elaborazione e la sintesi personalizzata di video girati in prima persona (egocentrici) basate su specifiche preferenze utente, tali cioè da estrarre diversi output o diverse sintesi dallo stesso video a seconda delle preferenze analizzate.
In generale l'approccio si è basato in primis sull'analisi delle caratteristiche visuali dei frame e dello schema di moto dell'autore delle riprese, rilevato attraverso l'analisi della velocità reale ed apparente registrata nel video (per la velocità apparente si sono usate misure come il flusso ottico e i contorni del moto, mentre la velocità reale è stata misurata tramite sensori GPS ), oltre che sull'analisi qualitativa di caratteristiche visuali delle riprese video, come la sfocatura.
Questa prima analisi ha permesso di segmentare i video analizzati in spezzoni (ego-shots) omogenei. Successivamente sono state analizzate caratteristiche che permettessero l'identificazione di osservabili semantiche più di alto livello, come il comportamento dell'utente, il fatto che uno spezzone si riferisse a un istante in cui l'autore delle riprese era fermo o in moto, la presenza nei segmenti video di eventuali oggetti di interesse nell'ambito dei beni culturali o delle visite turistiche (monumenti, palazzi o costruzioni, dipinti o sculture), la presenza di persone importanti nei video (imparate dinamicamente a partire dalle presenze ricorrenti, re-identificate).
La presenza, nei video, di eventuali oggetti di interesse culturali o turistici è stata rilevata costruendo dinamicamente classificatori visuali a partire da preferenze semantiche di utenti, espanse utilizzando la base di conoscenza condivisa DBPedia e sfruttando metriche per la misura della centralità su grafi diretti, oltre a sfruttare metodi di analisi di testo in cui parole e concetti vengono trasformati in spazi vettoriali dopo una fase di addestramento di reti neurali su testi (in particolare abstract di voci di Wikipedia).
Per la classificazione dei diversi tipi di moto sono stati utilizzati in primis metodi classici come i vettori di supporto lineari (L-SVM) e in un secondo tempo reti neurali convolutive a molti livelli. Per la classificazione di immagini e spezzoni video si sono utilizzati in primis metodi classici in visione artificiale come i vettori di Fisher o gli insiemi di caratteristiche, basati su SIFT (punti interessanti di tracciatura); in un secondo tempo si sono utilizzate reti neurali multi-livello, convolutive, anche spazio-temporali, e ricorrenti.
|
Abstract
The research deals with egocentric video semantic processing and summarization in a cultural heritage scenario.
Long Egocentric streams captured in Cultural or Touristic scenarios are processed in order to extract high level features as wearer behaviour, expressed sentiments, stops and moves in the wearer trajectory, the presence in the streams of Cultural points of Interest (monuments, art masterpieces, museums, etc.) and the presence of specific people. To achieve this target we make use of low level features like apparent motion features (Optical Flow, Motion Boundary), visual quality assessment features (Blur, visual relevance, colorfulness, etc), textual features (using vectorial space representation as Word2Vec to obtain an embedding) and mid level features (presence of people, presence of relevant cultural objects). At first we have used classical machine learning approaches (SVM, clustering), more recent approaches are based on Convolutional and Recurrent Neural Networks. Behavior patterns are assessed using apparent, real motion and visual quality features. Sentiments are assessed leveraging jointly textual and visual features (apparent motion, presence of cultural objects of interest associated with emotional reactions). Stops and moves are learnt by means of clustering algorithms on point trajectories. Presence of people or cultural objects of interest are learnt using visual classifiers. The first approaches used classical approaches as Bag of Features or Fisher Vectors, recent approaches use multi-label CNN or RNN approaches.
Personalized summarization produces a short synopsis of the original stream where key shots in which concepts relevant to user input can be visually detected and logical flow of most important and interesting scenes are recovered in a compressed form.
This was tackled using different approaches. Typical high level pipeline consists of a first preprocessing step to identify the candidate shots, and of a set of tasks performing preprocessing of the user inputs, visual classification to identify the scenes related to user inputs, narrativity classification, to recover the original narrative storyline, ranking, skims chaining and rendering effects.
To identify candidate relevant shots, we have used different approaches that share the leveraging of apparent motion features and blur features (apparent motion assessed using visual velocity, visual acceleration gradient), real velocity using 3D GPS sensors detected velocity, and visual related features, as blur).
Recently we have exploited an approach based on a 3D Convolutional Neural Networks and Long Short term memory recurrent network architectures to learn temporal behavior pattern.
To obtains an unambiguous user query to build visual classifiers, we have used Dbpedia Knowledge Base as a basis to build a semantic graph and leveraged graph analysis metrics to identify the most connected community centered on the nodes corresponding to original user query.
Afterwards, we score ego-shots in search of visual concepts relevant to the user request. Semantic classifiers are built using a data-driven approach using text and visual embedding of images extracted from public repositories of user generated contents.
Once built the classifiers, we classify ego-shots by means of the same fine tuned VGG ConvNet, to recognize the presence of User's Points of Interest, assigning a score w.r.t.to the user query.
Narrativity is assessed using a personalized Page Rank approach in order to assess shots centrality w.r.t. importance and visual relevance within frames of time.
Importance is measured on the basis of visual similarity (using activation features of C3D last fully connected layer) between shots, relevance is measured on the basis of visual attributes (we use a multi-column C3D that aims to reduce the span of intra-class variation, assessing jointly Informative, Color, Aesthetic content).
|