Riassunto analitico
Il video è uno dei media più convolgenti ed immersivi, e sta divenendo la categoria di traffico dominante sul web. Contestualmente, le piattaforme di video sharing, come Youtube e Facebook, assistono a un'enorme crescita del numero di uploads, di visualizzazioni e di interazioni con video. Questa crescita, che si sviluppa sia in forma di contenuti user-generated che di materiale professionale, richiede tecnologie multimediali efficaci per migliorare la navigazione, l'indicizzazione e la ricerca del contenuto video, sia su piattaforme generiche, sia in contesti più specifici, come il settore pubblicitario, l'educazione e il mondo culturale. In questa tesi verranno presentate soluzioni allo stato dell'arte per i problemi sopra citati. Gli algoritmi presentati sono stati sviluppati in accordo al paradigma del deep learning, in base al quale le rappresentazioni vengono imparare dai dati invece di essere definite manualmente, come negli approcci di Machine Learning più tradizionali. La prima parte della dissertazione affronterà il problema di suddividere lunghi video in parti coerenti, con lo scopo di fornire all'utente unità più maneggevoli e migliorare la sua esperienza di navigazione e di ricerca. Si mostrerà anche come queste unità possono essere utilizzate per migliorare il retrieval a grana fine e come livello di granularità ideale per presentare i video all'interno di una interfaccia di browsing. Allo scopo di migliorare il retrieval, e di unificare video e linguaggio naturale, verranno presentate soluzioni per la descrizione automatica di video e immagini. In particolare ci si focalizzerà su un'architettura learnable end-to-end capace di descrivere un video in linguaggio naturale e di scoprirne la sua struttura temporale. Verrà anche esplorata l'interazione tra la descrizione automatica di immagini e la salienza. Infine, verrà introdotto un descrittore utilizzabile per confrontare video su larga scala, sia a basso livello, ad es. per copy detection, sia ad alto livello, per video retrieval generico. Quest'ultima parte del lavoro è il risultato di una collaborazione con Hervé Jégou e Matthijs Douze del Facebook AI Research (FAIR) lab di Parigi.
|
Abstract
Video is one of the most engaging and immersive storytelling media. It is becoming the dominant traffic category on the web, and multimedia video sharing platforms like Youtube and Facebook are witnessing a huge increase in the number of video uploads, views and interactions. This growth, either in the form of user-generated or professionally produced material, demands for effective multimedia technologies to enhance browsing, indexing, and retrieval, on generic sharing platforms as well as in more specific contexts, like advertising, education and cultural heritage.
In this thesis, we present state of the art solutions for the aforementioned problems. The presented algorithms are framed in the context of deep learning, so that representations are learned from data instead of being handcrafted. The first part of the dissertation will deal with the task of segmenting long videos into coherent and storytelling parts, with the aim of providing the user with more manageable units and augment the browsing and retrieval experience. We will also show how these units can be exploited to enhance fine-grained retrieval and as the ideal level of granularity for presenting videos.
With the aim of augmenting video retrieval, and of closing the gap between language and video, we will also present solutions for image and video captioning. In particular, we will focus on an end-to-end learnable architecture capable of describing a video in natural language while discovering its structure. The interactions between gaze prediction and captioning will also be explored.
Finally, we will introduce a novel compact descriptor suitable for comparing videos on large-scale archives, either at a low level, e.g. for detecting copied videos, or at high level, for general video retrieval. This last part of the work is the result of a collaboration with Hervé Jégou and Matthijs Douze from the Facebook AI Research (FAIR) lab in Paris.
|