Riassunto analitico
Il focus di questa tesi è posto sull’action recognition all’interno della disciplina della Computer Vision, e più in particolare sul task della human action classification. Lo scopo di quest’ultimo task è quello di imparare ad identificare correttamente l’azione umana svolta all’interno di un video avendo come unico input il video stesso. La grande varietà di dati che si necessitano, la conseguente complessità computazionale e il bisogno di macchine che siano non solo in grado di processare la mole di informazioni necessaria, ma di gestirla in modo efficiente rendono questo task molto complesso. Inoltre, al fine di ridurre i tempi di computazione altrimenti molto lunghi, iviene indispensabile adottare meccanismi di ottimizzazione della pipeline e del codice stesso: caching e binarizzazione dei dati di input, calcolo distribuito, multiprocessing, ecc. Per questi ed altri motivi, il task dell’action recognition ha mostrato avanzamenti significativi solo negli ultimi anni. All’interno dell’action classification, lo stato dell’arte attuale, sebbene basato sull’utilizzo di reti neurali, prevede due principali approcci al problema: il primo contempla l’utilizzo di reti ricorrenti, mentre il secondo si basa sull’utilizzo di reti convolutive. Mentre le critiche al secondo approccio riguardano l’incapacità di comprendere l’inizio e la fine di un’azione all’interno di un video esteso e sono facilmente superate suddividendo il dato di input in vari clips consecutivi ed analizzando ciascun clip in modo individuale, il problema del primo approccio consiste nella sequenzialità dell’elaborazione dei dati di input e quindi nella non possibilità di parallelizzare l’analisi dei dati con un conseguente aumento dei tempi computazionali. Problematica che considerando le premesse fatte sul task stesso risultano non banali né trascurabili. Per questo motivo, questa tesi si focalizza sul ramo che prevede l’utilizzo di reti neurali deep convolutive (CNN). All’interno di questa cornice, negli ultimi tre anni, papers quali “Attention is all you need”, “Non local Neural Networks”, “Stand-Alone Self-Attention in Vision Models”, ecc. hanno portato miglioramenti in diversi task della Computer Vision grazie all’integrazione delle reti neurali deep con i meccanismi di Attention. I meccanismi di attention, si basano sull’importanza delle cross-correlazioni delle feature di input e sulla base di queste permettono alla rete neurale di porre più “attenzione” su alcune componenti dei dati in ingressi piuttosto che su altre, migliorando in questo modo le prestazioni della rete. Lo scopo di questa tesi è quello di esplorare l'uso di questa recente tecnica all’interno dell'ambito dell'action classification. Tuttavia, prima di procedere in questa direzione, un’ulteriore aspetto riguardante il task considerato viene analizzato al fine di comprendere meglio le caratteristiche e quindi la natura del task stesso: qual è l'importanza delle caratteristiche spaziali e di colore nella corretta classificazione di un video. Al fine di perseguire gli obiettivi presentati, è stato impiegato il dataset Kinetics400. Questo dataset presenta 400 classi di azioni umane, dove in ogni classe sono presenti almeno 400 clip, per un totale di 306245 video clip estratti da 306245 video. Gli esempi del dataset provengono dalla piattaforma Youtube, e non sono video professionali, ma girati da utenti qualsiasi. Questa premessa garantisce una grande varietà dei dati garantendo robustezza ai risultati ottentuti dagli esperimenti. Alcuni dei punti chiave di queste varietà sono: presenza di camera motion/shake, variazioni di illuminazione, ombre, background clutter, alta diversità negli attori che performano le azioni, varietà nella durata delle azioni, ecc.)
|
Abstract
This thesis is focused on an action recognition subtask: human action classification. A well known task in the field of Computer vision.
The aim of this thesis is to learn how to correctly classify a video according to the action performed inside it, having as input only the video itself.
The high complexity of this task depends on several factors: high amount of data needed, computational complexity deriving from the data, need of hardware able to deal with this kind of data while doing it in an optimized way. Moreover, to reduce the computational time optimize the piepeline and the code itself is a must: caching, binarization of input data, distributed computation, multiprocessing, etc. For these and other reasons improvements on the action recognition task have been made only in the last years.
Nowadays the state of the art in action classification provide two main approaches: 1) using Recurrent Neural Networks RNN, 2) using Convolutive Neural networks CNN.
The cons of the second approach are about the inability of understand where actions begin and end, while the cons of the first one are about the inability to parallelize the computation.
While the cons of the first approach are easily overcome by dividing input data in smaller clips and analyzing each clip in a separate way, the cons of the fist one are not solvable and bring to an increase in computation time. That as we saw is already long enough. For these reasons this thesis focus on the CNNs approach.
In this background, in the last years papers like “Attention is all you need”, “Non local Neural Networks”, “Stand-Alone Self-Attention in Vision Models”, etc. brought improvements thanks to Attention mechanism applied to Deep Neural Networks DNN.
Attention mechanism allows the network to focus on some component of input data rather than other according to the input data cross-correlation.
The aim of this thesis is to explore this technique in the action classification field. However, before starting to explore this technique, a further analysis of the task is performed: the impact of color-space features in video classification.
In order to explore the chosen task Kinetics400 dataset is used.
This dataset present 400 action classes. The overall amount of data in Kinetics400 is 306245 videoclips, extracted from 306245 videos.
All the videos are took from Youtube platform, hence, they have been shot by normal people rather then professional camera man.
This imply a high data variety and experiments results reliability. This variety is due to: presence of camera motion/shake, illumination variation, shadows, background clutter, high variety in action performers, different action length, etc.
|