Riassunto analitico
I recenti sviluppi delle tecniche di visione artificiale basate sul deep learning, i.e. reti convolutive e transformers, e la grande quantità di dati disponibili hanno permesso di ottenere risultati senza precedenti in termini di precisione e accuratezza nell’analisi automatica di immagini e video, tramite l’addestramento dei suddetti modelli. In questo progetto di tesi l’obiettivo è approfondire l’utilizzo di queste tecniche per l’analisi di video, in particolare si vuole risolvere un problema di riconoscimento di azioni locali all’interno di video.
Un’azione è definita locale se la sua estensione è limitata temporalmente e spazialmente all’interno della clip da analizzare. Questo è in contrasto con il concetto di action classification in letteratura, dove per ogni clip il sistema deve semplicemente determinare che tipo di azione è stata eseguita. Un esempio di un’azione locale è un calcio di rigore all’interno di un video di un match. Un sistema in grado di localizzare spazio-temporalmente le azioni locali prende in input un video in cui tante azioni si possono susseguire nel tempo, nella stessa zona dell’immagine o in zone diverse, compiute da una stessa persona o da diverse persone.
In questo lavoro consideriamo il caso specifico in cui due azioni locali non possono accadere nello stesso istante. Partendo dalle principali tecniche per l’analisi di video presenti in letteratura sarà sviluppato un approccio per la risoluzione del problema considerato. Inoltre sarà presentato un dataset video adatto all’addestramento di modelli per la risoluzione del task in questione.
|