Riassunto analitico
Il compito di contare le ripetizioni nei video è un argomento caldo nella letteratura scientifica, mentre il rilevamento delle ripetizioni è un campo di ricerca piuttosto nuovo. Vale la pena studiare il rilevamento delle ripetizioni poiché esso ha molteplici applicazioni industriali, come nel controllo di qualità sui processi industriali, al fine di rilevare anomalie nei movimenti in una macchina che ci aspettiamo siano ripetitivi.
In questa tesi abbiamo sfruttato diversi approcci per risolvere i compiti di conteggio e del rilevamento delle ripetizioni, sfruttando tecniche di signal processing, inoltre abbiamo anche sviluppato il Rep-Transformer: una rete neurale basata sull'attenzione in grado di rilevare azioni ripetitive in un video.
Per addestrare questo modello abbiamo creato il nostro dataset sintetico generato da un dataset senza annotazioni, da cui abbiamo ritagliato piccole clip di lunghezza variabile e le abbiamo ripetute con conteggi diversi. Per dare al modello una generalizzazione più forte lo abbiamo messo a punto con un dataset di conteggio delle ripetizioni (QUVA) sfruttando le sue annotazioni in modo da rendere possibile valutare anche il compito di rilevamento delle ripetizioni e lo abbiamo testato su diversi dataset per valutarne le prestazioni.
Il nostro modello è in grado di rilevare le ripetizioni di azioni in modo indipendente dalla classe, grazie all'introduzione di un video di esempio che la rete prende come input insieme all'intero video.
|
Abstract
The repetition counting task in videos is a hot topic in scientific literature, while repetition boundary detection is quite a new research field.
Repetition boundary detection is worth to be studied since it has multiple industrial applications, such as in quality control over industrial processes, in order to detect anomalies in machine movements that we expect to be repetitive.
In this thesis we exploited different approaches to solve the repetition counting and boundary detection tasks, exploiting signal processing techniques, then we also developed the Rep-Transformer: an Attention-based neural network able to detect repetitive actions boundaries in a video.
In order to train this model, we created our synthetic dataset that is generated from an unlabeled dataset, from which we cropped small clips of varying lengths and repeated them with different counts. In order to give the model a stronger generalization, we fine-tuned it with a repetition counting dataset (QUVA) by exploiting its labels in a way that made it possible to evaluate also the repetition boundary detection task and tested it on different datasets to evaluate its performances.
Our model is able to detect action repetitions in a class-agnostic fashion, thanks to the introduction of an example video that the network takes as input together with the entire video.
|