Tesi etd-11042021-210643

Tipo di tesi

Tesi di laurea magistrale

Autore

DEL ROSSI, LORENZO SILVIO

URN

etd-11042021-210643

Titolo

Rep-Transformer: reti attentive per il conteggio e il rilevamento delle ripetizioni nei video

Titolo in inglese

Rep-Transformer: Attentive Networks for Repetition Counting and Boundary Detection in Videos

Struttura

Dipartimento di Ingegneria

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
CUCCHIARA RITA	Primo relatore
TOMEI MATTEO	Correlatore
BARALDI LORENZO	Secondo relatore

Parole chiave

Attentive Networks
Computer Vision
Deep Learning
Repetition Counting
Repetition Detection

Data inizio appello

2021-12-02

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2061-12-02

Riassunto analitico

Il compito di contare le ripetizioni nei video è un argomento caldo nella letteratura scientifica, mentre il rilevamento delle ripetizioni è un campo di ricerca piuttosto nuovo.
Vale la pena studiare il rilevamento delle ripetizioni poiché esso ha molteplici applicazioni industriali, come nel controllo di qualità sui processi industriali, al fine di rilevare anomalie nei movimenti in una macchina che ci aspettiamo siano ripetitivi.

In questa tesi abbiamo sfruttato diversi approcci per risolvere i compiti di conteggio e del rilevamento delle ripetizioni, sfruttando tecniche di signal processing, inoltre abbiamo anche sviluppato il Rep-Transformer: una rete neurale basata sull'attenzione in grado di rilevare azioni ripetitive in un video.

Per addestrare questo modello abbiamo creato il nostro dataset sintetico generato da un dataset senza annotazioni, da cui abbiamo ritagliato piccole clip di lunghezza variabile e le abbiamo ripetute con conteggi diversi. Per dare al modello una generalizzazione più forte lo abbiamo messo a punto con un dataset di conteggio delle ripetizioni (QUVA) sfruttando le sue annotazioni in modo da rendere possibile valutare anche il compito di rilevamento delle ripetizioni e lo abbiamo testato su diversi dataset per valutarne le prestazioni.

Il nostro modello è in grado di rilevare le ripetizioni di azioni in modo indipendente dalla classe, grazie all'introduzione di un video di esempio che la rete prende come input insieme all'intero video.

Abstract

The repetition counting task in videos is a hot topic in scientific literature, while repetition boundary detection is quite a new research field. Repetition boundary detection is worth to be studied since it has multiple industrial applications, such as in quality control over industrial processes, in order to detect anomalies in machine movements that we expect to be repetitive. In this thesis we exploited different approaches to solve the repetition counting and boundary detection tasks, exploiting signal processing techniques, then we also developed the Rep-Transformer: an Attention-based neural network able to detect repetitive actions boundaries in a video. In order to train this model, we created our synthetic dataset that is generated from an unlabeled dataset, from which we cropped small clips of varying lengths and repeated them with different counts. In order to give the model a stronger generalization, we fine-tuned it with a repetition counting dataset (QUVA) by exploiting its labels in a way that made it possible to evaluate also the repetition boundary detection task and tested it on different datasets to evaluate its performances. Our model is able to detect action repetitions in a class-agnostic fashion, thanks to the introduction of an example video that the network takes as input together with the entire video.

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore