Tesi etd-10292021-120802

Tipo di tesi

Tesi di laurea magistrale

Autore

CARRETTI, STEFANO

URN

etd-10292021-120802

Titolo

Navigazione Visuale guidata dal Linguaggio attraverso il Meccanismo dell'Attenzione

Titolo in inglese

Language-driven Visual Navigation via Attention

Struttura

Dipartimento di Ingegneria

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
CUCCHIARA RITA	Primo relatore
LANDI FEDERICO	Correlatore
BARALDI LORENZO	Secondo relatore

Parole chiave

Attention
Language
Navigation
Transformer
Vision

Data inizio appello

2021-12-02

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2061-12-02

Riassunto analitico

Dopo il grande successo di generi cinematografici come il fantasy e la fantascienza, il concetto di robot non può più essere separato dalla capacità di eseguire istruzioni in linguaggio naturale. Negli ultimi anni, i progressi nei campi della visione e dell'elaborazione del linguaggio naturale hanno portato alla speranza che questo sogno possa diventare realtà. Nel 2018, è con questo obiettivo in mente che è stato introdotto un nuovo campo di ricerca chiamato Navigazione tramite Visione e Linguaggio (VLN). Due anni dopo, una versione più realistica di questo settore è venuta alla luce: Navigazione tramite Visione e Linguaggio in Ambienti Continui (VLN-CE). Se il primo campo di ricerca considerava un robot che poteva teletrasportarsi da un luogo all'altro, il secondo pone il robot in un ambiente continuo, in cui ogni azione porta ad un singolo, piccolo passo del robot.
Questo cambiamento introduce una maggiore complessità, aumentando la lunghezza media di un episodio di dieci volte nel caso di VLN ad alto livello, e più che raddoppiando quella di un episodio di VLN a basso livello.
In questo lavoro, ci immergiamo in profondità all'interno della Navigazione tramite Visione e Linguaggio in Ambienti Continui, con il meccanismo di attenzione utilizzato come pietra angolare del processo di integrazione visione-linguaggio. Fissando il popolare modello chiamato Transformer come punto di partenza, descriviamo in dettaglio il nostro viaggio verso un modello che possa portare innovazione in quest'area di ricerca. I nostri contributi spaziano dall'ideazione di multiple nuove architetture all'analisi di vari processi di training sfruttando diversi tipi di ottimizzatori. Per ogni modello proposto, ne viene testata l'efficacia tramite valutazione su benchmark standard. In conclusione, riportiamo i nostri promettenti risultati, i quali aprono nuove strade all'interno dell'intricato mondo della navigazione tramite visione e linguaggio in ambienti continui.

Abstract

After the great success of film genres such as fantasy and science fiction, the concept of robots can no longer be separated from the ability to execute natural-language instruction. In the last years, the advances in the fields of vision and natural language processing led to the hope that this dream could become true. In 2018, with this goal in mind, a new task called Vision and Language Navigation (VLN) was introduced. Two years after, a more realistic version of this task saw the light of day: Vision and Language Navigation in Continous Environments (VLN-CE). If the first task considered a robot that could teleport from a place to another, this newer task places the robot in a continuous environment, in which each action leads to a single, small step of the robot. This change introduces greater complexity, increasing the average length of an episode tenfold in the case of high-level VLN, and more than doubling that of a low-level VLN episode. In this work, we dive deep into vision and language navigation in continuous environments, with the Attention mechanism being the cornerstone of the vision-language integration process. Fixing the popular model called Transformer as a starting point, we describe in detail our journey towards a model that could bring innovation within this research area. Our contributions range from the design of multiple novel architectures to the analysis of various training regimes using different types of optimizers. For each proposed model, its effectiveness is tested by evaluation on standard benchmarks. In conclusion, we report our promising results, which open up new avenues within the intricate world of vision and language navigation in continuous environments.

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore