Riassunto analitico
Dopo il grande successo di generi cinematografici come il fantasy e la fantascienza, il concetto di robot non può più essere separato dalla capacità di eseguire istruzioni in linguaggio naturale. Negli ultimi anni, i progressi nei campi della visione e dell'elaborazione del linguaggio naturale hanno portato alla speranza che questo sogno possa diventare realtà. Nel 2018, è con questo obiettivo in mente che è stato introdotto un nuovo campo di ricerca chiamato Navigazione tramite Visione e Linguaggio (VLN). Due anni dopo, una versione più realistica di questo settore è venuta alla luce: Navigazione tramite Visione e Linguaggio in Ambienti Continui (VLN-CE). Se il primo campo di ricerca considerava un robot che poteva teletrasportarsi da un luogo all'altro, il secondo pone il robot in un ambiente continuo, in cui ogni azione porta ad un singolo, piccolo passo del robot. Questo cambiamento introduce una maggiore complessità, aumentando la lunghezza media di un episodio di dieci volte nel caso di VLN ad alto livello, e più che raddoppiando quella di un episodio di VLN a basso livello. In questo lavoro, ci immergiamo in profondità all'interno della Navigazione tramite Visione e Linguaggio in Ambienti Continui, con il meccanismo di attenzione utilizzato come pietra angolare del processo di integrazione visione-linguaggio. Fissando il popolare modello chiamato Transformer come punto di partenza, descriviamo in dettaglio il nostro viaggio verso un modello che possa portare innovazione in quest'area di ricerca. I nostri contributi spaziano dall'ideazione di multiple nuove architetture all'analisi di vari processi di training sfruttando diversi tipi di ottimizzatori. Per ogni modello proposto, ne viene testata l'efficacia tramite valutazione su benchmark standard. In conclusione, riportiamo i nostri promettenti risultati, i quali aprono nuove strade all'interno dell'intricato mondo della navigazione tramite visione e linguaggio in ambienti continui.
|
Abstract
After the great success of film genres such as fantasy and science fiction, the concept of robots can no longer be separated from the ability to execute natural-language instruction. In the last years, the advances in the fields of vision and natural language processing led to the hope that this dream could become true. In 2018, with this goal in mind, a new task called Vision and Language Navigation (VLN) was introduced. Two years after, a more realistic version of this task saw the light of day: Vision and Language Navigation in Continous Environments (VLN-CE). If the first task considered a robot that could teleport from a place to another, this newer task places the robot in a continuous environment, in which each action leads to a single, small step of the robot.
This change introduces greater complexity, increasing the average length of an episode tenfold in the case of high-level VLN, and more than doubling that of a low-level VLN episode.
In this work, we dive deep into vision and language navigation in continuous environments, with the Attention mechanism being the cornerstone of the vision-language integration process. Fixing the popular model called Transformer as a starting point, we describe in detail our journey towards a model that could bring innovation within this research area. Our contributions range from the design of multiple novel architectures to the analysis of various training regimes using different types of optimizers. For each proposed model, its effectiveness is tested by evaluation on standard benchmarks. In conclusion, we report our promising results, which open up new avenues within the intricate world of vision and language navigation in continuous environments.
|