Tipo di tesi |
Tesi di laurea magistrale |
Autore |
HU, JIA CHENG
|
URN |
etd-03082022-010110 |
Titolo |
The Expansion mechanism: breaking the sequence length barrier in Image Captioning and Neural Machine Translation |
Titolo in inglese |
Il meccanismo dell'Espansione: rompere la barriera della lunghezza di sequenza in Image Captioning e Neural Machine Translation |
Struttura |
Dipartimento di Scienze Fisiche, Informatiche e Matematiche |
Corso di studi |
INFORMATICA (D.M. 270/04) |
Commissione |
Nome Commissario |
Qualifica |
BARALDI LORENZO |
Primo relatore |
LANDI FEDERICO |
Correlatore |
|
Parole chiave |
- Deep Learning
- Expansion Mechanism
- Image Captioning
- Machine Translation
- Transformer
|
Data inizio appello |
2022-04-13 |
Disponibilità |
Accessibile via web (tutti i file della tesi sono accessibili) |
Riassunto analitico
RNNs, CNNs and in particular Fully attentive models have been the de-facto standard architecture across many sequence modeling problems in Deep Learning over the past years. In this thesis, following the opposite idea of the Attention method, we designed a novel architectural principle called Expansion mechanism, developed a novel neural network called ExpansionNet for the Image Captioning problem and proposed an augmented version of the Transformer for the task of Neural Machine Translation. The both achievieved very competitive performances and they can be the starting ground for a novel research direction. Additionally, we described the process of research and development in its most important aspects, its difficulties and several examples of intermediate experimental ideas.
|
Abstract
RNNs, CNNs e modelli Fully-Attentivi sono stati di fatto lo standard de-facto architetturale in molti problemi di sequence modeling nel contesto Deep Learning negli ultimi anni. In questa tesi, seguendo l'idea opposta al metodo dell'Attenzione, abbiamo progettato un nuovo principio architetturale chiamato "Meccanismo dell'Espansione", sviluppato una nuova rete neurale chiamato ExpansionNet per il problema dell'Image Captioning e proposto una versione migliorata del Transformer nel contesto del Neural Machine Translation. Entrambi, hanno raggiunto risultati molto competitivi e possono essere il punto di partenza di una nuova direzione di ricerca. In aggiunta, abbiamo descritto il processo di ricerca e sviluppo negli aspetti suoi più importanti, le difficoltà alle quali si è imbattuti e diversi esempi di idee sperimentali intermedi.
|
File |
|