Riassunto analitico
L'architettura Transformer "Fully Attentive", proposta nel documento "Attention is All You Need", è stata la prima architettura Encoder-Decoder interamente basata sul meccanismo di "Attention". Questo modello si è dimostrato in grado di migliorare lo stato dell'arte in varie attività di Computer Vision e Natural Langue Processing. Inoltre, essendo il Transformer più parallelizzabile rispetto ai modelli tradizionali basati su Recurrent Neural Networks, il suo tempo di addestramento è ridotto. In questa tesi, l'architettura Transformer viene sfruttata per affrontare l'attività di "Handwritten Text Recognition". La sperimentazione viene effettuata su cinque diversi dataset, sia moderni che storici. I risultati mostrano che l'architettura Transformer è promettente per l'applicazione nell'attività di riconoscimento del testo scritto a mano e, pertanto, potrebbe essere utilizzata come elemento costitutivo delle pipeline di trascrizione automatica dei documenti storici.
|
Abstract
The Transformer Fully Attentive Architecture, proposed in the paper "Attention Is All You Need," was the first Encoder-Decoder architecture entirely based on the Attention mechanism. This model has proven itself capable of improving the state-of-the-art in various Computer Vision and Natural Langue Processing tasks. Moreover, being the Transformer more parallelizable compared to traditional models based on Recurrent Neural Networks, its training time is reduced. In this thesis, the Transformer architecture is exploited to address the Handwritten Text Recognition task. Experimentation is carried out on five different datasets, both modern and historical. The results show that the Transformer architecture is promising for the application in the Handwritten Text Recognition task, and thus, it could be used as a building block of Historical Documents automatic transcription pipelines.
|