Tipo di tesi | Tesi di laurea magistrale | ||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Autore | COJOCARU, IULIAN | ||||||||||||||||||||||||||||||
URN | etd-03242021-205939 | ||||||||||||||||||||||||||||||
Titolo | Investigazione della convoluzione deformabile per il riconoscimento di testi scritti a mano | ||||||||||||||||||||||||||||||
Titolo in inglese | Investigating Deformable Convolution for Handwritten Text Recognition | ||||||||||||||||||||||||||||||
Struttura | Dipartimento di Scienze Fisiche, Informatiche e Matematiche | ||||||||||||||||||||||||||||||
Corso di studi | INFORMATICA (D.M. 270/04) | ||||||||||||||||||||||||||||||
Commissione |
|
||||||||||||||||||||||||||||||
Parole chiave |
|
||||||||||||||||||||||||||||||
Data inizio appello | 2021-04-14 | ||||||||||||||||||||||||||||||
Disponibilità | Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi) | ||||||||||||||||||||||||||||||
Data di rilascio | 2061-04-14 | ||||||||||||||||||||||||||||||
Riassunto analitico
Il riconoscimento del testo scritto a mano è composto principalmente da pre-elaborazione, segmentazione e il processo effettivo di riconoscimento. Quest'ultimo può essere affrontato utilizzando una combinazione di reti neurali addestrate su righe segmentate di testo utilizzando l'apprendimento supervisionato con la funzione obiettivo di classificazione temporale connessionista (CTC). La mappa delle caratteristiche viene estratta dalle immagini di righe segmentate utilizzando una rete neurale convoluzionale (CNN). Le reti neurali di lunga memoria a breve termine bidirezionali (BiLSTM) vengono applicati alla sequenza ottenuta dalla mappa delle caratteristiche. Le posizioni di campionamento spaziale delle convoluzioni deformabili dipendono da slittamenti appresi da convoluzioni 2D sui dati di ingresso. Questo consente alle griglie di campionamento delle convoluzioni deformabili di adattarsi parzialmente alla forma dei caratteri nel caso di testo scritto a mano. Incrementando il tempo di addestramento e il tempo di inferenza, la sostituzione di convoluzioni 2D con convoluzioni deformabili 2D nella CNN migliora marginalmente i valori del tasso di errore a livello di parola (WER) e del tasso di errore a livello di caratteri (CER) del modello CNN-BiLSTM-CTC sulle collezioni di testi scritti a mano IAM e RIMES. |
|||||||||||||||||||||||||||||||
Abstract
Handwritten text recognition is mainly composed of preprocessing, segmentation and the actual recognition process. The latter can be tackled using a combination of neural networks trained on segmented lines of text using supervised learning with the connectionist temporal classification loss function (CTC). The feature map is extracted from the images of segmented lines utilizing a convolutional neural network (CNN). Bidirectional long short-term memory neural networks (BiLSTM) are applied on the sequence obtained from the feature map. The spatial sampling locations of deformable convolutions depend on offsets learnt by 2D convolutions from the input. This permits sampling grids of deformable convolutions to adapt partially to the shape of the characters in the case of handwritten text. At the cost of training time and inference time, replacing 2D convolutions with 2D deformable convolutions in the CNN marginally improves the word error rate (WER) and character error rate (CER) scores of the CNN-BiLSTM-CTC model on the IAM and RIMES handwriting datasets. |
|||||||||||||||||||||||||||||||
File |
|