Riassunto analitico
La tesi di laurea si concentra sull'utilizzo della tecnica Fast Fourier Convolution per migliorare la qualità di documenti digitalizzati che presentano rumore e disturbi causati sia da fattori naturali, quali l'ossidazione dell'inchiostro, macchie e graffi, che da cause digitali come l'illuminazione e la compressione dell'immagine. L'obiettivo principale è di ottimizzare la leggibilità e l'analisi dei documenti digitalizzati, tramite l'operazione di binarizzazione delle immagini. Questa è una fase cruciale nella Document Analysis in quanto permette di separare il testo dallo sfondo, semplificando le successive fasi di elaborazione, come il riconoscimento ottico dei caratteri e la segmentazione del testo.
Le tecniche tradizionali di binarizzazione basate sulla stima di una soglia globale sono state superate da tecniche più avanzate, come gli algoritmi di binarizzazione che usano una soglia adattativa. Inoltre, l'utilizzo di tecniche di apprendimento automatico, come le reti neurali convoluzionali, ha portato a ulteriori miglioramenti, poiché tali metodi lavorano a livello di singolo pixel e si basano sulla loro interazione con i pixel adiacenti. Tuttavia, l'utilizzo di patch locali può causare problemi ai bordi delle stesse, compromettendo l'accuratezza e la qualità del risultato. Pertanto, considerare le informazioni locali e globali è importante e ci sono metodi innovativi come la soglia ibrida e i modelli basati su GANs. Inoltre, gli approcci multi-scale consentono di gestire entrambe le informazioni.
Integrare le informazioni globali mediante meccanismi di attenzione sui pixel è una pratica ampiamente adottata nella Computer Vision, che ha dimostrato di essere altrettanto utile per il compito di binarizzazione delle immagini dei documenti. Tuttavia, l'implementazione di questa strategia con modelli di rete standard basati sulla convoluzione è ostacolata dalla dimensione fissa e dalla località del loro campo recettivo. Inoltre, per ottenere elevate prestazioni di binarizzazione, è necessario disporre di un notevole volume di dati per il training della rete, il che risulta problematico poiché i dati per la binarizzazione dei documenti sono difficili da raccogliere. Ciò porta spesso alla creazione di modelli di grandi dimensioni, che compromettono l'efficacia dell'approccio.
Per ovviare alle limitazioni dei modelli standard basati sulla convoluzione per la binarizzazione dei documenti, è stato proposto un nuovo modello completamente convoluzionale efficiente, che integra le informazioni globali utilizzando le Fast Fourier Convolutions (FFC). Questa tecnica combina informazioni spaziali e spettrali per aumentare il campo ricettivo nel dominio della frequenza, ed è stata già utilizzata con successo per altre applicazioni come l'Inpainting, la Super-Resolution e la segmentazione semantica. Nonostante non siano ancora state impiegate per la binarizzazione delle immagini dei documenti, gli FFC potrebbero rappresentare una soluzione efficace, poiché sono in grado di codificare informazioni sia locali che globali, e di modellare schemi e trame pseudo-periodici, che sono tipici della carta e delle linee di testo.
In conclusione, la ricerca presenta una valutazione esaustiva delle prestazioni del modello proposto basato su Fast Fourier Convolution rispetto ad altri approcci standard utilizzati nella binarizzazione dei documenti, come Convolution e Transformer. L'efficacia dell'approccio FFC è stata dimostrata attraverso un'analisi sperimentale condotta su diversi dataset di riferimento che contengono documenti con diversi tipi di degradazione. Questi risultati confermano la superiorità del modello basato su FFC rispetto ad altre tecniche e ne dimostrano il potenziale per migliorare la qualità della binarizzazione delle immagini dei documenti.
|