Tesi etd-09252024-222659

Tipo di tesi

Tesi di laurea magistrale

Autore

ZACCAGNINO, CARMINE

URN

etd-09252024-222659

Titolo

Miglioramento degli algoritmi di Document Parsing per documenti storici con contesto multipagina

Titolo in inglese

Improving Document Parsing for Historical Documents with Multi-Page Context

Struttura

Dipartimento di Ingegneria "Enzo Ferrari"

Corso di studi

Ingegneria informatica

Commissione

Nome Commissario	Qualifica
CUCCHIARA RITA	Primo relatore
QUATTRINI FABIO	Correlatore
CASCIANELLI SILVIA	Correlatore

Parole chiave

Digital Humanities
Document Analysis
Document Parsing
Historical Documents
Layout Analysis

Data inizio appello

2024-10-17

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2064-10-17

Riassunto analitico

Analysis of historical documents is of great interest to scholars of many fields.
These documents tend to be harder to analyze than other kinds of documents, because their language and layout is often uncommon in more recent documents, and their preservation status may also not be optimal.

Machine Learning and Computer Vision algorithms can help this process, by providing humanities scholars with tools to extract content from documents quickly and easily, and in formats that can be easily used for further automated processing as well.

This work is specifically aimed at parsing (i.e. performing both layout analysis and Optical Character Recognition at the same time) pages from the Regesta Pontificum Romanorum, which are listings of letters issued by medieval popes. They are long, asymmetric tables, spanning multiple pages.

This task proves to be very difficult for existing approaches found in the literature, especially because of the complex layout of the documents.

We improve on existing document parsing algorithms by enabling them, for the first time in the parsing task, to also access context from other pages within the document, which is particuarly fitting given the multi-page nature of Regesta content.

Abstract

L'analisi di documenti storici suscita grande interesse per studiosi di molti campi. Questo tipo di documenti è tendenzialmente più difficile da analizzare di altri tipi di documenti, visto che la lingua e il layout sono spesso rari in documenti più recenti, e il loro stato di conservazione potrebbe non essere ottimale. Gli algoritmi di Machine Learning e di visione artificiale possono aiutare in questo processo, fornendo agli studiosi di discipline umanistiche strumenti in grado di estrarre il contenuto dai documenti in modo facile e veloce, e in formati che possono essere facilmente elaborati ulteriormente. Questo lavoro mira, nello specifico, al parsing (i.e. layout analysis insieme a Optical Character Recognition) di pagine dei Regesta Pontificum Romanorum, che sono elenchi di lettere emesse da papi medievali. Sono tabelle lunghe ed asimmetriche, che continuano su più pagine. Questo compito si dimostra molto difficile da svolgere con metodi esistenti in letteratura, specialmente a causa del layout complesso dei documenti. Il lavoro migliora rispetto ai modelli di document parsing esistenti, permettendo ad essi, per la prima volta nel caso del parsing, di accedere al contenuto di altre pagine all'interno del documento, che è particolarmente appropriato vista la natura multipagina del contenuto dei Regesta.

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore