Riassunto analitico
Analysis of historical documents is of great interest to scholars of many fields. These documents tend to be harder to analyze than other kinds of documents, because their language and layout is often uncommon in more recent documents, and their preservation status may also not be optimal.
Machine Learning and Computer Vision algorithms can help this process, by providing humanities scholars with tools to extract content from documents quickly and easily, and in formats that can be easily used for further automated processing as well.
This work is specifically aimed at parsing (i.e. performing both layout analysis and Optical Character Recognition at the same time) pages from the Regesta Pontificum Romanorum, which are listings of letters issued by medieval popes. They are long, asymmetric tables, spanning multiple pages.
This task proves to be very difficult for existing approaches found in the literature, especially because of the complex layout of the documents.
We improve on existing document parsing algorithms by enabling them, for the first time in the parsing task, to also access context from other pages within the document, which is particuarly fitting given the multi-page nature of Regesta content.
|
Abstract
L'analisi di documenti storici suscita grande interesse per studiosi di molti campi.
Questo tipo di documenti è tendenzialmente più difficile da analizzare di altri tipi di documenti, visto che la lingua e il layout sono spesso rari in documenti più recenti, e il loro stato di conservazione potrebbe non essere ottimale.
Gli algoritmi di Machine Learning e di visione artificiale possono aiutare in questo processo, fornendo agli studiosi di discipline umanistiche strumenti in grado di estrarre il contenuto dai documenti in modo facile e veloce, e in formati che possono essere facilmente elaborati ulteriormente.
Questo lavoro mira, nello specifico, al parsing (i.e. layout analysis insieme a Optical Character Recognition) di pagine dei Regesta Pontificum Romanorum, che sono elenchi di lettere emesse da papi medievali. Sono tabelle lunghe ed asimmetriche, che continuano su più pagine.
Questo compito si dimostra molto difficile da svolgere con metodi esistenti in letteratura, specialmente a causa del layout complesso dei documenti.
Il lavoro migliora rispetto ai modelli di document parsing esistenti, permettendo ad essi, per la prima volta nel caso del parsing, di accedere al contenuto di altre pagine all'interno del documento, che è particolarmente appropriato vista la natura multipagina del contenuto dei Regesta.
|