Riassunto analitico
The digitization of historical documents has transformed access to cultural and intellectual heritage, opening new possibilities for research, preservation, and public engagement. Yet, the vast scale and diversity of these materials create challenges in organizing and extracting meaningful information. Traditional manual metadata extraction methods are inefficient and impractical for large-scale collections, driving the need for innovative automated solutions.
This thesis presents the development of a virtual archivist system powered by state-of-the-art technologies, with a particular emphasis on Large Language Models (LLMs). These models, known for their exceptional capabilities in understanding and generating text, are central to the system’s ability to process and extract metadata from complex and varied historical content. Combined with computer vision and Optical Character Recognition (OCR), the system addresses challenges such as degraded materials and inconsistent structures.
By ensuring scalability and accuracy through confidence-based mechanisms and human oversight, this research highlights the transformative potential of LLM-driven automation to improve the organization and accessibility of cultural heritage, advancing historical research and enhancing public engagement with historical archives.
|
Abstract
La digitalizzazione dei documenti storici ha rivoluzionato l’accesso al patrimonio culturale e intellettuale, aprendo nuove possibilità per la ricerca, la conservazione e l’interazione pubblica. Tuttavia, la grande scala e la diversità di questi materiali pongono sfide significative nell’organizzazione e nell’estrazione di informazioni utili. I metodi tradizionali di estrazione manuale dei metadati risultano inefficienti e poco pratici per collezioni di grandi dimensioni, rendendo necessarie soluzioni automatizzate innovative.
Questa tesi presenta lo sviluppo di un sistema di archivista virtuale basato su tecnologie all’avanguardia, con particolare enfasi sui Large Language Models (LLM). Questi modelli, noti per le loro straordinarie capacità di comprensione e generazione di testo, sono fondamentali per permettere al sistema di elaborare ed estrarre metadati da contenuti storici complessi e diversificati. Integrando tecniche di computer vision e Optical Character Recognition (OCR), il sistema affronta sfide come materiali degradati e strutture incoerenti.
Garantendo scalabilità e precisione grazie a meccanismi basati su valori di confidenza e al controllo umano, questa ricerca evidenzia il potenziale trasformativo dell’automazione guidata dagli LLM per migliorare l’organizzazione e l’accessibilità del patrimonio culturale, avanzando la ricerca storica e rafforzando il coinvolgimento pubblico con gli archivi storici.
|