Riassunto analitico
La gestione e la condivisione dei patrimoni culturali è un tema di ricerca molto sentito, soprattutto in contesti sovranazionali e multilinguistici. In questa tesi viene discussa la ricerca condotta nell'ambito del progetto DigitalMaktaba, presentando i primi passi nella progettazione di un flusso di lavoro e di uno strumento innovativo per l'estrazione automatica di conoscenza da documenti scritti in diverse lingue non Latine (Arabo, Persiano e Azero). Lo strumento si avvale di varie tecniche di OCR, di elaborazione del testo e di risorse linguistiche per fornire un testo estratto altamente accurato e un ricco contenuto di metadati, superando le limitazioni tipiche degli attuali sistemi all'avanguardia; ciò consentirà, in un prossimo futuro, lo sviluppo di un catalogatore automatico, che contribuirà a migliorare la conservazione della cultura.
|
Abstract
Managing and sharing cultural heritages is a hot research topic, especially in supranational and multi-literate contexts. In this thesis is discussed the research conducted in the DigitalMaktaba project, which presents the first steps in designing an innovative workflow and tool for the automatic extraction of knowledge from documents written in multiple non-Latin languages (Arabic, Persian and Azerbaijani languages). The tool makes use of various OCR, text processing techniques, and linguistic resources to provide both highly accurate extracted text and rich metadata content, overcoming typical limitations of current state-of-the-art systems; this will enable, in the near future, the development of an automatic cataloguer, which will eventually help in better preserving and conserving culture.
|