Riassunto analitico
Un'area di studio molto rilevante è la gestione e la condivisione di patrimoni culturali in scenari sovranazionali e multilingue. In questo documento viene discussa la ricerca che stiamo facendo per il progetto DigitalMaktaba, insieme alle fasi iniziali della creazione di un nuovo flusso di lavoro e di un nuovo strumento per l'estrazione automatica di conoscenza da documenti scritti in diverse lingue non latine (arabo, persiano e turco azero). Al fine di fornire un testo estratto altamente accurato e con un ricco contenuto di metadati, lo strumento sfrutta e combina vari strumenti OCR, tecniche di elaborazione del testo e risorse linguistiche, superando le limitazioni tipiche degli attuali sistemi. Ciò consentirà, nel prossimo futuro, di sviluppare uno strumento di catalogazione automatica, che speriamo possa in ultima analisi aiutare a preservare e conservare patrimoni colturali.
|
Abstract
A very relevant area of study is managing and sharing cultural heritages in supranational and multilingual scenarios. The research we are doing for the DigitalMaktaba project is discussed in this document, along with the initial stages of creating a novel workflow and tool for the automatic extraction of knowledge from documents written in multiple non-Latin languages (Arabic, Persian and Azerbaijani languages). In order to provide a highly accurate extracted text and a rich metadata content, the tool exploits and combines various OCR, text processing techniques, and linguistic resources, overcoming typical limitations of current state-of-the-art systems. This will enable the development of an automatic cataloguing tool in the near future, which we hope will ultimately help in better preserving and conserving culture in such a challenging environment.
|