Riassunto analitico
L'obiettivo di questo lavoro di tesi è quello studiare e realizzare un sistema per il riconoscimento e il tagging di informazioni sensibili a partire da insiemi di file eterogenei e non strutturati, sfruttando le tecniche di base di Natural Language Processing (NLP). Per l'estrazione di informazioni da file eterogenei si è reso necessario effettuare un confronto tra le principali librerie open source e le soluzioni proposte presenti in letteratura, sia dal punto di vista dell'accuratezza che dal punto di vista del tempo di esecuzione, al fine di individuare le librerie più efficienti rispetto al tipo di input necessario. Questi input sono caratterizzati da fonti di dati eterogenee dalle quali sono state estratte informazioni visibili (corpus text), non visibili (metadati) e codificate in immagini presenti all'interno. Per l'estrazione di informazioni dalle immagini (ad es. passaporti, carte di credito, patenti, scansioni di documenti testuali) si sono applicate diverse tecniche di Optical Character Recognition (OCR). Questo sistema può essere utile a diverse figure professionali, quali analisti, che richiedono l’estrazione automatica di possibili informazioni sensibili presenti in diverse fonti eterogenee.
|