Tesi etd-03132018-102949

Tipo di tesi

Tesi di laurea magistrale

Autore

ALTOBELLO, GIULIO

URN

etd-03132018-102949

Titolo

Tagging automatico di informazioni sensibili provenienti da file non strutturati

Titolo in inglese

Automatic tagging of sensitive information from unstructured files

Struttura

Dipartimento di Ingegneria "Enzo Ferrari"

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
COLAJANNI MICHELE	Primo relatore
BALBONI ANDREA	Correlatore

Parole chiave

Automatic tagging
Natural Language
NER tag
NLP
parsing e OCR

Data inizio appello

2018-04-12

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2058-04-12

Riassunto analitico

L'obiettivo di questo lavoro di tesi è quello studiare e realizzare un sistema per il riconoscimento e il tagging di informazioni sensibili a partire da insiemi di file eterogenei e non strutturati, sfruttando le tecniche di base di Natural Language Processing (NLP).
Per l'estrazione di informazioni da file eterogenei si è reso necessario effettuare un confronto tra le principali librerie open source e le soluzioni proposte presenti in letteratura, sia dal punto di vista dell'accuratezza che dal punto di vista del tempo di esecuzione,
al fine di individuare le librerie più efficienti rispetto al tipo di input necessario. Questi input sono caratterizzati da fonti di dati eterogenee dalle quali sono state estratte informazioni visibili (corpus text), non visibili (metadati) e codificate in immagini presenti
all'interno. Per l'estrazione di informazioni dalle immagini (ad es. passaporti, carte
di credito, patenti, scansioni di documenti testuali) si sono applicate diverse tecniche di Optical Character Recognition (OCR). Questo sistema può essere utile a diverse figure professionali, quali analisti, che richiedono l’estrazione automatica di possibili informazioni sensibili presenti in diverse fonti eterogenee.

Abstract

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore