Tesi etd-05112021-120754

Tipo di tesi

Tesi di laurea magistrale

Autore

LEVIZZANI, MARTINA

URN

etd-05112021-120754

Titolo

Natural Language Processing: anonimizzazione dati sensibili su documenti

Titolo in inglese

Struttura

Dipartimento di Ingegneria

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
CALDERARA SIMONE	Primo relatore

Parole chiave

anonimizzazione
estrazione dati
Machine Learning
Spacy
Tesseract

Data inizio appello

2021-06-11

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2061-06-11

Riassunto analitico

Obiettivo principale di questo lavoro è lo studio e l’approfondimento delle tecniche di Natural Language Processing per l’analisi di documenti. Lo scopo consiste nella ricerca di dati sensibili e personali all’interno di documenti privati e sostituirli con informazioni fittizie, con l’obiettivo di anonimizzare il documento stesso.
Lo sviluppo del suddetto lavoro è nato dall’esigenza di alcuni specialisti del Digital Lab dell’azienda Price Waterhouse Coopers di utilizzare i documenti per allenare classificatori di documenti e progetti futuri, dovendo garantire l’anonimato per i clienti.
Lo sviluppo inizia con la corretta estrazione del testo sfruttando Tesseract un optical character recognition engine per convertire il testo contenuto in un documento spesso ottenuto da una scannerizzazione, in caratteri comprensibili.
Sulla base dei dati estratti viene allenato un modello basato su NER (Name Entity Recognition) su spaCy una libreria open source per l'elaborazione del linguaggio naturale che implementa modelli statistici di reti neurali. Saranno usati modelli già pre-trainati su di esso ma si andrà ad arricchire il modello esistente allenandolo su un dataset di training basato sui documenti da anonimizzare.
Per i dati sensibili più strutturati, che seguono regole precise verranno sfruttate delle REGEX un'espressione regolare basata su sequenza di simboli che identifica un insieme di stringhe.
Il programma è stato implementato usando Google Colaboratory tool agevole per implementare modelli di machine learning robusti ed efficienti grazie alla sua potenza di calcolo.
Verranno quindi riportati tutti i dettagli relativi alle tecnologie utilizzate ai dettagli relativi alla scelta dei dati per allenare il modello, nonché i risultati ottenuti e le difficoltà riscontrate nel conseguimento degli stessi.

Abstract

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore