Riassunto analitico
Obiettivo principale di questo lavoro è lo studio e l’approfondimento delle tecniche di Natural Language Processing per l’analisi di documenti. Lo scopo consiste nella ricerca di dati sensibili e personali all’interno di documenti privati e sostituirli con informazioni fittizie, con l’obiettivo di anonimizzare il documento stesso. Lo sviluppo del suddetto lavoro è nato dall’esigenza di alcuni specialisti del Digital Lab dell’azienda Price Waterhouse Coopers di utilizzare i documenti per allenare classificatori di documenti e progetti futuri, dovendo garantire l’anonimato per i clienti. Lo sviluppo inizia con la corretta estrazione del testo sfruttando Tesseract un optical character recognition engine per convertire il testo contenuto in un documento spesso ottenuto da una scannerizzazione, in caratteri comprensibili. Sulla base dei dati estratti viene allenato un modello basato su NER (Name Entity Recognition) su spaCy una libreria open source per l'elaborazione del linguaggio naturale che implementa modelli statistici di reti neurali. Saranno usati modelli già pre-trainati su di esso ma si andrà ad arricchire il modello esistente allenandolo su un dataset di training basato sui documenti da anonimizzare. Per i dati sensibili più strutturati, che seguono regole precise verranno sfruttate delle REGEX un'espressione regolare basata su sequenza di simboli che identifica un insieme di stringhe. Il programma è stato implementato usando Google Colaboratory tool agevole per implementare modelli di machine learning robusti ed efficienti grazie alla sua potenza di calcolo. Verranno quindi riportati tutti i dettagli relativi alle tecnologie utilizzate ai dettagli relativi alla scelta dei dati per allenare il modello, nonché i risultati ottenuti e le difficoltà riscontrate nel conseguimento degli stessi.
|