Riassunto analitico
La diffusione dei Big Data ha portato alla rapida generazione, raccolta e analisi di grandi volumi di dati da differenti sorgenti, caratterizzate da diverse tipologie di dati, affidabilità e sicurezza. Questi dati costituiscono una fonte inestimabile di valore, in quanto possono essere utilizzati per migliorare diversi settori, sia pubblici che privati e per molteplici scopi di ricerca. Molte di queste possibilità sorgono dalla condivisione e integrazione di differenti sorgenti autonome, per migliorare la capacità di analisi e la conoscenza estratta dai dati che non sarebbe possibile sulle singole fonti. Questo processo è chiamato Data Integration (DI). Tuttavia, in molti domini applicativi vengono raccolti dati sensibili sugli individui, ogni volta che questi dati devono essere integrati, è necessario considerare le implicazioni etiche riguardo la privacy e la riservatezza. Le norme giuridiche per la raccolta e il trattamento delle informazioni sensibili dei soggetti che risiedono nell'Unione Europea, sono sancite dal General Data Protection Regulation (GDPR). Una misura introdotta per attuare in modo efficace i principi di protezione dei dati è l’utilizzo di tecniche tolleranti di tutela della privacy, per creare forme anonime o pseudonimi dei dati da integrare, chiamate rispettivamente anonimizzazione e pseudonimizzazione. Il Privacy-Preserving Record Linkage (PPRL) ha il compito di identificare i record (o profili di entità) che si riferiscono allo stesso oggetto del mondo reale (entità), attraverso diverse fonti di dati detenute da diverse parti, in modo tale che nessuna informazione sensibile delle entità venga rivelata a parti interne coinvolte nel processo e ad avversari esterni. Il progetto di tesi si compone dello studio teorico dei concetti di Data Science atti alla definizione e alla comprensione del problema di Privacy-Preserving Data Integration e dell’analisi e sperimentazione delle tecniche di PPRL nell’ambito della sanità e della giustizia. In particolare, nella tesi vengono trattati i seguenti argomenti: • le dimensioni per valutare il contenuto informativo delle sorgenti, dal punto di vista della qualità dei dati e della loro suddivisione in diverse categorie, dipendenti dalla necessità e dalle modalità di tutela della privacy da impiegare; • il processo di PPRL e gli step in cui si articola, gli algoritmi impiegati in ogni step, dipendenti dal risultato desiderato in termini di qualità del linkage, scalabilità e privacy; • la tassonomia di PPRL, comprensiva degli aspetti distintivi dei differenti scenari di applicazione; • le tecniche che costituiscono lo stato dell’arte del PPRL e le relative vulnerabilità a differenti tipologie di attacchi; • le metriche impiegate per misurare performance e risultati; • gli aspetti pratici per l’implementazione in aree di applicazione concrete; L’obbiettivo del progetto di tesi è la sperimentazione degli strumenti attualmente utilizzati in Europa per integrare sorgenti di dati sanitari in modo conforme al GDPR e la valutazione delle componenti architetturali, degli algoritmi di PPRL e delle tecniche di crittografia e codifica dei dati impiegati. Viene inoltre presentato lo studio di fattibilità e la sperimentazione di una tecnica di PPRL applicata al dominio della giustizia, utilizzando il sistema di Data Integration MOMIS, progettato e sviluppato dal DBGroup dell’Università di Modena e Reggio Emilia. In conclusione, sono riportati i risultati raggiunti e sono analizzati gli aspetti di PPRL che trovano limitato riscontro in letteratura e guideranno gli sviluppi futuri, in particolare verso la creazione di un sistema comprensivo di tutti gli elementi atti ad affrontare e valutare i diversi scenari concreti di Privacy-Preserving Data Integration.
|
Abstract
With the emergence of Big Data, data that contains greater variety, growing exponentially in volume and with more velocity than ever has been collected from different sources, characterized by different veracity and security.
This data is of great value as it can be used for improving different public and private sectors and for multiple research purposes. Many of these possibilities arise as a consequence of sharing and linking different autonomous sources, to enable detailed data analysis capacity that is not possible on none of the individual source. This process is called Data Integration (DI).
However, many application domains collect sensitive personal data about individuals, whenever these data are to be integrated, privacy and confidentiality implications have to be considered.
Data protection in Europe is set off by the European General Data Protection Regulation (GDPR) which is a comprehensive legal framework that sets guidelines for the collection and processing of personal information from individuals who live in the European Union.
An appropriate measure to implement data-protection principles in an effective manner is the use of tolerant privacy-preserving techniques to create anonymous forms or pseudonym of the data to be integrated, these processes are respectively called anonymization and pseudonymization.
Privacy-Preserving Record Linkage (PPRL) is the task of identifying and linking the records (entity profiles) that refer to the same real-world object (entity), across several data sources held by different parties, in a manner that no sensitive information of the entities is revealed to any internal parties involved in the process and external adversaries.
The thesis project consists of the theoretical study of Data Science concepts aimed at an exhaustive understanding of the problem of Privacy-Preserving Data Integration and the analysis and experimentation of PPRL techniques in concrete application domains.
In particular, the thesis covers the following topics:
• the dimensions to evaluate the quality of data to be integrated and the categorization of data based on identifibility and privacy;
• the main objectives and challenges of the PPRL process and the algorithms which can be employed in each specific step, depending on linkage quality, scalability and privacy requirements;
• the taxonomy of PPRL, which represents a comprehensive characterization of the different PPRL scenarios;
• the State-of-the-Art PPRL techniques and their vulnerabilities to different adversary models and attacks;
• the evaluation of performance measures and practical aspects of implementation.
The objective of the thesis is the experimentation of the European services developed to integrate health data sources in compliance with GDPR and the evaluation of the architectural components, PPRL algorithms and data encryption and coding techniques used.
Moreover, the feasibility study of a PPRL technique applied to the justice domain is conducted, using the Data Integration system MOMIS, designed and developed by the DBGroup of the University of Modena and Reggio Emilia.
In conclusion, the results achieved are reported to highlight benefits and drawbacks. Furthermore, a detailed analysis of current PPRL aspects which have been hardly covered in literature is presented to discuss future research challenges and directions, towards the creation of a comprehensive framework to address and evaluate the different scenarios of Privacy-Preserving Data Integration.
|