Riassunto analitico
La Tesi illustra il lavoro di ricerca e sviluppo svolto sulla MOMIS Dashboard, uno strumento di analisi dei dati interattivo per esplorare e visualizzare il contenuto delle fonti di dati attraverso diversi tipi di viste dinamiche. Il software è molto versatile e supporta la connessione ai principali DBMS relazionali e sorgenti Big Data; per la connessione ai dati MOMIS Dashboard utilizza MOMIS, un sistema di integrazione dei dati Open Source in grado di integrare fonti di dati eterogenee. L’attività di ricerca si è concentrata sullo sviluppo in MOMIS di nuovi strumenti che hanno permesso di potenziare le capacità di generazione di schemi integrati: infatti il framework è stato integrato con NORMS per la normalizzazione delle schema label e con SparkER per la entity resolution. Grazie a NORMS, MOMIS è in grado di trovare quali relazioni semantiche sussistono tra sorgenti le cui schema label (ovvero i nomi di classi o attributi di uno schema) contengono acronimi, abbreviazioni e termini composti. SparkER invece è un tool per l’Entity Resolution realizzato dal laboratorio DBGroup dell’Università di Modena e Reggio Emilia che, tramite tecniche avanzate di Meta-Blocking, garantisce prestazioni migliori di quelle esistenti e basate su Hadhoop MapReduce. In MOMIS l’utilizzo di SparkER consente di realizzare uno schema matching basato sul contenuto delle sorgenti dati e non sulle schema labels, andando così a determinare delle relazioni semantiche che altrimenti sarebbero difficilmente individuabili anche per gli esperti dominio. In questa tesi viene infine descritto come MOMIS sia stato impiegato come motore di integrazione dati per realizzare la MOMIS Dashboard. Quest’ultima è stata sviluppata per creare un tool di data analytics che ha trovato applicazione sia in contesti industriali nell’ambito del piano nazionale industria 4.0 sia in ambito medico scientifico.
|
Abstract
This thesis shows my research and development activities performed on the MOMIS Dashboard, an interactive data analytics tool to explore and visualize the content of data sources through different types of dynamic views. The software is very versatile and supports connection to the main relational DBMSs and Big Data sources; for the data connection MOMIS Dashboard uses MOMIS, an Open Source data integration system that can integrate heterogeneous data sources. The research activity focused on the development of new tools in MOMIS that enhanced the ability to generate integrated schemas: the framework was integrated indeed with NORMS, a tool for the standardization of the schema labels, and with SparkER, a tool for entity resolution. Thanks to NORMS, MOMIS can find the semantic relationships existing between sources whose schema labels (i.e. the names of classes or attributes of a schema) contain acronyms, abbreviations and compound terms. SparkER, on the other hand, is a tool for Entity Resolution created by the DBGroup laboratory of the University of Modena and Reggio Emilia (Italy). It employs advanced Meta-Blocking techniques and thus outperforms other Entity Resolution tools based on Hadhoop MapReduce. The SparkER tool in MOMIS enables the schema matching based on the content of the data sources and not on the schema labels, thus going to determine the semantic relationships that otherwise would be difficult to identify even for domain experts. Finally, this thesis shows how MOMIS was used as a data integration engine to implement the MOMIS Dashboard tool. This tool was developed to create a data analytics tool that has been applied both in industrial contexts within the framework of the Italian industry 4.0 plan and in the medical scientific domain.
|