Riassunto analitico
Data integration è il processo di combinare i dati che risiedono in fonti diverse al fine di offrire all'utente finale una visione unificata dell'intera informazione disponibile. Data Provenance è il processo dell'identificazione dell'origine del dato, come è stato derivato e come è stato modificato nel tempo. Questa attività di ricerca sull'integrazione dell'informazione per fonti di dati biologici è stata finanziata dal progetto SITEIA e si è concentrata sul miglioramento e le estensioni del database CEREALAB. Il database CEREALAB è uno strumento web-based realizzato per aiutare i breeders di cereali nella scelta di marcatori molecolari associati a caratteri fenotipici economicamente importanti, esso contiene i dati fenotipici e genotipici ottenuti dall'integrazione delle banche dati open source disponibili con i dati ottenuti dal progetto CEREALAB. L'integrazione dell'informazione nel database CEREALAB è stata ottenuta utilizzando il sistema MOMIS (Mediator Environment for Multiple Information Sources), sviluppato dal DBGroup dell'Università degli Studi di Modena e Reggio Emilia. Come risultato dell'estensivo uso del database CEREALAB, diverse estensioni e miglioramenti, che possono essere classificati in due categorie, sono state introdotte. In primo luogo, il contenuto del database CEREALAB è stato esteso in modo da offrire ai breeder nuovi dati significativi. Per migliorare e semplificare l'accesso al database, una nuova interfaccia grafica Breeder-Friendly è stata sviluppata. Per massimizzare e ottimizzare l'accessibilità delle informazioni disponibili, nuove funzionalità e strumenti aggiuntivi sono stati realizzati. Infine, un nuovo modulo di inserimento dati è stato implementato. Inoltre, al fine di soddisfare le esigenze degli utenti finali, la data provenance è stata introdotta e parzialmente implementata nel contesto del database CEREALAB. La Data Provenance è un problema di ricerca aperto, ma è particolarmente richiesto nei sistemi di integrazione dati, dove informazioni provenienti da fonti diverse, potenzialmente incerti o anche in contrasto tra di loro, sono integrati. In questo contesto, avendo la possibilità di risalire all'origine del dato può aiutare a identificare possibili risultati inattesi o discutibili.
|
Abstract
Data integration is the process of combining data residing in different sources in order to offer the end user a unified view over the entire available information.
Data Provenance is the process of identifying where data came from, how it was derived, and how it was updated over time.
This PhD research activity on Information Integration for biological data sources was granted by the SITEIA project and was focused on improvements and extensions of the CEREALAB database. The CEREALAB database is a web-based tool realized to help cereal breeders in choosing molecular markers associated to economically important phenotypic traits; it contains phenotypic and genotypic data obtained from the integration of available open source databases with the data obtained by the CEREALAB project. Information integration in the CEREALAB database is obtained by using the MOMIS (Mediator Environment
for Multiple Information Sources) system, developed by the DBGroup of
the University of Modena and Reggio Emilia.
As a result of the wide use of the CEREALAB database, several extensions and improvements, that can be classified in two categories, were introduced. First, the CEREALAB database content was extended in order to offer to the breeders new significant data. To improve and simplify the access to the database, a new breeder friendly Graphic User Interface (GUI) was developed. To maximize and optimize the accessibility of the available information, new functionalities and
additional tools were realized. Finally, a new data entry module was implemented.
Moreover, in order to meet the end-user needs, data provenance was introduced and partially implemented in the context of the CEREALAB database. Data Provenance is an open research problem; it is particularly required in data integration systems, where information coming from different sources, potentially uncertain or even inconsistent with each other, is integrated. In this context, having
the possibility to trace the lineage of specific data can help identify possible unexpected or questionable results.
|