Riassunto analitico
Il Data Warehouse (DW) è lo strumento principale di Business Intelligence per l'analisi di grandi molli di dati con lo scopo di estrare informazioni strategiche come supporto al processo decisionale.
L'integrazione di Data Warehouse è il processo di unire informazioni multidimensionali da due o più DW eterogenei, e di presentare agli utenti una vista globale e unificata dei dati strategici combinati dei vari DW. Il problema sta' diventando sempre più frequente con il contesto economico attuale che vede molte fusioni/acquisizioni di compagnie e la formazioni di nuove tipologie di reti di aziende, come le reti di co-opetition, dove i manager devono analizzare tutte le parti coinvolte a prendere decisioni strategiche che riguardano tutti i partecipanti.
Il contributo della tesi è quello di analizzare ambienti di DW eterogenei e di presentare una metodologia di integrazione delle dimensioni che permette agli utenti di unire, accedere e interrogare dati da sorgenti multidimensionali eterogenei. La metodologia di integrazione si basa sulla teoria dei grafi e sulla tecnica di disambiguazione Combined WordSense Disambiguation (CWSD) per generare equivalenze semantiche tra schemi multidimensionali. In seguito, l'eterogeneità degli schemi è analizzata e gestita, e dimensioni compatibili sono uniformate attraverso l'importazione di attributi dimensionali da una dimensione all'altra. Questo permette agli utilizzatori di sorgenti distinte di avere la stessa visione dei dati locali, e aumenta la compatibilità dei schemi locali per query di tipo drill-across. Gli attributi dimensionali sono popolati con valori d'istanza attraverso una versione dell'algoritmo chase basato sull'approccio di clustering RELEVANT.
Infine, alcune proprietà di qualità sono considerate e analizzate. Viene presentata l'omogeneità/eterogeneità delle dimensioni dalla prospettiva di integrazione, e la tesi presenta le basi teoriche sotto cui la corretezza e la consistenza sono garantite, mentre verrà dimostrata la consistenza del metodo di integrazione. Inoltre, la metodologia di integrazione verrà analizzata sotto la prospettiva delle dimensioni di tipo slowly changing.
|
Abstract
The Data Warehouse (DW) is the main Business Intelligence instrument for the analysis of large banks of operational data for extracting strategic information in support of the decision making process. It is usually focused on a specific area of an organization.
Data Warehouse integration is the process of combining multidimensional information from two or more heterogeneous DWs, and to present users an unified global overview of the combined strategic information from the DWs. The problem is becoming more and more frequent as the dynamic economic context sees many companies merges/acquisitions and the formation of new business networks, like co-opetition, where managers need to analyze all the involved parties and to be able to take strategic decisions concerning all the participants.
The contribution of the thesis is to analyze heterogeneous DW environments and to present a dimension integration methodology that allows users to combine, access and query data from heterogeneous multidimensional sources. The integration methodology relies on graph theory and the Combined WordSense Disambiguation technique for generating semantic mappings between multidimensional schemas. Subsequently, schema heterogeneity is analyzed and handled, and compatible dimensions are uniformed by importing dimensional attributes from one dimension to another. This allows users from different sources to have the same overview of the local data, and increases local schema compatibility for drill-across queries. The dimensional attributes are populated with instance value by using a chase algorithm variant based on the RELEVANT clustering approach.
Finally, several quality properties are discussed and analyzed. Dimension homogeneity/heterogeneity is presented from the integration perspective, and also the thesis presents the theoretical fundamental under which mapping soundness and consistency are guaranteed, meanwhile the mapping integration methodology coherency will be demonstrated. Furthermore, the integration methodology will be analyzed from a slowly changing dimensions perspective.
|