Riassunto analitico
In molte organizzazioni, i database relazionali sono fondamentali per l'archiviazione e il recupero dei dati. Ogni impresa, indipendentemente dalle dimensioni, aronta la questione chiave della gestione dell'informazione: il raggiungimento di elevati livelli di visione organica del business (business intelligence, master data management), il consolidamento di dati segregati in "silos applicativi", la duplicazione dei dati, l'eterogeneita delle fonti, ecc. Il superamento di questi veri e propri ostacoli allo sviluppo del business e possibile grazie a soluzioni di Data Exchange e/o di Data In- tegration. Queste soluzioni determinano la capacita di unicare i dati fondamentali per il business e incrementano il valore dell'informazione immagazzinata in sorgenti eterogenee come: Database relazionali; Electronic Data Interchange (EDI); File (strutturati e non); Documenti XML; Applicazioni; Ecc. La prima fase di questi tipi di progetti e rappresentata dalla connessione alle sorgenti dati. Esistono piattaforme, come Talend Open Studio, descritta in seguito ed usata per l'implementazione del progetto, che dispongono di connettori studiati per interfacciarsi direttamente senza la necessita di scrivere codice, con centinaia di fonti diverse di dati come: File strutturati e non; Database; CRM; ERP; Web Service. Spesso, queste sorgenti devono essere aggregati in un'unica applicazione o in un unico contenitore di dati in modo tale che questi ultimi non si disperdano, duplichino e siano direttamente disponibili senza dover ricorrere ad azioni a ritroso per la loro ricerca. Le soluzioni di Data Exchange riducono i costi di sviluppo e i rischi connessi ai progetti di aggregazione dati grazie alla loro essibilita per la sincronizzazione dati. Il lavoro, di seguito presentato, riassume la realizzazione pratica di un progetto aziendale di Data Exchange, con l'obiettivo di ridurre la complessita del sistema in- formativo aziendale dovuto alla crescita esponenziale dei dati gestiti senza un ordine specico e alla non comunicazione dei diversi sistemi. Il progetto si focalizza sulla realizzazione di Data Exchange per il usso dati dei fornitori aziendali, gestito come usso prioritario, lasciando poi come lavoro futuro la realizzazione di tutti i ussi dati aziendali: Flusso dati utenti; Flusso dati contatti ; Flusso dati clienti ; Flusso dati progetti ; La realizzazione del progetto prende quindi in considerazione, come detto in precedenza, la presenza di sorgenti eterogenee. Particolarmente interessante, per uno studio ed un confronto con le tecniche esposte in letteratura, e l'applicazione di tecniche di Data Exchange tra le XML e database relazionali, fonte di ricerca degli ultimi anni per tecniche sempre migliori di decomposizione dei le XML al ne di garantire eciente ed ecace scambio di dati tra le sorgenti considerate. Esistono diverse soluzioni di decomposizione, ognuna utile diversamente per ogni tipologia di progetto. Nel corso degli ultimi anni, il linguaggio XML e diventato di fatto lo standard per lo scambio di informazioni tra le organizzazioni, nonche tra i servizi o applicazioni all'interno della stessa organizzazione. Dal momento che i dati tendono a risiedere nei database, hanno bisogno di essere convertiti da un formato relazionale in un formato XML quando coinvolto in questi tipi di scambio dati, cos come hanno bisogno di essere convertiti (in direzione contraria) da un formato XML in un formato relazionale per l'archiviazione o per la gestione da altre applicazioni. Questo lavoro di tesi intende quindi evidenziare le tecniche di mapping dei le XML presenti in letteratura, confrontandole con l'elaborazione di questi tipi di sor- genti da parte di Talend Open Studio e con la tecnica di decomposizione realizzata durante il progetto.
|
Abstract
In many organizations, relational databases are essential for storing and retriev-
ing data. Every company, regardless of size, faces the key issue of information man-
agement: the achievement of high levels of organic vision of the business (business
intelligence, master data management), the consolidation of data apart in "applica-
tion silos", duplication of data, the heterogeneity of sources, etc. Overcoming these
obstacles to business development is possible thanks to solutions of Data Exchange
and / or Data Integration. These solutions lead to the ability to unify the fundamen-
tal data for the business and increase the value of information stored in heterogeneous
sources as:
Relational database;
Electronic Data Interchange (EDI);
File (structured and unstructured);
XML documents;
Applications;
Ecc.
The rst step of these kinds of projects is represented by the connection to the
data sources. There are platforms, such as Talend Open Studio, described below,
and used for the implementation of the project, which have connectors designed to
interface directly without the need to write code, with hundreds of dierent sources
of data such as:
File (structured and unstructured);
Database;
CRM;
ERP;
Web Service.
Often these sources must be aggregated into a single application or in a single
container of data in such a way that they are not dispersed, duplicate and are
directly available without the need for actions back to their research. Data Exchange
solutions reduce development costs and project risks aggregation data thanks to their
exibility to synchronize data.
The work, presented below, summarizes the practical realization of a project
company of Data Exchange, with the goal of reducing the complexity of the corporate
information system due to the exponential growth of data managed in no specic
order and no communication between dierent systems.
The project focuses on the implementation of Data Exchange for the
ow data
of suppliers , managed as a priority
ow, then left as future work the realization
of all business data
ows:
Users data
ow;
Contacts data
ow;
Customers data
ow;
Projects data
ow;
Thus, the realization of the project takes into consideration, as previously men-
tioned, the presence of heterogeneous sources. Particularly interesting, for a study
and a comparison with the techniques described in the literature, is the application
of techniques of Data Exchange between XML les and relational databases, source
of research in recent years to techniques always best mapping (shredding) of the
XML le in order to ensure ecient and eective exchange of data between the re-
garded sources. There are several solutions to decomposition, each useful dierently
for each type of project.
Over the past few years, XML has become the de facto standard for the exchange
of information between organizations and between the services or applications within
the same organization. Since the data tend to reside in the database, they need to be
converted from one format into a relational XML format when involved in these types
of data exchange, as well as they need to be converted (in the opposite direction)
from an XML format a relational format for storage or for the management by other
applications.
This thesis therefore aims to highlight the techniques of mapping XML le in the
literature, comparing them with the processing of these kinds of sources by Talend
Open Studio and with the decomposition technique realized during the project.
|