Riassunto analitico
Un grande quantitativo di dati semi-strutturati è disponibile sul Web in forma di tabelle, contenuti annotati (e.g. RDFa, Microdata), e Linked Open Data. Per le aziende, le agenzie governative e i ricercatori di grandi progetti scientifici, questi dati possono costituire una preziosa risorsa se integrati con i dati che già possiedono e che tipicamente sono già oggetto di tradizionali processi di integrazione. Essere in grado di identificare i record duplicati che si riferiscono alla stessa entità è un passo fondamentale per gestire correttamente questi dati. Generalmente, per effettuare questo processo di Entity Resolution (ER), le tradizionali tecniche richiedono che gli schemi delle sorgenti dati interessate siano allineati. Sfortunatamente, i dati semi-strutturati del Web sono tipicamente caratterizzati da grande eterogeneità, volume e rumore, rendendo le tradizionali tecniche inapplicabili. Pertanto, le tecniche impiegate in questo contesto tipicamente rinunciano a sfruttare informazioni dello schema, affidandosi esclusivamente alla ridondanza per limitare la probabilità di non identificare duplicati. Questa dissertazione affronta due fondamentali problemi legati all’ER, nel contesto di dati altamente eterogenei e voluminosi: (i) come estrarre informazioni relative allo schema, utili per effettuare ER, da sorgenti dati, senza effettuare un tradizionale allineamento dello schema; (ii) come può questa informazione essere sfruttata per ridurre la complessità dell’ER; in particolare, per supportare tecniche di indicizzazione che raggruppano i recod in blocchi, limitando il confronto ai solo record che compaiono assieme in almeno un blocco. In questa tesi vengono proposte le seguenti soluzioni per questi problemi di ricerca ancora aperti: un insieme di metodologie per indurre informazioni approssimate relative allo schema di una sorgente dati, analizzando i dati, senza utilizzare alcuna informazione semantica dello schema fornita; e BLAST (Blocking with Loosely Aware Schema Techniques), un approccio non supervisionato per effettuare blocking, in grado di sfruttare quel tipo di informazioni. Sono presentati anche esperimenti effettuati su sorgenti dati reali per dimostrare gli avanzamenti ottenuti; infatti, BLAST supera come prestazioni lo stato dell’arte per il blocking non supervisionato e, in molti casi, anche per quello supervisionato.
|
Abstract
A huge amount of semi-structured data is available on the Web in the form of web tables, marked-up contents (e.g. RDFa, Microdata), and Linked Open Data. For enterprises, governative agencies, and researcher of large scientific project, this data can be even more valuable if integrated with the data that they already own, and that are typically subject of traditional Data Integration processes. Being able to identify records that refer to the same entity is a fundamental step to make sense of this data. Generally, to perform Entity Resolution (ER), traditional techniques require a schema alignment between data sources. Unfortunately, the semi-structured data of the Web is usually characterized by high heterogeneity, high levels of noise (missing/inconsistent data), and very large volume, making traditional schema alignment techniques no longer applicable. Therefore, techniques that deal with this kind of data typically renounce to exploit schema information, and rely on redundancy to limit the chance of missing matches.
This dissertation tackles two fundamental problems related to ER in the con- text of highly heterogeneous, noisy and voluminous data: (i) how to extract schema information useful for ER, from the data sources, without performing a traditional schema-alignment; (ii) how can this information be fully exploited to reduce the complexity of ER; in particular, to support indexing techniques that aim to group similar records in blocks, and limit the comparison to only those records appearing in the same block. We address those open issues introducing: a set of novel methodologies to induce loose schema information directly from the data, without exploiting the semantic of the schemas; and BLAST (Blocking with Loosely Aware Schema Techniques), a novel unsupervised blocking approach able to exploit that information to produce high quality block collections. We experimentally demonstrate, on real world datasets, how BLAST can outperform the state of the art blocking approaches, and, in many cases, also the supervised ones.
|