Riassunto analitico
Entity Resolution è un aspetto principale del Data Cleaning e Data Preparation. Oggigiorno, è ancora più importante considerando la quantità di dati, prevalentemente dal web, con cui lavoriamo quotidianamente. E' l'era dei Big Data. Nel corso degli anni sono stati sviluppati algoritmi con lo scopo di diminuire il tempo richiesto al sistema per pulire tutti i dati al suo interno prima di poterli utilizzare. Gli algoritmi progressivi sono fondamentali per raggiungere l'obiettivo di efficienza: questi algoritmi sono capaci di risolvere entità (identificare record che riferiscono allo stesso oggetto del mondo reale ed unirli) progressivamente, senza aspettare la fine della pulizia completa del dataset. La novità che introduciamo con questa tesi è di indirizzare il processo di Entity Resolution solamente verso i dati che occorrono al nostro scopo. In particolare, abbiamo creato un approccio Query-driven che punta ad ordinare i dati puliti secondo una query impostata dall'utente. I record che ci occorrono sono progressivamente puliti ed ordinati e i risultati sono dati in tempo minore rispetto qualsiasi altro algoritmo di cleaning.
|
Abstract
Entity Resolution is a major aspect of Data Cleaning and Data Preparation. Nowadays, it is more important than ever considering the massive amount of data, mostly from the web, we deal with every day. It is the Big Data era. Algorithms have been developed during the years in order to shorten the time a system needs to clean all its data before using them. Progressive algorithms are fundamental to achieve the goal of efficiency: those algorithms are able to resolve entities (to identity records that refer to the same real-world object and merge them together) progressively, without waiting the end of the cleaning of the entire dataset. The novelty we introduce with this thesis is to point the Entity Resoution process only to the data we need for our goal. In particular, we created a Query-driven approach that aims to order clean data according to a query the user had set. The records we need are progressively cleant and ordered and the results are given in shorter time than using any other cleaning algorithm.
|