Tesi etd-01142019-214436

Tipo di tesi

Tesi di laurea magistrale

Autore

AMICI, GIACOMO

URN

etd-01142019-214436

Titolo

Approccio Query-Driven alla Entity Resolution basato su Data Ordering

Titolo in inglese

A Query-Driven Approach to Entity Resolution based on Data Ordering

Struttura

Dipartimento di Ingegneria "Enzo Ferrari"

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
BERGAMASCHI SONIA	Primo relatore
NAUMANN FELIX	Correlatore

Parole chiave

Data cleaning
Data Ordering
Entity Resolution
Progressive
Query-Driven

Data inizio appello

2019-02-07

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2059-02-07

Riassunto analitico

Entity Resolution è un aspetto principale del Data Cleaning e Data Preparation. Oggigiorno, è ancora più importante considerando la quantità di dati, prevalentemente dal web, con cui lavoriamo quotidianamente. E' l'era dei Big Data. Nel corso degli anni sono stati sviluppati algoritmi con lo scopo di diminuire il tempo richiesto al sistema per pulire tutti i dati al suo interno prima di poterli utilizzare. Gli algoritmi progressivi sono fondamentali per raggiungere l'obiettivo di efficienza: questi algoritmi sono capaci di risolvere entità (identificare record che riferiscono allo stesso oggetto del mondo reale ed unirli) progressivamente, senza aspettare la fine della pulizia completa del dataset. La novità che introduciamo con questa tesi è di indirizzare il processo di Entity Resolution solamente verso i dati che occorrono al nostro scopo. In particolare, abbiamo creato un approccio Query-driven che punta ad ordinare i dati puliti secondo una query impostata dall'utente. I record che ci occorrono sono progressivamente puliti ed ordinati e i risultati sono dati in tempo minore rispetto qualsiasi altro algoritmo di cleaning.

Abstract

Entity Resolution is a major aspect of Data Cleaning and Data Preparation. Nowadays, it is more important than ever considering the massive amount of data, mostly from the web, we deal with every day. It is the Big Data era. Algorithms have been developed during the years in order to shorten the time a system needs to clean all its data before using them. Progressive algorithms are fundamental to achieve the goal of efficiency: those algorithms are able to resolve entities (to identity records that refer to the same real-world object and merge them together) progressively, without waiting the end of the cleaning of the entire dataset. The novelty we introduce with this thesis is to point the Entity Resoution process only to the data we need for our goal. In particular, we created a Query-driven approach that aims to order clean data according to a query the user had set. The records we need are progressively cleant and ordered and the results are given in shorter time than using any other cleaning algorithm.

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore