Tesi etd-03052020-130757

Tipo di tesi

Tesi di laurea magistrale

Autore

MIGALE, MARCELLO

URN

etd-03052020-130757

Titolo

Una tecnica di Schema Matching basata sui duplicati

Titolo in inglese

Struttura

Dipartimento di Ingegneria "Enzo Ferrari"

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
BENEVENTANO DOMENICO	Primo relatore

Parole chiave

Dumas
Duplicati
Post-processing
Schema matching
Synthetic datasets

Data inizio appello

2020-04-07

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2060-04-07

Riassunto analitico

Il progetto di tesi ha riguardato l'implementazione di una tecnica di Schema Matching basata sui duplicati. Dati due dataset con il relativo schema (insieme di attributi) l'obiettivo dello Schema Matching è quello di individuare coppie di attributi simili nei due schemi; nella tecnica di Schema Matching basata sui duplicati tale similarità tra attributi è calcolata considerando coppie di record duplicati nei due schemi, sfruttando il fatto che due record duplicati tendono ad avere valori uguali o simili in attributi corrispondenti. Un input della tecnica è quindi costituito dal risultato dell’Entity Resolution che individua appunto record duplicati nei due schemi.
E’ stata estesa una tecnica di Schema Matching basata sui duplicati - denominata DUMAS - sia considerando differenti funzioni per il calcolo di similarità tra valori di attributi corrispondenti, sia considerando differenti tecniche di post processing per ridurre le corrispondenze tra attributi da molti-a-molti a uno-a-uno.
La valutazione della tecnica realizzata è stata effettuata sia rispetto a dataset sintetici, allo scopo di provarne la sua efficacia soprattutto in presenza di molti attributi con lo stesso dominio, sia rispetto a dataset reali di cui erano già disponibili risultati di Schema Matching ottenuti con altre tecniche, allo scopo di effettuarne un confronto e mostrare come, nella maggior parte dei casi, l’accuratezza della tecnica realizzata superi quella delle altre tecniche.

Abstract

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore