Riassunto analitico
Il progetto di tesi ha riguardato l'implementazione di una tecnica di Schema Matching basata sui duplicati. Dati due dataset con il relativo schema (insieme di attributi) l'obiettivo dello Schema Matching è quello di individuare coppie di attributi simili nei due schemi; nella tecnica di Schema Matching basata sui duplicati tale similarità tra attributi è calcolata considerando coppie di record duplicati nei due schemi, sfruttando il fatto che due record duplicati tendono ad avere valori uguali o simili in attributi corrispondenti. Un input della tecnica è quindi costituito dal risultato dell’Entity Resolution che individua appunto record duplicati nei due schemi. E’ stata estesa una tecnica di Schema Matching basata sui duplicati - denominata DUMAS - sia considerando differenti funzioni per il calcolo di similarità tra valori di attributi corrispondenti, sia considerando differenti tecniche di post processing per ridurre le corrispondenze tra attributi da molti-a-molti a uno-a-uno. La valutazione della tecnica realizzata è stata effettuata sia rispetto a dataset sintetici, allo scopo di provarne la sua efficacia soprattutto in presenza di molti attributi con lo stesso dominio, sia rispetto a dataset reali di cui erano già disponibili risultati di Schema Matching ottenuti con altre tecniche, allo scopo di effettuarne un confronto e mostrare come, nella maggior parte dei casi, l’accuratezza della tecnica realizzata superi quella delle altre tecniche.
|