Riassunto analitico
L’obiettivo di questa ricerca è la realizzazione di un workflow di entity resolution applicabile ad un contesto multi-source, ossia dove le sorgenti da analizzare siano tre o più. Lo scopo di tale processo consiste nel ridurre il numero di confronti superflui, ossia di coppie di record la cui corrispondenza può essere dedotta senza la necessità di effettuare un confronto, sfruttando alcune proprietà dei dati che devono essere garantite. Le sorgenti devono necessariamente essere deduplicate, ossia prive di entità replicate, e la funzione di matching deve essere transitiva. I risultati della tecnica implementata vengono presentati attraverso un insieme di clusters, ciascuno rappresentante un’entità singola e contenente records provenienti dalle differenti sorgenti. La tecnica è stata completamente implementata attraverso l'utilizzo di strumenti innovativi nell'ambito dell'Entity Resolution. L’utilità del modello proposto viene mostrata attraverso l’utilizzo di un piccolo esempio, composto da quattro sorgenti da integrare, ottenendo risultati soddisfacenti sulla riduzione del numero di confronti complessivo.
|