Riassunto analitico
L’obiettivo dell’entity resolution (ER) è identificare i record che si riferiscono alla stessa entità nel mondo reale. In questo lavoro di tesi è stata analizzata una nuova classe di regole sviluppata dal professor Jianzhong Li, dalla prof.ssa Hong Gao e dalla dott.ssa Lingli Li dell’Università Harbin Institute of Technology (HIT), in grado di descrivere le complesse condizioni di corrispondenza tra record ed entità. Sulla base di questa classe di regole, è stato presentato il problema della Rule-Based Entity Resolution. In questo contesto, è stato esaminato un algoritmo di individuazione delle regole efficace ed efficiente che ha permesso di scoprire nuove regole a partire da un dataset di training fornito in ingresso. In seguito, applicando le regole a ciascun record, siamo stati in grado di identificare a quale entità si riferisce il record stesso. Dai risultati sperimentali su un dataset reale si è messo in evidenza quali siano le potenzialità di questo framework e che risultati si possano raggiungere semplicemente modificando dei parametri definiti inizialmente.
|