Tesi etd-09202023-232701

Tipo di tesi

Tesi di laurea magistrale

Autore

BENASSI, RICCARDO

URN

etd-09202023-232701

Titolo

Valutare l’impatto di gruppi di parole per motivare le risposte dei modelli di Deep Entity Matching

Titolo in inglese

Assessing the impact of word clusters to explain the predictions of Deep Entity Matching models

Struttura

Dipartimento di Ingegneria "Enzo Ferrari"

Corso di studi

Ingegneria informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
GUERRA FRANCESCO	Primo relatore

Parole chiave

Clustering
Deep Learning
Entity Matching
Groups
Interpretable ML

Data inizio appello

2023-10-19

Disponibilità

Accessibile via web (tutti i file della tesi sono accessibili)

Riassunto analitico

Questo elaborato propone un nuovo metodo per motivare le risposte di un modello per Entity Matching basato su Deep Learning. In questo metodo, una spiegazione consiste in un valore numerico per ogni gruppo di parole, assegnato in base all’impatto che ha sulla risposta del modello.
Tramite l’Entity Matching si identificano istanze dati che corrispondono alla stessa entità nel mondo reale. I modelli per EM basati su Deep Learning hanno prestazioni migliori rispetto alle tradizionali tecniche basate su regole, soprattutto su dati testuali o sporchi. Questo perché DL estrae gli attributi importati in modo automatico da dati con una struttura nascosta, come testo, immagini e linguaggio parlato, eliminando la fase in cui gli attributi vengono definiti manualmente. Tuttavia, il funzionamento interno dei modelli DL rimane in gran parte opaco e incomprensibile agli occhi dell'utente, e quindi emerge la necessità di una spiegazione a posteriori delle risposte.
Spiegare le risposte di un modello per Entity Matching significa individuare quali porzioni delle due istanze considerate hanno portato il modello a identificarle come corrispondenti o no. I metodi di spiegazione più conosciuti valutano ogni parola singolarmente e vi assegnano un valore numerico in base all’impatto che ha sulla risposta del modello. GMASK fa eccezione e costituisce il principale concorrente all’approccio qui proposto.
Un livello di dettaglio così fine diventa difficile da trattare in presenza di istanze lunghe, a causa del numero considerevole di impatti da valutare. Questo elaborato propone di motivare le risposte di un modello EM in un modo più grossolano, basato su gruppi di parole correlate. L’approccio descritto essenzialmente combina un metodo per generare spiegazioni a posteriori con una tecnica di raggruppamento (clustering).

Abstract

This work proposes a novel method to explain the predictions generated by Entity Matching models based on Deep Learning. In this method, an explanation consists of a score for each group of words, based on the impact it has on the model prediction. Entity Matching identifies data instances that refer to the same real-world entity. Deep Learning models for EM have shown better performances than traditional, rule-based techniques, especially over textual or dirty data. This is due to its capacity to extract essential features from data with hidden structures, such as text, image, and speech processing, eliminating the need for manual feature engineering. However, DL models largely remain black-boxes to the eyes of the user, and thus the need for a post-hoc explainer. Explaining the predictions of an Entity Matching model means understanding which evidence the model leverages to determine matches and non-matches. Conventional explanation systems predominantly treat each word individually, assigning it a value to denote its impact on the prediction. An exception to this is GMASK, which is identified as a prominent competitor to the model proposed here. Working at such a granular level of detail becomes a challenge when dealing with lengthy instances, due to the substantial number of impacts to assess. This work proposes a coarser-grained indication of what is more significant in the model's prediction, focusing on groups of correlated words. The approach described in this work essentially combines a post-hoc explainer with a clustering technique.

File

Nome file		Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file		Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
	TesiBenassiRiccardo_2.pdf	2.48 Mb	00:11:29	00:05:54	00:05:10	00:02:35	00:00:13
Contatta l'autore