Tesi etd-10282020-154919

Tipo di tesi

Tesi di laurea magistrale

Autore

PEVARELLO, MARCO

URN

etd-10282020-154919

Titolo

Studio di tecniche di "Automated Machine Learning": un caso di studio relativo all'Entity Matching

Titolo in inglese

Struttura

Dipartimento di Ingegneria

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
GUERRA FRANCESCO	Primo relatore
DEL BUONO FRANCESCO	Correlatore
PAGANELLI MATTEO	Correlatore

Parole chiave

AutoML
data integration
entity matching
language model
tuning

Data inizio appello

2020-12-03

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2060-12-03

Riassunto analitico

Questo studio è cominciato prendendo parte alla COVID-19 Retweet Prediction Challenge, il cui obiettivo è stato, date varie informazioni sui tweet relativi all’argomento Coronavirus, quello di predire il numero di retweet con il minore Mean Square Logaritmic Error possibile. Nel corso di questa challenge gran parte del tempo è stato impiegato per cercare buone combinazioni di iperparametri. Da qui nasce l’idea di proseguire lo studio utilizzando piattaforme di Automatic Machine Learning, che permettono non solo di individuare gli iperparametri ottimali, ma proprio di individuare e sfruttare gli algoritmi più adatti al problema, creando un ensemble method. Questi strumenti sono stati studiati e testati in particolare in task riguardanti l’Entity Matching. Il problema dell’EM consiste nel capire se due record, provenienti da due fonti diverse, si riferiscono alla stessa entità. L’EM è oggetto di studio da trent’anni e, nonostante i considerevoli progressi, è ancora considerato un problema aperto. I migliori risultati per questo task, vengono ottenuti con approcci di Deep Learning, in particolare DeepMatcher è una rete neurale specifica che ottiene scores allo stato dell’arte. In questo progetto l’obiettivo è stato quello di utilizzare l’AutoML per l’EM, ottenendo risultati competitivi, confrontabili con DeepMatcher.

Abstract

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore