Riassunto analitico
Questo studio è cominciato prendendo parte alla COVID-19 Retweet Prediction Challenge, il cui obiettivo è stato, date varie informazioni sui tweet relativi all’argomento Coronavirus, quello di predire il numero di retweet con il minore Mean Square Logaritmic Error possibile. Nel corso di questa challenge gran parte del tempo è stato impiegato per cercare buone combinazioni di iperparametri. Da qui nasce l’idea di proseguire lo studio utilizzando piattaforme di Automatic Machine Learning, che permettono non solo di individuare gli iperparametri ottimali, ma proprio di individuare e sfruttare gli algoritmi più adatti al problema, creando un ensemble method. Questi strumenti sono stati studiati e testati in particolare in task riguardanti l’Entity Matching. Il problema dell’EM consiste nel capire se due record, provenienti da due fonti diverse, si riferiscono alla stessa entità. L’EM è oggetto di studio da trent’anni e, nonostante i considerevoli progressi, è ancora considerato un problema aperto. I migliori risultati per questo task, vengono ottenuti con approcci di Deep Learning, in particolare DeepMatcher è una rete neurale specifica che ottiene scores allo stato dell’arte. In questo progetto l’obiettivo è stato quello di utilizzare l’AutoML per l’EM, ottenendo risultati competitivi, confrontabili con DeepMatcher.
|