Riassunto analitico
L'Entity Matching (EM) è un'operazione cruciale nel pre-processing dei dati per identificare record duplicati. Tradizionalmente, richiede pipeline complesse con dati labellati, ma i Large Language Models (LLM) hanno dimostrato di poter affrontare efficacemente il task anche con ridotte annotazioni. Questo lavoro esplora un nuovo ambito di applicazione per i LLM, concentrandosi su un problema correlato ma meno studiato: il Question Answering (QA) su dataset con righe duplicate. L'obiettivo è valutare se i LLM possano risolvere implicitamente l'EM per fornire risposte corrette, evitando così costosi pre-processing. Specificatamente, questo lavoro propone due principali contributi: (1) DedupQA, un benchmark per testare le capacità dei LLM su dati tabellari ridondanti senza la necessità di una pulizia preliminare dei dati, e (2) un framework di analisi delle loro prestazioni, identificando punti di forza e limiti nel gestire dati duplicati.
|
Abstract
Entity Matching (EM) is a crucial operation in data pre-processing to identify duplicate records. Traditionally, it requires complex pipelines with labeled data, but Large Language Models (LLMs) have been shown to effectively tackle this task even with reduced annotations.
This thesis explores a new application domain for LLMs, focusing on a related yet underexplored problem: Question Answering (QA) on datasets with duplicate rows. The goal is to assess whether LLMs can implicitly solve EM to provide accurate answers, thereby avoiding costly pre-processing.
Specifically, this thesis proposes two main contributions: (1) DedupQA, a benchmark designed to evaluate the capabilities of LLMs on redundant tabular data without the need for prior data cleaning, and (2) a framework for analyzing their performance, identifying strengths and limitations in handling duplicate data.
|