Riassunto analitico
Gran parte delle informazioni globali è archiviata sotto forma di tabelle presenti sul web, in database o in documenti. Attualmente, per ottenere una risposta ad una domanda, è necessario consultare manualmente questa tipologia di informazioni, conoscere linguaggi di programmazione come SQL o avere competenze avanzate nell’uso di software per l’analisi dei dati. Per sfruttare al meglio il potenziale informativo dei dati tabulari, sono stati sviluppati i Tabular Language Models (TLMs), modelli di apprendimento automatico che creano rappresentazioni dense dei dati tabulari e le integrano con modelli linguistici pre-addestrati. Tali tecnologie aprono la strada a una serie di tasks interessanti, tra cui il Question Answering (QA), che ha l’obiettivo di rispondere a domande formulate in linguaggio naturale estraendo le informazioni da un ampio corpus di tabelle. In un contesto “open-domain”, per risolvere questo compito, occorre prima recuperare un piccolo insieme di documenti che potenzialmente contengono l’informazione necessaria per risolvere il task. A tal fine, sono stati individuati e confrontati due modelli: il Dense Table Retriever (DTR) e il Dense Passage Retriever (DPR), successivamente applicati a due dataset di diversa natura e contenuti: NQ-Tables e AIT-QA. La qualità dei risultati è stata valutata tramite la metrica Retrieval at K (R@K), che misura la frazione di elementi rilevanti recuperati entro i primi K risultati rispetto al totale degli elementi rilevanti presenti nel dataset.
|