Riassunto analitico
In questo lavoro di tesi, presentiamo un analisi qualitativa e quantitativa di approcci basati su machine learning per applicazioni nell'ambito del Natural Language Processing (NLP). L'obiettivo è determinare quali modelli siano adatti ad essere integrati in un ciclo di active learning per l'annotazione di corpus di testo. Abbiamo valutato i migliori modelli di machine learning proposti in letteratura per risolvere problemi di estrazione di entità su diversi dataset di riferimento: abbiamo misurato la qualità delle entità estratte e la quantità di risorse computazionali e di memoria necessarie per il task. Le metriche che abbiamo adottato sono l'F1 score sul test set, la quantità di memoria richiesta dal modello per eseguire e la latenza delle predizioni in inferenza. I risultati mostrano come l'approccio basato su transformers, l'attuale stato dell'arte, raggiunga i risultati qualitativamente migliori, in termini di precisione e recall sulle entità estratte, ma al costo di requisiti di memoria sostanzialmente onerosi. D'altra parte, approcci più tradizionali come Conditional Random Fields, combinati con features altamente informative estratte da motori NLP, raggiungono buone performance con un'efficienza in termini di risorse molto più alta. Questo li rende particolarmente adatti ad essere integrati in un ciclo di active learning, a supporto dell'annotazione da parte dell'utente.
|
Abstract
In this thesis, we present a qualitative and quantitative analysis of machine learning-based approaches for applications in the Natural Language Processing (NLP) field.
The objective is to determine which models are suitable to be integrated into an active learning workflow for text corpus annotation. We evaluated the cutting-edge machine learning models to address the entity extraction task on many reference datasets: we measured the quality of the entity extraction and the amount of memory and compute resources needed to accomplish such a task. The adopted metrics for the evaluation are the F1 score on the test set, the amount of memory required from the model to execute, and the latency of predictions in inference.
The results show that the state-of-the-art transformers approach features the highest quality in terms of precision and recall for the entity extraction task, but its memory requirements are considerably substantial. On the other hand, traditional approaches like Conditional Random Fields, combined with high-quality features extracted from NLP engines, reach good performances with a much higher resource efficiency. This makes them more suitable to be integrated into an active learning cycle to support human annotation.
|