Riassunto analitico
L'avvento e la rapida evoluzione dei Large Language Models (LLM), specialmente con l'introduzione dell'architettura dei transformers, hanno segnato una svolta nella comprensione e nell'elaborazione del linguaggio naturale, influenzando profondamente tutti i campi del Natural Language Processing (NLP) e, in particolare, la Named Entity Recognition (NER). Questa tesi esplora il ruolo trasformativo degli LLM nella NER, focalizzandosi su come l'utilizzo dei transformers abbia rivoluzionato la capacità dei sistemi automatizzati di comprendere il testo. Grazie a questa innovazione, i modelli sono ora in grado di analizzare il linguaggio naturale con una profondità e un contesto molto più ampi, superando i limiti delle precedenti architetture, aprendo nuove strade per potenziali nuove applicazioni ed utilizzi. Attraverso un'analisi approfondita, il lavoro presenta inizialmente i diversi approcci di prompting utilizzati in ChatGPT, includendo sia metodi esistenti nella letteratura recente che nuove strategie proposte. Questi variano dai metodi per la semplice estrazione, al tagging del testo, fino a strategie di reasoning, allo scopo di valutare la loro efficacia su vari dataset per la Entity Recognition. In particolare, la tesi mira a evidenziare le sfide, i vantaggi e le limitazioni di ciascuno di questi approcci e, più in generale, dell’utilizzo degli LLM per la NER. Un focus particolare viene dedicato all'analisi del ruolo del few-shot prompting come strumento per ottimizzare i risultati. Nel capitolo successivo, viene introdotto AmmaNER, un modello derivato e perfezionato da Zephyr 7B, specificatamente per il task di Entity Recognition. Si analizza come sia possibile specializzare un modello attraverso tecniche di fine-tuning per portarlo ad eguagliare o superare le prestazioni di ChatGPT, pur avendo un numero di parametri decisamente inferiore. In questo contesto, si esplora come una corretta selezione dei dati di allenamento, che includa un'ampia diversificazione di tipologie di entità e di domini, unita all'impiego di dati sintetici generati tramite ChatGPT per il pre-training, possano significativamente migliorare le prestazioni. Un'ulteriore innovazione di questa ricerca è il fine-tuning di AmmaNER per la lingua italiana, dimostrando l'adattabilità e la versatilità del modello in contesti linguistici specifici. Questa ricerca non solo contribuisce alla letteratura esistente sulle applicazioni degli LLM nella NER ma apre anche nuove prospettive di indagine sulle potenzialità dei modelli linguistici avanzati, suggerendo nuove direzioni per l'ottimizzazione e l'adattabilità dei modelli LLM a vari domini e lingue. Con una visione critica delle sfide, dei vantaggi e delle limitazioni dei vari metodi di prompting e fine-tuning, la tesi pone le basi per ulteriori esplorazioni e miglioramenti nella comprensione automatica del linguaggio naturale.
|