Riassunto analitico
La presente tesi si sviluppa nel contesto del progetto iTrial, creato per facilitare il processo di selezione dei pazienti per studi clinici tramite NLP e AI. Attualmente, questo processo è manuale e dispendioso, richiedendo che un esperto esamini molte informazioni sparse su ciascun paziente. Il progetto propone un sistema di supporto decisionale che, attraverso tecniche di Information Extraction (IE), identifichi e strutturi i dati rilevanti in modo chiaro per ridurre i tempi di selezione.
A causa della scarsità dei dati originali (solo una dozzina di note oftalmologiche), la prima fase del progetto è stata dedicata alla creazione di un dataset sintetico e alla costruzione di una pipeline preliminare basata su regole per ottenere un silver standard da utilizzare nella seconda fase per l’allenamento dei modelli che richiedono un maggiore volume di dati.
Questa tesi analizza quindi il processo di sviluppo del dataset sintetico, composto in realtà da tre diversi dataset: uno contenente note in spagnolo, uno in galiziano e uno in code-mixing tra spagnolo e galiziano, quest'ultimo il più problematico e oggetto di particolare approfondimento. La necessità di includere dati in galiziano e in code-mix nasce dal fatto che il progetto si svolge in Galizia, una comunità autonoma nel nord-ovest della Spagna dove convivono due lingue ufficiali, spagnolo e galiziano.
La tesi descrive i vari metodi esplorati per generare le note sintetiche in code-mixing, partendo da una traduzione basilare delle note originali, con un approccio parola per parola, fino a sperimentare una combinazione di più modelli di AI avanzati, provando anche a inserire il code-mix dopo la generazione, effettuando il code mixing nella direzione spagnolo-galiziano o galiziano-spagnolo, o provando a generarle direttamente con il modello LLama3-70b. È stato utilizzato un approccio di prompting tuning-free, utilizzando pesi fissi e in-context learning.
Ciò che è emerso è che il modello LLama3-70b è in grado di produrre buoni dati in code-mix quando viene fornito con esempi sufficientemente buoni di code-mixing. È emerso che tali esempi efficaci sono le note originali tradotte in code-mixing tramite il modello Helsinki es-gl , specializzato nella traduzione tra spagnolo e galiziano. Questo evidenzia l'importanza di utilizzare modelli specializzati e pre-addestrati come quelli di Helsinki per compiti specifici come il code-switching tra spagnolo e galiziano. In assenza di un consistente set di dati di addestramento bilingue, LLama3 non riesce infatti a raggiungere il livello di fluidità linguistica ottenuto dai modelli progettati esplicitamente per queste coppie linguistiche.
|
Abstract
This thesis is developed within the context of the iTrial project, created to facilitate the patient selection process for clinical studies through NLP and AI. Currently, this process is manual and resource-intensive, requiring an expert to review extensive, scattered information on each patient. The project proposes a decision-support system that, using Information Extraction (IE) techniques, identifies and organizes relevant data in a clear format to reduce selection time.
Due to the scarcity of original data (only a dozen ophthalmological notes), the project's first phase focused on creating a synthetic dataset and building a preliminary rule-based pipeline to establish a silver standard. This standard will be used in the second phase to train models that require a higher data volume.
This thesis, therefore, examines the process of developing the synthetic dataset, which is actually composed of three distinct datasets: one containing notes in Spanish, one in Galician, and one in code-mixing between Spanish and Galician. The inclusion of Galician and code-mixed data is necessary because the project takes place in Galicia, an autonomous region in northwest Spain where two official languages, Spanish and Galician, coexist.
The thesis describes various methods explored to generate synthetic notes in code-mixing, beginning with a basic word-for-word translation of the original notes, progressing to a combination of multiple advanced AI models. Techniques included applying code-mixing after generation, performing code mixing from Spanish to Galician or Galician to Spanish, and attempting direct generation with the LLama3-70b model. A tuning-free prompting approach was used, employing fixed weights and in-context learning.
Findings indicate that the LLama3-70b model can produce high-quality code-mixed data when given sufficiently effective examples of code-mixing. The most effective examples were found to be the original notes translated into code-mixing using the Helsinki es-gl model, which specializes in Spanish-Galician translation. This highlights the importance of using specialized, pre-trained models like those from Helsinki for specific tasks such as code-switching between Spanish and Galician. In the absence of a substantial bilingual training dataset, LLama3 is unable to achieve the linguistic fluidity reached by models explicitly designed for these language pairs.
|