Riassunto analitico
Questo progetto di tesi deriva da un tirocinio aziendale presso la Expert System S.p.a. Obiettivo del progetto è la realizzazione di un sistema di Named-Entity Recognition (NER) in grado di sfruttare le informazioni semantiche reperibili tramite la tecnologia aziendale. Named-Entity Recognition consiste nell’individuare all’interno di un testo quelle che sono delle entità identificate da nomi propri e appartenenti ad una predeterminata categoria. L’approccio scelto per affrontare il problema è di tipo machine learning, arricchito però con le informazioni semantiche ottenute tramite il Sensigrafo, la rete semantica proprietaria sviluppata da Expert System, e il Disambiguatore, il motore di analisi semantica dell’azienda. Il metodo utilizzato è quello dei Conditional Random Fields (CRF), una classe di modelli statistici particolarmente adatti ad essere applicati all’elaborazione del linguaggio naturale in quanto sono in grado di assegnare delle label ad una sequenza in input considerando la sequenza nel suo complesso e non solo un elemento per volta. È stato progettato e realizzato un sistema in grado di sfruttare le potenzialità di un approccio semantico combinate con quelle di un approccio machine learning. Il sistema di Named-Entity Recognition è stato testato in vari modi, così da farne emergere i principali punti di forza e gli eventuali limiti. Sono state inoltre valutate le condizioni e le situazioni nelle quali l’utilizzo delle informazioni semantiche può fare la differenza ed è emerso come la semantica giochi un ruolo fondamentale nei casi in cui i dati da utilizzare per l’addestramento dei modelli non siano abbondanti.
|