Riassunto analitico
La tesi è svolta nell’ambito del Natural Language Processing, o Elaborazione del Linguaggio Naturale, una branca multidisciplinare che abbraccia i campi della linguistica, dell’informatica e dell’intelligenza artificiale e riguarda tutte quelle tecniche e algoritmi per rendere i computer capaci di comprendere, analizzare, manipolare il linguaggio naturale. In questa branca ha trovato una certa rilevanza l’utilizzo dei Word Embedding. La tesi si propone di analizzare gli aspetti principali dei word embedding, le motivazioni che hanno portato al loro sviluppo e di esplorare le principali tecniche grazie alle quali è possibile ottenere queste rappresentazioni vettoriali. Ci si soffermerà nel dettaglio su due modelli focalizzandoci in particolare su due architetture che sono punti di riferimento nell'ambito dei Word Embedding: Word2Vec e BERT. Altro obiettivo della tesi è quello di presentare i risultati di esperimenti condotti sull’utilizzo di queste due architetture sulla lingua italiana, in particolare nell'ambito dell’analisi dei crimini. Per tali esperimenti è stato utilizzato un dataset italiano di articoli di giornale riguardanti dei crimini. L'uso delle due architetture ha permesso di risolvere il problema della classificazione di un articolo in base al tipo di crimine riportato e la ricerca delle 5 W, con particolare focus su “what” e “where” (rispettivamente “cosa” e “dove”).
|
Abstract
The thesis is carried out in the field of natural language processing, a field concerning linguistics, computer science and artificial intelligence that deals with all those techniques and algorithms used to make the computer capable of understanding, analyzing, and manipulating natural language. In this field, the use of word embeddings has found some relevance.
The thesis is proposed to analyze the main aspects of word embeddings, the reasons that led to their development and to explore the main techniques that allow us to obtain these vector representations. We will focus in detail on two architectures which constitute two important points of reference for word embeddings: Word2Vec and BERT.
Another objective of the thesis is to present the results of experiments conducted on the use of these two models on the Italian Language, focusing on the domain of crime analysis. The experiments were conducted on an Italian dataset of newspaper articles concerning crimes.
The use of the two models allowed to solve the problem of news categorization according to the type of reported crime and the search for 5W, focusing on “what” and “where”.
|