Tesi etd-03242021-202142

Tipo di tesi

Tesi di laurea magistrale

Autore

CAMPA, SIMONE

URN

etd-03242021-202142

Titolo

NLP per la lingua italiana: Correzione e classificazione automatica di report di non conformità in linguaggio naturale

Titolo in inglese

Struttura

Dipartimento di Scienze e Metodi dell'Ingegneria

Corso di studi

INGEGNERIA GESTIONALE (D.M.270/04)

Commissione

Nome Commissario	Qualifica
FANTUZZI CESARE	Primo relatore
MAMEI MARCO	Controrelatore
LIPPI MARCO	Correlatore
BATTILANI NICOLA	Correlatore

Parole chiave

automazione
classificazione
correzione
NLP
semantica

Data inizio appello

2021-04-20

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2061-04-20

Riassunto analitico

I dati non strutturati non hanno un modello predefinito e questa loro caratteristica ne rende difficile la comprensione e ambigua la collocazione. Questa tipologia di dati può avere origini molto diverse, tra cui l’estrazione da un linguaggio umano con NLP (Natural Language Processing). Inoltre, tendono ad occupare volumi molto superiori rispetto ai dati strutturati, motivo per cui negli ultimi anni si è assistito all’introduzione di nuove tecnologie per estrarre informazioni con valore dai dati non strutturati.

L’obiettivo dell’attività di tirocinio e tesi è dunque quello di riuscire a estrarre informazioni tecniche e strutturate a partire da documenti (nello specifico, report di non conformità) redatti da operatori umani in linguaggio naturale, con lo scopo di riuscire a guidare e supportare le loro attività. A questo proposito la domanda della ricerca è la seguente: In che modo è possibile classificare automaticamente frasi provenienti da un contesto aziendale, che non presentano a priori alcuna strutturazione, a seconda del loro significato semantico insito nelle parole da cui sono composte? In questo contesto risulta necessario uno studio ed implementazione di metodologie e strumenti di servizio interni, che possano generare conoscenza strutturata, partendo da basi documentali non organizzate in maniera informatizzata e impossibili da consultare in modo efficiente.

Applicando tecnologie informatiche di Natural Language Processing (NLP), è risultata possibile una correzione automatica e un’analisi semantica dei report di non conformità mediante l’utilizzo del Word Embedding, anche conosciuto come rappresentazione distribuita delle parole. Questo permette di memorizzare le informazioni sia semantiche che sintattiche delle parole, partendo da un corpus non annotato e costruendo uno spazio vettoriale, in cui i vettori delle parole sono più vicini se le parole occorrono negli stessi contesti linguistici, cioè se sono riconosciute come semanticamente più simili.
Per poter rispondere alla domanda della ricerca, si è prima analizzata la letteratura a riguardo, così da comprendere a pieno le diverse possibilità. Successivamente sono state applicate le nozioni apprese, al fine di implementare uno strumento che automatizzasse l’esplorazione e la successiva classificazione del dataset attraverso la creazione di cluster semantici di report aziendali.

Lo scopo, pertanto, è quello di collezionare nel tempo un dataset strutturato, partendo da quello in linguaggio naturale. Questo dataset dovrà risultare consultabile in maniera efficace e avrà l’obiettivo di proporre, in fase di risoluzione, un ampio set di eventi, descritti con gruppi di parole semanticamente simili, già riscontrati e risolti nel passato, al fine di agevolare l’operatore suggerendo una serie di possibili procedure di ripristino, in ottica di un ambiente manufacturing collaborativo. Ricerche future potrebbero essere volte dunque alla creazione di una base di dati strutturata attraverso l’interazione con l’operatore e, di conseguenza, allo studio e all’implementazione di metodologie di elaborazione del linguaggio naturale più complesse, per cui la creazione di una base di dati strutturata risulta necessaria.

Abstract

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore