Riassunto analitico
I dati non strutturati non hanno un modello predefinito e questa loro caratteristica ne rende difficile la comprensione e ambigua la collocazione. Questa tipologia di dati può avere origini molto diverse, tra cui l’estrazione da un linguaggio umano con NLP (Natural Language Processing). Inoltre, tendono ad occupare volumi molto superiori rispetto ai dati strutturati, motivo per cui negli ultimi anni si è assistito all’introduzione di nuove tecnologie per estrarre informazioni con valore dai dati non strutturati.
L’obiettivo dell’attività di tirocinio e tesi è dunque quello di riuscire a estrarre informazioni tecniche e strutturate a partire da documenti (nello specifico, report di non conformità) redatti da operatori umani in linguaggio naturale, con lo scopo di riuscire a guidare e supportare le loro attività. A questo proposito la domanda della ricerca è la seguente: In che modo è possibile classificare automaticamente frasi provenienti da un contesto aziendale, che non presentano a priori alcuna strutturazione, a seconda del loro significato semantico insito nelle parole da cui sono composte? In questo contesto risulta necessario uno studio ed implementazione di metodologie e strumenti di servizio interni, che possano generare conoscenza strutturata, partendo da basi documentali non organizzate in maniera informatizzata e impossibili da consultare in modo efficiente.
Applicando tecnologie informatiche di Natural Language Processing (NLP), è risultata possibile una correzione automatica e un’analisi semantica dei report di non conformità mediante l’utilizzo del Word Embedding, anche conosciuto come rappresentazione distribuita delle parole. Questo permette di memorizzare le informazioni sia semantiche che sintattiche delle parole, partendo da un corpus non annotato e costruendo uno spazio vettoriale, in cui i vettori delle parole sono più vicini se le parole occorrono negli stessi contesti linguistici, cioè se sono riconosciute come semanticamente più simili. Per poter rispondere alla domanda della ricerca, si è prima analizzata la letteratura a riguardo, così da comprendere a pieno le diverse possibilità. Successivamente sono state applicate le nozioni apprese, al fine di implementare uno strumento che automatizzasse l’esplorazione e la successiva classificazione del dataset attraverso la creazione di cluster semantici di report aziendali.
Lo scopo, pertanto, è quello di collezionare nel tempo un dataset strutturato, partendo da quello in linguaggio naturale. Questo dataset dovrà risultare consultabile in maniera efficace e avrà l’obiettivo di proporre, in fase di risoluzione, un ampio set di eventi, descritti con gruppi di parole semanticamente simili, già riscontrati e risolti nel passato, al fine di agevolare l’operatore suggerendo una serie di possibili procedure di ripristino, in ottica di un ambiente manufacturing collaborativo. Ricerche future potrebbero essere volte dunque alla creazione di una base di dati strutturata attraverso l’interazione con l’operatore e, di conseguenza, allo studio e all’implementazione di metodologie di elaborazione del linguaggio naturale più complesse, per cui la creazione di una base di dati strutturata risulta necessaria.
|