Tesi etd-03212021-213001

Tipo di tesi

Tesi di laurea magistrale

Autore

SPINAZZOLA, ANDREA

URN

etd-03212021-213001

Titolo

Utilizzo di tecniche di Topic Modelling applicate a comunicati stampa

Titolo in inglese

Struttura

Dipartimento di Ingegneria

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
GUERRA FRANCESCO	Primo relatore
DEL BUONO FRANCESCO	Correlatore
PAGANELLI MATTEO	Correlatore

Parole chiave

Embedding
Machine Learning
NLP
Text analysis
Topic Modelling

Data inizio appello

2021-04-15

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2061-04-15

Riassunto analitico

Ogni giorno, enormi moli di dati testuali vengono generati e processati in qualsiasi settore dell’informatica. Una delle sfide che la ricerca tecnologica si è posta è quella di poter estrarre conoscenza da questi dati in maniera automatizzata. È nato così il settore del Natural Language Processing (NLP), di cui uno dei task più importanti è sicuramente quello del Topic Modeling. Esso consiste nel comprendere ed estrarre gli argomenti tematici di cui tratta una raccolta di documenti, ottenendo così insiemi di parole che li descrivono al meglio.
Il topic modelling è un campo molto vasto, in cui esistono molte tecniche diverse tra di loro. Questo lavoro di tesi si inserisce all’interno del settore del topic modelling con due obiettivi principali. Il primo è quello di analizzare il suo stato dell’arte attuale e le tecniche maggiormente utilizzate. Il secondo è quello di risolvere il problema del topic modelling applicato ad un contesto ben preciso, ovvero quello dell’estrazione degli argomenti trattati in un dataset composto da comunicati stampa redatti dal governo inglese. Verrà quindi fornita una panoramica delle tecnologie attuali di topic modeling, partendo dagli algoritmi più classici fino ad arrivare alle tecniche più innovative che sfruttano il Deep Learning. Successivamente verrà analizzato il problema dell'estrazione degli argomenti trattati in un corpus formato da comunicati stampa. Verrà prima descritto il processo di generazione del dataset utilizzato e successivamente verranno proposte due diverse soluzioni al problema, una che sfrutta l’embedding dei documenti ottenuto tramite reti neurali Transformer e una che utilizza la rappresentazione vettoriale identificata tramite LDA.

Abstract

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore