Riassunto analitico
Ogni giorno, enormi moli di dati testuali vengono generati e processati in qualsiasi settore dell’informatica. Una delle sfide che la ricerca tecnologica si è posta è quella di poter estrarre conoscenza da questi dati in maniera automatizzata. È nato così il settore del Natural Language Processing (NLP), di cui uno dei task più importanti è sicuramente quello del Topic Modeling. Esso consiste nel comprendere ed estrarre gli argomenti tematici di cui tratta una raccolta di documenti, ottenendo così insiemi di parole che li descrivono al meglio. Il topic modelling è un campo molto vasto, in cui esistono molte tecniche diverse tra di loro. Questo lavoro di tesi si inserisce all’interno del settore del topic modelling con due obiettivi principali. Il primo è quello di analizzare il suo stato dell’arte attuale e le tecniche maggiormente utilizzate. Il secondo è quello di risolvere il problema del topic modelling applicato ad un contesto ben preciso, ovvero quello dell’estrazione degli argomenti trattati in un dataset composto da comunicati stampa redatti dal governo inglese. Verrà quindi fornita una panoramica delle tecnologie attuali di topic modeling, partendo dagli algoritmi più classici fino ad arrivare alle tecniche più innovative che sfruttano il Deep Learning. Successivamente verrà analizzato il problema dell'estrazione degli argomenti trattati in un corpus formato da comunicati stampa. Verrà prima descritto il processo di generazione del dataset utilizzato e successivamente verranno proposte due diverse soluzioni al problema, una che sfrutta l’embedding dei documenti ottenuto tramite reti neurali Transformer e una che utilizza la rappresentazione vettoriale identificata tramite LDA.
|