Tesi etd-03232021-182315

Tipo di tesi

Tesi di laurea magistrale

Autore

MARRACCINI, CLAUDIA

URN

etd-03232021-182315

Titolo

Studio e sperimentazione di tecniche per la categorizzazione di testi brevi: il caso d'uso degli articoli scientifici

Titolo in inglese

Struttura

Dipartimento di Ingegneria

Corso di studi

Ingegneria Informatica (D.M.270/04)

Commissione

Nome Commissario	Qualifica
GUERRA FRANCESCO	Primo relatore
PAGANELLI MATTEO	Correlatore
DEL BUONO FRANCESCO	Correlatore

Parole chiave

clustering
short text
similarità
topic modeling
word embedding

Data inizio appello

2021-04-15

Disponibilità

Accesso limitato: si può decidere quali file della tesi rendere accessibili. Disponibilità mixed (scegli questa opzione se vuoi rendere inaccessibili tutti i file della tesi o parte di essi)

Data di rilascio

2061-04-15

Riassunto analitico

Quando si lavora con documenti molto brevi, le tecniche tradizionali di elaborazione del linguaggio, nate per lavorare con i documenti, si rivelano fallimentari. L’aspetto critico da affrontare davanti a dati di questo tipo è relativo alla loro ambiguità per via della mancanza di sufficienti informazioni sul contesto. Risulta necessario, pertanto, ricorrere a modelli più recenti, che si basano su i word embedding e, dunque, sono in grado di svolgere questo compito utilizzando un contesto limitato. La presente tesi, quindi, si pone l'obiettivo di approfondire e sperimentare tecniche per la categorizzazione dei testi brevi. Nello specifico, l’idea di base è quella di analizzare il materiale relativo alle pubblicazioni scientifiche, assegnando un significato alle informazioni che è possibile ricavare dal web.

Abstract

File

Nome file	Dimensione	Tempo di download stimato (Ore:Minuti:Secondi)
Nome file	Dimensione	28.8 Modem	56K Modem	ISDN (64 Kb)	ISDN (128 Kb)	piu' di 128 Kb
Ci sono 1 file riservati su richiesta dell'autore.
Contatta l'autore