Riassunto analitico
Quando si lavora con documenti molto brevi, le tecniche tradizionali di elaborazione del linguaggio, nate per lavorare con i documenti, si rivelano fallimentari. L’aspetto critico da affrontare davanti a dati di questo tipo è relativo alla loro ambiguità per via della mancanza di sufficienti informazioni sul contesto. Risulta necessario, pertanto, ricorrere a modelli più recenti, che si basano su i word embedding e, dunque, sono in grado di svolgere questo compito utilizzando un contesto limitato. La presente tesi, quindi, si pone l'obiettivo di approfondire e sperimentare tecniche per la categorizzazione dei testi brevi. Nello specifico, l’idea di base è quella di analizzare il materiale relativo alle pubblicazioni scientifiche, assegnando un significato alle informazioni che è possibile ricavare dal web.
|