Riassunto analitico
Il sistema implementato ha lo scopo di migliorare la ricerca per keyword attraverso la Network Analysis. Nel caso specifico sono utilizzate pubblicazioni scientifiche fornite dal database DBLP. Il sistema prende in input un paper, trova paper simili e li classifica sulla base della loro importanza (più i valori di centralità ottenuti dall’analisi delle reti sono alti, più il paper è considerato importante). L'analisi delle reti è un campo in enorme sviluppo e il suo potere è determinato dalla possibilità di poter estrarre informazioni sconosciute a priori da sistemi di grandi dimensioni, che vengono riorganizzati e resi disponibili in maniera più ordinata. Sono state create e analizzate due reti: la rete dei co-autori e la rete delle parole. La rete dei co-autori è costituita dai nodi che rappresentano gli autori ed esiste un link tra due autori se hanno scritto uno o più paper insieme. Sono state analizzate sia la versione pesata della rete che quella non pesata. La rete delle parole è composta da tutte le parole dei titoli (escluse le stop words) ed esiste un link tra due parole se esse sono presenti nello stesso titolo. In questo caso sono state prese in considerazioni sia la variante diretta, sia quella indiretta (pesata e non pesata). L’analisi è stata fatta sfruttando molte tecniche di Network Analysis, ma ci si è concentrati su alcune misure in grado di determinare la centralità dei nodi all'interno della rete, quali degree, betweenness e PageRank. L'idea alla base è di sfruttare queste misure di centralità per dare un'importanza a una pubblicazione scientifica: più gli autori del paper e le parole contenute nel titolo sono importanti, più il paper è considerato migliore e probabilmente di gradimento per l’utente. Una volta analizzate le reti, è stata generata una matrice con la quale eseguire la similarità tra due paper. La matrice è costituita dalle parole sulle colonne e dai titoli dei paper sulle righe. Le parole inserite nelle colonne sono le prime n parole in ordine decrescente di degree estratte dalle reti (una combinazione delle prime 1400 parole di rete indiretta pesata, indiretta on pesata e diretta, il valore è stato settato a 1486). Gli elementi della matrice sono 0 se la parola nella colonna non è presente nel titolo, 1 se è presente. Con una tecnica basata su LSH il vettore corrispondente al titolo in input è confrontato con tutti quelli dei titoli contenuti nel database e vengono estratti titolo simili (il numero di titoli è fissato a 20 nel nostro caso, ma può essere un valore qualsiasi). La classificazione finale dei paper può essere eseguita in due modi: in ordine decrescente rispetto alle misure estratte dalla rete o valutando la similarità tra le misure del paper in input e quelli nella base di dati. Nel primo caso l’idea è quella di dare più In questo modo è anche possibile dare più importanza alle caratteristiche di interesse: il sistema è infatti parametrico e consente di dare più peso all'importanza delle parole o all'importanza degli autori per stilare la classifica. Il sistema è stato infine testato con diverse modalità per determinarne la bontà.
|
Abstract
The goal of this thesis is to improve a keyword search system with network analysis. In this case, data are taken from DBLP database, which provided information about scientific publication.
The system takes a paper in input, it finds similar papers and it ranks them on the basis of their importance (the more the values of centrality of papers taken from network analysis are higher, the more the paper is considered important).
First of all the creation and analysis of the networks of papers is necessary. It is possible to create different types of networks depending on the data stored in the database. Two networks are created. The first one is the co-authors network, where nodes represent authors and edges link nodes (authors) who have written one or more papers together. Both un-weighted and weighted network are analysed.
The second one is the topic network, where nodes represent words included in the titles of papers and edges link nodes (words) that appear in the same title.
The analysis is made considering several metrics provided by network analysis, but we focus on only few measures able to define the centrality of the node: degree, betweenness and PageRank. The main idea is that of exploiting these centrality measures to rank scientific publication: the more the authors of a paper and the words contained in the title are central in the network, the more the paper is considered important.
After the analysis of the networks build, in order to perform the similarity between two papers, a matrix is generated. This matrix is composed of words on the columns (baseline features) and titles of papers on the rows. Words appearing on the columns are the top-n words based on degree centrality extracted from the networks (in particular the total number of words is a combination of the top-1400 words of undirected un-weighted, undirected weighted and directed networks, the value is set to 1486). The element of the matrix are 0 if the word is not contained in the title, 1 otherwise.
In order to evaluate the similarity between papers, a technique based on LSH is used. Baseline features of the paper provided in input are compared to baseline features of papers in the matrix, and 20 papers are returned (this parameter can be set to other values).
Then these papers are ranked using metrics from the networks, with two different possibility: in descending order on the basis of networks' measures or in descending order on the basis of the similarity between the measures of the network of the input paper and the papers returned from the previous step.
The system is evaluated in different ways in order to define its efficiency.
|