Riassunto analitico
Tesi di Laurea Magistrale basata sull’attività progettuale del tirocinio curriculare svolto presso Norges teknisk-naturvitenskapelige universitet (NTNU) in Norvegia, nell’ambito del programma “Erasmus+ for Traineeship”, concluso nel mese di Luglio 2019. Capitolo 1: Introduzione. L’Information Retrieval (IR) è un’area di ricerca interdisciplinare definita come l’unione di tecniche automatizzate per recuperare le risorse Web a partire dalle query degli utenti. Quest’area di ricerca sta diventando sempre più interessante data l’espansione dell’informazione condivisa sul Web, che ha determinato l’“Information Retrieval Dilemma”. Un tentativo di risolvere questo problema è stato trasformare il Web tradizionale in una piattaforma in grado di comprendere il significato delle informazioni. Nel 2001, Tim Berners-Lee ha promosso l’iniziativa “Semantic Web of Data”, caratterizzata dal concetto di “Linked Open Data (LOD)”, dati memorizzati seguendo quattro best-practice. Oggi si parla di 60 miliardi di dati in formato RDF convogliati dentro le basi di conoscenza (come DBpedia e YAGO) e recuperati utilizzando specifici linguaggi di interrogazione, come SPARQL. Inoltre, l’unione dei dati in formato RDF costituisce i “Knowledge Graphs”, che possono essere navigati per recuperare le informazioni in modo semplice. Capitolo 2: Background. Tra le applicazioni di Information Retrieval spicca lo studio “Top-k Relevant Semantic Place Retrieval on Spatial RDF Data”, di Shi, Jieming, Dingming Wu, and Nikos Mamoulis. Questo lavoro comprende un’ampia descrizione di elaborazioni per eseguire query testuali e di operazioni di ricerca su grafi basate sulla posizione per ottenere i migliori k nodi. Capitolo 3: Formalizzazione del Problema di Ricerca. Il problema di ricerca è definito formalmente come concernente l’implementazione e la sperimentazione di un algoritmo in grado di eseguire query testuali di tipo spazio-temporale su un grafo RDF. Capitolo 4: Lavoro Correlato. Diversi articoli scientifici utilizzati a supporto del presente lavoro sono citati e posti a confronto. Si tratta di studi nell’ambito della ricerca spazio-temporale. Capitolo 5: Prima Soluzione. L’implementazione e la sperimentazione dell’algoritmo iniziano da un prototipo di base per la sola gestione dei dati in formato RDF, utile per apportare correzioni e ottimizzazioni, al fine di giungere all’algoritmo reale. Sono analizzate numerose librerie per automatizzare sia l’estrazione dei dati in formato RDF che la loro gestione. Per esempio: owlcpp, Apache Jena, Redland RDF e HDT. Capitolo 6: Seconda Soluzione. Il flusso di esecuzione dell’algoritmo finale inizia dalla lettura dei file dei datasets di DBpedia e prosegue con la memorizzazione di queste ultime come istanze della classe “Entità”. Tali istanze costituiscono i nodi del grafo RDF. Ad ogni ricerca per parole chiave, il grafo RDF viene esplorato in maniera esaustiva a partire dai nodi associati a coordinate geografiche spazialmente vicine a quelle della query, grazie all’algoritmo di Breadth-first search (BFS). Tra i nodi candidati vengono selezionati quelli che minimizzano la funzione di ranking, arricchita con un peso di tipo “time-aware”, se il nodo è associato ad un predicato temporale. Capitolo 7: Validazione Empirica. L’algoritmo è stato validato empiricamente su un dataset di dati estratti dai file dei datasets di DBpedia, versione 2016-10/core-i18n/en. Gli esperimenti sono stati condotti accedendo ad uno dei nodi del server dipartimentale. È riportata l'analisi dei risultati. Capitolo 8: Conclusioni e Lavoro Futuro. A fronte del lavoro svolto è possibile evidenziare vantaggi e svantaggi della tecnica implementata. Il lavoro futuro potrebbe ricominciare dalla definizione di un modello di dati, si potrebbero risolvere i problemi nell’utilizzo delle librerie per gestire i dati in formato RDF ed estendere il dataset originale.
|
Abstract
Master's thesis based on the project activity of the internship carried out at Norges teknisk-naturvitenskapelige universitet (NTNU) in Norway, as part of the "Erasmus + for Traineeship" program, concluded in July 2019.
Chapter 1: Introduction. Information Retrieval (IR) is an interdisciplinary research commonly defined as the union of automated techniques to retrieve Web resources from user’s queries. The problem has become interesting given the expansion of information shared on the Web, which created the “Information Retrieval Dilemma”. An attempt to solve this problem was transforming the traditional Web into a platform capable of understanding the meaning of information. In 2001, thanks to an initiative by Tim Berners-Lee, the “Semantic Web of Data” appeared. It is characterized by the concept of “Linked Open Data (LOD)”, data stored following four best practices. Today, there are about 60 billion RDF data stored into the “Knowledge Bases” (e.g., DBpedia and YAGO) and retrieved using specific query languages, such as SPARQL. However, the union of RDF data constitutes the “Knowledge Graphs”, which can be browsing to retrieve information in a simple and user-friendly manner.
Chapter 2: Background. Among the applications of Information Retrieval there is the work “Top-k Relevant Semantic Place Retrieval on Spatial RDF Data” by Shi, Jieming, Dingming Wu, and Nikos Mamoulis. It is a broad description of pre-processing to perform textual queries for location-based search operations on a RDF Knowledge Graph to obtain the top-k graph nodes.
Chapter 3: Formalization of Research Problem. The research problem and the related goal are described with formal terms.
Chapter 4: Related Work. Several scientific readings supporting this work are cited and compared. These are works about spatio-temporal search, that is, techniques to incorporate spatial and temporal information adding value to the data and satisfying complex queries.
Chapter 5: First Solution. The implementation and experimentation of the algorithm starts from a basic prototype to handle RDF data, useful for making corrections and optimizations to arrive at the real algorithm. Several libraries automating the extraction and management of RDF data are analyzed such as owlcpp, Apache Jena, Redland RDF, and HDT (Header, Dictionary, Triples).
Chapter 6: Second Solution. The real algorithm achieves better performance than the basic one. Its execution flow is based on reading DBpedia datasets files and storing RDF data as instances of the “Entity” class, which constitute the nodes of the Knowledge Graph. At each search, it is explored exhaustively starting from the nodes associated with geographic coordinates, thanks to the Breadth-first search (BFS) algorithm. Additionally, the ranking function of each candidate node is computed and multiplied by a “time-aware” weight, if the node is associated with a temporal predicate. Among the candidate nodes, those having the minimum ranking function are selected for the top-k results.
Chapter 7: Empirical Validation. The real algorithm has been empirically validated on a dataset extracted from the files of the DBpedia datasets, version 2016-10 / core-i18n / en. The experiments were conducted by accessing one of the departmental server nodes. The analysis of results is reported.
Chapter 8: Conclusions and Future Work. Given the work done, it is possible to highlight the advantages and drawbacks of the implemented technique. Future work could restart from the definition of a specific data model, solve the problems encountered in the use of libraries to handle RDF data, and extend the original dataset with further information from other Knowledge Bases.
|