Riassunto analitico
Tim-Berners Lee, quando ha definito i Lineked Data Principles, aveva predetto che il Web dei dati sarebbe stato utilizzabile come un grande database RDF (Resource Description Framework). Oggigiorno, con più di un migliaio di sorgenti Linked Open Data (LOD) disponibili online, stiamo assistendo ad un incremento nel volume delle sorgenti pubblicate. Tuttavia, il continuo utilizzo di risorse esterne e la comune mancanza di una definizione formale della struttura del dataset fa sì che molte sorgenti LOD siano molto complesse da interpretare ed utilizzare.
Lo scopo di questa tesi e quello di proporre tecniche e strumenti capaci di rivelare la struttura di ogni sorgente LOD, al fine di promuovere l’utilizzo di questa nuova tipologia di dati. In particolare viene proposto un approccio per estrarre automaticamente informazioni strutturali e statistiche da una sorgente LOD andando a popolare un set di indici, chiamati Statistical Indexes. In seguito saranno proposti due modelli capaci di descrivere in modo sintetico ed efficace la struttura di un generico dataset RDF: Schema Summary e Clustered Schema Summary. Lo Schema Summary contiene le classi e le proprietà presenti nel dataset, sia che siano o meno formalmente definite al interno della sorgente. Il Clustered Schema Summary, indicato per descrivere grandi dataset, fornisce una visione di più alto livello della struttura della sorgente clusterizzando classi che concorrono nel instanziazione multipla di stesse entità. Tutti questi sforzi sono confluiti nello sviluppo di un tool chiamato LODeX, il quale ha lo scopo di fornire al utente un riassunto di alto livello della struttura di una sorgente LOD, fornendo anche la possibilità di costruire query visuali in modo tale da supportare l’utente nel esplorazione e l’analisi di un dataset prima sconosciuto.
Tutte le tecniche proposte in questa tesi sono state valutate e confrontate rispetto lo stato del arte nei rispettivi campi: viene proposto una valutazione delle prestazioni riguardante il modulo di LODeX dedicato al estrazione degl‘indici; le tecniche di schema summarization sono state valutate secondo metriche proposte nel campo del ontology summarization; infine, si è valutato la portabilità e l usabilità di LODeX.
Nel ultimo capitolo della tesi viene presentata una nuova tecnica per il calcolo della similarità tra documenti, chiamata ISA (Intrinsic Semantic Analisys), che sfrutta le informazioni contenute in un knowledge graph. Questa tecnica è stata comparata con altri metodi di stima della similarità tra documenti ed è stata utilizzata per migliorare il clustering gerarchico di documenti.
|
Abstract
The Linked Data Principles ratified by Tim-Berners Lee promise that a large portion of Web Data will be usable as one big interlinked RDF (i.e. Resource Description Framework) database. Today, with more than one thousand of Linked Open Data (LOD) sources available on the Web, we are assisting to an emerging trend in publication and consumption of LOD datasets. However, the pervasive use of external resources together with a deficiency in the definition of the internal structure of a dataset causes that many LOD sources are extremely complex to understand.
The goal of this thesis is to propose tools and techniques able to reveal the underlying structure of a generic LOD dataset for promoting the consumption of this new format of data. In particular, I propose an approach for the automatic extraction of statistical and structural information from a LOD source and the creation of a set of indexes (i.e. Statistical Indexes) that enhance the description of the dataset. By using this structural information, I defined two models able to effectively describe the structure of a generic RDF dataset: Schema Summary and Clustered Schema Summary. The Schema Summary contains all the main classes and properties used within the datasets, whether they are taken from external vocabularies or not. The Clustered Schema Summary, suitable for large LOD datasets, provides a more high-level view of the classes and the properties used by gathering together classes that are object of multiple instantiations. All these efforts allowed the development to a tool called LODeX able to provide a high-level summarization of a LOD dataset and a powerful visual query interface to support users in querying/analyzing an unknown datasets.
All the techniques proposed in this thesis have been extensively evaluated and compared with the state of the art in their field: a performance evaluation of the LODeX's module delegated to the extraction of the indexes is proposed; the technique of schema summarization has been evaluated according to ontology summarization metrics; finally, LODeX itself has been evaluated inspecting its portability and usability.
In the last chapter of the thesis, I present a novel technique called ISA Intrinsic Semantic Analysis) that exploits the information contained in a knowledge graph for estimating the similarity between documents. This technique has been compared with other state of the art measures and utilized for improving hierarchical clustering of documents.
|