Riassunto analitico
Nel panorama odierno, il concetto di "tag" acquisisce sempre più importanza per la ricerca, facendo emergere sempre più quali sono i miglioramenti che questo strumento apporta alle ricerche per chiave. I sistemi di tag sociali, come del.icio.us o Flickr, sono il mezzo per rendere possibile a qualunque utente l'applicare tag a una risorsa, aumentando così l'efficacia delle ricerche. Ma per il momento non ci sono regole circa il taggare impostate nei sistemi di tagging, e qualsiasi utente può attribuire le sue etichette alla risorsa che preferisce. A causa di ciò, molte risorse, spesso le più popolari, possiedono molti più tag di quanti ne hanno bisogno (over-tagging), mentre altre risorse ne possiedono troppi pochi (under-tagging). Quando molte delle risorse sono afflitte da entrambi questi problemi, la qualità generale del dataset ne risente. Per risolvere questo problema, un gruppo di ricerca dell'Università di Hong Kong ha sviluppato un sistema, chiamato iTag, il quale consiglia l'utente quali risorse hanno necessità di essere etichettate per aumentare la qualità e raggiungere quella desiderata. Per calcolare la qualità delle singole risorse (e più in generale la qualità del dataset) viene usata la similarità, in particolare la similarità del coseno. Ho posto quindi alcune domande: cosa succede se cambiamo la misura della similarità? La similarità del coseno è la migliore che possiamo usare per questa situazione? Quali sono altre misure di similarità che potrebbero svolgere lo stesso compito? In questa tesi risponderò a queste domande, eseguendo un lavoro di ricerca sulla similarità e analizzando i risultati ottenuti implementando tre diverse misure di similarità negli algoritmi del sistema i-Tag.
|
Abstract
In today's panorama, the concept of "tag" is acquiring more and more importance for the Research, bringing out the improvements that this tool gives to the key-searches. Social tagging systems, as del.icio.us and Flickr, are the mean to make the resource tagging-action possible for everyone, increasing the effectiveness of searches. But at this time there are no rules about tagging set in this tagging systems, and every tagger can apply his own tags to the resource he wants. Because of this, lots of resources, often the most populars, get more tags than they need (over-tagging), while other resources get too few tags (under-tagging). When lots of resources are afflicted by both of this problems, the general quality of the dataset suffers. To solve this problem, a research group of the University at Hong Kong developed a system, called i-Tag, that advices the taggers which resources actually need tags to increase the quality and to reach the desired one. To calculate the quality of the resources (and so the quality of the dataset) they use the similarity, in particular cosine similarity. I addressed some interesting questions: what if we change the similarity measure? Is the cosine similarity the best one for this instance? Which are the similarity measures that can fit this task? In this work I will answer to this questions, doing a research work about similarity and analyzing the results obtained implementing three different similarity measures in then algorithm of i-Tag system.
|