Riassunto analitico
L’elaborato tratta della realizzazione del progetto ExpertScout, un motore di ricerca che nasce per soddisfare determinate esigenze informative nel mondo accademico, ossia conoscere i maggiori esperti in un determinato ambito di ricerca scientifica. L’utilizzo di sistemi di expert finding può rivelarsi utile a quei docenti alla ricerca di nuovi collaboratori per portare avanti un lavoro scientifico, ad eventuali tesisti alla ricerca del relatore adatto per la loro tesi e anche ad aziende e professionisti in cerca di un esperto di settore. Il progetto ExpertScout si è occupato di realizzare tale sistema, sviluppandolo interamente sulla piattaforma di Google Colaboratory che permette di eseguire codice Python sul browser, sfruttando le potenze di calcolo dei computer di Google in cloud. Il progetto è suddiviso in due parti: la prima è incentrata sulla raccolta di elementi presenti sul sito del personale Unimore, in modo da ottenere una base di dati significativa da cui partire. I dati sono stati estratti mediante degli agenti software molto sofisticati che hanno analizzato ogni docente/ricercatore Unimore, recuperando tutte le informazioni generali sulla homepage (dal nome completo all’ORCID ID) e tutti gli articoli scientifici sulla sezione delle pubblicazioni. La seconda parte invece ha riguardato l’implementazione effettiva del motore di ricerca utilizzando due tecniche all’avanguardia nel mondo dell’information retrieval e della NLP (Natural Language Processing): BM25 (Best Match) e BERT (Bidirectional Encoder Representations from Transformers). Attraverso la prima tecnica è possibile effettuare delle ricerche mediante l’inserimento di keyword ed ottenere gli esperti più competenti sull’argomento di interesse espresso dalla query. La seconda, invece, consente di effettuare ricerche basate sulla similarità testuale, immettendo nella search bar un’intera frase o un testo esteso come il titolo e l’abstract di una pubblicazione scientifica. Mettendo a confronto due modelli di BERT, siamo riusciti ad ottenere risultati molto convincenti sulla pertinenza dei singoli articoli scientifici restituiti. La ricerca di esperti basata su BM25 è stata testata da diversi esperti disciplinari che hanno potuto fornire importanti giudizi sui risultati delle ricerche ottenute, comparandolo ad un altro motore di ricerca in ambito universitario come IRIS. I risultati ottenuti dalle valutazioni mostrano come ExpertScout, seppur con una differenza notevole di dati a disposizione rispetto ad IRIS, ottenga dei risultati superiori applicando tali tecniche nella ricerca dei maggiori esperti.
|
Abstract
The dissertation discusses the implementation of the ExpertScout project, a search engine that was created to meet certain information needs in academia, i.e., to know the leading experts in a given scientific field. The use of expert finding systems can prove useful to those professors looking for new collaborators to pursue a scientific work, to master's degree candidates looking for the right supervisor for their thesis, and also to companies and professionals looking for an expert in the field. The ExpertScout project has taken on the task of implementing such a system, developing it entirely on Google's Colaboratory platform, which allows Python code to be run on the browser, taking advantage of the computational resources of Google's cloud-based computers. The project is divided into two parts: the first focuses on collecting items on the Unimore staff site in order to obtain a meaningful database to start. The data were extracted through very sophisticated software agents that analyzed each Unimore professor/researcher, retrieving all general information on the homepage (from the full name to the ORCID ID) and all scientific articles on the publications section. The second part, on the other hand, involved the actual implementation of the search engine using two state-of-the-art techniques in the field of information retrieval and NLP (Natural Language Processing): BM25 (Best Match) and BERT (Bidirectional Encoder Representations from Transformers). Through the first technique, it is possible to perform searches by entering keywords and obtain the most knowledgeable experts on the topic of interest expressed by the query. The second, on the other hand, allows searches based on textual similarity by entering an entire sentence or extended text such as the title and the abstract of a scientific publication into the search bar. By comparing two BERT models, we were able to obtain very convincing results on the relevance of the individual scientific articles returned. Expert search based on BM25 was tested by several disciplinary experts who were able to provide important judgments on the obtained search results by comparing it to another search engine in academia such as IRIS. The results obtained from the evaluations show that ExpertScout, although with a considerable difference in data available compared to IRIS, achieves superior results by applying such techniques in the search for leading experts.
|