Riassunto analitico
L'Information Retrieval (IR) è la disciplina che si occupa del recupero di materiale di natura non strutturata o semi-strutturata dall'interno di grandi collezioni di documenti per soddisfare un bisogno informativo espresso da un utente. Nel corso degli ultimi trent'anni, la necessità di sviluppare metodi efficaci di IR è diventata sempre più urgente, soprattutto a seguito dell'avvento del World Wide Web e della conseguente esplosione della quantità di dati reperibili. Questo lavoro di tesi si propone di analizzare l'evoluzione subita dai sistemi di Information Retrieval, riponendo una particolare attenzione su una sottobranca di interesse più specifica denominata Document Retrieval, la quale si occupa prevalentemente di dati testuali. Inizialmente viene riportato un approfondimento sul motore di ricerca tradizionale per l'IR, il quale mira ad identificare i documenti rilevanti per una query sulla base di una ricerca di tipo lessicale. Successivamente si procede poi con l'esame del più recente approccio di tipo neurale del Semantic Search, il quale tenta di risolvere le criticità legate alle tecniche tradizionali concentrando una maggior attenzione sul significato semantico dei termini e sulla comprensione dell'intento dell'utente. Si presentano infine i risultati ottenuti a seguito dell'implementazione di diversi modelli di Machine Learning basati sulla tecnologia transformer all'interno di un sistema di Semantic Search elaborato tramite il framework Haystack.
|
Abstract
Information Retrieval (IR) is the discipline that deals with retrieving material of unstructured or semi-structured nature from within large collections of documents to satisfy an information need expressed by a user. Over the last thirty years, the need for effective IR methods has become increasingly urgent, especially following the advent of the World Wide Web and the resulting explosion in the amount of available data. This work aims to analyze the evolution of Information Retrieval systems, focusing on a more specific sub-branch called Document Retrieval, which mainly deals with textual data. At first I report a depth-in analysis on traditional IR search engines, whose main task is to identify relevant documents to a given input query on the basis of lexical search. Then I proceed with the examination of the most recent neural approach of Semantic Search, which attempts to solve traditional techniques' critical issues by focusing more attention on terms' semantic meaning and comprehension of user’s intent. Finally, I present the results obtained from the implementation of different Machine Learning models based on transformer technology within a Semantic Search system developed through Haystack framework.
|