Riassunto analitico
Questa tesi di ricerca è dedicata ad esplorare l'integrazione dei modelli causali negli algoritmi di Reinforcement Learning (RL), lavorando sul concetto noto come Causal Reinforcement Learning. Questo approccio è molto promettente in diversi campi, come la sanità, la robotica, l'ambiente e l'economia. Combinando l'apprendimento guidato dai dati con il ragionamento causale, il Causal RL ha il potenziale per creare sistemi di apprendimento adattivi, robusti e affidabili, in grado di eccellere in scenari complessi, non stazionari e incerti del mondo reale.
In particolare, questa tesi si concentra sull'incorporare una conoscenza causale \\nell'algoritmo di Q-Learning, una tipologia di algoritmo che fa parte dellla classe di algoritmi di Temporal Difference (TD) learning, ampiamente usati in Reinforcement Learning. Sebbene Q-Learning possa non essere adatto ad ambienti dinamici a causa della sua struttura, l'introduzione della conoscenza causale ha dimostrato la capacità di migliorarne in maniera importante le prestazioni. La conoscenza causale viene estratta attraverso l'inferenza causale impiegando l'operazione di do-calculus, questa permette di calcolare le probabilità a posteriori delle variabili a seguito di azioni specifiche. L'obiettivo principale di questo lavoro è fornire una struttura completa che integri perfettamente la conoscenza causale nell'algoritmo Q-Learning. Inoltre, vengono considerati i concetti di spiegabilità e affidabilità per garantire l'interpretabilità e la comprensione trasparente del processo decisionale dell'agente.
L'approccio delineato in questa tesi consiste in due componenti primarie. La fase iniziale prevede che l'agente navighi in un ambiente compatto con un nemico solitario, dove entrambi si muovono in maniera casuale. Durante questa fase, l'agente utilizza l'inferenza causale per comprendere i risultati delle sue azioni, che vengono memorizzati per un uso successivo. Nella seconda fase, l'agente opera in ambienti più grandi e complessi, e con diversi nemici, con l'obiettivo generale di raggiungere la posizione obiettivo che non conosce, tenendo conto che non conosce neppure l'ambiente nella quale è immerso. La valutazione dell'approccio proposto è facilitata dalla creazione di un ambiente di gioco. Viene condotto un confronto approfondito tra le prestazioni dell'algoritmo di Q-Learning classico e quelle del nuovi algoritmi di Q-Learning causale implementati, attraverso un'ampia campagna sperimentale che coinvolge vari scenari, dai più semplici a quelli veramente complessi ed impegnativi. Il confronto dei risultati è approfondito e si concentra su diverse metriche chiave, tra cui la ricompensa media sulla partita, il numero di passi necessari per completare un episodio, il tempo medio necessario per completare la partita, la frequenza delle sconfitte e il verificarsi di condizioni di timeout, ogni metrica è considerata per ciascun algoritmo. I risultati sperimentali evidenziano il significativo gap prestazionale degli agenti dotati di conoscenza causale rispetto a quelli che utilizzano solo il classico algoritmo di Q-Learning. In particolare, il divario di prestazioni aumenta con l'aumentare della complessità del compito.
L'importanza di questo lavoro risiede nell'avanzamento del Causal Reinforcement Learning e dell'Intelligenza Artificiale Causale, questa nuova classe di algoritmi sono una via concreta per incrementare la velocità della ricerche scientifiche e la potenza dei sistemi di Intelligenza Artificiale, questo perché sono in grado di comprendere e valutare ambienti complessi mantenendo la capacità di acquisire continuamente nuovi concetti. I meccanismi di apprendimento e comprensione di questi algoritmi di Causal Reinforcement Learning rispecchiano da vicino i processi cognitivi umani.
|
Abstract
This research thesis is dedicated to explore the integration of causal models into Reinforcement Learning (RL) algorithms, a concept known as Causal Reinforcement Learning. This approach holds significant promise across several domains such as healthcare, robotics, environment and economics. By combining data-driven learning with causal reasoning, Causal RL has the potential to create adaptable, robust, and trustworthy learning systems capable of excelling in complex and uncertain real-world scenarios.
Specifically, this thesis focuses on integrating causal knowledge into the Q-Learning algorithm, a form of Temporal-Difference learning algorithm widely used in RL. While Q-Learning may not be well-suited for dynamic environments due to its construction, introducing causal knowledge has shown the ability to enhance its performance. The causal knowledge is extracted through causal inference, employing operations like do-calculus to deduce the posterior probabilities of variables after specific actions. The primary objective of this work is to provide a comprehensive framework that seamlessly integrates causal knowledge into the Q-Learning algorithm. Additionally, the concepts of explainability and trustworthiness have been taken into account to guarantee the interpretability and transparent comprehension of the agent's decision-making process.
The approach outlined in this thesis consists of two primary components. The initial phase entails the agent's navigation within a compact environment featuring a solitary randomly moving enemy. During this phase, the agent leverages causal inference to understand the outcomes resulting from its actions, and these outcomes are stored for subsequent use. In the latter phase, the agent operates within larger environments of diverse sizes and configurations of enemies, with the overarching objective of reaching designated goal positions.
The evaluation of the proposed approach is facilitated through the creation of a game environment. The game involves an agent navigating an environment to reach a goal position, without having any prior knowledge of the environment's layout. An in-depth comparison is conducted between the performance of the classic Q-Learning algorithm and the novel Causal Q-Learning algorithms; it is achieved through an extensive experimental campaign encompassing various scenarios, ranging from easy to challenging. The comparison of results, focuses on several key metrics, including the average reward per episode step, the number of steps necessary to finish an episode, the average time taken to complete a game using each designed approach, the frequency of defeats for each algorithm, and the occurrences of timeout conditions for each algorithm. The experimental results highlight the significant performance advantage of agents equipped with causal knowledge compared to those using only classic Q-Learning. Notably, the performance gap widens as task complexity increases.
The importance of this endeavor rests in the advancement of Causal Reinforcement Learning and Causal Artificial Intelligence, which adds to the progress of scientific research by introducing a novel class of AI algorithms. These algorithms are able to understand and evaluate complex environments, all while maintaining the capacity to continuously acquire new concepts. The learning and comprehension mechanisms of these Causal Reinforcement Learning algorithms closely mirror human cognitive processes.
|