Riassunto analitico
L'impiego di sistemi multi-drone rappresenta un'area in rapida evoluzione nella robotica, con applicazioni che spaziano dal monitoraggio ambientale alla logistica industriale e alla gestione delle operazioni di emergenza. Nonostante i significativi progressi tecnologici, rimangono sfide rilevanti legate al coordinamento, alla scalabilità e all'adattabilità di questi sistemi in ambienti dinamici e incerti. Questo studio si propone di investigare come l'integrazione di modelli basati su distribuzioni gaussiane nei sistemi di Reinforcement Learning (RL) possa migliorare le capacità dei droni di esplorare e analizzare fenomeni complessi in modo autonomo ed efficiente. In particolare, sono tre le ipotesi principali su cui si fonda questa ricerca. Secondo la prima modellare i fenomeni come distribuzioni gaussiane migliora l'efficienza esplorativa dei droni, fornendo informazioni più dettagliate rispetto ad ambienti con ricompense sparse. Nella seconda si sostiene che l’approccio aumenti l'adattabilità dei droni in contesti dinamici, grazie alla capacità di seguire gradienti per navigare tra ostacoli e aree di interesse. L’ultima riguarda la teoria che un reward shaping basato su funzioni di probabilità renda possibile dare priorità ad aree di interesse, invece che a singoli punti, rendendo l’ambiente di addestramento più simile ad uno scenario non conosciuto. La metodologia si articola in diverse fasi. È stata inizialmente condotta una revisione della letteratura per identificare le lacune e le opportunità di ricerca nel controllo degli sciami di droni. Una volta formulate le ipotesi, si è passati alla preparazione della piattaforma hardware e dei suoi strumenti software, su cui testare il prodotto della ricerca. A questo scopo, la scelta dei robot con cui lavorare è ricaduta sui Crazyflie, supportati dal pacchetto di controllo Crazyswarm, implementato con strumenti ROS (Robot Operating System). Successivamente, sono stati progettati e implementati una serie di ambienti RL personalizzati, integrando in ognuno di essi le distribuzioni gaussiane e alcuni ostacoli, per simulare sia barriere fisse che eventuali agenti presenti, in modo da rendere la soluzione scalabile. I modelli prendono in considerazione diverse funzioni di reward, modellando di conseguenza anche l’osservazione fornita all’agente, in modo da determinare quale sia la strategia di reward shaping più efficiente attraverso i test. Infine, sono state eseguite valutazioni in simulazione, con particolare attenzione a metriche come il numero di azioni eseguite in un episodio, l’andamento della curva di apprendimento e la percentuale di successo per ogni modello sviluppato. I risultati ottenuti, in particolare da alcuni modelli, dimostrano una considerevole efficienza esplorativa, oltre che buona adattabilità del sistema in scenari dinamici unita alla capacità di raggiungere le aree di interesse. Le implicazioni di questa ricerca suggeriscono che l'integrazione di tecniche probabilistiche nei sistemi RL può rappresentare una strategia efficace per affrontare le sfide della robotica multi-agente, tra le quali l’esplorazione ottimizzata di un’area di interesse non staticamente definita. Questo approccio, in definitiva, offre una base promettente per future applicazioni, dalla gestione delle emergenze al monitoraggio ambientale, dove la capacità di operare in modo autonomo e adattivo è cruciale.
|
Abstract
The use of multi-drone systems represents a rapidly evolving area in robotics, with applications ranging from environmental monitoring to industrial logistics and emergency operations management. Despite significant technological progress, relevant challenges remain concerning the coordination, scalability and adaptability of these systems in dynamic and uncertain environments. This study aims to investigate how the integration of Gaussian-based models into Reinforcement Learning (RL) systems can enhance drones' ability to autonomously and efficiently explore and analyze complex phenomena. In particular, the research is founded on the following hypotheses: modeling phenomena as Gaussian distributions improves the exploratory efficiency of drones by providing more detailed information compared to environments with sparse rewards; the approach increases the adaptability of drones in dynamic contexts, thanks to their ability to follow gradients when navigating through obstacles and areas of interest; a reward shaping strategy based on probability functions allows prioritizing areas of interest rather than single points, making the training environment more similar to an unknown scenario.
The methodology is structured in several phases. Initially, a literature review was conducted to identify gaps and opportunities in the field of drone swarm control. Once the hypotheses were formulated, the research moved to the preparation of the hardware platform and its software tools for future tests. For this purpose, the choice of robots fell on Crazyflie drones, supported by the Crazyswarm control package implemented with ROS (Robot Operating System). Subsequently, a series of customized RL environments were designed and implemented, integrating Gaussian distributions and obstacles in each environment to simulate both fixed barriers and eventual agents, making the solution scalable for multi-robot systems. The models considered various reward functions, shaping the observations provided to the agents accordingly, to determine the most efficient reward shaping strategy through testing. Finally, simulations were carried out, focusing on metrics such as the number of actions performed per episode, learning curves shape and success rates for each developed model.
The results, particularly from some models, demonstrate considerable exploratory efficiency, as well as good adaptability in dynamic scenarios, coupled with the ability to reach areas of interest. The implications of this research suggest that the integration of probabilistic techniques into RL systems could represent an effective strategy to address the challenges of multi-agent robotics, including optimized exploration of areas of interest that are not statically defined. Ultimately, this approach provides a promising foundation for future applications, from emergency management to environmental monitoring, where the ability to operate autonomously and adaptively is crucial.
|