Riassunto analitico
Il metodo che di norma è impiegato nel controllo di un manipolatore robotico, principalmente utilizza equazioni differenziali ricavate "manualmente" sfruttando alcuni principi di cinematica/dinamica inversa. Il lavoro in questione propone un approccio semplice e versatile, impiegando un controllore nello spazio dei giunti, il quale non fa affidamento al canonico sistema di equazioni differenziali, come citato precedentemente, ma al contrario supporta uno degli approcci emergenti dell'intelligenza artificiale, ovvero l'apprendimento per rinforzo (reinforcement learning). Il sistema realizzato si compone di una rete neurale profonda, addestrata senza una conoscenza pregressa del modello dinamico del manipolatore (model-free), dove i parametri interni della rete vengono ricavati mediante un noto algoritmo di rinforzo, ovvero Proximal Policy Optimization (PPO), e per interazione con l'ambiente circostante. Ed è proprio il modello di rete così ottenuto in fase di addestramento che viene impiegato per eseguire la mappatura dallo spazio operativo, espresso in coordinate cartesiane, che descrive posizione e orientazione finale della catena cinematica, a quello dei giunti, a sua volta definito da un vettore le cui componenti sono gli spostamenti traslazionali e angolari di ciascun giunto del collegamento robotico. Gli esperimenti riportati in questo elaborato, mostrano come il metodo proposto sia in grado di raggiungere un errore, della posa del robot, paragonabile a quelli tradizionali, pur semplificando notevolmente il processo nel suo insieme e gestendo automaticamente la ridondanza dello stesso manipolatore, nonché i limiti dei giunti che compongono la sua struttura, e perfino i profili di accelerazione/decelerazione, con una moderata quantità di addestramento. Si dimostra chiaramente come la velocità a fine delle traiettorie così eseguite sia pari pressoché a zero nella stragrande maggioranza dei casi; eccetto alcune configurazioni ai confini dello spazio di lavoro del manipolatore e in caso quest'ultimo debba allungarsi completamente Un ulteriore tassello di verifica delle potenzialità dell'approccio proposto, è stato aggiungere, al compito di base, quello di evitare alcuni ostacoli sulla scena, aumentando gli ingressi della rete neurale con informazioni riguardanti gli oggetti più vicini rispetto alla posa del robot. I risultati vengono mostrati prettamente in simulazione, sia nell'ambiente costruito a scopo di addestramento, ma anche in una sua trasposizione all'interno dell'ecosistema ROS (Robot Operating System), rappresentando quest'ultimo lo standard di fatto della robotica. Infine si è osservato come l'agente sia in grado di generalizzare correttamente e con risultati inediti. Come testimonia il raggiungimento di alcuni punti nello spazio di lavoro al di fuori del suo sfera di competenza pregressa, nonché orientazioni operate su più assi, non impartite durante la fase di apprendimento, ma puntualmente raggiunte.
|
Abstract
The method used to control a robotic manipulator mainly uses hand-crafted differential equations by exploiting some kinematics/inverse dynamics principles.
The work in question proposes a simple and versatile approach, employing a controller in the joint space, which does not rely on the canonical system of differential equations, as mentioned above, but on the contrary, supports one of the emerging approaches of artificial intelligence, which is reinforcement learning.
The system created consists of a deep neural network trained without prior knowledge of the dynamic model of the manipulator (model-free). Net's internal parameters are derived using a well-known reinforcement algorithm, i.e., Proximal Policy Optimization (PPO), through interaction with the surrounding environment.
The same network model obtained in the training phase is used to perform the mapping from the operational space, expressed in Cartesian coordinates, which describes the final position and orientation of the kinematic chain, to that of the joints, in turn, defined by a vector whose components are the translations and angular displacements of each joint of the robotic link.
The experiments reported in this work show how the proposed method can reach an error in the pose of the robot, comparable to the traditional ones, while greatly simplifying the process as a whole and automatically managing the redundancy of the manipulator itself, as well as the limits of the joints that make up its structure, and even the acceleration/deceleration profiles, with a moderate amount of training.
One of the achievements is how the speed at the end of the trajectories is almost equal to zero in most cases, with few configurations at the edge of the manipulator workspace or in case the robot needs to extend its structure fully that does not reach this performance.
A further step in verifying the potential of the proposed approach was to add, to the essential task, of avoiding some obstacles on the scene, increasing the inputs of the neural network with information regarding the closest objects concerning the robot's pose.
The results are shown purely in simulation, both in the environment built for training purposes also in its transposition within the ROS (Robot Operating System) ecosystem, representing the de-facto standard of robotics.
Therefore, the agent seems to generalize correctly and with unprecedented results. As evidenced by the achievement of some points in the workspace outside its sphere of previous competence, orientations operated on several axes, not imparted during the learning phase but promptly reached.
|