Improving Human-Robot Collaborative Reinforcement Learning through Probabilistic Policy Reuse / Βελτίωση εκπαίδευσης ομάδας ανθρώπου-ρομπότ με μεταφορά γνώσης από εκπαιδευμένο πράκτορα βαθιάς ενισχυτικής μάθησης

Author nameΑθανάσιος-Χριστόφορος Τσίτος
Title
Improving Human-Robot Collaborative Reinforcement Learning through Probabilistic Policy Reuse / Βελτίωση εκπαίδευσης ομάδας ανθρώπου-ρομπότ με μεταφορά γνώσης από εκπαιδευμένο πράκτορα βαθιάς ενισχυτικής μάθησης
Year2021-2022
Supervisor

Maria Dagioglou

Maria Dagioglou

Summary

Socially aware robots should be able, among others, to support fluent human-robot collaboration (HRC) in tasks that require interdependent actions in order to be solved. Similar to human-human collaboration, during HRC the actions of each agent affect the actions of its partner. Towards enhancing mutual performance, collaborative robots (cobots) should be equipped with adaptation and learning capabilities. Overall, mutual learning can be a time consuming procedure that depends on the computational complexity of the task, the motor and cognitive load demanded, as well as the skills of the human partner. Nevertheless, cobots should be able to integrate in their actions the capabilities of their human partner and adapt to their strengths and weaknesses.

In the current thesis, we focused on HRC settings where a human and a Deep Reinforcement Learning (DRL) agent need to learn in real-time how to solve a shared task through efficient collaboration. In such scenarios, the performance of the team depends on one hand on the ability of the DRL agent to learn how to solve the task while adapting to its human partner and on the other hand on the ability of the human to understand the strengths and weaknesses of the agent and adapt accordingly. The goal of the thesis was to observe how the mutual performance could be improved when the agent needs to collaborate with different humans. The method used was a transfer learning technique called Probabilistic Policy Reuse, which allows DRL agents to take actions based on other pre-trained policies.

In order to access this method, we developed a human-agent game where the human and a DRL agent controlled by the Soft Actor-Critic algorithm needed to jointly control the motion of the end-effector of a robotic manipulator and bring it to a goal position. For the experiments, we asked 16 different people to participate. Half of them played the game with a naive agent, meaning that the agent started to play without having any knowledge about the game, while the other half played the game with an agent, which had access to the actions of an expert agent that was trained beforehand by the author. In the second group, the agent took actions based on his current policy with a probability ψ and actions based on the expert policy with a probability 1ψ. The performance of the teams was evaluated through the travelled distance of the end-effector and the results showed that there was a significant difference between the performance of the teams which played without transfer learning and the teams that played with. This result indicates that applying transfer learning in HRC scenarios where the agent needs to collaborate with different humans might improve the mutual performance of the team.

Περίληψη

Οι κοινωνικά ευφυείς ρομποτικοί συνεργάτες θα πρέπει, μεταξύ άλλων, να υποστηρίζουν την ομαλή συνεργασία ανθρώπου-ρομπότ (HRC) σε εργασίες που απαιτούν αλληλεξαρτώμενες ενέργειες για την επίλυσή τους. Αντίστοιχα με τη συνεργασία μεταξύ ανθρώπων, κατά τη συνεργασία ανθρώπου-ρομπότ, οι ενέργειες κάθε πράκτορα επηρεάζουν τις ενέργειες του συνεργάτη του. Για τη βελτίωση της αμοιβαίας απόδοσης, τα συνεργατικά ρομπότ (cobots) θα πρέπει να είναι εξοπλισμένα με ικανότητες προσαρμογής και μάθησης. Συνολικά, η αμοιβαία μάθηση μπορεί να αποτελεί μια χρονοβόρα διαδικασία που εξαρτάται από την υπολογιστική πολυπλοκότητα της εργασίας, το κινητικό και γνωστικό φορτίο που απαιτείται, καθώς και από τις δεξιότητες του ανθρώπινου συνεργάτη. Παρά ταύτα, τα cobots θα πρέπει να είναι σε θέση να ενσωματώνουν στις ενέργειές τους τις ικανότητες του ανθρώπινου συνεργάτη τους και να προσαρμόζονται στα δυνατά και αδύνατα σημεία του.

Στην παρούσα διπλωματική εργασία επικεντρωθήκαμε σε περιβάλλοντα HRC όπου ένας άνθρωπος και ένας πράκτορας βαθιάς ενισχυτικής μάθησης (DRL) πρέπει να μάθουν σε πραγματικό χρόνο πώς να επιλύουν μια κοινή εργασία μέσω αποδοτικής συνεργασίας. Σε τέτοια σενάρια, η απόδοση της ομάδας εξαρτάται αφενός από την ικανότητα του πράκτορα DRL να μάθει να επιλύει την εργασία προσαρμοζόμενος στον ανθρώπινο συνεργάτη του και αφετέρου από την ικανότητα του ανθρώπου να κατανοεί τα δυνατά και αδύνατα σημεία του πράκτορα και να προσαρμόζεται αναλόγως. Στόχος της εργασίας ήταν η διερεύνηση του πώς θα μπορούσε να βελτιωθεί η αμοιβαία απόδοση όταν ο πράκτορας χρειάζεται να συνεργαστεί με διαφορετικούς ανθρώπους. Η μέθοδος που χρησιμοποιήθηκε ήταν μια τεχνική μεταφοράς μάθησης, ονόματι Επαναχρησιμοποίηση Πολιτικής Πιθανοτήτων (Probabilistic Policy Reuse), η οποία επιτρέπει στους πράκτορες DRL να λαμβάνουν αποφάσεις βασιζόμενοι σε άλλες προεκπαιδευμένες πολιτικές.

Για την αξιολόγηση αυτής της μεθόδου, αναπτύξαμε ένα παιχνίδι ανθρώπου-πράκτορα, όπου ο άνθρωπος και ένας πράκτορας DRL, ελεγχόμενος από τον αλγόριθμο Soft Actor-Critic, έπρεπε να ελέγξουν από κοινού την κίνηση του τελικού εκτελεστή ενός ρομποτικού βραχίονα και να τον οδηγήσουν σε μια επιθυμητή θέση. Για τα πειράματα, ζητήσαμε τη συμμετοχή 16 ατόμων. Οι μισοί από αυτούς έπαιξαν με έναν "απλό" πράκτορα, δηλαδή έναν πράκτορα που ξεκίνησε χωρίς να έχει καμία γνώση του παιχνιδιού, ενώ οι υπόλοιποι έπαιξαν με έναν πράκτορα που είχε πρόσβαση στις ενέργειες ενός "έμπειρου" πράκτορα, ο οποίος είχε εκπαιδευτεί προηγουμένως από τον συντάκτη. Στη δεύτερη ομάδα, ο πράκτορας έπαιρνε αποφάσεις βασιζόμενος στην τρέχουσα πολιτική του με πιθανότητα ψ και στην πολιτική του έμπειρου πράκτορα με πιθανότητα 1-ψ. Η απόδοση των ομάδων αξιολογήθηκε μέσω της διανυθείσας απόστασης του τελικού εκτελεστή και τα αποτελέσματα έδειξαν ότι υπήρχε σημαντική διαφορά στην απόδοση μεταξύ των ομάδων που έπαιξαν χωρίς μεταφορά μάθησης και εκείνων που έπαιξαν με αυτήν. Το αποτέλεσμα αυτό υποδηλώνει ότι η εφαρμογή μεταφοράς μάθησης σε σενάρια HRC, όπου ο πράκτορας χρειάζεται να συνεργαστεί με διαφορετικούς ανθρώπους, μπορεί να βελτιώσει την αμοιβαία απόδοση της ομάδας.