| Author name | Αθανάσιος-Χριστόφορος Τσίτος |
|---|---|
| Title | Βελτίωση εκπαίδευσης ομάδας ανθρώπου-ρομπότ με μεταφορά γνώσης από εκπαιδευμένο πράκτορα βαθιάς ενισχυτικής μάθησης |
| Year | 2021-2022 |
| Supervisor | Maria Dagioglou Maria Dagioglou |
Οι κοινωνικά ευφυείς ρομποτικοί συνεργάτες θα πρέπει, μεταξύ άλλων, να υποστηρίζουν την ομαλή συνεργασία ανθρώπου-ρομπότ (HRC) σε εργασίες που απαιτούν αλληλεξαρτώμενες ενέργειες για την επίλυσή τους. Αντίστοιχα με τη συνεργασία μεταξύ ανθρώπων, κατά τη συνεργασία ανθρώπου-ρομπότ, οι ενέργειες κάθε πράκτορα επηρεάζουν τις ενέργειες του συνεργάτη του. Για τη βελτίωση της αμοιβαίας απόδοσης, τα συνεργατικά ρομπότ (cobots) θα πρέπει να είναι εξοπλισμένα με ικανότητες προσαρμογής και μάθησης. Συνολικά, η αμοιβαία μάθηση μπορεί να αποτελεί μια χρονοβόρα διαδικασία που εξαρτάται από την υπολογιστική πολυπλοκότητα της εργασίας, το κινητικό και γνωστικό φορτίο που απαιτείται, καθώς και από τις δεξιότητες του ανθρώπινου συνεργάτη. Παρά ταύτα, τα cobots θα πρέπει να είναι σε θέση να ενσωματώνουν στις ενέργειές τους τις ικανότητες του ανθρώπινου συνεργάτη τους και να προσαρμόζονται στα δυνατά και αδύνατα σημεία του.
Στην παρούσα διπλωματική εργασία επικεντρωθήκαμε σε περιβάλλοντα HRC όπου ένας άνθρωπος και ένας πράκτορας βαθιάς ενισχυτικής μάθησης (DRL) πρέπει να μάθουν σε πραγματικό χρόνο πώς να επιλύουν μια κοινή εργασία μέσω αποδοτικής συνεργασίας. Σε τέτοια σενάρια, η απόδοση της ομάδας εξαρτάται αφενός από την ικανότητα του πράκτορα DRL να μάθει να επιλύει την εργασία προσαρμοζόμενος στον ανθρώπινο συνεργάτη του και αφετέρου από την ικανότητα του ανθρώπου να κατανοεί τα δυνατά και αδύνατα σημεία του πράκτορα και να προσαρμόζεται αναλόγως. Στόχος της εργασίας ήταν η διερεύνηση του πώς θα μπορούσε να βελτιωθεί η αμοιβαία απόδοση όταν ο πράκτορας χρειάζεται να συνεργαστεί με διαφορετικούς ανθρώπους. Η μέθοδος που χρησιμοποιήθηκε ήταν μια τεχνική μεταφοράς μάθησης, ονόματι Επαναχρησιμοποίηση Πολιτικής Πιθανοτήτων (Probabilistic Policy Reuse), η οποία επιτρέπει στους πράκτορες DRL να λαμβάνουν αποφάσεις βασιζόμενοι σε άλλες προεκπαιδευμένες πολιτικές.
Για την αξιολόγηση αυτής της μεθόδου, αναπτύξαμε ένα παιχνίδι ανθρώπου-πράκτορα, όπου ο άνθρωπος και ένας πράκτορας DRL, ελεγχόμενος από τον αλγόριθμο Soft Actor-Critic, έπρεπε να ελέγξουν από κοινού την κίνηση του τελικού εκτελεστή ενός ρομποτικού βραχίονα και να τον οδηγήσουν σε μια επιθυμητή θέση. Για τα πειράματα, ζητήσαμε τη συμμετοχή 16 ατόμων. Οι μισοί από αυτούς έπαιξαν με έναν "απλό" πράκτορα, δηλαδή έναν πράκτορα που ξεκίνησε χωρίς να έχει καμία γνώση του παιχνιδιού, ενώ οι υπόλοιποι έπαιξαν με έναν πράκτορα που είχε πρόσβαση στις ενέργειες ενός "έμπειρου" πράκτορα, ο οποίος είχε εκπαιδευτεί προηγουμένως από τον συντάκτη. Στη δεύτερη ομάδα, ο πράκτορας έπαιρνε αποφάσεις βασιζόμενος στην τρέχουσα πολιτική του με πιθανότητα ψ και στην πολιτική του έμπειρου πράκτορα με πιθανότητα 1-ψ. Η απόδοση των ομάδων αξιολογήθηκε μέσω της διανυθείσας απόστασης του τελικού εκτελεστή και τα αποτελέσματα έδειξαν ότι υπήρχε σημαντική διαφορά στην απόδοση μεταξύ των ομάδων που έπαιξαν χωρίς μεταφορά μάθησης και εκείνων που έπαιξαν με αυτήν. Το αποτέλεσμα αυτό υποδηλώνει ότι η εφαρμογή μεταφοράς μάθησης σε σενάρια HRC, όπου ο πράκτορας χρειάζεται να συνεργαστεί με διαφορετικούς ανθρώπους, μπορεί να βελτιώσει την αμοιβαία απόδοση της ομάδας.