Solving Long-Horizon Tasks via Imitation and Reinforcement Learning / Εκτέλεση διαδικασιών μεγάλου χρονικού ορίζοντα με ενισχυτική μάθηση και μάθηση μέσω μίμησης

Author nameΑθανασία Λάππα
Solving Long-Horizon Tasks via Imitation and Reinforcement Learning / Εκτέλεση διαδικασιών μεγάλου χρονικού ορίζοντα με ενισχυτική μάθηση και μάθηση μέσω μίμησης

George Vouros



This thesis explores the use of the Relay Policy Learning (RPL) algorithm proposed by Gupta et al. [1], to model trajectory prediction in an aviation environment. RPL is a twophase approach consisting of a Hierarchical Imitation Learning (HIL) and Hierarchical Reinforcement Learning (HRL) algorithms. The purpose of this thesis is to model a policy learnt through RPL, to predict the aircraft trajectory. This is done through learning goalconditioned hierarchical policies from unstructured and unsegmented demonstrations. This thesis utilizes a dataset with long aircraft trajectories. These are pre-processed to correct imperfections and to create low-level and high-level datasets from these demonstrations through the relay-data-relabelling augmentation of the RPL algorithm. Then the created datasets are used to learn hierarchical Imitation Learning (IL) policies without explicit goal labelling using the goal-conditioned Behavior Cloning (BC) method. This provides a policy initialization for subsequent relay reinforcement fine -tuning using a variant of the Trust Region Policy Optimization (TRPO) on-policy algorithm proposed by Schulman et al. [4]. Then, the implemented agent is tested and evaluated. The thesis concludes with a presentation of results and proposals for further work towards extending the RPL algorithm to work with off-policy RL algorithms.


Αυτή η διπλωματική διερευνά τη χρήση του αλγορίθμου Relay Policy Learning (RPL) που προτείνεται από τους Gupta et al. [1], με στόχο την μοντελοποίηση της πρόβλεψης τροχιών αεροσκαφών, σε ένα αεροπορικό περιβάλλον. Ο αλγόριθμος RPL είναι μια προσέγγιση δύο φάσεων, στην πρώτη φάση χρησιμοποιεί έναν αλγόριθμο μάθησης με ιεραρχική μίμηση (Hierarchical Imitation Learning - HIL), ενώ στην δεύτερη φάση χρησιμοποιεί έναν αλγόριθμο ιεραρχικής ενισχυτικής μάθησης (Hierarchical Reinforcement Learning - HRL). Σκοπός αυτής της μεταπτυχιακής διπλωματικής εργασίας είναι να χρησιμοποιήσει τον εκπαιδευμένο πράκτορα από το RPL αλγόριθμο, για να προβλέψει την τροχιά ενός αεροσκάφους. Αρχικά, η εκπαίδευση του πράκτορα γίνεται με μη δομημένα δεδομένα, δηλαδή χωρίς να απαιτείται οι στόχοι του πράκτορα να έχουν καθοριστεί εκ των προτέρων. Η διατριβή χρησιμοποιεί ένα σύνολο δεδομένων με τροχιές αεροσκαφών. Αυτά υποβάλλονται σε προ-επεξεργασία για τη διόρθωση ατελειών και στην συνέχεια για τη δημιουργία συνόλων δεδομένων χαμηλού και υψηλού επιπέδου μέσω του αλγορίθμου επαύξησης δεδομένων (relay-data-relabelling augmentation) του RPL. Στη συνέχεια, τα σύνολα χαμηλού και υψηλού επιπέδου χρησιμοποιούνται για την εκμάθηση πολιτικών με μάθηση ιεραρχικής μίμησης (Hierarchical Imitation Learning - HIL), χρησιμοποιώντας έναν αλγόριθμο μίμησης βασισμένο σε στόχο (goal-conditioned Behavior Cloning – goal BC). Αυτό παρέχει μια αρχικοποίηση πολιτικής του πράκτορα για την επακόλουθη λεπτομερή εκμάθηση με χρήση του αλγόριθμου Trust Region Policy Optimization (TRPO) των Schulman et al. [4]. Στη συνέχεια, ο εκπαιδευμένος πράκτορας δοκιμάζεται και αξιολογείται. Η διπλωματική εργασία ολοκληρώνεται με μια παρουσίαση των αποτελεσμάτων και προτάσεις για περαιτέρω εργασία για την επέκταση του αλγορίθμου RPL με αλγόριθμους ενισχυτικής μάθησης εκτός πολιτικής (off-policy Reinforcement Learning).


Imitation learning ; Reinforcement learning ; Behavior cloning ; Trust region policy optimization ; Relay policy learning ; Deep neural network ; Machine learning