Solving Long-Horizon Tasks via Imitation and Reinforcement Learning / Εκτέλεση διαδικασιών μεγάλου χρονικού ορίζοντα με ενισχυτική μάθηση και μάθηση μέσω μίμησης

Author nameΑθανασία Λάππα
Title
Solving Long-Horizon Tasks via Imitation and Reinforcement Learning / Εκτέλεση διαδικασιών μεγάλου χρονικού ορίζοντα με ενισχυτική μάθηση και μάθηση μέσω μίμησης
Year2023-2024
Supervisor

George Vouros

GeorgeVouros

Summary

This thesis explores the use of the Relay Policy Learning (RPL) algorithm proposed by Gupta et al. [1], to model trajectory prediction in an aviation environment. RPL is a twophase approach consisting of a Hierarchical Imitation Learning (HIL) and Hierarchical Reinforcement Learning (HRL) algorithms. The purpose of this thesis is to model a policy learnt through RPL, to predict the aircraft trajectory. This is done through learning goalconditioned hierarchical policies from unstructured and unsegmented demonstrations. This thesis utilizes a dataset with long aircraft trajectories. These are pre-processed to correct imperfections and to create low-level and high-level datasets from these demonstrations through the relay-data-relabelling augmentation of the RPL algorithm. Then the created datasets are used to learn hierarchical Imitation Learning (IL) policies without explicit goal labelling using the goal-conditioned Behavior Cloning (BC) method. This provides a policy initialization for subsequent relay reinforcement fine -tuning using a variant of the Trust Region Policy Optimization (TRPO) on-policy algorithm proposed by Schulman et al. [4]. Then, the implemented agent is tested and evaluated. The thesis concludes with a presentation of results and proposals for further work towards extending the RPL algorithm to work with off-policy RL algorithms.

Περίληψη

Αυτή η διπλωματική διερευνά τη χρήση του αλγορίθμου Relay Policy Learning (RPL) που προτείνεται από τους Gupta et al. [1], με στόχο την μοντελοποίηση της πρόβλεψης τροχιών αεροσκαφών, σε ένα αεροπορικό περιβάλλον. Ο αλγόριθμος RPL είναι μια προσέγγιση δύο φάσεων, στην πρώτη φάση χρησιμοποιεί έναν αλγόριθμο μάθησης με ιεραρχική μίμηση (Hierarchical Imitation Learning - HIL), ενώ στην δεύτερη φάση χρησιμοποιεί έναν αλγόριθμο ιεραρχικής ενισχυτικής μάθησης (Hierarchical Reinforcement Learning - HRL). Σκοπός αυτής της μεταπτυχιακής διπλωματικής εργασίας είναι να χρησιμοποιήσει τον εκπαιδευμένο πράκτορα από το RPL αλγόριθμο, για να προβλέψει την τροχιά ενός αεροσκάφους. Αρχικά, η εκπαίδευση του πράκτορα γίνεται με μη δομημένα δεδομένα, δηλαδή χωρίς να απαιτείται οι στόχοι του πράκτορα να έχουν καθοριστεί εκ των προτέρων. Η διατριβή χρησιμοποιεί ένα σύνολο δεδομένων με τροχιές αεροσκαφών. Αυτά υποβάλλονται σε προ-επεξεργασία για τη διόρθωση ατελειών και στην συνέχεια για τη δημιουργία συνόλων δεδομένων χαμηλού και υψηλού επιπέδου μέσω του αλγορίθμου επαύξησης δεδομένων (relay-data-relabelling augmentation) του RPL. Στη συνέχεια, τα σύνολα χαμηλού και υψηλού επιπέδου χρησιμοποιούνται για την εκμάθηση πολιτικών με μάθηση ιεραρχικής μίμησης (Hierarchical Imitation Learning - HIL), χρησιμοποιώντας έναν αλγόριθμο μίμησης βασισμένο σε στόχο (goal-conditioned Behavior Cloning – goal BC). Αυτό παρέχει μια αρχικοποίηση πολιτικής του πράκτορα για την επακόλουθη λεπτομερή εκμάθηση με χρήση του αλγόριθμου Trust Region Policy Optimization (TRPO) των Schulman et al. [4]. Στη συνέχεια, ο εκπαιδευμένος πράκτορας δοκιμάζεται και αξιολογείται. Η διπλωματική εργασία ολοκληρώνεται με μια παρουσίαση των αποτελεσμάτων και προτάσεις για περαιτέρω εργασία για την επέκταση του αλγορίθμου RPL με αλγόριθμους ενισχυτικής μάθησης εκτός πολιτικής (off-policy Reinforcement Learning).

Keywords:

Imitation learning ; Reinforcement learning ; Behavior cloning ; Trust region policy optimization ; Relay policy learning ; Deep neural network ; Machine learning