Author name | Νικόλαος Μακρής |
---|---|
Title | Explainable deep reinforcement learning via online mimicking / Ερμηνεύσιμη βαθιά ενισχυτική μάθηση με ταυτόχρονη μίμηση |
Year | 2024-2025 |
Supervisor | George Vouros GeorgeVouros |
This study proposes a method for training interpretable reinforcement learning policies in continuous action spaces, in close interaction with the original deep models, while also examining the effects of training interpretable policies on the original models. The goal is to confirm the feasibility of the proposed method while analyzing the trade-offs between optimal performance and policy interpretability. This work extends previous studies in the field of Explainable Deep Reinforcement Learning (XDRL).
Existing research has primarily focused on Explainable Deep Q-Networks (XDQN) and the interpretability of Actor-Critic methods in discrete action spaces, without considering the trade-offs between optimal performance and interpretability. Specifically, in the proposed framework, during the training process, the original and interpretable policy models—namely Soft Actor-Critic (SAC) and XGBoost—interact, influencing each other’s training. The XGBoost model is trained to accurately approximate the SAC policy, after which the SAC is readjusted to better align with XGBoost in order to minimize prediction discrepancies and, consequently, enhance the fidelity of the interpretable model.
This final step is achieved using the Dual Gradient Descent method, which is applied in constrained optimization problems. All experiments were conducted in the OpenAI Gym environment, using four setups with continuous action spaces of increasing dimensionality to evaluate the framework's effectiveness. It was found that due to the close interaction during the training of the two models, the final SAC policy differs significantly from the optimal SAC policy (i.e., the one obtained solely from SAC). This discrepancy becomes more pronounced as the complexity of the experimental setup increases, as expected. Nevertheless, the interaction between the two models leads to convergence toward policies that, while not necessarily optimal, are interpretable.
In fact, the results indicate that the final SAC policy and XGBoost model predictions align closely, making them interchangeable regardless of the complexity of the experimental setup. This thesis contributes by introducing a novel framework that facilitates the integration of interpretable policy models into Deep Reinforcement Learning methods. This is achieved through the interaction of SAC and XGBoost policy models via the Dual Gradient Descent optimization method, while also providing insights into the trade-off between optimal performance and policy interpretability.
Περίληψη
Αυτή η μελέτη προτείνει μια μέθοδο για την εκπαίδευση ερμηνεύσιμων πολιτικών ενισχυτικής μάθησης σε συνεχείς χώρους δράσης, σε στενή αλληλεπίδραση με τα αρχικά βαθιά μοντέλα, εξετάζοντας παράλληλα τις επιπτώσεις της εκπαίδευσης των ερμηνεύσιμων πολιτικών στα αρχικά μοντέλα. Στόχος είναι να επιβεβαιωθεί η εφικτότητα της προτεινόμενης μεθόδου, εξετάζοντας παράλληλα τους συμβιβασμούς μεταξύ βέλτιστης απόδοσης και ερμηνευσιμότητας των μοντέλων πολιτικής. Η εργασία αυτή επεκτείνει προηγούμενες μελέτες στον τομέα της Ερμηνεύσιμης Βαθιάς Ενισχυτικής Μάθησης (Explainable Deep Reinforcement Learning – XDRL). Η μέχρι σήμερα έρευνα επικεντρώνεται στο XDQN (Explainable Deep Q-Networks) καθώς και στην ερμηνευσιμότητα των μεθόδων Actor-Critic σε διακριτούς χώρους δράσης, χωρίς να λαμβάνει υπόψη τους συμβιβασμούς μεταξύ βέλτιστης απόδοσης και ερμηνευσιμότητας. Συγκεκριμένα, στο προτεινόμενο πλαίσιο, κατά τη διαδικασία εκπαίδευσης, τα αρχικά και τα ερμηνεύσιμα μοντέλα πολιτικής – συγκεκριμένα το Soft Actor-Critic (SAC) και το XGBoost – αλληλεπιδρούν, επηρεάζοντας την εκπαίδευση το ένα του άλλου. Το μοντέλο XGBoost εκπαιδεύεται ώστε να προσεγγίζει με ακρίβεια την πολιτική του SAC, και στη συνέχεια το SAC επαναπροσαρμόζεται για να ευθυγραμμιστεί περισσότερο με το XGBoost, ώστε να ελαχιστοποιηθεί η διαφορά στις προβλέψεις και, συνεπώς, να αυξηθεί η πιστότητα του ερμηνεύσιμου μοντέλου.
Αυτό το τελευταίο βήμα επιτυγχάνεται χρησιμοποιώντας τη μέθοδο Dual Gradient Descent, που χρησιμοποιείται σε προβλήματα βελτιστοποίησης με περιορισμούς. Όλα τα πειράματα πραγματοποιήθηκαν στο περιβάλλον OpenAI Gym, χρησιμοποιώντας τέσσερις ρυθμίσεις με συνεχείς χώρους δράσης αυξανόμενης διαστασιμότητας, με στόχο την αξιολόγηση της αποτελεσματικότητας του πλαισίου. Διαπιστώθηκε ότι, λόγω της στενής αλληλεπίδρασης κατά την εκπαίδευση των δύο μοντέλων, η τελική πολιτική του SAC διαφέρει σημαντικά από τη βέλτιστη πολιτική SAC (δηλαδή εκείνη που προκύπτει αποκλειστικά από το SAC). Αυτή η διαφορά γίνεται εντονότερη όσο αυξάνεται η πολυπλοκότητα της πειραματικής ρύθμισης, όπως ήταν αναμενόμενο. Παρόλα αυτά, η αλληλεπίδραση των δύο μοντέλων οδηγεί σε σύγκλιση προς πολιτικές που, αν και δεν είναι απαραίτητα βέλτιστες, είναι ερμηνεύσιμες. Μάλιστα, τα αποτελέσματα δείχνουν ότι η τελική πολιτική του SAC και οι προβλέψεις του μοντέλου XGBoost ευθυγραμμίζονται στενά, καθιστώντας τα εναλλάξιμα, ανεξαρτήτως της πολυπλοκότητας της πειραματικής ρύθμισης. Αυτή η διπλωματική εργασία συνεισφέρει εισάγοντας ένα νέο πλαίσιο που υποστηρίζει την ενσωμάτωση ερμηνεύσιμων μοντέλων πολιτικής σε μεθόδους Βαθιάς Ενισχυτικής Μάθησης. Αυτό επιτυγχάνεται μέσω της αλληλεπίδρασης των μοντέλων πολιτικής του SAC και του XGBoost μέσω της μεθόδου βελτιστοποίησης Dual Gradient Descent, ενώ παρέχονται αποτελέσματα σχετικά με τον συμβιβασμό ανάμεσα στη βέλτιστη απόδοση και την ερμηνευσιμότητα των πολιτικών.