Explainable Reinforcement Learning using Interpretable Models / Επεξηγήσιμη ενισχυτική μάθηση χρησιμοποιώντας ερμηνεύσιμα μοντέλα

Author nameΕμμανουήλ Λύκος
Explainable Reinforcement Learning using Interpretable Models / Επεξηγήσιμη ενισχυτική μάθηση χρησιμοποιώντας ερμηνεύσιμα μοντέλα

George Vouros



Deep Reinforcement Learning methods achieved new milestones in the field of Artificial Intelligence in various domains like gaming and autonomous driving. Those methods incorporate the capabilities of Deep Neural Networks into well known function approximation Reinforcement Learning methods. Although agents’ performance is excellent in many cases, their decision-making mechanisms are considered black boxes, there4 fore, there is a need for software engineers, developers, domain experts, operators etc. to interpret in different levels the inner working of these methods to provide explanations.

The contribution of this thesis is a method that inherently generates interpretable models regarding the decision making of Deep Reinforcement Learning agents which are operating in environments with continuous action spaces. Initially, we will specify the problem that we are solving in a formal way and the scope of this thesis along with the current scientific contributions in that direction and what are the contributions of this thesis. Then, we will provide the necessary background knowledge in order for the reader to understand the proposed method, by firstly describing the interpretable models that we are using and then by presenting the Twin Delayed Policy Gradient method, which is the Actor-Critic Deep Reinforcement Learning method that we aim to modify in order to generate interpretable policy models.

Afterwards, we specify our method which follows the mimicking paradigm and replaces the target policy neural network model with an interpretable one, along with the various modifications that we can apply. Afterwards, our method gets evaluated in various environments using Gymnasium and gets compared with the primary policy model that was trained from the original Twin-Delayed Policy Gradient method, both in terms of the learning curve and the standalone performance of the generated primary neural network policy model and the interpretable policy model mimicking it, in order to evaluate interpretations’ quality. The performance of agents with the interpretable method is shown to be competitive with comparison to the ones generated from the original non-interpretable method, however with limitations. Last but not least, we justify the results, draw our conclusions and provide directions for future work in this field.


Οι μέθοδοι Βαθιάς Ενισχυτικής Μάθησης έχουν επιτύχει υψηλές επιδόσεις στον τομέα της Τεχνητής Νοημοσύνης σε διάφορους τομείς όπως τα βιντεοπαιχνίδια και την αυτόνομη οδήγηση. Αυτές οι μέθοδοι ενσωματώνουν τις δυνατότητες των Βαθιών Νευρωνικών Δικτύων σε γνωστές μεθόδους Ενισχυτικής Μάθησης που υπάγονται στην κατηγορία των μεθόδων Function Approximation. Παρόλο που η απόδοση των πρακτόρων είναι εξαιρετική σε πολλές περιπτώσεις, οι μηχανισμοί λήψης των αποφάσεών τους θεωρούνται αδύνατο να ερμηνευτούν, επομένως, υπάρχει ανάγκη από μηχανικούς λογισμικού, προγραμματιστές, ειδικούς, operators κ.λπ. να ερμηνεύσουν σε διαφορετικά επίπεδα τη λειτουργία αυτών των μεθόδων για να παρέχουν εξηγήσεις για τις αποφάσεις τους.

Η συνεισφορά αυτής της διπλωματικής εργασίας είναι μια μέθοδος που παράγει ερμηνεύσιμα μοντέλα σχετικά με τη λήψη αποφάσεων των πρακτόρων Βαθιάς Ενισχυτικής Μάθησης οι οποίοι δρουν σε περιβάλλοντα με συνεχείς χώρους δράσης. Αρχικά, θα καθορίσουμε τυπικά το πρόβλημα το οποίο λύνουμε στην παρούσα διπλωματική εργασία μαζί με τις τρέχουσες επιστημονικές συνεισφορές προς αυτή την κατεύθυνση και τις επιπλέον επιστημονικές συνεισφορές της παρούσας διπλωματικής εργασίας. Στη συνέχεια, θα παραθέσουμε τις απαραίτητες βασικές γνώσεις ώστε ο αναγνώστης να κατανοήσει την προτεινόμενη μέθοδο, περιγράφοντας αρχικά τον τρόπο λειτουργίας των ερμηνεύσιμων μοντέλων που χρησιμοποιούμε και στη συνέχεια θα παρουσιάσουμε τη μέθοδο Twin Delayed Policy Gradient, η οποία είναι μια μέθοδος Βαθιάς Ενισχυτικής Μάθησης που εμπίπτει στην κατηγορία των Actor-Critic μεθόδων, με σκοπό να την τροποποιήσουμε για να δημιουργήσουμε ερμηνεύσιμα μοντέλα πολιτικής.

Στη συνέχεια, παρουσιάζουμε τη μέθοδό μας που ακολουθεί το παράδειγμα του mimicking στην οποία αντικαθιστούμε το target νευρωνικό δίκτυο μοντέλο πολιτικής με ένα ερμηνεύσιμο μοντέλο, μαζί με τις επιπλεόν τροποποιήσεις που μπορούμε να εφαρμόσουμε στην αρχική μέθοδο. Στη συνέχεια, η μέθοδός μας αξιολογείται σε διάφορα περιβάλλοντα χρησιμοποιώντας την βιβλιοθήκη Gymnasium και η απόδοσή της συγκρίνεται με αυτή του primary νευρωνικού μοντέλου πολιτικής που εκπαιδεύτηκε από την αρχική μέθοδο Twin-Delayed Policy Gradient, τόσο όσον αφορά την καμπύλη μάθησης όσο και την αυτόνομη απόδοση του παραγόμενου primary νευρωνικού δικτύου πολιτικής και του ερμηνεύσιμου μοντέλου πολιτικής που μιμείται το πρώτο, προκειμένου να αξιολογηθεί η ποιότητα των παραγόμενων ερμηνειών. Η απόδοση της πολιτικής των παραγόμενων πρακτόρων με τη μέθοδο Ερμηνεύσιμης Ενισχυτικής Μάθησης που παρουσιάσαμε, δείχνει ότι συναγωνίζεται την απόδοση εκείνων που προέκυψαν από την αρχική μη ερμηνεύσιμη μέθοδο, ωστόσο με περιορισμούς. Τέλος, δικαιολογούμε τα αποτελέσματα, παραθέτουμε τα συμπεράσματά μας και παρέχουμε κατευθύνσεις για μελλοντική εργασία σε αυτό τον τομέα.

Λέξεις - κλειδιά

Ενισχυτική μάθηση ; Βαθιά ενισχυτική μάθηση ; Ερμηνεύσιμη μηχανική μάθηση ; Actor-critic μέθοδοι