Inherently Interpretable Q-Learning / Εγγενώς Ερμηνεύσιμη Q-Μάθηση

Author nameΙωάννης Κουμέντης
Title
Inherently Interpretable Q-Learning / Εγγενώς Ερμηνεύσιμη Q-Μάθηση
Year2020-2021
Supervisor

George Vouros

GeorgeVouros

Summary

Reinforcement Learning algorithms, especially those that utilize Deep Neural Networks (DNN), have achieved significant and many times impressive results at solving problems within a broad range of applications. Since most implementations and model architectures are based on Neural Networks (NNs), which are non-interpretable by design, there is a growing desire for Interpretable Reinforcement Learning methods development, towards improving the algorithm’s decisions tracking and increase trust to AI systems, as well as  cooperation between intelligent agents and human users. A promising approach towards interpretable methods includes utilizing inherently interpretable methods such as Decision Trees. This thesis investigates interpretability in Reinforcement Learning by introducing the Stochastic Gradient Trees algorithm as the baseline for developing intelligent agents. To that end, we propose methods that utilize Stochastic Gradient Trees to perform Q-Learning and learn effective policies on several virtual environments. Moreover, a comparison of the interpretable and their counter non-interpretable methods is made under similar settings to study comparatively their efficacy in problem solving. Additionally, as a first step to human-AI collaboration using the inherently interpretable methods proposed in this thesis, experiments have been designed and performed in a collaborative game-setting, where transparency provision plays a significant role in improving collaboration in problem solving.

Περίληψη

Οι αλγόριθμοι Ενισχυτικής Μάθησης (Reinforcement Learning), ειδικά αυτοί που χρησιμοποιούν Βαθιά Νευρωνικά Δίκτυα (Deep Neural Networks), έχουν επιτύχει σημαντικά και πολλές φορές εντυπωσιακά αποτελέσματα στην επίλυση προβλημάτων σε ένα ευρύ φάσμα εφαρμογών. Δεδομένου ότι οι περισσότερες υλοποιήσεις και αρχιτεκτονικές μοντέλων βασίζονται σε Νευρωνικά Δίκτυα (Neural Networks), τα οποία είναι μη ερμηνεύσιμα εκ κατασκευής, υπάρχει μια αυξανόμενη ανάγκη για ανάπτυξη μεθόδων Ερμηνεύσιμης Ενισχυτικής Μάθησης, προς τη βελτίωση της παρακολούθησης των αποφάσεων του αλγορίθμου και την αύξηση της εμπιστοσύνης προς τα συστήματα Τεχνητής Νοημοσύνης (ΤΝ), καθώς και της συνεργασίας μεταξύ των ευφυών πρακτόρων και του ανθρώπου. Μια πολλά υποσχόμενη προσέγγιση για ερμηνεύσιμες μεθόδους περιλαμβάνει τη χρήση εγγενώς ερμηνεύσιμων μεθόδων όπως τα Δέντρα Αποφάσεων (Decision Trees). Η παρούσα διπλωματική διερευνά την ερμηνευσιμότητα στην Ενισχυτική Μάθηση εισάγοντας τον αλγόριθμο Stochastic Gradient Trees ως βάση για την ανάπτυξη ευφυών πρακτόρων. Για το σκοπό αυτό, προτείνουμε πράκτορες που βασίζονται σε Stochastic Gradient Trees για την εκτέλεση Q-Μάθησης (Q-Learning) και την εκμάθηση αποτελεσματικών πολιτικών σε διάφορα εικονικά περιβάλλοντα. Επιπλέον, γίνεται σύγκριση των ερμηνεύσιμων και των αντίστοιχων μη ερμηνεύσιμων μεθόδων τους σε παρόμοιες συνθήκες για να μελετηθεί συγκριτικά η αποτελεσματικότητά τους στην επίλυση προβλημάτων. Ακόμη, σαν ένα πρώτο βήμα στο πεδίο της συνεργασίας ανθρώπου - ΤΝ χρησιμοποιώντας εγγενώς ερμηνεύσιμες μεθόδους, διεξήχθησαν πειράματα εκπαίδευσης πρακτόρων με στόχο τη δημιουργία μιας μεθόδου όπου η ‘διαφάνεια’ παίζει σημαντικό ρόλο στη βελτίωση της συνεργασίας κατά την επίλυση προβλημάτων.