Author name | Άρης Τσιλιφώνης |
---|---|
Title | Multi-agent reinforcement learning with diffusion models / Πολυπρακτορική ενισχυτική μάθηση με μοντέλα διάχυσης |
Year | 2024-2025 |
Supervisor | George Vouros GeorgeVouros |
Diffusion models have been increasingly applied to Reinforcement Learning (RL) in order to deal with complex decision-making tasks. However, their effectiveness in learning multi-agent policies have not been thoroughly studied in the literature. This thesis explores how these models can enhance Multi-Agent RL (MARL) techniques in complex multi-agent environments under the celebrated CTDE schema. We present a MARL method, dubbed Q-Diffuser, which aims at inferring imaginative communication messages among agents, and further using meaningful inferred information to enhance the estimation of the Q-value function building upon the most premier MARL algorithm, called QMIX. The approach leverages a wide array of state-of-the-art techniques, including Denoising Diffusion Probabilistic Models (DDPM), transformer architectures, and the individual-global-max (IGM) property. Experimentally, we evaluate Q-Diffuser on the widely used StarCraft Multi-Agent Challenge (SMAC) benchmark and demonstrate superior performance over vanilla QMIX on a diverse set of challenging tasks, including Hard and Super-Hard maps.
Περίληψη
Τα μοντέλα διάχυσης (diffusion models) έχουν εφαρμοστεί όλο και περισσότερο στον τομέα της Ενισχυτικής Μάθησης (Reinforcement Learning, RL) για την αντιμετώπιση πολύπλοκων προβλημάτων λήψης αποφάσεων. Ωστόσο, η αποτελεσματικότητα τους στη μάθηση πολιτικών για πολλαπλούς πράκτορες δεν έχει μελετηθεί επαρκώς στη βιβλιογραφία. Η παρούσα διπλωματική εξετάζει πώς αυτά τα μοντέλα μπορούν να ενισχύσουν τις τεχνικές Πολυπρακτορικής Ενισχυτικής Μάθησης (Multi-Agent RL, MARL) σε σύνθετα περιβάλλοντα πολλαπλών πρακτόρων, εντός του διακεκριμένου πλαισίου Κεντρικοποιημένης Εκπαίδευσης με Αποκεντρωμένη Εκτέλεση (Centralized Training with Decentralized Execution-CTDE). Παρουσιάζουμε μια μέθοδο MARL, με την ονομασία Q-Diffuser, η οποία στοχεύει στον εμπνευσμένο (imaginative) σχηματισμό μηνυμάτων επικοινωνίας μεταξύ των πρακτόρων και στη χρήση των εξαγόμενων νοημάτων για τη βελτίωση της εκτίμησης της συνάρτησης Q, βασιζόμενη στον κορυφαίο αλγόριθμο MARL QMIX. Η προσέγγιση αξιοποιεί μια ευρεία γκάμα σύγχρονων τεχνικών, συμπεριλαμβανομένων των Πιθανοτικών Μοντέλων Διάχυσης με Αποθορυβοποίηση (Denoising Diffusion Probabilistic Models-DDPM), αρχιτεκτονικών μετασχηματιστών (transformers) και της ιδιότητας Ατομικό-Ολικό Μέγιστο (Individual-Global-Max -IGM). Πειραματικά, αξιολογούμε τον Q-Diffuser στο ευρέως χρησιμοποιούμενο κριτήριο αξιολόγησης απόδοσης StarCraft Multi-Agent Challenge (SMAC) και καταδεικνύουμε ανώτερη απόδοση σε σχέση με τον κλασικό QMIX σε ένα ποικίλο σύνολο απαιτητικών σεναρίων, συμπεριλαμβανομένων των δύσκολων και πολύ δύσκολων χαρτών.