Πολυπρακτορική ενισχυτική μάθηση με μοντέλα διάχυσης

Author nameΆρης Τσιλιφώνης
Title
Πολυπρακτορική ενισχυτική μάθηση με μοντέλα διάχυσης
Year2024-2025
Supervisor

George Vouros

GeorgeVouros

Summary

Τα μοντέλα διάχυσης (diffusion models) έχουν εφαρμοστεί όλο και περισσότερο στον τομέα της Ενισχυτικής Μάθησης (Reinforcement Learning, RL) για την αντιμετώπιση πολύπλοκων προβλημάτων λήψης αποφάσεων. Ωστόσο, η αποτελεσματικότητα τους στη μάθηση πολιτικών για πολλαπλούς πράκτορες δεν έχει μελετηθεί επαρκώς στη βιβλιογραφία. Η παρούσα διπλωματική εξετάζει πώς αυτά τα μοντέλα μπορούν να ενισχύσουν τις τεχνικές Πολυπρακτορικής Ενισχυτικής Μάθησης (Multi-Agent RL, MARL) σε σύνθετα περιβάλλοντα πολλαπλών πρακτόρων, εντός του διακεκριμένου πλαισίου Κεντρικοποιημένης Εκπαίδευσης με Αποκεντρωμένη Εκτέλεση (Centralized Training with Decentralized Execution-CTDE). Παρουσιάζουμε μια μέθοδο MARL, με την ονομασία Q-Diffuser, η οποία στοχεύει στον εμπνευσμένο (imaginative) σχηματισμό μηνυμάτων επικοινωνίας μεταξύ των πρακτόρων και στη χρήση των εξαγόμενων νοημάτων για τη βελτίωση της εκτίμησης της συνάρτησης Q, βασιζόμενη στον κορυφαίο αλγόριθμο MARL QMIX. Η προσέγγιση αξιοποιεί μια ευρεία γκάμα σύγχρονων τεχνικών, συμπεριλαμβανομένων των Πιθανοτικών Μοντέλων Διάχυσης με Αποθορυβοποίηση (Denoising Diffusion Probabilistic Models-DDPM), αρχιτεκτονικών μετασχηματιστών (transformers) και της ιδιότητας Ατομικό-Ολικό Μέγιστο (Individual-Global-Max -IGM). Πειραματικά, αξιολογούμε τον Q-Diffuser στο ευρέως χρησιμοποιούμενο κριτήριο αξιολόγησης απόδοσης StarCraft Multi-Agent Challenge (SMAC) και καταδεικνύουμε ανώτερη απόδοση σε σχέση με τον κλασικό QMIX σε ένα ποικίλο σύνολο απαιτητικών σεναρίων, συμπεριλαμβανομένων των δύσκολων και πολύ δύσκολων χαρτών.