Πολυπρακτορική ενισχυτική μάθηση με μοντέλα διάχυσης

Author name	Άρης Τσιλιφώνης
Title	Πολυπρακτορική ενισχυτική μάθηση με μοντέλα διάχυσης
Year	2024-2025
Supervisor	George Vouros GeorgeVouros

Summary

Τα μοντέλα διάχυσης (diffusion models) έχουν εφαρμοστεί όλο και περισσότερο στον τομέα της Ενισχυτικής Μάθησης (Reinforcement Learning, RL) για την αντιμετώπιση πολύπλοκων προβλημάτων λήψης αποφάσεων. Ωστόσο, η αποτελεσματικότητα τους στη μάθηση πολιτικών για πολλαπλούς πράκτορες δεν έχει μελετηθεί επαρκώς στη βιβλιογραφία. Η παρούσα διπλωματική εξετάζει πώς αυτά τα μοντέλα μπορούν να ενισχύσουν τις τεχνικές Πολυπρακτορικής Ενισχυτικής Μάθησης (Multi-Agent RL, MARL) σε σύνθετα περιβάλλοντα πολλαπλών πρακτόρων, εντός του διακεκριμένου πλαισίου Κεντρικοποιημένης Εκπαίδευσης με Αποκεντρωμένη Εκτέλεση (Centralized Training with Decentralized Execution-CTDE). Παρουσιάζουμε μια μέθοδο MARL, με την ονομασία Q-Diffuser, η οποία στοχεύει στον εμπνευσμένο (imaginative) σχηματισμό μηνυμάτων επικοινωνίας μεταξύ των πρακτόρων και στη χρήση των εξαγόμενων νοημάτων για τη βελτίωση της εκτίμησης της συνάρτησης Q, βασιζόμενη στον κορυφαίο αλγόριθμο MARL QMIX. Η προσέγγιση αξιοποιεί μια ευρεία γκάμα σύγχρονων τεχνικών, συμπεριλαμβανομένων των Πιθανοτικών Μοντέλων Διάχυσης με Αποθορυβοποίηση (Denoising Diffusion Probabilistic Models-DDPM), αρχιτεκτονικών μετασχηματιστών (transformers) και της ιδιότητας Ατομικό-Ολικό Μέγιστο (Individual-Global-Max -IGM). Πειραματικά, αξιολογούμε τον Q-Diffuser στο ευρέως χρησιμοποιούμενο κριτήριο αξιολόγησης απόδοσης StarCraft Multi-Agent Challenge (SMAC) και καταδεικνύουμε ανώτερη απόδοση σε σχέση με τον κλασικό QMIX σε ένα ποικίλο σύνολο απαιτητικών σεναρίων, συμπεριλαμβανομένων των δύσκολων και πολύ δύσκολων χαρτών.

Link to full text:

https://dione.lib.unipi.gr/xmlui/handle/unipi/18088

© Εθνικό Κέντρο Έρευνας Φυσικών Επιστημών «Δημόκριτος» για το Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών και Πανεπιστήμιο Πειραιώς για το Τμήμα Ψηφιακών Συστημάτων 2023. Τα περιεχόμενα αυτού του ιστοχώρου μπορούν να αναπαραχθούν ελεύθερα για μη εμπορικούς σκοπούς.

Πολυπρακτορική ενισχυτική μάθηση με μοντέλα διάχυσης

Summary

2024-2025

2023-2024

2022-2023

Στοιχεια επικοινωνιας