Κατάταξη κοινών πολιτικών σε δυναμικά παιχνίδια χρησιμοποιώντας εξελικτική δυναμική

Author nameΝαταλία Κολιού
Title
Κατάταξη κοινών πολιτικών σε δυναμικά παιχνίδια χρησιμοποιώντας εξελικτική δυναμική
Year2024-2025
Supervisor

George Vouros

GeorgeVouros

Summary

Η θεωρία παιγνίων, με έννοιες όπως η Ισορροπία Nash, έχει διαδραματίσει καθοριστικό ρόλο στον εντοπισμό σταθερών κοινών ενεργειών σε παιχνίδια πολλών παικτών. Ωστόσο, έχει αποδειχθεί ότι η δυναμική των αλληλεπιδράσεων των παραγόντων, ακόμη και σε απλά παιχνίδια δύο παικτών με λίγες στρατηγικές, αδυνατεί να καταλήξει σε Ισορροπίες Nash, παρουσιάζοντας περίπλοκη και απρόβλεπτη συμπεριφορά. Αντίθετα, οι εξελικτικές προσεγγίσεις μπορούν να περιγράψουν τη μακροπρόθεσμη διατήρηση στρατηγικών και να απορρίψουν τις παροδικές, λαμβάνοντας υπόψη τη μακροπρόθεσμη δυναμική των αλληλεπιδράσεων των παραγόντων. Στόχος μας είναι να εντοπίσουμε κοινές στρατηγικές παραγόντων που οδηγούν σε σταθερή συμπεριφορά, ανθεκτική στις αλλαγές, ενώ παράλληλα λαμβάνουν υπόψη τις αποδόσεις των παραγόντων σε δυναμικά παιχνίδια.

Για την επίτευξη αυτού του στόχου, προτείνουμε τη μετατροπή των δυναμικών παιχνιδιών στις εμπειρικές μορφές τους, λαμβάνοντας υπόψη τις στρατηγικές των παραγόντων αντί για τις ενέργειές τους, και την εφαρμογή της εξελικτικής μεθοδολογίας α-Rank για την αξιολόγηση και κατάταξη των προφίλ στρατηγικής με βάση τη μακροπρόθεσμη δυναμική τους. Αυτή η μεθοδολογία όχι μόνο μας επιτρέπει να εντοπίσουμε κοινές στρατηγικές που είναι ισχυρές μέσω των μακροχρόνιων αλληλεπιδράσεων των παραγόντων, αλλά παρέχει επίσης ένα περιγραφικό, διαφανές πλαίσιο για την υψηλή κατάταξη αυτών των στρατηγικών. Τα πειράματα διεξάγονται σε παράγοντες που αποσκοπούν στη συνεργατική επίλυση μιας στοχαστικής εκδοχής του προβλήματος χρωματισμού γράφου. Λαμβάνουμε υπόψη διαφορετικά στυλ παιχνιδιού ως στρατηγικές για τον καθορισμό του εμπειρικού παιχνιδιού και εκπαιδεύουμε πολιτικές που υλοποιούν αυτές τις στρατηγικές χρησιμοποιώντας τον αλγόριθμο DQN. Στη συνέχεια, εκτελούμε προσομοιώσεις για τη δημιουργία του πίνακα αποδόσεων που απαιτείται από την α-Rank για την κατάταξη των κοινών στρατηγικών.