Βαθιά ενισχυτική μάθηση για τον κεντρικό πολυπρακτορικό έλεγχο εναέριας κυκλοφορίας / Deep reinforcement learning method in centralized multi-agent air traffic control

Author nameΓεώργιος Παπαδόπουλος
Title
Βαθιά ενισχυτική μάθηση για τον κεντρικό πολυπρακτορικό έλεγχο εναέριας κυκλοφορίας / Deep reinforcement learning method in centralized multi-agent air traffic control
Year2020-2021
Supervisor

George Vouros

GeorgeVouros

Summary

The objective of this thesis is to design multi-agent Deep Reinforcement Learning methods and explore their effectiveness in optimizing and automating the Air Traffic Control task. Representing each flight as an agent, we aim to maintain a minimum separation among the flights by providing resolution actions, such as lateral manoeuvres, speed changes and flight level changes. In this way, we can contribute to the highly complex work of the human Air Traffic Controllers, by resolving potential conflicts between pairs of flights. The problem is formulated as a Decentralized Partially Observable Markov Decision Process, which enables the exploitation of the graph-attention-based model, called DGN, after we have extended and enhanced it appropriately with the use of graph edges. Τwo different versions are presented, investigating both static and dynamic edges. The experiments provided suggest that the latter version yields the notable results of resolving 90% of the testing real- world scenarios relating to flights operating in Spanish airspace.

Περίληψη

Η εργασία αυτή στοχεύει στη σχεδίαση πολυπρακτορικών μεθόδων Βαθιάς Ενισχυτικής Μάθησης και τη διερεύνηση της αποτελεσματικότητά τους στη βελτιστοποίηση και την αυτοματοποίηση της εργασίας του Ελέγχου Εναέριας Κυκλοφορίας. Αντιπροσωπεύοντας κάθε πτήση ως πράκτορα, στοχεύουμε στη διατήρηση ενός ελάχιστου διαχωρισμού μεταξύ των πτήσεων παρέχοντας ενέργειες επίλυσης, όπως πλευρικούς ελιγμούς, αλλαγές ταχύτητας και αλλαγές επιπέδου πτήσης. Με αυτόν τον τρόπο, μπορούμε να συμβάλουμε στο εξαιρετικά πολύπλοκο έργο των ανθρώπων-Ελεγκτών Εναέριας Κυκλοφορίας, επιλύοντας πιθανές συγκρούσεις μεταξύ ζευγών πτήσεων. Το πρόβλημα διατυπώνεται ως μια Αποκεντρωμένη Μερικώς Παρατηρήσιμη Μαρκοβιανή Διαδικασία Απόφασης, η οποία επιτρέπει την χρήση του DGN μοντέλου που βασίζεται στο μηχανισμό προσοχής εφαρμοσμένο σε δυναμικούς γράφους, το οποίο επεκτείναμε και βελτιώσαμε κατάλληλα με τη χρήση των χαρακτηριστικών των ακμών του γράφου. Παρουσιάζονται δύο διαφορετικές εκδόσεις, που διερευνούν τόσο στατικές όσο και δυναμικές ακμές. Τα πειράματα που παρουσιάζονται υποδηλώνουν ότι το τελευταίο αποφέρει τα αξιοσημείωτα αποτελέσματα της επίλυσης του 90% των πραγματικών σεναρίων που χρησιμοποιήθηκαν αποκλειστικά στην αποτίμηση της αποτελεσματικότητας του μοντέλου και που σχετίζονται με πτήσεις που εκτελούνται στον ισπανικό εναέριο χώρο.

Διακρίσεις σχετικά με την διπλωματική

3rd Yound Scientists Awards SESAR Innovation Days 2022