Πρόβλεψη τροχιών με Directed-Info GAIL

Author nameΑλέξανδρος Τσεβρένης
Title
Πρόβλεψη τροχιών με Directed-Info GAIL
Year2020-2021
Supervisor

George Vouros

GeorgeVouros

Summary

Η χρήση του Imitation Learning για την εκμάθηση μίας ενιαίας πολιτικής για μια σύνθετη διεργασία (task) που εμπεριέχει πολλαπλούς τρόπους συμπεριφοράς (modes) ή ιεραρχική δομή, μπορεί να είναι πρόκληση. Αυτή η διπλωματική διευρευνά τη χρήση του αλγορίθμου Directed-Info GAIL, ο οποίος βασίζεται στο Generative Adversarial Imitation Learning (GAIL) framework ώστε ο πράκτορας να μαθαίνει πολιτικές για υπο-διεργασίες από μη κατατμημένες επιδείξεις τροχιών, με δεδομένο ότι οι τροχιές αυτές επιδεικνύουν πράγματι διαφορετικούς τρόπους συμπεριφοράς σε διαφορετικά τμήματα τους, εξαρτώμενους και από τα χαρακτηριστικά του περιβάλλοντος όπου εκτελούνται οι τροχιές, τις ανάγκες της διεργασίες που εκτελείται αλλά και τις προτιμήσεις των πρακτόρων που τις εκτελούν. Η εργασία μελετά την εφαρμογή του αλγορίθμου σε συμπεριφορές ρομπότ και αεροσκαφών.