Summary
As it is well known from works on imitation learning methods, the use of imitation learning to learn a single policy for a complex task that has multiple modes or hierarchical structure can be challenging. This thesis explores the use of Directed-Info GAIL algorithm, which is based on the generative adversarial imitation learning framework, to automatically learn subtask policies from unsegmented demonstrations of robot trajectories and aircraft trajectories, given that flights and robots have indeed different modes of behaviour in different segments of trajectories, depending on tasks they fulfil, trajectories’ contextual features and agents’- executing these tasks- preferences.
Περίληψη
Η χρήση του Imitation Learning για την εκμάθηση μίας ενιαίας πολιτικής για μια σύνθετη διεργασία (task) που εμπεριέχει πολλαπλούς τρόπους συμπεριφοράς (modes) ή ιεραρχική δομή, μπορεί να είναι πρόκληση. Αυτή η διπλωματική διευρευνά τη χρήση του αλγορίθμου Directed-Info GAIL, ο οποίος βασίζεται στο Generative Adversarial Imitation Learning (GAIL) framework ώστε ο πράκτορας να μαθαίνει πολιτικές για υπο-διεργασίες από μη κατατμημένες επιδείξεις τροχιών, με δεδομένο ότι οι τροχιές αυτές επιδεικνύουν πράγματι διαφορετικούς τρόπους συμπεριφοράς σε διαφορετικά τμήματα τους, εξαρτώμενους και από τα χαρακτηριστικά του περιβάλλοντος όπου εκτελούνται οι τροχιές, τις ανάγκες της διεργασίες που εκτελείται αλλά και τις προτιμήσεις των πρακτόρων που τις εκτελούν. Η εργασία μελετά την εφαρμογή του αλγορίθμου σε συμπεριφορές ρομπότ και αεροσκαφών.