Prediction of Human Action from Hand Movement for Human-Robot Collaboration / Πρόβλεψη δράσης ανθρώπου από την κίνηση του χεριού για συνεργασία ανθρώπου-ρομπότ

Author nameΓεώργιος Μπαζάκος
Title
Prediction of Human Action from Hand Movement for Human-Robot Collaboration / Πρόβλεψη δράσης ανθρώπου από την κίνηση του χεριού για συνεργασία ανθρώπου-ρομπότ
Year2020-2021
Supervisor

Maria Dagioglou

Maria Dagioglou

Summary

In today's era, there has been rapid development in the fields of robotics and artificial intelligence, resulting in an increased use of robots in various aspects of human daily life. In order for robots to be used in everyday tasks, they must be able to handle unstructured, unpredictable, and constantly changing environments. Therefore, it is necessary for them to act autonomously, learn how to react to various changes in the environment, and understand the consequences of their actions on the environment. This thesis examines human-robot collaboration in a shared workspace. Specifically, to achieve better and more natural collaboration, a key requirement is for robots to predict human actions. This is supported by the observation that the initial movement of a person contains useful information capable of predicting their final action. For example, the posture of the palm changes at the beginning of a movement depending on the size of the object the person is about to grasp.

In the context of this work, appropriate data were collected and a suitable Artificial Intelligence method was sought that would allow a robot to predict how a human will act in a shared workspace based on visual information (camera) from the hand and palm movements. Initially, the collected data concerned the movements of various people who aimed to grasp and move three different-sized objects. From this data, two datasets were created. The first dataset contained three-dimensional information, and the second contained two-dimensional information for each movement. For the second dataset, in addition to the three classes, one for each object, the prediction was also tested between two classes for all possible combinations of the three classes. After processing the data to clean the noise and delimit the movement section under study, machine learning algorithms were applied to the processed data. The five machine learning algorithms used were: SVM, Decision Tree, Random Forest, Extra Tree, and Gradient Boosting. The evaluation process of the results was done through the K-Fold Cross-validation method. The results showed that the best algorithm, with a success rate of 94%, was Gradient Boosting for the two-class two-dimensional dataset, consisting of the small and large object classes.

Περίληψη

Στη σημερινή εποχή έχει παρατηρηθεί ραγδαία ανάπτυξη στον κλάδο της ρομποτικής και της τεχνητής νοημοσύνης και αυτό έχει ως αποτέλεσμα την αύξηση της χρήσης των ρομπότ σε διάφορους τομείς της καθημερινότητας του ανθρώπου. Για να επιτευχθεί η χρήση των ρομπότ σε καθημερινές εργασίες πρέπει αυτά να είναι σε θέση να αντιμετωπίσουν μη δομημένα, απρόβλεπτα και συνεχώς μεταβαλλόμενα περιβάλλοντα. Συνεπώς απαιτείται να ενεργούν αυτόνομα, να μαθαίνουν πως να αντιδρούν σε διάφορες μεταβολές του περιβάλλοντος, καθώς και τις επιπτώσεις που έχουν οι ενέργειες τους στο περιβάλλον. Η παρούσα εργασία μελετά τη συνεργασία ανθρώπου - ρομπότ σε ένα κοινό εργασιακό περιβάλλον. Συγκεκριμένα, για την επίτευξη μιας καλύτερης και πιο φυσικής συνεργασίας βασική προϋπόθεση είναι να μπορούν τα ρομπότ να προβλέψουν τις ενέργειες των ανθρώπων. Σε αυτό βοηθάει η παρατήρηση ότι η αρχή της κίνησης του ανθρώπου περιέχει χρήσιμες πληροφορίες ικανές για την πρόβλεψη της τελικής δράσης αυτού. Για παράδειγμα, η πόζα της παλάμης διαφοροποιείται από την αρχή μιας κίνησης ανάλογα με το μέγεθος του αντικειμένου που πρόκειται να πιάσει κάποιος.

Στα πλαίσια της εργασίας έγινε συλλογή κατάλληλων δεδομένων και αναζητήθηκε κατάλληλη μέθοδος Τεχνητής Νοημοσύνης που θα επιτρέπει σε ένα ρομπότ να προβλέψει πως θα δράσει ο άνθρωπος στον κοινό εργασιακό χώρο μέσα από οπτική πληροφορία (κάμερα) των κινήσεων του χεριού και της παλάμης. Αρχικά τα δεδομένα τα οποία συλλέχθηκαν αφορούσαν τις κινήσεις διάφορων ανθρώπων οι οποίοι είχαν σαν στόχο να πιάσουν και να μετακινήσουν τρία διαφορετικού μεγέθους αντικείμενα. Από αυτά τα δεδομένα κατασκευάστηκαν δυο σύνολα δεδομένων. Το πρώτο αφορούσε την τρισδιάστατη πληροφορία και το δεύτερο τη δισδιάστατη πληροφορία κάθε κίνησης. Για το δεύτερο σύνολο δεδομένων πέραν από τις τρεις κλάσεις μια για κάθε αντικείμενο δοκιμάστηκε και η προβλέψει ανάμεσα σε δυο κλάσεις για όλους τους πιθανούς συνδυασμούς των τριών κλάσεων. Μετά από την επεξεργασία των δεδομένων για καθαρισμό του θορύβου καθώς και για την οριοθέτηση του κομματιού της κινήσεως προς μελέτη ακολούθησε η εφαρμογή αλγορίθμων μηχανικής μάθησης στα επεξεργασμένα δεδομένα. Οι πέντε αλγόριθμοι μηχανικής μάθησης που εφαρμόστηκαν είναι οι: SVM, Decision Tree, Random Forest, Extra Tree και ο Gradient boosting. Η διαδικασία της εκτίμησης των αποτελεσμάτων έγινε μέσω της διαδικασίας του K-Fold Cross validation. Τα αποτελέσματα έδειξαν ότι ο καλύτερος αλγόριθμος με ποσοστό επιτυχίας 94% ήταν ο Gradient boosting για το δισδιάστατο σύνολο δεδομένων με δυο κλάσεις αυτές του μικρού και του μεγάλου αντικειμένου.