Pose-Based Deep Learning Approaches for Recognizing Isolated Signs in Greek Sign Language / Προσεγγίσεις βαθιάς μάθησης βασισμένες στις πόζες για την αναγνώριση απομονωμένων συμβόλων στην Ελληνική Νοηματική Γλώσσα

Author nameΚωνσταντίνος Σκουρογιάννης
Title
Pose-Based Deep Learning Approaches for Recognizing Isolated Signs in Greek Sign Language / Προσεγγίσεις βαθιάς μάθησης βασισμένες στις πόζες για την αναγνώριση απομονωμένων συμβόλων στην Ελληνική Νοηματική Γλώσσα
Year2024-2025
Supervisor

Ilias Maglogiannis

IliasMaglogiannis

Summary

This thesis explores the task of isolated sign recognition in Greek Sign Language (GSL) using deep learning. GSL, like many sign languages, lacks large-scale annotated datasets, making auto-matic recognition a challenging problem. To address this, we use the publicly available GSL RGB+D dataset, which contains annotated video recordings captured with an Intel RealSense depth camera. We implement and evaluate three distinct neural architectures: a Convolutional Neural Network (CNN), a Long Short-Term Memory (LSTM) network, and a Graph Convolu-tional Network (GCN). Each model is designed to handle different characteristics of sign lan-guage data, visual, temporal, and spatial. Our experiments, conducted on the isolated gloss subset of the dataset, show that the LSTM model achieves the highest overall accuracy, while the CNN and GCN models demonstrate strength in specific categories. These findings underline the im-portance of temporal and structural information in sign recognition. This work contributes a com-parative study of recognition models tailored to Greek Sign Language and highlights their poten-tial in low-resource language contexts.

Περίληψη

Η παρούσα εργασία εξετάζει το πρόβλημα της αναγνώρισης απομονωμένων συμβόλων στην Ελληνική Νοηματική Γλώσσα (ΕΝΓ) με χρήση βαθιάς μάθησης. Η ΕΝΓ, όπως και πολλές νοηματικές γλώσσες, στερείται μεγάλων επισημειωμένων συνόλων δεδομένων, γεγονός που καθιστά την αυτόματη αναγνώριση απαιτητική. Για την αντιμετώπιση αυτού του ζητήματος χρησιμοποιούμε το δημόσια διαθέσιμο σύνολο δεδομένων GSL RGB+D, το οποίο περιέχει επισημειωμένες βιντεοσκοπήσεις που καταγράφηκαν με κάμερα βάθους Intel RealSense. Υλοποιούμε και αξιολογούμε τρεις διακριτές νευρωνικές αρχιτεκτονικές: Συνελικτικό Νευρωνικό Δίκτυο (CNN), δίκτυο Long Short-Term Memory (LSTM) και Συνελικτικό Δίκτυο σε Γράφους (GCN). Κάθε μοντέλο έχει σχεδιαστεί ώστε να χειρίζεται διαφορετικά χαρακτηριστικά των δεδομένων της νοηματικής γλώσσας: οπτικά, χρονικά και χωρικά. Τα πειράματά μας, που πραγματοποιήθηκαν στο υποσύνολο των απομονωμένων gloss (ετικετών συμβόλων) του συνόλου δεδομένων, δείχνουν ότι το μοντέλο LSTM επιτυγχάνει τη μεγαλύτερη συνολική ακρίβεια, ενώ τα μοντέλα CNN και GCN επιδεικνύουν ενισχυμένη επίδοση σε συγκεκριμένες κατηγορίες. Τα ευρήματα υπογραμμίζουν τη σημασία της χρονικής και δομικής πληροφορίας στην αναγνώριση νοημάτων. Η εργασία συνεισφέρει μια συγκριτική μελέτη μοντέλων αναγνώρισης, προσαρμοσμένων στην Ελληνική Νοηματική Γλώσσα και αναδεικνύει το δυναμικό τους σε περιβάλλοντα περιορισμένων πόρων.