Greek news topics classification using graph neural networks / Ταξινόμηση ειδησεογραφικών θεμάτων στα ελληνικά χρησιμοποιώντας γραφηματικά νευρωνικά δίκτυα

Author nameΙγνάτιος Χατζηγιανέλλης
Title
Greek news topics classification using graph neural networks / Ταξινόμηση ειδησεογραφικών θεμάτων στα ελληνικά χρησιμοποιώντας γραφηματικά νευρωνικά δίκτυα
Year2020-2021
Supervisor

George Petasis

GeorgePetasis

Summary

Recent advancements in deep learning have increased the research interest in the field of Natural Language Processing (NLP). This has led to various state-of-the-art breakthroughs, with the family of graph-based methods being no exception. The aim of this thesis is to contribute in the progression of Graph Neural Networks (GNN) and the field of NLP, by studying the problem of text classification in the Greek language. We start by evaluating the task with well established machine learning and deep learning methods, then we finalize our work by researching graph-based approaches and proposing a novel addition to them. GNN methods use different kinds of neural networks to process spatial information and construct their graphs on document or corpus level.

However, regardless their structure, all studies use non-contextual embeddings for their training. Drawing inspiration from contextual language models, in this work we propose a method based on a recent study, which has been modified to utilize quantized contextual embeddings. In order to achieve this, we first employ a pre-trained BERT model which produces the contextual embeddings for our vocabulary. Using every available embedding, though, would lead to a very sparse and inefficient graph. To overcome this issue, we quantize the numerous representations of every word with the use of K-means, by clustering multiple embeddings into a fixed amount of centroids. Finally, we use those centroids as the actual input of the graphs. Multiple experiments on our dataset show that our suggested method outperforms both the baseline experiments and the original method on which we have been based on.

Περίληψη

Οι πρόσφατες εξελίξεις στη βαθιά μηχανική μάθηση έχουν αυξήσει το ερευνητικό ενδιαφέρον στον τομέα της Επεξεργασίας Φυσικής Γλώσσας. Αυτό οδήγησε σε διάφορες ραγδαίες εξελίξεις της τεχνολογίας, με την οικογένεια των μεθόδων που βασίζονται σε γράφους να μην αποτελούν εξαίρεση. Ο στόχος αυτής της διατριβής είναι να συμβάλει στην πρόοδο των νευρωνικών δικτύων πάνω σε γράφους και στον τομέα της Επεξεργασίας Φυσικής Γλώσσας, μελετώντας το πρόβλημα της ταξινόμησης κειμένων στην ελληνική γλώσσα. Ξεκινάμε αξιολογώντας το πρόβλημά μας με καθιερωμένες μεθόδους μηχανικής μάθησης και βαθιάς μάθησης, έπειτα ολοκληρώνουμε τη δουλειά μας με έρευνα σε μεθόδους βαθιάς μηχανικής μάθησης βασισμένες σε γράφους και προτείνουμε μια νέα προσέγγιση σε αυτές. Οι μέθοδοι με νευρωνικά δίκτυα πάνω σε γράφους χρησιμοποιούν διαφορετικά είδη νευρωνικών δικτύων για την επεξεργασία χωρικών πληροφοριών και την κατασκευή γράφων σε επίπεδο εγγράφου ή σώματος κειμένων.

Ωστόσο, ανεξάρτητα από τη δομή τους, όλες οι μελέτες χρησιμοποιούν αναπαραστάσεις των λέξεων χωρίς να βασίζονται στα συμφραζόμενα. Αντλώντας έμπνευση από άλλα γλωσσικά μοντέλα που δημιουργούν αναπαραστάσεις με βάση το περιεχόμενο από τα συμφραζόμενα, σε αυτό το έργο προτείνουμε μια μέθοδο βασισμένη σε μια πρόσφατη μελέτη, η οποία χρησιμοποιεί νευρωνικά δίκτυα πάνω σε γράφους και έχουμε τροποποιήσει για να αξιοποιεί κβαντοποιημένες αναπαραστάσεις λέξεων που προκύπτουν από τα συμφραζόμενα. Για να το επιτύχουμε αυτό, πρώτα χρησιμοποιούμε ένα προ-εκπαιδευμένο μοντέλο BERT, το οποίο παράγει αναπαραστάσεις με βάση τα συμφραζόμενα για όλο το λεξιλόγιό μας. Η χρήση όλων των αναπαραστάσεων, ωστόσο, θα οδηγούσε σε ένα πολύ αραιό και αναποτελεσματικό γράφο. Για να ξεπεράσουμε αυτό το ζήτημα, ποσοτικοποιούμε τις πολυάριθμες αναπαραστάσεις κάθε λέξης με τη χρήση του αλγορίθμου K-Means, συγκεντρώνοντας πολλαπλές αναπαραστάσεις γύρω από μια σταθερή ποσότητα κεντροειδών. Τέλος, χρησιμοποιούμε τις αναπαραστάσεις αυτών των κεντροειδών ως την τελική είσοδο των γράφων. Πολλαπλά πειράματα πάνω στο σύνολο δεδομένων, μας δείχνουν ότι η προτεινόμενη μέθοδός μας ξεπερνά τόσο τα βασικά πειράματα όσο και την αρχική μέθοδο στην οποία βασιστήκαμε.