Detecting Alzheimer’s Disease using NLP Methods / Ανίχνευση της νόσου Αλτσχάιμερ με τη χρήση μεθόδων NLP

Author nameΑναστάσιος Σαραφίδης
Title
Detecting Alzheimer’s Disease using NLP Methods / Ανίχνευση της νόσου Αλτσχάιμερ με τη χρήση μεθόδων NLP
Year2022-2023
Supervisor

Vassiliki Rentoumi

VassilikiRentoumi

Summary

Alzheimer's disease (AD) is a progressive brain disease that cannot be treated, but only be slowed down or stopped with medical treatment. Language changes may indicate that a patient's cognitive functions have been compromised, potentially leading to an earlier diagnosis. The challenging manual diagnosis of such neurodegenerative disorders could be assisted by the use of Machine Learning algorithms able to automatically detect those disorders using linguistic features. For this purpose, we use the ADReSS Challenge dataset and we develop NLP methods to classify and analyze the linguistic characteristics of Alzheimer's disease patients.

To distinguish between language samples from probable AD and control patients, we propose the implementation of an XGBoost classification model, which has not been present in similar cases literature, along with three other models that are most often used. XGBoost’s final scores indicate that this classification model, with the right adjustments in terms of data and features, is able to compete with or even surpass in performance the other models.

Περίληψη

Η νόσος του Αλτσχάιμερ είναι μία προοδευτική ασθένεια του εγκεφάλου, η οποία δεν μπορεί να θεραπευτεί, αλλά μόνο να επιβραδυνθεί λαμβάνοντας φαρμακευτική αγωγή. Πιθανές γλωσσικές διαφοροποιήσεις μπορεί να υποδηλώνουν ότι οι γνωστικές λειτουργίες του ασθενούς έχουν υποβαθμιστεί, οδηγώντας σε πρώιμη διάγνωση. Δεδομένης της δυσκολίας στην στον παραδοσιακό τρόπο διάγνωσης τέτοιων νευρολογικών διαταραχών, η χρήση αλγορίθμων μηχανικής μάθησης που είναι σε θέση να ανιχνεύουν αυτόματα τις εν λόγω διαταραχές χρησιμοποιώντας γλωσσικά χαρακτηριστικά θα μπορούσε να φανεί πολύ βοηθητική. Για το λόγο αυτό, αποφασίσαμε να χρησιμοποιήσουμε το σύνολο δεδομένων του ADReSS Challenge και να αναπτύξουμε μεθόδους Επεξεργασίας Φυσικής Γλώσσας (NLP) για την ανάλυση και ταξινόμηση των γλωσσικών χαρακτηριστικών των ασθενών με νόσο Αλτσχάιμερ.

Για την κατηγοριοποίηση των γλωσσικών δειγμάτων που έχουμε συλλέξει από πιθανούς ασθενείς της νόσου και από υγιείς συμμετέχοντες, προτείνουμε την εφαρμογή του XGBoost μοντέλου, το οποίο δεν χρησιμοποιείται συχνά σε αντίστοιχες περιπτώσεις, παράλληλα με την υλοποίηση τριών επιπλέον μοντέλων. Τα τελικά αποτελέσματα του XGBoost υποδεικνύουν πως το συγκεκριμένο μοντέλο, υπό τις κατάλληλες ρυθμίσεις, είναι σε θέση να αποφέρει παρόμοια ή και καλύτερα αποτελέσματα από τα υπόλοιπα μοντέλα.