Ταξινόμηση επιχειρηματολογικών προτάσεων με χρήση μάθησης μεταφοράς σε διάφορες γλώσσες / Argumentative sentence classification using transfer learning across languages

Author nameΠαναγιώτης Ταμβακίδης
Title
Ταξινόμηση επιχειρηματολογικών προτάσεων με χρήση μάθησης μεταφοράς σε διάφορες γλώσσες / Argumentative sentence classification using transfer learning across languages
Year2019-2020
Supervisor

George Petasis

GeorgePetasis

Summary

H Μεταφορά μάθησης (“Transfer Learning”) είναι μια πρακτική που χρησιμοποιείται συνήθως για να γίνουν οι εργασίες μηχανικής μάθησης γρηγορότερες και πιο επιτυχημένες. Αυτή η πρακτική μπορεί επίσης να είναι χρήσιμη για ανάλυση κειμένου και τη μηχανική μάθηση. Το “Argument Mining” η αλλιώς ‘Εξόρυξη Επιχειρηματολογίας’ είναι μια κατηγορία επεξεργασίας φυσικής γλώσσας που μπορεί να χρησιμοποιηθεί η ‘Μεταφορά μάθησης’ (“Transfer Learning”). Το μεγαλύτερο μέρος της έρευνας και της ανάπτυξης συμβαίνει συνήθως στην αγγλική γλώσσα και αυτό το φαινόμενο μπορεί να βοηθήσει στη λήψη γνώσης από την Αγγλική γλώσσα για να χρησιμοποιηθεί για άλλες γλώσσες σε πρακτικές μηχανικής μάθησης και βαθιάς μάθησης. Αυτή είναι μια πρακτική που θα χρησιμοποιηθεί για τη σχετική εργασία. Η αναγνώριση επιχειρήματος σε προτάσεις με την εφαρμογή τεχνικών μεταφοράς μάθησης. Μια πρόταση πρόκειται να περιέχει επιχείρημα όταν ένας ισχυρισμός, προκείμενη η συμπέρασμα είναι επιχειρήματα. Η κύρια ιδέα της μελέτης μας, βασίζετε στα contectual embeddings τα οποία έχουν εκπαιδευτεί στην αγγλική γλώσσα και πρόκειται να ευθυγραμμιστούν με την χρήση παράλληλου dataset με στόχο την δημιουργία ελληνικών embeddings για να κάνουν τις προβλέψεις σε ελληνικές προτάσεις. Αυτή η τεχνική που ονομάζεται “Language Distillation” (Απόσταξη Γλώσσας) [1] και σε αυτή τη σχετική εργασία χρησιμοποιείται με μια ποικιλία από embeddings . Το σύνολο δεδομένων των παράλληλων προτάσεων από τη γλώσσα πηγής (Αγγλικά) και τη γλώσσα στόχο (Ελληνικά) είναι το κύριο όπλο για να γίνει αυτό το είδος της μεταφοράς μάθησης. Τα σύνολα δεδομένων που χρησιμοποιήθηκαν είναι το Essays corpus στην πρωτότυπη και τη μεταφρασμένη του μορφή στα ελληνικά, καθώς και οι παράλληλες προτάσεις που αναφέρθηκαν από τις ομιλίες TEDex 2020. Η προετοιμασία των δεδομένων ήταν επίσης ένα σημαντικό βήμα προκειμένου να μετατραπούν τα δεδομένα σε μορφή πρότασης με την κλάση επιχειρήματος ή μη επιχειρήματος. Χρησιμοποιήθηκε επίσης πρακτική αύξησης δεδομένων, δεδομένου ότι ο όγκος των κλάσεων δεν ήταν όμοιος. Η προσέγγιση μας βασίζεται στους Transformers[2] και χρησιμοποιεί τα μοντέλα BERT [3], SBERT [4] και XLM-Roberta [5] σε συνδιασμό με μοντέλα βαθιάς μάθησης που παράγει την τελική πρόβλεψη.