Επεξεργασία Φυσικής Γλώσσας

Εξάμηνο μαθήματος
2nd semester
Κατηγορία μαθήματος
Elective
Πιστωτικές Μονάδες
7,5
Διδάσκοντες

Ε. Σταματάτος

Στοχος

Με την επιτυχή ολοκλήρωση του μαθήματος ο φοιτητής / η φοιτήτρια θα είναι σε θέση να:

  • Κατανοεί τα επίπεδα ανάλυσης και επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ)
  • Αναγνωρίζει, κατανοεί, εξηγεί τις τεχνικές ΕΦΓ σε συνδυασμό με αντίστοιχες εφαρμογές
  • Επισημαίνει την ιδιαιτερότητα των επιμέρους προβλημάτων ΕΦΓ, την επιλογή και την προσαρμογή σε αυτά των κατάλληλων τεχνικών
  • Σχεδιάζει την αποτίμηση των μεθόδων σε σύγκριση μεταξύ τους, αναγνωρίζει τις δυνατότητες και περιορισμούς της κάθε μεθόδου ΕΦΓ
  • Επικοινωνεί ιδέες που αφορούν στην εφαρμογή τεχνικών ΕΦΓ με καθαρό, σαφή και τυπικό τρόπο

Επιπλέον το μάθημα αποσκοπεί στις ακόλουθες γενικές ικανότητες των φοιτητών:

  • Ικανότητα οργάνωσης και σχεδιασμού εργασίας και διαχείρισης του χρόνου
  • Ικανότητα τεκμηριωμένης επικοινωνίας (προφορικής και γραπτής)
  • Ικανότητα επίλυσης προβλημάτων
  • Ικανότητα ανάπτυξης κριτικής σκέψης και ικανότητα για κριτικές προσεγγίσεις
  • Ικανότητα για ομαδική εργασία
  • Ικανότητα διεπιστημονικών προσεγγίσεων
  • Ικανότητα εφαρμογής των θεωρητικών γνώσεων στην πράξη
  • Ικανότητα για αποτίμηση αλγορίθμων, ανάλυση και επεξήγηση των αποτελεσμάτων
  • Ικανότητα για έρευνα
  • Ικανότητα προσαρμογής των μεθόδων και τεχνικών σε νέες καταστάσεις και συνθήκες
  • Ικανότητα για δημιουργία νέων ιδεών – Δημιουργικότητα

Περιεχομενα

  • Εισαγωγή στην επεξεργασία φυσικής γλώσσας: βασικές έννοιες, επίπεδα γλωσσικής ανάλυσης, παραδείγματα εφαρμογών
  • Μορφολογική ανάλυση, διαχωρισμός κειμένου σε προτάσεις και λέξεις, subword tokenization, κανονικές εκφράσεις, κανονικοποίηση κειμένου, στατιστικές ιδιότητες κειμένου
  • Γλωσσικά μοντέλα: μοντέλα ν-γραμμάτων, τεχνικές εξομάλυνσης, μοντέλα νευρωνικών δικτύων, αξιολόγηση μοντέλων
  • Διανυσματική αναπαράσταση λέξεων και κειμένων, topic models, static embeddings.
  • Προ-εκπαιδευμένα γλωσσικά μοντέλα και βαθιά μάθηση, contextualized embeddings.
  • Ταξινόμηση κειμένων: μέθοδοι και εφαρμογές
  • Επισημείωση ακολουθιών, αναγνώριση μερών του λόγου και ανίχνευση ονοματικών οντοτήτων
  • Μοντέλα encoder-decoder και εφαρμογή τους σε παραγωγή ακολουθίας από ακολουθία (seq2seq). Μηχανική μετάφραση
  • Συντακτική ανάλυση: γραμματικές χωρίς συμφραζόμενα, πιθανοτικές γραμματικές, γραμματικές εξαρτήσεων, πλήρης και μερική ανάλυση
  • Σημασιολογική ανάλυση, αποσαφήνιση εννοιών λέξεων, αναγνώριση σημασιολογικών ρόλων

Ενδεικτικη βιβλιογραφια

  • Κωνσταντίνος Τ. Φράγγος, Αναστάσιος Π. Κουτσούκος, «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας – προβλήματα επεξεργασίας φυσικής γλώσσας», εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010, ISBN: 978-960-992790-1.
  • Jurafsky, Daniel, and James H. Martin. "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition." (2009). https://web.stanford.edu/~jurafsky/slp3/
  • Manning, Christopher D., Christopher D. Manning, and Hinrich Schütze. Foundations of statistical natural language processing. MIT press, 1999. https://nlp.stanford.edu/fsnlp/