Στοχος
Με την επιτυχή ολοκλήρωση του μαθήματος ο φοιτητής / η φοιτήτρια θα είναι σε θέση να:
- Κατανοεί τα επίπεδα ανάλυσης και επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ)
- Αναγνωρίζει, κατανοεί, εξηγεί τις τεχνικές ΕΦΓ σε συνδυασμό με αντίστοιχες εφαρμογές
- Επισημαίνει την ιδιαιτερότητα των επιμέρους προβλημάτων ΕΦΓ, την επιλογή και την προσαρμογή σε αυτά των κατάλληλων τεχνικών
- Σχεδιάζει την αποτίμηση των μεθόδων σε σύγκριση μεταξύ τους, αναγνωρίζει τις δυνατότητες και περιορισμούς της κάθε μεθόδου ΕΦΓ
- Επικοινωνεί ιδέες που αφορούν στην εφαρμογή τεχνικών ΕΦΓ με καθαρό, σαφή και τυπικό τρόπο
Επιπλέον το μάθημα αποσκοπεί στις ακόλουθες γενικές ικανότητες των φοιτητών:
- Ικανότητα οργάνωσης και σχεδιασμού εργασίας και διαχείρισης του χρόνου
- Ικανότητα τεκμηριωμένης επικοινωνίας (προφορικής και γραπτής)
- Ικανότητα επίλυσης προβλημάτων
- Ικανότητα ανάπτυξης κριτικής σκέψης και ικανότητα για κριτικές προσεγγίσεις
- Ικανότητα για ομαδική εργασία
- Ικανότητα διεπιστημονικών προσεγγίσεων
- Ικανότητα εφαρμογής των θεωρητικών γνώσεων στην πράξη
- Ικανότητα για αποτίμηση αλγορίθμων, ανάλυση και επεξήγηση των αποτελεσμάτων
- Ικανότητα για έρευνα
- Ικανότητα προσαρμογής των μεθόδων και τεχνικών σε νέες καταστάσεις και συνθήκες
- Ικανότητα για δημιουργία νέων ιδεών – Δημιουργικότητα
Περιεχομενα
- Εισαγωγή στην επεξεργασία φυσικής γλώσσας: βασικές έννοιες, επίπεδα γλωσσικής ανάλυσης, παραδείγματα εφαρμογών
- Μορφολογική ανάλυση, διαχωρισμός κειμένου σε προτάσεις και λέξεις, subword tokenization, κανονικές εκφράσεις, κανονικοποίηση κειμένου, στατιστικές ιδιότητες κειμένου
- Γλωσσικά μοντέλα: μοντέλα ν-γραμμάτων, τεχνικές εξομάλυνσης, μοντέλα νευρωνικών δικτύων, αξιολόγηση μοντέλων
- Διανυσματική αναπαράσταση λέξεων και κειμένων, topic models, static embeddings.
- Προ-εκπαιδευμένα γλωσσικά μοντέλα και βαθιά μάθηση, contextualized embeddings.
- Ταξινόμηση κειμένων: μέθοδοι και εφαρμογές
- Επισημείωση ακολουθιών, αναγνώριση μερών του λόγου και ανίχνευση ονοματικών οντοτήτων
- Μοντέλα encoder-decoder και εφαρμογή τους σε παραγωγή ακολουθίας από ακολουθία (seq2seq). Μηχανική μετάφραση
- Συντακτική ανάλυση: γραμματικές χωρίς συμφραζόμενα, πιθανοτικές γραμματικές, γραμματικές εξαρτήσεων, πλήρης και μερική ανάλυση
- Σημασιολογική ανάλυση, αποσαφήνιση εννοιών λέξεων, αναγνώριση σημασιολογικών ρόλων
Ενδεικτικη βιβλιογραφια
- Κωνσταντίνος Τ. Φράγγος, Αναστάσιος Π. Κουτσούκος, «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας – προβλήματα επεξεργασίας φυσικής γλώσσας», εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010, ISBN: 978-960-992790-1.
- Jurafsky, Daniel, and James H. Martin. "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition." (2009). https://web.stanford.edu/~jurafsky/slp3/
- Manning, Christopher D., Christopher D. Manning, and Hinrich Schütze. Foundations of statistical natural language processing. MIT press, 1999. https://nlp.stanford.edu/fsnlp/