Στοχος
Με την επιτυχή ολοκλήρωση του μαθήματος ο φοιτητής / η φοιτήτρια θα είναι σε θέση να:
- Εντοπίζει και αναγνωρίζει ευκαιρίες, περιορισμούς και δυνατότητες εφαρμογής τεχνικών ανάλυσης και αναγνώρισης πολυμεσικών σημάτων σε διάφορους τομείς της σύγχρονης ζωής.
- Επισημαίνει την ιδιαιτερότητα των επιμέρους προβλημάτων, την επιλογή και την προσαρμογή σε αυτά των κατάλληλων τεχνικών τεχνικών ανάλυσης και αναγνώρισης πολυμεσικών σημάτων
- Σχεδιάζει την αποτίμηση των μεθόδων μηχανικής μάθησης σε σύγκριση μεταξύ τους, να αναγνωρίζει τις δυνατότητες και περιορισμούς της κάθε μεθόδου/τεχνικής, λαμβάνοντας πάντα υπόψη τις ιδιαιτερότητες των υπό ανάλυση πολυμεσικών δεδομένων
Επιπλέον το μάθημα αποσκοπεί στις ακόλουθες γενικές ικανότητες των φοιτητών:
- Ικανότητα οργάνωσης και σχεδιασμού εργασίας και διαχείρισης του χρόνου
- Ικανότητα τεκμηριωμένης επικοινωνίας (προφορικής και γραπτής)
- Ικανότητα επίλυσης προβλημάτων
- Ικανότητα ανάπτυξης κριτικής σκέψης και ικανότητα για κριτικές προσεγγίσεις
- Ικανότητα για ομαδική εργασία
- Ικανότητα εφαρμογής των θεωρητικών γνώσεων στην πράξη
- Ικανότητα για έρευνα
- Ικανότητα προσαρμογής των μεθόδων και τεχνικών σε νέες καταστάσεις και συνθήκες
- Ικανότητα για δημιουργία νέων ιδεών – Δημιουργικότητα
Περιεχομενα
- Θέματα ανάλυσης σήματος και εικόνας
- Αναπαραστάσεις ήχου και εξαγωγή χαρακτηριστικών
- Χαρακτηρισμός ακουστικού σήματος: ταξινόμηση, τμηματοποίηση, συσταδοποίηση, αντιστοίχιση
- Αναγνώριση φωνής
- Εισαγωγή σε δεδομένα εικόνας, κωδικοποίηση και αναπαράσταση, βασικές έννοιες μηχανικής όρασης
- Επεξεργασία εικόνας με μηχανική μάθηση: τμηματοποίηση, ανίχνευση ακμών, ευθυγράμμιση, εξαγωγή χαρακτηριστικών ταξινόμηση, αναζήτηση και ανάκτηση
- Ανάλυση βίντεο: ανάλυση κίνησης και ροής, αναγνώριση γεγονότων με χρονική διάσταση, μεταδεδομένα και επισημείωση βίντεο, αναζήτηση και ανάκτηση
- Χρήση βαθιάς μάθησης για χαρακτηρισμό εικόνας και βίντεο, συνελικτικά νευρωνικά δίκτυα, οπτικοποίηση και κατανόηση, μεταφορά μάθησης
- Χρήση χρονικών μοντέλων αναπαράστασης για ανάλυση βίντεο
Ενδεικτικη βιβλιογραφια
- Digital Image Processing (4th Edition) 4th Edition, by Rafael C. Gonzalez, Richard E. Woods
- Computer Vision: Models, Learning, and Inference 1st Edition, by Simon J. D. Prince
- Theory and Applications of Digital Speech Processing, by Lawrence Rabiner
- MPEG-7 Audio and Beyond.: Audio Content Indexing and Retrieval, by Hyoung-Gook Kim, Nicolas Moreau, Thomas Sikora
- Introduction to Audio Analysis: A MATLAB® Approach, by Theodoros Giannakopoulos, Aggelos Pikrakis
- Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications, by Meinard Müller
- Discrete-Time Speech Signal Processing: Principles and Practice, by Thomas F. Quatieri