Στοχος
Με την επιτυχή ολοκλήρωση του μαθήματος ο φοιτητής / η φοιτήτρια θα είναι σε θέση να:
- Εντοπίζει και αναγνωρίζει ευκαιρίες, περιορισμούς και δυνατότητες εφαρμογής τεχνικών ανάλυσης και αναγνώρισης πολυμεσικών σημάτων σε διάφορους τομείς της σύγχρονης ζωής.
 
- Επισημαίνει την ιδιαιτερότητα των επιμέρους προβλημάτων, την επιλογή και την προσαρμογή σε αυτά των κατάλληλων τεχνικών τεχνικών ανάλυσης και αναγνώρισης πολυμεσικών σημάτων
 
- Σχεδιάζει την αποτίμηση των μεθόδων μηχανικής μάθησης σε σύγκριση μεταξύ τους, να αναγνωρίζει τις δυνατότητες και περιορισμούς της κάθε μεθόδου/τεχνικής, λαμβάνοντας πάντα υπόψη τις ιδιαιτερότητες των υπό ανάλυση πολυμεσικών δεδομένων
 
Επιπλέον το μάθημα αποσκοπεί στις ακόλουθες γενικές ικανότητες των φοιτητών:
- Ικανότητα οργάνωσης και σχεδιασμού εργασίας και διαχείρισης του χρόνου
 
- Ικανότητα τεκμηριωμένης επικοινωνίας (προφορικής και γραπτής)
 
- Ικανότητα επίλυσης προβλημάτων
 
- Ικανότητα ανάπτυξης κριτικής σκέψης και ικανότητα για κριτικές προσεγγίσεις
 
- Ικανότητα για ομαδική εργασία
 
- Ικανότητα εφαρμογής των θεωρητικών γνώσεων στην πράξη
 
- Ικανότητα για έρευνα
 
- Ικανότητα προσαρμογής των μεθόδων και τεχνικών σε νέες καταστάσεις και συνθήκες
 
- Ικανότητα για δημιουργία νέων ιδεών – Δημιουργικότητα
 
Περιεχομενα
- Θέματα ανάλυσης σήματος και εικόνας
 
- Αναπαραστάσεις ήχου και εξαγωγή χαρακτηριστικών
 
- Χαρακτηρισμός ακουστικού σήματος: ταξινόμηση, τμηματοποίηση, συσταδοποίηση, αντιστοίχιση
 
- Αναγνώριση φωνής
 
- Εισαγωγή σε δεδομένα εικόνας, κωδικοποίηση και αναπαράσταση, βασικές έννοιες μηχανικής όρασης
 
- Επεξεργασία εικόνας με μηχανική μάθηση: τμηματοποίηση, ανίχνευση ακμών, ευθυγράμμιση, εξαγωγή χαρακτηριστικών ταξινόμηση, αναζήτηση και ανάκτηση
 
- Ανάλυση βίντεο: ανάλυση κίνησης και ροής, αναγνώριση γεγονότων με χρονική διάσταση, μεταδεδομένα και επισημείωση βίντεο, αναζήτηση και ανάκτηση
 
- Χρήση βαθιάς μάθησης για χαρακτηρισμό εικόνας και βίντεο, συνελικτικά νευρωνικά δίκτυα, οπτικοποίηση και κατανόηση, μεταφορά μάθησης
 
- Χρήση χρονικών μοντέλων αναπαράστασης για ανάλυση βίντεο
 
Ενδεικτικη βιβλιογραφια
- Digital Image Processing (4th Edition) 4th Edition, by Rafael C. Gonzalez, Richard E. Woods
 
- Computer Vision: Models, Learning, and Inference 1st Edition, by Simon J. D. Prince
 
- Theory and Applications of Digital Speech Processing, by Lawrence Rabiner
 
- MPEG-7 Audio and Beyond.: Audio Content Indexing and Retrieval, by Hyoung-Gook Kim, Nicolas Moreau, Thomas Sikora
 
- Introduction to Audio Analysis: A MATLAB® Approach, by Theodoros Giannakopoulos, Aggelos Pikrakis
 
- Fundamentals of Music Processing: Audio, Analysis, Algorithms, Applications, by Meinard Müller
 
- Discrete-Time Speech Signal Processing: Principles and Practice, by Thomas F. Quatieri