Machine Learning for Children’s Music Emotion Recognition / Μηχανική μάθηση για την αναγνώριση συναισθήματος σε παιδική μουσική

Author nameΓεώργιος Μπατσής
Title
Machine Learning for Children’s Music Emotion Recognition / Μηχανική μάθηση για την αναγνώριση συναισθήματος σε παιδική μουσική
Year2023-2024
Supervisor

Theodoros Giannakopoulos

TheodorosGiannakopoulos

Summary

This work focuses on the application of Machine Learning techniques for Music Emotion Recognition, particularly focusing on children’s music. The first step was to create a specialized dataset for children’s music, which includes songs of varied emotions and cultural backgrounds, annotated by experts in child psychology, education, and Machine Learning Engineers. A Support Vector Machine was employed as a baseline model for the prediction task, processing a range of handcrafted audio features. Concerning more advanced models, Convolutional Neural Networks and a Dual-Stream architecture model, integrating both Convolutional and attention-based Long ShortTerm Memory networks were evaluated. This approach offers a comprehensive analysis of children’s music by examining both spectrograms and music transcription sequences. Models were evaluated using the Probabilistic Emotion Alignment to compare model posteriors with the probability distribution of expert annotations. Moreover, models evaluated using the established Machine Learning metrics, indicating that different modalities are able to enhance the predictive capacity for emotion recognition.

Περίληψη

Η εργασία αυτή επικεντρώνεται στην εφαρμογή αλγορίθμων Μηχανικής Μάθησης (Machine Learning, ML) για την αναγνώριση συναισθήματος σε δεδομένα μουσικής, με ιδιαίτερη έμφαση στην παιδική μουσική. Το πρώτο βήμα ήταν η δημιουργία ενός εξειδικευμένου συνόλου δεδομένων, το οποίο περιλαμβάνει τραγούδια τα οποία χαρακτηρίζονται από πολιτισμική ποικιλομορφία και περιέχουν ένα μεγάλο εύρος έκφρασης συναισθήματος. Η ανάθεση κατηγοριών συναισθήματος πραγματοποιήθηκε από ειδικούς στην παιδική ψυχολογία και την εκπαίδευση αλλά και ειδικούς ML. Ως αρχικό μοντέλο πρόβλεψης χρησιμοποιήθηκε ο αλγόριθμος Support Vector Machines (SVM) σε συνδυασμό με μεθόδους εξαγωγής χαρακτηριστικών χαμηλού επιπέδου. Προηγμένα μοντέλα όπως τα Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks, CNNs) και ένα μοντέλο αρχιτεκτονικής δύο βρόγχων (Dual Stream), που ενσωματώνει Συνελικτικά και δίκτυα Μακροχρόνιας Βραχυχρόνιας Μνήμης (Long Short-Term Memory, LSTM) βασισμένα σε μηχανισμό Attention, επίσης αξιολογήθηκαν. Η προσέγγιση αυτή παρέχει μια εκτενή ανάλυση της παιδικής μουσικής μέσω της εξέτασης φασματογραφημάτων και ακολουθιών συμβολικής αναπαράστασης (MIDI). Τα μοντέλα αξιολογήθηκαν χρησιμοποιώντας τόσο τις παραδοσιακές μετρικές ML όσο και μια προτεινόμενη μετρική για τη σύγκριση των πιθανοτήτων των μοντέλων με τις πιθανοτικές κατανομές των κατηγοριών συναισθήματος που ανέθεσαν οι ειδικοί στα δεδομένα που συλλέχτηκαν.