Author name | Άγγελος Γερουλάνος |
---|---|
Title | Τεχνικές βαθιάς μηχανικής μάθησης για αναγνώριση μουσικού συναισθήματος / Deep Learning for Music Emotion Recognition |
Year | 2019-2020 |
Supervisor | Theodoros Giannakopoulos TheodorosGiannakopoulos |
Music is a carrier of many powerful emotions. With the growth of technology and internet, huge amounts of music content can be accessed instantly from almost anywhere. Despite the availability, music selection based on the listener's emotional state is quite a difficult task. This work investigates through deep learning techniques the ability of well-known CNN architectures (VGG, AlexNet, DenseNet, Inception, ResNeXt, SqueezeNet) in music emotion recognition under scarce data conditions, with diverse and not always balanced sets. The techniques used are Transfer Learning and data augmentation via Generative Adversarial Networks (GANs). But before that, traditional machine learning is used to extract hand-crafted features of all audio samples and classify them using well-known classifiers (SVM, K-NN, Random Forest, Extra Trees) in order to have a reference point for the aggregated results. Thus, the samples are converted into Mel-spectrograms as inputs to the convolutional networks which are trained with two transfer learning scenarios and yield models that are tested in emotion classification experiments. Finally, data augmentation is performed using StyleGAN2-ADA and a new artificial set is created which in turn is tested in classification experiments. The ground truth of these experiments is the 360-set of Eerola & Vuoskoski's research fully tagged by experts in the music field, a fact that makes it quite rare. It consists of 360 excerpts of movie music with a duration of 15''-30''', divided into Energy (high, medium, low), Valence (positive, neutral, negative), Tension (high, medium, low) and Emotions (anger, fear, happy, sad, tender). To our knowledge, this is the first study to conduct such extensive experiments on this set.
Περίληψη
Η μουσική είναι φορέας πολλών και ισχυρών συναισθημάτων. Με την ανάπτυξη της τεχνολογίας και του διαδικτύου η πρόσβαση σε τεράστιου όγκου μουσικό περιεχόμενο είναι άμεση σχεδόν από οπουδήποτε. Παρόλη τη διαθεσιμότητα, η επιλογή μουσικής βάσει συναισθηματικής κατάστασης του ακροατή είναι αρκετά δύσκολη υπόθεση.
Η παρούσα εργασία διερευνά μέσω τεχνικών βαθιάς μηχανικής μάθησης την ικανότητα γνωστών αρχιτεκτονικών CNNs (VGG, AlexNet, DenseNet, Inception, ResNeXt, SqueezeNet) στην αναγνώριση μουσικού συναισθήματος σε συνθήκες έλλειψης δεδομένων, με σετ διαφορετικής προέλευσης και όχι πάντοτε ισορροπημένων. Οι τεχνικές που χρησιμοποιούνται είναι η Μεταφορά Μάθησης και η επαύξηση δεδομένων μέσω Παραγωγικών Ανταγωνιστικών Δικτύων (GANs).
Πριν από αυτό όμως, με κλασική μηχανική μάθηση πραγματοποιείται εξαγωγή χειροποίητων χαρακτηριστικών όλων των ηχητικών δειγμάτων και ταξινόμηση με γνωστούς ταξινομητές (SVM, K-NN, Random Forest, Extra Trees) προκειμένου να υπάρχει σημείο αναφοράς για τα συγκεντρωτικά αποτελέσματα.
Έτσι, τα δείγματα μετατρέπονται σε Mel-spectrograms για να γίνουν είσοδοι στα συνελικτικά δίκτυα τα οποία εκπαιδεύονται με δύο σενάρια Μεταφοράς Μάθησης και δίνουν μοντέλα που δοκιμάζονται σε πειράματα ταξινόμησης συναισθημάτων. Τέλος, με χρήση του StyleGAN2-ADA γίνεται επαύξηση δεδομένων και δημιουργείται ένα νέο τεχνητό σετ που και αυτό με τη σειρά του δοκιμάζεται σε ταξινομήσεις.
Σημείο αναφοράς των πειραμάτων είναι το 360-set της έρευνας των Eerola & Vuoskoski πλήρως ετικετοποιημένο από ειδικούς στον τομέα της μουσικής, γεγονός που το καθιστά αρκετά σπάνιο. Αποτελείται από 360 αποσπάσματα κινηματογραφικής μουσικής διάρκειας 15’’-30’’, διαχωρισμένα σε Energy (high, medium, low), Valence (positive, neutral, negative), Tension (high, medium, low) και Emotions (anger, fear, happy, sad, tender). Από όσο μπορούμε να γνωρίζουμε η παρούσα είναι η πρώτη εργασία που πραγματοποιεί τόσο εκτεταμένα πειράματα στο συγκεκριμένο σετ.
Δημοσίευση σχετική με τη διπλωματική εργασία
Geroulanos, A., Giannakopoulos, T. (2023). Emotion Recognition in Music Using Deep Neural Networks. In: Biswas, A., Wennekes, E., Wieczorkowska, A., Laskar, R.H. (eds) Advances in Speech and Music Technology. Signals and Communication Technology. Springer, Cham. https://doi.org/10.1007/978-3-031-18444-4_10