Deep learning methods for cover song identification /

Author nameΠέτρος Μητσέας
Title
Deep learning methods for cover song identification /
Year2022-2023
Supervisor

Theodoros Giannakopoulos

TheodorosGiannakopoulos

Summary

Cover song identification (CSI) is the task of determining whether a given recording of a song is a new performance other than the original version. Automatically detecting cover versions has plenty of applications in the music industry as well as copyright law. In this Thesis we present a methodology for CSI based on Convolutional Neural Networks (CNN) and Metric Learning. The model is trained on medium-size datasets of cover songs using a variation of the Triplet Loss, called Angular Loss. The experiments showcase the performance of the proposed CNN model on English and Greek sets of cover songs, as well as other approaches based on deep learning.

Our findings demonstrate that the proposed method exhibits viable performance for the specific use case, achieving high scores on the classification and ranking tasks. This, along with the fact that the model can run with minimal hardware requirements, make our method an ideal candidate for real-world applications. To further illustrate this point, we designed a proof of concept of such a system. Finally, as part of this Thesis, we created two new open-source datasets for CSI, that can be used for training or evaluation.

Περίληψη

Η αναγνώριση διασκευών τραγουδιών (Cover Song Identification, CSI) αφορά την ανίχνευση του κατά πόσον ένα τραγούδι αποτελεί επανεκτέλεση ενός αρχικού κομματιού. Η αυτόματη ανίχνευση διασκευών έχει πολλές εφαρμογές στη μουσική βιομηχανία καθώς και στη νομοθεσία περί πνευματικών δικαιωμάτων. Σε αυτή τη Διπλωματική Εργασία παρουσιάζουμε μια σχετική μεθοδολογία που βασίζεται στα Συνελικτικά Νευρωνικά Δίκτυα (CNN) και τη Μετρική Μάθηση. Το μοντέλο εκπαιδεύεται σε datasets διασκευών τραγουδιών χρησιμοποιώντας μια παραλλαγή του Triplet Loss, που ονομάζεται Angular Loss. Τα πειράματα παρουσιάζουν την απόδοση του προτεινόμενου μοντέλου σε αγγλικά και ελληνικά datasets, σε σύγκριση με άλλες προσεγγίσεις που βασίζονται στη βαθιά μηχανική μάθηση.

Τα ευρήματά μας δείχνουν ότι η προτεινόμενη μέθοδος ενδείκνυται για τη συγκεκριμένη περίπτωση χρήσης, επιτυγχάνοντας υψηλά scores στα classification και ranking tasks. Αυτό, μαζί με το γεγονός ότι το μοντέλο μπορεί να εκτελεστεί με ελάχιστες hardware απαιτήσεις, καθιστούν τη μέθοδό μας ιδανική για εφαρμογές πραγματικού κόσμου. Συνεπώς σχεδιάσαμε και ένα λειτουργικό proof of concept, που επιδεικνύει μια end-to-end πλατφόρμα για αναγνώριση διασκευών με χρήση του μοντέλου μας. Τέλος, ως μέρος αυτής της Εργασίας, δημιουργήσαμε δύο νέα σύνολα δεδομένων ανοιχτού κώδικα για το CSI, τα οποία μπορούν να χρησιμοποιηθούν για εκπαίδευση ή αξιολόγηση.