Author name | Ελευθέριος Τζαγκαράκης |
---|---|
Title | Emotion Recognition on Scenes of films based on the speech and the image / Αναγνώριση συναισθημάτων σε σκηνές ταινιών βάσει της ομιλίας και της εικόνας |
Year | 2022-2023 |
Supervisor | Ilias Maglogiannis IliasMaglogiannis |
This thesis delves into the fascinating realm of experimentation and evaluation, exploring a diverse array of machine learning models applied to both the auditory and visual domains. Specifically, the focus is on emotion recognition within public datasets comprising photographs and speech excerpts. The research progresses to the discernment of optimal models, which are subsequently deployed on cinematic scenes featuring monologues. This allows for a comprehensive comparison of the outcomes produced by these two models, scrutinizing the consistency and correlation of their predictions.
The ultimate objective of this endeavour is to fashion an intelligent director, empowered by the capabilities of machine learning. This directorial intelligence extends beyond conventional boundaries, making decisions on whether a scene warrants a reiteration, particularly when the results of the two models exhibit disparities. The implementation of this groundbreaking approach integrates the training of open-source neural networks alongside the utilization of classical machine learning algorithms.
This multifaceted exploration underscores the fusion of innovative technologies and traditional methodologies, establishing a robust framework for the advancement of intelligent cinematic direction. The synergy between open-source neural networks and classical machine learning algorithms not only contributes to the evolution of film production methodologies but also charts new territories in the intersection of artificial intelligence and artistic expression.
Περίληψη
Αυτή η διατριβή εμβαθύνει στον συναρπαστικό τομέα του πειραματισμού και της αξιολόγησης, διερευνώντας μια ποικιλία μοντέλων μηχανικής μάθησης εφαρμοσμένων τόσο στον ακουστικό όσο και στον οπτικό τομέα. Συγκεκριμένα, η έρευνα επικεντρώνεται στην αναγνώριση συναισθημάτων μέσα από δημόσια σύνολα δεδομένων που περιλαμβάνουν φωτογραφίες και αποσπάσματα ομιλίας. Η έρευνα προχωρά στον εντοπισμό βέλτιστων μοντέλων, τα οποία στη συνέχεια εφαρμόζονται σε σκηνές ταινιών με μονολόγους. Αυτό επιτρέπει μια ολοκληρωμένη σύγκριση των αποτελεσμάτων που παράγονται από αυτά τα δύο μοντέλα, εξετάζοντας τη συνέπεια και τη συσχέτιση των προβλέψεών τους.
Ο απώτερος στόχος αυτής της προσπάθειας είναι η δημιουργία ενός "έξυπνου σκηνοθέτη", ο οποίος είναι ενδυναμωμένος από τις δυνατότητες της μηχανικής μάθησης. Αυτή η σκηνοθετική νοημοσύνη υπερβαίνει τα συμβατικά όρια, λαμβάνοντας αποφάσεις για το εάν μια σκηνή απαιτεί επανάληψη, ιδιαίτερα όταν τα αποτελέσματα των δύο μοντέλων εμφανίζουν αποκλίσεις. Η υλοποίηση αυτής της πρωτοποριακής προσέγγισης ενσωματώνει την εκπαίδευση ανοιχτού κώδικα νευρωνικών δικτύων παράλληλα με τη χρήση κλασικών αλγορίθμων μηχανικής μάθησης.
Αυτή η πολυδιάστατη διερεύνηση υπογραμμίζει τη συγχώνευση καινοτόμων τεχνολογιών και παραδοσιακών μεθοδολογιών, δημιουργώντας ένα ισχυρό πλαίσιο για την εξέλιξη της έξυπνης σκηνοθεσίας. Η συνέργεια μεταξύ των ανοιχτού κώδικα νευρωνικών δικτύων και των κλασικών αλγορίθμων μηχανικής μάθησης όχι μόνο συμβάλλει στην εξέλιξη των μεθοδολογιών κινηματογραφικής παραγωγής, αλλά επίσης ανοίγει νέους ορίζοντες στη διασταύρωση της τεχνητής νοημοσύνης με την καλλιτεχνική έκφραση.