Author name | Σωτήριος Πανόπουλος |
---|---|
Title | Video binary classification using deep learning techniques / Δυαδική ταξινόμηση βίντεο με χρήση τεχνικών βαθιάς μάθησης |
Year | 2023-2024 |
Supervisor | Theodoros Giannakopoulos TheodorosGiannakopoulos |
In the video summarization domain it is needed to efficiently differentiate between informative and non-informative video segments to create concise summaries that encapsulate essential content. Utilizing advanced deep learning methods for feature extraction from both audio and visual data, the study employs a diverse array of optimized classification algorithms and novel LSTM, alongside Attention-based models and Transformers. An early fusion approach integrates audio-visual data to enhance classification accuracy. Despite notable successes, particularly with visual data, challenges in audio feature extraction and certain model performances indicate areas for future improvement. The thesis contributes to the field by demonstrating the potential of combining aural and visual features using deep learning techniques for video binary classification, setting a solid groundwork for advancements in achieving more accurate video summarizations.
Περίληψη
Στον τομέα της σύνοψης βίντεο απαιτείται η αποτελεσματική διάκριση μεταξύ πληροφοριακών και μη πληροφοριακών τμημάτων βίντεο για τη δημιουργία συνοπτικών περιλήψεων που περικλείουν το ουσιαστικό τους περιεχόμενο. Χρησιμοποιώντας προηγμένες μεθόδους βαθιάς μάθησης για την εξαγωγή χαρακτηριστικών τόσο από δεδομένα ήχου όσο και από οπτικά δεδομένα, η μελέτη αυτή χρησιμοποιεί ένα ευρύ φάσμα βελτιστοποιημένων αλγορίθμων ταξινόμησης μαζί με νέους που βασίζονται σε LSTM, Attention-based και Transformers μοντέλα. Μια πρώιμη προσέγγιση σύντηξης ενσωματώνει τα οπτικοακουστικά δεδομένα για να ενισχύσει την ακρίβεια της ταξινόμησης. Παρά τις αξιοσημείωτες επιτυχίες, ιδίως με τα οπτικά δεδομένα, οι προκλήσεις στην εξαγωγή χαρακτηριστικών ήχου και ορισμένες επιδόσεις μοντέλων υποδεικνύουν τους τομείς για μελλοντική βελτίωση. Η διατριβή συμβάλλει στον τομέα καταδεικνύοντας τις δυνατότητες του συνδυασμού ακουστικών και οπτικών χαρακτηριστικών με τη χρήση τεχνικών βαθιάς μάθησης για τη δυαδική ταξινόμηση βίντεο, θέτοντας στέρεες βάσεις για την ανάπτυξη ακριβέστερων περιλήψεων βίντεο.