Author name | Μιχάλης Ζούρος |
---|---|
Title | Photography Style Analysis using Convolutional Neural Networks / Ανάλυση Στυλ Φωτογραφίας με χρήση Συνελικτικών Νευρωνικών Δικτύων |
Year | 2021-2022 |
Supervisor | Theodoros Giannakopoulos TheodorosGiannakopoulos |
This thesis studies the artistic nature of photography and tries to construct a framework for the definition of the term “photography style”. It goes deep into the history of photography and analyzes a plethora of aesthetics that have been carved throughout the ages. Through this journey it collects the most important rules of aesthetics and groups them in specific categories. Then, with the help of deep learning and computer vision, it is able to train and predict on those specific categories.
Firstly, the reader is introduced to the world of photography. We present its historical background and then focus on its huge rise in the era of the social media. We then analyze some basics of photography, as well as some of the most known rules of aesthetics. We finally emphasize on the difficulty to bind those rules into a specific problem with specific tasks due to the subjectivity of photography and arts in general.
We then present a novel dataset of photographs annotated in terms of the respective image aesthetics. We also examine the ability of Convolutional Neural Networks (CNNs) to distinguish between the adopted photography style classes. In particular, we have defined five photography style classification tasks, related to the following aesthetic attributes: Color, Depth of Field (DoF), Palette, Composition and Type. We then followed an annotation procedure using on a set of 1832 photos selected from the Unsplash Full dataset. Multiple annotators have also been used, in order to measure inter-annotator agreement.
As soon as the dataset was compiled, we trained and evaluated a Residual Neural Network (ResNet50). The experimental results prove that, despite the imbalanced dataset, our model was able to achieve acceptable classification results. The dataset is openly provided, along with the trained models and Python code to use them.
Περίληψη
Η παρούσα διπλωματική εργασία μελετά την καλλιτεχνική φύση της φωτογραφίας και προσπαθεί να κατασκευάσει ένα πλαίσιο για τον ορισμό του όρου «στυλ φωτογραφίας». Εισχωρεί βαθιά στην ιστορία της φωτογραφίας και αναλύει μια πληθώρα αισθητικών που σκαλεύτηκαν στη διάρκεια των αιώνων. Μέσα από αυτό το ταξίδι συλλέγει τους πιο σημαντικούς κανόνες αισθητικής και τους ομαδοποιεί σε συγκεκριμένες κατηγορίες. Στη συνέχεια, με τη βοήθεια της βαθιάς μηχανικής μάθησης και της υπολογιστικής όρασης, είναι σε θέση να εκπαιδεύσει και να προβλέψει αυτές τις συγκεκριμένες κατηγορίες.
Αρχικά, ο αναγνώστης εισάγεται στον κόσμο της φωτογραφίας. Παρουσιάζουμε το ιστορικό της υπόβαθρο και στη συνέχεια επικεντρωνόμαστε στην τεράστια άνοδό της στην εποχή των μέσων κοινωνικής δικτύωσης. Στη συνέχεια αναλύουμε μερικά βασικά στοιχεία της φωτογραφίας, καθώς και μερικούς από τους πιο γνωστούς κανόνες αισθητικής. Τέλος, δίνουμε έμφαση στη δυσκολία δέσμευσης αυτών των κανόνων σε κάποιο
συγκεκριμένο πρόβλημα με συγκεκριμένες εργασίες λόγω της υποκειμενικότητας της φωτογραφίας και των τεχνών γενικότερα.
Στη συνέχεια παρουσιάζουμε ένα νέο σύνολο δεδομένων φωτογραφιών κατηγοριοποιημένων με βάση τις αντίστοιχες αισθητικές. Εξετάζουμε επίσης την ικανότητα των Συνελικτικών Νευρωνικών Δικτύων (CNN) να διακρίνουν μεταξύ των διαφορετικών στυλ φωτογραφίας που έχουν υιοθετηθεί. Συγκεκριμένα, έχουμε ορίσει πέντε εργασίες ταξινόμησης φωτογραφικού στυλ, που σχετίζονται με τα ακόλουθα αισθητικά χαρακτηριστικά: Χρώμα, Βάθος Πεδίου (DoF), Παλέτα, Σύνθεση και Τύπος. Έπειτα, ακολουθήσαμε μια διαδικασία κατηγοριοποίησης χρησιμοποιώντας ένα σύνολο 1832 επιλεγμένων φωτογραφιών από το σύνολο δεδομένων Unsplash. Πολλαπλοί σχολιαστές έλαβαν μέρος, προκειμένου να μετρηθεί η αντίστοιχη συμφωνία επί των δεδομένων.
Μόλις το σύνολο δεδομένων συντάχθηκε, εκπαιδεύσαμε και αξιολογήσαμε ένα Residual Νευρωνικό Δίκτυο (ResNet50). Τα πειραματικά αποτελέσματα αποδεικνύουν ότι, παρά την ανισορροπία δεδομένων, το μοντέλο μας κατάφερε να επιτύχει αποδεκτά αποτελέσματα ταξινόμησης.Το σύνολο δεδομένων παρέχεται ανοιχτά, μαζί με τα εκπαιδευμένα μοντέλα και τον κώδικα Python για τη χρήση τους.