Vulnerabilities and robustness in computer vision / Ευπάθειες και ανθεκτικότητα στην υπολογιστική όραση

Author nameΔημήτρης - Σίμος Κωνσταντακόπουλος
Title
Vulnerabilities and robustness in computer vision / Ευπάθειες και ανθεκτικότητα στην υπολογιστική όραση
Year2023-2024
Supervisor

Stasinos Konstantopoulos

StasinosKonstantopoulos

Summary

The dissertation intends to examine the reliability and robustness of the most recent computer vision models in environments different from those they have been trained on. The study will focus on the performance of the models on idiosyncratic datasets and in environments with malicious users. Specifically, the research phases will include the creation of multiple state-of-the-art computer vision models with different architectures, and after the verification of their performance on common datasets, we will proceed to test them on idiosyncratic datasets, such as ObjectNet, while also examining their resilience to black and white box adversarial attacks. Based on the results of these tests, we will evaluate the effectiveness, reliability, and robustness of these computer vision models.

Additionally, we will examine the transferability of some of these attacks among different model architectures. This approach will allow the identification of potential weaknesses in the models' ability to generalize their knowledge to uncontrolled and adversarial environments and open the discussion for possible defenses and mitigation measures for these weaknesses, as well as the capabilities of each architecture. Variants in neural networks and attacks will be selected based on the specific needs of the research and the continuous updates in the field.

Περίληψη

Η παρούσα διπλωματική εργασία εξετάζει προς την ευρωστία και τις ευπάθειες αρχιτεκτονικές μοντέλων που χρησιμοποιούνται στην υπολογιστική όραση. Η προσέγγιση ως προς την μοντελοποίηση αυτή του προβλήματος, περιλαμβάνει την συλλογή ενος φάσματος αρχιτεκτονικών εκπαιδευμένων μοντέλων που χρησιμοποιούνται ευρέως στην υπολογιστική όραση και συγκεκριμένα τον τομέα του Image classification με μνεία την στροφή του τομέα απο τα CNN στην χρήση των Transformers. Τα μοντέλα αυτά ειναι το Resnet, το Cvt , το Swin transformer, το Vision transfomrer και το Convnext, όπου εξακριβώνουμε την αποδοτικότητά τους στο dataset που έχουν εκπαιδευτει Imagenet-1k και την εφαρμογή τους σε ιδιόμορφο dataset που περιέχει παρόμοιες κλάσεις όπου χρησιμοποιήθηκε το Objectnet.

Αφού παρατηρήσουμε τη μη επάρκειά τους να κρατήσουν τις αρχικές τους μετρικές και μεγάλη απόκλιση εξετάζουμε πιθανές αιτίες που πιθανώς επηρεάζουν. Έπειτα αφού διαχωρίζουμε σε κατηγορίες τις κυριότερες ευπάθειες στον τομέα της υπολογιστικής όρασης εκτελούμε μια untargeted white box και μια targeted black box επίθεση στα μοντέλα μας , την FGSM και έναν γενετικό αλγόριθμο αντίστοιχα, αναλύουμε τα αποτελέσματα μας με βάση την αρχιτεκτονική των μοντέλων αυτών. Εξάγουμε συμπεράσματα για το ότι η ευρωστία είναι ενας πολυδιάστατος τομέας που έχουμε ακόμα αρκετό δρόμο μπροστά μας για να τον διασφαλίσουμε και παραθέτουμε τα αποτελέσματα μας σχετικά με το ποιές αρχιτεκτονικες απο αυτές ήταν πιο ανθεκτικές ως προς την ακρίβεια τους στα εκάστοτε πειράματα.