Grad-CAM vs HiResCAM : a comparative study via quantitative evaluation metrics / Grad-CAM vs HiResCAM: μια συγκριτική μελέτη μέσω ποσοτικών μετρικών αξιολόγησης

Author nameΕυάγγελος Λάμπρου
Title
Grad-CAM vs HiResCAM : a comparative study via quantitative evaluation metrics / Grad-CAM vs HiResCAM: μια συγκριτική μελέτη μέσω ποσοτικών μετρικών αξιολόγησης
Year2022-2023
Supervisor

Ilias Maglogiannis

IliasMaglogiannis

Summary

In this study we utilize the Grad-CAM and HiResCAM attribution map methods and consider a setting where the HiResCAM algorithm provably produces faithful explanations while Grad-CAM does not. This theoretical result motivates us to investigate the quality of their attribution maps in terms of quantitative evaluation metrics and examine if faithfulness aligns with the metrics results. Our evaluation scheme implements the well-established AOPC and Max-Sensitivity scores along with the recently introduced HAAS score and utilizes ResNet and VGG pre-trained architectures trained on four medical image datasets. The experimental results suggest that Max-Sensitivity and AOPC favour faithfulness. On the other hand, HAAS does not contribute meaningful values to our comparison, but rather inspires further study about its nature.

Περίληψη

Σε αυτή την εργασία θεωρούμε τους αλγόριθμους επεξηγησιμότητας (XAI) Grad-CAM και HiResCAM οι οποίοι βασίζονται στη χρήση κλίσης για να παράξουν χάρτες απόδοσης (attribution maps) που εξαρτώνται από τη κλάση των δεδομένων. Οι δύο μέθοδοι διαφέρουν στον τρόπο που αξιοποιούν τη κλίση, καθώς ο HiResCAM πολλαπλασιάζει το κάθε εικονοστοιχείο (pixel) με την αντίστοιχη κλίση ενώ ο Grad-CAM πολλαπλασιάζει τα εικονοστοιχεία με τη μέση τιμή των κλίσεων του χάρτη χαρακτηριστικών στον οποίο ανήκουν.

Ακολουθώντας την ορολογία που εμφανίζεται στη δημοσίευση για τον HiResCAM, λέμε ότι μια μέθοδος που υπολογίζει χάρτες απόδοσης λέγεται πιστή (faithful) ως προς το μοντέλο εάν για κάθε κλάση το άθροισμα των τιμών του αντίστοιχου χάρτη απόδοσης ισούται με το αποτέλεσμα που υπολογίζει το μοντέλο, με απόκλιση κάποιου όρου πόλωσης (bias term). Με βάση τη θεωρία της ίδιας δημοσίευσης, όταν η αρχιτεκτονική του Συνελικτικού Νευρωνικού Δικτύου (CNN) είναι της μορφής ‘CNN επίπεδο - Flatten επίπεδο - Αποτέλεσμα κλάσεων’ και οι κλίσεις των αλγορίθμων επεξηγησιμότητας υπολογίζονται ως προς το τελευταίο συνελικτικό επίπεδο τότε ο HiResCAM είναι πιστός ως προς το μοντέλο, ενώ ο Grad-CAM δεν είναι.

Βάσει αυτού, στα πλαίσια του προαναφερθέντος περιβάλλοντος, αντλούμε κίνητρο να μελετήσουμε την ποιότητα των χαρτών απόδοσης του HiResCAM και του Grad-CAM μέσω ποσοτικών μετρικών αξιολόγησης και να εξετάσουμε αν η ιδιότητα να είναι ένας αλγόριθμος πιστός στο μοντέλο αντικατοπτρίζεται στα αποτελέσματα των μετρικών. Η προσέγγιση μας υλοποιεί τις μετρικές AOPC, Max-Sensitivity και HAAS και τις εφαρμόζει σε προ-εκπαιδευμένες ResNet και VGG19 συνελικτικές αρχιτεκτονικές και στα σύνολα ιατρικών δεδομένων CRC, Covid-19 Radiography Database, HAM10000 και BreakHis. Τα πειραματικά αποτελέσματα δείχνουν ότι οι μετρικές AOPC και Max-Sensitivity αναδεικνύουν τον πιστό αλγόριθμο, HiResCAM, ως αυτόν που παράγει πιο ποιοτικούς χάρτες απόδοσης. Αυτό οφείλεται κυρίως στο τρόπο διαχείρισης των κλίσεων καθώς ο HiResCAM αξιοποιεί την επιρροή της τιμή τους και του προσίμου τους ξεχωριστά για το κάθε εικονοστοιχείο, κατασκευάζωντας έτσι χάρτες υψηλής ανάλυσης που περιγράφουν με ακρίβεια τη θέση της κλάσης.

Τέλος, η HAAS μετρική δεν έδωσε τιμές οι οποίες μπορούν να συνισφέρουν στη σύγκριση των δύο αλγορίθμων, καθώς σχεδόν σε όλα τα πειράματα, ανεξαρτήτως δεδομένων, μοντέλου και μεθόδου επεξηγησιμότητας, υπολόγισε πως οι παραγόμενοι χάρτες ήταν κακής ποιότητας. Κατ΄ επέκταση η προσέγγιση μας επικεντρώθηκε στην αναζήτηση πιθανών αιτιών για τη συνολικά αποκλίνουσα συμπεριφορά της μετρικής, δίνοντας έμφαση στη σύνδεση της με το σχήμα, το χρώμα και τη πυκνότητα της κλάσης.