Small-Object Detection in Remote Sensing Images and Video / Ανίχνευση μικρών αντικειμένων σε εικόνες και βίντεο τηλεπισκόπησης

Author nameΟρέστης Κοτρώτσιος
Title
Small-Object Detection in Remote Sensing Images and Video / Ανίχνευση μικρών αντικειμένων σε εικόνες και βίντεο τηλεπισκόπησης
Year2022-2023
Supervisor

Ilias Maglogiannis

IliasMaglogiannis

Summary

Object detection in remote sensing images has been a challenging problem for the computer vision research community because the objects in such images have very few pixels (10-20 pixels). There have been many improvements in the mean Average Precision (mAP) of the models using different techniques, but all these improvements come at a cost. The detection models are becoming bigger, something that can cause a problem especially when someone wants to apply a detection model in a satellite or an Unmanned Aerial Vehicle, since their computation capabilities are limited.

This thesis proposes a versatile network-level gradient path design that can be applied in both single-stage and multi-stage models with an architecture similar to “PaNet”. This method reduces the computational requirements of the model by utilizing only half of the feature map from the backbone in the neck stage, while the other half bypasses the neck stage entirely. This way we create a gradient path that connects the prediction heads to the backbone layers directly, therefore minimizing information loss due to lengthy gradient paths.
The proposed methodology was tested on the two-stage model “PaNet” and the single-stage model “TPH-YOLOv5”. The datasets that were used for the evaluation of the models with the proposed method, were the Microsoft Common Object in COntext (MS COCO), VisDrone and Aerial Image Tiny Object detection (AI-TOD).

The proposed method achieved a reduction in GFLOPs (Giga Floating Point Operations Per Second) on “PaNet: by a 9.51% while on the “TPH-YOLOv5” the reduction was 32.67%.

At the same time the mean Average Precision of the “PaNet” with the proposed method was also reduced by 5.7% at an Intersection over Union (IoU) threshold of 50% and by 3.2% at the average mAP across IoU threshold from 50% to 95%, on the MS COCO dataset. Furthermore, the mAP of “PaNet” with the proposed method was reduced by 7.8% and the average mAP by 3.6% on the AI-TOD dataset.

On the contrary, the “TPH-YOLOv5” with the proposed method had a reduction of only 1.6% on both mAP and average mAP on the VisDrone dataset. Additionally, on the AI-TOD dataset the proposed method performed better than the original by 6.3% mAP and by 2.4% at the average mAP.

Περίληψη

Η ανίχνευση αντικειμένων σε εικόνες τηλεπισκόπησης αποτελεί ένα δύσκολο πρόβλημα για την ερευνητική κοινότητα της υπολογιστικής όρασης, επειδή τα αντικείμενα σε τέτοιες εικόνες έχουν πολύ λίγα εικονοστοιχεία (10-20 εικονοστοιχεία). Έχουν υπάρξει πολλές βελτιώσεις στο mean Average Precision (mAP) των μοντέλων με τη χρήση διαφόρων τεχνικών, αλλά όλες αυτές οι βελτιώσεις έχουν κάποιο κόστος. Τα μοντέλα ανίχνευσης γίνονται όλο και μεγαλύτερα, κάτι που μπορεί να προκαλέσει πρόβλημα ειδικά όταν κάποιος θέλει να εφαρμόσει ένα μοντέλο ανίχνευσης σε ένα δορυφόρο ή ένα μη επανδρωμένο εναέριο όχημα, καθώς οι υπολογιστικές τους δυνατότητες είναι περιορισμένες.

Η παρούσα διατριβή προτείνει έναν ευέλικτο gradient-path design σε επίπεδο δικτύου που μπορεί να εφαρμοστεί τόσο σε μοντέλα ενός σταδίου όσο και σε μοντέλα πολλαπλών σταδίων με αρχιτεκτονική παρόμοια με το “PaNet”. Η μέθοδος αυτή μειώνει τις υπολογιστικές απαιτήσεις του μοντέλου χρησιμοποιώντας μόνο το μισό του feature map από το “backbone” στο στάδιο του “neck”, ενώ το άλλο μισό παρακάμπτει εντελώς το στάδιο του “neck”. Με αυτόν τον τρόπο δημιουργούμε ένα gradient path που συνδέει απευθείας τα prediction heads με τα layers του “backbone”, ελαχιστοποιώντας έτσι την απώλεια πληροφοριών λόγω των μακρών gradient paths.

Η προτεινόμενη μεθοδολογία δοκιμάστηκε στο μοντέλο δύο σταδίων "PaNet" και στο μοντέλο ενός σταδίου "TPH-YOLOv5". Τα σύνολα δεδομένων που χρησιμοποιήθηκαν για την αξιολόγηση των μοντέλων με την προτεινόμενη μέθοδο, ήταν τα Microsoft Common Object in COntext (MS COCO), VisDrone και Aerial Image Tiny Object detection (AI-TOD).

Η προτεινόμενη μέθοδος πέτυχε μείωση των GFLOPs (Giga Floating Point Operations Per Second) στο “PaNet” κατά 9,51%, ενώ στο “TPH-YOLOv5” η μείωση ήταν 32,67%.

Ταυτόχρονα, η μέση μέση ακρίβεια του “PaNet” με την προτεινόμενη μέθοδο μειώθηκε επίσης κατά 5,7% όταν το κατώτερο όριο του Intersection over Union (IoU) ήταν 50% και κατά 3,2% στο μέσο mAP για IoU με κατώτερο όριο από 50% έως 95%, στο σύνολο δεδομένων MS COCO. Επιπλέον, το mAP του “PaNet” με την προτεινόμενη μέθοδο μειώθηκε κατά 7,8% και η μέση mAP κατά 3,6% στο σύνολο δεδομένων AI-TOD, σε σχέση με τις επιδώσεις του “PaNet” χωρίς την προτεινόμενη μέθοδο.

Ωστόσο, το “TPH-YOLOv5” με την προτεινόμενη μέθοδο μείωση μόνο 1,6% τόσο στο mAP όσο και στο μέσο mAP στο σύνολο δεδομένων του VisDrone. Επιπλέον, στο σύνολο δεδομένων AI-TOD η προτεινόμενη μέθοδος είχε καλύτερη απόδοση από την πρωτότυπη κατά 6,4% mAP και κατά 2,4% στο μέσο mAP.