| Author name | Ορέστης Βαγγέλης |
|---|---|
| Title | 6D object pose estimation: literature review and model-free mask generation pipeline / Εκτίμηση 6D στάσης αντικειμένων: βιβλιογραφική ανασκόπηση και ανάπτυξη διαδικασίας δημιουργίας μασκών χωρίς μοντέλο |
| Year | 2024-2025 |
| Supervisor | Theodoros Giannakopoulos TheodorosGiannakopoulos |
This thesis presents a three-part investigation into 6D object pose estimation for novel objects. The first two parts consist of a comprehensive literature review and a unified evaluation of state-of-the-art methods on benchmark datasets. This analysis identifies a critical performance bottleneck for model-free approaches: the lack of robust and accurate initial object segmentation. Motivated by this finding, the third and principal contribution of this work is the development of DiPose, a novel pipeline focused specifically on generating high-quality segmentation masks for model-free pose estimation. DiPose models a novel object by first performing a Structure-from-Motion (SfM) reconstruction from a brief onboarding video. The resulting point cloud is then used to learn a high-fidelity implicit representation via Fast Dipole Sums (FDS). This implicit model acts as a virtual CAD model, enabling the generation of synthetic 2D views that drive a foundation model-based framework to produce precise segmentation masks for test images.The proposed pipeline is validated on the HOPE dataset, where it outperforms a strong modelfree baseline by 8 % in average precision.
Περίληψη
Η παρούσα διπλωματική εργασία παρουσιάζει μια τριμερή έρευνα σχετικά με την εκτίμηση 6D στάσης αντικειμένων (6D object pose estimation) για νέα αντικείμενα. Τα δύο πρώτα μέρη αποτελούνται από μια εκτενή επισκόπηση της βιβλιογραφίας και μια ενιαία αξιολόγηση των πλέον σύγχρονων μεθόδων (state-of-the-art) σε σύνολα δεδομένων αναφοράς (benchmark datasets). Η ανάλυση αυτή εντοπίζει ένα κρίσιμο σημείο συμφόρησης στην απόδοση των προσεγγίσεων χωρίς μοντέλο (model-free approaches): την έλλειψη ανθεκτικής και ακριβούς αρχικής τμηματοποίησης αντικειμένων (initial object segmentation).
Με κίνητρο αυτό το εύρημα, η τρίτη και κύρια συνεισφορά αυτής της εργασίας είναι η ανάπτυξη του DiPose, μιας νέας υπολογιστικής διαδικασίας (pipeline) που επικεντρώνεται ειδικά στη δημιουργία υψηλής ποιότητας μασκών τμηματοποίησης για εκτίμηση στάσης χωρίς μοντέλο. Το DiPose μοντελοποιεί ένα νέο αντικείμενο εκτελώντας αρχικά μια ανακατασκευή Δομής από Κίνηση (Structure-from-Motion, SfM) από ένα σύντομο βίντεο εισαγωγής (onboarding video). Το προκύπτον νέφος σημείων (point cloud) χρησιμοποιείται στη συνέχεια για να εκπαιδευτεί μια υψηλής πιστότητας εμφατική αναπαράσταση (implicit representation) μέσω των Fast Dipole Sums (FDS). Αυτό το εμφατικό μοντέλο λειτουργεί ως εικονικό μοντέλο CAD, επιτρέποντας τη δημιουργία συνθετικών δισδιάστατων όψεων (synthetic 2D views) που καθοδηγούν ένα πλαίσιο βασισμένο σε foundation model ώστε να παράγει ακριβείς μάσκες τμηματοποίησης για τις εικόνες δοκιμής.
Η προτεινόμενη υπολογιστική διαδικασία επικυρώνεται στο σύνολο δεδομένων HOPE, όπου υπερτερεί μιας ισχυρής γραμμής βάσης χωρίς μοντέλο (model-free baseline) κατά 8 % στη μέση ακρίβεια (average precision).