Αυτοματοποιημένη εξαγωγή πληροφοριών από ιστοσελίδες / Automatic Web Information Extraction

Author nameΣτέργιος Γιαννιός
Title
Αυτοματοποιημένη εξαγωγή πληροφοριών από ιστοσελίδες / Automatic Web Information Extraction
Year2020-2021
Supervisor

George Petasis

GeorgePetasis

Summary

Η συνεχής ανάπτυξη του παγκόσμιου ιστού (WWW) έχει οδηγήσει σε τεράστιες ποσότητες πληροφοριών. Συγκεκριμένα δεδομένα, που περιέχονται σε ιστοσελίδες, μπορούν να εξαχθούν και να αξιοποιηθούν σε πολλές εφαρμογές. Απαιτείται μια ημιαυτόματη/αυτόματη προσέγγιση για την ανάκτηση δεδομένων από ιστοσελίδες, καθώς η χειροκίνητη εξαγωγή είναι πολύ χρονοβόρα και δεν κλιμακώνεται καλά. Ωστόσο, λόγω της ετερογένειας και της ημιδομημένης φύσης των ιστοσελίδων, η αυτόματη εξαγωγή δεδομένων είναι μια μη τετριμμένη εργασία. Το έργο της εξαγωγής πληροφοριών ιστού (WIE) αντιμετωπίζεται συνήθως με την επαγωγή περιτυλίγματος (WI). Στο WI, ο στόχος είναι να μάθετε ένα σύνολο κανόνων εξαγωγής χρησιμοποιώντας παραδείγματα με χειροκίνητη επισήμανση. Το πρωταρχικό πρόβλημα με το WI είναι ότι οι κανόνες που μάθαμε είναι συχνά ανίκανοι να αντιμετωπίσουν ακόμη και μικρές παραλλαγές στο πρότυπο μιας ιστοσελίδας και δεν μπορούν να γενικευτούν σε άλλους ιστότοπους. Σε αυτή τη διατριβή, το πρόβλημα WIE επαναπλαισιώνεται ως εργασία ανίχνευσης αντικειμένων. Για το σκοπό αυτό, δημιουργήθηκε ένα σύνολο δεδομένων, με άρθρα ειδήσεων που συγκεντρώθηκαν και σχολιάστηκαν. Ένας υπερσύγχρονος ανιχνευτής, το YOLOv5, χρησιμοποιήθηκε για την εξαγωγή συγκεκριμένων χαρακτηριστικών, όπως ο τίτλος, τα μεταδεδομένα, ο συγγραφέας, η ημερομηνία, η κύρια εικόνα, το κείμενο και οι λέξεις-κλειδιά των άρθρων ειδήσεων. Το μοντέλο απέδωσε 90% mAP (σε όλες τις κατηγορίες) σε στρωματοποιημένη (με βάση τον τομέα ιστότοπου) 5-πλάσια διασταυρούμενη επικύρωση. Οι δυνατότητες εκμάθησης μιας λήψης του μοντέλου διερευνήθηκαν επίσης με τη χρήση της εκμάθησης μεταφοράς για τη λεπτομέρεια του μοντέλου σε μη εμφανείς ειδησεογραφικούς ιστότοπους στα αγγλικά αλλά και σε άλλη γλώσσα (ελληνική) επιτυγχάνοντας 79% mAP και 90% mAP αντίστοιχα. Ένα σύνολο δεδομένων με λεπτομέρειες προϊόντων βιβλίων από το Amazon.in, με εξαγωγή στόχων του τίτλου, του συγγραφέα και της τιμής των βιβλίων χρησιμοποιήθηκε για να συγκριθεί η προσέγγισή μας με μια προσέγγιση αιχμής, όπου μια προηγούμενη έκδοση του YOLO (έκδοση 2) χρησιμοποιήθηκε. Το mAP της προσέγγισής μας απέδωσε 95% mAP σε σύγκριση με την προσέγγιση αιχμής που απέδωσε 74% mAP.