Authorship Verification using pre-trained Language Models / Επαλήθευση Συγγραφέα με χρήση προ-εκπαιδευμένων γλωσσικών μοντέλων

Author nameΠαναγιώτης Πετρόπουλος
Title
Authorship Verification using pre-trained Language Models / Επαλήθευση Συγγραφέα με χρήση προ-εκπαιδευμένων γλωσσικών μοντέλων
Year2022-2023
Supervisor

Efstathios Stamatatos

Efstathios Stamatatos

Summary

In our everyday life, no one can dispute the necessity of artificial intelligence applications. These applications cover the largest to the smallest needs of modern humans. Knowledge, curiosity, security, and recognition are some of the basic human needs that people seek to satisfy through the internet. Social networking pages, chat, and blogs provide information and communication. There are also many incidents where we cannot verify the authenticity of a text as to its author. Authors who have left their mark in world literature can be easily recognizable. The difficult part is identifying the writer in the chaos of the worldwide web, and also for documents where the opinions of linguists and scientists diverge. It is easy to recognize texts from ancient or classical literature, but it is difficult to recognize in real-time the characteristics of an anonymous or forged writer. As the internet expands, the production of written language multiplies, and the field of artificial intelligence and an Author Verification system become increasingly necessary. It is no coincidence that many private or public enterprises and university units have integrated this field into their services.

Περίληψη

Στην καθημερινότητα μας, κανείς δεν μπορεί να αμφισβητήσει την αναγκαιότητα των εφαρμογών της τεχνητής νοημοσύνης. Οι εφαρμογές αυτές καλύπτουν από τις μεγαλύτερες ως τις μικρότερες ανάγκες του σύγχρονου ανθρώπου. Γνώση, περιέργεια, ασφάλεια, αναγνώριση είναι μερικές από τις βασικές ανθρώπινες ανάγκες που ζητάει να ικανοποιήσει ο άνθρωπος μέσα από το διαδίκτυο. Σελίδες κοινωνικής δικτύωσης, Chat, blogs παρέχουν πληροφόρηση και επικοινωνία. Πολλά είναι επίσης τα περιστατικά, όπου δεν μπορούμε να επικυρώσουμε την γνησιότητα κάποιου κειμένου ως προς τον συγγραφέα του. Οι συγγραφείς που έχουν αφήσει το στίγμα τους μέσα στην παγκόσμια βιβλιογραφία μπορεί να είναι εύκολα αναγνωρίσιμοι. Το δύσκολο είναι η αναγνώριση του γράφοντος μέσα στο χάος του παγκόσμιου ιστού, αλλά και για έγγραφα όπου οι γνώμες των γλωσσολόγων και των επιστημόνων διίστανται. Είναι εύκολο να αναγνωριστούν κείμενα της παγκόσμιας αρχαίας ή κλασσικής λογοτεχνίας αλλά είναι δύσκολο να αναγνωριστούν σε αληθινό χρόνο τα χαρακτηριστικά ενός ανώνυμου ή ψευδεπίγραφου γράφοντος. Όσο το διαδίκτυο διευρύνεται, τόσο πολλαπλασιάζεται η παραγωγή γραπτού λόγου και τόσο πιο αναγκαίος καθίσταται ο τομέας της τεχνητής νοημοσύνης. Δεν είναι τυχαίο εξάλλου ότι, πολλές ιδιωτικές ή δημόσιες επιχειρήσεις και πανεπιστημιακές μονάδες έχουν εντάξει αυτόν τον τομέα στις υπηρεσίες που χρησιμοποιούν και προσφέρουν. Τα τελευταία χρόνια λοιπόν επιστήμονες που ασχολούνται με την τεχνητή νοημοσύνη, έχουν καταφέρει να δημιουργήσουν αυτοματοποιημένες εφαρμογές για την επαλήθευση συγγραφέων ενός ή πολλών κειμένων.