Semantic retrieval of legal documents / Σημασιολογική ανάκτηση νομικών κειμένων

Author nameΣωτήριος Κωνσταντάκος
Title
Semantic retrieval of legal documents / Σημασιολογική ανάκτηση νομικών κειμένων
Year2020-2021
Supervisor

George Giannakopoulos

GeorgeGiannakopoulos

Summary

In a variety of legal settings, there is a clear need to use a text as a query, in order to retrieve related documents . For example, in customary law, each case has related cases in the past that the lawyers and judges need to consult. In other applications, a complaint or lawsuit is related to specific laws or decisions. Natural Language Processing can support semantic text similarity, while Information Retrieval can help in retrieving the related documentss.

This project will touch the intersection of the two domains, trying to build ecient representations, comparison methods and indexes to facilitate semantic-relevance-based document retrieval in the legal domain. Using the above known techniques in the legal field, we examine which is more appropriate in this field. In this work, more emphasis is placed on the evaluation part. To evaluate the techniques we have implemented, we proposed a method of human evaluation. As part of this method, we created a annotation tool, so that the process we proposed could be implemented. The purpose was to do experiments with annotators, to see how appropriate the techniques we used for this field were and which method is the most suitable.

Περίληψη

Σε μία πληθώρα νομικών εφαρμογών, υπάρχει η ανάγκη να χρησιμοποιηθεί ένα κείμενο ως ερώτημα σε μία βάση γνώσης, ώστε να ανακληθούν τα πιο σχετικά κείμενα. Στο εθιμικό δίκαιο, κάθε περίπτωση έχει σχετιζόμενες προϋπάρχουσες περιπτώσεις, στις οποίες ανατρέχουν δικηγόροι και δικαστικοί. Η επεξεργασία φυσικής γλώσσας μπορεί να υπολογίσει σημασιολογική ομοιότητα κειμένων, ενώ η ανάκληση πληροφορίας επιφορτίζεται με την αποδοτική ευρετηρίαση και εύρεση σχετικών εγγράφων. Αυτή η εργασία, θα λειτουργήσει στο όριο των δύο τομέων, προσπαθώντας να κτίσει γνωστές αναπαραστάσεις, μεθόδους υπολογισμού ομοιότητας και ευρετήρια για να επιτρέψει ανάκληση νομικών εγγράφων, με αξιοποίηση της σημασιολογικής εγγύτητας.

Θα γίνει περιγραφή του τι είναι η σημασιολογική ομοιότητα, θα χρησιμοποιηθούν εργαλεία ανάλυσης φυσικής γλώσσας, βαθιά μάθηση για αναπαράσταση κειμένων και τεχνικές ανάκλησης για την αναζήτηση παρόμοιων κειμένων. Χρησιμοποιώντας τις παραπάνω γνωστές τεχνικές στο νομικό τομέα, εξετάζουμε ποια είναι πιο κατάλληλη στον τομέα αυτόν. Σε αυτήν την εργασία δίνεται μεγαλύτερη έμφαση στο κομμάτι της αξιολόγησης. Για να γίνει η αξιολόγηση των τεχνικών που υλοποιήσαμε, προτείναμε μία μέθοδο ανθρώπινης αξιολόγησης. Στα πλαίσια της μεθόδου αυτής, δημιουργήσαμε ένα εργαλείο επισημείωσης, ώστε να μπορέσει να υλοποιηθεί η διαδικασία που προτείναμε. Σκοπός ήταν να γίνουν πειράματα με αξιολογητές, ώστε να δούμε πόσο κατάλληλες ήταν τελικά οι γνωστές τεχνικές που χρησιμοποιήσαμε για το νομικό τομέα αλλά και ποια κρίθηκε η πιο κατάλληλη.