Author name | Γιάννης Σάββας |
---|---|
Title | Sustainability-Guided Small Molecule Generation with Generative Flow Networks / Παραγωγή Μικρών Μορίων Καθοδηγούμενη από τη Βιωσιμότητα μέσω Γενετικών Δικτύων Ροής |
Year | 2024-2025 |
Supervisor | Giorgos Bouritsas GiorgosBouritsas |
Generative Artificial Intelligence (AI) has emerged as a promising tool for accelerating scientific discovery in chemistry, particularly in the field of molecular design. In response to the environmental pollution crisis, generative models can be leveraged to propose environmentally friendly candidate molecules, thereby accelerating the design process and minimizing harmful effects on the environment. To that end, we investigate the use of Generative Flow Networks (GFNs), a family of generative models that allow sampling combinatorial objects, such as molecules, by optimizing a property of interest.
This is done by learning to sample proportionally to an externally defined reward function, which is typically a model (e.g. a neural net) functioning as a proxy to the aforementioned property. In this thesis, we design and train GFNs to propose new molecules with low water solubility, a crucial physicochemical property of molecules that is linked to environmental leaching and pollution. Experimentally, we evaluate the capacity of GFNs to simulate the desired distribution (via a battery of metrics), assessing their performance across various training objectives. Finally, we further screen the generated environmentally friendly molecules to identify potential agrochemicals, such as pesticides, herbicides, and insecticides. The code is available at https://github.com/johnsaveus/gflownet .
Περίληψη
Η Γενετική Τεχνητή Νοημοσύνη (AI) έχει αναδειχθεί ως ένα υποσχόμενο εργαλείο για την επιτάχυνση της επιστημονικής ανακάλυψης στη χημεία, ιδίως στον τομέα του μοριακού σχεδιασμού. Στα πλαίσια της περιβαλλοντικής ρύπανσης, τα γενετικά μοντέλα μπορούν να αξιοποιηθούν για την πρόταση υποψήφιων μορίων φιλικών προς το περιβάλλον, επιταχύνοντας έτσι την διαδικασία του σχεδιασμού και μειώνοντας τις επιβλαβείς επιπτώσεις στο περιβάλλον. Για τον σκοπό αυτό, διερευνούμε τη χρήση των Γενετικών Ροών Δικτύων (GFNs), μια οικογένειας γενετικών μοντέλων που δειγματολειπτεί συνδυαστικά αντικείμενα, όπως μόρια, βελτιστοποιώντας μια ιδιότητα ενδιαφερόντος.
Τα μοντέλα αυτά μαθαίνουν να δειγματολειπτούν αναλογικά προς μια εξωτερικά ορισμένη συνάρτηση ανταμοιβής, η οποία συνήθως αποτελείται από ένα μοντέλο (π.χ νευρωνικό δίκτυο) που δρα ως μια προσσέγγιση της εν λόγω ιδιότητας. Στην παρούσα εργασία, σχεδιάζουμε και εκπαιδεύουμε GFNs με στόχο την πρόταση νέων μορίων με χαμηλή διαλυτότητα στο νερό, μια κρίσιμη φυσικοχημική ιδιότητα των μορίων που συνδέεται με την περιβαλλοντική διαρροή και ρύπανση. Πειραματικά, αξιολογούμε την ικανότητα των GFNs να προσεγγίσουν την επιθυμητή κατανομή (μέσω ενός συνόλου μετρικών), εξετάζοντας την απόδοση τους ύπο διαφορετικούς στόχους εκπαίδευσης. Τέλος, πραγματοποιούμε περαιτέρω φιλτράρισμα των παραγόμενων φιλικών προς το περιβάλλον μορίων για την αναγνώριση πιθανών αγροχημικών, όπως φυτοφάρμακα, ζιζανιοκτόνα και εντομοκτόνα. Ο κώδικας είναι διαθέσιμος στη διεύθυνση: https://github.com/johnsaveus/gflownet .