Genomic Enzymology: Web Tools for Leveraging Protein Family Sequence- Function Space and Genome Context to Discover Novel Functions.

Genomic Enzymology: Web Tools for Leveraging Protein Family Sequence- Function Space and Genome Context to Discover Novel Functions. John A. Gerlt Departments of Biochemistry and Chemistry, Institute for Genomic Biology, University of Illinois, Urbana-Champaign Urbana, Illinois 61801, United States The exponentially increasing number of protein and nucleic acid sequences provides opportunities to discover novel enzymes, metabolic pathways, and metabolites/natural products, thereby adding to our knowledge of biochemistry and biology. The challenge has evolved from generating sequence information to mining the databases to integrating and leveraging the available information, i.e., the availability of genomic enzymology web tools. Web tools that allow identification of biosynthetic gene clusters are widely used by the natural products/synthetic biology community, thereby facilitating the discovery of novel natural products and the enzymes responsible for their biosynthesis. However, many novel enzymes with interesting mechanisms participate in uncharacterized small-molecule metabolic pathways; their discovery and functional characterization also can be accomplished by leveraging information in protein and nucleic acid databases. This Perspective focuses on two genomic enzymology web tools that assist the discovery novel metabolic pathways: (1) Enzyme Function Initiative-Enzyme Similarity Tool (EFI-EST) for generating sequence similarity networks to visualize and analyze sequence function space in protein families and (2) Enzyme Function Initiative-Genome Neighborhood Tool (EFI-GNT) for generating genome neighborhood networks to visualize and analyze the genome context in microbial and fungal genomes. Both tools have been adapted to other applications to facilitate target selection for enzyme discovery and functional characterization. As the natural products community has demonstrated, the enzymology community needs to embrace the essential role of web tools that allow the protein and genome sequence databases to be leveraged for novel insights into enzymological problems. Τα αλληλουχημένα γονιδιώματα παρέχουν μία ταχέως επεκτεινόμενη πηγή νέων πρωτεϊνών προς έρευνα ενώ επίσης παρέχουν το γενωμικό περιεχόμενο για την εύρεση νέων ενζυμικών λειτουργιών και συνεπώς, για την καλύτερη κατανόηση της εξέλιξης της λειτουργικής διαφοροποίησης στις ενζυμικές υπεροικογένειες. Σε αυτό το πλαίσιο, ο όρος γενωμική ενζυμολογία (genomic enzymology) περιγράφει την επεκτατική στρατηγική της χρήσης πρωτεϊνικών οικογενειών και γενωμικού περιεχομένου για τη μελέτη ενζυμικών μηχανισμών, την ανακάλυψη νέων λειτουργιών και την πιο ακριβή περιγραφή της εξέλιξης της ενζυμικής λειτουργίας. Βασικό πρόβλημα είναι το πώς οι βάσεις δεδομένων πρωτεϊνικών και γενωμικών αλληλουχιών μπορούν να αξιοποιηθούν και να χρησιμοποιηθούν από την κοινότητα των πειραματιστών. Η βάση δεδομένων UniProt περιέχει 88.588.026 αλληλουχίες, αριθμός που αυξάνεται κατά 2,4% το μήνα, κυρίως ως αποτέλεσμα της αλληλούχησης μικροβιακών γονιδιωμάτων. Σε αυτό το στάδιο λοιπόν, η πρόκληση είναι να κατασκευαστούν μέθοδοι φιλικές προς το χρήστη για το χειρισμό και την επεξεργασία αυτού του όγκου δεδομένων με σκοπό τον άμεσο πειραματικό προσδιορισμό in vitro δραστηριοτήτων και in vivo μεταβολικών λειτουργιών των μη χαρακτηρισμένων ενζύμων. Αυτή τη στιγμή, 50% των πρωτεϊνών στις βάσεις δεδομένων έχουν λανθασμένο, αβέβαιο ή άγνωστο λειτουργικό προσδιορισμό. Η UniProt Knowledgebase (UniProtKB) αποτελείται από δύο τομείς, την UniProtKB/SwissProt και την UniProtKB/TrEMBL. Ο λειτουργικός σχολιασμός (annotation) στη SwissProt γίνεται με χειροκίνητη περιγραφή (curation), ενώ στην TrEMBL αποδίδεται αυτόματα με βάση τη λειτουργία του πιο «κοντινού» ομολόγου. Μόνο 0,63% των αλληλουχιών είναι στη SwissProt, ποσοστό που συνεχίζει να μειώνεται καθώς ο συνολικός αριθμός

των αλληλουχιών που προστίθεται υπερβαίνει κατά πολύ τον αριθμό των πειραματικά χαρακτηρισμένων νέων αλληλουχιών. Θεωρητικά, ο λειτουργικός χαρακτηρισμός μπορεί να επεκταθεί σε προϊόνται ορθόλογων γονιδίων, παρόλα αυτά τα ακριβή όρια αλληλουχίαςλειτουργίας είναι άγνωστα, συνεπώς οι λειτουργικοί χαρακτηρισμοί που βασίζονται στην ομολογία εμπεριέχουν ρίσκο. Στη συνέχεια περιγράφονται διαδικτυακά εργαλεία (web tools) «γενωμικής ενζυμολογίας» που αρχικά αναπτύχθηκαν από την Enzyme Function Initiative (EFI) και παρέχονται παραδείγματα εφαρμογών τους. Διαδικτυακά Εργαλεία για την Ανακάλυψη Φυσικών Προϊόντων Παράλληλα με την ανάπτυξη της γενωμικής ενζυμολογίας, ανακαλύφθηκε ότι τα γονίδια που κωδικοποιούν βιοσυνθετικά μονοπάτια φυσικών προϊόντων, συχνά οργανώνονται σε «Συμπλέγματα Βιοσυνθετικών Γονιδίων» (Biosynthetic Gene Clusters, BGCs). Δεδομένης της δομικής πολυπλοκότητας των φυσικών προϊόντων και της ανάγκης ταυτοποίησης των ενζύμων που συναρμολογούν το σκελετό τους, π.χ. συνθάσες τερπενίου, όπως επίσης και των ενζύμων που καταλύουν αντιδράσεις τροποποιήσεων τους, π.χ. γλυκοζυλάσες, ο γενωμικός συνεντοπισμός των βιοσυνθετικών γονιδίων θα διευκόλυνε την ανακάλυψη μονοπατιών. Η ανακάλυψη BGCs διευκολύνει την ταυτοποίηση ενζύμων ώστε να ελεγχθούν πειραματικά για διαδοχικές δραστηριότητες στο βιοσυνθετικό μονοπάτι. Ο αριθμός των φυσικών προϊόντων εκτιμάται υπερβολικά μεγάλος, οπότε η ταυτοποίηση BGCs είναι ελκυστική στρατηγική για την ανακάλυψη τους, αναπτύσσοντας διάφορα σχετικά εργαλεία βιοπληροφορικής. Παρόλο που αυτά δίνουν τη δυνατότητα ανακάλυψης BGCs, οι λειτουργικοί σχολιασμοί μη χαρακτηρισμένων ενζύμων του συμπλέγματος, περιορίζονται στην πρωτεϊνική οικογένεια, περιγραφή που συχνά είναι ανεπαρκής για το λειτουργικό χαρακτηρισμό. Συνεπώς, πολλές από τις προκλήσεις στο χαρακτηρισμό των BGCs ταυτίζονται με αυτές των μεταβολικών μονοπατιών μικρών μορίων. Τι θα πρέπει να παρέχουν τα Εργαλεία της Γενωμικής Ενζυμολογίας; Η γενωμική ενζυμολογία επικεντρώνεται στην ανακάλυψη της λειτουργίας ολόκληρων ενζυμικών οικογενειών επιτρέποντας την αναγνώριση χαρακτηριστικών αλληλουχίας και δομής που είναι συντηρημένα για συγκεκριμένες λειτουργίες. Η λειτουργική ποικιλία σε μια υπεροκογένεια εξηγείται μέσω διαφορικής εξελικτικής επιλογής. Οι προκλήσεις για τη γενωμική ενζυμολογία αφορούν: (1) ομαδοποίηση των μελών μηχανιστικά και λειτουργικά διαφορετικών υπεροικογενειών σε ισολειτουργικές οικογένειες και (2) ανάλυση των γενωμικών περιεχομένων των μελών αυτών των ισολειτουργικών οικογενειών ώστε να διαπιστωθούν οι ρόλοι τους στα μεταβολικά μονοπάτια. Δίκτυα Ομοιότητας Αλληλουχίας (Sequence Similarity Networks, SSNs) Οι εξελικτικοί βιολόγοι συνήθως χρησιμοποιούν φυλογενετικές προσεγγίσεις για να διαχωρίσουν τα ορθόλογα από τα παράλογα. Τα φυλογενετικά δέντρα κατασκευάζονται από στοιχίσεις πολλαπλών αλληλουχιών (Multiple Sequence Alignments, MSAs), οι οποίες όμως είναι δύσκολο να γίνουν αλλά και να ερμηνευτούν για μεγάλες πρωτεϊνικές οικογένειες, λόγω της πολυπλοκότητάς τους. Τα δέντρα δεν προσφέρουν άμεση πρόσβαση σε όλες τις αλληλουχίες μιας οικογένειας, αφού κατά την κατασκευή τους επιλέγονται αντιπροσωπευτικές αλληλουχίες. Αντιθέτως, αυτό που χρειάζεται είναι μια φιλική προς το χρήστη προσέγγιση μεγάλης κλίμακας που επιτρέπει την εύκολη οπτικοποίηση και ανάλυση όλων των αλληλουχιών μιας οικογένειας. Οι Atkinson και Babbitt πρότειναν τα Δίκτυα Ομοιότητας Αλληλουχίας (Sequence Similarity Networks, SSNs) για να κάνουν δυνατό αυτόν τον τύπο ανάλυσης. Ένα SSN δείχνει σχέσεις ανά ζεύγη αλληλουχιών που έχουν προέλθει από μια σύγκριση all-by-all, π.χ. BLAST. Παρόλο που η χρήση BLAST μειονεκτεί προσφέροντας ένα μέτρο συνολικής αλληλουχικής ομοιότητας και

συνεπώς δεν έχει ευαισθησία σε διαφορετικές αρχιτεκτονικές περιοχών, πράγμα σημαντικό στον καθορισμό της μοριακής λειτουργίας, είναι: 1) γρήγορη, χαρακτηριστικό που απαιτείται για συγκρίσεις αλληλουχιών οικογενειών που συνεχώς αυξάνονται σε μέγεθος και 2) γνωστή στους πειραματιστές.ένα SSN περιλαμβάνει «κόμβους» για τις αλληλουχίες και «ακμές» που ποσοτικοποιούν την αλληλουχική ομοιότητα (ανά ζεύγη) και συνδέουν τους κόμβους με ομοιότητα αλληλουχίας μεγαλύτερη ενός συγκεκριμένου επιπέδου καθορισμένου από το χρήστη (εικ. 1). Καθώς η ομοιότητα αλληλουχιών που απαιτείται για να συνδεθούν οι κόμβοι αυξάνεται, αυτοί διαχωρίζονται σε συμπλέγματα σκοπός είναι να επιλέξουμε ένα επίπεδο αλληλουχικής ομοιότητας που διαχωρίζει τους κόμβους/ μέλη της οικογένειας σε ισολειτουργικά συμπλέγματα. Τα SSNs περιλαμβάνουν λειτουργικές και φυλογενετικές πληροφορίες κάθε αλληλουχίας/κόμβου βοηθώντας το χρήστη στην ανάλυση των σχέσεων αλληλουχίας- Εικόνα 1. Δίκτυο SSN λειτουργίας, συμπεριλαμβανομένης της επιλογής κατωφλιού ομοιότητας για την ένωση δύο κόμβων και άρα το διαχωρισμό ισολειτουργικών συμπλεγμάτων. Συγκρίνοντας με τα φυλογενετικά δέντρα συμπεραίνουμε ότι το πιο πολύτιμο γνώρισμα των SSNs δεν είναι η βέλτιστη ή ακριβής απεικόνιση της αλληλουχικής ομοιότητας, αλλά η ευέλικτη οπτικοποίηση πολλών διαφορετικών πρωτεϊνικών ιδιοτήτων για όλες ή σχεδόν όλες τις αλληλουχίες σε μια υπεροικογένεια. Τα SSNs εξετάζονται με το Cytoscape, «μία ανοιχτή πλατφόρμα για την οπτικοποίηση περίπλοκων δικτύων και την ενσωμάτωση δεδομένων για τις ιδιότητές τους». Δίνει τη δυνατότητα επιλογής κόμβων με βάση τα χαρακτηριστικά τους και επιτρέπει φιλτράρισμα και χρώση των δικτύων ώστε να είναι δυνατή η οπτική ανάλυση. Η EFI ανέπτυξε ένα Διαδικτυακό Εργαλείο Ενζυμικής Ομοιότητας (EFI-Enzyme Similarity Tool, EFI- EST) για να παράγει SSNs για μεγάλες πρωτεϊνικές οικογένειες. Το EFI-EST χρησιμοποιεί αλληλουχίες και πληροφορίες ιδιοτήτων τους από τη UniProt: αντίθετα με τη βάση δεδομένων NCBI, οι λειτουργικοί σχολιασμοί στη UniProt αλλάζουν με δεδομένα παρεχόμενα από οποιοδήποτε μέλος της κοινότητας, επιτρέποντας τη μείωση της διάδοσης λαθών. Το EFI-EST παρέχει τέσσερις επιλογές για τις αλληλουχίες του SSN: (Α) μία αλληλουχία, που παρέχεται από το χρήστη, χρησιμοποιείται για τη συλλογή ομολόγων μέσω BLAST από τη UniProt (Β) ο χρήστης επιλέγει μία ή περισσότερες UniProt ή/και InterProt οικογένειες (C) ο χρήστης παρέχει ένα αρχείο FASTA και επιλέγει αν τα accession IDs στις επικεφαλίδες θα χρησιμοποιηθούν για την ανάκτηση ιδιοτήτων των κόμβων από τη UniProt και (D) ο χρήστης παρέχει μία λίστα UniProt ή/και NCBI accession IDs. Μετά την all-by-all σύγκριση αλληλουχιών, ο χρήστης επιλέγει ένα «σκορ στοίχισης» με βάση το ποσοστό ομοιότητας ανά ζεύγος καθορίζοντας το κατώφλι για το σχεδιασμό των ακμών που θα συνδέσουν τους κόμβους. Στη συνέχεια, αναλύει το SSN με το Cytoscape.

Δίκτυα γενωμικής γειτνίασης (GNNs) Η δεύτερη πρόκληση της γενωμικής ενζυμολογίας είναι η τοποθέτηση των συμπλεγμάτων μέσω χρήσης των SSNs σε ένα λειτουργικό πλαίσιο, π.χ., αναγνώριση μεταβολικών μονοπατιών, όπου συμμετέχουν μη χαρακτηρισμένα ένζυμα. Στα ευβακτήρια, τα αρχαία και τους μύκητες, τα ένζυμα σε μια μεταβολική οδό κωδικοποιούνται από ένα γονιδιακό σύμπλεγμα ή οπερόνιο (όπως οι βιοσυνθετικές οδοί φυσικών προϊόντων κωδικοποιούνται από BGCs). Συνεπώς, οι πρωτεΐνες που κωδικοποιούνται από γονίδια κοντά σε αυτά που κωδικοποιούν μέλη ενός ισολειτουργικού συμπλέγματος (ορθόλογα), μπορεί να επιτρέψουν τον προσδιορισμό του αριθμού και των τύπων αντιδράσεων στο μεταβολικό μονοπάτι, εάν αυτές διατηρούνται από τα μέλη του συμπλέγματος. Οι γενωμικές γειτονιές ομόλογων γονιδίων εξετάζονται μέσω διαδικτυακών πόρων όπως το JGI-IM. Παρόλα αυτά τα ολοκληρωμένα μονοπάτια δεν κωδικοποιούνται πάντα από μια μόνο γενωμική γειτονιά. Η εξόρυξη μεγάλης κλίμακας γενωμικών γειτονιών για όλα τα ορθόλογα γονίδια σε ένα SSN σύμπλεγμα, πλεονεκτεί στο ότι η οργάνωση σε οπερόνια/γονίδια μπορεί να μην διατηρείται σε όλα τα φυλογενετικά είδη. Δηλαδή, η ανίχνευση όλων των γειτονιών παρέχει τη δυνατότητα να αναγνωρισθούν όλα τα λειτουργικά συνδεδεμένα γονίδια/ένζυμα που συναθροίζονται σε ένα μεταβολικό μονοπάτι. Εικόνα 2. Δίκτυο GNN και πιθανά μεταβολικά μονοπάτια που προβλέφθηκαν Η EFI περιέγραψε μια ανάλυση γενωμικής γειτνίασης για την οικογένεια ρακεμάσης προλίνης με τη χρήση μιας σύγκρισης "all-by-all" των γειτόνων για τη δημιουργία ενός δικτύου (GNN). Οι γείτονες διαχωρίστηκαν σε οικογένειες πρωτεϊνών. Αναθέτοντας μοναδικά χρώματα στα συμπλέγματα του SSN (εικ. 2, σχήμα Α) και χρωματίζοντας τους γείτονες στο GNN με το ίδιο χρώμα, αυτοί αναγνωρίσθηκαν, για τις αλληλουχίες κάθε συμπλέγματος (εικ. 2, σχήμα Β). Έπειτα,

αναγνωρίσθηκαν οι υποψήφιοι για λειτουργικά συνδεδεμένα ένζυμα και προβλέφθηκαν πιθανά μεταβολικά μονοπάτια (εικ. 2, σχήμα C). Ακολούθως, η EFI ανέπτυξε το εργαλείο EFI-GNT (Εργαλείο Γενωμικής Γειτνίασης) παρέχοντας ένα φιλικό προς το χρήστη περιβάλλον για τη δημιουργία GNNs, διευκολύνοντας την αναγνώριση του μονοπατιού για τα ισολειτουργικά συμπλέγματα στα SSNs. Εικόνα 3. Δύο μορφές δικτύου GNN Το SSN που σχηματίζεται από το EFI-EST είναι αυτό που θα εισαχθεί στο EFI-GNT (εικ.3, σχήμα Α). Το EFI-GNT εκχωρεί ένα μοναδικό χρώμα σε κάθε σύμπλεγμα (εικ. 3, σχήμα Β). Ακολούθως, γίνεται αναζήτηση στη βάση δεδομένων ENA (European Nucleotide Archive) για τους γείτονες κάθε ακολουθίας σε κάθε σύμπλεγμα του εισαχθέντος SSN (για ευβακτήρια, αρχαία και μύκητες) και οι γείτονες συσχετίζονται με τις πρωτεϊνικές τους οικογένειες Pfam.

Έπειτα υπολογίζονται συχνότητες συν-εμφάνισης των κόμβων στο σύμπλεγμα SSN σε σχέση με τους γείτονες και οι απόλυτες τιμές των αποστάσεων στα ανοικτά πλαίσια ανάγνωσης μεταξύ κόμβων και γειτόνων. Τα λειτουργικά συνδεδεμένα γονίδια που κωδικοποιούν ένα μονοπάτι αναμένεται να έχουν (1) μεγάλες συχνότητες συσχέτισης κόμβων-γειτόνων και (2) μικρές αποστάσεις μεταξύ κόμβων και γειτόνων. Το EFI-GNT παρέχει GNNs σε δύο μορφές. Στην πρώτη (εικ. 3, σχήματα C, D) υπάρχει ένα σύμπλεγμα για κάθε SSN: ο κεντρικός κόμβος αντιπροσωπεύει τις αλληλουχίες στο SSN (με ένα μοναδικό χρώμα), και οι ακτινωτοί κόμβοι (περιμετρικά του κεντρικού) αντιπροσωπεύουν τις γειτονικές πρωτεϊνικές οικογένειες Pfam, μορφή που επιτρέπει την αναγνώριση ενζύμων του μονοπατιού. Στη δεύτερη μορφή, υπάρχει ένα σύμπλεγμα για κάθε γειτονική πρωτεϊνική οικογένεια Pfam: ο κεντρικός κόμβος αντιπροσωπεύει την οικογένεια και οι ακτινωτοί, τα συμπλέγματα SSN που αναγνώρισαν τη συγκεκριμένη γειτονική πρωτεϊνική οικογένεια (εικ.3, σχήματα E, F). Αυτή η μορφή επιτρέπει στον χρήστη να εκτιμήσει εάν το όριο ομοιότητας (ακμή) που χρησιμοποιήθηκε για να γίνει το SSN, ήταν υπερβολικά μεγάλο έτσι ώστε τα ορθόλογα γονίδια να διαχωρίζονται σε πολλαπλά συμπλέγματα ενώ αναγνωρίζουν τους ίδιους γείτονες της οικογένειας Pfam και το ίδιο μονοπάτι. Και στις δύο μορφές GNN, οι συχνότητες συν-εμφάνισης των κόμβων SSN και των γειτόνων είναι οι τιμές των ακμών μεταξύ κεντρικών και ακτινωτών κόμβων. Από τις συχνότητες συν-εμφάνισης, ο χρήστης μπορεί να εντοπίσει γείτονες που απαντώνται πάντα με τον ίδιο κόμβο καθώς και αλληλουχίες που σχετίζονται λιγότερο συχνά. Το EFI-GNT παρέχει επίσης αρχεία με τα UniProt IDs των αλληλουχιών κάθε γειτονικής οικογένειας Pfam που χρησιμοποιούνται για τον εντοπισμό γειτόνων στα SSNs. Αυτή η χαρτογράφηση (1) βοηθά στην επιλογή κατωτάτων ορίων στοίχισης και (2) παρέχει χρήσιμο πλαίσιο σχετικά με πιθανές λειτουργικές σχέσεις. Χρήση συστήματος μεταφοράς SBP για πρόβλεψη ενός μονοπατιού μέσω SSNs και GNNs Για μη χαρακτηρισμένα μονοπάτια, η πρόβλεψη της μεταβολικής οδού διευκολύνεται από πληροφορίες για το υπόστρωμα του πρώτου ενζύμου στην οδό. Για μικροβιακά ένζυμα καταβολικών οδών, λαμβάνονται πληροφορίες από την ταυτότητα της διαλυμένης ουσίας του μεταφορέα (ή του προσδέτη για ένα μεταγραφικό παράγοντα). Για τα συστήματα μεταφοράς ABC, TRAP και TCT, η διαλυμένη ουσία μεταφέρεται στα συστατικά της μεμβράνης με μια διαλυτή εξωκυτταρική /περιπλασμική πρωτεΐνη δέσμευσης διαλυτών ουσιών (SBP). Τα SBPs απομονώνονται και υποβάλλονται σε σάρωση του προσδέτη με φθορισμομετρία διαφορικής σάρωσης, χρησιμοποιώντας μία φυσική βιβλιοθήκη μικρών μορίων. Η εξειδίκευση του προσδέτη, επιβεβαιώνει την οδό αναγνωρίζοντας το υπόστρωμα για το πρώτο ένζυμο. Οι οικογένειες Pfam των γειτόνων προβλέπουν τις υπόλοιπες αντιδράσεις. Πειράματα, in vitro και in vivo, απαιτούνται για την επικύρωση της οδού. Χημικά Καθοδηγούμενη Δημιουργία Προφίλ Λειτουργιών: με βάση το EFI-EST Με 50% των πρωτεϊνών στις βάσεις δεδομένων αλληλουχιών να έχουν ανακριβείς, αβέβαιες ή άγνωστες λειτουργίες, η επιλογή στόχων αποτελεί σημαντική πρόκληση απόδοσης της λειτουργίας. Τα SSNs για λειτουργικά ποικίλες οικογένειες ενζύμων έχουν συχνά πολλά μη χαρακτηρισμένα συμπλέγματα- το πρόβλημα είναι να αποφασιστεί ποιά αξίζουν πειραματικό χαρακτηρισμό. Μια προσέγγιση είναι να επιλέξουμε εκείνες που είναι μεταξύ τους βιολογικώς σχετικές, αλλά πώς αυτό επιτυγχάνεται απουσία γνώσης των λειτουργιών τους; Μια στρατηγική επιλογής βιολογικώς σχετιζόμενων στόχων περιλαμβάνει (1) κατασκευή του SSN για μια στοχευμένη οικογένεια πρωτεϊνών διαχωρισμένη σε ισολειτουργικές οικογένειες και (2) χαρτογράφηση της αφθονίας των μεταγενωμικών αλληλουχιών (που έχουν αποκτηθεί από φυσικά

περιβάλλοντα) στα συμπλέγματα του SSN, με τα μη χαρακτηρισμένα συμπλέγματα με τον μεγαλύτερο αριθμό μεταγενωμικών δεικτών να έχουν την υψηλότερη προτεραιότητα για λειτουργικό χαρακτηρισμό. Το ShortBRED100 παρέχει μια γρήγορη και ακριβή μέθοδο για την καταγραφή των μεταγενωμικών δειγμάτων και χρησιμοποιεί θραύσματα αλληλουχιών από τα συμπλέγματα του SSN για να αναγνωρίσει ομόλογες αλληλουχίες. Η αφθονία τους χαρτογραφείται στη συνέχεια στα συμπλέγματα SSN για την επιλογή στόχων. Ένα τέτοιο εργαλείο δεν είναι διαθέσιμο, η ανάπτυξη του όμως είναι στόχος υψηλής προτεραιότητας. AGeNNT και Refined GNNs: Χτίζοντας στο EFI-GNT Ο Merkl πρόσφατα περιέγραψε το AGeNNT (Automatically Generates refined Neighborhood NeTworks), εφαρμογή της Java που χρησιμοποιεί τα GNNs από το EFI-GNT δίνοντας μία νέα μορφή («επεξεργασμένο GNN») όπου όλοι οι κόμβοι συμπλεγμάτων SSN και οικογενειών Pfam συνδέονται με ακμές. Τα συμπλέγματα που περιέχουν ορθόλογα, τα οποία και ταυτοποιούνται όταν μοιράζονται τους ίδιους γενωμικούς γείτονες, μπορούν να διαχωριστούν από τα συμπλέγματα που έχουν διαφορετικά γενωμικά περιεχόμενα. Μελλοντικοί Στόχοι Μπορούμε να φανταστούμε και άλλα εργαλεία μεγάλης κλίμακας, όπως ένα εργαλείο «δικτύου πρωτεώματος» (PN, protein network) που να παρουσιάζει το μεταβολικό δυναμικό του οργανισμού. Ένα ΡΝ θα περιλάμβανε ένα κόμβο για κάθε πρωτεΐνη του γονιδιώματος και θα αναγνώριζε τις καταλυτικές ικανότητες μέσω των ταυτοτήτων των οικογενειών Pfam καθώς και τις τοποθεσίες των πρωτεϊνών (ακτινωτοί κόμβοι) στα SSNs. Η χαρτογράφηση της μεταγραφικής αφθονίας στο PN θα παρείχε επίσης μια οπτικά ισχυρή προσέγγιση για την αναγνώριση ενζύμων σε νέα μονοπάτια. Οι οικογένειες Pfam που συνεισφέρουν ένζυμα σε ένα μονοπάτι συχνά διατηρούνται σε φυλογενετικά διαφορετικούς οργανισμούς. Ωστόσο, έχουμε παρατηρήσει ότι μία ή περισσότερες αντιδράσεις σε μία μεταβολική οδό μπορεί να καταλυθεί από ανάλογα (μη ορθολογικές αντικαταστάσεις γονιδίων) σε διαφορετικές τάξεις ταξινόμησης. Η δυνατότητα ανακάλυψης αναλόγων μπορεί να ενισχυθεί με τη δημιουργία συμπλεγμάτων από μέλη μιας πρωτεϊνικής οικογένειας με βάση την ταξινομική κατάταξη αντί για ομοιότητα ζευγών αλληλουχίας (SSN). Επειδή τα χαρακτηριστικά κόμβου περιλαμβάνουν ταξινομική κατάταξη, ένα τέτοιο δίκτυο («Taxonomic Rank Network-TRN») θα ήταν εύκολο να κατασκευαστεί. Μεταγενέστερη δημιουργία SSNs με βάση την ομοιότητα αλληλουχίας για μεμονωμένα συμπλέγματα στο TRN θα ήταν δυνατή για περαιτέρω διαχωρισμό. Τέλος, άμεση πρόσβαση σε μια βιβλιοθήκη προϋπολογισμένων SSNs για όλες τις οικογένειες Pfam θα διευκόλυνε το γρήγορο εντοπισμό σχέσεων αλληλουχίας- λειτουργίας ενζύμων. Αυτή η βιβλιοθήκη SSN πρέπει να ενημερώνεται τακτικά για να παρέχει τις τρέχουσες πληροφορίες, αλλά η κατασκευή της απαιτεί σημαντικούς υπολογιστικούς πόρους. Όπως και η κοινότητα που ασχολείται με τα φυσικά προϊόντα, έτσι και η κοινότητα ενζυμολογίας πρέπει να αναγνωρίσει το βασικό ρόλο των διαδικτυακών εργαλείων που επιτρέπουν την αξιοποίηση των βάσεων δεδομένων για τη λύση των βιολογικών προβλημάτων. Μαρία Μόρρου, 1113201400131 Μαρία Πλουμιτσάκου, 1113201400087