Genomic Enzymology: Web Tools for Leveraging Protein Family Sequence- Function Space and Genome Context to Discover Novel Functions.

Σχετικά έγγραφα
Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Βιοπληροφορική. Βάσεις Δεδοµένων 1ο εργαστήριο. Γρηγόρης Αµούτζιας

Βιοπληροφορική. Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Μέθοδοι μελέτης εξέλιξης

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

TreeTOPS. ένα εισαγωγικό παιχνίδι για τα φυλογενετικά δέντρα. Teacher s Guide. ELLS European Learning Laboratory for the Life Sciences

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

LALING/PLALING :

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

Λειτουργική γονιδιωµατική. 6ο εργαστήριο

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

Γονιδιωματική. G. Patrinos

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Στοιχεία της ανθρώπινης Βιολογίας

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 1: Εισαγωγή στη Βιοπληροφορική

Συγκριτική Γονιδιωματική

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Δευτεροταγείς βάσεις δεδομένων (Secondary databases)

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Chalkou I. C. [PROJECT] Ανάθεση εργασιών.

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [8] Βάσεις Δεδομένων Γονιδιωματικής

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Ταξινόµιση οργανισµών

Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

Άσκηση 7. Προσομοίωση 3D Δομών Βιομορίων μέσω. Ομολογίας & Threading

Βιοπληροφορική. Ενότητα 15: Φυλογενετική Ανάλυση, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΓΕΝΙΚΗ ΜΙΚΡΟΒΙΟΛΟΓΙΑ. (Γενετικό γονιδιακής έκφρασης) Μαντώ Κυριακού 2015

(Μερος 2 ο ) Εισηγητής: Ν. Πουλακάκης

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

Προγνωστικές μέθοδοι με βάση αμινοξικές αλληλουχίες

Θεωρία - Εφαρμογές ΓΕΝΕΤΙΚΗ ΒΕΛΤΙΩΣΗ ΦΥΤΩΝ - ΜΟΡΙΑΚΟΙ ΔΕΙΚΤΕΣ 1

Εξερευνώντας τα Βιομόρια Ένζυμα: Βασικές Αρχές και Κινητική

Εργαλεία Μοριακής Γενετικής

O7: Πρόγραμμα Κατάρτισης Εκπαιδευτικών O7-A1: Αναπτύσσοντας εργαλεία για το Πρόγραμμα Κατάρτισης Εκπαιδευτικών

ΑΣΚΗΣΗ: ΣΧΕΔΙΑΣΜΟΣ ΕΚΚΙΝΗΤΩΝ ΕΥΡΕΣΗ ΘΕΣΕΩΝ ΠΕΡΙΟΡΙΣΜΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Βάσεις δεδομένων αλληλουχιών

Φυλογένεση. 5o εργαστήριο

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο

Κεφάλαιο 4: Ανασυνδυασμένο DNA

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Λίγη εξέλιξη: οµολογία

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (2/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

«ΑΠΟΛΛΩΝΙΣ» Γλωσσικοί πόροι στο ΕΚΠΑ: Υποδομή, χρήση και εργαλεία. Ειρήνη Φλώρου ΕΚΠΑ, 01/03/2019

Κεφάλαιο 19 Ρύθμιση της γονιδιακής έκφρασης σε βακτήρια και βακτηριοφάγους. Ο καταστολέας του οπερονίου lac προσδεδεμένος στο DNA.

ΑΛΕΞΑΝΔΡΟΣ Λ. ΖΩΓΡΑΦΟΣ. Λιπαρά οξέα, εστέρες Λευκοτριένια, προσταγλαδίνες Πολυαιθέρες, μακρολίδια

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

ΠΡΩΤΕΪΝΕΣ. Φατούρος Ιωάννης Αναπληρωτής Καθηγητής

Ασκήσεις 3& 4. Πρωτεϊνική Αρχιτεκτονική. Πλατφόρμες Πρόβλεψης & Προσομοίωσης 2ταγούς Δομής. Μοριακή Απεικόνιση

Γονιδιωματική Εισαγωγή [2] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

Εφαρμογές τεχνολογιών Μοριακής Βιολογίας στην Γενετική

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Το παρόν εκπαιδευτικό υλικό διατίθεται με του όρους χρήσης Creative Commons (CC) Αναφορά Δημιουργού Μη Εμπορική Χρήση Όχι Παράγωγα Έργα.

Η ΣΥΜΒΟΛΗ ΤΩΝ ΓΟΝΕΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΗΣ ΜΑΘΗΣΗΣ: ΠΟΡΙΣΜΑΤΑ ΤΗΣ ΕΡΕΥΝΑΣ ΓΙΑ ΤΗΝ ΕΚΠΑΙΔΕΥΤΙΚΗ ΑΠΟΤΕΛΕΣΜΑΤΙΚΟΤΗΤΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Φάσμα. προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Εισαγωγή στη Σχεδίαση Λογισμικού

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 10: Κατασκευή φυλογενετικών δέντρων

Network Science. Θεωρεία Γραφηµάτων (2)

Κεφάλαιο 7 - Ένζυμα, οι μηχανισμοί της ζωής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Μοριακή Ανάλυση Φυτών

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Βιολογία Κατεύθυνσης Γ Λυκείου. Διδακτικό σενάριο: Λειτουργία του οπερoνίου της λακτόζης. Μελπομένη Κυζερίδη MSc Ωκεανογραφια, MSc Γεωπληροφορική

ΙΑΤΡΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΑΘΗΝΩΝ (ΕΚΠΑ) ΚΑΤΑΤΑΚΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΑΚ.ΕΤΟΥΣ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΧΗΜΕΙΑ

Εργαστήριο Δασικής Γενετικής και Βελτίωσης Δασοπονικών Ειδών. Προστασία Γενετικής Βιολογικής Ποικιλότητας

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Ειδικά Θέματα Βιοπληροφορικής

ΔΟΜΗ ΚΑΙ ΑΝΑΛΥΣΗ ΒΙΟΜΟΡΙΩΝ

Transcript:

Genomic Enzymology: Web Tools for Leveraging Protein Family Sequence- Function Space and Genome Context to Discover Novel Functions. John A. Gerlt Departments of Biochemistry and Chemistry, Institute for Genomic Biology, University of Illinois, Urbana-Champaign Urbana, Illinois 61801, United States The exponentially increasing number of protein and nucleic acid sequences provides opportunities to discover novel enzymes, metabolic pathways, and metabolites/natural products, thereby adding to our knowledge of biochemistry and biology. The challenge has evolved from generating sequence information to mining the databases to integrating and leveraging the available information, i.e., the availability of genomic enzymology web tools. Web tools that allow identification of biosynthetic gene clusters are widely used by the natural products/synthetic biology community, thereby facilitating the discovery of novel natural products and the enzymes responsible for their biosynthesis. However, many novel enzymes with interesting mechanisms participate in uncharacterized small-molecule metabolic pathways; their discovery and functional characterization also can be accomplished by leveraging information in protein and nucleic acid databases. This Perspective focuses on two genomic enzymology web tools that assist the discovery novel metabolic pathways: (1) Enzyme Function Initiative-Enzyme Similarity Tool (EFI-EST) for generating sequence similarity networks to visualize and analyze sequence function space in protein families and (2) Enzyme Function Initiative-Genome Neighborhood Tool (EFI-GNT) for generating genome neighborhood networks to visualize and analyze the genome context in microbial and fungal genomes. Both tools have been adapted to other applications to facilitate target selection for enzyme discovery and functional characterization. As the natural products community has demonstrated, the enzymology community needs to embrace the essential role of web tools that allow the protein and genome sequence databases to be leveraged for novel insights into enzymological problems. Τα αλληλουχημένα γονιδιώματα παρέχουν μία ταχέως επεκτεινόμενη πηγή νέων πρωτεϊνών προς έρευνα ενώ επίσης παρέχουν το γενωμικό περιεχόμενο για την εύρεση νέων ενζυμικών λειτουργιών και συνεπώς, για την καλύτερη κατανόηση της εξέλιξης της λειτουργικής διαφοροποίησης στις ενζυμικές υπεροικογένειες. Σε αυτό το πλαίσιο, ο όρος γενωμική ενζυμολογία (genomic enzymology) περιγράφει την επεκτατική στρατηγική της χρήσης πρωτεϊνικών οικογενειών και γενωμικού περιεχομένου για τη μελέτη ενζυμικών μηχανισμών, την ανακάλυψη νέων λειτουργιών και την πιο ακριβή περιγραφή της εξέλιξης της ενζυμικής λειτουργίας. Βασικό πρόβλημα είναι το πώς οι βάσεις δεδομένων πρωτεϊνικών και γενωμικών αλληλουχιών μπορούν να αξιοποιηθούν και να χρησιμοποιηθούν από την κοινότητα των πειραματιστών. Η βάση δεδομένων UniProt περιέχει 88.588.026 αλληλουχίες, αριθμός που αυξάνεται κατά 2,4% το μήνα, κυρίως ως αποτέλεσμα της αλληλούχησης μικροβιακών γονιδιωμάτων. Σε αυτό το στάδιο λοιπόν, η πρόκληση είναι να κατασκευαστούν μέθοδοι φιλικές προς το χρήστη για το χειρισμό και την επεξεργασία αυτού του όγκου δεδομένων με σκοπό τον άμεσο πειραματικό προσδιορισμό in vitro δραστηριοτήτων και in vivo μεταβολικών λειτουργιών των μη χαρακτηρισμένων ενζύμων. Αυτή τη στιγμή, 50% των πρωτεϊνών στις βάσεις δεδομένων έχουν λανθασμένο, αβέβαιο ή άγνωστο λειτουργικό προσδιορισμό. Η UniProt Knowledgebase (UniProtKB) αποτελείται από δύο τομείς, την UniProtKB/SwissProt και την UniProtKB/TrEMBL. Ο λειτουργικός σχολιασμός (annotation) στη SwissProt γίνεται με χειροκίνητη περιγραφή (curation), ενώ στην TrEMBL αποδίδεται αυτόματα με βάση τη λειτουργία του πιο «κοντινού» ομολόγου. Μόνο 0,63% των αλληλουχιών είναι στη SwissProt, ποσοστό που συνεχίζει να μειώνεται καθώς ο συνολικός αριθμός

των αλληλουχιών που προστίθεται υπερβαίνει κατά πολύ τον αριθμό των πειραματικά χαρακτηρισμένων νέων αλληλουχιών. Θεωρητικά, ο λειτουργικός χαρακτηρισμός μπορεί να επεκταθεί σε προϊόνται ορθόλογων γονιδίων, παρόλα αυτά τα ακριβή όρια αλληλουχίαςλειτουργίας είναι άγνωστα, συνεπώς οι λειτουργικοί χαρακτηρισμοί που βασίζονται στην ομολογία εμπεριέχουν ρίσκο. Στη συνέχεια περιγράφονται διαδικτυακά εργαλεία (web tools) «γενωμικής ενζυμολογίας» που αρχικά αναπτύχθηκαν από την Enzyme Function Initiative (EFI) και παρέχονται παραδείγματα εφαρμογών τους. Διαδικτυακά Εργαλεία για την Ανακάλυψη Φυσικών Προϊόντων Παράλληλα με την ανάπτυξη της γενωμικής ενζυμολογίας, ανακαλύφθηκε ότι τα γονίδια που κωδικοποιούν βιοσυνθετικά μονοπάτια φυσικών προϊόντων, συχνά οργανώνονται σε «Συμπλέγματα Βιοσυνθετικών Γονιδίων» (Biosynthetic Gene Clusters, BGCs). Δεδομένης της δομικής πολυπλοκότητας των φυσικών προϊόντων και της ανάγκης ταυτοποίησης των ενζύμων που συναρμολογούν το σκελετό τους, π.χ. συνθάσες τερπενίου, όπως επίσης και των ενζύμων που καταλύουν αντιδράσεις τροποποιήσεων τους, π.χ. γλυκοζυλάσες, ο γενωμικός συνεντοπισμός των βιοσυνθετικών γονιδίων θα διευκόλυνε την ανακάλυψη μονοπατιών. Η ανακάλυψη BGCs διευκολύνει την ταυτοποίηση ενζύμων ώστε να ελεγχθούν πειραματικά για διαδοχικές δραστηριότητες στο βιοσυνθετικό μονοπάτι. Ο αριθμός των φυσικών προϊόντων εκτιμάται υπερβολικά μεγάλος, οπότε η ταυτοποίηση BGCs είναι ελκυστική στρατηγική για την ανακάλυψη τους, αναπτύσσοντας διάφορα σχετικά εργαλεία βιοπληροφορικής. Παρόλο που αυτά δίνουν τη δυνατότητα ανακάλυψης BGCs, οι λειτουργικοί σχολιασμοί μη χαρακτηρισμένων ενζύμων του συμπλέγματος, περιορίζονται στην πρωτεϊνική οικογένεια, περιγραφή που συχνά είναι ανεπαρκής για το λειτουργικό χαρακτηρισμό. Συνεπώς, πολλές από τις προκλήσεις στο χαρακτηρισμό των BGCs ταυτίζονται με αυτές των μεταβολικών μονοπατιών μικρών μορίων. Τι θα πρέπει να παρέχουν τα Εργαλεία της Γενωμικής Ενζυμολογίας; Η γενωμική ενζυμολογία επικεντρώνεται στην ανακάλυψη της λειτουργίας ολόκληρων ενζυμικών οικογενειών επιτρέποντας την αναγνώριση χαρακτηριστικών αλληλουχίας και δομής που είναι συντηρημένα για συγκεκριμένες λειτουργίες. Η λειτουργική ποικιλία σε μια υπεροκογένεια εξηγείται μέσω διαφορικής εξελικτικής επιλογής. Οι προκλήσεις για τη γενωμική ενζυμολογία αφορούν: (1) ομαδοποίηση των μελών μηχανιστικά και λειτουργικά διαφορετικών υπεροικογενειών σε ισολειτουργικές οικογένειες και (2) ανάλυση των γενωμικών περιεχομένων των μελών αυτών των ισολειτουργικών οικογενειών ώστε να διαπιστωθούν οι ρόλοι τους στα μεταβολικά μονοπάτια. Δίκτυα Ομοιότητας Αλληλουχίας (Sequence Similarity Networks, SSNs) Οι εξελικτικοί βιολόγοι συνήθως χρησιμοποιούν φυλογενετικές προσεγγίσεις για να διαχωρίσουν τα ορθόλογα από τα παράλογα. Τα φυλογενετικά δέντρα κατασκευάζονται από στοιχίσεις πολλαπλών αλληλουχιών (Multiple Sequence Alignments, MSAs), οι οποίες όμως είναι δύσκολο να γίνουν αλλά και να ερμηνευτούν για μεγάλες πρωτεϊνικές οικογένειες, λόγω της πολυπλοκότητάς τους. Τα δέντρα δεν προσφέρουν άμεση πρόσβαση σε όλες τις αλληλουχίες μιας οικογένειας, αφού κατά την κατασκευή τους επιλέγονται αντιπροσωπευτικές αλληλουχίες. Αντιθέτως, αυτό που χρειάζεται είναι μια φιλική προς το χρήστη προσέγγιση μεγάλης κλίμακας που επιτρέπει την εύκολη οπτικοποίηση και ανάλυση όλων των αλληλουχιών μιας οικογένειας. Οι Atkinson και Babbitt πρότειναν τα Δίκτυα Ομοιότητας Αλληλουχίας (Sequence Similarity Networks, SSNs) για να κάνουν δυνατό αυτόν τον τύπο ανάλυσης. Ένα SSN δείχνει σχέσεις ανά ζεύγη αλληλουχιών που έχουν προέλθει από μια σύγκριση all-by-all, π.χ. BLAST. Παρόλο που η χρήση BLAST μειονεκτεί προσφέροντας ένα μέτρο συνολικής αλληλουχικής ομοιότητας και

συνεπώς δεν έχει ευαισθησία σε διαφορετικές αρχιτεκτονικές περιοχών, πράγμα σημαντικό στον καθορισμό της μοριακής λειτουργίας, είναι: 1) γρήγορη, χαρακτηριστικό που απαιτείται για συγκρίσεις αλληλουχιών οικογενειών που συνεχώς αυξάνονται σε μέγεθος και 2) γνωστή στους πειραματιστές.ένα SSN περιλαμβάνει «κόμβους» για τις αλληλουχίες και «ακμές» που ποσοτικοποιούν την αλληλουχική ομοιότητα (ανά ζεύγη) και συνδέουν τους κόμβους με ομοιότητα αλληλουχίας μεγαλύτερη ενός συγκεκριμένου επιπέδου καθορισμένου από το χρήστη (εικ. 1). Καθώς η ομοιότητα αλληλουχιών που απαιτείται για να συνδεθούν οι κόμβοι αυξάνεται, αυτοί διαχωρίζονται σε συμπλέγματα σκοπός είναι να επιλέξουμε ένα επίπεδο αλληλουχικής ομοιότητας που διαχωρίζει τους κόμβους/ μέλη της οικογένειας σε ισολειτουργικά συμπλέγματα. Τα SSNs περιλαμβάνουν λειτουργικές και φυλογενετικές πληροφορίες κάθε αλληλουχίας/κόμβου βοηθώντας το χρήστη στην ανάλυση των σχέσεων αλληλουχίας- Εικόνα 1. Δίκτυο SSN λειτουργίας, συμπεριλαμβανομένης της επιλογής κατωφλιού ομοιότητας για την ένωση δύο κόμβων και άρα το διαχωρισμό ισολειτουργικών συμπλεγμάτων. Συγκρίνοντας με τα φυλογενετικά δέντρα συμπεραίνουμε ότι το πιο πολύτιμο γνώρισμα των SSNs δεν είναι η βέλτιστη ή ακριβής απεικόνιση της αλληλουχικής ομοιότητας, αλλά η ευέλικτη οπτικοποίηση πολλών διαφορετικών πρωτεϊνικών ιδιοτήτων για όλες ή σχεδόν όλες τις αλληλουχίες σε μια υπεροικογένεια. Τα SSNs εξετάζονται με το Cytoscape, «μία ανοιχτή πλατφόρμα για την οπτικοποίηση περίπλοκων δικτύων και την ενσωμάτωση δεδομένων για τις ιδιότητές τους». Δίνει τη δυνατότητα επιλογής κόμβων με βάση τα χαρακτηριστικά τους και επιτρέπει φιλτράρισμα και χρώση των δικτύων ώστε να είναι δυνατή η οπτική ανάλυση. Η EFI ανέπτυξε ένα Διαδικτυακό Εργαλείο Ενζυμικής Ομοιότητας (EFI-Enzyme Similarity Tool, EFI- EST) για να παράγει SSNs για μεγάλες πρωτεϊνικές οικογένειες. Το EFI-EST χρησιμοποιεί αλληλουχίες και πληροφορίες ιδιοτήτων τους από τη UniProt: αντίθετα με τη βάση δεδομένων NCBI, οι λειτουργικοί σχολιασμοί στη UniProt αλλάζουν με δεδομένα παρεχόμενα από οποιοδήποτε μέλος της κοινότητας, επιτρέποντας τη μείωση της διάδοσης λαθών. Το EFI-EST παρέχει τέσσερις επιλογές για τις αλληλουχίες του SSN: (Α) μία αλληλουχία, που παρέχεται από το χρήστη, χρησιμοποιείται για τη συλλογή ομολόγων μέσω BLAST από τη UniProt (Β) ο χρήστης επιλέγει μία ή περισσότερες UniProt ή/και InterProt οικογένειες (C) ο χρήστης παρέχει ένα αρχείο FASTA και επιλέγει αν τα accession IDs στις επικεφαλίδες θα χρησιμοποιηθούν για την ανάκτηση ιδιοτήτων των κόμβων από τη UniProt και (D) ο χρήστης παρέχει μία λίστα UniProt ή/και NCBI accession IDs. Μετά την all-by-all σύγκριση αλληλουχιών, ο χρήστης επιλέγει ένα «σκορ στοίχισης» με βάση το ποσοστό ομοιότητας ανά ζεύγος καθορίζοντας το κατώφλι για το σχεδιασμό των ακμών που θα συνδέσουν τους κόμβους. Στη συνέχεια, αναλύει το SSN με το Cytoscape.

Δίκτυα γενωμικής γειτνίασης (GNNs) Η δεύτερη πρόκληση της γενωμικής ενζυμολογίας είναι η τοποθέτηση των συμπλεγμάτων μέσω χρήσης των SSNs σε ένα λειτουργικό πλαίσιο, π.χ., αναγνώριση μεταβολικών μονοπατιών, όπου συμμετέχουν μη χαρακτηρισμένα ένζυμα. Στα ευβακτήρια, τα αρχαία και τους μύκητες, τα ένζυμα σε μια μεταβολική οδό κωδικοποιούνται από ένα γονιδιακό σύμπλεγμα ή οπερόνιο (όπως οι βιοσυνθετικές οδοί φυσικών προϊόντων κωδικοποιούνται από BGCs). Συνεπώς, οι πρωτεΐνες που κωδικοποιούνται από γονίδια κοντά σε αυτά που κωδικοποιούν μέλη ενός ισολειτουργικού συμπλέγματος (ορθόλογα), μπορεί να επιτρέψουν τον προσδιορισμό του αριθμού και των τύπων αντιδράσεων στο μεταβολικό μονοπάτι, εάν αυτές διατηρούνται από τα μέλη του συμπλέγματος. Οι γενωμικές γειτονιές ομόλογων γονιδίων εξετάζονται μέσω διαδικτυακών πόρων όπως το JGI-IM. Παρόλα αυτά τα ολοκληρωμένα μονοπάτια δεν κωδικοποιούνται πάντα από μια μόνο γενωμική γειτονιά. Η εξόρυξη μεγάλης κλίμακας γενωμικών γειτονιών για όλα τα ορθόλογα γονίδια σε ένα SSN σύμπλεγμα, πλεονεκτεί στο ότι η οργάνωση σε οπερόνια/γονίδια μπορεί να μην διατηρείται σε όλα τα φυλογενετικά είδη. Δηλαδή, η ανίχνευση όλων των γειτονιών παρέχει τη δυνατότητα να αναγνωρισθούν όλα τα λειτουργικά συνδεδεμένα γονίδια/ένζυμα που συναθροίζονται σε ένα μεταβολικό μονοπάτι. Εικόνα 2. Δίκτυο GNN και πιθανά μεταβολικά μονοπάτια που προβλέφθηκαν Η EFI περιέγραψε μια ανάλυση γενωμικής γειτνίασης για την οικογένεια ρακεμάσης προλίνης με τη χρήση μιας σύγκρισης "all-by-all" των γειτόνων για τη δημιουργία ενός δικτύου (GNN). Οι γείτονες διαχωρίστηκαν σε οικογένειες πρωτεϊνών. Αναθέτοντας μοναδικά χρώματα στα συμπλέγματα του SSN (εικ. 2, σχήμα Α) και χρωματίζοντας τους γείτονες στο GNN με το ίδιο χρώμα, αυτοί αναγνωρίσθηκαν, για τις αλληλουχίες κάθε συμπλέγματος (εικ. 2, σχήμα Β). Έπειτα,

αναγνωρίσθηκαν οι υποψήφιοι για λειτουργικά συνδεδεμένα ένζυμα και προβλέφθηκαν πιθανά μεταβολικά μονοπάτια (εικ. 2, σχήμα C). Ακολούθως, η EFI ανέπτυξε το εργαλείο EFI-GNT (Εργαλείο Γενωμικής Γειτνίασης) παρέχοντας ένα φιλικό προς το χρήστη περιβάλλον για τη δημιουργία GNNs, διευκολύνοντας την αναγνώριση του μονοπατιού για τα ισολειτουργικά συμπλέγματα στα SSNs. Εικόνα 3. Δύο μορφές δικτύου GNN Το SSN που σχηματίζεται από το EFI-EST είναι αυτό που θα εισαχθεί στο EFI-GNT (εικ.3, σχήμα Α). Το EFI-GNT εκχωρεί ένα μοναδικό χρώμα σε κάθε σύμπλεγμα (εικ. 3, σχήμα Β). Ακολούθως, γίνεται αναζήτηση στη βάση δεδομένων ENA (European Nucleotide Archive) για τους γείτονες κάθε ακολουθίας σε κάθε σύμπλεγμα του εισαχθέντος SSN (για ευβακτήρια, αρχαία και μύκητες) και οι γείτονες συσχετίζονται με τις πρωτεϊνικές τους οικογένειες Pfam.

Έπειτα υπολογίζονται συχνότητες συν-εμφάνισης των κόμβων στο σύμπλεγμα SSN σε σχέση με τους γείτονες και οι απόλυτες τιμές των αποστάσεων στα ανοικτά πλαίσια ανάγνωσης μεταξύ κόμβων και γειτόνων. Τα λειτουργικά συνδεδεμένα γονίδια που κωδικοποιούν ένα μονοπάτι αναμένεται να έχουν (1) μεγάλες συχνότητες συσχέτισης κόμβων-γειτόνων και (2) μικρές αποστάσεις μεταξύ κόμβων και γειτόνων. Το EFI-GNT παρέχει GNNs σε δύο μορφές. Στην πρώτη (εικ. 3, σχήματα C, D) υπάρχει ένα σύμπλεγμα για κάθε SSN: ο κεντρικός κόμβος αντιπροσωπεύει τις αλληλουχίες στο SSN (με ένα μοναδικό χρώμα), και οι ακτινωτοί κόμβοι (περιμετρικά του κεντρικού) αντιπροσωπεύουν τις γειτονικές πρωτεϊνικές οικογένειες Pfam, μορφή που επιτρέπει την αναγνώριση ενζύμων του μονοπατιού. Στη δεύτερη μορφή, υπάρχει ένα σύμπλεγμα για κάθε γειτονική πρωτεϊνική οικογένεια Pfam: ο κεντρικός κόμβος αντιπροσωπεύει την οικογένεια και οι ακτινωτοί, τα συμπλέγματα SSN που αναγνώρισαν τη συγκεκριμένη γειτονική πρωτεϊνική οικογένεια (εικ.3, σχήματα E, F). Αυτή η μορφή επιτρέπει στον χρήστη να εκτιμήσει εάν το όριο ομοιότητας (ακμή) που χρησιμοποιήθηκε για να γίνει το SSN, ήταν υπερβολικά μεγάλο έτσι ώστε τα ορθόλογα γονίδια να διαχωρίζονται σε πολλαπλά συμπλέγματα ενώ αναγνωρίζουν τους ίδιους γείτονες της οικογένειας Pfam και το ίδιο μονοπάτι. Και στις δύο μορφές GNN, οι συχνότητες συν-εμφάνισης των κόμβων SSN και των γειτόνων είναι οι τιμές των ακμών μεταξύ κεντρικών και ακτινωτών κόμβων. Από τις συχνότητες συν-εμφάνισης, ο χρήστης μπορεί να εντοπίσει γείτονες που απαντώνται πάντα με τον ίδιο κόμβο καθώς και αλληλουχίες που σχετίζονται λιγότερο συχνά. Το EFI-GNT παρέχει επίσης αρχεία με τα UniProt IDs των αλληλουχιών κάθε γειτονικής οικογένειας Pfam που χρησιμοποιούνται για τον εντοπισμό γειτόνων στα SSNs. Αυτή η χαρτογράφηση (1) βοηθά στην επιλογή κατωτάτων ορίων στοίχισης και (2) παρέχει χρήσιμο πλαίσιο σχετικά με πιθανές λειτουργικές σχέσεις. Χρήση συστήματος μεταφοράς SBP για πρόβλεψη ενός μονοπατιού μέσω SSNs και GNNs Για μη χαρακτηρισμένα μονοπάτια, η πρόβλεψη της μεταβολικής οδού διευκολύνεται από πληροφορίες για το υπόστρωμα του πρώτου ενζύμου στην οδό. Για μικροβιακά ένζυμα καταβολικών οδών, λαμβάνονται πληροφορίες από την ταυτότητα της διαλυμένης ουσίας του μεταφορέα (ή του προσδέτη για ένα μεταγραφικό παράγοντα). Για τα συστήματα μεταφοράς ABC, TRAP και TCT, η διαλυμένη ουσία μεταφέρεται στα συστατικά της μεμβράνης με μια διαλυτή εξωκυτταρική /περιπλασμική πρωτεΐνη δέσμευσης διαλυτών ουσιών (SBP). Τα SBPs απομονώνονται και υποβάλλονται σε σάρωση του προσδέτη με φθορισμομετρία διαφορικής σάρωσης, χρησιμοποιώντας μία φυσική βιβλιοθήκη μικρών μορίων. Η εξειδίκευση του προσδέτη, επιβεβαιώνει την οδό αναγνωρίζοντας το υπόστρωμα για το πρώτο ένζυμο. Οι οικογένειες Pfam των γειτόνων προβλέπουν τις υπόλοιπες αντιδράσεις. Πειράματα, in vitro και in vivo, απαιτούνται για την επικύρωση της οδού. Χημικά Καθοδηγούμενη Δημιουργία Προφίλ Λειτουργιών: με βάση το EFI-EST Με 50% των πρωτεϊνών στις βάσεις δεδομένων αλληλουχιών να έχουν ανακριβείς, αβέβαιες ή άγνωστες λειτουργίες, η επιλογή στόχων αποτελεί σημαντική πρόκληση απόδοσης της λειτουργίας. Τα SSNs για λειτουργικά ποικίλες οικογένειες ενζύμων έχουν συχνά πολλά μη χαρακτηρισμένα συμπλέγματα- το πρόβλημα είναι να αποφασιστεί ποιά αξίζουν πειραματικό χαρακτηρισμό. Μια προσέγγιση είναι να επιλέξουμε εκείνες που είναι μεταξύ τους βιολογικώς σχετικές, αλλά πώς αυτό επιτυγχάνεται απουσία γνώσης των λειτουργιών τους; Μια στρατηγική επιλογής βιολογικώς σχετιζόμενων στόχων περιλαμβάνει (1) κατασκευή του SSN για μια στοχευμένη οικογένεια πρωτεϊνών διαχωρισμένη σε ισολειτουργικές οικογένειες και (2) χαρτογράφηση της αφθονίας των μεταγενωμικών αλληλουχιών (που έχουν αποκτηθεί από φυσικά

περιβάλλοντα) στα συμπλέγματα του SSN, με τα μη χαρακτηρισμένα συμπλέγματα με τον μεγαλύτερο αριθμό μεταγενωμικών δεικτών να έχουν την υψηλότερη προτεραιότητα για λειτουργικό χαρακτηρισμό. Το ShortBRED100 παρέχει μια γρήγορη και ακριβή μέθοδο για την καταγραφή των μεταγενωμικών δειγμάτων και χρησιμοποιεί θραύσματα αλληλουχιών από τα συμπλέγματα του SSN για να αναγνωρίσει ομόλογες αλληλουχίες. Η αφθονία τους χαρτογραφείται στη συνέχεια στα συμπλέγματα SSN για την επιλογή στόχων. Ένα τέτοιο εργαλείο δεν είναι διαθέσιμο, η ανάπτυξη του όμως είναι στόχος υψηλής προτεραιότητας. AGeNNT και Refined GNNs: Χτίζοντας στο EFI-GNT Ο Merkl πρόσφατα περιέγραψε το AGeNNT (Automatically Generates refined Neighborhood NeTworks), εφαρμογή της Java που χρησιμοποιεί τα GNNs από το EFI-GNT δίνοντας μία νέα μορφή («επεξεργασμένο GNN») όπου όλοι οι κόμβοι συμπλεγμάτων SSN και οικογενειών Pfam συνδέονται με ακμές. Τα συμπλέγματα που περιέχουν ορθόλογα, τα οποία και ταυτοποιούνται όταν μοιράζονται τους ίδιους γενωμικούς γείτονες, μπορούν να διαχωριστούν από τα συμπλέγματα που έχουν διαφορετικά γενωμικά περιεχόμενα. Μελλοντικοί Στόχοι Μπορούμε να φανταστούμε και άλλα εργαλεία μεγάλης κλίμακας, όπως ένα εργαλείο «δικτύου πρωτεώματος» (PN, protein network) που να παρουσιάζει το μεταβολικό δυναμικό του οργανισμού. Ένα ΡΝ θα περιλάμβανε ένα κόμβο για κάθε πρωτεΐνη του γονιδιώματος και θα αναγνώριζε τις καταλυτικές ικανότητες μέσω των ταυτοτήτων των οικογενειών Pfam καθώς και τις τοποθεσίες των πρωτεϊνών (ακτινωτοί κόμβοι) στα SSNs. Η χαρτογράφηση της μεταγραφικής αφθονίας στο PN θα παρείχε επίσης μια οπτικά ισχυρή προσέγγιση για την αναγνώριση ενζύμων σε νέα μονοπάτια. Οι οικογένειες Pfam που συνεισφέρουν ένζυμα σε ένα μονοπάτι συχνά διατηρούνται σε φυλογενετικά διαφορετικούς οργανισμούς. Ωστόσο, έχουμε παρατηρήσει ότι μία ή περισσότερες αντιδράσεις σε μία μεταβολική οδό μπορεί να καταλυθεί από ανάλογα (μη ορθολογικές αντικαταστάσεις γονιδίων) σε διαφορετικές τάξεις ταξινόμησης. Η δυνατότητα ανακάλυψης αναλόγων μπορεί να ενισχυθεί με τη δημιουργία συμπλεγμάτων από μέλη μιας πρωτεϊνικής οικογένειας με βάση την ταξινομική κατάταξη αντί για ομοιότητα ζευγών αλληλουχίας (SSN). Επειδή τα χαρακτηριστικά κόμβου περιλαμβάνουν ταξινομική κατάταξη, ένα τέτοιο δίκτυο («Taxonomic Rank Network-TRN») θα ήταν εύκολο να κατασκευαστεί. Μεταγενέστερη δημιουργία SSNs με βάση την ομοιότητα αλληλουχίας για μεμονωμένα συμπλέγματα στο TRN θα ήταν δυνατή για περαιτέρω διαχωρισμό. Τέλος, άμεση πρόσβαση σε μια βιβλιοθήκη προϋπολογισμένων SSNs για όλες τις οικογένειες Pfam θα διευκόλυνε το γρήγορο εντοπισμό σχέσεων αλληλουχίας- λειτουργίας ενζύμων. Αυτή η βιβλιοθήκη SSN πρέπει να ενημερώνεται τακτικά για να παρέχει τις τρέχουσες πληροφορίες, αλλά η κατασκευή της απαιτεί σημαντικούς υπολογιστικούς πόρους. Όπως και η κοινότητα που ασχολείται με τα φυσικά προϊόντα, έτσι και η κοινότητα ενζυμολογίας πρέπει να αναγνωρίσει το βασικό ρόλο των διαδικτυακών εργαλείων που επιτρέπουν την αξιοποίηση των βάσεων δεδομένων για τη λύση των βιολογικών προβλημάτων. Μαρία Μόρρου, 1113201400131 Μαρία Πλουμιτσάκου, 1113201400087