ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ. Δρ. Μαργαρίτα Θεοδωροπούλου

Σχετικά έγγραφα
Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Δευτεροταγείς βάσεις δεδομένων (Secondary databases)

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 14: Μοντέλα Πολλαπλής Στοίχισης (2/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων

Σύγκριση και κατηγοριοποίηση πρωτεϊνικών δομών

Ειδικά Θέματα Βιοπληροφορικής

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Πολλαπλή στοίχιση multiple sequence alignment (MSA)

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Ασκήσεις 3& 4. Πρωτεϊνική Αρχιτεκτονική. Πλατφόρμες Πρόβλεψης & Προσομοίωσης 2ταγούς Δομής. Μοριακή Απεικόνιση

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

LALING/PLALING :

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Κεφάλαιο 2 Βιολογικές Βάσεις Δεδομένων

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Άσκηση 7. Προσομοίωση 3D Δομών Βιομορίων μέσω. Ομολογίας & Threading

ΑΣΚΗΣΗ 2η Αναζήτηση πληροφορίας σε βιολογικές βάσεις δεδοµένων

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Ειδικά Θέματα Βιοπληροφορικής

Ι. ΘΕΩΡΙΑ ΠΙΝΑΚΑΣ 2.1: ΣΥΓΚΡΙΤΙΚΟΣ ΠΙΝΑΚΑΣ ΑΝΤΙΓΡΑΦΗΣ-ΜΕΤΑΓΡΑΦΗΣ ΣΤΟΝ ΠΥΡΗΝΑ ΤΩΝ ΕΥΚΑΡΥΩΤΙΚΩΝ ΚΥΤΤΑΡΩΝ

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Αρχιτεκτονική της τρισδιάστατης δομής πρωτεϊνών

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Φυλογένεση. 5o εργαστήριο

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δυναμικός Προγραμματισμός. Παντελής Μπάγκος

Δομή και λειτουργία πρωτεϊνών. Το κύριο δομικό συστατικό των κυττάρων. Το κύριο λειτουργικό μόριο

ΔΟΜΗ ΠΡΩΤΕΪΝΩΝ II. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

Μέθοδοι μελέτης εξέλιξης

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

Βιοπληροφορική. Βάσεις Δεδοµένων 1ο εργαστήριο. Γρηγόρης Αµούτζιας

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Συγκριτική Γονιδιωματική

Εισαγωγή στις πρωτεΐνες Δομή πρωτεϊνών Ταξινόμηση βάσει δομής Βάσεις με δομές πρωτεϊνών Ευθυγράμμιση δομών Πρόβλεψη 2D δομής Πρόβλεψη 3D δομής

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Προγνωστικές μέθοδοι με βάση αμινοξικές αλληλουχίες

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Γονιδιωματική Εισαγωγή [2] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

ΓΩΝΙΕΣ φ, ψ ΚΑΙ ΕΠΙΤΡΕΠΤΕΣ ΔΙΑΜΟΡΦΩΣΕΙΣ ΤΗΣ ΠΟΛΥΠΕΠΤΙΔΙΚΗΣ ΑΛΥΣΙΔΑΣ

Κεφάλαιο 5 Αναζήτηση προτύπων σε αλληλουχίες

Υπερδευτεροταγής Δομή Πρωτεϊνών

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Εισαγωγή. 1. Δομή πρωτεϊνών. Βιοπληροφορική ΙΙ «Ανάλυση Δομής Πρωτεϊνών» Παναγούλιας Ιωάννης, MSc,PhD

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Δομικές κατηγορίες πρωτεϊνών

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Μεθοδολογία Ασκήσεων ΚΕΦ. 2ο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Κεφάλαιο 1. Οι δομικοί λίθοι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (2/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Αρχές Δοµικής Βιοπληροφορικής Πρωτεϊνών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΘΕΜΑ Α Α1. γ Α2. γ Α3. α Α4. β Α5. β ΘΕΜΑ B B1. B2.

Βιοπληροφορική. Ενότητα 21: Υπολογιστικός Προσδιορισμός Δομής (3/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ

τα βιβλία των επιτυχιών

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

ΔΟΜΗ ΚΑΙ ΔΡΑΣΗ ΠΡΩΤΕΙΝΩΝ

Ενδεικτικές απαντήσεις

ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

Πιθανοθεωρητικά µοντέλα αναπαράστασης ακολουθιών

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

Δοµή και ιδιότητες του DNA. 09/04/ Μοριακή Βιολογία Κεφ. 1 Καθηγητής Δρ. Κ. Ε. Βοργιάς

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Στοιχεία της ανθρώπινης Βιολογίας

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α

γραπτή εξέταση στo μάθημα ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

αποτελούν το 96% κ.β Ποικιλία λειτουργιών

ΥΠΟΔΕΙΓΜΑΤΙΚΑ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΚΕΦ. 2ο

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων

Κ Ε Φ Α Λ Α Ι Ο 21 : Υποκινητές και Ενισχυτές

Ειδικά Θέματα Βιοπληροφορικής

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Παν/μιο Θεσσαλίας Λαμία 2015

Transcript:

ΔΕΥΤΕΡΟΓΕΝΕΙΣ ΒΑΣΕΙΣ ΠΡΩΤΕΪΝΙΚΩΝ Δρ. Μαργαρίτα Θεοδωροπούλου

Βάσεις δεδομένων οικογενειών Οι πρωτεΐνες αποτελούνται από μία ή περισσότερες διακριτές λειτουργικές περιοχές (domains), οι οποίες πολλές φορές είναι και δομικά αυτοτελείς. Οι περιοχές αυτές, θεωρείται ότι μπορούν να λειτουργήσουν αλλά και να εξελιχθούν ανεξάρτητα από το υπόλοιπο τμήμα της πρωτεΐνης. Διαφορετικοί συνδυασμοί τέτοιων περιοχών οδηγούν σε μια μεγάλη ποικιλία των πρωτεϊνών στη φύση. Συνεπώς, η ανίχνευση τέτοιων περιοχών είναι σημαντική στην προσπάθεια λειτουργικής ταξινόμησης των πρωτεϊνών. Αυτό επιτυγχάνεται μέσω αναζήτηση ομοιότητας αλληλουχιών (τοπική στοίχιση) και η ανίχνευση πρωτεϊνών με διαφορετική σύσταση σε τέτοιες περιοχές να δώσει στοιχεία για τη λειτουργική ή άλλη αλληλεπίδραση μεταξύ πρωτεϊνών μη όμοιων μεταξύ τους.

Βάσεις δεδομένων οικογενειών Οι βάσεις των οικογενειών, επιτελούν πολύ σημαντικό ρόλο στην ταξινόμηση των αμινοξικών αλληλουχιών πρωτεϊνών σεοικογένειες. Επειδή οι δομές είναι περισσότερο συντηρημένες από τις αλληλουχίες, η ύπαρξη αυτών των βάσεων βοηθάει στην εύκολη ταυτοποίηση και κατηγοριοποίηση νέων πρωτεϊνών, και στην εύκολη αναγνώριση ενός νέου πρωτεϊνικού διπλώματος. Οι βάσεις διαφέρουν μεταξύ τους, κυρίως: α) στον τρόπο εύρεσης και μαθηματικής μοντελοποίησης της περιοχής (με τοπική ομοιότητα, με pattern, με ΗΜΜ κ.ο.κ.), και β) στον τρόπο με τον οποίο έχει καθοριστεί εξαρχής η περιοχή. Οι CATH και SCOP βασίζονται αποκλειστικά σε δομικά κριτήρια, ενώ οι PROSITE, PFAM, INTERPRO λαμβάνουν υπόψη κυρίως την αλληλουχία. Κατά συνέπεια, περιέχουν μεγαλύτερο αριθμό καταχωρήσεων, καθώς οι πρωτεΐνες με γνωστή δομή είναι πολύ λιγότερες. Επιπλέον δε λόγω αυτού του γεγονότος, είναι δυνατόν, σε κάποιες περιπτώσεις οι περιοχές που έχουν οριστεί να διαφέρουν.

Αναπαράσταση της ανθρώπινης κινάσης τυροσίνης HCK (Uniprot: P08631, PDB: 2HCK_A). Φαίνεται η αμινοξική αλληλουχία, και η διάρθρωση των δομικών αυτοτελών περιοχών (domains) στην τρισδιάστατη δομή. Κάτω, η ίδια πρωτεϊνη όπως την αναπαριστούν οι βάσεις PFAM και PROSITE αντίστοιχα. Καθώς οι περιοχές αυτής της πρωτεϊνης είναι δομικά αυτοτελείς, ίδια αναπαράσταση υπάρχει και στην SCOP. Σε άλλες περιπτώσεις, οι περιοχές που αναπαρίστανται στην PFAM και την PROSITE, μπορεί να μην αντιστοιχούν σε δομικά αυτοτελείς περιοχές, οπότε υπάρχει ενδεχόμενο οι βάσεις αυτές να διαφωνούν μεταξύ τους όσον αφορά στα όρια των περιοχών.

www.expasy.ch/prosite

http://ca.expasy.org/prosite/ Οικογένειες πρωτεϊνών Δυνατότητα αναζήτησης με χρήση κανονικών εκφράσεων (regular expressions) Similar to unix commands using wildcards, etc. Παράδειγμα μοτίβου [AC]-x-V-x(4)-{ED} το οποίο ερμηνεύεται ως [Ala ή Cys]-any-Val-any-any-any-any-{any but Glu or Asp} Οι οικογένειες φέρουν τέτοια patterns και συνεπώς μπορούμε να αναζητήσουμε έναντι αυτών 1574 έγγραφα για 1308 διαφορετικά patterns

Η PROSITE (http://www.expasy.ch/prosite/) αποτελεί μια βάση ταξινόμησης αμινοξικών αλληλουχιών πρωτεϊνών και αυτοτελών περιοχών αλληλουχιών (sequence domains) σε οικογένειες. Η ταξινόμηση σε οικογένειες πραγματοποιείται βάσει των ομοιοτήτων που παρουσιάζουν οι περιοχές των αλληλουχιών μεταξύ τους. Πρωτεΐνες ή περιοχές που ανήκουν στην ίδιαοικογένεια έχουν πιθανότατα την ίδιαλειτουργία και προέρχονται από κοινό πρόγονο. Υπάρχουν τμήματα των αμινοξικών αλληλουχιών πρωτεϊνών που είναι περισσότερο συντηρημένα στην πορεία της εξέλιξης τους και σχετίζονται άμεσα με τηλειτουργία τους και με τηδομή των πρωτεϊνών στο χώρο. Η ανάλυση αμινοξικών αλληλουχιών πρωτεϊνών που ανήκουν στην ίδια οικογένεια, μέσω μιας πολλαπλής στοίχισης, είναι πιθανό να οδηγήσει σε ένα 'αποτύπωμα' χαρακτηριστικό για κάθε οικογένεια, ικανό να τη διαχωρίζει από τις πρωτεϊνικές αλληλουχίες που δεν ανήκουν σεαυτήν την οικογένεια. Υπάρχουν γενικά δύο τρόποι για τη δημιουργία των 'αποτυπωμάτων'. Ο ένας βασίζεται στη χρήση μιας γλώσσας παρόμοιας με αυτής των "κανονικών εκφράσεων" (regular expressions) ή μοτίβων, και είναι ο πιο παλιός και εύκολος στη δημιουργία, ενώ ο άλλος βασίζεται στην κατασκευή προφίλ (profiles), πίνακες δηλαδή με ειδικές ανά θέση πιθανότητες εμφάνισης αμινοξέων, μέθοδος η οποία είναι πιο σύνθετη αλλά και πιο ευαίσθητη. Μέχρι σήμερα η PROSITE περιέχει 'αποτυπώματα' για περίπου 1716 οικογένειες για καθεμία από τις οποίες συμπεριλαμβάνεται λεπτομερής ανάλυση για τη δομή και τη λειτουργία των πρωτεϊνών που την αποτελούν. Συνολικά, υπάρχουν στη βάση 1308 μοτίβα ή πρότυπα (patterns), 1107 προφίλ και 1105 "κανόνες" (τα οποία αφορούν κυρίως πληροφορίες για το που θα πρέπει να βρίσκεται το μοτίβο για να θεωρηθεί έγκυρο αλλάκαι πληροφορίες για συνδυασμούς από μοτίβα). Προφανώς, υπάρχουν οικογένειες για τις οποίες υπάρχουν διαθέσιμα και μοτίβα και προφίλ (συνήθως, οι παλαιότερες καταχωρήσεις αφορούσαν το μοτίβο).

(http://www.expasy.ch/prosite) ID AC DE PA DO // INSULIN; PATTERN. PS00262; Insulin family signature. C-C-{P}-x(2)-C-[STDNEKPI]-x(3)-[LIVMFS]-x(3)-C. PDOC00235; and Documentation {PDOC00235} {PS00262; INSULIN} {BEGIN} **************************** * Insulin family signature * **************************** The insulin family of proteins [1] groups a number of active peptides which are evolutionary related. This family currently consists of: {END}

Μια βάση δεδομένων πρωτεϊνικών οικογενειών και domains με χρήση δύο μορφών μοτίβων: Patterns ή κανονικές εκφράσεις (regular expressions) : Φιλικά προς τον χρήστη (εύκολα στην κατανόηση και χρήση) Ειδικά σχεδιασμένα για τον εντοπισμό βιολογικά σημαντικών περιοχών όπως αμινοξικά κατάλοιπα που έχουν δομική ή λειτουργική σημασία Μπορούν να χρησιμοποιηθούν για αναζητήσεις σε βάσεις πρωτεϊνών και να βρουν αποτελέσματα σε λογικά χρονικά πλαίσια σε οποιονδήποτε υπολογιστή Γενικευμένα profiles ή σταθμισμένοι πίνακες(weight matrices): Σχεδιασμένα να καλύπτουν όλο το μήκος μιας πρωτεΐνης ή ενός domain Μπορούν να εντοπίζουν οικογένειες με μεγάλη ποικιλομορφία ή domains με πολύ λίγες συντηρημένες θέσεις

Η PROSITE χρησιμοποιεί μία νέα μεθοδολογία για να εξάγονται περισσότερες πληροφορίες για λειτουργικά και δομικά σημαντικά κατάλοιπα από τα profiles συνδυάζοντας τους δύο τύπους εγγραφών που περιλαμβάνει. Βασικές αρχές: Συνδυασμός των πλεονεκτημάτων των profiles (μεγάλη ευαισθησία) και των patterns (πληροφορία για συγκεκριμένες θέσεις) Σήμανση αμινοξικών καταλοίπων σε συγκεκριμένες θέσεις σε ένα profile και έλεγχος της παρουσίας τους στην ακολουθία που εντοπίστηκε

Πρότυπα Πρότυπα και μοτίβα αλληλουχιών Ένας τρόπος να περιγράψουμε τα κοινά χαρακτηριστικά μιας πολλαπλή στοίχιση μπορεί να περιγράφει μια πρωτεϊνική οικογένεια, δηλαδή μια ομάδα πρωτεϊνών με κοινή εξελικτική ιστορία, οι οποίες έχουν κοινά δομικά και πιθανώς και λειτουργικά χαρακτηριστικά. Επίσης, θα μας ενδιέφερε να πραγματοποιήσουμε μια αναζήτηση στις βάσεις δεδομένων, για αλληλουχίες που έχουν αυτό το κοινό χαρακτηριστικό, χωρίς όμως να χρειάζεται να πραγματοποιήσουμε εκ νέου στοίχιση. Οι περιγραφές αυτές, ονομάζονται πρότυπα (patterns). Με τις περιγραφές αυτές, μπορούμε να δούμε σε ποια θέση μιας πολλαπλής στοίχισης υπάρχει μεγάλη ή μικρότερη συντήρηση και έτσι να χαρακτηρίσουμε και να εντοπίσουμε μεταξύ άλλων ενεργά κέντρα, περιοχές δράσης των ενζύμων και θέσεις δισουλφιδικών δεσμών (στις πρωτεΐνες) ή υποκινητές, θέσεις έναρξης γονιδίων και σημεία συρραφής εξωνίων (στα γονίδια). Ο παραδοσιακός τρόπος χρήσης τέτοιων εκφράσεων είναι με τα λεγόμενα πρότυπα της PROSITE.

Τα βασικά χαρακτηριστικά της σύνταξης PROSITE είναι τα παρακάτω: Τα αμινοξέα ή τα νουκλεοτίδια αναπαρίστανται με τον τυπικό κωδικό του ενός γράμματος της IUPAC. Κάθε θέση της πολλαπλής στοίχισης αντιστοιχεί σε μια θέση στο πρότυπο, η οποία διαχωρίζεται από τις υπόλοιπες με μία παύλα (-). Οι θέσεις είναι ανεξάρτητες μεταξύ τους. Αν σε κάποια θέση εμφανίζεται μόνο ένας χαρακτήρας, τότε στο πρότυπο χρησιμοποιείται αυτούσιος (π.χ. Α, Τ κ.ο.κ.) Αν σε κάποια θέση εμφανίζονται δύο ή περισσότεροι χαρακτήρες τότε αυτοί εμφανίζονται μέσα σε άγκιστρο, για παράδειγμα [ΑΤ] σημαίνει ότι επιτρέπεται Α ή Τ, ενώ [ACG] σημαίνει ότι επιτρέπεται είτε A, είτε G, είτε C. Αν σε κάποια θέση επιτρέπεται να εμφανιστεί οποιοδήποτε σύμβολο, τότε αυτή η θέση συμβολίζεται με x. Αν σε κάποια θέση επιτρέπεται να εμφανιστεί οποιοδήποτε σύμβολο εκτός από κάποιο/α, τότε τη θέση τη συμβολίζουμε με {}. Για παράδειγμα, για να πούμε «οποιοδήποτε νουκλεοτίδιο εκτός από Α» γράφουμε {Α} το οποίο στην περίπτωση του DNA είναι ισοδύναμο με το [CGT]. Προφανώς, αυτός ο κανόνας είναι περισσότερο χρήσιμος στην περίπτωση των πρωτεϊνών με το μεγάλο αλφάβητο. Επαναλήψεις συμβολίζονται με παρένθεση () μετά από ένα σύμβολο. Για παράδειγμα το Α(3) σημαίνει Α-Α-Α, ενώ το x(3) σημαίνει x-x-x (δηλαδή 3 οποιαδήποτε σύμβολα). Επίσης, μέσα στην παρένθεση μπορεί να μπει και ένα εύρος τιμών. Έτσι, το x(2,4) σημαίνει x-x, ή x-x-x, ή x-x-x-x. Η αρχή και το τέλος της αλληλουχίας συμβολίζονται με τα σύμβολα < και > αντίστοιχα. Έτσι, για να πούμε ότι η αλληλουχία αρχίζει με Α και μετά ακολουθεί οποιοδήποτε σύμβολο γράφουμε <A-x Σε κάποιες ειδικές περιπτώσεις το σύμβολο '>' μπορεί να εμφανιστεί μέσα στα άγκιστρα για να χαρακτηρίσει την πιθανή ύπαρξη καρβοξυτελικού άκρου. Έτσι, το P-R-L-[G>] σημαίνει είτε P-R-L-G ή P-R-L>.

Πλεονεκτήματα και μειονεκτήματα των προτύπων Είναι κατανοητά στο ανθρώπινο μάτι. Διαβάζοντας μια τέτοια έκφραση, καταλαβαίνουμε αμέσως την πληροφορία που περιέχει. Είναι πολύ περιεκτικά και συμπυκνώνουν την πληροφορία μιας πιθανά μεγάλης πολλαπλής στοίχισης, μέσα σε μερικούς μόνο χαρακτήρες. Μας βοηθούν με αυτόν τον τρόπο να ταξινομήσουμε και να κατανοήσουμε φαινόμενα που είναι γενικά δύσκολα. Είναι ιδιαίτερα αποδοτικά από υπολογιστικής πλευράς για πρακτικές χρήσης (για ταχείες αναζητήσεις σε μεγάλες βάσεις δεδομένων). x x x x x Το βασικό μειονέκτημα είναι ότι χάνεται μεγάλο μέρος της πληροφορίας της πολλαπλής στοίχισης. Υπάρχουν και στη βάση PROSITE πρότυπα τα οποία αδυνατούν να χαρακτηρίσουν το 100% των μελών μιας πρωτεϊνικής οικογένειας. Προφανώς, στην περίπτωση των πρωτεϊνών το πρόβλημα είναι πολύ πιο έντονο καθώς σε πρωτεϊνικές οικογένειες με πολλά μέλη είναι σχεδόν αδύνατο να βρεις στήλες στην πολλαπλή στοίχιση με απόλυτη ομοφωνία καθώς αυτό που συντηρείται τις περισσότερες φορές είναι οι φυσικοχημικές ιδιότητες (πχ υδρόφοβα αμινοξέα, θετικά φορτισμένα αμινοξέα κ.ο.κ.). Ένα άλλο πρόβλημα, είναι ότι τα πρότυπα με τον τρόπο που τα ορίσαμε δεν μπορούν να ενσωματώσουν εύκολα τα κενά στην πολλαπλή στοίχιση. Ο τρόπος που αντιμετωπίζουν τα πρότυπα τις θέσεις της πολλαπλής στοίχισης, είναι σαν να πρόκειται για ανεξάρτητες παρατηρήσεις.

Weight Matrices, Profiles και PSSMs Βασική αδυναμία των προτύπων είναι ότι σε κάθε θέση «χάνεται» η πληροφορία για τη σχετική αναλογία των συμβόλων του αλφαβήτου, και η αδυναμία να ποσοτικοποιήσει την ταύτιση μιας δεδομένης αλληλουχίας. Τα προβλήματα αυτά, άρχισαν να γίνονται φανερά και πιο έντονα όσο τα δεδομένα συσσωρεύονταν με αποτέλεσμα να εμφανίζονται όλο και περισσότερες περιπτώσεις αλληλουχιών που για μία ή δύο αλλαγές στην αλληλουχία τους, δεν ταίριαζαν στο γνωστό πρότυπο. Τις αδυναμίες αυτές, έρχονται να αντιμετωπίσουν οι σταθμισμένοι πίνακες (weight matrices) και τα προφίλ (profiles). Με τη μεθοδολογία αυτή, κατασκευάζεται ένας πίνακας k x p, όπου k είναι το μέγεθος του αλφαβήτου και p το μέγεθος της περιοχής που μοντελοποιούμε (οι στήλες της πολλαπλής στοίχισης). Έτσι, σε κάθε θέση i της πολλαπλής στοίχισης αντιστοιχίζουμε ένα διάνυσμα με τις πιθανότητες εμφάνισης pb(i) του κάθε συμβόλου Ειδικά στις πρωτεΐνες, είναι δυνατό να κατασκευαστεί ένα ακόμα πιο ευαίσθητο σύστημα για το σκορ, ικανό να εντοπίζει και μακρινές ομοιότητες.

Η βάση Pfam (http://pfam.xfam.org/) αποτελεί μια μεγάλη συλλογή πρωτεϊνικών οικογενειών (Finn et al., 2014). Βασίζεται στην ίδια λογική με την PROSITE (ειδικά με το υποσύνολο της που βασίζεται σε προφίλ), αλλά η μεγάλη διαφορά είναι ότι εδώ οι οικογένειες χαρακτηρίζονται από ένα hidden Markov model (HMM), μέθοδος η οποία είναι πιο ευαίσθητη στον εντοπισμό μακρινών ομόλογων, χωρίς όμως να υστερεί σε ταχύτητα και αποτελεσματικότητα. Στην τρέχουσα έκδοση (2016), η βάση περιέχει δεδομένα για 16.306 οικογένειες παρέχοντας κάλυψη για πάνω από το 70% των πρωτεϊνικών καταχωρήσεων της UNIPROT. Αποτελείται από δύο υποσύνολα, την PFAM-A, και την PFAM-B. Η PFAM-A αποτελείται από καταχωρήσεις (οικογένειες) υψηλής «ποιότητας», καθώς έχουν όλες υποστεί σχολιασμό από ειδικούς, ενώ υπάρχουν αναφορές σε άλλες βάσεις δεδομένων και κυρίως σε βιβλιογραφία. Η PFAM-B είναι το υποσύνολο, το οποίο προκύπτει με αυτοματοποιημένο τρόπο εντοπίζοντας τις ομοιότητες ανάμεσα στις πρωτεϊνικές περιοχές που απομένουν όταν αφαιρεθούν οι περιοχές που αντιστοιχούν στις καταχωρήσεις της PFAM-A. Η PFAM-B είναι ιδιαίτερα χρήσιμη, γιατί με στοχευμένη ανάλυση αυτών των «οικογενειών», μπορούν να προκύψουν οικογένειες που μετέπειτα θα «προαχθούν» στην PFAM-A. Το βασικό χαρακτηριστικό της PFAM και αυτό που την κάνει τόσο δημοφιλή, είναι ότι με τη χρήση του ΗΜΜ (και ειδικά του πακέτου HMMER), μπορεί να επιλεγεί για κάθε οικογένεια μία τιμή διαχωριστικού κατωφλίου στο σκορ, και κατά συνέπεια κάθε πρωτεΐνη ταξινομείται μόνο σε μία οικογένεια (σε αυτή που σκοράρει πάνω από το κατώφλι). Παρ όλα αυτά, χαμηλότερη ομοιότητα μπορεί να υπάρχει μεταξύ πρωτεϊνών που ανήκουν σε διαφορετικές οικογένειες, για το λόγο αυτό η βάση περιέχει και μια ανώτερη κατηγορία οργάνωσης, την υπερ-οικογένεια (clan).

Αναγνώριση πρωτεϊνικών domains και οικογενειών Υπάρχουν δυο μη αποκλειστικές προσεγγίσεις για τον καθορισμό της λειτουργίας μιας μη χαρακτηρισμένης πρωτεΐνης: Σύγκριση με μια βάση δεδομένων πρωτεϊνικών ακολουθιών (BLAST) Σάρωση μιας βάσης προτύπων και profiles Οι περισσότερες πρωτεΐνες μπορούν να καταταχθούν σε οικογένειες. Πρωτεΐνες που ανήκουν σε μια συγκεκριμένη οικογένεια φέρουν κοινά λειτουργικά χαρακτηριστικά και έχουν προέλθει από έναν κοινό πρόγονο. Κάποιες περιοχές σε μία αλληλουχία είναι περισσότερο συντηρημένες από άλλες κατά τη διάρκεια της εξέλιξης διότι είναι σημαντικές για τη λειτουργία ή τη δομή της πρωτεΐνης. Τα «αποτυπώματα» που κατασκευάζονται από πρότυπα ή profiles πρωτεϊνικών ακολουθιών μπορούν να χρησιμοποιηθούν για να διατυπωθούν υποθέσεις για τη λειτουργία μη χαρακτηρισμένων πρωτεϊνών.

Ορισμοί συντηρημένων περιοχών Οι συντηρημένες περιοχές μπορούν να ομαδοποιηθούν σε 5 διαφορετικές κατηγορίες: Families - Οικογένειες: πρωτεΐνες που έχουν ίδια διάταξη των domains τους, είτε έχουν ένα είτε περισσότερα domains Domains Δομικά αυτοτελείς περιοχές: συγκεκριμένος συνδυασμός δευτεροταγών δομών που λαμβάνουν χαρακτηριστικές τρισδιάστατες δομές ή διπλώματα Repeats - Επαναλήψεις: δομικές μονάδες που βρίσκονται πάντα σε δύο ή περισσότερα αντίγραφα που λαμβάνουν ένα συγκεκριμένο δίπλωμα. Ομάδες επαναλήψεων μπορεί να θεωρούνται επίσης και δομικά αυτοτελείς περιοχές. Motifs - Μοτίβα: μικρές περιοχές με συντηρημένες ενεργές θέσεις ή θέσεις πρόσδεσης (active- ή binding-sites) που συχνά υιοθετούν μια στερεοδιάταξη μόνο όταν προσδένουν τους υποκαταστάτες τους (ligands). Sites - Θέσεις: λειτουργικά κατάλοιπα (ενεργές θέσεις - active sites, δισουλφιδικοί δεσμοί - disulfide bridges, κατάλοιπα που έχουν υποστεί μεταμεταφραστικές τροποποιήσεις - post-translationally modified residues)

Βάσεις Πρωτεϊνικών Οικογενειών Pfam, TIGRFAMs, SMART, Gene3D, PANTHER, CDD: Hidden Markov Models (HMM), ευριστικά μοντέλα PRINTS: Μη σταθμισμένοι πίνακες ( Unweighted matrices), πρωτεϊνικά αποτυπώματα (protein fingerprints) BLOCKS: Σταθμισμένοι πίνακες προερχόμενοι από πολλαπλές στοιχίσεις χωρίς κενά PIRSF, SUPERFAMILY: σύστημα ταξινόμησης με βάση τις εξελικτικές σχέσεις ολόκληρων πρωτεϊνών ProDom: κατασκευή ομόλογων domains με αυτοματοποιημένο τρόπο με χρήση αναδρομικών αναζητήσεων μέσω PSI-BLAST

The InterPro project www.ebi.ac.uk/interpro Ενoποίηση των PROSITE, PRINTS, Pfam και ProDom σε μία ολοκληρωμένη πηγή πρωτεϊνικών οικογενειών, domains και λειτουργικών θέσεων που έγινε το έτος 2000 Κοινή προσπάθεια για τη δημιουργία ενός ενοποιημένου αλλά ταυτόχρονα μεθοδολογικά ποικίλου συστήματος για τον εντοπισμό και την αναγνώριση πρωτεϊνικών οικογενειών και domains Δυνατότητα διανομής του ενοποιημένου συνόλου μέσω FTP και διαδικτυακών διακομιστών (servers) Χρησιμοποιήθηκε για τον λειτουργικό σχολιασμό της UniProtKB (Swiss-Prot και TrEMBL) Έχει ενσωματώσει σταδιακά και άλλες ΒΔs