Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Ασκήσεις 1 & 2 Βάσεις Δεδομένων Εργαλεία Αναζήτησης ClustalW & Blast

Μοριακή Προσομοίωση Εισαγωγή: Δομική Βάση Βιολογικών Φαινομένων Η αξιοποίηση του πλήθους των δομικών στοιχείων για την εξαγωγή βιολογικά σημαντικών πληροφοριών συντελείται μέσω των παρακάτω διεργασιών Απεικόνιση : Η δημιουργία εικόνων για την αναπαράσταση δομικών μοντέλων συνεισφέρει στην οπτική ανάλυση, στην αναγνώριση των χαρακτηριστικών και στην εξαγωγή των δομικών πληροφοριών τις οποίες περιέχει ένα απλό αρχείο συντεταγμένων για τις θέσεις των ατόμων μιας πρωτεΐνης. Ταξινόμηση: Η ταξινόμηση των πρωτεϊνικών δομών παρέχει πληροφορίες για την εξελικτική διαδικασία και παρέχει με ευκολία δεδομένα για να αξιοποιηθούν, όπως π.χ. στην υπολογιστική προσομοίωση νέων δομών πρωτεϊνών. Δύο από τις πιο γνωστές βάσεις με ταξινομημένες δομές πρωτεϊνών είναι οι SCOP και CATH Πρόβλεψη: Παρά τις τεράστιες προσπάθειες πειραματικής επίλυσης δομών βιομορίων, ο αριθμός των γνωστών 3D δομών παραμένει πολύ μικρότερος από τον αριθμό των γνωστών πρωτεϊνικών ακολουθιών. Ηπρόβλεψητων3D δομών μπορεί να πραγματοποιηθεί μέσω: ομολογίας - Συγκριτική Προσομοίωση Threading, ab initio πρόβλεψης. Προσομοίωση: Οι κρυσταλλογραφικές και NMR μελέτες, υπολογίζουν ένα στατικό μοριακό μοντέλο. Παρ όλα αυτά οι ιδιότητες οι ιδιότητες με την μεγαλύτερη σημασία στα βιολογικά μόρια είναι συνήθως απόλυτα συνδεδεμένες με την δυναμική συμπεριφορά του μορίου, δηλαδή την κινητικότητα, την ευκαμψία και την αλληλεπίδρασήςτου με άλλα μόρια: Πρωτόκολλα: Προσομοιώση Μοριακής Δυναμικής, Προσομοίωση Πρόσδεση (Docking)

Οργάνωση Βάσεων δεδομένων: Πρωτοταγής και Δευτεροταγής Βάσεις Δεδομένων Οι βάσεις δεδομένων πρέπει να είναι οργανωμένες με βάση τα παρακάτω: 1 Τρισδιάστατες δομές Βιομορίων, δηλ. οι συντεταγμένες του κάθε ατόμου στις 3 διαστάσεις μιας δομής βιομορίου. Ο πυρήνας από τον οποίο εξάγονται όλες οι υπόλοιπες πληροφορίες. Πρωτοταγείς βάσεις δεδομένων. 2 Μετασχηματισμός σε δομικά μοντέλα των συντεταγμένων (με χρήση αλγορίθμων), Ταξινόμηση και ανάλυση των τα πρωταρχικά δεδομένα (ατομικές συντεταγμένες). 3 Τα αποτελέσματα της ανάλυσης των δεδομένων πρέπει να είναι αποθηκευμένα σε άλλες βάσεις δεδομένων, γνωστές ως Δευτεροταγείς βάσεις δεδομένων, 4 Επεξεργασία των δεδομένων πρωτοταγών πηγών. Σε αυτές εφαρμόζονται διάφοροι αλγόριθμοι για την δημιουργία πολλαπλών δευτεροταγών πηγών πληροφοριών. Η Protein Data Bank (http://www.rcsb.org/pdb/home/home.do), είναι Πρωτοταγής Βάση δεδομένων με αρχειοθετημένες όλες σχεδόν τις πειραματικά υπολογισμένες δομές βιομορίων. Ο CE (combinatorial extension, structural comparison of proteins), είναι ένας αλγορίθμος ο οποίος εφαρμόζεται στα πρωταρχικά δεδομένα, και παράγει 2ταγή δεδομένα. 5 Αλγόριθμους και άλλα υπολογιστικά εργαλεία καθώς και οι 2ταγείς πηγές δεδομένων μπορούν να διαιρεθούν σε διάφορες ευρείες κατηγορίες, όπως για παράδειγμα: (α) μοριακήαπεικόνισητωνδομών, (β) ταξινόμηση των δομών, (γ) πρόβλεψη/προσομοίωση δομών όπου απαραίτητα στοιχεία είναι 1ταγείς πληροφορίες (ατομικές συντεταγμένες), ΑΛΛΑ και 2ταγείς πληροφορίες (τύπος αναδίπλωσης και κατάταξη της δομής σε κατηγορία με συγκεκριμένα τοπολογικά χαρακτηριστικά), (δ) αντιστοίχιση 3D δομών, και (ε) αλληλεπιδράσεις πρωτεϊνών και υποστρωμάτων.

Πρωτοταγής και Δευτεροταγής Βάσεις Δεδομένων 1ταγείς Βάσεις δεδομένων Εφαρμογή Αλγορίθμων 2ταγείς Βάσεις Δεδομένων Ταξινόμηση 3D δομών Μοριακή Απεικόνιση & Μοντέλα Πρόβλεψη Δομής Πρόβλεψη Λειτουργίας Προσομοίωση Πρόσδεσης

Πρωτοταγής και Δευτεροταγής Βάσεις Δεδομένων Βάσεις Δεδομένων NCBI ExPasy - SwissProt UniProt PDB BMRB CATH SCOP Αναζήτηση Δομών-Εκμαγείων 3D PSSM BLAST Αντιστοίχιση & Υπέρθεση ClustalW Μοριακή Προσομοίωση Modeller Swiss-Model NPS@ Αποτίμηση Δομών PROCHECK http://www.ncbi.nlm.nih.gov/ http://ca.expasy.org/ http://www.uniprot.org http://www.rcsb.org/pdb/ http://www.bmrb.wisc.edu/ http://www.biochem.ucl.ac.uk/bsm/cath/ http://scop.mrc-lmb.cam.ac.uk/scop/ http://www.sbg.bio.ic.ac.uk/~3dpssm http://www.ncbi.nlm.nih.gov/blast/ http://www2.ebi.ac.uk/clustalw/ http://www.salilab.org/modeller/ http://www.expasy.org/swissmod http://npsa-pbil.ibcp.fr/cgibin/npsa_automat.pl?page=/npsa/npsa_server.html http://www.biochem.ucl.ac.uk/~roman/procheck/procheck.html

Πρωτοταγής και Δευτεροταγής Βάσεις Δεδομένων Μοριακή Απεικόνιση MolMol RasMol VMD MolScript Μοριακή Αλληλεπίδραση Προσομοίωση Σύμπλεξης AutoDOCK Haddock Μοριακή Μηχανική/Δυναμική Charmm Amber Gromos Υπολογισμός Δομών Βιομορίων μέσω NMR ARIA XPLOR/CNS Βιβλιοθήκες μορίων για εικονική αναζήτηση ZINC http://hugin.ethz.ch/wuthrich/software/molmol/ http://www.umass.edu/microbio/rasmol/ http://www.ks.uiuc.edu/research/vmd/ http://www.avatar.se/molscript/ http://autodock.scripps.edu/ http://www.nmr.chem.uu.nl/haddock/ http://www.charmm.org/ http://amber.scripps.edu/ http://www.igc.ethz.ch/gromos/index http://www.pasteur.fr/recherche/unites/binfs/aria/ http://cns-online.org/v1.2/ http://zinc.docking.org/

Βάση Δεδομένων PDB (Protein Data Bank) Κάθε κατάθεση στο PDB αντιπροσωπεύεται από μια PDB ταυτότητα (PDBid), ένας κώδικας 4 χαρακτήρων της μορφής nxyz, όπου n= ακέραιος αριθμός και X, Y, και Z αλφαριθμητικοί χαρακτήρες, για παράδειγμα 4ΗΗΒ. Κατάθεση ατομικών συντεταγμένων από τον καταθέτη Ανάλυση, Αποτίμηση Σχολιασμός και Επικύρωση από την ομάδα της PDB, η οποία επικοινωνεί με τον καταθέτη Επανεξέταση και Τροποποιήσεις (εαν είναι αναγκαίο) από τον καταθέτη. Τα βήματα 2 & 3 μπορεί να επαναληφθούν Μετά την έγκριση από τον καταθέτη τα δεδομένα γίνονται διαθέσιμα σε όλη την ερευνητική κοινότητα.

Βάση Δεδομένων PDB (Protein Data Bank) Το περιεχόμενο ενός αρχείου Ατομικών Συντεταγμένων της Protein Data Bank (PDB)

Βάση Δεδομένων PDB (Protein Data Bank) Processed, waiting for author s review Deposition Withdrawn Release on publication Release on a Certain date

Εργαλείο Αντιστοίχισης Ακολουθιών ClustalW To ClustalW αποτελεί ένα εργαλείο αναζήτησης της συνολικά καλύτερης στοίχισης ενός ζεύγους ή ενός συνόλου ακολουθιών, οι οποίες ονομάζονται ακολουθίες εισαγωγής (νουκλεϊνικό οξύ ή πρωτεΐνη).

Εργαλείο Αντιστοίχισης Ακολουθιών ClustalW Εισάγετε τις ακολουθίες, οι οποίες πρέπει να ακολουθούν την ίδια κατάλληλη διαμόρφωση. Η εισαγωγή των ακολουθιών μπορεί να γίνει είτε με επικόλλησή τους στο παράθυρο εισόδου ακολουθιών είτε με μεταφόρτωση (upload) ενός αρχείου που τις περιέχει στο διακομιστή μεσολάβησης. Η γενική μορφή με τις οποίες εισάγουμε τισ ακολουθίες στο παράθυρο του ClustalW είναι: >PROT_HUMAN ASDFREWQYTPLMNHGFC >PROT_MOUSE RTYIPLKHGFVNMCXSADAGFDTRE RUN

Εργαλείο Αντιστοίχισης Ακολουθιών ClustalW Tο ClustalW βρίσκει την καλύτερη συνολική στοίχιση για κάθε υποβληθείσα ακολουθία. Το επόμενο τμήμα της σελίδας των αποτελεσμάτων, o «Πίνακας των αποτελεσμάτων», εμφανίζει τα ονόματα και τα μήκη των ακολουθιών που αναλύθηκαν καθώς και το σκορ που σημείωσε η κάθε ακολουθία κατά τη στοίχισή της με κάθε μια από τις υπόλοιπες.

Εργαλείο Αντιστοίχισης Ακολουθιών ClustalW * ταύτιση: αυτή η στήλη της στοίχισης εμφανίζει το ίδιο αμινοξύ σε όλες τις ακολουθίες (ή τις ίδιες βάσεις για ακολουθίες DNA). : συντηρητική υποκατάσταση: αυτήηστήληεμφανίζει διαφορετικά μεν αλλά ιδιαίτερα συντηρημένα αμινοξέα (αμινοξέα παρόμοιων ιδιοτήτων).. περιορισμένη ομοιότητα: αυτή η στήλη της στοίχισης εμφανίζει διαφορετικά αμινοξέα, τα οποία όμως εμφανίζουν ορισμένα κοινά χαρακτηριστικά. κενό καμιά ομοιότητα: αυτή η στήλη της στοίχισης εμφανίζει ανόμοια αμινοξέα ή κενά (ή διαφορετικές βάσεις για ακολουθίες DNA) Εάν υπάρχει ένας αρκετά σημαντικός αριθμός ( 30-40%) ομοιοτήτων (., :, ή *) στο σύνολο των ακολουθιών τότε είναι αρκετά πιθανό οι συγκεκριμένες ακολουθίες να σχετίζονται. Εάν υπάρχει ένας μεγαλύτερος αριθμός ( 50-60%) ομοιοτήτων, οι οποίες όμως ομαδοποιούνται σε ένα ή περισσότερα τμήματα της αντιστοίχισης τότε οι ακολουθίες είναι πιθανό να μοιράζονται μία ή περισσότερες λειτουργικές περιοχές. Εάν υπάρχουν λίγες ομοιότητες ( 20-25%) στη στοίχιση των ακολουθιών τότε η συσχέτιση των ακολουθιών σε επίπεδο λειτουργίας δεν είναι ιδιαίτερα πιθανή

Αποτελέσματα με βάση τις τιμές Ε (expect value) Εργαλείο Αναζήτησης Ακολουθιών Blast Για τιμές Ε μικρότερες από 1 x 10-50, το προκύπτον τμήμα παρουσιάζει μεγάλη ομοιότητα με την εξεταζόμενη ακολουθία. Για τιμές Ε μεταξύ 1 x 10-50 και 1 x 10-2, το τμήμα έχει μερική ομοιότητα με την εξεταζόμενη ακολουθία και είναι πιθανόν να σχετίζεται. Τέτοιες τιμές αποτελούν ένδειξη ότι η εξεταζόμενη ακολουθία ανήκει στην ίδια οικογένεια με τις προκύπτουσες ή ότι εμφανίζουν ομοιότητες στις λειτουργικές τους περιοχές. Για τιμές Ε μεταξύ 1 x 10-2 και 1, η προκύπτουσα αλληλουχία έχει μικρή πιθανότητα να σχετίζεται με την εξεταζόμενη ακολουθία. Για τιμές μικρότερες της μονάδας, η εξεταζόμενη ακολουθία δεν εμφανίζει καμία ομοιότητα με κανένα τμήμα στη βάση δεδομένων. Στη συγκεκριμένη άσκηση, τα αποτελέσματα από την αναζήτηση δίνουν τιμή Ε, η οποία ισούται με 1 x 10-132, η οποία ταιριάζει απόλυτα με την ακολουθία. Ορισμένες φορές ακολουθίες ακριβώς όμοιας ομολογίας εμφανίζουν μηδενική τιμή Ε. Η τελευταία ενότητα των αποτελεσμάτων, δίνει ανά ζεύγη την αντιστοίχιση της ακολουθίας των αμινοξέων της εκάστοτε προκύπτουσας αλληλουχίας με την εξεταζόμενη ακολουθία. Μετά τον αριθμό της βάσης δεδομένων και του ονόματος της ακολουθίας, εμφανίζεται το σκορ, η τιμή Ε και το ποσοστό των χημικά όμοιων πρωτεϊνών. Αυτή η διαδικασία είναι χρήσιμη για να διαπιστωθεί εάν η προς εξέταση ακολουθία εμφανίζει ταύτιση με μια ακολουθίαστηβάσηδεδομένων.