1. Άρθρα- δημοσιεύσεις Scopus DBLP Pubmed Google Scholar 2. Αναζήτηση νουκλεοτιδίου- πρωτεΐνης Entrez : http://www.ncbi.nlm.nih.gov/nuccore/ Uniprot (πρωτεΐνης): http://www.uniprot.org/ Blast : http://blast.ncbi.nlm.nih.gov/blast.cgi 3. Μετατροπή τύπων αλληλουχιών READSEQ: http://www.ebi.ac.uk/tools/sfc/readseq/ 4. Οπτική (dot-plot) σύγκριση δύο αλληλουχιών dotmatcher (threshold, window size) : http://emboss.bioinformatics.nl/cgibin/emboss/dotmatcher dotpath (word size) : http://emboss.bioinformatics.nl/cgi-bin/emboss/dotpath LALING/PLALING : http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=lplalign&pgm=lpald 5. Ολική στοίχιση αλληλουχιών http://emboss.bioinformatics.nl/ Needle (αλγόριθμος Needleman-Wunsch) Stretcher (βρίσκει την καλύτερη ολική στοίχιση ανάλογα) 6. Τοπική στοίχιση αλληλουχιών http://emboss.bioinformatics.nl/ Water (αλγόριθμος Smith-Waterman) 7. Δημιουργία μοτίβου WebLogo : (http://weblogo.berkeley.edu/logo.cgi
8. Δημιουργία δέντρων JalView (Clustalw-> Result summary -> JalView -> Calculate (καρτέλα) ->Calculate tree)
Σειρά πινάκων PAM-n όπου n: αποδεκτές σημειακές μεταλλάξεις εξελεγκτική απόσταση PAM PAM1: 1 αποδεκτή μετάλλαξη στα 100 αμινοξέα PAM250: 250 αποδεκτές μεταλλάξεις στα 100 αμινοξέα Μικρό n: Μικρή εξελεγκτική απόσταση μεταξύ των αλληλουχιών (λίγες αντικαταστάσεις) Μεγάλο n: Μεγάλη εξελεγκτική απόσταση μεταξύ των αλληλουχιών (πολλές αντικαταστάσεις) Πίνακες PAM με μικρό n: Περιμένουμε οι δύο εξεταζόμενες αλληλουχίες να έχουν μεγάλο ποσοστό ομοιότητας (μικρή εξελεγκτική απόσταση) Πίνακες PAM με μεγάλο n: Περιμένουμε οι δύο εξεταζόμενες αλληλουχίες να μην έχουν μεγάλο ποσοστό ομοιότητας (μεγάλη εξελεγκτική απόσταση) BLOSUMn: Το n δείχνει το ποσοστό ομοιότητας των αλληλουχιών που χρησιμοποιήθηκαν για να προκύψει ο συγκεκριμένος πίνακας. Αλληλουχίες με ομοιότητα τουλάχιστον 62% δίνουν τον πίνακα αντικατάστασης BLOSUM62s) BLOSUM με μεγάλο n: αλληλουχίες με μεγάλη ομοιότητα BLOSUM με μεγάλο n PAM με μικρό n Γενικά, οι πίνακες BLOSUM είναι καλύτεροι για την εύρεση τοπικών στοιχίσεων PAM is based on an evolutionary model using phylogenetic trees (85% similarity) BLOSUM assumes no evolutionary model, but rather conserved blocks of proteins
Από το window εξαρτάται το πόσα στοιχεία θα συγκρίνουμε κάθε φορά. Στην παρούσα περίπτωση συγκρίνουμε ανά δύο τα στοιχεία. Εάν τα στοιχεία είναι κοινά (πλήρης ομοιότητα) τότε βάζουμε τελεία. Σε περιπτώσεις όπου έχουμε ένα γράμμα κοινό σε κάθε ομάδα (stringency) και η θέση του γράμματος είναι η ίδια (Α-Τα με Α-G) τότε βάζουμε τελεία.
Με τον τρόπο αυτό μειώνουμε το θόρυβο του αρχικού dot plot. Στήλες με ίδιο γράμμα = ταίριασμα (match) Στήλες με διαφορετικό γράμμα = ασυμφωνία (mismatch) Στήλες με κενό = Πρόσθεση ή αφαίρεση στοιχείου (insertion deletion)
Στον αλγόριθμο Needleman-Wunsch στη στοίχιση βάζουμε κενό στα παρακάτω : Αλγόριθμος Smith - Waterman Αρνητική βαθμολογία για ταίριασμα ανόμοιων καταλοίπων Όταν μία βαθμολογία είναι αρνητική, αντικαθίσταται με το 0 Matrix traceback: Ξεκινά από τη μεγαλύτερη βαθμολογία και όχι από το στοιχείο (n,m)
Προοδευτική πολλαπλή στοίχιση ακολουθιών Αποδίδεται σε κάθε στοίχιση μία βαθμολογία ε η οποία δίνει μία ιδέα για τη συνεισφορά της συγκεκριμένης στοίχισης στην πολλαπλή στοίχιση, όπου ε = βέλτιστη βαθμολογία στοίχισης βαθμολογία στοίχισης στην πολλαπλή στοίχιση υψηλό ε: Η πολλαπλή στοίχιση αποκλίνει από τη στοίχιση κατά ζεύγη, χαμηλή συνεισφορά χαμηλό ε: Παρόμοια η πολλαπλή στοίχιση με τη στοίχιση κατά ζεύγη, υψηλή συνεισφορά
Ένα υψηλό SP-score υποδηλώνει ότι η στοίχιση είναι σωστή
Φυλογενετική ανάλυση Ομοιότητα παρουσιάζουν οι αλληλουχίες που αποτελούνται από ίδια ταυτόσημα κατάλοιπα (νουκλεοτίδια, αμινοξέα) Ομολογία παρουσιάζουν οι αλληλουχίες που προέρχονται από τον ίδιο πρόγονο. Για παράδειγμα, πρωτεΐνες με στατιστικά σημαντικό ποσοστό ομοιότητας και, πιθανά, παρόμοια δομή και λειτουργία. Όταν δύο αλληλουχίες παρουσιάζουν ομοιότητα >35%, είναι πιθανά και ομόλογες 35-20%, δεν είναι ασφαλή τα συμπεράσματα <20%, τυχαία ομοιότητα
όπου m= εξελικτικές μονάδες (πλήθος αλληλουχιών) UPGA : http://www.southampton.ac.uk/~re1u06/teaching/upgma/ Heuristic (tried-and-true) methods: Είναι σχεδόν πάντα αποτελεσματικοί στην εύρεση σχετικών αλληλουχιών μιας βάσης δεδομένων αλλά δεν εγγυώνται ότι αυτή η λύση είναι και βέλτιστη, όπως συμβαίνει με τον δυναμικό προγραμματισμό. FASTA: Εντοπίζει κοινά μοτίβα μεταξύ της αλληλουχίας και των καταχωρήσεων μίας βιολογικής βάσης και τα ενώνει σε μία στοίχιση. BLAST: Παρόμοια μέθοδος με την FASTA, αλλά ταχύτερη καθώς αναζητεί ομοιότητες μόνο μεταξύ σημαντικών μοτίβων που εντοπίζονται στην αλληλουχία Τιμή Ε (E-value): Η προτεινόμενη αλληλουχία θα πρέπει να έχει Ε με μικρή τιμή και μία καλή στοίχιση με την υπό διερεύνηση αλληλουχία. Τι δείχνει: Την πιθανότητα το αποτέλεσμα να είναι τυχαίο Ανώτατο όριο για την τιμή Ε: 0.01-0.05 Προσοχή: Η αλληλουχία θα πρέπει να εξεταστεί για επαναλαμβανόμενες περιοχές για την αποφυγή λανθασμένα υψηλής βαθμολόγησης της στοίχισης Ο αλγόριθμος FASTA αναζητεί περιοχές-μοτίβα που να ταιριάζουν μεταξύ της άγνωστης αλληλουχίας και των αλληλουχιών της βάσης δεδομένων Αρχή λειτουργίας: Οι βέλτιστες στοιχίσεις περιέχουν μικρές περιοχές όπου οι βαθμολογία στοίχισης είναι μεγαλύτερη από μία τιμή κατωφλίου. Μικρές περιοχές = λέξεις χωρίς κενά = k-tuples 2 αμινοξέα στην περίπτωση της πρωτεΐνης 4-6 νουκλεοτίδια στην περίπτωση DNA
Πιθανότητα μετάλλαξης σύμφωνα με PAM250 Phe Tyr = 0.15 Διαιρώ με συχνότητα εμφάνισης Phe: 0.15 / 0.040 = 3.75 Υπολογίζω λογάριθμο με βάση το 10: log103.75 = 0.57 Πολλαπλασιάζω με 10: 0.57x10 = 5.7 Πιθανότητα μετάλλαξης σύμφωνα με PAM250 Tyr Phe = 0.20 Διαιρώ με συχνότητα εμφάνισης Tyr: 0.20 / 0.030 = 6.7 Υπολογίζω λογάριθμο με βάση το 10: log106.7 = 0.83 Πολλαπλασιάζω με 10: 0.83x10 = 8.3 Average: 5.7 + 8.3 = 7 Q (glutamine) E (glutamic acid), τιμή = 2
Επειδή το σκορ του πίνακα πολλαπλασιάστηκε επί 10 για να μην έχουμε δεκαδικά: το σκορ είναι 0.2 Συνεπώς 0.2 = log10(σχετική αναμενόμενη τιμή μετάλλαξης) σχετική αναμενόμενη τιμή μετάλλαξης = 100.2 = 1.6 πολλαπλασιάζω με τη συχνότητα εμφάνισης του Q, 3.7% = 0.037 1.6x0.037 = 0.0592 Ερμηνεία: Η πιθανότητα μετάλλαξης από Q (glutamine) E (glutamic acid) είναι 5.92% σύμφωνα με τον πίνακα PAM250