Εξελικτική Οικολογία - Διάλεξη 9. Επικ. Καθ. Πουλακάκης Νίκος poulakakis@nhmc.uoc.gr



Σχετικά έγγραφα
ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

LALING/PLALING :

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

ΦΥΛΟΓΕΝΕΤΙΚ Α ΔΕΝΤΡΑ

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Μέθοδοι μελέτης εξέλιξης

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 5 η : Φυλογενετική ανάλυση 2. Ηλίας Καππάς Τμήμα Βιολογίας

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Supplemental file 3. All 306 mapped IDs collected by IPA program. Supplemental file 6. The functions and main focused genes in each network.

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 4 η : Φυλογενετική ανάλυση 1. Ηλίας Καππάς Τμήμα Βιολογίας

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

ΠΟΛΛΑΠΛΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ I

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Φυλογένεση. 5o εργαστήριο

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

Λίγη εξέλιξη: οµολογία

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

HMY 795: Αναγνώριση Προτύπων

Πολλαπλή στοίχιση Φυλογένεση

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

(Μερος 2 ο ) Εισηγητής: Ν. Πουλακάκης

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Βιοπληροφορική. Ενότητα 15: Φυλογενετική Ανάλυση, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.


Υπερπροσαρμογή (Overfitting) (1)

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 3 η : Πολλαπλή ευθυγράμμιση. Σ. Γκέλης Τμήμα Βιολογίας

Supplementary Table 1. Primers used for RT-qPCR analysis of striatal and nigral tissue.

Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

HMY 795: Αναγνώριση Προτύπων

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Βιοπληροφορική. Ενότητα 2 η : Ανάλυση ακολουθίας Ηλίας Καππάς Τμήμα Βιολογίας

Μπεϋζιανή Στατιστική και MCMC Μέρος 2 ο : MCMC

Ειδικά Θέματα Βιοπληροφορικής

TreeTOPS. ένα εισαγωγικό παιχνίδι για τα φυλογενετικά δέντρα. Teacher s Guide. ELLS European Learning Laboratory for the Life Sciences

Βιοπληροφορική. Ενότητα 12: Μέθοδοι Πολλαπλής Στοίχισης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ ΙΙ - UNIX. Συστήματα Αρχείων. Διδάσκoντες: Καθ. Κ. Λαμπρινουδάκης Δρ. Α. Γαλάνη

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Θεωρήστε ένα puzzle (παιχνίδι σπαζοκεφαλιάς) με την ακόλουθη αρχική διαμόρφωση : b b b w w w e

Ασκήσεις μελέτης της 6 ης διάλεξης

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Βιοπληροφορική. Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Επίλυση Προβλημάτων 1

ΑΣΚΗΣΗ: ΣΧΕΔΙΑΣΜΟΣ ΕΚΚΙΝΗΤΩΝ ΕΥΡΕΣΗ ΘΕΣΕΩΝ ΠΕΡΙΟΡΙΣΜΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

Κεφ.11: Ευρετήρια και Κατακερματισμός

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ. ΠΛΗ 513 Αυτόνομοι Πράκτορες


Συστηματική και φυλογεωγραφία του συμπλέγματος ειδών Ablepharus kitaibelii στη περιοχή της ανατολικής Μεσογείου

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Άσκηση 3 Υπολογισμός του μέτρου της ταχύτητας και της επιτάχυνσης

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

2ο ΓΕΛ ΑΓ.ΔΗΜΗΤΡΙΟΥ ΑΕΠΠ ΘΕΟΔΟΣΙΟΥ ΔΙΟΝ ΠΡΟΣΟΧΗ ΣΤΑ ΠΑΡΑΚΑΤΩ

(Μέρος 1 ο ) Εισηγητής: Ν. Πουλακάκης

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 1: Εισαγωγή στη Βιοπληροφορική

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Τι προσφέρει το NCBI. Πληκτρολογούμε:

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

E [ -x ^2 z] = E[x z]

21. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ 4 - ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΜΕ ΤΟ BYOB BYOB. Αλγόριθμος Διαδικασία Παράμετροι

SilverPlatter WebSPIRS 4.1.

Transcript:

Εξελικτική Οικολογία - Διάλεξη 9 Φυλογενετικά δέντρα Εισηγητής Επικ. Καθ. Πουλακάκης Νίκος poulakakis@nhmc.uoc.gr

Δημιουργία φυλογενετικού δέντρου Τα βήματα που περιλαμβάνονται στη δημιουργία ενός δέντρου από νουκλεοτιδικές αλληλουχίες είναι: 1) Προσδιορισμός της αλληλουχίας του DNA 2) Προσδιορισμός άλλων αλληλουχιών σχετικών με τις αλληλουχίες που εξετάζουμε και απόκτηση αυτών σε ηλεκτρονική μορφή (από world wide databases). 3) Ευθυγράμμιση των αλληλουχιών 4) Χρήση του αποτελέσματος της ευθυγράμμισης για τη δημιουργία ενός δέντρου 5) Εκτύπωση και πιθανά δημοσίευση των αποτελεσμάτων Μετά το πρώτο βήμα, απαιτείται PC με σύνδεση στο Internet και μια ομάδα κατάλληλων υπολογιστικών προγραμμάτων

Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών Οι βάσεις δεδομένων λειτουργούν ως χώρος αποθήκευσης και άντλησης πληροφορίας, ενώ έχουν και τη δυνατότητα αναζητήσεων και ανταλλαγής δεδομένων με άλλες βάσεις. Ο αριθμός των διαθέσιμων αλληλουχιών αυξάνει ταχύτατα. Έχουν γίνει παράλληλες προσπάθειες σε Ευρώπη, Αμερική και Ιαπωνία για τη δημιουργία βάσεων δεδομένων με όλες τις αλληλουχίες που δημοσιεύονται: a) EMBL (European Molecular Biology Laboratory) database, maintained at EMBL-EBI b) GenBank (Genetic Sequence Data Bank) maintained at NCBI (National Center for Biotechnology Information) International Nucleotide Sequence Database Collaboration c) DDBJ (DNA Data Bank of Japan) maintained at NIG/CIB

Βάσεις δεδομένων Τα περισσότερα περιοδικά σήμερα απαιτούν οι αλληλουχίες που πρόκειται να δημοσιευτούν να είναι κατατεθειμένες σε κάποια βάση γενετικών δεδομένων. Απαιτούν την κατάθεση σε μια βάση, χωρίς να επηρεάζει το που θα δημοσιευθεί το σύνολο των αλληλουχιών λ Ανταλλαγή δεδομένων μεταξύ των βάσεων συμβαίνει καθημερινά Οι αλληλουχίες που κατατίθενται μπορεί να διατηρηθούν υπο φύλαξη μετά από σχετική αίτηση του ερευνητή για κάποιο εύλογο χρονικό διάστημα

Βάσεις δεδομένων Η ποσότητα της πληροφορίας ρ στις βάσεις αυξάνει με εκπληκτικό ρυθμό. Για παράδειγμα, το 2008 είχαν αποθηκευτεί κοντά στα 100 δις βάσεις νουκλεοτιδίων και 100 εκατομμύρια αλληλουχίες.

Κάθε αλληλουχία στις βάσεις χαρακτηρίζεται από Βάσεις δεδομένων 1) entry name, locus name or identifier (ID): Κάθε αλληλουχία έχει ένα και μοναδικό ID 2) accession number (AC): Κάθε AC είναι μοναδικός στη βάση 3) version number: Προέρχεται από το AC και είναι ο αριθμός των φορών που η αλληλουχία έει έχει τροποποιηθεί.

Βάσεις δεδομένων ENTREZ Database: Είναι η πιο χρήσιμη βάση δεδομένων ειδικά για φυλογενετικές αναλύσεις. 1) Παρέχει ολοκληρωμένη πρόσβαση σε νουκλεοτιδικές και πρωτεϊνικές αλληλουχίες. 2) Διαθέτει μηχανές αναζήτησης για παρόμοιες αλληλουχίες, παράγοντας μια λίστα από σχετικές αλληλουχίες και τις αντίστοιχες βιβλιογραφικές τους αναφορές. Η βάση Entrez αντλεί δεδομένα από: a) Nucleotide databases (GenBank, EMBL, DDBJ, and PDB), b) Protein databases, c) )Structure t databases, d) Taxonomy databases, e) Genome databases, f) Expression databases, and g) Literature databases (PubMed, OMIM, Books, PubMed Central).

Βάσεις δεδομένων Ανάκτηση σχετικών αλληλουχιών μέσω του BLAST Συνήθως έχουμε ήδη μια αλληλουχία (νουκλεοτιδική ή πρωτεϊνική) και χρειάζεται να βρούμε άλλες σχετικές με αυτήν αλληλουχίες. Με τον όρο σχετικές εννοούμε αλληλουχίες λ που είναι όμοιες προς την υπό εξέταση αλληλουχία και θεωρούμε ότι μοιράζονται τον ίδιο κοινό πρόγονο. Ο ευκολότερος τρόπος για την εύρεση σχετικών αλληλουχιών είναι με τη χρήση ενός προγράμματος που ψάχνει μέσα στις βάσεις γενετικών δεδομένων. Η μηχανή αναζήτησης που θα χρησιμοποιήσουμε για το σκοπό αυτό ονομάζεται BLAST (Basic Local lalignment tsearch htool).

Βάσεις δεδομένων Η οικογένεια BLAST περιλαμβάνει διάφορα προγράμματα μεταξύ των οποίων είναι τα: 1) BLASTN, που συγκρίνει νουκλεοτιδικές αλληλουχίες 2) BLASTP, που συγκρίνει πρωτεϊνικές αλληλουχίες

BLASTN

Αποτέλεσμα έρευνας για μια αλληλουχία BLASTN

BLASTN Οι περισσότεροι χρήστες του BLAST είναι γνώστες της αποκαλούμενης «παραδοσιακής» αναφοράς BLAST. Ηαναφορά αυτή αποτελείται από 3 κύριες ενότητες: (1) Ηπρώτη(κορυφή σελίδας), η οποία περιέχει πληροφορίες για την υποβαλλόμενη αλληλουχία, περιλαμβάνει τη βάση δεδομένων που ελέχθηκε χη (Εικ. 1) και μια γραφική απεικόνιση των αποτελεσμάτων (Εικ. 2) 1 2

Τύπος προγράμματος και έκδοση Το άρθρο που περιγράφει τον BLAST

H κόκκινη γραμμή αντιπροσωπεύει την υποβαλλόμενη αλληλουχία. Οι αλληλουχίες της βάσης δεδομένων εμφανίζονται ευθυγραμμισμένες ως προς αυτήν. Από αυτές, οι πιο όμοιες εμφανίζονται πιο κοντά στην υποβαλλόμενη.

Οι 3 πρώτες έχουν υψηλό score ομοιότητας (κόκκινες). ό

Οι επόμενες 12 έχουν μικρότερο score (μωβ) και οι οποίες ευθυγραμμίζονται με 2 περιοχές της υποβαλλόμενης, από τη θέση 3 60 και από τη θέση 220 500. Οι διαγραμμισμένες περιοχές υποδεικνύουν ότι οι δύο περιοχές είναι της ίδιας πρωτεΐνης, αλλά χωρίς ομοιότητα.

Οι υπόλοιπες γραμμές (πράσινες, μαύρες), υποδεικνύουν πολύ μικρό score (ομοιότητα). Τοποθετώντας το κέρσορα πάνω σε κάθε γραμμή θα εμφανίζεται η πρόταση καθορισμού για τη συγκεκριμένη αλληλουχία στο παράθυρο πάνω από το γράφημα.

BLASTN 2. Η δεύτερη ενότητα περιλαμβάνει σε μία σειρά την περιγραφή για κάθε αλληλουχία που ταιριάζει με την υποβαλλόμενη αλληλουχία.

Κάθε γραμμή αποτελείται από 4 πεδία: (α) Οαριθμόςgi, το όνομα της βάσης, ο σχετικός αριθμός εισόδου (Accession number), και το όνομα της αλληλουχίας, τα οποία διαχωρίζονται από κάθετες γραμμές, (β) σύντομη περιγραφή της αλληλουχίας (συνήθως έχει στοιχεία για τον οργανισμό από τον οποίο προέρχεται η αλληλουχία, τον τύπο της αλληλουχίας (π.χ. χ mrna ή DNA), τη λειτουργία της κ.α., (γ) το score της ευθυγράμμισης σε bits. Όσο πιο υψηλό είναι το score τόσο πιο ψηλά στη λίστα είναι η αλληλουχία και (δ) το E-value, που δίνει μια εκτίμηση της στατιστικής σημαντικότητας του αποτελέσματος.

Η πρώτη γραμμή του αποτελέσματος μας λέει ότι (α) ο αριθμός gi είναι 116365, η βάση δεδομένων είναι η sp (SWISS-PROT, βάση για πρωτεΐνες με υψηλή ακρίβεια), οαριθμόςεισόδουείναι P26374, το όνομα του τόπου RAE2_HUMAN, ηγραμμήπεριγραφήςείναιrab proteins, το score είναι 1216 και το E-value είναι 0.0. Οι πρώτες αλληλουχίες έχουν πολύ χαμηλό E-values (<1) και είναι είτε πρωτεΐνες RAB είτε αναστολείς GDP. Οι υπόλοιπες με μεγαλύτερο E-values, 0.5 και άνω, υποδεικνύουν ότι μπορεί να έχουν ταιριάξει τυχαία.

BLASTN 3. Η τρίτη ενότητα περιλαμβάνει τις ευθυγραμμίσεις για κάθε αλληλουχία της βάσης δεδομένων με την υποβαλλόμενη αλληλουχία.

Η ευθυγράμμιση έπεται της γραμμής που περιγράφει την αλληλουχία. Ακολουθεί το bit score (the raw score is in parentheses) και το E-value. Η επόμενη σειρά περιέχει πληροφορίες σχετικά με τον αριθμό των στοιχείων (νουκλεοτίδια ή αμινοξέα) της στοίχισης (Identities) και, εάν υπάρχουν, ο αριθμός των κενών (gaps) στην στοίχιση.

Τέλος, εμφανίζεται η στοίχιση (alignment) με την υποβαλλόμενη αλληλουχία στην κορυφή και την αλληλουχία της βάσης που ταιριάζει ως αντικείμενο (Sbjct) από κάτω. Οι αριθμοί δεξιά και αριστερά είναι οι αριθμοί των στοιχείων στην αλληλουχία (νουκλεοτίδια αμινοξέα). Οι παύλες υποδεικνύουν προσθήκες ή ελλείψεις. Oι κάθετες γραμμές μεταξύ των αλληλουχιών υποδεικνύουν ομοιότητα.

Ευθυγράμμιση αλληλουχιών

Στοίχιση αλληλουχιών, ένας ορισμός Ευθυγράμμιση αλληλουχιών H διευθέτηση των νουκλεοτιδίων ή των αμινοξέων δύο ή περισσότερων αλληλουχιών σε γραμμές (συνήθως) κάθετες, συμπεριλαμβάνοντας ελλείψεις και προσθήκες όπου είναι απαραίτητο έτσι ώστε όλες οι θέσεις να θεωρούνται ομόλογες.

Ευθυγράμμιση αλληλουχιών H διευθέτηση δύο ή περισσότερων αλληλουχιών (νουκλεοτιδικών ή πρωτεϊνικών) σε ένα πλέγμα (μήτρα) Στοιχεία (νουκλεοτίδια, αμινοξέα) ) της ίδιας σειράς προέρχονται ρχ από το ίδιο βιολογικό μακρομόριο (πρωτεΐνη ή νουκλεϊκό οξύ) Τα στοιχεία διευθετούνται με τη σειρά που εμφανίζονται στο μακρομόριο Από το Ν στο C άκρο στις πρωτεΐνες Από το 5 στο 3 στα νουκλεϊκά οξέα

Στοίχιση αλληλουχιών ανά ζεύγη Pairwise Alignment: Στοίχιση 2 αλληλουχιών

Στοίχιση πολλαπλών αλληλουχιών Multiple Sequence Alignment (MSA): Στοίχιση 3+ αλληλουχιών

Στοίχιση πολλαπλών αλληλουχιών MSAs είναι ουσιαστικά ένα σύνολο από pairwise alignments Σε ένα MSA των n αλληλουχιών γίνονται n(n-1)/2 pairwise alignemnts

Ευθυγράμμιση αλληλουχιών Κάθε κελί περιλαμβάνει ένα μόνο στοιχείο [είτεί ένα στοιχείο είτε ένα κενό (gap)] Τα στοιχεία της ίδιας στήλης είναι είτε δομικά ισοδύναμα είτε εξελικτικά ισοδύναμα (ομόλογα) Κελί

Δομική Ισοδυναμία http://cl.sdsc.edu/ce/ce_align.html 4HHB:A - HEMOGLOBIN (DEOXY) 4HHB:B - HEMOGLOBIN (DEOXY) Βακτηριακές τοξίνες και

http://cl.sdsc.edu/ce/ce_align.html 4HHB:A - HEMOGLOBIN (DEOXY) 4HHB:B - HEMOGLOBIN (DEOXY) Βακτηριακές τοξίνες και

http://cl.sdsc.edu/ce/ce_align.html 4HHB:A - HEMOGLOBIN (DEOXY) 4HHB:B - HEMOGLOBIN (DEOXY) Βακτηριακές τοξίνες και

Εξελικτική ισοδυναμία = ομολογία Ευθυγράμμιση αλληλουχιών Αναφερόμενοι στην ίδια στήλη, ηιστορία κάθε στοιχείου θα πρέπει να αναζητηθεί στοαντίστοιχοστοιχείοτηςπρογονικήςαλληλουχίας, όπου κάθε αλλαγή οφείλεται σε σημειακές αλλαγές Προγονική αλληλουχία λ AGWYTI Δημίουργία 2 αντίγραφων AGWYTI AGWYTI Υποκατάσταση Υ-W AGWWTI AGWYTI Υποκατάσταση G-Α AGWYTI AAWYTI Προσθήκη PPP AGWYTI AAQQQWYTI Ευθυγράμμιση 1 2 3 4 AGWYTI AGWYTI AGWWTI AGWYTI AGWYTI AAWYTI AG--- ---WYTI AAQQQWYTI

Παράδειγμα Ευθυγράμμιση αλληλουχιών Ποιο από τα 3 αποτελέσματα ευθυγράμμισης είναι το σωστό;

Ευθυγράμμιση αλληλουχιών Ανάλυση με διαφορετικά προγράμματα Τα διαφορετικά προγράμματα δίνουν διαφορετικά αποτελέσματα! Όλα είναι λάθος επειδή τα μοντέλα εξελικτικών διαδικασιών που χρησιμοποιούν είναι πολύ διαφορετικά από αυτό που διαφοροποίησε τις αλληλουχίες στο συγκεκριμένο παράδειγμα

Quiz: O αριθμός των προσθηκών Π ί λά θ ό θή ύ Ποιος είναι ο ελάχιστος αριθμός προσθήκων που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;

Quiz: O αριθμός των προσθηκών Ποιος είναι ο ελάχιστος αριθμός προσθηκών που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης; Εάν όλες οι αλληλουχίες είχαν το ίδιο μήκος, θα μπορούσαμε να εξηγήσουμε την ποικιλομορφία τους χωρίς καμία προσθήκη ή έλλειψη! Εάν η στοίχιση περιέχει αλληλουχίες που έχουν όλες μήκος χ ή ψ τότε Εάν η στοίχιση περιέχει αλληλουχίες που έχουν όλες μήκος χ ή ψ, τότε μπορούμε να εξηγήσουμε την ποικιλομορφία τους με μία προσθήκη ή με μία έλλειψη!

Quiz: O αριθμός των προσθηκών Ποιος είναι ο ελάχιστος αριθμός προσθηκών που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης; Μπορούμε ΠΑΝΤΑ να εξηγούμε την παρατηρούμενη ποικιλομορφία στο μήκος των αλληλουχιών με: 0 ελλείψεις (η ποικιλομορφία στο μήκος οφείλεται σε προσθήκη) 0 προσθήκες (η ποικιλομορφία στο μήκος οφείλεται σε έλλειψη) συνδυασμός ελλείψεων και προσθηκών

Quiz: O αριθμός των προσθηκών Ποιος είναι ο ελάχιστος αριθμός προσθήκων που απαιτούνται για την παραπάνω στοίχιση της αιμοσφαιρίνης;

Ευθυγράμμιση αλληλουχιών Διαθέσιμα προγράμματα για pairwise alignment

Διαθέσιμα προγράμματα για mutliple alignment

Ευθυγράμμιση αλληλουχιών Ένα ζεύγος αλληλουχιών μπορεί να ευθυγραμμιστεί γράφοντας την μία αλληλουχία κάτω από την άλλη με τέτοιο τρόπο ώστε να μεγιστοποιηθεί ο αριθμός των νουκλεοτιδίων που ταιριάζουν, βάζοντας κενά (gaps) στην μια ή στην άλλη αλληλουχία όταν απαιτείται. AF486227 TACGAAAACACCACCCAATCCTAAGAA AF486228 TACGAAAACACGACCCAATCCTAAAAA AF486223 TACGAAAACACCACCCTATCCTAAAAA Η ευθυγράμμιση γίνεται συνήθως με ειδικά υπολογιστικά πακέτα, που χρησιμοποιούν συγκεκριμένους αλγόριθμους. Οι περισσότεροι αλγόριθμοι αρχίζουν συγκρίνοντας την ομοιότητα των αλληλουχιών ανά ζεύγη, και ευθυγραμμίζοντας πρώτα τις δύο αλληλουχίες με τη μεγαλύτερη ομοιότητα. Οι άλλες αλληλουχίες, λ βάσει της σειράς ομοιότητας, προστίθενται σταδιακά.

Ευθυγράμμιση αλληλουχιών Όταν σε μια ομάδα αλληλουχιών έχουν προστεθεί κάποια κενά, τότε το τελικό alignment συχνά βελτιώνεται από τον ίδιο τον ερευνητή με manual editing. Η απόκτηση μιας καλής ευθυγράμμισης είναι ίσως το πιο σημαντικό βήμα ώστε να εκτιμήσουμε ένα σωστό φυλογενετικό δέντρο. AF486227 TACGAA--AACACCACC---CAATCCTAAGAA C CC CC C CC G AF486228 TACGAA--AACACGACCGGGCAATCCTAAAAA AF486223 TACGAATTAACACCACCGGGCTATCCTAAAAA Είναι αναγκαίο να ορίσουμε τον αριθμό των gaps ώστε το τελικό αποτέλεσμα να έχει βιολογική υπόσταση. Για το λόγο αυτό χρησιμοποιείται ένα σύστημα σκοραρίσματος όπου τα ταιριάσματα παίρνουν ένα θετικό βαθμό και τα κενά ένα αρνητικό, που είναι γνωστό ως gap penalty.

Ευθυγράμμιση αλληλουχιών Η ευθυγράμμιση δύο αλληλουχιών δεν είναι δύσκολη υπόθεση και υπάρχουν πολυάριθμα προγράμματα για το σκοπό αυτό. Όμως η ευθυγράμμιση πολλών αλληλουχιών είναι αρκετά πολύπλοκη υπόθεση και δυστυχώς λίγα προγράμματα μπορούν να το πετύχουν. Πρόγραμμα ClustalX είναι μια ανανεωμένη έκδοση του ClustalW. Για περισσότερες πληροφορίες υπάρχει on-line ClustalX help file στο δίκτυο: www.biozentrum.unibas.ch/~biophit/clus p tal/clustalx_help.html

Δημιουργία αρχείο εισαγωγής Ευθυγράμμιση αλληλουχιών Το ClustalX, όπως και άλλα προγράμματα, απαιτούν τα δεδομένα (input file) να είναι σε ειδική μορφή ώστε να μπορεί να αναγνωριστεί από το πρόγραμμα (i.e., Fasta format). Το input file περιέχει όλες τις αλληλουχίες που θέλουμε να ευθυγραμμίσουμε. Το ClustalX αναγνωρίζει διάφορα formats για τις αλληλουχίες, αλλά εμείς θα χρησιμοποιήσουμετο μ FASTA.

1 ο βήμα: Εισαγωγή των δεδομένων στο ClustalX Ευθυγράμμιση αλληλουχιών

Ευθυγράμμιση αλληλουχιών

2 ο βήμα: Κθ Καθορισμός των παραμέτρων ευθυγράμμισης Ευθυγράμμιση αλληλουχιών

3 ο βήμα: Καθορισμός μορφής αποτελεσμάτων Ευθυγράμμιση αλληλουχιών

4 ο Πραγματοποίηση ευθυγράμμισης Ευθυγράμμιση αλληλουχιών Το ClustalX lx παράγει την ευθυγράμμιση σε 3 στάδια: 1) Ευθυγραμμίζει κάθε αλληλουχία με κάθε μία από τις υπόλοιπες σε μια σειρά ευθυγραμμίσεων ανά ζεύγη 2) Χρησιμοποιεί αυτό το σύνολο των ανά ζεύγη ευθυγραμμίσεων και δημιουργεί ένα δέντρο οδηγό 3) Χρησιμοποιεί το δέντρο οδηγό ώστε να παράγει την ευθυγράμμιση όλων των αλληλουχιών (multiple alignments)

Φυλογενετική ανάλυση Μετατροπή του αρχείου της ευθυγράμμισης σε format που ανοίγει το πρόγραμμα MEGA

Φυλογενετική ανάλυση

Φυλογενετική ανάλυση

Φυλογενετική ανάλυση (MS Windows Version) Υπάρχουν 4 κύριες κατηγορίες μεθόδων 1) Μέθοδοι Αποστάσεων (Distance methods: Neighbor-Joining), 2) Μέγιστης Φειδωλότητας (Maximum parsimony, MP), 3) Μέγιστης Πιθανότητας (Maximum likelihood, ML) και 4) Μπεϋζιανή Συμπερασματολογία, (Bayesian inference, BI) Καμία μέθοδος δεν είναι η καλύτερη για όλες τις περιπτώσεις. Η μέθοδος που θα χρησιμοποιήσουμε μ εξαρτάται ξρ από το τι θέλουμε να μάθουμε και από το μέγεθος και την πολυπλοκότητα των δεδομένων.

Φυλογενετική ανάλυση Τα προγράμματα που θα χρησιμοποιήσουμε είναι: 1) MEGA: Molecular Evolutionary Genetics Analysis 2) PAUP: Phylogenetic Analysis Using Parsimony (*and other methods) (δεδομένα DNA και πρωτεΐνες). 3) Modeltest: εύρεση του κατάλληλου μοντέλου 4) Mr Bayes 5) TreeView

Εκτίμηση γενετικών αποστάσεων Το πρώτο βήμα στην ανάλυση των ευθυγραμμισμένων αλληλουχιών είναι η εκτίμηση της γενετικής ή εξελικτικής απόστασης μεταξύ των αλληλουχιών Είναι ένα μέτρο του πόσο διαφορετικές είναι οι αλληλουχίες και εκφράζει τον αριθμό των εξελικτικών αλλαγών που έχουν συμβεί από τη στιγμή της απόκλισης τους Η απλούστερη μέτρηση της εξελικτικής απόστασης είναι η απόσταση p όπου n d ο αριθμός των παρατηρούμενων νουκλεοτιδικών διαφορών και n ο συνολικός αριθμός των νουκλεοτιδίων που συγκρίνονται.

Ωστόσο αυτή η μέτρηση η υστερεί σε πολλά σημεία, π.χ. εάν ο ρυθμός υποκατάστασης είναι υψηλός, μπορεί να έχουμε υποεκτίμηση της πραγματικής γενετικής απόστασης (ομοπλασία: back mutation, parallel mutation, multiple mutation). A C T G A---C---T---G A C---G G T---A A A---C---T C G C A C T G A A C G T A A C G C Εκτίμηση γενετικών αποστάσεων A C---A Απλή Υποκατάσταση T G A ιαδοχικές Υποκαταστάσεις A C---A Τυχαίες Υποκαταστάσεις G T---A Παράλληλες Υποκαταστάσεις A A---T Συγκλίνουσες Υποκαταστάσεις C G C---T---C Ανάστροφες Υποκαταστάσεις Αλληλουχία 1 Αλληλουχία 2 A C T G G A G G A A T C G C A A T G A A A G A A T C G C

Εκτίμηση γενετικών αποστάσεων First: Second: A T T T G C C G C A T T G C G C C A T es Difference Substitutions

Εκτίμηση γενετικών αποστάσεων Εφόσον υπάρχουν 4 τύποι νουκλεοτιδίων (Α, Τ, C και G) σε κάθε αλληλουχία, υπάρχουν 16 διαφορετικοί τύποι νουκλεοτιδικών ζευγών μεταξύ δύο αλληλουχιών Χ και Ψ. Νουκλεοτιδικό ζεύγος Όμοια ΑΑ TT CC GG Total F O 1 O 2 O 3 O 4 O Ts AG GA TC CT Total Μετάπτωση F P 1 P 2 P 3 P 4 P Α C Μεταστροφήτ Tv AC AT GT GC Total Α, G πουρίνες Τ, C, πυριμιδίνες F Q 1 Q 2 Q 3 Q 4 G T CA CG TA TG F Q 5 Q 6 Q 7 Q 8 Q R= P/Q 0.5-2 στο ndna εως 15mtDNA

Εκτίμηση γενετικών αποστάσεων Δεδομένου ότι ηαπόστασηp μπορεί να υποεκτιμήσει την πραγματική ποσότητα της εξελικτικής αλλαγής, έχει γίνει μια μεγάλη προσπάθεια ανεύρεσης μοντέλων που μετατρέπουν την παρατηρούμενη η απόσταση σε πραγματική εξελικτική απόσταση. Τα μοντέλα αυτά ονομάζονται μοντέλα εξέλιξης ή μέθοδοι διόρθωσης αποστάσεων ή μοντέλα νουκλεοτιδικής υποκατάστασης. Το πρώτο μοντέλο που αναπτύχθηκε είναι των Jukes and Cantor (1969) (JC69), το οποίο θεωρεί ότι όλες οι αλλαγές μεταξύ των νουκλεοτιδίων μπορεί να συμβούν με ίση πιθανότητα d = -3/4 ln (1 4/3p)

1. Η απλούστερη περίπτωση: Jukes-Cantor model -- ίση πιθανότητα αλλαγής κάθε νουκλεοτιδίου A α G α α C α T

2. Άλλα μοντέλα λαμβάνουν υπόψη τους τις συχνότητες μεταπτώσεων και μεταστροφών A β G Μετάπτωση (Transition): από R σε R Y σε Y Μεταστροφή (Transversion): από R σε Y Y σε R α α ( ) C β T όπου R = A,G Y = C,T

Tamura Nei s Model Εκτίμηση γενετικών αποστάσεων Εκτίμηση γενετικών αποστάσεων = R G A R R G A g Q g g P g g g g d e 2 2 1 log 2 1 Tamura-Nei s Model R C T Y G A Y C T Y Y C T Q g g g g g g g Q g g P g g g g e 1 l 2 2 2 1 log 2 2 Y R Y R C T R Y G A Y R g g Q g g g g g g g g g g e 2 1 log 2 General Reversible Model + + Τ) ( Τ G C G C μcπ μbπ μαπ c b α μ π π π + + + + + + = Τ Τ Τ ) ( ) ( ) ( Τ C A C A Τ G G A A Τ G C G C μfπ f j μh μjπ μhπ μeπ μdπ e d μg μgπ μcπ μbπ μαπ c b μα Q π π π π π π π π π + + ) ( G C A G C A l k μi μlπ μkπ μiπ π π π

Εκτίμηση γενετικών αποστάσεων

MEGA 4 Φυλογενετική ανάλυση

Φυλογενετική ανάλυση

ΜΕΘΟΔΟΙ ΠΙΝΑΚΩΝ ΑΠΟΣΤΑΣΕΩΝ ΜΕΘΟΔΟΣ ΣΥΝΔΕΣΗΣ ΓΕΙΤΟΝΩΝ (NEIGHBOR JOINING) To δένδρο που παράγεται είναι άρριζο και συνήθως απαιτεί μια εξωομάδα για να βρεθεί η ρίζα. Η αρχή της μεθόδου στηρίζεται στην εύρεση των «γειτόνων» διαδοχικά ώστε να μειώνεται το συνολικό μήκος του δέντρου Παράδειγμα: Έστω ο πίνακας αποστάσεων 5 OTUs (A E) OTUs A B C D E A --- 0.08 0.19 0.70 0.65 B --- 017 0.17 075 0.75 070 0.70 C --- 0.80 0.60 D --- 012 0.12 E ---

Για κάθε OTU υπολογίζουμε τα μεγέθη r i : το άθροισμα των αποστάσεων της OTU i από όλες τις άλλες και r i /(n-2) όπου n ο αριθμός των OTUs OTUs A B C D E r r/n-2 A --- 0.08 0.19 0.70 0.65 1.62 0.54 B --- 0.17 0.75 0.70 1.70 0.57 C --- 0.80 0.60 1.76 0.59 D --- 0.12 2.37 0.79 E --- 2.07 0.69 Εν συνεχεία υπολογίζουμε τις τροποποιημένες αποστάσεις (D ij ) ως εξής: D ij = d ij - r i /(n-2) - r j /(n-2), π.χ. D AB = 008054057 0.08-0.54-0.57=-1.03, 103 όποτε έχουμε

OTUs A B C D E r r/n-2 A --- 0.08 0.19 0.70 0.65 1.62 0.54 B -1,03 --- 0.17 0.75 0.70 1.70 0.57 C -0,94-0,99 --- 0.80 0.60 1.76 0.59 D -0,63-0,61-0,58 --- 0.12 2.37 0.79 E -0,58-0,56-0,68-1,36 --- 2.07 0.69 Η μικρότερη (πιο αρνητική) απόσταση υποδεικνύει τις δύο OTUs που ομαδοποιούνται πρώτες (D και Ε στο παράδειγμα), μέσω ενός εσωτερικού «κόμβου 1». Η απόσταση των δύο OTUs από τον κόμβο υπολογίζεται ως εξής: d i -node = d ij /2 + [r i /(n-2) - r j /(n-2)]/2 d j -node = d ij /2 + [r j /(n-2) r i /(n-2)]/2 δηλαδή Απόσταση D κόμβος 1 = 0,12/2 + (0,79-0,69)/2 = 0,11 Απόσταση Ε κόμβος 1 = 0,12/2 + (0,69-0,79)/2 = 0,01

Οπότε προκύπτει 0.01 E 0.11 D Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs D και E εμφανίζονται ως ένα σύνθετο OΤU, κόμβος-1 και ακολουθείται η ίδια διαδικασία. Οι νέες αποστάσεις των OTUs από τον κόμβο 1 υπολογίζονται από τη σχέση: D k-node(ij) =(d ik +d jk -d ij )/2 Π.χ. η απόσταση Α - κόμβος 1 D A1 =(0,70+0,65-0,12)/2=0,615 OTUs A B C D E r r/n-2 A --- 0.08 0.19 0.70 0.65 1.62 0.54 B -1,03 --- 0.17 0.75 0.70 1.70 0.57 C -0,94-0,99 --- 0.80 0.60 1.76 0.59 D -0,63-0,61-0,58 --- 0.12 2.37 0.79 E -0,58-0,56-0,68-1,36 --- 2.07 0.69

Οπότε έχουμε OTUs A B C Κόμβος 1 r r/n-2 A --- 0.08 0.19 0.615 0,885 0,4425 B -0,82 082 --- 017 0.17 0.665 0915 0,915 04575 0,4575 C -0,7525-0,7875 --- 0.64 1,00 0,50 Κόμβος 1-0,7875 07875-0,7525 07525-0,82 082 --- 192 1,92 096 0,96 Η μικρότερη αρνητική απόσταση είναι μεταξύ του C και του κόμβου 1. Απόσταση C κόμβος 2 = 0,64/2 + (0,50-0,96)/2 = 0,09 Απόσταση κόμβου 1 κόμβος 2 = 0,64/2 + (0,96-0,50)/2 = 0,55

Οπότε έχουμε 0.09 C 0.01 E 2 0.55 1 011 0.11 Καταρτίζεται νέος πίνακας αποστάσεων στον οποίο τα OTUs C και κόμβος 1 εμφανίζονται ως ένα σύνθετο OΤU, κόμβος-2 και ακολουθείται η ίδια διαδικασία. D OTUs A B Κόμ-2 r r/n-2 A --- 0.08 0.0825 0,1625 0.1625 B -0,26 --- 0.0975 0,1775 0,1775 Κόμ-2-0,26-0,26 ----- 0.18 0,18

Επιλέγουμε το ζεύγος Α - Κόμβος 2. Απόσταση Α κόμβος 3 = 0,0825/2 + (0,1625-0,18)/2 = 0,0325 Απόσταση κόμβου 2 κόμβος 3 = 0,0825/2 + (0,18-0,1625)/2 = 0,05 Οπότε έχουμε A 0.03 3 2 0.05 C 0.09 055 0.55 0.01 1 E 0.11 D

Τέλος φτιάχνεται ο νέος πίνακας αποστάσεων μεταξύ του τελευταίου taxon και του κόμβου 3. OTUs B Κόμβος 3 B --- 0,0475 Κόμβος 3 ----- A 003 0.03 0.0475 B 3 2 0.05 C 0.09 0.55 0.01 1 E 0.11 D

Ανάλυση Σύνδεσης Γειτόνων στο MEGA

Ανάλυση Σύνδεσης Γειτόνων στο MEGA

Ανάλυση Σύνδεσης Γειτόνων στο MEGA

Ανάλυση Σύνδεσης Γειτόνων στο MEGA

Ανάλυση Σύνδεσης Γειτόνων στο MEGA

Μήκη Κλάδων Branch lengths

Δέντρα χωρίς κλίμακα Τα μήκη των κλάδων δεν παρέχουν καμία πληροφορία Τα μήκη των κλάδων συνήθως επιλέγεται να ευθυγραμμίζονται με τα ονόματα των ΟΤUs

Δέντρα με κλίμακα Τα μήκη των κλάδων αντιπροσωπεύουν ένα μέτρο των διαφορών/απόστασης των OTUs που βρίσκονται στις άκρες των κλάδων

Δέντρα με κλίμακα Τα μήκη των κλάδων αποτελούν λύ δί δείκτη της απόστασης των OTUs Τα δέντρα θα πρέπει να παρουσιάζονται με κλίμακα (scale bar)

Δέντρα με κλίμακα Τα μήκη των κλάδων αποτελούν δείκτη της απόστασης των OTUs Τα δέντρα θα πρέπει να παρουσιάζονται με κλίμακα Στα ορθογώνια δέντρα,, οι γραμμές των κόμβων δεν είναι μήκη κλάδων. Το μήκος τους δεν υποδεικνύει απόσταση ΟΤUs. Π.χ. η απόσταση μεταξύ των C και G είναι το άθροισμα της πράσινης και της γαλάζιας γραμμής, όχι και της κόκκινης.

Μετατροπή αρχείου σε nexus format Φυλογενετική ανάλυση

Φυλογενετική ανάλυση

ΜΕΘΟΔΟΣ ΜΕΓΙΣΤΗΣ ΦΕΙΔΩΛΟΤΗΤΑΣ Η μέθοδος αυτή χρησιμοποιεί το κριτήριο της φειδωλότητας. Αρχή: το καλύτερο δέντρο είναι αυτό που απαιτεί τον μικρότερο αριθμό εξελικτικών βημάτων για την εξήγηση των διαφορών μεταξύ των μελετούμενων taxa Νουκλεοτιδικές Θέσεις Μοναδικά νουκλεοτίδια Αμετάβλητες Μεταβλητές Πληροφοριακές θέσεις Πληροφοριακή θέση: θέση που ευνοεί κάποιο δέντρο έναντι των υπολοίπων. Όταν υπάρχουν 2τουλάχιστον καταστάσεις χαρακτήρων κάθε μια από τις οποίες αντιπροσωπεύεται σε τουλάχιστον 2 από τα taxa.

Για παράδειγμα έστω 4 υποθετικές αλληλουχίες Νουκλεοτιδικές θέσεις Αλληλουχία 1 2 3 4 5 6 7 8 9 1 A A G A G T G C A 2 A G C C G T G C T 3 A G A T A T C C A 4 A G A G A T C C T 1o Βήμα: Εντοπισμός Πληροφοριακών θέσεων Θέσεις 1, 6, 8 = αμετάβλητες Θέσεις 2, 3, 4, 5, 7 και 9 =μεταβλητές. Ποιες όμως είναι πληροφοριακές;

Νουκλεοτιδικές θέσεις Αλληλουχία 1 2 3 4 5 6 7 8 9 1 A A G A G T G C A 2 A G C C G T G C T 3 A G A T A T C C A 4 A G A G A T C C T

Νουκλεοτιδικές θέσεις Αλληλουχία 1 2 3 4 5 6 7 8 9 1 A A G A G T G C A 2 A G C C G T G C T 3 A G A T A T C C A 4 A G A G A T C C T

2o Βήμα: Υπολογισμός των απαιτούμενων εξελικτικών αλλαγών για κάθε δένδρο Για το δέντρο Ι τα εξελικτικά βήματα είναι 1+1+2 Για το δέντρο ΙΙ τα εξελικτικά βήματα είναι 2+2+12 Για το δέντρο ΙΙΙ τα εξελικτικά βήματα είναι 2+2+2 3o Βήμα: Άθροισμα του αριθμού των αλλαγών Για το δέντρο Ι = 4 Για το δέντρο ΙΙ = 5 Για το δέντρο ΙΙΙ = 6 4o Βήμα: Επιλογή του πιο φειδωλού δέντρου Δέντρο Ι

Εύρεση των ιδεατών δέντρων Αλγόριθμοι Ακριβείς αλγόριθμοι Ευρετικοί αλγόριθμοι Ακριβείς αλγόριθμοι Exhaustive (<11 taxa) Αποτίμηση όλων των δέντρων και εύρεση του πιο «καλού» Branch and Bound (11<taxa<20) Εγγυάται την εύρεση του καλύτερου δέντρου, χωρίς να απαιτείται η αποτίμηση κάθε δέντρου

Exhaustive search A B 1 1 2 A1 3 4 2 1 4 2 1 2 B1 B2 B3 4 Κατασκευάζει ένα τυχαίο δέντρο με όλες τις αλληλουχίες. Αρχίζει από ένα δέντρο με 3 taxa. C 1 3 5 4 2 1 5 4 2 C11 C12 3 3 1 4 5 2 1 4 5 2 1 4 2 5 C21-D25 C31-D35 To 4 ο taxon προστίθεται με την προσθήκη ενός νέου κλάδου στο μέσο κάθε προϋπάρχοντος κλάδου. C13 C14 C15 D151-D157 Εκτιμά το παραγόμενο δέντρο, βάσει κάποιου κριτηρίου (π.χ. χ μήκος).

Πιθανά δέντρα Η διακλαδωτική σειρά του δένδρου (έρριζου ζ ή άρριζου) ) καλείται τοπολογία. για έρριζα δένδρα (n 2): για άρριζα δένδρα (n 3): N R = ( 2n ) 3! 2 n 2 ( n 2 )! N U = ( 2n ) 5! n 2 3 ( n 3 )! Number of Number of rooted trees Number of unrooted trees OTUs (n) (Ν R ) (N U ) 2 3 4 5 6 7 8 9 10 15 20 1 3 15 105 904 10,395 135,135 2,027,025 34,459,425 213,458,046,676,875 676 875 8,200,794,532,637,891,559,375 1 1 3 15 105 904 10,395 135,135 2,027,025 7,905,853,580,625 580 221,643,095,476,699,771,875

Branch and Bound search Ο αλγόριθμος αγόριθμοςξεκινάει φτιάχνοντας ένα δέντρο με όλα τα taxa, το οποίο δεν είναι απαραίτητα και το βέλτιστο και στη συνέχεια συναρμολογεί ένα δέντρο προσθέτοντας ένα taxon κάθε φορά. Α1 Β3 Για 3 taxa (A, B & C) υπάρχει ένα πιθανό δέντρο (A1). Το τέταρτο taxon (D) μπορεί να προστεθεί (branch) ως νέος κλάδος σε κάθε έναν από τους 3 εσωτερικούς κόμβους, δημιουργώντας 3 πιθανά δέντρα (B1, B2, & B3). Ελέγχουμε τα παραγόμενα δέντρα. Το Β2 δημιουργεί ένα νέο όριο (bound) με μήκος 838. Τα Β1, Β3 έχουν μεγαλύτερο μήκος (από το αρχικό τυχαίο δέντρο, 964) και απορρίπτονται και αυτά και τα παράγωγα αυτών δέντρα. Β1 Β2 Το 5 ο taxon (Ε) προστίθεται σε κάθε ένα από τους 5 εσωτερικούς κόμβους του δέντρου Β2. Ελέγχουμε τα νέα δέντρα. Τα Γ1, Γ2, Γ3 έχουν μεγαλύτερο μήκος από το αρχικό και απορρίπτονται. Το Γ4 έχει το ίδιο, ενώ το Γ5 μικρότερο δημιουργώντας ένα νέο όριο (bound), ώστε αν υπήρχε και 6 ο taxon να ξεκινούσαμε από αυτό, δημιουργώντας κάθε φορά ένα νέο όριο.

Branch and Bound search Στο πρώτο βήμα αποκλείονται το 1/3 των πιθανών δέντρων, στο δεύτερο το ½ των υπόλοιπων πιθανών δέντρων με αποτέλεσμα να είναι αναγκαίο να εκτιμηθεί το 1/6 των πιθανών δέντρων. Υπό ιδανικές συνθήκες μόνο ένα δέντρο θα παραμείνει σε κάθε βήμα. Η μέθοδος είναι υπολογιστικά εφικτή για αναλύσεις μέχρι 20 taxa που έχουν ~8.2*10 21 Figure modified from Krane & Raymer 2004

Heuristic search Ευρετική μέθοδος (>20 taxa) Όταν ο αριθμός των πιθανών δέντρων είναι μεγάλος, τότε η εκτίμηση κάθε δέντρου, χρησιμοποιώντας ακριβείς μεθόδους είναι πρακτικά αδύνατη. Η ευρετική ήμέθοδος ς( (heuristic search) είναι ουσιαστικά ένας αλγόριθμος αναρρίχησης λόφου (hill climbing), όπου επιλέγεται ένα αρχικό δέντρο και στη συνέχεια γίνονται αναδιευθετήσεις επιζητώντας τη βελτίωση του δέντρου, βάσει του δεδομένου κριτηρίου επιλογής.

Υπάρχουν πολυάριθμοι ευρετικοί αλγόριθμοι όπως Ευρετικοί αλγόριθμοι 1) Stepwise addition (προσομοιάζει την Branch and Bound) Αρχίζει με ένα δέντρο 3 αλληλουχιών Προσθέτει ένα taxon Εκτιμά όλα τα δέντρα Επιλέγει το δέντρο με το καλύτερο score και προσθέτει νέο taxon

Ευρετικοί αλγόριθμοι Μειονέκτημα: εάν το καλύτερο δέντρο σε ένα επίπεδο είναι το Α, αλλά τελικά το καλύτερο δέντρο με όλα τα taxa προέρχεται από το Β του ίδιου επιπέδου, τότε το καλύτερο δέντρο δεν θα βρεθεί. Η τεχνική stepwise θα σκαρφαλώσει στη κορυφή ενός λόφου, αλλά ο λόφος αυτός δεν είναι ο ψηλότερος.

Ευρετικοί αλγόριθμοι 2) Star Decomposition O αλγόριθμος ξεκινάει με όλα τα taxa να συνδέονται σε δέντρο με μορφή άστρου (star topology, όλα τα taxa συνδέονται σε ένα εσωτερικό κόμβο). Στη συνέχεια εκτιμώνται όλα τα δέντρα που δημιουργούνται με σύνδεση δύο ακραίων taxa (terminal nodes) σε μία ομάδα. Το δέντρο με τη καλύτερη τιμή (best score) διατηρείται για το επόμενο στάδιο. Σε κάθε βήμα, όταν δημιουργούμε μία νέα ομάδα, ο αριθμός των κλαδιών μειώνεται κατά ένα. Και αυτό συνεχίζεται μέχρι να έχουμε ένα διχοτομούμενο δέντρο.

Ευρετικοί αλγόριθμοι Branch swapping (αναδιευθέτηση κλάδων) Στοχεύει στη βελτίωση της αρχικής εκτίμησης πραγματοποιώντας προκαθορισμένες διευθετήσεις στο δέντρο. Στην ουσία είναι τρόποι να «σπρώξεις» το δέντρο να ξεκολλήσει από το τοπικό βέλτιστο και να οδηγηθεί στο συνολικό βέλτιστο. Η μέθοδος αυτή περιλαμβάνει κόψιμο του δέντρου σε ένα ή περισσότερα σημεία (subtrees) και συναρμολόγησή του με τέτοιο τρόπο ώστε να διαφέρει από το αρχικό δέντρο. Υπάρχουν 3 είδη μετακίνησης των υποδέντρων (subtrees) NNI (nearest-neighbor interchange) SPR (subtree pruning and regrafting) TBR (tree bisection and recombination)

Branch swapping SPR TBR NNI Εσωτερικός κλάδος Nearest Neighbor Interchange Sub-tree Pruning and Regrafting Tree bisection and reconnection

Branch swapping NNI Εσωτερικός κλάδος Εικόνα 1 Εικόνα 2 Εικόνα 3 Αρχικό δέντρο Ανταλλαγή Ανταλλαγή 1 με 3 2 με 3 Nearest Neighbor Interchange Η απλούστερη μέθοδος, γνωστή ως ΝΝΙ, αλλάζει τη συνδεσιμότητα των 4 υποδέντρων του κύριου δέντρου. Κάθε εσωτερικός κλάδος ενός άριζου δέντρου (εικόνα 1) έχει 4 υποδέντρα που συνδέονται σε αυτόν (ένα υποδέντρο μπορεί να αποτελείται από 1 και μόνο κόμβο). Η ΝΝΙ αλλάζει τη θέση αυτών, παράγοντας νέα δέντρα. Υπάρχουν μόνο 2 αλλαγές που οδηγούν σε νέα δέντρα (εικόνες 2 και 3). Η διαδικασία συνεχίζει για κάθε εσωτερικό κλάδο έως ότου να μην γίνονται βελτιώσεις του αρχικού δέντρου βάσει του αρχικού κριτηρίου. Ένα δέντρο με Ν>2 φύλλα (κόμβους) έχει Ν-3 εσωτερικούς κλάδους και έτσι η ΝΝΙ, που ελέγχει 2 δέντρα για κάθε εσωτερικό κλάδο, θα εξετάσει 2(Ν-3) νέα δέντρα.

Sub-tree Pruning and Regrafting («κλαδεύω και μπολιάζω») Εικόνα 1 Εικόνα 2 Εικόνα 3 Εικόνα 4 Εικόνα 5 Αρχικό δέντρο Μπόλιασμα του (1,2) στο κλαδί 6 Μπόλιασμα του (1,2) στο κλαδί 5 Μπόλιασμα του 3 στο κλαδί 4 Μπόλιασμα του (1,2) στο κλαδί 4 Η SSR είναι μια στρατηγική ελέγχου της τοπολογίας ενός δέντρου που προσπαθεί να βελτιώσει την αξία (πιθανότητα) ενός δέντρου μέσω της εξής διαδικασίας: 1. Επιλέγει το υποδέντρο του αρχικού δέντρου που θα κλαδέψει (pruning) 2. Αφαιρεί το υποδέντρο και το μπολιάζει σε άλλο σημείο του εναπομείναντος δέντρου, δημιουργώντας ένα νέο δέντρο (π.χ. στην εικόνα 2 κλάδεμα του (1,2) και μπόλιασμα στο κλαδί που οδηγεί στο 6 3. Η διαδικασία δ συνεχίζεται για κάθε πιθανό υποδέντρο και για κάθε κλαδί που μπορεί να το δεχτεί.