Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

Σχετικά έγγραφα
Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Πολλαπλές στοιχίσεις ακολουθιών (Προοδευτικές μέθοδοι)

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βάσεις δομικών δεδομένων βιολογικών μακρομορίων

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Πιθανοθεωρητικά µοντέλα αναπαράστασης ακολουθιών

Ειδικά Θέματα Βιοπληροφορικής

Προγνωστικές μέθοδοι με βάση αμινοξικές αλληλουχίες

Συγκριτική Γονιδιωματική

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

LALING/PLALING :

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (2/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Προγνωστικές μέθοδοι με βάση αλληλουχίες DNA

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών,(2/2) 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

BIOTECH - GO. Μία συνδυασμένη μέθοδος εκπαίδευσης στη Βιοπληροφορική - Το μέσο των μικρομεσαίων επιχειρήσεων για τις βιοτεχνολογικές καινοτομίες

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

Βιοπληροφορική. Ενότητα 12: Μέθοδοι Πολλαπλής Στοίχισης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Επερωτήσεις σύζευξης με κατάταξη

ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Ενότητα 1 η : Εισαγωγή. Ηλίας Καππάς Τμήμα Βιολογίας

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

Βάσεις δεδομένων χαρτογράφησης γονιδιωμάτων

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

Σηµειώσεις Βιοπληροφορικής

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

A sequence alignment algorithm using the transition quantity

Βιοπληροφορική. Ενότητα 20: Υπολογιστικός Προσδιορισμός Δομής (2/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Αλγόριθµοι Εύρεσης Οµοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σηµαντικότητας. Πίνακες αντικατάστασης για σύγκριση ακολουθιών

Τι προσφέρει το NCBI. Πληκτρολογούμε:

ΑΣΚΗΣΗ 1η Αναζήτηση πληροφορίας σε Βιβλιογραφικές Βάσεις εδοµένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Μέθοδοι Προσπέλασης για την Επεξεργασία Μεγάλων Βιολογικών Βάσεων Δεδομένων. Ανδρουλάκης Ανδρέας

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Βιοπληροφορική. Ενότητα 13: Μοντέλα Πολλαπλής Στοίχισης (1/2), 1.5ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment) Blast

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Ειδικά Θέματα Βιοπληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

ΔΗΜΟΤΙΚΕΣ ΕΚΛΟΓΕΣ 18/5/2014 ΑΚΥΡΑ

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

Θέμα 1: Robbie και Αναζήτηση

Επίλυση Προβλημάτων 1

Αλληλοεπικαλυπτόμενα επιστημονικά πεδία Υπολογιστικής Βιολογίας

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

Διάλεξη 19: Κατανομή Πόρων Κόψιμο Τούρτας. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

Ε ανάληψη. Α ληροφόρητη αναζήτηση

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

της φοιτήτριας του Τµήµατος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστηµίου Πατρών

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 7: Σύγκριση αλληλουχιών Part II

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Καταμερισμός στο ίκτυο (4)

ΈΡΕΥΝΑ ΜΕΤΑΒΛΗΤΗΣ ΓΕΙΤΟΝΙΑΣ (Variable Neighborhood Search - VNS) VNS) (Variable Neighborhood Search -

Analysis of Protein Structure in Silico

ΑΛΓΟΡΙΘΜΙΚΕΣ ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

Βιοπληροφορική. Ενότητα 2: Βάσεις Δεδομένων (1/3), 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Θεωρήστε ένα puzzle (παιχνίδι σπαζοκεφαλιάς) με την ακόλουθη αρχική διαμόρφωση : b b b w w w e

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ Ι ΔΙΑΧΕΙΡΙΣΗ ΜΝΗΜΗΣ. Διδάσκοντες: Καθ. Κ. Λαμπρινουδάκης Δρ. Α. Γαλάνη Λειτουργικά Συστήματα

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Βιοπληροφορική. Ενότητα 2 η : Ανάλυση ακολουθίας Ηλίας Καππάς Τμήμα Βιολογίας

Θεωρία Λήψης Αποφάσεων

Μάθημα 8 ο. Ανίχνευση Ακμών ΤΜΗΥΠ / ΕΕΣΤ 1

Transcript:

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων Vasilis Promponas Bioinformatics Research Laboratory Department of Biological Sciences University of Cyprus

ΣΥΝΟΨΗ Πού είναι το πρόβλημα?? Ρυθμός καταχώρησης δεδομένων ακολουθιών Αποδοτικότητα αλγορίθμων ΔΠ Πως θα κόψουμε δρόμο?? Κόψε τις γωνιές! γρήγορα!! ΕΚΡΗΞΗ!!! Συζήτηση...

Πού είναι το πρόβλημα?? Υπάρχει πρόβλημα? Διαρκής συσσώρευση νέων δεδομένων ακολουθιών Ακολουθεί το νόμο του Moore

Γιατί όμως?? Μάϊος 2002 ΣΗΜΕΡΑ http://www.genomesonline.org/

... μα και τι έγινε...? Έχουμε σχετικά αποδοτικούς αλγορίθμους ΔΠ Εγγυημένη βέλτιστη στοίχιση 2 2Ν => Ν 2 [Ο(ΜΝ)] Ναι, αλλά όταν το Ν μεγαλώνει πολύ γρήγορα...

Ευριστικές Λύσεις (κοινώς: Μαφίες, Κομπίνες ή Παγαποντιές...) Μείωση του χρόνου εκτέλεσης Πώς??? Εύρεση παραδεκτών (όχι εγγυημένα βέλτιστων) λύσεων Πόσο καλές? Ισορροπία μεταξύ ΑΠΟΔΟΣΗΣ (χρόνος CPU/μνήμη) και ΕΥΑΙΣΘΗΣΙΑΣ (ποιότητα)

Ευριστικές Λύσεις (1.Κοπή Γονιών) (Kruskal and Sankoff, 1983) Μείωση των υπολογισμών στον Πίνακα ΔΠ Παραδοχή Η διαδρομή που αντιστοιχεί στη βέλτιστη στοίχιση βρίσκεται κοντά στην κύρια διαγώνιο του πίνακα ΔΠ Η παραδοχή αυτή αποκλείει στοιχίσεις (Ποιές??) Πότε ισχύει αυτό??? Με λίγα λόγια: Κόβουμε τις γωνίες

Ευριστικές Λύσεις (1.Κοπή Γονιών) (Kruskal and Sankoff, 1983) A A C T G A A T C T G C A 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 1 0 0 0 0 0 0 0 2 4 3 2 1 0 0 0 0 2 1 3 4 5 4 3 0 2 1 1 2 2 5 4 5 4 0 1 4 3 2 2 4 5 6 7 0 0 3 4 5 4 3 4 5 6 0 0 2 3 6 7 6 5 4 5 0 2 1 2 5 6 9 8 7 6 0 1 2 3 4 5 8 11 10 9 A T C G G

Ευριστικές Λύσεις (1.Κοπή Γονιών) (Kruskal and Sankoff, 1983): Η περίπτωση m=n Τί συμβαίνει όταν Κ=0, K=n?? Ποιό είναι το κέρδος για μια τυχαία τιμή του Κ? Πώς γενικεύω όταν m n? Μειονεκτήματα... Να το δουλέψετε στο σπίτι, θα το συζητήσουμε στην επόμενη διάλεξη

Ευριστικές Λύσεις (2.FASTA) (Pearson and Lipman, 1988; Pearson, 1990) Ευρετήρια (hash-tables) και ταυτόσημες k- πλέτες (k-tuples) Διαδικασία 4 βημάτων Διαγώνιες Ταυτότητας Top-10 rescoring (init1) Ενοποίηση γειτονικών περιοχών (initn) Band-alignment με πλήρη ΔΠ (opt)

Ευριστικές Λύσεις (2.FASTA) (Pearson and Lipman, 1988; Pearson, 1990)

Ευριστικές Λύσεις (2.FASTA) (Pearson and Lipman, 1988; Pearson, 1990)

Ευριστικές Λύσεις (3.BLAST) (Altschul, et al, 1990; Altschul, et al, 1997) Basic Local Alignment Search Tool Κατάτμηση των Ακολουθιών σε λέξεις ( words ) και κατασκευή ευρετηρίων με λέξεις υψηλής συνάφειας Αναζήτηση ζευγών τμημάτων με υψηλό score (High-scoring Segment Pairs) Τμήματα που στοιχίζονται (με ή χωρίς κενά??) Έχουν τοπικά μέγιστο score (δεν είναι δυνατόν να βελτιωθεί με επέκταση ή κόψιμο ) score > S (τιμή κατωφλίου) Υλοποίηση που βασίζεται σε «Μηχανές Πεπερασμένων Καταστάσεων»

Ευριστικές Λύσεις (3.BLAST) (Altschul, et al, 1990; Altschul, et al, 1997)

Ευριστικές Λύσεις (3.BLAST) (Altschul, et al, 1990; Altschul, et al, 1997)

Ευριστικές Λύσεις (3.BLAST) (Altschul, et al, 1990; Altschul, et al, 1997) Program Input Database 1 blastn DNA DNA 1 blastp protein protein 6 blastx DNA protein 6 tblastn protein DNA 36 tblastx DNA DNA From: Jonathan Pevsner, 2003

Ευριστικές Λύσεις (3.BLAST) (Altschul, et al, 1990; Altschul, et al, 1997) Μήκος λέξης W Ταχύτητα αναζήτησης Ταχύτητα αναζήτησης Ευαισθησία Παράμετροι, T, S (??)... και ένα μικρό live DEMO http://www.ncbi.nlm.nih.gov/blast/

Συζήτηση... Διαδικτυακές πηγές GOLD http://genomesonline.org NCBI BLAST server http://www.ncbi.nlm.nih.gov/blast/ Επιπλέον διδακτικό υλικό: http://troodos.biol.ucy.ac.cy/