Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Σχετικά έγγραφα
Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙ: Ευριστικές μέθοδοι αναζήτησης σε βάσεις δεδομένων

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

LALING/PLALING :

ΑΝΑΖΗΤΗΣΗ ΟΜΟΙΟΤΗΤΩΝ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΟΛΟΥΘΙΩΝ

Κατα ζέυγη στοίχιση και στατιστική σημαντικότητα αυτής

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

ΒΙΟ230 - Εισαγωγή στην Υπολογιστική Βιολογία Πρακτικό Εργαστήριο: Basic Local Alignment Search Tool BLAST

PSI-Blast: τι είναι. Position specific scoring matrices (PSSMs) (Πίνακες αντικατάστασης θέσης)

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Βιοπληροφορική Ι. Παντελής Μπάγκος Αναπληρωτής Καθηγητής. Πανεπιστήμιο Θεσσαλίας Λαμία, 2015

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Περιοχές με ακραία σύσταση / χαμηλή πολυπλοκότητα

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Κεφάλαιο 4 ο : Αλγόριθµοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συµβολοσειρών.

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Πίνακες αντικατάστασης PAM και BLOSUM και εναλλακτικές προσεγγίσεις

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 7: Σύγκριση αλληλουχιών Part II

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών,(2/2) 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

Συγκριτική Γονιδιωματική

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

4.4 Το πρόβλημα του ελάχιστου ζευγνύοντος δένδρου

ΕΠΑΝΑΛΗΨΗ. Σελίδα 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ. Τ. Θηραίου

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

BIOTECH - GO. Μία συνδυασμένη μέθοδος εκπαίδευσης στη Βιοπληροφορική - Το μέσο των μικρομεσαίων επιχειρήσεων για τις βιοτεχνολογικές καινοτομίες

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Πολλαπλές στοιχίσεις ακολουθιών (Προοδευτικές μέθοδοι)

Ειδικά Θέματα Βιοπληροφορικής

Μέθοδοι Προσπέλασης για την Επεξεργασία Μεγάλων Βιολογικών Βάσεων Δεδομένων. Ανδρουλάκης Ανδρέας

ΑΡΧΕΣ ΒΙΟΛΟΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ

Τομές Γραφήματος. Γράφημα (μη κατευθυνόμενο) Συνάρτηση βάρους ακμών. Τομή : Διαμέριση του συνόλου των κόμβων σε δύο μη κενά σύνολα

A sequence alignment algorithm using the transition quantity

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Αλληλοεπικαλυπτόμενα επιστημονικά πεδία Υπολογιστικής Βιολογίας

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Σηµειώσεις Βιοπληροφορικής

Θεωρία Γραφημάτων 6η Διάλεξη

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

Αλγόριθμοι Εύρεσης Ομοιοτήτων Ακολουθιών Μέρος ΙΙΙ: Έλεγχος στατιστικής σημαντικότητας

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Μέθοδοι μελέτης εξέλιξης

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

της φοιτήτριας του Τµήµατος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστηµίου Πατρών

Το Πρόβλημα του Περιοδεύοντος Πωλητή - The Travelling Salesman Problem

ΠΑΡΑΛΛΗΛΗ ΕΠΕΞΕΡΓΑΣΙΑ

ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ, ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΔΙΚΤΥΩΝ, ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ

Βιοπληροφορική. Πίνακες Αντικατάστασης BLOSUM & Οπτική Σύγκριση Αλληλουχιών. Αλέξανδρος Τζάλλας

Κατά ζεύγη στοίχιση ακολουθιών Πολλαπλή στοίχιση ακολουθιών Patterns. Δρ. Μαργαρίτα Θεοδωροπούλου

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης.

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 6: Σύγκριση αλληλουχιών Part I

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ. Δυναμικός Προγραμματισμός. Παντελής Μπάγκος

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 3 η : Πολλαπλή ευθυγράμμιση. Σ. Γκέλης Τμήμα Βιολογίας

Ελάχιστα Γεννητορικά ένδρα

Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment) Blast

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

4. ΔΙΚΤΥΑ

Πρόγνωση δομής πρωτεϊνών (Μέρος Ι)

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1

ΔΙΑΣΧΙΣΗ ΓΡΑΦΗΜΑΤΩΝ 1

num(m(w 1 ;... ; w k )) = f(num(w 1 ),..., num(w k ))

Λύσεις 4ης Σειράς Ασκήσεων

Outline. 6 Edit Distance

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Για παράδειγμα η αρχική και η τελική κατάσταση αναπαριστώνται ως εξής: (ένα λίτρο)

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Γ7.5 Αλγόριθμοι Αναζήτησης. Γ Λυκείου Κατεύθυνσης

Δοµές Δεδοµένων & Ανάλυση Αλγορίθµων 3ο Εξάµηνο. Γραφήµατα. (Graphs)

ΗΥ240: Δοµές Δεδοµένων Εαρινό Εξάµηνο Ακαδηµαϊκό Έτος 2017 Διδάσκουσα: Παναγιώτα Φατούρου Προγραµµατιστική Εργασία - 1 ο Μέρος

2 η Εργασία Ημερομηνία Αποστολής : 21 Ιανουαρίου Άσκηση 1. Να υπολογίσετε τα παρακάτω όρια χρησιμοποιώντας τον Κανόνα του L Hopital:

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

ΦΥΣΙΚΗ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Α ΛΥΚΕΙΟΥ

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Κεφάλαιο 3 ο : Εισαγωγή στο δέντρο επιθεµάτων (Suffix Tree) και στις Εφαρµογές του

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Transcript:

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων Σε αυτό το κεφάλαιο παρουσιάζουµε 2 βασικούς αλγορίθµους σύγκρισης ακολουθιών Βιολογικών εδοµένων τους BLAST & FASTA. Οι δυο αλγόριθµοι αποτελούν βασικά εργαλεία και εφαρµογές στη στοίχιση µεταξύ δυο ακολουθιών (pairwise alignment), καθώς και στην πολλαπλή στοίχιση (multiple alignment) µεταξύ περισσότερων ακολουθιών. Καθώς αυξάνεται ραγδαία το µέγεθος των διαθέσιµων βάσεων δεδοµένων, αλλά και η ευκολία πρόσβασης σ' αυτές η σύγκριση ακολουθιών βιολογικών δεδοµένων που αποθηκεύονται σε µια βάση δεδοµένων, αποκτά ζωτική σηµασία, για τους ερευνητές και η ανάγκη ταυτοποίησης µιας άγνωστης πρωτεΐνης, αλλά και η εξαγωγή πληροφοριών για τις εξελικτικές και λειτουργικές τους σχέσεις γίνεται επιτακτική. 5.1 Ο Αλγόριθµος BLAST Ο αλγόριθµος BLAST (Basic Local Alignment Search Tool) δηµιουργήθηκε από τους Altschul etal το 1990 και βασίζεται στην κεντρική ιδέα της εύρεσης κοινών υπο-ακολουθιών ίδιου µήκους (segment pairs) που εµφανίζονται και στη δοσµένη ακολουθία µικρού µήκους (input query sequence) και στο σύνολο των ακολουθιών µιας βάσης δεδοµένων µε βάση µια συγκεκριµένη συνάρτηση οµοιότητας (scoring threshold). Σε ένα πρώτο βήµα ο αλγόριθµος αναζητά λέξεις συγκεκριµένου µήκους "w" που εµφανίζονται στη ζητούµενη ακολουθία, χρησιµοποιώντας έναν δεδοµένο πίνακα υποκαταστάσεων (substitution matrix). Οι επιτυχείς λέξεις που έχουν score T ή µεγαλύτερο επεκτείνονται και προς τις δύο κατευθύνσεις σε µια απόπειρα να παραχθούν στοιχίσεις που να υπερβαίνουν το προκαθορισµένο κατώφλι (threshold) "S". Οι περιοχές που ικανοποιούν αυτή τη συνθήκη ονοµάζονται HSP (High-scoring Segment Pair). Η παράµετρος "T" καθορίζει την ταχύτητα και την ευαισθησία της αναζήτησης. Μια παραλλαγή του βασικού αλγορίθµου δηµιουργήθηκε από τους Altschul etal το 1997 και επιτρέπει την εισαγωγή κενών (gaps) στις δηµιουργούµενες ευθυγραµµίσεις. Μια πλήρης λίστα των παραλλαγών του αλγορίθµου φαίνονται στον ακόλουθο πίνακα. - 1 -

Αλγόριθµος Είδος query Είδος sequence BLASTP Πρωτεΐνη Πρωτεΐνη BLASTN Νουκλεοτίδιο Νουκλεοτίδιο BLASTX Νουκλεοτίδιο Πρωτεΐνη TBLASTN Πρωτεΐνη Νουκλεοτίδιο TBLASTX Νουκλεοτίδιο Νουκλεοτίδιο Ας δούµε τον αλγόριθµο πιο αναλυτικά. Η δοσµένη ακολουθία query sequence, χωρίζεται σε λέξεις µεγέθους w (w=3 για ακολουθίες πρωτεϊνών και w=11 για ακολουθίες νουκλεοτιδίων). Για µια δοσµένη ακολουθία µεγέθους n, υπάρχουν n-w+1 λέξεις. Χρησιµοποιώντας έναν πίνακα αντικατάστασης (όπως ο BLOSUM 62 για αµινοξέα), καθορίζονται οι εµφανίσεις κάθε λέξης της δοσµένης ακολουθίας µε υψηλό σκορ (high-scoring matching words) στο σύνολο των ακολουθιών σύγκρισης. Με αυτό τον τρόπο η λίστα εµφανίσεων µειώνεται χρησιµοποιώντας ένα κατώφλι που ονοµάζεται neighborhood wordscore threshold. Σε ένα δεύτερο στάδιο ο BLAST, ψάχνει στη βάση δεδοµένων γνωστών ακολουθιών για το ακριβές ταίριασµα της λίστας των λέξεων. Στο τρίτο βήµα ο αλγόριθµος προσπαθεί να επεκτείνει και προς τις δυο κατευθύνσεις τις εµφανίσεις των λέξεων, παράγοντας πιθανές στοιχίσεις. Κάθε νέα στοίχιση ονοµάζεται High Segment Pair- HSP. Tα High Segment Pairs που ξεπερνούν ένα όριο S, χαρακτηρίζονται ως Maximal Segment Pairs- MSPs. Τέλος ο BLAST καθορίζει τη στατιστική σηµαντικότητα κάθε Maximal Segment Pair. - 2 -

1 ο βήµα: τµηµατοποίηση της δοσµένης ακολουθίας σε διαδοχικές υπο-λέξεις µεγέθους w=3 Query sequence: a b c d e f g h i j k l m n o p q r s t u v w x y z Words a b c b c d c d e d e f 2 ο βήµα: Εντοπισµός των υπο-λέξεων µε µέγιστη τιµή στοίχισης για το όλες τις ακολουθίες High-scoring matching words: a b c d e f g h i j k l m n o p q r s t u v w x y z a b c d s k o w j j d f k s l m n k d k j d f k k j d f f l m n m s l z m s o w u r n f k s a d e f a q m a z m s h d e f 3 ο βήµα: επέκταση των high-scoring words a b c d w f h h f j s l m n k d k j d e h k k j f f a b c l m n Σχήµα 5.1.α. Φιλοσοφία του αλγορίθµου BLAST 5.2 O Αλγόριθµος FASTA Ο αλγόριθµος FASTA δηµιουργήθηκε από τους Lipman & Pearson το 1985 και βασίζεται στην κεντρική ιδέα της αναζήτησης µικρών λέξεων (words ή k-tuples) που εµφανίζονται και στις δυο ακολουθίες. Στην περίπτωση πρωτεϊνικών ακολουθιών το µήκος των λέξεων είναι 1-2 residues ενώ για ακολουθίες DNA το µήκος µιας λέξης µπορεί να φθάνει τις 6 βάσεις. Ο αλγόριθµος χρησιµοποιεί ευρετικές µεθόδους για να δηµιουργήσει περιοχές που περιέχουν κοινές λέξεις. Η στοίχιση που προκύπτει περιλαµβάνει διαφορές ανάµεσα σε κοινές λέξεις. Ο αλγόριθµος ολοκληρώνεται σε 4 βήµατα. Στο πρώτο βήµα ο αλγόριθµος αναζητά λέξεις µήκους ktup στον πίνακα δυναµικού προγραµµατισµού, που δηµιουργείται για τη δοσµένη ακολουθία µικρού µήκους (input query sequence) και µια βιολογική - 3 -

ακολουθία µε βάση έναν πίνακα αντικατάστασης χαρακτήρων. Το µήκος των λέξεων ktup, αποτελεί βασική παράµετρο του αλγορίθµου και καθορίζεται από το χρήστη. Οι λέξεις που αλγόριθµος εντοπίζει ονοµάζονται hot-spots, και αποτελούν ζεύγη δεικτών του πίνακα δυναµικού προγραµµατισµού, (i,j) έτσι ώστε η υπο-συµβολοσειρά µήκους ktup που αρχίζει στη θέση i της συµβολοσειράς ερώτησης να ταιριάζει µε την υπο-συµβολοσειρά ίδιου µήκους που ξεκινάει στη θέση j της ακολουθίας. Για µικρές τιµές της παραµέτρου ktup, τα hot-spot ταιριάσµατα µπορούν να βρεθούν αποδοτικά εφαρµόζοντας τη µέθοδο του hashing στις λέξεις µήκους ktup (ή αλλιώς k-tuples) της συµβολοσειράς ερώτησης και/ή της συµβολοσειράς της ακολουθίας. Κάθε hot-spot (i,j), που ο αλγόριθµος εντοπίζει στο πρώτο βήµα, αποτελεί ένα διάστηµα µήκους ktup στη διαγώνιο (i-j) του πίνακα δυναµικού προγραµµατισµού. Θυµίζουµε ότι η κύρια διαγώνιος αριθµείται µε το µηδέν, οι διαγώνιες πάνω από αυτή καθορίζονται µε θετικούς αριθµούς και οι διαγώνιες κάτω από αυτή µε αρνητικούς αριθµούς. Σε ένα δεύτερο βήµα ο αλγόριθµος εντοπίζει τις δέκα καλύτερες διαγώνιες τροχιές- diagonal runs από hot-spots στον πίνακα. Μια διαγώνιος τροχιά, αποτελεί µια ακολουθία από διαδοχικά hot-spots σε µία διαγώνιο. Μια τροχιά, δεν είναι απαραίτητο να περιέχει όλα τα hot-spots σε µια διαγώνιο. Ο αλγόριθµος FASTA, βαθµολογεί κάθε διαγώνιο τροχιά δίνοντας µία θετική τιµή σε κάθε hot-spot και µια αρνητική στο διάστηµα µεταξύ δυο διαδοχικών hot-spots, η οποία µειώνεται καθώς αυξάνεται η απόσταση. Η συνολική βαθµολογία µιας διαγώνιας τροχιάς είναι το άθροισµα των τιµών των hot-spots και των ενδιάµεσων διαστηµάτων. O αλγόριθµος εντοπίζει τις δέκα καλύτερες διαγώνιες τροχιές. Κάθε διαγώνιος τροχιά αποτελεί και ένα ζεύγος στοιχισµένων υποσυµβολοσειρών. Κάθε στοίχιση περιλαµβάνει ταιριάσµατα ( hot-spots ) και µη ταιριάσµατα (από τα ενδιάµεσα διαστήµατα), αλλά δεν περιλαµβάνει κενά αφού προέρχεται από µία µοναδική διαγώνιο. Εξετάζοντας κάθε µία από αυτές τις δέκα στοιχίσεις υπο-συµβολοσειρών, ψάχνουµε αυτή µε τη µέγιστη τιµή, όπως αυτή καθορίζεται από έναν πίνακα αντικατάστασης χαρακτήρων. Στο τρίτο βήµα, ο αλγόριθµος προσπαθεί να συνδυάσει «καλές υποστοιχίσεις» (υπο-στοιχίσεις που έχουν προκύψει από το δεύτερο βήµα των οποίων η τιµή βαθµολογίας είναι πάνω από κάποιο προκαθορισµένο όριοcutoff) δηµιουργώντας µία ολική στοίχιση η οποία ενδεχοµένως να επιτρέπει µερικά κενά. - 4 -

Για να εξηγήσουµε τη φιλοσοφία του αλγορίθµου, ας θεωρήσουµε ότι αναπαριστούµε καθεµιά από τις δέκα καλύτερες υπο-στοιχίσεις ως ένα κόµβο ενός κατευθυνόµενου γράφου. Κάθε κόµβος αποκτά ένα βάρος το οποίο ισούται µε την τιµή της υπο-στοίχισης που αναπαριστά. Έστω u ο κόµβος ο οποίος αναπαριστά µία από τις επιλεγµένες υπο-στοιχίσεις, που ξεκινά στη θέση (i,j) του πίνακα και τελειώνει στη θέση (i+d, j+d). Έστω v ο κόµβος που αναπαριστά µια άλλη από τις δέκα καλύτερες υπο-στοιχίσεις η οποία ξεκινάει στη θέση (i,j ). Προσθέτουµε µια ακµή στον κατευθυνόµενο γράφο, από τον κόµβο u στον κόµβο υ, αν και µόνο αν i >i+d. Αυτό σηµαίνει ότι ο κόµβος υ εκφράζει µια στοίχιση που ξεκινάει µια γραµµή χαµηλότερα από εκεί που τελειώνει η στοίχιση του κόµβου u στον πίνακα. Προσαρτούµε ένα βάρος σε αυτή την ακµή για να βαθµολογήσουµε αρνητικά τα κενά που δηµιουργούνται ενώνοντας τις δυο επιµέρους υπο-στοιχίσεις. Step-1 Step-2 Step-3 Σχήµα 5.2.α. Φιλοσοφία του αλγορίθµου FASTA Step-4-5 -

Ο αλγόριθµος FASTA προσπαθεί να εντοπίσει το µονοπάτι µε το µέγιστο βάρος σε αυτόν τον γράφο, το οποίο και ονοµάζεται initn. Το µονοπάτι αυτό, αναπαριστά µια πιθανή τοπική στοίχιση µεταξύ των δύο συµβολοσειρών. Αυτή η τοπική στοίχιση µπορεί να µην είναι και η βέλτιστη τοπική στοίχιση την οποία θα έπρεπε να εξάγει ένας αλγόριθµος δυναµικού προγραµµατισµού, αλλά η διαίσθηση πίσω από τον FASTA είναι πως αποδίδει καλές τιµές σε σύγκριση µε το δυναµικό προγραµµατισµό. Στο τέταρτο και τελευταίο βήµα, ο αλγόριθµος FASTA υπολογίζει µια εναλλακτική τιµή τοπικής στοίχισης. Επιστρέφει στην init1, την έξοδο του δεύτερου βήµατος, και σχηµατίζει µια ταινία στον πίνακα γύρω από τη διαγώνιο στην οποία περιέχεται η init1. Για τις πρωτεΐνες, όπου η τιµή της ktup =2, η ταινία αποτελείται από 16 διαγωνίους γύρω από τη διαγώνιο στην οποία περιέχεται η init1. Στην περίπτωση που η ktup =1, η ταινία περιέχει 32 διαγώνιους. Στη συνέχεια ο αλγόριθµος χρησιµοποιεί τον αλγόριθµο Smith- Waterman για να υπολογίσει τη βέλτιστη τοπική στοίχιση στον υποπίνακα που περιορίζεται σε αυτές τις 16 ή 32 διαγώνιους. Η έξοδος αυτού του βήµατος αναφέρεται σαν opt. Βιβλιογραφικές Αναφορές 1. D.Gusfield. Algorithms on strings, trees and sequences. Cambridge University Press, 1997. 2. S. Altschul, W. Gish, W. Miller, E. Myers, D. Lipman, Basic local alignment search tool, J. Mol. Biol., 1990, Vol.: 215, pp. 403-410. 3. D.J. Lipman and W.R. Pearson, Rapid and sensitive protein similarity searches, Science, Vol. 227, pp. 1435 1441, 1985. - 6 -