Αλληλοεπικαλυπτόμενα επιστημονικά πεδία Υπολογιστικής Βιολογίας
Βάσεις Δεδομένων, Αποθετήρια γνώσεων και αλγόριθμων Red rectangles are true matching of identical residue-pairs and green rectangles represent noise
Βάσεις Δεδομένων, Αποθετήρια γνώσεων και αλγόριθμων
Βάσεις Δεδομένων, Αποθετήρια γνώσεων και αλγόριθμων Αποκρυπτογραφώντας τον κώδικα της ζωής Sanger, F., Nicklen, S., and Coulson, A. R. DNA sequencing with chainterminating inhibitors. Proc Natl Acad Sci, 74(12):5463-7, 1977.
Αλληλουχοποίηση επόμενης γενιάς Αλληλουχοποίηση DNA με σύνθεση σε μεγάλη κλίμακα και παράλληλη ποσοτικοποίηση του
Πώς έχει αλλάξει η Βιοπληροφορική; Μέχρι τις αρχές του 2000, η βιοπληροφική ήταν κυρίως ανάλυση αλληλουχιών Στα μέσα του 2000, η επόμενη-γενιά αλληλοχοποίησης και μηχανήματα υψηλής απόδοσης (όπως το Illumina HiSeq) έκανε εφικτή την μελέτη του συνόλου του γενωμικού υλικού ενός κυττάρου με ένα πείραμα. Με το κόστος αυτών των τεχνολογιών συνεχώς να μειώνεται και την παράλληλη ανάπτυξη πληθώρας μεθοδολογιών με βάση το *-seq (π.χ. RNA-seq, Chip-seq, CLIP-seq) το εύρος και η ποσότητάς των δεδομένων αυξήθηκε ραγδαία. Αυτό το καινούργιο πεδίο έκανε τη Βιοπληροφορική αναπόσπαστο κομμάτι της Μοριακής Βιολογίας και Γενετικής Επέτρεψε στους Επιστήμονες να αιχμαλωτήσουν ένα στιγμιότυπο από οτιδήποτε είναι σχετικό με DNA και RNA στο κύταρο και να αποτυπώσουν/ συγκρίνουν υπολογιστικά την ασυνήθιστη πολυπλοκότητά των αποτελεσμάτων τους :)
Η χρήσεις του DNA sequencing Protein-RNA Interactions Isolate specific protein(s) Puriffy associated RNA
Συνηθισμένα πρωτογενή δεδομένα νουκλεοτιδικών αλληλουχιών Τα Δεδομένα αλληλουχιών προέρχονται από ένα πολύ ευρύ φάσμα ερευνητικών προβλημάτων, τα οποία συνήθως ενέχουν: Ποικιλομορφία DNA (variation). Αλληλουχοποίηση (DNA-seq) ολικού ή στοχευμένου (π.χ. exome) DNA. Ανίχνευση SNPs, πολυμορφισμών, αριθμoύ αντιγράφων γονιδίων/επαναληπτικών στοιχείων και de novo συναρμολόγηση. Έκφραση RNA. Αλληλουχοποίηση cdna του μεταγραφώματος (RNA-seq) για μελέτη γονιδιακής διαφορικής έκφρασης και ανακάλυψη νέων μεταγράφων. Ρύθμιση της έκφρασης. Η μέθοδος Chip-Seq χρησιμοποιείται για την ανίχνευση και ποσοτικοποίηση γονιδιωματικών περιοχών που προσδένονται από ρυθμιστικά στοιχεία (π.χ. μεταγραφικοόι παράγοντες, τροποποιήσεις ιστονών) Μεταγενωμική. Η μέθοδος Meta-seq δημιουργεί αναγνώσεις DNA από βιολογικά δείγματα (π.χ. χώμα, νερό) που περιέχουν πολλά είδη οργανισμών (π.χ. πλυθησμοί μικροβίων) και τυπικά ταυτοποιεί και ποσοτικοποιεί τη σύνθεση τους από τα επιμέρους είδη.
Οι αναγνώσεις DNA στοιχίζονται σε ένα γονιδίωμα αναφοράς για ερνηνεία των αποτελεσμάτων Πως να καταλογήσεις και να αναλύσεις εκατομμύρια αναγνώσεων DNA
Τα γονιδώματα αναφοράς συνερμολογούνται από εκατομύρια μικρών αναγνώσεων (reads)reads) Μια αλληλουχοποίηση DNA σε ένα μηχάνημα HiSeq 2000 μπορεί να παράγει (μέσα σε λίγες μέρες και γύρω στα 20,000 ): 8 lanes x 2x108 reads/lane x 100 bp / read = ~160 x 109 bp Ποιό είναι το μέγεθος του ανθρώπινου γονιδιώματος;
ChIP-seq αναδυκνύει σε ποιές γονιδιωματικές περιοχές προσδένουν ρυθμιστές της γονδιακής έκφρασης Πώς να ανακαλύψεις τις περιοχές στο γονιδίωμα που προσδένονται από ρυθμιστικές πρωτεΐνες (ChIPseq analysis).
RNA-seq αναλύσει τόσο τα επίπεδα έκφρασης όσο και τα ισόμορφα γονίδιο/νέα μετάγραφα Πως να καταλογήσεις αλληλουχίες mrna/rna και να υπολογίσεις τα επίπεδα των αντιγράφων τους (RNA-seq analysis)
Υποκατηγορίες προβλημάτων Βιοπληροφορικής Τα περισσότερα προβλήματα βιοπληροφορικής υπάγονται σε τέσσερις κατηγορίες: Συναρμολόγηση (assembly, primary sequencing): ταυτοποίηση της assembly, primary sequencing): ταυτοποίηση της ): ταυτοποίηση της σύνθεσης και λειτουργική ανάλυση των νουκλεοτιδίων/αμινοξέων των γονιδιωμάτων. Επανεξέταση (assembly, primary sequencing): ταυτοποίηση της resequencing): ταυτοποίηση της ): προσδιορισμός μεταλλάξεων και παραλλαγών/ τροποποιήσεων στα γονιδιώματα/ μεταγραφώματα/πρωτεώματα Ταξινόμηση (assembly, primary sequencing): ταυτοποίηση της classification): προσδιορισμός της ειδικής σύνθεσης ενός πληθυσμού οργανισμών. Ποσοτικός προσδιορισμός (assembly, primary sequencing): ταυτοποίηση της quantitation): ποσοτικοποίηση του αριθμού αντιγράφων αλληλουχιών DNA/RNA και πρωτεϊνών για την κατανόηση των λειτουργικών χαρακτηριστικών ενός κυττάρου/οργανισμού.
Ο ρυθμός αύξησης των νουκλεοτιδικών βάσεων που κατατίθενται στο NCBI Perhaps 40 petabases of DNA were generated in calendar year 2014 at major sequencing centers. A vast amount of sequence data has been generated using nextgeneration sequence technology! (Most are open access, some have human subjects data.)
Τα μεγέθη των δεδομένων αλληλουχιών Size Abbreviation # bytes Example Bytes -- 1 Single text character Kilobytes 1 kb 103 Text file, 1000 characters Megabytes 1 MB 106 Text file, 1m characters Gigabytes 1 GB 109 Size of GenBank: 600 GB Terabytes 1 TB 1012 Size of 1000 Genomes Project: <500 TB Petabytes 1 PB 1015 Size of SRA at NCBI: 5 PB Exabytes 1 EB 1018 Annual worldwide output: >2 EB
Τι είναι δεδομένα; Τα δεδομένα και οι τύποι αρχείου είναι πολύ κοντά εννοιολογικά γιατί και τα δύο αποτελούν: Μια συμβολική αναπαράσταση πληροφοριάς Ένα σχέδιο (βέλτιστη οργάνωση) της πληροφορίας Οι παραπάνω ορισμοί υποδηλώνου οτι Η ίδια πληροφορία μπορεί να αναπαρασταθεί με διαφορετικούς τύπους αρχείων (διαφορετική βελτιστοποίηση της πληροφορίας). Ο ίδιος τύπος αρχείου μπορεί να χρησιμοποιηθεί για να διαφοερτικού τύπους πληροφορίας. Μπορεί να υπάρχει πληροφορίας στα δεδομένα ππου να μην είναι εύκολα προσβάσιμη.
Ομάδες ικανοτήτων στην ανάλυση δεδομένων Η Βιοπληροφορική απαιτεί ένα ευρύ φάσμα δεξιοτήτων. Αυτές μπορούν να κατηγοριοποιηθούν σε τρείς γενικές ομαδες: Διαχείριση Δεδομένων Απαιτεί πρόσβαση, συνδυασμό, μετατροπή, αποθήκευση και σχολιασμό δεδομένων. Απαιτεί έλεγχο ρουτίνας για την ποιότητα των δεδομένων, περιγραφική απεικόνιση μεγάλου όγκου πληροφορίας και αυτοματοποίηση υπάρχοντων υπολογιστικών μεθοδολογιών. Ανάλυση πρωτογενών δεδομένων Απαιτεί την διεξαγωγή αλγόριθμων για στοιχίσεις αλληλουχιών, ταυτοποίηση ποικιλομορφιών και ποσοτικοποίηση γονιδιακής έκφρασης (RNA-seq) και την κατηγοριοποίηση γονιδίων σε λίστες/ομάδες. Στρατηγικά, ο βιοπληροφορικός θα πρέπει να αναμένει λάθη στους σχεδιασμούς αναλύσεων, να ανακαλύπτει ενναλικτές λύσεις και να προσαρμόζει τις μεθόδους που επιλέγει να αναλύσει στην κάθε περίπτωση. Ερμηνεία δεδομένων Η διαχείριση δεδομένων και η ανάλυση δε θα σήμαιναν πολλά χωρίς την ακριβή και εις βάθος ερμηνεία/ κατανόηση των αποτελεσμάτων. Ο Βιοπληροφικός ανακαλύπτει ή επιβεβαιώνει βιολογικές υποθέσεις με βάση τα αποτελέσματα της ανάλυσης των πρωτογενών δεδομένων και έτσι θα πρέπει να είναι ικανός να ερμηνεύει τα ευρύματα του στο πλαίσιο της επιστημονικής μελέτης που συμμετέχει.
Η INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών INSDC INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών συντονίζει INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών τα INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών δεδομένα INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών νοουκλεοτιδικών INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών αλληλουχιών
Τα κύρια αποθετήρια έρευσης αλληλουχιών βάσεις δεδομένων
Πρόσβαση, ανάκτηση δεδομένων μεγάλου όγκου με τη χρήση CLI /LINUX Με τη χρήση CLI /LINUX EDirect: command-line access to NCBI databases Με τη χρήση του server-client model
Χάρτης Βιοπληροφορικής ανάλυσης στοιχίσεων αλληλουχιών γενικά 1.Στοίχιση αλληλουχιών Εύρεση ταυτότητας/ομοιότητας και σύγκριση με άλλες αλληλουχίες (νουκλεοτιδικές/ αμινοξικές) από βάσεις δεδομένων 2.Αξιολόγηση ομοιότητας/ταυτότητας και συντηρησης νουκλεοτιδικών και αμινοξικών αλληλουχιών 3. Κατηγοριοποίηση με βάση μοτίβα, δομικές περιοχές, οικογένειες πρωτεϊνών και εν τέλη εξελικτική ταξινόμηση
Στοίχιση αλληλουχιών Το πρόβλημα της στοίχισης δύο βιολογικών αλληλουχιών, είναι ένα από τα παλιότερα αλλά και πιο σημαντικά θέματα στη βιβλιογραφία της υπολογιστικής βιολογίας. Δύο αλληλουχίες που είναι σε μεγάλο βαθμό «όμοιες», είναι πιθανό να έχουν κοινή εξελικτική προέλευση και, αν μιλάμε για πρωτεΐνες, να έχουν παρόμοια τρισδιάστατη δομή και λειτουργία. 1) Με ποιο τρόπο θα μετρήσουμε την ομοιότητα (το πρόβλημα του σκορ); 2) Με ποιο τρόπο θα γίνει η στοίχιση (alignment) των δυο αλληλουχιών (ο αλγόριθμος); 3) Πώς θα αποφασίσουμε αν μια δεδομένη στοίχιση είναι σημαντική ή όχι (η στατιστική σημαντικότητα);
Η έρευνα σε βάσεις αλληλουχιών Είναι αναπόσπαστό κομμάτι κάθε κλάδου της Μοριακής Βιολογίας και απαραίτητη για την κατανόηση του τεράστιου όγκου δεδομένων που συνεχώς γίνονται διαθέσιμα από τα πειράματα γονιδιωματικής. Ποιά είναι η ταυτότητα του γονιδίου μου; Ποιά είναι η λειτουργία της πρωτεΐνης μου; Ποιό είναι το γονίδιο που αντιστοιχεί στην πρωτεΐνη μου; Βασίζεται σε αλγόριθμους δυναμικού προγραμματισμού των: Needleman and Wunsch (1970) ολικής στοίχισης (global alignment) Smith and Waterman (1981) - τοπικής στοίχισης (local alignment)
Διάγραμμα σημείων (reads)dot plot)
Οι αλγόριθμοι στοίχισης δυναμικού προγραμματισμού Ο δυναμικός προγραμματισμός λύνει το αρχικό πρόβλημα διαιρώντας το σε μικρότερα ανεξάρτητα υπό-προβλήματα. Η ακολουθία ως σειρά ανεξάρτητων γεγονότων Αυτή η τεχνική χρησιμοποιείται σε πολλά πεδιά της υπολογιστικής επιστήμης. Βρίσκει τη βέλτιστη μεγαλύτερη στοίχιση με ένα περισσότερο ποσοτικό τρόπο από απλή αντιπαράθεση δύο αλληλουχιών Q S Q S
Η ομοιότητα αλληλουχιών είναι ένα από τα θεμελιώδη ζητήματα στη Βιοπληροφορική Η ομοιότητα των βιολογικών αλληλουχιών τις περισσότερες φορές υποδηλώνει ομολογία (δηλαδή, κοινή εξελικτική προέλευση), και κατά συνέπεια (ειδικά για τις πρωτεΐνες), παρόμοια τρισδιάστατη δομή και παρόμοια λειτουργία. Η διαφορά στην ομοιότητα νουκλεοτιδικών αλληλουχιών δεν σημαίνει απαραίτητα διαφορά στην ομοιότητα των αμινοξέων. Η συντήρηση αμινοξικών αλληλουχιών είναι ένδειξη λειτουργίας του γονιδίου Στα μη-κωδικοποιά γονίδια η ενοιολογική σύνδεση συντήρησης και λειτουργίας δεν υπάρχει όπως στα κωδικοποιά
Πως ορίζουμε υπολογιστικά μια σημαντική στοίχιση νουκλεοτιδίων; Query: 1 ttgacctagatgagatgtcgttcacttttactcaggtacagaaaa 45 Subject: 403 ttgatctagatgagatgccattcacttttactgagctacagaaaa 447 Αν όλο το μήκος της υπό εξέτασης αλληλουχίας (Q) στοιχίζεται πλήρως με την αλληλουχία αναφοράς (S) τότε πρόκειται για 100% ομοιότητα Q S AC C TG A G AG AC G TG G C AG mismatch 70% ομοιότητα indel Η Στοίχιση δεν υποδηλώνει απαραίτητα ομοιότητα
Needleman Wunsch Κορυφή 12345678 GCATG-CU G-ATTACA GCATGCU GATTACA Η τιμή κάθε κελιού προκύπτει από τη μέγιστη τιμή των τριών βαθμολογιών Indels/ gaps Η καλύτερη στοίχιση απαιτεί ένα γράμμα να στοιχιθεί με ένα κενό στην άλλη αλληλουχία Κορυφές Matches/Mismatches GCATG-CU G-ATTACA INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών +-++- INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών -+- INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών > INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών -1*4 INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών + INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών 1*4 INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών = INSDC συντονίζει τα δεδομένα νοουκλεοτιδικών 0 Score στοίχισης Αυτή είναι και η λύση του αλγορίθμου! Σύστημα βαθμολόγησης (Scoring system) Match: +1 Mismatch or Indel: 1 1.Κατασκευή του πλαισίου (initialization) 2.Επιλογή του συστήματος βαθμολόγησης -Υπολογισμός του μικρότερου δυνατού αριθμού κενών με τη μεγαλύτερη τιμή στοίχισης (gap scoring system). -Πίνακες υποκατάστασης (substitution matrix) 3.Ξεκινάς από το μεγαλύτερο σκόρ στο κάτω δεξιά κελί και πηγαίνεις προς τα πίσω έως να βρείς το πάνω αριστερά κελί (traceback process).
Ολική Στοίχιση
Ο Αλγόριθμος Smith Waterman Smith Waterman Needleman Wunsch initialization Η πρώτη γραμμή και κολώνα γίνονται μηδέν Η πρώτη γραμμή και κολώνα καθορίζονται με κενό (assembly, primary sequencing): ταυτοποίηση της g): ταυτοποίηση της ap penalty) Scoring): ταυτοποίηση της system Το αρνητικό score δεν υπάρχει Το score μπορεί να (assembly, primary sequencing): ταυτοποίηση της γίνεται μηδέν) είναι αρνητικό traceback process Ξεκινάς με το μεγαλύτερο score και τελειώνεις όταν συναντήσεις 0 Ξεκινάς με το κελί κάτω δεξιά και τελειώνεις στο κελί πάνω αριστερά Εφόσον δεν έχει αρνητικό score αναδυκνύει τις μεγαλύτερες υπό-περιοχές με βέλτιστη τιμή στοίχισης Δεν μπορεί να εφαρμοστεί σε μεγάλης κλίμακας υπολογιστικά προβλήματα Οι περισσότερες αλληλουχίες δεν έχουν μεγάλο βαθμό ομολογίας για να κάνουν στοίχιση
Τοπική ενάντια Ολικής στοίχισης Local alignment Global alignment Η τοπική στοίχιση (local alignment) και δίνει πολλές φορές συνταρακτικά αποτελέσματα ακόμα και σε αλληλουχίες που δεν έχουν καθόλου εμφανή ολική ομοιότητα (ομολογία). Η μέθοδος αυτή είναι η ευρύτερα χρησιμοποιούμενη καθώς μας επιτρέπει και από εξελικτική σκοπιά να διαχωρίζουμε τις αλληλουχίες σε περιοχές που βρίσκονται κάτω από ισχυρή εξελικτική πίεση (και άρα μεταλλάσσονται πολύ αργά) και σε άλλες που μπορεί να διαφέρουν πάρα πολύ.
Τοπική Στοίχιση
K-tuple μέθοδοι για την έρευση της καλύτερης στοίχισης Είναι ευρυτικοί αλγόριθμοι που δεν εγκυώνται την έρευση της βέλτιστης στοίχισης αλλά είναι σημαντικά πιο αποτελεσματικοί από τους αλγόριθμους δυναμικού προγραμματισμού For query BIOINFORMATICS, for k = 8, the set of k-tuples for query is: Πολύ χρήσιμοι σε μεγάλης κλίμακας βάσεις δεδομένων όπου είναι η πληοψηφία των αλληλουχιών που περιέχουν δεν θα έχουν σημαντική ομοιότητα με την υπό εξέταση αλληλουχία Οικόγενειες εργαλειών FASTA και BLAST Βρίσκουν μια σειρά από μη επικαλυπτόμενες υποακολουθίες (Κ-μέρη) της αλληλουχίας που εξετάζουμε και τις ταιριάζουν στη βάση δεδομένων. Αποτρέπονται άχρηστες συγκρίσεις μεταξύ μη όμοιων αλληλουχιών. How many k-tuples are there in a string of length n? The answer is: n k + 1 = 7
Η μέθοδος FASTA Η FASTA ξεκινάει από τις στοιχίσεις των Κμερών και παράγει τις 10 περιοχές με το μεγαλύτερο σκόρ στοίχισης τοπικά. Στη συνέχεια εφαρμόζει ολική στοίχιση (δηλαδή διαφορετικά σκόρ βαθμολόγησης για την έρευση της βέλτιστης συνολικής στοίχισης)
BASIC LOCAL ALIGNMENT SEARCH TOOL Είναι πακέτο που αποτελείται από τον αλγόριθμο και υπολογισμού της στατιστικής σημαντικότητας των αποτελεσματων Περιέχει πολλά εργαλεία το καθένα με τη δικά του ιδιαίτερα χαρακτηρηστικά. Είναι κύριο εργαλείο βιοπληροφορικής στις δύο πιο κεντρικές βάσεις δεδομένων αλληλουχιών και φυλλομετρητές γονιδιωματών.
Το BLAST επιτρέπει στο αρχικό στάδιο τα Κ-μερή να μην είναι 100% ίδια (reads)όπως το FASTA), αλλα κάτω από ένα στατιστικό όριο ομοιότητας
Οι σχετικές θέσεις του Κ-μερούς ανάμεσα στις δύο αλληλουχίες χρησιμοποιούνται για τη δημιουργία μιας τιμής αντιστάθμισης η οποία εάν ταιρίαζει σε αρκετά γειτονικά Κ-μερή τότε οριοθετείται μια περιοχή στοίχισης που ονομάζεται πυρήνας (seed or short high-scoring pair, HSP) Μόνο εάν αυτή η περιοχή ανιχνευθεί, ο αλγόριθμος προχωράει σε τοπική στοίχιση που να εκτείνεται και προς τις δύο κατευθύνσεις από το seed μέχρι να προκύψουν οι περιοχές με το μεγαλύτερο σκόρ στοίχισης (maximal segment pairs, MSPs) Και αναλόγως ποιό εργαλείο εφαρμόζεται σε πιο ευαίσθητους αλγόριθμους στοίχισης (τοπικής, ολικής στοίχισης ή μείγματος αυτών των δύο).
Τα πλαίσια βαθμολόγησης Για νουκλεοτίδια οι αξιολογήσεις μπορεί να έχουν ως μόνες παραμέτρους το μ (mismatch penalty) and σ (indel penalty). Έτσι βρίσκουμε το σκόρ στοίχισης δύο αλληλουχιών. Τα συνηθισμένα πλαίσια για τη σύγκριση αμινοξικών αλληλουχιών είναι το point accepted mutations (PAM) και το block substitution (BLOSUM), τα οποία αντικατροπτίζουν τη συχνότητα αντικατάσταση κάθε αμινοξέως σε συγγενείς εξελικτικά οργανισμούς. Οι αλγόριθμοι τοπικής και ολικής στοίχισης εφαρμόζουν διαφορετικούς πίνακες υποκοτάστασης με λίγοτερα ή περισσότερα, αντίστοιχα αυστηρά κρητίρια
Πόσο καλή είναι μια στοίχιση ->Η ποιότητα της στοίχισης είναι καλή; ->Πόσο πιστευτά είναι τα αποτελέσματά μας; ->Είναι το τελικό score της στοίχισης μεγαλύτερο από εκείνο που θα περιμέναμε από μια τυχαία αλληλουχία; Το τελικό score και η ποιότητα της στοίχισης είναι αλληλένδετα αφού μεγαλύτερες μήκους αλληλουχίες προβλέπεται να δημιουργούν στοιχίσεις μεγαλύτερου score (εάν διατηρηθεί ο βαθμός ομοιότητας σταθερός ανάμεσα τους)
Στατιστικά σημαντική στίχιση j=i, +1 j i, -1 S, m, j Α A G Q, n, i C G A C G T T T G G A C T T T... m Score +1 Column 2 4-1 3-1 2 +1 max 1 +1 0-1 +1-2 -1 A G C G A C G min -3 +1 +1 Ικανο να βρίσκει με ακρίβεια και ταχύτητα τη μεγαλύτερη σε μήκος όμοια περιοχή ανάμεσα σε αλληλουχίες (Q, S) διαφορετικού ή ίδιου μήκους (n, m) και νουκλεοτιδικής σύνθεσης n και m. T T
Τι είναι σημαντική στοίχιση στο BLAST Άν ένας μεγάλος αριθμός από τυχαίες αλληλουχίες δημιουργηθεί και στοιχιθεί με την αλληλουχία υπό εξέταση τα scores που προκύπτουν θα έχουν μία συγκεκριμένη διανομή, επειδή πάντα επιβραβεύουμε το μεγαλύτερο score και τιμωρούμε το χαμηλό (λέγεται extreme-value distribution) Με την εφαρμογή αυτής της διανομής είναι δυνατό να εκτιμήσουμε την πιθανότητα δύο τυχαίες αλληλουχίες να στοιχιθούν με score μεγαλύτερο από το S. Αυτό συνήθως ονομάζεται αναμενόμενη τιμή E (Ε-value) και το χρησιμοποιούμε για την αξιολόγηση και ιεράρχιση των αποτελεσμάτων μας. ασυμπτωτική κατανομή