ΠΑΝΕΠΙΣΤΉΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΥΟ ΝΕΟΙ ΑΛΓΟΡΙΘΜΟΙ ΓΙΑ ΣΥΜΠΙΕΣΗ ΒΙΟΛΟΓΙΚΩΝ ΑΚΟΛΟΥΘΙΩΝ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΠΑΝΕΠΙΣΤΉΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΥΟ ΝΕΟΙ ΑΛΓΟΡΙΘΜΟΙ ΓΙΑ ΣΥΜΠΙΕΣΗ ΒΙΟΛΟΓΙΚΩΝ ΑΚΟΛΟΥΘΙΩΝ"

Transcript

1 ΠΑΝΕΠΙΣΤΉΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟΣ ΦΟΙΤΗΤΗΣ :ΒΟΛΗΣ ΓΕΩΡΓΙΟΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΔΥΟ ΝΕΟΙ ΑΛΓΟΡΙΘΜΟΙ ΓΙΑ ΣΥΜΠΙΕΣΗ ΒΙΟΛΟΓΙΚΩΝ ΑΚΟΛΟΥΘΙΩΝ ΕΠΙΒΛΕΠΩΝ ΕΠΙΚΟΥΡΟΣ ΚΑΘΗΓΗΤΗΣ: ΜΑΚΡΗΣ ΧΡΗΣΤΟΣ 1

2 2

3 ΕΥΧΑΡΙΣΤΙΕΣ Ευχαριστώ πολύ την οικογένειά μου που με στήριζαν συνεχώς όλο αυτό το καιρό.επίσης θα ήθελα να ευχαριστήσω τον επίκουρο καθηγητή κ.μακρή Χρήστο για την συνεχή βοήθεια,τις συμβουλές και την εμπιστοσύνη που μου έδειξε αλλα και τον καθηγητή Κ.Τσακαλίδη Αθανάσιο για την καθοδήγηση του ολα αυτά τα χρόνια. 3

4 4

5 5

6 ΠΕΡΙΕΧΟΜΕΝΑ Μέρος Α: Στοιχεία Βιοπληροφορικής... Εισαγωγή...12 Κεφάλαιο 1:Η ΕΞΕΛΙΞΗ ΤΗΣ ΒΙΟΛΟΓΙΑΣ Εισαγωγή Βιολογία και υπολογιστές Το πρόγραμμα Αποκωδικοποίησης του Ανθρώπινου Γονιδιώματος-The Human Genome Project(HGP) Τα αποτελέσματα και επιτεύγματα του HGP Αλληλούχιση ή Ακολουθιοποίηση του DNA - DNA SEQUENCING Κεφάλαιο 2:ΔΙΑΧΕΙΡΙΣΗ ΒΙΟΛΟΓΙΚΩΝ ΑΚΟΛΟΥΘΙΩΝ Εισαγωγή Το πρόβλημα της εύρεσης προτύπου Αλγόριθμοι ακριβής εύρεσης προτύπου Αλγόριθμος Boyer Moore ΑλγόριθμοKnuth-Morris-Pratt Προσεγγιστική εύρεση προτύπου και στοίχιση ακολουθιών Προσεγγιστική εύρεση προτύπου Στοίχιση ακολουθιών Οι πίνακες BLOSUM Αλγόριθμοι δυναμικού προγραμματισμού Ολική στοίχιση Προσαρμογή αλληλουχιών Τοπική στοίχιση Το Πρόβληµα Τοπικής Στοίχισης Επιθέµατος- Local Suffix Alignment Problem

7 2.7 Εφαρμογές της στοίχισης ακολουθιών στην ανάλυση ακολουθιλων βιολογικών δεδομένων Οι αλγόριθμοι FASTA BLAST για αναζήτηση ομοιότητας σε βιολογικές βάσεις δεδομένων...65 Κεφάλαιο 3:ΤΟ ΠΡΟΒΛΗΜΑ ΤΟΥ ΜΕΓΑΛΟΥ ΟΓΚΟΥ ΔΕΔΟΜΕΝΩΝ (BIG DATA PROBLEM) Εισαγωγή Αλγόριθμοι συμπίεσης...71 Κεφάλαιο 4: ΔΟΜΕΣ ΑΝΑΖΗΤΗΣΗΣ Inverted index N-grams N-grams/2L..., Suffix tree & Generalized suffix tree Εισαγωγή suffix tree(δένδρο επιθεμάτων) Generalized suffix tree(γενικευμένο δένδρο επιθεμάτων) Εφαρμογη του Δένδρου Επιθεμάτων στην ακριβή εύρεση προτύπου...85 Μέρος Β... Κεφάλαιο 5 : ΑΛΓΟΡΙΘΜΟΣ ΜΕ ΠΑΛΙΝΔΡΟΜΑ ΚΑΙ ΑΛΓΟΡΙΘΜΟΣ ΣΕ ΣΧΗΜΑ ΤΕΤΡΑΓΩΝΟΥ Εισαγωγή Αλγόριθμος με Παλίνδρομα (Palindrome Algorithm) Αλγοριθμος σε σχήμα τετραγώνου - Square Scheme Algorithm Μετατροπη της ακολουθιας σε νεα συμβολοσειρα με βάση την κατηγορία Μετατροπή του Pattern και εύρεση των υποψηφιων συμβολοσειρών Επιλογή των σωστών αποτελεσμάτων Παρουσίαση των τελικών πειραμάτων Επίλογος

8 Βιβλιογραφία

9 ΕΙΚΟΝΕΣ Εικόνα 1: Η δομή του DNA...13 Εικόνα 2 : Η βιοπληροφορικη σε σχεση με τις άλλες επιστήμες...16 Εικόνα 3 : Οι ανακαλύψεις που έδωσαν ώθηση στην υπολογιστική βιολογία στις δεκαετίες Εικόνα 4 : Οι σημαντικότερες ανακαλύψεις της υπολογιστικής βιολογίας την δεκαετία Εικόνα 5 : Οι σημαντικότερες ανακαλύψεις της υπολογιστικής βιολογίας στην δεκαετία Εικόνα 6 : Οι Ανακαλύψεις "σταθμός" της βιοπληροφορικής στην δεκαετία του Εικόνα 7 : Οι ανακαλύψεις "σταθμος" της βιοπληροφορικής στη δεκατια του Εικόνα 8 :Μέθοδος Sanger για το DNA sequencing...28 Εικόνα 9 : Η εξέλιξη του κόστους για το DNA sequencing με την πάροδο των χρόνων...29 Εικόνα 10 : Στοίχιση δυο ακολουθιών με dot plot...48 Εικόνα 11 : Ο Πίνακας BLOSUM62 με τα βάρη αντικατάστασης των αμινοξέων σε πρωτείνες...52 Εικόνα 12 : Αντιστοίχιση πινάκων PAM με BLOSUM...53 Εικόνα 13 : Αλγόριθμοι δυναμικού προγραμματισμού...55 Εικόνα 14 : Αλγόριθμος δυναμικού προγραμματισμού με tabular computation...57 Εικόνα 15: Αλγόριθμος δυναμικού προγραμματισμού με σχέση οπισθοχώρησης (traceback) Εικόνα 16 : Παράεδειγμα ολικής στοίχισης...60 Εικόνα 17 : Προσαρμογή δύο ακολουθιών...61 Εικόνα 18 : Ένα παράδειγμα τοπικής ομοιότητας πρωτεϊνών με διαφορετική σύσταση των περιοχών...62 Εικόνα 19 :Πολλαπλή στοίχιση 9 ακολουθιών Εικόνα 20 : Παραδείγματα λειτουργίας του Jalview και οπτικοποίηση της στοίχισης...64 Εικόνα 21 : Παραδείγματα λειτουργίας του BioEdit Εικόνα 22: Ο Αλγόριθμος FASTA...67 Εικόνα 23: Ο Αλγόριθμος BLAST Εικόνα 24 : Ανάλυση του αλγορίθμου BLAST...69 Εικόνα 25 :Η εκρηξη παραγωγής βιολογικων δεδομένων...71 Εικόνα 26 : Μια δομή inverted index για αναζήτηση λέξεων μέσα σε συγκεκριμένες προτάσεις...78 Εικόνα 27 : Το Inverted Index...79 Εικόνα 28 : Εξαγωγη των n-grams απο μια πρόταση με την 1-sliding technique...80 Εικόνα 29:: Η τεχνική των n-grams/2l...81 Εικόνα 30 : Το Δέντρο επιθεμάτων για τη συμβολοσειρά ababc

10 Εικόνα 31: Γενικευμένο Δέντρο επιθεμάτων των ακολουθιών S1,S Εικόνα 32:: Δυο παλίνδρομες ακολουθίες...89 Εικόνα 33 :Κατασκευή του Front-end index μιας τυχαίας ακολουθίας DNA...90 Εικόνα 34:: Ενωση των παλινδρόμων gram...91 Εικόνα 35: Απαλοιφή των κοινών subsequence...92 Εικόνα 36 : Το τελικό Front-end index του αλγόριθμου...93 Εικόνα 37 : Οι 4 βάσεις DNA σαν κορυφές ενος τετραγώνου...94 Εικόνα 38 : Κωδικοποίηση της βιολογικής μας ακολουθίας...99 Εικόνα 39 : Γραφική παράσταση του palindrome algorithm Εικόνα 40 : Γραφική παράσταση του palindrome algorithm Εικόνα 41 : Γραφική παράσταση του Square scheme algorithm

11 ΜΕΡΟΣ Α : ΣΤΟΧΕΙΑ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ 11

12 Εισαγωγή: Απο που οι ιοί προέρχονται;εχουμε κληρονομήσει γονίδια απο τον Νεάτερνταλ;Πώς τα φυτά χρησιμοποιούν το εσωτερικό βιολογικό τους ρολόι;ολες αυτές οι ερωτήσεις θα ήταν αδύνατο να απαντηθούν ή ακόμα και να ερωτηθούν χωρίς την ραγδαία εξέλιξη της βιολογίας τον 20ο αιώνα.η εξέλιξη όμως αυτή θα ήταν πρακτικά αδύνατη χωρίς την ταυτόχρονη ανάπτυξη και συμβολή του κλάδου της πληροφορικής. Η πρόοδος της τεχνολογίας των υπολογιστών επέτρεψε την αντιμετώπιση πλήθους προβλημάτων του βιολογικού πεδίου. Επιπλέον λόγω της αύξησης της υπολογιστικής δύναµης και κυρίως της αναπτυγµένης τεχνολογίας των γραφικών, είναι πλέον δυνατή ακόμα και η απεικόνιση των διαµορφώσεων της δοµής των βιολογικών µορίων. Απο τηνά λλη τα τελευταία χρόνια παρουσιάζεται μια προσπάθεια για τη δηµιουργία µεθόδων που θα µπορούν να προβλέπουν τις αλληλεπιδράσεις µεταξύ των βιολογικών µορίων αλλά και αλγοριθµικών µεθόδων για την παραγωγή µοριακών δοµών µε βάση τα ακολουθιακά δεδοµένα. Ο µεγάλος αριθµός δεδοµένων όμως που παράγονται λόγω της εξέλιξης αυτής στην επιστήµη της µοριακής βιολογίας και ειδικότερα στον τοµέα της ακολουθιοποίησης του γονιδιώµατος (DNA sequencing) αποτελεί µεγάλη πρόκληση για τους επιστήµονες του σχεδιασµού και της ανάλυσης αλγορίθµων.στην αντιμετώπιση αυτής ακριβώς της πρόκλησης ειναι προσανατολισμένη και η ερευνητική μας προσπάθεια που παρουσιάζεται στην παρούσα θέση. 12

13 ΚΕΦΑΛΑΙΟ 1: Η ΕΞΕΛΙΞΗ ΤΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ 1.1 Εισαγωγή Η αποκρυπτογράφηση του ανθρωπίνου γονιδιώματος το 1953 καταγράφηκε στην ιστορία σαν μια απο τις πλέον σημαντικές και ανακαλύψεις στην ιστορία των επιστημών δρομολογώντας ραγδαίες εξελίξεις για τα χρόνια που ακολούθησαν. Η ανακάλυψη ότι το DNA είναι ο φορέας της γενετικής πληροφορίας είναι το αποτέλεσμα μιας σειράς επιστημονικών ερευνών που διήρκεσε πολλά χρόνια. Ενώ η ύπαρξη του στον πυρήνα των κυττάρων πιστοποιήθηκε ήδη από το 1869, ήταν στα μέσα του 20ου αιώνα που οι ερευνητές ξεκίνησαν να υποθέτουν ότι μπορεί να αποθηκεύει γενετική πληροφορία. Πιο συγκεκριμένα τα νουκλεϊκά οξέα ανακαλύφθηκαν το 1869 από τον Φρίντριχ Μίσερ ο οποίος ανακάλυψε μέσα σε πυρήνες κυττάρων την ύπαρξη μιας ουσίας με συγκεκριμένη όξινη αντίδραση. Την ουσία αυτή ονόμασε νουκλεΐνη (από το λατινικό nucleus που σημαίνει πυρήνας). Λίγο αργότερα απομόνωσε από το σπέρμα σολωμού δείγμα της ουσίας που σήμερα αποκαλούμε DNA και το 1889 ο μαθητής του Ρίτσαρντ Άλτμαν την ονόμασε νουκλεϊκό οξύ.[3] Επρεπε να έρθει το 1953 ομως οταν οι Τζειμς Γουοτσον και Κρικ του πανεπιστημίου του Κειμπριτζ παρουσίασαν το μοντέλο της δομής του DNA (που ονομαστηκε μοντέλο της διπλής έλικας).σύμφωνα με το μοντέλο αυτο το DNA αποτελείτα απο τα ακόλουθα βασικά χαρακτηριστικά. Εικόνα 1 : Η δομή του DNA 13

14 Το μόριο του DNA στο χώρο έχει τη μορφή δύο επιμήκων αλύσεων, οι οποίες συστρέφονται ελικοειδώς μεταξύ τους. Το DNA περιέχει τέσσερις αζωτούχες βάσεις: κυτοσίνη C γουανίνη G θυμίνη T αδενίνη A Οι αζωτούχες βάσεις, ανάλογα με την σειρά αλληλουχίας τους σε τριάδες, κωδικοποιούν το μήνυμα για τη σύνθεση των αμινοξέων του κυττάρου στα ριβοσώματα. Εκεί τα αμινοξέα συνδυάζονται, με τη σειρά κατά την οποία μεταφέρθηκαν στο ριβόσωμα και συντίθενται έτσι οι διαφορετικές πρωτεΐνες.[3],[9] Πιο αναλυτικά για το DNA: 1. Αποτελείται από δύο πολυνουκλεοτιδικές αλυσίδες σε μορφή δύο αντιτακτών κλώνων που σχηματίζουν δεξιόστροφη διπλή έλικα. 2. Οι αζωτούχες βάσεις (ή πρωτεϊνικές) κάθε κλώνου είναι κάθετες ως προς τον άξονα του μορίου και προεξέχουν προς το εσωτερικό της συστροφής και είναι υδρόφοβες, ενώ ο σκελετός που σχηματίζεται από επαναλαμβανόμενα μόρια φωσφορικής ομάδας- πεντόζης είναι υδρόφιλος. 3. Οι δύο δημιουργούμενοι κλώνοι συγκρατούνται μεταξύ τους με δεσμούς υδρογόνου.τα δε ζευγάρια των αζωτούχων βάσεων όπου αναπτύσσονται μεταξύ τους δεσμοί υδρογόνου είναι καθορισμένα: η αδενίνη με τη θυμίνη και η γουανίνη με την κυτοσίνη. 4. Μεταξύ της αδενίνης και της θυμίνης σχηματίζονται δύο δεσμοί υδρογόνου, ενώ μεταξύ της γουανίνης και της κυτοσίνης τρεις δεσμοί υδρογόνου. Οι δεσμοί υδρογόνου σταθεροποιούν τη δευτεροταγή δομη του DNA. 5. Οι δύο αλυσίδες (κλώνοι) είναι συμπληρωματικές, δηλαδή η αλληλουχία της μίας καθορίζει την αλληλουχία της αλλης. 6. Οι δυο αλυσίδες είναι αντιπαράλληλες, δηλαδή απέναντι από το 5' άκρο της μίας βρίσκεται το 3' άκρο της άλλης. 1.2 Βιολογία και υπολογιστές 14

15 Οπως προαναφέραμε ο εικοστός αιώνας ολοκληρώθηκε αφήνοντας πίσω του την παρακαταθήκη δυο επιστημών που κυριάρχησαν στις εξελίξεις :της Πληροφορικής και της βιολογίας.και η τεράστια παραγωγή ογκου βιολογικων δεδομένων που συντελέστηκε στην πάροδο όλων αυτων των χρόνων θα ηταν αδύνατο να διαχειριστει αποδοτικά χωρις την παρουσία του πεδίου των υπολογιστών. Ας ανατρέξουμε πίσω στο παρελθόν προκειμένου να εντοπίσουμε τις απαρχές αυτης της επερχόμενης συνεργασίας.ηδη Το 1960 η ερευνήτρια Margaret Dayhoof μάζι με άλλες ερευνητές στο National Biomedical Research Foundation συνδύασαν βάσεις δεδομένων απο ακολουθίες ομόλογων πρωτεινών για να εξετάσουν την εξελικτική τους πορεία.αποτέλεσμα αυτης της έρευνας ηταν η κατασκευή ενος φυλλογενετικού δέντρου που καθόριζε τις εξελικτικές αλλαγές που απαιτούντο προκειμένου μια πρωτείνη να μετεξελιχθεί σε μία άλλη.[7] Ξεκινώντας απο το 1980 ήδη οι πρώτες ακολουθίες του γονιδιώματος είχαν αρχίσει να καταγράφονται.αυτο δημιούργησε νέες προκλήσεις στον τρόπο με τον οποίο η αναζήτηση και η σύγκριση τέτοιων ακολουθιών μπορούσε να εφαρμοστεί.αντίθετα όμως ως προς τον τρόπο με τον οποίον παρόμοιοι αλγόριθμοι για αναζήτηση ή συγκριση κειμένου λειτουργούν, η αναζήτηση για ομοιότητες γονιδιακών ακολουθιών απαιτεί την εύρεση ακολουθιών που μπορεί να μην είναι ακριβως ίδιες αλλα όμοιες κατα ένα μέρος.ετσι ξεκινησαν να εμφανίζονται αλγόριθμοι αποδοτικοι ως προς αυτη την ιδιεταιρότητα ( ο Needleman-Wunsch algorithm για παράδειγμα ).Μάλιστα τα τελευτάια χρόνια αναπτύχθηκαν για γρήγορη αναζήτηση τέοιων ακολουθιών σε γονιδιακές βάσεις δεδομένων αλγόριθμοι όπως οι FASTA και BLAST.Ο BLAST ο FAST αλλα και οι τροποποιημένοι πάνω σε αυτούς αλγόριθμοι ειναι οι πιο διδεδομένοι αυτη τη στιγμη αλγόριθμοι εύρεσης γονιδιακων μοτίβων.(wikipedia) [5],[7]. Τα σημερινά μεγάλης κλίμακας projects για την ανάλυση ακολουθιών DNA θα ηταν αδύνατο να είναι αποδοτικά χωρίς την χρήση αυτόματων μηχανών εύρεσης των ακολυθιών DNA τα οποία έγιναν διαθέσιμα στο εμπόριο απο τα τέλη του 1980 και έδωσαν νεα ώθηση στην πιο αποδοτική και ταχύτερη ανάλυση των βάσεων σε μια ακολουθία DNA.Αξίζει μόνο να αναφερθεί πως μέσα σε ενα χρόνο ένα ερευνητής μπορει να καταφέρει να αναλύσει μια ακολουθία το εως βάσεων, ενω μια κατάλληλη μηχανή μπορει να καταφέρει το ίδο αποτέλσμα μέσα σε λίγες ώρες. Η ανάγκη επεξεργασίας και ανάλυσης όλων αυτων των βιολογικών δεδομένων που άρχισαν να παράγονται με το πέρασμα των δεκαετιών οδήγησε λοιπόν στην ανάπτυξη κατάλληλων εργαλείων διαχείρισης και ανάλυσης των αποθηκευμένων πληροφοριών.. Ετσι ηρθε στο προσκήνιο ο κλάδος της βιοπληροφορικής Η βιοπληροφορική είναι ένας διεπιστημονικός κλάδος και παρόλο που ένας κοινά αποδεκτός ορισμός δεν υπάρχει,μια προσπάθεια ορισμού της θα ήταν ως ο επιστημονικός xώρος όπου η σύμπραξη της βιολογίας με την πληροφορική, τη 15

16 στατιστική και τα μαθηματικά εξερευνά νέους τρόπους για την προσέγγιση των βιολογικών προβλημάτων, καθώς και την αντίληψη βασικών αρχών της βιολογίας. Ο ορισμός αυτός προέρχεται απο τον ορισμό που δίνεται απο το NCBI : tics.html): «Bioinformatics is the field of science in which biology, computer science, and information technology merge into a single discipline. There are three important sub-disciplines within bioinformatics: the development of new algorithms and statistics with which to assess relationships among members of large data sets; the analysis and interpretation of various types of data including nucleotide and amino acid sequences, protein domains, and protein structures; and the development and implementation of tools that enable efficient access and management of different types of information» Ο Fredj Tekaia δίνει τον παρακάτω ορισμό για την βιοπληροφορική: «The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information». Ενώ η International Society for Computational Biology παραθλετει την εξής απλή δήλωση: «a scholarly society dedicated to advancing the scientific understanding of living systems through computation» Μια σχηματική αναπαράσταση πάντως της διεπαφής της βιοπληροφορικής με τους άλλους επιστημονικούς κλάδους δίνεται στο παρακάτω σχήμα[1]: Εικόνα 2 : Η βιοπληροφορικη σε σχεση με τις άλλες επιστήμες 16

17 Γενικα οι τoμείς της βιοπληροφορικής μπορουν να κατηγοριοποιηθουν σε τρια επιπεδα: 1)Αποδοτική οργάνωση των δεδομένων ωστε να ειναι δυνατη η αποθηκευση, η ανκτηση, και η ενημέρωσή τους. 2)Εργαλεία που επιτρέπουν την ανάλυση βιολογικών δεδομένων 3)Ανάπτυξη εργαλείων που επιτρέπουν την ερμηνεία αποτελεσμάτων βιολογικών δεδομένων Με το μεγάλο απόθεμα γονιδιακών δεδομένων που δημιοργήθηκαν μετα το Human Genome Project (πρόκειται για το μεγαλύτερο project που δημιοργήθηκε για την αποκωδικοποίηση του ανθρώπινου γονιδιώματος) αλλα και απο άλλες γονιδιακές έρευνες οι επιστήμονες έχουν στα χέρια τους πλέον πολύ πιο ισχυρά εργαλεία προκειμένου να μελετήσουν τον ρόλο που οι γεντικοί παράγοντες παίζουν ή το πως μπορούν να επηρεαστούν απο εξωτερικές παραμέτρους.για να δούμε λίγο πιο αναλυτικά όμως τις πιο σημαντικές ανακαλύψεις των προηγούμενων δεκαετιών που επέτρεψαν την έκρηξη του κλάδου της βιοπληροφορικής κατα τις τελευταίες δεκαετίες. Δεκαετίες Απο τα σημαντικότερα επιτεύγματα των δεκαετιων αυτων αποτελούν τα πειράματα του Chargaff που έδειξαν ότι το ποσοστό Αδενίνης είναι το ίδιο με το ποσοστό της Θυμίνης και το ποσοστό Γουανίνης ίσο με αυτό της Κυτοσίνης σε κάθε μόριο DNA. Ηταν οι πρώτες ενδείξεις για κάποια μορφή ψηφιακής πληροφορίας στις βιολογικές αλληλουχίες.τα πειράματα αυτά, χρησιμοποιήθηκαν από τους Watson και Crick για να μπορέσουν να προσδιορίσουν την τρισδιάστατη δομή του DNA η οποία τους έδωσε και το νόμπελ.την ίδια δεκαετία έχουμε και τις πρωτοποριακές μελέτες των Jacob και Monod στη γονιδιακή ρύθμιση (το οπερόνιο της λακτόζης), την εύρεση της πρωτοταγούς δομής των πρωτεϊνών που έγινε το 1951, αλλα και του RNA το 1967 [1][4]. Βλέπουμε λοιπόν ότι πολλά από τα προβλήματα που απασχολούν τη βιοπληροφορικη μέχρι σήμερα, έχουν τις ρίζες τους στην έκρηξη που πραγματοποιήθηκε στη μοριακή βιολογία τη δεκαετία του Παράλληλα,από τη δεκαετία του 1950 και του 1960 είχαν τεθεί ήδη και τα θεμέλια της σύγχρονης θεωρητικής πληροφορικής, με τη θεωρία υπολογισμού, τη θεωρία πληροφορίας του Shannon, τη μηχανή του Turing, τα αυτόματα και τη θεωρία παιγνίων του vonneumann, τη μελέτη των συμβολοσειρών (strings), την θεωρία συστημάτων, 17

18 την κυβερνητική και τον ορισμό των γραμματικών από τον Chomsky.Κατα συνέπεια,δεν είναι περίεργο, αν αναλογιστούμε όλα παραπάνω, ότι οι πρώτες προσπάθειες υπολογιστικής αντιμετώπισης βιολογικών προβλημάτων,εμφανίστηκαν ακριβως αυτην τη δεκαετία του 1960 και σε αυτές βρίσκονται τα πρώτα ψήγματα αυτού που σήμερα ονομάζουμε υπολογιστική βιολογία και βιοπληροφορική Βέβαια η αποκρυπτογράφηση του DNA αποτέλεσε αναμφίβολα κομβικό σημείο για την εξέλιξη της μοριακής βιολογίας, ενω εμφανίστηκαν επίσης και οι πρώτες εφαρμογές των υπολογιστών της εποχής στη βιολογία, οι οποίοι χρησιμοποιήθηκαν μεταξύ άλλων στην ταξινομική και στην κατασκευή μοριακών μοντέλων για την κρυσταλλογραφία Εικόνα 3 : Οι ανακαλύψεις που έδωσαν ώθηση στην υπολογιστική βιολογία στις δεκαετίες Δεκαετία 1970 Μια από τις πιο σημαντικές αλγοριθμικές συνεισφορές στην υπολογιστική βιολογία που συνέβησαν τη δεκαετία του 1970( και θα την δούμε πιο αναλυτικά σε παρακάτω 18

19 κεφάλαιο), ήταν η εμφάνιση των αλγορίθμων δυναμικού προγραμματισμού για τη στοίχιση βιολογικών αλληλουχιών (κυρίως πρωτεϊνών), με πρώτο τον αλγόριθμο για ολική στοίχιση των Needlemanκαι Wunsch που παρουσιάστηκε το Ηδη από τη δεκαετία του 1970 είχε σχηματιστεί μια καθαρή εικόνα του ερευνητικού πεδίου της βιοπληροφορικής.ηδη είχαν παρουσιαστεί οι αλγόριθμοι στοίχισης, η θεωρία της μοριακής εξέλιξης και η ποσοτικοποίηση των εξελικτικών αλλαγών, η κατασκευή φυλογενετικών δέντρων, οι μεθοδολογίες μελέτης και πρόγνωσης της δευτεροταγούς και τριτοταγούς δομής των πρωτεϊνών και οι πρώτες βιολογικές βάσεις δεδομένων.[11] Εικόνα 4 : Οι σημαντικότερες ανακαλύψεις της υπολογιστικής βιολογίας την δεκαετία 1970 Δεκαετία 1980 Η δεκαετία του 80 αποτελεί την δεκαετία στην οποία ο κλάδος της υπολογιστικής βιολογίας απέκτησε την δική του θέση και ουσία στο επιστημονικό στερέωμα θέτοντας τα δικά του ξεχωριστά προβλήματα αλλα και παρουσιάζοντας σημαντικά επιτεύγματα. Εχουμε την εμφάνιση πλέον δημοσιεύσεων σε υψηλού κύρους περιοδικά ((Science, Nature, Nucleic Acid Research) οπως επίσης και την εμφάνιση των πρώτων εξειδικευμένων περιοδικών του καινούργιου αυτου τομέα (Computer Applications in Biosciences) [1]. 19

20 Σημαντικές ανακαλύψεις σ αυτην την περίοδο η ανακάλυψη του αλγόριθμου τοπικής στοίχισης απο τους Smith και Waterman το 1981 οπως επίσης οι αλγόριθμοι προσεγγιστικού ταιριάσματος συμβολοσειρών, η μελέτη των στατιστικών ιδιοτήτων της στοίχισης από τους Aratia, Waterman και Karlin, αλλά και οι πρώτες αποτελεσματικές υλοποιήσεις για γρήγορη στοίχιση και αναζήτηση ομοιότητας σε μια βάση δεδομένων (FASTA) [8]. Η ραγδαία πρόοδος στις μεθόδους αλληλούχισης του DNA μαζί με την εμφάνιση της PCR είχαν σαν αποτέλσμα τη σημαντική αύξηση του όγκου των βιολογικών δεδομένων που παρήγοντο γεγονός το οποίο σε συνδιασμό με την παράλληλη ανάπτυξη των πληροφοριακών συστημάτων οδήγησε στην ανάπτυξη μεγαλύτερων και πιο οργανωμένων βάσεων δεδομένων. Έτσι,το 1986 έκαναν την εμφάνιση τους οι δύο πιο γνωστές μέχρι σήμερα βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών (GenBank και EMBLDataLibrary), ενώ η SwissProt, η βάση δεδομένων των πρωτεϊνικών αλληλουχιών εμφανίστηκε το 1987.Την ίδια εποχή έκαναν την εμφάνισή τους προτάσεις για δημιουργία δικτύων που θα διευκόλυναν την υπολογιστική έρευνα στη βιολογία (EMBnet και ΒΙΟΝΕΤ) [10]. Τέλος ερευνητικά ιδρύματα όπως το NHI και το EMBL ξεκίνησαν την ανάπτυξη ερευνητικών τμημάτων αποκλειστικά προσανατολισμένων στον τομέα της υπολογιστικής βιολογίας. Δεκαετία 1990 Αν η δεκαετία του 1980 καθιερωσε τον κλάδο της υπολογιστικής βιολογίας σαν ενα ξεχωριστό ερευνητικό πεδίο η δεκαετία του 1990 αποτέλεσε την δεκαετία στην οποία η έρευνα στην υπολογιστική βιολογία εκτινάχθηκε.σε αυτο να σημειωθει οτι έπαιξε ιδιέταιρο ρόλο η ραγαδαία αναάπτυξη των υπολογιστών καθως και η εμφάνιση του διαδικτύου.σ αυτήν την δεκαετία πρωτοεμφανίστηκε και ο όρος βιοπληροφορική όταν το 1995 το επιστημονικό περιοδικό Computer Applications in the Biosciences άλλαξε το όνομά του σε Bionformatics που αποτελεί πλέον το πιο γνωστό περιοδικού του χώρου [1]. 20

21 Εικόνα 5 : Οι σημαντικότερες ανακαλύψεις της υπολογιστικής βιολογίας στην δεκαετία 1980 Στον τομέα της στοίχησης αλληλουχιών δημοσιεύτηκε το 1990 μια απο τις πιο σημαντικές ανακαλύψεις του χώρου απο επιστήμονες του NCBI : το εργαλείο BLAST (Basic Local Alignment Search Tool). Το BLAST βασίστηκε πάνω στις ανακαλύψεις για τη στατιστική κατανομή του σκορ (score) της τοπικής στοίχισης(θεώρημα Karlin Altschul) και πραγματικά αποτέλεσε μια επαναστατική συμβολή στον τρόπο που θα διεξάγεται από κει και πέρα η αναζήτηση ομοιότητας σε βάσεις δεδομένων και η στοίχιση, καθώς όχι μόνο ήταν πιο γρήγορο από κάθε άλλο αλγόριθμο επιτρέποντας ταχείες αναζητήσεις,αλλά έδινε και για πρώτη φορά μια εκτίμηση για τη στατιστική σημαντικότητα των στοιχίσεων [15]. Στον τομέα της ανάλυσης πρωτεινικών δομών εμφανίστηκαν τα πρώτα προγράμματα για την οπτικοποίση και ανάλυσή τους όπως το Rasmol και το Kinemage ενώ ξεκίνησαν και οι πρώτες προσπάθειες αλληλούχισης ολόκληρων γονιδιωμάτων(στην αρχή βακτηρίων και στη συνέχεια και ευκαρυωτικών οργανισμών). Η αύξηση της παραγωγής βιολογικών δεδομένων οδήγησε με τη σειρά της σε ανάπτυξη νεών πιο πολύπλοκων βάσεων δεδομένων.δημιουργήθηκαν βάσεις δεδομένων με δομικές ταξινομήσεις των πρωτεινών (οπως η SCOP και η CATCH) οπως επίσης και βάσεις ταξινομημένες ανάλογα με χαρακτηριστικά πρότυπα της ακολουθίας.τέτοιες βάσεις ηταν η PROSITE η PFAM και η INTERPRO. Σταθμό σ αυτη τη δεκαετία αποτέλεσε και η ίδρυση στη Μεγάλη Βρετανία του EBI((European Bioinformatics Institure).Πρόκειται για το μεγαλύτερο ινστιτούτο 21

22 βιοπληροφορικής στην Ευρώπη το οποίο ιδρύθηκε απο μια κοινοπραξία των EMBL και Welcome Trust το Εικόνα 6 : Οι Ανακαλύψεις "σταθμός" της βιοπληροφορικής στην δεκαετία του 1990 Δεκαετία 2000 Απο το 2000 και μετά η βιοπληροφορική πέρασε σε μια καινούργια εποχή αποτελώντας πλέον και βασικό τομέα διδασκαλίας πανεπιστημίων σε προπτυχιακό και μεταπτυχιακό επίπεδο.επιπλέον στις αρχές του 21 ου αιώνα ολοκληρώθηκε το πρόγραμμα προσδιορισμού του ανθρωπινου γονιδιώματος(human Genome Project) το οποίο προετοίμασε τον δρόμο για την ανάπτυξη σε μια σειρά απο νέους κλάδους (όπως η γονιδιωματική,γενετική,επιδημιολογία,βιοστατιστική...)[1] Ο τεράστιος όγκος δεδομένων που παρήχθει δημιούργησε την ανάγκη για δημιουργία εξειδικευμένων βάσεων δεδομένων και οντολογιών που να τις περιγράφουν.η ανάπτυξη Αλγόριθμων συμπίεσης του απαιτούμενου χώρου έγινε ακόμα πιο αναγκαία ενω παράλληλα εμφανίστηκαν αλγόριθμοι αλληλούχισης νέας γενιάς. 22

23 Η εκθετική αύξηση του όγκου βιολογικων δεδομένων εντάσει πλέον τα προβλήματα του τομέα της βιοπληροφορικής στην κατηγορία των BIG DATA PROBLEMS και αυτό αποτελεί και το μελλοντικό στοίχημα για τους ερευνητές της δεκαετίας απο το 2010 μέχρι και το σήμερα. Εικόνα 7 : Οι ανακαλύψεις "σταθμος" της βιοπληροφορικής στη δεκατια του Το πρόγραμμα Αποκωδικοποίησης του Ανθρώπινου Γονιδιώματος-The Human Genome Project(HGP) Στο κεφάλαιο αυτό θα αφιερώσουμε μια ξεχωριστή ανάλυση για μια απο τις μεγαλύτερες ερευνητικές προσπάθειες που συντελέστηκαν στις απαρχές του 21 ου αιώνα και της οποία προσπάθειας τα αποτελέσματα ακόμα δεν έχουν σταματήσει να τροφοδοτούν καινούργιες ερευνητικές απόπειρες.πρόκειται για το πρόγραμμα αποκωδικοποίησης του ανθρώπινου γονιδιώματος ή αλλιώς The Human Genome Project(HGP). 23

24 Το πρόγραμμα Αποκωδικοποίησης του Ανθρώπινου Γονιδιώματος αποτέλεσε μια διεθνή επιστημονική προσπάθεια προκειμένου να καταστεί δυνατή η ανάγνωση της ακολουθίας των ζευγών βάσεων απο τις οποίες αποτελείται το ανθρώπινο DNA,καθώς επίσης και η ανακάλυψη των γονιδίων του ανθρώπινου γονιδιώματος Η αρχή του προγράμματος έγινε το 1990.Μια πρώτη καταγραφή της ακολουθίας βάσεων του γονιδιώματος έγινε το 2000 και η επίσημη πλήρης δημοσίευση των καταγεγραμμένων στοιχείων πραγματοποιήθηκε το 2003.Στο μεταξύ αποτελέσματα περαιτέρων ερευνητικών εργασιών συνεχίζονται και δημοσιεύονται.το συγκεκριμένο πρότζεκτ ήταν αποτέλεσμα συνεργασίας εθνικών ινστιτούτων και οργανισμών με ιδιωτικές εταιρείες και ως επι το πλειστον ο μεγαλύτερος όγκος της ακολουθιοποίησης του ανθρώπινου γονιδιώματος πραγμοτοποιήθηκε σε πανεπιστημιακά και ερευνητικά ιδρύματα των Η.Π.Α.,Καναδά και Μεγάλης Βρετανίας[17]. Ταυτόχρονα με την ανάγνωση του ανθρώπινου DNA έγινε και ακολουθιοποίηση (αλληλούχιση) γονιδιωμάτων άλλων οργανισμο με σκοπό την καλύτερη κατανόηση του ανθρώπινου DNA άλλα και δυνατότητα κατανόηση και ερμηνείας της λειτουργίας των γονιδίων Τα αποτελέσματα και επιτεύγματα του HGP Η δημοσιοποίηση των καταγεγραμμένων στοιχείων του ερευνητικού αυτού προγράμματος έδωσε απαντήσεις σε ερωτήματα που ταλάνιζαν τους επιστήμονες κατά 24

25 τις προηγούμενες δεκαετίες.ενδεικτικά αναφέρουμε μερικές απο τις πληροφορίες που έφερε στο φώς αυτή η ανακάλυψη του ανθρώπινου γονιδιώματος[17] [18]: 1.Το ανθρώπινο γονιδίωμα αποτελείται απο 3 δισεκατομμύρια νουκλεοτοιδικές βάσεις(a,c,g,t) 2.Κατα μέσο όρο ένα γονίδιο του ανθρώπου αποτελείται απο 3000 βάσεις.παρόλα αυτά παρατηρούνται διαφορές στα μεγέθη απο γονίδιο σε γονίδιο με το μεγαλύτερο γνωστό γονίδιο να αποτελείται απο βάσεις. 3.Ενα ποσοστό πάνω απο 50% των γονιδίων επιτελεί λειτουργίες που δεν έχουν γίνει ακόμα γνωστές. 4.Ολοι οι άνθρωποι αποτελούνται σε συντριπτικο ποσοστό απο το ίδιο γονιδίωμα (ποσοστό ομοιότητας 99,9%). 5.Οι πρωτείνες κωδικοποιούνται απο περίπου το 2% μόνο του γονιδιώματος. 6.Οι επαναλμβανόμενες ακολουθίες που δεν κωδικοποιούν πρωτείνες αποτελούν πάνω απο το 50% του ανθρωπίνου γονιδιώματος. 7.Η επαναληψιμότητα ακολουθιών DNA αποτελεί βασικό χαρακτηριστικό του ανθρωπίνου γονιδιώματος καθως καταλαμβάνει πάνω απο το 50 % του συνολικού μήκους ενω σε άλλους οργανισμούς δε συμβαίνει κάτι παρόμοιο(για παράδειγμα στον σκώληκα παρατηρείται επαναληψιμότητα στο 3% ενω στη δροσόφιλα κοντά στο 7%) 8.Το ποσοστό των προβλεπόμενων πρωτεινών του ανθρώπου παρουσιάζει ομοιότητες σε ποσοστό πάνω απο 40% με αυτές του σκώληκα και της δροσόφιλας. 9.Παρατηρήθηκε πως τα γονίδια συγκεντρώνονται σε τυχαίες περιοχές στο γονιδίωμα με μεγάλα διαστήματα απο περιοχές που δεν κωδικοποιούνται μεταξύ αυτών. 10.Ο μεγαλύτερος αριθμός γονιδίων(2968) παρατηρείται στο χρωμόσωμα 1(που αποτελεί και το μεγαλύτερο χρωμόσωμα του ανθρώπου) ενώ ο μικρότερος αριθμος βρέθηκε στο χρωμόσωμα Υ.(231). 11.Συγκεκριμένες ακολουθίες εμφανίζονται σε συγκεκριμένα γονίδια που σχετίζονται με την εμφάνιση ασθενειών όπως ο καρκίνος του μαστού, η κώφωση,οι μυασθένειες κ.α. 12.Εχουν εντοπιστεί περίπου 3 δισεκατομμύρια θέσεις όπου παρατηρείται διαφοροποίηση μιας βάσης DNA μεταξύ διαφορετικών ανθρώπων.οι θέσεις αυτες όπως δηλώνουν οι ερευνητές είναι εξαιρετικά σημαντικές καθως η ανάλυση τους μπορεί να οδηγήσει σε θεραπείες ασθενειών όπως ο καρκίνος,ο διαβήτης ή οι καρδιοαγγειακές παθήσεις. 25

26 Να σημειωθεί τέλος πως τα δεδομένα που έχουν δημοσιευτεί απο το HGP δεν αντιπροσωπελυουν την ακριβή ακολουθία βάσεων DNA κάθε ανθρώπου καθώς πρόκειται για συνδυασμό γονιδιωμάτων ενος μικρού αριθμού δοτών. Τα οφέλη που προέκυψαν απο την δημοσίευση των αποτελεσμάτων του πρότζεκτ είναι τεράστια.να σημειωθεί οτι η ερμηνεία της ανάγνωσης αυτών των αποτελεσμάτων είναι ακόμα στην αρχή και πως αναμένεται να επηρεάσει δραστικά την εξέλιξη τόσο της βιολογίας όσο και της ιατρικής στο μέλλον. Τέλος αξίζει αν αναφέρουμε πως οι ακολουθίες του ανθρώπινου γονιδιώματος διατίθενται ελέυθερα στο διαδίκτυα καθώς είναι αποθηκευμένες βιολογικές βάσεις δεδομένων.οι πιο σημαντικές και ελέυθερα προσπελάσιμες βάσεις στο διαδίκτυο είναι οι: 1)DNA Data Bank of Japan (DDBJ) στο Center for Information Biology 2)GenBank στο National Center for Biotechnology information 3)EMBL_Bank στο European Bioinformatics Institute 1.4 Αλληλούχιση ή Ακολουθιοποίηση του DNA - DNA SEQUENCING 26

27 Οπως ακριβως η σειρά των γραμμάτων του αλφαβήτο καθορίζει ποια λέξη θα σχηματιστεί κάθε φορά έτσι και η σειρά (διάταξη) των βάσεων σε μια ακολουθία DNA καθορίζει ποιο γονίδιο θα σχηματιστεί το οποίο με τη σειρά του καθορίζει ποια πρωτείνη θα σχηματιστεί. Απο τη στιγμη που ανακαλυφθηκε η φυση της δομης του DNA τεθηκε το ζήτημα της ανάλυσης του ή ακολουθιοποίησης του, ή αλλιώς DNA sequencing.το DNA sequencing επιτρέπει να ξεκαθαρίσουμε τη σειρά των βάσεων σε μια ακολουθία DNA σε ενα γονίδιο σε ενα χρωμόσωμα ή σε ολοκληρο το γονιδίωμα. Οι πρώτες προσπάθειες ακολουθιοποίησης γονιδίων ηταν επίπονες απαιτούσαν πάρα πολλές ώρες παρακολούθησης στο εργαστήριο και φυσικά ηταν και ιδιέταιρα δαπανηρές.η προσπάθεια των Gilbert και Maxam(Gilbert & Maxam 1973) για να ακολουθιοποιήσουν 24 ξεύγη βάσεων χρησιμοποιώντας μια μέθοδο γνωστή και σαν wandering-spot analysis αποτελεί απο τις πρώτες τέτοιες απόπειρες. Ευτυχώς η κατάσταση άρχισε να αλλάζει απο τα μέσα της δεκαετίας του 1970 όταν οι ερευνητές Frederick και Sanger αρχισαν να αναπτύσουν αρκετά γρηγορότερες και πιο αποδοτικές τεχνικές για το DNA sequencing(sanger et al. 1977).Μάλιστα η δουλειά του Sanger σ αυτό το πεδίο ηταν τόσο καταλυτική που του επέφερε και το νόμπελ Χημείας το Στις δεκαετίες που θα ακολουθήσουν οι τεχνικές ακολουθιοποίησης ξεκίνησαν να αυτοματοποιούνται, να βελτιοστοποιούν τη Sanger μέθοδο, και να βελτιώνουν δραστικά τον χρόνο εκτέλεσής τους. Το 1986 μια εταιρεία εν ονόματι Applied Biosystems άρχισε να κατασκευάζει αυτοματοποιημένες μηχανές που θα επιτελούσαν μόνες τους ανάλυση σε γονίδια βασισμένες στη μέθοδο Sanger. Οι συσκευές αυτές χρησιμοποιώντας φθορίζουσες ουσίες χρωμάτιζαν κάθε νουκλεοτίδιο επιτρέποντας να τα διακρίνουμε ανάλογα με τις αντιδράσεις του πάνω στο χρώμα (Οπως φαίνεται και στην εικόνα 7 ).Εισάγοντας 24 δείγματα κάθε φορά οι μηχανές αυτές κόστους 100 χιλιάδων δολαρίων αποκωδικοποιούσαν 12 χιλιάδες DNA χαρακτήρες κάθε μέρα.παρόλου που οι μηχανές αυτές ήταν ιδιέταιρα ακριβές αξίζει να αναφερθεί οτι παρήγαγαν δεδομένα γρηγορότερα και φθηνότερα πο τις παραδοσιακές μέχρι τότε μεθόδους.αυτές τις μηχανές επίσης χρησιμοποίησε ο Craig Venter αρχικά ξεκινώντας το μεγαλύτερο πρότζεκτ για την αποκωδικοποίηση του ανθρώπινου γονιδιώματος(human Genome Project)[4] [6] Ενω η βασική μέθοδος Sanger συνέχιζε να χρησιμοποιείται για την ακολουθιοποίηση γονιδίων οι επιβαρύνσεις του κόστους και του χρόνου που επέφερε άρχιζαν να περιορίζουν πλέον την χρήση της.με την πάροδο του χρόνου καινούργιες τεχνικές για το DNA sequencing εμφανίστηκαν με πιο εκλεπτυσμένες τεχνικές διαχωρισμού των 27

28 βάσεων,εναλλακτικές τεχνικές για οπτικοποίηση τους και δυνατότητα επεξεργασίας παράλληλων δειγμάτων.σαν αποτέλεσμα αυτης της εξέλιξης οι σημερινές μηχανές μπορούν κατα μέσο όρο να διαχειριστούν παράλληλα 96 δείγματα.επιπλέον ενω στις παραδοσιακές μεθόδους που χρησιμοποιούσαν τη μέθοδο sanger μπορούσαν να αντιδράσουν στο χρωματισμό 250 με 500 ζεύγη βάσεων πλέον αυτός ο αριθμός έχει ανέλθει στις 750 με 1000 μετατρέποντας την διαδικασία της ακολουθιοποίησης σε μια πολύ φτηνότερη διαδικασία σε σχέση με το παρελθόν[4] [7](Βλέπε εικόνες 8 και 9). Εικόνα 8 :Μέθοδος Sanger για το DNA sequencing. Χρησιμοποιώντας φθορίζουσες ουσίες χρωματίζεται κάθε νουκλεοτίδιο επιτρέποντας να τα διακρίνουμε ανάλογα με τις αντιδράσεις του πάνω στο χρώμα.. 28

29 Εικόνα 9 : Η εξέλιξη του κόστους για το DNA sequencing με την πάροδο των χρόνων 29

30 ΚΕΦΑΛΑΙΟ 2 :ΔΙΑΧΕΙΡΙΣΗ ΒΙΟΛΟΓΙΚΩΝ ΑΚΟΛΟΥΘΙΩΝ 2.1 Εισαγωγή Οπως προαναφέραμε ενας απο τους βασικούς στόχους της βιοπληροφορικής είναι η διαχείριση και ανάλυση βιολογικών δεδομένων. Βασικός στόχος των αλγορίθµων και τεχνικών διαχείρισης και ανάλυσης συµβολοσειρών βιολογικών δεδοµένων είναι η σύγκριση ακολουθιών προκειµένου να ανιχνευθούν κοινά µοτίβα. Ο εντοπισμός τέτοιων περιοδικοτήτων μπορεί να αποκαλύψει δομικά και λειτουργικά χαρακτηριστικά του μορίου του DNA. Η βασική υπόθεση που κάνουμε για την ανάπτυξη και βελτιστοποίηση των τεχνικών διαχείρισης συµβολοσειρών βιολογικών δεδοµένων είναι η εξής: «κάθε βιολογικό µόριο µπορεί να περιγραφεί ως µια ακολουθία συµβόλων από ένα δοσμένο αλφάβητο Σ» Συγκεκριµένα κάθε µόριο του DNA, µπορεί να θεωρηθεί ως µια ακολουθία συµβόλων (συµβολοσειρά), από ένα αλφάβητο τεσσάρων χαρακτήρων/γραµµάτων, το Σ= { A,C,G,T} (ενώ για παράδειγμα κάθε µόριο πρωτεΐνης µπορεί να θεωρηθεί ως µια ακολουθία συµβόλων από ένα αλφάβητο είκοσι χαρακτήρων/ γραµµάτων, των 20 αµινοξέων). 2.2 Το πρόβλημα της εύρεσης προτύπου Η ομοιότητα αλληλουχιών είναι ένα από τα θεμελιώδη ζητήματα στη Βιοπληροφορική, καθώς πλέον αποτελεί αναπόσπαστο τμήμα των αναλύσεων που πραγματοποιεί καθημερινά οποιοσδήποτε ασχολείται με το γνωστικό αυτό αντικείμενο, αλλά, ακόμα 30

31 περισσότερο, ο καθένας που ασχολείται ερευνητικά με τη μοριακή βιολογία με οποιονδήποτε τρόπο. Η ομοιότητα των βιολογικών αλληλουχιών τις περισσότερες φορές υποδηλώνει ομολογία (δηλαδή, κοινή εξελικτική προέλευση), και κατά συνέπεια (ειδικά για τις πρωτεΐνες), παρόμοια τρισδιάστατη δομή και παρόμοια λειτουργία. Τα προβλήματα που καλείται κάποιος να λύσει, όταν μελετάει την ομοιότητα αλληλουχιών, είναι πολλαπλά: Με ποιον αλγόριθμο θα πραγματοποιήσει την «στοίχιση» των δύο αλληλουχιών (δηλαδή την εύρεση της καλύτερης περιοχής ομοιότητας τους); Πώς θα ποσοτικοποιήσει αυτή την ομοιότητα; Τι υποθέσεις θα αναγκαστεί να κάνει; Και τέλος, πως θα αξιολογήσει αν μια στοίχιση είναι σημαντική ή όχι; Το τελευταίο, είναι ίσως και το σπουδαιότερο από τα θέματα αυτά, γιατί όλοι καταλαβαίνουν ότι αν δυο πρωτεϊνικές αλληλουχίες είναι ταυτόσημες λ.χ. σε ποσοστό 99%, τότε υπάρχει πολύ μεγάλη πιθανότητα να είναι και όμοιας δομής και παρόμοιας λειτουργίας (εκτός ίσως από τις περιπτώσεις στις οποίες οι λίγες αλλαγές συμβαίνουν στο ενεργό κέντρο ενός ενζύμου και αναστέλλουν τη δράση του).[1] Οσον αφορά τη σύγκριση ακολουθιών προκειμένου να ανιχνευθούν κοινά μοτίβα μπορούμε να διακρίνουμε δυο κατηγορίες προβλημάτων: α) ακριβή επανάληψη μοτίβων και β) προσεγγιστική επανάληψη μοτίβων. Στην πρώτη περίπτωση ενδιαφερόµαστε να εντοπίσουµε όλες τις εµφανίσεις ενός δοσµένου µοτίβου σε µια βιολογική αλληλουχία που μελετάμε.στην προσεγγιστική εύρεση ενός προτύπου δεν αναζητούµε τις ακριβείς εµφανίσεις ενός προτύπου αλλά αυτές που ικανοποιούν κάποια κριτήρια οµοιότητας. Η πιο συνηθισµένη εκδοχή αυτού του προβλήµατος είναι η αναζήτηση υποσυµβολοσειρών που αρκετά όμοιες ως προς το συγκεκριμένο μοτίβο, περιέχοντας το πολύ k-διαφορές. H παράµετρος k ορίζει το βαθµό οµοιότητας µε το µοτίβο ή µε άλλα λόγια τα λάθη (αντικαταστάσεις, διαγραφές, ή ενθέσεις) που µπορεί να έχουν συµβεί κατα την διάρκεια της εξελικτικής διαδικασίας. Το πρόβληµα της προσεγγιστικής εύρεσης µοτίβου έχει µελετηθεί αρκετά τα τελευταία χρόνια λόγω των ποικίλων εφαρµογών του σε ακολουθίες βιολογικών µορίων, όπως για παράδειγµα το γνωστό k-difference global alignment problem, στο οποίο οι βιολόγοι περιορίζουν τον αριθµό των επιτρεπόµενων διαφορών για να εντοπίσουν διαδικασίες µετάλλαξης (π.χ.: να εντοπίσουν γονίδια των οποίων η µετάλλαξη ευθύνεται για γενετικές ασθένειες, ή έχοντας ακολουθιοποιήσει µια νέα πρωτεΐνη να τη συγκρίνουν µε τις ακολουθίες ήδη γνωστών). Το πρόβληµα της προσεγγιστικής εύρεσης ενός µοτίβου µπορεί να οριστεί ως[12]: 31

32 Ορισµός: Για ένα κείµενο T, ένα µοτίβο P, µια παράµετρο k και µια συνάρτηση οµοιότητας d( ), εντοπίστε τις θέσεις στο κείµενο j, έτσι ώστε υπάρχει i ώστε: d (P,T i... j) κ Το παραπάνω πρόβληµα παρουσιάζεται σε διαφορετικές εκδοχές, ανάλογα µε τη µετρική απόστασης ή συνάρτηση οµοιότητας που χρησιμοποιούμε.η διαδικασία σύγκρισης της οµοιότητας δυο ακολουθιών στηρίζεται σε πίνακες που βαθµολογούν τις οµοιότητες (matches) και διαφορές (mismatches) µεταξύ διαδοχικών συµβόλων. Τέτοιου τύπου πίνακες είναι οι: Dayhoff Mutation Data Matrix, BLOSUM κ.α.. Τέλος να επισημάνουμε σε αυτό το σημείο οτι η σύγκριση ακολουθιών µπορεί να κατηγοριοποιηθεί σε: α) τοπική ευθυγράµµιση (local alignment ) και β) ολική ευθυγράµµιση (global alignment ) Στην τοπική ευθυγράµµιση ενδιαφερόμαστε για περιοχές τοπικής οµοιότητας. Ο πρώτος αλγόριθµος τοπικής ευθυγράµµισης δηµιουργήθηκε από τους Smith- Waterman και ακόμα και σήμερα αρκετές τεχνικές βασίζονται σε αυτόν. Αντίστοιχα ο πρώτος αλγόριθµος σύγκρισης ολικής ευθυγράµµισης επινοήθηκε από τους Needleman & Wunsch. Και στις δυο περιπτώσεις υπάρχουν παραπάνω από µια δυνατές ευθυγραµµίσεις. Η βέλτιστη λύση πρέπει να ελαχιστοποιεί τις διαφορές ανάµεσα στις δυο ακολουθίες ή διαφορετικά να µεγιστοποιεί τη συνάρτηση οµοιότητας[2]. Το πρόβληµα εύρεσης τοπικών ευθυγραµµίσεων χρησιµοποιείται ευρέως στη σύγκριση µιας δοσµένης ακολουθίας µικρού µήκους ως προς το σύνολο γνωστών ακολουθιών που αποθηκεύονται σε µια βάση δεδοµένων. Προγράμματα που χρησιμοποιούν αλγόριθμους τοπικής ομοιότητας είναι τα BLAST και FASTA.Αυτά αναζητούν περιοχές τοπικής οµοιότητας, που συνεισφέρουν στην ολική ευθυγράµµιση δυο ακολουθιών. 2.3 Αλγόριθμοι ακριβής εύρεσης προτύπου Η απλοϊκή προσέγγιση αναζήτησης ενός προτύπου- pattern P µήκους n σε ένα κείµενο ή βιολογική ακολουθία X µήκους m, στοιχίζει το πρότυπο στην πρώτη θέση της ακολουθίας και εξετάζει έναν προς έναν τους χαρακτήρες του προτύπου (Πίνακας 2.2.α) Σε περίπτωση µη ταιριάσµατος- mismatch, η σύγκριση ξαναρχίζει µε µετατόπιση του προτύπου κατά µια θέση. 32

33 void Naïve-Method (char *x, int m, char *y, int n) { int i,j; for (j=0; j<=n-m; ++j) { for (i=0; i <m && x[i] == y[i+j]; ++i); if i>=m output(j); } } } Στο παρακάτω παράδειγμα φαίνεται αναλυτικά η διαδικασία εύρεσης: Εστω οτι έχουμε την ακολουθία S=agttgactacgatgacat και θέλουμε να δούμε εαν το πρότυπο P= tacga εμπεριέχεται σε αυτό. A G T T G A C T A C G A T G A C A T T A C G A Στο πρώτο βήμα παρατηρούμε οτι έχουμε διαφορετικό χαρακτήρα στη θέση 1 οπότε και το πρότυπο μεταφέρεται μια θέση δεξιά. Ουτε στο δεύτερο βήμα παρατηρούμε ταίριασμα χαρακτήρων οπότε και η διαδικασία επαναλμβάνεται μέχρι το βήμα 8 όπου και παρατηρούμε πλήρη ταύτιση του προτύπου μας με το κομμάτι της ακολουθίας που έχει τώρα στοιχηθεί: 33

34 A G T T G A C T A C G A T G A C A T T A C G A Στη συνέχεια η διαδικασία συνεχίζεται µετατοπίζοντας σε κάθε βήµα το πρότυπο κατά 1 θέση δεξιά. Η απλή αυτή διαδικάσια έχει πολύ κακο χρόνο χειρότερης περίπτωσης που στοιχίζει Ο(m*n) Οι δυο πιο αντιπροσωπευτικοί αλγόριθμοι αυτης της κατηγορίας είναι οι παρακάτω: 1. Τον αλγόριθµο Boyer-Moore, που συγκρίνει τους χαρακτήρες του προτύπου (pattern) ως προς την ακολουθία από δεξιά προς τα αριστερά, 2. Τον αλγόριθµο Knuth-Morris-Pratt, που αποτελεί το πιο σηµαντικό αλγόριθµο γραµµικής πολυπλοκότητας Αλγόριθμος Boyer-Moore Ο συγκεκριμένος αλγόριθμος εξελίσσεται σε δυο βασικά βήματα: 1) Ελέγχει τους χαρακτήρες από δεξιά προς τα αριστερά 2) Στην περίπτωση µη ταιριάσµατος χρησιµοποιεί τους κανόνες good suffix shift και bad character shift για να µετατοπίσει το σηµείο στοίχισης του προτύπου ως προς την ακολουθία. Ας υποθέσουµε ότι με Χ συμβολίζουμε το πρότυπο και με Υ την ακολουθία μας και οτι συγκρίνοντας τους χαρακτήρες x[i]=a και y[i+j]=b παρατηρούμε οτι έχουµε mismatch. Απο τη σύκριση των προηγουμένων χαρακτήρων έχουμε επίσης : x[i+1 m-1]= y[i+j+1 j+m-1]= u, ενώ x[i] y[i+j]. Ο κανόνας good suffix shift στηρίζεται στη µετατόπιση του τµήµατος x[i+1 m- 1]= y[i+j+1 j+m-1] στην επόµενη προς τα δεξιά εµφάνιση του στο κείµενο όπου ο επόµενος προς τα αριστερά χαρακτήρας είναι διάφορος του x[i].(βλέπε σχήμα) 34

35 Y Y[i+j] y[i+j+1 j+m-1] = X X[i] x[i+1 m-1] X X[i] x[i+1 m-1] Shift Στην περίπτωση που δεν υπάρχει τέτοια εµφάνιση στοιχίζουµε το µέγιστο πρόθεµα v του x που συµφωνεί µε το αντίστοιχο τµήµα του y[i+j+1 j+m-1]. Y Y[i+j] y[i+j+1 j+m-1] = X X[i] x[i+1 m-1] X X[i] x[i+1 m-1] 35

36 Ο κανόνας bad character shift στηρίζεται στη στοίχιση του χαρακτήρα y[i+j] του κειµένου µε τη δεξιότερη εµφάνιση του στο πρότυπο x[0 m-2] (σχήµα β). Y Y[i+j] y[i+j+1 j+m-1] X X[i] x[i+1 m-1] X Y[i+j] Δεν περιέχει τον Y[i+j] Αν ο χαρακτήρας δεν εµφανίζεται µέσα στο πρότυπο, τότε καµία εµφάνιση του x δε θα συµπεριλαµβάνει το χαρακτήρα y[i+j], και το αριστερό τµήµα του προτύπου στοιχίζεται µε τον επόµενο χαρακτήρα y[i+j+1], όπως φαίνεται στο σχήµα Y Y[i+j] y[i+j+1 j+m-1] = X X[i] x[i+1 m-1] Δεν περιέχει τον χαρακτήρα Y[i+j] Για να χρησιμοποιήσουμε τις δύο αυτές τις τεχνικες( good character suffix,bad character suffix ) εχουμε ηδη προυπολογίσει δυο συναρτήσεις,την good suffix shift και την bad suffix shift. Η συνάρτηση good suffix shift, αποθηκεύεται σε έναν πίνακα bmgs µεγέθους m+1. Οι τιµές του πίνακα εκφράζουν την περίοδο του x, ως εξής: BmGs[i+1]= min {s>0, : ώστε να ισχύουν οι συνθήκες Cs(i,s) & Co(i,s)} όπου Cs(i,s) = για κάθε k, i<k 36

37 και Co(i,s) = εάν s < i τότε x[i-s] x[i] Η συνάρτηση bad character shift, αποθηκεύεται σε έναν πίνακα bmbc. H τιµή της συνάρτησης ορίζεται για κάθε χαρακτήρα σ. Παρακάτω φαίνεται και ο κώδικα υλοποίησης κάθε συνάρτησης: Συνάρτηση GoodSuffix: oid prebmgs(char *x, int m, int bmgs[]) { int i, j, suff[xsize]; suffixes(x, m, suff); } for (i = 0; i < m; ++i) bmgs[i] = m; j = 0; for (i = m - 1; i >= 0; --i) if (suff[i] == i + 1) for (; j < m i; ++j) if (bmgs[j] == m) bmgs[j] = m i; for (i = 0; i <= m - 2; ++i) bmgs[m suff[i]] = m i; Συνάρτηση Bad suffix void prebmbc(char *x, int m, int bmbc[]) { int i; } for (i = 0; i < ASIZE; ++i) bmbc[i] = m; for (i = 0; i < m - 1; ++i) bmbc[x[i]] = m - i - 1; 37

38 Συνάρτηση Suffixes void suffixes(char *x, int m, int *suff) { int f, g, i; suff[m - 1] = m; g = m - 1; for (i = m - 2; i >= 0; --i) { if (i > g && suff[i + m f] < i - g) suff[i] = suff[i + m f]; else { if (i < g) g = i; f = i; } } } while (g >= 0 && x[g] == x[g + m f]) --g; suff[i] = f - g; Συνάρτηση Boyer-Moore void BM(char *x, int m, char *y, int n) { int i, j, bmgs[xsize], bmbc[asize]; /* Preprocessing */ prebmgs(x, m, bmgs); prebmbc(x, m, bmbc); } /* Searching */ j = 0; while (j <= n - m) { for (i = m - 1; i >= 0 && x[i] == y[i + j]; --i); if (i < 0) { OUTPUT(j); j += bmgs[0]; } else j += MAX(bmGs[i], bmbc[y[i + j]] - m i); } 38

39 Ακολουθεί ενα παράδειγμα όπου εφαρμόζουμε τον υπολογισμό των παραπάνω συναρτήσεων για την εύρεση του προτύπου σε δοσμένη ακολουθία[2]. Παράδειγμα: Εστω οτι έχουμε το πρότυπο x=gcagagag. Ορίζουμε τις δύο βοηθητικές συναρτήσεις (goodsuffix και badsuffix) και ακολούθως εφαρμόζουμε τον αλγόριθμο boyer moore. Eπομένως έχουμε τοους παρακάτω πίνακες: I X[i] G C A G A G A G Suff[i] BmGs[i] Και : C A C G T BmBc[c] Η ακολουθία που χρησιμοποιούμε είναι ακριβώς η ίδια και με το παράδειγμα του παραπάνω αλγόρίθμου.η διαδικασία εξελίσεται όπως φαίνεται παρακάτω: G C A T C G C A G A G A G T A T A C A G T A C G G C A G A G A G 1 Στο πρωτο βήμα μετατοπίζουμε το πρότυπο κατα μια θέση (bmgs[7]=bmbc[a]-7+7 ) οπότε: G C A T C G C A G A G A G T A T A C A G T A C G G C A G A G A G 39

40 Το πρότυπό μας μετατοπίζεται πλέον κατα τέσσερεις θέσεις δεξιά (bmgs[5]=bmbc[c]- 7+5) άρα φτάνουμε στην παρακάτω περίπτωση: G C A T C G C A G A G A G T A T A C A G T A C G G C A G A G A G Αρα έχουμε ακριβή εμφάνιση του προτύπου και μετατόπισή του κατα επτά θέσεις. G C A T C G C A G A G A G T A T A C A G T A C G G C A G A G A G Στο επόμενο βήμα έχουμε μετατόπιση του προτύπου κατα τέσσερεις θέσεις(bmgs[5]=bmbc[c]-7+5) G C A T C G C A G A G A G T A T A C A G T A C G 2 1 G C A G A G A G Αλγόριθμος Knuth Morris Pratt. Ο αλγόριθμος Knuth-Morris-Pratt συγκρίνει τους χαρακτήρες με φορά απο τα αριστερά προς τα δεξιά χρησιμοποιώντας και αυτός όπως και ο προηγούμενος ενα προεπεξργαστικό βήμα.ο συγεκριμένος αλγόριθμος εξελίσσεται ως εξής: Εστω οτι συγκρίνοντας την ακολουθία με το πρότυπό μας παρατηρούμε οτι οι χαρακτήρες στις θέσεις x[i] και y[i+1] είναι διαφορετικοί μεταξύ τους.επίσης για τις συγκρίσεις προηγουμένων θέσεων ισχύει οτι x[0 i-1] = y[j i-j-1]. 40

41 Προκειµένου να µετατοπίσουµε το πρότυπο προς τα δεξιά, υποθέτουµε ότι κάποιο πρόθεµα( εστω v ) του προτύπου ταιριάζει µε κάποιο επίθεµα του τµήµατος της ακολουθίας που συμπίπτει με το υπόλοιπο του προτύπου (εστω u αυτη η ακολουθία). Επίσης για να µην έχουµε ασυµφωνία και στον επόµενο χαρακτήρα, ο επόµενος χαρακτήρας µετά το πρόθεµα v πρέπει να είναι διάφορος του y[i+1]. To µέγιστο σε µήκος πρόθεµα v που ικανοποιεί αυτές τις συνθήκες ονοµάζεται border του u. Ορίζουµε λοιπόν ως kmpnext[i] το µήκος του µέγιστου border του x[0 i-1] στο οποίο ο επόµενος χαρακτήρας c προς τα δεξιά είναι διάφορος του x[i] και στην περίπτωση που δεν υπάρχει τέτοιο border kmpnext[i] = -1, (για κάθε i, 0<i<m).Μετά τη µετατόπιση η σύγκριση των χαρακτήρων συνεχίζεται µεταξύ των x[kmpnext[i]] και y[i+j] χαρακτήρων. Y u y[i+j] X u x[i] X shift -> v c Παρακατω παραθέτουμε και τις συναρτήσεις για την υλοποίηση αυτης της τεχνικής. int PreScan (char *x, int m, int KmpNext[]) { int i, j; i=0; j=kmpnext[0]=-1; while i<m { while (j>-1 && x[i]!=x[j]) j=kmpnext[j]; ++i; ++j; if x[i] ==x[j] KmpNext[i]=KmpNext[j]; else KmpNext[i]=j; } } 41

42 void KMP (char *x, int m, char *y, int n) { int i,j, KmpNext[XSIZE]; /*preprocessing*/ PreScan(x,m,KmpNext); /*searching*/ i=j=0; while (j-1 && x[i]!=y[j]) i =KmpNext[i]; ++i; ++j; if i>= m output(j-i); i = KmpNext[i]; } } } Παράδειγμα[2]:Εστω πάλι το πρότυπο x=gcagagag και η ίδια ακολουθία που χρησιμοποιήσαμε και στον παραπάνω αλγόριθμο.υπολογίζουμε τον πίνακα kmpnext: I x[i] G C A G A G A G kmpnext[i] Η διαδικασία εύρεσης του προτύπου εξελίσεται ως εξής: G C A T C G C A G A G A G T A T A C A G T A C G G C A G A G A G 42

43 Στο πρώτο βήμα το πρότυπο μετατοπίζεται κατα τέσσερεις θέσεις { i-kmpnext[i] = 3 (-1) = 4}.Αρα : G C A T C G C A G A G A G T A T A C A G T A C G 1 G C A G A G A G Στη συνέχεια το μετατοπίζουμε κατα μία θέση αφου {i-kmpnext [i] = 0- (-1)=1}. G C A T C G C A G A G A G T A T A C A G T A C G Full Match G C A G A G A G Επομένως έχουμε ακριβή εύρεση του προτύπου και μετατόπιση του στη συνέχεια κατα επτά θέσεις: G C A T C G C A G A G A G T A T A C A G T A C G 1 2 G C A G A G A G Απο το παραπάνω σχήμα έχουμε: i-kmpnext [i] = 1-0 =1.Αρα το πρότυπο μετακινείται μια θέση δεξιά. G C A T C G C A G A G A G T A T A C A G T A C G 1 G C A G A G A G 43

44 Εδω θα μετακινήσουμε πάλι το πρότυπο κατα μια θέση αφου i-kmpnext [i] = 0 (-1) =1. G C A T C G C A G A G A G T A T A C A G T A C G 1 G C A G A G A G Οπως και παραπάνω ο αλγόριθμος μετακινεί το πρότυπο κατα μια θέση αφου i- kmpnext [i] = 0 (-1) = 1. G C A T C G C A G A G A G T A T A C A G T A C G 1 G C A G A G A G Θα κινηθει παλι μια θέση δεξια αφου πάλι kmpnext [i] = 0 (-1) = 1.Επομένως εχουμε: G C A T C G C A G A G A G T A T A C A G T A C G 1 G C A G A G A G 2.4 Προσεγγιστική εύρεση προτύπου και στοίχιση ακολουθιών 44

45 2.4.1 Προσεγγιστική εύρεση προτύπου Οι δυο αυτές έννοιες αναφέρονται ουσιαστικα στο ίδιο πράγμα δηλαδή στην έυρεση ενος προτύπου μεσα σε μια ακολουθία επιτρέπoντας να μην είναι όλοι οι χαρακτήρες ίδιοι. Στην προσεγγιστική εύρεση προτύπου επιτρέπουµε την ύπαρξη διαφοροποιήσεων στις εµφανίσεις του προτύπου, που προκύπτουν από την αντικατάσταση, προσθήκη ή διαγραφή συµβόλων. Παρακάτω δίνονται μερικοί βασικοί ορισμοί που αποσαφηνίζουν βασικές ιδέες πάνω στη στοίχιση ακολουθιών. Ορισµός-1: Η Απόσταση Μετασχηµατισµού (Edit Distance), µεταξύ 2 συµβολοσειρών ορίζεται ως το ελάχιστο πλήθος των πράξεων µετασχηµατισµού που απαιτούνται για να µετασχηµατίσουµε την πρώτη συµβολοσειρά στη δεύτερη. Οι βασικές πράξεις µετασχηµατισµού είναι η ένθεση, διαγραφή και αντικατάσταση συµβόλων[12]. Για παράδειγμα έστω οτι έχουμε τις δύο παρακάτω συμβολοσειρές: S1 = pretend S2 = tremendous Εστω τώρα οτι θέλουμε να μετασχηματίσουμε την S1 στην S2.Για να πραγματοποιηθεί ο μετασχηματισμός αυτός απαιτούνται οι παρακάτω πράξεις: 1) Να αντικαταστήσουμε το p με το t 2) Να αντικαταστήσουμε το t με το m 3) Να εισάγουμε το o 4) Να εισάγουμε το u 5) Να εισάγουμε το s Συνολικά απαιτούνται 5 πράξεις μετασχηματισμού οπότε λέμε οτί: Edit-distance(S1->S2) = 5. Μπορούµε να πούµε δηλαδή ότι η απόσταση µετασχηµατισµού εκφράζει τη διαφορά µεταξύ των συµβόλων δύο συµβολοσειρών, ενώ οι χαρακτήρες που ταιριάζουν παραµένουν αναλλοίωτοι. Ορισµός-2: Η Ακολουθία Μετασχηµατισµού (Edit Transcript), για το µετασχηµατισµό µιας συµβολοσειράς σε μία άλλη ορίζεται ως η ακολουθία των 45

46 πράξεων µετασχηµατισµού που απαιτούνται για να µετασχηµατίσουµε την πρώτη συµβολοσειρά στη δεύτερη. Οι βασικές πράξεις µετασχηµατισµού είναι οι εξής[12]: 1)Ενθεση (I) - Insert 2)Διαγραφή (D) - Delete 3)Αντικατάσταση (R)- Replace 4)Ταίριασμα (M) Match Ας δούμε στο παραπάνω παράδειγμα των δύο συμβολοσειρών S1 και S2 ποιά θα είναι η ακολουθία μετασχηματισμού: R M M R M M M I I I P R E T E N D T R E M E N D O U s Η ακολουθία μετασχηματισμού απεικονίζεται στην πρώτη γραμμή του παραπάνω πίνακα και είναι η : RMMRMMMIII. Οπως είναι φανερό η ακολουθία μετασχηματισμού πρόκειται για μια συμβολοσειρά απο το αλφάβητο Σ= {I,D,R,M}.Είναι επίσης φανερό οτι η διαδικασία μετασχηματισμού δεν είναι μια «ενα προς ενα» αντιστοίχιση,δηλαδή για δύο συμβολοσειρές δεν υπάρχει μια μοναδική ακολουθία μετασχηματισμού. Στόχος µας είναι να εντοπίσουµε τη βέλτιστη ακολουθία- Optimal Edit Transcript. Αυτή την ακολυθία δηλαδή που αντιστοιχεί στον ελάχιστο δυνατό αριθµό πράξεων µετασχηµατισµού. Αν υποθέσουµε ότι κάθε πράξη µετασχηµατισµού στοιχίζει (έχει συγκεκριµένο κόστος-βάρος), τότε το πρόβληµα εύρεσης της βέλτιστης ακολουθίας µετασχηµατισµού, µεταφράζεται στην ελαχιστοποίηση του κόστους µετασχηµατισµού. Ορισµός-3: Η Ζυγισµένη Απόσταση Μετασχηµατισµού (Weighted Edit Distance), µεταξύ 2 συµβολοσειρών ορίζεται ως το ελάχιστο πλήθος των πράξεων µετασχηµατισµού που απαιτούνται για να µετασχηµατίσουµε την πρώτη συµβολοσειρά στη δεύτερη. Κάθε πράξη µετασχηµατισµού έχει συγκεκριµένο κόστος - βάρος και στόχος µας είναι η ελαχιστοποίησή του[12]. Έστω ότι οι βασικές πράξεις µετασχηµατισµού έχουν τα ακόλουθα βάρη: Ενθεση ή διαγραφή : d Αντικατάσταση : Ταίριασμα : r m 46

47 Τότε η ακολουθία μετασχηματισμού του παραπάνω παραδείγματος θα έχει βάρος( ή κόστος της ζυγισµένης απόστασης µετασχηµατισµού των συµβολοσειρών S1 και S2 ) : weighted-editdistance(s1->s2)= 2r+3d+5m Σε περίπτωση τώρα που το κόστος της κάθε πράξης μετασχηματισμού δεν εξαρτάται αποκλειστικά απο το είδος της πράξης(διαγραφή,ένθεση,κ.λ.π ) αλλα απο τον χαρακτήρα που μετασχηματίζεται (ποιος θα είναι ο χαρακτήρας απο το αλφάβητο που θα διαγράψουμε η θα ενθέσουμε) τότε το πρόβληµα µετασχηµατίζεται στην εύρεση της ελάχιστης Ζυγισµένης Απόστασης Μετασχηµατισµού βάσει Αλφαβήτου. Ορισµός-4: Η Ζυγισµένη Απόσταση Μετασχηµατισµού βάσει Αλφαβήτου (Weighted Edit Distance), µεταξύ 2 συµβολοσειρών ορίζεται ως το ελάχιστο πλήθος των πράξεων µετασχηµατισµού που απαιτούνται για να µετασχηµατίσουµε την πρώτη συµβολοσειρά στη δεύτερη. Κάθε πράξη µετασχηµατισµού έχει συγκεκριµένο κόστος - βάρος ανάλογα µε το χαρακτήρα που µετασχηµατίζουµε[12]. Η Ζυγισµένη Απόσταση Μετασχηµατισµού βάσει Αλφαβήτου, εφαρµόζεται κυρίως στα προβλήµατα στοίχισης ακολουθιών DNA και πρωτεϊνών, όπου η αντικατάσταση κάθε χαρακτήρα (είτε από το αλφάβητο του DNA είτε των αµινοξέων) έχει συγκεκριµένο κόστος- βάρος Στοίχιση Ακολουθιών Το πρόβλημα της στοίχισης δύο βιολογικών αλληλουχιών, είναι ένα από τα παλιότερα αλλά και πιο σημαντικά θέματα στη βιβλιογραφία της υπολογιστικής βιολογίας. Δύο αλληλουχίες που είναι σε μεγάλο βαθμό «όμοιες», είναι πιθανό να έχουν κοινή εξελικτική προέλευση και, αν μιλάμε για πρωτεΐνες, να έχουν παρόμοια τρισδιάστατη δομή και παρόμοιες λειτουργίες. Έστω ότι έχουμε δυο βιολογικές αλληλουχίες x=x1,x2,,xn και y=y1,y2,,ym και θέλουμε να ελέγξουμε κατά πόσο αυτές είναι όμοιες ή όχι. Δημιουργούνται αυτόματα μια σειρά από ερωτήματα[1]: Το πρώτο πρόβλημα που προκύπτει είναι με ποιο τρόπο θα μετρήσουμε την ομοιότητα (το πρόβλημα του σκορ) Το δεύτερο αφορά τον τρόπο με τον οποίο θα γίνει η στοίχιση (alignment) των δυο αλληλουχιών (ο αλγόριθμος) Το τρίτο αφορά την επιλογή του είδους της στοίχισης, και τέλος Το τελευταίο ερώτημα αφορά στο πώς θα αποφασίσουμε αν μια δεδομένη στοίχιση είναι σημαντική ή όχι (η στατιστική σημαντικότητα) 47

48 Ένας παλιός, αλλά ταυτόχρονα και διαισθητικός τρόπος σύγκρισης δύο αλληλουχιών, είναι το λεγόμενο διάγραμμα σημείων (dot plot). Σύμφωνα με αυτήν την απλοϊκή προσέγγιση, οι δύο αλληλουχίες τοποθετούνται σε ένα δισδιάστατο πίνακα. Σε κάθε κελί του πίνακα, το οποίο αντιστοιχεί σε ένα ζεύγος «συμβόλων» από τις δύο αλληλουχίες (νουκλεοτίδια ή αμινοξέα), βάζουμε μαύρο χρώμα αν τα δύο σύμβολα είναι όμοια, και λευκό, αν είναι ανόμοια[13]. Διαισθητικά, αναμένουμε ότι αν οι δυο αλληλουχίες είναι 100% όμοιες, το σχήμα που θα παρατηρήσουμε θα είναι μια ευθεία γραμμή στη διαγώνιο. Αν οι οι αλληλουχίες δεν έχουν καμία ομοιότητα, θα περιμένουμε μια τυχαία κατανομή των μαύρων (γραμμοσκιασμένων) κελιών. Προφανώς, σε περιπτώσεις μερικής ομοιότητας, θα περιμένουμε να δούμε «κάτι» που να μοιάζει με γραμμή πάνω ή γύρω από τη διαγώνιο. Αν η ομοιότητα εντοπίζεται μόνο σε ένα ορισμένο σημείο, και δεν εκτείνεται σε όλο το μήκος των αλληλουχιών τότε θα περιμένουμε μια διαγώνιο γραμμή να βρίσκεται κάπου μέσα στον πίνακα (και όχι απαραίτητα στην κύρια διαγώνιο). Στην παρακάτω εικόνα φαίνονται Δύο παραδείγματα διαγραμμάτων σημείων (dot plot). Στο αριστερό σχήμα, βλέπουμε το διάγραμμα που αντιστοιχεί στη στοίχιση δύο μικρών πρωτεϊνών, στο οποίο μπορούμε να δούμε τα όμοια και ανόμοια αμινοξέα. Οι δύο αλληλουχίες έχουν μεγάλη ομοιότητα, έστω και αν βλέπουμε 1-2 μικροδιαφορές. Στα δεξιά, βλέπουμε τη σύγκριση δύο πραγματικών πρωτεϊνών μεγάλου μήκους. Στην περίπτωση αυτή δεν μπορούμε να δούμε τα αμινοξέα, αλλά η περιοχή ομοιότητας είναι εμφανής (τουλάχιστον μέχρι το κατάλοιπο 300 των δύο αλληλουχιών)[1] Εικόνα 10 : Στοίχιση δυο ακολουθιών με dot plot 48

49 Οπως η εισαγωγή του μέτρου της απόστασης μετασχηματισμού αναφέρεται στο πόσο διαφορετικές ειναι δυο ακολουθίες,έτσι και η στοίχιση ακολουθιών πρόκειται για ένα μέτρο που μας δείχνει πόσο όμοιες είναι δύο ακολουθίες. Η Στοίχιση Ακολουθιών- Sequence Alignment, προκύπτει τοποθετώντας τη µια ακολουθία κάτω από την άλλη έτσι ώστε οι κοινοί χαρακτήρες να τοποθετούνται στις ίδιες θέσεις. Για το προηγούμενο παράδειγμα των δύο συμβολοσειρών η στοίχιση έχει την ακόλουθη μορφή: P R E T E N D T R E M E N D O U S Μπορούμε να προσθέσουμε κενά στην αρχή, στο τέλος ή και στο ενδιάμεσο των ακολυθιών προκειμένου να έχουν το ίδιο μήκος οι στοιχιζόμενες ακολουθίες.ας δουμε στο παρακάτω παράδειγμα τη στοίχιση των δύο ακολουθιών S1 =vintner και S2 = writers. - V I N T N E R W R I - T - E R S Στη στοίχιση ακολουθιών, προσπαθούµε να υπολογίσουµε τη στοίχιση που εµφανίζει τη µέγιστη οµοιότητα µεταξύ των ακολουθιών. Κεντρικό ρόλο σε αυτή την προσπάθεια παρουσιάζει η εισαγωγή των κενών χαρακτήρων µε σκοπό τη βέλτιστη στοίχιση ακολουθιών µε ήδη γνωστά βιολογικά µοντέλα και µοτίβα των οποίων η λειτουργία είναι εκ των προτέρων γνωστή.είναι απαραίτητο να προβλέψουμε και την ύπαρξη κενών στις στοιχισμένες αλληλουχίες. Η ύπαρξη αυτή είναι απαραίτητη καθώς ένα από τα βασικά χαρακτηριστικά των μεταλλάξεων μέσω των οποίων προχωράει η εξέλιξη είναι η προσθήκη (insertion) και η απαλοιφή (deletion) νουκλεοτιδίων. Όταν στη στοίχιση δυο αλληλουχιών εμφανίζεται (στη μια από τις δυο), το κενό (gap) δεν είναι δυνατό να ξέρουμε αν αυτό προήλθε (εξελικτικά) από απαλοιφή βάσης σ αυτή την αλληλουχία, ή από προσθήκη στην άλλη αλληλουχία με την οποία συγκρίνεται[2][13]. 49

50 Ας δουμε το παρακάτω παράδειγμα στοίχισης δυο ακολουθιών DNA τώρα με στοίχιση δυο ακολουθιών µε την εισαγωγή 7 κενών χαρακτήρων σε 4 θέσεις, που µεταφράζεται ως µετάλλαξη της ακολουθίας του DNA στις αντίστοιχες θέσεις: C T T T A A C - - A - A C C C A C C C A T - C Έστω οτι συμβολίζουμε με Σ το αλφάβητο που χρησιµοποιείται για τις ακολουθίες S1 και S2 και Σ = Σ "-", το αλφάβητο που εµπεριέχει και τα κενά ως σύµβολο. Για δύο χαρακτήρες x, y Σ, ορίζουµε ως s(x,y) την τιµή στοίχισης των 2 χαρακτήρων. Η τιµή της στοίχισης (alignment) Α των ακολουθιών S1 και S2 αποτελεί το άθροισµα όλων των επιµέρους στοιχίσεων για το µήκος των 2 ακολουθιών. Εστω οτι έχουμε για τις δυο συμβολοσειρες την παρακάτω στοίχιση και συνάρτηση επιτυχίας όπως παρουσιάζονται στους πίνακες. S A C G T A C G T

51 G A G - T C T G A C C T C - Η τιμή της συνάρτησης ομοιότητας με βάση τους δύο παραπάνω πίνακες είναι : =4. Συγκρίνοντας δηλαδή ανά σύµβολο τις δυο ακολουθίες, αποδίδουµε για κάθε θέση την τιµή που ορίζει η αντικειµενική συνάρτηση του πίνακα που δηλώνει τα κόστη σε κάθε αντικατάσταση. Βάσει των παραπάνων η ταύτιση των βάσεων T και T στις δύο ακολουθίες αντιστοιχεί στην τιµή 3, ενώ η µη ταύτιση ανάµεσα στις βάσεις g και c στη θέση 3 βαθµολογείται µε -2. Αθροίζοντας διαδοχικά τις τιµές της συνάρτησης για όλες τις θέσεις της ακολουθίας προκύπτει η τιµή 4, ως µετρική οµοιότητας των 2 ακολουθιών.οπως αναφέραμε και προηγουμένως για κάθε στοίχιση θα έχουμε και μια διαφορετική συνάρτηση επιτυχίας όποτε θα επιλέξουμε αυτην που βελτιστοποιεί αυτη την συνάρτηση. Από την άλλη πλευρά, ειδικά για τις πρωτεΐνες υπάρχουν πάρα πολλοί εξειδικευμένοι πίνακες υποκατάστασης (substitution matrices) οι οποίοι υπολογίζουν τις αντίστοιχες συνεισφορές στο score για μη ταύτιση των διάφορων αμινοξέων (mismatches) στηριζόμενοι σε παρατηρηθείσες αντικαταστάσεις αμινοξέων αλλά με διαφορετικό τρόπο ο καθένας. Οι πίνακες υποκατάστασης όπως έδειξε ο Altschul (Altschul, 1991), έχουν ξεκάθαρη ερμηνεία υπό το πρίσμα της θεωρίας της πληροφορίας. Τέτοιοι πίνακες είναι οι πίνακες των οικογενειών PAM (Dayhoff, et al., 1978), BLOSUM (Henikoff & Henikoff, 1992), GONNET (Gonnet, et al.,1992) αλλά και άλλοι πίνακες της οικογένειας Point Accepted Mutations (PAM) (Dayhoff, et al., 1978).[1] Οι συγγραφείς, όρισαν ως «Αποδεκτή Σημειακή Μεταλλαγή» (PAM) σε μια πρωτεΐνη την αντικατάσταση ενός αμινοξικού κατάλοιπού της με ένα κατάλοιπο διαφορετικού τύπου, η οποία έχει γίνει αποδεκτή μέσω της διαδικασίας της Φυσικής Επιλογής. Η τιμή PAM1 προέκυψε από πολλαπλή στοίχιση αλληλουχιών με γνωστή εξελικτική σχέση και ομοιότητα μεγαλύτερης του 85%.Μέσω αυτής της τιμής και με χρήση ενός μαρκοβιανού μοντέλου εξέλιξης προέκυψαν οι πίνακες PAM30, PAM250 κ.ο.κ. δεδομένου ότι οι πίνακες αυτοίείναι πολλαπλασιαστικοί καθώς ισχύει ΡΑΜΝ=(ΡΑΜ1)Ν. [2] Η χρήση πινάκων με μικρό Ν ενδείκνυται όταν οι εξεταζόμενες αλληλουχίες είναι πολύ όμοιες (μικρή εξελικτική απόσταση), ενώ στην περίπτωση περισσότερο απομακρυσμένων ομοιοτήτων χρησιμοποιούμε πίνακες μεγαλύτερου Ν. Στις περιπτώσεις εκείνες κατά τις οποίες δεν γνωρίζουμε εκ των προτέρων την ομοιότητα 51

52 των προς σύγκριση αλληλουχιών (π.χ. σε αναζητήσεις έναντι βάσεων δεδομένων) επιλέγουμε έναν ενδιάμεσο πίνακα, όπως τον PAM250, ο οποίος αντιστοιχεί σε συντήρηση της τάξης του 20-25%. Το κατώφλι οµοιότητας επιλέγεται ώστε να ελαχιστοποιεί το σφάλµα στοίχισης. Τα φυλογενετικά δέντρα ανακατασκευάζονται για τις ακολουθίες ώστε να προσδιοριστεί η ακολουθία πρόγονος για κάθε στοίχιση. Οι τιµές που προκύπτουν στον πίνακα Μ1 αντιπροσωπεύουν την πιθανότητα µετάλλαξης ενός αµινοξέος µε πιθανότητα 1/100. Αν πολλαπλασιάσουµε τον πίνακα Μ1 µε τον εαυτό του n φορές προκύπτει ο πίνακας αντικατάστασης των πρωτεϊνών που έχουν υποστεί µετάλλαξη n φορές. Ο πίνακας Μ120 θεωρείται καλός για σχετικές πρωτεΐνες, ενώ ο πίνακας Μ250 είναι περισσότερο κατάλληλος για πρωτεΐνες ξένες µεταξύ τους Οι πίνακες BLOSUM (Henikoff & Henikoff, 1992), Τα δεδοµένα εισόδου προέρχονται από τη Βάση εδοµένων BLOCKS που αποτελεί ένα σύνολο στοιχισµένων ακολουθιών (χωρίς την παρουσία κενών) από οικογένειες σχετικών πρωτεϊνών. Χρησιµοποιώντας 2000 blocks στοιχισµένων ακολουθιών που χαρακτηρίζουν πάνω από 500 οικογένειες πρωτεϊνών, οι ακολουθίες σε κάθε block, ταξινοµούνται σε συστάδες και οι συχνότητες µεταλλάξεων. Τα τμήματα αυτά (blocks), επιλέχθηκαν με προσοχή από ένα μεγάλο εύρος πρωτεϊνικών οικογενειών και διατηρήθηκαν τελικά μόνο τα πιο καλά στοιχισμένα τμήματα (αυτά που δεν περιείχαν κενά). Εικόνα 11 : Ο Πίνακας BLOSUM62 με τα βάρη αντικατάστασης των αμινοξέων σε πρωτείνες. Παρατηρήστε ότι αμινοξέα τα οποία έχουν παρόμοιες φυσικοχημικές ιδιότητες έχουν γενικά θετικές τιμές για τις μεταξύ τους αντικατσατάσεις 52

53 Παρόλο που οι δύο οικογένειες πινάκων έχουν διαφορές, είναι δυνατό να κάνουμε μια γενική αντιστοίχιση μεταξύ τους. Γενικά, μικρές τιμές των πινάκων PAM, και μεγάλες τιμές των πινάκων BLOSUM αντιστοιχούν σεαλληλουχίες με μικρή εξελικτική απόσταση, που σημαίνει ακολουθίες με μεγάλες ομοιότητες. Αντίθετα, μεγάλες τιμές των πινάκων PAM, και μικρές τιμές των πινάκων BLOSUM αντιστοιχούν σε αλληλουχίες με μεγάλη εξελικτική απόσταση οπότε είναι και προτιμότερο να χρησιμοποιούνται σε ακολουθίες με μικρότερες ομοιότητες.μια κατα προσέγγιση αντιστοίχιση φαίνεται στο παρακάτω σχήμα[1]. Εικόνα 12 : Αντιστοίχιση πινάκων PAM με BLOSUM Βέβαια τα παραπάνω ισχύουν για περιπτώσεις στις οποίες γνωρίζουμε εκ των προτέρων κατα πόσο περιμένουμε να μοίαζουν οι δύο ακολουθίες μας.στην γενική περίπτωση όπου κάνουμε μια αναζήτηση σε μια βάση δεδομένων θα πρέπει να χρησιμοποιήσουμε εναν πίνακα ενδιάμεσης ομοιότητας όπως είναι ενας BLOSUM62. Στην περίπτωση που έχουμε σαν αποτέλεσμα πολλές πρωτείνες τις οποίες δεν μπορούμε να διαχωρίσουμε τότε θα πρέπει να επαναλάβουμε την αναζήτηση με έναν μεγαλύτερο πίνακα όπως ο BLOSUM90.Στην περίπτωση που το αποτέλεσμα τις αναζήτησης μας δώσει λίγες πρωτείνες τότε θα πρέπει να επαναλάβουμε την αναζήτηση με εναν μικρότερο πίνακα αυτη τη φορά όπως ο BLOSUM45 για παράδειγμα. Γενικά πρέπει να σημειωθεί πάντως πως αλλαγή στον πίνακα αντικατάστασης επιφέρει άλλαγη στα αποτελέσματα της αναζήτησης και της προκύπτουσας στοίχισης, Διαισθητικά οι πίνακες αυτοί μπορούν να ερμηνευτούν με την εξής λογική: Αμινοξέα τα οποία έχουν παρόμοιες φυσικοχημικές ιδιότητες (πχ υδρόφοβα, πολικά, αρωματικά κ.ο.κ.), έχουν θετικές τιμές για τις μεταξύ τους αντικαταστάσεις. Αυτό σημαίνει ότι σε γενικές γραμμές, μια αντικατάσταση ενός αμινοξέος με ένα άλλο παρόμοιο, θα είναι «αποδεκτή» διαδικασία για τη δομή και τη λειτουργία της πρωτεΐνης. Αυτό με τη σειρά του, σημαίνει ότι είναι δυνατόν δύο πρωτεΐνες στις οποίες μεγάλο μέρος των αμινοξέων έχουν αντικατασταθεί με «παρόμοια» (και κατά συνέπεια, δεν εμφανίζουν μεγάλη ονομαστική ταύτιση), Παρ όλα αυτά να θεωρούνται «όμοιες» και να λαμβάνουν μεγάλο score στις στοιχίσεις. Φυσικά, αναμένουμε ότι για κάθε αμινοξύ, τη μεγαλύτερη τιμή για αντικατάσταση θα την έχει ο εαυτός του (οι τιμές στη διαγώνιο) αλλά δεν αναμένουμε όλες οι τιμές της διαγωνίου να είναι ίδιες γιατί οι τιμές αυτές εξαρτώνται και από την πιθανότητα εμφάνισης του κάθε αμινοξέος. Για παράδειγμα 53

54 στον BLOSUM62, η Κυστεΐνη (C) και η Τρυπτοφάνη (W), οι οποίες είναι τα πιο σπάνια αμινοξέα, έχουν και τις μεγαλύτερες τιμές στη διαγώνιο (9 και 11, αντίστοιχα), ενώ η Αλανίνη (Α), η οποία είναι ένα από τα πιο συνηθισμένα, έχει τη μικρότερη τιμή (μόλις 4).[1] Τέλος, πρέπει να τονίσουμε, ότι οι πίνακες που περιγράψαμε είναι φτιαγμένοι για γενική χρήση. Για πιο ειδικά προβλήματα, είναι δυνατόν να κατασκευαστούν ειδικοί πίνακες, όπως για παράδειγμα στην περίπτωση της αναζήτησης για διαμεμβρανικές πρωτεΐνες, ο πίνακας PHAT. 2.5 Αλγόριθμοι δυναμικού προγραμματισμού Ο δυναμικός προγραμματισμός, είναι μια τεχνική που βρίσκει εφαρμογές σε πολλά δύσκολα προβλήματα στη βιοπληροφορική. Το βασικό χαρακτηριστικό των αλγορίθμων αυτών, είναι ότι «σπάνε» το μεγάλο πρόβλημα (το οποίο απαιτεί πολλούς υπολογισμούς για να λυθεί), σε μικρότερα προβλήματα τα οποία λύνονται πιο εύκολα. Το βασικό σημείο, είναι κάθε φορά, μια επαγωγική απόδειξη η οποία θα δείχνει ότι το άθροισμα των μικρότερων αυτών προβλημάτων, δίνει και τη λύση του μεγάλου προβλήματος. Για 2 ακολουθίες S1 και S2, µε µήκος S1 =n & S2 =m, υπολογίζουµε σταδιακά την τιµή στοίχισης για τα επιµέρους τµήµατα των ακολουθιών. Πιο αναλυτικά για κάθε i, 1 i n, και j, 1 j m, η µέθοδος του υναµικού Προγραµµατισµού αποθηκεύει σε έναν πίνακα F µεγέθους "n+1 x m+1", την απόσταση µετασχηµατισµού κάθε δυνατού προθέµατος S1[1 i] µε κάθε δυνατό πρόθεµα S2[1 j]. Οπότε έχουμε τον παρακάτω ορισμό: Έστω 2 ακολουθίες S1 και S2. Θα συµβολίζουµε ως F(i,j) την απόσταση µετασχηµατισµού µεταξύ των προθεµάτων S1[1..i] και S2[1..j], δηλαδή τον ελάχιστο αριθµό πράξεων µετασχηµατισµού που απαιτούνται για να µετασχηµατίσουµε τους i πρώτους χαρακτήρες της ακολουθίας S1 στους j πρώτους χαρακτήρες της ακολουθίας S2. Αν n και m αντίστοιχα το µήκος των S1 και S2, τότε η συνολική απόσταση µετασχηµατισµού των S1 και S2 ισούται µε την τιµή F(n,m).[2] Οι αλγόριθμοι δυναμικού προγραμματισμού στη στοίχιση αλληλουχιών (Gonnet, et al., 1992) εργάζονται σε γενικές γραμμές ως εξής: τοποθετούν τις δυο αλληλουχίες x=x1,x2,,xn και y=y1,y2,,ym σε ένα nm πίνακα με στοιχεία F(i,j) όπου κάθε στοιχείο αυτού του πίνακα είναι η τιμή του σκορ για την καλύτερη στοίχιση μέχρι το στοιχείο xi, και το yj. Στην ουσία, δουλεύουν πάνω στον πίνακα του διαγράμματος σημείων που είδαμε πριν, τοποθετώντας αριθμητικές τιμές στα κελιά του Προφανώς, αν γνωρίζουμε την τιμή της συνεισφοράς στο σκορ s(xi,yi) για κάθε δυνατό συνδυασμό βάσεων και τη συνάρτηση της ποινής για το κενό, τότε με γνωστά τα στοιχεία F(i-1,j), F(i,j-1) και F(i-1,j-1) μπορούμε να υπολογίσουμε αναδρομικά το F(i,j) όπως φαίνεται στην παρακάτω Εικόνα όπου απεικονίζονται οι τρεις οι πιθανοί τρόποι μετάβασης από το F(i-1,j-1) στο F(i,j). Προφανώς κάθε μη διαγώνια μετάβαση σημαίνει την εισαγωγή του κενού σε μια από τις δυο αλληλουχίες. Έχοντας υπολογίσει 54

55 όλα τα στοιχεία αυτού του πίνακα μπορούμε κινούμενοι προς τα πίσω να βρούμε την καλύτερη δυνατή στοίχιση των δυο αλληλουχιών. Εικόνα 13 :: Αλγόριθμοι δυναμικού προγραμματισμού.υπολογίζουν κάθε φορά το στοιχείο F(i,j) από τα 3 γειτονικά κελιά του F(i-1,j),F(i,j-1), F(i-1,j-1). Aς δούµε πιο αναλυτικά πώς υπολογίζονται οι τιµές του πίνακα F µε χρήση 3 βασικών τεχνικών[2]: α) τη σχέση αναδροµής- recurrence relation, β) τη χρήση πίνακα- tabular computation, και γ) τη σχέση οπισθοχώρησης- traceback Η σχέση αναδροµής- recurrence relation, καθορίζει µια αναδροµική σχέση ανάµεσα στην τιµή της θέσης του πίνακα F(i,j) και στοιχείων του πίνακα µε µικρότερες διαστάσεις από i και j (i,j >0): F(i,j)=min[F(i-1,j)+1,F(i,j-1)+1,F(i-1,j-1)+t(i,j)], όπου t(i,j)= 1, αν οι χαρακτήρες S1(i) και S2(j) είναι διαφορετικοί (mismatch), οπότε κι έχουµε αντικατάσταση του S1(i) µε τον S2(j), και µε 0 αν είναι ίδιοι (match). Επίσης ως αρχικές συνθήκες δεχόµαστε ότι: 55

56 F(i,0)= i: προκειµένου οι i πρώτοι χαρακτήρες της ακολουθίας S1 να µετασχηµατιστούν σε 0 χαρακτήρες της ακολουθίας S2 πρέπει να διαγραφούν i χαρακτήρες, F(0,j)=j: προκειµένου οι 0 πρώτοι χαρακτήρες της ακολουθίας S1 να µετασχηµατιστούν σε j χαρακτήρες της ακολουθίας S2 πρέπει να ενθέσουµε j χαρακτήρες. Απο την παραπάνω σχέση παρατηρούμε πως η τιμη F(i,j) ισούται με την ελάχιστη απο τις τέσσερις τιμές εντός της παρενθέσεως.δηλαδή: F(i,j-1)+1 : στην περίπτωση που για να µετασχηµατίσουµε το χαρακτήρα S1[i] στο χαρακτήρα S2[j] πρέπει να ενθέσουµε το χαρακτήρα S2[j) στη θέση i της S1, οπότε αυξάνεται κατά 1 το πλήθος των πράξεων µετασχηµατισµού, F(i-1,j)+1, στην περίπτωση που για να µετασχηµατίσουµε το χαρακτήρα S1[i] στο χαρακτήρα S2[j] πρέπει να διαγράψουµε το χαρακτήρα S1(i), οπότε αυξάνεται κατά 1 το πλήθος των πράξεων µετασχηµατισµού, F(i-1,j-1)+1 στην περίπτωση που για να µετασχηµατίσουµε το χαρακτήρα S1[i] στο χαρακτήρα S2[j] πρέπει να αντικαταστήσουµε το χαρακτήρα S1(i), µε το χαρακτήρα S2[j] οπότε αυξάνεται κατά 1 το πλήθος των πράξεων µετασχηµατισµού, F(i-1,j-1) στην περίπτωση που έχουµε ταίριασµα µεταξύ των χαρακτήρων S1[i] και S2[j] οπότε δε µεταβάλλεται η απόσταση µετασχηµατισµού. Η τιµή F(i,j), είναι η µικρότερη από τις παραπάνω µιας και αναζητάµε την ελάχιστη απόσταση µετασχηµατισµού µεταξύ των δύο συµβολοσειρών, δηλαδή το ελάχιστο πλήθος πράξεων µετασχηµατισµού για το µετασχηµατισµό της µιας ακολουθίας στην άλλη. Η μέθοδος tabular computation, διευκολύνει τον υπολογισµό της τιµής F(n,m), βάσει της αναδροµικής σχέσης που ήδη παρουσιάσαµε. Οι ενδιάµεσες τιµές F(i,j) σε αυτή τη διαδικασία αποθηκεύονται σε έναν πίνακα µεγέθους "n+1 x m+1". Η προσέγγιση αυτή χαρακτηρίζεται ως bottom-up προσέγγιση. Στον παρακάτω πίνακα φαίνεται ο υπολοσισμός της απόστασης μετασχηματισμού της ακολουθίας S1 = vintner στην ακολουθία S2 = writers.οι τιμές στην πρώτη γραμμη και στήλη του πίνακα προκύπτουν απο τις αρχικές συνθήκες που αναφέραμε και παραπάνω.οι υπόλοιπες τιμές υπολογίζονται ανα γραμμλη με φορά απο τα αριστερά προς τα δεξιά. Εστω οτι θέλουμε για παράδειγμα να υπολογίσουμε την τιμή F(4,4) του πίνακά μας που είναι σημειωμένη με αστερίσκο.τότε έχουμε F(4,4) = F(3,3) αφού S1 (4) = S2 (4) = t. 56

57 Εικόνα 14 : Αλγόριθμος δυναμικού προγραμματισμού με tabular computation Η σχέση οπισθοχώρησης- traceback, χρησιµοποιείται αφού έχουµε υπολογίσει την απόσταση µετασχηµατισµού για να καθορίσουµε τη βέλτιστη ακολουθία µετασχηµατισµού. Γι αυτό το λόγο προσθέτουµε δείκτες προσανατολισµού στον πίνακα F, οι οποίοι δείχνουν τα κελιά από τα οποία προκύπτει η τιµή στο στοιχείο F(i,j). Πιο αναλυτικά, προσθέτουµε ένα δείκτη: από την (i,j) θέση προς την (i,j-1) αν F(i,j)= F(i,j-1)+1 (ένθεση χαρακτήρα) από την (i,j) θέση προς την (i-1,j) αν F(i,j)= F(i-1,j)+1 (διαγραφή χαρακτήρα) από την (i,j) θέση προς την (i-1,j-1) αν F(i,j)= F(i-1,j-1)+t(i,j) (αντικατάσταση χαρακτήρα ή ταίριασµα) Οι δείκτες επιτρέπουν να καθορίσουµε µε εύκολο τρόπο τη βέλτιστη ακολουθία µετασχηµατισµού, απλά ακολουθώντας οποιοδήποτε µονοπάτι από δείκτες από το στοιχείο (n,m) του πίνακα µέχρι το στοιχείο (0,0). Στο µονοπάτι που ακολουθούµε ερµηνεύουµε κάθε δείκτη ως εξής: κάθε οριζόντιο βέλος από το στοιχείο (i,j) στο (i,j-1) ως ένθεση του χαρακτήρα S2(j) στην ακολουθία S1, κάθε κάθετο βέλος από το στοιχείο (i,j) στο (i-1,j) ως διαγραφή του χαρακτήρα S1(i) και κάθε διαγώνιο βέλος από το στοιχείο (i,j) στο (i-1,j-1) ως ένα ταίριασµα αν S1(i)=S2(j) και ως αντικατάσταση αν S1(i) S2(j). 57

58 Εχοντας υπόψιν όλα αυτά προσαρμόζουμε τον παραπάνω πίνακα μας και έχουμε τον ακόλουθο πίνακα δυναμικού προγραμματισμού για τον υπολογισμό της απόστασης μετασχηματισμού: Εικόνα 15: Αλγόριθμος δυναμικού προγραμματισμού με σχέση οπισθοχώρησης (traceback) Μπορούμε να δώσουμε μια διαφορετική ερμήνεια στον παραπάνω πίνακα και στο συμβολισμό που έχουμε δώσει με τα βελάκια[2]: κάθε οριζόντιο βέλος( ) δηλώνει την εισαγωγή ενός κενού στην ακολουθία S1, κάθε κάθετο βέλος( ) δηλώνει την εισαγωγή ενός κενού στην ακολουθία S2, κάθε διαγώνιο βέλος( ) την αντικατάσταση ενός χαρακτήρα ή το ταίριασµα µεταξύ 2 χαρακτήρων. Για παράδειγµα στον παραπα.νω πίνακα υπάρχουν τρία πιθανά µονοπάτια από το στοιχείο (7,7) του πίνακα στο (0,0). Τα µονοπάτια είναι ίδια από το στοιχείο (7,7) µέχρι το στοιχείο (3,3) όπου υπάρχουν δύο επιλογές: Α) προχωράμε προς τα πάνω Β) προχωράμε διαγώνια. Οι αντίστοιχες στοιχίσεις παρουσιάζονται ακολούθως: 58

59 V I N T N E R - W R I T - E R S V - I N T N E R - W R I - T - E R S - V I N T N E R - W R I - T - E R S Εποµένως κάθε µονοπάτι το οποίο προκύπτει ακολουθώντας τους δείκτες από το στοιχείο (n,m) µέχρι το στοιχείο (0,0) του πίνακα δυναµικού προγραµµατισµού, καθορίζει µια ακολουθία µετασχηµατισµού µε το µικρότερο πλήθος πράξεων µετασχηµατισµού.και αντίστροφα όμως κάθε βέλτιστη ακολουθία µετασχηµατισµού καθορίζεται από ένα τέτοιο µονοπάτι. Η µέθοδος του υναµικού Προγραµµατισµού, αν και υλοποιείται εύκολα, µε τη χρήση πίνακα απαιτεί μεγάλο χώρο αποθήκευσης για τον πίνακα το οποίο δεν είναι καθόλου επιθυμητό σε συνδυασμo με το πρόβλημα αποθήκευσης των big data βιολογικών δεδομένων που θα περιγράψουμε στο επόμενο κεφάλαιο Ολική Στοίχιση Οπως αναφέραμε παραπάνω έχουμε δυο περιπτώσεις στοίχισης ακολουθιών.η ολική στοίχιση αναφέρεται την περίπτωση αυτή όπου έχουμε δυο αλληλουχίες περίπου ίδιου μήκους και θέλουμε να δούμε ποιος είναι ο καλύτερος δυνατός τρόπος να στοιχηθούν παράλληλα η μια κάτω από την άλλη σε όλο το μήκος τους (π.χ. μπορεί να είναι δυο γονίδια για την ίδια πρωτεΐνη από διαφορετικούς οργανισμούς) ώστε να μπορέσουμε να εξετάσουμε την πιθανή εξελικτική ή λειτουργική σχέση τους. Ο αλγόριθμος που επιτυγχάνει τα παραπάνω είναι ο αλγόριθμος των Needleman- Wunsch (Needleman & Wunsch, 1970). Σύμφωνα με τον αλγόριθμο αυτό το σκορ κάθε κελιού υπολογίζεται με τον αναδρομικό τύπο[13]: 59

60 F(i,j) = max { F(i -1,j-1) + s(xi, yj ), F(i 1, j ) d, F(i, j-1) d} Η τιμή για το κάτω δεξιά στοιχείο του πίνακα είναι εξ ορισμού το σκορ για την καλύτερη δυνατή στοίχιση,ενώ για την αρχικοποίηση της πρώτης στήλης και της πρώτης γραμμής, έχουμε F(i,0)=-id και F(0,j)=-jd. Από το κάτω δεξιά στοιχείο, θα πρέπει να ξεκινήσει μια αναδρομή (recursion) στον πίνακα, η οποία ακολουθώντας κάθε φορά τα μέγιστα θα αποκαλύψει τη βέλτιστη διαδρομή, δηλαδή τη βέλτιστη στοίχιση. Ας δούμε το παρακάτω παράδειγμα ολικής στοίχιση[1]ς: Έστω ότι έχουμε τις εξής δυο αλληλουχίες DNA y=cagtatcgca και x=aagttagcag. Θέλουμε να δούμε ποια είναι η καλύτερη ολική στοίχιση που μπορούν να έχουν με: s(xi, yj ) = 1 αν xi = yj, και s(xi, yj ) = -1 αν xi # yj και d=1, τότε συμπληρώνοντας τον πίνακα έχουμε : Εικόνα 16::Παράδειγμα ολικής στοίχισης Οπότε η ολική στοίχιση είναι : A A G T T A G C A G C A G T A T C G C A Και θα έχει σκορ την τιμή του κάτω δεξιά κελιού του πίνακα δηλαδή την τιμή 3. 60

61 2.5.2 Προσαρμογή αλληλουχιών Μια άλλη περίπτωση είναι η προσαρμογή αλληλουχιών.με τον όρο προσαρμογή αλληλουχιών αναφερόμαστε στην περίπτωση οπου θέλουμε να δούμε την προσαρμογή (fit) μιας μικρής αλληλουχίας σε μια μεγαλύτερη, δηλαδή όταν θέλουμε να ανιχνεύσουμε αν μια μικρή αλληλουχία με βιολογική σημασία εμφανίζεται σε μια μεγαλύτερη. Ο αλγόριθμος αυτός χρησιμοποιεί την παραπάνω σχέση της στοίχισης ακολουθιών με κάποιες διαφοροποιήσεις όμως. Πιο συγκεκριμένα: F(i,j) = max { F(i -1,j-1) + s(xi, yj ), F(i 1, j ) d, F(i, j-1) d} Με F(i,0) = -id, και F(0,j) = 0. Παραδειγμα προσαρμογής αλληλουχιών[1] : Έστω ότι θέλουμε να ανιχνεύσουμε αν στην αλληλουχία του γονιδίου laci της E.coli υπάρχει η γνωστή αλληλουχία του υποκινητή (promoter). Έστω ακόμα ότι το τμήμα του γονιδίου έχει αλληλουχία: x=tcgcggtatggcatgatagcgcccggaa, και η αλληλουχία του υποκινητή είναι: y=tataat.αν θέσουμε και: s(xi, yj ) = 1 αν xi = yj, και s(xi, yj ) = -1 αν xi # yj και d = 2. Τότε ο προηγούμενος πίνακας F παίρνει την εξής μορφή: Εικόνα 17 : Προσαρμογή δύο ακολουθιών 61

62 Παρατηρούμε ότι ο αλγόριθμος εντόπισε μια αλληλουχία πιθανού υποκινητή C A T G A T η οποία έχει σκορ ίσο με 2 (επειδή το 2 είναι το μέγιστο στοιχείο στην τελευταία σειρά του πίνακα) οπότε κάνοντας αναδρομή περιοχή που έχουμε σκιάσει στον πίνακα μπορούμε να εντοπίσουμε την παραπάνω ακολουθία Τοπική Στοίχιση Η τρίτη και τελευταία περίπτωση παρουσιάζει ιδιαίτερο ενδιαφέρον και είναι αυτή που χρησιμοποιείται για τη σύγκριση δυο αλληλουχιών στην περίπτωση που θέλουμε να βρούμε την καλύτερη δυνατή στοίχιση δυο υπό-ακολουθιών τους. Η μέθοδος αυτή Εικόνα 18 : Ένα παράδειγμα τοπικής ομοιότητας πρωτεϊνών με διαφορετική σύσταση των περιοχών. Η πρώτη πρωτεΐνη έχει δύο περιοχές που μοιάζουν με περιοχές της δεύτερης πρωτεΐνης (αλλά δεν βρίσκονται στην ίδια θέση στην αλληλουχία).αντίθετα, η τρίτη πρωτεΐνη διαθέτει μόνο μία από τις περιοχές αυτές, αλλά σε δύο αντίγραφα. ονομάζεται τοπική στοίχιση (local alignment) και δίνει πολλές φορές συνταρακτικά αποτελέσματα ακόμα και σε αλληλουχίες που δεν έχουν καθόλου εμφανή ολική ομοιότητα (ομολογία). Η μέθοδος αυτή είναι η ευρύτερα χρησιμοποιούμενη καθώς μας επιτρέπει και από εξελικτική σκοπιά να διαχωρίζουμε τις αλληλουχίες σε περιοχές που βρίσκονται κάτω από ισχυρή εξελικτική πίεση (και άρα μεταλλάσσονται πολύ αργά) και σε άλλες που μπορεί να διαφέρουν πάρα πολύ (Pearson & Wood, 2001). Η μέθοδος έχει μεγάλη σημασία στη σύγκριση πρωτεϊνικών αλληλουχιών, καθώς οι πρωτεΐνες αποτελούνται από διαφορετικούς συνδυασμούς περιοχών (domains), και κατά συνέπεια μας ενδιαφέρει πολλές φορές να μπορούμε να εντοπίσουμε τέτοιου είδους ομοιότητες[13]. 62

63 2.6 Το Πρόβληµα Τοπικής Στοίχισης Επιθέµατος- Local Suffix Alignment Problem Το πρόβληµα της τοπικής στοίχισης επιθέµατος- local suffix alignment problem για δυο ακολουθίες S1 και S2 ορίζεται ως εξής: εντόπισε ένα επίθεµα α του S1[1..i] (µε την πιθανότητα να είναι κενό) κι ένα επίθεµα β του S2[1..j] (πιθανόν κενό) τέτοια ώστε το V(α,β) να έχει τη µέγιστη τιµή από όλα τα άλλα δυνατά ζεύγη επιθεµάτων των S1[1..i] και S2[1..j]. Συµβολίζουµε ως υ(i,j) τη βέλτιστη τοπική στοίχιση επιθεµάτων για τις τιµές i και,j ( i n και j m). Ο αλγόριθμος που επιτυγχάνει τα παραπάνω είναι ο αλγόριθμος των Smith Waterman [15] και χρησιμοποιεί τον εξής αναδρομικό τύπο: F(i,j) = max { F(i -1,j-1) + s(xi, yj ), F(i 1, j ) d, F(i, j-1) d, 0} Με F(i,0) = 0 και F(0,j) =0 Ο αλγόριθμος είναι ίδιος με αυτόν για την ολική στοίχιση με τη διαφορά ότι όποτε μια στοίχιση δίνει αρνητικό σκορ αυτή τερματίζεται και αρχίζει μια νέα. Επίσης, και αυτό είναι πολύ σημαντικό, η αρχικοποίηση του πίνακα είναι διαφορετική για να μπορεί να εντοπίσει ομοιότητες σε οποιοδήποτε σημείο εκτός της κύριας διαγωνίου. Παράδειγμα Τοπικής στοίχισης[1]: Εχουμε τις ακολουθίες x=tcgcggtatggcatgatagcgcccggaa,και : y=tataat. Εχουμε επίσης: s(xi, yj ) = 1 αν xi = yj, και d =1 s(xi, yj ) = -1 αν xi # yj Επομένως ο πίνακας παίρνει την παρακάτω μορφή : Εικόνα 19: Παράδειγμα τοπικής στοίχισης 63

64 Απο τον πίνακα συνεπάγεται πως η καλύτερη στοίχιση είναι η: A G T A T C G C A A G T T A G C A Με σκορ ίσο με 5 που αποτελεί τη μεγαλύτερη τιμή κελιου στον πίνακά μας. 2.7 Εφαρμογές της στοίχισης ακολουθιών στην ανάλυση ακολουθιλων βιολογικών δεδομένων Επεκτέινοντας τον ορισμό της στοίχισης δυο ακολυθιών για περισσότερες ακολουθίες ορίζουμε το πρόβλημα της πολλαπλής στοίχισης ακολουθιών : Μultiple sequence alignment problem: Μία πολλαπλή ολική στοίχιση από k>2 συµβολοσειρές S={ S1, S2,., Sκ} είναι µία φυσική γενίκευση της στοίχισης για δύο συµβολοσειρές. Επιλέγουµε να επιτρέπεται η ένθεση κενών σε καθεµία από τις k συµβολοσειρές έτσι ώστε οι συµβολοσειρές που προκύπτουν να έχουν το ίδιο µήκος, καθορισµένο να είναι l. Ύστερα οι συµβολοσειρές διαµορφώνονται σε έναν πίνακα µε k γραµµές και l στήλες έτσι ώστε κάθε χαρακτήρας και κενό από κάθε συµβολοσειρά να είναι σε µία µοναδική στήλη. Η πολλαπλή στοίχιση ακολουθιών χρησιµοποιείται στην αναγνώριση και αναπαράσταση πρωτεϊνικών οικογενειών και υπερ-οικογενειών, στην αναπαράσταση των χαρακτηριστικών που µεταφέρονται στις ακολουθίες DNA ή στις πρωτεϊνικές ακολουθίες και στην αναπαράσταση της εξελικτικής ιστορίας (φυλογενετικά δέντρα) από ακολουθίες DNA ή πρωτεϊνών.η παρακάτω εικόνα δείχνει ενα παράδειγμα των προαναφερθέντων[2]: Εικόνα 20 :Πολλαπλή στοίχιση 9 ακολουθιών 64

65 Για τις παραπάνω διαδικασίες στοίχισης έχουν αναπτυχθεί εδώ και χρόνια ειδικά εργαλεία τα οποία οπτικοποιούν τις στοιχίσεις ή τμήματα αυτών, και τις μορφοποιούν σε μορφή κατανοητή και κατάλληλη για παρουσίαση ή δημοσίευση. Τα εργαλεία αυτά προσφέρουν ένα ολοκληρωμένο περιβάλλον εργασίας, με διασυνδέσεις με άλλα εργαλεία (προγράμματα στοίχισης, προγνωστικούς αλγορίθμους κλπ) τόσο τοπικά όσο και στο διαδίκτυο, αλλά και διασυνδέσεις με τις βάσεις δεδομένων (ακολουθιών και δομών). Τα κυριότερα εργαλεία που χρησιμοποιούνται για το σκοπό αυτό είναι τα παρακάτω: Jalview ( Strap ( Seqpup ( Seaview ( Cinema ( Boxshade ( Bioedit ( Εικόνα 21 : Παραδείγματα λειτουργίας του Jalview και οπτικοποίηση της στοίχισης 2.8 Οι αλγόριθμοι FASTA BLAST για αναζήτηση ομοιότητας σε βιολογικές βάσεις δεδομένων. 65

66 Οι αλγόριθμοι που αναλύσαμε προηγουμένως είναι κυρίως εύχρηστη για περιπτώσεις στις οποίες ενδιαφερόμαστε περισσότερο για τη στοίχιση δυο ακολουθιών και οχι σε περίπτωση που αναζητούμε ύπαρξη ομοιότητας σε μια βάση δεδομένων. Οι αναζητήσεις στις βάσεις δεδομένων, είναι ένα βασικό εργαλείο στην υπολογιστική ανάλυση αλληλουχιών και είναι στην πραγματικότητα, μέρος της καθημερινής ρουτίνας ακόμα και των εργαστηριακών μοριακών βιολόγων και χρειαζόμαστε αλγορίθμους που να μπορουν να ανταπεξέρχονται στο κρίσιμο κομμάτι του χώρου και του χρόνου.οι δύο πιο σημαντικοί αλγόριθμοι αυτής της κατηγορίας είναι ο BLAST και το FASTA[1][2][15]. FASTA Η βασική ιδέα του FASTA ( είναι να εντοπίσει κατά προσέγγιση τη διαγώνιο γύρω από την οποία βρίσκεται η στοίχιση, για να περιορίσει έτσι κατά πολύ το εύρος της αναζήτησης. Για το σκοπό αυτό χρησιμοποιεί τα εξής βήματα: Στην αρχή δημιουργείται ένα ευρετήριο με τις θέσεις όλων των k-tuples (λέξεων με μέγεθοςk, τυπικό μήκος για αμινοξικές αλληλουχίες είναι το 1 ή 2) που υπάρχουν ταυτόχρονα και στις δύο αλληλουχίες. Από τη διαφορά των θέσεων τους στις δύο αλληλουχίες εντοπίζεται η διαγώνιος στην οποία βρίσκονται, οπότε στο επόμενο βήμα εντοπίζονται οι διαγώνιες με τα περισσότερα k-tuples. Ακολούθως, αυτές οι περιοχές ταύτισης συνενώνονται επιτρέποντας την εισαγωγή κενών με τον υπολογισμό της αντίστοιχης ποινής, και Τελικά πραγματοποιείται η διαδικασία πλήρους δυναμικού προγραμματισμού (με τον επιλεγμένο πίνακα αντικατάστασης), περιορισμένου όμως μόνο σε μια ζώνη γύρω από τις συγκεκριμένες διαγωνίους. Για να εξηγήσουµε τη φιλοσοφία του αλγορίθµου, ας θεωρήσουµε ότι αναπαριστούµε καθεµιά από τις δέκα καλύτερες υπο-στοιχίσεις ως ένα κόµβο ενός κατευθυνόµενου γράφου. Κάθε κόµβος αποκτά ένα βάρος το οποίο ισούται µε την τιµή της υποστοίχισης που αναπαριστά. Έστω u ο κόµβος ο οποίος αναπαριστά µία από τις επιλεγµένες υπο-στοιχίσεις, που ξεκινά στη θέση (i,j) του πίνακα και τελειώνει στη θέση (i+d, j+d). Έστω v ο κόµβος που αναπαριστά µια άλλη από τις δέκα καλύτερες υπο-στοιχίσεις η οποία ξεκινάει στη θέση (i,j ). Προσθέτουµε µια ακµή στον κατευθυνόµενο γράφο, από τον κόµβο u στον κόµβο υ, αν και µόνο αν i >i+d. Αυτό σηµαίνει ότι ο κόµβος υ εκφράζει µια στοίχιση που ξεκινάει µια γραµµή χαµηλότερα από εκεί που τελειώνει η στοίχιση του κόµβου u στον πίνακα. Προσαρτούµε ένα βάρος σε αυτή την ακµή για να βαθµολογήσουµε αρνητικά τα κενά που δηµιουργούνται ενώνοντας τις δυο επιµέρους υπο-στοιχίσεις[2] BLAST 66

67 Η διαδικασία του BLAST ( μοιάζει στα αρχικά στάδια με αυτή το FASTA, αλλά είναι ακόμα πιο γρήγορη καθώς πολλές παραμέτρους τις έχει προϋπολογισμένες και αποφεύγει τον να στοιχίσει αλληλουχίες της βάσης δεδομένων που ο αλγόριθμος κρίνει ότι δεν έχουν σημαντική ομοιότητα: Η διαδικασία της σύγκρισης ξεκινά με την κατασκευή ενός καταλόγου όλων των λέξεων που θα ταίριαζαν με κάποια λέξη της άγνωστης αλληλουχίας και ξεπερνούν μια τιμή κατωφλίου. Στη συνέχεια, ο αλγόριθμος αναζητά αυτές τις λέξεις στις αλληλουχίες της βάσης δεδομένων και κάθε φορά που εντοπίζει κάποια τέτοια ξεκινάει μια διαδικασία επέκτασης του ευρήματος προς τις δύο κατευθύνσεις, όσο η βαθμολογία συνεχίζει και αυξάνει. Οι περιοχές μέγιστης βαθμολογίας που εντοπίζονται σε αυτό το στάδιο είναι οι υποψήφιες περιοχές ομοιότητας (HSPs, high scoring pairs).από όλα τα HSPs αναφέρονται στα αποτελέσματα εκείνες οι περιοχές στις οποίες η βαθμολογία υπερβαίνει μια δεύτερη τιμή κατωφλίου S. Εικόνα 22: Ο Αλγόριθμος FASTA 67

68 Ας δούµε τώρα τον αλγόριθµο BLAST πιο αναλυτικά τώρα: Αλγόριθμος BLAST 1) Εύρεση των λέξεων μήκους w με την υψηλότερη βαθμολόγηση για την αναζήτηση 2) Σύγκριση του καταλόγου των λέξεων με τη βάση δεδομένων για την εύρεση ταύτισης 3) Για κάθε ταύτιση μιας λέξης γίνεται επέκταση της και προς τις δύο κατευθύνσεις για την εύρεση στοιχίσεων με βαθμολόγηση μεγαλύτερη απο το κατώφλι S. Εικόνα 23 : Ο αλγόριθμος BLAST Η δοσµένη ακολουθία query sequence, χωρίζεται σε λέξεις µεγέθους w (w=3 για ακολουθίες πρωτεϊνών και w=11 για ακολουθίες νουκλεοτιδίων). Για µια δοσµένη ακολουθία µεγέθους n, υπάρχουν n-w+1 λέξεις. Χρησιµοποιώντας έναν πίνακα αντικατάστασης (όπως ο BLOSUM62 για αµινοξέα), καθορίζονται οι εµφανίσεις κάθε λέξης της δοσµένης ακολουθίας µε υψηλό σκορ (high-scoring matching words) στο σύνολο των ακολουθιών σύγκρισης. Με αυτό τον τρόπο η λίστα εµφανίσεων µειώνεται χρησιµοποιώντας ένα κατώφλι που ονοµάζεται neighborhood wordscore threshold. Σε ένα δεύτερο στάδιο ο BLAST, ψάχνει στη βάση δεδοµένων γνωστών ακολουθιών για το ακριβές ταίριασµα της λίστας των λέξεων. Στο τρίτο βήµα ο αλγόριθµος προσπαθεί να επεκτείνει και προς τις δυο κατευθύνσεις τις εµφανίσεις των λέξεων, παράγοντας πιθανές στοιχίσεις. Κάθε νέα στοίχιση ονοµάζεται High Segment Pair- HSP. Tα High Segment Pairs που ξεπερνούν ένα όριο S, χαρακτηρίζονται ως Maximal Segment Pairs- MSPs. Τέλος ο BLAST καθορίζει τη στατιστική σηµαντικότητα κάθε Maximal Segment Pair[2] 68

69 Τέλος, πρέπει να σημειώσουμε, ότι τα πακέτα αυτά περιέχουν πολλές εκδόσεις που επιτρέπουν τη σύγκριση αλληλουχιών DNA με DNA, πρωτεΐνες με πρωτεΐνες, αλλά και εναλλακτικούς συνδυασμούς, δηλαδή τη σύγκριση ενός γονίδιου (DNA) με μια βάση δεδομένων πρωτεϊνών (μετάφραση του γονιδίου), τη σύγκριση μιας πρωτεΐνης με μια βάση αλληλουχιών DNA, και τέλος τη σύγκριση DNA με DNA αφού πρώτα αυτά μεταφραστούν (δηλαδή σύγκριση DNA-DNA στο πρωτεϊνικό επίπεδο). Σε γενικές γραμμές και το BLAST και το FASTA παρέχουν αποτελέσματα σχεδόν παραπλήσια με τους κλασικούς αλγόριθμους δυναμικού προγραμματισμού και το ποιο πακέτο θα χρησιμοποιηθεί από κάποιον είναι θέμα που εξαρτάται κυρίως από το πού αποσκοπεί η έρευνά του (ακρίβεια), από την ταχύτητα και από τις ανάγκες παραμετροποίησης που έχει (είδος ακολουθίας που συγκρίνεται, πλήθος των πινάκων του σκορ, ποινές για κενά κλπ). Εικόνα 10 : Ανάλυση του αλγόριθμου BLAST 69

70 ΚΕΦΑΛΑΙΟ 3 ΤΟ ΠΡΟΒΛΗΜΑ ΤΟΥ ΜΕΓΑΛΟΥ ΟΓΚΟΥ ΔΕΔΟΜΕΝΩΝ (BIG DATA PROBLEM) 3.1 Εισαγωγή Ολες οι καινούργιες τεχνολογίες των Genomics μας επιτρέπουν πλέουν να λαμβάνουμε δεδομένα σε τεράστιο αριθμό και χωρις την ιδιέταιρη προσπάθεια τόσο των υπολογιστών οσο και του ανθρώπινου στοιχείο.το κόστος επίσης συγκριτικά με μια δεκαετία πίσω έχει μειωθεί κατα πολύ για την διαχείριση αυτων των τεχνολογιών.παρα το γεγονός οτι όλος αυτος ο όγκος δεδομένων έχει δώσει απαντήσεις σε ερωτήματα που ηταν αδύνατο να απαντηθούν ( η ακόμα και να ερωτηθούν στο παρελθόν) ωστόσο δημιουργεί καινούργιες προκλήσεις στου ερευνητές και αυτες αφορούν στο πώς αυτος ο τεράστιος όγκος μπορει να διαχειριστεί αποδοτικά απο τις καινούργιες εφραμογές τόσο στο πεδίο του χρόνου όσο και του χώρου.οι καινούργιες αυτες εφαρμογές θα πρέπει πλέον να δινουν σημασία εκτος απο την αποδοτικότητα που προαναφαίραμε,και στην ευκολία χρησιμοποίησης των δεδομένων που παράγουν απο διαφορετικές εφαρμογές στο πεδίο των genomics. Για να πάρουμε μια ιδέα του πόσο απαιτητική μπορεί να γίνει η διαχείριση των γονιδιωματικών δεδομένων ας δούμε το παρακάτω παράδειγμα: Για να μπορέσουμε να αναπαραστήσουμε μια ακολουθία DNA στον υπολογιστή θα πρέπει να μπορούμε να αναπαραστήσουμε όλες τις δυνατά ζεύγη που μπορούν να προκύψουν μέσα απο το αλφάβητο του DNA εως δυαδική αναπαράσταση.οι πιθανοί συνδυασμοί είναι οι παρακάτω: Κάθε ζευγάρι βάσεων μπορεί να αναπαρασταθεί χρησιμοποιώντας το ελάχιστο 2 Bits.Ετσι λοιπόν ενα byte μπορεί να αναπαραστήσει 4 ζεύγη βάσεων DNA. Ας αναρωτηθούμε τώρα το παρακάτω: Πόσα bytes γενετικής πληροφορίας περιέχει το ανθρώπινο σώμα; Οι εκτιμήσεις για τον αριθμό των cell στο ανθρώπινο σώμα κυμαίνονται μεταξύ του τρισεκατομμυρίων.ας θεωρήσουμε την εκτίμηση των 100 τρισεκατομμυρίων σαν την γενικα αποδεκτή εκτίμηση απο τις παραπάνω και θεωρήσουμε τώρα οτι σε κάθε diploid cell περιέχεται 1,5 GB δεδομένων(αυτή είναι μια πολύ προσεγγιστική εκτίμηση και πιο μικρή απο την αναμενόμενη) τότε έχουμε τον παρακάτω υπολογισμό[20]: 70

71 1.5 Gbytes x 100 trillion cells = 150 trillion Gbytes or ^12 x 10^9 bytes = 150 Zettabytes (10^21)!!! Στην παραπάνω σκέψη ας προσθέσουμε και το παρακάτω: Το European Bioinformatics Institute (EBI) στο Hinxton, της Βρετανίας, μέρος του European Molecular Biology Laboratory και ένας απο τους μεγαλύτερους χώρους αποθήκευσης βιολογικών δεδομένων, ε χει αποθηκευμένα περι των 20 petabytes (1 petabyte ισούται με 1015 bytes) απο δεδομένα και back-up γονιδίων, πρωτεινών και small molecules. Τα Genomic data ευθύνονται για τα 2 petabytes του συνολικού αριθμού ενας αριθμός που υπερδιπλασιάζεται κάθε χρόνο (Βλέπε εικόνα) Εικόνα 25 :Η εκρηξη παραγωγής βιολογικων δεδομένων 3.2 Αλγόριθμοι Συμπίεσης (Space Compaction Algorithms) 71

72 Οπως προαναφέραμε το μέγεθος και η σημασία των βιολοογικών βάσεων δεδομένων αυξάνεται σημαντικά με την πάροδο του χρόνου και αποτελεί επιτακτική ανάγκη η εύρεση ικανοποιητικών αλγορίθμων για την αποτελεσματικότηερη διαχείριση του απαιτούμενου χώρου αυτών. Καταρχάς πρέπει να σημειώσουμε εδω οπως η συμπίεση μιας ακολουθίας DNA με τους παραδοσιακούς αλγόριθμους συμπίεσης είναι μια πολυ δύσκολη διεργασία καθώς οι παραδοσιακοί αυτοι αλγόριθμοι είχαν σχεδιαστεί για να επιτύχουν συμπίεση κυρίως σε κείμενα αγγλικών χαρακτήρων που η σύστασή τουςείναι εντελώς διαφορετκή απο μια ακολουθία DNA. Οπως γνωρίζουμε μια ακολυθία DNA αποτελείται απο τέσσερεις βάσεις (A,G,C,T).Επομένως κάθε σύμβολο μπορεί να κωδικοποιηθεί μοναδικά απο 2 bits.οι παραδοσιακοί αλγόριθμοι συμπίεσης όμως ( Lempel Ziv Welch "LZW., Lempel Ziv "LZ" + Huffman, Burrows Wheeler transform "BWT" + Move-to-Front "MTF" + Huffman ) δεν μπορούν να επιτύχουν ικανοποιητική συμπίεση.χρησιμοποιώντας δοκιμαστικες ακολουθίες DNA για τους παραπάνω αλγορίθμους τα αποτελέσματα είναι απογοητευτικα: Ο Lempel Ziv Welch "LZW επιτυγχάνει μέσο ρυθμό συμπίεσης 2.185bpb(bit per byte) Ο Lempel Ziv "LZ" + Huffman επιτυγχάνει μέσο ρυθμό συμπίεσης bpb και Ο Burrows Wheeler transform "BWT" + Move-to-Front "MTF" + Huffman επιτυγχάνει bpb. Επίσης η κωδικοποίηση Huffman αποτυγχάνει να σημειώσει ικανοποιητική συμπίεση καθώς οι πιθανότητες εμφάνισης των τεσσάρων βάσεων σε μια ακολουθία DNA δεν είναι και πολυ διαφορετικές μεταξύ τους. Οι Grumbach και Tahi πρότειναν δύο τρόπους για την συμπίεση ακολυθιών DNA[35]: Horizontal mode :Μας δίνεται μια βιολογική ακολουθία και τη συμπιέζουμε χρησιμοποιώντας την πληροφορία που περιέχεται σ αυτην.ουσιαστικά κωδικοποιούμε τμήματα της ακολουθίας χρησιμοποιώντας αναφορές σε προηγούμενες εμφανίσεις τους. Vertical Mode :(Μας δίνεται ενα σύνολο απο βιολογικές ακολουθίες και κωδικοποιούμε κάθε ακολουθία χρησιμοποιώντας πληροφορία που υπάρχει στο σύνολο όλων των ακολουθιών μας ( ουσιαστικά πρόκειται για γενίκευση του Horizontal Mode για πολλές ακολουθίες). 72

73 Παρακάτω παρουσιάζουμε συνοπτικά μερικούς απο τους πιο δημοφιλείς αλγόριθμους που έχουν παρουσιαστεί τα περασμένα χρόνια και οι περισσότερες απ αυτές οποίοι ανήκουν στο Horizontal Mode. Αλγόριθμοι συμπιεσης DNA στο Horizontal Mode. Οπως αναφέραμε η κατηγορία αυτη χρησιμοποιει την πληροφορία που περιέχεται ήδη στην ακολουθία μας χρησιμοποιώντας κυρίως αναφορές σε ηδη υπάρχουσες εμφανίσεις μοτίβων. Οι περισσότερες απο τις χρησιμοποιούμενες μεθόδους αυτης της κατηγορίας εμπίπτουν στις παρακάτω υποκατηγορίες: Substitutional Based Methods Οι αλγόριθμοι αυτης της κατηγορίας επιτυγχάνουν συμπίεση αντικαθιστώντας μεγάλες ακολουθίες με δείκτες σε σημεία που εμφανίζονται πάλι οι ίδιες ακολουθίες. αλγόριθμος που αναπτύχθηκε πάνω σ αυτην την φιλοσοφία είναι ο BioCompress το 1993: BioCompress -1 ( ) and BioCompress -2 : Ο BioCompress αποτελεί τον πρώτο αλγόριθμο που αναπτύχθηκε πάνω σ αυτην την φιλοσοφία το Οι BioCompress 1 και 2 είνα αλγόριθμοι συμπίεσης που χρησιμοποιούν ενα παράθυρο συγκεκριμένου μεγέθους προκειμένου να εντοπίσουν παλίνδρομα και παράγοντες αυθαίρετου μήκους και μακρυά μεταξύ τους.κωδικοποιούν τον παράγοντα factor με το ζεύγος (l,p) όπου l είναι το μήκος του παράγοντα και είναι η θέση της πρώτης του εμφάνισης.η αποκωδικοποίση μπορεί να υποβιβάσει βέβαια την απόδοση του αλγορίθμου καθώς απαιτείται αναφορά στην αρχή της ακολουθίας γεγονός που σημαίνει οτι επιβαρύνει την διαθέσιμη μνήμη.[35] CFACT : Οχι μόνο εντοπίζει επαναλήψεις στην ακολουθία αλλα ξεχωρίζει κάποιες απ αυτές με βάση την ικανότητα συμπίεσης τους.ο αλγόριθμος χωρίζεται σε δύο επιμέρους στάδια.στο πώτο στάδιο εντοπίζονται επαναλαμβανόμενα τμήματα της ακολουθίας και στο δεύτερο υπολογίζεται η σπουδαιότητα καθενός απ αυτά με βάση κάποια μετρική συμπίεσης.υπολογίζει τη μεγαλύτερη ακολουθία που επαναλμβάνεται χρησιμοποιώντας ενα suffix tree για όλη την αρχική ακολουθία.η ιδέα του Cfact είναι ουσιαστικά ίδια με αυτήν του BioCompress-2 εκτός απο το γεγονός οτι ο Cfact είναι αλγόριθμος διπλής προσπέλασης.αρχικά κατασκευάζει το suffix tree για όλη την ακολουθία και στην δεύτερη φάση η κωδικοποίηση των επαναλαμβανόμενων μοτιβων πραγματοποιείται.[35] 73

74 GenCompress : Επιτυγχάνει συμπίεση χρησιμοποιώντας αναφορές μιας ακολουθίας σε προηγούμενη εμφανιση μιας όμοιας προς αυτήν ετσι ώστε η ακολουθία μας να μπορεί να κωδικοποιηθεί οικονομικά.χρησιμοποιεί επίσης edit operation για να μπροέσει να ανακτήσει πληρως την ακολουθία μας σε δεύτερη φάση.[35] GenomeCompress : Συμπιέζει τόσο επαναλμβανόμενες όσο και μη επαναλαμβανόμενες ακολουθίες.ο αλγόριθμος διαιρεί την ακολουθία σε δύο τμήματα των τεσσάρων στοιχείων και αναθέτει μιαδυαδικά ακολουθία των πέντε bit για τέσσερεις βάσεις DNA και για οχτω επαναλαμβανόμενες βάσεις επίσης DNACompress : Ο DNACompress(XIN Chen et al, 2002)[7,8,16] είναι αλγόριθμος δύο φάσεων και χρησιμοποιεί το εργαλείο PatternHumter για να εντοπίσει επαναλήψεις.το PatternHunter εντοπίζει παλίνδρομα η παρόμοιες εμφανίσεις μιας ακολουθίας.στην πρώτη φάση επιλέγει ποια απ αυτά έχουν το υψηλότερο σκορ(είναι πιο οικονομικά να συμπιεστούν) και στη δεύτερη φάση κάνει την κωδικοποίηση.[35] HUFFBIT COMPRESS : Xρησιμοποιεί την ιδέα των extended binary trees για συμπίεση.αναθέτει ενα «0» και ενα «1» για το αριστερό και το δεξιό παιδί αντιστοίχως.σε αρχική φάση κατασκευάζει ενα extended binary tree εω είναι αλγόριθμος διπλού περάσματος.πρόκειται για έναν αλγόριθμο ο οποίος διαιρεί την αρχική ακολυθία σε τμήματα των τεσσάρων βάσεων και όπως φανερώνει και το όνομά του προτείνει την κατσκευή ενος hash table(πίνακα κατακερματισμού) αναθέτοντας έναν μοναδικό χαρακτήρα σε κάθε ενα απο αυτούς τους παράγοντες που λειτουργεί σαν το hash key (κλειδί κατακερματισμού).[35] Statistical Based Methods Υπάρχουν αρκετοί στατιστικοί αλγόριθμοι για συμπίεση του DNA.Ενδεικτικά αναφέρουμε τους πιο γνωστούς CDNA, Approximate Repeats Model (ARM), expert - Model(XM) και ο finite-context model αλγόριθμος ο οποίοι αντικαθιστούν σύμβολα που έχουν πολλες εμφανίσεις στην ακολουθία με κωδικούς που εχουν μικρότερο μήκος.ο Lowenstern και yanilos εισήγαγαν τον πρώτο αλγόριθμο που συνδυάζει στατιστικού αλγόριθμους για συμπίεση με προσεγγιστική εύρεση προτύπων.βασίζεται στην κατανομή πιθανότητας που έχουμε για κάθε σύμβολο που λαμβάνεται με βάση τα προσεγγιστικά ταιριάσματα που έχουμε στο ιστορικό. 74

75 Substitutional and statistical Based Methods Οι αλγόριθμοι αυτής της κατηγορίας συνδυάζουν τις δύο παραπάνω τεχνικές.ενα πρότυπο που επαναμβάνεται προσεγγιστικά στην ακολουθία κωδικοποιείται χρησιμοποιώντας εναν δείκτη στην προηγούμενη προσεγγιστική εφάνισή του και οι πιθανότητες για κάθε σύμβολο αντιγράφονται,αλλάζουν,εισάγονται και διαγράφονται. Transformational Based Methods Κάθε ακολουθία υπόκειται σε κάποιον μετασχηματισμό πρίν η κωδικοποίηση πραγματοποιηθεί προκειμένου να επιτύγχουμε την επιθυμητή συμπίεση.οι Bao et al. εισήγαγαν εναν καινούργιο αλγόριθμο που βασίζεται στους fixed length LUT και LZ77.Στη αρχή δημιουργείται ενα fixed size look up table το οποίο περιέχει συνδυασμους απο τρείς χαρακτήρες(χωρίς χαρακτήρες N, space ή άγνωστα νουκλεοτίδια) που συνολικά σχηματίουν 64 συνδυασμους(codons) σε ένα fixed size πίνακα.επίσης εμφανίζεται και μια σειρά απο επιτυχημένα N s μεταξύ των δύο DNA strings στο αρχείο προορισμού μας.στη συνέχεια αυτοι οι συνδυασμοί αντικαθίστανται απο τα σύμβολα που έχουμε αναθέσει στο look up table μας και κωδικοποιούνται χρησιμοποιώντας τον LZ77 αλγόριθμοο. Grammar Based Method Οι αλγόριθμοι αυτης της κατηγορίας εισάγουν κανόνες γραμματικής(context-free grammar) προκειμένου να αναπαραστήσουν τα σύμβολα της ακολουθίας.στη συνέχεια οι γραμματικοί αυτοι κανόνες μετασχηματίζονται σε μια ακολουθία συμβόλων η οποία στη συνέχεια κωδικοποιείται σε δυαδική ακολουθία.ο αλγόριθμος DNASequitur απο τους Cherniavsky και Ladner είναι ενα τέτοιος Grammar Based αλγόριθμος.η καινοτομία του συγκεκριμένου αλγορίθμου βασίζεται στην ικανότητα του να αναγνωρίζει reverse complements όταν δημιουργεί κανόνες και κατα την αλλαγή εξάγει τις ακριβές επανάληψεις των προτύπων.τα αποτελέσματα δείχνουν οτι οι άλλες μέθοδοι επιτυγχάνουν καλύτερο βαθμό συμπίεσης απο τις Grammar Based Methods ομως οι αλγόριθμοι που βασίζονται στους γραμματικούς κανόνες είναι κατάλληλοι οταν θέλουμε να εντοπίσουμε επαναλήψεις που εμφανίζονται σε πολλές ακολουθίες μιας συλλογής. Two bits Methods 75

76 Οι αλγόριθμοι αυτής της κατηγορίας εφαρμόζουν αρχικά ένα προεπεξεργαστικό βήμα στην ακολουθία αναθέτοντας τους τέσσερεις διαφορετικού συνδυασμους δύο δυαδικών ψηφίων στα τέσσερα σύμβολα τυ αλφαβήτου DNA(A = 00, C = 01, G =10, T = 11 ). Η ακολουθία DNA χωρίζεται σε τμήματα πριν εφαρμοστεί η κωδικοποίηση που θα συμπιέσει τόσο τα επαναλαμβανόμενα όσο και τα μη επαναλμβανόμενα κομμάτια της.η ακολουθια τμηματοποιείται σε κομμάτια μήκους οκτώ δυαδικών ψηφίων το καθένα Αλγόριθμοι συμπίεσης DNA στο Vertical Mode Οι αλγόριθμοι αυτής της κατηγορίας χρησιμοποιουν πληροφορία μεταξύ δύο ακολουθιών χρησιμοποιώντας τη μια απο τις δύο ακολουθίες σαν βάση αναφοράς.είναι πλέον γεγονός οτι οι αλγόριθμοι αυτη ς της κατηγορίας κερδίζουν έδαφος εξαιτίας της ανάπτυξης νέων τεχνολογιών αλληλούχισης του DNA όπως το next-generation sequencing (NGS).Αυτές οι καινούργιες τεχνολογίες έχουν οδηγήσει σε μια σειρά απο καινουργια project για την αλληούχιση ολόκληρων γονιδίων και επειδή οι αλγόριθμοι του vertical mode εφαρμοζονται καλύτερα σε ακολουθίες μεγάλου μήκους εμφανίζονται σαν πιο κατάλληλη λύση τα τελευταία χρόνια. Στην κατηγορία αυτη αξίζει να αναφερθούν οι παρακάτω ερευνητικές εργασίες: Οι christley et.al[39] παρουσίασαν ενα DNAzip πακέτο το οποίο αποτελείται απο μια σειρα τεχνικών οι οποίες σε συνδυασμό μεταξύ τους καταφέρνουν να μειώσουν το μέγεθος ενος γονιδιώματος τόσο ώστε να μπορεί να επισυναφθεί(attach) σε ένα mail. Οι Diley et al.[40] ανέπτυξαν δομές δεδομένων και αλγόριθμους συμπίεσης για μεγάλου όγκου δεδομένων βιολογικές ακολουθίες.ενα προεπεξεργαστικό βήμα σορτάρει τις ακολουθίες σε σχέσει με ένα γονιδίωμα το οποίο αποκαλείται γονιδίωμα αναφοράς.διαφορετικά μπορεί να τις ταξινομήσει ως προς τη σχέσεη τους με έναν πίνακα που έχει αποθηκευμένες ακολουθίες DNA.Στη συνέχεια χρησιμοποιώντας δείκτες μπορούμε να αναπαραστήσουμε των ταξινομημένων ακολουθιών τις σχετικές ή απολυτες διευθύνσεις,το μέγεθος, τις αλλαγές που μπορεί να περιέχουν.αυτοί οιδ δείκτες στη συνέχεια συμπιέζονται χρησιμοποιώντας διάφορους γνωστούς αλγόριθμους συμπίεσης. Οι Affey et al.[41] ανέπτυξαν ενα διαφορετικό μοντέλο συμπίεσης ακολουθιών βασισμένο στη στοίχιση δυο η περισσοτέρων όμοιων ακολουθιών.η συμπίεση επιτυγχάνεται συμπιέζοντας μια ακολουθία αναφορικά με μια άλλη ακολουθία με την οποία τη συγκρίνουμε και υπολογίζοντας εκ-νέου την υπολογιζόμεη εντροπία μεταξύ τους. 76

77 Οι Grabowski και Deorowitz[42] παρουσίασαν εναν αλγόριθμο βασισμένο στον γνωστό LZ77 αλγόριθμο ο οποίος επιτυγχάνει ικανοποιητική συμπίεση για διάφορα γονιδιώματα του ίδιου οργανισμού παρέχοντας επίσης και καλύτερο run time στην υλοποίηση. 77

78 ΚΕΦΑΛΑΙΟ 4 : ΔΟΜΕΣ ΑΝΑΖΗΤΗΣΗΣ 4.1 Inverted Index Εικόνα 26 : Μια δομή inverted index για αναζήτηση λέξεων μέσα σε συγκεκριμένες προτάσεις Tο Inverted Index αποτελεί την πιο βασική δομή στο πεδίο του Information retrieval και την ραχοκοκκαλία όλων των γνωστων σήμερα μηχανών αναζήτησης του διαδικτύου. Η κατασκευή του στηρίζεται στην ιδέα του να κρατάμε,για κάθε λέξη σε κάθε κείμενο, μια λίστα με όλα τα έγγραφα στα οποία αυτη εμφανίζεται.το γεγονός αυτό καθιστα το Inverted Index ικάνο να απαντάει σε πάρα πολλά είδη ερωτημάτων.παρ ολ αυτα η απόδοση του μπορεί να ειναι κατώτερη των προσδοκιών μας σε μερικές περιπτώσεις που θα αναφερθουν παρακάτω. Ας δούμε πιο αναλυτικά: Το inverted index είναι ενας term-oriented(προσανατολισμένος στην αναζήτηση όρων) μηχανισμός για γρήγορη αναζήτηση αρχείων που περιέχουν ενα συγκεκριμένο όρο.ορίζουμε τώρα ως document (έγγραφο) μια ορισμένη ακολουθία απο χαρακτήρες, και ένα term (όρος) ως μια υπακαλουθία του document. To inverted index αποτελείται απο δυο κύρια στοιχεία: 78

79 Τα terms(όρους) και Τα posting lists (λίστα εμφανίσεων). Η Posting list που σχετίζεται με εναν συγκεκριμένο όρο είναι μια λίστα που περιέχει πληροφορίες για την εμφάνιση αυτού του όρου σε κάθε document..κάθε posting αποτελείται απο το αναγνωριστικό του document που το περιέχει και μια λίστα απο offset,δηλαδή τις θέσεις που εμφανίζεται ο όρος μέσα στο κείμενο Για κάθε term t υπάρχει μια Posting list που περιέχει τα postings < d, [o1,..., of ] >, όπου d είναι το αναγνωριστικό του document και [o1,..., of ] είναι η λίστα με τα offsets o και f i η συχνότητα της εμφάνισης του όρου term t στο document d. Τα Postings μέσα σ ενα posting list συνήθως αποθηκέυονται με αυξανόμενη σειρά ως προς το d. Το παρακάτω σχήμα δέχνει τη δομή του inverted index: Εικόνα 27 : Το Inverted Index Παρ όλα αυτα το Inverted index δεν είναι καθόλου αποτελεσματικό για να απαντήσουμε σε ερωτήματα τα οποία περιλαμβάνουν αναζητήσεις των δύο παρακάτω κατηγοριών: Α) Οταν παίζει ρόλο η σειρά των λέξεων σε μια αναζήτηση Β) Σε περιπτώσεις γλωσσών όπου δεν υπάρχει σαφης διαχωρισμός των ορίων των λέξεων.(για παράδειγμα Ασιατικές γλώσσες ή βιολογικές γλώσσες DNA συμβολοσειρές) 79

80 Ειδικά στην δεύτερη περίπτωση προκειμένου να μπορέσει το Inverted Index να απαντήσει σε οποιαδήποτε ακολουθία του αλφαβήτου του δοθεί,θα πρέπει να κρατάει λίστα για όλες τις συνεχόμενες ακολουθίες(διαφόρων μηκών) που μπορούν να δημιουργηθούν.αυτό συνεπάγεται μια πολύ απαιτητική δόμη όσον αφορά τον χώρο αποθήκευσης (τετραγωνικός χώρος) και κατ επέκταση απαγορευτική υλοποίηση. 4.2 N-grams Η απαντηση στα παραπανω δυο προβλήματα δοθηκε με την τεχνική των n grams.παρακάτω δίνεται ο τυπικός ορισμός των n-gram[29]: Lets S = (S1, S2,.., SN+(n-1) ) over the token alphabet A, where N and n are positive integers, an n-gram of the sequence S is any n-long subsequence of consecutive tokens. The ith n-gram of S is the sequence (Si; Si+1,. Si+n-1).Note that there are N such n- grams in S. Για παράδειγμα,εστω A το Αγγλικό αλφάβητο, και l ενα string απο το αλφάβητο A, με l ="life is a miracle" τότε τα 1-grams είναι : l,i,f,,i,s,a,m,r,c,e; τα 2-grams είναι: li,if, fe, e,i is, s, a, : ; τα 3-grams είναι: lif, ife, fe, e i, : : : ; τα 4-grams είναι: life, ife, fe i, κ.ο.κ. Απο τη φύση της δομής των n grams παρατηρούμε οτι μας ειναι αδιαφορο πλεον το προβλημα που εξετάζουμε ως προς τη δομή του.με τον ίδιο τρόπο που μπορεί να αναφερθεί σε ενα αγλλικό αλφάβητο μπορει να χρησιμοποιηθεί και σαν index για ανζήτηση σε ενα κινέζικο αλφάβητο ή σε μια ακολουθία DNA.Αυτο ειναι και ένα απο τα χαρακτηριστικά που κάνει την τεχνική των n-grams να αποτελεί μια απο τις πιο ευρέως χρησιμοποιούμενες στο Information Retrieval για τέτοιες περιπτώσεις.(μαζί με την ανεκτικότηα σε λάθη) Παρόλα αυτά το n-gram inverted index εχει κάποια μειονεκτήματα.το μέγεθος του Index μπορεί να γίνει πολύ μεγάλο και η απόδοση των αναζητήσεων-ειδικά σε μεγάλα queries- υποβιβάζεται σημαντικά.οι δύο αυτες ανωμαλίες πηγάζουν απο τον τρόπο με τον οποίο εξάγονται τα terms στην n-grams τεχνική(δλδ την 1-sliding technique: ο πίνακας αποσαφηνίζει γιατι λέγεται έτσι η τεχνική).το γεγονός οτι εξάγει όλα τα terms που παράγονται μετακινόντας το παράθυρο κατα εναν χαρακτηρα κάθε φορά δεξία αυξάνει δραστικά τον αριθμό των όρων που εξάγονται το οποίο με τη συνέχεια επιβαρύνει και το query performance αφου ο αριθμός των term που προσπελάζονται κατα τη διάρκεια ενος query αυξάνεται.[30] Εικόνα 28 : Εξαγωγη των n-grams απο μια πρόταση με την 1-sliding technique 80

81 4.3 N-grams/2l Για τον σκοπό αυτό προτάθηκε απο τους Kim et al. μια νέα δομή βασισμένη στην βασική τεχνική των n-grams. Η καινούργια αυτή δομή αποτελείται απο τα δυο επιμέρους στάδια[30]: Στο πρώτο στάδιο εξάγουμε subsequences μεγέθους m απο το αρχικο μας document (ή απο πολλά documents) Back-End index. Στο δεύτερο στάδιο εξάγουμε τα n-grams απο όλες τα subsequence που έχουν προκύψει και κατασκευάζουμε το Inverted index γι αυτα.front-end index.. Οπως αναφέρεται στο σχετικό paper η καινούργια αυτή δομή καταλαμβάνει λιγότερο χώρο και επιπλέον επιτυγχάνει καλύτερη απόδοση συγκρινόμενη με την κλασσική τεχνική των n-grams.επίσης η βελτιστοποίηση αυτή γίνεται ακόμα πιο εμφανής όσο μεγαλώνει το μέγεθος της βάσης δεδομένων μας. (Σε περιπτώσεις που έχουμε πολύ μεγάλο query ο χρόνος αυξάνεται ελαφρώς) Επίσης οι Kim te al. μας πληροφορούν πάνω σε πειραματικά δεδομένα μιας βάσης μεγέθους 1 GB το μέγεθος του καινούργιο index μειώνεται κάτα φορές ενω συγχρόνως ο χρόνος για την εκτέλεση ενος query βελτιώνεται κατα 13 φορές συγκρινόμενος με αυτον της κλασσικής μεθόδου των n-grams Εικόνα 29 : Η τεχνική των n-grams/2l 81

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016 Βιοπληροφορική Μαργαρίτα Θεοδωροπούλου Πανεπιστήμιο Θεσσαλίας, Λαμία 2016 Βιοπληροφορική Εισαγωγή στη Μοριακή Βιολογία, Γενωμική και Βιοπληροφορική. Βάσεις Βιολογικών Δεδομένων. Ακολουθίες Πρωτεϊνών και

Διαβάστε περισσότερα

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1 ΤΟ DNA ΚΑΙ RNA Θανος Εξαρχου Γ1 ΤΟ DNA Το δε(σ)οξυριβο(ζο)νουκλεϊ(νι)κό οξu είναι νουκλεϊκό οξύ που περιέχει τις γενετικές πληροφορίες που καθορίζουν τη βιολογική ανάπτυξη όλων των κυτταρικών μορφών ζωής

Διαβάστε περισσότερα

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων ΕΙΣΑΓΩΓΗ Ένας από τους πρωταρχικούς στόχους της σύγκρισης των ακολουθιών δύο µακροµορίων είναι η εκτίµηση της οµοιότητάς τους και η εξαγωγή συµπερασµάτων

Διαβάστε περισσότερα

Εκπαιδευτήριο TO ΠΑΓΚΡΗΤΙΟΝ Σχολικό Έτος 2007-2008 Συνθετικές εργασίες στο μάθημα Πληροφορική Τεχνολογία της Β Γυμνασίου: Όψεις της Τεχνολογίας

Εκπαιδευτήριο TO ΠΑΓΚΡΗΤΙΟΝ Σχολικό Έτος 2007-2008 Συνθετικές εργασίες στο μάθημα Πληροφορική Τεχνολογία της Β Γυμνασίου: Όψεις της Τεχνολογίας Εκπαιδευτήριο TO ΠΑΓΚΡΗΤΙΟΝ Σχολικό Έτος 2007-2008 Συνθετικές εργασίες στο μάθημα Πληροφορική Τεχνολογία της Β Γυμνασίου: Όψεις της Τεχνολογίας Θέμα: DNA Τμήμα: ΗΥ: Ομάδα: Β2 pc29 Μηλαθιανάκης Μιχάλης

Διαβάστε περισσότερα

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας Βιοπληροφορική Ι Παντελής Μπάγκος Παν/µιο Στερεάς Ελλάδας Λαµία 2006 1 Βιοπληροφορική Ι Εισαγωγή: Ορισµός της Βιοπληροφορικής, Υποδιαιρέσεις της Βιοπληροφορικής, Τα είδη των δεδοµένων στη Βιοπληροφορική.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ Παύλος Αντωνίου Με μια ματιά: Εισαγωγή στη Βιολογία Ευθυγράμμιση Ακολουθιών Αναζήτηση ομοίων ακολουθιών από βάσεις δεδομενων Φυλογενετική πρόβλεψη Πρόβλεψη

Διαβάστε περισσότερα

Κεφάλαιο 2 ο : Αλγόριθµοι Ακριβούς Εύρεσης Προτύπου

Κεφάλαιο 2 ο : Αλγόριθµοι Ακριβούς Εύρεσης Προτύπου Κεφάλαιο 2 ο : Αλγόριθµοι Ακριβούς Εύρεσης Προτύπου Σε αυτό το κεφάλαιο θα αναφερθούµε σε 3 σηµαντικούς αλγορίθµους ακριβούς εύρεσης προτύπου- exact pattern matching, που χρησιµοποιούνται σε προγράµµατα

Διαβάστε περισσότερα

LALING/PLALING :

LALING/PLALING : 1. Άρθρα- δημοσιεύσεις Scopus DBLP Pubmed Google Scholar 2. Αναζήτηση νουκλεοτιδίου- πρωτεΐνης Entrez : http://www.ncbi.nlm.nih.gov/nuccore/ Uniprot (πρωτεΐνης): http://www.uniprot.org/ Blast : http://blast.ncbi.nlm.nih.gov/blast.cgi

Διαβάστε περισσότερα

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Η επιστήμη της Βιολογίας έχει μετατραπεί τα τελευταία χρόνια σε μια υπερπλούσια σε πληροφορίες επιστήμη.

Διαβάστε περισσότερα

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων Σε αυτό το κεφάλαιο παρουσιάζουµε 2 βασικούς αλγορίθµους σύγκρισης ακολουθιών Βιολογικών εδοµένων τους BLAST & FASTA. Οι δυο αλγόριθµοι

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ_ Β ΛΥΚΕΙΟΥ

ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ_ Β ΛΥΚΕΙΟΥ Θα πρέπει να γνωρίζετε: Τη χημική σύσταση και τη δομή των νουκλεοτιδίων Πώς σχηματίζεται μια πολυνουκλεοτιδική αλυσίδα Πώς σταθεροποιείται η διπλή έλικα του DNA Τι υποδηλώνει ο όρος συμπληρωματικές αλυσίδες

Διαβάστε περισσότερα

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Περιεχόμενα Παρουσίασης Βιολογικό υπόβαθρο Το κεντρικό αξίωμα Σύνοψη της Βιοπληροφορικής Ερευνητικές περιοχές Πηγές πληροφοριών Τι είναι η Βιοπληροφορική Βιο Πληροφορική μοριακή

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ 1 ο ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ 1 ο ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ 1 ο ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΘΕΜΑ 1 ο Α. Ερωτήσεις πολλαπλής επιλογής 1. δ 2. β 3. γ 4. γ 5. β Β. Ερωτήσεις σωστού λάθους 1. Λάθος 2. Σωστό 3. Λάθος 4. Λάθος 5. Σωστό ΘΕΜΑ

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ 1 ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ Οι δύο πολυνουκλεοτιδικές αλυσίδες του DNA αποτελούνται από νουκλεοτίδια τα οποία ενώνονται με φωσφοδιεστερικούς δεσμούς. Πιο συγκεκριμένα

Διαβάστε περισσότερα

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n. Πρώτο Σύνολο Ασκήσεων 2014-2015 Κατερίνα Ποντζόλκοβα, 5405 Αθανασία Ζαχαριά, 5295 Ερώτημα 1 Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n. Ο αλγόριθμος εύρεσης

Διαβάστε περισσότερα

Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής

Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής Αριστοτέλης Κωτίτσας Οι λειτουργίες των οργανισµών πραγµατοποιούνται χάρη στις πρωτεΐνες. Ο βιολογικός ρόλος των πρωτεϊνών καθορίζεται από τη µορφή τους.

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Διατήρηση και συνέχεια της ζωής

ΚΕΦΑΛΑΙΟ 5. Διατήρηση και συνέχεια της ζωής ΚΕΑΛΑΙΟ 5 ιατήρηση και συνέχεια της ζωής 5.2 H ροή της γενετικής πληροφορίας 3 Πώς βρέθηκε η δομή του DNA στο χώρο; Η ανακάλυψη της δομής του DNA πραγματοποιήθηκε το 1953 από τους Watson και Crick. Από

Διαβάστε περισσότερα

Βιολογία Κατεύθυνσης Γ Λυκείου

Βιολογία Κατεύθυνσης Γ Λυκείου Βιολογία Κατεύθυνσης Γ Λυκείου 2013-2014 ΓΕ.Λ. ΣΟΡΩΝΗΣ ΜΑΣΤΗ ΧΡΙΣΤΙΝΑ Κεφάλαιο 1 ΤΟ ΓΕΝΕΤΙΚΟ ΥΛΙΚΟ Ταξίδι στο χρόνο 1869 Απομονώνεται DNA από τον κυτταρικό πυρήνα 1903 Αποδεικνύεται ότι τα χρωμοσώματα

Διαβάστε περισσότερα

Βιολογία Γενικής Παιδείας Β Λυκείου

Βιολογία Γενικής Παιδείας Β Λυκείου Απρίλιος Μάιος 12 Βιολογία Γενικής Παιδείας Β Λυκείου Βιολογία Γενικής Παιδείας Β Λυκείου (Ερωτήσεις που παρουσιάζουν ενδιαφέρον) 1. Τι είναι τα βιομόρια και ποια είναι τα βασικά χαρακτηριστικά τους; Βιομόρια

Διαβάστε περισσότερα

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων Φυλογένεση Η φυλογένεσης αφορά την ανεύρεση των συνδετικών εκείνων κρίκων που συνδέουν τα διάφορα είδη µεταξύ τους εξελικτικά, σε µονοφυλετικές

Διαβάστε περισσότερα

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Βιοτεχνολογία Φυτών ΔΠΘ / Τμήμα Αγροτικής Ανάπτυξης ΠΜΣ Αειφορικά Συστήματα Παραγωγής και Περιβάλλον στη Γεωργία Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Αριστοτέλης Χ. Παπαγεωργίου Εργαστήριο

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΚΕΦΑΛΑΙΟ 1: Το γενετικό υλικό ΘΕΜΑ: 1 ο (Μονάδες 25 ) Να επιλέξετε τη σωστή απάντηση στις παρακάτω ερωτήσεις. 1. Το πείραµα των Hershey και Chase ήταν:

Διαβάστε περισσότερα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα Βιοπληροφορική και Πολυµέσα Αθήνα 1.2.2009 ΠΕΡΙΕΧΟΜΕΝΑ 1. Πως σχετίζεται µε τα Πολυµέσα 2. Τι είναι η Βιοπληροφορική 3. Χρήσεις 4. Συµπεράσµατα 5. Βιβλιογραφία Βιοπληροφορική και Πολυµέσα 2 1. Τι είναι

Διαβάστε περισσότερα

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α!  # $ % & ' ( ) ( ) ( * % + α ι α ! THΛ: 270727 222594 THΛ: 919113 949422 Απαντήσεις: " # $ % & ' 1=γ, 2=β, 3=γ, 4=β, 5=δ. " # $ % ( ' εδοµένα από την ανάλυση του ποσοστού των βάσεων σε µόρια DNA από διαφορετικούς οργανισµούς έδειχναν

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

Κεφάλαιο 4 ο : Αλγόριθµοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συµβολοσειρών.

Κεφάλαιο 4 ο : Αλγόριθµοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συµβολοσειρών. Κεφάλαιο 4 ο : Αλγόριθµοι προσεγγιστικής εύρεσης προτύπου και στοίχισης. Στα πλαίσια αυτού του κεφαλαίου παρουσιάζουµε τους βασικούς αλγορίθµους προσεγγιστικής εύρεσης προτύπου και στοίχισης. Όπως ήδη

Διαβάστε περισσότερα

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment)

Στοίχιση κατά ζεύγη. Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment) Στοίχιση ακολουθιών κατά ζεύγη (Pairwise alignment) Στοίχιση κατά ζεύγη: Τι είναι Αντιστοίχιση των νουκλεοτιδίων/αµινοξέων δυο ακολουθιών, ώστε να εντοπιστούν οι οµοιότητες και οι διαφορές τους. Χρησιµοποιείται

Διαβάστε περισσότερα

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών ΕΙΣΑΓΩΓΗ Η αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών (database similarity searching) αποτελεί µια από τις συχνότερα χρησιµοποιούµενες

Διαβάστε περισσότερα

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ

ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ ΣΤΟΙΧΙΣΗ ΑΚΟΛΟΥΘΙΩΝ ΑΝΑ ΖΕΥΓΗ Σελίδα 1 Ομολογία Σελίδα 2 Ομολογία Ομολογία κοινή εξελικτική καταγωγή Ορθόλογα γονίδια ειδογένεση συνήθως, ίδια βιολογική λειτουργία Παράλογα γονίδια γονιδιακός διπλασιασμός

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α 1 ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΤΕΤΑΡΤΗ 5 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ:

Διαβάστε περισσότερα

KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου. Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση:

KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου. Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση: KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου Ενότητα 1.1: Χημεία της ζωής Ενότητα 2.1: Μακρομόρια Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση: 1. Για ποιο λόγο θεωρείται αναγκαία η σταθερότητα

Διαβάστε περισσότερα

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ ΚΕΦΑΛΑΙΟ 2 ο 1. Με ποιο μηχανισμό αντιγράφεται το DNA σύμφωνα με τους Watson και Crick; 2. Ένα κύτταρο που περιέχει ένα μόνο χρωμόσωμα τοποθετείται σε θρεπτικό υλικό που περιέχει ραδιενεργό

Διαβάστε περισσότερα

Κεφάλαιο 1: Το Γενετικό Υλικό 1.

Κεφάλαιο 1: Το Γενετικό Υλικό 1. Κεφάλαιο 1: Το Γενετικό Υλικό 1. Ο πνευμονιόκοκκος είναι: α. μύκητας β. βακτήριο γ. ιός δ. πρωτόζωο 2. Στο πείραμα του Griffith τι αποτελέσματα είχε ο εμβολιασμός με βακτήρια, θάνατο(θ) ή επιβίωση (Ε),

Διαβάστε περισσότερα

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΗΜΕΡΟΜΗΝΙΑ: 04/09/2016 ΘΕΜΑ Α Α.1. β. Α.2. β. Α.3. γ. Α.4. δ. ΑΠΑΝΤΗΣΕΙΣ Α.5. β. Μονάδες 25 ΘΕΜΑ Β Β. 1. Ιχνηθέτηση. είναι η σήμανση χημικών

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΔΙΑΓΩΝΙΣΜΑ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ 12-9-2015

ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΔΙΑΓΩΝΙΣΜΑ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ 12-9-2015 ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΔΙΑΓΩΝΙΣΜΑ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ 12-9-2015 ΘΕΜΑ Α Α1. α. in vitro β. in vivo γ. in vitro δ. in vitro Α2. γ Μεταξύ των δύο δεοξυριβονουκλεοτιδίων έχουμε συμπληρωματικότητα (Α=Τ)

Διαβάστε περισσότερα

Οργά νωση Γενετικού Υλικού

Οργά νωση Γενετικού Υλικού Βιολογία Γ Γυμνασίου: Διατήρηση και Συνέχεια της Ζωής Οργά νωση Γενετικού Υλικού Γονίδιο: Η μονάδα της κληρονομικότητας. Ουσιαστικά είναι ένα κομμάτι από το DNA που αποθηκεύει πληροφορίες για κάποιο συγκεκριμένο

Διαβάστε περισσότερα

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7 Εξερευνώντας την Εξέλιξη Κεφάλαιο 7 Εξερευνώντας την Εξέλιξη Σχέση μεταξύ αλληλουχίας αμινοξέων, δομής και λειτουργίας πρωτεϊνών Καταγωγή από έναν κοινό πρόγονο Εξελικτική Συγγένεια/Προέλευση Δύο ομάδες

Διαβάστε περισσότερα

Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης. Κεφάλαιο 1α Το Γενετικό Υλικό

Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης. Κεφάλαιο 1α Το Γενετικό Υλικό Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης Κεφάλαιο 1α Το Γενετικό Υλικό Το DNA είναι το γενετικό υλικό Αρχικά οι επιστήμονες θεωρούσαν ότι οι πρωτεΐνες αποτελούσαν το γενετικό υλικό των οργανισμών.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ BIO 230 Εισαγωγή στην Υπολογιστική Βιολογία Διδάσκων: Βασίλειος Ι. Προμπονάς, Ph.D. Επίκουρος Καθηγητής Βιοπληροφορικής ΓΕΝΙΚΕΣ ΠΛΗΡΟΦΟΡΙΕΣ Διαλέξεις Δευτέρα

Διαβάστε περισσότερα

Μέθοδοι μελέτης εξέλιξης

Μέθοδοι μελέτης εξέλιξης H διερεύνηση της μοριακής βάσης της εξέλιξης βασίζεται σε μεγάλο βαθμό στη διευκρίνιση της διαδικασίας με την οποία μετασχηματίσθηκαν στη διάρκεια της εξέλιξης πρωτεϊνες, άλλα μόρια και βιοχημικές πορείες

Διαβάστε περισσότερα

Φ Ρ Ο Ν Τ Ι Σ Τ Η Ρ Ι Α ΘΕΩΡΗΤΙΚΗ ΘΕΤΙΚΗ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΕΠΑ.Λ

Φ Ρ Ο Ν Τ Ι Σ Τ Η Ρ Ι Α ΘΕΩΡΗΤΙΚΗ ΘΕΤΙΚΗ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΕΠΑ.Λ Βιολογία ΘΕΜΑ Α κατεύθυνσης 1. δ 2. α 3. γ 4. δ 5. γ 6. α 7. δ 8. α 9. α 10. α ΘΕΜΑ Β Β1. Η ραδιενέργεια 32 Ρ θα βρίσκεται στο κλάσμα Β, δηλαδή στο κλάσμα εκείνο που περιλαμβάνει τα βακτήρια που έχουν

Διαβάστε περισσότερα

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Φραγκίσκος Κολίσης Καθηγητής Βιοτεχνολογίας, Σχολή Χημικών Μηχανικών ΕΜΠ, Διευθυντής Ινστιτούτου Βιολογικών Ερευνών και Βιοτεχνολογίας, EIE

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ)

ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ) ΠΡΟΓΡΑΜΜΑ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΑΕΙ ΓΙΑ ΤΗΝ ΕΠΙΚΑΙΡΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΑΠΟΦΟΙΤΩΝ ΑΕΙ (ΠΕΓΑ) «Οι σύγχρονες τεχνικές βιο-ανάλυσης στην υγεία, τη γεωργία, το περιβάλλον και τη διατροφή» Department of Biochemistry

Διαβάστε περισσότερα

Βιολογία ΘΕΜΑ Α ΘΕΜΑ B

Βιολογία ΘΕΜΑ Α ΘΕΜΑ B Βιολογία προσανατολισμού Α. 1. β 2. γ 3. δ 4. γ 5. δ ΘΕΜΑ Α B1. 4,1,2,6,8,3,5,7 ΘΕΜΑ B B2. Σχολικό βιβλίο σελ. 103 Η γενετική καθοδήγηση είναι.υγιών απογόνων. Σχολικό βιβλίο σελ. 103 Παρ ότι γενετική καθοδήγηση

Διαβάστε περισσότερα

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά;

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά; ΒΙΟΛΟΓΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ 12 26/10/2016 Κεφάλαιο 3 Α μέρος Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά; Ποια είναι η δομή

Διαβάστε περισσότερα

Απομόνωση ανθρώπινου DNA γονιδιώματος & ποιοτικός και ποσοτικός προσδιορισμός

Απομόνωση ανθρώπινου DNA γονιδιώματος & ποιοτικός και ποσοτικός προσδιορισμός Απομόνωση ανθρώπινου DNA γονιδιώματος & ποιοτικός και ποσοτικός προσδιορισμός Ευαγγελία - Ειρήνη Τσερμπίνι 1. Σκοπός Σκοπός της παρούσας άσκησης είναι η απομόνωση ανθρώπινου DNA γονιδιώματος από δείγμα

Διαβάστε περισσότερα

Τα χημικά στοιχεία που είναι επικρατέστερα στους οργανισμούς είναι: i..

Τα χημικά στοιχεία που είναι επικρατέστερα στους οργανισμούς είναι: i.. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ «XHMIKH ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ» ΕΙΣΑΓΩΓΗ ΚΑΙ Η ΧΗΜΕΙΑ ΤΗΣ ΖΩΗΣ Α. ΔΡΑΣΤΗΡΙΟΤΗΤΕΣ ΜΕΣΑ ΣΤΗΝ ΤΑΞΗ 1. Όταν αναφερόμαστε στον όρο «Χημική Σύσταση του Κυττάρου», τί νομίζετε ότι

Διαβάστε περισσότερα

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Δανάη Κούτρα Eργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Εθνικό Μετσόβιο Πολυτεχνείο Θέματα Σκοπός της διπλωματικής

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2015

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2015 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2015 ΘΕΜΑ Α Α1. β, Α2. γ, Α3. α, Α4. δ, Α5. γ ΘΕΜΑ Β Β1. 1-Α, 2-Β, 3-Β, 4-Α, 5-Α, 6-Α, 7-Β, 8-Β Β2. Το σύμπλοκο που δημιουργείται μετά την πρόσδεση

Διαβάστε περισσότερα

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA ΓΥΜΝΑΣΙΟ ΚΕΡΑΤΕΑΣ ΕΡΓΑΣΙΑ ΒΙΟΛΟΓΙΑΣ Β ΤΡΙΜΗΝΟΥ Γ 4 23.1.12 ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA ΕΡΓΑΣΤΗΚΑΝ: ΑΛΕΞΑΝΔΡΟΣ ΔΕΛΗΜΙΧΑΛΗΣ ΑΡΤΕΜΗΣ ΑΝΑΣΤΑΣΙΑΔΗΣ 1 ΕΙΣΑΓΩΓΗ Το δεοξυριβονουκλεϊκό οξύ (Deoxyribonucleic acid -

Διαβάστε περισσότερα

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής. Στοίχιση αλληλουχιών

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής.  Στοίχιση αλληλουχιών Στοίχιση αλληλουχιών Σύνοψη Καθολική στοίχιση Μήτρες βαθμολόγησης Τοπική στοίχιση Στοίχιση με ποινές εισαγωγής κενών Από την LCS στη στοίχιση: αλλαγές στη βαθμολόγηση Το πρόβλημα της Μεγαλύτερης Κοινής

Διαβάστε περισσότερα

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας Διδακτική με έμφαση στις βιοεπιστήμες Μαρία Ευαγγελία Βασιλογιάννη Στοιχεία Μαθήματος 1. Μάθημα : Βιολογία 2. Τίτλος ενότητας: Η ροή της γενετικής

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ

ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ 1. Το γενεαλογικό δένδρο είναι η διαγραμματική απεικόνιση των μελών μιας οικογένειας για πολλές γενιές, στην οποία αναπαριστώνται οι γάμοι, η σειρά των γεννήσεων, το φύλο

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Συμβολοσειρές Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Συμβολοσειρές Συμβολοσειρές και προβλήματα που αφορούν συμβολοσειρές εμφανίζονται τόσο συχνά που

Διαβάστε περισσότερα

συµβολοσειρών µε εφαρµογές στα βιολογικά δεδοµένα

συµβολοσειρών µε εφαρµογές στα βιολογικά δεδοµένα Aλγόριθµοι αναγνώρισης συµβολοσειρών µε εφαρµογές στα βιολογικά δεδοµένα ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Χρήστος Τζόκας Θεσσαλονίκη Oκτώβριος 2008 Τµήµα Πληροφορικής Α.Π.Θ. 1 ΠΕΡΙΕΧΟΜΕΝΑ 1. Εισαγωγή...3 2. Περίληψη.....4

Διαβάστε περισσότερα

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

Πρόβλημα. Σύνολο γνωστών αλληλουχιών BLAST Πρόβλημα Άγνωστη αλληλουχία Σύνολο γνωστών αλληλουχιών Η χρήση ενός υπολογιστή κι ενός αλγόριθμου είναι απαραίτητη για την ανακάλυψη της σχέσης μιας αλληλουχίας με τις γνωστές υπάρχουσες Τί είναι

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β ) ΤΕΤΑΡΤΗ 15 ΙΟΥΝΙΟΥ 2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΝΕΟ

Διαβάστε περισσότερα

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ (Περιέχει 67 ερωτήσεις θεωρίας µε απαντήσεις, 116 ασκήσεις ανοικτού- κλειστού τύπου µε µ

Διαβάστε περισσότερα

Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία Νουκλεϊκά οξέα:

Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία Νουκλεϊκά οξέα: Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία 1. Δεοξυριβονουκλεϊκό οξύ (DNA) Νουκλεϊκά οξέα: Φορέας της γενετικής πληροφορίας 2. Ριβονουκλεϊκό οξύ (RNA) Συμμετοχή στην

Διαβάστε περισσότερα

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ.

Βιοπληροφορική. Εισαγωγή. Αλέξανδρος Τζάλλας   Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ. Βιοπληροφορική Αλέξανδρος Τζάλλας e-mail: tzallas@teiep.gr ΤΕΙ Ηπείρου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Περιεχόμενα Διάλεξης Βιολογικό υπόβαθρο Το κεντρικό αξίωμα Σύνοψη της

Διαβάστε περισσότερα

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast Ασκήσεις 1 & 2 Βάσεις Δεδομένων Εργαλεία Αναζήτησης ClustalW & Blast Μοριακή Προσομοίωση Εισαγωγή: Δομική Βάση Βιολογικών Φαινομένων Η αξιοποίηση του πλήθους των δομικών στοιχείων για την εξαγωγή βιολογικά

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Βιοπληροφορική Ενότητα 7: Στοίχιση ακολουθιών ανά ζεύγη Τεχνικές Στοίχισης Ακολουθιών, (1/2) 1ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι Παρουσίαση της μεθόδου κατασκευής και

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Βιοπληροφορική Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι Κατανόηση της συσχέτισης ομολογίας ομοιότητας. Παρουσίαση των πληροφοριών

Διαβάστε περισσότερα

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών Η οικογενειακή ομοιότητα, οφείλεται στα κοινά γονίδια. Τα γονίδια πρέπει να εκφραστούν για να έχουν αποτέλεσμα, και η έκφραση αυτή ρυθμίζεται από πρωτεΐνες.

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β 1 ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΤΕΤΑΡΤΗ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2014 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ:

Διαβάστε περισσότερα

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. σύγχρονο Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. µαθητικό φροντιστήριο Γραβιάς 85 ΚΗΠΟΥΠΟΛΗ 50.51.557 50.56.296 25ης Μαρτίου 74 ΠΛ.ΠΕΤΡΟΥΠΟΛΗΣ 50.50.658 50.60.845 25ης Μαρτίου 111 ΠΕΤΡΟΥΠΟΛΗ 50.27.990

Διαβάστε περισσότερα

ΘΕΜΑ Α Α1. γ Α2. γ Α3. α Α4. β Α5. β ΘΕΜΑ B B1. B2.

ΘΕΜΑ Α Α1. γ Α2. γ Α3. α Α4. β Α5. β ΘΕΜΑ B B1. B2. ΘΕΜΑ Α Α1. γ (το πριμόσωμα) Α2. γ (οι υποκινητές και οι μεταγραφικοί παράγοντες κάθε γονιδίου) Α3. α (μεταφέρει ένα συγκεκριμένο αμινοξύ στο ριβόσωμα) Α4. β (αποδιάταξη των δύο συμπληρωματικών αλυσίδων)

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. Επιµέλεια: Οµάδα Βιολόγων της Ώθησης

ΑΠΑΝΤΗΣΕΙΣ. Επιµέλεια: Οµάδα Βιολόγων της Ώθησης ΑΠΑΝΤΗΣΕΙΣ Επιµέλεια: Οµάδα Βιολόγων της Ώθησης 1 Παρασκευή, 21 Μαΐου 2010 Γ ΛΥΚΕΙΟΥ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ ΘΕΜΑ Α Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από τις παρακάτω ημιτελείς προτάσεις Α1

Διαβάστε περισσότερα

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 1ο 1. α 2. γ 3. δ 4. γ 5. β 1 ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 2ο 1. Σχολικό βιβλίο,

Διαβάστε περισσότερα

Β1. Β2. ΘΕΜΑ 2ο 1. 2.

Β1. Β2. ΘΕΜΑ 2ο 1. 2. 1 ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΠΑΡΑΣΚΕΥΗ 20 ΣΕΠΤΕΜΒΡΙΟΥ 2002 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: BΙΟΛΟΓΙΑ (ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ) ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 1ο Α1.

Διαβάστε περισσότερα

5 GTG CAC CTG ACT CCT GAG GAG 3 3 CAC GTG GAC TGA GGA CTC CTC 5

5 GTG CAC CTG ACT CCT GAG GAG 3 3 CAC GTG GAC TGA GGA CTC CTC 5 Βιολογία Κατεύθυνσης Γ Λυκείου Απαντήσεις διαγωνίσματος στο Κεφάλαιο 4 ο ΘΕΜΑ Α Α1. β Α2. β Α3. γ Α4. β Α5. β ΘΕΜΑ B B1. Ο κλώνος είναι μια ομάδα πανομοιότυπων μορίων, κυττάρων, ή οργανισμών. B2. Η υβριδοποίηση

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β ) ΤΕΤΑΡΤΗ 15 ΙΟΥΝΙΟΥ 2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΝΕΟ

Διαβάστε περισσότερα

Βιολογία Β Λυκείου θέματα

Βιολογία Β Λυκείου θέματα Ι. Οι υδατάνθρακες διακρίνονται σε μονοσακχαρίτες, δισακχαρίτες και πολυσακχαρίτες. α) Να αναφέρετε από δύο παραδείγματα μονοσακχαριτών, δισακχαριτών και πολυσακχαριτών. (6μ) β) Σε ένα κύτταρο συναντώνται

Διαβάστε περισσότερα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΟΜΑΔΑ Λ Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τι είναι η βιοπληροφορική; Αποκαλείται ο επιστημονικός κλάδος ο οποίος προέκυψε από

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ 1ο 1. β 2. β 3. α 4. α 5. β

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ 1ο 1. β 2. β 3. α 4. α 5. β ΘΕΜΑ 1ο 1. β 2. β 3. α 4. α 5. β 1 ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΤΡΙΤΗ 21 ΣΕΠΤΕΜΒΡΙΟΥ 2004 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: BΙΟΛΟΓΙΑ (ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ)

Διαβάστε περισσότερα

ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΓΙΑ Β ΛΥΚΕΙΟΥ)

ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΓΙΑ Β ΛΥΚΕΙΟΥ) ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΓΙΑ Β ΛΥΚΕΙΟΥ) ΘΕΜΑ 1 ο Α. Να γράψετε στο τετράδιο σας τον αριθμό κάθε μιας από τις παρακάτω ημιτελείς προτάσεις 1 έως 5 και δίπλα το γράμμα που αντιστοιχεί

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΘΕΜΑ Α Α1 δ Α2 γ Α3 β Α4 γ Α5 β ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΘΕΜΑ Β Β1. 4 2 1 6 3 5 Β2. α. DNA πολυμεράση β. πριμόσωμα γ. DNA δεσμάση δ. DNA ελκάση ε. RNA πολυμεράση Β3. Σχολικό βιβλίο, Σελ.: 98: «Η διάγνωση των

Διαβάστε περισσότερα

θετικής κατεύθυνσης Παραδόσεις του μαθήματος Επιμέλεια: ΑΡΓΥΡΗΣ ΓΙΑΝΝΗΣ

θετικής κατεύθυνσης Παραδόσεις του μαθήματος Επιμέλεια: ΑΡΓΥΡΗΣ ΓΙΑΝΝΗΣ Βιολογία θετικής κατεύθυνσης Παραδόσεις του μαθήματος Επιμέλεια: ΑΡΓΥΡΗΣ ΓΙΑΝΝΗΣ 1ο κεφάλαιο Το γενετικό υλικό Τι αποτελεί το γενετικό υλικό; Από το 1869, που το DNA εντοπίστηκε στον πυρήνα των κυττάρων,

Διαβάστε περισσότερα

Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ

Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ Επαναληπτικά Θέµατα ΟΕΦΕ 2005 1 ε π α ν α λ η π τ ι κ ά θ έ µ α τ α 2 0 0 5 Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 1 Ο A: 1-Α, 2-, 3-Γ, 4-Β, 5-Β ΜΟΝΑ ΕΣ 15 (3Χ5) Β. 1. Σωστή, 2. Λανθασµένη,

Διαβάστε περισσότερα

Πανελλαδικές εξετάσεις Γ Τάξης Ημερήσιου Γενικού Λυκείου Βιολογία Θετικής Κατεύθυνσης Τετάρτη 4 Ιουνίου 2014

Πανελλαδικές εξετάσεις Γ Τάξης Ημερήσιου Γενικού Λυκείου Βιολογία Θετικής Κατεύθυνσης Τετάρτη 4 Ιουνίου 2014 Πανελλαδικές εξετάσεις Γ Τάξης Ημερήσιου Γενικού Λυκείου Βιολογία Θετικής Κατεύθυνσης Τετάρτη 4 Ιουνίου 2014 ΘΕΜΑ Α Α1.δ Α2.γ Α3.β Α4.γ Α5.β ΘΕΜΑ Β Β1. 4,2,1,6,3,5 Β2. α. DNA πολυμεράση β. πριμόσωμα γ.

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ 2015 ΗΜΕΡΗΣΙΑ ΓΕΝΙΚΑ ΛΥΚΕΙΑ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β )

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ 2015 ΗΜΕΡΗΣΙΑ ΓΕΝΙΚΑ ΛΥΚΕΙΑ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β ) ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ 2015 ΗΜΕΡΗΣΙΑ ΓΕΝΙΚΑ ΛΥΚΕΙΑ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β ) ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1 β Α2 γ Α3 α Α4 δ Α5 γ ΘΕΜΑ Β Β1: 1 Α 2 Β 3 Β 4 Α 5 Α 6 Α 7 Β 8 Β Β2:

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ

ΒΙΟΛΟΓΙΑ ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ 27 Μαΐου 2016 ΒΙΟΛΟΓΙΑ ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Απαντήσεις Θεμάτων Πανελλαδικών Εξετάσεων Ημερησίων Γενικών Λυκείων (Νέο & Παλιό Σύστημα) ΘΕΜΑ Γ Γ.1 Ο χαρακτήρας της ομάδας αίματος στον άνθρωπο

Διαβάστε περισσότερα

Όνομα μαθήτριας: Πρίφτη Ευαγγελία-Δάφνη Σχολείο: Πρότυπο ΓΕ.Λ Βαρβακείου Σχολής Επιβλέπων καθηγητής: Λυγάτσικας Ζήνων

Όνομα μαθήτριας: Πρίφτη Ευαγγελία-Δάφνη Σχολείο: Πρότυπο ΓΕ.Λ Βαρβακείου Σχολής Επιβλέπων καθηγητής: Λυγάτσικας Ζήνων Όνομα μαθήτριας: Πρίφτη Ευαγγελία-Δάφνη Σχολείο: Πρότυπο ΓΕ.Λ Βαρβακείου Σχολής Επιβλέπων καθηγητής: Λυγάτσικας Ζήνων Μπορεί η γεωμετρία να συσχετιστεί με την επιστήμη της γενετικής; Με ποιον τρόπο μπορούν

Διαβάστε περισσότερα

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο

Βιοπληροφορική. Blast/PSI-Blast 3o εργαστήριο Βιοπληροφορική Blast/PSI-Blast 3o εργαστήριο Αναζήτηση οµόλογων ακολουθιών σε βάσεις δεδοµένων (i) Οµόλογες ακολουθίες πιθανόν να έχουν παρόµοιες λειτουργίες. Ακολουθία επερώτησης (query sequence) Υποκείµενες

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Βιοπληροφορική Ενότητα 6: Στοίχιση ακολουθιών ανά ζεύγη Σύστημα βαθμολόγησης, 2 ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι Κατανόηση της σημασίας του συστήματος βαθμολόγησης

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΑΣΚΗΣΕΩΝ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ

ΜΕΘΟΔΟΛΟΓΙΑ ΑΣΚΗΣΕΩΝ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ ΜΕΘΟΔΟΛΟΓΙΑ ΑΣΚΗΣΕΩΝ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ Τα προβλήματα αυτού του κεφαλαίου αναφέρονται στον υπολογισμό : 1. νουκλεοτιδίων ή αζωτούχων βάσεων ή πεντοζών ή φωσφορικών ομάδων 2. φωσφοδιεστερικών δεσμών ή μορίων

Διαβάστε περισσότερα

Ποιος είναι ο ρόλος των πρωτεϊνών στα κύτταρα και ποιες είναι οι δομικές τους μονάδες;

Ποιος είναι ο ρόλος των πρωτεϊνών στα κύτταρα και ποιες είναι οι δομικές τους μονάδες; Ποιος είναι ο ρόλος των πρωτεϊνών στα κύτταρα και ποιες είναι οι δομικές τους μονάδες; Οι πρωτεΐνες αποτελούν δομικά ή λειτουργικά συστατικά των κυττάρων και δομούνται από απλούστερες ενώσεις, τα αμινοξέα.

Διαβάστε περισσότερα

ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του

ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του ΤΑ ΜΟΝΟΜΕΡΗ ΣΥΝΔΕΟΝΤΑΙ ΜΕ ΟΜΟΙΟΠΟΛΙΚΟ ΔΕΣΜΟ. 1. ΠΡΩΤΕΪΝΕΣ

Διαβάστε περισσότερα

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2014

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2014 ΤΑΞΗ: ΚΑΤΕΥΘΥΝΣΗ: ΜΑΘΗΜΑ: Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗ ΒΙΟΛΟΓΙΑ Ηµεροµηνία: Παρασκευή 25 Απριλίου 2014 ιάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ ΘΕΜΑ Α Να γράψετε στο τετράδιό σας τον αριθµό καθεµιάς από τις παρακάτω

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ_ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ_ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΙΚΟΝΑ_1.1 In vivo πειράματα απόδειξης της έννοιας του μετασχηματισμού και in vitro απόδειξη ότι το DNA είναι αυτό που προκαλεί το μετασχηματισμό. ΕΡΩΤΗΣΕΙΣ 1. Γιατί πιστεύετε ότι θανατώνονται τα βακτήρια

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014 ΘΕΜΑ Α Α1. δ Α2. γ Α3. β Α4. γ Α5. β ΘΕΜΑ Β Β1. Η σειρά των βημάτων που οδηγούν στην κατασκευή καρυότυπου είναι: 4, 2, 1, 6, 3, 5 Β2. α.

Διαβάστε περισσότερα

Θέματα πριν τις εξετάσεις. Καλό διάβασμα Καλή επιτυχία

Θέματα πριν τις εξετάσεις. Καλό διάβασμα Καλή επιτυχία Θέματα πριν τις εξετάσεις Καλό διάβασμα Καλή επιτυχία 2013-2014 Θέματα πολλαπλής επιλογής Μετουσίωση είναι το φαινόμενο α. κατά το οποίο συνδέονται δύο αμινοξέα για τον σχηματισμό μιας πρωτεΐνης β. κατά

Διαβάστε περισσότερα

Βιολογία Προσανατολισμού

Βιολογία Προσανατολισμού ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΚΕΦΑΛΑΙΑ 1 & 2 Θέμα Α: Να γράψετε στο τετράδιό σας τον αριθμό της καθεμιάς από τις παρακάτω ημιτελείς προτάσεις 1 έως 5 και δίπλα το γράμμα που αντιστοιχεί στη λέξη ή τη φράση, η οποία

Διαβάστε περισσότερα

τα Λεπτά Υμένια στις Νανοδομές και στις Νανο- & Mεγάλης κλίμακας κατασκευές.

τα Λεπτά Υμένια στις Νανοδομές και στις Νανο- & Mεγάλης κλίμακας κατασκευές. Από τα Λεπτά Υμένια στις Νανοδομές και στις Νανο- & Mεγάλης κλίμακας κατασκευές. Η εξέλιξη της επιστημονικής έρευνας, πέρα της ικανοποίησης της έμφυτης ανάγκης του ανθρώπου για γνώση, είχε και ως παράλληλο

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΠΟΥ ΥΠΗΡΕΤΟΥΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΔΕΥΤΕΡΑ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2018

ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΠΟΥ ΥΠΗΡΕΤΟΥΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΔΕΥΤΕΡΑ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2018 ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΠΟΥ ΥΠΗΡΕΤΟΥΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΔΕΥΤΕΡΑ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2018 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. δ

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΙΚΟΝΑ 2.4 ΣΤΑΔΙΑ ΜΕΤΑΦΡΑΣΗΣ σ ε λ ί δ α 1 ΕΙΚΟΝΑ 4.2β ΕΡΩΤΗΣΕΙΣ 1. Να συμπληρώσετε τα κενά πλαίσια της εικόνας με την κατάλληλη λέξη ή φράση 2. Να γράψετε τον προσανατολισμό της μετακίνησης του ριβοσώματος

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Ο.Π. ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ. Να σημειώσετε το γράμμα που συμπληρώνει κατάλληλα τη φράση:

ΒΙΟΛΟΓΙΑ Ο.Π. ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ. Να σημειώσετε το γράμμα που συμπληρώνει κατάλληλα τη φράση: Κανάρη 36, Δάφνη Τηλ. 210 9713934 & 210 9769376 ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΒΙΟΛΟΓΙΑ Ο.Π. ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΘΕΜΑ Α Να σημειώσετε το γράμμα που συμπληρώνει κατάλληλα τη φράση: Α1. Ποιο από τα παρακάτω αντικωδικόνια

Διαβάστε περισσότερα

ΔΙΑΦΟΡΕΣ ΑΣΚΗΣΕΙΣ ΣΤΟ 1 ΚΕΦΑΛΑΙΟ

ΔΙΑΦΟΡΕΣ ΑΣΚΗΣΕΙΣ ΣΤΟ 1 ΚΕΦΑΛΑΙΟ 1 ΔΙΑΦΟΡΕΣ ΑΣΚΗΣΕΙΣ ΣΤΟ 1 ΚΕΦΑΛΑΙΟ Το μόριο DNA μιας χρωματίδας μεταφασικού χωμοσώματος ενός φυσιολογικού ευκαρυωτικού κυττάρου περιέχει το 29% των νουκλεoτιδίων του με αζωτούχα βάση την T. a. Ποιο είναι

Διαβάστε περισσότερα

ΘΕΜΑ Α ΘΕΜΑ Β ΑΠΑΝΤΗΣΕΙΣ. Α1. β. Α2. γ. Α3. δ. Α4. γ. Α5. β Β1. 5, 4, 2, 1, 3. Β2. Τα δομικά μέρη του οπερονίου της λακτόζης είναι κατά σειρά τα εξής:

ΘΕΜΑ Α ΘΕΜΑ Β ΑΠΑΝΤΗΣΕΙΣ. Α1. β. Α2. γ. Α3. δ. Α4. γ. Α5. β Β1. 5, 4, 2, 1, 3. Β2. Τα δομικά μέρη του οπερονίου της λακτόζης είναι κατά σειρά τα εξής: ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΔΕΥΤΕΡΑ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2014 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β ΘΕΜΑ

Διαβάστε περισσότερα