Τεχνικές εκτίμησης και μοντελοποίησης απόστασης οργανισμών με βάση δεδομένα σύγκρισης πρωτεϊνών

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Τεχνικές εκτίμησης και μοντελοποίησης απόστασης οργανισμών με βάση δεδομένα σύγκρισης πρωτεϊνών"

Transcript

1 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Διπλωματική εργασία Τεχνικές εκτίμησης και μοντελοποίησης απόστασης οργανισμών με βάση δεδομένα σύγκρισης πρωτεϊνών Εκπόνηση: Κυριακή Καζά ΑΕΜ: 6933 Επίβλεψη: Καθηγητής Περικλής Μήτκας Θεσσαλονίκη, Νοέμβριος 2014

2 It turns out that an eerie type of chaos can lurk just behind a facade of order - and yet, deep inside the chaos lurks an even eerier type of order. Douglas R. Hofstadter, Metamagical Themas: Questing For The Essence Of Mind And Pattern

3

4 Αποποίηση ευθύνης/disclaimer «Η έγκριση της παρούσας διπλωματικής από το Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών της Πολυτεχνικής Σχολής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης δεν υποδηλώνει αποδοχή των γνωμών των συγγραφέων». (Ν.5343/1932, Άρθρο 202, Παρ.2) Πνευματική ιδιοκτησία/copyright 2014 Κυριακή Καζά. All rights reserved. Τα περιεχόμενα της παρούσας διπλωματικής αποτελούν πνευματική ιδιοκτησία του συγγραφέα και διέπονται από τις διεθνείς διατάξεις περί πνευματικής ιδιοκτησίας, με εξαίρεση τα ρητώς αναγνωρισμένα δικαιώματα τρίτων. Συνεπώς, α- παγορεύεται ρητά η αναπαραγωγή, αναδημοσίευση, αντιγραφή, αποθήκευση, πώληση, μετάδοση, διανομή, έκδοση, εκτέλεση, φόρτωση (download), μετάφραση, τροποποίηση με οποιονδήποτε τρόπο, τμηματικά ή περιληπτικά, χωρίς τη γραπτή συναίνεση της συγγραφέα.

5

6 Abstract Techniques for the estimation and modeling of organisms distance based on proteins comparison data One of the main goals of bioinformatics research is the development of computational algorithms, methods and programs to study phylogenetic relations among molecular sequences, species, or other taxa and form hypothesis about their evolutionary ancestry. To this end, the evolutionary distance among the characters must be estimated. This estimation can be based on either morphological analysis data or molecular analysis data. Advances in sequencing technology and the resulting deluge of molecular sequence data have provided vast opportunities to study the evolution of gene and protein families together with the evolutionary distance of the species harboring them. In the context of this thesis, we developed a methodology for the estimation of evolutionary distances based exclusively on proteins homology scores resulting from BLAST pairwise sequence alignment. The proposed methodology was applied to an experimental set of genomes selected to assure sufficient phylogenetic diversity. The input data from BLAST were separated and formatted properly through a series of preprocessing techniques. A statistical analysis followed to summarize the observations and provide useful information about their distributions which could be used as separation criteria in a classification procedure. A series of experiments was designed and executed in order to evaluate a variety of preprocessing and feature generation techniques, as well as classification algorithms. The experiment results led to the conclusion that the proposed methodology can offer a reliable estimation of evolutionary distances and the selected classification rules provided the mathematical background for the development of a generalized model for distance estimation. A thorough investigation of this methodology, together with rigorous experimentation with various sets of genomes could provide a useful insight in the area of phylogenetic inference through processing of sequence comparisons data.

7 Περίληψη Ένας από τους κύριους στόχους της έρευνας στον τομέα της βιοπληροφορικής είναι η ανάπτυξη υπολογιστικών αλγορίθμων, μεθόδων και προγραμμάτων για την μελέτη των φυλογενετικών σχέσεων ανάμεσα στις μοριακές ακολουθίες, τα είδη ή άλλες ταξινομικές μονάδες και τη διαμόρφωση υποθέσεων για την εξελικτική τους πορεία. Η διαδικασία αυτή προϋποθέτει την εκτίμηση των εξελικτικών αποστάσεων μεταξύ των εξεταζόμενων χαρακτήρων. Η εκτίμηση αυτή μπορεί να βασίζεται σε δεδομένα είτε μορφολογικής, είτε μοριακής ανάλυσης. Η πρόοδος που έχει σημειωθεί στο χώρο της ανάλυσης ακολουθιών και η συνακόλουθη πληθώρα των διαθέσιμων μοριακών δεδομένων παρέχει ευκαιρίες για την μελέτη των εξελικτικών αποστάσεων μεταξύ οικογενειών γονιδίων και πρωτεϊνών, καθώς επίσης, και μεταξύ των οργανισμών από τους οποίους προέρχονται. Στα πλαίσια της παρούσας διπλωματικής εργασίας, αναπτύχθηκε μια μεθοδολογία για την εκτίμηση των εξελικτικών αποστάσεων βάσει των σκορ ομολογίας των πρωτεϊνών, τα οποία προκύπτουν από την ανά ζεύγη ευθυγράμμισή τους με τον αλγόριθμο BLAST. Τα δεδομένα εξόδου του BLAST διαχωρίστηκαν και μορφοποιήθηκαν κατάλληλα μέσω τεχνικών προεπεξεργασίας. Ακολούθησε μια στατιστική ανάλυση των δεδομένων με στόχο να προσφέρει μια σύνοψη των παρατηρήσεων και χρήσιμες πληροφορίες για τις κατανομές τους, οι οποίες θα μπορούσαν να χρησιμοποιηθούν ως κριτήρια διαχωρισμού σε μια διαδικασία ταξινόμησης. Στη συνέχεια, σχεδιάστηκε κι εκτελέστηκε μια σειρά πειραμάτων με στόχο την αξιολόγηση διαφορετικών τεχνικών προεπεξεργασίας, τεχνικών γέννησης χαρακτηριστικών και αλγορίθμων ταξινόμησης. Τα αποτελέσματα των πειραμάτων οδήγησαν στο συμπέρασμα ότι η προτεινόμενη μεθοδολογία μπορεί να δώσει μια αξιόπιστη εκτίμηση των εξελικτικών σχέσεων και οι κανόνες απόφασης που επιλέχθηκαν, προσέφεραν το μαθηματικό υπόβαθρο για την ανάπτυξη ενός γενικευμένου μοντέλου εκτίμησης αποστάσεων. Η περαιτέρω διερεύνηση της εν λόγω μεθοδολογίας σε συνδυασμό με την εφαρμογή εκτενών πειραμάτων για ποικίλα σύνολα γονιδιωμάτων θα μπορούσε να προσφέρει χρήσιμες πληροφορίες στην περιοχή της φυλογενετικής συμπερασματολογίας με βάση δεδομένα σύγκρισης ακολουθιών.

8 Ευχαριστίες Τρεισήμισι χρόνια πριν, σε μια εποχή έντονης σύγχυσης κι αμφισβήτησης, ένας καθηγητής πίστεψε σε μένα και μου είπε κατά λέξη το εξής: «Πίστεψε στον εαυτό σου και θα δεις ότι όλα τα μπορείς». Έκτοτε, η συνεργασία μου με τον καθηγητή Περικλή Μήτκα, συνεχίστηκε στα πλαίσια μαθημάτων, διαλέξεων, ομάδων και άλλων δραστηριοτήτων και τελικά, κατέληξε στην ανάθεση της παρούσας διπλωματικής εργασίας. Για την εμπιστοσύνη που μου έδειξε και για όλα αυτά που μου έμαθε, τον ευχαριστώ ειλικρινά, αλλά του οφείλω ένα ακόμα μεγαλύτερο ευχαριστώ, για εκείνη την πρώτη συνάντηση στο γραφείο του, που κατά κάποιον τρόπο, επέδρασε καθοριστικά στην μετέπειτα πορεία μου. Επίσης, ευχαριστώ θερμά τον μεταδιδακτορικό ερευνητή, Φώτη Ψωμόπουλο, συνεπιβλέποντα της διπλωματικής μου, για την προσεκτική καθοδήγηση, τις ώρες που αφιέρωσε για να με μυήσει στο κόσμο της βιοπληροφορικής και της μηχανικής μάθησης, την όρεξη με την οποία απαντούσε στις συνεχείς ερωτήσεις μου, την υπομονή στις μικρές και μεγάλες καθυστερήσεις μου και φυσικά, για την συνεχή ενθάρρυνση αποτυπωμένη στο γνωστό πανίσχυρο ηρεμιστικό «μην αγχώνεσαι, παιδί μου». Με δύο λόγια, για την άψογη συνεργασία. ******** Η περάτωση αυτή της διπλωματικής δε σηματοδοτεί απλά το τέλος των προπτυχιακών μου σπουδών, αλλά και την ολοκλήρωση μιας μεταβατικής περιόδου, μιας περιόδου αφύπνισης κι ενηλικίωσης που με άλλαξε και με διαμόρφωσε, όχι όσο θα ήθελα ή όσο ήλπιζα, αλλά ίσως πιο ουσιαστικά από όσο θα μπορούσα να περιμένω. Και τελικά νομίζω πως καμία αλλαγή δεν μπορεί ο άνθρωπος να επιφέρει μόνος του. Ακόμα και γι αυτήν την προσωπική αλλαγή που υποτίθεται ότι είναι προσωπική ευθύνη κι υπόθεση, χρειάζεται το εξωτερικό ερέθισμα, το κίνητρο, η στήριξη... Άλλωστε αν δεν υπάρχουν παρατηρητές της αλλαγής, υφίσταται η αλλαγή; Γι αυτόν τον λόγο, ευχαριστώ μέσα από την καρδιά μου, όλους τους δικούς μου ανθρώπους, με τους οποίους μοιραστήκαμε και μοιραζόμαστε όλα όσα είναι

9 πραγματικά ουσιαστικά και οι οποίοι συνιστούν τους παρατηρητές και καταλύτες των αλλαγών στη ζωή μου: Τους γονείς μου για την αμέριστη ψυχολογική και υλική στήριξη καθ όλη τη διάρκεια των σπουδών μου και την αδερφή μου που είναι ο συνεργάτης, ο συνοδοιπόρος, ο συγκάτοικος, αλλά και ο «συνεργός» μου Και τους φίλους μου που εισχώρησαν στην «ελίτ» μου, συγκρότησαν την «Ομαδάρα» μου, έγιναν η δεύτερη οικογένειά μου κι νοηματοδότησαν με τον πλέον ουσιαστικό τρόπο την φράση: «Η ζωή έχει αξία μόνο όταν αγαπάς και μοιράζεσαι»

10 Περιεχόμενα 1 Εισαγωγή Βιοπληροφορική και εξέλιξη Συνοπτική περιγραφή του θέματος Στόχοι της διπλωματικής Μεθοδολογία Διάρθρωση της διπλωματικής Θεωρητικό Υπόβαθρο Εισαγωγή στην εξέλιξη Κληρονομικότητα και γενετικό υλικό Γενετική ποικιλότητα Μεταλλάξεις Ροή γονιδίων Φυσική επιλογή Γενετική παρέκκλιση Εισαγωγή στη φυλογενετική Εξελικτική σχολή Σχολή των Φαινετιστών Η σχολή των κλαδιστών Υπολογιστική φυλογενετική Ομολογία κι αναλογία Κωδικοποίηση χαρακτήρων και ορισμός της ομολογίας Γενικός αλγόριθμος κατασκευής φυλογενετικών δέντρων Ανασκόπηση υπολογιστικών φυλογενετικών μεθόδων... 19

11 2.4.1 Μέθοδοι κατασκευής δέντρων Μέθοδοι βάσει διακριτών χαρακτήρων Η παρούσα μελέτη Ανάπτυξη μεθοδολογίας Συνοπτική παρουσίαση Βήμα 1: Επιλογή των οργανισμών Βήμα 2: Αλγόριθμος BLAST Βήμα 3: Επεξεργασία πίνακα δεδομένων Βήμα 4: Στατιστικά σύνοψης υποπινάκων Βήμα 5: Μετασχηματισμοί δεδομένων και μείωση διάστασης Ανάλυση κύριων συνιστωσών (Principal Component Analysis) Ανάλυση στη βάση των ιδιαζουσών τιμών (Singular value decomposition) Ανάλυση ανεξάρτητων συνιστωσών (Independent Component Analysis) Βήμα 6: Ταξινόμηση με αλγορίθμους δέντρων Βήμα 7: Εξαγωγή μοντέλου Αποτελέσματα πειραμάτων Βήμα 1: Επιλογή των οργανισμών Βήμα 2: Αλγόριθμος BLAST Βήμα 3: Επεξεργασία πίνακα δεδομένων Βήμα 4: Στατιστικά σύνοψης Βήμα 5 & 6: Γέννηση χαρακτηριστικών και ταξινόμηση Ορισμός κλάσεων Σχεδίαση πειραμάτων Σειρά πειραμάτων 1: Χωρίς μετασχηματισμό των δεδομένων Σειρά πειραμάτων 2: Εφαρμογή PCA Σειρά πειραμάτων 3: Εφαρμογή SVD Σειρά πειραμάτων 4: Εφαρμογή ICA... 62

12 4.6 Βήμα 6: Εξαγωγή μοντέλου Μοντέλο 1 βασισμένο στον αλγόριθμο Random Tree Μοντέλο 2 βασισμένο στον αλγόριθμο Random tree και την PCA 67 5 Συμπεράσματα Συμπεράσματα Μελλοντικές επεκτάσεις Βιβλιογραφία Παράρτημα... 75

13 Λίστα Εικόνων Εικόνα 2-1: Οργάνωση του γενετικού υλικού... 7 Εικόνα 2-2: Φαινοτυπικές διαφορές ως αποτέλεσμα της γενετικής ποικιλότητας για την πεταλούδα της νύχτας (Biston betularia)... 8 Εικόνα 2-3: Προσομοίωση της γενετικής παρέκκλισης 20 ασύνδετων αλληλόμορφων σε 10 πληθυσμούς (πάνω) και σε 100 πληθυσμούς (κάτω) Εικόνα 2-4: Το φυλογενετικό δέντρο της ζωής Εικόνα 2-5: Φυλογενετικό δέντρο γονιδίων τεσσάρων οργανισμών, όπου απεικονίζονται κόμβοι που προέκυψαν από διπλασιασμό γονιδίων (σημειωμένοι με τελεία) και κόμβοι που προέκυψαν από κλαδογένεση Εικόνα 2-6: Οι πρώτες 90 θέσεις μιας πρωτεϊνικής πολλαπλής ευθυγράμμισης με τις εκδοχές της πρωτεΐνης PO (L1OE) σε αρκετούς οργανισμούς όπως προέκυψε από ClustalX Εικόνα 2-7: Διάγραμμα ροής για τη διαδικασία της φυλογενετικής συμπερασματολογίας Εικόνα 2-8: Κατηγοριοποίηση των μεθόδων κατασκευής φυλογενετικών δέντρων με βάση μοριακά δεδομένα Εικόνα 3-1: Διάγραμμα ροής της μεθοδολογίας Εικόνα 3-2: Αρχείο εξόδου BLAST σε μορφή πίνακα (χωρίς ευθυγραμμίσεις) 29 Εικόνα 3-3: Μορφή πίνακα Μ μεγέθους NxN Εικόνα 3-4: Διαχωρισμός του πίνακα Μ σε υποπίνακες για την περίπτωση 5 οργανισμών Εικόνα 3-5: Διαγράμματα προεπεξεργασίας και εφαρμογής PCA σε δισδιάστατα δεδομένα Εικόνα 3-6: Απεικόνιση της παραγοντοποίησης πίνακα Α με χρήση της μεθόδου SVD Εικόνα 3-7: Δέντρο απόφασης για την πρόβλεψη του επιπέδου ευτυχίας των πολιτών μιας χώρας Εικόνα 4-1: Απλοποιημένο δεντρόγραμμα που αναπαριστά τις σχέσεις μεταξύ των πέντε οργανισμών που επιλέχθηκαν... 48

14 Εικόνα 4-2: Οι 4 εναλλακτικές μορφές (cases) για το ίδιο τμήμα του πίνακα Μ Εικόνα 4-3: Κανόνες απόφασης Random Tree για την περίπτωση 4 χωρίς μετασχηματισμό Εικόνα 4-4: Γενικευμένο δέντρο απόφασης του μοντέλου Εικόνα 4-5: Κανόνες απόφασης Random Tree για την περίπτωση 4 μετά την εφαρμογή PCA Εικόνα 4-6: Γενικευμένο δέντρο απόφασης του μοντέλου

15 Λίστα Πινάκων Πίνακας 4-1: Συγκεντρωτικός πίνακας με την απεικόνιση των στατιστικών των υποπινάκων για κάθε περίπτωση Πίνακας 4-2: Πίνακας που απεικονίζει τα στατιστικά που επιλέχθηκαν για κάθε περίπτωση Πίνακας 4-3: Πίνακας με την αντιστοίχιση των υποπινάκων σε κλάσεις Πίνακας 4-4: Αποτελέσματα ταξινόμησης με διανύσματα χαρακτηριστικών του Πίνακα 4-2 για τα πειράματα χωρίς την εφαρμογή μετασχηματισμού Πίνακας 4-5: Πίνακας με τα στατιστικά που επιλέχθηκαν για τα διανύσματα χαρακτηριστικών μικρότερης διάστασης στη σειρά πειραμάτων Πίνακας 4-6: Αποτελέσματα ταξινόμησης με τα διανύσματα χαρακτηριστικών του Πίνακα 4-5 για τα πειράματα χωρίς την εφαρμογή μετασχηματισμού Πίνακας 4-7: Αποτελέσματα ταξινόμησης με εφαρμογή PCA στα στατιστικά για διανύσματα χαρακτηριστικών μεγάλης διάστασης Πίνακας 4-8: Αποτελέσματα ταξινόμησης μετά από ανακατασκευή του πίνακα Μ με SVD και k= Πίνακας 4-9: Αποτελέσματα ταξινόμησης με ανακατασκευή των στατιστικών με τη χρήση SVD και διάφορες τιμές του k για την περίπτωση Πίνακας 4-10: Πίνακας αποτελεσμάτων ταξινόμησης με εφαρμογή SVD (με διάφορες τιμές k για την ανακατασκευή των διανυσμάτων χαρακτηριστικών) κι έπειτα εφαρμογή PCA για την περίπτωση Πίνακας 4-11: Πίνακας αποτελεσμάτων ταξινόμησης με εφαρμογή ICA στα διανύσματα χαρακτηριστικών των περιπτώσεων 3 και Πίνακας 4-12: Συγκεντρωτικός πίνακας για όλα τα πειράματα με μέτρο σύγκρισης το σκορ ταξινόμησης του αλγορίθμου C Πίνακας 4-13: Υπολογισμός ποσοστών κατωφλίων για το μοντέλο Πίνακας 4-14: Υπολογισμός ποσοστών κατωφλίων για το μοντέλο

16

17 1 Εισαγωγή 1.1 Βιοπληροφορική και εξέλιξη Βιοπληροφορική (bioinformatics) καλείται ο επιστημονικός κλάδος ο οποίος προέκυψε από τη συνεργασία των επιστημών της μοριακής βιολογίας και της πληροφορικής. Θεωρώντας τα βιολογικά δεδομένα (DNA, RNA, πρωτεΐνες) ως ψηφιακή πληροφορία, εφαρμόζει αλγορίθμους για την επεξεργασία τους και την παραγωγή χρήσιμων συμπερασμάτων με αποδοτικό τρόπο. Μεταξύ άλλων χρησιμοποιούνται μέθοδοι κλάδων της τεχνητής νοημοσύνης, όπως η εξόρυξη δεδομένων (π.χ. neural networks, Bayesian networks κλπ) και ο εξελικτικός υπολογισμός (π.χ. γενετικοί αλγόριθμοι). Ένας από τους βασικούς κλάδους έρευνας της βιοπληροφορικής είναι η μελέτη των εξελικτικών σχέσεων και των μηχανισμών της εξέλιξης με τη χρήση υπολογιστικών εργαλείων. Η πληροφορική έδωσε ώθηση στην εξελικτική βιολογία βοηθώντας τους ερευνητές να: παρακολουθήσουν και να προσδιορίσουν την εξέλιξη μεγάλου πλήθους οργανισμών με βάση μετρήσεις των αλλαγών στο DNA τους, αντί της φυσικής ταξινομίας ή μόνο των φυσιολογικών παρατηρήσεων συγκρίνουν ολόκληρα γονιδιώματα, γεγονός που επέτρεψε την μελέτη πιο περίπλοκων εξελικτικών γεγονότων, όπως ο διπλασιασμός γονιδίων, η οριζόντια μεταφορά γονιδίων και η πρόβλεψη παραγόντων σημαντικών στην εξειδίκευση των βακτηρίων αναπτύξουν περίπλοκα υπολογιστικά μοντέλα πληθυσμών για να προβλέψουν την εξέλιξη ενός συστήματος στο χρόνο συστηματοποιήσουν και να αποθηκεύσουν πληροφορίες για συνεχώς αυξανόμενο αριθμό ειδών και οργανισμών Οι κατακτήσεις αυτές είναι αναμφίβολα εντυπωσιακές και σηματοδότησαν μια ραγδαία πρόοδο της βιοπληροφορικής τα τελευταία χρόνια, ενώ πολλές είναι και οι προκλήσεις (π.χ. ανακατασκευή του σύνθετου δέντρου της ζωής) για το μέλλον.

18 2 Εισαγωγή 1.2 Συνοπτική περιγραφή του θέματος Για την μελέτη της εξέλιξης των γονιδίων/οργανισμών/ειδών, απαραίτητη προϋπόθεση είναι η εκτίμηση των εξελικτικών τους αποστάσεων. Η εκτίμηση αυτή μπορεί να βασίζεται στην ανάλυση είτε μορφολογικών είτε μοριακών δεδομένων. Η πρόοδος στις τεχνικές ανάλυσης ακολουθιών οδήγησε στην ανάπτυξη μιας σειράς τεχνικών και εργαλείων για την εκτίμηση των εξελικτικών αποστάσεων βάσει μοριακών δεδομένων. Η παρούσα διπλωματική βασίζεται στην υπόθεση ότι μπορεί να γίνει μια εκτίμηση των εξελικτικών αποστάσεων οργανισμών αξιοποιώντας τα δεδομένα συγκρίσεων των πρωτεϊνικών τους ακολουθιών που προκύπτουν από την εφαρμογή του αλγορίθμου BLAST. Με βάση αυτήν την υπόθεση, θα αναπτυχθεί μια μεθοδολογία με τελικό στόχο την θεμελίωση ενός μοντέλου που θα δίνει με μαθηματικές σχέσεις μια εκτίμηση για τις εξελικτικές αποστάσεις μεταξύ των οργανισμών. 1.3 Στόχοι της διπλωματικής Στόχος της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη μιας μεθοδολογίας εκτίμησης των εξελικτικών αποστάσεων μεταξύ των οργανισμών. Στην προσέγγισή μας, αντιμετωπίζουμε τις πρωτεϊνικές ακολουθίες των οργανισμών ως την διαθέσιμη πρωτογενή γενετική πληροφορία. Εκμεταλλευόμενοι τις τυποποιημένες συγκρίσεις αυτών των ακολουθιών, αξιολογούμε εργαλεία στατιστικής α- νάλυσης και εφαρμόζουμε αλγορίθμους μηχανικής μάθησης προκειμένου να α- ναγνωρίσουμε πρότυπα και τάσεις των δεδομένων. Απώτερος στόχος αυτής της μελέτης είναι η προσπάθεια θεμελίωσης ενός μαθηματικού μοντέλου που ερμηνεύει με φορμαλιστικό τρόπο τις εξελικτικές αποστάσεις μεταξύ των οργανισμών.

19 Εισαγωγή Μεθοδολογία Η μεθοδολογία που αναπτύχθηκε για την επίτευξη του στόχου της παρούσας διπλωματικής εργασίας μπορεί να συνοψιστεί ως εξής: με βάση ένα επιλεγμένο σύνολο n οργανισμών προς εξέταση, ανακτήθηκαν οι k i (i=1 n) πρωτεΐνες που αντιστοιχούν στα γονίδια του κάθε γονιδιώματος. Στη συνέχεια, εφαρμόστηκε ο αλγόριθμος BLAST προκειμένου να γίνουν όλες οι ανά ζεύγη δυνατές συγκρίσεις μεταξύ όλων των πρωτεϊνικών ακολουθιών της μελέτης. Με αυτόν τον τρόπο, προέκυψε ένας πίνακας τιμών, οι οποίες προσδιορίζουν τον βαθμό ομολογίας μεταξύ των πρωτεϊνών. Ο πίνακας αυτός αποτέλεσε και το σύνολο δεδομένων εισόδου για το υπολογιστικό τμήμα της μεθοδολογίας. Η πρώτη επεξεργασία του πίνακα δεδομένων περιλάμβανε μετασχηματισμούς και στατιστική ανάλυση. Από τη διαδικασία αυτή προέκυψε ένα σύνολο από στατιστικά σύνοψης, τα οποία στη συνέχεια, με χρήση τεχνικών γέννησης χαρακτηριστικών, έδωσαν ένα σύνολο διανυσμάτων χαρακτηριστικών. Τα διανύσματα αυτά χρησιμοποιήθηκαν για την ταξινόμηση (classification) των αρχικών δεδομένων σε κλάσεις, ορισμένες με τέτοιον τρόπο ώστε να εκφράζουν την εξελικτική απόσταση μεταξύ των οργανισμών. Τα αποτελέσματα των πειραμάτων αναλύθηκαν, συγκρίθηκαν και τελικά οδήγησαν στην ανάπτυξη ενός μοντέλου μαθηματικών σχέσεων για την εκτίμηση των αποστάσεων οργανισμών με χρήση δεδομένων ομολογίας πρωτεϊνικών ακολουθιών. 1.5 Διάρθρωση της διπλωματικής Στο κεφάλαιο 2, παρουσιάζεται το θεωρητικό υπόβαθρο με τις βασικές έννοιες της εξελικτικής βιολογίας που συναντήσαμε στη βιβλιογραφική μελέτη και τις βασικές φυλογενετικές τεχνικές. Στο κεφάλαιο 3, περιγράφεται αναλυτικά η μεθοδολογία που αναπτύχθηκε στα πλαίσια της παρούσας έρευνας. Στο κεφάλαιο 4, παρουσιάζονται τα αποτελέσματα των πειραμάτων που εκτελέστηκαν και με βάση αυτά αναπτύσσεται το μοντέλο εκτίμησης αποστάσεων.

20 4 Εισαγωγή Στο κεφάλαιο 5, συνοψίζονται τα συμπεράσματα που προκύπτουν από τα αποτελέσματα του κεφαλαίου 4 και προτείνονται ορισμένες προεκτάσεις της τρέχουσας μεθόδου. Ακολουθεί η βιβλιογραφία και ένα παράρτημα, όπου παρουσιάζονται ενδεικτικά λεπτομέρειες κι αποτελέσματα της εκτέλεσης των εξεταζόμενων αλγορίθμων.

21 2 Θεωρητικό Υπόβαθρο 2.1 Εισαγωγή στην εξέλιξη Στην επιστήμη της βιολογίας, με τον όρο εξέλιξη εννοείται η αλλαγή στις ιδιότητες ενός πληθυσμού οργανισμών σε μακροκλίμακα, βασισμένη σε αθροιστικές αλλαγές μεταξύ διαφορετικών γενεών. Αν και μεταβολές σε γενετικό επίπεδο παρατηρούνται σε κάθε γενιά (μεταλλάξεις), μακροπρόθεσμα και αθροιστικά, μπορούν να οδηγήσουν σε σημαντικές διαφοροποιήσεις στις ιδιότητες ενός οργανισμού και τελικά στη δημιουργία νέων διακριτών ειδών (ειδογένεση). Εξελικτικές θεωρούνται ειδικά οι αλλαγές που μεταβιβάζονται μέσω του γενετικού υλικού από γενιά σε γενιά, συνεπώς συνιστούν μια πληθυσμιακή διαδικασία και διακρίνονται από άλλες, όπως η οντογένεση, ή γενικά η ανάπτυξη ενός οργανισμού ατομικά. Η εξέλιξη αποτελεί φαινόμενο που υλοποιείται σταδιακά και σε μεγάλο βάθος χρόνου. Με λίγες εξαιρέσεις, απαιτείται το πέρασμα αρκετών γενεών για εξελικτικές αλλαγές μεγάλης κλίμακας, όπως για παράδειγμα η εξέλιξη των πτηνών από τα ερπετά. Λαμβάνει επίσης χώρα με διαφορετικούς ρυθμούς ανάλογα με το είδος και το περιβάλλον του. Μορφολογικές και άλλες ομοιότητες μεταξύ των ειδών του έμβιου κόσμου υποδεικνύουν ότι όλα διαθέτουν κοινή καταγωγή, προέρχονται δηλαδή από ένα κοινό προγονικό είδος. Πολυάριθμες διαδικασίες, όπως οι μεταλλάξεις, η γονιδιακή ροή με μεταφορά γονιδίων ανάμεσα στους πληθυσμούς, και ο γενετικός ανασυνδυασμός, συμβάλλουν σε γενετικές αλλαγές και παρέχουν την παρατηρούμενη φαινοτυπική ποικιλομορφία. Οι κληρονομούμενες διαφοροποιήσεις θα είναι περισσότερο κοινές ή σπάνιες σε έναν πληθυσμό, γεγονός που εξαρτάται από δύο κύριους μηχανισμούς. Ο πρώτος περιλαμβάνει τη φυσική επιλογή (natural selection), μια διαδικασία σύμφωνα με την οποία οι οργανισμοί με ιδιότητες που οδηγούν σε μεγαλύτερη προσαρμοστικότητα αφήνουν περισσότερους απογόνους, συνεπώς οι ιδιότητες αυτές θα είναι περισσότερο κοινές. Σημαντικό ρόλο διαδραματίζει επιπλέον η διαδικασία της γενετικής παρέκκλισης (genetic drift), δηλαδή της τυχαίας αλλαγής των γονιδιακών συχνοτήτων από μια γενιά στην επόμενη.

22 6 Θεωρητικό Υπόβαθρο Η εξέλιξη, θεμέλιος λίθος της σύγχρονης βιολογίας, αποτελεί αντικείμενο μελέτης του κλάδου της εξελικτικής βιολογίας και τεκμηριώνεται από πληθώρα στοιχείων που προέρχονται από τη συλλογή απολιθωμάτων, τη βιογεωγραφία, την εμβρυολογία, τη συγκριτική ανατομία, τη μοριακή βιολογία και άλλους επιστημονικούς τομείς. Η γνώση του μηχανισμού που διέπει τη διαδικασία της εξέλιξης οφείλεται, σε μεγάλο βαθμό, στο έργο του Charles Darwin (Δαρβίνος) και του Alfred Russel Wallace. Αν και ο Δαρβίνος δεν ήταν ο πρώτος που συνέλαβε την ιδέα της εξέλιξης, με αφετηρία την περίφημη μελέτη Περί της καταγωγής των ειδών (1859), πρόσφερε μια ολοκληρωμένη σύνθεση της θεωρίας της φυσικής επιλογής, με ι- σχυρά επιχειρήματα. Κατά την περίοδο και τη συνένωση δαρβινισμού και στοιχείων γενετικής, οικολογίας, συστηματικής και παλαιοντολογίας, ωρίμασε η σύγχρονη θεωρία της εξέλιξης, γνωστή και ως εξελικτική σύνθεση, η οποία ερευνά και εξηγεί τη βιοποικιλότητα της Γης Κληρονομικότητα και γενετικό υλικό Η εξέλιξη στους οργανισμούς προκύπτει μέσω αλλαγών σε κληρονομήσιμα χαρακτηριστικά (πχ. χρώμα των ματιών για τον άνθρωπο). Τα κληρονομήσιμα χαρακτηριστικά ελέγχονται από τα γονίδια (δομικές μονάδες DNA). Το σύνολο των γονιδίων ενός οργανισμού συνιστά το γονιδίωμά του, ενώ το σύνολο των παρατηρούμενων χαρακτηριστικών που διαμορφώνουν τη δομή και τη συμπεριφορά ενός οργανισμού συνιστά το φαινότυπό του. To DNA είναι ένα πολυμερές που αποτελείται από τέσσερα είδη βάσεων. Η ακολουθία των βάσεων σε ένα συγκεκριμένο μόριο DNA καθορίζει την γενετική πληροφορία, όπως η σειρά των γραμμάτων καθορίζει την πληροφορία που μεταφέρει μία πρόταση. Χρωμόσωμα ονομάζεται ένα μοναδικό κομμάτι περιελιγμένου DNA που περιλαμβάνει πολλά γονίδια και άλλες ακολουθίες νουκλεοτιδίων. Ομόλογα χρωμοσώματα καλούμε κάθε ζευγάρι χρωμοσωμάτων που έχουν ίδιο σχήμα και μέγεθος. Τα ομόλογα χρωμοσώματα περιέχουν (σε αντίστοιχες θέσεις) γενετικές πληροφορίες που αφορούν τις ίδιες ιδιότητες. Τα γονίδια που βρίσκονται στην ίδια θέση των ομόλογων χρωμοσωμάτων ονομάζονται αλληλόμορφα γονίδια. Τα αλληλόμορφα γονίδια είναι γονίδια που δρουν για το ίδιο γνώρισμα αλλά με διαφορετικό

23 Θεωρητικό Υπόβαθρο 7 τρόπο. Για παράδειγμα, αν υπάρχουν δύο διαφορετικά γονίδια που ελέγχουν το χρώμα του άνθους ενός φυτού, τότε μεταξύ τους είναι αλληλόμορφα. Εικόνα 2-1: Οργάνωση του γενετικού υλικού Γενετική ποικιλότητα Ο φαινότυπος ενός οργανισμού προκύπτει από το γονότυπο και την επίδραση του περιβάλλοντος στο οποίο αυτός αναπτύσσεται. Η ποικιλία που παρατηρείται στους φαινότυπους οφείλεται κατά ένα μεγάλο βαθμό στις διαφορές μεταξύ των γονότυπων. Η γενετική ποικιλότητα προκύπτει από μεταλλάξεις στο γενετικό υ- λικό, γενετικό ανακάτεμα (shuffling) μέσω της σεξουαλικής αναπαραγωγής και μετακίνηση γονιδίων από τον έναν πληθυσμό στον άλλο (ροή γονιδίων). Ωστόσο, παρά τη συνεχή ενίσχυση της ποικιλότητας του γενετικού υλικού μέσω των μηχανισμών που προαναφέρθηκαν, το μεγαλύτερο τμήμα του γονιδιώματος σε ένα είδος είναι όμοιο για όλα τα μέλη του είδους. Ωστόσο, ακόμα και σχετικά μικρές αλλαγές στο γονότυπο μπορούν να επιφέρουν δραματικές αλλαγές στο φαινότυπο. Για παράδειγμα, το γονιδίωμα των ανθρώπων διαφέρει από εκείνο των χιμπατζήδων μόνο κατά 5%, παρά τις προφανείς φαινοτυπικές τους διαφορές.

24 8 Θεωρητικό Υπόβαθρο Εικόνα 2-2: Φαινοτυπικές διαφορές ως αποτέλεσμα της γενετικής ποικιλότητας για την πεταλούδα της νύχτας (Biston betularia) Μεταλλάξεις Μεταλλάξεις ονομάζονται οι αλλαγές στις αλληλουχίες DNA στο γονιδίωμα ενός κυττάρου. Μια μετάλλαξη μπορεί είτε να μην έχει κάποιο αντίκτυπο, είτε να ο- δηγήσει στην παραγωγή μιας διαφορετικής πρωτεΐνης, είτε να εμποδίσει τη λειτουργία του γονιδίου. Μεταλλάξεις σε επίπεδο χρωμοσωμάτων μπορούν να οδηγήσουν σε διπλασιασμό μεγάλου τμήματος του χρωμοσώματος, γεγονός που εισάγει αντίγραφα υπαρχόντων γονιδίων στο γονιδίωμα. Τα νέα αυτά αντίγραφα είναι απαραίτητα για τη διαδικασία ανάπτυξης νέων γονιδίων (new gene origination). Το γεγονός αυτό είναι σημαντικό γιατί τα περισσότερα νέα γονίδια αναπτύσσονται σε οικογένειες γονιδίων (gene families) από προϋπάρχοντα γονίδια με τα οποία μοιράζονται κοινούς προγόνους [7]. Νέα γονίδια μπορούν να προκύψουν από ένα προγονικό γονίδιο όταν ένα αντίγραφο αυτού μεταλλάσσεται και αποκτά μια νέα λειτουργία. Επομένως, μετά το διπλασιασμό, λόγω του πλεονασμού που δημιουργείται, το ένα γονίδιο αποκτά μια νέα λειτουργικότητα, ενώ το άλλο συνεχίζει να έχει τη λειτουργικότητα του προγονικού γονιδίου. Επίσης, άλλα είδη μεταλλάξεων μπορούν να παράγουν ε- ντελώς νέα γονίδια από μη κωδικές περιοχές του DNA. Τέλος, ένας άλλος τρόπος δημιουργίας νέων γονιδίων είναι ο ανασυνδυασμός μικρών τμημάτων που προέκυψαν από το διπλασιασμό αρκετών διαφορετικών γονιδίων.

25 Θεωρητικό Υπόβαθρο Ροή γονιδίων Στη γενετική των πληθυσμών, ροή γονιδίων ονομάζεται η μεταφορά αλληλόμορφων γονιδίων ή γονιδίων από έναν πληθυσμό σε έναν άλλο. Η μετανάστευση από ή προς έναν πληθυσμό ενδέχεται να είναι υπεύθυνη για μία παρατηρημένη αλλαγή στις συχνότητες των αλληλόμορφων γονιδίων (την αναλογία δηλαδή των μελών του πληθυσμού που φέρουν μια συγκεκριμένη παραλλαγή ενός γονιδίου). Σταθερή ροή γονιδίων μεταξύ δύο πληθυσμών μπορεί επίσης, να οδηγήσει στο συνδυασμό δύο δεξαμενών γονιδίων (gene pools), μειώνοντας την γενετική ποικιλότητα ανάμεσά τους. Γι αυτόν τον λόγο, η ροή γονιδίων δρα ενάντια στην διαφοροποίηση των ειδών, ανασυνδυάζοντας τις δεξαμενές γονιδίων των πληθυσμών και αποκαθιστώντας τις διαφορές της γενετικής ποικιλότητας Φυσική επιλογή Η εξέλιξη μέσω της φυσικής επιλογής είναι η διαδικασία με την οποία οι γενετικές μεταλλάξεις που ευνοούν την αναπαραγωγή καθίστανται πιο κοινές σε διαδοχικές γενιές ενός πληθυσμού. Η φυσική επιλογή είναι φυσικό επακόλουθο των εξής γεγονότων: Υπάρχει κληρονομική ποικιλότητα μεταξύ των πληθυσμών των οργανισμών. Οι οργανισμοί παράγουν περισσότερους απογόνους από όσους θα μπορούσαν να επιβιώσουν. Αυτοί οι απόγονοι παρουσιάζουν μεταξύ τους διαφοροποιήσεις στην ικανότητα επιβίωσης κι αναπαραγωγής. Οι συνθήκες αυτές δημιουργούν ανταγωνισμό μεταξύ των οργανισμών για την επιβίωση και την αναπαραγωγή τους. Επομένως, οργανισμοί με χαρακτηριστικά που προσδίδουν πλεονεκτήματα έναντι αντίπαλων οργανισμών είναι πιο πιθανό να περάσουν τα χαρακτηριστικά αυτά στην επόμενη γενιά σε σχέση με χαρακτηριστικά που δεν παρουσιάζουν τέτοιου είδους πλεονεκτήματα.

26 10 Θεωρητικό Υπόβαθρο Γενετική παρέκκλιση Γενετική παρέκκλιση (genetic drift) είναι η αλλαγή στη συχνότητα των αλληλόμορφων από μία γενιά στην επόμενη εξαιτίας του ότι τα αλληλόμορφα γονίδια υπόκεινται σε σφάλμα δειγματοληψίας. Ως αποτέλεσμα, όταν οι επιλεκτικές δυνάμεις απουσιάζουν ή είναι σχετικά ασθενείς, οι συχνότητες των αλληλόμορφων γονιδίων τείνουν να παρεκκλίνουν προς τα πάνω ή προς τα κάτω με τυχαίο τρόπο. Αυτή η παρέκκλιση σταματάει όταν το αλληλόμορφο τελικά σταθεροποιείται, είτε εκλείποντας από τον πληθυσμό, είτε αντικαθιστώντας ολοκληρωτικά τα άλλα αλληλόμορφα. Επομένως, η γενετική παρέκκλιση είναι πιθανό να εξαλείψει ολοκληρωτικά κάποια αλληλόμορφα από έναν οργανισμό εξαιτίας της τύχης και μόνο. Ακόμα και απουσία επιλεκτικών δυνάμεων, η γενετική παρέκκλιση μπορεί να οδηγήσει στη διαφοροποιήση δύο πληθυσμών που ξεκίνησαν με την ίδια γενετική δομή σε αποκλίνοντες πληθυσμούς με διαφορετικές ομάδες αλληλόμορφων. Εικόνα 2-3: Προσομοίωση της γενετικής παρέκκλισης 20 ασύνδετων αλληλόμορφων σε 10 πληθυσμούς (πάνω) και σε 100 πληθυσμούς (κάτω) 2.2 Εισαγωγή στη φυλογενετική Οι φυλογενετικές σχέσεις μεταξύ των ειδών μας παρέχουν πληροφορίες ως προς την αλληλουχία των εξελικτικών γεγονότων τα οποία έχουν λάβει χώρα έως σήμερα και μας βοηθούν να κατανοήσουμε τόσο τους μηχανισμούς των εξελικτικών

27 Θεωρητικό Υπόβαθρο 11 διαδικασιών όσο και την ιστορία των οργανισμών. Τα στοιχεία ενός οργανισμού, τα οποία χρησιμοποιούνται για την εξαγωγή φυλογενετικών συμπερασμάτων καλούνται χαρακτήρες (characters). Οι χαρακτήρες αυτοί μπορεί να βασίζονται στη μορφολογία, στη φυσιολογία, στην οικολογία, στις διατροφικές ή άλλες συνήθειες, στη βιοχημεία ή στη γενετική. Υπάρχουν τρεις βασικές σχολές στη φυλογενετική: η εξελικτική σχολή, η σχολή των φαινετιστών και η σχολή των κλαδιστών [5]. Εικόνα 2-4: Το φυλογενετικό δέντρο της ζωής Εξελικτική σχολή Στην εξελικτική σχολή το είδος αποτελεί την πραγματική βιολογική οντότητα και είναι εκείνο που εξελίσσεται: το γενετικό του απόθεμα αλλάζει υπό την επίδραση της επιλογής, από τις μεταλλάξεις και τη γενετική παρέκκλιση. Οι διάφορες συστηματικές υποδιαιρέσεις του έχουν μια φυλογενετική αντιστοιχία. Είδη του ί- διου γένους προέρχονται από κοινό προγονικό είδος, είδη της ίδιας οικογένειας προέρχονται από κοινό πρόγονο (γένος), κ.ό.κ. Ο ορισμός που έδωσε ο Αμερικανός παλαιοντολόγος Simpson για το εξελικτικό είδος είναι ότι αποτελεί μια γενεαλογική γραμμή (lineage), δηλαδή, μια ακολουθία προγονικών-απογονικών πληθυσμών που εξελίσσεται ανεξάρτητα από άλλους. Η παρούσα διπλωματική εργασία βασίζεται σε αυτήν την προσέγγιση του φαινομένου.

28 12 Θεωρητικό Υπόβαθρο Σχολή των Φαινετιστών Το 1950 δημιουργήθηκε η συστηματική σχολή των φαινετιστών (phenetics) ή της αριθμητικής ταξινομικής. Η αρχή για την κατάταξη των οργανισμών σύμφωνα με την σχολή αυτή συνοψίζεται στην συνολική ομοιότητα τους, και περιλαμβάνει όλους τους πιθανούς χαρακτήρες, ενώ ο υπολογισμός της μέσης ομοιότητας μεταξύ όλων των χαρακτήρων θεωρείται ότι είναι εξίσου χρήσιμος. Σε μερικές περιπτώσεις η κατάταξη των οργανισμών με βάση τη μορφολογική ομοιότητά τους μπορεί επίσης να αντανακλά τη φυλογένεση των ταξινομικών μονάδων (taxa), επειδή εκείνα τα οποία είναι περισσότερο όμοια μεταξύ τους έχουν μεγάλη πιθανότητα να προέρχονται από έναν κοινό πρόγονο. Σε άλλες περιπτώσεις αυτό δεν ισχύει λόγω εξελικτικής σύγκλισης Η σχολή των κλαδιστών Το 1970 δημιουργήθηκε μια άλλη συστηματική σχολή, αυτή των κλαδιστών. Σύμφωνα με αυτήν τη σχολή, η συστηματική πρέπει να εκφράζεται με σχέσεις διακλάδωσης μεταξύ των ειδών παραβλέποντας το βαθμό ομοιότητας ή διαφοράς τους. Η κλαδιστική σχολή υποστηρίζει ότι σε μια ταξινόμηση κάθε μία ταξινομική μονάδα θα πρέπει να είναι απόλυτα μονοφυλετική. Η μονοφυλετική ταξινομική μονάδα αναφέρεται σε οποιαδήποτε ομάδα οργανισμών που περιλαμβάνει τον πιο πρόσφατο κοινό πρόγονο όλων των εν λόγω οργανισμών και όλους τους απογόνους εκείνου του κοινού προγόνου. 2.3 Υπολογιστική φυλογενετική Υπολογιστική φυλογενετική (computational plylogenetics) ονομάζεται η ε- φαρμογή υπολογιστικών αλγορίθμων, μεθόδων και προγραμμάτων στη φυλογενετική ανάλυση. Τελικός στόχος είναι η κατασκευή του φυλογενετικού δέντρου που αντιπροσωπεύει μια υπόθεση για την εξελικτική ιστορία ενός συνόλου γονι-

29 Θεωρητικό Υπόβαθρο 13 δίων, ειδών ή μονοφυλετικών ταξινομικών μονάδων. Η παραδοσιακή φυλογενετική βασίζεται σε μορφολογικά δεδομένα που προκύπτουν από τις μετρήσεις και ποσοτικοποιήσεις φαινοτυπικών ιδιοτήτων αντιπροσωπευτικών οργανισμών, ενώ ο πιο πρόσφατος κλάδος της μοριακής φυλογενετικής χρησιμοποιεί νουκλεοτιδικές ακολουθίες γονιδίων ή ακολουθίες αμινοξέων πρωτεϊνών ως τη βάση για την ταξινόμηση. Πολλές μέθοδοι της μοριακής φυλογενετικής χρησιμοποιούν σε μεγάλο βαθμό την ευθυγράμμιση (ή αλλιώς συστοίχιση) ακολουθιών στην κατασκευή των φυλογενετικών δέντρων, τα οποία χρησιμοποιούνται για την ταξινόμηση των εξελικτικών σχέσεων μεταξύ ομόλογων γονιδίων που εμφανίζονται στα γονιδιώματα διαφορετικών ειδών. Τα φυλογενετικά δέντρα που κατσκευάζονται από υπολογιστικές μεθόδους δεν είναι πάντα απόλυτα ακριβή. Η κατασκευή ενός φυλογενετικού δέντρου απαιτεί τη μέτρηση της ομολογίας μεταξύ των χαρακτηριστικών που μοιράζονται οι υπό εξέταση ταξινομικές ομάδες. Σε μορφολογικές μελέτες, η μέτρηση της ομολογίας απαιτεί αποφάσεις για το ποια φυσικά χαρακτηριστικά θα μετρηθούν και πώς θα χρησιμοποιηθούν αυτά για την κωδικοποίηση διακριτών καταστάσεων που αντιστοιχούν στις ταξινομικές ομάδες. Στις μοριακές μελέτες, το πρωταρχικό πρόβλημα είναι να γίνει η πολλαπλή ευθυγράμμιση ακολουθιών (multiple sequence alignment-msa) μεταξύ των γονιδίων ή των ακολουθιών αμινοξέων που μας ενδιαφέρουν Ομολογία κι αναλογία Η ομολογία (homology) είναι θεμελιώδης έννοια τόσο στη συγκριτική όσο και την εξελικτική βιολογία. Οι βιολογικές συγκρίσεις θα πρέπει να αντιπαραθέτουν οντότητες που είναι διαφορετικές εκδοχές του ίδιου πράγματος. Ακριβώς αυτή την έννοια της «διαφορετικής εκδοχής του ίδιου πράγματος» προσπαθεί να καλύψει ο όρος ομολογία. Με βάση τον κλασικό φυλογενετικό ορισμό, η ομολογία σημαίνει την καταγωγή από ισοδύναμο χαρακτηριστικό κοινού προγόνου. Για παράδειγμα, οι σπόνδυλοι των ποντικών και των τελεόστεων ιχθύων είναι ομόλογοι, επειδή και οι δύο δομές προήλθαν από τους σπονδύλους του κοινού τους προγόνου περισσότερα από 400 εκατομμύρια χρόνια πριν.

30 14 Θεωρητικό Υπόβαθρο Η ομολογία είναι το αντίθετο της αναλογίας (analogy), που περιγράφει τη σχέση ανάμεσα σε χαρακτηριστικά που είναι παρόμοια εξαιτίας συγκλίνουσας ή παράλληλης εξέλιξης και όχι εξαιτίας καταγωγής από κοινό πρόγονο. Για παράδειγμα, τα φτερά των πουλιών και των νυχτερίδων είναι ανάλογα χαρακτηριστικά, γιατί ο κοινός τους πρόγονος δεν είχε φτερά. Με βάση τα παραπάνω, οι χαρακτήρες σε μία ακολουθία μπορούν να είναι όμοιοι χωρίς να είναι ομόλογοι και μπορούν να είναι ομόλογοι χωρίς να είναι πανομοιότυποι. Το 1987, μια ομάδα βιολόγων τόνισε τη θεμελιώδη διαφορά μεταξύ ομοιότητας και ομολογίας. Εάν δύο πρωτεΐνες X και Υ έχουν πανομοιότυπα αμινοξέα σε 30 από τις 40 ευθυγραμμισμένες περιοχές τους, μπορούμε να πούμε ότι είναι κατά 75% όμοιες, αλλά είναι ανούσιο να ισχυριστούμε ότι είναι κατά 75% ομόλογες. Η ομολογία δεν λέει απολύτως τίποτα για οποιαδήποτε ομοιότητα ως προς τη λειτουργία. Έχει βρεθεί ότι ασυσχέτιστες πρωτεΐνες έχουν συγκλίνει εξελικτικά για να εξυπηρετούν παρόμοιες λειτουργίες (ένα φαινόμενο που ονομάζεται nonorthologous gene displacement), γεγονός που αποδεικνύει ότι η λειτουργική ομοιότητα μπορεί να είναι ανάλογη και όχι ομόλογη. Αντίθετα, φυλογενετικά ο- μόλογες πρωτεΐνες μπορούν να διαφοροποιηθούν και να καταλήξουν με διαφορετική λειτουργικότητα σε διαφορετικούς οργανισμούς. Για τα δεδομένα ακολουθιών υπάρχουν δύο διαφορετικοί τύποι ομολογίας. Ο Fitch όρισε τα ορθόλογα (orthologs) ως γονίδια σε διαφορετικά γονιδιώματα που έχουν προκύψει από το διαχωρισμό ταξινομικών γενεαλογικών σειρών (taxonomic lineages) και τα παράλογα (paralogs) ως τα γονίδια στο ίδιο γονιδίωμα που προέκυψαν από διπλασιασμό γονιδίων. Στην υποθετική περίπτωση της εικόνα 2-5, το γονίδιο Α στο είδος 3 και το γονίδιο Α στο είδος 4 είναι ορθόλογα, ενώ τα γονίδια 4C και 4D είναι παράλογα. Ο διαχωρισμός ορθόλογων και παράλογων γονιδίων είναι βαρύνουσας σημασίας στη συγκριτική γονιδιωματική. Πράγματι, η θεμελιώδης δράση της συγκριτικής γονιδιωματικής είναι να εντοπίσει την παρουσία, τα δομικά χαρακτηριστικά, τη λειτουργία και τη θέση ορθόλογων γονιδίων σε πολλαπλά γονιδιώματα [6].

31 Θεωρητικό Υπόβαθρο 15 Εικόνα 2-5: Φυλογενετικό δέντρο γονιδίων τεσσάρων οργανισμών, όπου απεικονίζονται κόμβοι που προέκυψαν από διπλασιασμό γονιδίων (σημειωμένοι με τελεία) και κόμβοι που προέκυψαν από κλαδογένεση Κωδικοποίηση χαρακτήρων και ορισμός της ομολογίας Μορφολογική ανάλυση Το βασικό πρόβλημα της μορφολογικής φυλογενετικής είναι η κατασκευή ενός πίνακα που αναπαριστά μια αντιστοίχιση κάθε ταξινομικής μονάδας σε αντιπροσωπευτικές μετρήσεις κάθε φαινοτυπικού χαρακτηριστικού που χρησιμοποιείται ως χαρακτηριστικό ταξινόμησης. Οι τύποι των φαινοτυπικών δεδομένων που χρησιμοποιούνται για την κατασκευή του πίνακα εξαρτώνται από τις ταξινομικές μονάδες που συγκρίνονται. Για σύγκριση ξεχωριστών ειδών, μπορεί να περιλαμβάνονται μετρήσεις του μέσου μεγέθους σώματος, μηκών ή μεγεθών συγκεκριμένων οστών ή άλλα φυσικά χαρακτηριστικά. Φυσικά, καθώς δεν είναι δυνατόν κάθε φαινοτυπικό χαρακτηριστικό να μετρηθεί και να κωδικοποιηθεί κατάλληλα για τη φυλογενετική ανάλυση, η επιλογή των χαρακτηριστικών που θα μετρηθούν συνιστά ένα θεμελιώδες πρόβλημα αυτής της μεθόδου. Η απόφαση για το ποια χαρακτηριστικά θα χρησιμοποιηθούν για την κατασκευή του πίνακα απαιτεί μια υπόθεση για το ποια χαρακτηριστικά είναι σχετικά από εξελικτικής άποψης. Ορισμένες φαινοτυπικές ταξινομήσεις, ειδικά εκείνες που χρησιμοποιούνται στην ανάλυση μακρινών εξελικτικά ταξινομικών ομάδων, είναι διακριτές κι αξιόπιστες. Για παράδειγμα, η ταξινόμηση οργανισμών με βάση το αν έχουν ή όχι ουρά είναι σαφής. Ωστόσο, η πιο κατάλληλη αναπαράσταση φαινοτυπικών χαρακτηριστικών που αντιστοιχούν σε συνεχείς μεταβλητές συνιστά σημαντικό πρόβλημα χωρίς γενική λύση. Μια συχνά χρησιμοποιούμενη μέθοδος είναι απλά ο

32 16 Θεωρητικό Υπόβαθρο διαχωρισμός των μετρήσεων σε κλάσεις, επιτυγχάνοντας με αυτόν τον τρόπο μια διακριτοποίηση. Αυτή η μέθοδος παρέχει ένα εύκολο τρόπο διαχείρισης του συνόλου δεδομένων, αλλά παρουσιάζει σημαντική απώλεια πληροφορίας σε σχέση με μεθόδους που χρησιμοποιούν μια συνεχή κατανομή μετρήσεων Μοριακή ανάλυση Το πρόβλημα της κωδικοποίησης χαρακτήρων είναι αρκετά διαφορετικό στις μοριακές μελέτες, καθώς οι χαρακτήρες σε δεδομένα βιολογικών ακολουθιών είναι διακριτά ορισμένοι: διακριτά νουκλεοτίδια σε ακολουθίες DNA και RNA και διακριτά αμινοξέα σε πρωτεϊνικές ακολουθίες. Ωστόσο ο ορισμός της ομολογίας μπορεί να παρουσιάζει προκλήσεις εξαιτίας των δυσκολιών της πολλαπλής ευθυγράμμισης ακολουθιών. Για μια δεδομένη MSA με κενά, μπορούν να κατασκευαστούν πολλά φυλογενετικά δέντρα με ρίζα, τα οποία ποικίλουν ως προς την ερμηνεία για το ποιες αλλαγές είναι «μεταλλάξεις» απέναντι σε αρχέγονους χαρακτήρες και ποιες είναι μεταλλάξεις εισαγωγής ή διαγραφής. Από εδώ και στο εξής η μελέτη μας εστιάζει στις υπολογιστικές μεθόδους μοριακής ανάλυσης, καθώς η μεθοδολογία που θα αναπτύξουμε στη συνέχεια βασίζεται σε συγκρίσεις μοριακών δεδομένων. Παρακάτω παρουσιάζονται τα βήματα της μεθόδου κατασκευής φυλογενετικών δέντρων με βάση μοριακές αναλύσεις Γενικός αλγόριθμος κατασκευής φυλογενετικών δέντρων Πρώτα, επιλέγονται οι σειρές που θα αναλυθούν. Θεωρητικά, μπορούν να χρησιμοποιηθούν είτε ακολουθίες νουκλεοτιδίων είτε ακολουθίες αμινοξέων, στην πράξη όμως, επιλέγονται πιο συχνά οι ακολουθίες αμινοξέων, καθώς η σηματοθορυβική τους σχέση είναι πιο κατάλληλη για την ανάλυση οικογενειών γονιδίων που διαφοροποιήθηκαν εκατοντάδες εκατομμύρια χρόνια πριν. Μέλη μιας δεδομένης οικογένειας γονιδίων, μπορούν να βρεθούν με τη χρήση αναζητήσεων BLAST. Για μεγάλες και καλά μελετημένες οικογένειες γονιδίων, υπάρχουν συνήθως εκατοντάδες ακολουθίες διαθέσιμες, οπότε η χρήση όλων θα ήταν ιδιαίτερα απαιτητική σε χρόνο και υπολογιστική ισχύ. Σε αυτές τις περιπτώσεις είναι απαραίτητο να επιλεγούν μόνο ορισμένες από τις πολλές ομόλογες σειρές και η

33 Θεωρητικό Υπόβαθρο 17 επιλογή πρέπει να γίνει με τέτοιον τρόπο, ώστε να εγγυηθεί ευρεία ταξινομική δειγματοληψία. Στη συνέχεια, οι ακολουθίες θα πρέπει να ευθυγραμμιστούν για να δώσουν έναν πίνακα δεδομένων (Εικόνα 2-6). Υπάρχουν πολυάριθμες τεχνικές και προγράμματα για την ευθυγράμμιση ακολουθιών, με πιο θεωρητικά αξιόπιστα εκείνα που πραγματοποιούν πολλαπλές ευθυγραμμίσεις σε ένα φυλογενετικό πλαίσιο εξέτασης, όπως αυτό του Clustal ή η μέθοδος parsimony-based TreeAlign ή η μέθοδος Malign. Πολλαπλή ευθυγράμμιση ακολουθιών (Multiple sequence alignment-msa) ονομάζεται η διαδικασία προσθήκης κενών σε έναν πίνακα δεδομένων, με τέτοιον τρόπο ώστε τα νουκλεοτίδια (ή τα αμινοξέα) σε μία στήλη του πίνακα να είναι μεταξύ τους συσχετισμένα λόγω καταγωγής από κοινό πρόγονο (να σημειωθεί ότι το κενό σε μία ακολουθία δείχνει ότι στη θέση αυτή έχει γίνει διαγραφή σε μια ακολουθία ή έχει γίνει εισαγωγή βάσης/αμινοξέος σε μία άλλη). Εικόνα 2-6: Οι πρώτες 90 θέσεις μιας πρωτεϊνικής πολλαπλής ευθυγράμμισης με τις εκδοχές της πρωτεΐνης PO (L1OE) σε αρκετούς οργανισμούς όπως προέκυψε από ClustalX Όλες οι μέθοδοι ευθυγράμμισης θα πρέπει να χρησιμοποιούνται με προσοχή στην ευαισθησία των ευθυγραμμίσεων. Οι ομάδες παράλογων γονιδίων σε μια οικογένεια συχνά διαφοροποιούνται πολύ η μία από την άλλη, οπότε η ευθυγράμμιση λιγότερο συντηρημένων περιοχών ποικίλει με τις παραμέτρους. Μια τεχνική προκειμένου να αποφύγουμε την αυθαίρετη επιλογή μίας εκ των πολλών

34 18 Θεωρητικό Υπόβαθρο εύλογων ευθυγραμμίσεων είναι να αφαιρέσουμε τις περιοχές των οποίων οι ευθυγραμμίσεις είναι αμφιλεγόμενες ( cull procedure). Όμως αυτές οι περιοχές συχνά περιέχουν χρήσιμη πληροφορία από φυλογενετική σκοπιά, οπότε η παράλειψή τους ενδέχεται να μειώσει την αναλυτικότητα της φυλογένειας. Για την αποφυγή αυτού του προβλήματος, χρησιμοποιείται μια τεχνική ( elision procedure) που δίνει υψηλότερα βάρη σε περιοχές όπου η ευθυγράμμιση είναι αξιόπιστη, χωρίς να απορρίπτει όμως και την πληροφορία που περιέχεται στις περιοχές όπου οι ευθυγράμμιση είναι αμφιλεγόμενη. Πέρα από τα δεδομένα μας, για τη φυλογενετική ανάλυση, χρειάζεται να επιλέξουμε ένα μοντέλο για την εξέλιξη των ακολουθιών (ακόμα κι αν αυτό σημαίνει ότι θα επιλέξουμε μια οικογένεια μοντέλων και θα αφήσουμε κάποιο πρόγραμμα να προσδιορίσει τις παραμέτρους αυτών των μοντέλων). Ένα μοντέλο αυξημένης πολυπλοκότητας από τη μία πλευρά ταιριάζει καλύτερα στα δεδομένα, αλλά από την άλλη, αυξάνει την διακύμανση των εκτιμώμενων παραμέτρων. Υπάρχουν στρατηγικές για την επιλογή μοντέλου που επιχειρούν να βρουν το κατάλληλο επίπεδο πολυπλοκότητας στη βάση των διαθέσιμων δεδομένων. Τέλος, επιλέγουμε τη μέθοδο εκτίμησης φυλογένειας που θα μας δώσει βάσει κριτηρίων βελτιστοποίησης το φυλογενετικό δέντρο. Η συνολική διαδικασία της φυλογενετικής συμπερασματολογίας απεικονίζεται στο διάγραμμα ροής της Εικόνας 2-7 [9].

35 Θεωρητικό Υπόβαθρο 19 Εικόνα 2-7: Διάγραμμα ροής για τη διαδικασία της φυλογενετικής συμπερασματολογίας 2.4 Ανασκόπηση υπολογιστικών φυλογενετικών μεθόδων Μέθοδοι κατασκευής δέντρων Υπάρχει ένας μεγάλος αριθμός μεθόδων για την κατασκευή φυλογενετικών δέντρων, οι οποίες βασίζονται σε μοριακά δεδομένα. Αυτές οι μέθοδοι μπορούν να καταταχθούν σε δύο κατηγορίες:

36 20 Θεωρητικό Υπόβαθρο α) μέθοδοι βάσει των γενετικών αποστάσεων Στην κατηγορία αυτή υπολογίζεται η γενετική απόσταση για όλα τα ζεύγη των υπό εξέταση ταξινομικών μονάδων και με τη βοήθεια αλγορίθμων, οι οποίοι βασίζονται στις σχέσεις των τιμών των γενετικών αυτών αποστάσεων, κατασκευάζεται το αντίστοιχο φυλογενετικό δέντρο. Στην κατηγορία αυτή περιλαμβάνονται οι μέθοδοι UPGMA, Fitch & Margoliash s και Neighbor- Joining. β) μέθοδοι βάσει διακριτών χαρακτήρων Στην κατηγορία αυτή χρησιμοποιούνται δεδομένα τα οποία περιλαμβάνουν διαφορετικές καταστάσεις χαρακτήρων, όπως είναι οι νουκλεοτιδικές καταστάσεις στις αλληλουχίες του DNA. Το φυλογενετικό δέντρο προκύπτει από την εξέταση των εξελικτικών σχέσεων των αλληλουχιών του DNA για κάθε νουκλεοτιδική θέση. Στην κατηγορία αυτή περιλαμβάνονται οι μέθοδοι Maximum-Parsimony, Maximum-Likelihood και η Bayesian ανάλυση. Εικόνα 2-8: Κατηγοριοποίηση των μεθόδων κατασκευής φυλογενετικών δέντρων με βάση μοριακά δεδομένα Μέθοδοι βάσει των γενετικών αποστάσεων Οι μέθοδοι βάσει γενετικών αποστάσεων ταξινομούν τα γονίδια ή τις πρωτεΐνες με μόνο κριτήριο την μετρική που εκφράζει την ανά ζεύγη ομοιότητα (pairwise similarity) των ακολουθιών. Η μετρική αυτή αντιπροσωπεύει το ποσοστό των νουκλεοτιδίων ή αμινοξέων που είναι όμοια για δύο ευθυγραμμισμένες ακολουθίες. Έ- πειτα, τα δεντρογράμματα δημιουργούνται υποθέτοντας ότι τα γονίδια που εμφανίζουν μεγαλύτερη ομοιότητα είχαν έναν κοινό πρόγονο πιο πρόσφατα από ό,τι εκείνα που εμφανίζουν μικρότερη ομοιότητα.

37 Θεωρητικό Υπόβαθρο 21 Τεχνικές βάσει γενετικών αποστάσεων, όπως οι UPGMA, Fitch-Margoliash s, neighbor-joining, είναι κυρίαρχες σήμερα στη φυλογενετική μελέτη για την ταξινόμηση σε οικογένειες γονιδίων. Για παράδειγμα, η μέθοδος των γνωστών ομάδων ορθολόγων (clusters of orthologous groups COG) και αρκετές πρόσφατες προτάσεις για την πρόβλεψη της πρωτεϊνικής λειτουργίας και των αντιδράσεων από ακολουθίες ολόκληρου γονιδιώματος, βασίζονται στις μετρικές ανά ζεύγος ομοιότητας που βρίσκονται από αναζητήσεις στο BLAST (Basic Local Alignment Search Tool; National Center for Biotechnology Information, Bethesda, MD) ή άλλες παρόμοιες διαγονιδιωματικές συγκρίσεις. UPGMA (Unweighted Pair Group Method with Arithmetic mean) Η μέθοδος αυτή (Sneth & Sokal 1973) αρχικά προτάθηκε για ταξινομήσεις με βάση μορφολογικά δεδομένα, αλλά αργότερα χρησιμοποιήθηκε σε μοριακά δεδομένα χωρίς να μειωθεί η αξία της. Βασική αρχή για την κατασκευή δέντρων αποτελεί η προϋπόθεση σταθερού ρυθμού εξέλιξης μεταξύ όλων των κλάδων του δέντρου, έτσι ώστε να υπάρχει μια σχεδόν γραμμική σχέση μεταξύ των υπολογιζόμενων γενετικών αποστάσεων και των χρόνων διαχωρισμού (Nei 1975). Προσομοιώσεις αλληλουχιών έχουν δείξει ότι όταν η έννοια του μοριακού ρολογιού 1 ισχύει και όταν οι γενετικές αποστάσεις είναι μεγάλες για όλα τα ζεύγη των OTU (Operational Taxonomic Unit: λειτουργική ταξινομική μονάδα), τότε το δέντρο το οποίο προκύπτει, έχει μεγάλη πιθανότητα να ανταποκρίνεται στο πραγματικό (Tatenoet al. 1982, Σούρδης & Kριμπάς 1987). Εάν η μέθοδος αυτή ε- φαρμοστεί με δεδομένα γενετικών αποστάσεων, όπως αυτά προκύπτουν από τη μελέτη πολλών γονιδίων με μεγάλο αριθμό νουκλεοτιδίων, τότε το φυλογενετικό δέντρο που προσδιορίζεται αναμένεται να προσεγγίζει σε ικανοποιητικό βαθμό το πραγματικό. Ωστόσο, πολλές ερευνητικές μελέτες περιλαμβάνουν σχετικά μικρές αλληλουχίες DNA και γι αυτό το λόγο, τα παραγόμενα φυλογενετικά δέντρα πρέπει να αντιμετωπίζονται με κάποια επιφύλαξη ως προς την ορθότητά τους. 1 Μοριακό ρολόι (molecular clock hypothesis: MCH) ονομάζεται μία μέθοδος χρονολόγησης που χρησιμοποιείται ως επί το πλείστον στη μοριακή εξέλιξη, η οποία βάσει των απολιθωμάτων και των ρυθμών αλλαγής των μορίων, μπορεί να υπολογίσει στη γεωλογική χρονολογική κλίμακα, πότε δύο είδη μίας βιολογικής ομάδας χωρίστηκαν από την κοινή εξελικτική τους πορεία.

38 22 Θεωρητικό Υπόβαθρο Ο αλγόριθμος ο οποίος χρησιμοποιείται από τη μέθοδο αυτή οδηγεί σε απλούς μαθηματικούς υπολογισμούς και καταλήγει πάντα σε ένα συγκεκριμένο φυλογενετικό δέντρο με ρίζα. Για την κατασκευή του φυλογενετικού δέντρου πρώτα γίνεται ο υπολογισμός των γενετικών αποστάσεων για όλα τα ζεύγη των εξεταζόμενων OTU και εν συνεχεία, οι τιμές αυτές τοποθετούνται σε μια μήτρα. Από το σύνολο των αποστάσεων της μήτρας αρχικά επιλέγεται το ζεύγος των OTU, τα οποία έχουν τη μικρότερη τιμή. Τα δύο αυτά OTU συγκροτούν ένα καινούργιο OTU, το οποίο αναφέρεται ως σύνθετο και αποτελεί την πρώτη ομάδα του δέντρου. Το σύνθετο αυτό OTU σε συνδυασμό με τα υπόλοιπα OTU, συνθέτουν μια καινούργια μήτρα, από την οποία επιλέγεται και πάλι το ζεύγος εκείνο με τη μικρότερη απόσταση και η διαδικασία αυτή συνεχίζεται έως το τέλος. Ο υπολογισμός της απόστασης ενός απλού και ενός σύνθετου OTU γίνεται από το μέσο όρο των αποστάσεων μεταξύ του απλού OTU και των απλών OTU από τα οποία αποτελείται το σύνθετο. Fitch and Margoliash s Η μέθοδος αυτή (Fitch and Margoliash s 1967) χρησιμοποιείται αντί της μεθόδου UPGMA στις περιπτώσεις κατά τις οποίες η υπόθεση του μοριακού ρολογιού δεν ισχύει. Ο αλγόριθμος της μεθόδου αυτής λαμβάνει υπόψη την πιθανότητα ότι το δέντρο το οποίο προκύπτει δεν είναι αληθινό και προτείνει ότι άλλα δέντρα πρέπει να συγκριθούν με αυτό ως προς το μέτρο της ομοιότητας. Ως καλύτερο δέντρο επιλέγεται εκείνο το οποίο έχει τη μικρότερη τυπική απόκλιση. Το παραγόμενο φυλογενετικό δέντρο είναι χωρίς ρίζα, αλλά με τη βοήθεια μιας παραομάδας (outgroup) μπορεί να διαμορφωθεί με ρίζα. Neighbor Joining/ Minimum Evolution Η μέθοδος αυτή (Saitou & Nei 1987) αποτελεί μια απλοποιημένη έκδοση της μεθόδου Μinimum Εvolution (ME, Saitou & Ismanishi 1989, Rzhetsky & Nei 1992). Για την εύρεση του φυλογενετικού δέντρου, σύμφωνα με τη μέθοδο ME, χρησιμοποιούνται εκτιμήσεις γενετικών αποστάσεων, οι οποίες έχουν διορθωθεί ως προς την περίπτωση πολλαπλών υποκαταστάσεων ανά θέση, και το καλύτερο δέντρο επιλέγεται με βάση τη μικρότερη τιμή του αθροίσματος όλων των κλάδων κάθε πιθανού δέντρου. Όταν όμως ο αριθμός των OTU είναι σχετικά μεγάλος,

39 Θεωρητικό Υπόβαθρο 23 τότε και ο αντίστοιχος αριθμός των πιθανών δέντρων χωρίς ρίζα αυξάνει σημαντικά. Αυτό έχει σαν αποτέλεσμα ο συνολικός χρόνος, ο οποίος απαιτείται για την εύρεση του αθροίσματος των κλάδων κάθε δέντρου, να είναι τελικά πάρα πολύ μεγάλος. Η μέθοδος Neighbor- Joining (NJ) χρησιμοποιεί έναν αλγόριθμο βάσει του οποίου ο αριθμός των πιθανών τοπολογιών μειώνεται σημαντικά, αποκλείοντας όλους τους απίθανους συνδυασμούς. Από τη μέθοδο αυτή προκύπτει τελικά ένα φυλογενετικό δέντρο χωρίς ρίζα το οποίο μπορεί να διαμορφωθεί με ρίζα, εάν κάνουμε χρήση μιας παραομάδας (outgroup). Αξιολόγηση μεθόδων βάσει γενετικών αποστάσεων Οι μέθοδοι βάσει γενετικών αποστάσεων είναι αποδοτικές ως προς τον υπολογιστικό χρόνο που απαιτούν. Οι περισσότερες εξ αυτών είναι αλγόριθμοι που κατασκευάζουν ένα μόνο δέντρο αντί να αξιολογούν ένα σύνολο πιθανών τοπολογιών με τη χρήση ενός κριτηρίου βελτιστοποίησης. Το γεγονός αυτό συνιστά σημαντικό πλεονέκτημα στις περιπτώσεις που θα πρέπει να μελετηθούν μεγάλα σύνολα γονιδίων, πράγμα σύνηθες στη συγκριτική γονιδιωματική. Ωστόσο, υπάρχουν συνθήκες που εμφανίζονται συχνά στην εξέλιξη των οικογενειών γονιδίων, υπό τις οποίες, οι προσεγγίσεις αυτές αποτυγχάνουν να ανακτήσουν τις εξελικτικές σχέσεις. Σύμφωνα με το μοντέλο του Ohno για το διπλασιασμό των γονιδίων, τα δύο νέα γονίδια διαφοροποιούνται ταχύτατα μετά τον διπλασιασμό καθώς «χαλαρώνουν» οι πιέσεις της φυσικής επιλογής. Αφού αποκτήσουν όμως, νέες λειτουργίες, οι εξελικτικοί ρυθμοί μειώνονται και πάλι, καθώς επιβάλλονται νέοι περιορισμοί φυσικής επιλογής. Ένα άλλο μοντέλο (υπόθεση της υπο-ενεργοποίησης: the subfunctionalization hypothesis) υποστηρίζει ότι μετά τον διπλασιασμό ενός γονιδίου με πολλαπλές λειτουργίες, τα δύο παράλογα που προκύπτουν διαφοροποιούνται ως προς την ακολουθία τους μέχρι που οι λειτουργικότητες του προγονικού γονιδίου κατανέμονται σταδιακά στους δύο απογόνους, οπότε οι περιορισμοί της φυσικής επιλογής μεταβάλλουν περαιτέρω τις δύο ακολουθίες. Στις περιπτώσεις αυτών των διεργασιών οι ακόλουθες προσεγγίσεις θα αποδειχθούν αναξιόπιστες για την ανακατασκευή της οικογένειας γονιδίων: Οι μέθοδοι που βασίζονται στο UPGMA και το BLAST υποθέτουν ότι οι ρυθμοί διαφοροποίησης είναι ίδιοι για όλες τις γενεαλογικές γραμμές, πράγμα που συχνά δεν ισχύει στην εξέλιξη των οικογενειών γονιδίων. Όταν

40 24 Θεωρητικό Υπόβαθρο λοιπόν, οι ρυθμοί διαφοροποίησης ποικίλουν, οι μέθοδοι αυτοί θα δώσουν ανακριβή αποτελέσματα. Οι μέθοδοι που βασίζονται στην ανά ζεύγη ομοιότητα θα κατατάξουν λανθασμένα στην ίδια ομάδα αργά εξελισσόμενες ακολουθίες, απλά και μόνο επειδή έχουν κάποιους κοινούς προγονικούς χαρακτήρες που μειώνουν την ανά ζεύγος απόστασή τους. Οι τεχνικές neighbor-joining, minimum-evolution και Fitch-Margoliash s ανακτούν σωστά τις εξελικτικές σχέσεις, μόνο όταν οι ανά ζεύγος αποστάσεις ανάμεσα στα γονίδια είναι προσθετικές: δηλαδή, όταν η απόσταση ανάμεσα σε οποιαδήποτε δύο γονίδια είναι ίση με το άθροισμα των αποστάσεων στους κλάδους που τα συνδέουν με τον κοινό πρόγονο. Αυτή η υπόθεση όμως, συχνά παραβιάζεται όταν οι ακολουθίες υπόκεινται σε πολλαπλές αλλαγές στην ίδια περιοχή νουκλεοτιδίων ή αμινοξέων. Όλες οι μέθοδοι βάσει γενετικών αποστάσεων προϋποθέτουν τον ακριβή υπολογισμό των αποστάσεων ανάμεσα στις ακολουθίες, μια απαίτηση που δύσκολα ι- κανοποιείται όταν οι διαφορές ανάμεσα στις ακολουθίες είναι πολύ μεγάλες ή όταν οι ακολουθίες είναι μικρές σε μήκος ή όταν οι ρυθμοί διαφοροποίησης ποικίλουν για διαφορετικές περιοχές εντός της ακολουθίας Μέθοδοι βάσει διακριτών χαρακτήρων Maximum Parsimony Η Maximum Parsimony μέθοδος, που εμφανίζεται με πολλές παραλλαγές, αρχικά αναπτύχθηκε για τη χρησιμοποίηση μορφολογικών δεδομένων (Camin and Sokal 1965, Cavali-Sforza 1964, Sober 1988, Maddison &Maddison 1992, Swofford 1993). Μια παραλλαγή της μεθόδου αυτής (Fitch 1971) περιλαμβάνει τη χρήση νουκλεοτιδικών αλληλουχιών DNA για τον προσδιορισμό των φυλογενετικών σχέσεων. Η μέθοδος αυτή δεν οδηγεί πάντα σε μια καλή εκτίμηση του πραγματικού φυλογενετικού δέντρου, ιδιαίτερα στις περιπτώσεις κατά τις οποίες οι εξελικτικοί ρυθμοί μεταβάλλονται σημαντικά εντός των εξελικτικών κλάδων (Felsenstein 1978). Ωστόσο φαίνεται να αποτελεί μια καλή μέθοδο όταν (Sourdis & Νei 1988, Nei 1991) :

41 Θεωρητικό Υπόβαθρο 25 α) η απόκλιση των αλληλουχιών είναι μικρή, β) ο ρυθμός των νουκλεοτιδικών υποκαταστάσεων παρουσιάζει αμελητέα διακύμανση οπότε μπορεί να θεωρηθεί σταθερός, γ) ο αριθμός των νουκλεοτιδίων είναι πολύ μεγάλος, δ) ο αριθμός των εξεταζόμενων ειδών είναι μικρός και ε) δεν παρατηρούνται ακραίες τιμές στο περιεχόμενο των αλληλουχιών σε G+C καθώς και στο λόγο μεταπτώσεων/μεταστροφών. Από το σύνολο των μεταβλητών θέσεων στο σύνολο των αλληλουχιών DNA μελετώνται μόνο εκείνες οι θέσεις οι οποίες παρουσιάζουν τουλάχιστον δύο διαφορετικές νουκλεοτιδικές καταστάσεις, εκ των οποίων κάθε μία εμφανίζεται τουλάχιστον σε δύο αλληλουχίες. Το φυλογενετικό δέντρο επιλέγεται από το πλήθος όλων των δυνατών συνδυασμών που προκύπτουν, σύμφωνα με τον ελάχιστο υποτιθέμενο αριθμό αλλαγών βάσεων, οι οποίες θα απαιτούνταν για τη μετάβαση μιας νουκλεοτιδικής αλληλουχίας σε μία άλλη. Ο αριθμός των καταλληλότερων δέντρων που επιλέγονται τελικά, μπορεί να είναι μεγαλύτερος του ενός, ενώ η διάταξή τους αφορά δέντρα χωρίς ρίζα. Maximum Likelihood Η μέγιστη πιθανοφάνεια (Maximum Likelihood) είναι μια τρίτη μέθοδος για την εξαγωγή φυλογενετικών συμπερασμάτων, τα πλεονεκτήματα και τα μειονεκτήματα της οποίας παραμένουν αμφιλεγόμενα. Αυτή η τεχνική επιλέγει το δέντρο που δεδομένου ενός σαφέστατου μοντέλου της εξέλιξης ακολουθιών, είναι πιο πιθανό να έχει παραγάγει τα ακολουθιακά δεδομένα προς παρατήρηση. Συγκεκριμένα τα βήματα για την κατασκευή του δέντρου είναι τα ακόλουθα: Πολλαπλή ευθυγράμμιση των ακολουθιών Απαρίθμηση όλων των πιθανών τοπολογιών για κάθε διαμέριση των δεδομένων (πχ. για κάθε στήλη) Υπολογισμός της πιθανότητας όλων των πιθανών τοπολογιών για κάθε διαμέριση Συνδυασμός όλων των διαμερίσεων Επιλογή του δέντρου με την υψηλότερη συνολική πιθανότητα για όλες τις διαμερίσεις ως το πιο πιθανό φυλογενετικά

42 26 Θεωρητικό Υπόβαθρο Οι αλγόριθμοι μέγιστης πιθανοφάνειας είναι υπολογιστικά πιο απαιτητικοί α- κόμα και από τις αναλύσεις με βάση την αρχή φειδωλότητας, επομένως είναι λογικό οι λεπτομερείς ευριστικές αναζητήσεις για το πιο πιθανό δέντρο να αποδειχθούν δύσχρηστες πριν να φτάσουν τον αριθμό των ορθόλογων και παράλογων γονιδίων που είναι απαραίτητος για την ανάλυση οικογενειών γονιδίων. Βέβαια, καθώς η υπολογιστική ταχύτητα αυξάνεται είναι πιθανό ο περιορισμός αυτός να ξεπεραστεί. Η αξιοπιστία των μεθόδων μέγιστης πιθανοφάνειας εξαρτάται άμεσα από το πόσο ρεαλιστικό είναι το εξελικτικό μοντέλο που λαμβάνει ως δεδομένο. Τα μοντέλα εξέλιξης για τα αμινοξέα και τα κωδικόνια δεν είναι τόσο καλά αναπτυγμένα και επικυρωμένα όσο τα μοντέλα για την εξέλιξη των μη κωδικών νουκλεοτιδικών α- κουλουθιών και σίγουρα δεν επαρκούν για να εξηγήσουν την εξάρτηση που εμφανίζεται ανάμεσα σε τμήματα μιας πρωτεΐνης ή το γιατί η πιθανότητα αλλαγής από έναν τύπο αμινοξέος σε άλλο, ενδέχεται να διαφέρει από περιοχή σε περιοχή στην ίδια πρωτεΐνη). Συνοψίζοντας μέχρι τώρα, η αξιοπιστία των μεθόδων μέγιστης πιθανοφάνειας για την ανακατασκευή των σχέσεων μεταξύ κωδικών ακολουθιών κυρίως αυτών στις οικογένειες γονιδίων- είναι ακόμα υπό αμφισβήτηση και η κλαδιστική προσέγγιση της Maximum Parsimony παραμένει προς το παρόν η πιο χρήσιμη και πιο στέρεα θεωρητικά θεμελιωμένη μέθοδος για την εξαγωγή φυλογενετικών συμπερασμάτων στις οικογένειες γονιδίων. Ωστόσο, εάν έχει προηγηθεί η χρήση μεθόδων της Maximum Parsimony για την εξαγωγή της φυλογένειας, η στατιστική φύση της μέγιστης πιθανοφάνειας αποτελεί ένα χρήσιμο εργαλείο για τον έλεγχο των εξελικτικών υποθέσεων που έχουν γίνει, όπως για παράδειγμα, οι υποθέσεις που αφορούν τον χρονολογικό προσδιορισμό για τον διπλασιασμό γονιδίων ή τους ρυθμούς διαφοροποίησης των ακολουθιών. Bayesian εξαγωγή συμπεράσματος Η Bayesian εξαγωγή συμπεράσματος είναι μια στατιστική εξαγωγή συμπεράσματος στην οποία τα στοιχεία ή οι παρατηρήσεις χρησιμοποιούνται για την ενημέρωση ή την εκ νέου εξαγωγή συμπεράσματος για την πιθανότητα ότι μια προηγούμενη υπόθεση μπορεί να είναι αληθινή. Το όνομα προέρχεται από την συχνή χρήση του Θεωρήματος του Bayes στην διαδικασία εξαγωγής συμπεράσματος.

43 Θεωρητικό Υπόβαθρο 27 Η Bayesian φυλογενετική ανάλυση χρησιμοποιεί το θεώρημα Bayes, το οποίο συσχετίζει τη μεταγενέστερη πιθανότητα ενός δέντρου στην πιθανότητα των δεδομένων, και την προγενέστερη πιθανότητα του δέντρου και του μοντέλου της εξέλιξης. Αντίθετα από τις μεθόδους Maximum Parsimony και Μεγίστης Πιθανoφάνειας, η Bayesian ανάλυση δεν παράγει ένα μόνο δέντρο ή ένα σύνολο εξίσου βέλτιστων δέντρων. Η Bayesian ανάλυση χρησιμοποιεί την πιθανότητα των δέντρων σε μια προσομοίωση Monte Carlo αλυσίδας Markov (MCMC) για ένα δείγμα δέντρων σε αναλογία με την πιθανότητά τους, έτσι ώστε να παραχθεί ένα αξιόπιστο δείγμα των δέντρων. 2.5 Η παρούσα μελέτη Ολοκληρώνοντας αυτή την σύντομη ανασκόπηση των υπολογιστικών μεθόδων προσδιορισμού φυλογενετικών αποστάσεων και του τρόπου αξιοποίησής τους για την κατασκευή φυλογενετικών δέντρων, είμαστε σε θέση να παρουσιάσουμε την προτεινόμενη μεθοδολογία της παρούσας έρευνας. Όλες οι φυλογενετικές μέθοδοι που εξετάστηκαν χρησιμοποιούν ως εργαλείο την MSA, η οποία όμως προϋποθέτει την ορθή επιλογή των ακολουθιών προς σύγκριση. Ουσιαστικά, οι μέθοδοι αυτές δεδομένων των εξελικτικών αποστάσεων των οργανισμών, αξιολογούν τις εξελικτικές αποστάσεις των ακολουθιών. Όπως αναφέρθηκε στην ενότητα 1.4, η μεθοδολογία που εμείς θα παρουσιάσουμε επιχειρεί ουσιαστικά το αντίστροφο: μια εκτίμηση και μοντελοποίηση των σχέσεων μεταξύ των οργανισμών βάσει της ομολογίας των πρωτεϊνικών ακολουθιών τους.

44 3 Ανάπτυξη μεθοδολογίας 3.1 Συνοπτική παρουσίαση Η μεθοδολογία που αναπτύχθηκε στα πλαίσια της μελέτης μας, παρουσιάζεται συνοπτικά στο διάγραμμα ροής της εικόνας 3-1, ενώ στη συνέχεια, παρουσιάζεται αναλυτικά κάθε βήμα της μεθοδολογίας. Εικόνα 3-1: Διάγραμμα ροής της μεθοδολογίας

45 Ανάπτυξη μεθοδολογίας Βήμα 1: Επιλογή των οργανισμών Για την ανάλυση που θα ακολουθήσουμε επιλέγουμε ένα σύνολο από n οργανισμούς, των οποίων το φυλογενετικό δέντρο είναι γνωστό a priori. Οι φυλογενετικές αποστάσεις μεταξύ των οργανισμών θα πρέπει να ποικίλουν, ώστε το σύνολο των δεδομένων μας να είναι κατάλληλο για την έρευνα που θα διεξάγουμε. Για κάθε οργανισμό, ανακτούμε από μια δημόσια βάση δεδομένων (NCBI, Uni- Prot) τα αναγνωριστικά των πρωτεϊνών του γονιδιώματός του. Επιπλέον, ανακτούμε την αντίστοιχη αλληλουχία αμινοξέων σε μορφή FASTA και τελικώς για κάθε γονιδίωμα δημιουργούμε ένα μόνο αρχείο με τις αλληλουχίες σε μορφή FASTA όλων των πρωτεϊνών του. 3.3 Βήμα 2: Αλγόριθμος BLAST Στη συνέχεια, εφαρμόζεται ο αλγόριθμος BLAST, ώστε να προκύψουν οι ανά ζεύγη συγκρίσεις κάθε πρωτεΐνης του συνόλου δεδομένων με όλες τις υπόλοιπες διαθέσιμες πρωτεΐνες. Η έξοδος του αλγορίθμου είναι ένα ASCII αρχείο που περιέχει όλα τα αποτελέσματα των συγκρίσεων, όπως φαίνεται στην εικόνα 3-2. Εικόνα 3-2: Αρχείο εξόδου BLAST σε μορφή πίνακα (χωρίς ευθυγραμμίσεις)

46 30 Ανάπτυξη μεθοδολογίας Από τα δεδομένα του αρχείου, μας ενδιαφέρουν οι δύο πρώτες στήλες που περιέχουν τα αναγνωριστικά ονόματα των πρωτεϊνών, καθώς και η ενδέκατη στήλη που έχει τις Ε-Values. Η E-Value ορίζεται ως το κατώφλι στατιστικής σημασίας στην ταυτοποίηση ακολουθιών. Ισούται µε τον αριθμό των ακριβών αντιστοιχιών (βάσεων/αμινοξέων ανά ακολουθία) που αναμένουμε να εντοπίσουμε στη δεδομένη βάση λόγω καθαρής τύχης (και όχι βιολογικής σχέσης μεταξύ των ακολουθιών). Υπολογίζεται βάσει του στοχαστικού µμοντέλου που πρότειναν οι Karlin, Altschul (1990) και συγκεκριμένα ως φθίνουσα εκθετική συνάρτηση του score αντιστοιχίας S. Η τιμή της εξαρτάται επίσης από το μήκος της query ακολουθίας, εφόσον σε µία βάση είναι προφανώς πιθανότερο να βρούμε ακριβείς αντιστοιχίες για μικρότερου παρά για μεγαλύτερου μήκους ακολουθίες. Η E-Value υπολογίζεται από τον τύπο: E = KNe λs (1) όπου Κ,λ παραμετρικές μεταβλητές και Ν=length(query)*length(database sequence). Όπως προκύπτει από τον ορισμό της, η Ε λαμβάνει τιμές όχι µόνο ακέραιες αλλά και κλασματικές. Η Ε-value μπορεί επίσης να εκφράζει όχι µόνο αναμενόμενο απόλυτο αριθμό τυχαίων επιτυχιών, αλλά και ποσοστό. Για παράδειγμα, τιμή ίση µε 0.05 σημαίνει ότι η ευθυγράμμιση στην οποία αναφέρεται έχει πιθανότητα 5% να προκύψει τυχαία. Η τιμή της παραμέτρου είναι εξ' ορισμού ίση µε 10, δηλαδή αναμένουμε να βρούμε 10 αντιστοιχίες καθαρά από τύχη, μπορεί όμως να μεταβληθεί, καθορίζοντας την ανταλλαγή ταχύτητας-ευαισθησίας του αλγορίθμου. Για παράδειγμα, εάν θεωρήσουμε E=1, σημαίνει ότι για την συγκεκριμένη βάση δεδομένων, ο α- ναμενόμενος αριθμός αντιστοιχιών που περιμένουμε να βρούμε από καθαρή τύχη είναι μόλις ίσος µε 1. Γενικότερα, όσο πιο μικρή (κοντινότερη στο 0) είναι η τιμή της Ε, τόσο εγκυρότερη είναι η βιολογική σημασία των αποτελεσμάτων που προκύπτουν. Κατά τη διάρκεια της αναζήτησης, τα hits στα οποία αποδίδεται τιμή στατιστικής σημασίας μεγαλύτερη από την τιμή της Ε, δεν εμφανίζονται ως αποτελέσματα [16]. Επομένως, κρατάμε μόνο τα επιθυμητά δεδομένα (1 η, 2 η και 11 η στήλη) σε ένα txt αρχείο. Στο σημείο αυτό να τονίσουμε ότι το αρχείο περιέχει μόνο τα ζεύγη των πρωτεϊνών των οποίων η ευθυγράμμιση ήταν εφικτή με την εφαρμογή του BLAST. Ωστόσο, η μορφή αυτού του αρχείου δεν είναι εύληπτη για περαιτέρω

47 Ανάπτυξη μεθοδολογίας 31 επεξεργασία, οπότε με κατάλληλα scripts, το μετασχηματίζουμε στη μορφή που φαίνεται στην εικόνα 3-3. Εικόνα 3-3: Μορφή πίνακα Μ μεγέθους NxN Ο πίνακας αυτός, που θα ονομάσουμε Μ, έχει μέγεθος ΝxN, όπου N το άθροισμα όλων των πρωτεϊνών όλων των οργανισμών. Κάθε κελί M[i][j]: περιέχει την τιμή e-value του BLAST στην περίπτωση που η ευθυγράμμιση των i, j πρωτεϊνών είναι εφικτή, ή δεν περιέχει καμία τιμή στην περίπτωση που οι i, j πρωτεΐνες δεν είναι δυνατόν να ευθυγραμμιστούν 3.4 Βήμα 3: Επεξεργασία πίνακα δεδομένων Από την εφαρμογή του BLAST, λάβαμε έναν πίνακα NxN, κάθε κελί του οποίου αντιστοιχεί σε ένα ζεύγος πρωτεϊνών και περιλαμβάνει μία τιμή σε μορφή E- Value που αποτελεί την μετρική της ομοιότητας/ομολογίας του ζεύγους. Οι τιμές του πίνακα επομένως, μπορεί να είναι: NaN στην περίπτωση που δεν είναι εφικτή η ευθυγράμμιση του ζεύγους πρωτεϊνών Μια τιμή a ϵ [e -max, e -min ] στην περίπτωση που είναι εφικτή η ευθυγράμμιση των πρωτεϊνών 0 στην περίπτωση που οι δύο πρωτεΐνες ευθυγραμμίζονται πλήρως, δηλαδή πρόκειται ουσιαστικά για την ίδια πρωτεΐνη

48 32 Ανάπτυξη μεθοδολογίας Λογαρίθμιση κι αντιστροφή προσήμου Όπως είδαμε παραπάνω, εξ ορισμού οι E-Values είναι πολύ κοντά στο 0 κι επομένως, είναι δύσκολο να γίνει διάκριση μεταξύ τους και να αξιοποιηθούν αποτελεσματικά από εργαλεία μηχανικής μάθησης. Συνεπώς, προκειμένου να διαχειριστούμε αποκλειστικά αυτές τις τιμές, τις λογαριθμίζουμε και αντιστρέφουμε το πρόσημό τους. Έτσι πλέον, σε αντίθεση με πριν, όσο μεγαλύτερη είναι η τιμή του κελιού, τόσο μεγαλύτερη είναι η ομοιότητα του ζεύγους πρωτεϊνών που αντιστοιχεί στο εν λόγω κελί. Οπότε, οι τιμές του πίνακα είναι: NaN στην περίπτωση που δεν είναι εφικτή η ευθυγράμμιση του ζεύγους πρωτεϊνών Μια τιμή b ϵ [min, max] στην περίπτωση που είναι εφικτή η ευθυγράμμιση των πρωτεϊνών Inf στην περίπτωση που οι δύο πρωτεΐνες ευθυγραμμίζονται πλήρως, δηλαδή πρόκειται ουσιαστικά για την ίδια πρωτεΐνη Προφανώς, η τιμή Inf δεν είναι διαχειρίσιμη, οπότε επιλέγουμε να την αντικαταστήσουμε με μια τιμή max 2 μεγαλύτερη από την τιμή max. Στη συνέχεια, για την περαιτέρω επεξεργασία του πίνακα μπορούμε να εφαρμόσουμε άλλες δύο διαδικασίες: Κανονικοποίηση και Αφαίρεση των NaN τιμών Κανονικοποίηση: Με στόχο την αποθορυβοποίηση, κανονικοποιούμε τα δεδομένα, αφαιρώντας από την τιμή κάθε κελιού τη συνολική μέση τιμή του πίνακα, τη μέση τιμή της γραμμής και τη μέση τιμή της στήλης στην οποία ανήκει. N N N N Μ[k][l] = Μ[k][l] 1 N 2 Μ[i][j] 1 N Μ[i][l] 1 N Μ[k][j] i=1 j=1 i=1 j=1 (2) Αφαίρεση των NaN τιμών: Προκειμένου, οι θέσεις NaN να συμμετέχουν στη διαμόρφωση των στατιστικών χαρακτηριστικών του πίνακα τις αντικαθιστούμε με 1. Έτσι, μετά τη λογαρίθμιση

49 Ανάπτυξη μεθοδολογίας 33 και την αντιστροφή προσήμου, στις θέσεις μη εφικτής ευθυγράμμισης υπάρχει 0. Εφαρμόζοντας τις παραπάνω μεθόδους επεξεργασίας, μπορούμε να διακρίνουμε 4 διαφορετικές μορφές του πίνακα: 1. Πίνακας με NaN τιμές 2. Κανονικοποιημένος πίνακας με NaN τιμές 3. Πίνακας με 1 αντί για NaN 4. Κανονικοποιημένος πίνακας με 1 αντί για NaN 3.5 Βήμα 4: Στατιστικά σύνοψης υποπινάκων Έπειτα τον πίνακα Μ, τον χωρίζουμε σε υποπίνακες με κάθε υποπίνακα Μ k,l να αντιστοιχεί στο ζεύγος οργανισμών k,l. Ο διαχωρισμός αυτός δίνεται παραστατικά για 5 οργανισμούς στην εικόνα 3-4. Τα διαγώνια στοιχεία που αντιστοιχούν στις συγκρίσεις των πρωτεϊνών του ίδιου οργανισμού μεταξύ τους, σημειώνονται με κόκκινο περίγραμμα. Εικόνα 3-4: Διαχωρισμός του πίνακα Μ σε υποπίνακες για την περίπτωση 5 οργανισμών

50 34 Ανάπτυξη μεθοδολογίας Αφού χωρίσαμε τον αρχικό πίνακα σε υποπίνακες, θα διεξάγουμε μια στατιστική ανάλυση των δεδομένων με τη χρήση στατιστικών μέτρων σύνοψης (summary statistics). Για κάθε υποπίνακα M kl δημιουργούμε ένα διάνυσμα με στατιστικά σύνοψης (summary statistics). Στην περιγραφική στατιστική ανάλυση δεδομένων, τα στατιστικά σύνοψης χρησιμοποιούνται για να συνοψίσουν ένα σύνολο παρατηρήσεων με στόχο να αποδώσουν τη μέγιστη δυνατή πληροφορία με τον πιο απλό τρόπο. Η περιγραφή αυτή γίνεται συνήθως με: ένα μέτρο της θέσης ή της κεντρικής τάσης, όπως ο αριθμητικός μέσος ένα μέτρο στατιστικής περιγραφής, όπως η τυπική απόκλιση ένα μέτρο του σχήματος της κατανομής, όπως η ασυμμετρία (skewness) και η κυρτότητα (kurtosis) Συγκεκριμένα, τα στατιστικά μέτρα που επιλέχθηκαν παρουσιάζονται παρακάτω: Αριθμητική μέση τιμή (arithmetic mean) Η μέση τιμή ενός δείγματος x 1, x 2,,x n ισούται με το άθροισμα των τιμών του δείγματος διαιρεμένο με τον πλήθος των τιμών: x = x 1 + x x n n (3) Διάμεσος (median) Δεδομένου ότι το σύνολο των παρατηρήσεων είναι ταξινομημένο σε αύξουσα σειρά, η διάμεσος ισούται με: την τιμή της (n+1)/2 παρατήρησης, εάν το πλήθος των παρατηρήσεων n είναι περιττός αριθμός την τιμή του ημιαθροίσματος των n/2 και (n+1)/2 παρατηρήσεων, εάν το πλήθος των παρατηρήσεων n είναι άρτιος αριθμός Επικρατούσα τιμή (mode) Η επικρατούσα τιμή (mode) είναι η τιμή που εμφανίζεται πιο συχνά στο σύνολο των δεδομένων. Η επικρατούσα τιμή για μια διακριτή κατανομή πιθανότητας είναι η τιμή x στην οποία η συνάρτηση πιθανότητας μάζας λαμβάνει τη μέγιστη τιμή της. Η επικρατούσα τιμή για μια διακριτή κατανομή πιθανότητας είναι η

51 Ανάπτυξη μεθοδολογίας 35 τιμή x στην οποία η συνάρτηση πυκνότητας πιθανότητας έχει τη μέγιστη τιμή. Όπως η στατιστική μέση τιμή και η διάμεσος. Η επικρατούσα τιμή είναι ένας τρόπος να εκφραστεί, με έναν μονάχα αριθμό, σημαντική πληροφορία για μία τυχαία μεταβλητή ή ένα πληθυσμό. Μέγιστη ελάχιστη τιμή (max-min) Πρόκειται φυσικά για τη μέγιστη κι ελάχιστη τιμή του δείγματος. Μέση τιμή μετά την περικοπή των ακραίων τιμών (Mean excluding outliers) Η περικομμένη μέση τιμή είναι η μέση τιμή του συνόλου των παρατηρήσεων μετά την περικοπή των ακραίων μέγιστων και ελάχιστων τιμών. Ενδοτεταρτημοριακή μέση τιμή (Interquartile mean) Η ενδοτεταρτημοριακή μέση τιμή συνιστά περίπτωση περικομμένης μέσης τιμής. Είναι απλά η μέση τιμή μετά την αφαίρεση του χαμηλότερου και υψηλότερου τετάρτου των παρατηρήσεων: 3n/4 x = 2 n x i i=( n 4 )+1 (4) Αρμονική μέση τιμή (harmonic mean) Η αρμονική μέση τιμή είναι χρήσιμη για ένα σύνολο παρατηρήσεων που ορίζεται σε σχέση με μία μονάδα, όπως η ταχύτητα που ορίζεται ως η απόσταση στη μονάδα του χρόνου. n 1 x = n ( 1 ) x i i=1 (5)

52 36 Ανάπτυξη μεθοδολογίας Διακύμανση (Variance) Η διακύμανση μετράει πόσο μακριά εξαπλώνεται ένα σύνολο παρατηρήσεων. Μηδενική διακύμανση σημαίνει ότι όλες οι τιμές είναι ίδιες. Η διακύμανση είναι πάντα μη αρνητική. Μια μικρή τιμή υποδεικνύει ότι οι τιμές των δεδομένων τείνουν να συγκεντρώνονται πολύ κοντά γύρω από τη μέση τιμή, ενώ μια μεγάλη τιμή υποδεικνύει ότι τα δεδομένα εξαπλώνονται σε μια ευρεία περιοχή γύρω από τη μέση τιμή, άρα απέχουν και μεγάλες αποστάσεις μεταξύ τους. Η διακύμανση μιας τυχαίας μεταβλητής X είναι η αναμενόμενη (μέση) τιμή της τετραγωνικής απόκλισης από τη μέση τιμή, μ=ε[χ]: Var(X) = E[(X μ) 2 ] (6) Επίσης, η διακύμανση μπορεί να εκφραστεί σαν την συμμεταβλητότητα (covariance) μιας μεταβλητής με τον εαυτό της: Var(X) = Cov(X, X) (7) Τυπική απόκλιση (Standard deviation) Η τυπική απόκλιση μιας τυχαίας μεταβλητής, ενός στατιστικού δείγματος, ενός συνόλου δεδομένων ή μιας κατανομής πιθανότητας είναι η τετραγωνική ρίζα της διακύμανσης. Αλγεβρικά, είναι πιο απλή στην πράξη, αλλά λιγότερη ισχυρή από τη μετρική της μέσης απόλυτης απόκλισης. Εάν Χ είναι μια τυχαία μεταβλητή με μέση τιμή μ: E[X] = μ, τότε η τυπική απόκλιση δίνεται από τη σχέση: σ = Ε[(Χ μ) 2 ] = Ε[Χ 2 ] + Ε[( 2μΧ)] + Ε[μ 2 ] = Ε[Χ 2 ] 2μΕ[Χ] + μ 2 = Ε[Χ 2 ] 2μ 2 + μ 2 = Ε[Χ 2 ] μ 2 = Ε[Χ 2 ] (Ε[Χ]) 2 (8) (όπου οι παραπάνω σχέσεις προκύπτουν με τη χρήση των ιδιοτήτων της μέσης τιμής).

53 Ανάπτυξη μεθοδολογίας 37 Εύρος (Range) Στην αριθμητική, ως εύρος ενός συνόλου δεδομένων ορίζεται η διαφορά ανάμεσα στη μέγιστη και την ελάχιστη τιμή του συνόλου. Ωστόσο, στην περιγραφική στατιστική, η έννοια του εύρους έχει πιο περίπλοκη σημασία: εύρος είναι το μέγεθος του μικρότερου διαστήματος που περιέχει όλα τα δεδομένα και παρέχει μια ένδειξη της στατιστικής διασποράς. Μετριέται στις ίδιες μονάδες με τα δεδομένα και είναι κυρίως χρήσιμο στην αναπαράσταση της διασποράς μικρών συνόλων δεδομένων. Τρίτη κεντρική ροπή (3 rd central moment) Οι κεντρικές ροπές που βασίζονται σε υπολογισμούς της απόκλισης από τη μέση τιμή και όχι από το μηδέν, προτιμόνται από τις κανονικές ροπές, γιατί οι κεντρικές ροπές υψηλής τάξης σχετίζονται μόνο με την εξάπλωση και το σχήμα της κατανομής και όχι και με τη θέση της. Η κεντρική ροπή 3 ης τάξης δίνεται από τη σχέση: μ 3 = Ε[Χ Ε[Χ] 3 ] (9) Ασυμμετρία (Skewness) Skewness ονομάζουμε ένα μέτρο της ασυμμετρίας της κατανομής πιθανότητας μιας πραγματικής τυχαίας μεταβλητής γύρω από τη μέση τιμή της. Η ασυμμετρία μιας τυχαίας μεταβλητής Χ είναι η 3 η τυποποιημένη ροπή της (standardized moment) που ορίζεται ως εξής: 3 Χ μ γ 1 = Ε [( σ ) ] = μ 3 σ 3 = Ε[(Χ μ)3 ] (Ε[(Χ μ) 2 ]) 3/2 = κ 3 κ 3/2 (10) 2 Όπου μ 3 είναι η κεντρική ροπή 3 ης τάξης, μ είναι η μέση τιμή, σ είναι η τυπική απόκλιση και Ε είναι ο τελεστής της μέσης τιμής. Η τελευταία εξίσωση εκφράζει την skewness ως λόγο του 3 ου cumulant κ 3 και της 1.5 ης δύναμης του 2 ου cumulant κ 2.

54 38 Ανάπτυξη μεθοδολογίας Κύρτωση (Kurtosis) Η κύρτωση είναι ένα μέτρο περιγραφής του σχήματος της κατανομής πιθανότητας και ακριβώς όπως για την ασυμμετρία (skewness), υπάρχουν πολλοί διαφορετικοί τρόποι ποσοτικοποίησης της κύρτωσης για μια θεωρητική κατανομή. Συνήθως ορίζεται ως το 4 ο cumulant διαιρεμένο με το τετράγωνο του 2 ου cumulant: γ 2 = κ 4 κ 2 2 = μ 4 σ 4 3 (11) Μέση απόλυτη απόκλιση (Mean absolute deviation: MAD) Η μέση απόλυτη απόκλιση (MAD) είναι ένα μέτρο της στατιστικής διασποράς, πιο ισχυρό και ανθεκτικό στις εξωκείμενες τιμές από την τυπική απόκλιση. Για τον υπολογισμό της τυπικής απόκλισης, οι αποστάσεις από τη μέση τιμή υψώνονται στο τετράγωνο, με αποτέλεσμα οι μεγάλες αποκλίσεις να αποκτούν βαρύνουσα σημασία. Αντίθετα, ο τύπος υπολογισμού της MAD δε δίνει μεγαλύτερο βάρος στις εξωκείμενες τιμές: m = E[ X E[X] ] (12) 3.6 Βήμα 5: Μετασχηματισμοί δεδομένων και μείωση διάστασης Στο βήμα 4, δημιουργήσαμε για κάθε υποπίνακα ένα χαρακτηριστικό διάνυσμα με βάση στατιστικές μετρήσεις. Στο βήμα 5, θα εφαρμόσουμε στα διανύσματα αυτά, μια σειρά από τεχνικές γέννησης χαρακτηριστικών (feature generation). Η γέννηση χαρακτηριστικών είναι κεντρικής σημασίας σε κάθε πρόβλημα αναγνώρισης προτύπων. Δοθέντος ενός συνόλου μετρήσεων, ο στόχος είναι να ανακαλύψουμε αναπαραστάσεις των δεδομένων που είναι συμπαγείς και πλούσιες σε πληροφορία, γι αυτό και μετασχηματίζουμε το δοθέν σύνολο μετρήσεων σε ένα νέο σύνολο. Αν ο μετασχηματισμός επιλεχθεί κατάλληλα, τότε τα χαρακτηριστικά στο μετασχηματισμένο χώρο μπορούν να επιδείξουν υψηλές ικανότητες συμπίεσης πληροφορίας σε σύγκριση με τα αρχικά δείγματα εισόδου. Αυτό ση-

55 Ανάπτυξη μεθοδολογίας 39 μαίνει ότι το μεγαλύτερο μέρος της πληροφορίας που σχετίζεται με την ταξινόμηση, «συμπιέζεται» σε έναν σχετικά μικρό αριθμό χαρακτηριστικών, οδηγώντας έτσι σε μείωση της αναγκαίας διάστασης του χώρου χαρακτηριστικών. Συχνά α- ναφερόμαστε σε τέτοιες διαδικασίες επεξεργασίας με τον όρο τεχνικές μείωσης διάστασης (dimensionality reduction techniques). Στα πλαίσια της μελέτης μας, θα ασχοληθούμε με τις τεχνικές PCA, SVD και ICA Ανάλυση κύριων συνιστωσών (Principal Component Analysis) Η Ανάλυση Κύριων Συνιστωσών (Principal component analysis: PCA) είναι μια στατιστική διαδικασία που χρησιμοποιεί έναν ορθογώνιο μετασχηματισμό για να μετατρέψει ένα σύνολο παρατηρήσεων πιθανόν συσχετισμένων μεταβλητών σε ένα σύνολο τιμών γραμμικά ασυσχέτιστων μεταβλητών που ονομάζονται κύριες συνιστώσες (principal components). Ο αριθμός των κύριων συνιστωσών είναι μικρότερος ή ίσος του αριθμού των αρχικών μεταβλητών. Ο μετασχηματισμός αυτός ορίζεται με τέτοιον τρόπο, ώστε η πρώτη κύρια μεταβλητή να έχει τη μεγαλύτερη δυνατή διακύμανση και κάθε επόμενη συνιστώσα να έχει την υψηλότερη δυνατή διακύμανση με τον περιορισμό ότι είναι ορθογώνια (δηλαδή και ασυσχέτιστη) με τις προηγούμενες συνιστώσες. Οι κύριες συνιστώσες είναι ορθογώνιες μεταξύ τους γιατί συνιστούν τα ιδιοδιανύσματα (eigenvectors) του πίνακα συμμεταβλητότητας (covariance matrix), ο οποίος είναι συμμετρικός. Η PCA είναι ουσιαστικά μια διαδικασία «ταιριάσματος» ενός n-διάστατου ελλειψοειδούς στα δεδομένα, όπου κάθε άξονας του ελλειψοειδούς αναπαριστά και μια κύρια συνιστώσα. Αν κάποιος άξονας του ελλειψοειδούς είναι μικρός, τότε και η διακύμανση κατά μήκος του άξονα είναι επίσης μικρή. Επομένως, παραλείποντας αυτόν τον άξονα και την αντίστοιχη κύρια συνιστώσα από την αναπαράσταση των δεδομένων μας, χάνουμε μονάχα ένα αναλογικά μικρό ποσό πληροφορίας. Για να βρούμε τους άξονες του ελλειψοειδούς, πρέπει πρώτα να αφαιρέσουμε τη μέση τιμή από κάθε μεταβλητή του συνόλου δεδομένων προκειμένου να κεντράρουμε τα δεδομένα. Έπειτα, υπολογίζουμε τον πίνακα συμμεταβλητότητας για τα δεδομένα, καθώς και τις ιδιοτιμές και τα αντίστοιχα ιδιοδιανύσματα γι αυτόν τον

56 40 Ανάπτυξη μεθοδολογίας πίνακα. Το σύνολο των ιδιοδιανυσμάτων, στη συνέχεια, θα πρέπει να το ορθογονοποιήσουμε και να κανονικοποιήσουμε κάθε ιδιοδιάνυσμα ώστε να προκύψουν μοναδιαία διανύσματα. Από τη στιγμή, που θα γίνει αυτό, κάθε ένα από τα μεταξύ τους ορθογώνια, μοναδιαία ιδιοδιανύσματα μπορεί να ερμηνευτεί ως ένας άξονας του ελλειψοειδούς που ταιριάζει στα δεδομένα. Η αναλογία της μεταβλητότητας που κάθε ιδιοδιάνυσμα αντιπροσωπεύει, μπορεί να υπολογιστεί διαιρώντας την ιδιοτιμή που αντιστοιχεί στο εν λόγω ιδιοδιάνυσμα με το άθροισμα των ιδιοτιμών [26]. Εικόνα 3-5: Διαγράμματα προεπεξεργασίας και εφαρμογής PCA σε δισδιάστατα δεδομένα H PCA διαδικασία μετασχηματίζει ένα πίνακα Χ διαστάσεων Nxd σε έναν πίνακα Y διαστάσεων Nxm, ακολουθώντας τα παρακάτω βήματα: 1. Κεντράρισμα των δεδομένων με την αφαίρεση της μέσης τιμής

57 Ανάπτυξη μεθοδολογίας Υπολογισμός του πίνακα συμμεταβλητότητας (covariance matrix): C = 1 N 1 XT X (13) όπου C i,j = 1 N X N 1 q=1 q,i X q,i (14). Δηλαδή για τα στοιχεία της διαγωνίου το Cij είναι η μεταβλητότητα της μεταβλητής i, ενώ για τα μη διαγώνια στοιχεία το Cij είναι η συμμεταβλητότητα των μεταβλητών i και j. 3. Υπολογισμός των ιδιοδιανυσμάτων του πίνακα συμμεταβλητότητας ( ο ο- ποίος είναι ορθομοναδιαίος) 4. Επιλογή των m ιδιοδιανυσμάτων που αντιστοιχούν στις m μεγαλύτερες ι- διοτιμές της νέας βάσης Ανάλυση στη βάση των ιδιαζουσών τιμών (Singular value decomposition) Η PCA μπορεί επίσης να συσχετιστεί με μια άλλη μέθοδο παραγοντοποίησης πινάκων, την ανάλυση ιδιαζουσών τιμών (SVD). Για ένα mxn πίνακα Α, του οποίου η τάξη είναι r και m n, τα ιδιοδιανύσματα του ΑΑ Τ είναι: λ 1 λ 2 λ 3 λ r λ r + 1 = = λ n = 0 (15) Ενώ οι σ i = λ i καλούνται ιδιάζουσες τιμές (singular values) του πίνακα Α, όπου i=1 n. Για τον πίνακα Α αποδεικνύεται ότι υπάρχουν δύο ορθογώνιοι πίνακες U και V, τέτοιοι ώστε: Α = UDV T (16) Όπου Ο D είναι ένας mxn τετραγωνικός διαγώνιος πίνακας των ιδιαζουσών τιμών του πίνακα Α. Ο U είναι ένας mxm πίνακας, οι στήλες του οποίου είναι ορθογώνια μοναδιαία διανύσματα που ονομάζονται αριστερά ιδιάζοντα διανύσματα του A. Ο V είναι ένας nxn πίνακας, οι στήλες του οποίου είναι ορθογώνια μαναδιαία διανύσματα που ονομάζονται δεξιά ιδιάζοντα διανύσματα του Α.

58 42 Ανάπτυξη μεθοδολογίας Επιλέγοντας τις μεγαλύτερες k ιδιάζουσες τιμές σ i του D (σ 1 σ 2 σ n ) και θέτοντας τις υπόλοιπες ίσες με 0, μπορούμε να λάβουμε μια προσεγγιστική αναπαράσταση (low rank approximation) του Α, όπως φαίνεται στην εικόνα 3-6. Εικόνα 3-6: Απεικόνιση της παραγοντοποίησης πίνακα Α με χρήση της μεθόδου SVD Ανάλυση ανεξάρτητων συνιστωσών (Independent Component Analysis) Η ανάλυση κύριων συνιστωσών (PCA) παράγει χαρακτηριστικά που είναι αμοιβαίως ασυσχέτιστα. Η λύση που δίνει ο μετασχηματισμός αυτής της ανάλυσης είναι βέλτιστη, όταν στόχος είναι η μείωση της διάστασης και κάποιος επιθυμεί να ελαχιστοποιήσει το μέσο τετραγωνικό σφάλμα προσέγγισης. Αντίθετα με την PCA, η πιο πρόσφατη θεωρία της ανάλυσης ανεξάρτητων συνιστωσών (Independent Component Analysis-ICA) προσπαθεί να επιτύχει πολύ περισσότερα από το να καταστήσει απλώς ασυσχέτιστα τα δεδομένα. Ο στόχος της ICA μπορεί να περιγραφεί ως εξής: Δοθέντος του συνόλου δειγμάτων εισόδου x, υπολόγισε ένα ΝxN αντιστρέψιμο πίνακα W, τέτοιον ώστε τα στοιχεία y(i), i=0,1,,n-1 του μετασχηματισμένου διανύσματος y = Wx (17) να είναι αμοιβαίως ασυσχέτιστα.

59 Ανάπτυξη μεθοδολογίας 43 Ο στόχος της στατιστικής ανεξαρτησίας είναι ισχυρότερη συνθήκη από την απαίτηση έλλειψης συσχέτισης που απαιτείται από τη μέθοδο PCA. Οι δύο συνθήκες είναι ισοδύναμες μόνο στην περίπτωση Gaussian τυχαίων μεταβλητών. Ας υποθέσουμε ότι το τυχαίο διάνυσμα εισόδου χ, είναι πράγματι αποτέλεσμα γραμμικού συνδυασμού στατιστικώς ανεξάρτητων και στάσιμων (stationary), με την ευρεία έννοια, χαρακτηριστικών (πηγών), δηλαδή: x = Ay (18) Ο στόχος είναι να βρούμε, κάτω από ποιες συνθήκες μπορεί να υπολογιστεί ένας πίνακας W, έτσι ώστε να ανακτηθούν τα στοιχεία του y αξιοποιώντας πληροφορία που είναι γραμμένη στο x [24]. Συνθήκη προσδιορισμού του μοντέλου ICA Όλες οι ανεξάρτητες συνιστώσες y(i), i=1,2,,n, με πιθανή εξαίρεση μια συνιστώσα, δεν πρέπει να είναι Gaussian. Μία δεύτερη συνθήκη είναι ότι ο πίνακας Α πρέπει να είναι αντιστρέψιμος. Στην πιο γενική περίπτωση, όπου ο Α είναι μη τετραγωνικός πίνακας lxn, τότε το l πρέπει να είναι μεγαλύτερο του Ν και ο Α πρέπει να είναι πλήρους βαθμού ως προς τις στήλες. Με άλλα λόγια, σε αντίθεση με την PCA που πάντα μπορεί να εφαρμοστεί, η ICA έχει νόημα μόνο αν οι τυχαίες μεταβλητές που συμμετέχουν δεν είναι Gaussian. Πράγματι, για Gaussian τυχαίες μεταβλητές, η ανεξαρτησία είναι ισοδύναμη με το ασυσχέτιστο και στην περίπτωση αυτή, αρκεί η PCA. Σύμφωνα με τις παραπάνω συνθήκες μπορεί να αποδειχθεί ότι κάθε μία από τις προκύπτουσες ανεξάρτητες συνιστώσες εκτιμάται με μοναδικό τρόπο, με εξαίρεση μια σταθερά πολλαπλασιασμού (που είναι μάλλον ασήμαντη απροσδιοριστία που σχετίζεται με τη μέθοδο αυτή). Αυτός είναι και ο λόγος για τον οποίο, πολλές φορές, οι συνιστώσες θεωρούνται μοναδιαίας διασποράς. Τέλος, είναι ενδιαφέρον ότι οι ανεξάρτητες συνιστώσες προκύπτουν χωρίς συγκεκριμένη διάταξη, σε αντίθεση με την PCA, όπου μια ορισμένη διάταξη σχετίζεται με τις αντίστοιχες ιδιοτιμές. Ο υπολογισμός της ICA γίνεται είτε με βάση αθροιστικά δεύτερης και τέταρτης τάξης, είτε με βάση την αμοιβαία πληροφορία. Οι αλγοριθμικές λεπτομέρειες [27] ξεφεύγουν από τα πλαίσια αυτής της μελέτης, γι αυτό και δε θα αναφερθούν αναλυτικά.

60 44 Ανάπτυξη μεθοδολογίας 3.7 Βήμα 6: Ταξινόμηση με αλγορίθμους δέντρων Στο προηγούμενο βήμα, χρησιμοποιώντας τους μετασχηματισμούς που παρουσιάσαμε, κατασκευάσαμε νέα διανύσματα χαρακτηριστικών (feature vectors) για κάθε υποπίνακα. Στη συνέχεια, με αυτά τα διανύσματα χαρακτηριστικών αλλά και τα διανύσματα στατιστικών του βήματος 4, θα επιχειρήσουμε να κάνουμε μια ταξινόμηση (classification) των πινάκων σε μια σειρά από κλάσεις. Τις κλάσεις τις προσδιορίζουμε με βάση τις φυλογενετικές αποστάσεις των ζευγών οργανισμών που λαμβάνουμε από το φυλογενετικό τους δέντρο, το οποίο όπως προαναφέρθηκε είναι γνωστό. Για την ταξινόμηση θα χρησιμοποιήσουμε αλγορίθμους ταξινόμησης που χρησιμοποιούν δέντρα απόφασης. Οι αλγόριθμοι δέντρων επιλέχτηκαν για το classification γιατί οι κανόνες απόφασης που εξάγουν με εποπτικό τρόπο μπορούν να χρησιμοποιηθούν για την εξαγωγή του μαθηματικού μοντέλου που είναι ο τελικός μας στόχος. Η μηχανική μάθηση με δέντρα απόφασης (decision tree learning) χρησιμοποιεί ένα δέντρο ως το μοντέλο πρόβλεψης που αντιστοιχεί τις παρατηρήσεις για ένα αντικείμενο σε συμπεράσματα για την επιθυμητή τιμή του αντικειμένου. Στα δέντρα απόφασης μίας μεταβλητής, ο διαχωρισμός πραγματοποιείται με τη χρήση ενός χαρακτηριστικού στους εσωτερικούς κόμβους. Υπάρχουν πολλοί αλγόριθμοι που δημιουργούν δέντρα με αυτόν τον τρόπο. Ο πιο γνωστός εξ αυτών είναι ο αλγόριθμος C4.5, τον οποίο θα εξετάσουμε σύντομα παρακάτω, καθώς θα αποτελέσει το μέτρο σύγκρισης για τα πειράματα ταξινόμησης. Ο αλγόριθμος C4.5 Ο αλγόριθμος C4.5 κατασκευάζει δέντρα απόφασης από ένα σύνολο δεδομένων εκπαίδευσης χρησιμοποιώντας την έννοια της εντροπίας πληροφορίας, όπως και ο αλγόριθμος ID3. Το δεδομένα εκπαίδευσης συνιστούν ένα σύνολο S=s 1, s 2, ήδη ταξινομημένων δειγμάτων. Κάθε δείγμα s i αποτελείται από ένα p-διάστατο διάνυσμα (x 1i, x 2i,, x pi), όπου το x j αντιπροσωπεύει τα χαρακτηριστικά

61 Ανάπτυξη μεθοδολογίας 45 (attributes/features) του δείγματος, όπως και την κλάση στην οποία εντάσσεται το s i. Σε κάθε κόμβο του δέντρου, ο C4.5 επιλέγει το χαρακτηριστικό εκείνο που διαχωρίζει το σύνολο των δειγμάτων σε υποσύνολα της μίας ή της άλλης κλάσης. Το κριτήριο διαχωρισμού είναι το κανονικοποιημένο κέρδος πληροφορίας (διαφορά στην εντροπία). Το χαρακτηριστικό με τη μεγαλύτερη τιμή κέρδους πληροφορίας επιλέγεται για την λήψη της απόφασης. Στη συνέχεια, ο C4.5 εκτελείται αναδρομικά για τις μικρότερες υπολίστες. Υπάρχουν οι εξής θεμελιώδεις περιπτώσεις: Όλα τα δείγματα στη λίστα ανήκουν στην ίδια κλάση. Όταν συμβαίνει αυτό, ο αλγόριθμος απλά δημιουργεί ένα φύλλο στο δέντρο απόφασης που αντιστοιχεί στη μία και μοναδική κλάση. Κανένα από τα χαρακτηριστικά δεν παρέχει κέρδος πληροφορίας. Σε αυτήν την περίπτωση, ο C4.5 δημιουργεί έναν κόμβο απόφασης ψηλότερα από το δέντρο χρησιμοποιώντας την αναμενόμενη τιμή της κλάσης. Προκύπτει περίπτωση κλάσης που δεν έχει οριστεί. Σε αυτήν την περίπτωση, ο C4.5 δημιουργεί και πάλι έναν κόμβο ψηλότερα από το δέντρο χρησιμοποιώντας την αναμενόμενη τιμή. Ψευδοκώδικας Σε ψευδοκώδικα, ο γενικός αλγόριθμος για τη δημιουργία δέντρων έχει ως εξής: 1. Ελέγχει για τις 3 θεμελιώδεις περιπτώσεις που προαναφέρθηκαν. 2. Για κάθε χαρακτηριστικό a: a. Υπολογίζει το κανονικοποιημένο κέρδος πληροφορίας από το διαχωρισμό με βάση το a. 3. Βρίσκει ότι το a_best είναι το χαρακτηριστικό με το υψηλότερο κανονικοποιημένο κέρδος πληροφορίας. 4. Δημιουργεί έναν κόμβο απόφασης που διαχωρίζει με βάση το a_best.

62 46 Ανάπτυξη μεθοδολογίας 5. Τα παραπάνω βήματα εκτελούνται αναδρομικά στις υπολίστες που προκύπτουν από το διαχωρισμό με βάση το a_best και οι κόμβοι που προκύπτουν προστίθενται ως παιδιά του προηγούμενου κόμβου. Εικόνα 3-7: Δέντρο απόφασης για την πρόβλεψη του επιπέδου ευτυχίας των πολιτών μιας χώρας 3.8 Βήμα 7: Εξαγωγή μοντέλου Στα πειράματα ταξινόμησης που προηγήθηκαν, εφαρμόσαμε διάφορους αλγορίθμους δέντρων για διάφορες μορφές των διανυσμάτων χαρακτηριστικών του δείγματός μας. Ο συνδυασμός που φαίνεται να δίνει τα καλύτερα αποτελέσματα, θα μας εφοδιάσει με τους κανόνες απόφασης βάσει των οποίων θα θεμελιώσουμε ένα γενικό μοντέλο προσεγγιστικού προσδιορισμού της φυλογενετικής απόστασης.

63 4 Αποτελέσματα πειραμάτων 4.1 Βήμα 1: Επιλογή των οργανισμών Για να εφαρμόσουμε και να επικυρώσουμε μέσα από μία σειρά πειραμάτων τη μέθοδο που αναπτύχθηκε στο προηγούμενο κεφάλαιο, χρειάζεται πρώτα απ όλα, να επιλέξουμε ένα ενδεικτικό σύνολο οργανισμών για την έρευνά μας. Το σύνολο που επιλέξαμε αποτελείται από πέντε είδη με μικρά γονιδιώματα, αρχίζοντας από το μικρότερο και ενσωματώνοντας κι άλλα αντιπροσωπευτικά είδη μικρού γονιδιώματος με αυξανόμενη φυλογενετική απόσταση. Τα πέντε είδη είναι τα ακόλουθα: 1. Mycoplasma genitalium, G-37 (Bacteria; Firmicutes; Mollicutes; Mycoplasmates) 483 γονίδια, COGENT κωδικός: MGEN-G Ureaplasma parvum serovar 3, ATCC27815 (Bacteria; Firmicutes; Mollicutes; Mycoplasmates) 609 γονίδια, COGENT κωδικός: UPAR-S3S Streptococcus pyogenes M1476 (Bacteria; Firmicutes; Bacilli; Lactobacillales) 1589 γονίδια, COGENT κωδικός: SPYO-M Buchnera aphidicola subsp. Schizaphis Graminum, SG (Baxteria; Proteobacteria; Gamma-proteobacteria; Enterobacteriales) 562 γονίδια, COGENT κωδικός: BAPH-SCH Nanoarchaeum equitans, Κιν4-Μ (Archaea; Nanoarchaeota) 536 γονίδια, COGENT κωδικός: NEQU-K4M-01 Ένα απλοποιημένο δεντρόγραμμα που αναπαριστά τις φυλογενετικές σχέσεις μεταξύ των πέντε οργανισμών παρουσιάζεται στην εικόνα 4-1 (όπου για ευκολία, χρησιμοποιούνται ως αναγνωριστικά των οργανισμών οι κωδικοί COGENT [13]).

64 48 Αποτελέσματα πειραμάτων Εικόνα 4-1: Απλοποιημένο δεντρόγραμμα που αναπαριστά τις σχέσεις μεταξύ των πέντε οργανισμών που επιλέχθηκαν 4.2 Βήμα 2: Αλγόριθμος BLAST Αφού ανακτήσουμε τα αναγνωριστικά όλων των γονιδίων των πέντε προαναφερθέντων οργανισμών, εκτελούμε τον αλγόριθμο BLAST, ορίζοντας ως επιθυμητό κατώφλι για την τιμή Ε-Value το Μετά την επεξεργασία του ASCII αρχείου στο Matlab, λαμβάνουμε έναν πίνακα Μ, διαστάσεων: 3775 x3775. Η μορφή του αρχικού αρχείου παρουσιάζεται στην εικόνα 3-2 και του πίνακα Μ στην εικόνα Βήμα 3: Επεξεργασία πίνακα δεδομένων Αφού λάβαμε τον πίνακα Μ, το επόμενο βήμα είναι να εφαρμόσουμε τις τεχνικές επεξεργασίας (λογαρίθμιση κι αντιστροφή προσήμου, κανονικοποίηση κι αφαίρεση των NaN τιμών) που αναφέρθηκαν στην ενότητα 3.4. Εφαρμόζοντας συνδυασμούς των τεχνικών αυτών, παίρνουμε τις εξής μορφές με τις οποίες θα διεξάγουμε από εδώ και πέρα τα πειράματά μας:

65 Αποτελέσματα πειραμάτων Πίνακας που προέκυψε από λογαρίθμιση κι αντιστροφή προσήμου (περίπτωση 1 - Case 1) 2. Πίνακας που προέκυψε από κανονικοποίηση των τιμών του πίνακα 1 (περίπτωση 2 - Case 2) 3. Πίνακας που προέκυψε από αντικατάσταση των NaN τιμών με 1 κι έπειτα λογαρίθμιση κι αντιστροφή προσήμου (περίπτωση 3 - Case 3) 4. Πίνακας που προέκυψε από κανονικοποίηση του πίνακα 3 (περίπτωση 4 - Case 4) Από εδώ και στο εξής, οι εναλλακτικές μορφές του πίνακα Μ θα αναφέρονται για ευκολία με τα αναγνωριστικά τους ονόματα που αναγράφονται παραπάνω εντός των παρενθέσεων. Ας σημειωθεί ότι η ελάχιστη τιμή του πίνακα Μ είναι e -180, οπότε μετά τη λογαρίθμιση και την αντιστροφή προσήμου οι αντίστοιχες μέγιστες (μη INF) τιμές είναι ίσες με max=180. Επομένως, οι τιμές INF επιλέγεται να αντικατασταθούν με την τιμή max 2=500. Εικόνα 4-2: Οι 4 εναλλακτικές μορφές (cases) για το ίδιο τμήμα του πίνακα Μ

66 50 Αποτελέσματα πειραμάτων 4.4 Βήμα 4: Στατιστικά σύνοψης Έπειτα, για κάθε μία από τις εναλλακτικές μορφές του πίνακα Μ (Μi για case i, όπου i=1,2,3,4), λαμβάνουμε 25 υποπίνακες Mi, k,l για κάθε ζεύγος οργανισμών k, l όπου k,l = {Β, Μ, Ν, S, U} με τα κεφαλαία γράμματα να αποτελούν συντομεύσεις των COGENT αναγνωριστικών ονομάτων των πέντε οργανισμών (BAPH, MGEN, NEQU, SPYO, UPAR). Έχοντας, πλέον στη διάθεσή μας τους υποπίνακες για κάθε case, υπολογίζουμε τα διανύσματα με τα στατιστικά σύνοψης που παρουσιάστηκαν στην ενότητα 3.5 για κάθε υποπίνακα. Για να επιλέξουμε τα στατιστικά που θα συγκροτήσουν τα διανύσματα χαρακτηριστικών για τη μετέπειτα διαδικασία, προχωράμε σε μία εποπτική επισκόπηση των στατιστικών, όπως φαίνεται στον Πίνακα 4-1. Να σημειωθεί ότι για τα cases 1 και 2 που έχουν τις τιμές NaN, οι NaN αφαιρέθηκαν για τον υπολογισμό της μέσης τιμής, της διαμέσου, της διακύμανσης και της τυπικής απόκλισης γιατί διαφορετικά όλες οι στατιστικές αυτές τιμές θα ι- σούνταν με NaN.

67 Πίνακας 4-1: Συγκεντρωτικός πίνακας με την απεικόνιση των στατιστικών των υποπινάκων για κάθε περίπτωση Mean CASE 1 CASE 2 CASE 3 CASE 4 Median Mode Minimum

68 Maximum Harmonic mean Mean excluding outliers Kurtosis

69 Skewness Standard deviation Variance 3 rd Moment

70 Range Interquartile Mean Mean Absolute Deviation

71 Αποτελέσματα πειραμάτων 55 Εξετάζοντας τον παραπάνω πίνακα, επιλέγουμε τα στατιστικά που είναι ενδεικτικά για κάθε case. Επιθυμούμε τα στατιστικά μέτρα να παρουσιάζουν διακύμανση μεταξύ των υποπινάκων προκειμένου να μπορούν να χρησιμοποιηθούν στη συνέχεια ως μέτρα διαχωρισμού κλάσεων στη διαδικασία του classification. Με δεδομένη αυτή την απαίτηση, επιλέχθηκαν τα εξής στατιστικά μέτρα: Πίνακας 4-2: Πίνακας που απεικονίζει τα στατιστικά που επιλέχθηκαν για κάθε περίπτωση CASE 1 CASE 2 CASE 3 CASE 4 Mean X X X X Median X X X Mode X X Minimum X X X Maximum X X X X Harmonic mean X Mean excluding outliers X X X Kurtosis X X X X Skewness X X X X Standard deviation X X X X Variance X X X X 3rd Moment X X Range X X X X Interquartile Mean X X Mean Absolute Deviation X X X X Πέρα από τα στατιστικά αυτά μέτρα, στο διάνυσμα χαρακτηριστικών για κάθε υποπίνακα, προσθέσαμε επίσης τον αριθμό των NaN τιμών ως ποσοστό επί τοις εκατό του πλήθους των τιμών κάθε υποπίνακα. Με αυτόν τον τρόπο, ο αριθμός των NaN λαμβάνεται υπόψιν ακόμα και στις περιπτώσεις που αποκλείονται οι NaN τιμές από τον υπολογισμό των στατιστικών (υπολογισμός μέσης τιμής, διαμέσου, διακύμανσης, τυπικής απόκλισης για cases 1,2 και αντικατάσταση των NaN με 1 για cases 3,4).

72 56 Αποτελέσματα πειραμάτων 4.5 Βήμα 5 & 6: Γέννηση χαρακτηριστικών και ταξινόμηση Ορισμός κλάσεων Πρώτα απ όλα, για να εκτελέσουμε τα πειράματα ταξινόμησης, θα πρέπει να ορίσουμε τις κλάσεις ταξινόμησης. Ορίζουμε κλάσεις με βάση τις αποστάσεις των οργανισμών, όπως αυτές απεικονίζονται στο φυλογενετικό δέντρο της εικόνας 4-1. Ό- πως παρατηρούμε υπάρχουν 5 διαφορετικές κλάσεις, τις οποίες ονομάζουμε class 0,1,2,3,4. Η αντιστοίχιση κάθε υποπίνακα (δηλαδή ζεύγους οργανισμών σε κλάση) γίνεται όπως απεικονίζει ο πίνακας 4-3. Ο χρωματικός κώδικας αποδίδει πιο σκούρο χρώμα όσο πιο μικρή είναι η φυλογενετική απόσταση των οργανισμών. Πίνακας 4-3: Πίνακας με την αντιστοίχιση των υποπινάκων σε κλάσεις BAPH MGEN NEQU SPYO UPAR BAPH Class 0 Class 3 Class 2 Class 2 Class 3 MGEN Class 3 Class 0 Class 4 Class 2 Class 1 NEQU Class 2 Class 4 Class 0 Class 3 Class 4 SPYO Class 2 Class 2 Class 3 Class 0 Class 2 UPAR Class 3 Class 1 Class 4 Class 2 Class Σχεδίαση πειραμάτων Στη συνέχεια, θα εκτελέσουμε μια σειρά πειραμάτων ταξινόμησης. Σε κάθε περίπτωση η ταξινόμηση γίνεται με το λογισμικό Weka 3.6. Ως είσοδος στο πρόγραμμα δίνεται ένα.arff αρχείο που περιέχει τα χαρακτηριστικά (attributes) για κάθε ένα από τα 25 διαφορετικά δείγματα (υποπίνακες). Τα χαρακτηριστικά αυτά προκύπτουν από τα στατιστικά σύνοψης των υποπινάκων με την εφαρμογή ή όχι μεθόδων προεπεξεργασίας. Συγκεκριμένα, θα εκτελέσουμε τους ίδιους αλγορίθμους ταξινόμησης με δέντρα απόφασης για τις εξής σειρές πειραμάτων: Πειράματα χωρίς μετασχηματισμό των δεδομένων (Σειρά πειραμάτων 1)

73 Αποτελέσματα πειραμάτων 57 Πειράματα με μετασχηματισμό των δεδομένων: Εφαρμογή PCA (Σειρά πειραμάτων 2) Εφαρμογή SVD, SVD σε συνδυασμό με PCA (Σειρά πειραμάτων 3) Εφαρμογή ICA (Σειρά πειραμάτων 4) Σειρά πειραμάτων 1: Χωρίς μετασχηματισμό των δεδομένων Πρώτα από όλα, εκτελούμε μια σειρά πειραμάτων ταξινόμησης, χρησιμοποιώντας ως διανύσματα χαρακτηριστικών για τα 25 δείγματα, τα στατιστικά που επιλέχθηκαν για κάθε περίπτωση στο βήμα 4, χωρίς να εφαρμόσουμε κάποια μέθοδο feature generation/dimensionality reduction. Στον πίνακα 4-4, απεικονίζεται το ποσοστό των ορθά ταξινομημένων δειγμάτων για κάθε αλγόριθμο. Πίνακας 4-4: Αποτελέσματα ταξινόμησης με διανύσματα χαρακτηριστικών του Πίνακα 4-2 για τα πειράματα χωρίς την εφαρμογή μετασχηματισμού CASE 1 CASE 2 CASE 3 CASE 4 J48 52% 60% 76% 76% BFT TREE 64% 68% 80% 80% DECISION STUMP 52% 52% 52% 52% FT 32% 32% 32% 32% LAD TREE 92% 76% 96% 100% LMT 84% 76% 60% 68% NB TREE 80% 80% 64% 84% RANDOM FOREST 88% 80% 92% 96% RANDOM TREE 80% 68% 88% 96% REP TREE 44% 64% 64% 64% SIMPLE CART 76% 64% 80% 80% Όπως παρατηρούμε, συνολικά τα καλύτερα σκορ ταξινόμησης εμφανίζονται στα case 3, case 4, δηλαδή στην περίπτωση των πινάκων που αντί για NaN έχουν 1. Οι

74 58 Αποτελέσματα πειραμάτων αλγόριθμοι με τα υψηλότερα σκορ ταξινόμησης είναι οι εξής: LAD tree, Random Forest, Random Tree. Πέρα από τα πειράματα αυτά με τα αρχικά διανύσματα χαρακτηριστικών εκτελέστηκε και μία ακόμη σειρά πειραμάτων με διανύσματα χαρακτηριστικών μικρότερης διάστασης. Για κάθε περίπτωση, επιλέχθηκαν από 5 έως 8 χαρακτηριστικά (Πίνακας 4.5) με βάση τη διασπορά που εμφάνιζαν, υποθέτοντας ότι τα χαρακτηριστικά με τη μεγαλύτερη διασπορά συνιστούν καλύτερα μέτρα διαχωρισιμότητας των κλάσεων. Τα αποτελέσματα των πειραμάτων αυτών απεικονίζονται στον πίνακα 4-6. Πίνακας 4-5: Πίνακας με τα στατιστικά που επιλέχθηκαν για τα διανύσματα χαρακτηριστικών μικρότερης διάστασης στη σειρά πειραμάτων 1 CASE 1 CASE 2 CASE 3 CASE 4 Mean X Median Mode Minimum X Maximum X X X Harmonic mean Mean excluding outliers X Kurtosis X X X X Skewness X X X X Standard deviation X Variance X 3 rd Moment X X Range X X Interquartile Mean Mean Absolute Deviation X X X X Πίνακας 4-6: Αποτελέσματα ταξινόμησης με τα διανύσματα χαρακτηριστικών του Πίνακα 4-5 για τα πειράματα χωρίς την εφαρμογή μετασχηματισμού CASE 1 CASE 2 CASE 3 CASE 4 J48 72% 68% 60% 76% BFT TREE 80% 72% 76% 80% DECISION STUMP 52% 52% 52% 52% FT 32% 32% 32% 32% LAD TREE 96% 76% 92% 100% LMT 56% 76% 60% 72%

75 Αποτελέσματα πειραμάτων 59 NB TREE 84% 80% 68% 92% RANDOM FOREST 92% 96% 92% 96% RANDOM TREE 96% 88% 96% 96% REP TREE 76% 60% 64% 72% SIMPLE CART 80% 72% 80% 80% Συγκρίνοντας τους πίνακες 4-4 και 4-6, παρατηρούμε ότι για τα cases 1,2 η χρήση λιγότερων χαρακτηριστικών στα διανύσματα, βελτιώνει συνολικά τα αποτελέσματα της ταξινόμησης. Αντίθετα, για τις περιπτώσεις 3,4 δεν παρατηρούνται ουσιαστικές διαφοροποιήσεις Σειρά πειραμάτων 2: Εφαρμογή PCA Στην σειρά πειραμάτων 2 χρησιμοποιούμε τα ίδια διανύσματα χαρακτηριστικών, αλλά εφαρμόζουμε σε αυτά τη μέθοδο PCA με εφαρμογή του φίλτρου: weka.filters.unsupervised.attribute.principalcomponents-r0.95-a5-m-1. Πίνακας 4-7: Αποτελέσματα ταξινόμησης με εφαρμογή PCA στα στατιστικά για διανύσματα χαρακτηριστικών μεγάλης διάστασης CASE 1 CASE 2 CASE 3 CASE 4 J48 52% 60% 60% 76% BFT TREE 44% 64% 68% 80% DECISION STUMP 52% 36% 52% 52% FT 32% 32% 32% 32% LAD TREE 76% 72% 88% 96% LMT 76% 60% 60% 64% NB TREE 32% 76% 64% 96% RANDOM FOREST 68% 80% 84% 96% RANDOM TREE 68% 72% 92% 96% REP TREE 44% 52% 64% 64% SIMPLE CART 44% 64% 76% 80%

76 60 Αποτελέσματα πειραμάτων Όπως παρατηρούμε, καλύτερα αποτελέσματα έχει και πάλι η περίπτωση 4, χωρίς όμως για τη συγκεκριμένη περίπτωση να εμφανίζεται σημαντική βελτίωση σε σχέση με την σειρά πειραμάτων Σειρά πειραμάτων 3: Εφαρμογή SVD Στη σειρά πειραμάτων 3, εφαρμόζουμε την ανάλυση ιδιαζουσών τιμών (SVD). Συγκεκριμένα, χωρίζουμε τα πειράματα αυτής της σειράς σε 2 κατηγορίες: Εφαρμογή SVD στον αρχικό πίνακα Εφαρμογή SVD στα διανύσματα χαρακτηριστικών Εφαρμογή SVD στον αρχικό πίνακα Αρχικά, εφαρμόζουμε ανάλυση SVD του πίνακα M 3775x3775 με την κλήση της συνάρτησης svds(a,k) του Matlab με k=2000, δηλαδή με τις μεγαλύτερες 2000 ι- διάζουσες τιμές από τις συνολικά Η ανάλυση γίνεται μόνο για τα case 3, 4 που όπως αποδείχθηκε από τις παραπάνω σειρές πειραμάτων εμφανίζουν καλύτερα σκορ ταξινόμησης. Πίνακας 4-8: Αποτελέσματα ταξινόμησης μετά από ανακατασκευή του πίνακα Μ με SVD και k=2000 CASE 3 CASE 3 CASE 4 CASE 4 PCA PCA J48 68% 56% 72% 48% BFT TREE 72% 72% 76% 60% DECISION STUMP 52% 52% 52% 52% FT 32% 32% 32% 32% LAD TREE 96% 92% 96% 72% LMT 76% 44% 80% 72% NB TREE 84% 40% 100% 52% RANDOM FOREST 92% 68% 100% 84% RANDOM TREE 96% 64% 96% 80% REP TREE 64% 48% 56% 60%

77 Αποτελέσματα πειραμάτων 61 SIMPLE CART 68% 68% 76% 60% Η ανακατασκευή του αρχικού πίνακα με 2000 SV αντί για 3775, επιτυγχάνει χειρότερα σκορ ταξινόμησης σε σχέση με τις προηγούμενες περιπτώσεις. Επίσης, η εφαρμογή PCA μετά την ανακατασκευή με SVD και πριν την ταξινόμηση, χειροτερεύει τα ποσοστά της ταξινόμησης. Εφαρμογή SVD στα διανύσματα χαρακτηριστικών Επιπλέον, εφαρμόζουμε SVD για τα διανύσματα της περίπτωσης 4 που όπως απέδειξαν οι σειρές πειραμάτων 1 και 2, έχει τα καλύτερα αποτελέσματα από όλες τις περιπτώσεις. Στον πίνακα 4-9 απεικονίζονται τα σκορ ταξινόμησης για διάφορες τιμές του k (των ιδιαζουσών τιμών που χρησιμοποιούνται για την ανακατασκευή του πίνακα στατιστικών). Πίνακας 4-9: Αποτελέσματα ταξινόμησης με ανακατασκευή των στατιστικών με τη χρήση SVD και διάφορες τιμές του k για την περίπτωση 4 K=7 K=8 K=9 K=10 K=11 J48 76% 72% 72% 72% 76% BFT TREE 80% 80% 80% 80% 76% DECISION STUMP 52% 52% 52% 52% 28% FT 32% 32% 32% 32% 32% LAD TREE 100% 100% 72% 72% 76% LMT 72% 80% 100% 100% 92% NB TREE 88% 88% 72% 80% 56% RANDOM FOREST 96% 100% 88% 88% 84% RANDOM TREE 96% 100% 96% 100% 88% REP TREE 64% 64% 100% 100% 92% SIMPLE CART 80% 80% 64% 64% 64% Δεν παρατηρούμε ιδιαίτερη αλλαγή στα ποσοστά επιτυχίας του classification με την αλλαγή της τιμής του k.

78 62 Αποτελέσματα πειραμάτων Έπειτα, εκτελούμε ξανά τα ίδια πειράματα, εφαρμόζοντας όμως αυτή την φορά και PCA, μετά το SVD. Όπως παρατηρούμε από τα αποτελέσματα του Πίνακα 4-10, στην περίπτωση εφαρμογής SVD στα διανύσματα χαρακτηριστικών, η εφαρμογή PCA δεν επηρεάζει αισθητά τα αποτελέσματα. Πίνακας 4-10: Πίνακας αποτελεσμάτων ταξινόμησης με εφαρμογή SVD (με διάφορες τιμές k για την ανακατασκευή των διανυσμάτων χαρακτηριστικών) κι έπειτα εφαρμογή PCA για την περίπτωση 4 K=7 K=8 K=9 K=10 K=11 J48 76% 72% 72% 72% 76% BFT TREE 80% 80% 80% 80% 76% DECISION STUMP 52% 52% 52% 52% 28% FT 32% 32% 32% 32% 32% LAD TREE 100% 100% 72% 72% 76% LMT 72% 80% 100% 100% 92% NB TREE 88% 88% 72% 80% 56% RANDOM FOREST 96% 100% 88% 88% 84% RANDOM TREE 96% 100% 96% 100% 88% REP TREE 64% 64% 100% 100% 92% SIMPLE CART 80% 80% 64% 64% 64% Σειρά πειραμάτων 4: Εφαρμογή ICA Η ICA όπως είδαμε στην ενότητα 3.6.3, δίνει στατιστικά ασυσχέτιστες μεταξύ τους μεταβλητές. Η εφαρμογή ICA απευθείας στον πίνακα Μ των δεδομένων δεν είναι επιθυμητή, καθώς μετά την εφαρμογή της και τη λήψη νέων συνιστωσών, ο διαχωρισμός του πίνακα σε υποπίνακες δεν μπορεί να γίνει με τον ίδιο τρόπο. Επίσης, δεν είναι δυνατόν, να εφαρμόσουμε ICA στους πίνακες με τις τιμές NaN. Επομένως, ICA εφαρμόστηκε στις περιπτώσεις 3 και 4. Τα χαμηλά σκορ ταξινόμησης που α- πεικονίζονται στον Πίνακα 4-11, μας οδηγούν στο συμπέρασμα ότι οι πίνακες των δεδομένων μας πιθανόν δεν ικανοποιούν τις συνθήκες για την εφαρμογή ICA που αναφέρθηκαν στην ενότητα

79 Αποτελέσματα πειραμάτων 63 Πίνακας 4-11: Πίνακας αποτελεσμάτων ταξινόμησης με εφαρμογή ICA στα διανύσματα χαρακτηριστικών των περιπτώσεων 3 και 4 CASE 3 CASE 4 J48 52% 52% BFT TREE 48% 44% DECISION STUMP 40% 52% FT 32% 32% J48 GRAFT 52% 52% LAD TREE 84% 84% LMT 68% 72% NB TREE 48% 56% RANDOM FOREST 76% 80% RANDOM TREE 76% 64% REP TREE 52% 48% SIMPLE CART 48% 52% 4.6 Βήμα 6: Εξαγωγή μοντέλου Με βάση τις παραπάνω σειρές πειραμάτων, καλύτερα αποτελέσματα σε κάθε περίπτωση παρουσιάζει η περίπτωση 4 (όπως φαίνεται και στον πίνακα 4-12, όπου χρησιμοποιήθηκε ως μέτρο σύγκρισης η επίδοση του C4.5 αλγορίθμου), ενώ οι αλγόριθμοι ταξινόμησης που φαίνεται να επιδεικνύουν σταθερά τα υψηλότερα σκορ ταξινόμησης για όλες τις περιπτώσεις είναι οι LAD, Random Forest και Random Tree. Οι κανόνες απόφασης και τα confusion matrices από την εκτέλεση των αλγορίθμων αυτών σε ορισμένες ενδεικτικές περιπτώσεις παρατίθενται στο Παράρτημα. Από αυτούς τους αλγορίθμους, ο Random Tree δίνει κανόνες απόφασης που μπορούν να αντιστοιχιστούν σε γενικές σχέσεις. Τα δέντρα απόφασης για την περίπτωση 4 (στις σειρές πειραμάτων 1, 2 επιβεβαιώνεται κι εποπτικά (μέσω των παραγόμενων δέντρων στο περιβάλλον του Weka) ότι παρέχουν έναν καλό διαχωρισμό των κλάσεων. Καλός διαχωρισμός θεωρούμε ότι επιτυγχάνεται όταν τα φύλλα ενός κόμβου είναι κοντινές μεταξύ τους κλάσεις (π.χ. κλάσεις 0 και 1 ή κλάσεις 3 και 4). Η κλάση 2 όπως φάνηκε είναι η κλάση που συχνά καταλήγει σε κόμβο και με άλλες κλάσεις πέρα από τις γειτονικές της 1 και 3 (τόσο για την εκτέλεση του Random Tree που κατα-

80 64 Αποτελέσματα πειραμάτων λήγει σε κόμβο μαζί με την κλάση 4, όσο και στις εκτελέσεις των υπόλοιπων αλγορίθμων. Τα δύο μοντέλα που θα παρουσιάσουμε παρακάτω βασίζονται στον αλγόριθμο Random Tree και προϋποθέτουν την επεξεργασία του πίνακα δεδομένων και τη στατιστική ανάλυση της περίπτωσης 4. Στο μοντέλο 1 δεν εφαρμόζεται κάποια μέθοδος μετασχηματισμού, ενώ στο μοντέλο 2 λαμβάνονται οι primary components με εφαρμογή PCA. Η εφαρμογή PCA επιλέχθηκε έναντι της εφαρμογής SVD (με την οποία είχαν παρόμοια αποτελέσματα), καθώς προσφέρει μια σειρά γενικών εκφράσεων που μπορούν να χρησιμοποιηθούν στο μοντέλο. Πίνακας 4-12: Συγκεντρωτικός πίνακας για όλα τα πειράματα με μέτρο σύγκρισης το σκορ ταξινόμησης του αλγορίθμου C4.5 CASE 1 CASE 2 CASE 3 CASE 4 Χωρίς μτσχ Πολλά χαρακτηριστικά 52% 60% 60% 76% Λίγα χαρακτηριστικά 72% 68% 60% 76% PCA 52% 60% 60% 76% SVD Στον αρχικό πίνακα % 72% Στα διανύσματα % (σημειώνεται η καλύτερη περίπτωση) ICA % 52% Μοντέλο 1 βασισμένο στον αλγόριθμο Random Tree Το μοντέλο 1 βασίζεται στους κανόνες απόφασης (εικόνα 4-3) της εφαρμογής του Random Tree στα διανύσματα χαρακτηριστικών (μεγάλης διάστασης) της περίπτωσης 4.

81 Αποτελέσματα πειραμάτων 65 Εικόνα 4-3: Κανόνες απόφασης Random Tree για την περίπτωση 4 χωρίς μετασχηματισμό Αν εκφράσουμε τα κατώφλια απόφασης του αλγορίθμου ως ποσοστά επί τοις εκατό του εύρους τιμών του εκάστοτε χαρακτηριστικού, όπως φαίνεται στον Πίνακα 4-12, προκύπτει το γενικευμένο δέντρο απόφασης της εικόνας 4-4. Πίνακας 4-13: Υπολογισμός ποσοστών κατωφλίων για το μοντέλο 1 Χαρακτηριστικό 3η Ροπή (Μ3) Ελάχιστο (Min) Ασυμμετρία (Skewness) Μέση τιμή (Mean) Τυπική απόκλιση (Std) Ελάχιστη Μέγιστη Ποσοστό Κατώφλι τιμή τιμή κατωφλίου % % % % %

82 66 Αποτελέσματα πειραμάτων Εικόνα 4-4: Γενικευμένο δέντρο απόφασης του μοντέλου 1 Ακολουθώντας τις διαδρομές του δέντρου, προκύπτουν οι σχέσεις του μοντέλου: Εάν 3 rd moment 3% και std 39% (19), τότε πρόκειται για την κλάση (απόσταση) 0. Εάν 3 rd moment 3% και std < 39% (20), τότε πρόκειται για την κλάση (απόσταση) 1. Εάν 3 rd moment < 3% και min < 8% (21) ή 3 rd moment < 3% και min 8% και skewness < 48% και mean 4% (22), τότε πρόκειται για την κλάση (απόσταση) 2. Εάν 3 rd moment < 3% και min 8% και skewness 48% (23), τότε πρόκειται για την κλάση (απόσταση) 3. Εάν 3 rd moment < 3% και min 8% και skewness 48% και mean < 4% (24), τότε πρόκειται για την κλάση (απόσταση) 4.

83 Αποτελέσματα πειραμάτων Μοντέλο 2 βασισμένο στον αλγόριθμο Random tree και την PCA Το μοντέλο 2 βασίζεται στους κανόνες απόφασης της εφαρμογής του Random Tree στα primary components (attr1, attr2, attr3) που προκύπτουν μετά από εφαρμογή PCA στα διανύσματα χαρακτηριστικών (μεγάλης διάστασης) της περίπτωσης 4. Εικόνα 4-5: Κανόνες απόφασης Random Tree για την περίπτωση 4 μετά την εφαρμογή PCA Οι αναλυτικές εκφράσεις των primary components δίνονται παρακάτω: Att1=-0.374Std Mad Var M Mean NaNp Skewness Kurtosis Max-0.179Range Trimmean Harmmean Min Median (25) Attr2= Harmmean Trimmean Min Median Range Max Kurtosis Skewness NaNp Mean M Var Mad Std (26) Attr3 = Median Kurtosis Max Range Skewness Trimmean Harmmean Min Mean Std Mad Var M NaNp (27) Όπου Std: Standard deviation (Τυπική απόκλιση), Mad: Mean Absolute Deviation (Μέση απόλυτη απόκλιση), Var: Variance (Διακύμανση), M3: 3 rd Moment (3 η κεντρική ροπή), Mean (Μέση τιμή), NaNp: NaN percentage (Ποσοστό τιμών NaN), Skewness

84 68 Αποτελέσματα πειραμάτων (Ασυμμετρία), Kurtosis (Κύρτωση), Max=Maximum (Μέγιστη τιμή), Min=Minimum (Ελάχιστη τιμή), Median (Διάμεσος), Harmmean: Harmonic Mean (Αρμονική μέση τιμή), Trimmean: Mean excluding outliers (Μέση τιμή μετά την αποκοπή ακραίων τιμών), Range (Εύρος) Αν εκφράσουμε τα κατώφλια απόφασης του αλγορίθμου (εικόνα 4-4) ως ποσοστά επί τοις εκατό του εύρους τιμών του εκάστοτε χαρακτηριστικού, όπως φαίνεται στον Πίνακα 4-14, προκύπτει το γενικευμένο δέντρο απόφασης της εικόνας 4-5. Πίνακας 4-14: Υπολογισμός ποσοστών κατωφλίων για το μοντέλο 2 Χαρακτηριστικό Ελάχιστη τιμή Μέγιστη τιμή Κατώφλι Ποσοστό κατωφλίου Attribute 1 (Attr1) Attribute 1 (Attr1) Attribute 3 (Attr3) Attribute 2 (Attr2) Attribute 2 (Attr2) % % % % % Ακολουθώντας τις διαδρομές του δέντρου, προκύπτουν οι σχέσεις του μοντέλου: Εάν Attr1 < 63% (28), τότε πρόκειται για την κλάση (απόσταση) 0. Εάν 63% Attr1 < 77% (30), τότε πρόκειται για την κλάση (απόσταση) 1. Εάν Attr1 77% και Attr2 88% (31) ή Attr2 77% και 38% Attr2 88% (32), τότε πρόκειται για την κλάση (απόσταση) 2.

85 Αποτελέσματα πειραμάτων 69 Εάν Attr1 77% και min Attr2 < 38% (33), τότε πρόκειται για την κλάση (απόσταση) 3. Εάν Attr1 77% και Attr3 85,5% (34), τότε πρόκειται για την κλάση (απόσταση) 4. Εικόνα 4-6: Γενικευμένο δέντρο απόφασης του μοντέλου 2

86 5 Συμπεράσματα 5.1 Συμπεράσματα Παρατηρώντας τα αποτελέσματα στο Κεφάλαιο 4, συμπεραίνουμε ότι η διαδικασία που προτάθηκε μπορεί να δώσει υπό προϋποθέσεις καλά αποτελέσματα εκτίμησης της απόστασης των οργανισμών με βάση μόνο τα δεδομένα των πρωτεϊνικών συγκρίσεων, επομένως επιτύχουμε ένα proof-of-concept. Τα μοντέλα που προτάθηκαν θα μπορούσαν να εφαρμοστούν στο χώρο της μεταγονιδιωματικής (metagenomics) για την διάκριση κοινοτήτων και την αναγνώριση κυρίαρχων χαρακτηριστικών και τάσεων σε ένα σύνολο δεδομένων για το οποίο δεν υπάρχει a priori γνώση. Τα επιμέρους συμπεράσματα που προέκυψαν με την εφαρμογή της παρούσας μεθοδολογίας είναι τα εξής: Τα καλύτερα αποτελέσματα ταξινόμησης προκύπτουν από δεδομένα που έχουν υ- ποστεί μια διαδικασία κανονικοποίησης. Με τη διαδικασία, αυτή μπορούμε να πούμε ότι αφαιρείται ο θόρυβος του «εξελικτικού σήματος» από τον πίνακα των δεδομένων, οπότε μένει η χρήσιμη πληροφορία. Είναι δυνατόν τα επιτευχθούν καλά αποτελέσματα ταξινόμησης με τη χρήση ευρέως χρησιμοποιούμενων στατιστικών μέτρων σύνοψης χωρίς να εφαρμοστεί κάποιος μετασχηματισμός. Οι διαδικασίες γέννησης χαρακτηριστικών και μείωσης διάστασης δεν προσέφεραν ιδιαίτερη βελτίωση στα αποτελέσματα της ταξινόμησης. Μάλιστα, η εφαρμογή ICA χειροτέρευε τα αποτελέσματα ταξινόμησης, γεγονός που μας οδηγεί στο συμπέρασμα ότι τα στατιστικά μέτρα που επιλέχθηκαν δεν πληρούν πιθανόν τις συνθήκες εφαρμογής της ICA. Ο αλγόριθμος Random Tree δίνει έναν καλό διαχωρισμό των κλάσεων που αντιστοιχούν στις εξελικτικές αποστάσεις.

87 Συμπεράσματα 71 Στο σύνολο των πειραμάτων ταξινόμησης που έγιναν, η κλάση που αντιστοιχούσε σε εξελικτική απόσταση 2 θέσεων (στο φυλογενετικό δέντρο) παρουσίαζε τη μικρότερη συνεκτικότητα των δεδομένων, καθώς εντοπιζόταν σε τουλάχιστον δύο κόμβους των δέντρων απόφασης. Να σημειωθεί ωστόσο, ότι οι παραπάνω παρατηρήσεις έγιναν για ένα σύνολο δεδομένων που παρείχε ικανοποιητική φυλογενετική ποικιλομορφία. 5.2 Μελλοντικές επεκτάσεις Μελλοντικές επεκτάσεις μπορούν να γίνουν τόσο σε βιολογικό όσο και σε τεχνικό επίπεδο. Το επόμενο βήμα που θα πρέπει να γίνει σε βιολογικό επίπεδο είναι η δοκιμή και αξιολόγηση των μοντέλων που αναπτύχθηκαν για άλλα σύνολα οργανισμών με ευρεία αλλά και πιο περιορισμένη φυλογενετική ποικιλομορφία, προκειμένου να α- ξιολογηθεί η αξιοπιστία του μοντέλου. Επίσης, μια ενδελεχής έρευνα των μοτίβων ταξινόμησης (ποιες κλάσεις/αποστάσεις εκτιμώνται σωστά, σε ποιες παρουσιάζονται σφάλματα εκτιμήσεων και ποιες συγχέονται μεταξύ τους), θα μπορούσε να οδηγήσει σε χρήσιμα συμπεράσματα για τυχόν ιδιομορφίες που αν ληφθούν υπόψιν, θα μπορούσαν να βελτιώσουν το υπάρχον μοντέλο. Για την επέκταση του μοντέλου σε τεχνικό επίπεδο, ένα πρώτο βήμα θα ήταν η εκτίμηση κατωφλίων στους συντελεστές των γραμμικών σχέσεων των στατιστικών χαρακτηριστικών στο μοντέλο 2, ώστε να γίνει πιο γενικό το μοντέλο. Επίσης, θα μπορούσε να μελετηθεί και η επίδοση άλλων αλγορίθμων και τεχνικών γέννησης χαρακτηριστικών που πιθανόν να οδηγήσουν σε βελτίωση ή τροποποίηση του μοντέλου. Τέλος, απαραίτητη κρίνεται η παραλληλοποίηση της επεξεργασίας των αρχικών δεδομένων, ώστε η μεθοδολογία να εφαρμοστεί και σε σύνολα δεδομένων που προκύπτουν από οργανισμούς με πολύ μεγαλύτερα γονιδιώματα από τους υπό εξέταση οργανισμούς.

88 Βιβλιογραφία [1] Wikipedia, Bioinformatics, ηλεκτρονική πηγή: [2] Wikipedia, Βιοπληροφορική, ηλεκτρονική πηγή: %CE%BF%CF%86%CE%BF%CF%81%CE%B9%CE%BA%CE%AE [3] Wikipedia, Evolution, ηλεκτρονική πηγή: [4] Wikipedia, Εξέλιξη, ηλεκτρονική πηγή: %CE%BF%CF%81%CF%86%CE%B1_%CE%B3%CE%BF%CE%BD%CE%AF%C E%B4%CE%B9%CE%B1 [5] Σημειώσεις Εργαστηρίου Γενετικής, Γεωπονικό Πανεπιστήμιο Αθηνών, Τμήμα Βιοτεχνολογίας, ηλεκτρονική πηγή: _phyl_tree.pdf [6] JosephW. Thornton, Rob DeSalle, Gene family evolution and homology: genomics meets phylogenetics, Annu. Rev. Genom. Human Genet, 1:41-73, 2000 [7] Long et al., New Gene Evolution Little Did We Know, Annual Review of Genetics, 47:325 51, 2013 [8] Rasmus Nielsen, Molecular Signatures of Natural Selection, Annual Review of Genetics, 39: , 2005 [9] Mark Holder, Paul O. Lewis, Phylogeny Estimation: Traditional and Bayesian Approaches, Nature Reviews, Genetics, 4: , 2003 [10] Δημήτριος Κουτσούρης, Ιωάννης Μακρής, Επισκόπηση σε βασικές αρχές μοριακής βιολογίας και βιοπληροφορικής, Εθνικό Μετσόβιο Πολυτεχνείο, Αθήνα

89 Βιβλιογραφία 73 [11] Wikipedia, Computational Phylogenetics, ηλεκτρονική πηγή: [12] Wikipedia, «Μοριακό Ρολόι», ηλεκτρονική πηγή: %CF%81%CE%BF%CE%BB%CF%8C%CE%B9 [13] Paul Janssen et al., COmplete GENome Tracking (COGENT): a flexible data environment for computational genomics, Oxford Journals, Bioinformatics, 19 (11): , 2003 [14] Wikipedia, Summary Statistics, ηλεκτρονική πηγή: [15] BLAST, FAQs, ηλεκτρονική πηγή: cs&doc_type=faq#expect [16] Ντάλλα Μαρία, Εφαρµογή του αλγορίθµου BLAST στην αναγνώριση µεταλλάξεων γονιδιακών ακολουθιών, Διπλωματική Εργασία, Πανεπιστήμιο Πατρών, Πάτρα, 2011 [17] Mathworks, Summary Statistics, ηλεκτρονική πηγή: [18] Wikipedia, Mode (Statistics), ηλεκτρονική πηγή: [19] Wikipedia, Interquartile mean, ηλεκτρονική πηγή: [20] Wikipedia, Moment (Mathematics), ηλεκτρονική πηγή: [21] Wikipedia, Skewness, ηλεκτρονική πηγή: [22] Wikipedia, Kurtosis, ηλεκτρονική πηγή:

90 74 Βιβλιογραφία [23] Δημήτρης Σωτηρόπουλος, Μέτρα Διασποράς, Δημοκρίτειο Πανεπιστήμιο Θράκης, B1%20%CE%94%CE%B9%CE%B1%CF%83%CF%80%CE%BF%CF%81%CE%A C%CF%82(measures%20of%20dispersion).pdf [24] S.Theodoridis, K.Koutroumbas, «Αναγνώριση Προτύπων», Εκδόσεις Π.Χ.Πασχαλίδης, Αθήνα, 2012 [25] James V.Stone, Independent Component Analysis A Tutorial Introduction, The MIT Press Cambridge, Massachusetts, 2004 [26] G.Tesler, Principal Components Analysis (PCA) and Singular Value Decomposition (SVD) with applications to Microarrays, University of California, San Diego, ηλεκτρονική πηγή: [27] Sae Lee, Lecture 16: PCA and SVD, The State University of New York, Stony Brook University, ηλεκτρονική πηγή: [28] Ian H.Witten, Eibe Frank, Data Mining Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann Publishers, 2000 [29] Wikipedia, C4.5 algorithm, Ηλεκτρονική πηγή: [30] Predicting Country Happiness using WEKA Data Mining, ηλεκτρονική πηγή:

91 Παράρτημα Ταξινόμηση με διανύσματα μεγάλης διάστασης και χωρίς μετασχηματισμό για την περίπτωση 3 (Random Tree)

92 76 Παράρτημα Ταξινόμηση με διανύσματα μεγάλης διάστασης και χωρίς μετασχηματισμό για την περίπτωση 4 (Random Tree)

93 Παράρτημα 77 Ταξινόμηση με διανύσματα μεγάλης διάστασης και χωρίς μετασχηματισμό για την περίπτωση 4 (LAD)

ΦΥΛΟΓΕΝΕΤΙΚ Α ΔΕΝΤΡΑ

ΦΥΛΟΓΕΝΕΤΙΚ Α ΔΕΝΤΡΑ ΦΥΛΟΓΕΝΕΤΙΚΑ ΔΕΝΤΡΑ Χαρακτηριστική πτυχή της ζωής είναι η απεριόριστη ποικιλότητα της. Δεν υπάρχουν δύο ίδια άτομα σε έναν πληθυσμό, δύο ίδιοι πληθυσμοί σε ένα είδος, δύο ίδια είδη, κ. ο. κ. Παντού, υπάρχει

Διαβάστε περισσότερα

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ. Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Πρωτεύοντα ΙΙΙ Χρήση µοριακών δεδοµένων Φυλογένεση Η φυλογένεσης αφορά την ανεύρεση των συνδετικών εκείνων κρίκων που συνδέουν τα διάφορα είδη µεταξύ τους εξελικτικά, σε µονοφυλετικές

Διαβάστε περισσότερα

(Μερος 2 ο ) Εισηγητής: Ν. Πουλακάκης

(Μερος 2 ο ) Εισηγητής: Ν. Πουλακάκης Ταξινομικοί χαρακτήρες και Φυλογενετική ανασύσταση. Σχολές ταξινόμησης. Θεωρίες για την Ταξινομική. Φυλογενετική ανάλυση: Μοριακή συστηματική. Οι κύριες διαιρέσεις της Ζωής. (Μερος 2 ο ) Εισηγητής: Ν.

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Βιοπληροφορική Ενότητα 16: Μεθοδολογίες (Ανα-) Κατασκευής, 2 ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι Επεξήγηση των μεθόδων (ανα-)κατασκευής φυλογενετικών δέντρων. Παρουσίαση

Διαβάστε περισσότερα

Μέθοδοι μελέτης εξέλιξης

Μέθοδοι μελέτης εξέλιξης H διερεύνηση της μοριακής βάσης της εξέλιξης βασίζεται σε μεγάλο βαθμό στη διευκρίνιση της διαδικασίας με την οποία μετασχηματίσθηκαν στη διάρκεια της εξέλιξης πρωτεϊνες, άλλα μόρια και βιοχημικές πορείες

Διαβάστε περισσότερα

TreeTOPS. ένα εισαγωγικό παιχνίδι για τα φυλογενετικά δέντρα. Teacher s Guide. ELLS European Learning Laboratory for the Life Sciences

TreeTOPS. ένα εισαγωγικό παιχνίδι για τα φυλογενετικά δέντρα. Teacher s Guide. ELLS European Learning Laboratory for the Life Sciences TreeTOPS ένα εισαγωγικό παιχνίδι για τα φυλογενετικά δέντρα Teacher s Guide ELLS European Learning Laboratory for the Life Sciences 1 Γενικός σκοπός Το συγκεκριμένο παιχνίδι έχει ως στόχο να εισάγει τους

Διαβάστε περισσότερα

Περιεχόμενα. 1 Η ιστορία της εξελικτικής βιολογίας: Εξέλιξη και Γενετική 2 Η Προέλευση της Μοριακής Βιολογίας 3 Αποδείξεις για την εξέλιξη 89

Περιεχόμενα. 1 Η ιστορία της εξελικτικής βιολογίας: Εξέλιξη και Γενετική 2 Η Προέλευση της Μοριακής Βιολογίας 3 Αποδείξεις για την εξέλιξη 89 Περιεχόμενα Οι Συγγραφείς Πρόλογος της Ελληνικής Έκδοσης Πρόλογος της Αμερικανικής Έκδοσης Σκοπός και Αντικείμενο του Βιβλίου ΜΕΡΟΣ Ι ΜΙΑ ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΕΞΕΛΙΚΤΙΚΗΣ ΒΙΟΛΟΓΙΑΣ 1 Η ιστορία της εξελικτικής

Διαβάστε περισσότερα

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ

Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Μάθημα 16 ο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Περιεχόμενα Παρουσίασης Βιολογικό υπόβαθρο Το κεντρικό αξίωμα Σύνοψη της Βιοπληροφορικής Ερευνητικές περιοχές Πηγές πληροφοριών Τι είναι η Βιοπληροφορική Βιο Πληροφορική μοριακή

Διαβάστε περισσότερα

Φυλογένεση. 5o εργαστήριο

Φυλογένεση. 5o εργαστήριο Φυλογένεση 5o εργαστήριο Φυλογένεση οργανισµών Δείχνει την εξελικτική πορεία µιας οµάδας οργανισµών. Οι κόµβοι (nodes) στο δένδρο απεικονίζουν γεγονότα ειδογένεσης. H φυλογένεση µπορεί να γίνει από µια

Διαβάστε περισσότερα

Δασική Γενετική Εισαγωγή: Βασικές έννοιες

Δασική Γενετική Εισαγωγή: Βασικές έννοιες Δασική Γενετική Εισαγωγή: Βασικές έννοιες Χειμερινό εξάμηνο 2014-2015 Γενετική Πειραματική επιστήμη της κληρονομικότητας Προέκυψε από την ανάγκη κατανόησης της κληρονόμησης οικονομικά σημαντικών χαρακτηριστικών

Διαβάστε περισσότερα

Ενότητα: ΠΟΣΟΤΙΚΗ ΜΕΘΟΔΟΛΟΓΙΑ - ΕΞΕΛΙΚΤΙΚΗ ΘΕΩΡΙΑ. Διδάσκων : Επίκουρος Καθηγητής Στάθης Παπασταθόπουλος

Ενότητα: ΠΟΣΟΤΙΚΗ ΜΕΘΟΔΟΛΟΓΙΑ - ΕΞΕΛΙΚΤΙΚΗ ΘΕΩΡΙΑ. Διδάσκων : Επίκουρος Καθηγητής Στάθης Παπασταθόπουλος Τίτλος Μαθήματος: ΑΝΑΠΤΥΞΙΑΚΗ ΨΥΧΟΛΟΓΙΑ Ι Ενότητα: ΠΟΣΟΤΙΚΗ ΜΕΘΟΔΟΛΟΓΙΑ - ΕΞΕΛΙΚΤΙΚΗ ΘΕΩΡΙΑ Διδάσκων : Επίκουρος Καθηγητής Στάθης Παπασταθόπουλος Τμήμα: Φιλοσοφίας, Παιδαγωγικής και Ψυχολογίας ΑΝΑΠΤΥΞΙΑΚΗ

Διαβάστε περισσότερα

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας Βιοπληροφορική Ι Παντελής Μπάγκος Παν/µιο Στερεάς Ελλάδας Λαµία 2006 1 Βιοπληροφορική Ι Εισαγωγή: Ορισµός της Βιοπληροφορικής, Υποδιαιρέσεις της Βιοπληροφορικής, Τα είδη των δεδοµένων στη Βιοπληροφορική.

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Βιοπληροφορική Ενότητα 5: Στοίχιση ακολουθιών ανά ζεύγη, 2 ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι Κατανόηση της συσχέτισης ομολογίας ομοιότητας. Παρουσίαση των πληροφοριών

Διαβάστε περισσότερα

ΤΜΗΜΑ ΟΙΚΟΛΟΓΙΑΣ & ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ

ΤΜΗΜΑ ΟΙΚΟΛΟΓΙΑΣ & ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ ΕΝΟΤΗΤΕΣ ΥΛΗΣ Δρ. Κώστας Ποϊραζίδης, Δασολόγος ΤΜΗΜΑ ΟΙΚΟΛΟΓΙΑΣ & ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ 2009-2010 ΕΝΟΤΗΤΕΣ ΥΛΗΣ ΕΝΟΤΗΤΑ 2.2: Ορισμός είδους, Συστηματική, Οικολογία και Εξέλιξη, Φυσική επιλογή

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 15: Φυλογενετική Ανάλυση, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου

Βιοπληροφορική. Ενότητα 15: Φυλογενετική Ανάλυση, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Βιοπληροφορική Ενότητα 15: Φυλογενετική Ανάλυση, 1 ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι παρουσίαση και ανάδειξη της σημασίας της φυλογενετικής ανάλυσης. παρουσίαση των

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ Παύλος Αντωνίου Με μια ματιά: Εισαγωγή στη Βιολογία Ευθυγράμμιση Ακολουθιών Αναζήτηση ομοίων ακολουθιών από βάσεις δεδομενων Φυλογενετική πρόβλεψη Πρόβλεψη

Διαβάστε περισσότερα

Λίγη εξέλιξη: οµολογία

Λίγη εξέλιξη: οµολογία Φυλογένεση Η εκτίµηση της εξελικτικής ιστορίας γονιδίων/πρωτεϊνών ή οργανισµών. Η απεικόνιση αυτής της ιστορίας γίνεται µε φυλογράµµατα/ κλαδογράµµατα Λίγη εξέλιξη: οµολογία Οµόλογα γονίδια: κοινός εξελικτικός

Διαβάστε περισσότερα

Βιολογία Ο.Π. Θετικών Σπουδών Γ' Λυκείου

Βιολογία Ο.Π. Θετικών Σπουδών Γ' Λυκείου Βιολογία Ο.Π. Θετικών Σπουδών Γ' Λυκείου ΘΕΜΑ Α Α1. Η αναλογία Α+G/T+C στο γενετικό υλικό ενός ιού είναι ίση με 2/3. Ο ιός μπορεί να είναι: α. ο φάγος λ. β. ο ιός της πολιομυελίτιδας. γ. φορέας κλωνοποίησης

Διαβάστε περισσότερα

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών

ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών ΑΣΚΗΣΗ 4η Αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών ΕΙΣΑΓΩΓΗ Η αναζήτηση οµοιοτήτων σε βάσεις δεδοµένων ακολουθιών (database similarity searching) αποτελεί µια από τις συχνότερα χρησιµοποιούµενες

Διαβάστε περισσότερα

ΕΞΕΛΙΚΤΙΚΗ ΠΑΛΑΙΟΝΤΟΛΟΓΙΑ

ΕΞΕΛΙΚΤΙΚΗ ΠΑΛΑΙΟΝΤΟΛΟΓΙΑ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΓΕΩΛΟΓΙΑΣ ΚΑΙ ΓΕΩΠΕΡΙΒΑΛΛΟΝΤΟΣ ΤΟΜΕΑΣ ΙΣΤΟΡΙΚΗΣ ΓΕΩΛΟΓΙΑΣ-ΠΑΛΑΙΟΝΤΟΛΟΓΙΑΣ ΕΞΕΛΙΚΤΙΚΗ ΠΑΛΑΙΟΝΤΟΛΟΓΙΑ ΤΙ ΕΙΝΑΙ Η ΦΥΛΟΓΕΝΕΣΗ ΤΙ ΜΑΣ ΛΕΝΕ ΤΑ ΦΥΛΟΓΕΝΕΤΙΚΑ

Διαβάστε περισσότερα

LALING/PLALING :

LALING/PLALING : 1. Άρθρα- δημοσιεύσεις Scopus DBLP Pubmed Google Scholar 2. Αναζήτηση νουκλεοτιδίου- πρωτεΐνης Entrez : http://www.ncbi.nlm.nih.gov/nuccore/ Uniprot (πρωτεΐνης): http://www.uniprot.org/ Blast : http://blast.ncbi.nlm.nih.gov/blast.cgi

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 1. Η ΠΡΟΕΛΕΥΣΗ ΚΑΙ Η ΕΠΙΔΡΑΣΗ ΤΗΣ ΕΞΕΛΙΚΤΙΚΗΣ ΣΚΕΨΗΣ

ΚΕΦΑΛΑΙΟ 1. Η ΠΡΟΕΛΕΥΣΗ ΚΑΙ Η ΕΠΙΔΡΑΣΗ ΤΗΣ ΕΞΕΛΙΚΤΙΚΗΣ ΣΚΕΨΗΣ ΚΕΦΑΛΑΙΟ 1. Η ΠΡΟΕΛΕΥΣΗ ΚΑΙ Η ΕΠΙΔΡΑΣΗ ΤΗΣ ΕΞΕΛΙΚΤΙΚΗΣ ΣΚΕΨΗΣ Οι αρχές της εξελικτικής σκέψης Η προέλευση των ειδών Ορθές και λανθασµένες αντιλήψεις σχετικά µε τη θεωρία της εξέλιξης Η θεωρία της εξέλιξης

Διαβάστε περισσότερα

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης

Μέθοδοι Φυλογένεσης. Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης Μέθοδοι Φυλογένεσης Μέθοδοι που βασίζονται σε αποστάσεις UPGMA Κοντινότερης γειτονίας (Neighbor joining) Fitch-Margoliash Ελάχιστης εξέλιξης Μέθοδοι που βασίζονται σε χαρακτήρες Μέγιστη φειδωλότητα (Maximum

Διαβάστε περισσότερα

Ταξινόµιση οργανισµών

Ταξινόµιση οργανισµών Ταξινόµιση οργανισµών Ιεραρχική κατηγοριοποίηση/ οµαδοποίηση οργανισµών. Linnaeus (1707-1778) οµαδοποίησε οργανισµούς µε βάση κοινούς χαρακτήρες. Αργότερα, η ταξινόµιση προσαρµόστηκε στην εξελικτική θεωρία

Διαβάστε περισσότερα

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Η επιστήμη της Βιολογίας έχει μετατραπεί τα τελευταία χρόνια σε μια υπερπλούσια σε πληροφορίες επιστήμη.

Διαβάστε περισσότερα

ΧΡΗΣΤΟΣ ΚΑΚΑΒΑΣ 1 ΒΙΟΛΟΓΟΣ

ΧΡΗΣΤΟΣ ΚΑΚΑΒΑΣ 1 ΒΙΟΛΟΓΟΣ ΚΕΦΑΛΑΙΟ 5ον ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ ΤΙ ΠΡΕΠΕΙ ΝΑ ΞΕΡΩ 1. Τι είναι κυτταρικός κύκλος, και τα δυο είδη κυτταρικής διαίρεσης. 2. Από τα γεγονότα της μεσόφασης να μην μου διαφεύγει η αντιγραφή του γενετικού

Διαβάστε περισσότερα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΟΜΑΔΑ Λ Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τι είναι η βιοπληροφορική; Αποκαλείται ο επιστημονικός κλάδος ο οποίος προέκυψε από

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Τα γεγονότα γονιδιωματικού αναδιπλασιασμού στην εξέλιξη. Whole genome

Τα γεγονότα γονιδιωματικού αναδιπλασιασμού στην εξέλιξη. Whole genome Τα γεγονότα γονιδιωματικού αναδιπλασιασμού στην εξέλιξη Whole genome duplication (WGD) Τα γεγονότα γονιδιωματικού αναδιπλασιασμού (WGD) στην εξέλιξη Αν και οι απόγονοι των γεγονότων WGD δεν επιβιώνουν

Διαβάστε περισσότερα

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014. Απαντήσεις Θεμάτων

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014. Απαντήσεις Θεμάτων Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014 Απαντήσεις Θεμάτων ΘΕΜΑ Α A1. Τα πλασμίδια είναι: δ. κυκλικά δίκλωνα μόρια DNA

Διαβάστε περισσότερα

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 10: Κατασκευή φυλογενετικών δέντρων

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 10: Κατασκευή φυλογενετικών δέντρων Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Βιοπληροφορική Ενότητα 10: Κατασκευή φυλογενετικών δέντρων Αν. καθηγητής Αγγελίδης Παντελής e-mail: paggelidis@uowm.gr ΕΕΔΙΠ Μπέλλου Σοφία e-mail: sbellou@uowm.gr

Διαβάστε περισσότερα

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων

ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων ΑΣΚΗΣΗ 3η Στοίχιση ακολουθιών βιολογικών µακροµορίων ΕΙΣΑΓΩΓΗ Ένας από τους πρωταρχικούς στόχους της σύγκρισης των ακολουθιών δύο µακροµορίων είναι η εκτίµηση της οµοιότητάς τους και η εξαγωγή συµπερασµάτων

Διαβάστε περισσότερα

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ Τρίτη 18 Ιουνίου 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ. (Ενδεικτικές Απαντήσεις)

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ Τρίτη 18 Ιουνίου 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ. (Ενδεικτικές Απαντήσεις) ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ Τρίτη 18 Ιουνίου 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (Ενδεικτικές Απαντήσεις) ΘΕΜΑ Α Α1. α Α2. β Α3. γ Α4. γ Α5. β ΘΕΜΑ Β Β1. 1-ζ 2-στ

Διαβάστε περισσότερα

(Μέρος 1 ο ) Εισηγητής: Ν. Πουλακάκης

(Μέρος 1 ο ) Εισηγητής: Ν. Πουλακάκης Ταξινομικοί χαρακτήρες και Φυλογενετική ανασύσταση. Σχολές ταξινόμησης. Θεωρίες για την Ταξινομική. Φυλογενετική ανάλυση: Μοριακή συστηματική. Οι κύριες διαιρέσεις της Ζωής. (Μέρος 1 ο ) Εισηγητής: Ν.

Διαβάστε περισσότερα

Εργαστήριο Δασικής Γενετικής και Βελτίωσης Δασοπονικών Ειδών. Προστασία Γενετικής Βιολογικής Ποικιλότητας

Εργαστήριο Δασικής Γενετικής και Βελτίωσης Δασοπονικών Ειδών. Προστασία Γενετικής Βιολογικής Ποικιλότητας Εργαστήριο Δασικής Γενετικής και Βελτίωσης Δασοπονικών Ειδών Προστασία Γενετικής Βιολογικής Ποικιλότητας 1 Βιολογική ποικιλότητα Βιολογική ποικιλότητα ή βιοποικιλότητα Έννοια με ευρεία αναφορά σε διεθνείς

Διαβάστε περισσότερα

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Στοιχεία της ανθρώπινης Βιολογίας

ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Στοιχεία της ανθρώπινης Βιολογίας ΦΥΣΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ Διαλέξη:7η 14/10/2015 Ε. Δ. Βαλάκος Στοιχεία της ανθρώπινης Βιολογίας Ταξινόµηση των ειδών Η θέση των ανθρώπων στη φύση Μέθοδοι ταξινόµησης Ταξινοµικές προσεγγίσεις Βιβλιογραφία Ταξινομηση

Διαβάστε περισσότερα

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά;

Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά; ΒΙΟΛΟΓΙΚΗ ΑΝΘΡΩΠΟΛΟΓΙΑ 12 26/10/2016 Κεφάλαιο 3 Α μέρος Εισαγωγή στη Γενετική και στη Γονιδιωματική Τι είναι η κληρονομικότητα, και πώς μεταβιβάζεται η πληροφορία από γενιά σε γενιά; Ποια είναι η δομή

Διαβάστε περισσότερα

Κεφάλαιο 5: ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ

Κεφάλαιο 5: ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ Κεφάλαιο 5: ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ -ΘΕΩΡΙΑ- Κληρονομικότητα: Η ιδιότητα των ατόμων να μοιάζουν με τους προγόνους τους. Κληρονομικοί χαρακτήρες: Οι ιδιότητες που κληρονομούνται στους απογόνους. Γενετική:

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ. Ο Mendel καλλιέργησε φυτά σε διάστημα 8 ετών για να φτάσει στη διατύπωση των νόμων της κληρονομικότητας

ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ. Ο Mendel καλλιέργησε φυτά σε διάστημα 8 ετών για να φτάσει στη διατύπωση των νόμων της κληρονομικότητας ΜΕΝΔΕΛΙΚΗ ΚΛΗΡΟΝΟΜΙΚΟΤΗΤΑ Ο Mendel καλλιέργησε 28.000 φυτά σε διάστημα 8 ετών για να φτάσει στη διατύπωση των νόμων της κληρονομικότητας Λόγοι επιτυχίας των πειραμάτων του Mendel 1. Μελέτησε μία ή δύο

Διαβάστε περισσότερα

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 5 η : Φυλογενετική ανάλυση 2. Ηλίας Καππάς Τμήμα Βιολογίας

ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ. Βιοπληροφορική. Ενότητα 5 η : Φυλογενετική ανάλυση 2. Ηλίας Καππάς Τμήμα Βιολογίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 η : Φυλογενετική ανάλυση 2 Ηλίας Καππάς Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014. Απαντήσεις Θεμάτων

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014. Απαντήσεις Θεμάτων Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014 Απαντήσεις Θεμάτων ΘΕΜΑ Α A1. Τα πλασμίδια είναι: δ. κυκλικά δίκλωνα μόρια DNA

Διαβάστε περισσότερα

Εργαστήριο Δασικής Γενετικής / ΔΠΘ Ορεστιάδα. Ποσοτική Γενετική ΒΕΛΤΙΩΣΗ & ΠΡΟΣΤΑΣΙΑ ΔΑΣΟΓΕΝΕΤΙΚΩΝ ΠΟΡΩΝ. Αριστοτέλης Χ.

Εργαστήριο Δασικής Γενετικής / ΔΠΘ Ορεστιάδα. Ποσοτική Γενετική ΒΕΛΤΙΩΣΗ & ΠΡΟΣΤΑΣΙΑ ΔΑΣΟΓΕΝΕΤΙΚΩΝ ΠΟΡΩΝ. Αριστοτέλης Χ. Εργαστήριο Δασικής Γενετικής / ΔΠΘ Ορεστιάδα Ποσοτική Γενετική ΒΕΛΤΙΩΣΗ & ΠΡΟΣΤΑΣΙΑ ΔΑΣΟΓΕΝΕΤΙΚΩΝ ΠΟΡΩΝ Αριστοτέλης Χ. Παπαγεωργίου Σύνοψη Τα γνωρίσματα που παρατηρούμε (φαινότυπος) είναι η συνδυασμένη

Διαβάστε περισσότερα

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α A1. α Α2. β Α3. γ Α4. γ Α5. β ΘΕΜΑ Β Β1. ζ στ α

Διαβάστε περισσότερα

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast

Ασκήσεις 1 & 2. Βάσεις Δεδομένων. Εργαλεία Αναζήτησης ClustalW & Blast Ασκήσεις 1 & 2 Βάσεις Δεδομένων Εργαλεία Αναζήτησης ClustalW & Blast Μοριακή Προσομοίωση Εισαγωγή: Δομική Βάση Βιολογικών Φαινομένων Η αξιοποίηση του πλήθους των δομικών στοιχείων για την εξαγωγή βιολογικά

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

Ειδικά θέματα Πληροφορικής Κινηματογραφίας

Ειδικά θέματα Πληροφορικής Κινηματογραφίας Ειδικά θέματα Πληροφορικής Κινηματογραφίας Real Time Design and Animation of Fractal Plants and Trees Peter E. Oppenheimer New York Institute of Technology Computer Graphics Lab Δανάη Τσούνη dpsd06051

Διαβάστε περισσότερα

Πληθυσμιακή και Ποσοτική Γενετική. Εξέλιξη

Πληθυσμιακή και Ποσοτική Γενετική. Εξέλιξη Πληθυσμιακή και Ποσοτική Γενετική Εξέλιξη Σύνοψη Οι πληθυσμοί χαρακτηρίζονται από τις συχνότητες των γενοτύπων και των αλληλομόρφων τους Κάθε πληθυσμός έχει τη δική του γενετική «δομή» Μπορούμε να μετρήσουμε

Διαβάστε περισσότερα

Κυριακή 15/02/2015 Ημερομηνία

Κυριακή 15/02/2015 Ημερομηνία Διαγώνισμα 2014-15 Ενδεικτικές απαντήσεις Κυριακή 15/02/2015 Ημερομηνία Βιολογία Κατεύθυνσης Εξεταζόμενο μάθημα Γ Λυκείου Τάξη Θέμα 1 ο : 1 α, 2 γ, 3 ε, 4 α, 5 ε Θέμα 2 ο : Α. Η απεικόνιση των μεταφασικών

Διαβάστε περισσότερα

Τυπικά θέματα εξετάσεων. ΠΡΟΣΟΧΗ: Οι ερωτήσεις που παρατίθενται ΔΕΝ καλύπτουν την πλήρη ύλη του μαθήματος και παρέχονται απλά ενδεικτικά

Τυπικά θέματα εξετάσεων. ΠΡΟΣΟΧΗ: Οι ερωτήσεις που παρατίθενται ΔΕΝ καλύπτουν την πλήρη ύλη του μαθήματος και παρέχονται απλά ενδεικτικά ΤΕΙ Κεντρικής Μακεδονίας Τμήμα Μηχανικών Πληροφορικής ΤΕ Μεταπτυχιακό Πρόγραμμα Τηλεπικοινωνιών & Πληροφορικής Μάθημα : 204a Υπολογιστική Ευφυία Μηχανική Μάθηση Καθηγητής : Σπύρος Καζαρλής Ενότηα : Εξελικτική

Διαβάστε περισσότερα

Κεφάλαιο 5: Μενδελική Κληρονομικότητα

Κεφάλαιο 5: Μενδελική Κληρονομικότητα Κεφάλαιο 5: Μενδελική Κληρονομικότητα 1. Ο Mendel. α. εξέταζε σε κάθε πείραμά του το σύνολο των ιδιοτήτων του μοσχομπίζελου β. χρησιμοποιούσε αμιγή στελέχη στις ιδιότητες που μελετούσε γ. χρησιμοποιούσε

Διαβάστε περισσότερα

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Βιοτεχνολογία Φυτών ΔΠΘ / Τμήμα Αγροτικής Ανάπτυξης ΠΜΣ Αειφορικά Συστήματα Παραγωγής και Περιβάλλον στη Γεωργία Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Αριστοτέλης Χ. Παπαγεωργίου Εργαστήριο

Διαβάστε περισσότερα

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1 α Α2 β Α3 γ Α4 γ Α5 β ΘΕΜΑ Β Β1. 1 ζ 2 στ 3

Διαβάστε περισσότερα

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων Σε αυτό το κεφάλαιο παρουσιάζουµε 2 βασικούς αλγορίθµους σύγκρισης ακολουθιών Βιολογικών εδοµένων τους BLAST & FASTA. Οι δυο αλγόριθµοι

Διαβάστε περισσότερα

Πρόβλημα. Σύνολο γνωστών αλληλουχιών

Πρόβλημα. Σύνολο γνωστών αλληλουχιών BLAST Πρόβλημα Άγνωστη αλληλουχία Σύνολο γνωστών αλληλουχιών Η χρήση ενός υπολογιστή κι ενός αλγόριθμου είναι απαραίτητη για την ανακάλυψη της σχέσης μιας αλληλουχίας με τις γνωστές υπάρχουσες Τί είναι

Διαβάστε περισσότερα

Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα

Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος. Μεζίτη Αλεξάνδρα Γονιδιωματική Συγκριτική γονιδιωματική[4] Τμήμα Γεωπονίας, Ιχθυολογίας και Υδάτινου Περιβάλλοντος Μεζίτη Αλεξάνδρα Μέγεθος και οργάνωση γονιδιωμάτων Μελετάμε τα γονιδιώματα για να καταλάβουμε πως λειτουργεί

Διαβάστε περισσότερα

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Φραγκίσκος Κολίσης Καθηγητής Βιοτεχνολογίας, Σχολή Χημικών Μηχανικών ΕΜΠ, Διευθυντής Ινστιτούτου Βιολογικών Ερευνών και Βιοτεχνολογίας, EIE

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΘΕΜΑ Α Α1 δ Α2 γ Α3 β Α4 γ Α5 β ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΘΕΜΑ Β Β1. 4 2 1 6 3 5 Β2. α. DNA πολυμεράση β. πριμόσωμα γ. DNA δεσμάση δ. DNA ελκάση ε. RNA πολυμεράση Β3. Σχολικό βιβλίο, Σελ.: 98: «Η διάγνωση των

Διαβάστε περισσότερα

ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ' ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ

ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ' ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ' ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΘΕΜΑ Α Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από τις παρακάτω ημιτελείς

Διαβάστε περισσότερα

Βιολογία. Γ ΚΥΚΛΟΣ ΠΡΟΣΟΜΟΙΩΤΙΚΩΝ ΔΙΑΓΩΝΙΣΜΑΤΩΝ ΣΥΓΧΡΟΝΟ Προτεινόμενα Θέματα Γ ΓΕΛ. Ιανουάριος προσανατολισμού ΘΕΜΑ Α

Βιολογία. Γ ΚΥΚΛΟΣ ΠΡΟΣΟΜΟΙΩΤΙΚΩΝ ΔΙΑΓΩΝΙΣΜΑΤΩΝ ΣΥΓΧΡΟΝΟ Προτεινόμενα Θέματα Γ ΓΕΛ. Ιανουάριος προσανατολισμού ΘΕΜΑ Α Βιολογία προσανατολισμού ΘΕΜΑ Α Να επιλέξετε τη σωστή απάντηση. Α1. Αν μια ασθένεια καθορίζεται από επικρατές φυλοσύνδετο γονίδιο θα εμφανίζεται: α. Σε όλους τους απογόνους εφόσον ο ένας γονέας έχει την

Διαβάστε περισσότερα

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Ένα από τα γνωστότερα παραδείγματα των ΕΑ είναι ο Γενετικός

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Μίτωση - Μείωση και φυλετικοί βιολογικοί κύκλοι Γ. Παπανικολάου MD, PhD

Μίτωση - Μείωση και φυλετικοί βιολογικοί κύκλοι Γ. Παπανικολάου MD, PhD Μίτωση - Μείωση και φυλετικοί βιολογικοί κύκλοι Γ. Παπανικολάου MD, PhD Ομοιότητα και διαφορά Κληρονομικότητα: η μεταβίβαση χαρακτηριστικών από τη μια γενιά στην άλλη Ποικιλία: εκτός από την ομοιότητα

Διαβάστε περισσότερα

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. σύγχρονο Φάσμα group προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. µαθητικό φροντιστήριο Γραβιάς 85 ΚΗΠΟΥΠΟΛΗ 50.51.557 50.56.296 25ης Μαρτίου 74 ΠΛ.ΠΕΤΡΟΥΠΟΛΗΣ 50.50.658 50.60.845 25ης Μαρτίου 111 ΠΕΤΡΟΥΠΟΛΗ 50.27.990

Διαβάστε περισσότερα

Φάσμα. προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Φάσμα. προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. σύγχρονο Φάσμα προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι. μαθητικό φροντιστήριο 25ης Μαρτίου 111 - ΠΕΤΡΟΥΠΟΛΗ - 210 50 20 990-210 50 27 990 25ης Μαρτίου 74 - ΠΕΤΡΟΥΠΟΛΗ - 210 50 50 658-210 50 60 845 Γραβιάς 85 -

Διαβάστε περισσότερα

ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ:ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019

ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ:ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ:ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΘΕΜΑ 1 ο A1. α Α2. β Α3. γ Α4. γ Α5. β ΘΕΜΑ 2 ο Β1. 1-ζ 2-στ 3-α 4-ε 5-β 6-δ Β2. Απάντηση: Σύνθεση DNA θα πραγματοποιηθεί στο μοριο

Διαβάστε περισσότερα

Θέματα Πανελλαδικών 2000-2013

Θέματα Πανελλαδικών 2000-2013 Θέματα Πανελλαδικών 2000-2013 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΗΜΕΡΗΣΙΩΝ ΛΥΚΕΙΩΝ ΕΣΠΕΡΙΝΩΝ ΛΥΚΕΙΩΝ ΕΠΑΝΑΛΗΠΤΙΚΕΣ Κεφάλαιο 5 ΚΕΦΑΛΑΙΟ 5 ΘΕΜΑ 1 ο Γράψτε τον αριθμό καθεμιάς από τις παρακάτω προτάσεις και δίπλα το γράμμα

Διαβάστε περισσότερα

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7

Εξερευνώντας την Εξέλιξη Κεφάλαιο 7 Εξερευνώντας την Εξέλιξη Κεφάλαιο 7 Εξερευνώντας την Εξέλιξη Σχέση μεταξύ αλληλουχίας αμινοξέων, δομής και λειτουργίας πρωτεϊνών Καταγωγή από έναν κοινό πρόγονο Εξελικτική Συγγένεια/Προέλευση Δύο ομάδες

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014 ΘΕΜΑ Α Α1. δ Α2. γ Α3. β Α4. γ Α5. β ΘΕΜΑ Β Β1. Η σειρά των βημάτων που οδηγούν στην κατασκευή καρυότυπου είναι: 4, 2, 1, 6, 3, 5 Β2. α.

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ

ΒΙΟΛΟΓΙΑ ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ 27 Μαΐου 2016 ΒΙΟΛΟΓΙΑ ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ Απαντήσεις Θεμάτων Πανελλαδικών Εξετάσεων Ημερησίων Γενικών Λυκείων (Νέο & Παλιό Σύστημα) ΘΕΜΑ Γ Γ.1 Ο χαρακτήρας της ομάδας αίματος στον άνθρωπο

Διαβάστε περισσότερα

ΤΑΞΗ: Α ΛΥΚΕΙΟΥ ΗΜΕΡ. : 19/05/2016 ΜΑΘΗΜΑ: ΧΗΜΕΙΑ-ΒΙΟΛΟΓΙΑ ΣΥΝΟΛΙΚΟΣ ΧΡΟΝΟΣ: 2 ΩΡΕΣ (120 ΛΕΠΤΑ) ΟΝΟΜΑΤΕΠΩΝΥΜΟ:... ΤΜΗΜΑ:.. ΑΡ.: ΠΡΟΣΟΧΗ ΚΑΘΕ ΕΠΙΤΥΧΙΑ

ΤΑΞΗ: Α ΛΥΚΕΙΟΥ ΗΜΕΡ. : 19/05/2016 ΜΑΘΗΜΑ: ΧΗΜΕΙΑ-ΒΙΟΛΟΓΙΑ ΣΥΝΟΛΙΚΟΣ ΧΡΟΝΟΣ: 2 ΩΡΕΣ (120 ΛΕΠΤΑ) ΟΝΟΜΑΤΕΠΩΝΥΜΟ:... ΤΜΗΜΑ:.. ΑΡ.: ΠΡΟΣΟΧΗ ΚΑΘΕ ΕΠΙΤΥΧΙΑ ΛΥΚΕΙΟ ΑΚΡΟΠΟΛΕΩΣ ΣΧΟΛΙΚΗ ΧΡΟΝΙΑ 2015-2016 ΓΡΑΠΤΕΣ ΠΡΟΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΙΟΥΝΙΟΥ 2016 ΒΑΘΜΟΣ.../35 ΟΛΟΓΡΑΦΩΣ ΥΠΟΓΡΑΦΗ:. ΤΑΞΗ: Α ΛΥΚΕΙΟΥ ΗΜΕΡ. : 19/05/2016 ΜΑΘΗΜΑ: ΧΗΜΕΙΑ-ΒΙΟΛΟΓΙΑ ΣΥΝΟΛΙΚΟΣ ΧΡΟΝΟΣ: 2 ΩΡΕΣ

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ

ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ 1. Το γενεαλογικό δένδρο είναι η διαγραμματική απεικόνιση των μελών μιας οικογένειας για πολλές γενιές, στην οποία αναπαριστώνται οι γάμοι, η σειρά των γεννήσεων, το φύλο

Διαβάστε περισσότερα

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ

BIOXHMEIA, TOMOΣ I ΠANEΠIΣTHMIAKEΣ EKΔOΣEIΣ KPHTHΣ ΠΕΡΙΓΡΑΜΜΑ 2.1 ΒΑΣΙΚΑ ΟΡΓΑΝΙΚΑ ΜΟΡΙΑ ΧΡΗΣΙΜΟΠΟΙΟΥΝΤΑΙ ΑΠΌ ΤΟΥΣ ΖΩΝΤΕΣ ΟΡΓΑΝΙΣΜΟΥΣ 2.2 Η ΕΞΕΛΙΞΗ ΧΡΕΙΑΖΕΤΑΙ ΑΝΑΠΑΡΑΓΩΓΗ, ΠΟΙΚΙΛΟΜΟΡΦΙΑ, ΚΑΙ ΕΞΕΛΙΚΤΙΚΗ ΠΙΕΣΗ 2.3 ΕΝΕΡΓΕΙΑΚΟΙ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ ΕΊΝΑΙ ΑΠΑΡΑΙΤΗΤΟΙ

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Α.Μ. 123/04 ΕΠΙΒΛΕΠΩΝ: ΣΑΜΑΡΑΣ ΝΙΚΟΛΑΟΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΝΙΟΣ 2007 Περιεχόμενα

Διαβάστε περισσότερα

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ

ΤΕΛΟΣ 1ΗΣ ΑΠΟ 6 ΣΕΛΙΔΕΣ ΘΕΜΑ Α ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΗΜΕΡΗΣΙΩΝ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΕΞΙ (6) Να γράψετε στο τετράδιό

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β 1 ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΤΕΤΑΡΤΗ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2014 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ:

Διαβάστε περισσότερα

Μεθοδολογία επίλυσης ασκήσεων Γενετικής

Μεθοδολογία επίλυσης ασκήσεων Γενετικής Μεθοδολογία επίλυσης ασκήσεων Γενετικής Νόμοι του Mendel 1. Σε όλες τις ασκήσεις διασταυρώσεων αναφέρουμε τον 1 ο νόμο του Mendel (νόμο διαχωρισμού των αλληλόμορφων γονιδίων). 2. Σε ασκήσεις διυβριδισμού

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013

ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013 ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013 ΘΕΜΑ Α Α1. γ Α2. β Α3. α Α4. δ Α5. α ΘΕΜΑ Β Β1. Σελ. 123 124 σχολ. βιβλίου: «Η διαδικασία που ακολουθείται παράγουν το ένζυμο ADA». Β2. Σελ. 133 σχολ.

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Ζωική Ποικιλότητα. Ενότητα 7. Συγκριτική Θεώρηση της Δομής και Λειτουργίας των Ζώων

Ζωική Ποικιλότητα. Ενότητα 7. Συγκριτική Θεώρηση της Δομής και Λειτουργίας των Ζώων Ζωική Ποικιλότητα Ενότητα 7. Συγκριτική Θεώρηση της Δομής και Λειτουργίας των Ζώων Ρόζα Μαρία Τζαννετάτου Πολυμένη, Επίκουρη Καθηγήτρια Σχολή Θετικών Επιστημών Τμήμα Βιολογίας Συγκριτική Μορφολογία 1/3

Διαβάστε περισσότερα

ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: ΜΑΘΗΜΑ / ΤΑΞΗ: ΒΙΟΛΟΓΙΑ ΟΠ Γ ΛΥΚΕΙΟΥ (ΘΕΡΙΝΑ) ΗΜΕΡΟΜΗΝΙΑ: 22/01/2017 ΕΠΙΜΕΛΕΙΑ ΔΙΑΓΩΝΙΣΜΑΤΟΣ: ΝΟΤΑ ΛΑΖΑΡΑΚΗ ΘΕΜΑ Α Να επιλέξετε τη φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: 1. Από

Διαβάστε περισσότερα

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2018 A ΦΑΣΗ ΒΙΟΛΟΓΙΑ ΑΛΓΟΡΙΘΜΟΣ

ΟΜΟΣΠΟΝΔΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑΔΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2018 A ΦΑΣΗ ΒΙΟΛΟΓΙΑ ΑΛΓΟΡΙΘΜΟΣ ΤΑΞΗ: Γ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΣ: ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ Ημερομηνία: Σάββατο 13 Ιανουαρίου 2018 Διάρκεια Εξέτασης: 3 ώρες ΕΚΦΩΝΗΣΕΙΣ ΘΕΜΑ Α Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς

Διαβάστε περισσότερα

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΕΠΤΑ (7)

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΕΠΤΑ (7) ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 18 ΙΟΥΝΙΟΥ 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΕΠΤΑ (7) ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΠΛΗΡΕΙΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. α Α2. β

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Βιοπληροφορική Ενότητα 9: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Στατιστική Σημαντικότητα, 1 ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι Παρουσίαση των εφαρμογών της αναζήτησης

Διαβάστε περισσότερα

Τριαδικό σύστημα του Salthe (1985) επίπεδα σημειωτικών διεργασιών.

Τριαδικό σύστημα του Salthe (1985) επίπεδα σημειωτικών διεργασιών. Τριαδικό σύστημα του Salthe (1985) επίπεδα σημειωτικών διεργασιών. Υψηλότερο επίπεδο-εκλεκτικό σημειωτικό περιβάλλον ή πλαίσιο-όροι ορίου-συνοριακές συνθήκες-εκλεκτικός ρυθμιστικός ρόλος-μακροσημειωτικό

Διαβάστε περισσότερα

Σκορπιός Χειλόποδο Διπλόποδο Ορθόπτερο Ημίπτερο Υμενόπτερο Κολεόπτερο. Φυλογενετικό δέντρο

Σκορπιός Χειλόποδο Διπλόποδο Ορθόπτερο Ημίπτερο Υμενόπτερο Κολεόπτερο. Φυλογενετικό δέντρο Σχολές Συστηματικής Σκορπιός Χειλόποδο Διπλόποδο Ορθόπτερο Ημίπτερο Υμενόπτερο Κολεόπτερο Φυλογενετικό δέντρο Σκορπιός Χειλόποδο Διπλόποδο Ορθόπτερο Ημίπτερο Υμενόπτερο Κολεόπτερο 14 12 11 7 Φαινόγραμμα

Διαβάστε περισσότερα

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 19 ΙΟΥΝΙΟΥ 2018 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΠΕΝΤΕ (5)

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 19 ΙΟΥΝΙΟΥ 2018 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΠΕΝΤΕ (5) ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 19 ΙΟΥΝΙΟΥ 2018 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΠΕΝΤΕ (5) ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α A1 δ A2 β A3 α A4 α

Διαβάστε περισσότερα

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ // Γ γ ΙΑΤΡ λυκείου Γ ΘΕΤ2 ΗΜΕΡΟΜΗΝΙΑ: 29/12/

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ // Γ γ ΙΑΤΡ λυκείου Γ ΘΕΤ2 ΗΜΕΡΟΜΗΝΙΑ: 29/12/ ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ // Γ γ ΙΑΤΡ λυκείου Γ ΘΕΤ2 ΗΜΕΡΟΜΗΝΙΑ: 29/12/2015 29 12 2016 ΘΕΜΑ 1 ο Επιλέξτε τη σωστή απάντηση που συμπληρώνει τις παρακάτω προτάσεις: 1. Η περιοριστική

Διαβάστε περισσότερα

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική

Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική Εφαρμοσμένη Βιοτεχνολογία Εργαστηριακή Άσκηση Εισαγωγή στην Βιοπληροφορική Δραστηριότητες 1. Εύρεση γονιδίων/πρωτεϊνών από βάσεις δεδομένων 2. Ευθυγράμμιση και σύγκριση γονιδίων/πρωτεϊνών 3. Δημιουργία

Διαβάστε περισσότερα

ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΜΑ 1 ο Στις ερωτήσεις 1-5 να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης και δίπλα του το γράμμα που αντιστοιχεί στη σωστή απάντηση. 1. Στο πείραμα

Διαβάστε περισσότερα

Διαγώνισμα Βιολογίας Προσανατολισμού Γ Λυκείου

Διαγώνισμα Βιολογίας Προσανατολισμού Γ Λυκείου Διαγώνισμα Βιολογίας Προσανατολισμού Γ Λυκείου ΘΕΜΑ Α Να βάλετε σε κύκλο το γράμμα που αντιστοιχεί στη σωστή απάντηση ή στη φράση που συμπληρώνει σωστά την πρόταση. Α1. Ουδέτερη μετάλλαξη μπορεί να είναι:

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΘΕΜΑ 1ο Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από τις παρακάτω ημιτελείς προτάσεις 1 έως 5 και δίπλα το γράμμα που αντιστοιχεί στη λέξη ή τη φράση, η οποία

Διαβάστε περισσότερα

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

Βιοπληροφορική. Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Βιοπληροφορική Ενότητα 10: Αναζήτηση Ομοιοτήτων σε ΒΔ Ακολουθιών - Blast, (1/2) 1ΔΩ Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ. Θηραίου Μαθησιακοί Στόχοι Αναφορά στις παραλλαγές του BLAST. Εξοικείωση με τη

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1 Α 2 Γ 3 Α 4 Β 5 Α 6 Α 7 Γ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1 Α 2 Γ 3 Α 4 Β 5 Α 6 Α 7 Γ ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ 1 ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β) ΠΑΡΑΣΚΕΥΗ 27 ΜΑΪΟΥ 2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΝΕΟ ΣΥΣΤΗΜΑ) ΒΙΟΛΟΓΙΑ

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΜΑ Α Α1. Δ Α2. Β Α3.Α Α4.Α Α5.Β ΘΕΜΑ Β Β1. 1. Γ, 2. Β, 3. Γ, 4. Α, 5. Γ, 6. Γ, 7. Β

ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΜΑ Α Α1. Δ Α2. Β Α3.Α Α4.Α Α5.Β ΘΕΜΑ Β Β1. 1. Γ, 2. Β, 3. Γ, 4. Α, 5. Γ, 6. Γ, 7. Β ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΘΕΜΑ Α Α1. Δ Α2. Β Α3.Α Α4.Α Α5.Β ΘΕΜΑ Β Β1. 1. Γ, 2. Β, 3. Γ, 4. Α, 5. Γ, 6. Γ, 7. Β Β2. Ο μικροοργανισμός Β είναι αυτός που μπορεί να ανήκει στο γένος Lactobacillus.

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΓΕΝΙΚΟ ΛΥΚΕΙΟ

ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΓΕΝΙΚΟ ΛΥΚΕΙΟ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΓΕΝΙΚΟ ΛΥΚΕΙΟ 19-6-2019 ΘΕΜΑ Α Α1. - α Α2. β Α3. γ Α4. γ Α5. β ΘΕΜΑ Β Β1. α1 αντιθρυψίνη-εμφύσημα Πρωτεΐνη επιθηλικών κυττάρων κυστική ίνωση Απαμινάση της αδενοσίνης Ανοσολογική

Διαβάστε περισσότερα

Βιολογία Ζώων Ι. Σίνος Γκιώκας. Πανεπιστήμιο Πατρών Τμήμα Βιολογίας. Πάτρα 2015

Βιολογία Ζώων Ι. Σίνος Γκιώκας. Πανεπιστήμιο Πατρών Τμήμα Βιολογίας. Πάτρα 2015 Βιολογία Ζώων Ι Σίνος Γκιώκας Πανεπιστήμιο Πατρών Τμήμα Βιολογίας Πάτρα 2015 Πατρών 2015 1 Η Βιολογική Εξέλιξη Πατρών 2015 2 Η Θεωρία της Εξέλιξης Η βιολογική εξέλιξη ερμηνεύει την ποικιλότητα των έμβιων

Διαβάστε περισσότερα