Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες ιπλωµατική Εργασία της Αναστασίας Αλεξανδρίδου (ΑΕΜ: 588) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας Θεσσαλονίκη 2005

2

3 Πρόλογος Ένα από τα αντικείµενα της παρούσας διπλωµατικής εργασίας είναι η παρουσίαση των µεθόδων και των τεχνικών ανακάλυψης γνώσης σε βιολογικές βάσεις δεδοµένων. ίνεται ιδιαίτερη βαρύτητα στη διαδικασία της πρωτεϊνοσύνθεσης και παρουσιάζεται το πρόβληµα πρόβλεψης των πραγµατικών σηµείων έναρξης της µετάφρασης και η εύρεση των σηµαντικότερων χαρακτηριστικών που συντελούν στο διαχωρισµό των σηµείων αυτών. Η έρευνα στη Μοριακή Βιολογία τα τελευταία χρόνια έχει οδηγήσει στην εκθετική αύξηση των βιολογικών δεδοµένων. Η ανάγκη για την εύρεση της γνώσης που µπορεί να κρύβεται πίσω από αυτά τα δεδοµένα, σε συνδυασµό µε την αδυναµία αποδοτικής διαχείρισης της πληθώρας των δεδοµένων µε τις παραδοσιακές τεχνικές, κάνουν απαραίτητη τη χρήση τεχνικών ανακάλυψης γνώσης. Η εκπόνηση της εργασίας έγινε στο εργαστήριο Γλωσσών Προγραµµατισµού και Τεχνολογίας Λογισµικού (Programming Languages and Software Engineering Laboratory PLaSE Laboratory) του Τµήµατος Πληροφορικής του Α.Π.Θ. σε συνεργασία µε την οµάδα Μηχανικής Μάθησης και Ανακάλυψης Γνώσης (Machine Learning and Knowledge Discovery MLKD Group). Σε αυτό το σηµείο, θα ήθελα να ευχαριστήσω θερµά τον επιβλέποντα καθηγητή µου Ιωάννη Βλαχάβα για την εµπιστοσύνη που µου έδειξε, αναθέτοντάς µου την εκπόνηση της συγκεκριµένης εργασίας και για το ευχάριστο κλίµα συνεργασίας που φρόντισε να επικρατήσει κατά τη διάρκεια της εκπόνησης. Επίσης, αισθάνοµαι την υποχρέωση να ευχαριστήσω τους υποψήφιους διδάκτορες Γιώργο Τζανή και Χρήστο Μπερµπερίδη για την άριστη συνεργασία τους, τα εποικοδοµητικά τους σχόλια και τις πολύτιµες συµβουλές τους. Τέλος, θα ήθελα να ευχαριστήσω την οικογένειά µου και τους φίλους µου για την υποµονή και την υποστήριξή τους καθ όλη τη διάρκεια εκπόνησης της διπλωµατικής εργασίας.

4

5 Περιεχόµενα ΠΡΟΛΟΓΟΣ... I ΠΕΡΙΕΧΟΜΕΝΑ...III 1. ΕΙΣΑΓΩΓΗ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Η ΙΑ ΙΚΑΣΙΑ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ Τα Στάδια Ανακάλυψης Γνώσης Είδη Γνώσης που Προκύπτουν ΠΡΟΒΛΗΜΑΤΑ ΣΤΗΝ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΜΟΡΙΑΚΗ ΒΙΟΛΟΓΙΑ ΚΑΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΖΩΝΤΑΝΟ ΚΥΤΤΑΡΟ ΜΟΡΙΑΚΕΣ ΟΜΙΚΕΣ ΜΟΝΑ ΕΣ Πρωτεΐνες και Αµινοξέα DNA και Νουκλεοτίδια ΓΟΝΙ ΙΑ ΚΑΙ ΓΟΝΙ ΙΩΜΑ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Γενωµική Πρωτεωµική Μικροσυστοιχίες Η Τεχνική SAGE Τράπεζες εδοµένων ΠΡΟΒΛΗΜΑΤΑ ΚΑΙ ΠΡΟΚΛΗΣΕΙΣ ΠΡΟΒΛΕΨΗ ΣΗΜΕΙΟΥ ΕΝΑΡΞΗΣ ΜΕΤΑΦΡΑΣΗΣ ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΣΗΜΕΙΟΥ ΕΝΑΡΞΗΣ ΜΕΤΑΦΡΑΣΗΣ ΠΡΟΒΛΕΨΗ ΜΕ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Προσέγγιση των Pedersen και Nielsen Προσέγγιση της Χατζηγεωργίου ΠΡΟΒΛΕΨΗ ΜΕ ΜΗΧΑΝΕΣ ΙΑΝΥΣΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ Προσέγγιση των Zien και Wong ΠΡΟΒΛΕΨΗ ΜΕ ΗΜΙΟΥΡΓΙΑ ΚΑΙ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Προσέγγιση των Zeng et al...36

6 IV Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Προσέγγιση των Liu et al ΕΦΑΡΜΟΓΕΣ Η ΒΙΒΛΙΟΘΗΚΗ ΑΛΓΟΡΙΘΜΩΝ Weka ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΩΝ Ε ΟΜΕΝΩΝ KNOWLEDGE EXPLORER Κατηγοριοποίηση Οµαδοποίηση Κανόνες Συσχέτισης Επιλογή Χαρακτηριστικών KNOWLEDGE FLOW EXPERIMENTER ΕΓΚΑΤΑΣΤΑΣΗ ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΥΛΟΠΟΙΗΣΗ ΣΥΓΚΡΙΣΗ ΜΕ ΠΡΟΗΓΟΥΜΕΝΕΣ ΜΕΛΕΤΕΣ ΣΥΜΠΕΡΑΣΜΑΤΑ...63 ΠΑΡΑΡΤΗΜΑ...67 ΒΙΒΛΙΟΓΡΑΦΙΑ... 79

7 1 Εισαγωγή Οι νέες τεχνολογίες που έχουν αναπτυχθεί τα τελευταία χρόνια συντελούν στην µεγάλη συλλογή των δεδοµένων. Το επόµενο βήµα αυτής της προσπάθειας είναι η ανάλυσή τους και η ανακάλυψη γνώσης µέσα από τα δεδοµένα αυτά. Η αποδοτική διαχείρισή τους είναι δύσκολη µε τις παραδοσιακές τεχνικές και αυτό γιατί τα δεδοµένα είναι µεγάλα σε πλήθος ενώ παρουσιάζουν ορισµένες ιδιαιτερότητες όπως την παρουσία θορύβου. Εποµένως η χρήση τεχνικών ανακάλυψης γνώσης κρίνεται απαραίτητη. Η Βιολογία είναι µια από τις επιστήµες που χρειάζεται τις τεχνικές ανακάλυψης γνώσης. Μέσα στα πλαίσια της Βιολογίας είναι η µελέτη των βιολογικών µορίων τα οποία είναι απαραίτητα για την ύπαρξη των ζωντανών οργανισµών και µε τις βελτιωµένες νέες τεχνολογίες που υπάρχουν, έχει γίνει εφικτή η διεξαγωγή µεγάλης κλίµακας πειραµάτων και ερευνητικών προγραµµάτων. Ένα σηµαντικό παράδειγµα είναι το πρόγραµµα αποκρυπτογράφησης του ανθρώπινου γονιδιώµατος (Human Genome Project - HGP), το οποίο ξεκίνησε το 1990 µε πρωτοβουλία του Τµήµατος Ενέργειας (Department of Energy) και του Εθνικού Ινστιτούτου Υγείας (National Institutes of Health NIH) των Η.Π.Α και ολοκληρώθηκε µε επιτυχία το 2003 [24, 26]. Μάλιστα η µεγάλη συσσώρευση των βιολογικών δεδοµένων είναι φανερή από την εκθετική αύξηση του µεγέθους δύο γνωστών και µεγάλων βάσεων βιολογικών δεδοµένων, της EMBL και της GenBank [39, 40]. Η ανάγκη διαχείρισης και ανάλυσης των δεδοµένων αυτών έχουν οδηγήσει στην εµφάνιση µιας νέας και πολλά υποσχόµενης επιστηµονικής περιοχής, της Βιοπληροφορικής. οµή του Κειµένου Το παρόν κείµενο είναι χωρισµένο σε επτά κεφάλαια. Το πρώτο από αυτά είναι η Εισαγωγή. Το δεύτερο κεφάλαιο, µε τίτλο Ανακάλυψη Γνώσης σε Βάσεις εδοµένων, παρέχει τις βασικές γνώσεις για την κατανόηση της επιστηµονικής περιοχής στην οποία κινείται η εργασία. Περιγράφεται η διαδικασία ανακάλυψης γνώσης σε βάσεις δεδοµένων, η σχέ-

8 2 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες ση της µε τη µηχανική µάθηση και την εξόρυξη σε δεδοµένα, καθώς και τα πρότυπα που µπορούν να εξαχθούν µε την εφαρµογή αλγορίθµων εξόρυξης σε δεδοµένα. Το τρίτο κεφάλαιο, µε τίτλο Μοριακή Βιολογία και Βιοπληροφορική, παρέχει το βασικό υπόβαθρο που απαιτείται για την µελέτη των βιολογικών δεδοµένων. Περιγράφονται οι βασικές µοριακές δοµικές µονάδες των οργανισµών και περιγράφονται πολλές από τις βασικές έννοιες µε τις οποίες ασχολείται η εργασία. Επίσης περιγράφονται ορισµένα εργαλεία που χρησιµοποιούνται για τη διαχείριση και ανάλυση βιολογικών δεδοµένων και παρουσιάζονται ορισµένα προβλήµατα που συναντώνται στην ανακάλυψη γνώσης στα δεδοµένα αυτά. Το τέταρτο κεφάλαιο, µε τίτλο Πρόβλεψη Σηµείου Έναρξης Μετάφρασης, παρουσιάζει ένα από τα προβλήµατα που απασχολεί την κοινότητα της Βιοπληροφορικής και περιγράφει τις προσπάθειες που έχουν γίνει για την επίλυσή του. Ακόµη αναφέρεται ένα πλήθος από εφαρµογές που έχουν αναπτυχθεί και είναι διαθέσιµες στον διαδικτυακό χώρο. Το πέµπτο κεφάλαιο, µε τίτλο Η Βιβλιοθήκη Αλγορίθµων Weka, παρουσιάζει τις βασικές δυνατότητες που παρέχει αυτή η βιβλιοθήκη αλγορίθµων για την ανακάλυψη γνώσης σε δεδοµένα. Στο έκτο κεφάλαιο, µε τίτλο Εφαρµογή Αλγορίθµων Κατηγοριοποίησης, παρουσιάζεται η προσέγγιση της παρούσας εργασίας, η έρευνα που έγινε και τα αποτελέσµατα που προκύπτουν, τα οποία συγκρίνονται µε τις προηγούµενες προσεγγίσεις που παρουσιάστηκαν στο πέµπτο κεφάλαιο. Τέλος, το έβδοµο κεφάλαιο, µε τίτλο Συµπεράσµατα, αποτελεί τον επίλογο του κειµένου και παρουσιάζει συµπεράσµατα και σχόλια σχετικά µε τα πεπραγµένα της εργασίας.

9 2 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων Ένα γνωστικό σύστηµα απαιτεί εµπειρική γνώση την οποία κωδικοποιεί και χειρίζεται µε σκοπό την επίλυση των προβληµάτων που απασχολούν έναν συγκεκριµένο τοµέα. Έτσι κρίνεται απαραίτητο να µπορεί να µαθαίνει µόνο του από τις καταστάσεις τις ο- ποίες αντιµετωπίζει και να αναθεωρεί την συµπεριφορά του όταν τις ξανασυναντά. Στο σηµείο αυτό εµπλέκεται η έννοια της µηχανικής µάθησης (machine learning) η οποία αναλαµβάνει τον εµπλουτισµό και την διόρθωση της βάσης γνώσης. Με άλλα λόγια, η µηχανική µάθηση προσθέτει γνώση σε ένα γνωστικό σύστηµα (cognitive system) καθώς αυτό αλληλεπιδρά µε το περιβάλλον του αλλά και βελτιώνει τον τρόπο µε τον οποίο το σύστηµα εκτελεί τις ενέργειές του, καθώς αυτές επαναλαµβάνονται [1]. Ως ερευνητικός τοµέας, η µηχανική µάθηση ασχολείται µε προβλήµατα και προτείνει διάφορες µεθόδους επίλυσης. Η διαφοροποίηση συνίσταται στις στρατηγικές µάθησης, στον τρόπο αναπαράστασης της γνώσης, στην ποσότητα της αρχικής γνώσης που έχει εφοδιαστεί το σύστηµα κλπ. εν πρέπει να παραληφθεί ότι η χρήση ευριστικών µηχανισµών καθοδηγούν την εύρεση λύσης αποτελεσµατικά και αποτελούν σηµαντική παράµετρο. Η ανακάλυψη γνώσης σε βάσεις δεδοµένων (Knowledge Discovery in Databases - KDD) είναι µια ειδική περίπτωση της µηχανικής µάθησης, όπου το περιβάλλον µοντελοποιείται µέσω µιας βάσης δεδοµένων. Το µέγεθος της βάσης δεδοµένων τις περισσότερες φορές είναι πολύ µεγάλο. Τα δεδοµένα έχουν συγκεντρωθεί για διάφορους λόγους, αλλά συνήθως δεν είναι οργανωµένα µε τρόπο που να εξυπηρετεί τις διαδικασίες της µάθησης. Έτσι η ανακάλυψη γνώσης σε βάσεις δεδοµένων είναι µια µη τετριµµένη διαδικασία αναγνώρισης έγκυρων, νέων, ενδεχοµένως χρήσιµων και απόλυτα κατανοητών προτύπων στα δεδοµένα.

10 4 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες 2.1 Μηχανική Μάθηση Η µηχανική µάθηση διακρίνεται σε: Μάθηση µε επίβλεψη (supervised learning) ή αλλιώς µάθηση µε παραδείγµατα ό- που δίνονται στο σύστηµα παραδείγµατα αντικειµένων µιας κατηγορίας (π.χ. παραδείγµατα καλών πελατών σε µια εταιρία κινητής τηλεφωνίας) και το σύστηµα καλείται να παράγει κάποια γενικευµένη µορφή της κατηγορίας αυτής. Αποτελεί δηλαδή µοντέλο γενικής περιγραφής (global model description) όπου από ορισµένα παραδείγµατα παράγεται ένα γενικό µοντέλο. Για το λόγο αυτό η µάθηση αυτή είναι γνωστή και ως επαγωγική µάθηση (inductive learning). Σκοπός αυτής της γενίκευσης είναι να προκύψουν κανόνες κατηγοριοποίησης της µορφής «Εάν έχει αυτά τα χαρακτηριστικά τότε ανήκει σε αυτήν την κατηγορία» οι οποίοι θα χρησιµοποιηθούν στη συνέχεια για να βρεθεί η πιθανή κατηγορία στην οποία θα ανήκει ένα νέο άγνωστο αντικείµενο. Μάθηση χωρίς επίβλεψη (unsupervised) ή αλλιώς µάθηση από παρατήρηση όπου το σύστηµα πρέπει να ανακαλύψει τις κατηγορίες από µόνο του. Ο στόχος της µάθησης εδώ δεν είναι γνωστός, απλά γίνεται συνδυασµός των παραδειγµάτων που υ- πάρχουν για την εξαγωγή κάποιου συµπεράσµατος. Τα αποτελέσµατα της µάθησης χωρίς επίβλεψη δεν αφορούν όλα τα χαρακτηριστικά των εγγραφών εποµένως αποτελούν µια τοπική περιγραφή των παραδειγµάτων (local pattern description). 2.2 Η ιαδικασία Ανακάλυψης Γνώσης Η ανακάλυψη γνώσης σε βάσεις δεδοµένων δεν αποτελεί µια καινούργια έννοια στον χώρο της Τεχνητής Νοηµοσύνης (Artificial Intelligence-AI). Υπήρχαν στατιστικολόγοι που µε την βοήθεια των µαθηµατικών, όπως είναι οι κατανοµές πιθανοτήτων έκαναν ανάλυση των δεδοµένων τους. Ακόµη, µε το δοµηµένο προγραµµατισµό και µε στατιστικά τεστ που εφαρµόζονταν πάνω στα δεδοµένα, ή σε τυπικά δείγµατα των δεδοµένων, έβγαιναν αποτελέσµατα που κυρίως επαλήθευαν τις διάφορες υποθέσεις που γίνονταν για τα δεδοµένα αυτά. Εποµένως, η µέθοδος αυτή χαρακτηρίζεται ως επαληθευτική (confirmative) για δεδοµένα τα οποία είναι λίγα σε αριθµό και έχουν όλα τα πεδία τους συµπληρωµένα. Αυτό σηµαίνει πως τα δεδοµένα δεν περιέχουν θόρυβο δηλαδή οι τιµές τους σε κάθε πεδίο είναι σωστές και ανταποκρίνονται στην πραγµατικότητα. Στην πορεία, µε την ανάπτυξη της τεχνολογίας, ο όγκος των δεδοµένων που δη- µιουργείται για παράδειγµα από τους δορυφόρους, από τους αισθητήρες αλλά και από

11 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων 5 τα καταστήµατα είναι τεράστιος. Επιπλέον, ο τύπος των δεδοµένων αυτών είναι ακαθόριστης δοµής, αφού τα δεδοµένα είναι αδόµητα (unstructured) όπως εικόνες, ήχος και βίντεο. Ακόµη δηµιουργείται η ανάγκη να χρησιµοποιηθούν αυτά τα δεδοµένα για ανακάλυψη επιπλέον γνώσης (exploratory), για την εύρεση δηλαδή γενικών προτύπων που θα χαρακτηρίζουν τα δεδοµένα. Η ανακάλυψη γνώσης σε βάσεις δεδοµένων είναι µια σύνθετη διαδικασία για τον προσδιορισµό νέων, έγκυρων, κατανοητών και χρήσιµων σχέσεων σε δεδοµένα [1]. Ένα παράδειγµα είναι η εύρεση συσχετίσεων µεταξύ ασθενειών και διατροφικές συνήθειες που µπορούν να οδηγήσουν σε ιατρικές ανακαλύψεις. Υπάρχει αντιστοιχία µεταξύ ανακάλυψης γνώσης και µηχανικής µάθησης καθώς ο χώρος αναζήτησης µοντελοποιείται µε µια βάση δεδοµένων. Συγκεκριµένα στη µηχανική µάθηση τα δεδοµένα είναι σωστά κωδικοποιηµένα και προσεκτικά επιλεγµένα σε αντίθεση µε τη διαδικασία ανακάλυψης γνώσης όπου η βάση δεδοµένων είναι σχεδιασµένη για άλλο σκοπό οπότε είναι πιθανό να περιέχει λάθη ή να µην έχει ορισµένα απαραίτητα στοιχεία. Η αντιστοιχία αυτή φαίνεται στο Σχήµα 2.1. Περιβάλλον παραδείγµατα Κωδικοποίηση κωδικοποιηµένα παραδείγµατα Μηχανική Μάθηση Περιβάλλον παραδείγµατα Βάση εδοµένων κωδικοποιηµένα παραδείγµατα Ανακάλυψη Γνώσης Σχήµα 2.1: Αντιστοιχία µηχανικής µάθησης και ανακάλυψης γνώσης Τα Στάδια Ανακάλυψης Γνώσης Ο τοµέας πάνω στον οποίο θα εφαρµοστεί η ανακάλυψη γνώσης πρέπει να γίνει κατανοητός από την αρχή και να προσδιοριστεί ο στόχος της, δηλαδή τι θα µπορεί να κάνει ο χρήστης των αποτελεσµάτων. Για τον λόγο αυτόν είναι απαραίτητη η συνδροµή ενός ειδικού πάνω στον τοµέα που µελετάται, ώστε το πρόβληµα να καθοριστεί µε αρκετή ακρίβεια. Ακόµη, πρέπει να σηµειωθεί ότι η διαδικασία εύρεσης γνώσης είναι αλληλεπιδραστική και επαναληπτική καθώς τις περισσότερες φορές ορισµένα από τα επιµέρους βήµατα είναι αναγκαίο να επαναληφθούν, αφού ενδέχεται να προκύψουν προβλή-

12 6 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες µατα που να σχετίζονται µε τις αρχικές επιλογές και τα οποία ήταν αδύνατο να εντοπιστούν αρχικά [1]. Τα στάδια της ανακάλυψης γνώσης (Σχήµα 2.2) είναι: 1. Επιλογή Από τις σχεσιακές βάσεις δεδοµένων εταιριών, νοσοκοµείων κλπ. Επιλέγεται το σύνολο των δεδοµένων στο οποίο θα εφαρµοστεί η αναζήτηση (training data set selection). Τα δεδοµένα αυτά είναι τις περισσότερες φορές οργανωµένα για άλλη χρήση και έτσι οι αλγόριθµοι εύρεσης γνώσης δεν µπορούν να εφαρµοστούν απ ευθεία. Εποµένως τα δεδοµένα πρέπει να οργανωθούν σε απλούστερες δοµές και αυτό γίνεται από τα συστή- µατα αποθήκευσης δεδοµένων (data warehouses). 2. Προεπεξεργασία Στο στάδιο αυτό αντιµετωπίζονται οι περιπτώσεις ελλιπών δεδοµένων, όπως άγνωστα πεδία ή πεδία που η τιµή τους δεν ανταποκρίνεται στην πραγµατικότητα. Είναι γνωστό και ως στάδιο καθαρισµού των δεδοµένων (data cleaning). 3. Μετασχηµατισµός Τα δεδοµένα µετασχηµατίζονται (transform) σε δοµές που διευκολύνουν την εύρεση γνώσης καθώς οι αλγόριθµοι εύρεσης γνώσης απαιτούν συγκεκριµένες δοµές για να εργαστούν. Για παράδειγµα µπορεί να γίνει µείωση του αριθµού των µεταβλητών που εξετάζονται, οµοιόµορφη κωδικοποίηση της ποιοτικά ίδιας πληροφορίας κλπ. Αξίζει να σηµειωθεί πως στο στάδιο αυτό µπορεί να παραληφθούν πεδία που ενδεχοµένως να µη σχετίζονται µε την γνώση που αναζητείται (features selection), όπως για παράδειγµα το πεδίο όνοµα σε δεδοµένα ασθενών για την ανακάλυψη γνώσης σχετικά µε την εµφάνιση του καρκίνου. Αυτό µπορεί να γίνει µε την Ανάλυση Πρωτευουσών Συνιστωσών (Principal Component Analysis - PCA), µε ειδικούς αλγορίθµους που εφαρµόζουν κανόνες σε οµαδοποιηµένα δεδοµένα, ακόµη και µε τη γραφική απεικόνιση των δεδοµένων αυτών (visualization). 4. Εξόρυξη - Επιλογή αλγορίθµου και εφαρµογή του Είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική αναζήτηση της γνώσης στα δεδοµένα. Καθορίζεται το είδος της γνώσης που θα αναζητηθεί εποµένως προσδιορίζεται και η κατηγορία του αλγορίθµου που θα χρησιµοποιηθεί. Ανάλογα µε τον αλγόριθµο που θα εφαρµοστεί µπορούν να προκύψουν δυο ειδών πρότυπα. Τα πρότυπα πληροφόρησης (informative patterns) και τα πρότυπα πρόβλεψης (predictive pat-

13 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων 7 terns). Το στάδιο αυτό της διαδικασίας εύρεσης γνώσης περιγράφεται και µε τον όρο εξόρυξη σε δεδοµένα (data mining) [1]. 5. Ερµηνεία Αξιολόγηση Γίνεται η ερµηνεία και η αξιολόγηση των προτύπων που βρήκε ο αλγόριθµος, πιθανώς µε την βοήθεια των γραφικών απεικονίσεών τους (pattern visualization). Η γνώση που προέκυψε µπορεί να χρησιµοποιηθεί σε ένα σύστηµα γνώσης και ίσως να απαιτείται η επίλυση συγκρούσεων µε προϋπάρχουσα γνώση. Ακόµη τα αποτελέσµατα µπορεί να δίνουν το ερέθισµα για νέα αναζήτηση οπότε θα πρέπει να επαναληφθεί η διαδικασία από την αρχή. Επιλογή Προεπεξεργασία Μετασχηµατισµός Εξόρυξη Ερµηνεία - Αξιολόγηση... εδοµένα Επιλεγµένο Υποσύνολο εδοµένων Προεπεξεργασµένα εδοµένα Μετασχηµατισµένα εδοµένα Πρότυπα Γνώση Σχήµα 2.2: Τα βασικά στάδια της διαδικασίας ανακάλυψης γνώσης Είδη Γνώσης που Προκύπτουν Με τη διαδικασία της εύρεσης γνώσης και συγκεκριµένα µε την εφαρµογή του κατάλληλου αλγορίθµου στα δεδοµένα, προκύπτουν κάποια πρότυπα τα οποία µπορεί να είναι είτε πρότυπα πληροφόρησης, είτε πρότυπα πρόβλεψης [1]. Τα πρότυπα πληροφόρησης προκύπτουν από τη µάθηση χωρίς επίβλεψη. Περιγράφουν τις συσχετίσεις που µπορεί να υπάρχουν µεταξύ των δεδοµένων και τις οποίες ο ειδικός του τοµέα δε γνώριζε. Είναι δύσκολο να αξιολογήσουµε αυτές τις συσχετίσεις γιατί δεν προτείνουν πάντα αποτελεσµατικές ενέργειες στον ειδικό. Πρότυπα πληροφόρησης είναι οι κανόνες συσχέτισης (association rules), τα σειριακά πρότυπα (sequential patterns) και οι οµάδες (clusters) τα οποία αναλύονται παρακάτω.

14 8 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Τα πρότυπα πρόβλεψης προκύπτουν από τη µάθηση µε επίβλεψη και συγκεκριµένα την επαγωγική µάθηση όπου προβλέπουν την τιµή ενός πεδίου µιας εγγραφής που ενδιαφέρει τον ειδικό, µε βάση τις τιµές των υπόλοιπων πεδίων. Οι διαδικασίες που δίνουν τέτοια πρότυπα είναι τα δένδρα κατηγοριοποίησης (classification / decision trees), οι κατηγοριοποιητές Bayes (Bayesian classifiers) ή οι απλοί κατηγοριοποιητές Bayes (Naive Bayesian classifiers) και οι εµπειρικές σχέσεις σε µεταβλητές (regression) τα οποία επίσης αναλύονται παρακάτω. Α) Πρότυπα Πληροφόρησης Κανόνες συσχέτισης Οι κανόνες συσχέτισης είναι της µορφής «εάν Χ τότε Ψ» όπου οι µεταβλητές Χ και Ψ είναι εκφράσεις που συνδέουν τιµές των πεδίων των εγγραφών. Οι κανόνες αυτοί προέκυψαν στις αρχές της δεκαετίας του 90 ως τεχνική «ανάλυσης καλαθιού αγορών» (market basket analysis) δηλαδή ανάλυσης των προϊόντων που αγοράζονται από πελάτες σε καταστήµατα. Ένας τέτοιος κανόνας θα µπορούσε να είναι «οι πελάτες που αγοράζουν δηµητριακά, αγοράζουν και γάλα» [5]. Ένας τέτοιος κανόνας δεν έχει αξία αν δε συνοδεύεται από κάποια ποσοτικά µεγέθη που να του προσδίδουν βαρύτητα. Η ποιότητα ενός κανόνα συσχέτισης µετριέται µε τα µεγέθη της εµπιστοσύνης (confidence) και της υποστήριξης (support) τα οποία προκύπτουν µαθηµατικά από τις τιµές των πεδίων. Η εµπιστοσύνη καθορίζει το πόσο ισχυρό είναι το πρότυπο που εντοπίστηκε και η υποστήριξη το πόσο σηµαντικό είναι για τον τελικό χρήστη (π.χ. διευθυντή καταστήµατος). Ο χρήστης µπορεί να τοποθετεί το όριο ελάχιστης υποστήριξης (minimum support threshold) χαµηλά και να παράγονται πολλοί κανόνες συσχέτισης, που βέβαια δεν είναι όλοι ενδιαφέροντες. Για να είναι στατιστικά σηµαντικό (statistically significant) ένα γεγονός θα πρέπει να µη συµβαίνει εύκολα από καθαρή τύχη. Για την ανακάλυψη κανόνων συσχέτισης είναι σηµαντικός ο αριθµός των περασµάτων στα δεδοµένα που εκτελεί ο αλγόριθµος. Έτσι υπάρχουν διάφοροι αλγόριθµοι όπως ο Apriori [6] που βασίζεται στην παραγωγή υποψήφιων συχνών συνόλων [7] και ο FP-Growth που έχει µεγάλες απαιτήσεις µνήµης επειδή βασίζεται σε πολύπλοκες δενδρικές δοµές δεδοµένων, που αποθηκεύουν µια συµπιεσµένη έκδοση της βάσης δεδο- µένων στη µνήµη.

15 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων 9 Σειριακά πρότυπα Τα σειριακά πρότυπα είναι µια παραλλαγή των κανόνων συσχέτισης και αυτό γιατί συσχετίζουν τιµές πεδίων κάποιων εγγραφών µε τιµές πεδίων άλλων εγγραφών που ακολουθούν χρονικά και αφορούν την ίδια οντότητα. Για παράδειγµα ένας τέτοιος κανόνας θα έλεγε «όταν η µετοχή της Α και της Β εταιρίας πέφτουν ταυτόχρονα για δυο συνεχόµενες µέρες, τότε η µετοχή της Γ πέφτει την τρίτη µέρα». Συνήθως τα δεδοµένα που υπάρχουν στη βάση είναι πάρα πολλά εποµένως παράγεται και µεγάλος αριθµός από κανόνες. Από όλους τους κανόνες πρέπει να επιλεγούν αυτοί που έχουν πρακτική αξία, εποµένως τίθεται ένα κάτω όριο για την τιµή της εµπιστοσύνης και της υποστήριξης. Οµάδες Οι οµάδες προκύπτουν µε οµαδοποίηση (clustering) των εγγραφών της βάσης δεδοµένων, έτσι ώστε οι εγγραφές που ανήκουν στην ίδια οµάδα να έχουν κοινά χαρακτηριστικά. Γενικώς υπάρχουν τρεις κατηγορίες αλγορίθµων οµαδοποίησης: 1. Αυτοί που προσπαθούν να βρουν τον καλύτερο διαχωρισµό ενός συνόλου δεδοµένων σε ένα συγκεκριµένο αριθµό οµάδων. Ένας τέτοιος αλγόριθµος είναι ο K- means όπου K είναι ο αριθµός των οµάδων. Οι αλγόριθµοι αυτής της κατηγορίας υπολογίζουν την ευκλείδεια απόσταση ή την απόσταση Manhattan µεταξύ των παρατηρήσεων ώστε αυτές που είναι κοντά, ανήκουν στην ίδια οµάδα. 2. Αυτοί που προσπαθούν µε ιεραρχικό τρόπο να ανακαλύψουν τον αριθµό και την δοµή των οµάδων. Αυτό γίνεται είτε συνδυάζοντας οµάδες σε µεγαλύτερες (agglomerative algorithm), είτε διαιρώντας µεγάλες οµάδες σε µικρότερες (divisive). Η ιεραρχική οµαδοποίηση αποτελεί έναν ελκυστικό τρόπο οµαδοποίησης δεδοµένων, ο οποίος συναντάται στη βιολογία για την οργάνωση των ειδών της χλωρίδας και της πανίδας. 3. Αυτοί που βασίζονται σε µοντέλα πιθανοτήτων. Για παράδειγµα στο Σχήµα 2.3 υπάρχουν εγγραφές κυττάρων τα οποία ανάλογα µε το µέγεθός τους και το βάρος τους οµαδοποιήθηκαν σε τρία σύνολα. Από αυτήν την γραφική απεικόνιση µπορεί να υποτεθεί πως η οµάδα µε τις µαύρες βούλες αντιστοιχεί στα λεµφοκύτταρα, η οµάδα µε τις άσπρες στα οστικά και οι εγγραφές που εικονίζονται µε τα τετράγωνα στα νευρικά.

16 10 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Σχήµα 2.3: Εύρεση τριών οµάδων από εγγραφές κυττάρων. Η απόφαση για το πώς θα χρησιµοποιηθούν οι προκύπτουσες οµάδες, λαµβάνεται από τον ειδικό σε θέµατα KDD και τον ειδικό του τοµέα στον οποίο ανήκουν τα δεδοµένα. Β) Πρότυπα Πρόβλεψης Εµπειρική σχέση µεταβλητών Η εµπειρική σχέση µεταβλητών αφορά την αναζήτηση προτύπων πρόβλεψης, όπου το χαρακτηριστικό που προβλέπεται απαιτείται να έχει αριθµητική τιµή. Στην κατηγορία αυτή ανήκουν τα νευρωνικά δίκτυα (neural networks) και η γραµµική παρεµβολή (linear regression). 1. Η γραµµική παρεµβολή µοντελοποιεί το χαρακτηριστικό για το οποίο πρέπει να γίνει πρόβλεψη µε µια απλή γραµµική εξίσωση των παραµέτρων εισόδου. 2. Τα νευρωνικά δίκτυα εκπαιδεύονται µε τα υπάρχοντα δεδοµένα και είναι σε θέση να αποδώσουν µια τιµή εξόδου σε νέα δεδοµένα εισόδου. Παρέχουν ένα πρακτικό τρόπο για την εκµάθηση αριθµητικών και διανυσµατικών συναρτήσεων, ορισµένων σε συνεχή ή διακριτά µεγέθη. Επειδή µπορούν να µοντελοποιήσουν και µη γραµµικά δεδοµένα προτιµώνται σε σχέση µε την γραµµική παρεµβολή. Ακόµη παρουσιάζουν ανοχή σε δεδοµένα εκπαίδευσης µε θόρυβο (δεδοµένα µε περιστασιακά λανθασµένες τιµές), αλλά αδυνατούν να εξηγήσουν ποιοτικά την γνώση που µοντελοποιούν. Κατηγοριοποίηση Για την αναζήτηση προτύπων στην κατηγοριοποίηση, η τιµή του πεδίου που ενδιαφέρει τον ειδικό δεν έχει αριθµητική τιµή όπως συµβαίνει στην εµπειρική σχέση µεταβλητών αλλά ποιοτική, για παράδειγµα καλός ή όχι υποψήφιος δανειολήπτης, αλλά και µικρή, µεσαία, µεγάλη ηλικία. Με αφορµή το τελευταίο παράδειγµα αξίζει να σηµειωθεί πως αν και το πεδίο ηλικία περιέχει αριθµητικές τιµές, έχει γίνει διακριτοποίηση σε µικρή, µεσαία και µεγάλη ηλικία (διατεταγµένες διακριτές τιµές -ordinal) στο στάδιο του µε-

17 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων 11 τασχηµατισµού των δεδοµένων για την εύρεση γνώσης. Τα µοντέλα κατηγοριοποίησης δίνουν µεγαλύτερη πιθανότητα στο ενδεχόµενο κάποιο χαρακτηριστικό Y να έχει την τιµή y, δεδοµένου ότι τα άλλα χαρακτηριστικά X = (X 1, X 2,, X n ) έχουν τιµές x = (x 1, x 2,, x n ), παρά να έχει κάποια άλλη τιµή y. ηλαδή: P(Y = y X = x) > P(Y = y X = x). Οι πιο κοινές µέθοδοι κατηγοριοποίησης είναι η µάθηση εννοιών, τα δένδρα κατηγοριοποίησης, η µάθηση µε βάση τα παραδείγµατα και η µάθηση µε βάση τη θεωρία του Bayes [1]. 1. Στη Μάθηση Εννοιών (Concept Learning) το σύστηµα τροφοδοτείται µε παραδείγ- µατα που ανήκουν (θετικά παραδείγµατα) ή δεν ανήκουν (αρνητικά) σε κάποια κατηγορία και καλείται να παράγει κάποια γενικευµένη περιγραφή της, ώστε να είναι σε θέση στη συνέχεια να αποφασίσει για άγνωστες περιπτώσεις. Ο βασικός αλγόριθµος που υλοποιεί αυτήν την µέθοδο είναι ο αλγόριθµος της απαλοιφής υποψηφίων (candidate elimination algorithm), ο οποίος διατηρεί δυο σύνολα G και S τα ο- ποία οριοθετούν τον χώρο των παραδειγµάτων σε περιοχές µε θετικά, αρνητικά και άγνωστα παραδείγµατα. Κατά την εκπαίδευση το σύνορο του G συρρικνώνεται ενώ του S επεκτείνεται µέχρι να ταυτιστούν. Έτσι επιτυγχάνεται η κατηγοριοποίηση των παραδειγµάτων σε θετικά και αρνητικά. (Σχήµα 2.4). Σχήµα 2.4: Τα σύνολα G και S για τον αλγόριθµο απαλοιφής υποψηφίων. 2. Τα δένδρα κατηγοριοποίησης (classification trees) παράγονται από πολλούς αλγόριθµους και είναι εύκολα στην ερµηνεία των αποτελεσµάτων. Ονοµάζονται και δένδρα απόφασης (decision trees) και δηµιουργούνται για συγκεκριµένο σύνολο δεδο- µένων µέσω µιας διαδικασίας εκπαίδευσης. Ένας γνωστός αλγόριθµος είναι ο ID3, ο οποίος κατασκευάζει µια δενδροειδή µορφή που µε γραφικό τρόπο περιγράφει τα δεδοµένα. Στον αλγόριθµο αυτόν πρέπει να προσδιοριστεί ένα χαρακτηριστικό των παραδειγµάτων ως εξαρτηµένη µετα-

18 12 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες βλητή ενώ τα υπόλοιπα χαρακτηριστικά θεωρούνται ως παράµετροι εισόδου (ανεξάρτητες µεταβλητές). Συγκεκριµένα για να δηµιουργηθεί το δένδρο απόφασης επιλέγεται η ανεξάρτητη µεταβλητή η οποία αν χρησιµοποιηθεί ως κριτήριο διαχωρισµού των δεδοµένων θα οδηγήσει σε όσο το δυνατόν πιο διαφορετικούς µεταξύ τους κόµβους στο δένδρο, σε σχέση µε την εξαρτηµένη µεταβλητή. Αφού γίνει ο διαχωρισµός, η διαδικασία εύρεσης της επόµενης ανεξάρτητης µεταβλητής που οδηγεί σε διαφορετικούς κόµβους, επαναλαµβάνεται µέχρι να µην είναι δυνατός επιπλέον διαχωρισµός. Στον αλγόριθµο ID3 χρησιµοποιείται το µέγεθος του κέρδους (gain) και της εντροπίας (entropy), που είναι µαθηµατικές σχέσεις, για την επιλογή του επόµενου καλύτερου διαχωρισµού. Με την ολοκλήρωση της κατασκευής του δένδρου απόφασης µπορεί να προβλεφθεί η κατηγορία στην οποία ανήκει µια άγνωστη εγγραφή. Αυτό γίνεται µε µια σειρά διαδοχικών ερωτήσεων, κάθε µια από τις οποίες γίνεται µε βάση την απάντηση στην προηγούµενη ερώτηση. Για παράδειγµα µπορεί να θεωρηθεί ως εξαρτηµένη µεταβλητή το αν θα φτάσει ένας φοιτητής έγκαιρα στο πανεπιστήµιο και οι ανεξάρτητες µεταβλητές (παράµετροι εισόδου στο σύστηµα) να είναι ο καιρός, η διαδροµή και η ηµέρα που διάλεξε για την µετακίνησή του. Στο Σχήµα 2.5 φαίνεται ένα τέτοιο δένδρο µετά από εφαρ- µογή ορισµένων εγγραφών στη βιβλιοθήκη αλγορίθµων Weka [3]. Σχήµα 2.5: ένδρο Απόφασης µε τον αλγόριθµο ID3. 3. Στην Μάθηση µε Βάση τα Παραδείγµατα (Instance Based Learning) τα δεδοµένα διατηρούνται αυτούσια και σύµφωνα µε τον αλγόριθµο των k-κοντινότερων γειτόνων (k-nearest Neighbors) αναπαρίστανται γραφικά σε κάποιο Ευκλείδειο χώρο µε τόσες διαστάσεις, όσα είναι τα ανεξάρτητα πεδία των εγγραφών (παράµετροι εισό-

19 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων 13 δου). Έτσι για να προβλεφθεί µια νέα περίπτωση, εξετάζεται η σχέση της µε τις ήδη υπάρχουσες. Τοποθετείται στον χώρο και παίρνει την τιµή που έχει η πλειοψηφία των k γειτονικών της παρατηρήσεων. 4. Η Μάθηση µε βάση την θεωρία του Bayes (Bayesian Learning) παρέχει µια ποσοτική µεθοδολογία για τη αξιολόγηση των διαφόρων ενδείξεων που υποστηρίζουν τις εναλλακτικές υποθέσεις που διερευνώνται κατά τη µάθηση. Με τη µέθοδο αυτή, κάθε παράδειγµα εκπαίδευσης µπορεί σταδιακά να µειώσει ή να αυξήσει την πιθανότητα να είναι σωστή µια υπόθεση. Αν µια υπόθεση δεν είναι απόλυτα σωστή, δεν απορρίπτεται αλλά µειώνεται η πιθανότητά της. Η δυσκολία που πρέπει να αντιµετωπίσει αυτή η µέθοδος είναι η µεγάλη και συχνή χρήση συζευγµένων και µη συζευγµένων πιθανοτήτων. Η λύση βρίσκεται στον Απλό Κατηγοριοποιητή Bayes (Naïve Bayes Classifier) όπου γίνεται η παραδοχή ότι τα χαρακτηριστικά που χρησιµοποιούνται ως τιµές εισόδου είναι ανεξάρτητα µεταξύ τους. Εδώ οι ποσότητες µπορούν να υπολογιστούν µε χρήση ερωτηµάτων (queries) προς την βάση δεδοµένων και άρα η µέθοδος είναι άµεσα υλοποιήσιµη σε οποιοδήποτε σύγχρονο σύστηµα διαχείρισης βάσεων δεδοµένων [1]. Όµως από την άλλη, δεν µπορεί να εντοπίσει πρότυπα που βασίζονται σε αλληλεπίδραση δυο ή περισσότερων χαρακτηριστικών, γιατί ακριβώς θεωρεί τα χαρακτηριστικά ανεξάρτητα µεταξύ τους. 2.3 Προβλήµατα στην Ανακάλυψη Γνώσης Τα δεδοµένα εισόδου για τα συστήµατα KDD παρέχονται από βάσεις δεδοµένων οι ο- ποίες τείνουν να είναι δυναµικές, µεγάλου µεγέθους, ελλιπείς και να περιέχουν εσφαλ- µένα δεδοµένα [1]. Επιπλέον ενδέχεται η αποθηκευµένη πληροφορία να µην είναι σχετική ή επαρκής. Εµφανίζονται δηλαδή µια σειρά από προβλήµατα τα οποία παρουσιάζονται στη συνέχεια. Περιορισµένη Πληροφορία Οι βάσεις δεδοµένων δεν είναι πάντοτε σχεδιασµένες για αναζήτηση γνώσης και συχνά οι ιδιότητες και τα πεδία που θα απλοποιούσαν την διαδικασία KDD όχι µόνο λείπουν αλλά και δεν είναι δυνατόν να συλλεχθούν από τον χρήστη. Για παράδειγµα, δεν γίνεται να διαγνωσθεί ελονοσία από µια βάση δεδοµένων ασθενών όταν οι εγγραφές δεν περιέχουν πληροφορία για τον αριθµό των ερυθρών αιµοσφαιρίων. Μια λύση είναι να παραχθούν κανόνες που κατηγοριοποιούν τις εγγραφές µε κάποια πιθανότητα (probabilistic rules) [1]. Αυτοί οι κανόνες συνήθως παρέχουν σηµαντικές πληροφορίες για συσχετί-

20 14 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες σεις µέσα στο περιβάλλον. Για παράδειγµα, η συσχέτιση καπνίσµατος και καρκίνου δεν είναι ορθή, καθώς το κάπνισµα δεν αποτελεί ούτε ικανή, ούτε αναγκαία συνθήκη για την εµφάνιση καρκίνου. Ωστόσο, η συσχέτιση αυτή δεν παύει να είναι πολύ σηµαντική [4]. Αραιά εδοµένα Ένα σύστηµα KDD δεν είναι σε θέση να προσδιορίσει επακριβώς τα όρια µιας κατηγορίας, αν στη βάση δεδοµένων υπάρχουν µόνο εγγραφές που σίγουρα ανήκουν ή σίγουρα δεν ανήκουν στην κατηγορία (sparse data). Αν υπάρχουν δηλαδή µόνο θετικά παραδείγµατα τότε το όριο της κατηγορίας αυτής δεν προσδιορίζεται επακριβώς. Χρειάζονται και τα αρνητικά παραδείγµατα για να καθοριστεί το όριο που χωρίζει τις δυο κατηγορίες (Σχήµα 2.6) [1]. Η ακριβής θέση των ορίων µπορεί να βρεθεί µόνο αν υπάρχουν παραδείγµατα που εντοπίζονται µόλις µέσα και µόλις έξω από την κλάση (near hits και near misses). Με άλλα λόγια, τα παραδείγµατα πρέπει να αναπαριστούν µεγάλη ποικιλία συµπεριφοράς του περιβάλλοντος [4]. Σχήµα 2.6: Αραιά εδοµένα. είγµατα Η χρήση δείγµατος είναι σχεδόν πάντα επιβεβληµένη καθώς οι πραγµατικές βάσεις δεδοµένων έχουν τεράστιο αριθµό εγγραφών, ενώ πολλοί αλγόριθµοι απαιτούν τα δεδοµένα εκπαίδευσης να βρίσκονται όλα στην µνήµη για λόγους απόδοσης, κάτι που δεν είναι εφικτό λόγω του περιορισµού στο µέγεθος της µνήµης. Εποµένως, η εφαρµογή δειγµατοληψίας κρίνεται απαραίτητη και η διαδικασία της απαιτεί µεγάλη προσοχή και εφαρµογή στατιστικών τεχνικών, ώστε τα παραδείγµατα που θα µελετηθούν να είναι ικανοποιητικώς αντιπροσωπευτικά της αρχικής βάσης. Θόρυβος Οι βάσεις δεδοµένων συχνά περιέχουν τιµές οι οποίες προέρχονται από υποκειµενική κρίση ή δεν ανταποκρίνονται στην πραγµατικότητα (π.χ. έτος γέννησης 1111). Τα λάθη

21 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων 15 αυτά είναι γνωστά ως «θόρυβος». Τα πεδία µε τέτοιες τιµές µπορεί να προκαλέσουν λάθη στην κατηγοριοποίηση των παραδειγµάτων και να επηρεάσουν τη συνολική ακρίβεια των παραγόµενων κανόνων [1]. Βέβαια αν ο κανόνας κατηγοριοποίησης που θα παραχθεί εφαρµόζεται σε δεδοµένα µε σηµαντική ποσότητα θορύβου, δεν αξίζει τον κόπο να προσπαθεί κανείς για την εξάλειψη του θορύβου από τις ιδιότητες των αντικει- µένων του συνόλου εκπαίδευσης [8]. Μέγεθος Βάσης εδοµένων Η ύπαρξη µεγάλου αριθµού εγγραφών στη βάση δεδοµένων (µερικές εκατοντάδες χιλιάδες) κάνει χρονοβόρα τη συγκέντρωση στατιστικών στοιχείων για τον έλεγχο της ποιότητας της γνώσης που προκύπτει. Ακόµη, τα πολλά πεδία σε κάθε εγγραφή αν και θεωρείται πλεονέκτηµα για την ακρίβεια του παραγόµενου µοντέλου, δηµιουργούν τεράστιο αριθµό εναλλακτικών κανόνων κατηγοριοποίησης που πρέπει να εξεταστούν. Ενηµέρωση της Βάσης εδοµένων Οι βάσεις δεδοµένων είναι δυναµικές. Νέα δεδοµένα προστίθενται, κάποια τροποποιούνται και κάποια άλλα αποµακρύνονται. Από την άλλη, οι κανόνες που κάποτε παρήχθησαν από µια βάση πρέπει να ανταποκρίνονται στην πλέον ενηµερωµένη και πρόσφατη έκδοσή της. Έτσι απαιτείται ένας περιοδικός έλεγχος για την εγκυρότητα των αποτελεσµάτων. Για τον λόγο αυτόν, και για να µην γίνεται η επανάληψη της αναζήτησης γνώσης από την αρχή για το σύνολο των εγγραφών, υπάρχουν µέθοδοι που λαµβάνουν υπόψη τους µόνο την πληροφορία των νέων εγγραφών (incremental data mining).

22

23 3 Μοριακή Βιολογία και Βιοπληροφορική Η Βιολογία είναι η επιστήµη που µελετά το φαινόµενο της ζωής. Κατά τις τελευταίες δεκαετίες, οι ερευνητικές µελέτες που έγιναν στο πεδίο της επιστήµης αυτής, έχουν συσσωρεύσει έναν εκπληκτικό αριθµό γνώσεων για το ανθρώπινο είδος και για τα εκατοµµύρια των οργανισµών που υπάρχουν πάνω στη γη. Γίνεται φανερό το µοριακό επίπεδο ενός κυττάρου και ότι το γενετικό υλικό είναι το DNA και αντιπροσωπεύει την καρδιά του ζωντανού οργανισµού [10]. Όλοι οι οργανισµοί βασίζουν την δραστηριότητά τους σε οικογένειες µορίων. Για παράδειγµα οι πρωτεΐνες επιτελούν την περισσότερη βιοχηµική εργασία που απαιτεί η ζωή. Μάλιστα υπάρχουν σύνολα πρωτεϊνών που µοιάζουν πολύ µεταξύ τους, έ- χουν παρόµοια λειτουργία και εµφανίζονται σε εξαιρετικά διαφορετικούς οργανισµούς [11,12]. Τα νουκλεϊκά οξέα (nucleic acids) έχουν το ρόλο της διατήρησης και µεταβίβασης της πληροφορίας που συνθέτει τη ζωή. Οι πρωτεΐνες και τα νουκλεϊκά οξέα καλούνται βιολογικά µακροµόρια (macromolecules) και καταβάλλεται σηµαντική προσπάθεια για τη µελέτη της δοµής και της λειτουργίας των βιολογικών µακροµορίων µε σκοπό την κατανόηση του φαινοµένου της ζωής. Ο κλάδος της Βιολογίας που ασχολείται µε αυτή τη µελέτη ονοµάζεται Μοριακή Βιολογία (Molecular Biology). 3.1 Ζωντανό Κύτταρο Η θεµελιώδης δοµική και λειτουργική µονάδα κάθε ζωντανού οργανισµού είναι το κύτταρο (cell). Κάθε κύτταρο είναι ένα σύνθετο σύστηµα που αποτελείται από πολλές διαφορετικές δοµικές µονάδες που περικλείονται από την πλασµατική µεµβράνη (plasma membrane). Η πλασµατική µεµβράνη είναι µια σύνθετη δοµή που οριοθετεί το κύτταρο από το περιβάλλον του και ρυθµίζει τη ροή των ουσιών, της ενέργειας και των πληροφοριών από και προς το κύτταρο [13].

24 18 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Εκτιµάται ότι υπάρχουν κύτταρα στο ανθρώπινο σώµα, που κατηγοριοποιούνται σε περίπου 320 διαφορετικούς τύπους. Για παράδειγµα, υπάρχουν διάφοροι τύποι δερµατικών κυττάρων, µυϊκών κυττάρων, κυττάρων του εγκεφάλου (νευρώνες) και πολλοί άλλοι. Κάθε κύτταρο έχει ένα σχηµατισµό που βρίσκεται συνήθως στο κέντρο του, τον πυρήνα (nucleus), ο οποίος περιβάλλεται από µεµβράνη και περικλείει το γενετικό υλικό. Ένα ουσιαστικό χαρακτηριστικό γνώρισµα των περισσότερων ζωντανών κυττάρων είναι η ικανότητά τους να αναπτύσσονται σε ένα κατάλληλο περιβάλλον και να υπόκεινται στην κυτταρική διαίρεση. Η ανάπτυξη ενός κυττάρου και η επακόλουθη διαίρεσή του αποτελούν τον κυτταρικό κύκλο (cell cycle). Ωστόσο, δεν ακολουθούν την πορεία αυτή όλα τα κύτταρα. Για παράδειγµα τα νευρικά κύτταρα υποβάλλονται µόνο σε µια αρχική φάση ανάπτυξης. Οι πολυκύτταροι οργανισµοί αρχίζουν τη ζωή τους ως ένα κύτταρο, συνήθως αποτέλεσµα της ένωσης ενός αρσενικού και ενός θηλυκού φυλετικού κυττάρου (γαµέτες). Το µοναδικό κύτταρο πρέπει να αναπτυχθεί, να διαιρεθεί και να διαφοροποιηθεί στους διαφορετικούς τύπους κυττάρων για την παραγωγή των ιστών και των οργάνων. Η κυτταρική διαίρεση και η διαφοροποίηση (differentiation) πρέπει να ελεγχθούν. Παράδειγµα µη ελεγχόµενης κυτταρικής διαίρεσης αποτελεί η περίπτωση των καρκινικών κυττάρων, που αυξάνονται χωρίς έλεγχο και µπορούν να συσσωρευτούν και να διαµορφώσουν όγκους [13]. 3.2 Μοριακές οµικές Μονάδες Όλα τα µόρια που σχετίζονται µε το φαινόµενο της ζωής καλούνται βιοµόρια (biomolecules). Τα βιοµόρια µπορούν να διακριθούν σε µικρά µόρια (small molecules), και µακροµόρια (macromolecules). Όπως αναφέρθηκε στην αρχή του κεφαλαίου, οι πρωτεΐνες, και τα νουκλεϊκά οξέα είναι µακροµόρια [13]. Τα µικρά µόρια µπορεί να είναι οι δοµικές µονάδες των µακροµορίων, να έχουν ανεξάρτητους ρόλους, όπως η µετάδοση σηµάτων ή να αποτελούν την πηγή ενέργειας ή το υλικό ενός κυττάρου. Μερικά σηµαντικά παραδείγµατα εκτός από το νερό είναι οι µονοσακχαρίτες (monosaccharides), τα λιπαρά οξέα (fatty acids), τα αµινοξέα (amino acids) και τα νουκλεοτίδια (nucleotides) Πρωτεΐνες και Αµινοξέα Τα αµινοξέα είναι 20 και αποτελούν τις δοµικές µονάδες των πρωτεϊνών. Τοποθετούνται το ένα δίπλα στο άλλο γραµµικά, σχηµατίζοντας µια πολυπεπτιδική αλυσίδα (poly-

25 Μοριακή Βιολογία και Βιοπληροφορική 19 peptide chain) [13]. Η αλληλουχία των αµινοξέων αποτελεί την πρωτοταγή δοµή (primary structure) της πρωτεΐνης και µπορεί να αναπαρασταθεί ως συµβολοσειρά από το συνδυασµό 20 διαφορετικών συµβόλων. Η πολυπεπτιδική αλυσίδα αναδιπλώνεται στον χώρο σχηµατίζοντας τη δευτεροτοταγή δοµή (secondary structure) της πρωτεΐνης. Ως αποτέλεσµα του διπλώµατος, τα µέρη του πρωτεϊνικού µορίου πλησιάζουν µεταξύ τους και οι διάφορες ελκτικές ή απωστικές δυνάµεις (δεσµοί υδρογόνου, υδρόφοβες και υ- δρόφιλες δυνάµεις) µεταξύ αυτών των µερών αναγκάζουν το µόριο να αποκτήσει µια σχετικά σταθερή τρισδιάστατη δοµή. Αυτή είναι η τριτοταγής δοµή (tertiary structure). Ουσιαστικά η σειρά µε την οποία τα αµινοξέα βρίσκονται µέσα στην πολυπεπτιδική αλυσίδα, καθορίζει την τρισδιάστατη δοµή της αλυσίδας. Η τεταρτοτοταγής δοµή (quaternary structure) είναι η τελική τρισδιάστατη µορφή που παίρνει η πρωτεΐνη, όταν α- ποτελείται από περισσότερες της µίας πολυπεπτιδικές αλυσίδες. Στο Σχήµα 3.1 παρουσιάζονται τα τέσσερα επίπεδα της πρωτεϊνικής δοµής. Πρωτοταγής δοµή ευτεροταγής δοµή Τριτοταγής δοµή Τεταρτοταγής δοµή Σχήµα 3.1: Τα τέσσερα επίπεδα οργάνωσης των πρωτεϊνών. Οι πρωτεΐνες διακρίνονται σε: οµικές πρωτεΐνες, οι οποίες µπορούν να θεωρηθούν ως οι βασικές δοµικές µονάδες του οργανισµού. Ένα παράδειγµα είναι το κολλαγόνο, το οποίο αποτελεί τη σηµαντικότερη δοµική πρωτεΐνη του συνδετικού ιστού και των οστών. Ένζυµα, τα οποία καταλύουν ένα πλήθος βιοχηµικών αντιδράσεων. Αυτές οι αντιδράσεις µαζί µε την πορεία που δηµιουργούν καλούνται µεταβολισµός (metabolism). Οι πρωτεΐνες της µεµβράνης (transmembrane) είναι βασικές στη συντήρηση του κυτταρικού περιβάλλοντος, ρυθµίζοντας για παράδειγµα τον όγκο του κυττάρου.

26 20 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες DNA και Νουκλεοτίδια Το 1944 οι Avery, Mac-Cleod και McCarthy διαπίστωσαν µετά από πειράµατα πως το γενετικό υλικό των οργανισµών είναι το DNA. Εκείνη την εποχή ήταν ήδη γνωστό πως η ποσότητα του DNA σε κάθε οργανισµό είναι σταθερή και ίδια σε όλα τα είδη των κυττάρων του οργανισµού, όπως στην περίπτωση του ανθρώπου σε αυτά του σπλήνα, της καρδιάς κτλ. Η ποσότητα αυτή είναι ανάλογη µε την πολυπλοκότητα του οργανισµού. Ένας εξελικτικά ανώτερος οργανισµός δηλαδή συνήθως έχει και µεγάλη ποσότητα DNA. Ακόµη, οι γαµέτες, που είναι τα κύτταρα της αναπαραγωγής στους ανώτερους οργανισµούς, περιέχουν την µισή ποσότητα DNA από τα σωµατικά κύτταρα [10]. Συνοπτικά οι λειτουργίες του γενετικού υλικού είναι: Η αποθήκευση της γενετικής πληροφορίας. Στο DNA περιέχονται οι πληροφορίες που καθορίζουν όλα τα χαρακτηριστικά ενός οργανισµού και οι οποίες οργανώνονται σε λειτουργικές µονάδες, τα γονίδια. Η διατήρηση και η µεταβίβαση της γενετικής πληροφορίας από κύτταρο σε κύτταρο και από οργανισµό σε οργανισµό, που εξασφαλίζονται µε τον αυτοδιπλασιασµό του DNA. Η έκφραση των γενετικών πληροφοριών που επιτυγχάνεται µε τον έλεγχο της σύνθεσης των πρωτεϊνών. Το γενετικό υλικό ενός κυττάρου αποτελεί το γονιδίωµά του και κατανέµεται συνήθως στον πυρήνα του κυττάρου. Το δεοξυριβονουκλεϊκό οξύ (deoxyribonucleic acid), ή συντοµότερα DNA ανήκει στην κατηγορία των νουκλεϊκών οξέων και είναι ο βασικός φορέας πληροφορίας σε ένα κύτταρο. Το DNA µπορεί να είναι µονόκλωνο ή δίκλωνο. Ένα µονόκλωνο µόριο DNA, αλλιώς πολυνουκλεοτίδιο (polynucleotide) είναι µια αλυσίδα (πολυνουκλεοτιδική αλυσίδα) από νουκλεοτίδια. Για την περιγραφή του µήκους του, χρησιµοποιείται ο αριθµός των νουκλεοτιδίων του νουκλεϊκού οξέος. Τα νουκλεοτίδια αποτελούνται από µια πεντόζη (σάκχαρο µε πέντε άτοµα άνθρακα), η οποία ενώνεται µε µια φωσφορική οµάδα και µια αζωτούχο βάση. Η πεντόζη των νουκλεοτιδίων του DNA είναι η δεοξυριβόζη (deoxyribose) και του RNA, ενός δεύτερου σηµαντικού νουκλεϊκού οξέος, η ριβόζη (ribose). Το RNA καλείται ριβονουκλεϊκό οξύ (ribonucleic acid). Η διαφορετικότητα των νουκλεοτιδίων µέσα στα µόρια του DNA και του RNA καθορίζεται από τις πέντε διαφορετικές αζωτούχες βάσεις. Οι αζωτούχες βάσεις είναι η αδενίνη (adenine), η γουανίνη (guanine), η κυτοσίνη (cytosine) και η θυµίνη (thymine) που συναντώνται στο DNA και η ουρακίλη

27 Μοριακή Βιολογία και Βιοπληροφορική 21 (uracil) που βρίσκεται στο RNA, αντί της θυµίνης. Οι παραπάνω βάσεις συµβολίζονται µε τα αρχικά τους γράµµατα A, G, C, T και U αντίστοιχα. Στον Πίνακα 3.1 φαίνεται η µοριακή δοµή των αζωτούχων βάσεων. Όνοµα Αδενίνη Adenine Συµβολισµός Μοριακή οµή A Γουανίνη Guanine G Θυµίνη Thymine T Κυτοσίνη Cytosine C Ουρακίλη Uracil U Πίνακας 3.1: Οι 5 νουκλεοτιδικές βάσεις. Έχει βρεθεί ότι η αναλογία των βάσεων (Α+Τ)/(G+C) διαφέρει από είδος σε είδος και σχετίζεται µε το είδος του οργανισµού. Ένα νουκλεοτίδιο συνδέεται µε το επό- µενο στην αλυσίδα νουκλεοτίδιο µε ένα φωσφοδιεστερικό δεσµό [10]. Ένα πολυνουκλεοτίδιο µπορεί να αναπαρασταθεί ως συµβολοσειρά από το συνδυασµό των τεσσάρων διαφορετικών βάσεων. Για παράδειγµα: A G T C C G T Τα δύο άκρα ενός τέτοιου µορίου είναι διαφορετικά από χηµική άποψη και καλούνται 5 άκρο και 3 άκρο. Το πρώτο νουκλεοτίδιο της αλυσίδας δηλαδή, έχει πάντα µια ελεύθερη φωσφορική οµάδα συνδεδεµένη στον 5 ο άνθρακα της πεντόζης του και το

28 22 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες τελευταίο έχει ελεύθερο το υδροξύλιο του 3 ου άνθρακα της πεντόζης του (Σχήµα 3.2). Άρα, ένα πολυνουκλεοτίδιο είναι κατευθυνόµενο και µάλιστα έχει προσανατολισµό 5 3 : 5 A G T C C G T 3 Σχήµα 3.2: Αλυσίδα µε 2 νουκλεοτίδια. Το βέλος δείχνει το φωσφοδιεστερικό σκελετό µε προσανατολισµό 5-3. Κατά σύµβαση το DNA γράφεται µε το 5 άκρο αριστερά και το 3 άκρο δεξιά και µάλιστα στην περίπτωση του δίκλωνου DNA η κωδική αλυσίδα γράφεται από πάνω. ύο αλυσίδες καλούνται συµπληρωµατικές (complementary), αν η µία µπορεί να προκύψει από την άλλη µε αµοιβαία ανταλλαγή της A µε την T και της G µε την C, και ταυτόχρονη αλλαγή του προσανατολισµού του µορίου. Επίσης δύο συµπληρωµατικές αλυσίδες καλούνται αντιπαράλληλες (antiparallel), λόγω των αντίθετων και συνάµα παράλληλων κατευθύνσεών τους. Για παράδειγµα οι δύο παρακάτω πολυνουκλεοτιδικές αλυσίδες είναι συµπληρωµατικές και αντιπαράλληλες: 5 A T T G G A T C 3 3 T A A C C T A G 5 ύο συµπληρωµατικές πολυνουκλεοτιδικές αλυσίδες σχηµατίζουν µια σταθερή δοµή, η οποία µοιάζει µε έλικα και είναι γνωστή ως η διπλή έλικα του DNA (DNA double helix) (Σχήµα 3.3). Το µοντέλο της διπλής έλικας του DNA διατυπώθηκε το 1953 στο Cambridge από τους Francis Crick και James Watson, µε τη συµβολή των Maurice Wilkins και Rosalind Franklin [10]. Αξίζει να σηµειωθεί ότι η συµπληρωµατικότητα των δύο αλυσίδων σηµαίνει ότι µπορεί να προσδιοριστεί επακριβώς η µία από τη γνώση της άλλης. Η συµπληρωµατικότητα έχει τεράστια σηµασία για τον αυτοδιπλασιασµό

29 Μοριακή Βιολογία και Βιοπληροφορική 23 του DNA, και το καθιστά το καταλληλότερο µόριο για τη διατήρηση και τη µεταβίβαση της γενετικής πληροφορίας. Σχήµα 3.3: Η διπλή έλικα του µορίου του DNA. 3.3 Γονίδια και Γονιδίωµα Τα κύτταρα περιέχουν πολλά γραµµικά µόρια DNA, ο αριθµός και το µήκος των ο- ποίων είναι χαρακτηριστικά για τα διάφορα είδη των οργανισµών. Τα µόρια αυτά καλούνται χρωµοσώµατα (chromosomes) [12,13]. Σε κάποιους οργανισµούς που καλούνται διπλοειδείς (diploids), κάθε χρωµόσωµα περιέχεται σε δύο αντίγραφα, τα οποία καλούνται οµόλογα χρωµοσώµατα (homologous chromosomes). Οργανισµοί µε ένα α- ντίγραφο του DNA στα χρωµοσώµατά τους, καλούνται απλοειδείς (haploids). Ο άνθρωπος είναι διπλοειδής και έχει 23 ζεύγη χρωµοσωµάτων. Η απεικόνιση του συνόλου των χρωµοσωµάτων ενός ατόµου ταξινοµηµένων σε µια πρότυπη µορφή στην οποία φαίνεται ο αριθµός, το µέγεθος και το σχήµα των χρω- µοσωµάτων καλείται καρυότυπος (karyotype) [14]. Τα χρωµοσώµατα που είναι µορφολογικά ίδια στο αρσενικό και το θηλυκό άτοµο καλούνται αυτοσωµικά (autosomes). Τα χρωµοσώµατα που καθορίζουν το φύλλο ενός οργανισµού καλούνται φυλετικά χρωµοσώµατα (sex chromosomes). Για παράδειγµα στον άνθρωπο υπάρχουν 22 ζεύγη αυτοσωµικών χρωµοσωµάτων και δύο χρωµοσώµατα τα X και Y, που καθορίζουν το θηλυκό και το αρσενικό άτοµο αντίστοιχα. Τα θηλυκά άτοµα περιλαµβάνουν το ζεύγος ΧΧ,

30 24 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες ενώ τα αρσενικά το ζεύγος XY. Το Σχήµα 3.4 παρουσιάζει τον καρυότυπο ενός φυσιολογικού αρσενικού ατόµου. Σχήµα 3.4: Καρυότυπος αρσενικού ατόµου. Το σύνολο του γενετικού υλικού ενός οργανισµού καλείται γονιδίωµα ή γένωµα (genome). Το γονίδιο (gene) είναι ένα συνεχές τµήµα µορίου χρωµοσωµικού DNA και είναι η βασική µονάδα κληρονοµικότητας. Γονιδιακή έκφραση (gene expression) καλείται η διαδικασία κατά την οποία η κωδικοποιηµένη πληροφορία ενός γονιδίου µετατρέπεται σε δοµές που παρουσιάζονται και λειτουργούν σε ένα κύτταρο. Αυτές οι δοµές συνήθως είναι πρωτεΐνες ή κάποιες µορφές RNA. Συγκεκριµένα για τον σχηµατισµό των πρωτεϊνών από το γονίδιο, δηµιουργείται µια δοµή mrna που περιέχει την συ- µπληρωµατική πληροφορία του µορίου DNA (του γονιδίου) και γίνεται αντιστοίχιση τριπλετών (τριών διαδοχικών νουκλεοτιδίων του mrna π.χ. GCA) σε αµινοξέα τα ο- ποία συνδέονται διαδοχικά σε πολυπεπτιδική αλυσίδα. Αυτές οι τριπλέτες καλούνται κωδικόνια (codons). Ο κώδικας αντιστοίχισης των νουκλεοτιδίων του mrna σε αµινοξέα ονοµάζεται γενετικός κώδικας (genetic code) ή κώδικας τριπλέτας (triplet code) [10]. Ο γενετικός κώδικας είναι σχεδόν καθολικός (universal), αφού ισχύει για όλους σχεδόν τους οργανισµούς. 3.4 Βιοπληροφορική Η Βιοπληροφορική (Bioinformatics) είναι µια επιστηµονική περιοχή, η οποία είναι αφοσιωµένη στη διαχείριση και την ανάλυση των βιολογικών δεδοµένων µε τη χρήση προηγµένων υπολογιστικών τεχνικών. Είναι µια νέα επιστήµη, που µάλιστα αν αναλογιστεί

31 Μοριακή Βιολογία και Βιοπληροφορική 25 κανείς πως η αποκρυπτογράφηση του ανθρώπινου γονιδιώµατος ολοκληρώθηκε µόλις το 2003 [24, 26], µπορεί να διαπιστώσει ότι υπάρχει αρκετός δρόµος ακόµη για την εύρεση και την ανάλυση περισσότερων δεδοµένων. Συγκεκριµένα στα πλαίσια της Γενω- µικής (Genomics) γίνεται η χαρτογράφηση του γονιδιώµατος, η εύρεση της αλληλουχίας και της λειτουργίας των γονιδίων ενώ παράλληλα στην Πρωτεωµική (Proteomics) γίνεται η µελέτη των πρωτεϊνών, ιδιαιτέρως της δοµής και της λειτουργίας τους. Ακό- µη, στα πλαίσια της Βιοπληροφορικής, είναι δυνατή η πρόβλεψη της θέσης των γονιδίων σε µια δεδοµένη ακολουθία DNA µε την εφαρµογή διάφορων αλγορίθµων οι οποίοι χρησιµοποιούν γονίδια ως σύνολα εκπαίδευσης. Μια δηµοφιλής αλγοριθµική τεχνική που χρησιµοποιείται είναι τα κρυφά µοντέλα Markov (hidden Markov models HMM) [4]. Επίσης χρησιµοποιείται η γνώση που προκύπτει από τη µελέτη των γονιδιωµάτων µε σκοπό την κατανόηση του ρόλου των γονιδίων και του τρόπου που λειτουργούν οι οργανισµοί Γενωµική Γενωµική είναι η µελέτη των γονιδιωµάτων, η οποία περιλαµβάνει τη χαρτογράφηση γονιδιώµατος, την εύρεση της αλληλουχίας και της λειτουργία γονιδίων [14]. Η εύρεση αλληλουχίας DNA σε σχετικά µικρά βακτηριακά γονιδιώµατα είναι εύκολη και γίνεται σε µεγάλο βαθµό από ειδικά ροµπότ. Το κύριο πρόβληµα είναι η ελαχιστοποίηση του κόστους ανά νουκλεοτίδιο και η µεγιστοποίηση της ταχύτητας, µε ταυτόχρονη διατήρηση της ποιότητας. Η αποκρυπτογράφηση µεγαλύτερων γονιδιωµάτων, παραµένει δύσκολη, παρόλο που τα περισσότερα προβλήµατα είναι υπολογιστικά, όπου ειδικά ρο- µπότ βρίσκουν αλληλουχίες µικρών σχετικά τµηµάτων DNA, διαδικασία γνωστή ως εύρεση αλληλουχίας DNA (DNA sequencing), τα οποία στη συνέχεια συναρµολογούνται από υπολογιστές µε τη βοήθεια ειδικών αλγορίθµων. Η συγκριτική γενωµική (comparative genomics) ασχολείται µε τις συγκρίσεις αλληλουχιών του γονιδιώµατος. Τα έργα χαρτογράφησης γονιδιωµάτων έχουν δείξει ότι τα γονιδιώµατα φαινοµενικά διαφορετικών οργανισµών µπορεί να έχουν αρκετές οµοιότητες. Για παράδειγµα η διαφορά µεταξύ των γονιδιωµάτων ανθρώπου και ποντικιού εντοπίζεται σε ποσοστό 5% - 15 %. Αυτές οι οµοιότητες υποδεικνύουν στενές εξελικτικές σχέσεις µεταξύ αυτών των οργανισµών. Η λειτουργική γενωµική (functional genomics) χρησιµοποιεί τη γνώση που προκύπτει από τη µελέτη των γονιδιωµάτων µε σκοπό την κατανόηση του ρόλου των γονιδίων, της λειτουργίας και αλληλεπίδρασης των προϊόντων τους και κυρίως του τρόπου

32 26 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες µε τον οποίο όλα αυτά κάνουν τους οργανισµούς να λειτουργούν µε τον τρόπο που λειτουργούν [13] Πρωτεωµική Η Πρωτεωµική (Proteomics) είναι η µεγάλης κλίµακας µελέτη των πρωτεϊνών, ιδιαιτέρως της δοµής και της λειτουργίας τους [9]. Σε έναν οργανισµό υπάρχουν πολύ περισσότερες πρωτεΐνες από γονίδια. Τα µοτίβα (motifs) και οι αναδιπλώσεις (folds), είναι χαρακτηριστικά των πρωτεϊνών που επιτρέπουν την ταξινόµησή τους σε οµάδες και οικογένειες πρωτεϊνών, κάνοντας τη µελέτη τους ευκολότερη Μικροσυστοιχίες Οι µικροσυστοιχίες (microarrays) είναι µια σηµαντική µέθοδος µέτρησης των επιπέδων της γονιδιακής έκφρασης. Με άλλα λόγια, χρησιµοποιούν τις αλληλουχίες DNA που έχουν δηµιουργηθεί από κατάλληλα προγράµµατα, για να δώσουν απάντηση στο ερώτηµα: τι γονίδια εκφράζονται σε κάποιο συγκεκριµένο τύπο κυττάρου ενός οργανισµού, σε συγκεκριµένη χρονική στιγµή και κάτω από συγκεκριµένες συνθήκες [4]. Στο Σχήµα 3.5 παρουσιάζεται µια τέτοια συσκευή. Σχήµα 3.5: Η συστοιχία GeneChip της εταιρείας Affymetrix (image courtesy of Affymetrix). Τυπικά µια µικροσυστοιχία είναι ένα γυάλινο πλακίδιο πάνω στο οποίο είναι προσαρτηµένα µόρια DNA σε καθορισµένες θέσεις, τις κηλίδες (spots). Μπορεί να υ- πάρχουν δεκάδες χιλιάδες κηλίδων σε µια µικροσυστοιχία κάθε µία από τις οποίες περιέχει έναν πολύ µεγάλο αριθµό πανοµοιότυπων µορίων DNA (ή τµήµατα πανοµοιότυπων µορίων), µε µήκη από είκοσι έως εκατό νουκλεοτίδια. Τα δεδοµένα που προκύπτουν από τα πειράµατα των µικροσυστοιχιών είναι οι υβριδοποιηµένες εικόνες των µικροσυστοιχιών (Σχήµα 3.6). Για να ληφθούν πληροφορίες για τα επίπεδα της γονιδιακής έκφρασης, οι εικόνες αυτές πρέπει να αναλυθούν, να

33 Μοριακή Βιολογία και Βιοπληροφορική 27 προσδιοριστεί κάθε κηλίδα, να µετρηθεί η έντασή της και να συγκριθεί µε το φόντο. Αυτή η διαδικασία καλείται ποσοτικοποίηση εικόνας (image quantitation) και πραγµατοποιείται από λογισµικό ανάλυσης εικόνας. Ο τελικός πίνακας της γονιδιακής έκφρασης παράγεται από το συνδυασµό όλων των ποσοτήτων που σχετίζονται µε κάθε γονίδιο (είτε από την ίδια συστοιχία, είτε από συστοιχίες που µετρούν τις ίδιες καταστάσεις σε επαναλαµβανόµενα πειράµατα) και ο συνολικός πίνακας πρέπει να κλιµακωθεί ώστε να γίνουν συγκρίσιµες οι διαφορετικές συστοιχίες [4]. Σχήµα 3.6: εδοµένα από πείραµα όπου φαίνεται η έκφραση χιλιάδων γονιδίων σε µία συστοιχία GeneChip (image courtesy of Affymetrix). Στον Πίνακα 3.2 παρουσιάζεται η γενική µορφή αναπαράστασης δεδοµένων γονιδιακής έκφρασης από µετρήσεις µε µικροσυστοιχίες. Οι στήλες του πίνακα αντιστοιχούν στα γονίδια και οι γραµµές στις βιολογικές καταστάσεις. Οι αριθµοί που βρίσκονται µέσα στα κελιά του πίνακα δηλώνουν τα επίπεδα της γονιδιακής έκφρασης των γονιδίων σε κάθε κατάσταση. Ο αριθµός των στηλών ενός τέτοιου πίνακα συνήθως είναι µερικές χιλιάδες, ενώ ο αριθµός των γραµµών µερικές δεκάδες. Γονίδιο 1 Γονίδιο 2... Γονίδιο Ν Πείραµα Πείραµα Πείραµα Μ Πίνακας 3.2: εδοµένα γονιδιακής έκφρασης από µικροσυστοιχίες [4] Η Τεχνική SAGE Η τεχνική SAGE (Serial Analysis of Gene Expression) είναι µια νέα µέθοδος, η οποία επινοήθηκε στο πανεπιστήµιο Johns Hopkins, στη Βαλτιµόρη των Η.Π.Α., µε σκοπό να δώσει στους επιστήµονες τη δυνατότητα της εποπτικής παρακολούθησης του συνόλου

34 28 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες της γονιδιακής δραστηριότητας ενός κυττάρου. Η διαδικασία µετρά τον αριθµό των µορίων mrna (transcripts) που υπάρχουν σε µια δεδοµένη στιγµή σε ένα κύτταρο. Τα συγκεκριµένα mrna χαρακτηρίζονται από µια µικρή αλληλουχία δέκα περίπου βάσεων, η οποία καλείται ετικέτα (tag). Το σύνολο των ετικετών που παράγονται σε ένα πείραµα σχηµατίζουν µια εγγραφή που καλείται βιβλιοθήκη (library). Η εφαρµογή της τεχνικής SAGE είναι αρκετά ακριβότερη από τη διεξαγωγή πειραµάτων µε µικροσυστοιχίες. Αυτός είναι και κύριος λόγος της ύπαρξης λίγων δηµοσίως διαθέσιµων δεδοµένων γονιδιακής έκφρασης από τη µέθοδο αυτή. Στον Πίνακα 3.3 παρουσιάζεται η γενική µορφή αναπαράστασης δεδοµένων γονιδιακής έκφρασης από µετρήσεις µε τη µέθοδο SAGE. Οι στήλες του πίνακα αντιστοιχούν στις ετικέτες (tags) και οι γραµµές στις βιβλιοθήκες (libraries). Οι αριθµοί που βρίσκονται µέσα στα κελιά του πίνακα δηλώνουν τον αριθµό των ετικετών που εµφανίζονται σε κάθε βιβλιοθήκη. Ο αριθµός των στηλών ενός τέτοιου πίνακα συνήθως είναι µερικές χιλιάδες, ενώ ο αριθµός των γραµµών µερικές δεκάδες. Ετικέτα 1 Ετικέτα 2... Ετικέτα Ν Βιβλιοθήκη Βιβλιοθήκη Βιβλιοθήκη Μ Πίνακας 3.3: εδοµένα γονιδιακής έκφρασης από τη µέθοδο SAGE [4] Τράπεζες εδοµένων Η κύρια πηγή πληροφοριών για τους επιστήµονες της βιοπληροφορικής είναι οι τράπεζες δεδοµένων (databanks). Οι τράπεζες δεδοµένων µπορεί να είναι απλά επίπεδα αρχεία (flat files), σχεσιακές ή και αντικειµενοστραφείς βάσεις δεδοµένων. Περιέχουν π.χ. δεδοµένα που προκύπτουν από τη χαρτογράφηση γονιδιωµάτων και δοµές πρωτεϊνών. Οι τράπεζες δεδοµένων µπορούν να ταξινοµηθούν σε τέσσερις κατηγορίες ανάλογα µε την πηγή των δεδοµένων [4,15]: Πρωτοταγείς τράπεζες δεδοµένων, οι οποίες περιέχουν ένα κύριο είδος πληροφορίας (π.χ. δεδοµένα αλληλουχιών-sequences), που µπορεί να προέρχεται από πολλές πηγές. Μια τέτοια πρωτοταγής τράπεζα δεδοµένων είναι η νουκλεϊκή τράπεζα EMBL στην Ευρώπη.

35 Μοριακή Βιολογία και Βιοπληροφορική 29 ευτεροταγείς τράπεζες δεδοµένων, οι οποίες περιέχουν ένα κύριο είδος πληροφορίας (π.χ. δεδοµένα στοιχίσεων), που µπορεί να προέρχεται µόνο από άλλες βάσεις δεδοµένων. Τράπεζες δεδοµένων γνώσης, οι οποίες είναι εξειδικευµένες και περιέχουν πληροφορίες από πολλές πηγές, όπως η βιβλιογραφία, δεδοµένα από ειδικούς και άλλες τράπεζες δεδοµένων. Ολοκληρωµένα συστήµατα τραπεζών δεδοµένων, που είναι ένας συνδυασµός πρωτοταγών και δευτεροταγών τραπεζών δεδοµένων. 3.5 Προβλήµατα και Προκλήσεις Η επιστήµη της Βιοπληροφορικής έχει ανακαλύψει βιολογικά δεδοµένα τεράστιου ό- γκου, όπως είναι οι αλληλουχίες των γονιδίων και οι πρωτεϊνικές δοµές που είναι διαθέσιµα στο ευρύ κοινό. Το ανθρώπινο γονιδίωµα αποτελείται από 3x10 9 bits πληροφορίας και υποθετικά περιέχει αρκετή λεπτοµέρεια ώστε να καθοριστούν όλες οι όψεις του ανθρώπινου οργανισµού. Μάλιστα, οι αλλαγές που υπάρχουν σε λιγότερο από το 1% αυτής της πληροφορίας ευθύνονται για την ποικιλοµορφία που υπάρχει στο ανθρώπινο είδος [25]. Πολλές τεχνικές εξόρυξης σε δεδοµένα έχουν προταθεί για την αναγνώριση συγκεκριµένων ακολουθιών στα γονίδια. Οι πιο συχνά χρησιµοποιούµενες είναι τα νευρωνικά δίκτυα, οι κατηγοριοποιητές Bayes, τα δένδρα απόφασης και οι µηχανές διανυσµάτων υποστήριξης (support vector machines - SVMs) [16,19,20,22]. Οι αλγόριθµοι αυτοί ισορροπούν µεταξύ αυξανόµενης ευαισθησίας (ικανότητας εντοπισµού θετικών παραδειγµάτων) και ελαττούµενης επιλεκτικότητας (ικανότητας αποκλεισµού αρνητικών παραδειγµάτων) [17]. Ωστόσο, όπως υποστηρίζουν οι Li, Ng και Wong [18], οι παραδοσιακές τεχνικές εξόρυξης δεν µπορούν να εφαρµοστούν απ ευθείας σε τέτοιου τύπου προβλήµατα αναγνώρισης. Έτσι, υπάρχει η ανάγκη προσαρµογής των υπαρχουσών τεχνικών σε αυτό το είδος των προβληµάτων. Έχουν γίνει προσπάθειες προς αυτή την κατεύθυνση µε χρήση τεχνικών παραγωγής χαρακτηριστικών (feature generation) και επιλογής χαρακτηριστικών (feature selection) [18,21]. Η αύξηση του αριθµού των γνωστών γονιδίων οδηγεί στην εµφάνιση νέων αναγκών. Μια τέτοια ανάγκη είναι η οµαδοποίηση των γονιδίων. Οι επιστήµονες επιστρατεύουν τις τεχνικές οµαδοποίησης δεδοµένων για να οµαδοποιήσουν αλληλουχίες DNA µε βάση τις δοµικές ή λειτουργικές οµοιότητες.

36 30 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Οι Piatetsky-Shapiro και Tamayo [23] παρουσιάζουν µια από τις µεγάλες προκλήσεις που καλούνται να αντιµετωπίσουν όσοι εφαρµόζουν τεχνικές εξόρυξης γνώσης σε δεδοµένα που προέρχονται από πειράµατα µικροσυστοιχιών. Στα περισσότερα πεδία εφαρµογής της ανακάλυψης γνώσης ο αριθµός των διαθέσιµων εγγραφών είναι σχετικά µεγάλος, ενώ ο αριθµός των πεδίων σχετικά µικρός. Ωστόσο, στις µικροσυστοιχίες ο αριθµός των εγγραφών είναι πολύ µικρός (συνήθως µικρότερος από 100), σε αντίθεση µε τον αριθµό των πεδίων που είναι εξαιρετικά µεγάλος (µερικές χιλιάδες). Οι εγγραφές αντιστοιχούν σε διαφορετικές βιολογικές καταστάσεις και τα πεδία σε διαφορετικά γονίδια. Η κατάσταση αυτή προβάλλει µια πραγµατικά µεγάλη πρόκληση, καθώς ο µεγάλος αριθµός των πεδίων σε σύγκριση µε το µικρό αριθµό των εγγραφών αυξάνει την πιθανότητα εµφάνισης λανθασµένων θετικών παραδειγµάτων (false positives). Επιπλέον, κατά τη διαδικασία της κατηγοριοποίησης υπάρχει ο κίνδυνος της επικάλυψης της συνεισφοράς των σχετικών µε µια κλάση γονιδίων από το µεγάλο αριθµό µη-σχετικών γονίδιων. Συνεπώς µεγαλώνει η πιθανότητα να προκύψουν λανθασµένα αποτελέσµατα. Με την επιλογή γονιδίων αποµακρύνονται τα γονίδια που δεν έχουν σχέση µα κάποια κλάση και περιορίζεται αυτός ο κίνδυνος.

37 4 Πρόβλεψη Σηµείου Έναρξης Μετάφρασης Πολλά από τα εργαλεία εξόρυξης από δεδοµένα µπορούν να εφαρµοστούν στην Βιοπληροφορική. Ωστόσο τα βιολογικά δεδοµένα διαφέρουν από τα δεδοµένα για τα οποία αρχικά σχεδιάστηκαν τα εργαλεία αυτά. Τα βιολογικά δεδοµένα δεν έχουν σαφή χαρακτηριστικά, για τον λόγο αυτό γίνεται χρήση τεχνικών παραγωγής χαρακτηριστικών (feature generation) και επιλογής χαρακτηριστικών (feature selection). Για παράδειγµα µια ακολουθία DNA αποτελείται από γράµµατα A, T, C, G σε τυχαία σειρά τα οποία όµως δηµιουργούν σηµεία στην ακολουθία µε εξαιρετική βιολογική σηµασία. Τέτοια σηµεία είναι τα σηµεία έναρξης µετάφρασης (Translation Initiation Sites - TIS), τα σηµεία έναρξης µεταγραφής (Transcription Start Sites), κωδικές περιοχές (coding region) κ.α. που η αναγνώρισή τους σε µια γενετική ακολουθία είναι µια σηµαντική εφαρµογή για την Βιοπληροφορική [27, 28, 28]. Για αυτό το λόγο έχουν περιγραφεί µεθοδολογίες και τεχνικές για αυτά τα προβλήµατα αναγνώρισης και συγκεκριµένα για την αναγνώριση των TIS. 4.1 Περιγραφή του Σηµείου Έναρξης Μετάφρασης Μια πρωτεΐνη προκύπτει από το mrna µέσα από µια διαδικασία που λέγεται µετάφραση. Στα ευκαρυωτικά κύτταρα ένα ριβόσωµα (ribosome) προσδένεται στο 5 άκρο του mrna και ελέγχει την ακολουθία αυτή µε κατεύθυνση το 3 άκρο µέχρι να συναντήσει ένα AUG. Σε αυτό το σηµείο ξεκινά η µετάφραση όπου γίνεται η αντιστοίχιση των κωδικονίων σε αµινοξέα, τα οποία συνδέονται διαδοχικά στην πολυπεπτιδική αλυσίδα, ώσπου να τερµατιστεί η διαδικασία µε µια τριπλέτα UAA ή UAG ή UGA (Σχήµα 4.1).

38 32 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες 5 UTR κατεύθυνση της µετάφρασης κωδική περιοχή 3 UTR 5 upstream AUG UGA downstream 3 νουκλεοτίδιο mrνα in-frame κωδικόνιο AUG UGA έναρξη λήξη ριβόσωµα Σχήµα 4.1: Η έναρξη της µετάφρασης. Το ριβόσωµα σαρώνει το mrna µέχρι να διαβάσει ένα κωδικόνιο AUG. Από την περιγραφή αυτή της διαδικασίας της µετάφρασης είναι λογικό να υποθέσει κανείς ότι το πρώτο AUG που θα βρεθεί από το ριβόσωµα θα είναι και ένα πραγµατικό σηµείο έναρξης µετάφρασης (true TIS). Ωστόσο αυτό δε συµβαίνει πάντοτε καθώς το ριβόσωµα ενδέχεται να προσπεράσει το πρώτο AUG που θα συναντήσει και να ξεκινήσει την µετάφραση από ένα άλλο που ακολουθεί. Αυτό συµβαίνει σε ποσοστό 10% είτε γιατί µετά από ένα AUG υπάρχει φτωχό περιεχόµενο δηλαδή κωδικοποιούνται λίγα αµινοξέα είτε γιατί γίνεται επανέναρξη (reinitiation) της µετάφρασης (Σχήµα 4.2) [27, 28, 28]. Μάλιστα οι Pedersen και Nielsen ανακάλυψαν πως από τα νουκλεοτιδικά δεδοµένα που πάρθηκαν από την GenBank και είναι αλληλουχίες DNA από τις οποίες έχουν αφαιρεθεί τα εσώνια, περίπου το 40% περιέχουν AΤG πριν από ένα TIS [28]. Σχήµα 4.2: Περιγραφή του µοντέλου σάρωσης του mrna από το ριβόσωµα [29].

39 Πρόβλεψη Σηµείου Έναρξης Μετάφρασης 33 Το πρόβληµα της πρόβλεψης ενός TIS αφορά τη σωστή αναγνώρισή του µέσα σε µια ακολουθία mrna ή cdna (µονόκλωνο DNA που δηµιουργείται χρησιµοποιώντας ως καλούπι mrna) ή EST (Expressed Sequence Tag) η οποία είναι µια ακολουθία από τµήµατα των άκρων του cdna, ή ακόµα σε µια ακολουθία αµινοξέων. Αυτό που ζητείται είναι να βρεθούν τα χαρακτηριστικά µέσα στην ακολουθία τα οποία βοηθούν στο διαχωρισµό ανάµεσα στα ATG τα οποία είναι TIS και σε αυτά που δεν είναι. Υπάρχουν διάφορες προσεγγίσεις σε αυτό το πρόβληµα όπως αυτή των Pedersen και Nielsen, των Wong et al. της Α. Χατζηγεωργίου και των Zien et al. Οι Stormo et al. [31] χρησιµοποίησαν τον αλγόριθµο perceptron και το 1978 οι Kozak και Shatkin [32] πρότειναν το µοντέλο σάρωσης του mrna από το ριβόσωµα για την έναρξη της µετάφρασης το οποίο στη συνέχεια αναθεωρήθηκε από την Κozak [33]. Σύµφωνα µε αυτό το µοντέλο, η διαδικασία της µετάφρασης αρχίζει στο πρώτο κωδικόνιο έναρξης το οποίο έχει κατάλληλο περιεχόµενο (Σχήµα 4.2). Στη συνέχεια, το 1987 η Kozak α- νέπτυξε τον πρώτο πίνακα βαρών (weight matrix) για τον προσδιορισµό των TIS σε cdna αλληλουχίες [34]. 4.2 Πρόβλεψη µε Νευρωνικά ίκτυα Σε αυτή την ενότητα παρουσιάζονται δύο από τις πιο σηµαντικές εργασίες για την πρόβλεψη του TIS µε την εφαρµογή τεχνητών νευρωνικών δικτύων Προσέγγιση των Pedersen και Nielsen Οι Pedersen και Nielsen [28] ασχολήθηκαν µε ένα τεχνητό νευρωνικό δίκτυο (artificial neural network ANN) το οποίο έχει τρία επίπεδα. Το ANN έχει εκπαιδευτεί µε ένα παράθυρο µήκους 203 νουκλεοτιδίων το οποίο στο κέντρο του έχει το υποψήφιο ATG. Εποµένως τα νουκλεοτίδια που έχουν επιλεγεί είναι 200, δηλαδή 100 πριν και 100 µετά το υποψήφιο ATG. Η είσοδος παριστάνεται µε την κωδικοποίηση κάθε νουκλεοτιδίου µε τέσσερα δυαδικά ψηφία, όπου Α =0001, C =0010, G =0100 και Τ =1000. Το επίπεδο της εξόδου έχει δυο νευρώνες. Ο ένας προβλέπει αν το υποψήφιο ATG στην είσοδο είναι πραγµατικό TIS και ο άλλος αν δεν είναι ΤIS. Όποιος από τους δυο νευρώνες έχει την µεγαλύτερη τιµή, υπερισχύει. Τα αποτελέσµατα αυτής της προσέγγισης δίνουν 78% ευαισθησία (sensitivity) για αναγνώριση TIS και 87% ειδικότητα (specificity) για αναγνώριση µη-tis πάνω σε δεδοµένα που προήλθαν από 3312 αλληλουχίες σπονδυλω-

40 34 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες τών, δίνοντας µια συνολική ακρίβεια (accuracy) 85%. Η προσέγγιση αυτή είναι εφαρ- µόσιµη στο NetStart. Επιπλέον, στην προσπάθειά τους να ανακαλύψουν τα χαρακτηριστικά που διαχωρίζουν τα TIS από τα µη-tis, πρόσθεσαν στο παράθυρο των 203 νουκλεοτιδίων µια τρύπα η οποία είναι ένα νουκλεοτίδιο µε άγνωστη τιµή. Με την αλλαγή της θέσης που είχε η τρύπα µέσα στο παράθυρο, παρατήρησαν πως το ANN έχανε την ικανότητα πρόβλεψης όταν η τρύπα αυτή βρισκόταν τρεις θέσεις πριν το υποψήφιο ATG Προσέγγιση της Χατζηγεωργίου Η Α. Χατζηγεωργίου [29] προτείνει το πρόγραµµα DIANA-TIS το οποίο χρησιµοποιεί δυο τεχνητά νευρωνικά δίκτυα (consensus ANN και coding ANN) σε 475 αλληλουχίες ανθρώπινου γονοδιώµατος. Τα δεδοµένα εισόδου είναι πλήρεις αλληλουχίες cdna και σε συνδυασµό µε το µοντέλο σαρώµατος του ριβοσώµατος προκύπτουν αποτελέσµατα µε ακρίβεια 94%. Αυτό δε σηµαίνει πως αυτή η προσέγγιση είναι καλύτερη από των Pedersen και Nielsen γιατί χρησιµοποιούνται διαφορετικά δεδοµένα και επιπλέον το DIANA-TIS µπορεί να προβλέψει µόνο ένα TIS. Ο αλγόριθµος ξεκινά µε γραµµική αναζήτηση από την αρχή του ανοικτού πλαισίου ανάγνωσης (coding ORF) και σταµατά όταν ο συνδυασµός των δυο ANN προβλέπει θετική τιµή. Για διευκόλυνση, τα νουκλεοτίδια της ακολουθίας έχουν αριθµηθεί σχετικά µε το υποψήφιο ATG, όπου στη θέση 1 βρίσκεται το Α του κωδικονίου έναρξης και όλα τα επόµενα συνεχίζουν την αρίθµηση αυξητικά, ενώ τα προηγούµενα νουκλεοτίδια ξεκινούν από τη θέση 1 η οποία βρίσκεται ακριβώς πριν το ATG και συνεχίζουν την αρίθµηση σε φθίνουσα σειρά (Σχήµα 4.3). Το consensus ANN εκτιµά το υ- ποψήφιο TIS χρησιµοποιώντας ένα παράθυρο 12 νουκλεοτιδίων από τη θέση 7 µέχρι τη θέση +5 σχετικά µε το ATG, όπου το Α είναι στη θέση +1, ενώ το coding ANN ε- κτιµά την κωδική σηµασία της περιοχής γύρω από το ATG µε ένα παράθυρο των 54 νουκλεοτιδίων (Σχήµα 4.4). Εποµένως τα χαρακτηριστικά που επιλέγονται σε αυτή τη προσέγγιση είναι 12+54= G C C A C C A T G G C A T C G 3 Σχήµα 4.3: Απεικόνιση των θέσεων των νουκλεοτιδίων σε µια τυχαία ακολουθία.

41 Πρόβλεψη Σηµείου Έναρξης Μετάφρασης 35 Σχήµα 4.4: Πρόβλεψη των δυο ANN σε cdna ακολουθία. Η συµπαγής γραµµή δίνει την τιµή του coding ANN για το ανοικτό κωδικό πλαίσιο ανάγνωσης ενώ η διακεκοµµένη δίνει την θέση της τι- µής για το consensus ANN για όλα τα ATGs στο πλαίσιο. Το σωστό TIS είναι στη θέση 148 [29]. 4.3 Πρόβλεψη µε Μηχανές ιανυσµάτων Υποστήριξης Μια άλλη µέθοδος που χρησιµοποιείται για την πρόβλεψη του TIS είναι οι µηχανές διανυσµάτων υποστήριξης (SVMs). Στο παρόν κείµενο παρουσιάζονται δύο προσεγγίσεις στις οποίες εφαρµόζονται SVMs. Η πρώτη ακολουθεί αµέσως µετά, ενώ η δεύτερη περιγράφεται στην ενότητα καθώς εµπίπτει και σε άλλη κατηγορία Προσέγγιση των Zien και Wong Οι Zien και Wong [30] χρησιµοποίησαν τα δεδοµένα των Pedersen και Nielsen αλλά τα εφάρµοσαν σε µηχανές διανυσµάτων υποστήριξης (support vector machine-svm). Η µέθοδος των SVM µπορεί να επιλέξει ένα µικρό αριθµό κρίσιµων δειγµάτων τα οποία βρίσκονται στο σύνορο της κάθε κλάσης και να φτιάξει µια συνάρτηση που διαχωρίζει τις κλάσεις αυτές. Στο πρόβληµα των TIS υπάρχουν δυο κλάσεις, στη µια ανήκουν τα δείγµατα που είναι TIS και στην άλλη αυτά που δεν είναι [30]. Μάλιστα οι Zien et al., θεωρώντας το πρόβληµα πρόβλεψης TIS ως ένα πρόβληµα οµαδοποίησης, πέτυχαν καλά αποτελέσµατα µε αλλαγές στη συνάρτηση πυρήνα των SVM. Συγκεκριµένα χρησι- µοποίησαν ένα τοπικά βελτιωµένο πυρήνα (locality-improved kernel), ένα βελτιωµένο πυρήνα κωδικονίων που ακολουθούν το ATG και τον πυρήνα Salzberg που χρησιµοποιεί δεσµευµένες πιθανότητες θέσης. 4.4 Πρόβλεψη µε ηµιουργία και Επιλογή Χαρακτηριστικών Στην ενότητα αυτή παρουσιάζεται µια διαδικασία τριών βηµάτων που χρησιµοποιείται για την πρόβλεψη του TIS. Στο πρώτο βήµα δηµιουργούνται τα χαρακτηριστικά και ένα

42 36 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες υποσύνολο αυτών επιλέγεται στο δεύτερο βήµα. Στο τρίτο βήµα χρησιµοποιούνται τα επιλεγµένα χαρακτηριστικά για την εφαρµογή ενός αλγορίθµου ανακάλυψης γνώσης. Ακολουθεί η περιγραφή δύο εργασιών από τις σηµαντικότερες αυτής της κατηγορίας Προσέγγιση των Zeng et al. Η µέθοδος που χρησιµοποίησαν οι Zeng et al. [31] αποτελείται από τρία βήµατα. Αρχικά δηµιουργούνται χαρακτηριστικά (feature generation) από µια ακολουθία παίρνοντας τα k-grams και στη συνέχεια γίνεται επιλογή των χαρακτηριστικών (feature selection) που συµβάλουν στο διαχωρισµό των TIS από τα µη-tis. Το πλεονέκτηµα της προσέγγισης αυτής είναι πως αφού δηµιουργηθούν και αφού επιλεγούν τα χαρακτηριστικά, στο τρίτο στάδιο γίνεται η εκπαίδευση του συστήµατος µε την εφαρµογή αλγορίθµων µηχανικής µάθησης. Αυτοί οι αλγόριθµοι, όπως ο κατηγοριοποιητής C4.5 για τα δένδρα απόφασης, ο απλός κατηγοριοποιητής Bayes (Naïve Bayes-NB) και τα νευρωνικά δίκτυα είναι συγκεντρωµένοι στη βιβλιοθήκη αλγορίθµων WEKA ( όπου µάλιστα υπάρχει η δυνατότητα επιλογής από ένα πλήθος αλγορίθµων. Η δυσκολία που υπάρχει στο πρόβληµα της πρόβλεψης των TIS για όλες τις προσεγγίσεις, είναι η απαίτηση να υπάρχουν πλήρεις αλληλουχίες (full-lenght) και α- παλλαγµένες από λάθη (error-free). Οι Zeng et al. χρησιµοποιούν τα ίδια δεδοµένα µε τους Pedersen και Nielsen, δηλαδή γονιδιακές αλληλουχίες σπονδυλωτών της GenBank. ηµιουργία Χαρακτηριστικών Για να δηµιουργηθούν τα υποψήφια χαρακτηριστικά χρησιµοποιείται ένα παράθυρο των 203 θέσεων. Είναι 100 νουκλεοτίδια πριν (upstream) και 100 νουκλεοτίδια µετά το ATG (downstream). Το ATG δηλαδή βρίσκεται στο κέντρο του παραθύρου και έχει το Α στη θέση +1 [27, 31]. Αν δεν υπάρχουν νουκλεοτίδια για να καλύψουν τις θέσεις του παραθύρου, αυτά θεωρούνται ως άγνωστες τιµές και σηµειώνονται µε?. Έτσι οι α- ριθµηµένες θέσεις αποτελούν µια µορφή χαρακτηριστικών τα οποία είναι στο σύνολο τους 200. Στη συνέχεια γίνεται χρήση των k-grams (k=1,2,3,4,5) όπου k είναι το µήκος ενός πλαισίου. Για παράδειγµα, όταν το k=2 τότε το µήκος του πλαισίου είναι δυο βάσεις και άρα υπάρχουν 16 συνδυασµοί των 2-grams οι οποίοι είναι AA, AT, AC, AG, TA, TC, TT, TG, CC, CA, CT, CG, GG, GA, GC, GT. Επειδή τα k-grams χωρίζονται

43 Πρόβλεψη Σηµείου Έναρξης Μετάφρασης 37 σε upstream και downstream προκύπτουν 2*4 k χαρακτηριστικά για κάθε k. Αυτό που ενδιαφέρει στα k-grams είναι η συχνότητα εµφάνισής τους µέσα στην ακολουθία του παραθύρου. Ένα ακόµα χαρακτηριστικό είναι τα in-frame 3-grams τα οποία βρίσκονται στις θέσεις -9,-6,-3, 4, 7, 10 Αυτό το χαρακτηριστικό έχει βιολογική σηµασία αφού οι τριάδες βάσεων σχηµατίζουν κωδικόνια το οποία κωδικοποιούν τα αµινοξέα για το σχηµατισµό της πρωτεΐνης. Έτσι τα in-frames χωρίζονται σε in-frames upstream και είναι αυτά στις θέσεις 9,-6,-3 και σε in-frames downstream στις θέσεις 4, 7, 10...(Σχήµα 4.3). Εποµένως υπάρχουν 2*4 3 τέτοια χαρακτηριστικά. Ένα τελευταίο χαρακτηριστικό είναι η συχνότητα των κωδικονίων λήξης (TAA, TAG, TGA) µέσα σε εύρος 50 βάσεων downstream και 100 βάσεων downstream. Έτσι προκύπτουν άλλα δυο χαρακτηριστικά, stop50 και stop100. Συνολικά προκύπτουν 2[( 5 k=1 4 k ) ]=3056 χαρακτηριστικά για κάθε µια από τις αλληλουχίες που υπάρχουν. ηλαδή µια ακολουθία έχει ένα διάνυσµα χαρακτηριστικών (feature vector) µε 3056 στοιχεία. Επιλογή Χαρακτηριστικών Ο συνολικός αριθµός χαρακτηριστικών που προκύπτει από το προηγούµενο στάδιο είναι αρκετά µεγάλος και ενδέχεται να περιέχει στοιχεία που δε σχετίζονται µε τον διαχωρισµό των ATGs. Αυτό όµως είναι δυνατό να έχει επίπτωση στην ακρίβεια των αλγορίθµων µηχανικής µάθησης, εποµένως είναι απαραίτητο να επιλεγούν τα χαρακτηριστικά εκείνα που είναι σηµαντικά για την πρόβλεψη των TIS. Έτσι θεωρούνται δυο κλάσεις Α και Β µε δείγµατα και έστω ότι η Α περιέχει τα διανύσµατα χαρακτηριστικών που αντιστοιχούν στις αλληλουχίες που έχουν το TIS και η Β τα διανύσµατα χαρακτηριστικών που αντιστοιχούν στις αλληλουχίες που δεν έχουν το TIS. Εποµένως ένα χαρακτηριστικό είναι σχετικό αν συνεισφέρει στο διαχωρισµό των δειγµάτων ως προς την κλάση που ανήκουν. Με την επιλογή χαρακτηριστικών βασισµένη στη συσχέτιση (correlation based feature selection-cfs ) εξετάζονται διάφοροι συνδυασµοί υποσυνόλων που προκύπτουν από το αρχικό σύνολο χαρακτηριστικών. Ο αλγόριθµος CFS που χρησιµοποιεί ευριστική προσέγγιση, εφαρµόζεται σε όλα τα δεδοµένα και βρίσκει ποια υποσύνολα χαρακτηριστικών συσχετίζονται υψηλά µε την κλάση αλλά και είναι ασυσχέτιστα µεταξύ τους. Τα χαρακτηριστικά αυτά που επιλέγονται, στη συνέχεια εκτιµώνται µε αλγορίθµους µάθησης.

44 38 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Για µεγαλύτερη αξιοπιστία, η επιλογή των χαρακτηριστικών γίνεται µε την µέθοδο 3-fold cross validation, όπου τα δεδοµένα χωρίζονται σε τρία ίσα µέρη και κάθε τµήµα δοκιµάζεται σύµφωνα µε την εκπαίδευση που γίνεται στα άλλα δυο τµήµατα. Επίσης µπορούν να χρησιµοποιηθούν άλλες µεθοδολογίες όπως η signal-to-noise, η t- statistics και µετρήσεις εντροπίας. Από το στάδιο αυτό προκύπτει πως το πολύ µέχρι 13 χαρακτηριστικά είναι ση- µαντικά για την κατηγοριοποίηση των ATGs και τα οποία µπορούν να εξηγηθούν από τους µηχανισµούς µετάφρασης του ριβοσώµατος και από την ακολουθία Kozak η οποία προτείνει συγκεκριµένες βάσεις γύρω από ένα ATG (GCC[A/G]CCATGG). Τα 9 χαρακτηριστικά που τελικά κρίνονται πιο σηµαντικά και επιλέγονται είναι η θέση 3 της ακολουθίας που σύµφωνα µε το πρότυπο της Kozak είναι Α ή G, τα in-frame upstream ATGs και τα in-frame downstream TAA, TAG, TGA, CTG, GAC, GAG, GCC όπου τα τρία πρώτα είναι τα κωδικόνια λήξης και τα υπόλοιπα κωδικοποιούν τα αµινοξέα A, D, E και K. Παρατηρείται πως η τρίτη βάση των κωδικονίων αυτών προτιµάται να είναι G ή C παρόλο που τα αµινοξέα έχουν και εναλλακτικά κωδικόνια µε A και T στην τρίτη βάση [31]. Πρόβλεψη των TIS Αφού έχει γίνει η επιλογή των χαρακτηριστικών, χρησιµοποιούνται ορισµένοι κατηγοριοποιητές µηχανικής µάθησης µε το WEKA όπως ο ΝΒ, τα SVMs και ο C4.5 αλλά και η 3-fold cross validation για την αξιόπιστη εκπαίδευση και δοκιµή των ακολουθιών (training and testing) ώστε να δηµιουργηθεί ένα σύστηµα που να αναγνωρίζει συγκεκριµένες ιδιότητες στην ακολουθία δεδοµένων. Για κάθε ATG είναι γνωστό εάν είναι TIS ή µη-tis εποµένως υπολογίζονται οι ακόλουθες ποσότητες (Πίνακας 4.1). Είναι TIS Είναι µη-tis Κατηγοριοποιήθηκε ως TIS Σωστά Θετικά True Positives (TP) Λάθος Θετικά False Positives (FP) Κατηγοριοποιήθηκε ως µη-tis Λάθος Αρνητικά False Negatives (FN) Σωστά Αρνητικά True Negatives (TN) Πίνακας 4.1: Χαρακτηριστικά για την αξιολόγηση της πρόβλεψης. Για την αποτίµηση των αποτελεσµάτων χρησιµοποιούνται τέσσερις µετρικές που παρουσιάζονται στον Πίνακα 4.2.

45 Πρόβλεψη Σηµείου Έναρξης Μετάφρασης 39 Ευαισθησία (Sensitivity) (TP Rate) Ειδικότητα (Specificity) (TN Rate) Ορθότητα (Precision) Ακρίβεια (Accuracy) TP TP + FN TN TN + FP TP TP + FP TP + TN TP + FP + TN + FN Πίνακας 4.2: Μετρικές για την αξιολόγηση της πρόβλεψης. Έτσι µε την εφαρµογή των κατηγοριοποιητών στα 9 χαρακτηριστικά που προκύπτουν από το προηγούµενο στάδιο επιτυγχάνονται τα αποτελέσµατα που φαίνονται στον Πίνακα 4.3. ΚατηγοριοποιητήςΕυαισθησία Ειδικότητα Ορθότητα Ακρίβεια ΝΒ 84.3% 86.1% 66.3% 85.7% SVM 73.9% 93.2% 77.9% 88.5% C % 94.4% 81.1% 89.4% Πίνακας 4.3: 3-fold cross-validation accuracy των NB, SVM και C4.5 των δεδοµένων από τους Pedersen και Nielsen βασισµένο στα 9 χαρακτηριστικά που επιλέχθηκαν µε τον CFS. Υπάρχουν όµως περιθώρια βελτίωσης µε τρεις τρόπους. Μπορεί να χρησιµοποιηθεί µια µέθοδος απλής ψηφοφορίας (simple voting meta-learner), να προστεθεί το επιπλέον χαρακτηριστικό της απόστασης του ATG από την αρχή της ακολουθίας ή να γίνει χρήση του µοντέλου ριβοσώµατος. Η ψηφοφορία (voting strategy) περιλαµβάνει µια απλή ψήφο πλειοψηφίας τριών κατηγοριοποιητών όπου ένα TIS προβλέπεται όταν δυο ή περισσότεροι αλγόριθµοι κατηγοριοποιούν ένα ATG ως σηµείο έναρξης της µετάφρασης. Επιλέγεται δηλαδή ένας συνδυασµός από τρεις κατηγοριοποιητές και ελέγχεται η ακρίβεια του συνολικού συστήµατος η οποία αναµένεται να είναι βελτιωµένη, πράγµα που δε συµβαίνει όµως διότι οι αλγόριθµοι έχουν εφαρµοστεί στα ίδια δεδοµένα και τα δεδοµένα δε ποικίλουν αρκετά. Για το µοντέλο σαρώµατος, κάθε ATG που βρίσκεται downstream από ένα TIS αγνοείται. Έτσι υπάρχουν TIS και µη-tis στο 5 άκρο της µη µεταφρασµένης περιοχής (Untranslated Region- UTR ) δηλαδή κάθε µη-tis βρίσκεται upstream από ένα TIS. Με την εφαρµογή του 3-fold cross validation επιτυγχάνεται βελτίωση της ακρίβειας που από 90% γίνεται 94%.

46 40 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Προσέγγιση των Liu et al Οι Liu et al. [41] χρησιµοποίησαν την µέθοδο της δηµιουργίας και επιλογής χαρακτηριστικών. Η διαφορά τους µε τους Zeng et al. είναι ότι επέλεξαν έναν εναλλακτικό τρόπο για την δηµιουργία των χαρακτηριστικών. Παίρνοντας πάλι ένα παράθυρο των 203 θέσεων µε 100 νουκλεοτίδια πριν και 100 µετά από ένα υποψήφιο ATG, επέλεξαν µόνο in-frame 3-grams, τριπλέτες δηλαδή που το πρώτο νουκλεοτίδιο βρίσκεται στη θέση...-6,-3,+4,+7. Αυτές οι τριπλέτες κωδικοποιούν αµινοξέα, εποµένως γίνεται η αντιστοίχιση των κωδικονίων µε αµινοξέα. Τα κωδικόνια λήξης αντικαθίστανται από ένα ειδικό σύµβολο. Με αυτό τον τρόπο δεν υπάρχουν πλέον αλληλουχίες από νουκλεοτίδια A,T,C και G αλλά αλληλουχίες από αµινοξέα. Τα χαρακτηριστικά που δηµιουργήθηκαν από αυτές τις αλληλουχίες είναι τα up- X, down-x και up-xυ, down-xυ τα οποία εκφράζουν το πλήθος των αµινοξέων Χ και ΧΥ που υπάρχουν πριν και µετά το ATG αντίστοιχα όπου Χ και Υ είναι ένα από τα 20 σύµβολα των αµινοξέων ή το σύµβολο για τα κωδικόνιο λήξης. ηλαδή up-xy είναι το πλήθος των αµινοξέων Υ που ακολουθούν ένα Χ αµινοξύ πριν από ένα ATG. Επίσης διατήρησαν τα χαρακτηριστικά από την προηγούµενη προσέγγιση, up-atg για την ύ- παρξη in-frame ATG πριν από το υποψήφιο, up3-aorg για την ύπαρξη A ή G στη θέση 3 και down4-g για την ύπαρξη G στη θέση +4, σύµφωνα µε το προτεινόµενο µοντέλο της Kozak. Για την επιλογή των χαρακτηριστικών µέσα από ένα πλήθος των 927 χαρακτηριστικών, χρησιµοποιήθηκε το µέγεθος της εντροπίας µε 3-fold cross validation και προέκυψαν τα χαρακτηριστικά που φαίνονται στον Πίνακα 4.4 ως σηµαντικά για τον διαχωρισµό των TIS από τα µη-tis. up ATG Μέτρηση των in-frame ATG πριν από το υποψήφιο ATG down STOP STOP είναι οποιοδήποτε κωδικόνιο λήξης down L L είναι από το αµινοξύ Λευκίνη down D D είναι από το αµινοξύ Ασπαρτικό οξύ down E E είναι από το αµινοξύ Γλουταµικό οξύ down A A είναι από το αµινοξύ Αλανίνη up3aorg Ύπαρξη A ή G στη θέση 3 up A A είναι από το αµινοξύ Αλανίνη down V V είναι από το αµινοξύ Βαλίνη Πίνακας 4.4: Τα σηµαντικά χαρακτηριστικά από την προσέγγιση των Liu et al.

47 Πρόβλεψη Σηµείου Έναρξης Μετάφρασης 41 Αυτά τα χαρακτηριστικά όταν χρησιµοποιηθούν µε τον αλγόριθµο C4.5, τις µηχανές διανυσµάτων υποστήριξης (SVMs) και τον απλό κατηγοριοποιητή Bayes (NB) προκύπτουν οι µετρήσεις που φαίνονται στον Πίνακα 4.5. C4.5 SVM NB Ευαισθησία 74,88% 80,19% 70,53% Ειδικότητα 93,65% 96,48% 87,76% Ορθότητα 79,51% 88,24% 65,47% Ακρίβεια 89,00% 92,45% 83,49% Πίνακας 4.5: Αποτελέσµατα των χαρακτηριστικών των Li et al. 4.5 Εφαρµογές Η διαδικτυακή εφαρµογή ATGpr του Salamov [35] αναλύει το περιεχόµενο ενός υποψήφιου TIS µιας EST ακολουθίας σε έξι χαρακτηριστικά. Κάθε χαρακτηριστικό διαχωρίζει τα σωστά TIS από τα ψευδή. Έχει σηµειωθεί πως τα πιο σηµαντικά χαρακτηριστικά είναι ο πίνακας βαρών των θέσεων των τριπλετών γύρω από το ATG (positional triplet weight matrix) και η διαφορά µεταξύ δεκαέξι νουκλεοτιδίων πριν και µετά το ATG. Έτσι µια γραµµική συνάρτηση διαχωρισµού χρησιµοποιείται για να συνδυάσει τις στατιστικές µετρήσεις των έξι αυτών χαρακτηριστικών σε µια τελική τιµή. Η εφαρµογή DNAFSMiner των Liu al. [30] είναι και αυτή διαδικτυακή και χρησιµοποιείται ως εργαλείο για την αναγνώριση λειτουργικών σηµείων σε µια ακολουθία νουκλεοτιδίων. Καθώς το λειτουργικό σηµείο στην περίπτωσή µας είναι το TIS, το εργαλείο είναι το TISMiner το οποίο εφαρµόζεται σε DNA, mrna και cdna. Η µέθοδος που χρησιµοποιείται αποτελείται από τρία βήµατα. Αρχικά δηµιουργούνται χαρακτηριστικά (feature generation) από µια ακολουθία παίρνοντας τα k-grams και στη συνέχεια γίνεται επιλογή των χαρακτηριστικών (feature selection) που συµβάλουν στο διαχωρισµό των TIS από τα µη-tis µε την χρήση του µεγέθους της εντροπίας. Τέλος, χρησιµοποιώντας τα SVM παράγεται µια τιµή στο διάστηµα [0,1] η οποία αν είναι πάνω από ένα όριο (threshold) τότε το ATG της ακολουθίας χαρακτηρίζεται ως σηµείο έναρξης µετάφρασης. Είναι σηµαντικό να σηµειωθεί πως σε όλες τις προηγούµενες προσεγγίσεις για να προκύψει το σύστηµα πρόβλεψης χρησιµοποιούνται πολλά δεδοµένα για την εκπαίδευση του συστήµατος. Αρχικά είναι δηλαδή γνωστό σε µια ακολουθία ποιο ATG είναι και TIS, εποµένως το σύστηµα µε τους αλγορίθµους µάθησης, βρίσκει τα χαρακτηρι-

48 42 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες στικά που καθορίζουν το διαχωρισµό των ATGs σε TIS και µη-tis και προσπαθεί να προβλέψει για µια νέα ακολουθία. Επίσης έχουν αναπτυχθεί ορισµένες εφαρµογές οι οποίες είναι διαθέσιµες όπως η DIANA-TIS από την Α. Χατζηγεωργίου, first-atg, η ESTScan για EST αλληλουχίες, η GenScan για DNA αλληλουχίες, η Diogenes, η Netstart ( η ATGpr από τους Salamov et al.[35] ( η DNAFSMiner ( και η Aug_Evaluator ( Οι Nishikawa et al. [36] παρουσίασαν ένα βελτιωµένο πρόγραµµα, το ATGpr_sim, όπου ένας νέος αλγόριθµος πρόβλεψης βασίζεται στην στατιστική και σε πληροφορία οµοιότητας από γνωστές πρωτεϊνικές αλληλουχίες.

49 5 Η Βιβλιοθήκη Αλγορίθµων Weka Η βιβλιοθήκη αλγορίθµων Weka αναπτύχθηκε το 1999 µε σκοπό να καλύψει τις πειρα- µατικές ανάγκες του εργαστηρίου Μηχανικής Μάθησης του Πανεπιστηµίου του Waikato στη Νέα Ζηλανδία. Σήµερα, είναι ένα δηµοφιλές εργαλείο µηχανικής µάθησης και χρησιµοποιείται ευρέως στην ερεύνα, στην εκπαίδευση αλλά και σε εφαρµογές. Τα χαρακτηριστικά που το καθιέρωσαν ως εργαλείο είναι ο µεγάλος αριθµός των αλγορίθµων που υλοποιεί, η ευχρηστία του γραφικού του περιβάλλοντος (GUI) και το γεγονός ότι ανήκει στη κατηγορία του λογισµικού ανοικτού κώδικα το οποίο διατίθεται δωρεάν. Το πρόγραµµα Weka είναι γραµµένο στη γλώσσα προγραµµατισµού Java. 5.1 Χαρακτηριστικά των εδοµένων Το Weka υλοποιεί τις περισσότερες τεχνικές και αλγορίθµους που υπάρχουν στη θεωρία και παρέχει ένα εύχρηστο γραφικό περιβάλλον για τον χειρισµό τους. Τα σύνολα δεδοµένων µε τα οποία τροφοδοτείται και στη συνέχεια επεξεργάζεται είναι σε συγκεκριµένη µορφή. Έχουν την απλή µορφή του κειµένου (plain text) αλλά µε µία ορισµένη δοµή. Τις περισσότερες φορές τα αρχεία αυτά έχουν κατάληξη.arff (Attribute-Relation File Format). Tα αρχεία.arff αποτελούνται από δύο τµήµατα. Το πρώτο µέρος είναι η Επικεφαλίδα (Header) και ακολουθεί το τµήµα των εδοµένων (Data). To Header τµήµα ε- νός ARFF αρχείου περιλαµβάνει πληροφορίες όπως το όνοµα του συνόλου δεδοµένων (relation), και µία λίστα των ιδιοτήτων (attributes) των δειγµάτων µε τους τύπους τους. Η γραµµή που δηλώνει τις ιδιότητες έχει τη <όνοµα ιδιότητας> <τύπος ιδιότητας>. Στο τµήµα αυτό µπορούν να υπάρχουν και σχόλια τα οποία αρχίζουν µε το σύµβολο %. Παρακάτω, φαίνεται ένα δείγµα για το τµήµα αυτό.

50 44 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες % DNA sequences from 'from DNA POS_-100 DOWN_PYRIMIDINES UP_A-G_RATIO UP_A-T_RATIO 3_POS_A CLASS 0,1 Το Data τµήµα του αρχείου στην περίπτωση της µάθησης µε επίβλεψη έχει την ακόλουθη µορφή: <Τιµή_1>,...,<Τιµή_Ν>,<Κλάση_αντικειµένου>, ενώ στην περίπτωση της µη επιβλεπόµενης µάθησης, που η κλάση κάθε παρατήρησης είναι άγνωστη, έχει την εξής µορφή: <Τιµή_1>,...,<Τιµή_Ν>. Για 0,11,2,4,3,1 0,6,1,1,2,4 0,11,1,2,2,5 Ωστόσο, οι τελευταίες εκδόσεις του Weka µπορούν να διαχειρίζονται δεδοµένα και από άλλους τύπους αρχείων όπως csv, c4.5 και binary, αλλά και από βάσεις δεδο- µένων µέσω JDBC (Java DataBase Connectivity). Αφού φορτωθούν τα δεδοµένα, το Weka, προσφέρει διάφορα εργαλεία για την προεπεξεργασία τους. Τα εργαλεία αυτά ονοµάζονται συνήθως «φίλτρα» (filters) και µπορούν να µετατρέπουν τις τιµές σε διακριτές (Discrimination), να κανονικοποιούν (normalization), να εφαρµόζουν επάνα-δειγµατοληψία (resampling), να επιλέγουν ιδιότητες (attribute selection), να τις µετατρέπουν και να τις συνδυάζουν (transforming and combining attributes). Παρακάτω φαίνεται η καρτέλα για την προεπεξεργασία στο γραφικό περιβάλλον του Weka (Σχήµα 5.1). 5.2 Knowledge Explorer Κατηγοριοποίηση Η ταµπέλα Classify του Knowledge Explorer χρησιµοποιείται για την εκπαίδευση ενός αλγορίθµου µηχανικής µάθησης (κατηγοριοποιητή) µε βάση τα δεδοµένα ώστε να χρησιµοποιηθεί στη συνέχεια για την ταξινόµηση άλλων δειγµάτων (Σχήµα 5.2). Το Weka σε αυτό το σηµείο µπορεί να αναπαραστήσει κανόνες που προκύπτουν σε δενδρική δο- µή καθώς και να αποτυπώσει µε διαφορετικό χρωµατισµό τα παραδείγµατα που κατατάχθηκαν σε µία κλάση σε καρτεσιανό σύστηµα.

51 Η Βιβλιοθήκη Αλγορίθµων Weka 45 Σχήµα 5.1: Η προεπεξεργασία των δεδοµένων στο γραφικό περιβάλλον του Weka. Το Weka έχει υλοποιήσει ένα πλήθος από αλγορίθµους. Ενδεικτικά από κάποιες κατηγορίες είναι τα δένδρα απόφασης, οι βασισµένοι σε περιπτώσεις κατηγοριοποιητές (instance-based classifiers), οι µηχανές διανυσµάτων υποστήριξης (support vector machines-svm), οι perceptrons πολλαπλών επιπέδων (multi-layer perceptrons) για νευρωνικά δίκτυα, η λογιστική παλινδρόµηση (logistic regression), τα δίκτυα Bayes, κτλ. Ε- κτός από αυτές υλοποιούνται και κάποια κλασικά συστήµατα πολλαπλών κατηγοριοποιητών όπως Σακούλιασµα (Bagging), Ενδυνάµωση (Boosting), Στοίβαγµα (Stacking) κτλ. Σχήµα 5.2: Εφαρµογή των χαρακτηριστικών των Zeng et al. µε τον κατηγοριοποιητή C4.5. Τα α- ποτελέσµατα των µετρήσεων εµφανίζονται στο δεξιό µέρος.

52 46 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Οµαδοποίηση Η καρτέλα (cluster) του γραφικού περιβάλλοντος του Weka αναφέρεται στην οµαδοποίηση. Όπως και στην κατηγοριοποίηση, έχει υλοποιηθεί ένας σηµαντικός αριθµός αλγορίθµων. Χαρακτηριστικοί είναι οι αλγόριθµοι k-means, EM, Cobweb, X-means και FarthestFirst. Σε κάθε περίπτωση, µπορεί να γίνει η αναπαράσταση των αποτελεσµάτων µε γραφικό τρόπο Κανόνες Συσχέτισης Η τρίτη επιλογή (associate) προσφέρεται για τη δηµιουργία κανόνων συσχέτισης. Οι συσχετίσεις εντοπίζονται µεταξύ οµάδων ιδιοτήτων οι οποίες έχουν συγκεκριµένο βαθ- µό υποστήριξης (support) και εµπιστοσύνης (confidence). Ένας κλασικός αλγόριθµος που υπολογίζει την υποστήριξη και την εµπιστοσύνη για όλες τις ιδιότητες και για ορισµένους συνδυασµούς τους είναι ο Apriori Επιλογή Χαρακτηριστικών Σε αυτό το τµήµα του Weka εντοπίζονται οι περισσότερο προβλέψιµες ιδιότητες ενός συνόλου δεδοµένων. Για να γίνει αυτό χρησιµοποιείται µία µέθοδος αναζήτησης όπως η best-first, forward selection, random, exhaustive, genetic algorithm και ranking και στη συνέχεια µία µέθοδος αξιολόγησης όπως correlation-based, wrapper, information gain και chi-squared. Στο παράδειγµα του Σχήµατος 5.3 εφαρµόστηκε BestFirst και CfsSubsetEval αντίστοιχα µε 10-fold cross validation σε νουκλεοτιδικά δεδοµένα. Σχήµα 5.3: Επιλογή χαρακτηριστικών από ένα σύνολο µε αναζήτηση BestFirst και αξιολόγηση CfsSubsetEval. Τα χαρακτηριστικά αυτά προέρχονται από παράθυρο µήκους 33 θέσεων.

53 Η Βιβλιοθήκη Αλγορίθµων Weka Knowledge Flow Το περιβάλλον ροής γνώσης (Knowledge Flow Environment) αποτελεί καινούργιο στοιχείο για το Weka. Είναι δυνατό να σχεδιαστεί ένα σύστηµα λήψης απόφασης προσθέτοντας τα διάφορα τµήµατά του (πχ dataset, filter, classifier, evaluator) και µε αυτό τον τρόπο να γίνει η προσοµοίωση του συστήµατος και η αξιολόγησή του σε σχέση µε άλλα συστήµατα (Σχήµα 5.4). Σχήµα 5.4: Το περιβάλλον του Knowledge Flow. 5.4 Experimenter Το περιβάλλον πειραµάτων (Experiment Environment) εφαρµόζει αλγορίθµους για την κατηγοριοποίηση των δεδοµένων. Το χαρακτηριστικό σηµείο σε αυτό το κοµµάτι είναι πως µπορούν να εφαρµοστούν ένα πλήθος από αλγόριθµους σε πολλά δεδοµένα ταυτόχρονα και µάλιστα µε όσες επαναλήψεις είναι επιθυµητό. Τα αποτελέσµατα αποθηκεύονται σε.arff ή csv αρχεία και JDBC βάση δεδοµένων. Στο Σχήµα 5.5 φαίνεται το γραφικό περιβάλλον µε 4 αρχεία δεδοµένων τα οποία θα εκτελεστούν µε 3 αλγορίθµους κατηγοριοποίησης µε 10 επαναλήψεις και 10-fold cross validation για περισσότερη αξιοπιστία των αποτελεσµάτων.

54 48 Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Σχήµα 5.5: Τα 4 αρχεία δεδοµένων θα εκτελεστούν µε 3 αλγορίθµους κατηγοριοποίησης µε 10 επαναλήψεις και 10-fold cross validation για περισσότερη αξιοπιστία των αποτελεσµάτων. Το αρχείο που θα προκύψει είναι.arff. Στη συνέχεια αφού εκτελεστούν οι αλγόριθµοι από την καρτέλα Run, είναι δυνατό να µελετηθούν τα αποτελέσµατα από την καρτέλα Analyze (Σχήµα 5.6). Οποιοδήποτε αρχείο ή βάση δεδοµένων µπορεί να µελετηθεί µετρώντας το ποσοστό των σωστών µετρήσεων, τους µέσους όρους και τις διασπορές όπως και άλλες διάφορες στατιστικές µετρήσεις που δίνουν πληροφορία για την ακρίβεια των αποτελεσµάτων. Σχήµα 5.6: Παρουσιάζεται το ποσοστό σωστών µετρήσεων από 3 αρχεία δεδοµένων τα οποία εκτελέστηκαν µε τον αλγόριθµος C4.5.

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ Παύλος Αντωνίου Με μια ματιά: Εισαγωγή στη Βιολογία Ευθυγράμμιση Ακολουθιών Αναζήτηση ομοίων ακολουθιών από βάσεις δεδομενων Φυλογενετική πρόβλεψη Πρόβλεψη

Διαβάστε περισσότερα

Βιολογία Κατεύθυνσης Γ Λυκείου

Βιολογία Κατεύθυνσης Γ Λυκείου Βιολογία Κατεύθυνσης Γ Λυκείου 2013-2014 ΓΕ.Λ. ΣΟΡΩΝΗΣ ΜΑΣΤΗ ΧΡΙΣΤΙΝΑ Κεφάλαιο 1 ΤΟ ΓΕΝΕΤΙΚΟ ΥΛΙΚΟ Ταξίδι στο χρόνο 1869 Απομονώνεται DNA από τον κυτταρικό πυρήνα 1903 Αποδεικνύεται ότι τα χρωμοσώματα

Διαβάστε περισσότερα

ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΚΕΦΑΛΑΙΟ 1: Το γενετικό υλικό ΘΕΜΑ: 1 ο (Μονάδες 25 ) Να επιλέξετε τη σωστή απάντηση στις παρακάτω ερωτήσεις. 1. Το πείραµα των Hershey και Chase ήταν:

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Διατήρηση και συνέχεια της ζωής

ΚΕΦΑΛΑΙΟ 5. Διατήρηση και συνέχεια της ζωής ΚΕΑΛΑΙΟ 5 ιατήρηση και συνέχεια της ζωής 5.2 H ροή της γενετικής πληροφορίας 3 Πώς βρέθηκε η δομή του DNA στο χώρο; Η ανακάλυψη της δομής του DNA πραγματοποιήθηκε το 1953 από τους Watson και Crick. Από

Διαβάστε περισσότερα

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ

ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ ΕΡΩΤΗΣΕΙΣ ΚΑΤΑΝΟΗΣΗΣ ΚΕΦΑΛΑΙΟ 2 ο 1. Με ποιο μηχανισμό αντιγράφεται το DNA σύμφωνα με τους Watson και Crick; 2. Ένα κύτταρο που περιέχει ένα μόνο χρωμόσωμα τοποθετείται σε θρεπτικό υλικό που περιέχει ραδιενεργό

Διαβάστε περισσότερα

Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης. Κεφάλαιο 1α Το Γενετικό Υλικό

Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης. Κεφάλαιο 1α Το Γενετικό Υλικό Βιολογία Γ Γενικού Λυκείου Θετικής κατεύθυνσης Κεφάλαιο 1α Το Γενετικό Υλικό Το DNA είναι το γενετικό υλικό Αρχικά οι επιστήμονες θεωρούσαν ότι οι πρωτεΐνες αποτελούσαν το γενετικό υλικό των οργανισμών.

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΔΙΑΓΩΝΙΣΜΑ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ 12-9-2015

ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΔΙΑΓΩΝΙΣΜΑ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ 12-9-2015 ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΚΑΤΕΥΘΥΝΣΗΣ ΔΙΑΓΩΝΙΣΜΑ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ 12-9-2015 ΘΕΜΑ Α Α1. α. in vitro β. in vivo γ. in vitro δ. in vitro Α2. γ Μεταξύ των δύο δεοξυριβονουκλεοτιδίων έχουμε συμπληρωματικότητα (Α=Τ)

Διαβάστε περισσότερα

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α! " # $ % & ' ( ) ( ) ( * % + α ι α

Β. Σελ 60 σχολικού: «Η αποµόνωση του συνολικού έως και σελ 61 από µία cdna βιβλιοθήκη.». Γ. ι ι α α α ι α α ι α α α!  # $ % & ' ( ) ( ) ( * % + α ι α ! THΛ: 270727 222594 THΛ: 919113 949422 Απαντήσεις: " # $ % & ' 1=γ, 2=β, 3=γ, 4=β, 5=δ. " # $ % ( ' εδοµένα από την ανάλυση του ποσοστού των βάσεων σε µόρια DNA από διαφορετικούς οργανισµούς έδειχναν

Διαβάστε περισσότερα

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ( ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ( ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ( ΣΥΓΓΡΑΦΗ): ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ (Θα περιέχει ερωτήσεις θεωρίας µε απαντήσεις, ασκήσεις ανοικτούκλειστού τύπου µε

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ_ Β ΛΥΚΕΙΟΥ

ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ_ Β ΛΥΚΕΙΟΥ Θα πρέπει να γνωρίζετε: Τη χημική σύσταση και τη δομή των νουκλεοτιδίων Πώς σχηματίζεται μια πολυνουκλεοτιδική αλυσίδα Πώς σταθεροποιείται η διπλή έλικα του DNA Τι υποδηλώνει ο όρος συμπληρωματικές αλυσίδες

Διαβάστε περισσότερα

Οργά νωση Γενετικού Υλικού

Οργά νωση Γενετικού Υλικού Βιολογία Γ Γυμνασίου: Διατήρηση και Συνέχεια της Ζωής Οργά νωση Γενετικού Υλικού Γονίδιο: Η μονάδα της κληρονομικότητας. Ουσιαστικά είναι ένα κομμάτι από το DNA που αποθηκεύει πληροφορίες για κάποιο συγκεκριμένο

Διαβάστε περισσότερα

KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου. Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση:

KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου. Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση: KΕΦΑΛΑΙΟ 1ο Χημική σύσταση του κυττάρου Ενότητα 1.1: Χημεία της ζωής Ενότητα 2.1: Μακρομόρια Να απαντήσετε σε καθεμιά από τις παρακάτω ερωτήσεις με μια πρόταση: 1. Για ποιο λόγο θεωρείται αναγκαία η σταθερότητα

Διαβάστε περισσότερα

Κεφάλαιο 1: Το Γενετικό Υλικό 1.

Κεφάλαιο 1: Το Γενετικό Υλικό 1. Κεφάλαιο 1: Το Γενετικό Υλικό 1. Ο πνευμονιόκοκκος είναι: α. μύκητας β. βακτήριο γ. ιός δ. πρωτόζωο 2. Στο πείραμα του Griffith τι αποτελέσματα είχε ο εμβολιασμός με βακτήρια, θάνατο(θ) ή επιβίωση (Ε),

Διαβάστε περισσότερα

Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής

Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής Νουκλεϊκά οξέα: νήµατα και αγγελιαφόροι της ζωής Αριστοτέλης Κωτίτσας Οι λειτουργίες των οργανισµών πραγµατοποιούνται χάρη στις πρωτεΐνες. Ο βιολογικός ρόλος των πρωτεϊνών καθορίζεται από τη µορφή τους.

Διαβάστε περισσότερα

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΑΠΑΝΤΗΣΕΙΣ ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ / Γ ΛΥΚΕΙΟΥ ΗΜΕΡΟΜΗΝΙΑ: 04/09/2016 ΘΕΜΑ Α Α.1. β. Α.2. β. Α.3. γ. Α.4. δ. ΑΠΑΝΤΗΣΕΙΣ Α.5. β. Μονάδες 25 ΘΕΜΑ Β Β. 1. Ιχνηθέτηση. είναι η σήμανση χημικών

Διαβάστε περισσότερα

Τα χημικά στοιχεία που είναι επικρατέστερα στους οργανισμούς είναι: i..

Τα χημικά στοιχεία που είναι επικρατέστερα στους οργανισμούς είναι: i.. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ «XHMIKH ΣΥΣΤΑΣΗ ΤΟΥ ΚΥΤΤΑΡΟΥ» ΕΙΣΑΓΩΓΗ ΚΑΙ Η ΧΗΜΕΙΑ ΤΗΣ ΖΩΗΣ Α. ΔΡΑΣΤΗΡΙΟΤΗΤΕΣ ΜΕΣΑ ΣΤΗΝ ΤΑΞΗ 1. Όταν αναφερόμαστε στον όρο «Χημική Σύσταση του Κυττάρου», τί νομίζετε ότι

Διαβάστε περισσότερα

ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του

ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του ΣΥΜΠΥΚΝΩΣΗ: αφαίρεση ενός μορίου νερού - σύνθεση ενός διμερούς ΥΔΡΟΛΥΣΗ : προσθήκη ενός μορίου νερού - διάσπαση του διμερούς στα συστατικά του ΤΑ ΜΟΝΟΜΕΡΗ ΣΥΝΔΕΟΝΤΑΙ ΜΕ ΟΜΟΙΟΠΟΛΙΚΟ ΔΕΣΜΟ. 1. ΠΡΩΤΕΪΝΕΣ

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 1 ο... 2 I. Το γενετικό υλικό... 2 ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ... 5 ΝΑ ΣΥΜΠΛΗΡΩΣΕΤΕ ΤΑ ΚΕΝΑ ΜΕ ΤΗΝ ΚΑΤΑΛΛΗΛΗ ΛΕΞΗ... 8 ΠΡΟΒΛΗΜΑΤΑ...

ΚΕΦΑΛΑΙΟ 1 ο... 2 I. Το γενετικό υλικό... 2 ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ... 5 ΝΑ ΣΥΜΠΛΗΡΩΣΕΤΕ ΤΑ ΚΕΝΑ ΜΕ ΤΗΝ ΚΑΤΑΛΛΗΛΗ ΛΕΞΗ... 8 ΠΡΟΒΛΗΜΑΤΑ... ΚΕΦΑΛΑΙΟ 1 ο ΚΕΦΑΛΑΙΟ 1 ο... 2 I. Το γενετικό υλικό... 2 ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ... 5 ΝΑ ΣΥΜΠΛΗΡΩΣΕΤΕ ΤΑ ΚΕΝΑ ΜΕ ΤΗΝ ΚΑΤΑΛΛΗΛΗ ΛΕΞΗ.... 8 ΠΡΟΒΛΗΜΑΤΑ... 9 ΙΑΓΩΝΙΣΜΑ...12 ΚΕΦΑΛΑΙΟ 1 ο I. Το γενετικό

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ 1 ο ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ 1 ο ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ 1 ο ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΘΕΜΑ 1 ο Α. Ερωτήσεις πολλαπλής επιλογής 1. δ 2. β 3. γ 4. γ 5. β Β. Ερωτήσεις σωστού λάθους 1. Λάθος 2. Σωστό 3. Λάθος 4. Λάθος 5. Σωστό ΘΕΜΑ

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ_ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ_ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΙΚΟΝΑ_1.1 In vivo πειράματα απόδειξης της έννοιας του μετασχηματισμού και in vitro απόδειξη ότι το DNA είναι αυτό που προκαλεί το μετασχηματισμό. ΕΡΩΤΗΣΕΙΣ 1. Γιατί πιστεύετε ότι θανατώνονται τα βακτήρια

Διαβάστε περισσότερα

Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΗΜΕΡΟΜΗΝΙΑ: 2/12/2016 ΕΠΙΜΕΛΕΙΑ ΔΙΑΓΩΝΙΣΜΑΤΟΣ: ΛΑΖΑΡΑΚΗ ΝΟΤΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες

Διαβάστε περισσότερα

θετικής κατεύθυνσης Παραδόσεις του μαθήματος Επιμέλεια: ΑΡΓΥΡΗΣ ΓΙΑΝΝΗΣ

θετικής κατεύθυνσης Παραδόσεις του μαθήματος Επιμέλεια: ΑΡΓΥΡΗΣ ΓΙΑΝΝΗΣ Βιολογία θετικής κατεύθυνσης Παραδόσεις του μαθήματος Επιμέλεια: ΑΡΓΥΡΗΣ ΓΙΑΝΝΗΣ 1ο κεφάλαιο Το γενετικό υλικό Τι αποτελεί το γενετικό υλικό; Από το 1869, που το DNA εντοπίστηκε στον πυρήνα των κυττάρων,

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ

ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ 1 ΕΝΟΤΗΤΑ 14: Ο ΦΟΡΕΑΣ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (DNA) 14.1 ΕΙΣΑΓΩΓΗ Οι δύο πολυνουκλεοτιδικές αλυσίδες του DNA αποτελούνται από νουκλεοτίδια τα οποία ενώνονται με φωσφοδιεστερικούς δεσμούς. Πιο συγκεκριμένα

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β ) ΤΕΤΑΡΤΗ 15 ΙΟΥΝΙΟΥ 2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΝΕΟ

Διαβάστε περισσότερα

(αδρές αποικίες) Θέρμανση (λείες αποικίες) ζωντανά ποντίκια ζωντανά ποντίκια νεκρά ποντίκια

(αδρές αποικίες) Θέρμανση (λείες αποικίες) ζωντανά ποντίκια ζωντανά ποντίκια νεκρά ποντίκια Το DNA είναι το γενετικό υλικό 1. Πείραμα Griffith (1928) Βακτήριο πνευμονιόκοκκου (Diplococcus pneumoniae) Χωρίς κάλυμμα Με κάλυμμα (αδρές αποικίες) Θέρμανση (λείες αποικίες) ζωντανά ποντίκια ζωντανά

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία Νουκλεϊκά οξέα:

Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία Νουκλεϊκά οξέα: Μόρια-κλειδιά των ζωντανών οργανισμών καθώς περιέχουν την γενετική πληροφορία 1. Δεοξυριβονουκλεϊκό οξύ (DNA) Νουκλεϊκά οξέα: Φορέας της γενετικής πληροφορίας 2. Ριβονουκλεϊκό οξύ (RNA) Συμμετοχή στην

Διαβάστε περισσότερα

ΔΙΑΚΡΙΣΗ ΣΤΟΙΧΕΙΩΝ ΜΑΚΡΟΘΡΕΠΤΙΚΑ (C, H, N, O) 96% ΜΙΚΡΟΘΡΕΠΤΙΚΑ (πχ. Na, K, P, Ca, Mg) 4% ΙΧΝΟΣΤΟΙΧΕΙΑ (Fe, I) 0,01%

ΔΙΑΚΡΙΣΗ ΣΤΟΙΧΕΙΩΝ ΜΑΚΡΟΘΡΕΠΤΙΚΑ (C, H, N, O) 96% ΜΙΚΡΟΘΡΕΠΤΙΚΑ (πχ. Na, K, P, Ca, Mg) 4% ΙΧΝΟΣΤΟΙΧΕΙΑ (Fe, I) 0,01% ΔΙΑΚΡΙΣΗ ΣΤΟΙΧΕΙΩΝ ΜΑΚΡΟΘΡΕΠΤΙΚΑ (C, H, N, O) 96% ΜΙΚΡΟΘΡΕΠΤΙΚΑ (πχ. Na, K, P, Ca, Mg) 4% ΙΧΝΟΣΤΟΙΧΕΙΑ (Fe, I) 0,01% Ο άνθρακας, το υδρογόνο, το οξυγόνο και το άζωτο συμμετέχουν, σε σημαντικό βαθμό, στη

Διαβάστε περισσότερα

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1

ΤΟ DNA ΚΑΙ RNA. Θανος Εξαρχου Γ1 ΤΟ DNA ΚΑΙ RNA Θανος Εξαρχου Γ1 ΤΟ DNA Το δε(σ)οξυριβο(ζο)νουκλεϊ(νι)κό οξu είναι νουκλεϊκό οξύ που περιέχει τις γενετικές πληροφορίες που καθορίζουν τη βιολογική ανάπτυξη όλων των κυτταρικών μορφών ζωής

Διαβάστε περισσότερα

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 1ο 1. α 2. γ 3. δ 4. γ 5. β 1 ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΤΕΤΑΡΤΗ 4 ΙΟΥΛΙΟΥ 2007 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 2ο 1. Σχολικό βιβλίο,

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α ΘΕΜΑ Α Α1. γ Α2. α Α3. δ Α4. β Α5. α 1 ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΤΕΤΑΡΤΗ 5 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ:

Διαβάστε περισσότερα

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ

ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ ΑΠΟ ΤΟ ΒΙΒΛΙΟ ΜΟΥ (YΠΟ ΕΚ ΟΣΗ): ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ Β ΛΥΚΕΙΟΥ (Περιέχει 67 ερωτήσεις θεωρίας µε απαντήσεις, 116 ασκήσεις ανοικτού- κλειστού τύπου µε µ

Διαβάστε περισσότερα

Απομόνωση ανθρώπινου DNA γονιδιώματος & ποιοτικός και ποσοτικός προσδιορισμός

Απομόνωση ανθρώπινου DNA γονιδιώματος & ποιοτικός και ποσοτικός προσδιορισμός Απομόνωση ανθρώπινου DNA γονιδιώματος & ποιοτικός και ποσοτικός προσδιορισμός Ευαγγελία - Ειρήνη Τσερμπίνι 1. Σκοπός Σκοπός της παρούσας άσκησης είναι η απομόνωση ανθρώπινου DNA γονιδιώματος από δείγμα

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΘΕΜΑ Α A1. β Α2. γ Α3. γ Α4. α Α5. δ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Δ ΤΑΞΗΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β ) ΤΕΤΑΡΤΗ 15 ΙΟΥΝΙΟΥ 2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΝΕΟ

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΙΚΟΝΑ 2.4 ΣΤΑΔΙΑ ΜΕΤΑΦΡΑΣΗΣ σ ε λ ί δ α 1 ΕΙΚΟΝΑ 4.2β ΕΡΩΤΗΣΕΙΣ 1. Να συμπληρώσετε τα κενά πλαίσια της εικόνας με την κατάλληλη λέξη ή φράση 2. Να γράψετε τον προσανατολισμό της μετακίνησης του ριβοσώματος

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

Θέματα Πανελλαδικών 2000-2013

Θέματα Πανελλαδικών 2000-2013 Θέματα Πανελλαδικών 2000-2013 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΗΜΕΡΗΣΙΩΝ ΛΥΚΕΙΩΝ ΕΣΠΕΡΙΝΩΝ ΛΥΚΕΙΩΝ ΕΠΑΝΑΛΗΠΤΙΚΕΣ Κεφάλαιο 1 ΚΕΦΑΛΑΙΟ 1 ΘΕΜΑ 1 ο Γράψτε τον αριθμό καθεμιάς από τις παρακάτω προτάσεις και δίπλα το γράμμα

Διαβάστε περισσότερα

ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΓΙΑ Β ΛΥΚΕΙΟΥ)

ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΓΙΑ Β ΛΥΚΕΙΟΥ) ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΓΙΑ Β ΛΥΚΕΙΟΥ) ΘΕΜΑ 1 ο Α. Να γράψετε στο τετράδιο σας τον αριθμό κάθε μιας από τις παρακάτω ημιτελείς προτάσεις 1 έως 5 και δίπλα το γράμμα που αντιστοιχεί

Διαβάστε περισσότερα

Κεφάλαιο 1 ο Το γενετικό υλικό Μεθοδολογία Ασκήσεων

Κεφάλαιο 1 ο Το γενετικό υλικό Μεθοδολογία Ασκήσεων Κεφάλαιο 1 ο Το γενετικό υλικό Μεθοδολογία Ασκήσεων 1. Ένα μόριο νουκλεϊκού οξέος για να χαρακτηρισθεί πλήρως θα πρέπει να γνωρίζουμε αν είναι: i. DNA ή RNA ii. iii. Μονόκλωνο ή δίκλωνο Γραμμικό ή κυκλικό

Διαβάστε περισσότερα

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών

Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών Κεφ. 4 DNA, RNA και η ροή των γενετικών πληροφοριών Η οικογενειακή ομοιότητα, οφείλεται στα κοινά γονίδια. Τα γονίδια πρέπει να εκφραστούν για να έχουν αποτέλεσμα, και η έκφραση αυτή ρυθμίζεται από πρωτεΐνες.

Διαβάστε περισσότερα

Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες

Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες ιπλωµατική Εργασία του Ραφαηλίδη Λεωνίδα Αιµίλιου (ΑΕΜ 949) Επιβλέπων Καθηγητής:

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ Γ ΛΥΚΕΙΟΥ, ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ EIKONA 2.1 Ημισυντηρητικός μηχανισμός αντιγραφής του DNA 1. Να γράψετε τα ένζυμα που (α) προκαλούν ξετύλιγμα των αλυσίδων του αρχικού (μητρικού μορίου) DNA και (β) συνθέτουν τις νέες αλυσίδες του DNA.

Διαβάστε περισσότερα

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΘΕΜΑ Α Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από τις παρακάτω ημιτελείς προτάσεις Α1 έως Α5 και δίπλα το γράμμα που αντιστοιχεί στη λέξη

Διαβάστε περισσότερα

Ασκήσεις. 1 ο Κεφάλαιο: Το Γενετικό Υλικό

Ασκήσεις. 1 ο Κεφάλαιο: Το Γενετικό Υλικό Ασκήσεις 1. Αν ο λόγος A + Τ / C + G στη μια αλυσίδα του DNA είναι 7/10, πόσος είναι ο ίδιος λόγος: α. στη συμπληρωματική της αλυσίδα, β. στο μόριο; 2. Αν ο λόγος A + G / T + C στη μια αλυσίδα του DNA

Διαβάστε περισσότερα

Ασκήσεις για το Κεφάλαιο 1: Το γενετικό υλικό

Ασκήσεις για το Κεφάλαιο 1: Το γενετικό υλικό Ασκήσεις για το Κεφάλαιο 1: Το γενετικό υλικό A) Ερωτήσεις με πολλές πιθανές απαντήσεις Να βάλετε σε κύκλο το γράμμα ή τα γράμματα που αντιστοιχούν στη σωστή φράση ή στη φράση που συμπληρώνει σωστά την

Διαβάστε περισσότερα

Βιολογία Θετικής Κατεύθυνσης. Κεφάλαιο 1 ο -Το γενετικό υλικό

Βιολογία Θετικής Κατεύθυνσης. Κεφάλαιο 1 ο -Το γενετικό υλικό Βιολογία Θετικής Κατεύθυνσης Κεφάλαιο 1 ο -Το γενετικό υλικό Το γενετικό υλικό Ιστορική αναδρομή 1869: Το DNA εντοπίζεται στον πυρήνα των κυττάρων 1944: Μέχρι τότε δεν ήταν γνωστό ότι αποτελεί το γενετικό

Διαβάστε περισσότερα

ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2

ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2 ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2 ΘΕΜΑ 1 ο Α. Στις ερωτήσεις 1-5 να γράψετε στο τετράδιό σας τον αριθμό της ερώτησης και δίπλα του το γράμμα που αντιστοιχεί στη σωστή απάντηση. 1. Το

Διαβάστε περισσότερα

ΘΕΜΑ Α ΘΕΜΑ Β ΑΠΑΝΤΗΣΕΙΣ. Α1. β. Α2. γ. Α3. δ. Α4. γ. Α5. β Β1. 5, 4, 2, 1, 3. Β2. Τα δομικά μέρη του οπερονίου της λακτόζης είναι κατά σειρά τα εξής:

ΘΕΜΑ Α ΘΕΜΑ Β ΑΠΑΝΤΗΣΕΙΣ. Α1. β. Α2. γ. Α3. δ. Α4. γ. Α5. β Β1. 5, 4, 2, 1, 3. Β2. Τα δομικά μέρη του οπερονίου της λακτόζης είναι κατά σειρά τα εξής: ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΔΕΥΤΕΡΑ 10 ΣΕΠΤΕΜΒΡΙΟΥ 2014 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. β Α2. γ Α3. δ Α4. γ Α5. β ΘΕΜΑ

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2014 ΘΕΜΑ Α Α1. δ Α2. γ Α3. β Α4. γ Α5. β ΘΕΜΑ Β Β1. Η σειρά των βημάτων που οδηγούν στην κατασκευή καρυότυπου είναι: 4, 2, 1, 6, 3, 5 Β2. α.

Διαβάστε περισσότερα

Βιολογία Γενικής Παιδείας Β Λυκείου

Βιολογία Γενικής Παιδείας Β Λυκείου Απρίλιος Μάιος 12 Βιολογία Γενικής Παιδείας Β Λυκείου Βιολογία Γενικής Παιδείας Β Λυκείου (Ερωτήσεις που παρουσιάζουν ενδιαφέρον) 1. Τι είναι τα βιομόρια και ποια είναι τα βασικά χαρακτηριστικά τους; Βιομόρια

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΑΣΚΗΣΕΩΝ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ

ΜΕΘΟΔΟΛΟΓΙΑ ΑΣΚΗΣΕΩΝ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ ΜΕΘΟΔΟΛΟΓΙΑ ΑΣΚΗΣΕΩΝ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ Τα προβλήματα αυτού του κεφαλαίου αναφέρονται στον υπολογισμό : 1. νουκλεοτιδίων ή αζωτούχων βάσεων ή πεντοζών ή φωσφορικών ομάδων 2. φωσφοδιεστερικών δεσμών ή μορίων

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ ΘΕΜΑ Α Α1 γ Α2 β Α3 α Α4 δ Α5 α ΘΕΜΑ Β Β1. Σχολικό βιβλίο, Σελ.: 123-124: «Η διαδικασία που ακολουθείται με ενδοφλέβια ένεση στον οργανισμό». Β2. Σχολικό βιβλίο, Σελ.: 133: «Διαγονιδιακά

Διαβάστε περισσότερα

Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ

Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ Επαναληπτικά Θέµατα ΟΕΦΕ 2005 1 ε π α ν α λ η π τ ι κ ά θ έ µ α τ α 2 0 0 5 Γ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 1 Ο A: 1-Α, 2-, 3-Γ, 4-Β, 5-Β ΜΟΝΑ ΕΣ 15 (3Χ5) Β. 1. Σωστή, 2. Λανθασµένη,

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Απαντήσεις στα θέματα των Εισαγωγικών Εξετάσεων τέκνων Ελλήνων του Εξωτερικού και τέκνων Ελλήνων Υπαλλήλων στο εξωτερικό 2013 ΘΕΜΑ Α Α1. γ Α2. β Α3. δ Α4. α Α5. δ ΘΕΜΑ Β Β1.

Διαβάστε περισσότερα

Βιολογία προσανατολισμού

Βιολογία προσανατολισμού Βιολογία προσανατολισμού Α. 1. β. 2. γ. 3. γ. 4. α. 5. δ. ΘΕΜΑ Α ΘΕΜΑ Β Β1. Σχολικό βιβλίο σελ. 131 «Το βακτήριο... στο σώμα των φυτών.» Β2.1 Ε, 2 Δ, 3 Α, 4 Β Β3. Σχολικό βιβλίο σελ. 108 «Η θερμοκρασία..

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ

ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ ΑΠΑΝΤΗΣΗ ΤΗΣ ΣΥΝΔΥΑΣΤΙΚΗΣ ΑΣΚΗΣΗΣ 1. Το γενεαλογικό δένδρο είναι η διαγραμματική απεικόνιση των μελών μιας οικογένειας για πολλές γενιές, στην οποία αναπαριστώνται οι γάμοι, η σειρά των γεννήσεων, το φύλο

Διαβάστε περισσότερα

Κατάταξη Αδενίνη 1 Γονίδιο 4 Νουκλεοτίδιο 2 Νουκλεόσωμα 3 Βραχίονας 5 Χρωματίδα 6 Γονιδίωμα 8 Καρυότυπος 9 Μεταφασικό χρωμόσωμα 7

Κατάταξη Αδενίνη 1 Γονίδιο 4 Νουκλεοτίδιο 2 Νουκλεόσωμα 3 Βραχίονας 5 Χρωματίδα 6 Γονιδίωμα 8 Καρυότυπος 9 Μεταφασικό χρωμόσωμα 7 Α1. 1. δ 2. α 3. δ 4. γ 5. γ Βιολογία ΘΕΜΑ A κατεύθυνσης Α2. Κατάταξη Αδενίνη 1 Γονίδιο 4 Νουκλεοτίδιο 2 Νουκλεόσωμα 3 Βραχίονας 5 Χρωματίδα 6 Γονιδίωμα 8 Καρυότυπος 9 Μεταφασικό χρωμόσωμα 7 ΘΕΜΑ Β 1.

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Βιολογία ΘΕΜΑ Α ΘΕΜΑ B

Βιολογία ΘΕΜΑ Α ΘΕΜΑ B Βιολογία προσανατολισμού Α. 1. β 2. γ 3. δ 4. γ 5. δ ΘΕΜΑ Α B1. 4,1,2,6,8,3,5,7 ΘΕΜΑ B B2. Σχολικό βιβλίο σελ. 103 Η γενετική καθοδήγηση είναι.υγιών απογόνων. Σχολικό βιβλίο σελ. 103 Παρ ότι γενετική καθοδήγηση

Διαβάστε περισσότερα

Αθήνα, 18/5/2011 ΠΑΝΕΛΛΗΝΙΑ ΕΝΩΣΗ ΒΙΟΕΠΙΣΤΗΜΟΝΩΝ

Αθήνα, 18/5/2011 ΠΑΝΕΛΛΗΝΙΑ ΕΝΩΣΗ ΒΙΟΕΠΙΣΤΗΜΟΝΩΝ Αθήνα, 18/5/2011 ΠΑΝΕΛΛΗΝΙΑ ΕΝΩΣΗ ΒΙΟΕΠΙΣΤΗΜΟΝΩΝ Σας αποστέλλουμε τις προτεινόμενες απαντήσεις που αφορούν τα θέματα της Βιολογίας Θετικής Κατεύθυνσης των Ημερησίων Γενικών Λυκείων. Η Επιτροπή Παιδείας

Διαβάστε περισσότερα

Θέματα Πανελλαδικών

Θέματα Πανελλαδικών Θέματα Πανελλαδικών 2000-2015 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΗΜΕΡΗΣΙΩΝ ΛΥΚΕΙΩΝ ΕΣΠΕΡΙΝΩΝ ΛΥΚΕΙΩΝ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΟΜΟΓΕΝΩΝ Κεφάλαιο 1 Περιεχόμενα Περιεχόμενα 1 Κεφάλαιο 1 ο Το γενετικό υλικό Θέμα 1 ο 2 Θέμα 2 ο 8 Θέμα

Διαβάστε περισσότερα

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ Ο.Ε.Φ.Ε. 2004 ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ Ο.Ε.Φ.Ε. 2004 ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ Ο.Ε.Φ.Ε. 2004 ΘΕΜΑ 1 Ο Α. Να επιλέξετε την ορθή πρόταση: ΘΕΜΑΤΑ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ 1. Το κωδικόνιο του mrna που κωδικοποιεί το αµινοξύ µεθειονίνη είναι α. 5 GUA

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1 Α 2 Γ 3 Α 4 Β 5 Α 6 Α 7 Γ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1 Α 2 Γ 3 Α 4 Β 5 Α 6 Α 7 Γ ΘΕΜΑ Α Α1. β Α2. β Α3. δ Α4. γ Α5. γ 1 ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑΔΑ Β) ΠΑΡΑΣΚΕΥΗ 27 ΜΑΪΟΥ 2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (ΝΕΟ ΣΥΣΤΗΜΑ) ΒΙΟΛΟΓΙΑ

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2 ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ ΔΙΑΓΩΝΙΣΜΑ ΒΙΟΛΟΓΙΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΚΕΦΑΛΑΙΑ 1 ΚΑΙ 2 ΘΕΜΑ 1 ο Α. Ερωτήσεις πολλαπλής επιλογής 1. β 2. δ 3. α 4. γ 5. δ Β. Ερωτήσεις σωστού λάθους 1. Λάθος 2. Σωστό 3. Σωστό 4. Σωστό 5.

Διαβάστε περισσότερα

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία

Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Βιοπληροψορική, συσιημική βιολογία και εξατομικευμένη θεραπεία Φραγκίσκος Κολίσης Καθηγητής Βιοτεχνολογίας, Σχολή Χημικών Μηχανικών ΕΜΠ, Διευθυντής Ινστιτούτου Βιολογικών Ερευνών και Βιοτεχνολογίας, EIE

Διαβάστε περισσότερα

Η ζητούμενη σειρά έχει ως εξής: αδενίνη < νουκλεοτίδιο < νουκλεόσωμα < γονίδιο < χρωματίδα < χρωμόσωμα < γονιδίωμα.

Η ζητούμενη σειρά έχει ως εξής: αδενίνη < νουκλεοτίδιο < νουκλεόσωμα < γονίδιο < χρωματίδα < χρωμόσωμα < γονιδίωμα. ΚΕΦ. 1 ο ΕΡΩΤΗΣΕΙΣ ΚΡΙΣΕΩΣ 1. Να κατατάξετε σε σειρά αυξανόμενου μεγέθους τις παρακάτω έννοιες που σχετίζονται με το γενετικό υλικό των οργανισμών: νουκλεόσωμα, χρωμόσωμα, αδενίνη, νουκλεοτίδιο, γονίδιο

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013

ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013 ΑΠΑΝΤΗΣΕΙΣ ΣΤΗ ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ 24 ΜΑΪΟΥ 2013 ΘΕΜΑ Α Α1. γ Α2. β Α3. α Α4. δ Α5. α ΘΕΜΑ Β Β1. Σελ. 123 124 σχολ. βιβλίου: «Η διαδικασία που ακολουθείται παράγουν το ένζυμο ADA». Β2. Σελ. 133 σχολ.

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ 22 ΜΑΪΟΥ 2015 ΑΠΑΝΤΗΣΕΙΣ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ 22 ΜΑΪΟΥ 2015 ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. Β Α2. Γ Α3. Α Α4. Α5. Γ ΘΕΜΑ Β ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ 22 ΜΑΪΟΥ 2015 ΑΠΑΝΤΗΣΕΙΣ B1. Α (Σωµατικά κύτταρα στην αρχή της µεσόφασης): 1, 4, 5, 6 Β (Γαµέτες): 2, 3, 7, 8 Β2. (Κάθε

Διαβάστε περισσότερα

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA

ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA ΓΥΜΝΑΣΙΟ ΚΕΡΑΤΕΑΣ ΕΡΓΑΣΙΑ ΒΙΟΛΟΓΙΑΣ Β ΤΡΙΜΗΝΟΥ Γ 4 23.1.12 ΜΕΤΑΓΡΑΦΗ ΤΟΥ DNA ΣΕ RNA ΕΡΓΑΣΤΗΚΑΝ: ΑΛΕΞΑΝΔΡΟΣ ΔΕΛΗΜΙΧΑΛΗΣ ΑΡΤΕΜΗΣ ΑΝΑΣΤΑΣΙΑΔΗΣ 1 ΕΙΣΑΓΩΓΗ Το δεοξυριβονουκλεϊκό οξύ (Deoxyribonucleic acid -

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ 2015 ΗΜΕΡΗΣΙΑ ΓΕΝΙΚΑ ΛΥΚΕΙΑ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β )

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ 2015 ΗΜΕΡΗΣΙΑ ΓΕΝΙΚΑ ΛΥΚΕΙΑ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β ) ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΑΝΕΛΛΗΝΙΕΣ ΕΞΕΤΑΣΕΙΣ 2015 ΗΜΕΡΗΣΙΑ ΓΕΝΙΚΑ ΛΥΚΕΙΑ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β ) ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1 β Α2 γ Α3 α Α4 δ Α5 γ ΘΕΜΑ Β Β1: 1 Α 2 Β 3 Β 4 Α 5 Α 6 Α 7 Β 8 Β Β2:

Διαβάστε περισσότερα

Ενδεικτικές απαντήσεις

Ενδεικτικές απαντήσεις ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΠΟΥ ΥΠΗΡΕΤΟΥΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΠΑΡΑΣΚΕΥΗ 8 ΣΕΠΤΕΜΒΡΙΟΥ 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Ενδεικτικές απαντήσεις

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. δ Α2. α Α3. α Α4. γ Α5. β. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1. Γ 2. Β 3. Ε 4. Α 5. Δ

ΑΠΑΝΤΗΣΕΙΣ. ΘΕΜΑ Α Α1. δ Α2. α Α3. α Α4. γ Α5. β. ΘΕΜΑ Β Β1. Στήλη Ι Στήλη ΙΙ 1. Γ 2. Β 3. Ε 4. Α 5. Δ ΘΕΜΑ Α Α1. δ Α2. α Α3. α Α4. γ Α5. β ΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΤΟΥ ΕΞΩΤΕΡΙΚΟΥ ΚΑΙ ΤΕΚΝΩΝ ΕΛΛΗΝΩΝ ΥΠΑΛΛΗΛΩΝ ΠΟΥ ΥΠΗΡΕΤΟΥΝ ΣΤΟ ΕΞΩΤΕΡΙΚΟ ΤΡΙΤΗ 7 ΣΕΠΤΕΜΒΡΙΟΥ 2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ ΟΜΑΔΑΣ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ

Διαβάστε περισσότερα

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας

Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας Πανεπιστήμιο Θεσσαλίας Τμήμα βιοχημείας και βιοτεχνολογίας Διδακτική με έμφαση στις βιοεπιστήμες Μαρία Ευαγγελία Βασιλογιάννη Στοιχεία Μαθήματος 1. Μάθημα : Βιολογία 2. Τίτλος ενότητας: Η ροή της γενετικής

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΕΙΣ. Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

ΑΠΑΝΤΗΣΕΙΣ. Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: ΜΑΘΗΜΑ / ΤΑΞΗ : ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑΣ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ / Γ ΛΥΚΕΙΟΥ ΗΜΕΡΟΜΗΝΙΑ: 21/09/2015 ΕΠΙΜΕΛΕΙΑ: ΝΟΤΑ ΛΑΖΑΡΑΚΗ ΘΕΜΑ 1 Ο ΑΠΑΝΤΗΣΕΙΣ Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες

Διαβάστε περισσότερα

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία)

Βιοτεχνολογία Φυτών. Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Βιοτεχνολογία Φυτών ΔΠΘ / Τμήμα Αγροτικής Ανάπτυξης ΠΜΣ Αειφορικά Συστήματα Παραγωγής και Περιβάλλον στη Γεωργία Μοριακοί Δείκτες (Εισαγωγή στη Μοριακή Βιολογία) Αριστοτέλης Χ. Παπαγεωργίου Εργαστήριο

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ 02/12/2012 ΑΠΑΝΤΗΣΕΙΣ

ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ 02/12/2012 ΑΠΑΝΤΗΣΕΙΣ ΤΣΙΜΙΣΚΗ &ΚΑΡΟΛΟΥ ΝΤΗΛ ΓΩΝΙΑ THΛ: 270727 222594 ΑΡΤΑΚΗΣ 12 - Κ. ΤΟΥΜΠΑ THΛ: 919113 949422 ΒΙΟΛΟΓΙΑ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ 02/12/2012 ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ 1 ο Α. Να βάλετε σε κύκλο το γράμμα που αντιστοιχεί στη

Διαβάστε περισσότερα

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014. Απαντήσεις Θεμάτων

Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων. Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014. Απαντήσεις Θεμάτων Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 04 Ιουνίου 2014 Απαντήσεις Θεμάτων ΘΕΜΑ Α A1. Τα πλασμίδια είναι: δ. κυκλικά δίκλωνα μόρια DNA

Διαβάστε περισσότερα

ÖÑÏÍÔÉÓÔÇÑÉÏ ÈÅÙÑÇÔÉÊÏ ÊÅÍÔÑÏ ÁÈÇÍÁÓ - ÐÁÔÇÓÉÁ

ÖÑÏÍÔÉÓÔÇÑÉÏ ÈÅÙÑÇÔÉÊÏ ÊÅÍÔÑÏ ÁÈÇÍÁÓ - ÐÁÔÇÓÉÁ ΘΕΜΑ 1 ο ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ 2009 ΕΚΦΩΝΗΣΕΙΣ Να γράψετε στο τετράδιό σας τον αριθµό καθεµιάς από τις παρακάτω ηµιτελείς προτάσεις 1 έως 5 και δίπλα το γράµµα που αντιστοιχεί στη λέξη ή τη φράση,

Διαβάστε περισσότερα

Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις: ΜΑΘΗΜΑ / ΤΑΞΗ : ΒΙΟΛΟΓΙΑ Β' Λ ΠΡΟΕΤΟΙΜΑΣΙΑ Γ' Λ ΗΜΕΡΟΜΗΝΙΑ: 17//2017 ΕΠΙΜΕΛΕΙΑ ΔΙΑΓΩΝΙΣΜΑΤΟΣ: ΛΑΖΑΡΑΚΗ ΝΟΤΑ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Να επιλέξετε την φράση που συμπληρώνει ορθά κάθε μία από τις ακόλουθες προτάσεις:

Διαβάστε περισσότερα

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ Τρίτη 18 Ιουνίου 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ. (Ενδεικτικές Απαντήσεις)

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ Τρίτη 18 Ιουνίου 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ. (Ενδεικτικές Απαντήσεις) ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ Τρίτη 18 Ιουνίου 2019 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ (Ενδεικτικές Απαντήσεις) ΘΕΜΑ Α Α1. α Α2. β Α3. γ Α4. γ Α5. β ΘΕΜΑ Β Β1. 1-ζ 2-στ

Διαβάστε περισσότερα

ΔΙΑΦΟΡΕΣ ΑΣΚΗΣΕΙΣ ΣΤΟ 1 ΚΕΦΑΛΑΙΟ

ΔΙΑΦΟΡΕΣ ΑΣΚΗΣΕΙΣ ΣΤΟ 1 ΚΕΦΑΛΑΙΟ 1 ΔΙΑΦΟΡΕΣ ΑΣΚΗΣΕΙΣ ΣΤΟ 1 ΚΕΦΑΛΑΙΟ Το μόριο DNA μιας χρωματίδας μεταφασικού χωμοσώματος ενός φυσιολογικού ευκαρυωτικού κυττάρου περιέχει το 29% των νουκλεoτιδίων του με αζωτούχα βάση την T. a. Ποιο είναι

Διαβάστε περισσότερα

Φ Ρ Ο Ν Τ Ι Σ Τ Η Ρ Ι Α ΘΕΩΡΗΤΙΚΗ ΘΕΤΙΚΗ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΕΠΑ.Λ

Φ Ρ Ο Ν Τ Ι Σ Τ Η Ρ Ι Α ΘΕΩΡΗΤΙΚΗ ΘΕΤΙΚΗ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΕΠΑ.Λ Βιολογία ΘΕΜΑ Α κατεύθυνσης 1. δ 2. α 3. γ 4. δ 5. γ 6. α 7. δ 8. α 9. α 10. α ΘΕΜΑ Β Β1. Η ραδιενέργεια 32 Ρ θα βρίσκεται στο κλάσμα Β, δηλαδή στο κλάσμα εκείνο που περιλαμβάνει τα βακτήρια που έχουν

Διαβάστε περισσότερα

ΤΕΣΤ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗ ΚΑΤΕΥΘΥΝΣΗ. ΘΕΜΑ 1 Ο Απαντήστε στις παρακάτω ερωτήσεις πολλαπλής επιλογής.

ΤΕΣΤ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗ ΚΑΤΕΥΘΥΝΣΗ. ΘΕΜΑ 1 Ο Απαντήστε στις παρακάτω ερωτήσεις πολλαπλής επιλογής. 1 ΤΕΣΤ ΒΙΟΛΟΓΙΑΣ Γ ΛΥΚΕΙΟΥ ΘΕΤΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΘΕΜΑ 1 Ο Απαντήστε στις παρακάτω ερωτήσεις πολλαπλής επιλογής. 1. Γραμμικό μόριο DNA θα βρούμε: Α. Σε πλασμίδια Β. Στο κύριο μόριο DNA του βακτηρίου. Γ. Σε

Διαβάστε περισσότερα

Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 18 Μαίου Απαντήσεις Θεμάτων ΦΡΟΝΤΙΣΤΗΡΙΑ

Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 18 Μαίου Απαντήσεις Θεμάτων ΦΡΟΝΤΙΣΤΗΡΙΑ Πανελλήνιες Εξετάσεις Ημερήσιων Γενικών Λυκείων Εξεταζόμενο Μάθημα: Βιολογία Θετικής Κατεύθυνσης, Ημ/νία: 18 Μαίου 2011 Απαντήσεις Θεμάτων ΘΕΜΑ Α Α1. Κατά τη λανθάνουσα φάση σε μια κλειστή καλλιέργεια

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΠΕΙΡΑΜΑΤΙΚΟ ΛΥΚΕΙΟ ΠΑΝ/ΜΙΟΥ ΜΑΚΕΔΟΝΙΑΣ ΖΑΡΦΤΖΙΑΝ ΜΑΡΙΛΕΝΑ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΣΚΗΣΕΙΣ ΣΤΟ 1 ο ΚΕΦΑΛΑΙΟ ΠΕΙΡΑΜΑΤΑ 1. Σε ένα πείραμα παρόμοιο με αυτό που διεξήγαγε ο Griffith, αφού θανατώσατε με

Διαβάστε περισσότερα

ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ

ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ & ΕΠΑΛ (ΟΜΑΔΑ Β ) ΝΕΟ & ΠΑΛΑΙΟ ΣΥΣΤΗΜΑ ΗΜΕΡΟΜΗΝΙΑ ΕΞΕΤΑΣΗΣ: 27/05/2016 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΟΠ ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ Θέμα Α Α1:

Διαβάστε περισσότερα

Βιολογία Β Λυκείου θέματα

Βιολογία Β Λυκείου θέματα Ι. Οι υδατάνθρακες διακρίνονται σε μονοσακχαρίτες, δισακχαρίτες και πολυσακχαρίτες. α) Να αναφέρετε από δύο παραδείγματα μονοσακχαριτών, δισακχαριτών και πολυσακχαριτών. (6μ) β) Σε ένα κύτταρο συναντώνται

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΑΠΑΝΤΗΣΕΙΣ

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΑΠΑΝΤΗΣΕΙΣ ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΩΝ ΣΠΟΥΔΩΝ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α. α Α. β Α3. γ Α4. γ Α5. β ΘΕΜΑ Β Β. ζ στ 3 α 4 ε 5 β 6 δ Β. Κάθε πολυνουκλεοτιδική αλυσίδα αποτελείται από νουκλεοτίδια ενωμένα μεταξύ τους με ομοιοπολικό δεσμό.

Διαβάστε περισσότερα

Οι αζωτούχες βάσεις των νουκλεοτιδίων είναι:

Οι αζωτούχες βάσεις των νουκλεοτιδίων είναι: 1 ΑΣΚΗΣΕΙΣ ΝΟΥΚΛΕΙΚΩΝ ΟΞΕΩΝ ΑΣΚΗΣΗ 1 Ποια είναι η δομή των νουκλεοτιδίων; Τα νουκλεοτίδια προέρχονται από τη σύνδεση με ομοιοπολικό δεσμό, τριών διαφορετικών μορίων. Μιας πεντόζης (σάκχαρο με πέντε άτομα

Διαβάστε περισσότερα

Ποιος είναι ο ρόλος των πρωτεϊνών στα κύτταρα και ποιες είναι οι δομικές τους μονάδες;

Ποιος είναι ο ρόλος των πρωτεϊνών στα κύτταρα και ποιες είναι οι δομικές τους μονάδες; Ποιος είναι ο ρόλος των πρωτεϊνών στα κύτταρα και ποιες είναι οι δομικές τους μονάδες; Οι πρωτεΐνες αποτελούν δομικά ή λειτουργικά συστατικά των κυττάρων και δομούνται από απλούστερες ενώσεις, τα αμινοξέα.

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β ) 2011

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β ) 2011 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β ) 2011 ΘΕΜΑ Α Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από τις παρακάτω ημιτελείς προτάσεις Α1 έως Α5 και δίπλα το γράμμα που αντιστοιχεί

Διαβάστε περισσότερα

Παρασκευή, 22 Μαΐου 2009 Γ ΛΥΚΕΙΟΥ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ

Παρασκευή, 22 Μαΐου 2009 Γ ΛΥΚΕΙΟΥ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ Παρασκευή, 22 Μαΐου 2009 Γ ΛΥΚΕΙΟΥ ΚΑΤΕΥΘΥΝΣΗΣ ΒΙΟΛΟΓΙΑ ΘΕΜΑ 1o Να γράψετε στο τετράδιο σας τον αριθμό καθεμιάς από τις παρακάτω ημιτελείς προτάσεις 1 έως 5 και δίπλα το γράμμα που αντιστοιχεί στη λέξη

Διαβάστε περισσότερα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα Βιοπληροφορική και Πολυµέσα Αθήνα 1.2.2009 ΠΕΡΙΕΧΟΜΕΝΑ 1. Πως σχετίζεται µε τα Πολυµέσα 2. Τι είναι η Βιοπληροφορική 3. Χρήσεις 4. Συµπεράσµατα 5. Βιβλιογραφία Βιοπληροφορική και Πολυµέσα 2 1. Τι είναι

Διαβάστε περισσότερα

ΠΑΝΕΛΛAΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΠΑΝΕΛΛAΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ ΠΑΝΕΛΛAΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ 16-06-2017 ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. δ Α2. δ Α3. β Α4. γ Α5. α ΘΕΜΑ Β Β1. Α. φωσφορική ομάδα (Ι) E. υδροξύλιο (II) Β. mrna

Διαβάστε περισσότερα

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 16 IOYNIOY 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 16 IOYNIOY 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΑΡΑΣΚΕΥΗ 16 IOYNIOY 2017 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΒΙΟΛΟΓΙΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑ Α Α1. δ Α2. δ Α3. β Α4. γ Α5. α ΘΕΜΑ Β Β1. Α I Β IV Γ VI

Διαβάστε περισσότερα

ΛΥΣΗ ΑΣΚΗΣΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

ΛΥΣΗ ΑΣΚΗΣΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΛΥΣΗ ΑΣΚΗΣΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ α) Αφού τα σωµατικά κύτταρα της γάτας έχουν 19 ζεύγη οµολόγων χρωµοσωµάτων, άρα περιέχουν 38 απλοειδή χρωµοσώµατα στην αρχή της Μεσόφασης (G 1 -φάση), πριν

Διαβάστε περισσότερα

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2015

ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2015 ΒΙΟΛΟΓΙΑ ΘΕΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ ΑΠΑΝΤΗΣΕΙΣ ΣΤΑ ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ 2015 ΘΕΜΑ Α Α1. β, Α2. γ, Α3. α, Α4. δ, Α5. γ ΘΕΜΑ Β Β1. 1-Α, 2-Β, 3-Β, 4-Α, 5-Α, 6-Α, 7-Β, 8-Β Β2. Το σύμπλοκο που δημιουργείται μετά την πρόσδεση

Διαβάστε περισσότερα

α) φυτοαιματογλουτίνη, κολχικίνη

α) φυτοαιματογλουτίνη, κολχικίνη ΔΙΑΓΩΝΙΣΜΑ ΚΕΦΑΛΑΙΟ 1ο 2ο και 4ο ΘΕΜΑ Α ΜΟΝΑΔΕΣ 25 Να απαντήσετε στις παρακάτω ερωτήσεις επιλέγοντας την λανθασμένη πρόταση ανάμεσα στις σωστές ή την σωστή ανάμεσα στις λανθασμένες. Α.Το καλαμπόκι (zeamays)

Διαβάστε περισσότερα