Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών Διπλωματική Εργασία του Γεωργίου Τζανή Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας ΘΕΣΣΑΛΟΝΙΚΗ 2008

2

3 Περίληψη Η ραγδαία ανάπτυξη της τεχνολογίας έχει οδηγήσει στην αύξηση του ρυθμού παραγωγής δεδομένων. Τα δεδομένα αυτά συνήθως αποθηκεύονται σε διάφορα μέσα και με διάφορες μορφές (π.χ. αρχεία, βάσεις δεδομένων, κ.α.), ώστε αργότερα να είναι δυνατή η ανάλυσή τους. Ωστόσο, οι παραδοσιακές τεχνικές ανάλυσης δεδομένων πολλές φορές αδυνατούν να διαχειριστούν τα δεδομένα αποδοτικά και αποτελεσματικά με κύριες αιτίες το μεγάλο όγκο και τις ιδιαιτερότητες (π.χ. θόρυβος, μεγάλος αριθμός διαστάσεων) των δεδομένων. Για το λόγο αυτό κρίνεται επιτακτική η χρήση τεχνικών που αντιμετωπίζουν τα παραπάνω προβλήματα. Τέτοιες τεχνικές προσφέρουν τα επιστημονικά πεδία της μηχανικής μάθησης και της ανακάλυψης γνώσης από βάσεις δεδομένων. Η βιολογία είναι μια από τις επιστήμες για τις οποίες κρίνεται απαραίτητη η ε- φαρμογή τεχνικών μηχανικής μάθησης και ανακάλυψης γνώσης. Από τη στιγμή που έγινε εφικτή η διεξαγωγή πειραμάτων και ερευνητικών προγραμμάτων ευρείας κλίμακας, όπως για παράδειγμα το πρόγραμμα του ανθρώπινου γονιδιώματος (Human Genome Project), ο ρυθμός με τον οποίο συλλέγονται τα βιολογικά δεδομένα έχει αυξηθεί εκθετικά. Η ανάγκη διαχείρισης και ανάλυσης των βιολογικών δεδομένων έχει οδηγήσει στην εμφάνιση μιας νέας και υποσχόμενης επιστημονικής περιοχής, της βιοπληροφορικής. Η παρούσα διατριβή κινείται στα πλαίσια της βιοπληροφορικής και πραγματεύεται το πρόβλημα της πρόβλεψης της κωδικής περιοχής βιολογικών αλληλουχιών, μια σημαντική διαδικασία που απαιτείται για την επισημείωση και χαρτογράφηση των γονιδιωμάτων των οργανισμών. Στα πρώτα κεφάλαια παρουσιάζονται τα επιστημονικά πεδία της μηχανικής μάθησης, της ανακάλυψης γνώσης, της μοριακής βιολογίας και της βιοπληροφορικής. Στη συνέχεια παρουσιάζεται η μεθοδολογία που αναπτύχθηκε για την πρόβλεψη της κωδικής περιοχής βιολογικών αλληλουχιών και τα πειράματα που εκτελέστηκαν για την αξιολόγησή της μεθοδολογίας. III

4

5 Abstract Prediction of Coding Region in Biological Sequences The rapid technological advances have resulted in an increased rate by which data are collected. These data are usually stored in a variety of media and formats (e.g. files, databases, etc.) waiting to be analyzed sometime in the future. However, the traditional data analysis techniques cannot always handle these data efficiently and effectively. The basic reasons are the large volume and the peculiarities (e.g. noise, high dimension space) of the data. Therefore, the use of techniques that cure these problems is considered indispensable. The fields of machine learning and knowledge discovery from databases provide the necessary techniques. Biology is one of the fields that demand the use of machine learning and knowledge discovery techniques. Since the conduction of large scale experiments and projects, like the Human Genome Project, became possible, the rate by which biological data are collected has been exponentially increased. The need to manage and analyze these data has driven to the emergence a new and promising field, namely bioinformatics. This dissertation deals with the bioinformatics problem of coding region prediction in biological sequences. This is an important task demanded for the annotation and mapping of organisms genomes. The first chapters present the fields of machine learning, knowledge discovery, molecular biology and bioinformatics. The next chapters describe the methodology that was developed for the prediction of coding regions in biological sequences, as well as the experiments that were conducted for evaluating this methodology. V

6

7 Πρόλογος Η διατριβή πραγματεύεται το πρόβλημα της πρόβλεψης της κωδικής περιοχής βιολογικών αλληλουχιών, μια διαδικασία που είναι απαραίτητη για τη μελέτη των γονιδιωμάτων των οργανισμών. Η εκπόνηση της διατριβής έγινε στο εργαστήριο Γλωσσών Προγραμματισμού και Τεχνολογίας Λογισμικού (Programming Languages and Software Engineering Laboratory PLaSE Laboratory) του Τμήματος Πληροφορικής του Α.Π.Θ., σε συνεργασία με την ομάδα Μηχανικής Μάθησης και Ανακάλυψης Γνώσης (Machine Learning and Knowledge Discovery Group MLKD Group). Σε αυτό το σημείο, θα ήθελα να ευχαριστήσω θερμά τον επιβλέποντα της διατριβής μου κ. Ιωάννη Βλαχάβα, καθηγητή του Τμήματος Πληροφορικής του Α.Π.Θ., για την εμπιστοσύνη που μου έδειξε, αναθέτοντάς μου την εκπόνηση της συγκεκριμένης διατριβής και για το ευχάριστο κλίμα συνεργασίας που φρόντισε να επικρατήσει κατά τη διάρκεια της εκπόνησης. Επίσης, θα ήθελα να ευχαριστήσω τα άλλα δύο μέλη της τριμελούς συμβουλευτικής επιτροπής, τον κ. Νικόλαο Βασιλειάδη, επίκουρο καθηγητή του Τμήματος Πληροφορικής του Α.Π.Θ. και τον κ. Αλέξανδρο Νανόπουλο, λέκτορα του ίδιου τμήματος. Επιπλέον, θα ήθελα να εκφράσω τις ευχαριστίες μου και στο Χρήστο Μπερμπερίδη, διδάκτορα του τμήματος Πληροφορικής του Α.Π.Θ., ο οποίος υπήρξε άριστος συνεργάτης κατά την προετοιμασία και συγγραφή των επιστημονικών εργασιών που προέκυψαν ως αποτέλεσμα της ενασχόλησης μου με αυτή τη διατριβή. Τέλος, αισθάνομαι την υποχρέωση να ευχαριστήσω την οικογένειά μου και τους φίλους μου για την υπομονή και την υποστήριξή τους καθ όλη τη διάρκεια εκπόνησης της διατριβής. Γεώργιος Τζανής Θεσσαλονίκη, Ιανουάριος 2008 VII

8

9 Περιεχόμενα ΠΕΡΙΛΗΨΗ... III ABSTRACT... V ΠΡΟΛΟΓΟΣ... VII ΠΕΡΙΕΧΟΜΕΝΑ...IX ΚΑΤΑΛΟΓΟΣ ΕΙΚΟΝΩΝ...XIII ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ... XV 1 ΕΙΣΑΓΩΓΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΟΙ ΡΙΖΕΣ ΤΗΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΚΑΤΗΓΟΡΙΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΜΑΘΗΣΗ ΣΥΝΑΡΤΗΣΗΣ Παλινδρόμηση Ταξινόμηση ΜΑΘΗΣΗ ΣΥΣΧΕΤΙΣΕΩΝ Κανόνες Συσχέτισης Σειριακά Πρότυπα ΟΜΑΔΟΠΟΙΗΣΗ ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ ΣΧΕΣΗ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΚΑΙ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΣΧΕΣΗ ΕΞΟΡΥΞΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΚΑΙ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ Η ΔΙΑΔΙΚΑΣΙΑ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Επιλογή Προεπεξεργασία Μετασχηματισμός Εξόρυξη σε Δεδομένα Ερμηνεία Αξιολόγηση ΑΠΟΘΗΚΕΣ ΔΕΔΟΜΕΝΩΝ ΠΡΟΒΛΗΜΑΤΑ ΣΤΗΝ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ Περιορισμένη Πληροφορία Αραιά Δεδομένα IX

10 X Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών Δείγματα Θόρυβος Πεδία χωρίς Τιμή Μέγεθος της Βάσης Δεδομένων Ενημέρωση της Βάσης Δεδομένων ΕΙΔΗ ΚΑΙ ΠΗΓΕΣ ΔΕΔΟΜΕΝΩΝ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΜΟΡΙΑΚΗ ΒΙΟΛΟΓΙΑ ΟΡΓΑΝΙΣΜΟΙ ΚΑΙ ΚΥΤΤΑΡΑ ΟΙ ΜΟΡΙΑΚΕΣ ΔΟΜΙΚΕΣ ΜΟΝΑΔΕΣ ΤΗΣ ΖΩΗΣ Μικρά Μόρια Πρωτεΐνες DNA RNA ΓΟΝΙΔΙΑ ΚΑΙ ΓΟΝΙΔΙΩΜΑ ΜΕΤΑΛΛΑΞΕΙΣ ΚΑΙ ΠΟΛΥΜΟΡΦΙΣΜΟΙ ΓΟΝΙΔΙΑΚΗ ΈΚΦΡΑΣΗ ΓΟΝΙΔΙΑΚΗ ΡΥΘΜΙΣΗ Η ΡΟΗ ΤΗΣ ΒΙΟΛΟΓΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΟΙ ΣΤΟΧΟΙ ΤΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΕΥΡΕΣΗ ΚΑΙ ΑΝΑΛΥΣΗ ΒΙΟΛΟΓΙΚΩΝ ΑΛΛΗΛΟΥΧΙΩΝ Αλληλούχιση DNA Πρόβλεψη Γονιδίων Στοίχιση Αλληλουχιών Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες ΜΕΤΡΗΣΗ ΚΑΙ ΑΝΑΛΥΣΗ ΤΗΣ ΓΟΝΙΔΙΑΚΗΣ ΈΚΦΡΑΣΗΣ Μικροσυστοιχίες Η Τεχνική SAGE Ανακάλυψη Γνώσης από Δεδομένα Γονιδιακής Έκφρασης ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΣΤΗ ΔΟΜΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΑΠΟ ΒΙΟΛΟΓΙΚΑ ΚΕΙΜΕΝΑ ΝΕΟΛΟΓΙΣΜΟΙ ΣΤΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Γενωμική... 70

11 Περιεχόμενα XI Πρωτεωμική ΕΡΕΥΝΗΤΙΚΑ ΚΕΝΤΡΑ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΤΡΑΠΕΖΕΣ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΕΡΓΑΛΕΙΑ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΕΦΑΡΜΟΓΕΣ ΚΑΙ ΤΑΣΕΙΣ ΤΗΣ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΒΛΕΨΗ ΤΗΣ ΚΩΔΙΚΗΣ ΠΕΡΙΟΧΗΣ ΑΛΛΗΛΟΥΧΙΩΝ CDNA ΠΡΟΒΛΕΨΗ ΤΟΥ ΣΗΜΕΙΟΥ ΈΝΑΡΞΗΣ ΤΗΣ ΜΕΤΑΦΡΑΣΗΣ ΣΧΕΤΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ Η ΜΕΘΟΔΟΛΟΓΙΑ MANTIS Το Στοιχείο Κωδικής Περιοχής Το Στοιχείο Προτύπου Συναίνεσης Το Στοιχείο Θέσης του ATG Σύντηξη των Επιμέρους Προβλέψεων Κατάταξη των Υποψήφιων ΣΕΜ ΠΡΟΒΛΗΜΑΤΑ ΣΤΗΝ ΠΡΟΒΛΕΨΗ ΤΗΣ ΚΩΔΙΚΗΣ ΠΕΡΙΟΧΗΣ ΠΕΙΡΑΜΑΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ ΣΥΝΟΛΑ ΔΕΔΟΜΕΝΩΝ ΤΥΠΙΚΗ ΜΕΘΟΔΟΛΟΓΙΑ ΜΕΤΡΑ ΑΞΙΟΛΟΓΗΣΗΣ ΜΕΘΟΔΟΣ ΕΠΙΚΥΡΩΣΗΣ ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΡΟΗΓΟΥΜΕΝΩΝ ΜΕΛΕΤΩΝ ΣΥΓΚΡΙΣΗ ΤΩΝ ΣΤΟΙΧΕΙΩΝ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ MANTIS ΣΥΓΚΡΙΣΗ ΤΗΣ MANTIS ΜΕ ΤΗΝ ΤΥΠΙΚΗ ΜΕΘΟΔΟΛΟΓΙΑ ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΚΑΤΑΤΑΞΗΣ ΤΩΝ ΥΠΟΨΗΦΙΩΝ ΣΕΜ ΕΠΙΛΟΓΟΣ ΒΙΒΛΙΟΓΡΑΦΙΑ

12

13 Κατάλογος Εικόνων Εικόνα 1.1: Εξέλιξη του μεγέθους της βάσης δεδομένων Genbank ( ) [ 2 Εικόνα 2.1: Τα βασικά στάδια της διαδικασίας ανακάλυψης γνώσης Εικόνα 2.2: Διαδικασία δημιουργίας και χρήσης αποθήκης δεδομένων Εικόνα 3.1: Η ταυτότητα του σύγχρονου ανθρώπου Εικόνα 3.2: Τυπικά μεγέθη κυττάρων και μικροοργανισμών Εικόνα 3.3: Τυπικό ζωικό κύτταρο Εικόνα 3.4: Τυπικό φυτικό κύτταρο Εικόνα 3.5: Τυπικό βακτηριακό κύτταρο Εικόνα 3.6: Τα τέσσερα επίπεδα οργάνωσης των πρωτεϊνών Εικόνα 3.7: Περιγραφή του μοντέλου της διπλής έλικας του DNA από τους James Watson (αριστερά) και Francis Crick (δεξιά) Εικόνα 3.8: Η διπλή έλικα του μορίου του DNA Εικόνα 3.9: Αναλυτικότερη άποψη του δίκλωνου μορίου του DNA Εικόνα 3.10: Υποθετικά μοντέλα διπλασιασμού του DNA Εικόνα 3.11: Διαδικασία απομάκρυνσης εσωνίων Εικόνα 3.12: Η διαδικασία της μετάφρασης Εικόνα 3.13: Το κεντρικό δόγμα της μοριακής βιολογίας Εικόνα 3.14: Η ροή της βιολογικής πληροφορίας Εικόνα 4.1: Η συστοιχία GeneChip της εταιρείας Affymetrix Εικόνα 5.1: Έναρξη της μετάφρασης Εικόνα 5.2: Η ιεραρχία των στοιχείων της μεθοδολογίας MANTIS Εικόνα 5.3: Λειτουργία της μεθοδολογίας MANTIS Εικόνα 5.4: Αρίθμηση των νουκλεοτιδίων μιας αλληλουχίας ως προς το ATG σημείο αναφοράς Εικόνα 5.5: Σφάλμα κύλισης του πλαισίου ανάγνωσης κατά την αλληλούχιση Εικόνα 5.6: Οι περιπτώσεις των δεικτών εκπεφρασμένης αλληλουχίας (ESTs) Εικόνα 6.1: Λειτουργία της τυπικής μεθοδολογίας Εικόνα 6.2: Ποσοστό απώλειας του ΣΕΜ προς τον αριθμό των επιλεγμένων ATG ( MLR) Εικόνα 6.3: Ποσοστό απώλειας του ΣΕΜ προς τον αριθμό των επιλεγμένων ATG (M5 ) XIII

14

15 Κατάλογος Πινάκων Πίνακας 3.1: Τα πέντε βασίλεια του έμβιου κόσμου σύμφωνα με την ταξινόμηση του Whittaker [1969] Πίνακας 3.2: Οι προτεινόμενες ταξινομήσεις των έμβιων όντων Πίνακας 3.3: Τα 20 αμινοξέα Πίνακας 3.4: Μεγέθη των γονιδιωμάτων και του αριθμού των γονιδίων οργανισμών.. 49 Πίνακας 3.5: Ο γενετικός κώδικας Πίνακας 5.1: Σύνολο χαρακτηριστικών Πίνακας 6.1: Τα σύνολα δεδομένων που χρησιμοποιήθηκαν στα πειράματα Πίνακας 6.2: Πίνακας σύγχυσης (confusion matrix) Πίνακας 6.3: Αποτελέσματα προηγούμενων μελετών Πίνακας 6.4: Συγκριτικά αποτελέσματα (AUC) των επιμέρους στοιχείων της MANTIS με χρήση του MLR ως ταξινομητή επιπέδου Πίνακας 6.5: Συγκριτικά αποτελέσματα (AUC) των επιμέρους στοιχείων της MANTIS με χρήση του M5 ως ταξινομητή επιπέδου Πίνακας 6.6: Συγκριτικά αποτελέσματα (AUC) των επιμέρους στοιχείων της MANTIS συνδυασμένων ανά δύο με χρήση του MLR ως ταξινομητή επιπέδου Πίνακας 6.7: Συγκριτικά αποτελέσματα (AUC) των επιμέρους στοιχείων της MANTIS συνδυασμένων ανά δύο με χρήση του M5 ως ταξινομητή επιπέδου Πίνακας 6.8: Στατιστική σύγκριση της MANTIS με τα επιμέρους στοιχεία που την αποτελούν με χρήση της MLR ως ταξινομητή επιπέδου Πίνακας 6.9: Στατιστική σύγκριση της MANTIS με τους συνδυασμούς ανά δύο των επιμέρους στοιχείων που την αποτελούν με χρήση της MLR ως ταξινομητή επιπέδου Πίνακας 6.10: Στατιστική σύγκριση της MANTIS με τα επιμέρους στοιχεία που την αποτελούν με χρήση του M5 ως ταξινομητή επιπέδου Πίνακας 6.11: Στατιστική σύγκριση της MANTIS με τους συνδυασμούς ανά δύο των επιμέρους στοιχείων που την αποτελούν με χρήση του M5 ως ταξινομητή επιπέδου Πίνακας 6.12: Συγκριτικά αποτελέσματα με χρήση της MLR ως ταξινομητή επιπέδου Πίνακας 6.13: Συγκριτικά αποτελέσματα με χρήση του M5 ως ταξινομητή επιπέδου XV

16 XVI Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών Πίνακας 6.14: Στατιστική σύγκριση της MANTIS με την τυπική μεθοδολογία

17 Κεφάλαιο 1 1 Εισαγωγή «Κάθε αλλαγή που έχει νόημα και διάρκεια ξεκινάει πρώτα στη φαντασία σου και μετά βρίσκει τον τρόπο που θα υλοποιηθεί. Η φαντασία είναι σημαντικότερη από τη γνώση.» Albert Einstein Ένα από τα αποτελέσματα της αλματώδους τεχνολογικής εξέλιξης των τελευταίων δεκαετιών είναι ο διαρκώς αυξανόμενος ρυθμός συλλογής δεδομένων. Η συμβολή της τεχνολογίας σε αυτή την κατεύθυνση είναι διττή. Πρώτον, η βελτίωση των τεχνολογιών έχει οδηγήσει στην επίσπευση των διαδικασιών παραγωγής και συλλογής δεδομένων. Δεύτερον, η εισαγωγή νέων τεχνολογιών έχει ανοίξει τους δρόμους σε διαδικασίες παραγωγής και συλλογής νέας μορφής δεδομένων. Το επόμενο βήμα μετά τη συλλογή των δεδομένων είναι η ανάλυσή τους. Βασικός σκοπός αυτής της ανάλυσης είναι η ανακάλυψη της γνώσης που ενδεχομένως κρύβουν τα δεδομένα. Οι παραδοσιακές τεχνικές ανάλυσης συχνά αποτυγχάνουν να διαχειριστούν τα δεδομένα αποδοτικά και αποτελεσματικά. Οι αιτίες είναι ο όγκος των δεδομένων και οι ιδιαιτερότητες που μπορεί να παρουσιάζουν, όπως η παρουσία θορύβου, ο μεγάλος αριθμός διαστάσεων, κλπ. Για το λόγο αυτό κρίνεται απαραίτητη η εκμετάλλευση των τεχνικών μηχανικής μάθησης και ανακάλυψης γνώσης, που έχουν ως σκοπό να αντιμετωπίσουν τα προβλήματα των παραδοσιακών τεχνικών ανάλυσης δεδομένων. Η βιολογία είναι μια από τις πολλές περιοχές που μπορεί να ωφεληθεί σημαντικά από την εφαρμογή μηχανικής μάθησης τεχνικών ανακάλυψης γνώσης. Σκοπός της βιολογίας είναι η μελέτη του φαινομένου της ζωής. Μεγάλο μέρος των προσπαθειών 1

18 2 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών καταναλώνεται στη μελέτη των βιολογικών μορίων τα οποία είναι απαραίτητα για την ύπαρξη των ζωντανών οργανισμών. Στα πλαίσια αυτής της μελέτης και με τη βοήθεια των τεχνολογικών εξελίξεων, έχει γίνει εφικτή η διεξαγωγή πειραμάτων και ερευνητικών προγραμμάτων ευρείας κλίμακας, με αποτέλεσμα τη ραγδαία αύξηση των βιολογικών δεδομένων. Ένα σημαντικό παράδειγμα είναι το πρόγραμμα του ανθρώπινου γονιδιώματος (Human Genome Project - HGP), το οποίο ξεκίνησε το 1990 με πρωτοβουλία του Τμήματος Ενέργειας (Department of Energy) και του Εθνικού Ινστιτούτου Υγείας (National Institutes of Health NIH) των Η.Π.Α. [ techresources/human_genome/home.shtml]. Το πρόγραμμα ολοκληρώθηκε με επιτυχία το Αντιπροσωπευτικό παράδειγμα της ταχείας συσσώρευσης βιολογικών δεδομένων αποτελεί η εκθετική αύξηση (Εικόνα 1.1) του αριθμού των αλληλουχιών που είναι αποθηκευμένες στη δημοφιλή βάση βιολογικών δεδομένων GenBank. 60 Αλληλουχίες (Εκατομμύρια) Εικόνα 1.1: Εξέλιξη του μεγέθους της βάσης δεδομένων Genbank ( ) [ Η ανάγκη διαχείρισης και ανάλυσης των δεδομένων αυτών έχουν οδηγήσει στην εμφάνιση μιας νέας και πολλά υποσχόμενης επιστημονικής περιοχής, της βιοπληροφορικής. Στα πλαίσια αυτής της επιστημονικής περιοχής κινείται η παρούσα διατριβή που πραγματεύεται το πρόβλημα της πρόβλεψης της κωδικής περιοχής βιολογικών αλληλουχιών. Η πρόβλεψη της κωδικής περιοχής είναι μια από τις σημαντικότερες διαδικασίες που απαιτούνται για την επισημείωση και χαρτογράφηση των γονιδιωμάτων των οργανισμών. Ο σκοπός της διατριβής δεν περιορίζεται μόνο στην υλοποίηση και παρουσίαση μιας μεθόδου για την αντιμετώπιση του προβλήματος, αλλά, επιπλέον,

19 Κεφάλαιο 1: Εισαγωγή 3 επιδιώκει να περιγράψει τα βασικά χαρακτηριστικά, τους σκοπούς, τις εφαρμογές και τις τάσεις των επιστημονικών περιοχών που σχετίζονται με το θέμα της διατριβής. Οργάνωση του Κειμένου Το παρόν κείμενο είναι χωρισμένο σε επτά κεφάλαια. Το πρώτο από αυτά είναι το παρόν κεφάλαιο της Εισαγωγής. Το δεύτερο κεφάλαιο, με τίτλο Μηχανική Μάθηση και Ανακάλυψη Γνώσης, παρέχει το βασικό υπόβαθρο της επιστημονικής περιοχής στην οποία κινείται η εργασία. Περιγράφονται οι ερευνητικές περιοχές της μηχανικής μάθησης και της ανακάλυψης γνώσης από βάσεις δεδομένων, παρουσιάζεται η σχέση μεταξύ των δύο αυτών περιοχών, καθώς και τα προβλήματα που αντιμετωπίζονται κατά την εφαρμογή της μεθόδων μηχανικής μάθησης και ανακάλυψης γνώσης. Επιπλέον, παρουσιάζονται τα είδη των δεδομένων και οι τομείς στους οποίους εφαρμόζονται αυτές οι μέθοδοι. Το τρίτο κεφάλαιο, με τίτλο Μοριακή Βιολογία, παρέχει το βασικό υπόβαθρο που απαιτείται για την μελέτη και ανάλυση βιολογικών δεδομένων. Περιγράφονται οι βασικές μοριακές δομικές μονάδες των οργανισμών, οι σχέσεις που υπάρχουν μεταξύ τους, ενώ ορίζονται και περιγράφονται πολλές από τις βασικές έννοιες που είναι απαραίτητες για την κατανόηση του θέματος που πραγματεύεται η διατριβή. Το τέταρτο κεφάλαιο, με τίτλο Βιοπληροφορική, παρουσιάζει μια νέα σχετικά ε- πιστημονική περιοχή, τη βιοπληροφορική. Παρουσιάζονται οι σκοποί της συγκεκριμένης περιοχής, οι βασικές μέθοδοι και τα εργαλεία που χρησιμοποιούνται για τη διαχείριση και ανάλυση βιολογικών δεδομένων με ιδιαίτερη έμφαση σε μεθόδους μηχανικής μάθησης και ανακάλυψης γνώσης, καθώς και οι εφαρμογές της περιοχής. Το πέμπτο κεφάλαιο, με τίτλο Πρόβλεψη της Κωδικής Περιοχής Αλληλουχιών cdna, παρουσιάζει τη μεθοδολογία που υλοποιήθηκε για την πρόβλεψη του σημείου έναρξης της μετάφρασης και κατ επέκταση της κωδικής περιοχής αλληλουχιών cdna. Το έκτο κεφάλαιο, με τίτλο Πειραματική Αξιολόγηση, παρουσιάζει τα αποτελέσματα των πειραμάτων που διεξήχθησαν για την αξιολόγηση της μεθοδολογίας που αναπτύχθηκε και παρουσιάζεται στο πέμπτο κεφάλαιο. Τέλος, το έβδομο κεφάλαιο, με τίτλο Επίλογος, παρουσιάζει συμπεράσματα και σχόλια σχετικά με τα πεπραγμένα της εργασίας, καθώς και ιδέες για μελλοντικές επεκτάσεις.

20

21 Κεφάλαιο 2 2 Μηχανική Μάθηση και Ανακάλυψη Γνώσης «Πάντες άνθρωποι του ειδέναι ορέγονται φύσει.» Αριστοτέλης Δύο έννοιες που απασχολούσαν τον άνθρωπο από την αρχαιότητα και υπήρξαν αντικείμενο έρευνας και μελέτης είναι η «μάθηση» και η «γνώση». Σήμερα οι δύο συγγενικές ερευνητικές περιοχές της μηχανικής μάθησης και ανακάλυψης γνώσης από βάσεις δεδομένων προσπαθούν να επιλύσουν σύγχρονα προβλήματα, που αφορούν στην δυνατότητα μάθησης των μη έμβιων όντων, δηλαδή των μηχανών και στην αποδοτική ανακάλυψη γνώσης από μεγάλες συλλογές δεδομένων. Συγκεκριμένα, η μηχανική μάθηση (machine learning) είναι μια από τις παλαιότερες ερευνητικές περιοχές της τεχνητής νοημοσύνης. Σκοπός της είναι η κατασκευή υπολογιστικών συστημάτων που μπορούν να προσαρμοστούν και να μάθουν από την εμπειρία τους [Dietterich, 1999]. Ένα σύστημα μηχανικής μάθησης δεν αλληλεπιδρά απ ευθείας με το περιβάλλον του, αλλά χρησιμοποιεί σύνολα κωδικοποιημένων παρατηρήσεων. Ένα τέτοιο σύνολο καλείται σύνολο εκπαίδευσης (training set). Ένα σύνολο εκπαίδευσης που χρησιμοποιείται από ένα σύστημα μηχανικής μάθησης αποτελείται από λίγα και προσεκτικά επιλεγμένα εργαστηριακά δεδομένα. Το σύστημα μπορεί να ζητά νέα παραδείγματα για να ερευνήσει τη συμπεριφορά του περιβάλλοντός του κάτω από συγκεκριμένες συνθήκες. Στα τέλη της δεκαετίας του 1980, μια νέα έννοια με την ονομασία εξόρυξη σε δεδομένα (data mining) άρχισε να κάνει την εμφάνισή της. Σκοπός της νέας αυτής επι- 5

22 6 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών στημονικής περιοχής ήταν η εξαγωγή γνώσης από μεγάλους όγκους δεδομένων, με τη βοήθεια ηλεκτρονικών υπολογιστών. Η εξόρυξη σε δεδομένα έχει λάβει στοιχεία από πολλές επιστημονικές περιοχές όπως τις βάσεις δεδομένων, τη μηχανική μάθηση, τη στατιστική, την ανάκτηση πληροφορίας, την αναγνώριση προτύπων, την οπτική αναπαράσταση δεδομένων, κ.α. Αρχικά η έννοια της εξόρυξης σε δεδομένα είχε ταυτιστεί με την έννοια της ανακάλυψης γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases - KDD), ωστόσο στα μέσα της δεκαετίας του 1990 έγινε διαχωρισμός των δύο εννοιών. Από τότε, η πρώτη έννοια χρησιμοποιείται για να περιγράψει ένα συγκεκριμένο στάδιο εφαρμογής της δεύτερης. 2.1 Οι Ρίζες της Μηχανικής Μάθησης Κάθε νοήμων οντότητα, όπως ο άνθρωπος, προσπαθεί να μάθει τον κόσμο που την περιβάλλει. Οι οντότητες αυτές καλούνται γνωστικά συστήματα (cognitive systems). Κατά τη διαδικασία της μάθησης, το γνωστικό σύστημα παρατηρεί το περιβάλλον του και αναγνωρίζει ομοιότητες μεταξύ των αντικειμένων και των γεγονότων που βρίσκονται μέσα σε αυτό. Ομαδοποιεί τα αντικείμενα που εμφανίζουν ομοιότητες σε κλάσεις και κατασκευάζει κανόνες που προβλέπουν τη συμπεριφορά των μελών μιας τέτοιας κλάσης. Η μηχανική μάθηση έχει τις ρίζες της στην επαγωγική μάθηση η οποία βασίζεται στην επαγωγή, μια από τις τρεις βασικές συλλογιστικές που περιγράφονται παρακάτω: Η συνεπαγωγή (deduction) αφορά στην εξαγωγή ορθών συμπερασμάτων. Τα συμπεράσματα που προκύπτουν είναι ορθά, διότι η κατεύθυνση της διαδικασίας εξαγωγής συμπεράσματος είναι από το γενικό προς το ειδικό. Για παράδειγμα, αν ισχύει A B και A, τότε εξάγεται το ορθό συμπέρασμα ότι ισχύει το B. Η επαγωγή (induction) αφορά στην εξαγωγή γενικών συμπερασμάτων από ένα σύνολο παραδειγμάτων. Η κατεύθυνση της διαδικασίας εξαγωγής συμπεράσματος στην περίπτωση αυτή είναι από το ειδικό προς το γενικό, γεγονός που εισάγει κάποιο βαθμό αβεβαιότητας για το εξαγόμενο συμπέρασμα. Για παράδειγμα, αν ι- σχύουν τα A i B i, όπου i = {1, 2,, n}, τότε εξάγεται το συμπέρασμα ότι ισχύει A B. Τα A και B είναι γενικεύσεις των προτάσεων A i και B i αντίστοιχα. Η απαγωγή (abduction) αφορά στην εξαγωγή συμπερασμάτων, με βάση την παρατήρηση κάποιου γεγονότος που αποτελεί συμπέρασμα ενός κανόνα. Για πα-

23 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης 7 ράδειγμα, αν ισχύει A B και B, τότε εξάγεται το συμπέρασμα ότι ισχύει το A. Η συλλογιστική που βασίζεται στην απαγωγή διαφέρει από τις άλλες δύο συλλογιστικές, καθώς δεν είναι μαθηματικά ακριβής, άλλα ουσιαστικά εκφράζει κάποια πιθανότητα. 2.2 Κατηγορίες Μηχανικής Μάθησης Υπάρχουν διάφοροι τρόποι με τους οποίους μπορούν να διαχωριστούν οι μέθοδοι της μηχανικής μάθησης. Ο πιο διαδεδομένος διαχωρισμός διακρίνει δύο είδη μάθησης: Μάθηση με επίβλεψη (supervised learning). Στη μάθηση με επίβλεψη παρέχονται στο γνωστικό σύστημα παραδείγματα από ήδη ορισμένες κλάσεις. Το σύστημα καλείται να ανακαλύψει τις κοινές ιδιότητες των αντικειμένων κάθε κλάσης, δηλαδή την περιγραφή της κλάσης (class description). Μάθηση χωρίς επίβλεψη (unsupervised learning). Στη μάθηση χωρίς επίβλεψη το σύστημα πρέπει να ανακαλύψει τις κλάσεις από μόνο του βασιζόμενο στις κοινές ιδιότητες των αντικειμένων. Ένας άλλος διαχωρισμός των μεθόδων της μηχανικής μάθησης είναι ο εξής: Μάθηση συνάρτησης. Στόχος είναι η μάθηση μιας συνάρτησης μελετώντας ένα σύνολο δεδομένων με ζευγάρια τιμών εισόδου και εξόδου της συνάρτησης αυτής. Μάθηση συσχετίσεων (learning associations). Στόχος είναι η εύρεση συσχετίσεων μεταξύ αντικειμένων σε συναλλακτικές (transactional) βάσεις δεδομένων Ομαδοποίηση (clustering). Στόχος είναι η ανακάλυψη φυσικών οργανώσεων των δεδομένων σε ομάδες. Ενισχυτική μάθηση (reinforcement learning). Στόχος είναι η εύρεση της βέλτιστης συμπεριφοράς ενός πράκτορα σε κάποιο περιβάλλον, με βάση την ανταμοιβή που παίρνει σε μια τελική κατάσταση, έχοντας ξεκινήσει από μια αρχική κατάσταση και ακολουθώντας μιας σειρά από ενέργειες και ενδιάμεσες καταστάσεις. Η εφαρμογή της μηχανικής μάθησης σε ένα σύνολο δεδομένων έχει ως αποτέλεσμα τη δημιουργία μοντέλων ή προτύπων. Το μοντέλο είναι μια απλοποιημένη εκδοχή που δημιουργείται από ένα γνωστικό σύστημα, ώστε να κατανοήσει το περιβάλλον του. Πρότυπα ονομάζονται οι νέες δομές που δημιουργούνται από το γνωστικό σύστημα έπειτα από το συσχετισμό και την οργάνωση των εμπειριών του. Στις παραγράφους που

24 8 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών ακολουθούν περιγράφονται οι μέθοδοι της μηχανικής μάθησης με βάση το δεύτερο διαχωρισμό, που παρουσιάστηκε παραπάνω. 2.3 Μάθηση Συνάρτησης Κατά τη μάθηση συνάρτησης επιδιώκεται ο προσδιορισμός μιας άγνωστης συνάρτησης, που καλείται συνάρτηση στόχος (target function), από γνωστά ζεύγη τιμών εισόδου και εξόδου της υπό μάθηση συνάρτησης. Ουσιαστικά, η συνάρτηση στόχος χρησιμοποιείται για την πρόβλεψη της τιμής μιας εξαρτημένης μεταβλητής που ονομάζεται μεταβλητή στόχος με βάση τις τιμές ενός συνόλου από ανεξάρτητες μεταβλητές που ονομάζονται χαρακτηριστικά (attributes ή features). Το σύνολο των διαφορετικών δυνατών τιμών εισόδου της συνάρτησης στόχου, δηλαδή το πεδίο ορισμού της, ονομάζεται σύνολο περιπτώσεων ή στιγμιότυπων (instances). Ένα σύστημα μάθησης συνάρτησης, κατά την εκπαίδευση του, έχει ως είσοδο ένα υποσύνολο του συνόλου των περιπτώσεων, για το οποίο είναι γνωστή η τιμή της μεταβλητής στόχου. Αυτό το σύνολο ονομάζεται σύνολο εκπαίδευσης (training set). Ένα στοιχείο του συνόλου εκπαίδευσης ονομάζεται παράδειγμα (example). Το σύστημα μάθησης για να προσεγγίσει όσο καλύτερα μπορεί τη συνάρτηση στόχο δεδομένου ενός συνόλου εκπαίδευσης, εξετάζει διάφορες εναλλακτικές συναρτήσεις, οι οποίες ονομάζονται υποθέσεις (hypotheses). Το σύνολο όλων των δυνατών διαφορετικών υποθέσεων που το σύστημα μάθησης ενδέχεται να εξετάσει ονομάζεται χώρος υποθέσεων (hypotheses space). Παραδείγματα μάθησης συνάρτησης είναι η παλινδρόμηση (regression) και η ταξινόμηση (classification) Παλινδρόμηση Η παλινδρόμηση (regression) αφορά τη μάθηση συναρτήσεων, με συνεχές πεδίο αριθμητικών τιμών. Οι κυριότερες μέθοδοι που χρησιμοποιούνται είναι δύο: Η γραμμική παλινδρόμηση (linear regression), όπου η συνάρτηση μοντελοποιείται με μια απλή γραμμική εξίσωση των παραμέτρων εισόδου. Τα νευρωνικά δίκτυα (neural networks), τα οποία μετά την εκπαίδευσή τους με τα υπάρχοντα δεδομένα εισόδου και εξόδου μπορούν να αποδώσουν μια τιμή εξόδου σε νέα δεδομένα εισόδου. Τα νευρωνικά δίκτυα έχουν τη δυνατότητα να μοντελοποιούν μη-γραμμικά δεδομένα.

25 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης Ταξινόμηση Η ταξινόμηση (classification) είναι μέθοδος μάθησης συνάρτησης με κατηγορικό (categorical/nominal π.χ. ομάδα αίματος) πεδίο τιμών. Είναι δυνατό οι πιθανές κατηγορίες να είναι διατεταγμένες διακριτές τιμές (ordinal π.χ. υψηλό, μεσαίο, χαμηλό). Οι πιο κοινές μέθοδοι ταξινόμησης είναι η μάθηση εννοιών, τα δένδρα ταξινόμησης, οι κανόνες ταξινόμησης, η μάθηση κατά περίπτωση και η μάθηση με βάση τη θεωρία του Bayes. Ένα σύστημα που εκπαιδεύεται με κάποιο σύνολο εκπαίδευσης χρησιμοποιώντας κάποιον αλγόριθμο ταξινόμησης καλείται ταξινομητής (classifier) και μπορεί να χρησιμοποιηθεί για την ταξινόμηση (πρόβλεψη) νέων στιγμιοτύπων. Μάθηση Εννοιών Κατά τη διαδικασία της μάθησης εννοιών (concept learning) το γνωστικό σύστημα τροφοδοτείται με παραδείγματα που ανήκουν (θετικά παραδείγματα) ή δεν ανήκουν (αρνητικά παραδείγματα) σε κάποια έννοια/κατηγορία και καλείται να παράγει κάποια γενικευμένη περιγραφή της, ώστε να είναι στη συνέχεια σε θέση να αποφασίσει για άγνωστες περιπτώσεις. Ένας βασικός αλγόριθμος που χρησιμοποιείται στη μάθηση εννοιών είναι ο αλγόριθμος απαλοιφής υποψηφίων (candidate elimination algorithm), ο οποίος περιορίζει το χώρο αναζήτησης επιτελώντας γενικεύσεις και ειδικεύσεις σε κάποιες αρχικές περιγραφές (έννοιες) με βάση τα δεδομένα εκπαίδευσης. Δένδρα Ταξινόμησης Τα δένδρα ταξινόμησης (classification trees) ή δένδρα απόφασης (decision trees) είναι δενδροειδής δομές που αναπαριστούν με γραφικό τρόπο τις συσχετίσεις στα δεδομένα εκπαίδευσης. Ένα δένδρο ταξινόμησης μπορεί πολύ εύκολα να αναπαρασταθεί και ως ένα σύνολο κανόνων. Το μεγαλύτερο πλεονέκτημα των δενδροειδών μοντέλων κατηγοριοποίησης είναι η εύκολη ερμηνεία τους. Ένας γενικός αλγόριθμος δημιουργίας δένδρου απόφασης αποτελείται από τα ε- ξής βήματα: 1. Εύρεση της ανεξάρτητης μεταβλητής η οποία αν χρησιμοποιηθεί ως κριτήριο διαχωρισμού των δεδομένων θα οδηγήσει σε όσο το δυνατόν πιο διαφορετικούς μεταξύ τους κόμβους, σε σχέση με την εξαρτημένη μεταβλητή.

26 10 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών 2. Πραγματοποίηση διαχωρισμού σύμφωνα με την ανεξάρτητη μεταβλητή που βρέθηκε. 3. Επανάληψη της διαδικασίας διαχωρισμού στους κόμβους που προέκυψαν έως ότου να μην υπάρχει δυνατός διαχωρισμός. Οι πιο γνωστοί αλγόριθμοι κατασκευής δένδρων ταξινόμησης είναι οι εξής: Ο αλγόριθμος ID3, που είναι γνωστός και ως αλγόριθμος κατασκευής δένδρων απόφασης με επαγωγή (decision tree induction algorithm). Ο αλγόριθμος αυτός χρησιμοποιεί τα μεγέθη της εντροπίας και του κέρδους για την επιλογή του επόμενου καλύτερου διαχωρισμού. Η εντροπία (entropy) μετρά την ανομοιογένεια του συνόλου των παραδειγμάτων που χρησιμοποιούνται για εκπαίδευση και το κέρδος (gain) μετρά την αναμενόμενη μείωση της εντροπίας εξαιτίας του διαχωρισμού σε συγκεκριμένη ανεξάρτητη μεταβλητή. Ο CART (Classification and Regression Trees), ο οποίος δημιουργεί δυαδικά δένδρα απόφασης και υποστηρίζει την ταξινόμηση αλλά και την παλινδρόμηση. Ο C4.5, ο οποίος αποτελεί βελτίωση του ID3, και ο C5.0, που χρησιμοποιεί ειδικές τεχνικές (boosting) για να ξεπεράσει καταστάσεις χαμηλής βελτιστοποίησης που οφείλονται στην άπληστη συμπεριφορά των αλγορίθμων κατασκευής δένδρων α- πόφασης. Ο CHAID (Chi-Squared Automatic Interaction detection), ο οποίος χρησιμοποιεί τη δοκιμασία Χ 2 για την επιλογή του επόμενου καλύτερου διαχωρισμού. Κανόνες Ταξινόμησης Μια από τις πιο εκφραστικές και κατανοητές για τον άνθρωπο αναπαραστάσεις για μάθηση υποθέσεων είναι τα σύνολα κανόνων της μορφής «εάν X τότε Y». Δύο σημαντικές κατηγορίες κανόνων ταξινόμησης είναι οι παρακάτω: Οι προτασιακοί κανόνες (propositional rules). Οι προτασιακοί κανόνες δεν περιέχουν μεταβλητές και έτσι δεν μπορούν να αναπαρασταθούν γενικές σχέσεις μεταξύ των χαρακτηριστικών. Μπορούν να προκύψουν από άλλες μορφές αναπαράστασης (π.χ. δένδρα, γενετικοί αλγόριθμοι) ή από απ' ευθείας μάθηση. Ένας γενικός αλγόριθμος μάθησης τέτοιων κανόνων είναι ο αλγόριθμος σειριακής κάλυψης (serial covering algorithms), που δημιουργεί ένα σύνολο προτασιακών κανόνων επαυξητικά (incrementally), μαθαίνοντας έναν κανόνα κάθε φορά.

27 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης 11 Οι κανόνες πρώτης τάξης (first order rules). Οι κανόνες πρώτης τάξης, αντίθετα με τους προτασιακούς, περιέχουν μεταβλητές. Επίσης, έχουν μεγάλη εκφραστική ικανότητα και προκύπτουν από απ' ευθείας μάθηση. Η μάθησή των κανόνων πρώτης τάξης ονομάζεται και Λογικός Επαγωγικός Προγραμματισμός (Inductive Logic Programming - ILP). Ο πιο γνωστός αλγόριθμος της κατηγορίας είναι ο FOIL του Quinlan [1990], ο οποίος είναι φυσική συνέχεια του αλγορίθμου σειριακής κάλυψης. Μάθηση κατά Περίπτωση Στη μάθηση κατά περίπτωση (instance-based learning) τα δεδομένα εκπαίδευσης χρησιμοποιούνται αυτούσια. Όταν ένα σύστημα κληθεί να αποφασίσει για μια νέα περίπτωση, εξετάζει τη σχέση της με τις ήδη αποθηκευμένες περιπτώσεις. Χαρακτηριστικός αλγόριθμος αυτής της κατηγορίας είναι ο αλγόριθμος των k- κοντινότερων γειτόνων (k-nearest neighbors). Σύμφωνα με τον αλγόριθμο αυτό όταν πρόκειται να κατηγοριοποιηθεί κάποιο νέο παράδειγμα υπολογίζονται οι αποστάσεις του παραδείγματος από κάθε αντικείμενο του συνόλου εκπαίδευσης. Στη συνέχεια λαμβάνοντας υπόψη μόνο τα k κοντινότερα παραδείγματα η νέα περίπτωση τοποθετείται στην κατηγορία που ανήκουν τα περισσότερα από αυτά. Μάθηση με Βάση τη Θεωρία του Bayes Η συλλογιστική κατά Bayes αποτελεί τη θεωρητική βάση για αλγορίθμους μάθησης που διαχειρίζονται πιθανότητες, καθώς και ένα πλαίσιο για το συγκριτικό έλεγχο της απόδοσης άλλων αλγορίθμων. Στη μάθηση με βάση τη θεωρία του Bayes (Bayesian learning) κάθε παράδειγμα εκπαίδευσης μπορεί σταδιακά να μειώσει ή να αυξήσει την πιθανότητα να είναι σωστή μια υπόθεση. Αυτό δίνει μεγάλη ευελιξία στους αλγορίθμους, καθώς δεν απορρίπτουν αμέσως μια υπόθεση που φαίνεται να μην είναι σε απόλυτη συμφωνία με τα παραδείγματα εκπαίδευσης. Επιπλέον, προϋπάρχουσα γνώση μπορεί να συνδυαστεί με τα δεδομένα εκπαίδευσης με τη μορφή αρχικών τιμών πιθανότητας για τις υπό εξέταση υποθέσεις. Μια πρακτική δυσκολία στην εφαρμογή της μάθησης με βάση τη θεωρία του Bayes είναι η απαίτηση για τη γνώση πολλών πιθανοτήτων. Η παραπάνω δυσκολία έχει δώσει μεγάλη πρακτική αξία σε μια απλουστευμένη μορφή της μάθησης με βάση τη θεωρία του Bayes, τον αφελή ταξινομητή Bayes. Ο αφελής ταξινομητής Bayes (naïve Bayes classifier) θεωρεί την παραδοχή ότι οι τιμές

28 12 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών όλων των χαρακτηριστικών, δεδομένης μιας κατηγορίας, είναι ανεξάρτητες μεταξύ τους. Το όφελος που προκύπτει από αυτή την απλούστευση είναι η μείωση της πολυπλοκότητας του αλγορίθμου. 2.4 Μάθηση Συσχετίσεων Η μάθηση ή εξόρυξη συσχετίσεων περιλαμβάνει την αναζήτηση κοινών εμφανίσεων αντικειμένων σε μια βάση συναλλαγών. Η κοινή παρουσία αντικειμένων σε ένα πλήθος συναλλαγών είναι ένδειξη κάποιας πιθανής σχέσης μεταξύ αυτών των αντικειμένων. Αυτού του είδους οι συσχετίσεις μπορούν να αναλυθούν περεταίρω και να αποκαλύψουν σχέσεις χρονικές ή σχέσεις αιτιότητας Κανόνες Συσχέτισης Οι κανόνες συσχέτισης (association rules) είναι πρότυπα της μορφής «εάν X τότε Y», όπου X και Y είναι εκφράσεις που συνδέουν τιμές των πεδίων των εγγραφών της βάσης δεδομένων. Κλασικό παράδειγμα αποτελεί η ανάλυση καλαθιού αγορών (market basket analysis), δηλαδή η ανάλυση των προϊόντων που αγοράζονται από πελάτες σε καταστήματα, όπου τα X και Y είναι προϊόντα ή σύνολα προϊόντων που αγοράστηκαν ταυτόχρονα. Παράδειγμα ενός τέτοιου κανόνα είναι ο εξής: «οι πελάτες που αγοράζουν γάλα αγοράζουν και ψωμί» Βέβαια, απλή αναφορά ενός τέτοιου κανόνα δεν έχει μεγάλη αξία αν δεν συνοδεύεται από κάποια ποσοτικά μεγέθη που του προσδίδουν βαρύτητα. Δύο μεγέθη που χρησιμοποιούνται συχνά και μετρούν την ποιότητα των ευρεθέντων κανόνων συσχέτισης είναι η εμπιστοσύνη (confidence) και η υποστήριξη (support) που ορίζονται ως εξής: Η εμπιστοσύνη είναι ο λόγος των εγγραφών που ικανοποιούν το Χ και το Υ προς τις εγγραφές που ικανοποιούν μόνο το Χ. Η υποστήριξη είναι ο λόγος των εγγραφών που ικανοποιούν το Χ και το Υ προς το σύνολο των εγγραφών. Κρίνοντας ποιοτικά τα παραπάνω μεγέθη μπορεί να ειπωθεί ότι η εμπιστοσύνη καθορίζει το πόσο ισχυρό είναι το πρότυπο που εντοπίστηκε, ενώ η υποστήριξη καθορίζει το πόσο σημαντικό είναι. Το πρόβλημα της εξόρυξης κανόνων συσχέτισης μπορεί να διαιρεθεί στα εξής δύο υποπροβλήματα:

29 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης 13 Εύρεση όλων των συνόλων αντικειμένων (itemsets) που έχουν τιμή υποστήριξης μεγαλύτερη ή ίση με το κατώφλι υποστήριξης που έχει ορίσει ο χρήστης. Τα σύνολα αντικειμένων που ικανοποιούν αυτόν τον περιορισμό ονομάζονται συχνά σύνολα αντικειμένων (frequent itemsets ή large itemsets). Εύρεση όλων των κανόνων που προκύπτουν από τα συχνά σύνολα αντικειμένων οι οποίοι ικανοποιούν το κατώφλι εμπιστοσύνης που έχει ορίσει ο χρήστης. Από τα δύο παραπάνω υποπροβλήματα, το πρώτο είναι αρκετά πολύπλοκο υπολογιστικά και έχει συγκεντρώσει έντονο ερευνητικό ενδιαφέρον. Οι περισσότεροι αλγόριθμοι για την ανακάλυψη των κανόνων συσχέτισης βασίζονται στην ιδιότητα της κλειστότητας προς τα κάτω (downward closure), σύμφωνα με την οποία αν ένα σύνολο αντικειμένων S είναι συχνό, τότε όλα τα μη-κενά υποσύνολα του S είναι επίσης συχνά. Αντιπροσωπευτικός αλγόριθμος της κατηγορίας είναι ο αλγόριθμος A-priori [Agrawal & Srikant, 1994], ο οποίος δημιουργεί υποψήφια συχνά σύνολα αντικειμένων τα οποία στη συνέχεια ελέγχονται με περάσματα στη βάση δεδομένων για το αν ικανοποιούν τον περιορισμό της υποστήριξης. Ο A-priori λειτουργεί σταδιακά. Έτσι, στο πρώτο του πέρασμα βρίσκει τα συχνά αντικείμενα, στο δεύτερο τα συχνά ζεύγη, στο τρίτο τις συχνές τριάδες κ.ο.κ. Η διαδικασία τερματίζεται σε συγκεκριμένο αριθμό περασμάτων ή όταν πάψουν να υπάρχουν υποψήφια συχνά σύνολα αντικειμένων. Τέλος, έχουν προταθεί και κάποιοι αλγόριθμοι, που δε βασίζονται στη δημιουργία υποψήφιων συχνών συνόλων αντικειμένων, με κυριότερο αντιπρόσωπο τον FP-Growth [Han et al., 2000] Σειριακά Πρότυπα Πολλές φορές οι εγγραφές μιας βάσης δεδομένων περιλαμβάνουν χρονική παράμετρο και χαρακτηρίζουν μια μοναδική οντότητα (π.χ. συγκεκριμένο πελάτη). Σε τέτοιες περιπτώσεις είναι δυνατό να γίνει αναζήτηση γνώσης για σειριακά πρότυπα (sequential patterns), τα οποία είναι ουσιαστικά κανόνες συσχέτισης που συσχετίζουν τιμές πεδίων κάποιων εγγραφών με τιμές πεδίων άλλων εγγραφών που ακολουθούν χρονικά και αφορούν την ίδια οντότητα. Ένας πιθανός κανόνας αυτής της κατηγορίας θα μπορούσε να είναι ο εξής: «όταν οι μετοχές της Α και της Β εταιρείας πέφτουν ταυτόχρονα για δύο συνεχόμενες μέρες, τότε η μετοχή της Γ εταιρείας πέφτει την τρίτη μέρα».

30 14 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών 2.5 Ομαδοποίηση Οι ομάδες (clusters) είναι πρότυπα που προκύπτουν από την ομαδοποίηση (clustering) των παραδειγμάτων (π.χ. εγγραφών μιας βάσης δεδομένων), έτσι ώστε τα μέλη των ομάδων να έχουν κοινά χαρακτηριστικά. Ένας από τους ορισμούς που έχουν προταθεί για τις ομάδες σύμφωνα με τη Dunham [2002] είναι ο εξής: Ομάδα είναι ένα σύνολο σημείων για τα οποία ισχύει ότι η απόσταση ανάμεσα σε σημεία που ανήκουν στην ομάδα είναι μικρότερη από την απόσταση μεταξύ ενός σημείου στην ομάδα και οποιουδήποτε σημείου εκτός αυτής. Οι ομάδες που προκύπτουν συνήθως περιγράφονται από κάποιας μορφής μαθηματική σχέση, η οποία απεικονίζει τις εγγραφές της βάσης δεδομένων στις ομάδες. Υπάρχουν αρκετές κατηγορίες αλγορίθμων ομαδοποίησης, οι βασικότερες από τις οποίες περιγράφονται παρακάτω [Βαζιριγιάννης & Χαλκίδη, 2003]: Βασισμένοι σε διαχωρισμούς (partitional), που προσπαθούν να βρουν τον καλύτερο διαχωρισμό ενός συνόλου δεδομένων σε ένα συγκεκριμένο αριθμό ομάδων. Ένας πολύ γνωστός αλγόριθμος της κατηγορίας αυτής είναι ο αλγόριθμος των K-μέσων (K-means), ο οποίος αρχικά επιλέγει K τυχαία σημεία ως κέντρα των K ομάδων και στη συνέχεια αναθέτει κάθε σημείο στην ομάδα της οποίας το κέντρο βρίσκεται πιο κοντά. Έπειτα υπολογίζονται τα μέσα διανύσματα των σημείων κάθε ομάδας και ορίζονται ως νέα κέντρα των ομάδων. Η διαδικασία επαναλαμβάνεται για συγκεκριμένο αριθμό βημάτων. Ιεραρχικοί (hierarchical), που προσπαθούν με ιεραρχικό τρόπο να ανακαλύψουν τη δομή των ομάδων. Το αποτέλεσμα αυτών των αλγορίθμων είναι μια ιεραρχία από διαφορετικές ομαδοποιήσεις των δεδομένων, στο ένα άκρο της οποίας βρίσκεται μία μόνο ομάδα με όλα τα δεδομένα και στο άλλο τόσες ομάδες όσα είναι τα δεδομένα. Με βάση την κατεύθυνση ανάπτυξης της ιεραρχίας που ακολουθούν οι ιεραρχικοί αλγόριθμοι ομαδοποίησης διακρίνονται σε: Συγχωνευτικούς (agglomerative). Διαιρετικούς (divisive). Ασαφείς (fuzzy), οι οποίοι ομαδοποιούν τα δεδομένα με χρήση τεχνικών ασαφούς λογικής. Οι αλγόριθμοι της κατηγορίας αυτής θεωρούν ότι ένα αντικείμενο μπορεί

31 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης 15 να ανήκει σε περισσότερες από μία ομάδες. Ο σημαντικότερος ασαφής αλγόριθμος ομαδοποίησης είναι ο Fuzzy C-Means [Bezdek et al., 1984]. Βασισμένοι στην πυκνότητα (density-based), οι οποίοι οργανώνουν τα γειτονικά αντικείμενα ενός συνόλου δεδομένων σε ομάδες βασισμένοι σε κριτήρια πυκνότητας. Αντιπροσωπευτικός αλγόριθμος της κατηγορίας αυτής είναι ο DBSCAN [Ester et al., 1996]. Βασισμένοι σε πλέγμα (grid-based). Αυτοί οι αλγόριθμοι χρησιμοποιούνται κυρίως για την ανάλυση χωρικών δεδομένων. Το βασικό χαρακτηριστικό τους είναι ο διαχωρισμός του χώρου σε ένα πεπερασμένο αριθμό κελιών πριν από την εφαρμογή των βασικών διαδικασιών. Βασισμένοι στα δίκτυα Kohonen (Kohonen net), οι οποίοι βασίζονται στα νευρωνικά δίκτυα. Το δίκτυο Kohonen έχει κόμβους εισόδου και εξόδου. Ένας κόμβος εισόδου αντιστοιχεί με ένα χαρακτηριστικό των παραδειγμάτων και συνδέεται με κάθε κόμβο εξόδου. Κάθε σύνδεση σχετίζεται με ένα βάρος. Ο αλγόριθμος αλλάζει κατάλληλα τα βάρη και οι κόμβοι εξόδου τείνουν να σχηματίζουν ομάδες. Υποχώρων (subspace), οι οποίοι προσπαθούν να βρουν τα υποσύνολα του αρχικού χώρου που βελτιστοποιούν τα αποτελέσματα ομαδοποίησης. Ως αποτέλεσμα αυτών των αλγορίθμων μπορούν να προκύψουν ομάδες παραδειγμάτων, για συγκεκριμένους υποχώρους των χαρακτηριστικών. 2.6 Ενισχυτική Μάθηση Ο όρος ενισχυτική μάθηση (reinforcement learning) είναι ένας γενικός όρος που έχει δοθεί σε μία οικογένεια τεχνικών στις οποίες το σύστημα προσπαθεί να μάθει μέσα από την άμεση αλληλεπίδραση με το περιβάλλον. Η βασική ιδέα είναι ότι το σύστημα μάθησης αξιολογείται με βάση μια βαθμωτή ποσότητα που ονομάζεται σήμα ενίσχυσης. Σκοπός του συστήματος μάθησης είναι η μεγιστοποίηση της συνάρτησης του σήματος ενίσχυσης. Είναι σημαντικό να αναφέρουμε ότι το σύστημα δεν έχει καμία εκ των προτέρων γνώση για την συμπεριφορά του περιβάλλοντος και ο μόνος τρόπος για να την ανακαλύψει είναι μέσω της δοκιμής και αποτυχίας (trial and error). Η ενισχυτική μάθηση εφαρμόζεται κυρίως σε αυτόνομα συστήματα πράγμα που πηγάζει από την ανεξαρτησία που δείχνει η τεχνική αυτή σε σχέση με το αρχικό περιβάλλον.

32 16 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών 2.7 Σχέση Μηχανικής Μάθησης και Ανακάλυψης Γνώσης Η μηχανική μάθηση και η Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων (Knowledge Discovery in Databases - KDD) έχουν πολλά κοινά σημεία που κάνουν δυσδιάκριτες τις μεταξύ τους διαφορές. Τυπικά, η μηχανική μάθηση σχετίζεται περισσότερο με το βήμα της εξόρυξης σε δεδομένα στη διαδικασία της ανακάλυψης γνώσης. Κυρίως παρέχει τους αλγορίθμους μάθησης και έχει περισσότερες επιρροές από την Τεχνητή Νοημοσύνη. Η ανακάλυψη γνώσης είναι περισσότερο προσανατολισμένη στην αποδοτική εκτέλεση των αλγορίθμων αυτών για δεδομένα που δεν μπορούν να χωρέσουν στην κύρια μνήμη του υπολογιστή, καθώς και στη γενικότερη διαχείριση και ανάλυση δεδομένων που βρίσκονται αποθηκευμένα σε συστήματα βάσεων δεδομένων. Έχει περισσότερες επιρροές από τον τομέα των Βάσεων Δεδομένων. 2.8 Σχέση Εξόρυξης σε Δεδομένα και Ανακάλυψης Γνώσης Πολύ συχνά ο όρος εξόρυξη σε δεδομένα ταυτίζεται με τον όρο ανακάλυψη γνώσης σε βάσεις δεδομένων (knowledge discovery in databases - KDD). Η ταύτιση των όρων δεν είναι σωστή. Η ανακάλυψη γνώσης σε βάσεις δεδομένων αναφέρεται σε μια διαδικασία που αποτελείται από κάποια βήματα, ενώ η εξόρυξη σε δεδομένα είναι ένα από αυτά τα βήματα. Για να γίνει πιο σαφής η διάκριση των δύο εννοιών παρατίθενται οι ορισμοί τους, όπως παρουσιάζονται στο [Fayyad et al., 1996]: Η ανακάλυψη γνώσης σε βάσεις δεδομένων είναι η μη τετριμμένη διαδικασία αναγνώρισης έγκυρων, νέων, ενδεχομένως χρήσιμων και απόλυτα κατανοητών προτύπων στα δεδομένα. Παρακάτω εξετάζονται αναλυτικότερα οι όροι που εμφανίζονται στον ορισμό: Δεδομένα είναι ένα σύνολο γεγονότων, όπως για παράδειγμα οι εγγραφές που εμφανίζονται στη βάση δεδομένων. Πρότυπο είναι μια έκφραση που περιγράφει κάποιο υποσύνολο των δεδομένων. Για παράδειγμα: «Αν εισόδημα < 1000, τότε ο πελάτης δεν πληρώνει το δάνειο». Διαδικασία στην ανακάλυψη γνώσης είναι μια ακολουθία από βήματα, η οποία περιλαμβάνει την προετοιμασία των δεδομένων, την αναζήτηση προτύπων, την α- ξιολόγηση των αποτελεσμάτων και τη βελτίωση των προτύπων μέσω της επανάληψης. Η διαδικασία θεωρείται ότι είναι μη τετριμμένη, με την έννοια ότι έχει κάποιο βαθμό αυτονομίας.

33 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης 17 Εγκυρότητα των προτύπων σημαίνει ότι τα πρότυπα θα πρέπει να ισχύουν και σε νέα δεδομένα με κάποιο βαθμό βεβαιότητας. Η βεβαιότητα μπορεί να μετρηθεί με μια συνάρτηση η οποία αντιστοιχεί σε κάθε έκφραση (υποψήφιο πρότυπο) μια τιμή βεβαιότητας. Το πόσο νέα είναι τα πρότυπα μπορεί να μετρηθεί σε σχέση με τις αλλαγές στα δεδομένα (συγκρίνοντας τρέχουσες με προηγούμενες ή αναμενόμενες τιμές) ή τη γνώση (κατά πόσο ένα καινούριο εύρημα σχετίζεται με τα προηγούμενα). Ενδεχομένως χρήσιμα σημαίνει ότι τα πρότυπα θα πρέπει να οδηγούν πιθανώς σε χρήσιμες ενέργειες. Η χρησιμότητα των προτύπων εκτιμάται με μια συνάρτηση χρησιμότητας, η οποία αντιστοιχεί σε κάθε έκφραση μια τιμή χρησιμότητας. Απόλυτα κατανοητά, σημαίνει ότι τα πρότυπα πρέπει να είναι αρκετά κατανοητά στους ανθρώπους, ώστε να διευκολύνεται η καλύτερη κατανόηση των δεδομένων που βρίσκονται κάτω από τα πρότυπα. Καθώς είναι δύσκολη μια τέτοια μέτρηση, συνήθως μετράται η απλότητα, που μπορεί να ποικίλλει από καθαρά συντακτική (π.χ. το μέγεθος του προτύπου σε bits), έως σημασιολογική (π.χ. ευκολία αντίληψης του προτύπου από τον άνθρωπο σε δεδομένη κατάσταση). Η συνολική εκτίμηση του κατά πόσο ένα πρότυπο είναι ενδιαφέρον (interestingness) μπορεί να υπολογιστεί με κάποια συνάρτηση, η οποία λαμβάνει υπόψη τις μετρήσεις για όλα τα προηγούμενα επιθυμητά χαρακτηριστικά του προτύπου. Ένα πρότυπο είναι γνώση αν η τιμή της συνάρτησης ενδιαφέροντος ξεπερνά το κατώφλι που έχει ορίσει ο χρήστης. Ακολουθεί ο ορισμός της εξόρυξης σε δεδομένα: Η εξόρυξη σε δεδομένα είναι ένα βήμα της διαδικασίας ανακάλυψης γνώσης σε βάσεις δεδομένων, που αποτελείται από συγκεκριμένους αλγορίθμους εξόρυξης, και κάτω από αποδεκτούς περιορισμούς υπολογιστικής αποδοτικότητας, παράγει μια συγκεκριμένη απαρίθμηση προτύπων στα δεδομένα. Πρέπει να σημειωθεί ότι ο χώρος των προτύπων συχνά είναι άπειρος, ενώ η απαρίθμηση των προτύπων επιβάλλει κάποιας μορφής αναζήτηση στο χώρο αυτό. Από την άλλη, οι περιορισμοί της υπολογιστικής αποδοτικότητας οριοθετούν το χώρο που μπορεί να εξερευνήσει ο αλγόριθμος. O όρος data mining (στα ελληνικά κατά λέξη μεταφράζεται ως εξόρυξη δεδομένων) οφείλει το όνομά του στις ομοιότητες μεταξύ της αναζήτησης πολύτιμων πληρο-

34 18 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών φοριών σε μια μεγάλη βάση δεδομένων και της αναζήτησης πολύτιμων μεταλλευμάτων σε πετρώματα. Και στις δυο περιπτώσεις γίνεται επιλογή από μεγάλες ποσότητες υλικού ή διερεύνηση του υλικού για την επισήμανση της θέσης των πολύτιμων αντικειμένων. Ωστόσο, η χρήση της έννοιας data mining δεν είναι σωστή. Η αναζήτηση για χρυσό στα πετρώματα καλείται εξόρυξη χρυσού (gold mining) και όχι εξόρυξη πετρωμάτων (rock mining). Συνεπώς, αναλογικά, η εξόρυξη δεδομένων θα έπρεπε να είχε ονομαστεί εξόρυξη γνώσης (knowledge mining). Εντούτοις, ο όρος data mining έχει γίνει αποδεκτός και χρησιμοποιείται. Για αποφυγή παρερμηνειών, στο παρόν κείμενο η απόδοση του όρου στα ελληνικά είναι εξόρυξη σε δεδομένα και όχι εξόρυξη δεδομένων. 2.9 Η Διαδικασία Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων Πριν αρχίσει οποιαδήποτε εργασία είναι απαραίτητος ο καθορισμός του προβλήματος και η κατανόηση του τομέα στον οποίο θα εφαρμοστεί η διαδικασία ανακάλυψης γνώσης. Πρέπει να καθοριστούν οι στόχοι και να ληφθούν υπόψη όλοι οι διαθέσιμοι πόροι, οικονομικοί και ανθρώπινοι, καθώς και οι περιορισμοί που υπάρχουν. Η συνεργασία του ειδικού επί θεμάτων ανακάλυψης γνώσης με τον ειδικό του τομέα του προβλήματος είναι απαραίτητη προϋπόθεση για τον καθορισμό των παραπάνω λεπτομερειών και για τον έλεγχο του κατά πόσο οι στόχοι είναι εφικτοί και αξιοποιήσιμοι. Πολλές φορές κάποια από τα βήματα της ανακάλυψης γνώσης είναι αναγκαίο να επαναληφθούν, λόγω προβλημάτων (που δεν μπορούν να ανιχνευτούν από την αρχή) τα οποία ενδέχεται να εμφανιστούν εξαιτίας των αρχικών επιλογών. Τα επιμέρους στάδια της διαδικασίας ανακάλυψης γνώσης απεικονίζονται στην Εικόνα 2.1 και περιγράφονται παρακάτω σύμφωνα με τα [Dunham, 2002; Βλαχάβας κ.α., 2006]. Επιλογή Προεπεξεργασία Μετασχηματισμός Εξόρυξη Ερμηνεία - Αξιολόγηση... Δεδομένα Επιλεγμένο Υποσύνολο Δεδομένων Προεπεξεργασμένα Δεδομένα Μετασχηματισμένα Δεδομένα Μοντέλα Πρότυπα Γνώση Εικόνα 2.1: Τα βασικά στάδια της διαδικασίας ανακάλυψης γνώσης.

35 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης Επιλογή Τα δεδομένα μπορούν να ληφθούν από διαφορετικές και ετερογενείς πηγές. Συνήθως προέρχονται από σχεσιακές βάσεις δεδομένων. Επειδή τις περισσότερες φορές δεν είναι οργανωμένα με τρόπο που να διευκολύνει τη διαδικασία ανακάλυψης γνώσης και επειδή οι περισσότεροι αλγόριθμοι δεν μπορούν να εργαστούν με πολλαπλούς πίνακες απαιτείται η εξαγωγή των δεδομένων και η οργάνωσή τους σε απλούστερες δομές. Η παραπάνω διαδικασία μπορεί να αποφευχθεί αν τα δεδομένα βρίσκονται σε μια αποθήκη δεδομένων (data warehouse), η οποία παρέχει στους αλγόριθμους ανακάλυψης γνώσης μια ευκολότερα προσβάσιμη όψη (view) των δεδομένων. Εκτός από τα τεχνικής φύσεως προβλήματα στο στάδιο αυτό μπορούν να αντιμετωπισθούν και νομικής φύσεως προβλήματα, όπως για παράδειγμα κωλύματα που αφορούν την προστασία προσωπικών δεδομένων Προεπεξεργασία Τα δεδομένα μπορεί να είναι ελλιπή ή λανθασμένα. Μπορεί να υπάρχουν διαφορετικοί τύποι δεδομένων και μονάδες μέτρησης για ποιοτικά ίδια πληροφορία. Υπάρχει λοιπόν, η ανάγκη της διόρθωσης ή απομάκρυνσης των λανθασμένων δεδομένων και της απόκτησης ή πρόβλεψης των δεδομένων που λείπουν. Το στάδιο αυτό, λόγω της φύσεως των εργασιών που λαμβάνουν χώρα, ονομάζεται και στάδιο καθαρισμού των δεδομένων (data cleaning) Μετασχηματισμός Τα δεδομένα μετασχηματίζονται με σκοπό να διευκολύνουν τη διαδικασία της εξόρυξης και να παρέχουν πιο κατανοητά αποτελέσματα. Δεδομένα από διαφορετικές πηγές πρέπει να μετατραπούν σε μια κοινή μορφή που θα επιτρέπει την επεξεργασία τους. Επίσης, κάποιοι αλγόριθμοι εξόρυξης μπορεί να απαιτούν συγκεκριμένες δομές δεδομένων. Παραδείγματα μετασχηματισμών που μπορούν να γίνουν είναι τα εξής: Ενοποίηση πεδίων, ώστε να μειωθεί η πολυπλοκότητα των δεδομένων. Για παράδειγμα τα πεδία τρέχουσα ημερομηνία και ημερομηνία γέννησης θα μπορούσαν να αντικατασταθούν από το πεδίο ηλικία. Αντικατάσταση ενός πεδίου από κάποιο άλλο. Για παράδειγμα αντικατάσταση της ακολουθίας τιμών ενός πεδίου από τις διαφορές των διαδοχικών τιμών.

36 20 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών Μετατροπή συνεχόμενων πραγματικών τιμών σε κατηγορικές τιμές. Απομάκρυνση σπάνια εμφανιζόμενων ακραίων τιμών, όπως είναι τα παράτυπα σημεία (outliers). Αξίζει να σημειωθεί ότι ενώ σε κάποιες εφαρμογές τα παράτυπα σημεία μπορεί να θεωρηθούν θόρυβος και να απορριφθούν, σε άλλες εφαρμογές μπορούν να αποκαλύψουν σημαντική γνώση, και κατά συνέπεια η ανάλυσή τους να είναι πολύτιμη. Μετασχηματισμός με εφαρμογή κάποιας συνάρτησης (π.χ. λογαριθμικής) στις τιμές ενός πεδίου. Όλες οι παραπάνω τεχνικές διευκολύνουν τη διαδικασία εξόρυξης, είτε μειώνοντας τον αριθμό των πεδίων (dimensionality reduction), είτε μειώνοντας τον αριθμό των τιμών που παίρνει ένα πεδίο (variability reduction) Εξόρυξη σε Δεδομένα Σε αυτό το βήμα εφαρμόζεται ο κατάλληλος αλγόριθμος πάνω στα μετασχηματισμένα δεδομένα, ώστε να παραχθούν τα επιθυμητά αποτελέσματα. Ανάλογα με το είδος της γνώσης που αναζητείται επιλέγεται ο κατάλληλος αλγόριθμος. Αξίζει να σημειωθεί ότι πολλές φορές προτιμώνται αλγόριθμοι που έχουν ισχυρά χαρακτηριστικά πληροφόρησης, αν και έχουν χειρότερη δυνατότητα πρόβλεψης, επειδή τα αποτελέσματά τους γίνονται πιο εύκολα αντιληπτά από τον ειδικό του τομέα Ερμηνεία Αξιολόγηση Διάφορες τεχνικές οπτικής αναπαράστασης (visualization) χρησιμοποιούνται στο στάδιο αυτό για την παρουσίαση των δεδομένων. Η κατανόηση της χρησιμότητας των αποτελεσμάτων εξαρτάται σε μεγάλο βαθμό από τον τρόπο παρουσίασής τους. Οι παραπάνω τεχνικές, δίνουν στο χρήστη τη δυνατότητα να συνοψίζει και να εξάγει πιο πολύπλοκα αποτελέσματα από ότι με μαθηματικές ή βασισμένες σε κείμενο περιγραφές των αποτελεσμάτων. Είναι πιθανό η γνώση που προέκυψε να καταγραφεί σε μια βάση γνώσης (knowledge base) και ίσως να χρειαστεί η επίλυση συγκρούσεων με προϋπάρχουσα γνώση. Συνήθως τα αποτελέσματα μετά από ένα κύκλο της διαδικασίας δίνουν ερέθισμα για νέες αναζητήσεις, δηλαδή επανάληψη ολόκληρης της διαδικασίας.

37 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης Αποθήκες Δεδομένων Οι μεγάλες εταιρείες αποτελούνται από πολλά τμήματα ή υποκαταστήματα και τα δεδομένα που παράγονται βρίσκονται αποθηκευμένα σε διαφορετικές τοποθεσίες, διαφορετικές λειτουργικές βάσεις δεδομένων, όπως πωλήσεων ή μισθοδοσίας και κάτω από διαφορετικά σχήματα. Επιπλέον, οι διάφορες πηγές δεδομένων μπορούν να διαθέσουν άμεσα μόνο τα τρέχοντα δεδομένα. Ωστόσο, η λήψη αποφάσεων απαιτεί μια ενοποιημένη όψη όλων των δεδομένων, στα οποία συμπεριλαμβάνονται και τα ιστορικά δεδομένα. Αυτό ακριβώς το πρόβλημα αντιμετωπίζει μια αποθήκη δεδομένων. Η αποθήκη δεδομένων (data warehouse) είναι μια βάση δεδομένων με εργαλεία αναφορών και ερωτημάτων στην οποία αποθηκεύονται τρέχοντα και ιστορικά δεδομένα που προέρχονται από διάφορα λειτουργικά (επεξεργασίας συναλλαγών) συστήματα και συνενώνονται με σκοπό την παραγωγή αναφορών και αναλύσεων για τη διοίκηση (management) [Laudon & Laudon, 2001]. Τα δεδομένα είναι συγκεντρωμένα κάτω από ένα ενοποιημένο σχήμα και σε μία τοποθεσία. Η συλλογή των δεδομένων στις αποθήκες δεδομένων μπορεί να γίνεται με δύο τρόπους: Οδηγούμενη από την πηγή (source driven), όπου οι πηγές μεταφέρουν δεδομένα στην αποθήκη, είτε συνεχώς είτε περιοδικά (π.χ. τη νύχτα). Οδηγούμενη από τον προορισμό (destination driven), όπου η αποθήκη περιοδικά ζητά δεδομένα από τις πηγές. Η διαδικασία δημιουργίας και χρήσης αποθηκών δεδομένων (data warehousing), περιγράφεται στην Εικόνα 2.2. Ενημέρωση Νέα δεδομένα Μεταδεδομένα Ερωτήματα και αναφορές Λειτουργικές βάσεις δεδομένων Εξαγωγή και μετασχηματισμός Αποθήκη δεδομένων Αναλυτική επεξεργασία άμεσης επικοινωνίας Εξόρυξη σε δεδομένα Εξωτερικές πηγές δεδομένων Πρατήρια δεδομένων Εικόνα 2.2: Διαδικασία δημιουργίας και χρήσης αποθήκης δεδομένων.

38 22 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών Τα δεδομένα εξάγονται από τις διάφορες πηγές δεδομένων. Αυτά αναδιοργανώνονται σε μια κεντρική βάση δεδομένων για την παραγωγή αναφορών και αναλύσεων, καθώς και για τη διευκόλυνση της διαδικασίας εξόρυξης σε δεδομένα. Τα μεταδεδομένα (metadata) περιέχουν πληροφορίες σχετικές με τα αποθηκευμένα δεδομένα και τον τρόπο οργάνωσής τους. Τα δεδομένα ανανεώνονται περιοδικά αντικατοπτρίζοντας τις αλλαγές στις πηγές και απομακρύνονται από την αποθήκη (ενδεχομένως σε αρχειακά μέσα) αυτά που είναι πολύ παλιά. Νέες πληροφορίες, όπως κανόνες, που δημιουργούνται από τις διάφορες διεργασίες πάνω στα δεδομένα (εξόρυξη, OLAP κλπ.), μπορούν να αποθηκευτούν στην αποθήκη δεδομένων. Οι εταιρείες μπορούν να δημιουργήσουν μικρότερες και αποκεντρωμένες αποθήκες που αποτελούν υποσύνολο μιας αποθήκης δεδομένων. Στις αποθήκες αυτές, που ονομάζονται πρατήρια δεδομένων (data marts), αποθηκεύεται συνοπτικό ή συγκεκριμένου ενδιαφέροντος τμήμα των δεδομένων και απευθύνεται σε συγκεκριμένο πληθυσμό χρηστών. Η αναλυτική επεξεργασία άμεσης επικοινωνίας (on-line analytical processing OLAP) παρέχει τη δυνατότητα χειρισμού και πολυδιάστατης ανάλυσης μεγάλων ποσοτήτων δεδομένων Προβλήματα στην Ανακάλυψη Γνώσης Η διαδικασία ανακάλυψης γνώσης βασίζεται στην παροχή δεδομένων εισόδου από βάσεις δεδομένων. Ωστόσο, παρουσιάζονται κάποια προβλήματα στη διαδικασία αυτή που οφείλονται στη φύση των βάσεων δεδομένων, οι οποίες είναι δυναμικές, μεγάλου μεγέθους και συχνά περιέχουν ελλιπή και εσφαλμένα δεδομένα. Τα σημαντικότερα προβλήματα που υπεισέρχονται στη διαδικασία ανακάλυψης γνώσης περιγράφονται στη συνέχεια Περιορισμένη Πληροφορία Οι βάσεις δεδομένων συνήθως δεν είναι σχεδιασμένες για ανακάλυψη γνώσης. Συχνά κάποια πεδία που θα απλοποιούσαν τη διαδικασία ανακάλυψης γνώσης λείπουν ή και είναι αδύνατο να συλλεχθούν από το χρήστη. Γι αυτό το λόγο δεν είναι πάντοτε εφικτή η κατασκευή μοντέλων που ταξινομούν σωστά κάθε παράδειγμα, βάσει των γνωστών μόνο πεδίων. Υπάρχουν δύο τρόποι αντιμετώπισης του παραπάνω προβλήματος. Μπορούν να κατασκευαστούν μοντέλα μόνο όταν όλα τα σχετικά χαρακτηριστικά είναι γνωστά (deterministic rules). Το μειονέκτημα της αντιμετώπισης αυτής είναι ότι πολύτιμη πληροφορία που βρίσκεται «κρυμμένη» στη βάση δεδομένων είναι πολύ πιθανό να

39 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης 23 μη βρεθεί. Εναλλακτικά, κατασκευάζονται μοντέλα που κατηγοριοποιούν τα αντικείμενα σε κλάσεις με βάση κάποια πιθανότητα. Αυτά τα μοντέλα συνήθως παρέχουν σημαντικές πληροφορίες για συσχετίσεις μέσα στο περιβάλλον Αραιά Δεδομένα Συνήθως ένα σύστημα ανακάλυψης γνώσης πρέπει να ανακαλύψει τα όρια των κλάσεων. Η ακριβής θέση των ορίων μπορεί να βρεθεί μόνο αν υπάρχουν παραδείγματα που εντοπίζονται μόλις μέσα και μόλις έξω από την κλάση (near hits και near misses). Με άλλα λόγια, τα παραδείγματα πρέπει να αναπαριστούν μεγάλη ποικιλία συμπεριφοράς του περιβάλλοντος. Δυστυχώς όμως, σε μια βάση δεδομένων υπάρχει μόνο ένα μικρό υποσύνολο της πιθανής συμπεριφοράς. Έτσι τα όρια των κλάσεων δεν μπορούν να καθοριστούν με ακρίβεια. Μια προσπάθεια λύσης του παραπάνω προβλήματος είναι η αναζήτηση παραδειγμάτων με ιδιαίτερο ενδιαφέρον μέσα στη βάση δεδομένων Δείγματα Για τη δημιουργία των μοντέλων απαιτείται η λήψη ενός δείγματος (σύνολο εκπαίδευσης) από τη βάση δεδομένων. Ωστόσο, χρειάζεται μεγάλη προσοχή και εφαρμογή στατιστικών τεχνικών κατά την επιλογή του δείγματος, ώστε αυτό να αντιπροσωπεύει ικανοποιητικά τη βάση δεδομένων. Οι πραγματικές βάσεις δεδομένων έχουν τεράστιο αριθμό εγγραφών, ενώ πολλοί αλγόριθμοι ανακάλυψης γνώσης απαιτούν, για λόγους απόδοσης, την παρουσία όλων των δεδομένων εκπαίδευσης στη μνήμη. Επειδή το μέγεθος της μνήμης είναι περιορισμένο, επιβάλλεται η χρήση δείγματος Θόρυβος Τα πεδία ενός πίνακα βάσης δεδομένων μπορεί να προέρχονται από μετρήσεις ή από υποκειμενικές κρίσεις με αποτέλεσμα να υπάρχουν καταχωρημένες λανθασμένες τιμές. Μια τέτοια περίπτωση μπορεί να οδηγήσει σε εσφαλμένη κατηγοριοποίηση των παραδειγμάτων. Τέτοια λάθη στις τιμές των πεδίων ή στην περιγραφή των κλάσεων είναι γνωστά ως θόρυβος (noise). Το πρόβλημα που δημιουργεί ο θόρυβος μπορεί να εντοπιστεί σε δύο σημεία: Κατά τη διαδικασία δημιουργίας περιγραφών κλάσεων με χρήση συνόλου εκπαίδευσης με θόρυβο. Ο θόρυβος που αφορά την περιγραφή μιας κλάσης έχει αρνητικές επιπτώσεις στη δυνατότητα ακριβούς ταξινόμησης από τα παραγόμενα μοντέ-

40 24 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών λα. Έχει λοιπόν, ιδιαίτερη σημασία η απομάκρυνση του θορύβου από το σύνολο εκπαίδευσης που χρησιμοποιείται για τη δημιουργία των περιγραφών κλάσεων. Κατά τη διαδικασία ταξινόμησης παραδειγμάτων με χρήση περιγραφών που παράχθηκαν με θόρυβο. Σύμφωνα με τους Holsheimer & Siebes [1994], πειράματα σε κάποια συστήματα έχουν δείξει ότι η προσθήκη θορύβου στα δεδομένα οδηγεί σε χαμηλά επίπεδα εσφαλμένης κατηγοριοποίησης των παραδειγμάτων, ακόμη και αν ο θόρυβος είναι σημαντικός. Ιδιαίτερο ενδιαφέρον παρουσιάζει το εξής φαινόμενο: μοντέλα που παράγονται από ένα σύνολο εκπαίδευσης με θόρυβο, λειτουργούν καλύτερα όταν εφαρμόζονται σε δεδομένα με θόρυβο εν συγκρίσει με μοντέλα που έχουν προκύψει από το ίδιο «αθόρυβο» σύνολο δεδομένων. Το συμπέρασμα που προκύπτει είναι ότι δεν αξίζει τον κόπο να προσπαθεί κανείς για την εξάλειψη του θορύβου από τις ιδιότητες των αντικειμένων του συνόλου εκπαίδευσης, αν το μοντέλο που θα παραχθεί εφαρμόζεται σε δεδομένα με σημαντική ποσότητα θορύβου Πεδία χωρίς Τιμή Ένα πρόβλημα που σχετίζεται με τη χρήση των βάσεων δεδομένων είναι η ενδεχόμενη απουσία τιμής σε κάποια πεδία. Όπως και στην περίπτωση του θορύβου, το πρόβλημα μπορεί να εντοπιστεί σε δύο σημεία: Κατά τη διαδικασία δημιουργίας περιγραφών των κλάσεων. Τα παραδείγματα με κενά πεδία μπορούν είτε απλά να παραλειφθούν είτε να χρησιμοποιηθούν, αφού γίνει αντικατάσταση των κενών πεδίων με κάποιες από τις πιο πιθανές τιμές. Μπορούν να κατασκευαστούν μοντέλα που προβλέπουν την τιμή ενός πεδίου με βάση τις τιμές των άλλων πεδίων του παραδείγματος και τις πληροφορίες για την κλάση. Έτσι αντικαθίστανται τα κενά πεδία και το νέο σύνολο που προκύπτει χρησιμοποιείται για τη δημιουργία περιγραφών κλάσεων. Μια άλλη προσέγγιση είναι η θεώρηση των άγνωστων τιμών σαν μια ξεχωριστή τιμή, για παράδειγμα μπορεί να προστεθεί η τιμή άγνωστο στο σύνολο τιμών κάθε πεδίου και να χρησιμοποιηθεί στις περιγραφές. Κατά τη διαδικασία ταξινόμησης παραδειγμάτων με κενά πεδία. Για παράδειγμα, όταν στις συνθήκες ενός κανόνα ταξινόμησης περιλαμβάνονται πεδία χωρίς τιμή, τότε ο κανόνας δεν μπορεί να εφαρμοστεί. Μια λύση στο πρόβλημα αυτό είναι ο υπολογισμός της πιθανότητας εφαρμογής ενός κανόνα. Η πιθανότητα να έχει ένα

41 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης 25 πεδίο μια συγκεκριμένη τιμή μπορεί να υπολογιστεί λαμβάνοντας υπόψη τις σχετικές συχνότητες των διάφορων τιμών του πεδίου στα παραδείγματα του συνόλου εκπαίδευσης. Έτσι, δεδομένου ενός συνόλου κανόνων, υπολογίζεται η πιθανότητα εφαρμογής του κάθε κανόνα και στη συνέχεια αθροίζονται οι πιθανότητες για κάθε κλάση. Τελικά, το παράδειγμα ταξινομείται στην κλάση με τη μεγαλύτερη τιμή πιθανότητας. Έχει βρεθεί ότι η παραπάνω τεχνική οδηγεί σε μικρή μείωση της ικανότητας ταξινόμησης, καθώς ο αριθμός των άγνωστων τιμών αυξάνει Μέγεθος της Βάσης Δεδομένων Οι βάσεις δεδομένων συνήθως αποθηκεύουν μεγάλες ποσότητες δεδομένων. Το πρόβλημα μπορεί να εντοπιστεί σε δύο σημεία: Στο πλήθος των πεδίων μιας εγγραφής. Πρώτιστα, πρέπει να σημειωθεί ότι η μεγάλη ποσότητα πληροφορίας για ένα αντικείμενο είναι ένα πλεονέκτημα, αφού είναι πιθανότερη η εμφάνιση πραγματικών συσχετίσεων. Ωστόσο, η μεγάλη ποσότητα πληροφορίας οδηγεί και σε αύξηση του μεγέθους του χώρου αναζήτησης περιγραφών. Χαρακτηριστικό παράδειγμα δεδομένων με πολύ μεγάλο αριθμό πεδίων είναι τα δεδομένα γονιδιακής έκφρασης (βλ. ενότητα 4.3). Μάλιστα, για την περιγραφή αυτού του προβλήματος είναι γνωστή η έκφραση «κατάρα των πολλών διαστάσεων» ( curse of dimensionality ). Η λύση του προβλήματος είναι η χρήση περιορισμών και ευριστικών μηχανισμών στην αναζήτηση, που οδηγούν σε σχεδόν βέλτιστες λύσεις. Στο πλήθος των εγγραφών. Κατά τη διάρκεια αναζήτησης περιγραφών κλάσεων πρέπει να πιστοποιείται η ποιότητα κάθε περιγραφής που έχει παραχθεί. Για το λόγο αυτό χρειάζονται κάποιες στατιστικές δοκιμασίες που απαιτούν πληροφορίες όπως τον αριθμό των παραδειγμάτων που καλύπτονται από την περιγραφή ή την κατανομή των τιμών στο σύνολο των δεδομένων. Όπως γίνεται αντιληπτό για τον υπολογισμό της ποιότητας ενός μοντέλου είναι απαραίτητη η προσπέλαση της βάσης δεδομένων. Ως λύση μπορούν να χρησιμοποιηθούν οι παρακάτω τεχνικές: Πολλαπλές περιγραφές μπορούν να κατασκευαστούν σε μια επανάληψη της διαδικασίας αναζήτησης με ταυτόχρονο υπολογισμό της ποιότητας τους. Στην πράξη απαιτείται μόνο μία, σύνθετη όμως, προσπέλαση στη βάση δεδομένων. Η ποιότητα μιας περιγραφής μπορεί να υπολογιστεί με χρήση ενός αντιπροσωπευτικού δείγματος της βάσης δεδομένων, που είναι γνωστό ως παράθυρο

42 26 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών (window). Ένα μικρό υποσύνολο της βάσης χρησιμοποιείται για την κατασκευή των περιγραφών. Οι καλύτερες περιγραφές ελέγχονται στο σύνολο της βάσης δεδομένων, για περαιτέρω πιστοποίηση της ποιότητας Ενημέρωση της Βάσης Δεδομένων Οι βάσεις δεδομένων ενημερώνονται συχνά. Νέα δεδομένα προστίθενται, κάποια τροποποιούνται και κάποια άλλα απομακρύνονται. Οποιαδήποτε γνώση είχε εξαχθεί από τη μη ενημερωμένη βάση, ενδέχεται να μην είναι συνεπής με τα νέα δεδομένα. Είναι προφανές ότι ένα σύστημα που μαθαίνει θα πρέπει να προσαρμόζεται σε τέτοιου είδους αλλαγές. Επιπλέον, η αξιοπιστία ενός μοντέλου μεγαλώνει, καθώς το μέγεθος του συνόλου εκπαίδευσης αυξάνει. Έτσι αν ένα μοντέλο έχει παραχθεί από μια μικρή βάση δεδομένων, η οποία στη συνέχεια επεκτάθηκε, είναι επιθυμητή η διατήρηση της συνέπειας του μοντέλου με την εκτεταμένη βάση. Μάλιστα, είναι σημαντική η διατήρηση της συνέπειας των μοντέλων με τα πιο πρόσφατα δεδομένα, καθώς τα χαρακτηριστικά των αντικειμένων μπορεί να αλλάζουν με το χρόνο εξαιτίας τάσεων που κυριαρχούν και διεργασιών που εκτελούνται στο περιβάλλον. Η ανακατασκευή ενός μοντέλου μπορεί να γίνει από την αρχή, όμως είναι πιο βολικό να χρησιμοποιηθεί ένα είδος αυξητικής μάθησης (incremental learning). Κατά τη διαδικασία αυτή χρησιμοποιείται γνώση που έχει παραχθεί προηγουμένως για την ανακατασκευή του μοντέλου Είδη και Πηγές Δεδομένων Τα δεδομένα μπορούν να ταξινομηθούν σύμφωνα με τη δομή τους σε τρεις κατηγορίες: Δομημένα (structured), όπως οι πίνακες ή τα αντικείμενα που αποθηκεύονται στις βάσεις δεδομένων και έχουν μία πλήρως ορισμένη δομή. Ημι-δομημένα (semi-structured), όπως έγγραφα XML ή HTML, όπου υπάρχουν ετικέτες της μορφής <χαρακτηριστικό, τιμή> και περιγράφουν το είδος των τιμών που εμφανίζονται στο έγγραφο. Ωστόσο, ενδέχεται να εμφανίζονται και τμήματα αδόμητα (π.χ. στο σώμα του εγγράφου). Αδόμητα (unstructured), όπως εικόνες, ήχος, βίντεο, κείμενο, στα οποία δεν καθορίζεται κανενός είδους δομή. Για παράδειγμα, η εμφάνιση κάποιας λέξης δε συνοδεύεται από την πληροφορία που να καθορίζει αν η λέξη περιγράφει τίτλο, συγγραφέα ή οτιδήποτε άλλο.

43 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης 27 Οι βασικές τεχνικές εξόρυξης που εφαρμόζονται στους δομημένους τύπους δεδομένων έχουν περιγραφεί στις προηγούμενες παραγράφους. Η εξόρυξη σε ημι-δομημένα και αδόμητα δεδομένα δεν εφαρμόζεται με την ίδια ευκολία. Κάποιες από τις προαναφερθείσες τεχνικές εφαρμόζονται, κάποιες απαιτούν τροποποίηση, ενώ πολλές φορές χρησιμοποιούνται νέες τεχνικές. Παρακάτω παρουσιάζονται μερικές από τις σημαντικότερες πηγές δεδομένων που καθορίζουν και τη δομή των δεδομένων αυτών: Δεδομένα Παγκόσμιου Ιστού. Ο Παγκόσμιος Ιστός (World Wide Web) μπορεί να θεωρηθεί ως η μεγαλύτερη διαθέσιμη πηγή δεδομένων, ενώ αποτελεί μεγάλη πρόκληση η αποτελεσματική σχεδίαση και προσπέλασή του. Τα δεδομένα του Ιστού μπορούν να ταξινομηθούν στις εξής κατηγορίες: Εξόρυξη περιεχομένου του Ιστού (Web content mining), που αφορά τα περιεχόμενα των ιστοσελίδων. Εξόρυξη δομής του Ιστού (Web structure mining), που αφορά τη δομή και την οργάνωση ολόκληρου του Ιστού ή μέρους αυτού (π.χ. τη δομή που δημιουργείται από τη διασύνδεση των ιστοσελίδων μέσω των συνδέσμων). Εξόρυξη χρήσης του Ιστού (Web usage mining), που αφορά τη συμπεριφορά των χρηστών του ιστού που καταγράφεται κυρίως σε διάφορα αρχεία καταγραφής (log files). Χωρικά Δεδομένα. Τα χωρικά δεδομένα (spatial data) μπορούν να θεωρηθούν ως δεδομένα σχετικά με αντικείμενα που βρίσκονται σε κάποιο φυσικό χώρο. Αποθηκεύονται στις χωρικές βάσεις δεδομένων (spatial databases), οι οποίες υποστηρίζουν την αποτελεσματική αποθήκευση των χωρικών και των μη χωρικών δεδομένων που αφορούν τα αντικείμενα. Τα χωρικά δεδομένα μπορούν να προσπελαστούν με ερωτήματα που περιέχουν χωρικούς τελεστές, όπως «κοντά», «βόρεια», «νότια», «γειτονικά» και «περιέχεται σε». Η αποθήκευση των χωρικών δεδομένων απαιτεί ειδικές δομές και καταλόγους που χτίζονται με βάση πληροφορίες απόστασης ή τοπολογίας. Η εξόρυξη σε χωρικά δεδομένα (spatial mining ή spatial data mining) αποτελεί την εφαρμογή μεθόδων εξόρυξης σε χωρικές βάσεις δεδομένων.. Χρονικά Δεδομένα. Παραδοσιακά οι βάσεις δεδομένων δεν περιέχουν χρονικά δεδομένα. Αντίθετα, τα δεδομένα που αποθηκεύονται αναπαριστούν την κατάσταση του περιβάλλοντος σε μια συγκεκριμένη χρονική στιγμή. Σε μια χρονική βάση δεδομένων (temporal database), διατηρούνται δεδομένα για πολλές χρονικές στιγ-

44 28 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών μές. Οι χρονικές βάσεις δεδομένων δε δέχονται τους ίδιους τύπους ενημερώσεων και ερωτημάτων με τις συνηθισμένες βάσεις δεδομένων. Στην πράξη τροποποιήσεις των εγγραφών δεν επιτρέπονται. Αντί αυτού μπορεί να προστεθεί μια νέα εγγραφή με διαφορετική χρονική τιμή. Όπως και στην περίπτωση των χωρικών δεδομένων, έχουν προταθεί ειδικές δομές για να διευκολύνουν την εξόρυξη σε χρονικά δεδομένα (temporal mining ή temporal data mining). Στο σημείο αυτό αξίζει να σημειωθεί ότι είναι δυνατός και ο συνδυασμός των προηγούμενων τεχνικών, όπως για παράδειγμα εξόρυξη σε χωροχρονικά δεδομένα. Δεδομένα Πολυμέσων. Στην κατηγορία των πολυμέσων ανήκουν δεδομένα όπως κείμενο, γραφικά, εικόνες, κινούμενες εικόνες, βίντεο, ήχος ή ακόμη και συνδυασμοί των παραπάνω. Κάποια θέματα που σχετίζονται με τις βάσεις δεδομένων πολυμέσων (multimedia databases) είναι τα εξής [Silberschatz et al., 2001]: Οι βάσεις δεδομένων θα πρέπει να παρέχουν την υποστήριξη μεγάλων αντικειμένων, καθώς τα δεδομένα πολυμέσων, όπως το βίντεο, μπορεί να καταλαμβάνουν χώρο της τάξης των gigabytes. Απαιτείται η ανάκτηση των δεδομένων με βάση τις ομοιότητες τους. Η ανάκτηση κάποιων τύπων δεδομένων, όπως ο ήχος και το βίντεο απαιτεί την επεξεργασία με εγγυημένο, σταθερό ρυθμό. Κατανεμημένα Δεδομένα. Η τεχνολογία δικτύων είναι μια από τις πιο ραγδαία εξελισσόμενες περιοχές της πληροφορικής. Η εξάπλωση των δικτύων οδήγησε στην εμφάνιση των κατανεμημένων δεδομένων και της περιοχής της κατανεμημένης εξόρυξης σε δεδομένα (distributed data mining) [Fu, 2001], η οποία αποτελεί μια διαφορετική προσέγγιση από την παραδοσιακή, καθώς η λύση της συσσώρευσης των δεδομένων σε ένα κεντρικό υπολογιστικό σύστημα, είναι απαγορευτική λόγω απαιτήσεων μεγάλης χωρητικότητας και τεράστιας υπολογιστικής ισχύος. Δεδομένα από Κοινωνικά Δίκτυα. Τα κοινωνικά δίκτυα (social networks) είναι διαδικτυακά συστήματα τα οποία επιτρέπουν στους χρήστες να αποθηκεύουν και να μοιράζουν δεδομένα, να ανταλλάσσουν μηνύματα και εμπειρίες. Τα συστήματα αυτά είναι πολύ δημοφιλή τα τελευταία χρόνια και έχουν προσελκύσει το ενδιαφέρον της επιστημονικής κοινότητα, που ερευνά την εφαρμογή της ανακάλυψης γνώσης σε δεδομένα κοινωνικών δικτύων.

45 Κεφάλαιο 2: Μηχανική Μάθηση και Ανακάλυψη Γνώσης 29 Προσωπικά Δεδομένα. Η εξόρυξη με προστασία δεδομένων (Privacy Preserving Data Mining) προσπαθεί να λύσει ένα από τα σημαντικότερα προβλήματα που α- ντιμετωπίζει η ανακάλυψη γνώσης ως επιστημονικό πεδίο που είναι η διαφύλαξη της ανωνυμίας των προσώπων από τα οποία λαμβάνονται τα δεδομένα (π.χ. ασθενείς). Δεδομένα από Κινητές Συσκευές. Η εξόρυξη από κινητές συσκευές (mobile data mining), όπως κινητά τηλέφωνα, υπολογιστές παλάμης, κ.α. είναι μια σύγχρονη και πολύ ενδιαφέρουσα εφαρμογή. Η εξόρυξη σε δεδομένα τέτοιου είδους προβάλει σημαντικές προκλήσεις. Κανάλια μικρού εύρους ζώνης, μνήμες μικρής χωρητικότητας και επεξεργαστές χαμηλής ταχύτητας είναι κάποια από τα προβλήματα που πρέπει να λαμβάνονται υπόψη Εφαρμογές της Ανακάλυψης Γνώσης Στην παρούσα ενότητα παρουσιάζονται μερικές από τις δημοφιλέστερες εφαρμογές της ανακάλυψης γνώσης. Πολλοί οργανισμοί εφαρμόζουν την ανακάλυψη γνώσης για να βοηθηθούν σε ζητήματα που σχετίζονται με τους πελάτες, όπως απόκτηση νέων πελατών, αύξηση των κερδών από τους υπάρχοντες πελάτες, διατήρηση καλών πελατών [Edelstein, 1999]. Με τον καθορισμό των χαρακτηριστικών των καλών πελατών μια επιχείρηση μπορεί να εφαρμόσει τις διαφημιστικές εκστρατείες της με βάση αυτά τα χαρακτηριστικά. Με τη σκιαγράφηση των πελατών που έχουν αγοράσει ένα ιδιαίτερο προϊόν, η εταιρεία μπορεί να στρέψει την προσοχή σε παρόμοιους πελάτες που δεν έχουν αγοράσει αυτό το προϊόν. Επίσης, μια τράπεζα μπορεί να χρησιμοποιήσει την ανακάλυψη γνώσης για να λάβει αποφάσεις σχετικά με το αν θα δώσει δάνειο σε κάποιον πελάτη ή όχι. Οι τηλεπικοινωνίες και οι εταιρείες πιστωτικών καρτών ηγούνται στην εφαρμογή των μεθόδων εξόρυξης σε δεδομένα για την ανίχνευση παράνομης χρήσης των υπηρεσιών τους [Edelstein, 1999]. Οι ασφαλιστικές εταιρείες ενδιαφέρονται επίσης για την εφαρμογή αυτής της τεχνολογίας με σκοπό τη μείωση των περιπτώσεων απάτης. Επιχειρήσεις που δραστηριοποιούνται στον οικονομικό τομέα επιθυμούν να καθορίσουν τα χαρακτηριστικά της αγοράς και της βιομηχανίας. Πωλητές λιανικής καταφεύγουν στην ανακάλυψη γνώσης για να αποφασίσουν πώς θα μοιράσουν τα αποθέματα στις αποθήκες και πώς θα τοποθετήσουν τα προϊόντα μέσα στο κατάστημα.

46 30 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών Οι ιατρικές εφαρμογές είναι μια άλλη πρόσφορη περιοχή. Η ανακάλυψη γνώσης μπορεί να χρησιμοποιηθεί για να προβλέψει την αποτελεσματικότητα των χειρουργικών διαδικασιών, των ιατρικών εξετάσεων ή των φαρμάκων. Οι φαρμακευτικές εταιρείες εξάγουν γνώση από μεγάλες βάσεις δεδομένων χημικών ενώσεων και γενετικού υλικού για να ανακαλύψουν ουσίες που ενδέχεται να χρησιμοποιηθούν ως «πράκτορες» για τη θεραπεία ασθενειών [Edelstein, 1999]. Ένας ακόμη τομέας στον οποίο εφαρμόζεται η ανακάλυψη γνώσης είναι η βιοπληροφορική, η οποία ασχολείται με τη διαχείριση και την ανάλυση βιολογικών δεδομένων, όπως είναι οι αλληλουχίες DNA και οι πρωτεΐνες. Τα βιολογικά δεδομένα παρουσιάζουν κάποια ιδιαίτερα χαρακτηριστικά, και γι αυτό η διαχείρισή τους αποτελεί μια μεγάλη πρόκληση για τους επιστήμονες της βιοπληροφορικής.

47 Κεφάλαιο 3 3 Μοριακή Βιολογία «Υποχρεώθηκα να αποκαλώ τον εαυτό μου μοριακό βιολόγο, επειδή διάφοροι κληρικοί με ρωτούσαν τι δουλειά κάνω και εγώ είχα κουραστεί να τους εξηγώ ότι ήμουν ένα μίγμα κρυσταλλογράφου, βιοφυσικού, βιοχημικού και γενετιστή» Francis Crick Το αντικείμενο της επιστήμης της βιολογίας είναι η μελέτη του φαινομένου της ζωής. Η ζωή είναι εξαιρετικά σύνθετη και παρουσιάζει τα εξής βασικά χαρακτηριστικά [Hunter, 1993; 2004]: Ποικιλότητα (diversity), Ενότητα (unity), Εξέλιξη (evolution). Τα διάφορα είδη (species) των οργανισμών παρουσιάζουν πολλές και μεγάλες διαφορές μεταξύ τους. Ακόμη και άτομα που ανήκουν στο ίδιο είδος διαφέρουν αρκετά. Αυτή η ποικιλότητα στα χαρακτηριστικά και τις δραστηριότητες των οργανισμών φτάνει ως το μοριακό επίπεδο. Δεδομένης αυτής της ποικιλότητας είναι εξαιρετικά εκπληκτική η ανακάλυψη της σχεδόν καθολικής ομοιότητας των οργανισμών όσον αφορά τη μοριακή τους λεπτομέρεια. Όλοι οι ζωντανοί οργανισμοί βασίζονται στη δραστηριότητα μιας οικογένειας μορίων, που ονομάζονται πρωτεΐνες (proteins). Ωστόσο, η ενότητα μεταξύ των οργανισμών δεν οφείλεται μόνο στο γεγονός ότι οι πρωτεΐνες επιτελούν την περισσότερη βιοχημική εργασία που απαιτεί η ζωή. Η κύρια παρατήρηση που στηρίζει την 31

48 32 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών ενότητα αυτή είναι ότι σύνολα πρωτεϊνών που μοιάζουν πολύ μεταξύ τους και έχουν παρόμοια λειτουργία εμφανίζονται σε εξαιρετικά διαφορετικούς οργανισμούς. Επίσης, ένα ακόμη κοινό χαρακτηριστικό όλων των οργανισμών είναι η παρουσία μιας άλλης οικογένειας μορίων, των νουκλεϊκών οξέων (nucleic acids), που έχουν το ρόλο της διατήρησης και μεταβίβασης της πληροφορίας που συνθέτει τη ζωή. Οι πρωτεΐνες και τα νουκλεϊκά οξέα καλούνται βιολογικά μακρομόρια (macromolecules). Η εξέλιξη είναι αναμφίβολα η σημαντικότερη έννοια στη βιολογία. Όλοι οι οργανισμοί είναι μέρη μιας συνεχούς γραμμής προγόνων και απογόνων. Αυτός ο ισχυρισμός είναι ο μοναδικός κανόνας της βιολογίας που δεν έχει εξαίρεση. Κάθε ζεύγος οργανισμών έχει έναν κοινό πρόγονο. Η παρουσία κοινών προγόνων αποτελεί σημαντικό μέρος της εξήγησης της ομοιότητας που παρατηρείται μέσα στις οικογένειες των οργανισμών. Τρία βασικά φαινόμενα συνθέτουν την εξέλιξη [Hunter, 1993; 2004]: Η κληρονομικότητα (inheritance), που είναι η μεταβίβαση των χαρακτηριστικών των γονέων στους απογόνους. Η μεταβλητότητα (variation), που αφορά τη διαφοροποίηση των απογόνων, ώστε να μην αποτελούν ακριβή αντίγραφα των γονέων τους. Η επιλογή (selection), που είναι η διαδικασία που ευνοεί τη δυνατότητα αναπαραγωγής κάποιων οργανισμών σε σχέση με άλλους. Η συνισταμένη των τριών παραπάνω φαινομένων, δηλαδή η εξέλιξη, είναι η δύναμη που δημιούργησε την ενότητα και την ποικιλότητα των ζωντανών οργανισμών. Σημαντική προσπάθεια για την κατανόηση της ζωής καταβάλλεται με τη μελέτη της δομής και της λειτουργίας των βιολογικών μακρομορίων. Ο κλάδος της βιολογίας που ασχολείται με αυτή τη μελέτη ονομάζεται μοριακή βιολογία (molecular biology). 3.1 Οργανισμοί και Κύτταρα Η θεμελιώδης δομική και λειτουργική μονάδα κάθε ζωντανού οργανισμού είναι το κύτταρο (cell). Τυπικά, ένα κύτταρο είναι πολύ μικρό για να φανεί με γυμνό μάτι, αλλά αρκετά μεγάλο για ένα οπτικό μικροσκόπιο. Κάθε κύτταρο είναι ένα σύνθετο σύστημα που αποτελείται από πολλές διαφορετικές δομικές μονάδες που περικλείονται από την πλασματική μεμβράνη (plasma membrane). Η πλασματική μεμβράνη είναι μια σύνθετη δομή που οριοθετεί το κύτταρο από το περιβάλλον του και ρυθμίζει τη ροή των ουσιών, της ενέργειας και των πληροφοριών από και προς το κύτταρο. Υπάρχουν μονοκύτταροι

49 Κεφάλαιο 3: Μοριακή Βιολογία 33 (unicellular) οργανισμοί, που αποτελούνται από ένα μόνο κύτταρο και πολυκύτταροι (multicellular), που αποτελούνται από πολλά. Τα βακτήρια και η μαγιά είναι παραδείγματα μονοκύτταρων οργανισμών. Όσο παράξενο και αν φαίνεται, οποιοδήποτε κύτταρο είναι σε θέση να επιζήσει και να πολλαπλασιαστεί ανεξάρτητα στο κατάλληλο περιβάλλον [Brazma et al., 2001]. Εκτιμάται ότι υπάρχουν κύτταρα στο ανθρώπινο σώμα, που κατηγοριοποιούνται σε περίπου 320 διαφορετικούς τύπους. Για παράδειγμα, υπάρχουν διάφοροι τύποι δερματικών κυττάρων, μυϊκών κυττάρων, κυττάρων του εγκεφάλου (νευρώνες) και πολλοί άλλοι. Ωστόσο, ο διαχωρισμός των κυττάρων σε κατηγορίες δεν μπορεί να επιτευχθεί με απόλυτη σαφήνεια. Ο αριθμός των κυτταρικών κατηγοριών εξαρτάται από το επίπεδο λεπτομέρειας που επιλέγεται να χρησιμοποιηθεί για τη διάκριση των κυτταρικών τύπων. Για παράδειγμα, είναι προφανώς αδύνατο να βρεθούν δύο ίδια κύτταρα σε έναν οργανισμό εάν χρησιμοποιηθεί ως κριτήριο σύγκρισης ο αριθμός των μορίων τους. Πολύτιμα εργαλεία για την προσέγγιση της ζωής και την αναγνώριση των μορφών της αποτελούν η ταξινόμηση (biological classification), η επιστήμη δηλαδή που έχει ως αντικείμενο την κατάταξη των έμβιων όντων σε ομάδες και η συστηματική (systematics), η μελέτη των σχέσεων μεταξύ των οργανισμών. Οι παραπάνω επιστημονικοί κλάδοι συνδέονται άμεσα μεταξύ τους, καθώς η ταξινομική κατάταξη των οργανισμών αντανακλά τη φυλογενετική τους εξέλιξη στο χρόνο. Ήδη από τον 4ο αιώνα π.χ. (Αριστοτέλης, 350 π.χ. - ταξινόμηση ζώων και Θεόφραστος, 320 π.χ. - ταξινόμηση φυτών) γίνονται απόπειρες ταξινόμησης των τότε γνωστών οργανισμών σε υποομάδες των δύο παραδοσιακά αποδεκτών κατηγοριών, των φυτών και των ζώων. Οι διάφορες μορφές ζωής, σύγχρονες και παλαιότερες, κατατάσσονται με βάση ανατομικά, μορφολογικά, βιοχημικά, φυσιολογικά, μοριακά, γενετικά και φυλογενετικά κριτήρια. Το 1969 ο αμερικανός οικολόγος Robert Whittaker [Whittaker, 1969] καθιέρωσε το σύστημα ταξινόμησης των πέντε βασιλείων που χρησιμοποιείται έως σήμερα, μολονότι πολλοί επιστήμονες το θεωρούν ξεπερασμένο. Ο Πίνακας 3.1 παρουσιάζει τα πέντε βασίλεια που ορίζει η ταξινόμηση του Whittaker και ο Πίνακας 3.2 παρουσιάζει τις σημαντικότερες ταξινομήσεις που έχουν προταθεί τους τελευταίους αιώνες. Η τελευταία πρόταση ταξινόμησης των ειδών [Woese et al., 1990] κατατάσσει τους οργανισμούς σε τρεις επικράτειες (domains):

50 34 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών 1. Τα βακτήρια (bacteria), τα οποία είναι μονοκύτταροι οργανισμοί και δε διαθέτουν πυρήνα. Το μήκος τους μπορεί να φτάσει τα μερικά μικρόμετρα (μm) και συναντώνται σε διάφορα σχήματα, κυρίως σφαιρικά (κόκκοι), ραβδοειδή (βάκιλοι) και σπειροειδή. 2. Τα αρχαία (archaea), τα οποία όπως και τα βακτήρια, είναι μονοκύτταροι οργανισμού και δε διαθέτουν πυρήνα. Παρά τις ομοιότητες τους με τα βακτήρια ταξινομούνται σε διαφορετική επικράτεια, καθώς διαφέρουν στην πορεία εξέλιξής τους. 3. Τα ευκάρυα (eukarya), στα οποία ανήκουν οι περισσότεροι οργανισμοί τους οποίους μπορούμε να δούμε, όπως ο άνθρωπος, τα ζώα, τα φυτά, οι μύκητες. Το κύριο μορφολογικό χαρακτηριστικό των ευκαρυωτικών κυττάρων είναι η ύπαρξη ενός σχηματισμού που βρίσκεται συνήθως στο κέντρο των ευκαρυωτικών κυττάρων, τον πυρήνα (nucleus), ο οποίος περιβάλλεται από μεμβράνη και περικλείει το γενετικό τους υλικό. Αυτός είναι και ο λόγος για τον οποίο ονομάζονται ευκάρυα (ευ + κάρυον), όπου το κάρυον υποδηλώνει τον πυρήνα. Πίνακας 3.1: Τα πέντε βασίλεια του έμβιου κόσμου σύμφωνα με την ταξινόμηση του Whittaker [1969]. Μονήρη (Monera) Πρώτιστα (Protista) Μύκητες (Fungi) Φυτά (Plantae) Ζώα (Animalia) Πίνακας 3.2: Οι προτεινόμενες ταξινομήσεις των έμβιων όντων Linnaeus Haeckel Chatton Copeland Whittaker Balch et al. Woese et al. Πρώτιστα Προκάρυα Μονήρη Μονήρη Ευβακτήρια Αρχαιοβακτήρια Βακτήρια Αρχαία Φυτά Φυτά Ευκάρυα Πρώτιστα Πρώτιστα Πρώτιστα Μύκητες Μύκητες Φυτά Φυτά Φυτά Ευκάρυα Ζώα Ζώα Ζώα Ζώα Ζώα

51 Κεφάλαιο 3: Μοριακή Βιολογία 35 Αρκετά συχνά οι δύο πρώτες επικράτειες (βακτήρια και αρχαία) αναφέρονται και ως προκαρυώτες (prokaryotes), λόγω της απουσίας πυρήνα, ενώ τα ευκάρυα, αναφέρονται και ως ευκαρυώτες (eukaryotes). Για τη συστηματική ταξινόμηση των ειδών ακολουθείται μια κοινή διεθνώς ονοματολογία, η οποία περιλαμβάνει τις εξής βασικές κατηγορίες της ταξινομικής ιεραρχίας: το βασίλειο (kingdom), το φύλο (phylum), την κλάση (class), την τάξη (order), την οικογένεια (family), το γένος (genus) και το είδος (species). Η ταυτότητα του σύγχρονου ανθρώπου σύμφωνα με αυτή την πρότυπη ταξινομική ιεραρχία απεικονίζεται στην Εικόνα 3.1. Βασίλειο Ζώα (Animalia) Φύλο Χορδωτά (Chordata) Κλάση Θηλαστικά (Mammalia) Τάξη Πρωτεύοντα (Primates) Οικογένεια Ανθρωπίδες (Hominidae) Γένος Είδος Homo Homo sapiens Εικόνα 3.1: Η ταυτότητα του σύγχρονου ανθρώπου. Εκτός από το σύνολο των οργανισμών που περιγράφηκαν παραπάνω, υπάρχει και μια σειρά από «κατώτερους» οργανισμούς, που είναι ενδοκυτταρικά παράσιτα: Οι ιοί (viruses), που δε μοιάζουν με ζωντανούς οργανισμούς, αλλά όταν βρεθούν μέσα σε ένα ζωντανό κύτταρο-ξενιστή (host cell) παρουσιάζουν μερικά χαρακτηριστικά γνωρίσματα ενός ζωντανού οργανισμού. Μάλιστα, υπάρχει διχογνωμία στην κοινότητα των βιολόγων σχετικά με το αν ένας ιός είναι ζωντανός οργανισμός ή όχι. Τα ιοειδή (viroids), τα οποία αποτελούνται μόνο από ένα μικρό κυκλικό μόριο RNA (βλ. ενότητα 3.2.4). Βρίσκονται στον πυρήνα των κυττάρων που μολύνουν

52 36 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών και δεν τα συναντώνται ελεύθερα. Όσα έχουν αναγνωριστεί μέχρι σήμερα σχετίζονται με ασθένειες των φυτών. Τα πριόνια (prions), τα οποία είναι μολυσματικοί φορείς που αποτελούνται μόνο από πρωτεΐνη. Σε αυτά οφείλεται ένας αριθμός από ασθένειες που προσβάλουν διάφορα θηλαστικά συμπεριλαμβανομένης της σπογγώδους εγκεφαλοπάθειας των βοοειδών και της νόσου Creutzfeldt-Jakob στους ανθρώπους. Τα προκαρυωτικά κύτταρα (δηλαδή τα βακτήρια και τα αρχαία) είναι μικρότερα από τα ευκαρυωτικά και έχουν απλούστερη δομή, για παράδειγμα δεν έχουν καθόλου εσωτερικές κυτταρικές μεμβράνες, οι οποίες είναι πάντα παρούσες στα ευκαρυωτικά κύτταρα. Επίσης, όπως είδη αναφέρθηκε, όλοι οι προκαρυώτες είναι μονοκύτταροι. Ωστόσο, αυτό δε σημαίνει ότι ένας μονοκύτταρος οργανισμός είναι πάντα προκαρυωτικός. Το γεγονός ότι οι προκαρυώτες έχουν μικρότερο μέγεθος από τους ευκαρυώτες δεν τους κάνει λιγότερο σημαντικούς. Οι προκαρυωτικοί οργανισμοί είναι πολλές φορές γνωστοί και ως μικρόβια, λόγω του μικρού τους μεγέθους. Ακόμη μικρότερο είναι το μέγεθος των ιών, των ιοειδών και των πριονίων, τα οποία δεν είναι δυνατό να φανούν σε ένα οπτικό μικροσκόπιο, αλλά μπορούν να αποκαλύψουν τη δομή τους σε ένα ηλεκτρονικό μικροσκόπιο. Τα τυπικά μεγέθη διάφορων κυττάρων και μικροοργανισμών φαίνονται στην Εικόνα 3.2. Οπτικό Μικροσκόπιο Ηλεκτρονικό Μικροσκόπιο Μέτρα 1 mm 1 μm Ευκάρυα Προκάρυα Ιοί nm Πρωτεΐνες Μικρά Μόρια Άτομα Εικόνα 3.2: Τυπικά μεγέθη κυττάρων και μικροοργανισμών. Ένα τυπικό ζωικό ευκαρυωτικό κύτταρο (Εικόνα 3.3) έχει τον πυρήνα, ο οποίος διαχωρίζεται από το υπόλοιπο του κυττάρου από μια μεμβράνη, τον πυρηνικό φάκελο

53 Κεφάλαιο 3: Μοριακή Βιολογία 37 (nuclear envelope). Ο πυρήνας περιέχει το γενετικό υλικό. Μέσα στα ευκαρυωτικά κύτταρα υπάρχουν εσωτερικά διαμερίσματα, που περικλείονται από μεμβράνες, τα οποία καλούνται οργανίδια (organelles), όπως είναι τα λυσοσώματα (lysosomes), το σύμπλεγμα Golgi (Golgi complex), τα μιτοχόνδρια (mitochondria), τα οποία είναι εξειδικευμένα για τις ιδιαίτερες βιολογικές διεργασίες, κ.α. Τα μιτοχόνδρια βρίσκονται σε όλα σχεδόν τα ευκαρυωτικά κύτταρα και εξειδικεύονται στην παραγωγή ενέργειας (αναπνοή). Η περιοχή του κυττάρου έξω από τον πυρήνα μαζί με τα οργανίδια καλείται κυτταρόπλασμα (cytoplasm). Τα μιτοχόνδρια περιέχουν δικό τους γενετικό υλικό (DNA). Μάλιστα, υπάρχει μια θεωρία που πρεσβεύει ότι τα μιτοχόνδρια είναι προκαρυωτικοί οργανισμοί που ζουν μέσα στα ευκαρυωτικά κύτταρα. πυρήνας πυρηνικός πόρος πυρηνικός φάκελος χρωματίνη πυρηνίσκος ριβοσώματα σύμπλεγμα Golgi λυσόσωμα κεντριόλια πλασματική μεμβράνη μιτοχόνδριο υπεροξειδιόσωμα κυτταρικός σκελετός ελεύθερα ριβοσώματα κυτταρόπλασμα κυστίδιο λείο ενδοπλασματικό δίκτυο αδρό ενδοπλασματικό δίκτυο μαστίγιο Εικόνα 3.3: Τυπικό ζωικό κύτταρο. Μολονότι και τα φυτά και τα ζώα είναι ευκαρυωτικοί οργανισμοί, τα φυτικά κύτταρα (Εικόνα 3.4) διαφέρουν σε πολλά χαρακτηριστικά από τα ζωικά, τα κυριότερα από τα οποία είναι τα εξής [Καψάλης κ.α., 2003]: Τα φυτικά κύτταρα περιβάλλονται από ένα επιπλέον κυτταρικό τοίχωμα (cell wall), που τα προφυλάσσει από περιβαλλοντικές επιδράσεις αλλά και από μεταβολές στο σχήμα τους.

54 38 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών Τα φυτικά κύτταρα έχουν κάποια επιπλέον οργανίδια, όπως είναι οι χλωροπλάστες (chloroplasts), που περιέχουν τη χλωροφύλλη (chlorophyll), η οποία είναι απαραίτητη για τη δέσμευση της ηλιακής ενέργειας κατά τη φωτοσύνθεση. Οι χλωροπλάστες όπως και τα μιτοχόνδρια περιέχουν το δικό τους DNA. Τα περισσότερα φυτικά κύτταρα έχουν ένα μεγάλο κεντρικό χυμοτόπιο (vacuole) και αρκετά μικρότερα γύρω του τα οποία χρησιμεύουν στη διακίνηση και αποθήκευση θρεπτικών υλικών, νερού, αλάτων, καθώς και άχρηστων ουσιών. Ορισμένα οργανίδια, όπως το κεντροσωμάτιο και τα λυσοσώματα δεν υπάρχουν στα κύτταρα των ανώτερων φυτών. Τα φυτικά κύτταρα συνήθως έχουν μια αρκετά κανονική μορφή, σε αντίθεση με τα ζωικά κύτταρα που τις περισσότερες μορφές έχουν αρκετά ακανόνιστα σχήματα. πλασμοδέσματα πλασματική μεμβράνη κυτταρικό τοίχωμα χλωροπλάστης θυλακοειδής μεμβράνη grana χυμοτόπιο τονοπλάστης νηματοειδής κυτταρικός σκελετός σύμπλεγμα Golgi κυστίδια Golgi λείο ενδοπλασματικό δίκτυο ριβοσώματα μιτοχόνδριο υπεροξειδιόσωμα κυτταρόπλασμα μικρά μεμβρανώδη κυστίδια αδρό ενδοπλασματικό δίκτυο πυρήνας πυρηνικός πόρος πυρηνικός φάκελος πυρηνίσκος Εικόνα 3.4: Τυπικό φυτικό κύτταρο. Τα βακτήρια έχουν αρκετά απλή κυτταρική δομή, χωρίς πυρήνα και σύνθετα οργανίδια. Το DNA τους οργανώνεται σε πυρηνοειδές, χωρίς πυρηνική μεμβράνη και χωρίς σχηματισμό χρωμοσωμάτων. Δε διαθέτουν μιτοχόνδρια, χλωροπλάστες και άλλα οργανίδια που υπάρχουν στα ευκαρυωτικά κύτταρα (Εικόνα 3.5).

55 Κεφάλαιο 3: Μοριακή Βιολογία 39 κυτταρικό τοίχωμα ριβοσώματα κυτταρόπλασμα μαστίγιο κάψα DNA (πυρηνοειδές) πλασματική μεμβράνη μεσόσωμα Εικόνα 3.5: Τυπικό βακτηριακό κύτταρο. Ένα ουσιαστικό χαρακτηριστικό γνώρισμα των περισσότερων ζωντανών κυττάρων είναι η ικανότητά τους να αναπτύσσονται σε ένα κατάλληλο περιβάλλον και να υπόκεινται στην κυτταρική διαίρεση. Η ανάπτυξη ενός κυττάρου και η επακόλουθη διαίρεσή του αποτελούν τον κυτταρικό κύκλο (cell cycle). Ωστόσο, δεν ακολουθούν την πορεία αυτή όλα τα κύτταρα. Για παράδειγμα τα νευρικά κύτταρα υποβάλλονται μόνο σε μια αρχική φάση ανάπτυξης. Οι προκαρυώτες, ιδιαίτερα τα βακτήρια, είναι ικανοί να αναπτύσσονται και να διαιρούνται πολύ γρήγορα. Οι πολυκύτταροι οργανισμοί αρχίζουν τη ζωή ως ένα κύτταρο, συνήθως αποτέλεσμα της ένωσης ενός αρσενικού και ενός θηλυκού φυλετικού κυττάρου (γαμέτες). Το μοναδικό κύτταρο πρέπει να αναπτυχθεί, να διαιρεθεί και να διαφοροποιηθεί στους διαφορετικούς τύπους κυττάρων για την παραγωγή των ιστών και των οργάνων. Η κυτταρική διαίρεση και η διαφοροποίηση (differentiation) πρέπει να ελεγχθούν. Για παράδειγμα, τα καρκινικά κύτταρα αυξάνονται χωρίς έλεγχο και μπορούν να συσσωρευτούν και να διαμορφώσουν όγκους [Brazma et al., 2001]. 3.2 Οι Μοριακές Δομικές Μονάδες της Ζωής Όλα τα μόρια που σχετίζονται με το φαινόμενο της ζωής καλούνται βιομόρια (biomolecules). Τα βιομόρια μπορούν να διακριθούν σε μικρά μόρια (small molecules), και μακρομόρια (macromolecules). Όπως αναφέρθηκε στην αρχή του κεφαλαίου, οι πρωτεΐνες, και τα νουκλεϊκά οξέα είναι μακρομόρια [Brazma et al., 2001]. Στην κατηγορία των μακρομορίων, επίσης, ανήκουν και οι πολυσακχαρίτες (polysaccharides), όπως για

56 40 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών παράδειγμα η κυτταρίνη και τα λιπίδια (lipids), τα οποία αποτελούν τα βασικά δομικά υλικά των βιολογικών μεμβρανών [Καψάλης κ.α., 2003] Μικρά Μόρια Τα μικρά μόρια μπορεί να είναι οι δομικές μονάδες των μακρομορίων, να έχουν ανεξάρτητους ρόλους, όπως η μετάδοση σημάτων ή να αποτελούν την πηγή ενέργειας ή το υλικό ενός κυττάρου. Μερικά σημαντικά παραδείγματα εκτός από το νερό είναι οι μονοσακχαρίτες (monosaccharides), τα λιπαρά οξέα (fatty acids), τα αμινοξέα (amino acids) και τα νουκλεοτίδια (nucleotides). Αμινοξέα Υπάρχουν 20 διαφορετικά μόρια αμινοξέων, τα οποία είναι οι δομικές μονάδες των πρωτεϊνών. Για την ακρίβεια, υπάρχουν 19 αμινοξέα και ένα, η προλίνη, που έχει μια ελαφρώς διαφορετική δομή (περιέχει την ιμινομάδα NH και όχι την αμινομάδα NH 2 ) και επομένως καλείται ιμινοξύ (imino acid). Ωστόσο, αν δε δημιουργείται σύγχυση θα χρησιμοποιείται ο όρος αμινοξύ και για την προλίνη. Ο Πίνακας 3.3 παρουσιάζει τα 20 αμινοξέα. Πίνακας 3.3: Τα 20 αμινοξέα. Ονομασία Συμβολισμοί Ονομασία Συμβολισμοί Αλανίνη (Alanine) ALA A Ιστιδίνη (Histidine) HIS H Αργινίνη (Arginine) ARG R Κυστεΐνη (Cysteine) CYS C Ασπαραγίνη (Asparagine) ASN N Λευκίνη (Leucine) LEU L Ασπαρτικό οξύ (Aspartic acid) ASP D Λυσίνη (Lysine) LYS K Βαλίνη (Valine) VAL V Μεθειονίνη (Methionine) MET M Γλουταμικό οξύ (Glutamic acid) GLU E Προλίνη (Proline) PRO P Γλουταμίνη (Glutamine) GLN Q Σερίνη (Serine) SER S Γλυκίνη (Glycine) GLY G Τρυπτοφάνη (Tryptophan) TRP W Θρεονίνη (Threonine) THR T Τυροσίνη (Tyrosine) TYR Y Ισολευκίνη (Isoleucine) ILE I Φενυλαλανίνη (Phenylalanine) PHE F Νουκλεοτίδια Τα νουκλεοτίδια αποτελούνται από μια πεντόζη (σάκχαρο με πέντε άτομα άνθρακα), η οποία ενώνεται με μια φωσφορική ομάδα και μια αζωτούχο βάση. Η πεντόζη των νουκλεοτιδίων του DNA είναι η δεοξυριβόζη (deoxyribose), ενώ η του RNA η ριβόζη

57 Κεφάλαιο 3: Μοριακή Βιολογία 41 (ribose). Η διαφορετικότητα των νουκλεοτιδίων μέσα στα μόρια του DNA και του RNA καθορίζεται από τις πέντε διαφορετικές αζωτούχες βάσεις. Οι αζωτούχες βάσεις είναι η αδενίνη (adenine) και η γουανίνη (guanine), που ανήκουν στις πουρίνες (purines), η κυτοσίνη (cytosine), η θυμίνη (thymine) και ουρακίλη (uracil), που ανήκουν στις πυριμιδίνες (pyrimidines). Οι παραπάνω βάσεις συμβολίζονται με τα αρχικά τους γράμματα A, G, C, T και U αντίστοιχα Πρωτεΐνες Οι πρωτεΐνες είναι τα κύρια δομικά και λειτουργικά μόρια του κυττάρου, που καταλαμβάνουν σχεδόν το 20% του βάρους ενός ευκαρυωτικού κυττάρου, η μεγαλύτερη συμβολή μετά από το νερό (70%) [Brazma et al., 2001]. Μεταξύ των άλλων, υπάρχουν: Δομικές πρωτεΐνες, οι οποίες μπορούν να θεωρηθούν ως οι βασικές δομικές μονάδες του οργανισμού. Ένα παράδειγμα είναι το κολλαγόνο, το οποίο αποτελεί τη σημαντικότερη δομική πρωτεΐνη του συνδετικού ιστού και των οστών. Ένζυμα, τα οποία καταλύουν ένα πλήθος βιοχημικών αντιδράσεων. Αυτό το σύνολο των αντιδράσεων καλούνται μεταβολισμός (metabolism). Συνήθως τα ένζυμα είναι πολύ εξειδικευμένα και καταλύουν μόνο έναν τύπο αντίδρασης, ωστόσο το ίδιο ένζυμο μπορεί να συμβάλλει σε περισσότερες από μια μεταβολικές οδούς (metabolic pathways). Οι πρωτεΐνες της μεμβράνης είναι βασικές στη συντήρηση του κυτταρικού περιβάλλοντος, ρυθμίζοντας τον όγκο του κυττάρου, την εξαγωγή και τη συγκέντρωση των μικρών μορίων από το εξωκυτταρικό περιβάλλον και την παραγωγή των ιοντικών κλίσεων σημαντικών για τη λειτουργία των μυϊκών και νευρικών κυττάρων. Ένα παράδειγμα είναι η αντλία K/Na. Επίπεδα Οργάνωσης των Πρωτεϊνών Υπάρχουν τέσσερα επίπεδα οργάνωσης (conformation) των πρωτεϊνών [Brazma et al., 2001]: Οι πρωτεΐνες είναι αλυσίδες των 20 διαφορετικών αμινοξέων, τα οποία μπορούν να ενωθούν σε οποιαδήποτε γραμμική διάταξη. Οι αλυσίδες αυτές καλούνται πολυπεπτίδια (polypeptides) ή πολυπεπτιδικές αλυσίδες (polypeptide chains). Αυτή η αλληλουχία των αμινοξέων στην πολυπεπτιδική αλυσίδα αποτελεί την πρωτοταγή

58 42 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών δομή (primary structure) και μπορεί να αναπαρασταθεί ως συμβολοσειρά από το συνδυασμό 20 διαφορετικών συμβόλων (Πίνακας 3.3). Η δευτεροτοταγής δομή (secondary structure) οφείλεται στην αναδίπλωση της πολυπεπτιδικής αλυσίδας. Υπάρχουν δύο υποδομές που φαίνονται συχνά μέσα στις διπλωμένες αλυσίδες, οι α-έλικες (α-helices) και οι β-κλώνοι (β-strands). Ενώνονται τυπικά από λιγότερο κανονικές δομές, αποκαλούμενες βρόχους (loops). Ως αποτέλεσμα του διπλώματος, τα μέρη του πρωτεϊνικού μορίου πλησιάζουν μεταξύ τους και οι διάφορες ελκτικές ή απωστικές δυνάμεις (δεσμοί υδρογόνου, δισουλφιδικές γέφυρες, έλξεις μεταξύ θετικών και αρνητικών φορτίων, υδρόφοβες και υδρόφιλες δυνάμεις) μεταξύ αυτών των μερών αναγκάζουν το μόριο να αποκτήσει μια σχετικά σταθερή τρισδιάστατη δομή. Αυτή είναι η τριτοταγής δομή (tertiary structure). Σε πολλές περιπτώσεις αυτή η τρισδιάστατη δομή είναι αρκετά συμπαγής. Η τεταρτοτοταγής δομή (quaternary structure) είναι η τελική τρισδιάστατη μορφή που παίρνει η πρωτεΐνη, όταν αποτελείται από περισσότερες της μίας πολυπεπτιδικές αλυσίδες. Τα τέσσερα επίπεδα οργάνωσης καθορίζονται τόσο από την πρωτοταγή δομή όσο και από το φυσικοχημικό περιβάλλον στο οποίο βρίσκεται το μόριο της πρωτεΐνης. Η πρόβλεψη της δομής της πρωτεΐνης από την αλληλουχία των αμινοξέων είναι ένα από τα σημαντικότερα προβλήματα που αντιμετωπίζει η βιοπληροφορική. Στην Εικόνα 3.6 παρουσιάζονται τα τέσσερα επίπεδα της πρωτεϊνικής δομής. Πρωτοταγής δομή Δευτεροταγής δομή Τριτοταγής δομή Τεταρτοταγής δομή Εικόνα 3.6: Τα τέσσερα επίπεδα οργάνωσης των πρωτεϊνών.

59 Κεφάλαιο 3: Μοριακή Βιολογία DNA Το δεοξυριβονουκλεϊκό οξύ (deoxyribonucleic acid), ή συντομότερα DNA ανήκει στην κατηγορία των νουκλεϊκών οξέων και είναι ο βασικός φορέας πληροφορίας σε ένα κύτταρο. Το DNA μπορεί να είναι μονόκλωνο ή δίκλωνο. Ένα μονόκλωνο μόριο DNA, αλλιώς πολυνουκλεοτίδιο (polynucleotide), είναι μια αλυσίδα (πολυνουκλεοτιδική αλυσίδα) από νουκλεοτίδια. Τα νουκλεοτίδια του DNA περιέχουν το σάκχαρο δεοξυριβόζη και γι αυτό καλούνται δεοξυριβονουκλεοτίδια (deoxyribonuceotides). Υπάρχουν τέσσερα διαφορετικά δεοξυριβονουκλεοτίδια, που καθορίζονται από τις βάσεις αδενίνη, γουανίνη, κυτοσίνη και θυμίνη. Ένα νουκλεοτίδιο συνδέεται με το επόμενο στην αλυσίδα νουκλεοτίδιο με ένα φωσφοδιεστερικό δεσμό. Ένα πολυνουκλεοτίδιο μπορεί να αναπαρασταθεί ως συμβολοσειρά από το συνδυασμό των τεσσάρων διαφορετικών βάσεων. Για παράδειγμα: AGTCCGT Τα δύο άκρα ενός τέτοιου μορίου είναι διαφορετικά από χημική άποψη και καλούνται 5 άκρο και 3 άκρο. Άρα, ένα πολυνουκλεοτίδιο είναι κατευθυνόμενο και μάλιστα έχει προσανατολισμό 5 3 : 5 A G T C C G T 3 Το παραπάνω πολυνουκλεοτίδιο είναι διαφορετικό από το αντίστοιχο με την αντίστροφη σειρά: TGCCTGA Ο προσανατολισμός του οποίου είναι: 5 T G C C T G A 3 Κατά σύμβαση το DNA γράφεται με το 5 άκρο αριστερά και το 3 άκρο δεξιά και μάλιστα στην περίπτωση του δίκλωνου DNA η κωδική αλυσίδα γράφεται από πάνω. Δύο αλυσίδες καλούνται συμπληρωματικές (complementary), αν η μία μπορεί να προκύψει από την άλλη με αμοιβαία ανταλλαγή της A με την T και της G με την C, και ταυτόχρονη αλλαγή του προσανατολισμού του μορίου. Επίσης δύο συμπληρωματικές αλυσίδες καλούνται αντιπαράλληλες (antiparallel), λόγω των αντίθετων και συνάμα παράλληλων κατευθύνσεών τους. Για παράδειγμα οι δύο παρακάτω πολυνουκλεοτιδικές αλυσίδες είναι συμπληρωματικές και αντιπαράλληλες: 5 ATTGGATC 3

60 44 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών 3 TAACCTAG 5 Κάποια ζεύγη νουκλεοτιδίων μπορούν να σχηματίσουν μεταξύ τους ασθενείς δεσμούς. Συγκεκριμένα, δύο δεσμοί υδρογόνου (hydrogen bonds) μπορούν να σχηματιστούν μεταξύ A και Τ και τρεις δεσμοί υδρογόνου μεταξύ G και C. Παρότι αυτές οι δυνάμεις είναι ασθενείς, όταν δύο μεγάλες συμπληρωματικές αλυσίδες συναντώνται συνενώνονται. Τα ζεύγη A T και G C καλούνται ζεύγη βάσεων (base pairs). Το μήκος ενός μορίου DNA συνήθως μετριέται σε ζεύγη βάσεων (bp) ή σε νουκλεοτίδια (nt). Δύο συμπληρωματικές πολυνουκλεοτιδικές αλυσίδες σχηματίζουν μια σταθερή δομή, η οποία μοιάζει με έλικα και είναι γνωστή ως η διπλή έλικα του DNA (DNA double helix). Το μοντέλο της διπλής έλικας του DNA διατυπώθηκε το 1953 στο Cambridge από τους Francis Crick και James Watson (Εικόνα 3.7), με τη συμβολή των Maurice Wilkins και Rosalind Franklin. Αξίζει να σημειωθεί ότι η συμπληρωματικότητα των δύο αλυσίδων σημαίνει ότι μπορεί να προσδιοριστεί επακριβώς η μία από τη γνώση της άλλης. Στην Εικόνα 3.8 παρουσιάζεται η διπλή έλικα του DNA, καθώς και οι σχετικές αποστάσεις μεταξύ μιας στροφής της αλυσίδας, μεταξύ δύο διαδοχικών βάσεων και μεταξύ των δύο αλυσίδων. Η Εικόνα 3.9 παρουσιάζει αναλυτικότερα ένα τμήμα της διπλής έλικας. Εικόνα 3.7: Περιγραφή του μοντέλου της διπλής έλικας του DNA από τους James Watson (αριστερά) και Francis Crick (δεξιά).

61 Κεφάλαιο 3: Μοριακή Βιολογία 45 3,4 nm 0,34 nm 2 nm Εικόνα 3.8: Η διπλή έλικα του μορίου του DNA. 5 άκρο 3 άκρο P: Φωσφορική ομάδα S: Δεοξυριβόζη P S A T S P A, T, G, C: Αζωτούχες βάσεις : Δεσμός υδρογόνου P S C G S P P S G C S P P S T A S P 3 άκρο 5 άκρο Εικόνα 3.9: Αναλυτικότερη άποψη του δίκλωνου μορίου του DNA.

62 46 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών Αντιγραφή του DNA Η συμπληρωματικότητα των δύο κλώνων του DNA συμβάλλει στη δυνατότητα δημιουργίας αντιγράφων του DNA, με τη διαδικασία της αντιγραφής (replication). Υπάρχουν τρία μοντέλα που αφορούν το μηχανισμό της αντιγραφής του DNA [Αλεπόρου- Μαρίνου κ.α., 2003], (Εικόνα 3.10): Ο συντηρητικός (conservative) διπλασιασμός του DNA, σύμφωνα με τον οποίο το μητρικό μόριο διατηρεί την αρχική του μορφή και το θυγατρικό αποτελείται από δύο νέες αλυσίδες. Ο ημισυντηρητικός (semiconservative) διπλασιασμός του DNA, σύμφωνα με τον οποίο τα δύο θυγατρικά μόρια που προκύπτουν είναι πανομοιότυπα με το μητρικό και καθένα αποτελείται από μια παλιά και μια καινούρια αλυσίδα. Ο διασπαρτικός (dispersive) διπλασιασμός του DNA, σύμφωνα με τον οποίο τα δύο θυγατρικά μόρια περιέχουν τυχαίες περιοχές και των παλιών και των νέων α- λυσίδων. Μητρικό μόριο DNA Πρώτος διπλασιασμός Συντηρητικός Ημισυντηρητικός Διασπαρτικός Εικόνα 3.10: Υποθετικά μοντέλα διπλασιασμού του DNA. Οι Meselson & Stahl [1958] απέδειξαν ότι ο μηχανισμός διπλασιασμού του DNA είναι ημισυντηρητικός, αποκλείοντας τον συντηρητικό και διασπαρτικό τρόπο. Κατά τη διαδικασία της αντιγραφής ξετυλίγονται οι έλικες και σπάζουν οι δεσμοί υδρογόνου

63 Κεφάλαιο 3: Μοριακή Βιολογία 47 μεταξύ των συμπληρωματικών βάσεων με τη βοήθεια ειδικών ενζύμων που ονομάζονται DNA ελικάσες (DNA helicases). Όταν ανοίξει η διπλή έλικα συντίθενται νέες συμπληρωματικές αλυσίδες χρησιμοποιώντας ως καλούπι τους δύο αρχικούς κλώνους, με τη συμμετοχή ενζύμων που καλούνται DNA πολυμεράσες (DNA polymerases). Η σύνθεση των νέων αλυσίδων έχει την κατεύθυνση 5 3. Οι νέες αλυσίδες δε δημιουργούνται σειριακά, αλλά πολλά τμήματα σε διαφορετικά σημεία της ίδιας αλυσίδας συντίθενται ταυτόχρονα. Ειδικά ένζυμα, οι DNA δεσμάσες (DNA ligases), αναλαμβάνουν να ενώσουν τα επιμέρους τμήματα της αλυσίδας σε ένα. Έτσι το αρχικό μόριο DNA διπλασιάζεται RNA Το ριβονουκλεϊκό οξύ (ribonucleic acid), ή συντομότερα RNA, όπως και το DNA, ανήκει στην κατηγορία των νουκλεϊκών οξέων και αποτελείται από νουκλεοτίδια. Ωστόσο, τα νουκλεοτίδια που συνθέτουν το RNA, σε αντίθεση με αυτά του DNA, αντί της πεντόζης δεοξυριβόζης περιέχουν την πεντόζη ριβόζη (ribose) και γι αυτό καλούνται ριβονουκλεοτίδια (ribonucleotides). Ακόμη στο μόριο του RNA αντί της αζωτούχου βάσης θυμίνης (T) υπάρχει η ουρακίλη (U). Μια ακόμη διαφορά με το DNA είναι ότι το RNA δε σχηματίζει διπλή έλικα, αλλά είναι μονόκλωνο. Μπορεί όμως να έχει μια πολύπλοκη δομή στο χώρο εξαιτίας των συμπληρωματικών τμημάτων της ίδιας αλυσίδας. Το RNA μπορεί να προσδεθεί σε ένα συμπληρωματικό μονόκλωνο μόριο DNA, παρά την αντικατάσταση της T από την U. Το RNA έχει πολλές λειτουργίες μέσα σε ένα κύτταρο, οι σημαντικότερες από τις οποίες σχετίζονται με τη διαδικασία της πρωτεϊνοσύνθεσης. Ακόμη το RNA αποτελεί το γενετικό υλικό κάποιων ιών (RNA ιοί), όπως για παράδειγμα του ιού HIV. Παρακάτω περιγράφονται τέσσερα βασικά είδη RNA που σχετίζονται με τη διαδικασία της πρωτεϊνοσύνθεσης, η οποία θα περιγραφεί σε επόμενη ενότητα (3.5): Αγγελιαφόρο RNA (messenger RNA mrna), το οποίο μεταφέρει την πληροφορία του DNA για τη σύνθεση μιας πολυπεπτιδικής αλυσίδας. Ριβοσωμικό RNA (ribosomal RNA rrna), το οποίο συνδέεται με πρωτεΐνες και σχηματίζει το ριβόσωμα (ribosome), που είναι απαραίτητο για τη διαδικασία της πρωτεϊνοσύνθεσης. Μεταφορικό RNA (transfer RNA trna), το οποίο μεταφέρει τα αμινοξέα στην περιοχή της πρωτεϊνοσύνθεσης.

64 48 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών Μικρό πυρηνικό RNA (small nuclear RNA snrna), το οποίο συνδέεται με πρωτεΐνες και σχηματίζει ριβονουκλεοπρωτεϊνικά σωματίδια, τα οποία καταλύουν τη διαδικασία της ωρίμανσης του mrna, που θα περιγραφεί στην ενότητα Γονίδια και Γονιδίωμα Το γενετικό υλικό των προκαρυωτικών κυττάρων είναι ένα δίκλωνο κυκλικό μόριο DNA. Αντίθετα με τα προκαρυωτικά, τα ευκαρυωτικά κύτταρα περιέχουν πολλά γραμμικά μόρια DNA, ο αριθμός και το μήκος των οποίων είναι χαρακτηριστικά για τα διάφορα είδη των οργανισμών. Τα μόρια αυτά καλούνται χρωμοσώματα (chromosomes) [Brazma et al., 2001; Hunter, 1993]. Σε κάποιους οργανισμούς που καλούνται διπλοειδείς (diploids), κάθε χρωμόσωμα περιέχεται σε δύο αντίγραφα, τα οποία καλούνται ομόλογα χρωμοσώματα (homologous chromosomes). Οργανισμοί με ένα αντίγραφο του DNA στα χρωμοσώματά τους, καλούνται απλοειδείς (haploids). Ο άνθρωπος είναι διπλοειδής και έχει 23 ζεύγη χρωμοσωμάτων. Οι προκαρυωτικοί οργανισμοί είναι απλοειδείς [Αλεπόρου-Μαρίνου κ.α., 2003]. Τα χρωμοσώματα που είναι μορφολογικά ίδια στο αρσενικό και το θηλυκό άτομο καλούνται αυτοσωμικά (autosomes). Τα χρωμοσώματα που καθορίζουν το φύλο ενός οργανισμού καλούνται φυλετικά χρωμοσώματα (sex chromosomes). Για παράδειγμα στον άνθρωπο υπάρχουν 22 ζεύγη αυτοσωμικών χρωμοσωμάτων και δύο χρωμοσώματα τα X και Y, που καθορίζουν το θηλυκό και το αρσενικό άτομο αντίστοιχα. Τα θηλυκά άτομα περιλαμβάνουν το ζεύγος ΧΧ, ενώ τα αρσενικά το ζεύγος XY. Στα ευκαρυωτικά κύτταρα το γενετικό υλικό κατανέμεται στον πυρήνα, στα μιτοχόνδρια και στους χλωροπλάστες. Το γενετικό υλικό σε όλα τα κύτταρα ενός οργανισμού είναι το ίδιο (με λίγες ειδικές εξαιρέσεις) [Brazma et al., 2001]. Το σύνολο του γενετικού υλικού ενός οργανισμού καλείται γονιδίωμα ή γένωμα (genome). Το γονίδιο (gene) είναι ένα συνεχές τμήμα μορίου χρωμοσωμικού DNA στο οποίο περιέχονται πληροφορίες που καθορίζουν τη σύνθεση ενός συγκεκριμένου τύπου πρωτεΐνης ή ενός μικρού αριθμού διαφορετικών πρωτεϊνών. Υπάρχουν, επίσης, γονίδια που περιέχουν πληροφορίες για τη σύνθεση μορίων RNA [Brazma et al., 2001]. Το γονίδιο είναι η βασική μονάδα κληρονομικότητας. Ο Πίνακας 3.4 παρουσιάζει τα μεγέθη των γονιδιωμάτων και τον αριθμό των γονιδίων κάποιων από τους οργανισμούς που έχουν μελετηθεί.

65 Κεφάλαιο 3: Μοριακή Βιολογία 49 Πίνακας 3.4: Μεγέθη των γονιδιωμάτων και του αριθμού των γονιδίων οργανισμών. Οργανισμός Mycoplasma genitalium (βακτήριο) Μήκος DNA (Mbp) Αριθμός γονιδίων 0, Deinococcus radiodurans R1 (βακτήριο) 3, Escherichia coli K12 (βακτήριο) 4, Caenorhabditis elegans (βακτήριο) Saccharomyces cerevisiae (μύκητας) Drosophila melanogaster (έντομο) Homo sapiens (άνθρωπος) Σημαντικές στη μοριακή βιολογία και τη γενετική (genetics) είναι οι έννοιες του γονότυπου (genotype) και του φαινότυπου (phenotype). O γονότυπος είναι η συγκεκριμένη γενετική σύσταση ενός ατόμου, ενώ ο φαινότυπος είναι, είτε η συνολική φυσική του εμφάνιση, είτε η συγκεκριμένη εκδήλωση ενός χαρακτηριστικού (π.χ. χρώμα ματιών). Συνήθως η έννοια του γονότυπου χρησιμοποιείται για να περιγράψει ένα συγκεκριμένο γονίδιο που συγκεντρώνει το ενδιαφέρον ή έναν αριθμό γονιδίων. Στην περίπτωση των διπλοειδών οργανισμών ο γονότυπος αναφέρεται στα γονίδια που βρίσκονται στην ίδια θέση των ομόλογων χρωμοσωμάτων και ελέγχουν την ίδια ιδιότητα, με τον ίδιο ή διαφορετικό ενδεχομένως τρόπο (αλληλόμορφα γονίδια alleles). Η σχέση μεταξύ γονότυπου και φαινότυπου δεν είναι άμεση. Κάποια γονίδια μπορεί να εκφράσουν ένα συγκεκριμένο φαινότυπο αν βρεθούν στις κατάλληλες περιβαλλοντικές συνθήκες. Συνεπώς, η σχέση γονότυπου και φαινοτύπου μπορεί να περιγραφεί ως εξής: γονότυπος + περιβάλλον φαινότυπος

66 50 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών 3.4 Μεταλλάξεις και Πολυμορφισμοί Η αλλαγή στις βάσεις ενός γονιδίου ή η μεταβολή ενός χρωμοσώματος, καλείται μετάλλαξη (mutation) ή πολυμορφισμός (polymorphism). Οι πολυμορφισμοί είναι συνηθισμένες διαφοροποιήσεις στο γενετικό υλικό, που συμβαίνουν τουλάχιστο στο 1% του πληθυσμού. Οι μεταλλάξεις είναι λιγότερο συνηθισμένες και συμβαίνουν σε ένα ποσοστό του πληθυσμού που δεν ξεπερνά το 1%. Μάλιστα, οι δύο έννοιες δεν είναι αυστηρά διακεκριμένες. Μία τέτοια διαφοροποίηση σε κάποιο σημείο του πλανήτη μπορεί να είναι πολυμορφισμός, ενώ σε κάποιο άλλο μετάλλαξη. Οι περισσότερες από τις ποικιλομορφίες στο DNA είναι ουδέτερες, δηλαδή δεν έχουν καμιά συνέπεια στο άτομο. Πολλές φορές όμως είναι επιβλαβείς. Αλλαγές στην αλληλουχία των γονιδίων μπορούν να οδηγήσουν σε πρωτεΐνες που δε λειτουργούν φυσιολογικά ή δε λειτουργούν καθόλου. Κάποιες από αυτές τις αλλαγές μπορούν να συμβάλλουν στην εμφάνιση ασθενειών ή να επηρεάσουν τον τρόπο αντίδρασης του οργανισμού σε κάποια φάρμακα. Οι μεταλλάξεις μπορούν να συμβούν κατά τη σύλληψη του οργανισμού ή κατά τη διάρκεια της ζωής του. Μπορούν να συμβούν σε οποιοδήποτε σωματικό ή γεννητικό κύτταρο. Ωστόσο, μόνο οι μεταλλάξεις που συμβαίνουν στα γεννητικά κύτταρα μπορούν να μεταφερθούν και στους απογόνους. Οι μεταλλάξεις είναι δυνατό να προκύψουν κατά τη διάρκεια φυσιολογικών κυτταρικών λειτουργιών, όπως η κυτταρική διαίρεση, ή κατά την αντίδραση σε περιβαλλοντικούς παράγοντες όπως τοξικές ουσίες και ακτινοβολία. Μάλιστα, οι οργανισμοί διαθέτουν ένα σύστημα από επιδιορθωτικά ένζυμα (repair enzymes), που βρίσκουν και διορθώνουν τα περισσότερα λάθη που συμβαίνουν στην αλληλουχία του DNA. Όμως, καθώς οι οργανισμοί αλλάζουν με την ηλικία, τις ασθένειες και άλλους παράγοντες, τα συστήματα αυτά γίνονται λιγότερο αποτελεσματικά. Οι μεταλλάξεις που δεν έχουν διορθωθεί συσσωρεύονται, έχοντας ως αποτέλεσμα ασθένειες όπως ο καρκίνος. Με βάση την έκταση και τη μορφή της αλλαγής των νουκλεοτιδικών βάσεων διακρίνονται οι παρακάτω τύποι μεταλλάξεων [Custer, 2004; Αλεπόρου-Μαρίνου κ.α., 2003]: Οι σημειακές μεταλλάξεις (point mutations) ή μονονουκλεοτιδικοί πολυμορφισμοί (single nucleotide polymorphisms SNPs), που οφείλονται στην αντικατάσταση μιας μόνο νουκλεοτιδικής βάσης από μια άλλη. Αυτός ο τύπος μεταλλάξεων είναι υπεύθυνος για την ποικιλομορφία που παρουσιάζεται μεταξύ των ειδών και των ατόμων. Μια τέτοια μετάλλαξη μπορεί να είναι ουδέτερη, για παράδειγμα αν η βά-

67 Κεφάλαιο 3: Μοριακή Βιολογία 51 ση που θα αλλάξει δεν οδηγήσει στην παραγωγή διαφορετικού αμινοξέος, λόγω εκφυλισμού του γενετικού κώδικα. Ωστόσο πολλές φορές συμβαίνει το αντίθετο, με αποτέλεσμα να προκαλούνται ασθένειες, όπως για παράδειγμα η δρεπανοκυτταρική αναιμία (sickle cell anemia). Οι προσθήκες (insertions) ή διαγραφές (deletions) βάσεων είναι μια άλλη κατηγορία μεταλλάξεων. Αν ο αριθμός των συνεχόμενων βάσεων που προστίθενται είναι πολλαπλάσιος του τρία, τότε υπάρχουν δύο δυνατές περιπτώσεις. Είτε δε θα συμβεί καμιά αλλαγή στην τελική πρωτεΐνη, αν οι πλεονάζουσες τριάδες αφαιρεθούν κατά τη διάρκεια απομάκρυνσης των εσωνίων, είτε θα προστεθούν στην πολυπεπτιδική αλυσίδα τόσα αμινοξέα όσες είναι και οι τριάδες των πρόσθετων βάσεων. Στην περίπτωση της έλλειψης ενός πολλαπλάσιου του τρία αριθμού βάσεων θα απουσιάζουν από την πολυνουκλεοτιδική αλυσίδα τόσα αμινοξέα όσες είναι και οι τριάδες των βάσεων που λείπουν. Αν ο αριθμός των βάσεων δεν είναι πολλαπλάσιος του τρία, τότε η αλληλουχία των αμινοξέων θα είναι πολύ διαφορετική από την αρχική. Οι χρωμοσωμικές ανωμαλίες (chromosomal mutations) είναι μεγάλες σε έκταση αλλαγές που περιλαμβάνουν τμήματα χρωμοσωμάτων ή ακόμη και ολόκληρα χρωμοσώματα. Οι αλλαγές στον αριθμό των χρωμοσωμάτων καλούνται αριθμητικές χρωμοσωμικές ανωμαλίες, ενώ οι αλλαγές στη δομή αποτελούν τις δομικές χρωμοσωμικές ανωμαλίες [Αλεπόρου-Μαρίνου κ.α., 2003]. Οι αλλαγές αυτές έ- χουν συνήθως ως αποτέλεσμα την τροποποίηση του φαινοτύπου του ατόμου. Ανάλογα με τον τύπο της αλλαγής διακρίνονται διάφορα είδη δομικών χρωμοσωμικών ανωμαλιών [Αλεπόρου-Μαρίνου κ.α., 2003]: H έλλειψη (deletion) οφείλεται στην απουσία ενός χρωμοσωμικού τμήματος. Ο διπλασιασμός (duplication) είναι η επανάληψη ενός χρωμοσωμικού τμήματος στο χρωμόσωμα. Η αναστροφή (inversion) προκαλείται από θραύσεις του χρωμοσώματος σε δύο σημεία και επανένωση του τμήματος ύστερα από αναστροφή. Αποτέλεσμα της αναστροφής είναι η αλλαγή της διάταξης των γονιδίων στο χρωμόσωμα. Η μετατόπιση (translocation) είναι το αποτέλεσμα της θραύσης ενός τμήματος του χρωμοσώματος και στη συνέχεια ένωσής του σε άλλο διαφορετικό χρω-

68 52 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών μόσωμα. Κατά την αμοιβαία μετατόπιση υπάρχει ανταλλαγή χρωμοσωμικών τμημάτων ανάμεσα σε διαφορετικά χρωμοσώματα. Αλλαγές στην αλληλουχία των βάσεων μπορούν να παρουσιαστούν και σε περιοχές του DNA που δε μεταγράφονται. Αυτές οι αλλαγές, συνήθως, δεν έχουν αρνητικές επιπτώσεις στον οργανισμό. 3.5 Γονιδιακή Έκφραση Γονιδιακή έκφραση (gene expression) καλείται η διαδικασία κατά την οποία η κωδικοποιημένη πληροφορία ενός γονιδίου μετατρέπεται σε δομές που παρουσιάζονται και λειτουργούν σε ένα κύτταρο. Πιο συγκεκριμένα, εκφρασμένα είναι τα γονίδια που είτε έχουν μεταγραφεί σε mrna και στη συνέχεια έχουν μεταφραστεί σε πρωτεΐνες, είτε έχουν μεταγραφεί σε RNA και δεν έχουν μεταφραστεί σε πρωτεΐνες (π.χ. trna και rrna) [ Πρωτεϊνοσύνθεση Η πρωτεϊνοσύνθεση (protein synthesis) αποτελείται από τρία στάδια: 1. Στο στάδιο της μεταγραφής (transcription) η μια αλυσίδα του μορίου του DNA (του γονιδίου) αντιγράφεται σε ένα συμπληρωματικό τμήμα RNA, που καλείται πρόδρομο (primary) mrna ή ετερογενές πυρηνικό (heterogeneous nuclear) RNA (hnrna). Η μεταγραφή καταλύεται από το ένζυμο RNA πολυμεράση (RNA polymerase), το οποίο προσκολλάται στο σημείο του DNA από το οποίο θα αρχίσει η μεταγραφή. Στη συνέχεια, ξετυλίγει τοπικά την έλικα του DNA και τοποθετεί συμπληρωματικά ριβονουκλεοτίδια απέναντι από τα δεοξυριβονουκλεοτίδια της μιας αλυσίδας. Η μεταγραφή σταματά στο τέλος του γονιδίου. Η διαδικασία της μεταγραφής είναι ίδια για όλους τους οργανισμούς. 2. Στο επόμενο στάδιο απομακρύνονται από το πρόδρομο mrna κάποια ενδιάμεσα τμήματα. Τα τμήματα αυτά ονομάζονται εσώνια ή ιντρόνια (introns) και είναι αλληλουχίες που δε μεταφράζονται σε αμινοξέα. Οι αλληλουχίες που παραμένουν μεταφράζονται σε αμινοξέα και ονομάζονται εξώνια (exons). Τα γονίδια των προκαρυωτικών κυττάρων δεν περιέχουν εσώνια και γι αυτό το συγκεκριμένο στάδιο δεν υπάρχει. Το αποτέλεσμα της διαδικασίας είναι το ώριμο (mature) mrna. Η διαδικασία της απομάκρυνσης των εσωνίων αποδίδεται με τον αγγλικό όρο splicing. Δεν υπάρχει κοινά αποδεκτός όρος στα ελληνικά. Μπορεί να χρησιμοποιηθεί ο

69 Κεφάλαιο 3: Μοριακή Βιολογία 53 όρος μάτισμα ή ο όρος συρραφή. Πολλές φορές χρησιμοποιείται και ο όρος ωρίμανση, όμως δεν είναι ταυτόσημος με το splicing. Η ωρίμανση περιλαμβάνει το splicing, αλλά και επιπλέον άλλες διαδικασίες, όπως τροποποιήσεις των άκρων του μορίου [Futuma, 1995]. Κάποια γονίδια ευκαρυωτικών οργανισμών είναι γνωστό ότι μπορούν να οδηγήσουν σε περισσότερα του ενός ώριμα mrna. Αυτό είναι γνωστό ως εναλλακτικό μάτισμα (alternative splicing). Η διαδικασία της απομάκρυνσης των εσωνίων παρουσιάζεται στην Εικόνα Πρόδρομο mrna (pre-mrna) ή Ετερογενές Πυρηνικό RNA (hnrna) Εξώνιο Εσώνιο Συρραφή εξωνίων Απομάκρυνση εσωνίων Ώριμο mrna Εικόνα 3.11: Διαδικασία απομάκρυνσης εσωνίων. 3. Στο στάδιο της μετάφρασης (translation) γίνεται η αντιστοίχιση τριπλετών (τριών διαδοχικών νουκλεοτιδίων π.χ. GCA) σε αμινοξέα και η διαδοχική σύνδεση των αμινοξέων σε πολυπεπτιδική αλυσίδα. Αυτές οι τριπλέτες καλούνται κωδικόνια (codons). Ο κώδικας αντιστοίχισης των νουκλεοτιδίων του mrna σε αμινοξέα ονομάζεται γενετικός κώδικας (genetic code) ή κώδικας τριπλέτας (triplet code) (Πίνακας 3.5). Υπάρχουν αμινοξέα που κωδικοποιούνται από περισσότερα του ε- νός κωδικόνια, καθώς υπάρχουν 4 3 = 64 διαφορετικά κωδικόνια και μόνο 20 αμινοξέα. Για το λόγο αυτό ο γενετικός κώδικας χαρακτηρίζεται ως εκφυλισμένος (degenerate), ενώ τα κωδικόνια που κωδικοποιούν το ίδιο αμινοξύ καλούνται συνώνυμα. Μάλιστα, υπάρχουν και τρία κωδικόνια λήξης (stop codons), τα UAG, UGA,

70 54 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών UAA, η παρουσία των οποίων σηματοδοτεί το τέλος της αλληλουχίας των αμινοξέων, καθώς και ένα κωδικόνιο έναρξης (start codon), το AUG, που κωδικοποιεί το αμινοξύ μεθειονίνη (methionine). Επιπλέον, ο γενετικός κώδικας είναι σχεδόν καθολικός (universal), αφού ισχύει για όλους σχεδόν τους οργανισμούς. Η διαδικασία της μετάφρασης πραγματοποιείται στα ριβοσώματα. Τα ριβοσώματα είναι μεγάλα συμπλέγματα πρωτεϊνών και μορίων RNA που μπορούν να χρησιμοποιηθούν ως θέση μετάφρασης για οποιοδήποτε μόριο mrna. Αποτελούνται από δύο υπομονάδες. Η μικρότερη υπομονάδα έχει μια περιοχή πρόσδεσης του mrna, ενώ η μεγαλύτερη έχει δύο θέσεις πρόσδεσης για το trna. Ένα μόριο trna συνδέεται με ένα συγκεκριμένο αμινοξύ και το μεταφέρει στο ριβόσωμα. Το αμινοξύ προστίθεται στην αναπτυσσόμενη πρωτεΐνη. Η Εικόνα 3.12 περιγράφει αναλυτικά τη διαδικασία της μετάφρασης. Οι πρωτεΐνες μετά το πέρας της μετάφρασης μπορούν να υποστούν μετα-μεταφραστικές τροποποιήσεις (post-translational modifications), γεγονός που επηρεάζει τη λειτουργία τους. Εξαιτίας του εναλλακτικού ματίσματος και των μετα-μεταφραστικών τροποποιήσεων ένα γονίδιο μπορεί να παράγει περισσότερες από μία πρωτεΐνες. Πίνακας 3.5: Ο γενετικός κώδικας. U C A G U UUU UUC UUA UUG Phe Phe Leu Leu UCU UCC UCA UCG Ser Ser Ser Ser UAU UAC UAA UAG Tyr Tyr Λήξη Λήξη UGU UGC UGA UGG Cys Cys Λήξη Trp U C A G C CUU CUC CUA CUG Leu Leu Leu Leu CCU CCC CCA CCG Pro Pro Pro Pro CAU CAC CAA CAG His His Gln Gln CGU CGC CGA CGG Arg Arg Arg Arg U C A G A AUU AUC AUA AUG Ile Ile Ile Met ACU ACC ACA ACG Thr Thr Thr Thr AAU AAC AAA AAG Asn Asn Lys Lys AGU AGC AGA AGG Ser Ser Arg Arg U C A G G GUU GUC GUA GUG Val Val Val Val GCU GCC GCA GCG Ala Ala Ala Ala GAU GAC GAA GAG Asp Asp Glu Glu GGU GGC GGA GGG Gly Gly Gly Gly U C A G

71 Κεφάλαιο 3: Μοριακή Βιολογία 55 5 Ριβόσωμα G U A A U G C G U G U U U A A U A C U C A 3 Το ριβόσωμα προσδένεται στο mrna και βρίσκει το σημείο έναρξης της μετάφρασης, δηλαδή το κωδικόνιο AUG. Το αντικωδικόνιο (anticodon) UAC του trna που φέρει το αμινοξύ μεθειονίνη συνδέεται με το αντίστοιχο Met κωδικόνιο. Το αντικωδικόνιο GCA του trna που φέρει το 5 G U A A U G C G U G U U U A A U A C G C A U C A 3 αμινοξύ αργινίνη συνδέεται με το αντίστοιχο κωδικόνιο CGU. Met Arg Σχηματίζεται πεπτιδικός δεσμός μεταξύ της 5 G U A A U G C G U G U U U A A U A C G C A U C A 3 μεθειονίνης και της αργινίνης και το ελεύθερο trna απομακρύνεται. Στη συνέχεια το ριβόσωμα μετακινείται κατά μια τριπλέτα με κατεύθυνση 5 3. Met Arg Το αντικωδικόνιο CAA του trna που φέρει το 5 G U A A U G C G U G U U U A A G C A C A A U C A 3 αμινοξύ βαλίνη συνδέεται με το αντίστοιχο κωδικόνιο GUU. Met Arg Val Σχηματίζεται πεπτιδικός δεσμός μεταξύ της 5 G U A A U G C G U G U U U A A C A A C A G U C A 3 αργινίνης και της βαλίνης και το ελεύθερο trna απομακρύνεται. Στη συνέχεια το ριβόσωμα μετακινείται κατά μια τριπλέτα με κατεύθυνση 5 3. Met Arg Val 5 Το κωδικόνιο UAA κωδικοποιεί τη λήξη της G U A A U G C G U G U U U A A U C A 3 μετάφρασης. Ο παράγοντας απελευθέρωσης C A A (release factor) συνδέεται με το κωδικόνιο λήξης, τερματίζοντας τη μετάφραση και απελευθερώνοντας την πολυπεπτιδική αλυσίδα. Val Arg Met Εικόνα 3.12: Η διαδικασία της μετάφρασης.

72 56 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών 3.6 Γονιδιακή Ρύθμιση Ο όρος γονιδιακή ρύθμιση (gene regulation) αναφέρεται σε όλη τη διαδικασία κατά την οποία ένα γονίδιο ενεργοποιείται για να εκφραστεί (π.χ. να παράγει μια πρωτεΐνη). Εφόσον όλα τα κύτταρα σε έναν οργανισμό έχουν το ίδιο γενετικό υλικό, η κυτταρική διαφοροποίηση οφείλεται στη γονιδιακή έκφραση και όχι στο περιεχόμενο του γονιδιώματος. Σημαντικό ρόλο στη γονιδιακή ρύθμιση έχει ένα είδος πρωτεϊνών, που ονομάζονται μεταγραφικοί παράγοντες (transcription factors). Οι υποκινητές μπορούν να προσδεθούν σε κάποια ειδικά τμήματα του DNA που ονομάζονται δεσμευτικές θέσεις (binding sites) των μεταγραφικών παραγόντων, οι οποίες βρίσκονται στις αποκαλούμενες περιοχές υποκινητή (promoter). Συγκεκριμένοι υποκινητές σχετίζονται με συγκεκριμένα γονίδια και οι αλληλουχίες τους βρίσκονται κοντά στις αλληλουχίες των αντίστοιχων γονιδίων. Οι μεταγραφικοί παράγοντες ελέγχουν τη γονιδιακή έκφραση δεσμεύοντας τον υποκινητή του γονιδίου και είτε ενεργοποιούν τη μεταγραφή του γονιδίου είτε την καταστέλλουν. Οι μεταγραφικοί παράγοντες μπορούν να ελέγχουν πολλά γονίδια, ενώ κάποια γονίδια ελέγχονται από συνδυασμό μεταγραφικών παραγόντων. Βρόχοι ανάδρασης είναι πιθανοί. Μπορεί, λοιπόν να γίνει λόγος για δίκτυα γονιδιακής ρύθμισης (gene regulation networks). Η κατανόηση, η περιγραφή και η μοντελοποίηση τέτοιων δικτύων είναι ένα από τα πιο ενδιαφέροντα προβλήματα που απασχολούν τους επιστήμονες. 3.7 Η Ροή της Βιολογικής Πληροφορίας Η ροή της γενετικής πληροφορίας από τα νουκλεϊκά οξέα προς τις πρωτεΐνες, δηλαδή η διαδικασία της πρωτεϊνοσύνθεσης που περιγράφηκε παραπάνω, αλλά και η μεταβίβαση της πληροφορίας από τους γονείς στους απογόνους, περιγράφεται με το κεντρικό δόγμα (central dogma) της μοριακής βιολογίας. Το κεντρικό δόγμα διατυπώθηκε το 1958 από τον Francis Crick. Σύμφωνα με αυτή τη διατύπωση του δόγματος (Εικόνα 3.13), το DNA μεταγράφεται σε RNA, το οποίο στη συνέχεια μεταφράζεται σε πρωτεΐνες. Το κυκλικό βέλος γύρω από το DNA υποδηλώνει τη δυνατότητα διπλασιασμού του. DNA RNA Πρωτεΐνη Εικόνα 3.13: Το κεντρικό δόγμα της μοριακής βιολογίας.

73 Κεφάλαιο 3: Μοριακή Βιολογία 57 Ωστόσο, σήμερα είναι γνωστό ότι στους ρετροϊούς, όπως για παράδειγμα ο HIV, που προκαλεί το AIDS, το RNA με τη διαδικασία της αντίστροφης μεταγραφής μπορεί να μετατραπεί σε DNA. Επιπλέον, σε κάποιους ιούς και άλλους «κατώτερους» οργανισμούς είναι δυνατός ο αυτοδιπλασιασμός του RNA. Η ροή της βιολογικής πληροφορίας περιγράφεται πλέον όπως στην Εικόνα Καθολικότερη ροή Ειδικότερη ροή Πρωτεΐνη Μόνο στο εργαστήριο Σε όλους τους ζωντανούς οργανισμούς DNA RNA Σε όλους τους ζωντανούς οργανισμούς Σε ιούς Σε ιούς και «κατώτερες» μορφές ζωής Εικόνα 3.14: Η ροή της βιολογικής πληροφορίας.

74

75 Κεφάλαιο 4 4 Βιοπληροφορική Η βιολογία θα έχει τουλάχιστον ακόμη πενήντα ενδιαφέροντα έτη.» James Watson, 1962 Η μεγάλη συσσώρευση βιολογικών δεδομένων οδήγησε στη γέννηση μιας νέας επιστημονικής περιοχής η οποία είναι αφοσιωμένη στη διαχείριση και την ανάλυση αυτών των δεδομένων με τη χρήση προηγμένων υπολογιστικών τεχνικών. Η νέα αυτή επιστημονική περιοχή, ονομάζεται βιοπληροφορική (bioinformatics). Έχουν υπάρξει αρκετές συζητήσεις σχετικά με τον ορισμό της βιοπληροφορικής και το διαχωρισμό της από άλλα συναφή πεδία, όπως είναι η υπολογιστική βιολογία (computational biology). Η υπολογιστική βιολογία ασχολείται με την ανάπτυξη και εφαρμογή μαθηματικών και πληροφοριακών θεωριών για την μελέτη βιολογικών συστημάτων και την προσέγγιση ή ακόμα και απάντηση θεμελιωδών θεωρητικών και πειραματικών προβλημάτων της επιστήμης της βιολογίας. Μολονότι τα πεδία της βιοπληροφορικής και της υπολογιστικής βιολογίας εννοιολογικά είναι σαφώς διαχωρισμένα, πρακτικά στον τομέα της έρευνας, υπάρχει σε μεγάλο βαθμό αλληλοεπικάλυψη. Το γεγονός αυτό έχει ως αποτέλεσμα την χρησιμοποίηση των όρων αυτών εναλλακτικά. Άλλοι όροι που σπανιότερα χρησιμοποιούνται εναλλακτικά είναι η θεωρητική βιολογία (theoretical biology) και η βιοϋπολογιστική (biocomputing) [Glasgow et al., 2004]. Αυτή η σύγχυση που επικρατεί οφείλεται στο γεγονός ότι η βιοπληροφορική είναι μια διεπιστημονική περιοχή, η οποία αποτελεί τη διασταύρωση της βιολογίας, με την επιστήμη των υπολογιστών και την τεχνολογία πληροφοριών. Οι διαφορετικοί αντιπρόσωποι του πεδίου έχουν και διαφορετικές απόψεις για το σκοπό και το ρόλο της βιοπληροφορικής. Στις παραγράφους που 59

76 60 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών ακολουθούν θα δοθεί μια γενική περιγραφή του πεδίου, θα καταγραφούν τα σημαντικότερα προβλήματα με τα οποία ασχολείται και θα παρουσιαστούν οι βασικότερες εφαρμογές της μηχανικής μάθησης και ανακάλυψης γνώσης στη βιοπληροφορική [Tzanis et al., 2009]. 4.1 Οι Στόχοι της Βιοπληροφορικής Οι βασικοί στόχοι της βιοπληροφορικής είναι: Η οργάνωση των δεδομένων με τρόπο που να επιτρέπει στους ερευνητές την προσπέλαση της διαθέσιμης πληροφορίας, καθώς και την εισαγωγή νέων δεδομένων. Η ανάπτυξη εργαλείων και μέσων που βοηθούν την ανάλυση των δεδομένων. Η χρήση των εργαλείων αυτών για την ανάλυση των δεδομένων και την ερμηνεία των αποτελεσμάτων, ώστε να προκύψει βιολογικά σημαντική γνώση. Παραδοσιακά, οι βιολογικές μελέτες εστιάζονταν σε μεμονωμένα συστήματα και σε συγκρίσεις αυτών των συστημάτων με κάποια άλλα σχετικά. Στα πλαίσια της βιοπληροφορικής μπορούν να διεξαχθούν καθολικές αναλύσεις όλων των διαθέσιμων δεδομένων με σκοπό την αποκάλυψη των κοινών αρχών που διέπουν πολλά συστήματα και την επισήμανση νέων χαρακτηριστικών. 4.2 Εύρεση και Ανάλυση Βιολογικών Αλληλουχιών Ένα πολύ μεγάλο τμήμα των βιολογικών δεδομένων που καλούνται να οργανώσουν και να αναλύσουν οι επιστήμονες της βιοπληροφορικής είναι αλληλουχίες. Στις παρακάτω παραγράφους παρουσιάζονται οι βασικότερες εφαρμογές της βιοπληροφορικής σε βιολογικές αλληλουχίες Αλληλούχιση DNA Η διαδικασία εύρεσης της αλληλουχίας των νουκλεοτιδικών βάσεων σε ένα τμήμα μορίου DNA, είναι γνωστή ως αλληλούχιση DNA (DNA sequencing) [Brazma et al., 2001]. Η πρώτη αλληλούχιση ενός πλήρους γονιδιώματος βακτηρίου έγινε το 1995, ενώ η αποκρυπτογράφηση του ανθρώπινου γονιδιώματος ολοκληρώθηκε το Η αλληλούχιση DNA σε σχετικά μικρά βακτηριακά γονιδιώματα είναι αρκετά εύκολη. Το κύριο πρόβλημα είναι η ελαχιστοποίηση του κόστους ανά νουκλεοτίδιο και η μεγιστο-

77 Κεφάλαιο 4: Βιοπληροφορική 61 ποίηση της ταχύτητας, με ταυτόχρονη διατήρηση της ποιότητας. Η αποκρυπτογράφηση μεγαλύτερων γονιδιωμάτων, παραμένει δύσκολη, παρόλο που τα περισσότερα προβλήματα είναι υπολογιστικά. Ειδικά ρομπότ μπορούν να βρίσκουν αλληλουχίες μικρών σχετικά τμημάτων DNA, τα οποία στη συνέχεια συναρμολογούνται από υπολογιστές με τη βοήθεια ειδικών αλγορίθμων. Η μεγάλη δυσκολία έγκειται στην πολυπλοκότητα των γονιδιωμάτων των ανώτερων ευκαρυωτικών οργανισμών, τα οποία παρουσιάζουν πολλές επαναλαμβανόμενες υποαλληλουχίες, γεγονός που καθιστά τη διαδικασία συναρμολόγησης δύσκολη. Αυτό συνεπάγεται τη μεσολάβηση του ανθρώπου στο τελικό στάδιο μιας τέτοιας διαδικασίας Πρόβλεψη Γονιδίων Η πρόβλεψη γονιδίων αφορά στην αναγνώριση τμημάτων του DNA που είναι έχουν κάποιον ενεργό βιολογικό ρόλο. Αυτό είναι και το επόμενο βήμα μετά την αλληλούχιση και θεωρείται ιδιαίτερα σημαντικό για την επισημείωση (annotation) και την κατανόηση του γονιδιώματος ενός οργανισμού. Ωστόσο, η ακρίβεια μιας τέτοιας πρόβλεψης δεν είναι πολύ μεγάλη. Η περισσότερη γνώση που απαιτείται για τέτοιου είδους προβλέψεις προέρχεται από πειραματικά προσδιορισμένα γονίδια. Με την πρόβλεψη των γονιδίων ασχολείται η βιοπληροφορική και μάλιστα υπάρχουν διάφοροι αλγόριθμοι για πρόβλεψη γονιδίων οι οποίοι χρησιμοποιούν γνωστά γονίδια ως σύνολα εκπαίδευσης Στοίχιση Αλληλουχιών Η στοίχιση αλληλουχιών (sequence alignment) είναι η συγκριτική μέθοδος που χρησιμοποιείται για την εύρεση δομικών, λειτουργικών και εξελικτικών σχέσεων μεταξύ βιολογικών αλληλουχιών. Υπάρχουν δύο βασικοί τύποι στοίχισης αλληλουχιών: Η κατά ζεύγη (pairwise) στοίχιση αλληλουχιών, επιδιώκει την εύρεση της καλύτερης στοίχισης μεταξύ δύο πρωτεϊνικών ή νουκλεοτιδικών αλληλουχιών. Σκοπός αυτού του είδους στοίχισης είναι η εύρεση ομολόγων ενός γονιδίου ή πρωτεΐνης σε μια βάση δεδομένων από γνωστά παραδείγματα. Για να εξαχθεί το συμπέρασμα της ομολογίας μεταξύ δύο γονιδίων πρέπει να καθοριστεί αν τα συγκεκριμένα γονίδια παρουσιάζουν αρκετή ομοιότητα. Η ομοιότητα (similarity) είναι η παρατηρούμενη ποσότητα, η οποία μπορεί να εκφραστεί ως ποσοστό ταύτισης ή κάποιο άλλο κατάλληλο μέτρο. Η ομολογία (homology) αναφέρεται στο συμπέρασμα που προκύπτει από τα δεδομένα ομοιότητας και μπορεί να σημαίνει ότι δύο γονίδια έ-

78 62 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών χουν κοινή εξελικτική προέλευση. Τα γονίδια είτε είναι, είτε δεν είναι ομόλογα. Δεν υπάρχουν βαθμοί ομολογίας, όπως γίνεται με την περίπτωση της ομοιότητας [Schuler, 1998]. Οι πληροφορίες αυτές χρησιμεύουν στην απάντηση μιας ποικιλίας βιολογικών ερωτήσεων. Η σημαντικότερη εφαρμογή της κατά ζεύγη στοίχισης είναι η αναγνώριση αλληλουχιών άγνωστης δομής ή και λειτουργίας. Διακρίνονται δύο μέθοδοι στοίχισης μεταξύ δύο αλληλουχιών, η τοπική (local) και η ολική (global) στοίχιση. Στις μεθόδους ολικής στοίχισης μεταξύ δύο αλληλουχιών συμμετέχουν όλοι οι χαρακτήρες που συνθέτουν τις δύο αλληλουχίες. Οι καθολικές στοιχίσεις είναι περισσότερο χρήσιμες στην εύρεση στενά συγγενικών αλληλουχιών. Ωστόσο αυτές οι αλληλουχίες μπορούν να εντοπιστούν και με τις μεθόδους τοπικής στοίχισης. Επιπλέον, μερικά προβλήματα που παρουσιάζονται κατά την εφαρμογή των μεθόδων ολικής στοίχισης περιορίζουν τη χρησιμότητά τους. Οι μέθοδοι τοπικής στοίχισης βρίσκουν συγγενικές περιοχές μέσα στις αλληλουχίες, δηλαδή μπορούν να αποτελούνται από ένα υποσύνολο των χαρακτήρων που συνθέτουν κάθε αλληλουχία. Για παράδειγμα οι θέσεις της μίας αλληλουχίας μπορεί να ταιριάζουν με τις θέσεις της άλλης αλληλουχίας. Η μέθοδοι τοπικής στοίχισης είναι πιο ευέλικτες από της μεθόδους ολικής στοίχισης και έχουν το πλεονέκτημα της εύρεσης συγγενικών περιοχών που εμφανίζονται σε διαφορετική σειρά μέσα σε κάθε αλληλουχία. Η πολλαπλή (multiple) στοίχιση αλληλουχιών επεκτείνει την κατά ζεύγη στοίχιση, για να συμπεριλάβει περισσότερες αλληλουχίες. Οι μέθοδοι πολλαπλής στοίχισης δεν αναζητούν αλληλουχίες σε μια βάση δεδομένων, αλλά λαμβάνουν μερικές αλληλουχίες και βρίσκουν κοινές περιοχές μεταξύ όλων αυτών. Μια εφαρμογή της μεθόδου αυτής είναι στην κλαδιστική (cladistics) έναν κλάδο της βιολογίας που μελετά τις εξελικτικές σχέσεις μεταξύ των οργανισμών, ως μέθοδο δημιουργίας φυλογενετικών δένδρων, καθώς και στη δημιουργία προφίλ των αλληλουχιών, που μπορούν να χρησιμοποιηθούν για την αναζήτηση σε βάσεις δεδομένων λιγότερο στενών συγγενειών. Δύο από τους πιο γνωστούς αλγορίθμους που χρησιμοποιούνται για τη στοίχιση αλληλουχιών είναι ο αλγόριθμος των Needleman-Wunsch [Needleman & Wunch, 1970], που χρησιμοποιείται για ολική κατά ζεύγη στοίχιση και ο αλγόριθμος των Smith-Waterman [Smith & Waterman, 1981], που χρησιμοποιείται για ολική ή τοπική

79 Κεφάλαιο 4: Βιοπληροφορική 63 κατά ζεύγη στοίχιση. Εργαλεία όπως το Clustalw χρησιμοποιούνται για πολλαπλή στοίχιση αλληλουχιών Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Οι σημαντικότερες διαδικασίες ανάλυσης αλληλουχιών που αντιμετωπίζονται με αλγορίθμους της ανακάλυψης γνώσης και της μηχανικής μάθησης είναι οι εξής: Πρόβλεψη ρυθμιστικών περιοχών (regulatory regions), όπως υποκινητές (promoters) και ενισχυτές (enhancers), που αποτελούν τμήματα του DNA όπου συνήθως προτιμούν να προσάπτονται οι ρυθμιστικές πρωτεΐνες με αποτέλεσμα να ελέγχουν την έκφραση των γονιδίων και κατά συνέπεια και την έκφραση των πρωτεϊνών. Πρόβλεψη του σημείου έναρξης της μεταγραφής. Πρόβλεψη του σημείου έναρξης της μετάφρασης. Πρόβλεψη των σημείων ματίσματος, για τον καθορισμό των εξωνίων και των εσωνίων. Το φαινόμενο του εναλλακτικού ματίσματος καθιστά το πρόβλημα ακόμη πιο δύσκολο. Πρόβλεψη των σημείων πολυαδενυλίωσης, όπου μια ουρά πολλαπλής αδενίνης (polya) προστίθεται στην αλληλουχία του mrna. Το φαινόμενο της εναλλακτικής πολυαδενυλίωσης καθιστά το πρόβλημα ακόμη πιο δύσκολο. Πρόβλεψη των περιοχών κωδικοποίησης σε τμήματα αλληλουχιών μεταγεγραμμένων ματισμένων μορίων mrna, που ονομάζονται δείκτες εκπεφρασμένης αλληλουχίας (Expressed Sequence Tags -ESTs). Σύγκριση μιας άγνωστης αλληλουχίας με γνωστές αλληλουχίες σε μια βάση δεδομένων, με στόχο την εύρεση πιθανών ομολογιών (π.χ. στενές εξελικτικές σχέσεις) και την ομαδοποίηση δομικά συγγενών αλληλουχιών. Μέχρι σήμερα, έχουν χρησιμοποιηθεί αρκετές τεχνικές ανακάλυψης γνώσης και μηχανικής μάθησης για τα παραπάνω προβλήματα. Συνήθως, οι περισσότερες από αυτές τις τεχνικές τροποποιούνται και προσαρμόζονται ανάλογα με το πρόβλημα, ώστε να μπορούν να εφαρμοστούν με βέλτιστο τρόπο στις ιδιαίτερες απαιτήσεις καθενός από αυτά. Οι πλέον συνηθισμένες τεχνικές είναι τα νευρωνικά δίκτυα, οι ταξινομητές

80 64 Γεώργιος Τζανής - Πρόβλεψη της Κωδικής Περιοχής Βιολογικών Αλληλουχιών Bayes, τα δένδρα απόφασης και οι μηχανές διανυσμάτων υποστήριξης [Ma & Wang, 1999; Hirsh & Noordewier, 1994; Zien et al., 2000]. 4.3 Μέτρηση και Ανάλυση της Γονιδιακής Έκφρασης Στις επόμενες παραγράφους παρουσιάζονται οι δύο πιο σημαντικές μέθοδοι μέτρησης των επιπέδων της γονιδιακής έκφρασης, οι μικροσυστοιχίες, που είναι η πιο δημοφιλής μέθοδος και η τεχνική SAGE Μικροσυστοιχίες Οι μικροσυστοιχίες (microarrays) [Schena et al., 1995] χρησιμοποιούν τις αλληλουχίες που έχουν δημιουργηθεί από τα προγράμματα χαρτογράφησης γονιδιωμάτων και από άλλα προγράμματα αλληλούχισης DNA, για να δώσουν απάντηση στο ερώτημα: τι γονίδια εκφράζονται σε κάποιο συγκεκριμένο τύπο κυττάρου ενός οργανισμού, σε συγκεκριμένη χρονική στιγμή και κάτω από συγκεκριμένες συνθήκες. Υπάρχουν αρκετά εναλλακτικά ονόματα αυτής της τεχνολογίας, όπως μικροσυστοιχία DNA (DNA microarray), συστοιχία DNA (DNA array), τσιπ DNA (DNA chip), τσιπ γονιδίων (gene chip) και άλλες. Στην Εικόνα 4.1 παρουσιάζεται μια τέτοια συσκευή. Εικόνα 4.1: Η συστοιχία GeneChip της εταιρείας Affymetrix. Υπάρχουν διάφοροι τρόποι με τους οποίους μία μικροσυστοιχία μπορεί να χρησιμοποιηθεί για να μετρήσει τα επίπεδα της γονιδιακής έκφρασης. Μία από τις πιο δημοφιλείς εφαρμογές των μικροσυστοιχιών επιτρέπει τη σύγκριση των επιπέδων γονιδιακής έκφρασης σε δύο διαφορετικά δείγματα, για παράδειγμα τον ίδιο τύπο κυττάρου σε υγιή και ασθενή κατάσταση.

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 - Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) - 1 - Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα, όπως γίνεται αντιληπτή στην καθημερινή ζωή, μπορεί να συνδεθεί με δύο βασικές ιδιότητες: την ικανότητά στην

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα

Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα Διδακτορική Διατριβή Γεώργιος Τζανής Πτυχιούχος Τμήματος Πληροφορικής Α.Π.Θ. ΘΕΣΣΑΛΟΝΙΚΗ 2011 Γεώργιος

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Ασάφεια (Fuzziness) Ποσοτικοποίηση της ποιοτικής πληροφορίας Οφείλεται κυρίως

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη ( )

Τεχνητή Νοημοσύνη ( ) Εβδομάδα Διάλεξη Ενδεικτικά θέματα διαλέξεων Ενδεικτικά θέματα εργαστηρίων/φροντιστηρίων 1 1 1 2 2 3 2 4 3 5 3 6 4 7 4 8 5 9 Τεχνητή Νοημοσύνη (2017-18) Γενικές πληροφορίες για το μάθημα. Εισαγωγή στην

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη 6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη Σάββας Νικολαΐδης 1 ο

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων

Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων. Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Βιοπληροφορική Ι (ΜΕΡΟΣ Α) Βιοπληροφορική Ανάλυση Γονιδιωμάτων Εισαγωγή στης Βιολογικές Βάσεις Δεδομένων Η επιστήμη της Βιολογίας έχει μετατραπεί τα τελευταία χρόνια σε μια υπερπλούσια σε πληροφορίες επιστήμη.

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων για την Εύρεση Σημείου Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες

Εξόρυξη Δεδομένων για την Εύρεση Σημείου Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εξόρυξη Δεδομένων για την Εύρεση Σημείου Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες Διπλωματική Εργασία του Ιωάννη Καβακιώτη

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα

Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα Διδακτορική Διατριβή Γεώργιος Τζανής Πτυχιούχος Τμήματος Πληροφορικής Α.Π.Θ. ΘΕΣΣΑΛΟΝΙΚΗ 2011 Γεώργιος

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας

Βιοπληροφορική Ι. Παντελής Μπάγκος. Παν/µιο Στερεάς Ελλάδας Βιοπληροφορική Ι Παντελής Μπάγκος Παν/µιο Στερεάς Ελλάδας Λαµία 2006 1 Βιοπληροφορική Ι Εισαγωγή: Ορισµός της Βιοπληροφορικής, Υποδιαιρέσεις της Βιοπληροφορικής, Τα είδη των δεδοµένων στη Βιοπληροφορική.

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Εύρεση Σημείου Αποκοπής και Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες

Εύρεση Σημείου Αποκοπής και Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εύρεση Σημείου Αποκοπής και Πολυαδενυλίωσης σε Βιολογικές Αλληλουχίες Διπλωματική Εργασία του Ιωάννη Καβακιώτη (ΑΕΜ:

Διαβάστε περισσότερα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

Μηχανική Μάθηση. Η µηχανική µάθηση ως πρόβληµα αναζήτησης

Μηχανική Μάθηση. Η µηχανική µάθηση ως πρόβληµα αναζήτησης Μηχανική Μάθηση! Η έννοια της µάθησης σε ένα γνωστικό σύστηµα µπορεί να συνδεθεί µε δύοβασικές ιδιότητες: # Την ικανότητά του στην πρόσκτηση επιπλέον γνώσης κατά την αλληλεπίδρασή του µε το περιβάλλον

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ. Καραγιώργου Σοφία

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ. Καραγιώργου Σοφία ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Καραγιώργου Σοφία Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα μπορεί να συνδεθεί με 2 ιδιότητες: την ικανότητα

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής Προγραμματισμός Η/Υ Προτεινόμενα θέματα εξετάσεων Εργαστήριο Μέρος 1 ό ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής Ιανουάριος 2011 Καλογιάννης Γρηγόριος Επιστημονικός/ Εργαστηριακός

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών Σύνοψη Στο κεφάλαιο αυτό παρουσιάζονται δύο κριτήρια απόρριψης απομακρυσμένων από τη μέση τιμή πειραματικών μετρήσεων ενός φυσικού μεγέθους και συγκεκριμένα

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Εισαγωγή Η µάθηση σε

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ. Παύλος Αντωνίου ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ 450 ΥΠΟΛΟΓΙΣΤΙΚΗ ΒΙΟΛΟΓΙΑ Παύλος Αντωνίου Με μια ματιά: Εισαγωγή στη Βιολογία Ευθυγράμμιση Ακολουθιών Αναζήτηση ομοίων ακολουθιών από βάσεις δεδομενων Φυλογενετική πρόβλεψη Πρόβλεψη

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα Βιοπληροφορική και Πολυµέσα Αθήνα 1.2.2009 ΠΕΡΙΕΧΟΜΕΝΑ 1. Πως σχετίζεται µε τα Πολυµέσα 2. Τι είναι η Βιοπληροφορική 3. Χρήσεις 4. Συµπεράσµατα 5. Βιβλιογραφία Βιοπληροφορική και Πολυµέσα 2 1. Τι είναι

Διαβάστε περισσότερα

Γονιδιωματική. G. Patrinos

Γονιδιωματική. G. Patrinos Γονιδιωματική Η μεταγονιδιωματική εποχή... Σημαντικότερα επιτεύγματα POST GENOME ERA Ολοκλήρωση της αποκρυπτογράφησης της αλληλουχίας των γονιδιωμάτων πολλών οργανισμών. Προτύπωση μεθοδολογιών για προσδιορισμό

Διαβάστε περισσότερα

Στοχαστικές Στρατηγικές

Στοχαστικές Στρατηγικές Στοχαστικές Στρατηγικές 1 η ενότητα: Εισαγωγή στον Δυναμικό Προγραμματισμό Τμήμα Μαθηματικών, ΑΠΘ Ακαδημαϊκό έτος 2018-2019 Χειμερινό Εξάμηνο Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & Πανεπιστήμιο

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

Έμπειρα Συστήματα. Εργαστήριο

Έμπειρα Συστήματα. Εργαστήριο Έμπειρα Συστήματα Εργαστήριο Χρυσόστομος Στύλιος E-class: Ανακοινώσεις, διαφάνειες, εργασίες, χρήσιμοι σύνδεσμοι, κλπ. 1 Εργασίες Θα δοθεί υποχρεωτική εργασία: Ανάπτυξη ενός έμπειρου συστήματος σε γλώσσα

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1 ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1 1 Βελτιστοποίηση Στην προσπάθεια αντιμετώπισης και επίλυσης των προβλημάτων που προκύπτουν στην πράξη, αναπτύσσουμε μαθηματικά μοντέλα,

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ Συνδυασμένη χρήση μοντέλων προσομοίωσης βελτιστοποίησης. Η μέθοδος του μητρώου μοναδιαίας απόκρισης Νικόλαος

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Διδακτική της Πληροφορικής ΙΙ

Διδακτική της Πληροφορικής ΙΙ Διδακτική της Πληροφορικής ΙΙ Ομάδα Γ Βότσης Ευστάθιος Γιαζιτσής Παντελής Σπαής Αλέξανδρος Τάτσης Γεώργιος Προβλήματα που αντιμετωπίζουν οι αρχάριοι προγραμματιστές Εισαγωγή Προβλήματα Δυσκολίες Διδακτικό

Διαβάστε περισσότερα

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Αναζήτηση γνώσης σε Νοσοκομειακά Δεδομένα ΤΟΡΤΟΠΙΔΗΣ ΓΕΩΡΓΙΟΣ Μηχανικός Η/Υ & Πληροφορικής Επιβλέπων: ΒΛΑΧΑΒΑΣ Π. ΙΩΑΝΝΗΣ Καθηγητής Τμ. Πληροφορικής

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΒΙΟΜΗΧΑΝΙΚΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ I ΟΙΚΟΝΟΜΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΔΙΟΙΚΗΣΗ ΒΙΟΜΗΧΑΝΙΚΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ I ΟΙΚΟΝΟΜΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΟΙΚΗΣΗ ΒΙΟΜΗΧΑΝΙΚΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ I ΟΙΚΟΝΟΜΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ Λέκτορας Ι. Γιαννατσής Καθηγητής Π. Φωτήλας ΟΙΚΟΝΟΜΙΚΗ ΕΠΙΣΤΗΜΗ Οικονομική Επιστήμη: Η κοινωνική επιστήμη που ερευνά την οικονομική δραστηριότητα

Διαβάστε περισσότερα

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 2. Η έννοια του προβλήματος 2 2. Η έννοια του προβλήματος 2.1 Το πρόβλημα στην επιστήμη των Η/Υ 2.2 Κατηγορίες προβλημάτων

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης. Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού

Πληροφοριακά Συστήματα Διοίκησης. Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού Πληροφοριακά Συστήματα Διοίκησης Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού Σημασία μοντέλου Το μοντέλο δημιουργεί μια λογική δομή μέσω της οποίας αποκτούμε μια χρήσιμη άποψη

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Λογική Δημήτρης Πλεξουσάκης 2ο μέρος σημειώσεων: Συστήματα Αποδείξεων για τον ΠΛ, Μορφολογική Παραγωγή, Κατασκευή Μοντέλων Τμήμα Επιστήμης Υπολογιστών Άδειες Χρήσης

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Βάσεις Δεδομένων Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Στέργιος Παλαμάς, Υλικό Μαθήματος «Βάσεις Δεδομένων», 2015-2016 Κεφάλαιο 2: Περιβάλλον Βάσεων Δεδομένων Μοντέλα Δεδομένων 2.1

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ 2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ Προκειμένου να επιτευχθεί η «ακριβής περιγραφή» ενός αλγορίθμου, χρησιμοποιείται κάποια γλώσσα που μπορεί να περιγράφει σειρές ενεργειών με τρόπο αυστηρό,

Διαβάστε περισσότερα

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Αναστάσιος Σκαρλατίδης 1,2 anskarl@iit.demokritos.gr επιβλέπων: Καθ. Βούρος Γ. 1 1 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Πανεπιστήµιο

Διαβάστε περισσότερα

Ακέραιος Γραμμικός Προγραμματισμός

Ακέραιος Γραμμικός Προγραμματισμός Τμήμα Πληροφορικής & Τηλεπικοινωνιών Πανεπιστήμιο Ιωαννίνων 2018-2019 Ακέραιος Γραμμικός Προγραμματισμός Γκόγκος Χρήστος- Γεωργία Φουτσιτζή Επιχειρησιακή Έρευνα τελευταία ενημέρωση: 12/01/2017 1 Ακέραιος

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ... ΠΕΡΙΕΧΟΜΕΝΑ ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...................................... 11 ΠΡΟΛΟΓΟΣ..........................................................15 1. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΝΑΛΥΤΙΚΗ, ΣΤΑ ΠΟΣΟΤΙΚΑ

Διαβάστε περισσότερα

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016

Βιοπληροφορική. Μαργαρίτα Θεοδωροπούλου. Πανεπιστήμιο Θεσσαλίας, Λαμία 2016 Βιοπληροφορική Μαργαρίτα Θεοδωροπούλου Πανεπιστήμιο Θεσσαλίας, Λαμία 2016 Βιοπληροφορική Εισαγωγή στη Μοριακή Βιολογία, Γενωμική και Βιοπληροφορική. Βάσεις Βιολογικών Δεδομένων. Ακολουθίες Πρωτεϊνών και

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΚΕΦΑΛΑΙΑ 3 και 9 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΕΣ Δεδομένα αφαιρετική αναπαράσταση της πραγματικότητας και συνεπώς μία απλοποιημένη όψη της δηλαδή.

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ GD2670

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ GD2670 ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ GD2670 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ Έκτο ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ Δομές Δεδομένων και Αλγόριθμοι ΑΥΤΟΤΕΛΕΙΣ ΔΙΔΑΚΤΙΚΕΣ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Σεπτεµβρίου 2005 5:00-8:00 Σχεδιάστε έναν αισθητήρα ercetro

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής Νίκος Βασιλειάδης, Αναπλ. Καθηγητής Άδειες

Διαβάστε περισσότερα

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής

Διαβάστε περισσότερα

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Ένα από τα γνωστότερα παραδείγματα των ΕΑ είναι ο Γενετικός

Διαβάστε περισσότερα

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση Κεφάλαιο 8 Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Αναπαράσταση Γνώσης Σύνολο συντακτικών

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ (1) ΓΕΝΙΚΑ ΣΧΟΛΗ ΠΟΛΥΤΕΧΝΙΚΗ ΤΜΗΜΑ Μηχανικών Οικονομίας και Διοίκησης ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΓΕ0145 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 4ο ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ Εργαστήριο Προγράμματος

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) 1 Προέλευση και ιστορία της Επιχειρησιακής Έρευνας Αλλαγές στις επιχειρήσεις Τέλος του 19ου αιώνα: βιομηχανική

Διαβάστε περισσότερα

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο Εφαρμογές Ανάλυσης Σήματος στη Γεωδαισία Παρουσίαση η : Αρχές εκτίμησης παραμέτρων Μέρος ο Βασίλειος Δ. Ανδριτσάνος Αναπληρωτής Καθηγητής Γεώργιος Χλούπης Επίκουρος Καθηγητής Τμήμα Μηχανικών Τοπογραφίας

Διαβάστε περισσότερα

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Δανάη Κούτρα Eργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Εθνικό Μετσόβιο Πολυτεχνείο Θέματα Σκοπός της διπλωματικής

Διαβάστε περισσότερα

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) Των σπουδαστών Σκλαβενίτης Αργύρης (Α.Μ. 535) Στασινός

Διαβάστε περισσότερα

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Εισαγωγή Παρουσιάστηκε από τον Thomas L. Saaty τη δεκαετία του 70 Μεθοδολογία που εφαρμόζεται στην περιοχή των Multicriteria Problems Δίνει

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μάθημα 10: Ανάπτυξη ΠΣ Μαρίνος Θεμιστοκλέους Email: mthemist@unipi.gr Ανδρούτσου 150 Γραφείο 206 Τηλ. 210 414 2723 Ώρες Γραφείου: Δευτέρα 11-12 πμ Ενδεικτικά Περιεχόμενα Εργασίας

Διαβάστε περισσότερα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΟΜΑΔΑ Λ Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τι είναι η βιοπληροφορική; Αποκαλείται ο επιστημονικός κλάδος ο οποίος προέκυψε από

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες

Διαβάστε περισσότερα