Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Transcript

1 Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α Η ΜΕΤΡΙΚΗ ΔΕΛΤΑ ΩΣ ΚΡΙΤΗΡΙΟ ΔΙΑΧΩΡΙΣΜΟΥ ΤΟΥ J48 ΓΙΑ ΤΗΝ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΓΕΝΕΤΙΚΗΣ ΠΛΗΘΥΣΜΩΝ Δήμητρα-Νεφέλη Στύλλα (ΑΕΜ 2091) ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Βλαχάβας Ιωάννης ΘΕΣΣΑΛΟΝΙΚΗ 2014

2

3

4

5

6

7 ΠΕΡΙΛΗΨΗ ΠΕΡΙΛΗΨΗ Η συγκεκριμένη πτυχιακή εργασία ανήκει στο πεδίο της Βιοπληροφορικής και πιο συγκεκριμένα ασχολείται με την ανάλυση γενετικών δεδομένων. Στόχος της είναι η εξαγωγή ακριβέστερων αποτελεσμάτων ταξινόμησης ατόμων σε πληθυσμούς προέλευσης. Για να επιτευχθεί ο στόχος αυτός έγινε τροποποίηση ενός από τους αλγορίθμους ταξινόμησης δεδομένων. Πραγματοποιήθηκε αλλαγή του κριτηρίου που χρησιμοποιείται από τον αλγόριθμο, έτσι ώστε να είναι βιολογικά προσανατολισμένο, μέσω της μεθόδου Δέλτα, η οποία θα αναλυθεί στο κεφάλαιο τέσσερα. Με λίγα λόγια στην εργασία αυτή, θα δούμε τον τομέα της Πληροφορικής να συνδυάζεται με τον τομέα της Βιολογίας με σκοπό την βελτίωση της λύσης ενός κυρίως βιολογικού προβλήματος, την κατάταξη ατόμων σε πληθυσμούς. Οι γνώσεις που είναι απαραίτητες για την κατανόηση του θέματος αυτού, αναλύονται διεξοδικά, από το θέμα της Μηχανικής Μάθησης μέχρι τον τομέα της Πληθυσμιακής Γενετικής. Το αποτέλεσμα της τροποποίησης μπορεί να φανεί αρκετά χρήσιμο στον τομέα της κτηνοτροφίας και κατ επέκταση σε άλλους τομείς που σχετίζονται με αυτήν, δεδομένου ότι θα έχει θετικά αποτελέσματα. Ανεξάρτητα από το αποτέλεσμα όμως, δεν παύει να είναι μια ευκαιρία για διερεύνηση των δυνατοτήτων μιας μετρικής, για επιπλέον έρευνα πάνω στην εξόρυξη δεδομένων και για αξιοποίηση νέων δημιουργικών ιδεών. Δήμητρα-Νεφέλη Στύλλα Ιούλιος 2014 ΠΤΥΧΙΑΚΗ/ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ VII

8

9 ABSTRACT ABSTRACT This thesis is in the field of Bioinformatics and specifically deals with the analysis of genetic data. The aim is to export more accurate classification results for individuals in populations of origin. To achieve this goal there has been a modification to one of data classification algorithms. A change was made in the criterion used by the algorithm, so that it is biologically oriented through the delta method, which will be discussed in chapter four. In short,in this work, we will see the field of Information Technology combined with the field of biology to improve the solution of a particular biological problem, ranking individuals in populations. The knowledge that is needed to understand this issue,is analyzed in detail,from the issue of machine learning to the field of population genetics. The result of the change can be seen quite useful in the livestock sector and by extension in other areas related to it, if it will have positive results. Regardless of the outcome, however, it is still an opportunity to explore the possibilities of a modular, additional research on data mining and exploitation of new creative ideas. Dimitra-Nefeli Stylla July 2014 ΠΤΥΧΙΑΚΗ/ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ IX

10 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ ΕΥΧΑΡΙΣΤΙΕΣ Η παρούσα πτυχιακή εργασία πραγματοποιήθηκε το ακαδημαϊκό έτος στο εργαστήριο Γλωσσών Προγραμματισμού και Τεχνολογίας Λογισμικού (Programming Languages and Software Engineering Laboratory - PLaSE Laboratory) του τμήματος πληροφορικής του Α.Π.Θ., σε συνεργασία με την ομάδα Μηχανικής Μάθησης και Ανακάλυψης Γνώσης (Machine Learning and Knowledge Discovery Group MLKD Group). Η εκπόνηση της εργασίας έγινε υπό την επίβλεψη του καθηγητή κ. Ιωάννη Βλαχάβα, τον οποίο ευχαριστώ για την εμπιστοσύνη που μου έδειξε σε όλη την διαδικασία εκπόνησης της εργασίας, από την ανάθεση μέχρι την ολοκλήρωση της. Θα ήθελα επίσης να ευχαριστήσω τον υποψήφιο διδάκτορα, Ιωάννη Καβακιώτη, για την πολύτιμη βοήθεια και καθοδήγησή του και για την άψογη συνεργασία που είχαμε. Τέλος, θέλω να ευχαριστήσω τους γονείς και τους φίλους μου οι οποίοι με στήριξαν ο καθένας με τον δικό του τρόπο. Δήμητρα-Νεφέλη Στύλλα Ιούλιος 2014 X

11 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΛΗΨΗ... VII ABSTRACT... IX ΕΥΧΑΡΙΣΤΙΕΣ... X ΠΕΡΙΕΧΟΜΕΝΑ... XI 1. ΕΙΣΑΓΩΓΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΟΡΙΣΜΟΣ ΚΑΤΗΓΟΡΙΕΣ ΤΕΧΝΙΚΩΝ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΜΑΘΗΣΗ ΣΥΝΑΡΤΗΣΗΣ ΟΜΑΔΟΠΟΙΗΣΗ ΕΞΟΡΥΞΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ ΣΥΝΑΦΕΙΣ ΠΕΡΙΟΧΕΣ ΤΗΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΕΦΑΡΜΟΓΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΤΑ ΣΤΑΔΙΑ ΤΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΠΡΟΒΛΗΜΑΤΑ ΣΤΗΝ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΕΙΔΗ ΔΕΔΟΜΕΝΩΝ ΚΑΤΑΝΕΜΗΜΕΝΗ ΚΑΙ ΑΠΑΝΤΑΧΟΥ ΕΞΟΡΥΞΗ ΑΠΟ ΔΕΔΟΜΕΝΑ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ XI

12 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ 3. ΠΛΗΘΥΣΜΙΑΚΗ ΓΕΝΕΤΙΚΗ ΙΣΤΟΡΙΚΗ ΑΝΑΔΡΟΜΗ ΑΝΤΙΚΕΙΜΕΝΟ ΠΛΗΘΥΣΜΙΑΚΗΣ ΓΕΝΕΤΙΚΗΣ ΣΥΧΝΟΤΗΤΕΣ ΓΟΝΟΤΥΠΩΝ ΚΑΙ ΑΛΛΗΛΟΜΟΡΦΩΝ Ο ΝΟΜΟΣ ΤΩΝ HARDY-WEINBERG ΔΙΕΡΓΑΣΙΕΣ ΜΕΤΑΒΟΛΗΣ ΤΩΝ ΓΟΝΙΔΙΑΚΩΝ ΣΥΧΝΟΤΗΤΩΝ ΦΥΣΙΚΗ ΕΠΙΛΟΓΗ ΜΕΤΑΝΑΣΤΕΥΣΗ ΜΕΤΑΛΛΑΞΗ ΤΥΧΑΙΑ ΓΕΝΕΤΙΚΗ ΠΑΡΕΚΚΛΙΣΗ ΜΗ ΤΥΧΑΙΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΠΛΗΘΥΣΜΙΑΚΗΣ ΓΕΝΕΤΙΚΗΣ ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ /ΤΑΞΙΝΟΜΗΣΗΣ ΔΟΜΗ ΔΕΝΤΡΩΝ ΚΡΙΤΗΡΙΑ ΔΙΑΧΩΡΙΣΜΟΥ (SPLIT CRITERIA) ΝΕΑ ΚΡΙΤΗΡΙΑ ΔΙΑΧΩΡΙΣΜΟΥ ΑΛΛΑΓΗ SPLIT CRITERIA ΣΤΟΝ ΚΩΔΙΚΑ ΤΟΥ WEKA ΔΗΜΙΟΥΡΓΙΑ PROJECT ΥΛΟΠΟΙΗΣΗΣ J XII

13 5.2 ΑΛΛΑΓΕΣ ΣΤΟΝ ΚΩΔΙΚΑ ΔΟΚΙΜΗ ΤΟΥ ΝΕΟΥ ΚΡΙΤΗΡΙΟΥ ΣΕ ΓΕΝΕΤΙΚΑ ΔΕΔΟΜΕΝΑ ΣΥΜΠΕΡΑΣΜΑΤΑ ΒΙΒΛΙΟΓΡΑΦΙΑ XIII

14 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ XIV

15 1. ΕΙΣΑΓΩΓΗ

16

17 1 ΕΙΣΑΓΩΓΗ ΕΙΣΑΓΩΓΗ Βιοπληροφορική είναι ο επιστημονικός χώρος όπου η σύμπραξη της Βιολογίας με την Πληροφορική, την Στατιστική και τα Μαθηματικά εξερευνά νέους τρόπους για την προσέγγιση των βιολογικών προβλημάτων, καθώς και την αντίληψη βασικών αρχών της Βιολογίας. Ο κλάδος της Βιοπληροφορικής σήμερα θεωρείται, παγκόσμια, ένας από τους πλέον αναπτυσσόμενους, ενώ έχει ήδη επιδείξει σημαντικά επιτεύγματα και έχει συγκεντρώσει ιδιαίτερα σημαντικές επενδύσεις. Θεωρώντας τα βιολογικά δεδομένα (DNA, RNA, πρωτεΐνες) ως ψηφιακή πληροφορία, εφαρμόζει αλγορίθμους για την επεξεργασία τους και την παραγωγή χρήσιμων συμπερασμάτων με αποδοτικό τρόπο. Συνήθως χρησιμοποιούνται μέθοδοι κλάδων της τεχνητής νοημοσύνης, όπως η εξόρυξη δεδομένων η οποία θα αναλυθεί σε επόμενο κεφάλαιο. Η παρούσα Πτυχιακή εργασία ασχολείται με το πεδίο της Βιοπληροφορικής και την ανάλυση γενετικών δεδομένων. Στόχος της είναι η εξαγωγή ακριβέστερων αποτελεσμάτων μετά από τροποποίηση ενός από τους αλγορίθμους ταξινόμησης δεδομένων. Ειδικότερα, αφού γίνει αλλαγή των Split Criteria στον αλγόριθμο j48, στην συνέχεια θα πραγματοποιηθεί συγκριτική μελέτη ανάμεσα στα αποτελέσματα των δύο εκδοχών του αλγορίθμου. Τα κριτήρια, που μέχρι τώρα είναι καθαρά μαθηματικά, θα αντικατασταθούν από νέα, τα οποία είναι προσανατολισμένα περισσότερο στα πεδία της Βιολογίας και Γενετικής. Αρχικά θα αναλυθούν οι τομείς της Μηχανικής Μάθησης και Ανακάλυψης Γνώσης, δηλαδή το θεωρητικό υπόβαθρο για το κομμάτι της πτυχιακής που αφορά τον αλγόριθμο ταξινόμησης που πρόκειται να τροποποιηθεί. Με λίγα λόγια θα δούμε το θέμα της εργασίας από την σκοπιά της Πληροφορικής. Έπειτα, θα παρουσιαστούν κάποια θέματα από τον τομέα της Βιολογίας και Γενετικής τα οποία βοηθούν στην καλύτερη κατανόηση του νέου κριτηρίου διαχωρισμού που θα εφαρμοστεί στον αλγόριθμο ταξινόμησης. Τέλος, θα γίνει τροποποίηση του κώδικα του συγκεκριμένου αλγορίθμου στο Weka, και θα δοκιμαστεί σε σύνολα δεδομένων με γενετικά χαρακτηριστικά για την εξαγωγή συμπερασμάτων σχετικά με την αποδοτικότητα του. 17

18 18

19 2. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ

20

21 2 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ Η δυνατότητα του ανθρώπου να μαθαίνει και να εξελίσσεται μέσα από την γνώση που αποκτά, δεν θα μπορούσε να λείπει από τους στόχους της Τεχνητής Νοημοσύνης, που όπως ορίστηκε από τον Τζον Μακάρθι είναι η «επιστήμη και μεθοδολογία της δημιουργίας νοούντων μηχανών». Ο τομέας που ασχολείται με τον συγκεκριμένο στόχο ονομάζεται Μηχανική Μάθηση (machine learning). Παρ όλο που σαν όρος εισήχθηκε στις αρχές της δεκαετίας του 1980, η μηχανική μάθηση είναι αρκετά παλαιός τομέας και από πολλούς ταυτίζεται με την Τεχνητή Νοημοσύνη. Έχει αξιοποιηθεί για την επίλυση πολλών προβλημάτων, όπως την Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων (Knowledge Discovery in Databases- KDD) που μαζί με την Μηχανική Μάθηση θα αποτελέσει το θέμα του κεφαλαίου που ακολουθεί. 2.1 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Γενικά, η μηχανική μάθηση έχει να κάνει με την ικανότητα του συστήματος να αντιλαμβάνεται το περιβάλλον του και μέσω της γνώσης που αποκτά από αυτό, να βελτιώνει τις ενέργειές του. Στην διαδικασία αυτή, όμως, προκύπτουν διαφορετικά θέματα προς επίλυση. Αρχικό θέμα είναι η μορφή που το σύστημα θα αντιλαμβάνεται την γνώση που προκύπτει από τις αλλαγές στο περιβάλλον του και πώς θα την αναπαριστά για μελλοντική χρήση. Επίσης, βασικό είναι να προσδιοριστούν οι καθοριστικοί παράγοντες της βελτίωσης που πρόκειται να γίνει στις ενέργειες του συστήματος, καθώς και να εξασφαλιστεί η μη επίδραση κάποιας ενέργειας σε μία άλλη κατά την διάρκεια των αλλαγών Ορισμός Πριν ορίσουμε με ακρίβεια την μηχανική μάθηση είναι καλό να γίνει αποσαφήνιση συγκεκριμένων εννοιών: Για τον άνθρωπο: Μοντέλο(model): Μία απλοποιημένη-αφαιρετική αναπαράσταση ενός συστήματος και στην προκειμένη περίπτωση του περιβάλλοντος. Πρότυπο(pattern): δομές που δημιουργούνται από την οργάνωση και την συσχέτιση εμπειριών και παραστάσεων. Για το σύστημα: Η δημιουργία ενός μοντέλου ονομάζεται επαγωγική μάθηση(inductive learning) ενώ η διαδικασία γενικά λέγεται επαγωγή(induction). Ειδικότερα, η επαγωγή είναι η απόδοση ιδιοτήτων ή συσχετισμών με βάση πεπερασμένες παρατηρήσεις ομοίων φαινομένων. Μπορεί να μην οδηγεί σε βέβαια συμπεράσματα αλλά αποτελεί σημαντικό παράγοντα της επιστημονικής έρευνας. 21

22 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ Η δημιουργία μοντέλων ή προτύπων από ένα σύνολο δεδομένων, από ένα υπολογιστικό σύστημα, ονομάζεται μηχανική μάθηση. [Βλαχάβας κ.α.,2005] Το 1959, ο πρωτοπόρος σχεδιαστής παιχνιδιών Άρθουρ Σάμουελ (Arthur Samuel) όρισε ως μηχανική μάθηση "Το πεδίο μελέτης όπου δίνει στους υπολογιστές την δυνατότητα να μαθαίνουν χωρίς να έχουν προγραμματιστεί". Carbonell (1987): «η μελέτη υπολογιστικών μεθόδων για την απόκτηση νέας γνώσης, νέων δεξιοτήτων και νέων τρόπων οργάνωσης της υπάρχουσας γνώσης». Witten & Frank (2000): «Κάτι μαθαίνει όταν αλλάζει την συμπεριφορά του κατά τέτοιο τρόπο ώστε να αποδίδει καλύτερα στο μέλλον». Mitchell (1997): «Ένα πρόγραμμα υπολογιστή θεωρείται ότι μαθαίνει από την εμπειρία Ε σε σχέση με μια κατηγορία εργασιών Τ και μια μετρική απόδοσης Ρ, αν η απόδοσή του σε εργασίες της Τ, όπως μετριούνται από την Ρ, βελτιώνονται με την εμπειρία Ε» Κατηγορίες τεχνικών μηχανικής μάθησης Μάθηση Συνάρτησης Στην κατηγορία αυτή, στόχος είναι η επαγωγική μάθηση της «συνάρτησης στόχο» (target function), μια συνάρτηση που απεικονίζει το μοντέλο που περιγράφει τα δεδομένα. Το πεδίο ορισμού της συνάρτησης, δηλαδή το σύνολο των τιμών που μπορεί να δεχθεί ως είσοδο, ονομάζεται σύνολο περιπτώσεων ή στιγμιότυπων και συμβολίζεται με Χ. Με την συνάρτηση στόχο γίνεται η πρόβλεψη της τιμής μιας μεταβλητής που ονομάζεται εξαρτημένη μεταβλητή ή μεταβλητή εξόδου, χρησιμοποιώντας τις τιμές ενός συνόλου μεταβλητών που ονομάζονται ανεξάρτητες μεταβλητές ή μεταβλητές εισόδου ή χαρακτηριστικά. Κάθε περίπτωση ή στιγμιότυπο προσδιορίζεται από ένα σύνολο χαρακτηριστικών(attributes ή features). Ένα σύνολο περιπτώσεων για τις οποίες γνωρίζουμε την έξοδο της συνάρτησης ονομάζεται σύνολο δεδομένων εκπαίδευσης ή παραδείγματα και συμβολίζεται με D. Με δεδομένο ένα σύνολο εκπαίδευσης, το σύστημα εξετάζει διαφορετικές συναρτήσεις για την καλύτερη προσέγγιση της συνάρτησης στόχου, οι οποίες ονομάζονται υποθέσεις και συμβολίζονται με h. Το σύνολο των υποθέσεων που είναι πιθανό να εξετάσει το σύστημα ονομάζεται σύνολο υποθέσεων και συμβολίζεται με H. Σ αυτή την τεχνική μάθησης παρατηρούνται δύο είδη προβλημάτων, τα προβλήματα κατηγοριοποίησης (classification) στα οποία γίνεται πρόβλεψη μοντέλων διακριτών κλάσεων και τα προβλήματα παλινδρόμησης (regression) που αφορούν την πρόβλεψη αριθμητικών τιμών. Κάποιες από τις τεχνικές μάθησης συνάρτησης είναι: Δένδρα ταξινόμησης ή απόφασης (Classification or Decision Trees) 22 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

23 2 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ Γενετικοί αλγόριθμοι (Genetic Algorithms) Μάθηση κατά Bayes Νευρωνικά δίκτυα (Neural Networks) Μάθηση εννοιών (Concept Learning) Μάθηση με βάση τις περιπτώσεις (Instance Based Learning) Μάθηση κανόνων (Rule Learning) Μηχανές διανυσμάτων υποστήριξης (Support Vector Machines- SVMs) Ομαδοποίηση Είναι η διαδικασία κατά την οποία γίνεται διαχωρισμός των δεδομένων σε ομάδες με στόχο τα δεδομένα που βρίσκονται στην ίδια ομάδα να είναι όσο περισσότερο όμοια είναι δυνατόν και τα δεδομένα που βρίσκονται σε διαφορετικές ομάδες να διαφέρουν όσο είναι δυνατό. Υπάρχουν τρεις κατηγορίες αλγορίθμων ομαδοποίησης: Αλγόριθμοι βασισμένοι σε διαχωρισμούς : προσπαθούν να διαμοιράσουν με τον βέλτιστο τρόπο ένα σύνολο δεδομένων σε ένα καθορισμένο αριθμό ομάδων, όπως ο αλγόριθμος των Κ-μέσων (K-means). Ιεραρχικοί αλγόριθμοι : με ιεραρχικό τρόπο προκύπτει ο αριθμός και η δομή των ομάδων. Ανάλογα με τον τρόπο ανάπτυξης της ιεραρχίας που ακολουθούν διακρίνονται στους αλγορίθμους συγχώνευσης(agglomerative) και στους αλγορίθμους διαίρεσης (divisive). Πιθανοκρατικοί αλγόριθμοι: βασίζονται σε μοντέλα πιθανοτήτων όπως η θεωρία του Bayes Εξόρυξη κανόνων συσχέτισης Η ανακάλυψη ή εξόρυξη κανόνων συσχέτισης (Association Rule Mining) είναι μια δημοφιλής μέθοδος στην οποία έχει διεξαχθεί αρκετή έρευνα, για την ανακάλυψη αξιοσημείωτων συσχετίσεων ανάμεσα σε αντικείμενα μεγάλων βάσεων δεδομένων [Piatetsky-Shapiro, Gregory (1991)]. Είναι προορισμένη να αναγνωρίζει ισχυρούς κανόνες χρησιμοποιώντας διαφορετικό βαθμό σημαντικότητας. Βασιζόμενος σ αυτήν την ιδέα ο Rakesh Agrawal πρότεινε τους κανόνες συσχέτισης για την ανακάλυψη τακτικών σχέσεων ανάμεσα σε προϊόντα που συναλλάσσονταν σε μεγάλη κλίμακα και καταγράφονταν από το σύστημα point-of-sale (POS) των supermarkets [Agrawal R., Imieliński T., Swami A. (1993)]. Για παράδειγμα ο κανόνας {onions,potatoes} => {burger} υποδηλώνει ότι αν κάποιος επέλεγε να αγοράσει κρεμμύδια και πατάτες μαζί τότε θα ήταν πολύ πιθανό να αγοράσει και κρέας για burger. Μια τέτοια πληροφορία θα μπορούσε να επηρεάσει τις αποφάσεις του καταστήματος όσον αφορά την θέση των προϊόντων ή τον καθορισμό προσφορών. Γενικά οι κανόνες είναι της μορφής {Χ1, Χn} => {Y}. Δύο ποσοτικά μεγέθη 23

24 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ μετρούν την ποιότητα και την εγκυρότητα των κανόνων συσχέτισης που έχουν παραχθεί, η υποστήριξη (Support) και η εμπιστοσύνη (Confidence). Υποστήριξη: εκφράζει την πιθανότητα να βρίσκεται ένας συνδυασμός αντικειμένων σε μια βάση δεδομένων. Εμπιστοσύνη: εκφράζει την πιθανότητα να βρεθεί το αντικείμενο Υ σε μια βάση δεδομένων όταν βρίσκονται και τα αντικείμενα Χ1, Χn. Για να αποφασίσουμε ποιους κανόνες θα κρατήσουμε επειδή έχουν κάποια πρακτική αξία θέτουμε στα παραπάνω μεγέθη ένα κάτω όριο για να απορρίψουμε όσους κανόνες δεν ανταποκρίνονται στις απαιτήσεις. Ο πιο γνωστός αλγόριθμος που υλοποιεί την επιλογή των κανόνων είναι ο Apriori που προτάθηκε το 1994 [Agrawal R et al.1994] Ενισχυτική Μάθηση Η ενισχυτική μάθηση (reinforcement learning) είναι ένας γενικός όρος που έχει δοθεί σε μια οικογένεια τεχνικών στις οποίες το σύστημα μάθησης προσπαθεί να μάθει μέσα από την άμεση αλληλεπίδραση με το περιβάλλον. Εφαρμόζεται στον έλεγχο κίνησης ρομπότ, στη βελτιστοποίηση εργασιών σε εργοστάσια, στη μάθηση επιτραπέζιων παιχνιδιών, κτλ. Η έννοια της ενισχυτικής μάθησης είναι εμπνευσμένη από τα αντίστοιχα ανάλογα της μάθησης με επιβράβευση και τιμωρία που συναντώνται ως μοντέλα μάθησης των έμβιων όντων. Σκοπός του συστήματος μάθησης είναι να μεγιστοποιήσει μια συνάρτηση του αριθμητικού σήματος ενίσχυσης (ανταμοιβή), για παράδειγμα την αναμενόμενη τιμή του σήματος ενίσχυσης στο επόμενο βήμα. Το σύστημα δεν καθοδηγείται από κάποιον εξωτερικό επιβλέποντα για το ποια ενέργεια θα πρέπει να ακολουθήσει αλλά πρέπει να ανακαλύψει μόνο του ποιες ενέργειες είναι αυτές που θα του αποφέρουν το μεγαλύτερο κέρδος. Διαφορετική Κατηγοριοποίηση Μάθηση με επίβλεψη (Supervised Learning) : 1. Ταυτίζεται με την μάθηση συνάρτησης. 2. Το όνομα προκύπτει από το γεγονός ότι υπάρχει κάποιος που μας δίνει τις τιμές εξόδου για τα δεδομένα που εξετάζουμε. 3. Σ αυτή την κατηγορία μπορεί να ενταχθεί και η ενισχυτική μάθηση αφού το περιβάλλον (εξωτερικός παράγων) δίνει κάποια αριθμητική ανταμοιβή στο σύστημα για κάθε ενέργειά του. Μάθηση χωρίς επίβλεψη (Unsupervised Learning) : 1. Ταυτίζεται με το πρόβλημα της ομαδοποίησης, αφού κι εκεί δεν υπάρχει επιβλέπων και δεν γνωρίζουμε πόσες, ποιες και αν υπάρχουν ομάδες. 2. Μπορούμε να εντάξουμε την εξόρυξη κανόνων συσχέτισης, αφού δε γνωρίζουμε εκ των προτέρων αν υπάρχουν κάποιες συσχετίσεις στα δεδομένα και ποιες είναι αυτές. 24 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

25 2 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ 3. Μπορούμε να εντάξουμε και εδώ την ενισχυτική μάθηση αφού το περιβάλλον είναι άγνωστο για το σύστημα και καλείται να το γνωρίσει από μόνο του μέσω δοκιμής και αποτυχίας Συναφείς περιοχές της Μηχανικής Μάθησης Τεχνητή Νοημοσύνη: Μάθηση ως πρόβλημα αναζήτησης και για τη βελτίωση συστημάτων επίλυσης προβλημάτων και συστημάτων σχεδιασμού ενεργειών. Θεωρία πληροφορίας: Μετρικές εντροπίας και πληροφοριακού περιεχομένου και κωδικοποίηση υποθέσεων. Φιλοσοφία: Η απλούστερη υπόθεση είναι η καλύτερη (Occam's razor). Ψυχολογία: Για ένα μεγάλο εύρος προβλημάτων μάθησης, ο χρόνος απόκρισης του ανθρώπου μειώνεται εκθετικά με την πρακτική εξάσκηση (Power law of practice). Βιολογία: Νευρωνικά Δίκτυα, Γενετικοί Αλγόριθμοι Στατιστική: Στατιστικά τεστ, διαστήματα εμπιστοσύνης, χαρακτηρισμός σφαλμάτων μάθησης Εφαρμογές μηχανικής μάθησης Βιοπληροφορική: στοίχιση ακολουθιών και ανάλυση δεδομένων από μικροσυστοιχίες. Μηχανική όραση: αναγνώριση αντικειμένων και τμηματοποίηση εικόνας. Ρομποτική: υπολογισμός κατάστασης, δημιουργία χάρτη, λήψη απόφασης. Γραφικά: Δημιουργία ρεαλιστικών προσομοιώσεων. Πολυμέσα: Ανάκτηση με βάση το περιεχόμενο. Ηλεκτρονικά παιχνίδια: Σχεδιασμός ικανών αντιπάλων. 25

26 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ Φαρμακευτική: διάγνωση, θεραπεία, σχεδίαση φαρμάκων. Ηλεκτρονικό εμπόριο: πράκτορες για αυτόματο εμπόριο, διατήρηση πελατών. Οικονομική ανάλυση: πρόβλεψη τιμών μετοχών. Ομιλία: αναγνώριση, εξακρίβωση ομιλητή. 2.2 ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Η διαδικασία ανακάλυψης γνώσης είναι μια ολοκληρωμένη διαδικασία που αποτελείται από την επεξεργασία των δεδομένων, την εφαρμογή σε αυτά των αλγορίθμων ανακάλυψης γνώσης και τελικά την ερμηνεία των αποτελεσμάτων, με σκοπό τον προσδιορισμό νέων, έγκυρων, χρήσιμων και κατανοητών σχέσεωνπροτύπων σε δεδομένα. Χρησιμοποιούνται τεχνικές και γνώσεις από διάφορους τομείς όπως μηχανική μάθηση, βάσεις δεδομένων, στατιστική, αναγνώριση προτύπων, πράκτορες και επεξεργασία φυσικής γλώσσας. Το βασικότερο θέμα που διαφοροποιεί την ανακάλυψη γνώσης από την μηχανική μάθηση, είναι ότι η πρώτη εφαρμόζεται σε δεδομένα με μεγάλο όγκο, οργανωμένα σε βάσεις δεδομένων που δεν έχουν σχεδιαστεί ειδικά για αυτό τον σκοπό. Αυτό σημαίνει ότι μπορεί να έχουν τέτοια μορφή που να καθιστά δύσκολη την ανακάλυψη γνώσης. Αντίθετα, στην μηχανική μάθηση τα δεδομένα είναι λιγότερα, επιλεγμένα και οργανωμένα με τέτοιο τρόπο ώστε να εξυπηρετούν καλύτερα τον κάθε σκοπό. Ένα σύστημα ανακάλυψης γνώσης, σε μια βάση δεδομένων, προσπαθεί να καθορίσει μοντέλα ή να ανακαλύψει πρότυπα τα οποία φιλτράρονται από κάποια κριτήρια ποιότητας. Η δημιουργία όλων των δυνατών μοντέλων και προτύπων, όμως, δεν είναι εφικτή λόγω υπολογιστικού κόστους. Έτσι, το πρόβλημα της ανακάλυψης γνώσης ανάγεται σε ένα πρόβλημα αναζήτησης, με σκοπό την εύρεση της βέλτιστης περιγραφής (μοντέλων ή προτύπων) από το σύνολο των δυνατών περιγραφών. Η πληροφορία που θα προκύψει από την ανακάλυψη γνώσης θα είναι αληθής για την βάση δεδομένων, αλλά δεν είναι απαραίτητο να είναι αληθής για τον πραγματικό κόσμο. Η εφαρμογή των τεχνικών ανακάλυψης γνώσης είναι ευρεία και χρησιμοποιείται σε τομείς όπως ιατρική, οικονομία και μάρκετινγκ. Για παράδειγμα, στα ιατρικά εργαστήρια μπορεί να αξιοποιήσουν μια τέτοια τεχνική για να βρουν χαρακτηριστικά ασθενών, όπως τόπος διαμονής, διατροφικές συνήθειες ή άλλες συνήθειες και να συσχετίσουν με ασθένειες, έτσι ώστε να προβούν σε ιατρικές ανακαλύψεις. Τις περισσότερες φορές η ανακάλυψη γνώσης απαιτεί την βοήθεια από έναν ειδικό στον τομέα τον οποίο αφορούν τα δεδομένα, ενώ ο ειδικός στην ανακάλυψη γνώσης θα πρέπει να πάρει κάποιες αποφάσεις κατά την διαδικασία, η οποία είναι επαναληπτική και αλληλεπιδραστική. Ο όγκος δεδομένων συνήθως είναι της τάξης των GBytes. 26 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

27 2 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ Τα στάδια της Ανακάλυψης Γνώσης Η διαδικασία της ανακάλυψης γνώσης ξεκινά με την μελέτη και κατανόηση του πεδίου στο οποίο θα εφαρμοστεί και τον προσδιορισμό των στόχων όσον αφορά τα αποτελέσματα. Ο ειδικός στην ανακάλυψη γνώσης και ο ειδικός στον συγκεκριμένο τομέα καλούνται να συνεργαστούν για τον ακριβή καθορισμό του προβλήματος, έτσι ώστε να είναι βέβαιοι ότι είναι επιλύσιμο και τα αποτελέσματά του μετρήσιμα. Επίσης πρέπει να δοθεί προσοχή στο κατά πόσο είναι δυνατή η εφαρμογή του σε λογικά χρονικά πλαίσια. Τα επιμέρους στάδια που περιγράφονται παρακάτω είναι σημαντικό να σημειωθεί ότι πολλές φορές επαναλαμβάνονται αφού κατά την διάρκεια της διαδικασίας προκύπτουν προβλήματα τα οποία μας αναγκάζουν να γυρίσουμε σε αρχικά στάδια, στα οποία δεν ήταν δυνατόν να εντοπιστούν [Βλαχάβας κ.α.2005, Dunham 2002]. Εικόνα: Στάδια Ανακάλυψης Γνώσης Επιλογή Στο συγκεκριμένο στάδιο, επιλέγεται το σύνολο δεδομένων στο οποίο θα εφαρμοστεί κάποια τεχνική ανακάλυψης γνώσης. Τα δεδομένα αυτά δεν είναι πάντα στην κατάλληλη μορφή αφού τις περισσότερες φορές είναι οργανωμένα για διαφορετικό σκοπό. Οι αλγόριθμοι της ανακάλυψης γνώσης, επιπρόσθετα, δεν είναι δυνατό να εφαρμοστούν σε πολλαπλούς πίνακες δεδομένων. Έτσι, χρειάζεται να γίνει εξαγωγή των δεδομένων από τις υπάρχουσες δομές και να ακολουθήσει οργάνωσή τους σε απλούστερες δομές. Αυτή την ανάγκη έρχονται να καλύψουν τα συστήματα αποθήκευσης δεδομένων (data warehouse) τα οποία προσφέρουν στους αλγόριθμους ανακάλυψης γνώσης μια πιο εύκολα προσβάσιμη όψη (view) των δεδομένων. Εκτός από τα θέματα δομών που ανήκουν στον τεχνικό τομέα μπορεί να προκύψουν και 27

28 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ θέματα δυσκολίας πρόσβασης σε δεδομένα, ειδικά όταν αυτά περιέχουν πληροφορία για ανθρώπους, όπου τίθεται θέμα προστασίας προσωπικών δεδομένων. Προεπεξεργασία (preprocessing) Σε αυτό το στάδιο αντιμετωπίζονται προβλήματα που έχουν σχέση με ελλιπή δεδομένα μέσα στην βάση. Τέτοιες περιπτώσεις είναι: Άδεια πεδία. Πεδία που ενώ έχουν τιμή, ουσιαστικά είναι κενά (π.χ. τηλέφωνο= άγνωστο). Πεδία με τιμές που υποδηλώνουν κάτι άλλο. Για παράδειγμα ένα πεδίο μπορεί να έχει μια ασυνήθιστη-αδύνατη τιμή, το οποίο κατά σύμβαση μπορεί να σημαίνει ότι εκείνη την στιγμή δεν ήταν διαθέσιμη η αληθινή τιμή. Επειδή λοιπόν γίνεται απαλοιφή των σημασιολογικών κενών μέσα στην βάση δεδομένων, το στάδιο της προεπεξεργασίας ονομάζεται και στάδιο καθαρισμού των δεδομένων (data cleaning). Μετασχηματισμός (transformation) Στο στάδιο αυτό γίνεται μετασχηματισμός των δεδομένων ώστε να διευκολύνεται η διαδικασία ανακάλυψης γνώσης. Μερικοί τρόποι για να γίνει αυτό μπορεί να είναι: Ομοιόμορφη κωδικοποίηση σε πεδία με ποιοτικά ίδια πληροφορία. Για παράδειγμα αν ένα πεδίο περιέχει την ημερομηνία γέννησης και ένα άλλο την ηλικία ενός ατόμου, τότε μπορούμε να κρατήσουμε το ένα από τα δύο αφού η πληροφορία του ενός μπορεί να προκύψει από το άλλο. Το ίδιο ισχύει για πεδία που έχουν ακριβώς την ίδια πληροφορία σε διαφορετικούς πίνακες. Επιλογή ορισμένων από τα χαρακτηριστικά (feature selection ή attribute selection) με σκοπό την μείωση των χαρακτηριστικών που θα χρειαστεί να εξετάσουμε (dimensionality reduction). Διακριτοποίηση (discretization), δηλαδή τη μετατροπή συνεχών αριθμητικών τιμών σε διακριτές τιμές. Η επιλογή χαρακτηριστικών, ειδικά, είναι απαραίτητο να γίνει αφού τις περισσότερες φορές υπάρχουν χαρακτηριστικά που, είτε είναι περιττά επειδή δεν χρησιμοποιούνται στην ανακάλυψη γνώσης, όπως τα ονόματα ή τα τηλέφωνα των ασθενών, είτε δεν είναι κατάλληλα. Με την ύπαρξη τέτοιων ακατάλληλων ή μη σημαντικών χαρακτηριστικών γίνεται μείωση της απόδοσης των αλγορίθμων, παρ όλο που αυτοί είναι έτσι φτιαγμένοι ώστε να καταλαβαίνουν ποια είναι τα χαρακτηριστικά στα οποία πρέπει να δώσουν βάση για την λήψη μιας απόφασης. Για παράδειγμα στα δένδρα απόφασης επιλέγεται σε κάθε κόμβο το πιο κατάλληλο χαρακτηριστικό για να γίνει ο διαχωρισμός, όμως, έχει αποδειχθεί μετά από έρευνα ότι η απόδοση του αλγορίθμου μάθησης δένδρων ταξινόμησης/απόφασης μειώθηκε κατά 5% με 10%, όταν προστέθηκε ένα επιπλέον χαρακτηριστικό με τυχαίες δυαδικές τιμές. Αυτό συνέβη επειδή σε κάποιο σημείο της δημιουργίας του δέντρου επιλέχθηκε αυτό το επιπλέον χαρακτηριστικό για να γίνει διαχωρισμός, κάτι το οποίο είχε σαν αποτέλεσμα την λανθασμένη ταξινόμηση. 28 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

29 2 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ Επίσης με την μείωση των διαστάσεων και με την αφαίρεση των ακατάλληλων χαρακτηριστικών, μπορούμε να βελτιώσουμε την απόδοση των αλγορίθμων ως προς την ταχύτητα και επιπλέον να εξάγουμε πιο ποιοτική γνώση, αφού θα έχουμε εστιάσει στα πιο σημαντικά χαρακτηριστικά. Υπάρχουν αυτόματες μέθοδοι για την επιλογή των κατάλληλων χαρακτηριστικών αλλά προτιμότερο είναι να γίνεται από τον ειδικό στον συγκεκριμένο τομέα ο οποίος γνωρίζει καλύτερα την σημασία του κάθε χαρακτηριστικού. Πιο αναλυτικά, για την διακριτοποίηση, είναι η διαδικασία κατά την οποία ένα χαρακτηριστικό που παίρνει συνεχείς αριθμητικές τιμές, μετασχηματίζεται σε ένα πεπερασμένο σύνολο διακριτών διαστημάτων. Αυτός ο μετασχηματισμός είναι απαραίτητος αφού ο αλγόριθμος δεν μπορεί να χειριστεί αριθμητικά δεδομένα ή δεν μπορεί να τα χειριστεί σε βαθμό που να βγάζει ικανοποιητικά αποτελέσματα. Επιλογή αλγορίθμου και εφαρμογή του Στο στάδιο αυτό γίνεται επιλογή της κατηγορίας στην οποία θα ανήκει ο αλγόριθμος που θα χρησιμοποιηθεί ανάλογα με το είδος της γνώσης που αναζητούμε. Έπειτα, η εφαρμογή του αλγορίθμου είναι το καθαρά υπολογιστικό κομμάτι στο οποίο γίνεται ουσιαστικά η ανακάλυψη γνώσης. Η διαδικασία της εφαρμογής του αλγορίθμου λέγεται αλλιώς και εξόρυξη δεδομένων (data mining), όρος ο οποίος πολύ συχνά χρησιμοποιείται για να περιγράψει όλα τα στάδια της ανακάλυψης γνώσης. Μετά από αυτή την διαδικασία προκύπτουν δύο είδη γνώσης: Τα μοντέλα πρόβλεψης (predictive models) Τα πρότυπα πληροφόρησης (informative patterns) Χρησιμοποιούνται αλγόριθμοι που κυρίως προέρχονται από το πεδίο της μηχανικής μάθησης με προσαρμογές κατάλληλες για την ανακάλυψη γνώσης σε βάσεις δεδομένων. Ειδικότερα προτιμούνται αυτοί που είναι πιο ισχυροί στον τομέα της πληροφόρησης, χωρίς να έχουν ιδιαίτερα ικανοποιητική ικανότητα πρόβλεψης, επειδή τα αποτελέσματα του είναι πιο εύκολα ερμηνεύσιμα από τον ειδικό του τομέα. Ερμηνεία και Αξιολόγηση Σε αυτή τη φάση της διαδικασίας, αφού έχει εξαχθεί κάποια γνώση με τον κατάλληλο αλγόριθμο, γίνεται ερμηνεία (interpretation) και αξιολόγηση (evaluation) αυτής της γνώσης πολλές φορές με την βοήθεια γραφικών απεικονίσεων των προτύπων και των μοντέλων, καθώς και των δεδομένων που περιγράφονται (visualization). Η γνώση που εξάγεται μπορεί να χρησιμοποιηθεί σε ένα σύστημα γνώσης, αφού επιλυθούν διάφορα ενδιάμεσα θέματα όπως η πιθανή σύγκρουση της προκύπτουσας γνώσης με την ήδη υπάρχουσα. Αξίζει, τέλος, να σημειωθεί ότι μετά από την εφαρμογή των παραπάνω βημάτων μπορεί να προκύψουν αποτελέσματα τα οποία δίνουν έναυσμα για νέα έρευνα και έτσι να οδηγήσουν στην επανάληψη ολόκληρης της διαδικασίας με σκοπό την ανακάλυψη νέας γνώσης. 29

30 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ Προβλήματα στην Ανακάλυψη Γνώσης Εφόσον τα συστήματα ανακάλυψης γνώσης, δέχονται ως είσοδο δεδομένα που προέρχονται από βάσεις δεδομένων οι οποίες συνήθως είναι μεγάλου μεγέθους, δυναμικές και ελλιπείς, προκύπτουν προβλήματα σχετικά με τα εσφαλμένα δεδομένα και την ανεπαρκή πληροφορία που μπορεί να περιέχουν. Στην συνέχεια θα αναλύσουμε τα σημαντικότερα από αυτά τα προβλήματα. Ακατάλληλα δεδομένα Τις περισσότερες φορές οι βάσεις δεδομένων δεν είναι προορισμένες για την διαδικασία ανακάλυψης γνώσης. Έτσι, μπορεί να λείπουν πεδία τα οποία είναι απαραίτητα για τα συμπεράσματα και τα αποτελέσματα που επιθυμούμε να εξάγουμε. Για παράδειγμα, για την διάγνωση της ελονοσίας απαιτείται η πληροφορία για τον αριθμό των ερυθρών αιμοσφαιρίων των ασθενών στην βάση δεδομένων. Γίνεται κατανοητό, ότι δεν είναι πάντα εφικτό να εξάγουμε κανόνες για την κατηγοριοποίηση των παραδειγμάτων, με τα πεδία που διαθέτουμε. Υπάρχουν δύο τρόποι αντιμετώπισης για το πρόβλημα αυτό. Ο πρώτος είναι να μην επιχειρούμε την ανακάλυψη γνώσης και την κατασκευή κανόνων χωρίς την ύπαρξη πεδίων που χρειαζόμαστε (deterministic rules), κάτι το οποίο όμως εμπεριέχει τον κίνδυνο να μην βρούμε την «κρυμμένη» πληροφορία στην βάση δεδομένων. Ο δεύτερος τρόπος είναι η κατασκευή κανόνων που κατηγοριοποιούν τα δεδομένα με βάση κάποια πιθανότητα (probabilistic rules). Οι κανόνες αυτοί δίνουν σημαντική πληροφορία για συσχετίσεις μέσα στο περιβάλλον. Δηλαδή μπορεί να υπάρχει κάποια συσχέτιση που να μην είναι ορθή αλλά με βάση τις πιθανότητες να μην παύει να μας είναι χρήσιμη. Εκτός απ την μη ύπαρξη αναγκαίων πεδίων, παίζει ρόλο και το κατά πόσο πρόσφατα είναι τα δεδομένα που εξετάζουμε Θόρυβος Θόρυβος (noise-noisy data) σε μια βάση δεδομένων είναι τα λάθη στις τιμές των πεδίων. Αυτό, συνήθως οφείλεται σε υποκειμενικές κρίσεις ή μετρήσεις κατά την συμπλήρωση του πεδίου και είναι αναγκαίο να αποβάλλεται επειδή επηρεάζει την συνολική ποιότητα της παραγόμενης γνώσης. Για παράδειγμα, μπορεί να προκαλέσει εσφαλμένη ταξινόμηση ορισμένων περιπτώσεων. Υπάρχουν δύο σημεία που εντοπίζεται το πρόβλημα που προκαλεί ο θόρυβος. Στην διαδικασία δημιουργίας περιγραφών κλάσεων όταν χρησιμοποιούμε σύνολο δεδομένων με θόρυβο. Ο θόρυβος που σχετίζεται με την περιγραφή μιας κλάσης επηρεάζει την ακρίβεια με την οποία γίνεται κατηγοριοποίηση από τους παραγόμενους κανόνες. Στη διαδικασία κατηγοριοποίησης παραδειγμάτων με χρήση περιγραφών που παράχθηκαν με θόρυβο. Παρ όλα τα μειονεκτήματα της ύπαρξης θορύβου, αξίζει να σημειωθεί ότι υπάρχουν έρευνες οι οποίες έδειξαν ότι η παραγωγή κανόνων από δεδομένα με θόρυβο οδηγεί σε μικρό βαθμό σε εσφαλμένη κατηγοριοποίηση, ακόμα και αν ο θόρυβος είναι σημαντικός. Επίσης, οι κανόνες που έχουν παραχθεί με 30 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

31 2 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ θόρυβο λειτουργούν καλύτερα σε δεδομένα με θόρυβο σε σύγκριση με κανόνες που προέκυψαν από δεδομένα χωρίς λάθη. Αυτό, ίσως, κάνει τους κανόνες με θόρυβο να ανταποκρίνονται περισσότερο σε ρεαλιστικές περιπτώσεις, αφού συνήθως οι βάσεις δεδομένων δεν είναι ιδανικά κατασκευασμένες. Συμπερασμα- τικά, αν σκοπεύουμε να εφαρμόσουμε τους κανόνες κατηγοριοποίησης σε δεδομένα με θόρυβο δεν αξίζει να προσπαθούμε για την εξάλειψη του θορύβου στα δεδομένα εκπαίδευσης. Αραιά δεδομένα Για την σωστή κατασκευή κανόνων πρέπει να διαθέτουμε παραδείγματα τα οποία αναπαριστούν μεγάλο εύρος της συμπεριφοράς του περιβάλλοντος. Με τέτοιου είδους δεδομένα διευκολύνεται η ανακάλυψη των ορίων των κλάσεων, αφού γι αυτό το σκοπό πρέπει να υπάρχουν δεδομένα που τοποθετούνται μόλις μέσα και μόλις έξω από την κλάση (near hits και near misses). Σε μια βάση δεδομένων όμως δεν υπάρχει πάντα η απαραίτητη ποικιλία. Αντίθετα τα δεδομένα απεικονίζουν ένα υποσύνολο της συμπεριφοράς του περιβάλλοντος, με αποτέλε-σμα τα όρια των κλάσεων να μην μπορούν να προσδιοριστούν με ακρίβεια. Ένας τρόπος να αντιμετωπιστεί το θέμα αυτό είναι η αναζήτηση παραδειγμάτων μέσα στην βάση δεδομένων που να είναι ιδιαίτερα. Δείγματα Λόγω του μεγάλου μεγέθους που έχουν συνήθως οι βάσεις δεδομένων, απαιτείται η λήψη δειγμάτων από αυτές ώστε να χρησιμοποιηθούν ως σύνολα εκπαίδευσης. Η διαδικασία αυτή δεν είναι απλή, αφού χρειάζεται προσοχή και εφαρμογή στατιστικών τεχνικών, έτσι ώστε το δείγμα να αποτελεί μια ικανοποιητική απεικόνιση του αρχικού συνόλου δεδομένων και να περιέχει χρήσιμα παραδείγματα. Η δειγματοληψία είναι μια τεχνική που χρησιμοποιείται σε μεγάλο βαθμό, δεδομένου ότι πολλοί αλγόριθμοι ανακάλυψης γνώσης απαιτούν την ύπαρξη των δεδομένων εκπαίδευσης ταυτόχρονα στην μνήμη, κάτι που καθιστά αναγκαίο την λήψη δειγμάτων από την αρχική βάση δεδομένων. Μέγεθος Βάσης Δεδομένων Μέσα στις βάσεις δεδομένων αποθηκεύεται ένας μεγάλος όγκος δεδομένων αποτέλεσμα να προκαλούνται προβλήματα κυρίως σε δύο σημεία. με Στο πλήθος των εγγραφών: Στην διαδικασία αναζήτησης περιγραφών κλάσεων είναι ανάγκη να πιστοποιείται η εγκυρότητα κάθε περιγραφής που έχει παραχθεί. Για να γίνει αυτό χρησιμοποιούνται κάποιες στατιστικές τεχνικές οι οποίες απαιτούν κάποιες πληροφορίες όπως το πλήθος των παραδειγμάτων που χαρακτηρίζονται από την περιγραφή ή την κατανομή των τιμών στο σύνολο των δεδομένων. Δηλαδή, για να γίνει υπολογισμός της ποιότητας ενός κανόνα πρέπει να γίνει προσπέλαση της βάσης δεδομένων. Για το σκοπό αυτό υπάρχουν δύο τεχνικές: 1. Σε μια επανάληψη της διαδικασίας αναζήτησης μπορούν να κατασκευαστούν πολλαπλές περιγραφές με ταυτόχρονο υπολογισμό της ποιότητας τους. Αυτό χρειάζεται ουσιαστικά μία αλλά σύνθετη προσπέλαση της βάσης δεδομένων. 31

32 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ 2. Η ποιότητα μιας περιγραφής υπολογίζεται με βάση ένα αντιπροσωπευτικό δείγμα της βάσης δεδομένων που ονομάζεται παράθυρο (window). Για την κατασκευή των περιγραφών χρησιμοποιείται, επίσης ένα υποσύνολο της βάσης δεδομένων. Για τις καλύτερες περιγραφές γίνεται έλεγχος σε όλη την βάση δεδομένων έτσι ώστε να επιβεβαιωθεί και να πιστοποιηθεί η ποιότητά τους. Στο πλήθος των πεδίων μιας εγγραφής: Αρχικά, πρέπει να τονιστεί ότι είναι πλεονέκτημα να υπάρχει αρκετή πληροφορία για ένα αντικείμενο αφού διευκολύνει και κάνει πιο ποιοτική την ανακάλυψη γνώσης. Με την ύπαρξη όμως τόσης πληροφορίας αυξάνεται ο αριθμός των περιγραφών και το μέγεθος του χώρου αναζήτησης των πιθανών περιγραφών. Λύση στο πρόβλημα αυτό είναι η χρήση περιορισμών και ευριστικών μηχανισμών στην αναζήτηση περιγραφών, που έχουν ως αποτέλεσμα βέλτιστες λύσεις. Ελλιπή δεδομένα Υπάρχει περίπτωση πολλές φορές κάποια πεδία να μην έχουν τιμή. Αυτό μπορεί να συμβεί λόγω αδυναμίας εύρεσης της τιμής, λόγω διαγραφής της τιμής και πολλών άλλων λόγων. Ο χειρισμός τέτοιων περιπτώσεων ποικίλει και μπορούμε να πούμε ότι το πρόβλημα εντοπίζεται σε δύο σημεία. Στην διαδικασία δημιουργίας περιγραφών των κλάσεων: Τα κενά πεδία είναι δυνατό είναι να μην ληφθούν καθόλου υπ όψιν είτε να χρησιμοποιηθούν αφού αντικατασταθούν με πιθανές τιμές. Μπορούμε να κατασκευάσουμε κανόνες οι οποίοι θα υπολογίζουν την τιμή του κενού πεδίου με βάση άλλες τιμές που μπορεί να είναι τα υπόλοιπα πεδία του παραδείγματος ή χαρακτηριστικά της κλάσης. Με αυτό τον τρόπο αποβάλλονται τα κενά πεδία και πλέον στο νέο σύνολο γίνεται η δημιουργία περιγραφών κλάσεων. Εναλλακτικά μπορούμε να θεωρήσουμε το κενό πεδίο σαν μία ξεχωριστή τιμή στο σύνολο τιμών που μπορεί να πάρει ένα πεδίο και να το λάβουμε κανονικά υπ όψιν στην δημιουργία περιγραφών. Στην διαδικασία κατηγοριοποίησης παραδειγμάτων με κενά πεδία: Οι κανόνες δεν μπορούν να εφαρμοστούν αν στις συνθήκες τους περιλαμβάνονται πεδία χωρίς τιμές. Για να λύσουμε αυτό το πρόβλημα, υπολογίζουμε την πιθανότητα να εφαρμοστεί ένας κανόνας. Για να βρεθεί η πιθανότητα να έχει ένα πεδίο μια συγκεκριμένη τιμή χρειάζεται να ξέρουμε την σχετική συχνότητα των τιμών στο ορισμένο πεδίο στα παραδείγματα στο σύνολο εκπαίδευσης. Με αυτό τον τρόπο, έχοντας ένα σύνολο κανόνων, υπολογίζεται η πιθανότητα εφαρμογής για κάθε κανόνα και στην συνέχεια αθροίζονται για κάθε κλάση. Το παράδειγμα, εν τέλει κατατάσσεται στην κλάση με την μεγαλύτερη πιθανότητα. Η συγκεκριμένη τεχνική σε αυξανόμενο αριθμό άγνωστων πεδίων, οδηγεί σε μικρού βαθμού μείωση της ικανότητας κατηγοριοποίησης. Πρόσφατα δεδομένα Είναι γεγονός ότι οι βάσεις δεδομένων συνέχεια αλλάζουν. Προστίθενται νέα δεδομένα, αλλάζουν τιμές ήδη υπαρχόντων και γενικά επεκτείνονται. Εφόσον μιλάμε για ένα σύστημα το οποίο μαθαίνει, είναι ανάγκη κάθε φορά που αλλάζει η βάση δεδομένων ή τουλάχιστον όταν αλλάζει σημαντικά, να ελέγχεται η γνώση που έχει παραχθεί μέχρι τώρα. Αν δεν ισχύουν πια τα αποτελέσματα και τα συμπεράσματα 32 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

33 2 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ που είχαν εξαχθεί στο παρελθόν πρέπει να επαναληφθεί η διαδικασία με την νέα μορφή της βάσης δεδομένων. Δηλαδή επιθυμούμε την διατήρηση της εγκυρότητας και της συνέπειας ενός κανόνα μετά τις αλλαγές που γίνονται. Η ανακατασκευή των κανόνων μπορεί να γίνει από την αρχή αλλά είναι προτιμότερο να χρησιμοποιηθεί ένα είδος αυξητικής μάθησης (incremental learning). Στην διαδικασία αυτή χρησιμοποιείται γνώση που έχει εξαχθεί στο παρελθόν για την ανακατασκευή του κανόνα Ειδικά θέματα στην Ανακάλυψη Γνώσης Είδη Δεδομένων Οι τεχνικές και τα προβλήματα που αναλύθηκαν σε αυτό το κεφάλαιο αναφέρονται σε δεδομένα τα οποία βρίσκονται μέσα σε βάσεις δεδομένων και έχουν μια αυστηρώς καθορισμένη δομή. Τέτοια δεδομένα ονομάζονται δομημένα. Με την πάροδο του χρόνου όμως και την εξέλιξη της πληροφορικής προέκυψαν νέοι, πιο σύνθετοι τύποι δεδομένων οι οποίοι απαιτούν ιδιαίτερη μεταχείριση, από την αποθήκευση και αναπαράστασή τους μέχρι την ερμηνεία και αξιολόγησή τους, κάτι το οποίο αδυνατούν να φέρουν εις πέρας οι βάσεις δεδομένων. Αυτά τα δεδομένα διακρίνονται σε ημιδομημένα και αδόμητα. Σε αυτή την παράγραφο θα αναλύσουμε κάποιους από τους σύνθετους τύπους δεδομένων και επιπλέον θα δούμε τα κατανεμημένα δεδομένα, κατηγορία που εμφανίστηκε με την εξέλιξη των δικτύων υπολογιστών. Χωρικά δεδομένα Πρόκειται ουσιαστικά για δεδομένα τα οποία πραγματεύονται το παρόν. Αφενός βρίσκονται στον χώρο και αφετέρου μεταβάλλονται στον χρόνο. Οι δορυφορικές φωτογραφίες αποτελούν ένα χαρακτηριστικό παράδειγμα χωρικών δεδομένων. Η χρονική τους μεταβολή μπορεί να είναι μια πολύ αργή μεταβολή η οποία συχνά να θεωρείται και αμελητέα όπως η αλλαγή μια ακτογραμμής,η αλλαγή του κλίματος ή και η αλλαγή της κατανομής των ηλικιών σε μια χώρα. Αντίθετα η μεταβολή αυτή μπορεί να είναι ταχεία τόσο ώστε να αποτελεί βασική διάσταση των δεδομένων αυτών, όπως ο ρυθμός κυκλοφορίας οχημάτων σε μια λεωφόρο και η μεταβολή της θερμοκρασίας ενός τόπου. Τα χωρικά δεδομένα χωρίζονται σε τέσσερις κύριες κατηγορίες: Φυσικά αντικείμενα (σπίτια, δρόμοι, λίμνες, δάση) Διοικητικές μονάδες (ιδιοκτησίες, νομοί, στρατόπεδα) Γεωγραφικά φαινόμενα (θερμοκρασία, υγρασία) Παραγόμενες πληροφορίες (επίπεδο φτώχειας, καταλληλότητα εδάφους) Τα χωρικά δεδομένα μπορούν να αναπαρίστανται με δύο βασικές δομές: την διανυσματική μορφή (Vector) και τη ψηφιδωτή δομή (Raster). Με αυτόν τον τρόπο αναπαρίστανται στα G.I.S. (Geographic Information Systems) τα οποία είναι 33

34 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ συστήματα διαχείρισης χωρικών δεδομένων και είναι ικανά να ενσωματώσουν, αποθηκεύσουν, προσαρμόσουν,αναλύσουν και παρουσιάσουν γεωγραφικά συσχετισμένες πληροφορίες. Αποθηκεύονται σε χωρικές βάσεις δεδομένων και μπορούν να προσπελαστούν με ερωτήματα που περιέχουν χωρικούς τελεστές. Παγκόσμιος ιστός Ο παγκόσμιος Ιστός μπορούμε να πούμε ότι είναι η μεγαλύτερη διαθέσιμη βάση δεδομένων, ενώ αποτελεί μεγάλο θέμα η αποδοτική σχεδίαση και προσπέλασή του. Δεν υπάρχει κάποια συγκεκριμένη δομή ή σχήμα στον Ιστό, γι αυτό η χρήση του όρου βάση δεδομένων γίνεται αυθαίρετα. Τα είδη των δεδομένων του Παγκόσμιου Ιστού είναι τα εξής: Τα περιεχόμενα των ιστοσελίδων Τα περιεχόμενα των αρχείων δόμησης των δεδομένων με κάποια γλώσσα όπως η HTML ή η XML. Η δομές που δημιουργούνται για να απεικονίσουν την σύνδεση των ιστοσελίδων μεταξύ τους με τους συνδέσμους. Τα δεδομένα χρήσης που περιγράφουν τον τρόπο με τον οποίο οι χρήστες προσπελαύνουν τις ιστοσελίδες. Τα προφίλ των χρηστών που προκύπτουν είτε από τα cookies είτε από δημογραφικές πληροφορίες. Η εξόρυξη στον Παγκόσμιο Ιστό (Web mining) χωρίζεται σε κατηγορίες ανάλογα με τα δεδομένα στα οποία εφαρμόζεται. Η διαφήμιση είναι μία από τις εφαρμογές της εξόρυξης στο Παγκόσμιο Ιστό. Με διάφορους τρόπους, συλλέγονται πληροφορίες για κάθε χρήστη ή για ομάδες χρηστών έτσι ώστε να χρησιμοποιηθούν στην επιλογή των κατάλληλων διαφημίσεων. Με τον όρο κατάλληλες εδώ, εννοούμε τις διαφημίσεις των οποίων το προϊόν είναι πιο πιθανό να αγοραστεί από έναν χρήστη. Αυτό έχει μεγάλα οικονομικά οφέλη εφόσον η διαφήμιση θα χρειαστεί να εμφανιστεί μόνο σ ένα υποσύνολο των χρηστών. Με την συλλογή πληροφοριών, μπορούν να εξαχθούν συμπεράσματα για το πώς πρέπει να είναι η δομή, το περιεχόμενο ή η δυνατότητα χρήσης μιας ιστοσελίδας. Αυτό εφαρμόζεται από διαχειριστές δικτυακών τόπων με σκοπό την βελτίωση των ιστοσελίδων και την καλύτερη επίτευξη των στόχων τους. Χρονικά Δεδομένα Τις περισσότερες φορές οι βάσεις δεδομένων δεν περιέχουν χρονικά δεδομένα. Αντίθετα περιέχουν πληροφορίες για την κατάσταση του περιβάλλοντος σε μια δεδομένη χρονική στιγμή. Οι χρονικές βάσεις δεδομένων (temporal databases), διατηρούν δεδομένα για πολλές χρονικές στιγμές. Οι χρονικές βάσεις δεδομένων δεν δέχονται ενημερώσεις και ερωτήματα με τον ίδιο τρόπο που δέχονται οι κοινές βάσεις δεδομένων. Για την ακρίβεια, δεν επιτρέπεται να γίνει αλλαγή σε κάποια εγγραφή, παρά μόνο να προστεθεί μία νέα εγγραφή για μία διαφορετική χρονική στιγμή. Τα ερωτήματα σε αυτές τις βάσεις έχουν να κάνουν 34 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

35 2 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ κυρίως με κριτήρια χρονικής επιλογής, δηλαδή για παράδειγμα η αναζήτηση πληροφορίας μέσα σ ένα ορισμένο χρονικό διάστημα. «Βρες τους ασθενείς που είχαν σύμπτωμα πυρετού μεταξύ 19:00 και 00:00» Υπάρχουν αρκετές εφαρμογές και παραδείγματα των χρονικών δεδομένων. Οι δορυφόροι, συνεχώς συλλέγουν δεδομένα και εικόνες από διάφορους αισθητήρες. Εφόσον αυτά τα δεδομένα συσχετίζονται με συγκεκριμένες χρονικές στιγμές, δηλαδή τις στιγμές που συλλέχθηκαν, αποτελούν χρονικά δεδομένα. Όπως και στα χωρικά δεδομένα υπάρχουν ειδικές δομές για την διευκόλυνση της εξόρυξης σε χρονικά δεδομένα (temporal mining ή temporal data mining). Επίσης είναι δυνατό να συνδυαστούν είδη δεδομένων, όπως χωροχρονικά, και τεχνικές που τα διαχειρίζονται. Δεδομένα πολυμέσων Στην συγκεκριμένη κατηγορία ανήκουν δεδομένα όπως κείμενο, ήχος, εικόνα, κινούμενη εικόνα, βίντεο, γραφικά καθώς και συνδυασμός όλων αυτών. Για τις βάσεις δεδομένων πολυμέσων (multimedia databases) προκύπτουν κάποια θέματα και κάποιες απαιτήσεις όπως τα παρακάτω [Silberschaltz et al 2001]: Οι βάσεις δεδομένων θα πρέπει να είναι ικανές να στηρίξουν υψηλές απαιτήσεις σε θέματα χώρου αφού τα δεδομένα πολυμέσων καταλαμβάνουν μεγάλο χώρο. Ειδικά, για παράδειγμα, τα βίντεο μπορεί να απαιτούν αποθηκευτικό χώρο της τάξης των GBytes. Πρέπει να γίνεται ανάκτηση των δεδομένων με βάση την ομοιότητα τους, με την χρήση ειδικών δομών και καταλόγων. Για παράδειγμα μια βάση δεδομένων που αποθηκεύει φωτογραφίες προσώπου, είναι καλό να είναι σε θέση όταν δίνεται μια εικόνα να μπορεί να επιστρέψει όλες τις εικόνες οι οποίες μοιάζουν με την δοθείσα. Η ανάκτηση συγκεκριμένων τύπων δεδομένων, όπως ο ήχος και το βίντεο απαιτεί την επεξεργασία με προκαθορισμένο, σταθερό ρυθμό. Για παράδειγμα αν ο ήχος δεν παρέχεται στο σωστό χρόνο, υπάρχει περίπτωση να υπάρχουν κενά στην αναπαραγωγή του ή αν παρέχεται πολύ γρήγορα μπορεί να συμβεί υπερχείλιση του ενδιάμεσου αποθηκευτικού χώρου. Οι βάσεις δεδομένων πολυμέσων έχουν εφαρμογή σε διάφορες περιοχές όπως στην Ιατρική, στην διαφήμιση, στην ασφάλεια, στην εκπαίδευση, στο Μάρκετινγκ και στην διασκέδαση Κατανεμημένη και Απανταχού Εξόρυξη από Δεδομένα 35

36 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ Η εξάπλωση του Διαδικτύου και των δικτύων γενικότερα έφερε σημαντικές αλλαγές σε βασικά ζητήματα των υπολογιστών αλλά εγκαθίδρυσε και νέα. Ένα χαρακτηριστικό παράδειγμα είναι η εμφάνιση κατανεμημένων αρχείων, δηλαδή αρχείων που μπορεί τμηματικά να τοποθετούνται σε διαφορετικά μέρη στον κόσμο. Έτσι γίνεται κατανοητό ότι η εξόρυξη σε τέτοια δεδομένα δεν μπορεί να γίνει με τους γνωστούς μέχρι τώρα τρόπους. Ο τρόπος με τον οποίο γίνεται είναι η κατανεμημένη και απανταχού εξόρυξη σε δεδομένα (Distributed and Ubiquitous Data Mining). Ο όρος «απανταχού» χρησιμοποιείται επειδή η εξόρυξη γίνεται από καθολικά συστήματα. Η τεχνική της συσσώρευσης όλων των δεδομένων σε ένα κεντρικό σύστημα γίνεται αντιληπτό ότι είναι αδύνατη αφού προκύπτουν πολλά θέματα κυρίως σχετικά με τον τεράστιο αποθηκευτικό χώρο που απαιτείται, την υπολογιστική ισχύ που ίσως το καθιστά αδύνατο ή έστω ασύμφορο, καθώς και την δυσκολία συλλογής των απαραίτητων πληροφοριών για τεχνικά θέματα. Κάποιες από τις τεχνικές που χρησιμοποιούνται για την κατανεμημένη και απανταχού εξόρυξη σε δεδομένα είναι : Εξόρυξη σε ομότιμα δίκτυα: Διαμοιρασμός αρχείων με σύνδεση σημείου προς σημείου χωρίς την ύπαρξη εξυπηρέτη. Πλεονεκτήματα της τεχνικής είναι η ικανοποιητική ταχύτητα, οι φθηνές αποθηκευτικές συσκευές και διευκόλυνση της εξόρυξης. Εξόρυξη με προστασία Προσωπικών Δεδομένων: Ο κίνδυνος παραβίασης προσωπικών δεδομένων αποτελεί ένα από τα σημαντικότερα εμπόδια στην ανακάλυψη γνώσης. Για τον λόγο αυτό, με συνεργασία άλλων επιστημών καθορίζονται τα όρια σε θέματα ηθικής φύσεως τα οποία είναι κατά κάποιο τρόπο ασαφή. Για παράδειγμα, ένα νοσοκομείο που κάνει κάποια έρευνα με την βοήθεια ασθενών, διατηρεί τα προσωπικά τους δεδομένα. Εξόρυξη σε κινητές συσκευές: Η εξόρυξη σε δεδομένα που προκύπτουν από εφαρμογές που υπάρχουν στα κινητά μπορεί να εξάγει πολύτιμη γνώση για εξειδικευμένα θέματα Εφαρμογές της ανακάλυψης γνώσης Η ανακάλυψη γνώσης βρίσκει αρκετά σημαντική εφαρμογή στο εμπόριο. Οι διάφορες εταιρίες χρησιμοποιούν την ανακάλυψη γνώσης για να προσελκύσουν νέους πελάτες, για παράδειγμα με στοχευμένη διαφήμιση, και να βγάλουν συμπεράσματα για θέματα όπως την αύξηση κερδών από τους ήδη υπάρχοντες πελάτες, την αλλαγή προϊόντων ανάλογα με τις προτιμήσεις και απαιτήσεις, ακόμα και τον καθορισμό του πελάτηπρότυπο έτσι ώστε όχι μόνο να φροντίσουν για την διατήρηση κάποιων πελατών, αλλά και να χρησιμοποιήσουν τα χαρακτηριστικά του στην βελτίωση των διαφημίσεων τους. Ένας άλλος τομέας στον οποίο χρησιμοποιείται η ανακάλυψη γνώσης είναι η ιατρική. Με ανάλυση δεδομένων που έχουν να κάνουν με χαρακτηριστικά ασθενών μπορούν να βγουν συμπεράσματα για τις μεταξύ τους συσχετίσεις και τελικά να επιτευχθεί κάποια ιατρική ανακάλυψη. 36 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

37 2 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ & ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ Τέλος, αξίζει να σημειωθεί ότι η ανακάλυψη γνώσης έχει εφαρμογή και στην βιολογία, με την οποία εφαρμογή θα ασχοληθούμε και στη συγκεκριμένη εργασία. Ο συνδυασμός των δύο αυτών επιστημών έχει δώσει πολλά αποτελέσματα και εξελίσσεται ραγδαία κυρίως σε θέματα που αφορούν για παράδειγμα ανάλυση αλληλουχιών γονιδιωμάτων. 37

38 ΔΗΜΗΤΡΑ-ΝΕΦΕΛΗ ΣΤΥΛΛΑ 38 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

39 3. ΠΛΗΘΥΣΜΙΑΚΗ ΓΕΝΕΤΙΚΗ

40

41 ΠΛΗΘΥΣΜΙΑΚΗ ΓΕΝΕΤΙΚΗ Η επιστήμη της γενετικής χωρίζεται σε τέσσερις κλάδους, οι οποίες είναι η κλασική γενετική (μελετά το άτομο), η μοριακή γενετική (επικεντρώνεται στο κύτταρο), η ποσοτική γενετική και η πληθυσμιακή γενετική (ασχολούνται με την μεταβίβαση γενετικών τύπων μέσα σε μεγάλες ομάδες). Στο κεφάλαιο που ακολουθεί θα μελετήσουμε την πληθυσμιακή γενετική η οποία αναμφισβήτητα αποτελεί μια βασική επιστήμη. 3.1 ΙΣΤΟΡΙΚΗ ΑΝΑΔΡΟΜΗ Η πληθυσμιακή γενετική μπορεί να θεωρηθεί η λογική επέκταση των νόμων του Mendel πάνω σε πληθυσμούς. Τα θεμέλιά της τοποθετήθηκαν το 1908 όταν ο Βρετανός μαθηματικός Hardy και ο Γερμανός γιατρός Weinberg, ανεξάρτητα ο ένας από τον άλλον διατύπωσαν την αρχή της σταθερότητας των γονοτυπικών συχνοτήτων σε μεγάλους παμμεικτικούς πληθυσμούς. Σημαντικές για την πορεία της πληθυσμιακής γενετικής υπήρξαν οι εργασίες του Βρετανού R.A. Fisher και του Αμερικανού S. Wright. Η πρώτη, η οποία έγινε το 1908, αφορούσε την μαθηματική διερεύνηση της ομοιότητας μεταξύ συγγενών, ενώ η δεύτερη, το 1921, ασχολήθηκε με την επίδραση των συστημάτων σύζευξης στη γονοτυπική σύνθεση των πληθυσμών. Επιπλέον, ο Βρετανός J.B.S. Haldane πραγματοποίησε ένα σύνολο σημαντικών εργασιών ποικίλου περιεχομένου, ενώ ο Αμερικανός J.L. Lush καταλαβαίνοντας την σημασία αυτού του τομέα και στηριζόμενος στην προηγούμενη γνώση ανέπτυξε την δική του θεωρία. Αυτή η θεωρία, που διατυπώθηκε στη δεκαετία του '30, αφορά τη διερεύνηση της κληρονομικότητας των ποσοτικών χαρακτηριστικών των αγροτικών ζώων. Αφού ολοκληρώθηκε και τελειοποιήθηκε από άλλους ερευνητές όπως οι Robertson, Johansson, Loertcher, Lauprecht, Hazel, Dickerson, Henderson, κ.α., μέχρι και σήμερα αποτελεί το θεωρητικό υπόβαθρο για τον τομέα της Βελτίωσης των ζώων [S.R. Garner; S.J. Cunningham, G. Holmes, C.G. Nevill-Manning, and I.H. Witten (1995) ]. Εικόνα: R.A. Fisher, S. Wright, J.B.S. Haldane

42 3.2 ΑΝΤΙΚΕΙΜΕΝΟ ΠΛΗΘΥΣΜΙΑΚΗΣ ΓΕΝΕΤΙΚΗΣ Η πληθυσμιακή γενετική έχει σαν αντικείμενο την μελέτη της γενετικής δομής και της ποικιλομορφίας μεγάλων ομάδων-ειδών αλλά και των μηχανισμών με την βοήθεια των οποίων παρατηρείται εξέλιξη αυτών στο πέρασμα του χρόνου. Ένας πληθυσμός εμπεριέχει μια γενετική δομή, η οποία καθορίζεται από ένα σύνολο γονιδίων που είναι κοινά για τα άτομα που ανήκουν στον συγκεκριμένο πληθυσμό. Η δομή αυτή ποικίλει και διαφέρει τόσο γεωγραφικά όσο και χρονικά. Τα γονίδια τα οποία μοιράζονται τα άτομα ενός πληθυσμού, αποτελούν το γονιδιακό απόθεμά του και εκφράζεται μέσω των συχνοτήτων των αλληλομόρφων και των γονοτύπων. Οι συχνότητες αυτές μπορεί να τροποποιηθούν από ορισμένες διεργασίες όπως η φυσική επιλογή, οι μεταλλάξεις, η γενετική παρέκκλιση και η μετανάστευση. Η φυσική επιλογή είναι η διαδικασία εξέλιξης των ειδών σύμφωνα με την οποία οι οργανισμοί που είναι καλύτερα προσαρμοσμένοι στο περιβάλλον τους και επιβιώνουν περισσότερο, αφήνουν και περισσότερους απογόνους. Μετάλλαξη στην Βιολογία χαρακτηρίζεται οποιαδήποτε μεταβολή που μπορεί να συμβεί στο γενετικό υλικό ενός οργανισμού και λόγω της αργής επίδρασής της στις συχνότητες των αλληλομόρφων, θεωρείται αμελητέα. Γενετική παρέκκλιση συμβαίνει όταν έχουμε κάποια τυχαία μεταβολή της συχνότητας των αλληλομόρφων σε κάποια γενιά, κάτι το οποίο μπορεί να αποφέρει γενετικές αλλαγές, γενετική διαφοροποίηση ή ακόμα και απώλεια γενετικής ποικιλομορφίας μέσα σε έναν πληθυσμό. Μετανάστευση είναι η διαδικασία κατά την οποία γίνεται μετακίνηση αλληλομόρφων ανάμεσα σε πληθυσμούς. Στο σημείο αυτό είναι καλό να δοθούν κάποιοι ορισμοί : Αλληλόμορφα είναι τα γονίδια που δρουν για το ίδιο γνώρισμα αλλά με διαφορετικό τρόπο. Για παράδειγμα αν υπάρχουν δύο διαφορετικά γονίδια που ελέγχουν το χρώμα του άνθους ενός φυτού, τότε μεταξύ τους είναι αλληλόμορφα. Γονότυπος (genotype) καλείται το σύνολο των γονιδίων ενός οργανισμού, δηλαδή το σύνολο των αλληλομόρφων που απαρτίζουν το DNA του. Φαινότυπος είναι όλα τα μορφολογικά, παραγωγικά, ηθολογικά κ.λπ. χαρακτηριστικά που εκδηλώνει ένας οργανισμός σε μία δεδομένη στιγμή, δηλαδή το μέρος του γονοτύπου του οργανισμού το οποίο μπορούμε (άμεσα ή έμμεσα) να παρατηρήσουμε. Οι πληθυσμιακοί γενετιστές, για να αντιμετωπίσουν ερωτήματα που προκύπτουν, έχουν αναπτύξει μεταξύ άλλων μαθηματικά μοντέλα τα οποία εξάγουν αποτελέσματα υπό συγκεκριμένες συνθήκες, δηλαδή μπορούν να προβλέψουν την μεταβολή του γονιδιακού αποθέματος ενός πληθυσμού βασιζόμενα σε διάφορες συνθήκες.

43 3.3 ΣΥΧΝΟΤΗΤΕΣ ΓΟΝΟΤΥΠΩΝ ΚΑΙ ΑΛΛΗΛΟΜΟΡΦΩΝ Η γενετική δομή ενός πληθυσμού, καθορίζεται από το γονιδιακό απόθεμά του και μελετάται με την χρήση συχνοτήτων των γονοτύπων και των αλληλομόρφων, οι οποίες μπορούν να δώσουν πληροφορίες για την επίδραση κάποιων εξελικτικών μηχανισμών σε έναν πληθυσμό και για τις χρονικές μεταβολές του γονιδιακού αποθέματος αντίστοιχα. Οι συχνότητες αυτές υπολογίζονται είτε ποσοστιαία (επί τοις εκατό %) είτε με τιμές στο διάστημα [0,1]. Η συχνότητα κάποιου γονότυπου υπολογίζεται με τον λόγο του αριθμού των ατόμων που έχουν τον συγκεκριμένο γονότυπο (n) και του συνολικού αριθμού ατόμων του πληθυσμού (N). Δηλαδή: Συχνότητα γονοτύπου= Αριθμός ατόμων με γονότυπο/ Συνολικός αριθμός ατόμων =n/n Το άθροισμα των συχνοτήτων των γονοτύπων πρέπει να ισούται με 1. Στην φυλετική αναπαραγωγή, γίνεται διαχωρισμός των γονοτύπων σε αλληλόμορφα κατά τον σχηματισμό των γαμετών. Τελικά τα αλληλόμορφα μεταβιβάζονται από γενιά σε γενιά και όχι οι γονότυποι, πράγμα που σημαίνει ότι έχουν χρονική συνέχεια. Με δεδομένο αυτό, λοιπόν, η εξέλιξη του γονιδιακού αποθέματος εξαρτάται από κάποια μεταβολή στις συχνότητες των αλληλομόρφων. Επίσης, η περιγραφή ενός πληθυσμού μπορεί να γίνει πιο εύκολα με την χρήση αλληλομόρφων όπου είναι δυνατό, αφού τα αλληλόμορφα είναι λιγότερα από τους γονότυπους και έτσι θα χρειαστούν λιγότερες παράμετροι. Ο υπολογισμός των συχνοτήτων των αλληλομόρφων μπορεί να γίνει με δύο τρόπους: Καταμέτρηση γονιδίων. Σε έναν γενετικό τόπο μετράμε τον αριθμό του τύπου των αλληλομόρφων που μας ενδιαφέρει και διαιρούμε με το σύνολο των αλληλομόρφων του πληθυσμού. Με υπολογισμό αρχικά των γονοτυπικών συχνοτήτων. Στην συνέχεια προσθέτουμε την συχνότητα του ατόμου που είναι ομόζυγό ως προς το επικρατές με τη συχνότητα του ατόμου που είναι ετερόζυγο πολλαπλασιασμένη επί ½. p = f(a) = (συχνότητα του ομοζυγωτή ΑΑ) + (1/2 συχνότητα του ετεροζυγωτή Αa) q = f(a) = (συχνότητα του ομοζυγωτή aa) + (1/2 συχνότητα του ετεροζυγωτή Αa) 43

44 Το άθροισμα των συχνοτήτων των αλληλομόρφων πρέπει, επίσης, να ισούται με 1. Οι συγκεκριμένοι τύποι μπορούν να εφαρμοστούν σε γενετικούς τόπους που διαθέτουν δύο μόνο αλληλόμορφα. 3.4 Ο ΝΟΜΟΣ ΤΩΝ HARDY-WEINBERG Σε έναν πληθυσμό με άπειρο μέγεθος στον οποίο δεν επιδρά κανένας μηχανισμός εξέλιξης, οι συχνότητες των αλληλομόρφων δεν μεταβάλλονται. Το άθροισμα των συχνοτήτων εξακολουθεί να ισούται με 1. Υπάρχουν εφτά προϋποθέσεις ώστε να ισχύει η μη μεταβολή των συχνοτήτων. 1. Δεν παρατηρείται Μετάλλαξη 2. Δεν γίνεται φυσική επιλογή 3. Δεν υπάρχει μετανάστευση από και προς τον πληθυσμό 4. Ο πληθυσμός είναι άπειρος 5. Όλα τα μέλη του πληθυσμού αναπαράγονται 6. Όλα τα ζευγαρώματα είναι τυχαία 7. Όλα τα άτομα αφήνουν τον ίδιο αριθμό απογόνων Με λίγα λόγια ο νόμος αυτός εξηγεί την συμπεριφορά των γονοτυπικών και των αλληλομορφικών συχνοτήτων όταν δεν υπάρχουν επιδράσεις που οδηγούν σε εξέλιξη. Έτσι, γνωρίζοντας τις αλληλομορφικές συχνότητες μπορούμε εύκολα να βρούμε τις αντίστοιχες γονοτυπικές. Σε περίπτωση που ισχύουν οι παραπάνω προϋποθέσεις, επιτυγχάνεται γενετική ισορροπία, η οποία διατηρείται με την πάροδο των γενεών, όσο δεν αλλάζει κάτι στις προϋποθέσεις Hardy-Weinberg. Η ισορροπία οδηγεί σε σταθερές συχνότητες εμφάνισης γονοτύπων του πληθυσμού και συγκεκριμένα σε αναλογίες p2, 2pq, q ΔΙΕΡΓΑΣΙΕΣ ΜΕΤΑΒΟΛΗΣ ΤΩΝ ΓΟΝΙΔΙΑΚΩΝ ΣΥΧΝΟΤΗΤΩΝ Αφού τις είδαμε περιληπτικά στην αρχή του κεφαλαίου στην συνέχεια θα τις αναλύσουμε πιο διεξοδικά.

45 3.5.1 Φυσική Επιλογή Η θεωρία της φυσικής επιλογής διατυπώθηκε επίσημα το 1858, από τον Κάρολο Δαρβίνο. Στηρίζεται στην παρατήρηση πως ορισμένες διαφορές μεταξύ των ατόμων σε έναν πληθυσμό είναι κληρονομήσιμες. Σύμφωνα με την θεωρία αυτή οι οργανισμοί οι οποίοι μπορούν να προσαρμόζονται καλύτερα στο περιβάλλον τους επιβιώνουν και αναπαράγονται περισσότερο με αποτέλεσμα τα χαρακτηριστικά τους να περνούν με μεγαλύτερη συχνότητα στην επόμενη γενιά. Επειδή οι διάφορες περιοχές έχουν διαφορετικές συνθήκες και διαφορετικές ευκαιρίες επιβίωσης, διαφορετικοί οργανισμοί επιλέγονται από τη φυσική επιλογή ως οι πιο προσαρμοσμένοι στο συγκεκριμένο περιβάλλον. Η θεωρία της φυσικής επιλογής μπορεί να περιγραφεί με 4 παρατηρήσεις και 3 συμπεράσματα που προκύπτουν από αυτές. Παρατήρηση 1 Οι πληθυσμοί των διάφορων ειδών τείνουν να αυξάνονται από γενεά σε γενεά με ρυθμό γεωμετρικής προόδου. Παρατήρηση 2 Αν εξαιρεθούν οι εποχικές διακυμάνσεις, τα μεγέθη των πληθυσμών παραμένουν σχετικά σταθερά. Συμπέρασμα 1 : Για να παραμείνει σταθερό το μέγεθος ενός πληθυσμού παρά την τάση για αύξηση, μερικά άτομα δεν επιβιώνουν ή δεν αναπαράγονται. Συνεπώς μεταξύ των οργανισμών ενός πληθυσμού διεξάγεται ένας αγώνας επιβίωσης. Παρατήρηση 3 Τα άτομα ενός είδους δεν είναι όμοια. Στους πληθυσμούς υπάρχει μια τεράστια ποικιλομορφία όσον αφορά τα φυσικά χαρακτηριστικά των μελών τους. Παρατήρηση 4 Τα περισσότερα από τα χαρακτηριστικά των γονέων κληροδοτούνται στους απογόνους τους. Συμπέρασμα 2: Η επιτυχία στον αγώνα για την επιβίωση δεν είναι τυχαία. Αντιθέτως, εξαρτάται από το είδος των χαρακτηριστικών που έχει κληρονομήσει ένας οργανισμός από τους προγόνους του. Οι οργανισμοί οι οποίοι έχουν κληρονομήσει χαρακτηριστικά που τους βοηθούν να προσαρμόζονται καλύτερα στο περιβάλλον τους επιβιώνουν περισσότερο ή/και αφήνουν μεγαλύτερο αριθμό απογόνων από τους οργανισμούς οι οποίοι έχουν κληρονομήσει λιγότερο ευνοϊκά για την επιβίωσή τους χαρακτηριστικά. Συμπέρασμα 3: Τα ευνοϊκά για την επιβίωση χαρακτηριστικά μεταβιβάζονται στην επόμενη γενιά με μεγαλύτερη συχνότητα από τα λιγότερο ευνοϊκά, καθώς οι φορείς τους επιβιώνουν και αφήνουν μεγαλύτερο αριθμό απογόνων από τους φορείς των λιγότερο ευνοϊκών χαρακτηριστικών. Έτσι, με την πάροδο του χρόνου, η συσσώρευση 45

46 όλο και περισσότερων ευνοϊκών χαρακτηριστικών σε έναν πληθυσμό μπορεί να οδηγήσει στην εμφάνιση ενός νέου είδους. Συντελεστής επιλογής Σύμφωνα με την θεωρία της φυσικής επιλογής είναι βασικό οι οργανισμοί να έχουν την ικανότητα να επιβιώνουν, αλλά δεν αρκεί μόνο αυτό. Η αναπαραγωγή είναι αυτή που καθιστά βέβαιη την επιβίωση κάποιου είδους και κατά συνέπεια η φυσική επιλογή μετριέται με εκτίμηση της αναπαραγωγής σύμφωνα με τη δαρβινιστική προσαρμοστικότητα. Στην δαρβινιστική προσαρμοστικότητα, ο γονότυπος που παράγει περισσότερους απογόνους δηλαδή αναπαράγεται περισσότερο έχει τιμή προσαρμοστικότητας 1. Οι προσαρμοστικότητες των άλλων γονοτύπων υπολογίζονται με τον λόγο του αριθμού απογόνων του συγκεκριμένου γονοτύπου και του αριθμού απογόνων του γονοτύπου με προσαρμοστικότητα 1. Πρέπει, βεβαίως, να λαμβάνεται υπ όψιν και ο βαθμός στον οποίο είναι ικανός να επιβιώσει ο απόγονος για να είναι έγκυρα τα αποτελέσματα. Η επίδραση που ασκεί η φυσική επιλογή σε έναν πληθυσμό εξαρτάται άμεσα από την προσαρμοστικότητα των γονοτύπων και τις συχνότητες των αλληλομόρφων. Έτσι, προκύπτει ότι η συνεισφορά κάθε γονοτύπου στην επόμενη γενιά εκφράζεται με το γινόμενο της συχνότητάς του στην υπάρχουσα γενιά (με τον υπολογισμό που δείχθηκε παραπάνω) επί την δαρβινιστική του προσαρμοστικότητα. Ανάλογα με την προσαρμοστικότητα των γονοτύπων προκύπτουν ορισμένες περιπτώσεις φυσικής επιλογής: 1. Αν όλοι οι γονότυποι έχουν τιμή προσαρμοστικότητας 1 τότε δεν υπάρχει επιλογή. 2. Αν ένας ομοζυγώτης και ο ετεροζυγώτης έχουν τιμή προσαρμοστικότητας ίση με 1, ενώ ο έτερος ομοζυγώτης έχει μικρότερη τότε η φυσική επιλογή ενεργεί ενάντια σε ένα υποτελές αλληλόμορφο. 3. Αν ο ετεροζυγώτης έχει τιμή προσαρμοστικότητας ενδιάμεση με τις τιμές των ετεροζυγωτών τότε η φυσική επιλογή ενεργεί χωρίς αποτέλεσμα επικράτησης. 4. Αν ο ετεροζυγώτης έχει μεγαλύτερη τιμή προσαρμοστικότητας και από τους δύο ομοζυγώτες τότε ευνοείται ο ετεροζυγώτης. 5. Αν ο ετεροζυγώτης έχει ίση τιμή με τον έναν ομοζυγώτη αλλά μικρότερη από τον άλλο τότε η φυσική επιλογή ενεργεί ενάντια σε ένα επικρατές αλληλόμορφο. 6. Αν ο ετεροζυγώτης έχει μικρότερη τιμή προσαρμοστικότητας και από τους δύο ομοζυγώτες τότε ευνοούνται οι ομοζυγώτες.

47 3.5.2 Μετανάστευση Ο όρος μετανάστευση αναφέρεται στην μετακίνηση ατόμων από έναν πληθυσμό σε έναν άλλον. Στην πληθυσμιακή γενετική, ωστόσο, μελετάται η ροή γενετικού υλικού ανάμεσα σε πληθυσμούς, χωρίς αυτό να σημαίνει ότι υπάρχει απαραίτητα μετακίνηση οργανισμών. Τα αποτελέσματα της μετανάστευσης, δηλαδή της γονιδιακής ροής, μπορεί να είναι: Εισαγωγή νέων αλληλομόρφων στον πληθυσμό. Με την μετάλλαξη παράγονται νέα αλληλόμορφα και με την μετανάστευση τους δίνεται η δυνατότητα να εξαπλωθούν. Όταν οι συχνότητες αλληλομόρφων των οργανισμών-μεταναστών και του πληθυσμού-δέκτη είναι διαφορετικές, τότε η γονιδιακή ροή προκαλεί αλλαγές στις συχνότητες αλληλομόρφων του δέκτη. Με την επανάληψη αυτής της διεργασίας δύο πληθυσμοί τείνουν να φαίνονται ίδιοι. Γίνεται λοιπόν κατανοητό ότι με την μετανάστευση προκαλείται ομογενοποίηση των πληθυσμών και εξαλείφονται σταδιακά οι γενετικές τους διαφορές Μετάλλαξη Οι γονιδιακές μεταλλάξεις είναι μεταβολές του DNA μέσω των οποίων έχουμε σχηματισμό νέων αλληλομόρφων που κληρονομούνται και εντοπίζονται σε έναν γενετικό τόπο. Σ αυτή την περίπτωση, δηλαδή, έχουμε έναν μηχανισμό εξέλιξης πληθυσμών με συμμετοχή αυτούσιου γενετικού υλικού. Μια μετάλλαξη μπορεί να είναι είτε ουδέτερη, η οποία δεν επηρεάζει την αναπαραγωγική προσαρμοστικότητα των οργανισμών, είτε επιβλαβής η οποία φέρνει μαζί της μια φτωχοποίηση, απώλεια ζωτικότητας, σποραδικά δε, και ανατομικές ανωμαλίες και έτσι απορρίπτεται από τον πληθυσμό. Μπορούμε να χρησιμοποιήσουμε και τα δύο αυτά είδη προς όφελός μας. Ο ρυθμός της μετάλλαξης είναι αρκετά αργός γι αυτό και δεν μπορεί να παίξει πολύ σημαντικό ρόλο στην εξέλιξη, αφού μετά την μετάλλαξη ενός αλληλομόρφου η περαιτέρω εξέλιξή του είναι σχεδόν σίγουρο ότι δεν θα καθοριστεί από την διεργασία της μετάλλαξης. Υπάρχουν δύο είδη μετάλλαξης: Πρόσθια μετάλλαξη δηλαδή Α α (συμβολισμός u), Αντίστροφη μετάλλαξη α Α (συμβολισμός v). Το δεύτερο είδος είναι λιγότερο συχνό από το πρώτο. Σε μεγαλύτερους πληθυσμούς αυξάνεται η πιθανότητα να υπάρξει κάποια νέα μετάλλαξη. Παραμένει γεγονός όμως ότι η μετάλλαξη δεν μπορεί να επηρεάσει σημαντικά τις συχνότητες των αλληλομόρφων. 47

48 Εικόνα: Μετάλλαξη κατά την αντιγραφή του DNA Τυχαία Γενετική Παρέκκλιση Τυχαία Γενετική Παρέκκλιση ονομάζεται η αλλαγή των αλληλομορφικών συχνοτήτων λόγω τυχαίων συμβάντων και παραγόντων. Τέτοιοι παράγοντες μπορεί να είναι διάφορα γεγονότα όπως τυχαίοι θάνατοι μέσα στον πληθυσμό που προκλήθηκαν από άσχετες αιτίες με το χαρακτηριστικό που εξετάζουμε. Όταν συμβαίνει γενετική παρέκκλιση έχουμε αποκλίσεις από τις αναλογίες που αναμέναμε και όπως ονομάζεται έχουμε δειγματοληπτικό σφάλμα. Για να προσδιορίζουμε την δειγματοληπτική διακύμανση χρησιμοποιούμε τον τύπο pq/2n όπου N ο αριθμός των ατόμων του πληθυσμού. Το γεγονός ότι η γενετική παρέκκλιση είναι τυχαία μας εμποδίζει να προσδιορίσουμε, μετά την επίδρασή της, τις μεταβολές στις αλληλομορφικές συχνότητες. Ωστόσο, μπορούμε να προβλέψουμε την έκταση της γενετικής παρέκκλισης. Για να το κάνουμε αυτό πρέπει να γνωρίζουμε το δραστικό μέγεθος του πληθυσμού που εξετάζουμε, δηλαδή τον αριθμό των ενηλίκων που συνεισφέρουν γαμέτες στην επόμενη γενιά. Δραστικό μέγεθος πληθυσμού: Nf = αριθμός αναπαραγωγικών θηλυκών Nm= αριθμός αναπαραγωγικών αρσενικών Παράγοντες που μπορεί να μειώσουν το δραστικό μέγεθος του πληθυσμού είναι η διαφορική αναπαραγωγή και οι επικαλυπτόμενες γενιές. Έτσι, μπορούμε να τροποποιήσουμε τον τύπο της δειγματοληπτικής διακύμανσης σε pq/2ne όπου Ne το δραστικό μέγεθος του πληθυσμού και p και q οι συχνότητες των αλληλομόρφων. Η

49 τετραγωνική ρίζα της διακύμανσης ονομάζεται τυπικό σφάλμα συχνότητας αλληλομόρφων Η γενετική παρέκκλιση μπορεί να εμφανιστεί ως το φαινόμενο του ιδρυτή. Αυτό συμβαίνει όταν ένας πληθυσμός αρχικά αποτελείται από πολύ λίγα αναπαραγωγικά άτομα. Αργότερα, όπως είναι αναμενόμενο, ο πληθυσμός θα μεγαλώσει αλλά το γονιδιακό απόθεμα του πληθυσμού θα προέρχεται από τα γονίδια των αρχικών ατόμων, των ιδρυτών. Μία άλλη μορφή της γενετικής παρέκκλισης είναι το φαινόμενο στενωπού. Σε αυτή την περίπτωση έχουμε σημαντική μείωση του πληθυσμού. Κατά την μείωση αυτή υπάρχει απώλεια γονιδίων, η οποία είναι τυχαία. Ο συνδυασμός γενετικής παρέκκλισης και μετάλλαξης δημιουργεί μια κατάσταση ισορροπίας αφού οι δυνάμεις τους εξισορροπούνται, δηλαδή εμφανίζονται συνεχώς νέες μεταλλάξεις και χάνονται αλληλόμορφα από τον πληθυσμό. Ο αριθμός των αλληλομόρφων, αν και δεν παραμένει σταθερός, παρουσιάζει μια μικρή απόκλιση από μια τιμή σταθερής κατάστασης Μη τυχαίες διασταυρώσεις Όταν οι διασταυρώσεις δεν γίνονται τυχαία έχουμε σαν αποτέλεσμα την απορύθμιση της ισορροπίας και των αναλογιών. Οι μορφές μη τυχαίας διασταύρωσης που συναντώνται πιο συχνά είναι οι εξής: Η διασταύρωση μεταξύ ατόμων με παρόμοιους φαινοτύπους, ή αλλιώς ομοιοφαινοτυπικό ζευγάρωμα, είναι ικανή να επηρεάσει τις συχνότητες των γονοτύπων όταν οι φαινότυποι των ατόμων που διασταυρώνονται είναι γενετικά καθορισμένοι. Η διασταύρωση μεταξύ ατόμων με ανόμοιους φαινοτύπους, ή αλλιώς ανομοιοφαινοτυπικό ζευγάρωμα, μπορεί να επηρεάσει τις φαινοτυπικές και αλληλομορφικές συχνότητες λόγω του ότι σπάνιοι τύποι μπορεί να διασταυρώνονται συχνότερα από τους πιο συνηθισμένους. Η διασταύρωση μεταξύ ατόμων με κοντινή συγγένεια, ή αλλιώς ομομιξία, η οποία οδηγεί σε αυξημένη ομοζυγωτία σε έναν πληθυσμό και στα περισσότερα είδη παρατηρείται στα άτομα που έχουν προκύψει από τέτοιου είδους διασταύρωση, μειωμένη προσαρμοστικότητα (ομομικτική κατάπτωση) που φέρνει ως αποτέλεσμα μειωμένη ικανότητα επιβίωσης και γενετικές ασθένειες. 3.6 ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΠΛΗΘΥΣΜΙΑΚΗΣ ΓΕΝΕΤΙΚΗΣ Η πληθυσμιακή γενετική και οι πληροφορίες που μας παρέχει για έναν πληθυσμό βρίσκει αρκετές εφαρμογές όπως είναι η διατήρηση ειδών, η βελτίωση ειδών, ακόμα και στην ιατρική σε σχέση με διάφορες ασθένειες. 49

50 Διατήρηση των ειδών Η συνεισφορά της πληθυσμιακής γενετικής στην συγκεκριμένη κατεύθυνση είναι αρκετά αξιόλογη αφού η μελέτη του γενετικού αποθέματος ενός πληθυσμού μπορεί να συμβάλει στην αύξηση της πιθανότητας αυτός ο πληθυσμός να επιβιώσει μακροπρόθεσμα. Υπάρχουν τεχνικές οι οποίες είναι σε θέση να υπολογίσουν ποιο είναι το ελάχιστο μέγεθος ενός πληθυσμού έτσι ώστε να μην υπάρχει πιθανότητα εξαφάνισής του για ένα καθορισμένο χρονικό διάστημα. Βελτίωση ειδών Η κατανόηση της γενετικής δομής των διάφορων ειδών έχει δώσει την δυνατότητα για γενετική βελτίωση κάποιου πληθυσμού στον οποίο θα εφαρμοστούν τεχνικές όπως κατάλληλες διασταυρώσεις. Η εφαρμογή αυτή έχει χρησιμοποιηθεί περισσότερο στα φυτά, όπου γίνεται βελτίωση των κληρονομούμενων χαρακτηριστικών με στόχο οικονομικά οφέλη και μακροπρόθεσμα για την επίλυση του προβλήματος διατροφής του συνεχώς αυξανόμενου πληθυσμού της γης. Μελέτη ασθενειών Με την αναλυτικότερη μελέτη των ειδών και την κατανόηση της εξέλιξης τους, οδηγούμαστε σε καλύτερη κατανόηση της προέλευσης των ασθενειών και της πορείας τους ανάμεσα στις γενιές.

51 51

52 4. ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ /ΤΑΞΙΝΟΜΗΣΗΣ

53 ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ/ΤΑΞΙΝΟΜΗΣΗΣ Από τους πιο δημοφιλής αλγόριθμους μάθησης είναι οι αλγόριθμοι μάθησης ή επαγωγής δέντρων ταξινόμησης/απόφασης (classification/decision trees) και εφαρμόζονται σε αποτελεσματικά σε πολλούς και διαφορετικούς τομείς, όπως διάγνωση ιατρικών περιστατικών, αξιολόγηση ρίσκου αποδοχής αίτησης για πιστωτική κάρτα, πρόβλεψη συμπεριφοράς καταναλωτή, κτλ. Το αποτέλεσμα των αλγορίθμων αυτών είναι μία δενδροειδής δομή που περιγράφει τα δεδομένα με γραφικό τρόπο ή αλλιώς για να είναι πιο εύκολη η ανάγνωσή του, αναπαρίσταται με ένα σύνολο κανόνων if-then, που ονομάζονται κανόνες ταξινόμησης. 4.1 ΔΟΜΗ ΔΕΝΤΡΩΝ Το δέντρο αποτελείται από κόμβους, οι οποίοι ορίζουν από μια συνθήκη ελέγχου της τιμής ενός attribute (ή feature) των instances (περιπτώσεων) και κάθε κλειδί που ξεκινάει από έναν κόμβο αντιστοιχεί σε μια τιμή του attribute αυτού. Ένα instance ταξινομείται με την χρήση του δέντρου, ξεκινώντας από την ρίζα και ακολουθώντας τα κατάλληλα κλαδιά του δέντρου μέχρι να φτάσουν σε κάποιο φύλλο το οποίο έχει χαρακτηριστεί από μια τιμή της κλάσης- κατηγορίας. Σε κάθε κόμβο ελέγχεται η τιμή του attribute στο instance ώστε να ακολουθηθεί το κατάλληλο κλαδί. Τα δένδρα ταξινόμησης χρησιμοποιούν μια αναπαράσταση που είναι μια διάζευξη που αποτελείται από ένα σύνολο περιορισμών στις τιμές των χαρακτηριστικών. Κάθε μονοπάτι από την ρίζα μέχρι τα φύλλα αποτελεί την σύζευξη περιορισμών στις τιμές των χαρακτηριστικών. Εφόσον, λοιπόν, το δέντρο αποτελείται από όλα τα εναλλακτικά μονοπάτια αποτελεί την διάζευξη αυτών των συζεύξεων. Στην ουσία τα δέντρα απόφασης χρησιμοποιούνται για να προβλέψουν με έναν συγκεκριμένο βαθμό ακρίβειας την τιμή του attribute που μοντελοποιούν με βάση τις τιμές των άλλων attributes. Κύριο πλεονέκτημα τους είναι η ευκολία με την οποία μπορούν να διαβαστούν και να ερμηνευθούν. Όσοι αλγόριθμοι έχουν αναπτυχθεί για μάθηση δέντρων ταξινόμησης είναι παραλλαγές ενός βασικού αλγορίθμου, όπως είναι ο ID3 και ο απόγονός του C4.5. Η κατασκευή του δέντρου βασίζεται σε αυτόν τον βασικό αλγόριθμο στον οποίο γίνονται διαφοροποιήσεις κυρίως στο κομμάτι της απόφασης αν ένας κόμβος είναι φύλλο και στην επιλογή μιας διαχωριστικής ιδιότητας:

54 Παρακάτω απεικονίζεται ένα απλό παράδειγμα δέντρου ταξινόμησης. Εικόνα: Παράδειγμα δέντρου ταξινόμησης. Πλεονεκτήματα-Μειονεκτήματα δέντρων απόφασης Πλεονεκτήματα: Είναι απλά στην κατανόηση και την ερμηνεία και έτσι οι άνθρωποι τα καταλαβαίνουν εύκολα μετά από μια σύντομη εξήγηση. Έχουν αποτελέσματα και σε δύσκολα δεδομένα με περίπλοκες περιπτώσεις που πρέπει να ληφθούν υπόψη. Μπορούν να προστεθούν πιθανά σενάρια. Μπορούν να οριστούν χειρότερες, καλύτερες και αναμενόμενες τιμές για διαφορετικά σενάρια. Μπορεί να συνδυαστεί με άλλες τεχνικές απόφασης. Τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένων Η ακρίβεια πρόβλεψης των δέντρων απόφασης είναι αποδεκτή για τις περισσότερες περιπτώσεις, συγκρίσιμη με την ακρίβεια άλλων κατηγοριοποιητών. Έχουν καλή ανοχή στον θόρυβο, ειδικά όταν εφαρμόζεται κλάδεμα (pruning). Χειρίζονται πολυδιάστατα δεδομένα και κάθε τύπο μεταβλητών (συμβολικές, αριθμητικές, κ.λπ.). Μειονεκτήματα:

55 Για δεδομένα τα οποία συμπεριλαμβάνουν κατηγορικές μεταβλητές με διαφορετικό αριθμό επιπέδων, το information gain στα δέντρα απόφασης μεροληπτεί υπέρ των μεταβλητών με τα περισσότερα επίπεδα. Οι υπολογισμοί μπορούν να γίνουν αρκετά περίπλοκοι ειδικά αν πολλές τιμές είναι αβέβαιες. Αγνοούν εξαρτήσεις μεταξύ των μεταβλητών. Κλάδεμα (pruning) Το κλάδεμα ενός κόμβου συνιστά την διαδικασία, κατά την οποία με συγκεκριμένα κριτήρια επιλέγεται ένας ή περισσότεροι κόμβοι των οποίων τα υποδέντρα αφαιρούνται ενώ οι ίδιοι μετατρέπονται σε φύλλα. Ο κόμβος χαρακτηρίζεται από την κλάση που πλειοψηφεί στα παραδείγματα του. Υπάρχουν δύο τρόποι: Προ-κλάδεμα: Με εναλλακτικά κριτήρια τερματισμού κατά την κατασκευή του δέντρου. Τέτοια είναι να θεωρείται ένας κόμβος φύλλο όταν ένα ποσοστό (π.χ. 80%) των παραδειγμάτων του ανήκουν σε μία κλάση ή ο κόμβος να περιέχει λιγότερα από 10 π.χ. παραδείγματα (τότε η κλάση του φύλλου είναι η πλειοψηφούσα). Μετά-κλάδεμα: Αφού δημιουργηθεί το δέντρο, διαγράφουμε υποδένδρα ώστε να αποφύγουμε την υπερμοντελοποίηση. Στην πράξη έχει αποδειχθεί αποτελεσματικότερη η δεύτερη κατηγορία μεθόδων. Ο αλγόριθμος J48 Ο αλγόριθμος J48 αποτελεί μια υλοποίηση του αλγορίθμου C4.5 ο οποίος είναι προέκταση του ID3 και αναπτύχθηκε από τον Ross Quinlan. Οι βελτιώσεις που έγιναν σε σχέση με τον ID3 είναι: Διαχειρίζεται και διακριτές αλλά και συνεχείς τιμές. Για να το κάνει αυτό, δημιουργεί ένα κατώφλι (threshold) και χωρίζει την λίστα των τιμών σε αυτές που είναι μεγαλύτερες από το κατώφλι και αυτές που είναι μικρότερες ή ίσες. Διαχειρίζεται δεδομένα με ελλιπείς τιμές, δηλαδή επιτρέπει κάποιες τιμές χαρακτηριστικών να έχουν την τιμή «?» όταν είναι άγνωστες. Στους υπολογισμούς της εντροπίας και του κέρδους απλά δεν λαμβάνονται υπόψη. Διαχειρίζεται χαρακτηριστικά με διαφορετικό κόστος. Κλαδεύει το δέντρο αφού δημιουργηθεί. Αφαιρεί υποδέντρα που δεν βοηθούν στην κατηγοριοποίηση και τα αντικαθιστά με κόμβους-φύλλα. 55

56 O J48 (ή αλλιώς C4.5) δημιουργεί δέντρα απόφασης από ένα σύνολο δεδομένων εκπαίδευσης χρησιμοποιώντας την έννοια της εντροπίας πληροφοριών. Τα δεδομένα εκπαίδευσης είναι ένα σύνολο S = s1, s2, από ήδη ταξινομημένα δείγματα. Κάθε δείγμα Si= x1, x2, είναι ένα διάνυσμα όπου τα x1, x2, αντιπροσωπεύουν τις ιδιότητες ή τα χαρακτηριστικά γνωρίσματα του δείγματος. Επίσης, στα δεδομένα εκπαίδευσης αντιστοιχεί ένα διάνυσμα C = c1, c2, όπου c1, c2, αντιπροσωπεύει την κατηγορία στην οποία ανήκει κάθε δείγμα. Ο J48 χρησιμοποιεί το γεγονός ότι κάθε χαρακτηριστικό των δεδομένων μπορεί να χρησιμοποιηθεί για να λάβει μια απόφαση, η οποία χωρίζει τα δεδομένα σε μικρότερα υποσύνολα. Ο J48 εξετάζει το ομαλοποιημένο κέρδος πληροφοριών (information gain -διαφορά στην εντροπία) που προκύπτει από την επιλογή ενός χαρακτηριστικού για το διαχωρισμό των δεδομένων. Το χαρακτηριστικό με το υψηλότερο ομαλοποιημένο κέρδος πληροφοριών είναι αυτό που χρησιμοποιείται για να ληφθεί μια απόφαση. Ο αλγόριθμος επαναλαμβάνεται για μικρότερες υπολίστες δεδομένων. 4.2 ΚΡΙΤΗΡΙΑ ΔΙΑΧΩΡΙΣΜΟΥ (SPLIT CRITERIA) Ένα από τα πιο σημαντικά σημεία είναι η επιλογή του χαρακτηριστικού που θα ελέγχεται σε κάθε κόμβο. Ο αλγόριθμος J48, επιλέγει ως ριζικό κόμβο το χαρακτηριστικό που διαχωρίζει όσο γίνεται πιο αποδοτικά τα δεδομένα εισόδου, με βάση την εντροπία της πληροφορίας. Το κριτήριο απόδοσης αποτελεί το κέρδος Πληροφορίας, που είναι μια μετρική από τον κλάδο της Θεωρίας Πληροφοριών, όπως και η εντροπία. Εντροπία (Entropy) Η εντροπία είναι ένα στατιστικό μέτρο το οποίο χαρακτηρίζει την ανομοιογένεια μιας συλλογής παραδειγμάτων και υπολογίζεται από τον τύπο: όπου: Ε= εντροπία ενός χαρακτηριστικού S= το σύνολο των δεδομένων εκπαίδευσης fs(j)= η συχνότητα εμφάνισης της τιμής j του υπό εξέταση χαρακτηριστικού στα δεδομένα εκπαίδευσης. n= ο αριθμός των διακριτών τιμών του χαρακτηριστικού. Πρέπει να τονιστεί ότι όταν η εντροπία είναι κοντά στο μηδέν, τότε αυτό συνεπάγεται ύπαρξη τάξης, οργάνωσης ή καλύτερα ομοιογένειας στα δεδομένα, ενώ όταν προσεγγίζει την μονάδα, το αντίστροφο. Το τελικό κριτήριο επιλογής ενός χαρακτηριστικού ως κόμβο στο δέντρο αποτελεί το κέρδος πληροφορίας (information gain) που υπολογίζεται για κάθε χαρακτηριστικό με τον τύπο:

57 όπου: G(S,A)= το κέρδος πληροφορίας μετά την επιλογή του χαρακτηριστικού Α. E(S)= η εντροπία του συνόλου S. fs(ai)=το ποσοστό των δεδομένων που έχουν την τιμή Ai. E(SAi)= η εντροπία του συνόλου με βάση το χαρακτηριστικό Α και την τιμή του Ai. Όσο μεγαλύτερη είναι η τιμή του κέρδους πληροφορίας τόσο καλύτερη είναι η επιλογή του χαρακτηριστικού. 4.3 ΝΕΑ ΚΡΙΤΗΡΙΑ ΔΙΑΧΩΡΙΣΜΟΥ Το νέο κριτήριο που καλούμαστε να εξετάσουμε μπορεί να εφαρμοστεί σε γενετικά και βιολογικά δεδομένα και βασίζεται στον υπολογισμό μια ποσότητας για κάθε χαρακτηριστικό που ονομάζεται Δέλτα (Delta). Την πιο κοινώς χρησιμοποιούμενη μετρική υπολογισμού της πληροφορίας των γενετικών παραλλαγών, αποτελεί η μέθοδος Delta [Shriver et.al.(1997)]. Η μέθοδος είναι pairwise, δηλαδή υπολογίζεται μόνο μεταξύ δύο πληθυσμών. Για ένα ετερόζυγο άτομο, αρχικά υπολογίζουμε τη συχνότητα εμφάνισης του ενός αλληλόμορφου στο σύνολο των παραλλαγών, του πρώτου πληθυσμού (έστω f1). Στη συνέχεια τη συχνότητα του ίδιου αλληλόμορφου, στο δεύτερο πληθυσμό (έστω f2). H τελική τιμή του Delta υπολογίζεται από τον τύπο: d i = f 1 - f 2 Όταν το σύνολο των πληθυσμών είναι μεγαλύτερο από δύο, υπολογίζουμε την τιμή του Delta μεταξύ όλων των πληθυσμών και στη συνέχεια υπολογίζουμε το μέσο όρο αυτών. Αυτό γίνεται με τον εξής τρόπο: d final = d 1 + d 2 + d d i / i, i>2 Οι τιμές του Delta κυμαίνονται από 0 εώς 1. Το 0 δηλώνει ανύπαρκτο διαχωρισμό μεταξύ των πληθυσμών ενώ το 1 μέγιστο διαχωρισμό. 57

58 Η μέθοδος που χρησιμοποιήθηκε στο Weka, για τον υπολογισμό του πίνακα που περιέχει τις τιμές Delta για κάθε χαρακτηριστικό είναι η public void buildevaluator (Instances data). Παίρνει σαν είσοδο το εκάστοτε σύνολο δεδομένων.

59 59

60 Η μέθοδος αυτή υλοποιεί τον υπολογισμό των τιμών δέλτα για κάθε χαρακτηριστικό του συνόλου δεδομένων και τις αποθηκεύει σε έναν πίνακα με μέγεθος τον αριθμό των χαρακτηριστικών.

61 61

62 5. ΑΛΛΑΓΗ SPLIT CRITERIA ΣΤΟΝ ΚΩΔΙΚΑ ΤΟΥ WEKA

63 ΑΛΛΑΓΗ SPLIT CRITERIA ΣΤΟΝ ΚΩΔΙΚΑ ΤΟΥ WEKA Το Weka (Waikato Environment for Knowledge Analysis) είναι μια συλλογή από αλγόριθμους μηχανικής μάθησης για εργασίες εξόρυξης δεδομένων. Αναπτύχθηκε στο πανεπιστήμιο του Waikato στην Νέα Ζηλανδία. Οι αλγόριθμοι μπορούν είτε να εφαρμοστούν απευθείας σε ένα σύνολο δεδομένων είτε να χρησιμοποιηθούν στον κώδικα οποιουδήποτε. Το Weka περιέχει εργαλεία για προεπεξεργασία δεδομένων, κατηγοριοποίηση, οπισθοδρόμηση, συσταδοποίηση, κανόνες συσχέτισης και οπτικοποίηση. Η αρχική έκδοσή του δεν ήταν σε JAVA, ήταν ένα TCL/TK front-end σε αλγόριθμους μοντελοποίησης που ήταν υλοποιημένοι σε άλλες γλώσσες προγραμματισμού και σε λειτουργίες προεπεξεργασίας δεδομένων σε C. Αυτή η εκδοχή αρχικά σχεδιάστηκε ως ένα εργαλείο για ανάλυση δεδομένων από τον τομέα της γεωργίας. Ο σκοπός της άλλαξε με την νεότερη εκδοχή, της οποίας η ανάπτυξη ξεκίνησε το 1997, και πλέον χρησιμοποιείται σε πολλούς και διαφορετικούς τομείς, ιδίως για εκπαιδευτικούς σκοπούς και έρευνα. Πλεονεκτήματα Weka: δωρεάν πρόσβαση με την χρήση της άδειας GNU General Public License. μεταφερσιμότητα, εφόσον είναι υλοποιημένο στην γλώσσα προγραμματισμού Java και λειτουργεί σχεδόν σε κάθε μοντέρνα υπολογιστική πλατφόρμα. ολοκληρωμένη συλλογή τεχνικών προεπεξεργασίας δεδομένων και μοντελοποίησης. ευκολία χρήσης λόγω των οπτικών διεπαφών που προσφέρονται στον χρήστη. Το Weka είναι κοινώς αποδεκτό για την σωστή και αποδοτική λειτουργία του, το οποίο κάνει ξεκάθαρο ότι η αλλαγή κριτηρίου που θέλουμε να πραγματοποιήσουμε απαιτεί την χρήση και αλλαγή του κώδικα του Weka. Αυτό είναι ανάγκη να γίνει για την εξασφάλιση ασφαλών και έγκυρων συμπερασμάτων για την χρησιμότητα και την απόδοση του συγκεκριμένου κριτηρίου. 63

64 Αρχικά μελετήθηκε διεξοδικά ο κώδικας του Weka στο κομμάτι υλοποίησης του αλγορίθμου J48. Οι κλάσεις που υλοποιούν κυρίως το δέντρο βρίσκονται στα πακέτα, weka.classifiers, στο weka.classifiers.trees και στο weka.classifiers.trees.j48 αλλά φυσικά χρησιμοποιούνται και άλλες κλάσεις για τις οντότητες και κάποιες βασικές πράξεις. Χρειάστηκε η κατανόηση της ροής του αλγορίθμου ανάμεσα στις κλάσεις καθώς και της λειτουργίας κάθε κλάσης και κατ επέκταση κάθε μεθόδου. Το ποιες κλάσεις και μέθοδοι επηρεάζουν σημαντικά την διαδικασία γίνεται κατανοητό παρακάτω με την περιγραφή των αλλαγών που πραγματοποιήθηκαν και της main που χρησιμοποιήθηκε. 5.1 ΔΗΜΙΟΥΡΓΙΑ PROJECT ΥΛΟΠΟΙΗΣΗΣ J48 Δημιουργήθηκε ένα project με νέα main η οποία καλεί τις κατάλληλες μεθόδους για να χτιστεί και να αξιολογηθεί το δέντρο. Στην ουσία, υλοποιούμε τον J48 με απλό τρόπο στο δικό μας project. Η main παρουσιάζεται παρακάτω: Όπως βλέπουμε, αρχικά δηλώνεται και ανοίγεται το αρχείο που περιέχει τα δεδομένα που θα χρησιμοποιήσουμε. Το αρχείο αυτό είναι σε μορφή arff (Attribute-Relation File Format) δηλαδή ένα ASCII αρχείο κειμένου το οποίο περιγράφει μια λίστα εγγραφών που μοιράζονται ένα σύνολο χαρακτηριστικών. Η συγκεκριμένη μορφή αρχείου σχεδιάστηκε ειδικά για χρήση στο Weka. Τα δεδομένα αποθηκεύονται στην μεταβλητή data που είναι αντικείμενο της κλάσης Instances του Weka. Ορίζουμε πιο χαρακτηριστικό θέλουμε να αποτελέσει την κλάση και επιλέγουμε το τελευταίο. Ορίζουμε ως επιλογές ότι δεν θέλουμε να γίνει κλάδεμα στο δέντρο μας, και στην συνέχεια δηλώνουμε ένα αντικείμενο της κλάσης J48 από την οποία ξεκινά η υλοποίηση του δέντρου. Καλούμε δύο μεθόδους του αντικειμένου

65 tree. Μία για να ορίσουμε τις επιλογές του δέντρου και μία για να παράγουμε τον κατηγοριοποιητή και να δημιουργηθεί η ρίζα του δέντρου. Στην συνέχεια δηλώνουμε ένα αντικείμενο της κλάσης Evaluation και καλούμε την μέθοδο crossvalidatemodel έτσι ώστε να πραγματοποιήσουμε το 10-fold cross- Validation. Ύστερα τυπώνουμε τα αποτελέσματα για να δούμε την ακρίβεια του αλγόριθμου. Δημιουργήθηκε ένα ξεχωριστό project το οποίο χρησιμοποιεί αυτή τη main και χρησιμοποιεί εξ ολοκλήρου τον κώδικα του Weka χωρίς καμία παραλλαγή ώστε αρχικά να διαπιστώσουμε τα αποτελέσματα που προκύπτουν με τον J48 αυτούσιο. 65

66 5.2 ΑΛΛΑΓΕΣ ΣΤΟΝ ΚΩΔΙΚΑ Στο project στο οποίο υλοποιήθηκε το νέο κριτήριο, δηλαδή η τιμή δέλτα του κάθε χαρακτηριστικού, χρειάστηκε να αλλάξουμε τρεις κλάσεις του Weka, τη C45Split, τη C45ModelSelection και τη J48, η καθεμία με διαφορετικό πλήθος αλλαγών. C45Split Σε αυτήν την κλάση πραγματοποιείται ένα split. Περιέχει πληροφορίες για το χαρακτηριστικό με βάση το οποίο θα γίνει το split όπως το id του, την τιμή του information gain που θα έχουμε αν το χρησιμοποιήσουμε κ.λπ. Η διαδικασία γίνεται στην μέθοδο buildclassifier(instances traininstances) η οποία για συμβολικές μεταβλητές καλεί την μέθοδο handleenumeratedattribute(instances traininstances). Πιο αναλυτικά, αρχικά πραγματοποιήθηκε μια μικρή αλλαγή στον constructor της κλάσης ο οποίος μετά την παρέμβαση αυτή δέχεται ανάμεσα στα υπόλοιπα ορίσματα, τον πίνακα με τις τιμές δέλτα. Στην μέθοδο buildclassifier(instances traininstances) δεν έχουμε κάποια αλλαγή, τουλάχιστον ουσιαστική αφού στο σημείο αυτό δεν γίνεται κάποια ενέργεια σε σχέση με το κριτήριο παρά μόνο έλεγχοι και κλήσεις άλλων μεθόδων. Η μέθοδος που καλείται σύμφωνα με τον τύπο δεδομένων που θέλουμε να κατηγοριοποιήσουμε είναι η handleenumeratedattribute(instances traininstances). Σε αυτή τη μέθοδο γίνονται έλεγχοι σχετικά με τιμές που μπορεί να λείπουν για να ληφθούν υπόψη οι εγγραφές εκείνες που έχουν τιμή στο χαρακτηριστικό στο οποίο θα γίνει split και διασφαλίζεται ότι ο κόμβοι-παιδιά θα έχουν περισσότερα στοιχεία από τον ελάχιστο αριθμό που έχει

67 οριστεί. Στην συνέχεια προσδιορίζεται ο αριθμός των υποσυνόλων που θα δημιουργηθούν και η τιμή του information gain του χαρακτηριστικού, που στην περίπτωσή μας αντικαθίσταται από την τιμή δέλτα. Τέλος, η μέθοδος που επέστρεφε την τιμή του information gain αντικαταστάθηκε από την μέθοδο που επιστρέφει την τιμή δέλτα του χαρακτηριστικού στο οποίο πρόκειται να γίνει split. C45ModelSelection Σε αυτή την κλάση και στην μέθοδο selectmodel(instances data) γίνεται η επιλογή του χαρακτηριστικού στο οποίο θα γίνει το επόμενο split. Αρχικά προστέθηκε στις μεθόδους της κλάσης η μέθοδος που υπολογίζει τον πίνακα με τις τιμές δέλτα καθώς και μια βοηθητική μέθοδος που χρησιμοποιεί. 67

68 Ο πίνακας δέλτα δηλώθηκε ως πεδίο της κλάσης για να υπάρχει πρόσβαση από όλες τις μεθόδους της κλάσης. Στην αρχή της selectmodel προστέθηκε η κλήση της μεθόδου που υπολογίζει τον πίνακα δέλτα. Ύστερα γίνεται έλεγχος αν βρίσκεται σε φύλλο, δηλαδή αν όλα τα instances ανήκουν σε μία κλάση ή αν ο αριθμός των instances στον κόμβο δεν επιτρέπει την πραγματοποίηση split. Στην συνέχεια κάνει ελέγχους σχετικά με τον αριθμό των τιμών των χαρακτηριστικών και έπειτα ξεκινά την διαδικασία εύρεσης του καλύτερου χαρακτηριστικού. Για κάθε χαρακτηριστικό δημιουργεί ένα C45Split και καλεί την μέθοδο buildclassifier για να δημιουργήσει το split και να δώσει κατάλληλες τιμές σε πεδία της κλάσης.

69 Μετά, επίσης για κάθε χαρακτηριστικό εκτός της κλάσης, συγκρίνει την τιμή δέλτα του συγκεκριμένου χαρακτηριστικού με την μεγαλύτερη τιμή δέλτα που έχουμε συναντήσει ως την δεδομένη στιγμή ώστε αν είναι η πρώτη μεγαλύτερη αλλά με κάποιο περιορισμό στην διαφορά (για αποφυγή outliers) να ανανεώσουμε την μεγαλύτερη τιμή και το χαρακτηριστικό στο οποίο την συναντήσαμε. 69

70 Το minresult χρησιμεύει στο να διαπιστώσουμε αν βρέθηκε έστω και ένα χαρακτηριστικό με μη μηδενικό δέλτα. Αργότερα γίνεται έλεγχος για την τιμή του έτσι ώστε αν είναι μηδέν να μην γίνει Split. Στο τέλος επιστρέφει το C45Split του χαρακτηριστικού που χαρακτηρίστηκε ως καλύτερο. J48 Είναι η κλάση στην οποία συντονίζεται η διαδικασία. Ο κώδικάς της δεν χρειάζεται κάποια αλλαγή, παρά μόνο στα import, δηλαδή τις κλάσεις που δηλώνει ότι θα χρησιμοποιήσει. Περιέχει το import weka.classifiers.trees.j48.c45modelselection; οπότε αναγκαστικά έπρεπε να ενσωματωθεί στο project για να σβηστεί αυτή η εντολή που θα προκαλούσε την χρήση της κλάσης C45ModelSelection από τον κώδικα του Weka και όχι αυτήν που έχουμε υλοποιήσει εμείς.

Δείτε περισσότερα