ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (M.B.A) <<ΝΕΕΣ ΑΡΧΕΣ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ>>

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (M.B.A) <<ΝΕΕΣ ΑΡΧΕΣ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ>> ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Η χρήση των τεχνικών εξόρυξης από δεδομένα (data-mining) στην ανάλυση ερωτηματολογίων - εφαρμογή στην ανάλυση ερωτηματολογίων για τη διάγνωση του αυτισμού Α. Αγγελόπουλος (Α.Μ. 314) Επιβλέπων καθηγητής: Β. Βουτσινάς Πάτρα, 2017

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (M.B.A) <<ΝΕΕΣ ΑΡΧΕΣ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ>> ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Η χρήση των τεχνικών εξόρυξης από δεδομένα (data-mining) στην ανάλυση ερωτηματολογίων - εφαρμογή στην ανάλυση ερωτηματολογίων για τη διάγνωση του αυτισμού Α. Αγγελόπουλος (Α.Μ. 314) Επιβλέπων καθηγητής: Κος Β. Βουτσινάς Εγκρίθηκε από τη τριμελή εξεταστική επιτροπή την 2017.... Β. Βουτσινάς Ι. Γιαννίκος Ι. Σταματίου Καθηγητής Αναπληρωτής καθηγητής Αναπληρωτής καθηγητής Πάτρα, 2017 2

Περίληψη (Abstract) Οι τεχνικές εξόρυξης γνώσης από Βάσεις Δεδομένων έχουν αναπτυχθεί ραγδαία τα τελευταία χρόνια. Η γνώση εκφράζεται μέσα από κανόνες οι οποίοι μπορεί να αποδειχθούν καταλυτικοί στη λήψη αποφάσεων από τα στελέχη μιας επιχείρησης. Ένας τομέας, στον οποίο σαφέστατα οι αλγόριθμοι εξόρυξης γνώσης βρίσκουν ένα αρκετά ευρύ φάσμα εφαρμογών, είναι ο τομέας της Ιατρικής και, ειδικότερα, της διάγνωσης μίας πάθησης - νόσου. Ως μελέτη περίπτωσης, η πάθηση στην οποία επικεντρωθήκαμε είναι ο αυτισμός της παιδικής ηλικίας. Το «ΠΑΥΕΥΣ» είναι ένα Πρότυπο Σύστημα Υποστήριξης Ατόμων με Αυτισμό βασιζόμενο σε ένα Ευφυές Πληροφοριακό Σύστημα. Το σύστημα παρέχει τη δυνατότητα καταχώρησης περιστατικού που χρήζει παρέμβασης αλλά και εμπλουτισμό της βάσης Γνώσης με καταχώρηση περίπτωσης. Επιπλέον, προσφέρει τη δυνατότητα αξιολόγησης των προτεινόμενων παρεμβάσεων αλλά και μια πρώιμη διάγνωση με τη μορφή ειδικά σχεδιασμένων & προσαρμοσμένων ερωτήσεων. Αυτές οι ερωτήσεις είναι ήδη αναγνωρισμένες διεθνώς και για παιδιά ηλικίας 0-4 χρονών επιλέχθηκαν τα ερωτηματολόγια CASD, MCHAT και CSBS-DP και 4-11 χρονών τα ερωτηματολόγια AQ, CASD και SRS. Το πλήθος αυτών των ερωτήσεων για κάθε ερωτηματολόγιο είναι πολύ μεγάλο και ο απώτερος στόχος της συγκεκριμένης πτυχιακής εργασίας είναι να δημιουργηθεί με τη χρήση τεχνικών data mining για την ανάλυση συμπληρωμένων ερωτηματολογίων ένα νέο σετ ερωτήσεων που είναι πολύ μικρότερο σε πλήθος, αλλά παρέχει εξίσου υψηλής ακρίβειας αποτελέσματα. Για το σκοπό αυτό, στην συγκεκριμένη εργασία για τα ερωτηματολόγια από 4-11 στα πλαίσια του ΠΑΥΕΥΣ, αύξησα τον αριθμό των συμπληρωμένων ερωτηματολογίων και εν συνεχεία επαλήθευσα τα υπάρχοντα αποτελέσματα, ενώ για τα ερωτηματολόγια 0-4 συνέλεξα νέα συμπληρωμένα ερωτηματολόγια εξ αρχής και με τη βοήθεια του Δημοτικού Βρεφοκομείου Πατρών, για περιστατικά παιδιών που δεν έχουν διαγνωστεί με αυτισμό. Επίσης συμπληρώθηκαν ερωτηματολόγια από γονείς παιδιών με διαγνωσμένο από ειδικό Ιατρό αυτισμό. Όπως αναφέρθηκε ήδη η επιλογή των ερωτήσεων προς τους γονείς έγινε με κριτήριο τη μελέτη μιας συγκεκριμένης βιβλιογραφίας σχετικά με τα συμπτώματα και τις συμπεριφορές ενός αυτιστικού παιδιού και διατυπώθηκαν με τέτοιον τρόπο ώστε μέσα από την απάντηση που δίνει ο γονέας στην εκάστοτε ερώτηση να δύναται να εξαχθεί μία σημαντική πληροφορία. Εν συνεχεία, με βάση τα συμπληρωμένα ερωτηματολόγια μέσα από αυτές τις απαντήσεις, προσπάθησα να βγάλω συμπεράσματα, αφενός για τις εν τοις πράγμασι αιτίες που οδηγούν στη διάγνωση του αυτισμού και αφετέρου για 3

τυχόν συσχετίσεις που μπορεί να υπάρχουν στα χαρακτηριστικά της συμπεριφοράς ενός παιδιού, με ή χωρίς αυτισμό. Οι αλγόριθμοι που επιλέχθηκαν για αυτό το σκοπό ήταν ο ID3 και ο Apriori. Το λογισμικό που χρησιμοποιήθηκε για την πειραματική εφαρμογή των δυο προαναφερθέντων αλγορίθμων ήταν το WEKA, μία freeware εφαρμογή ειδική για (α) εξαγωγή δέντρων απόφασης, και (β) για εξαγωγή κανόνων συσχετίσεων. Εκτελέσαμε τον κάθε αλγόριθμο ξεχωριστά και καταγράψαμε τους κανόνες και τα αποτελέσματα που μας έδωσε. Στη συνέχεια περάσαμε στο στάδιο της αποτίμησης των αποτελεσμάτων. Καταγράψαμε τα πλεονεκτήματα και τα μειονεκτήματα του κάθε αλγόριθμου, αναφέραμε πιθανούς τρόπους που μπορεί να λειτουργήσουν συμπληρωματικά μεταξύ τους και προτείναμε τρόπους βελτίωσης του ερωτηματολογίου, ώστε να μπορούμε να εξάγουμε ακόμη πιο χρήσιμους κανόνες στη συνέχεια. Έχοντας αναλύσει τί είναι ανάλυση με χρήση data mining και ποια από τα στάδια του σχεδιασμού του καλύπτει αυτή η εργασία, αναφέραμε αναλυτικά τις μετρικές αξιολόγησης των κανόνων ενός συστήματος, δηλαδή τις προϋποθέσεις και τις προδιαγραφές βάσει των οποίων οι κανόνες που εξάγονται από έναν αλγόριθμο εξόρυξης γνώσης μπορούν να θεωρηθούν αξιόπιστοι. 4

Περιεχόμενα Κεφάλαιο 1ο... 6 1.1 Εξόρυξη Δεδομένων (Data Mining)... 6 1.1.1 Εισαγωγή... 6 1.1.2 Τεχνητή Νοημοσύνη... 8 1.1.3 Μηχανική Μάθηση... 9 1.1.4 Μάθηση Με Επίβλεψη... 10 1.1.5 Μη Επιτηρούμενη Μάθηση... 12 1.2 Τεχνικές Εξόρυξης Δεδομένων... 14 1.2.1 Δέντρα Απόφασης... 14 1.2.2 Ο αλγόριθμος ID3... 16 1.2.3 Ο αλγόριθμος Apriori... 18 1.2.5 Το λογισμικό WEKA... 21 1.2.6 Ερωτηματολόγια και Βάσεις Δεδομένων... 23 Κεφάλαιο 2ο... 26 2.1 Αυτισμός - Ετυμολογία... 26 2.2 Κλινικές Ενδείξεις - Συμπτώματα... 27 2.3 Αυτισμός και Συμπεριφορά... 27 2.4 Διαταραχές... 28 2.5 Θεραπευτική Αντιμετώπιση... 29 Κεφάλαιο 3ο... 30 3.1 Έμπειρα Συστήματα... 30 3.2 Ο Σχεδιασμός του Ερωτηματολογίου... 32 3.3 Η Δημιουργία της Βάσης Γνώσης και Προεπεξεργασία για παιδιά ηλικίας 4-11... 34 3.4 Η χρήση του ID3 στη διάγνωση του Αυτισμού... 39 3.5 Apriori Συσχετίσεις στη Βάση Γνώσης... 48 3.6 Ο ID3 για παιδιά ηλικίας 0-4... 52 Οι ιδιότητες που θα κρατήσουμε προφανώς είναι αυτές που προέκυψαν και από τρία Δέντρα Απόφασης.... 56 3.7 Apriori για παιδιά ηλικίας 0-4... 56 Κεφάλαιο 4ο... 57 4.1 Σύγκριση μεταξύ των δυο αλγορίθμων και Συμπεράσματα... 57 4.2 Αξιολόγηση... 59 Βιβλιογραφία... 63 5

Κεφάλαιο 1ο 1.1 Εξόρυξη Δεδομένων (Data Mining) 1.1.1 Εισαγωγή Σε όλες τις επιχειρήσεις του κόσμου, κάθε χρόνο, ο όγκος των δεδομένων αυξάνεται. Αυτό είναι κάτι φυσικό, αφού μόνο αν σκεφτεί κανείς το πελατολόγιο κάθε επιχείρησης ξεχωριστά, μπορεί εύκολα να αντιληφθεί πως, ειδικά μία υγιής επιχείρηση, αυξάνει συνεχώς το πλήθος των πελατών της και, ως εκ τούτου, τις καταχωρήσεις των στοιχείων τους στη Βάση Δεδομένων της. Παρόλο, όμως, που ο όγκος αυξάνεται, αντιστρόφως ανάλογα η χρήσιμη πληροφορία μειώνεται. Ένας διευθυντής πωλήσεων δεν είναι πια ικανοποιημένος με μία απλή λίστα από στοιχεία πελατών. Αντιθέτως, επιθυμεί λεπτομερείς πληροφορίες, όπως για παράδειγμα τις προηγούμενες αγορές των πελατών του, ώστε να κάνει κατά το δυνατόν ασφαλέστερες προβλέψεις σχετικά με μελλοντικές αγορές τους. Απλές ερωτήσεις που μπορούν να εκφραστούν σε μία δομημένη γλώσσα ερωτήσεων (SQL), δεν είναι αρκετές για να ικανοποιήσουν αυτές τις συνεχώς αυξανόμενες απαιτήσεις για πληροφορίες. Η Εξόρυξη Γνώσης από δεδομένα παρεμβαίνει σε αυτό το σημείο με σκοπό να καλύψει σε μεγάλο βαθμό τις απαιτήσεις που υπάρχουν για ποιοτική πληροφορία μέσα από τα δεδομένα. [3 σελ.3] Η Εξόρυξη Γνώσης (Data Mining) συχνά ορίζεται ως "η εύρεση πληροφοριών που είναι κρυμμένες σε μία Βάση Δεδομένων". Ένας άλλος ορισμός που μπορούμε να αποδώσουμε για την Εξόρυξη Γνώσης είναι "η εξερευνητική ανάλυση δεδομένων που οδηγεί σε ανακάλυψη πληροφορίας από συμπερασματική μάθηση". Η προσπέλαση σε μία Βάση Δεδομένων (Βάση Γνώσης) μέσω της εξόρυξης γνώσης από δεδομένα, διαφέρει από την παραδοσιακή προσπέλαση σε αρκετά σημεία: Η ερώτηση υπάρχει περίπτωση να μην είναι με ακρίβεια διατυπωμένη. Εκείνος ο οποίος εξορύσσει τα δεδομένα, πολλές φορές δεν είναι σίγουρος για αυτό που θέλει να βρει Τα δεδομένα προσπέλασης αποτελούν, τις περισσότερες φορές, μία διαφορετική version από εκείνα της αρχικής (επιχειρησιακής) Βάσης Δεδομένων. Πιο συγκεκριμένα, για τις ανάγκες της καλύτερης δυνατής 6

υποστήριξης της διαδικασίας της εξόρυξης, τα δεδομένα υφίστανται τροποποιήσεις και απαλοιφές Η έξοδος (το αποτέλεσμα - η απάντηση) μια ερώτησης εξόρυξης γνώσης είναι πιθανό να μην αποτελεί ένα στοιχείο ή ένα υποσύνολο της Βάσης Δεδομένων. Αντί αυτού, ενδεχομένως να είναι η έξοδος από κάποιες αναλύσεις των περιεχομένων της Βάσης Δεδομένων [3 σελ.4] Η εξόρυξη γνώσης αποτελεί την σπουδαιότερη μεθοδολογία και στον κλάδο της Επιχειρηματικής Νοημοσύνης. Έχει, μάλιστα εφαρμοστεί επιτυχημένα σε μία ευρεία γκάμα προβλημάτων, όπου τα πιο συνηθισμένα είναι τα εξής: Προώθηση Προϊόντων (για παράδειγμα η διαχείριση και έρευνα της πελατειακής βάσης μιας επιχείρησης) Λιανεμπόριο (για παράδειγμα η αναγνώριση των προτιμήσεων των πελατών Οικονομικά (για παράδειγμα η αναγνώριση της επικινδυνότητας) Υγεία (για παράδειγμα η διάγνωση μέσα από τα έμπειρα συστήματα) Ενέργεια (για παράδειγμα η πρόβλεψη των απαιτήσεων για κατανάλωση ηλεκτρικής ενέργειας) Μέσα στην τελευταία δεκαετία παρουσιάζεται μία αλματώδης αύξηση στην παραγωγή και συλλογή δεδομένων. Η πρόοδος που έχει σημειωθεί στην τεχνολογία των Βάσεων Δεδομένων μας παρέχει νέες τεχνικές για την αποδοτική και αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Κάθε χρόνο παράγονται τεράστιοι όγκοι δεδομένων από εταιρείες και πανεπιστήμια τα οποία αποθηκεύονται σε μεγάλες Βάσεις Δεδομένων. Η δυνατότητα ανάλυσης και ερμηνείας των συνόλων δεδομένων και η εξαγωγή χρήσιμης πολύτιμης γνώσης από αυτά έχει ξεπεράσει κάθε όριο και, ως εκ τούτου, η ανάγκη για μία νέα γενιά εργαλείων και τεχνικών για ευφυή ανάλυση Βάσεων Δεδομένων έχει δημιουργηθεί και εξελίσσεται κάθε χρόνο ραγδαία. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορους επιστημονικούς κλάδους ή περιοχές αυτών όπως είναι η Τεχνητή Νοημοσύνη, η Στατιστική, τα Έμπειρα Συστήματα και η Οπτικοποίηση των δεδομένων. Έτσι, έχουμε ως αποτέλεσμα τη δημιουργία ενός νέου ερευνητικού τομέα γνωστό ως Εξόρυξη Δεδομένων και Γνώσης (Data and Knowledge Mining) [2][σελ.23] Σε αυτήν τη διπλωματική εργασία, θα μελετήσουμε τη μεθοδολογία εξόρυξης γνώσης σχετικά με τη διάγνωση του αυτισμού. Για την καταγραφή των κανόνων που θα συνιστούν τις προϋποθέσεις για την ύπαρξη αυτισμού σε ένα άτομο, θα κάνουμε χρήση τριών διαφορετικών τεχνικών εξόρυξης γνώσης, τεχνικές τις οποίες θα αναλύσουμε σε επόμενες ενότητες. 7

1.1.2 Τεχνητή Νοημοσύνη Από τους ορισμούς που διατυπώθηκαν σχετικά με τον όρο "Τεχνητή Νοημοσύνη" ήταν από τους Barr και Feigenbaum. Ο ορισμός αυτός αναφέρει το εξής: "Τεχνητή Νοημοσύνη είναι ο τομέας της επιστήμης των υπολογιστών, που ασχολείται με τη σχεδίαση ευφυών (νοημόνων) υπολογιστικών συστημάτων, δηλαδή συστημάτων που επιδεικνύουν χαρακτηριστικά που σχετίζονται με τη νοημοσύνη στην ανθρώπινη συμπεριφορά".[1 σελ.3] Για να κατανοηθεί με ορθό τρόπο η παραπάνω διατύπωση, είναι αναγκαίο να αποσαφηνιστεί πρωτίστως η ετυμολογία του όρου "Νοημοσύνη". Στο ερμηνευτικό λεξικό του Cambridge η "Νοημοσύνη" αναφέρεται ως "η ικανότητα για μάθηση, κατανόηση και κρίση ή αιτιολογημένη έκφραση γνώμης". Στο λεξικό Merriam - Webster ως "Νοημοσύνη" ορίζεται "η ικανότητα για μάθηση ή κατανόηση ή η αντιμετώπιση νέων ή δύσκολων καταστάσεων". Επιπροσθέτως αναφέρονται ως συνώνυμα η ευφυΐα, η λογική και η διανόηση, έννοιες που σχετίζονται άρρηκτα με δεξιότητες επίλυσης προβλημάτων, την μάθηση μέσω της εμπειρίας, την ικανότητα συλλογισμού, την ορθολογιστική και αναλυτική σκέψη, την λήψη σημαντικών αποφάσεων κτλ.[1 σελ.2] Ο Alan Turing (1912-1954) που κατά πολλούς θεωρείται ο "πατέρας" της Τεχνητής Νοημοσύνης, επινόησε το 1950 μία δοκιμασία, η οποία πήρε και το όνομά του (δοκιμασία Turing). Σκοπός αυτής της δοκιμασίας ήταν το αποτέλεσμά της να μπορεί να χαρακτηρίσει μία μηχανή αν είναι ευφυής ή όχι. Η διαδικασία είναι βασισμένη σε μία σειρά από ερωτήσεις που υποβάλει ένας άνθρωπος (εξεταστής) ταυτόχρονα σε έναν άλλον άνθρωπο και σε μία μηχανή, χωρίς να είναι σε θέση να γνωρίζει apriori ποιος είναι τι. Αν στο τέλος της δοκιμασίας ο εξεταστής δεν καταφέρει να ξεχωρίσει τον άνθρωπο από τη μηχανή, τότε η μηχανή πετυχαίνει στη δοκιμασία και θεωρείται ευφυής. Αν και η αποτελεσματικότητα της δοκιμασίας αυτής εξαρτάται από πολλές παραμέτρους, εντούτοις μέχρι και σήμερα θεωρείται ένα καλό μέτρο σύγκρισης της φυσικής με την τεχνητή νοημοσύνη.[1 σελ.5] Τα τελευταία χρόνια υπήρξαν πολύ σημαντικές πρόοδοι σε εφαρμογές της Τεχνητής Νοημοσύνης όπως η ρομποτική, η μηχανική όραση, η μηχανική μάθηση και ο σχεδιασμός ενεργειών. Σήμερα στις επιχειρήσεις χρησιμοποιούνται συστήματα κανόνων που παίρνουν αποφάσεις και αποσκοπούν στην αυτοματοποίηση της ροής των εργασιών (work flow). Επιπλέον, υπάρχουν συστήματα ανάλυσης δεδομένων που προσδιορίζουν το προφίλ των πελατών και περιορίζουν σημαντικά τη μη εξουσιοδοτημένη χρήση πιστωτικών καρτών (fraud protection). Επίσης, υπάρχουν αυτόνομα 8

συστήματα, γνωστά ως πράκτορες (agents) τα οποία ελέγχουν την πληροφορία καθώς αυτή φτάνει από διάφορες πηγές και εν συνεχεία εκτελούν κατάλληλες λειτουργίες για την αυτοματοποίηση των συναλλαγών μεταξύ των επιχειρήσεων στο διαδίκτυο. Σε ένα ευρύτερο πλαίσιο, θα λέγαμε ότι η Τεχνητή Νοημοσύνη μπορεί να χρησιμοποιηθεί σε κάποια επιχείρηση όταν ισχύουν οι παρακάτω προδιαγραφές: Οι επιχειρηματικές διαδικασίες θα πρέπει να πληρούν ικανοποιητικά κάποια standards ώστε να είναι συνεπείς και να είναι δυνατόν να κωδικοποιηθούν Η υφιστάμενη τεχνολογία της επιχείρησης θα πρέπει να διασφαλίζει την έγκαιρη και ασφαλή αποστολή δεδομένων στην εφαρμογή (application) τεχνητής νοημοσύνης Η επιχείρηση επιβάλλεται να βρει δραστηριότητες που να είναι σύνθετες, επαναλαμβανόμενες και να βασίζονται σε Γνώση (knowledge based) Τέλος, η επιχείρηση επιβάλλεται να εξασφαλίσει ότι έχει την τεχνογνωσία που απαιτείται όσον αφορά τη διαχείριση αυτού του τύπου εφαρμογών και, αν είναι εφικτό, να τις βελτιώνει με την πάροδο του χρόνου [1 σελ.13] Σε αυτήν τη διπλωματική εργασία θα ασχοληθούμε με τον κλάδο της Τεχνητής Νοημοσύνης που σχετίζεται με τη Μηχανική Μάθηση. Συγκεκριμένα, θα εφαρμοστούν αλγόριθμοι οι οποίοι, μέσω μίας Βάσης Γνώσης που θα χτίσουμε, θα εξάγουν συμπεράσματα σχετικά τη διάγνωση του αυτισμού, όπου μέσω αυτών των συμπερασμάτων θα καταγραφούν κανόνες σχετικά με τη διάγνωση. Οι κανόνες που θα εξαχθούν, θα αποδείξουμε ότι μπορούν να βοηθήσουν σημαντικά στη λήψη αποφάσεων σχετικά με την διάγνωση του αυτισμού. 1.1.3 Μηχανική Μάθηση Ο ανθρώπινος νους επιχειρεί να κατανοήσει το περιβάλλον του μέσω της παρατήρησης και δημιουργώντας μία απλοποιημένη εκδοχή που ονομάζεται "μοντέλο". Η δημιουργία ενός τέτοιου μοντέλου, ορίζεται ως "επαγωγική μάθηση", ενώ γενικότερα η διαδικασία ονομάζεται "επαγωγή". Επιπλέον, ο άνθρωπος χαρακτηρίζεται από την ικανότητα που έχει να οργανώνει και να συσχετίζει τις εμπειρίες και τις παραστάσεις που αποκομίζει, δημιουργώντας ολοκαίνουριες δομές που ονομάζονται "πρότυπα". Η δημιουργία, συνεπώς, μοντέλων ή προτύπων από ένα σύνολο δεδομένων ονομάζεται Μηχανική Μάθηση. [1 σελ.336] 9

Τα τελευταία χρόνια έχουν αναπτυχθεί πολλές τεχνικές Μηχανικής Μάθησης, οι οποίες χρησιμοποιούνται ανάλογα με τη φύση του προβλήματος και εμπίπτουν σε ένα από τα δύο παρακάτω είδη: Μάθηση με Επίβλεψη (Supervised Learning) Μάθηση χωρίς Επίβλεψη (Unsupervised Learning) Στην περίπτωση της Μηχανικής Μάθησης με Επίβλεψη το σύστημα που σχεδιάζουμε και προγραμματίζουμε καλείται να "μάθει" μία έννοια ή συνάρτηση από ένα σύνολο δεδομένων (Βάση Γνώσης), η οποία αποτελεί περιγραφή ενός μοντέλου. Ο λόγος που χαρακτηρίζεται ως μάθηση "με επίβλεψη" είναι επειδή θεωρείται ότι υπάρχει κάποιος "επιβλέπων", ο οποίος παρέχει τη σωστή τιμή εξόδου της συνάρτησης, για τη Βάση Γνώσης που αναλύουμε. Αντιθέτως, στη Μάθηση χωρίς Επίβλεψη, το σύστημα "οφείλει" μόνο του να ανακαλύψει συσχετίσεις ή ομάδες σε ένα σύνολο δεδομένων, αναπτύσσοντας πρότυπα, χωρίς να είναι εκ των προτέρων γνωστό αν όντως υπάρχουν, πόσα και ποια είναι. Σε αυτήν τη διπλωματική εργασία θα αναλύσουμε και θα εφαρμόσουμε αλγόριθμους που άπτονται, τόσο της Μηχανικής Μάθησης με Επίβλεψη (αλγόριθμος ID3), όσο και της Μηχανικής Μάθησης χωρίς Επίβλεψη (αλγόριθμοι k-means και apriori). Το πεδίο εφαρμογής θα αφορά την πάθηση του αυτισμού και κοινός παρανομαστής και των τριών αλγορίθμων θα είναι ο σχεδιασμών κανόνων σχετικά με τη διάγνωση αυτού. 1.1.4 Μάθηση Με Επίβλεψη Σε αυτήν την κατηγορία Μηχανικής Μάθησης το σύστημα πρέπει να "μάθει" με επαγωγική μέθοδο μια συνάρτηση που ονομάζεται "συνάρτηση στόχος" (target function) και που αποτελεί έκφραση του μοντέλου που περιγράφει τα δεδομένα. Η συνάρτηση στόχος χρησιμοποιείται για την πρόβλεψη της τιμής μιας μεταβλητής, που ονομάζεται εξαρτημένη μεταβλητή ή μεταβλητή εξόδου. Στη Μάθηση με Επίβλεψη εντάσσονται δύο κατηγορίες προβλημάτων (learning tasks) εξόρυξης γνώσης: Τα προβλήματα ταξινόμησης και τα προβλήματα παρεμβολής. Η ταξινόμηση (classification) αφορά στη δημιουργία μοντέλων πρόβλεψης διακριτών τάξεων, όπως για παράδειγμα η ομάδα αίματος, ενώ η παρεμβολή (regression) αφορά στη δημιουργία μοντέλων πρόβλεψης αριθμητικών τιμών. Οι κυριότερες τεχνικές Μηχανικής Μάθησης με επίβλεψη είναι: 10

Μάθηση Εννοιών (Concept Learning) Δέντρα Απόφασης (Decision Trees) Μάθηση Κανόνων (Rule Learning) Μάθηση κατά Περίπτωση (Instance Based Learning) Μάθηση κατά Bayes Γραμμική Παρεμβολή (Linear Regression) Νευρωνικά Δίκτυα (Neural Networks) Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) Ένα σύστημα Μηχανικής Μάθησης απαιτεί μία γλώσσα αναπαράστασης του κόσμου του προβλήματος, δηλαδή των υποθέσεων. Επιπροσθέτως, απαιτείται ένα σύνολο από τελεστές (operators) οι οποίοι θα επιτρέψουν στο σύστημα να οδηγηθεί σε μία γενίκευση (επαγωγή), έναν ευριστικό κανόνα ή ένα πλάνο που ικανοποιεί τους στόχους του. [1 σελ.337-338] Η Κατηγοριοποίηση ή Ταξινόμηση (classification), που, όπως ήδη αναφέραμε αποτελεί βασική διαδικασία Μηχανικής Μάθησης με επίβλεψη, αποτελεί μία από τις βασικές εργασίες (tasks) εξόρυξης δεδομένων. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου (μη κατηγοριοποιημένο) το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν αναπαριστάνονται γενικά από τις εγγραφές της Βάσης Δεδομένων και η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες. Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κατηγοριών και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου αποτελείται από προκατηγοριοποιημένα παραδείγματα. Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο το οποίο θα μπορούσε να εφαρμοστεί για να κατηγοριοποιεί δεδομένα που δεν έχουν ακόμη κατηγοριοποιηθεί (ανατεθεί σε κάποια από τις κατηγορίες). Στις περισσότερες περιπτώσεις, υπάρχει ένας περιορισμένος αριθμός κατηγοριών και εμείς θα πρέπει να αναθέσουμε κάθε εγγραφή στην κατάλληλη κατηγορία. Για το σκοπό αυτό χρησιμοποιούνται κάποιες τεχνικές, τις οποίες μπορούμε να κατατάξουμε σε δύο κατηγορίες. Η πρώτη χρησιμοποιεί Δέντρα Αποφάσεων (Decision Trees) και η δεύτερη Νευρωνικά Δίκτυα (Neural Networks). Και οι δύο στηρίζονται στην ιδέα της εκπαίδευσης (training) με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης (training set). Το υποσύνολο αυτό επιλέγεται σαν αντιπροσωπευτικό δείγμα του συνολικού όγκου δεδομένων. Με την εφαρμογή της διαδικασίας εκπαίδευσης καθορίζονται κάποια πρότυπα για τις κατηγορίες δεδομένων. Έτσι, όταν προκύψει ένα νέο στοιχείο τότε μπορεί εύκολα να κατηγοριοποιηθεί. [2 σελ.33] 11

Από τις παραπάνω Τεχνικές Μηχανικής Μάθησης με Επίβλεψη, σε αυτήν τη διπλωματική εργασία θα ασχοληθούμε με τα Δέντρα Απόφασης (Decision Trees). Πιο συγκεκριμένα, θα επικεντρωθούμε στο σχεδιασμό Δέντρων Απόφασης με χρήση του αλγορίθμου ID3 για να οδηγηθούμε σε κανόνες και συμπεράσματα σχετικά με τη διάγνωση του Αυτισμού. 1.1.5 Μη Επιτηρούμενη Μάθηση Σε αυτήν την κατηγορία Μηχανικής Μάθησης το Σύστημα έχει ως στόχο να ανακαλύψει "συσχετίσεις" και "ομάδες" από τη Βάση Γνώσης που του παρέχεται, βασιζόμενο αποκλειστικά και μόνο στις ιδιότητές τους. Σαν αποτέλεσμα (έξοδος) προκύπτουν πρότυπα (περιγραφές), κάθε ένα από τα οποία περιγράφει ένα μέρος από τα δεδομένα. Χαρακτηριστικά παραδείγματα προτύπων πληροφόρησης στη Μη Επιτηρούμενη Μάθηση (Μηχανική Μάθηση χωρίς Επίβλεψη) είναι (α) οι Κανόνες Συσχέτισης (association rules) και (β) οι Ομάδες (clusters), οι οποίες προκύπτουν από τη διαδικασία της ομαδοποίησης (clustering). ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Η ανακάλυψη (ή αλλιώς εξόρυξη) κανόνων συσχέτισης (association rule mining) εμφανίστηκε στις αρχές της δεκαετίας του '90 από τον Rakesh Agrawal ως τεχνική ανάλυσης καλαθιού αγορών, όπου το ζητούμενο είναι η ανακάλυψη συσχετίσεων ανάμεσα στα αντικείμενα μιας Βάσης Δεδομένων. Στο συγκεκριμένο πρόβλημα υπάρχει ένας μεγάλος αριθμός αντικειμένων (items) όπως για παράδειγμα το ψωμί, το γάλα κ.α. Οι πελάτες γεμίζουν τα καλάθια αγοράς τους με κάποιο υποσύνολο αυτών των αντικειμένων και το επιθυμητό είναι να βρεθεί ποια από αυτά τα αντικείμενα αγοράζονται μαζί, χωρίς να μας απασχολεί το ποιος είναι ο αγοραστής. Για παράδειγμα, ένας τέτοιος κανόνες θα μπορούσε να εκφραστεί ως εξής: "όποιος αγοράζει ψωμί (Χ1) και γάλα (Χ2) αγοράζει και ζάχαρη (Υ)". Η εξόρυξη ενός τέτοιου κανόνα από μόνη της δεν διασφαλίζει την αξιοπιστία και την ποιότητα του κανόνα. Μπορεί, δηλαδή, αυτός ο κανόνας να προέκυψε τυχαία, να μη μας ενδιαφέρει, να μην βγάζει νόημα, ή τελικά να αποτελεί μία απλή εξαίρεση και όχι μια γενική κατάσταση. Συνεπώς, για να αποκτήσει πραγματική αξία ο κανόνας επιβάλλεται να συνοδεύεται από κάποια ποσοτικά μεγέθη που μετρούν την ποιότητα των ευρεθέντων κανόνων συσχέτισης. Τα μεγέθη αυτά είναι (α) η Υποστήριξη (support) και (β) η Εμπιστοσύνη (confidence) που ορίζονται ως εξής: 12

Υποστήριξη: εκφράζει την πιθανότητα να βλεθεί το "καλάθι" στη Βάση Δεδομένων {Χ1...Χn, Υ} και ισούται με το λόγο των εγγραφών που περιλαμβάνουν το {Χ1...Χn, Υ} προς το σύνολο των εγγραφών Εμπιστοσύνη: εκφράζει την πιθανότητα να βρεθεί το Υ σε ένα "καλάθι" που περιέχει τα {Χ1...Χn, Υ} και ισούται με το λόγο των εγγραφών που περιλαμβάνουν το {Χ1...Χn, Υ} προς το σύνολο των εγγραφών που περιλαμβάνουν τα Xi Η μεγαλύτερη δυσκολία στην εξόρυξη κανόνων συσχέτισης είναι ο μεγάλος αριθμός κανόνων που, θεωρητικά τουλάχιστον, υπάρχουν σε μία Βάση Δεδομένων και η επιλογή εκείνων που έχει πραγματικά πρακτική αξία. Αυτό, όπως θα δούμε σε επόμενες ενότητες τις εργασίας, γίνεται θέτοντας κάποιο "κάτω όριο" στις τιμές των μεγεθών της εμπιστοσύνης και της υποστήριξης. Σε αυτήν την εργασία, θα επικεντρωθούμε στη χρήση του αλγορίθμου Apriori για να εξετάσουμε την αξία της ανακάλυψης κανόνων συσχέτισης, συνδέοντάς τους με το σχεδιασμό κανόνων για τη διάγνωση του Αυτισμού. Επομένως, δεν θα έχουμε καλάθια αγοράς, αλλά περιστατικά και τα items δεν θα είναι προϊόντα, αλλά χαρακτηριστικά και συμπτώματα των φυσικών προσώπων που θα απαρτίζουν το εκάστοτε περιστατικό. [1 σελ.355] ΟΜΑΔΕΣ (CLUSTERS) Οι ομάδες (clusters) είναι πρότυπα πληροφόρησης που προκύπτουν με ομαδοποίηση (clustering), δηλαδή διαχωρισμό ενός συνόλου δεδομένων σε ομάδες έτσι ώστε σημεία που ανήκουν σε μία ομάδα να μοιάζουν όσο το δυνατόν περισσότερο και σημεία που ανήκουν σε διαφορετικές ομάδες να διαφέρουν όσο το δυνατόν περισσότερο. Ειδικότερα, η Συσταδοποίηση Ομαδοποίηση (Clustering) είναι η εργασία του καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο περισσότερων ετερογενών συστάδων (clusters). Αυτό που διαφοροποιεί τη Συσταδοποίηση από την Κατηγοριοποίηση είναι ότι η Συσταδοποίηση δεν βασίζεται σε προκαθορισμένες κατηγορίες. Στην Κατηγοριοποίηση, ο πληθυσμός διαιρείται σε κατηγορίες αναθέτοντας κάθε στοιχείο ή εγγραφή σε μια προκαθορισμένη κατηγορία με βάση ένα μοντέλο που αναπτύσσεται μέσω της εκπαίδευσής του με παραδείγματα που έχουν κατηγοριοποιηθεί εκ των προτέρων. Στη Συσταδοποίηση δεν υπάρχουν προκαθορισμένες κατηγορίες. Οι εγγραφές ομαδοποιούνται σε σύνολα με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους. Επαφίεται σε εμάς να καθορίσουμε τη σημασία που θα έχει κάθε μία από τις ομάδες που προκύπτουν. Για παράδειγμα, οι ομάδες συμπτωμάτων μπορεί να υποδεικνύουν διαφορετικές ασθένειες, ομάδες που σχετίζονται με τα φύλλα και τον καρπό των φυτών μπορεί να υποδεικνύουν διαφορετικές ποικιλίες ενός φυτού κ.ο.κ. 13

Η Συσταδοποίηση μπορεί να χρησιμοποιηθεί και σαν εισαγωγή σε κάποια άλλη διαδικασία εξόρυξης γνώσης ή μοντελοποίησης. Για παράδειγμα, η συσταδοποίηση μπορεί να χρησιμοποιηθεί σαν πρώτο βήμα στην προσπάθεια μερισμού της αγοράς. Αντί, δηλαδή, να προσπαθούμε να προσδιορίσουμε τι είδος promotion θα ταίριαζε καλύτερα σε κάθε πελάτη, μπορούμε να χωρίσουμε τους πελάτες αρχικά σε ομάδες (clusters) ατόμων που παρουσιάζουν τις ίδιες συνήθειες σχετικά με την αγορά προϊόντων και στη συνέχεια να προσδιορίσουμε το είδος του promotion που ταιριάζει σε κάθε ομάδα. [2 σελ.34] Υπάρχουν τρεις κατηγορίες αλγορίθμων ομαδοποίησης: Οι Αλγόριθμοι βασισμένοι σε Διαχωρισμούς (partition based), που προσπαθούν να βρουν τον καλύτερο διαχωρισμό ενός συνόλου δεδομένων σε ένα συγκεκριμένο αριθμό ομάδων Οι Ιεραρχικοί (hierarchical) αλγόριθμοι, που προσπαθούν με ιεραρχικό τρόπο να ανακαλύψουν τον αριθμό και τη δομή των ομάδων Οι Πιθανοκρατικοί (probabilistic) αλγόριθμοι, που βασίζονται σε μοντέλα πιθανοτήτων 1.2 Τεχνικές Εξόρυξης Δεδομένων 1.2.1 Δέντρα Απόφασης Οι αλγόριθμοι επαγωγής Δέντρων Απόφασης είναι από τους πιο δημοφιλείς αλγόριθμους μάθησης και έχουν εφαρμοστεί αποτελεσματικά και με ιδιαίτερη επιτυχία σε διάφορους τομείς, όπως η διάγνωση ιατρικών περιστατικών, η αξιολόγηση του ρίσκου αποδοχής αίτησης για πιστωτική κάρτα, στην πρόβλεψη της αγοραστικής συμπεριφοράς ενός καταναλωτή και αλλού. Το αποτέλεσμά τους είναι μία δενδροειδής δομή που, με γραφικό τρόπο, περιγράφει τα δεδομένα και εναλλακτικά, μπορεί να αναπαρασταθεί και ως σύνολο κανόνων if - then, που ονομάζονται "κανόνες ταξινόμησης" (classification rules). Κάθε κόμβος στο Δένδρο ορίζει μία συνθήκη ελέγχου της τιμής κάποιου χαρακτηριστικού (attribute) των περιστατικών (instances) και κάθε κλαδί που φεύγει από τον κόμβο αυτό, αντιστοιχεί σε μια διαφορετική διακριτή τιμή του χαρακτηριστικού αυτού. Μία περίπτωση ταξινομείται αρχίζοντας από τη ρίζα και ακολουθώντας τα κλαδιά του δέντρου προς κάποιο "φύλλο", το οποίο περιλαμβάνει και μια διακριτή τιμή της κατηγορίας. Σε κάθε κόμβο ελέγχεται η τιμή της περίπτωσης για το χαρακτηριστικό του κόμβου και ακολουθείται το αντίστοιχο κλαδί. 14

Η αναπαράσταση που χρησιμοποιείται στα Δέντρα Απόφασης είναι μία διάζευξη που αποτελείται από συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών. Κάθε μονοπάτι από τη ρίζα προς ένα φύλλο αντιστοιχεί σε συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών. Το δέντρο, συνολικά, εκφράζει τη διάζευξη αυτών των συζεύξεων, αφού αποτελείται από όλα τα εναλλακτικά (πιθανά) μονοπάτια. [1 σελ.342] Τα Δέντρα Απόφασης έχουν ξεκάθαρο πλεονέκτημα. Χρησιμοποιούνται για να "προβλέψουν" με κάποιο βαθμό ακρίβειας την τιμή της μεταβλητής που μοντελοποιούν με βάση τις τιμές των θεωρούμενων ανεξάρτητων μεταβλητών. Στο δικό μας παράδειγμα του Αυτισμού, οι ανεξάρτητες μεταβλητές θα έχουν να κάνουν με τα χαρακτηριστικά των παιδιών και των γονιών τους. Ο βασικότερος λόγος που προτιμούμε τα Δέντρα Απόφασης για εξόρυξη γνώσης από μία Βάση Δεδομένων, είναι η ευκολία με την οποία διαβάζονται. Παρακάτω παραθέτουμε ένα παράδειγμα ενός Δέντρου Απόφασης: Εικόνα 1 - Παράδειγμα Δέντρου Απόφασης Όπως προαναφέραμε, ένα Δέντρο Απόφασης διαβάζεται με ένα συντακτικό που βασίζεται στην προτασιακή λογική if - then. Το παραπάνω δέντρο απόφασης έχει έξοδο yes ή no, όπου οι τιμές εξόδου του αναπαριστούν το αν θα πάμε περίπατο ή όχι. Το δέντρο, λοιπόν, διαβάζεται ως εξής: -- If καιρός νεφελώδης (overcast) then πάμε περίπατο (yes) -- Ιf έχουμε ηλιοφάνεια (sunny) και η υγρασία (humidity) είναι φυσιολογική (normal) then πάμε περίπατο (yes) -- If έχουμε βροχή (rain) και η άνεμος (wind) είναι ασθενής (weak) then πάμε περίπατο (yes) Οι τρεις παραπάνω προτάσεις if - then είναι ουσιαστικά τρεις κανόνες βάσει των οποία τελικά η απόφασή μας θα είναι να πάμε περίπατο. Με την ίδια 15

ακριβώς λογική θα εξάγουμε και τους υπόλοιπους κανόνες που συνδέονται με την έξοδο του Δέντρου που αντιστοιχεί στην απόφαση ότι ΔΕΝ θα πάμε περίπατο (no). Συμπερασματικά, υπάρχουν πολλά δέντρα απόφασης που μπορούν να δημιουργηθούν από ένα δεδομένο σύνολο χαρακτηριστικών. Ενώ μερικά δέντρα είναι πιο ακριβή από κάποια άλλα, η εύρεση του καταλληλότερου δέντρου είναι υπολογιστικά ανέφικτη λόγω του εκθετικά αυξανόμενου μεγέθους του χώρου αναζήτησης. Παρ όλα αυτά, έχουν αναπτυχθεί αποδοτικοί αλγόριθμοι ώστε να παράγουν ένα λογικά ακριβές, εντούτοις σχεδόν καταλληλότερο, δέντρο απόφασης σε ένα λογικό διάστημα. Αυτοί οι αλγόριθμοι, συνήθως, χρησιμοποιούν μία άπληστη στρατηγική, η οποία μεγαλώνει το Δέντρο Απόφασης λαμβάνοντας μία σειρά από τοπικά καταλληλότερες αποφάσεις σχετικά με το ποιο χαρακτηριστικό θα χρησιμοποιηθεί για να διαχωριστούν τα δεδομένα. Ένας τέτοιος αλγόριθμος είναι ο αλγόριθμος του Hunt, ο οποίος αποτελεί τη βάση πολλών υπαρκτών αλγορίθμων επαγωγής Δέντρων Απόφαση, συμπεριλαμβανομένων των ID3, C4.5 και CART. [8 σελ. 168] 1.2.2 Ο αλγόριθμος ID3 Πρόκειται για τον πιο γνωστό αλγόριθμο μάθησης Δέντρων Απόφασης και είναι ένας από τους τρεις που θα αξιοποιήσουμε σε αυτήν την εργασία για τη διάγνωση του Αυτισμού. Ο αλγόριθμος ID3 απαιτεί από την αρχή το σύνολο των δεδομένων εκπαίδευσης, καθώς η λειτουργία του βασίζεται σε συγκεντρωτικά μεγέθη αυτού του συνόλου. Ο αλγόριθμος αυτός είναι αναδρομικός και στη γενική του μορφή περιγράφεται ως εξής: 1. Βρες την ανεξάρτητη μεταβλητή η οποία αν χρησιμοποιηθεί ως κριτήριο διαχωρισμού των δεδομένων εκπαίδευσης, θα οδηγήσει σε κόμβους κατά το δυνατό διαφορετικούς σε σχέση με την εξαρτημένη μεταβλητή 2. Κάνε το διαχωρισμό 3. Επανέλαβε τη διαδικασία για κάθε έναν από τους κόμβους που προέκυψαν μέχρι να μην είναι εφικτός περαιτέρω διαχωρισμός Από την περιγραφή του ψευδοκώδικα στο παραπάνω πλαίσιο προκύπτει ότι ο ID3 κατασκευάζει το Δέντρο Απόφασης "άπληστα" από πάνω προς τα κάτω επιλέγονται αρχικά το πιο κατάλληλο χαρακτηριστικό για έλεγχο στη ρίζα. Η επιλογή αυτή βασίζεται σε κάποιο στατιστικό μέτρο που υπολογίζεται από τα δεδομένα. Στη συνέχεια, για κάθε δυνατή τιμή του χαρακτηριστικού, 16

δημιουργούνται οι αντίστοιχοι απόγονοι της ρίζας και τα δεδομένα μοιράζονται στους νέους κόμβους ανάλογα με την τιμή που έχουν για το χαρακτηριστικό το οποίο ελέγχεται στη ρίζα. Η όλη αναφερθείσα διαδικασία επαναλαμβάνεται για κάθε νέο κόμβο. Η επιλογή, όμως, του κατάλληλου χαρακτηριστικού σε κάθε νέο κόμβο, αποφασίζεται χρησιμοποιώντας μόνο τα δεδομένα που ανήκουν σε αυτόν τον κόμβο. Η διαδικασία ολοκληρώνεται όταν όλοι οι κόμβοι γίνουν τερματικοί. Ένας κόμβος γίνεται τερματικός όταν: Όλα τα δεδομένα που ανήκουν σε αυτόν υπόκεινται στην ίδια κατηγορία. Η κατηγορία αυτή γίνεται και η τιμή του κόμβου. Ο κόμβος ονομάζεται αμιγής κόμβος (pure node) Σε κάποιο βάθος τελειώσουν τα χαρακτηριστικά που προορίζονται για έλεγχο. Τιμή του κόμβου είναι η κατηγορία στην οποία ανήκει η πλειοψηφία των δεδομένων του κόμβου αυτού Τα δεδομένα που εισάγονται στον ID3 αποκαλούνται δεδομένα εκπαίδευσης του συστήματος. Αυτός ο ορισμός προσδιορίζει τον λόγο που ο αλγόριθμος εντάσσεται στους αλγορίθμους Τεχνητής Νοημοσύνης, αφού μπορεί και "εκπαιδεύει" το σύστημα συνεχώς, προσδίδοντάς του εμπειρία και άρα κάνοντάς το όλο και πιο αξιόπιστο. Όσον αφορά, λοιπόν, αυτά τα δεδομένα εκπαίδευσης, ο ID3 δεν περιορίζει των αριθμό των τιμών που μπορούν να πάρουν οι μεταβλητές, απαιτεί όμως οι τιμές τους να είναι διακριτές και όχι συνεχείς. Επί της ουσίας, ο ID3 παίρνει σαν είσοδο (input) δείγματα εκπαίδευσης τα οποία παρουσιάζονται με διακριτές τιμές γνωρισμάτων. Σαν έξοδο (output), μας δίνει το Δέντρο απόφασης. Η όλη διαδικασία λειτουργίας του εν λόγω αλγορίθμου μπορεί να περιγραφεί με τα παρακάτω βήματα: Βήμα 1 ο : Το Δέντρο ξεκινάει με έναν μόνο κόμβο που αντιπροσωπεύει ολόκληρο το σύνολο των δεδομένων εκπαίδευσης Βήμα 2 ο : Αν τα δείγματα είναι όλα της ίδιας κατηγορίας, τότε ο κόμβος γίνεται φύλλο και προστίθεται η ετικέτα της κατηγορίας Βήμα 3 ο : Ο αλγόριθμος χρησιμοποιεί ένα μέτρο εντροπίας, γνωστό σαν κέρδος πληροφορίας, για την επιλογή των γνωρισμάτων που διαχωρίζουν καλύτερα τα δείγματα στις διαφορετικές κατηγορίες. Στη συνέχεια το κέρδος πληροφορίας επιλέγεται σαν γνώρισμα ελέγχου Βήμα 4 ο : Ένας κόμβος δημιουργείται και χαρακτηρίζεται γνώρισμα ελέγχου (test attribute), όσο δημιουργούνται κλαδιά για κάθε τιμή του. Στη συνέχεια το δείγμα δεδομένων διαχωρίζεται αναλόγως Βήμα 5 ο : Ο αλγόριθμος εφαρμόζεται συνεχώς για τη μορφοποίηση ενός Δέντρου Απόφασης με βάση τα δείγματα σε κάθε 17

προκαθορισμένη κατηγορία. Ο συνεχής διαχωρισμός σταματάει μόνον όταν κάποια από τις παρακάτω συνθήκες ικανοποιείται: o Όλα τα δείγματα του δοσμένου κόμβου ανήκουν στην ίδια κατηγορία ή o Δεν υπάρχουν άλλα γνωρίσματα με βάση τα οποία τα δείγματα θα μπορούσαν να διαχωριστούν περαιτέρω ή o Δεν υπάρχουν μη κατηγοριοποιημένα δείγματα για το κλαδί του γνωρίσματος ελέγχου [2 σελ.55] Έχουν προταθεί αρκετές παραλλαγές του αλγόριθμου ID3 και περιλαμβάνουν τεχνικές κλαδέματος πριν την ολοκλήρωση της κατασκευής του δέντρου, διαχείριση πεδίων χωρίς τιμή, χρήση διαφόρων κριτηρίων διαχωρισμού, αυτόματη διαχείριση συνεχόμενων αριθμητικών τιμών κτλ. Ο αλγόριθμος C4.5 αποτελεί μία από τις περισσότερο διαδεδομένες βελτιώσεις του ID3. [1 σελ.344] 1.2.3 Ο αλγόριθμος Apriori Πρόκειται για έναν αλγόριθμο ο οποίος χρησιμοποιείται για την ανακάλυψη κανόνων συσχετίσεων και για το λόγο αυτό εντάσσεται στους αλγορίθμους Μηχανικής Μάθησης χωρίς Επίβλεψη. Ο αλγόριθμος Apriori προτάθηκε από τον Rakesh Agrawal το 1994 και περιλαμβάνει δύο βασικά βήματα: (α) τη δημιουργία των συχνών συνόλων αντικειμένων και (β) τη δημιουργία των κανόνων συσχέτισης. Η διαδικασία της δημιουργίας συχνών συνόλων αντικειμένων περιλαμβάνει δύο βασικά στάδια: αρχικά δημιουργείται ένα σύνολο υποψήφιων συχνών αντικειμένων Ci και στη συνέχεια, χρησιμοποιώντας το όριο υποστήριξης (support), δημιουργείται το νέο σύνολο των συχνών συνόλων αντικειμένων Li. Η διαδικασία αυτή επαναλαμβάνεται πραγματοποιώντας διαδοχικά περάσματα στα δεδομένα, μέχρι να βρεθούν είτε τα συχνά σύνολα αντικειμένων ενός προκαθορισμένου επιπέδου ή τα μέγιστα συχνά σύνολα αντικειμένων. Το πρώτο στάδιο επιπλέον αποτελείται από ένα βήμα συνένωσης (join step) και ένα βήμα κλαδέματος (prune step). Όσον αφορά το δεύτερο βήμα, δηλαδή τη δημιουργία των κανόνων συσχέτισης, ελέγχεται σε αυτό το σημείο το μέγεθος της εμπιστοσύνης που έχουμε επίσης σε προηγούμενη ενότητα αναφέρει. Συγκεκριμένα, ελέγχεται η εμπιστοσύνη (confidence) όλων των πιθανών κανόνων που προκύπτουν από τα μέγιστα συχνά σύνολα αντικειμένων και στο τέλος μένουν εκείνοι των οποίων η εμπιστοσύνη ξεπερνά το κατώτατο όριο το οποίο έχει ήδη προσδιοριστεί εξαρχής από τον χρήστη, 18

Παράδειγμα εφαρμογής του αλγορίθμου Apriori Έστω, ένα σύνολο δεδομένων που αντιστοιχούν σε 10 διαφορετικά καλάθια αγορών από ένα σούπερ μάρκετ. Κάθε καλάθι περιλαμβάνει ένα υποσύνολο των προϊόντων του σούπερ μάρκετ. Για τις ανάγκες του αλγορίθμου Apriori θα πραγματοποιήσουμε δυαδική αναπαράσταση του πίνακα με τα δεδομένα καλαθιών αγορών και ο πίνακας αυτός θα είναι ο ακόλουθος: Καλάθι Ψωμί Καφές Γάλα Ζάχαρη #1 1 0 1 0 #2 0 1 0 0 #3 1 0 1 1 #4 0 1 0 1 #5 1 0 1 1 #6 1 1 1 0 #7 1 0 0 1 #8 1 1 1 1 #9 0 0 1 1 #10 1 1 0 1 Στα πλαίσια της δυαδικής αναπαράστασης του πίνακα, όπου "1" αντιστοιχεί σε παρουσία του εκάστοτε προϊόντος στο καλάθι αγοράς και, αντίστοιχα "0" στην απουσία του προϊόντος από το καλάθι. Έστω, επίσης, ότι η αρχικές τιμές που έχουν προσδιοριστεί από το χρήστη για τα μεγέθη της υποστήριξης και της εμπιστοσύνης είναι: sup (υποστήριξη)=40% και conf(εμπιστοσύνη)=80% Στο πρώτο βήμα, ο Apriori υπολογίζει την υποστήριξη όλων των αντικειμένων, δηλαδή δημιουργεί το σύνολο L1. S {Ψωμί} = 7/10 = 70% >= sup S {Καφές} = 5/10 = 50% >= sup S {Γάλα} = 6/10 = 60% >= sup S {Ζάχαρη} = 7/10 = 70% >= sup Συνεπώς L1 = { Ψωμί, Καφές, Γάλα, Ζάχαρη } Στο δεύτερο βήμα, παράγονται όλοι οι δυνατοί συνδυασμοί των αντικειμένων, με σκοπό να δημιουργηθεί το σύνολο υποψήφιων ζευγών αντικειμένων, δηλαδή το σύνολο C2. 19

C2 = { {Ψωμί, Καφές}, {Ψωμί, Γάλα}, {Ψωμί, Ζάχαρη}, {Καφές, Γάλα}, {Καφές, Ζάχαρη}, {Γάλα, Ζάχαρη} } Κατόπιν, υπολογίζεται η υποστήριξη των μελών του C2 και απορρίπτονται εκείνα που δεν ξεπερνούν το όριο ελάχιστης υποστήριξης, ώστε να δημιουργηθεί το σύνολο συχνών ζευγών L2. S({Ψωμί, Καφές}) = 3/10 = 30% < sup (απορρίπτεται) S({Ψωμί, Γάλα}) = 5/10 = 50% >= sup κτλ. Τελικά: L2={ {Ψωμί, Γάλα}, {Ψωμί, Ζάχαρη}, {Γάλα, Ζάχαρη} } Από το L2, με τον ίδιο τρόπο, θα δημιουργηθούν τα C3 και L3 (αν τελικά υπάρχουν "συχνές" τριάδες). Στο συγκεκριμένο παράδειγμα, το βήμα δημιουργίας υποψήφιων τριάδων έχει ως εξής: Βήμα συνένωσης: {Ψωμί, Γάλα}U{Ψωμί, Ζάχαρη} = {Ψωμί, Γάλα, Ζάχαρη} Βήμα κλαδέματος: Οι επιμέρους δυάδες(ζεύγη) του {Ψωμί, Γάλα, Ζάχαρη} ανήκουν όλες στο L2, άρα: C3={ {Ψωμί, Γάλα, Ζάχαρη} } S( {Ψωμί, Γάλα, Ζάχαρη} ) = 3/10 = 30% < sup (απορρίπτεται), άρα L3={ }. Ο αλγόριθμος εύρεσης συχνών συνόλων σταματά εδώ και συνεπώς το μέγιστο συχνό σύνολο αντικειμένων είναι το L2. Το επόμενο βήμα είναι η εξαγωγή των κανόνων από τα συχνά σύνολα (στο συγκεκριμένο παράδειγμα μόνο το L2), βάσει της εμπιστοσύνης τους. L2 = { {Ψωμί, Γάλα}, {Ψωμί, Ζάχαρη}, {Γάλα, Ζάχαρη} } Ελέγχεται η Εμπιστοσύνη όλων των πιθανών κανόνων που μπορεί να προκύψουν από το L2: {Ψωμί, Γάλα} Ψωμί --> Γάλα: εμπιστοσύνη = 5/7 = 71% < conf (απορρίπτεται) Γάλα --> Ψωμί: εμπιστοσύνη = 5/6 = 83% > conf (εγκρίνεται) {Ψωμί, Ζάχαρη} Ψωμί --> Ζάχαρη: εμπιστοσύνη = 5/7 = 71% < conf (απορρίπτεται) Ζάχαρη --> Ψωμί: εμπιστοσύνη = 5/7 = 71% < conf (απορρίπτεται) {Γάλα, Ζάχαρη} 20

Γάλα --> Ζάχαρη: εμπιστοσύνη = 4/6 = 66% < conf (απορρίπτεται) Ζάχαρη --> Γάλα: εμπιστοσύνη = 4/7 = 57% < conf (απορρίπτεται) Τελικά παράγεται μόνον ο κανόνας: Γάλα --> Ψωμί, δηλαδή όποιος αγοράζει Γάλα, αγοράζει και Ψωμί. Αν, για παράδειγμα, ελαττώναμε τη ζητούμενη εμπιστοσύνη στο 70%, τότε θα είχαν παραχθεί τέσσερις κανόνες αντί για ένας. [1 σελ.359-360] 1.2.5 Το λογισμικό WEKA Η ανάπτυξη και αυτοματοποίηση των τεχνικών και λογισμικών εξόρυξης και ανακάλυψης γνώσης από δεδομένα ήταν επακόλουθη και επιτακτική λόγω της δυσκολίας που αντιμετώπισαν οι ειδικοί στο χειρισμό και στη διαχείριση περίπλοκων και εκτεταμένων συστημάτων βάσεων δεδομένων.έτσι δημιουργήθηκαν λογισμικά που έχουν την δυνατότητα ανάλυσης πρωτογενών δεδομένων με τη βοήθεια αυτοματοποιημένων αλγορίθμων επεξεργασίας και ανάλυσης, μέσω της εφαρμογής τεχνικών μηχανικής μάθησης και τελικής απεικόνισης της γνώσης που παράγεται. Το WEKA (Wekato Enviroment for knowledge Analysis) είναι ένα δημοφιλές πακέτο λογισμικού εξόρυξης γνώσης από σύνολα δεδομένων, στηριζόμενο σε αλγόριθμους Μηχανικής Μάθησης και γραμμένο σε γλώσσα προγραμματισμού Java. Με τη βοήθεια του WEKA ο χρήστης έχει τη δυνατότητα να προεπεξεργαστεί δεδομένα, να τα ταξινομήσει και να τα ομαδοποιήσει, να εξάγει κανόνες συσχέτισης, να δημιουργήσει αναπαραστάσεις (οπτικοποιημένα αποτελέσματα μάθησης), αλλά και να αξιολογεί στατιστικά τα πρότυπα που παράγονται. Πρόκειται για ένα λογισμικό ανοικτού κώδικα που αναπτύχθηκε από φοιτητές του Πανεπιστημίου Waikato της Νέας Ζηλανδίας, αρχικά για να εφαρμοστούν οι τεχνικές και μέθοδοι της Μηχανικής Μάθησης προς επίλυση των προβλημάτων στον τομέα της γεωργίας. Οι δυνατότητες που παρέχει το λογισμικό αυτό είναι: Εργαλεία εφαρμογής προ-επεξεργασίας Δημιουργία «μοντέλων» από τα δεδομένα με κάποια διαδικασία εκπαίδευσης Χρησιμοποίηση στατιστικών μεγεθών για την αξιολόγηση των διαφόρων αλγορίθμων μάθησης Απεικόνιση τόσο των αρχικών δεδομένων όσο και των αποτελεσμάτων μετά τη διαδικασία της εκπαίδευσης και περιέχει υλοποιημένες μεθόδους για: Προεπεξεργασία Δεδομένων 21

Ταξινόμηση Συσταδοποίηση Εύρεση Κανόνων Συσχέτισης Η διεπαφή της εφαρμογής χαρακτηρίζεται από τη φιλικότητα προς τον χρήστη, ενώ η ανάπτυξη σε Java διασφαλίζει την μεταφερσιμότητα (portability) σε διαφορετικές πλατφόρμες. Οι επιλογές που δίνονται κατά την εκκίνηση της εφαρμογής είναι οι εξής: Εικόνα 2 - Εισαγωγικό Panel του λογισμικού "WEKA" 1. Explorer, όπου ο χρήστης έχει τη δυνατότητα να εφαρμόσει τους αλγόριθμους Μηχανικής Μάθησης, να επεξεργαστεί τα δεδομένα και να συγκρίνει την απόδοση διαφορετικών τεχνικών 2. Experimenter, όπου παρέχεται το κατάλληλο γραφικό περιβάλλον και η δυνατότητα μεταβολής των παραμέτρων, απεικόνισης των στατιστικών μέτρων και δύναται ο χρήστης να εκτελεί πειράματα για την αξιολόγηση διαφορετικών τεχνικών και μεθόδων εκμάθησης 3. Knowledge Flow, όπου προσφέρονται όλες οι δυνατότητες που παρέχονται στον Explorer, με μόνη διαφορά την χρησιμοποίηση στοιχείων για αναπαράσταση των πηγών δεδομένων, των εργαλείων προεπεξεργασίας, των αλγορίθμων και των μεθόδων αξιολόγησης για τον προσδιορισμό της ροής των δεδομένων 4. Simple CLI, όπου δίνεται η δυνατότητα εφαρμογής όλων των εργαλείων ανακάλυψης γνώσης σε κώδικα Java και μέσω μιας διεπαφής χρήστη σε command-line Το WEKA δέχεται σαν είσοδο αρχεία δεδομένων τύπου ARFF (Attribute Relation File Format) δηλαδή αρχεία κειμένου ASCII, τα οποία περιέχουν σειρές από στιγμιότυπα (instances) κάποιων χαρακτηριστικών (attributes). Ειδικότερα, ένα αρχείο τύπου ARFF αποτελείται από δύο μέρη: (α) την περιοχή επικεφαλίδας, όπου περιγράφονται όλα τα χαρακτηριστικά που χρησιμοποιούνται (π.χ. μεταβλητές ή ιδιότητες σε ένα πρόβλημα) αλλά και ο τύπος δεδομένων τους και (β) την περιοχή των δεδομένων, όπου κάθε παράδειγμα του συνόλου δεδομένων αντιστοιχεί σε μια γραμμή με τα 22

χαρακτηριστικά ταξινομημένα σύμφωνα με την προκαθορισμένη σειρά και διαχωρισμένα με κόμμα. [9] Στη συνέχεια αυτής της διπλωματικής εργασίας θα χρησιμοποιήσουμε τους αλγόριθμους Μάθησης ID3, K-Means και Apriori μέσω της εφαρμογής του WEKA και θα περιγράψουμε αναλυτικά τις μεθόδους και τα οφέλη που ανακύπτουν από αυτές. Είναι διαθέσιμο για δωρεάν εγκατάσταση από την ιστοσελίδα: http://www.cs.waikato.ac.nz/ml/weka 1.2.6 Ερωτηματολόγια και Βάσεις Δεδομένων Η οργάνωση των συμπληρωμένων ερωτηματολογίων των οποίων τα δεδομένα θα αποθηκεύσουμε σε μία Βάση Δεδομένων με σκοπό στη συνέχεια να εφαρμόσουμε τεχνικές Εξόρυξης Γνώσης, σίγουρα δεν είναι μία απλή διαδικασία. Επίσης, για να σχεδιαστεί ένα χρήσιμο και αξιόπιστο ερωτηματολόγιο επιστημονικής έρευνας απαιτείται πολύ προσεκτική μελέτη, προετοιμασία σε βάθος και επιβάλλεται να ληφθούν υπόψη πολλές σημαντικές παράμετροι, αν επιθυμούμε την αποφυγή λανθασμένων ή βιαστικών συμπερασμάτων που μπορεί να αποβούν μοιραία. Η χρήση κατάλληλων ερωτηματολογίων για τη συλλογή των αναγκαίων στοιχείων που θα συμπεριληφθούν σε μία Βάση Δεδομένων είναι πρωταρχικής σημασίας. Η εγκυρότητα (validity) και η αξιοπιστία (reliability) των συμπερασμάτων των μελετών, καθορίζονται σε σημαντικό βαθμό και από την καταλληλότητα των ερωτηματολογίων που χρησιμοποιούνται από τους ερευνητές. Σε ορισμένες μελέτες δημιουργείται ένα νέο ερωτηματολόγιο που βασίζεται σε ένα υπάρχον. Στην πλειονότητα των περιπτώσεων οι ερευνητές δημιουργούν ένα νέο ερωτηματολόγιο με βάση τα δημογραφικά και τα κλινικά (στην περίπτωση αυτής της εργασίας) χαρακτηριστικά που θεωρούν σημαντικά για να συμπεριλάβουν στη μελέτη τους. Αυτή την προσέγγιση ακολουθήσαμε κι εμείς. Για τη μέτρηση αφηρημένων ή σύνθετων εννοιών, όπως η ποιότητα ζωής, η ικανοποίηση, η συναισθηματική νοημοσύνη, ο πόνος, οι στάσεις, οι απόψεις και τα συναισθήματα αναφορικά με διάφορα θέματα, συνήθως χρησιμοποιούνται ερωτηματολόγια που έχουν εφαρμοστεί σε προγενέστερες μελέτες και έχουν εμφανίσει αποδεκτή εγκυρότητα και αξιοπιστία. Πρωταρχικής σημασίας στη διεξαγωγή σχεδιασμού ενός ερωτηματολογίου είναι ο καθορισμός με σαφήνεια της ερευνητικής υπόθεσης, ή, αλλιώς, του ερευνητικού ερωτήματος της μελέτης. Με τον τρόπο αυτό, αρχικά, 23

διευκολύνεται σημαντικά η διενέργεια συστηματικής βιβλιογραφικής ανασκόπησης (systematic literature review) και μετα-ανάλυσης (metaanalysis). Η δημιουργία ενός νέου ερωτηματολογίου, διαφορετικού από τα υπάρχοντα, είναι εξαιρετικά επίπονη, χρονοβόρα και ριψοκίνδυνη διαδικασία με αμφίβολα αποτελέσματα. Τα ερωτηματολόγια συνήθως αποτελούνται από «κλειστές» (closed) και «ανοικτές» (open) ερωτήσεις. Οι ανοικτές ερωτήσεις δεν έχουν προκαθορισμένες απαντήσεις, αλλά επιτρέπουν στους συμμετέχοντες να απαντήσουν οτιδήποτε επιθυμούν. Στις κλειστές ερωτήσεις οι ερευνητές προκαθορίζουν τις απαντήσεις, οπότε οι συμμετέχοντες καλούνται να επιλέξουν μεταξύ των προκαθορισμένων απαντήσεων. Στις κλειστές ερωτήσεις, οι κατηγορίες των απαντήσεων πρέπει να είναι αμοιβαία αποκλειόμενες, έτσι ώστε να καλύπτεται ολόκληρο το φάσμα των πιθανών απαντήσεων των συμμετεχόντων. (ναι όχι / σωστό λάθος κτλ). Προτιμάται, πάντως, και αυτό επιχειρήσαμε και στην τρέχουσα διπλωματική εργασία, οι ερωτήσεις ενός ερωτηματολογίου να είναι κλειστού τύπου έτσι ώστε να επιτευχθεί εξοικείωση των συμμετεχόντων με το ερωτηματολόγιο, καθώς οι ανοικτές ερωτήσεις απαιτούν συνήθως περισσότερο χρόνο και σκέψη για να απαντηθούν. Το ερωτηματολόγιο που χρησιμοποιείται σε μία έρευνα πρέπει να είναι όσο το δυνατό πιο σύντομο, σαφές, καθώς και διατυπωμένο, δομημένο και μορφοποιημένο σωστά. Η αύξηση του αριθμού των ερωτήσεων προκαλεί κόπωση και δυσαρέσκεια στους συμμετέχοντες και μειώνει την πιθανότητα συμπλήρωσης ολόκληρου του ερωτηματολογίου. Τόσο οι ερωτήσεις, όσο και οι απαντήσεις πρέπει να είναι σαφείς, απλές και να μην επιδέχονται παρερμηνειών από τους συμμετέχοντες, έτσι ώστε να μην υπεισέρχεται συστηματικό σφάλμα στη μελέτη. Δεν πρέπει να χρησιμοποιούνται ειδικοί επιστημονικοί όροι που ενδεχομένως να προκαλέσουν σύγχυση στους συμμετέχοντες. Επιπροσθέτως, η καλαίσθητη μορφή ενός ερωτηματολογίου με την ύπαρξη ευανάγνωστου και ομοιόμορφου κειμένου αυξάνει σημαντικά το ποσοστό απόκρισης των συμμετεχόντων. Ιδιαίτερη προσοχή απαιτείται στη λογική αλληλουχία των ερωτήσεων, έτσι ώστε αφ ενός να μη δημιουργείται σύγχυση και αφ ετέρου να διευκολύνεται αργότερα η κωδικοποίηση των απαντήσεων και η εισαγωγή των στοιχείων στις κατάλληλες Βάσεις Δεδομένων. [10] Θα μπορούσαμε να αποτυπώσουμε τα στάδια ανάπτυξης ενός αξιόπιστου ερωτηματολογίου στο παρακάτω σχήμα: 24

Εικόνα 3 - Στάδια Ανάπτυξης Αξιόπιστου Ερωτηματολογίου Εμείς χρησιμοποιήσαμε τα υπάρχοντα διεθνώς αποδεκτά ερωτηματολόγια: Ηλικίας 0-4 χρονών επιλέχθηκαν τα ερωτηματολόγια: 1. Checklist for Autism Spectrum Disorder (CASD) [https://www.stoeltingco.com/psychologicaltesting/autism/diagnosticscreeners/ checklist-for-autism-spectrum-disorder.html], 25

2. Modified Checklist for Autism in Toddlers (MCHAT) [https://www.mchat.org/] και 3. Communication and Symbolic Behavior Scales Developmental Profile (CSBS-DP) [http://www.brookespublishing.com/resource-center/screeningand-assessment/csbs/csbs-dp/] Ηλικίας 4-11 χρονών τα ερωτηματολόγια: 1.Autism Spectrum Quotient (AQ) [https://www.wired.com/2001/12/aqtest/], 2.CASD 3.Social Responsiveness Scale (SRS) [https://www.wpspublish. com/store/p/2993/social-responsiveness-scale-srs-by-john-n-constantino-md] Κεφάλαιο 2ο 2.1 Αυτισμός - Ετυμολογία Ο Αυτισμός είναι από τα σπανιότερα και πιο σοβαρά σύνδρομα. Πρόκειται για μία βαριάς μορφής γενική διαταραχή της ανθρώπινης συμπεριφοράς. Στα πλαίσια αυτής της διαταραχής, ο άνθρωπος περιορίζει τον εαυτό του στον προσωπικό του κόσμο των βιωμάτων και των ιδεών του και, εκουσίως, αρνείται κάθε επικοινωνία με το περιβάλλον του. Πρώτος ο επιφανής Ελβετός Ψυχίατρος Bleuleur, σύγχρονος του Freud, χρησιμοποίησε το 1911 του όρους "autisme" και "autistique" (αυτισμός, αυτιστικός) θέλοντας να περιγράψει μία ιδιαίτερη μορφή σχιζοφρένειας, κατά την οποία ο άνθρωπος οδηγείται δευτερογενώς σε μία κατάσταση, όπου χάνει κάθε επαφή με την πραγματικότητα. Μετά από μερικά χρόνια, ο Αμερικανός ψυχίατρος Leo Kanner δημοσίευσε στη Βαλτιμόρη την πρώτη συστηματική μελέτη για τον Αυτισμό, αλλάζοντας το νοηματικό περιεχόμενο του όρου. Συγκεκριμένα, αναφέρει ότι ο Αυτισμός δεν είναι απώλεια επαφής με την πραγματικότητα, είναι απλώς ανικανότητα επαφής με τον κόσμο. Για ένα αρκετά μεγάλο χρονικό διάστημα επεκράτησε η άποψη πως ο Αυτισμός είναι μια βαριά λειτουργική ψυχική διαταραχή με πρώιμη έναρξη και αποκαλείτο και ως "νηπιακή ψύχωση". Τα τελευταία χρόνια, υποστηρίζεται η άποψη πως οι επιστημονικές αυτές θεωρίες δεν ανταποκρίνονται στην πραγματικότητα. Οι επικρατέστερες σύγχρονες αντιλήψεις καταδεικνύουν πως το σύνδρομο αυτό δεν αποτελεί μια ψυχωτική εκδήλωση, αλλά είναι μία καθολική "διάχυτη διαταραχή της ανάπτυξης", οργανικής προέλευσης η 26

οποία είναι εύκολο να διερευνηθεί με τις συνήθεις νευρολογικές εξετάσεις. [5 σελ.216-217] 2.2 Κλινικές Ενδείξεις - Συμπτώματα Για να καταστεί δυνατή η "μαθηματικοποίηση" της διάγνωσης του Αυτισμού με χρήση κατάλληλων αλγορίθμων και να εξαχθεί γνώση σχετικά με το αν ένας άνθρωπος πάσχει από το εν λόγω σύνδρομο, επιβάλλεται να αποτυπωθούν με σαφήνεια τα κυριότερα χαρακτηριστικά συμπτώματά του. Αυτά είναι: Η άρνηση του παιδιού να έχει άμεση οπτική επαφή με τα πρόσωπα του περιβάλλοντός του και Η απουσία των αναμενόμενων πρώτων φυσιολογικών εκδηλώσεων προφορικού λόγου του παιδιού Επίσης, μία πολλή σημαντική πληροφορία είναι η Ηλικία Εκδήλωσης του Αυτισμού. Ο Αυτισμός εκδηλώνεται πολύ νωρίς, συνήθως στα δύο πρώτα χρόνια της ζωής του παιδιού, έως και την ηλικία των τριάντα μηνών. Είναι επίσης πολύ πιθανό η γενική αυτή αναπτυξιακή παρέκκλιση να υπάρχει στο παιδί από τη γέννησή του. [5 σελ.220] 2.3 Αυτισμός και Συμπεριφορά Το αυτιστικό παιδί αμέσως μετά τη γέννησή του, συνήθως, δεν παρουσιάζει κάποιο χαρακτηριστικό σύμπτωμα που να είναι ικανό να προξενήσει ανησυχία στους γονείς. Αυτό συμβαίνει διότι από οργανική - βιολογική άποψη αναπτύσσεται κανονικά το παιδί, τόσο ως προς το μήκος, όσο και ως προς το βάρος του σώματός του. Οι αισθητηριακές λειτουργίες του είναι επίσης φυσιολογικές. Λίγο αργότερα, όμως, ως επί τω πλείστον τους πρώτους μήνες μετά τη γέννηση μέχρι και σχεδόν την ηλικία των τριάντα μηνών, το παιδί αρχίζει να εκδηλώνει ορισμένα ανησυχητικά συμπτώματα: παραμένει φανερά αδιάφορο στο πλησίασμα της μητέρας του, δεν αντιδρά σε ηχητικά και οπτικά ερεθίσματα και έτσι δίνει την εντύπωση κωφού ή τυφλού παιδιού, δεν προσηλώνει το βλέμμα του σε πρόσωπα και αντικείμενα, δεν χαμογελά, δεν τείνει τα χέρια του προς τα αντικείμενα κτλ. Ο τομέας στον οποίο αδυνατούμε με βεβαιότητα να προχωρήσουμε σε κάποια μορφή διάγνωσης, είναι ο πνευματικός τομέας. Και αυτό, λόγω της 27

αδυναμίας που παρουσιάζει το παιδί στο να επικοινωνήσει μαζί μας. Συνεπώς, με δυσκολία μεγάλη, επιχειρούμε να εκτιμήσουμε τις νοητικές ικανότητες του αυτιστικού παιδιού. Σημαντικό ωστόσο είναι το γεγονός πως, από τις έρευνες και την κλινική και ψυχοπαιδαγωγική μελέτη και εμπειρία, είμαστε σε θέση να γνωρίζουμε ότι το 25% των αυτιστικών παιδιών έχουν σχεδόν κανονική διανοητική ανάπτυξη, ενώ τα περισσότερα παρουσιάζουν ελαφρά ή μέτρια καθυστέρηση. [5 σελ.223] 2.4 Διαταραχές Ο Αυτισμός και η Νοητική Υστέρηση δεν είναι δύο έννοιες ταυτόσημες, όπως πολλοί παλαιότερα νόμιζαν, είναι δυνατό, όμως, να συνυπάρχουν. Εκτός από τα γενικά σωματικά και διανοητικά χαρακτηριστικά, τα οποία αναφέραμε σε προηγούμενη ενότητα, υπάρχουν και ορισμένα άλλα ιδιαίτερα γνωρίσματα που χαρακτηρίζουν την προσωπικότητα του αυτιστικού παιδιού: Έλλειψη κοινωνικής ανταπόκρισης και αυτοενασχόληση: Το παιδί κλείνεται στον εαυτό του, δεν το απασχολεί η δράση, η δημιουργία, η επιτυχία και το μέλλον του Η βασανιστική επιθυμία του "αμετάβλητου": Η επιθυμία του μόνιμου και του αμετάβλητου προέρχεται από το φόβο της αλλαγής, παρεμποδίζει δε την τάση του παιδιού για εξωστρέφεια και συρρικνώνει τη διεύρυνση της ικανότητάς του για προσαρμογή σε νέες καταστάσεις Οργάνωση του ζωτικού χώρου: Στο σπίτι του το παιδί επιλέγει ένα δωμάτιο και ορισμένη θέση. Στον ακάλυπτο εξωτερικό χώρο και στην εξοχή, το αυτιστικό παιδί αισθάνεται άνεση και ασφάλεια για αυτό και δραστηριοποιείται ποικιλοτρόπως Ιδιόρρυθμες αισθητηριακές και συναισθηματικές αντιδράσεις: Διερευνά το περιβάλλον του με την αφή, με την όσφρηση και με τη γεύση. Καθηλώνει το βλέμμα του για αρκετή ώρα σε αντικείμενα, ανθρώπους, κοιτάζει ερευνητικά τα χέρια του, περιεργάζεται το αντικείμενα. Αρνείται να δημιουργήσει επικοινωνιακές προσβάσεις με το περιβάλλον του και κυρίως, βαθύτερες σχέσεις με τη μητέρα του Στερεότυπες - Τελετουργικές κινήσεις: Το παιδί όρθιο ή καθιστό, με την πλάτη στον τοίχο ή σε κάποιο έπιπλο, κινεί την κεφαλή σαν εκκρεμές μπρος - πίσω, έχοντας το σώμα και τα χέρια τεντωμένα. Όταν είναι καθιστό κινείται μπρος - πίσω και σπανιότερα δεξιά - αριστερά. Το βάδισμά του είναι τις περισσότερες φορές παράξενο. Περπατά με τις 28

μύτες των ποδιών ασυντόνιστα και υποτονικά με κάμψη του σώματος προς τα εμπρός. Κάνει γκριμάτσες, ανοιγοκλείνει το στόμα του, συνοφρυώνεται, μισοκλείνει τα μάτια [5 σελ.231] 2.5 Θεραπευτική Αντιμετώπιση (Α) Ψυχοθεραπεία και Συμβουλευτική του παιδιού και της οικογένειάς του. Η ψυχοθεραπεία και η συμβουλευτική έχουν ελάχιστη σημασία για τις μικρότερες ηλικίες. Μπορούν, όμως, να βοηθήσουν αποτελεσματικά του εφήβους και τους ενήλικους αυτιστικούς, να επιλύσουν ή έστω να αντιμετωπίσουν εν μέρει τα σοβαρά προσωπικά τους προβλήματα που ανακύπτουν καθημερινά κυρίως σε επίπεδο επικοινωνίας, κοινωνικής ζωής και εργασίας, μάθησης και, ιδιαιτέρως, σεξουαλικής ζωής και συμπεριφοράς. Η συμβουλευτική της οικογένειας δύναται να βοηθήσει τους γονείς του παιδιού, αφού επιλύσουν τα προσωπικά τους προβλήματα, να συνειδητοποιήσουν την αναγκαιότητα και να κατανοήσουν του βοηθητικού παιδαγωγικού τους ρόλου μέσα στην οικογένεια. Με αυτήν την προοπτική είναι δυνατό η συμβουλευτική να τους παροτρύνει να ξεκινήσουν μια γόνιμη συνεργασία με την ομάδα των ειδικών για τα θέματα ψυχοθεραπείας, αναπτυξιακής θεραπείας και ειδικής αγωγής του παιδιού. Μέσα από όλη αυτή τη διαδικασία έχουν οι γονείς τη δυνατότητα να αποκτήσουν τις απαραίτητες ικανότητες για να αντιμετωπίζουν με αισιοδοξία, υπομονή και επιμονή, αλλά και σταθερότητα συμπεριφοράς, τα σημερινά προβλήματα του παιδιού του ή τις ιδιαίτερες ανάγκες του εφήβου αύριο. (Β) Ειδική αγωγή του Αυτιστικού Παιδιού: Πρόκειται, ουσιαστικά, για σύστημα εκπαίδευσης που βασίζεται σε είναι ειδικό πρόγραμμα, το οποίο διέπεται από ειδικές παιδαγωγικές αρχές, έχει ιδιαίτερους σκοπούς και στόχους και μπορεί να εφαρμοστεί με ειδική, δομημένη μεθοδολογία. Η ειδική αγωγή του αυτιστικού παιδιού έχει ως σκοπό την κοινωνική του ανάπτυξη, την απόκτηση της ικανότητας για "αυτοϋπηρέτηση". Επιπροσθέτως, έχει ως σκοπό την πνευματική ανάπτυξη του παιδιού, καθώς επίσης και τη γλωσσική του εξέλιξη. Ιδιαίτερο κομμάτι της αγωγής αυτής, επιβάλλεται να αποτελεί η μέριμνα για τη συστηματική οργάνωση και αξιοποίηση του ελεύθερου χρόνου και για την αντιμετώπιση των θεμάτων ψυχαγωγίας του παιδιού. Ιδιαίτερης σημασίας κρίσιμη στιγμή, είναι η μετάβαση του αυτιστικού ατόμου από τη σχολική στην εργασιακή κοινότητα. Σε αυτό το μεταίχμιο, απαιτείται ιδιαίτερη 29

εκπαιδευτική υποστήριξη ώστε τα άτομα αυτά να μπορέσουν να αποκτήσουν τις απαραίτητες δεξιότητες για την εργασία τους. Επαγωγικά, λοιπόν, σκεπτόμενοι, καταλήγουμε στο συμπέρασμα πως είναι πολύ σημαντική η "Γνώση" των σημαντικών θεμάτων που άπτονται μιας νόσου, αν επιθυμούμε εν συνεχεία να σχεδιάσουμε ένα έμπειρο σύστημα, το οποίο με στοιχειώδη αξιοπιστία θα μπορούσε να μας φανεί χρήσιμο στη λήψη σημαντικών αποφάσεων αναφορικά με τη διάγνωση μιας ασθένειας και στην περίπτωση τη δική μας, του Αυτισμού. [5 σελ.234] Κεφάλαιο 3ο 3.1 Έμπειρα Συστήματα Στην Τεχνητή Νοημοσύνη, ένα Έμπειρο Σύστημα είναι ένα υπολογιστικό σύστημα, το οποίοι επιχειρεί να "μιμηθεί" την ικανότητα που μπορεί να έχει ένας εμπειρογνώμονας στη λήψη αποφάσεων. Η αιτία σχεδιασμού των έμπειρων συστημάτων γενικότερα, ήταν η ανάγκη επίλυσης πολύπλοκων προβλημάτων βασιζόμενοι σε μία Βάση Γνώσης. Άρχισαν τα δημιουργούνται την δεκαετία του 70' και αναπτύχθηκαν σημαντικά τη δεκαετία του 80'. Κάθε Έμπειρο Σύστημα έχει μία μοναδική δομή. Αυτή η δομή διακρίνεται σε δύο σημαντικά μέρη: Το Σταθερό μέρος, που είναι η μηχανή εξαγωγής συμπερασμάτων, είναι ανεξάρτητο από το πεδίο εφαρμογής Το Μεταβλητό μέρος, που είναι η Βάση Γνώσης Η τεχνολογία των Έμπειρων Συστημάτων χαρακτηρίζεται από την ιδιότητα που έχει η εκάστοτε Βάση Γνώσης να εκφράζεται σε κανόνες της μορφής "Αν...τότε..." (π.χ. Αν κάτι είναι ζωντανό, τότε είναι και θνητό). Αυτού του είδους η διατύπωση έχει το πλεονέκτημα ότι είναι πολύ κοντά στη φυσική μας γλώσσα, κάτι το οποίο γενικότερα είναι πολύ σπάνιο στην επιστήμη των υπολογιστών, δεδομένου ότι ένα κλασσικό πρόγραμμα που δεν είναι έμπειρο σύστημα, είναι κωδικοποιημένο. Οι κανόνες που μπορεί να προκύψουν (να εξαχθούν ) από μία Βάση Γνώσης, εκφράζουν τη γνώση που μπορεί να αξιοποιηθεί από τα έμπειρα συστήματα. Ένα από τα βασικά πλεονεκτήματα ενός έμπειρου συστήματος είναι ο διάλογος. Αυτό σημαίνει πως τα έμπειρα συστήματα επιτρέπουν στους χρήστες να υποβάλλονται σε μία μορφή συνέντευξης από τους υπολογιστές, όπως θα έκαναν με οποιονδήποτε άνθρωπο. Ένα ακόμη πλεονέκτημά τους είναι πως η βάση των κανόνων η βάση των κανόνων είναι σε φυσική 30

γλώσσα και αυτό σημαίνει ότι μπορούν να προγραμματιστούν πολύ πιο εύκολα και γρήγορα από ότι ένα συμβατικό πρόγραμμα. Όσον αφορά την αξιοπιστία τους, μπορούμε να ισχυριστούμε σε πρώτη φάση πως, όσο πιο αξιόπιστη είναι η Βάση Δεδομένων από την οποία εξάγονται οι κανόνες για το σύστημα, τόσο πιο αξιόπιστο πρόκειται να είναι και το ίδιο το σύστημα. Τέλος, είναι σημαντικό να σημειωθεί η μεγάλη δυνατότητα επεκτασιμότητας που διέπει αυτά τα συστήματα, δεδομένου ότι οι κανόνες είναι γραμμένοι σε απλή γλώσσα και άρα είναι εύκολο σχετικά να εντοπίσει κάποιος, μετά την αρχική του εκπαίδευση, εκείνους τους κανόνες που πρέπει να τροποποιηθούν ή να αλλαχθούν. Παρόλα αυτά, τα έμπειρα συστήματα έχουν ένα σημαντικό μειονέκτημα το οποίο ερμηνεύει και τη χαμηλή τους απόδοση παρότι υπάρχουν εδώ και 70 χρόνια. Το ελάττωμα αυτό είναι η συλλογή της γνώσης και η εξήγησή της σε κανόνες. Αρκετοί προγραμματιστές δεν έχουν καθιερώσει κάποια συγκεκριμένη μέθοδο για να παρουσιάσουν αυτό το έργο. Αντιθέτως, εργάζονται "χειροκίνητα" κάτι το οποίο σημαίνει πως υπάρχει μεγάλη πιθανότητα να κάνουν λάθος. Η γνώση ενός εμπειρογνώμονα μπορεί να μην είναι αρκετά ικανοποιητική ή σαφής με αποτέλεσμα είτε να υπάρχει έλλειψη ποιοτικών κανόνων, είτε να εξάγονται κανόνες οι οποίοι είναι αντιφατικοί ή δεν βγάζουν νόημα. Σε αυτήν τη διπλωματική εργασία δεν πρόκειται να σχεδιαστεί έμπειρο σύστημα. Πρόκειται, όμως, να αναπτυχθούν όλα εκείνα τα στάδια που προηγούνται του τελικού για το σχεδιασμό του που είναι η συγγραφή του κώδικά. Για να φτάσουμε, όμως, μέχρι αυτό το σημείο, να μπορούμε δηλαδή να ισχυριστούμε πως είμαστε έτοιμοι να συγγράψουμε τον κώδικα πρέπει να έχουν απαραιτήτως προηγηθεί τα εξής στάδια: 1. Ο σχεδιασμός της Βάσης Γνώσης 2. Η χρήση αλγορίθμων για την εξαγωγή κανόνων μέσα από αυτή τη Βάση Γνώσης Αυτά τα δύο στάδια πρόκειται να τα αναπτύξουμε αναλυτικά στις ενότητες που ακολουθούν. Όσον αφορά το πρώτο βήμα θα παραθέσουμε τον τρόπο με τον οποίο συντάξαμε και αξιοποιήσαμε το ερωτηματολόγιο μας σχετικά με τον Αυτισμό. Όσον αφορά το δεύτερο βήμα, θα χρησιμοποιήσουμε δυο διαφορετικούς αλγόριθμους (ID3 και Apriori) για να εξάγουμε κανόνες και συμπεράσματα από τη Βάση Γνώσης, θα συγκρίνουμε την ποιότητα των κανόνων που δύναται να εξάγει ο καθένας από αυτούς τους τρεις αλγόριθμους και θα αξιολογήσουμε την προσφορά τους. Από εκεί και πέρα, στην περίπτωση που θα επιθυμούσαμε επιπροσθέτως τον σχεδιασμό ενός έμπειρου συστήματος, το μόνο που θα χρειαζόταν θα ήταν να συνεργαστούμε με έναν προγραμματιστή, ο οποίος θα έχει την τεχνογνωσία να μετατρέψει σε 31

μορφή κώδικα (γλώσσας προγραμματισμού) τους κανόνες που εμείς ήδη με προσοχή και μελέτη έχουμε καταφέρει να εξάγουμε από τη Βάση Γνώσης. 3.2 Ο Σχεδιασμός του Ερωτηματολογίου Όπως έχουμε ήδη αναφέρει, το πρότυπο σύστημα υποστήριξης Ατόμων με Αυτισμό «ΠΑΥΕΥΣ» χρησιμοποίησε μια κάποια εμπορικά ερωτηματολόγια που αφορούν τη διάγνωση αυτισμού. Όμως για να καταφέρουμε να εξάγουμε κανόνες σχετικά με τη διάγνωση του Αυτισμού, επιβάλλεται να δημιουργήσουμε μία Βάση Γνώσης. Επομένως καταλήξαμε σε ένα ερωτηματολόγιο από 3 πακέτα ερωτήσεων σε συνεργασία με Ιατρούς ειδικούς στη διάγνωση της παθήσεως για παιδιά ηλικίας 4-11, το οποίο όμως αποτελείται από τα επιμέρους ερωτηματολόγια AQ (15-64), τα CASD (65-143) και τα SRS (144-208) και για παιδιά ηλικίας 0-4 χρησιμοποιήθηκαν τα CASD (Q1-Q79), MCHAT(Q80-Q103) και CSBS-DP(Q104-Q127), τα οποία είναι αναγνωρισμένα από τη διεθνή κοινότητα για την έρευνα στη διάγνωση αυτισμού, ενώ μεταφράστηκαν και διατυπώθηκαν όσο γινόταν καλύτερα, έτσι ώστε να μην αλλοιώνεται η ερώτηση και ως εκ τούτου πιθανώς και το αποτέλεσμα. Το ερωτηματολόγιο οφείλει να περιλαμβάνει όλα εκείνα τα χαρακτηριστικά τα οποία είναι σημαντικά (critical) για να μπορεί κάποιος να εξάγει συμπεράσματα για το εάν ένα παιδί είναι αυτιστικό. Επομένως, μιλάμε για ένα δύσκολο κομμάτι επιλογής αυτών των χαρακτηριστικών, το οποίο επιβάλλει από την πλευρά μας τη μελέτη σχετικής βιβλιογραφίας αναφορικά με τον αυτισμό, αλλά και τη βοήθεια επιστημόνων ιατρών εξειδικευμένων στο συγκεκριμένο επιστημονικό πεδίο. Με γνώμονα τα παραπάνω, οι ερωτήσεις του ερωτηματολογίου απευθύνονται στους γονείς του εκάστοτε παιδιού, οπότε αυτοί είναι που καλούνται να συμπληρώσουν το ερωτηματολόγιό μας. Στο ερωτηματολόγιο που σχεδιάστηκε έγινε η προσπάθεια να υπάρχουν όσο το δυνατόν περισσότερες ερωτήσεις, ώστε να καλύψουμε όσο το δυνατόν περισσότερα χαρακτηριστικά γίνεται γύρω από τη διάγνωση του αυτισμού. Επίσης, σποραδικά αναδιατυπώσαμε ορισμένες από αυτές τις ερωτήσεις, διατηρώντας το αρχικό τους νόημα, ώστε να βεβαιωθούμε πως ο κάθε γονιός συμπληρώνει με "σοβαρότητα" το ερωτηματολόγιο και δεν απαντάει απερίσκεπτα και γρήγορα προκειμένου να "ξεμπερδεύει". Αν, δηλαδή, διαπιστωθεί πως σε δύο ερωτήσεις όπου έχουν το ίδιο νόημα και είναι απλά διατυπωμένες με διαφορετικό τρόπο, νοηματικά ο γονιός δίνει διαφορετική απάντηση σε κάθε μία, τότε τίθεται θέμα αξιοπιστίας συμπλήρωσης του ερωτηματολογίου από 32

την πλευρά του γονέα και άρα το συγκεκριμένο ερωτηματολόγιο δεν λαμβάνεται σοβαρά υπόψη. Μερικές από τις ερωτήσεις που χρησιμοποιήθηκαν είναι οι παρακάτω: 1. Προτιμά να κάνει πράγματα μαζί με άλλους/άλλα παιδιά, παρά μόνος του; 2. Προτιμά να κάνει πράγματα με τον ίδιο τρόπο ξανά και ξανά; 3. Έχει φαντασία, του είναι πολύ εύκολο να δημιουργήσει μια φανταστική εικόνα στο μυαλό του; 4. Συχνά είναι τόσο πλήρως απορροφημένος σε ένα πράγμα που κάνει, που σαν να μην βλέπει άλλα πράγματα; 5. Συχνά προσέχει μικρούς ήχους που οι άλλοι δεν προσέχουν; 6. Κρατά το φαγητό στο στόμα χωρίς να το καταπίνει; 7. Τρώει μη βρώσιμα υλικά; 8. Απαγγέλει αποσπάσματα από ταινίες, κινούμενα σχέδια, διαφημίσεις κ.λπ. σε υπερβολικό βαθμό; 9. Έχει αυτοπεποίθηση; 10. Μπορεί να επικοινωνεί τα συναισθήματά του στους άλλους; Όλες οι παραπάνω ερωτήσεις, καθώς και οι υπόλοιπες 185 που συντάχθηκαν είναι κάθε άλλο παρά τυχαίες στη σύλληψή τους. Όλες τους, διατυπώνονται με τέτοιον τρόπο ώστε, από την απάντηση που θα δώσει ο γονέας, να λάβουμε μία σημαντική πληροφορία η οποία ακουμπά πάνω σε κάποιο από τα χαρακτηριστικά γνωρίσματα του Αυτισμού τα οποία έχουμε παραθέσει στο δεύτερο Κεφάλαιο της εργασίας. Επίσης είναι σαφές πως κάθε ερώτηση ναι μεν απευθύνεται στο γονέα, αλλά αφορά το παιδί του και μόνο, όχι τον ίδιο. Επιπροσθέτως, το ερωτηματολόγιο μας έχει το εξής χαρακτηριστικό: Για όλους εκείνους τους γονείς που απευθύνουμε τις ερωτήσεις, τα παιδιά τους έχουν ήδη εξεταστεί από ειδικό γιατρό και υπάρχει ήδη γνωμάτευση για το κάθε παιδί σχετικά με το αν πάσχει από παιδικό αυτισμό ή κάτι άλλο. Συνεπώς, εμείς γνωρίζουμε ήδη αν, βάσει επιστημονικής γνωμάτευσης, είναι το παιδί αυτιστικό ή όχι, αλλά αυτό που δεν γνωρίζουμε και αναζητούμε, είναι με ποια κριτήρια μπορεί να προέκυψε από τον επιστήμονα Ιατρό αυτή η απόφαση. Ένα άλλο κομμάτι που μας απασχολεί, είναι η πιθανότητα να υφίστανται ενδεχόμενες συσχετίσεις στις απαντήσεις των γονέων. Συγκεκριμένα, ο τρόπος που καλούμε τους γονείς να απαντήσουν είναι μέσα από ένα ερωτηματολόγιο πολλαπλής επιλογής. Αυτό σημαίνει πως δεν τους δίδεται η δυνατότητα να αναπτύξουν ένα ελεύθερο κείμενο, αλλά μόνο να κυκλώσουν μία από τις προσφερόμενες απαντήσεις που είναι τυπωμένες στο ερωτηματολόγιο. Αναλυτικότερα οι ερωτήσεις διακρίνονται σε τρεις ομάδες, αναφορικά με τον τρόπο απάντησής τους: 33

Σε ερωτήσεις που απαντώνται με "Σίγουρα διαφωνώ", "κάπως διαφωνώ", "κάπως συμφωνώ", "σίγουρα συμφωνώ" Σε ερωτήσεις που απαντώνται με ένα "ναι" η ένα "όχι" Σε ερωτήσεις που απαντώνται "Λάθος", "μερικές φορές αληθές", "συχνά αληθές", "πάντα αληθές" Ο λόγος που σχεδιάστηκε το ερωτηματολόγιο κατά αυτόν τον τρόπο, προφανώς, δεν ήταν για να περιοριστεί η ελευθερία έκφρασης των γονέων. Η σαφής αιτία είναι η δεδομένη αναγκαιότητα, σε μεταγενέστερη φάση, μαθηματικοποίησης της απάντησης γονέα. Συγκεκριμένα, από τη στιγμή που θα έχει συμπληρωθεί το ερωτηματολόγιο από ένα ικανοποιητικό πλήθος γονέων, θα πρέπει όλες οι απαντήσεις όλων των ερωτηματολογίων να εισαχθούν κατάλληλα σε ένα αρχείο, το οποίο με κατάλληλη προεπεξεργασία όπως θα δούμε αργότερα, θα μπορεί να εισαχθεί στο λογισμικό που θα χρησιμοποιήσουμε για την πειραματική μας μελέτη των δυο αλγορίθμων (weka). Επιβάλλεται, ως εκ τούτου, η κάθε απάντηση που θα δοθεί να είναι πολύ συγκεκριμένη ώστε να μπορεί να αντιστοιχεί σε μία συγκεκριμένη τιμή. Εντέλει, το ερωτηματολόγιό μας συμπληρώθηκε επιτυχώς για 135 περιστατικά. 3.3 Η Δημιουργία της Βάσης Γνώσης και Προεπεξεργασία για παιδιά ηλικίας 4-11 Όπως ήδη αναφέραμε, το ερωτηματολόγιο για παιδιά ηλικίας 4-11 απαντήθηκε από 135 γονείς (πατέρα ή μητέρα). Με την ολοκλήρωση το απαντήσεων το πρώτο βήμα ήταν η καταχώρηση όλων των απαντήσεων συγκεντρωτικά σε ένα αρχείο excel(*..xlsx). Ένα δείγμα αυτού του αρχείου παραθέτουμε παρακάτω: Εικόνα 4 - Δείγμα του Συγκεντρωτικού Πίνακα Απαντήσεων του Ερωτηματολογίου 34

Όπως βλέπουμε, κάθε στήλη του πίνακα φέρει έναν τίτλο που αντιστοιχεί στην ερώτηση που καλείται να απαντήσει ο γονέας. Κάθε γραμμή αντιστοιχεί και σε ένα περιστατικό, άρα και σε μία σειρά απαντήσεων ενός γονέα. Παρατηρούμε πως οι απαντήσεις είναι κωδικοποιημένες με αριθμούς. Αυτό εξυπηρετεί στο να διευκολυνθεί η μετατροπή του αρχείου σε μία μορφή που θα εισαχθεί στο WEKA για μελέτη με την χρήση των αλγορίθμων ID3 και Apriori. Συγκεκριμένα, για κάθε κατηγορία απαντήσεων που αναφέραμε στην προηγούμενη ενότητα, έχουμε: Για το πρώτο πακέτο ερωτήσεων AQ (15-64): Σίγουρα διαφωνώ 0 κάπως διαφωνώ 0 κάπως συμφωνώ 1 Σίγουρα συμφωνώ 1 Για τo δεύτερο πακέτο ερωτήσεων CASD (65-143): Όχι 0 Ναι 1 Για τo τρίτο πακέτο ερωτήσεων SRS (144-208): Λάθος 0 Μερικές φορές αληθές 0 Συχνά αληθές 1 Πάντα αληθές 1 Συνεπώς, στο σύνολό του, πρόκειται για έναν πίνακα ο οποίος αποτελείται από 195 στήλες (όσες οι ερωτήσεις συν μία στήλη που περιλαμβάνει τη γνωμάτευση του ιατρού για το εκάστοτε περιστατικό) και 135 γραμμές, όσο και το πλήθος των γονέων που απάντησε στο ερωτηματολόγιο. Η κωδικοποίηση των απαντήσεων που αφορά την γνωμάτευση του ειδικού δεν είναι αριθμητική, αλλά είναι boolean, δηλαδή "yes" ή "no" και έχει σχεδιαστεί έτσι καθαρά για να μπορούμε να ξεχωρίζουμε εύκολα τη γνωμάτευση του ιατρού από τις απαντήσεις του γονέα. Η τιμή "yes" αντιστοιχεί στα περιστατικά όπου διαγνώστηκε αυτισμός στο παιδί και η τιμή "no" σε αυτές που δεν διαπιστώθηκε αυτή η πάθηση. Στη συνέχεια, μέσω της εφαρμογής Ms Excel αποθηκεύσαμε το αρχείο μας σε μορφή *.csv δηλαδή απλού κειμένου στο οποίο οι στήλες είναι οριοθετημένες με κόμματα και ξεκινήσαμε την περαιτέρω επεξεργασία του μέσω της εφαρμογής του σημειωματάριου (Notepad) των Ms Windows. Παραθέτουμε κομμάτι της επεξεργασίας στο σημειωματάριο στην παρακάτω εικόνα: 35

Εικόνα 5 - Δείγμα Τροποποιημένου Αρχείου Απαντήσεων Στο δείγμα της παραπάνω εικόνας παρατηρούμε τις εξής παρεμβάσεις: Φαίνονται οι κωδικοποιημένες απαντήσεις των γονέων, που είναι ουσιαστικά οι αριθμοί διαχωρισμένοι με κόμματα. Για να "καταλάβει" η εφαρμογή του WEKA ότι αυτοί οι αριθμοί αναπαριστούν τις απαντήσεις στη Βάση Γνώσης εισάγουμε ακριβώς πριν από την έναρξη των απαντήσεων τη φράση "@data" Τους τίτλους των στηλών που, όπως αναφέραμε, αντιστοιχούν στις ερωτήσεις των απαντήσεων, τους τοποθετήσαμε σε μία λίστα πάνω από τις κωδικοποιημένες απαντήσεις, όπως φαίνονται στην παραπάνω εικόνα. Για να αντιληφθεί το WEKA ότι πρόκειται για ιδιότητα - χαρακτηριστικό του Αυτισμού κάθε φράση - ερώτηση, εισάγουμε πριν από αυτήν τη φράση "@attrιbute", άρα αυτό εμφανίζεται συνολικά 195 φορές Κάθε ιδιότητα (attribute) φέρει στο τέλος της μέσα σε άγκιστρα ({ }) το εύρος που το είδος των τιμών που μπορεί αυτή να δεχτεί. Επομένως μέσα στα άγκιστρα για τις 194 ιδιότητες θα βάλουμε τις αριθμητικές τιμές που αντιστοιχούν στις κωδικοποιημένες απαντήσεις των γονέων και στην τελευταία ιδιότητα (Aftismos) θα βάλουμε "{yes, no} που αντιστοιχεί στις λογικές τιμές που φέρει η γνωμάτευση του ειδικού Ιατρού (έχει ή δεν έχει το παιδί αυτισμό) Να αναφέρουμε, επίσης, ότι στο πάνω - πάνω μέρος του κειμένου του αρχείου (δεν φαίνεται στην εικόνα) έχουμε εισάγει τη φράση "@relation Aftismos" όπου με αυτόν τον τρόπο αποδίδεται μία περιγραφή - τίτλος στο περιεχόμενο του αρχείου. 36

Τέλος, αποθηκεύουμε εκ νέου το αρχείο με μία ονομασία και του αλλάζουμε το τύπο του σε μορφή *.arff ώστε να βεβαιωθούμε πως θα είναι αναγνώσιμο από το WEKA. Παρακάτω, παραθέτουμε την διαδικασία εισαγωγής του αρχείου που κατασκευάσαμε στο WEKA: Εικόνα 6 - Εισαγωγή Αρχείου στο WEKA - Βήμα 1ο Όπως δείχνουμε και στην εικόνα, έχοντας "τρέξει" την εφαρμογή "WEKA" εμφανίζεται το εισαγωγικό panel όπου κάνουμε κλικ στο κουμπί "Explorer". Εικόνα 7- Εισαγωγή Αρχείου στο WEKA - Βήμα 2ο Στη συνέχεια, στο νέο παράθυρο που εμφανίζεται κάνουμε κλικ στο κουμπί "Open file..." επιλέγουμε το arff αρχείο που κατασκευάσαμε και το αποτέλεσμα φαίνεται στην παρακάτω εικόνα: 37

Εικόνα 8 - Αποτέλεσμα εισαγωγής του Αρχείου στο WEKA Η παραπάνω εικόνα αναπαριστά το panel που αντικρίζουμε αφού ολοκληρώσουμε την εισαγωγή του αρχείου στο WEKA. Αυτό σημαίνει πως η δομή του αρχείου που έχουμε εισάγει είναι η σωστή - σε διαφορετική περίπτωση το WEKA θα είχε εμφανίσει μήνυμα σφάλματος και δεν θα φόρτωνε το αρχείο. Σε αυτό το σημείο θα επικεντρωθούμε στα τρία βελάκια που έχουμε σημάνει στην παραπάνω εικόνα: Με το μαύρο βελάκι δείχνουμε τα instances (περιστατικά - γραμμές του πίνακα) και αποδεικνύουμε πως το WEKA αναγνωρίζει πως είναι 135, συνεπώς ότι έχουνε συμπληρώσει το ερωτηματολόγιο 135 γονείς Με το κόκκινο βελάκι δείχνουμε τα atrributes που σωστά το WEKA τα υπολογίζει ότι είναι 51 όσες δηλαδή είναι οι ερωτήσεις του AQ πακέτου ερωτήσεων συν τη γνωμάτευση του ειδικού (μεταβλητή εξόδου) Με το πράσινο βελάκι δείχνουμε πως το WEKA αντιλαμβάνεται ως μεταβλητή εξόδου (συμπεράσματος) την μεταβλητή "Aftismos" που αντιστοιχεί στη διάγνωση του Ιατρού (έχει ή δεν έχει το παιδί αυτισμό) Επίσης κάτω αριστερά εμφανίζεται σε λίστα ένα μέρος των τίτλων των ιδιοτήτων που έχουμε αποδώσει στο αρχείο που εισάγαμε 38

3.4 Η χρήση του ID3 στη διάγνωση του Αυτισμού Είμαστε, πλέον, έτοιμοι να χρησιμοποιήσουμε το πρώτο από τους τρεις αλγορίθμους εξόρυξης γνώσης που θα μελετήσουμε και αυτός είναι ο ID3. Ο λόγος που επιθυμούμε να χρησιμοποιήσουμε τον συγκεκριμένο αλγόριθμο, είναι για να εξάγουμε ένα Δέντρο Απόφασης, το οποίο διαβάζοντας το κάποιος πολύ εύκολα θα μπορεί να συντάξει τους κανόνες που διέπουν τη διάγνωση του αυτισμού με βάση τα ερωτηματολόγια που συμπληρώθηκαν και τη διάγνωση του ειδικού Ιατρού που προηγήθηκε. Όπως αναφέραμε στο θεωρητικό μέρος της εργασίας, σχετικά με τον ID3, μία από τις ιδιότητές του είναι να δημιουργεί το Δέντρο Απόφασης "άπληστα", συμπεριλαμβάνονται δηλαδή στο δέντρο όλα τα χαρακτηριστικά. Με δεδομένο ότι εμείς έχουμε 195 χαρακτηριστικά (attributes) εύκολα καταλαβαίνει κανείς πως θα προκύψει ένα δέντρο τεράστιο και δυσανάγνωστο, οπότε δύσκολα θα μπορούμε να εξάγουμε συμπεράσματα. Για το λόγο αυτό, το χρησιμοποιήσουμε μία παραλλαγή του αλγορίθμου ID3, με σκοπό να εφαρμόσουμε τεχνικές "κλαδέματος" και άρα να παραμείνουν στο Δέντρο που τελικά θα εξαχθεί, μόνο οι ιδιότητες εκείνες που πραγματικά διαδραματίζουν ουσιαστικό ρόλο στην τελική γνωμάτευση για το αν υπάρχει αυτισμός στο παιδί ή όχι. Πολλές φορές, εφαρμόζοντας τεχνικές κλαδέματος, συνειδητοποιούμε στο Δέντρο που προκύπτει ότι οι σημαντικές ιδιότητες είναι πολύ λιγότερες σε σχέση με τις συνολικές που έχουμε συμπεριλάβει στη Βάση Γνώσης που έχουμε εισάγει στο WEKA. Η παραλλαγή του ID3 που επιλέγουμε να χρησιμοποιήσουμε είναι ο αλγόριθμος J48 (ο C4.5 σε μορφή Java), όπου βασικότερο χαρακτηριστικό του είναι να αποκλείει δεδομένα και παραμέτρους που δεν διαδραματίζουν κάποιο ρόλο στην εξαγωγή ενός κανόνα και άρα να οδηγείται στο σχηματισμό ενός δέντρου πολύ συνοπτικού και ουσιαστικού. Κατά τα άλλα η λογική και δομή του είναι απόλυτα συνυφασμένες με τον αλγόριθμο ID3, είναι ουσιαστικά παραλλαγή του. Αρχικά τρέξαμε ολόκληρο το αρχείο.arff που δημιουργήσαμε και οι κανόνες που εξήχθησαν ήταν 4 και οι ιδιότητες 3. Στη συνέχεια τρέξαμε τον αλγόριθμο για κάθε πακέτο ερωτήσεων χωριστά, προκειμένου να δούμε εάν θα βγάλουμε περισσότερους κανόνες και ιδιότητες. 39

Εικόνα 9 - Επιλογή του ID3 για Εξαγωγή Δέντρου Απόφασης Με χρήση της παραπάνω εικόνας περιγράφουμε τη διαδικασία επιλογής του ID3 (J48) για την εξαγωγή του Δέντρου Απόφασης. Αρχικά κάνουμε κλικ στην καρτέλα "Classify" και στη συνέχεια επιλέγουμε τη κουμπί "Choose" το οποίο θα μας εμφανίσει την κατηγορία "trees" και από εκεί θα επιλέξουμε τον αλγόριθμο J48. Επιλέγουμε "use training set" επειδή θέλουμε να ληφθούν και τα 135 instances που περιλαμβάνει το αρχείο μας υπόψη, βεβαιωνόμαστε ότι η μεταβλητή εξόδου στο Δέντρο θα είναι η διάγνωση του ειδικού "(Nom) Autism" και, τέλος, κάνουμε κλικ στο κουμπί "start", ώστε να ξεκινήσει η διαδικασία παραγωγής των κανόνων. Αποτέλεσμα είναι να εμφανιστεί ο τίτλος του δέντρου στο "Result list" και στο δεξί πάνελ μία αναπαράσταση των χαρακτηριστικών του αρχείου που εξετάστηκε (πλήθος atrributes και instances κτλ) και στη συνέχεια η λίστα με τους κανόνες που εξάγονται. Εμείς, αυτό που επιθυμούμε, όμως, είναι η αναπαράσταση των κανόνων σε μορφή δέντρου. Για να γίνει αυτό, στο "Result list" κάνουμε δεξί κλικ στον τίτλο του δέντρου και επιλέγουμε "Visualize Tree". Το αποτέλεσμα (δέντρο απόφασης) για το πρώτο πακέτο ερωτήσεων φαίνεται στην παρακάτω εικόνα: 40

Εικόνα 10 - Το Δέντρο Απόφασης AQ Από το Δέντρο Απόφασης προκύπτουν οι ιδιότητες (attributes) που, σύμφωνα με τον αλγόριθμο και τα απαντημένα ερωτηματολόγια, διαδραματίζουν κάποιο λόγο στην απόφαση για το αν ένα παιδί είναι αυτιστικό ή όχι και είναι οι παρακάτω: 1. Q20: (AQ06) : Συνήθως προσέχει σειρές πληροφοριών,όπως πχ αριθμούς σπιτιών ή παρόμοια πράγματα σε σειρά. 2. Q22: (AQ08) : Όταν διαβάζει /του διαβάζετε μια ιστορία μπορεί εύκολα να φανταστεί τους ήρωες της ιστορίας. 3. Q28: (AQ14) : Φτιάχνει εύκολα φανταστικές ιστορίες. 4. Q38: (AQ24) : Θα προτιμούσε να πάει σινεμά παρά σε ένα μουσείο. 5. Q40: (AQ27) :Το βρίσκει εύκολο να <<διαβλέπει-να καταλαβαίνει τα υπονοούμενα>> όταν κάποιος του μιλάει. 6. Q52: (AQ38) : Είναι καλός στην κοινωνική συζήτηση /κουβέντα. 7. Q60: (AQ46) : Νέες καταστάσεις τον κάνουν να αγχώνεται. 8. Q61: (AQ47) : Του αρέσει να συναντά καινούρια άτομα. Δηλαδή οχτώ (8) ιδιότητες από τις συνολικά 51 (!!!) που εισάγαμε αρχικά. Μιλάμε, ουσιαστικά, για ένα ποσοστό κλαδέματος που πραγματοποίησε ο αλγόριθμος της τάξεως το 84%, "θεωρώντας" πως αυτό το ποσοστό που κλαδεύτηκε δεν διαδραματίζει κάποιον ρόλο στην τελική απόφαση. Συγκεκριμένα, διαβάζοντας σωστά το Δέντρο (από πάνω προς τα κάτω) οι κανόνες που προκύπτουν είναι: 1. Αν το παιδί δεν φτιάχνει εύκολα φανταστικές ιστορίες, τότε είναι αυτιστικό 41

2. Αν το παιδί το βρίσκει εύκολο να <<διαβλέπει-να καταλαβαίνει τα υπονοούμενα>> όταν κάποιος του μιλάει και παράλληλα φτιάχνει εύκολα φανταστικές ιστορίες, αλλά οι νέες καταστάσεις τον κάνουν να αγχώνεται και δεν του αρέσει να συναντά καινούρια άτομα τότε δεν αυτιστικό 3. Αν το παιδί το βρίσκεται σε νέες καταστάσεις και τον κάνουν να αγχώνεται, τότε είναι αυτιστικό 4. Αν το παιδί το βρίσκει εύκολο να <<διαβλέπει-να καταλαβαίνει τα υπονοούμενα>> όταν κάποιος του μιλάει και παράλληλα φτιάχνει εύκολα φανταστικές ιστορίες, αλλά οι νέες καταστάσεις δεν τον κάνουν να αγχώνεται τότε δεν είναι αυτιστικό 5. Αν το παιδί δεν το βρίσκει εύκολο να <<διαβλέπει-να καταλαβαίνει τα υπονοούμενα>> όταν κάποιος του μιλάει και όταν διαβάζει /του διαβάζετε μια ιστορία δεν μπορεί εύκολα να φανταστεί τους ήρωες της ιστορίας, τότε είναι αυτιστικό 6. Αν το παιδί δεν το βρίσκει εύκολο να <<διαβλέπει-να καταλαβαίνει τα υπονοούμενα>> όταν κάποιος του μιλάει και δεν είναι καλός στην κοινωνική συζήτηση /κουβέντα τότε είναι αυτιστικό 7. Αν το παιδί δεν το βρίσκει εύκολο να <<διαβλέπει-να καταλαβαίνει τα υπονοούμενα>> όταν κάποιος του μιλάει, αλλά όταν διαβάζει /του διαβάζετε μια ιστορία μπορεί εύκολα να φανταστεί τους ήρωες της ιστορία, είναι καλός στην κοινωνική συζήτηση /κουβέντα και θα προτιμούσε να πάει σινεμά παρά σε ένα μουσείο, τότε δεν είναι αυτιστικό 8. Αν το παιδί δεν το βρίσκει εύκολο να <<διαβλέπει-να καταλαβαίνει τα υπονοούμενα>> όταν κάποιος του μιλάει και συνήθως προσέχει σειρές πληροφοριών,όπως πχ αριθμούς σπιτιών ή παρόμοια πράγματα σε σειρά, τότε είναι αυτιστικό 9. Αν το παιδί δεν το βρίσκει εύκολο να <<διαβλέπει-να καταλαβαίνει τα υπονοούμενα>> όταν κάποιος του μιλάει, αλλά όταν διαβάζει /του διαβάζετε μια ιστορία μπορεί εύκολα να φανταστεί τους ήρωες της ιστορία, είναι καλός στην κοινωνική συζήτηση /κουβέντα και θα προτιμούσε να πάει σινεμά παρά σε ένα μουσείο και συνήθως δεν προσέχει σειρές πληροφοριών, όπως πχ αριθμούς σπιτιών ή παρόμοια πράγματα σε σειρά, τότε δεν είναι αυτιστικό 42

Επομένως, από το Δέντρο Απόφασης, ο αλγόριθμος πέτυχε να εξάγει εννιά (9) συνολικά κανόνες και, όπως αναμενόταν, αυτοί εκφράζονται συντακτικά ως "Αν...τότε..."------------------------------------------------------------------------- Την ίδια διαδικασία ακολουθήσαμε και για τα άλλα δυο πακέτα ερωτήσεων CASD (65-143) και SRS (144-208), από τα οποία προέκυψαν αντίστοιχα 6 ιδιότητες και (7) κανόνες για το CASD και 7 ιδιότητες και (8) κανόνες για το SRS. Από το πακέτο ερωτήσεων CASD (65-143) προέκυψε το εξής δέντρο απόφασης Εικόνα 11 Το Δέντρο Απόφασης CASD Από το συγκεκριμένο Δέντρο Απόφασης προκύπτουν οι εξής ιδιότητες (attributes): 1. Q79: (CASD052): Πτωχή κοινωνική κατανόηση (δυσκολία στην κατανόηση κοινωνικών υπονοούμενων/ σχολίων, εκφράσεων προσώπου, γλώσσας του σώματος). 2. Q93: (CASD09): Στερεοτυπίες (ασυνήθιστες επαναλαμβανόμενες κινήσεις όπως φτερούγισμα των χεριών όταν είναι ενθουσιασμένος/η, περπάτημα στις μύτες, λίκνισμα σώματος, 3. Q85: (CASD073): Ασυνήθιστη ενασχόληση με τμήματα αντικειμένων (π.χ. περιστρέφει επαναλαμβανόμενα τις ρόδες ενός παιγνιδιού). 4. Q100: (CASD151): Μυρίζει, βάζει στο στόμα, μασάει, γλύφει ή τρίβει αντικείμενα ή επιφάνειες, σε υπερβολικό βαθμό. 43

5. Q116: (CASD20): Γλωσσική παλινδρόμηση ή επιβράδυνση περίπου στο 1ο με 2ο έτος (π.χ. λέει κάποιες λέξεις στο πρώτο έτος αλλά έπειτα χάνει το λόγο του/της ή φυσιολογική πρώιμη, γλωσσική ανάπτυξη και καθυστέρησή της μετά). 6. Q65: (CASD011): Αποσυρμένος/η, ανήσυχος/η, αποφεύγει την επαφή με τρίτους ή προτιμά να παίζει μόνος/η παρά με συνομήλικους. Δηλαδή έξι (6) ιδιότητες από τις συνολικά 80 που εισάγαμε με ποσοστό κλαδέματος 92% και οι εξής κανόνες: 1. Αν το παιδί έχει πτωχή κοινωνική κατανόηση (δυσκολία στην κατανόηση κοινωνικών υπονοούμενων/ σχολίων, εκφράσεων προσώπου, γλώσσας του σώματος), τότε είναι αυτιστικό 2. Αν το παιδί έχει στερεοτυπίες (ασυνήθιστες επαναλαμβανόμενες κινήσεις όπως φτερούγισμα των χεριών όταν είναι ενθουσιασμένος/η, περπάτημα στις μύτες, λίκνισμα σώματος, τότε είναι αυτιστικό 3. Αν το παιδί έχει ασυνήθιστη ενασχόληση με τμήματα αντικειμένων (π.χ. περιστρέφει επαναλαμβανόμενα τις ρόδες ενός παιγνιδιού), τότε είναι αυτιστικό 4. Αν το παιδί μυρίζει, βάζει στο στόμα, μασάει, γλύφει ή τρίβει αντικείμενα ή επιφάνειες, σε υπερβολικό βαθμό, τότε είναι αυτιστικό 5. Αν το παιδί έχει γλωσσική παλινδρόμηση ή επιβράδυνση περίπου στο 1ο με 2ο έτος (π.χ. λέει κάποιες λέξεις στο πρώτο έτος αλλά έπειτα χάνει το λόγο του/της ή φυσιολογική πρώιμη, γλωσσική ανάπτυξη και καθυστέρησή της μετά) και ασυνήθιστη ενασχόληση με τμήματα αντικειμένων (π.χ. περιστρέφει επαναλαμβανόμενα τις ρόδες ενός παιγνιδιού), τότε είναι αυτιστικό 6. Αν το παιδί δεν έχει πτωχή κοινωνική κατανόηση (δυσκολία στην κατανόηση κοινωνικών υπονοούμενων/ σχολίων, εκφράσεων προσώπου, γλώσσας του σώματος), δεν έχει στερεοτυπίες (ασυνήθιστες επαναλαμβανόμενες κινήσεις όπως φτερούγισμα των χεριών όταν είναι ενθουσιασμένος/η, περπάτημα στις μύτες, λίκνισμα σώματος, δεν έχει ασυνήθιστη ενασχόληση με τμήματα αντικειμένων (π.χ. περιστρέφει επαναλαμβανόμενα τις ρόδες ενός παιγνιδιού), δεν μυρίζει, βάζει στο στόμα, μασάει, γλύφει ή τρίβει αντικείμενα ή επιφάνειες, σε υπερβολικό βαθμό, έχει γλωσσική παλινδρόμηση ή επιβράδυνση περίπου στο 1ο με 2ο έτος (π.χ. λέει κάποιες λέξεις στο πρώτο έτος αλλά έπειτα χάνει το λόγο του/της ή φυσιολογική πρώιμη, γλωσσική ανάπτυξη και καθυστέρησή της μετά) και δεν έχει ασυνήθιστη ενασχόληση με τμήματα αντικειμένων (π.χ. περιστρέφει επαναλαμβανόμενα τις ρόδες ενός παιγνιδιού), τότε δεν είναι αυτιστικό 7. Αν το παιδί δεν έχει πτωχή κοινωνική κατανόηση (δυσκολία στην κατανόηση κοινωνικών υπονοούμενων/ σχολίων, εκφράσεων προσώπου, γλώσσας του σώματος), δεν έχει στερεοτυπίες 44

(ασυνήθιστες επαναλαμβανόμενες κινήσεις όπως φτερούγισμα των χεριών όταν είναι ενθουσιασμένος/η, περπάτημα στις μύτες, λίκνισμα σώματος, δεν έχει ασυνήθιστη ενασχόληση με τμήματα αντικειμένων (π.χ. περιστρέφει επαναλαμβανόμενα τις ρόδες ενός παιγνιδιού), δεν μυρίζει, βάζει στο στόμα, μασάει, γλύφει ή τρίβει αντικείμενα ή επιφάνειες, σε υπερβολικό βαθμό και δεν έχει γλωσσική παλινδρόμηση ή επιβράδυνση περίπου στο 1ο με 2ο έτος (π.χ. λέει κάποιες λέξεις στο πρώτο έτος αλλά έπειτα χάνει το λόγο του/της ή φυσιολογική πρώιμη, γλωσσική ανάπτυξη και καθυστέρησή της μετά), τότε δεν είναι αυτιστικό. Από τους παραπάνω κανόνες στις περιπτώσεις όπου υπάρχει αυτισμός δεν αναγράφονται οι ερωτήσεις, όπου τα συμπτώματα δεν οδηγούν σε αυτισμό. Από το πακέτο ερωτήσεων SRS (144-208) προέκυψε το εξής δέντρο απόφασης Εικόνα 12 Δέντρο Απόφασης SRS (144-208) Από αυτό το Δέντρο Απόφασης προκύπτουν οι εξής ιδιότητες (attributes): 1. Q165: (SRS-2.22): Παίζει κατάλληλα με τα παιδιά της ηλικίας του. 2. Q183: (SRS-2.40): Έχει φαντασία, είναι καλός στο να προσποιείται (χωρίς να χάνει την επαφή με την πραγματικότητα). 3. Q201: (SRS-2.58): Επικεντρώνεται υπερβολικά σε τμήματα των πραγμάτων παρά στη συνολική εικόνα. Για παράδειγμα, εάν του/της 45

ζητηθεί να περιγράψει τι συνέβη σε μια ιστορία, είναι πιθανό να μιλήσει μόνο για το τι ρούχα φορούσαν οι χαρακτήρες. 4. Q184: (SRS-2.41): Μεταπηδά άσκοπα από τη μία δραστηριότητα στην άλλη. 5. Q163: (SRS-2.20): Επιδεικνύει ασυνήθιστα αισθητηριακά ενδιαφέροντα (π.χ. βάζει αντικείμενα στο στόμα ή περιστρέφει αντικείμενα) ή έχει περίεργο τρόπο να παίζει με τα παιγνίδια. 6. Q166: (SRS-2.23): Δεν συμμετέχει σε ομαδικές δραστηριότητες, εκτός εάν του υποδειχθεί. 7. Q191: (SRS-2.48): Έχει αίσθηση του χιούμορ, καταλαβαίνει τα αστείο. Βλέπουμε επτά (7) ιδιότητες από τις συνολικά 66 που εισάγαμε με ποσοστό κλαδέματος 89% και τους εξής κανόνες: 1. Αν το παιδί δεν έχει φαντασία, ούτε είναι καλός στο να προσποιείται (χωρίς να χάνει την επαφή με την πραγματικότητα), τότε είναι αυτιστικό. 2. Αν το παιδί δεν παίζει κατάλληλα με τα παιδιά της ηλικίας του και μεταπηδά άσκοπα από τη μία δραστηριότητα στην άλλη, τότε είναι αυτιστικό. 3. Αν το παιδί δεν παίζει κατάλληλα με τα παιδιά της ηλικίας του, έχει φαντασία, είναι καλός στο να προσποιείται (χωρίς να χάνει την επαφή με την πραγματικότητα) και δεν μεταπηδά άσκοπα από τη μία δραστηριότητα στην άλλη, τότε δεν είναι αυτιστικό. 4. Αν το παιδί επικεντρώνεται υπερβολικά σε τμήματα των πραγμάτων παρά στη συνολική εικόνα, τότε είναι αυτιστικό 5. Αν το παιδί επιδεικνύει ασυνήθιστα αισθητηριακά ενδιαφέροντα (π.χ. βάζει αντικείμενα στο στόμα ή περιστρέφει αντικείμενα) ή έχει περίεργο τρόπο να παίζει με τα παιγνίδια, τότε είναι αυτιστικό 6. Αν το παιδί δεν συμμετέχει σε ομαδικές δραστηριότητες, εκτός εάν του υποδειχθεί, τότε είναι αυτιστικό 7. Αν το παιδί δεν έχει αίσθηση του χιούμορ, τότε είναι αυτιστικό 8. Αν το παιδί παίζει κατάλληλα με τα παιδιά της ηλικίας του, δεν επικεντρώνεται υπερβολικά σε τμήματα των πραγμάτων παρά στη συνολική εικόνα, δεν επιδεικνύει ασυνήθιστα αισθητηριακά ενδιαφέροντα (π.χ. βάζει αντικείμενα στο στόμα ή περιστρέφει αντικείμενα) ή έχει περίεργο τρόπο να παίζει με τα παιγνίδια, συμμετέχει σε ομαδικές δραστηριότητες και έχει αίσθηση του χιούμορ, τότε δεν είναι αυτιστικό Από τους παραπάνω κανόνες στις περιπτώσεις όπου υπάρχει αυτισμός δεν αναγράφονται οι ερωτήσεις, όπου τα συμπτώματα δεν οδηγούν σε αυτισμό. 46

Από τους παραπάνω κανόνες και αυτούς που προέκυψαν από τα υπόλοιπα ερωτηματολόγια, δηλαδή τους 24 κανόνες, μπορούμε να κρατήσουμε τις ιδιότητες και να δώσουμε έμφαση σε αυτές που εμφανίστηκαν τις περισσότερες φορές. (AQ27): Το βρίσκει εύκολο να <<διαβλέπει-να καταλαβαίνει τα υπονοούμενα>> όταν κάποιος του μιλάει. Εμφανίστηκε συνολικά σε 9 κανόνες (CASD052): Πτωχή κοινωνική κατανόηση (δυσκολία στην κατανόηση κοινωνικών υπονοούμενων/ σχολίων, εκφράσεων προσώπου, γλώσσας του σώματος). Εμφανίστηκε συνολικά σε 7 κανόνες (SRS-2.22): Παίζει κατάλληλα με τα παιδιά της ηλικίας του. Εμφανίστηκε συνολικά σε 8 κανόνες (AQ08) : Όταν διαβάζει /του διαβάζετε μια ιστορία μπορεί εύκολα να φανταστεί τους ήρωες της ιστορίας. Εμφανίστηκε συνολικά σε 5 κανόνες (AQ14) : Φτιάχνει εύκολα φανταστικές ιστορίες. Εμφανίστηκε συνολικά σε 4 κανόνες (AQ38): Είναι καλός στην κοινωνική συζήτηση /κουβέντα. Εμφανίστηκε συνολικά σε 4 κανόνες (CASD073): Ασυνήθιστη ενασχόληση με τμήματα αντικειμένων (π.χ. περιστρέφει επαναλαμβανόμενα τις ρόδες ενός παιγνιδιού). Εμφανίστηκε συνολικά σε 5 κανόνες (CASD09): Στερεοτυπίες (ασυνήθιστες επαναλαμβανόμενες κινήσεις όπως φτερούγισμα των χεριών όταν είναι ενθουσιασμένος/η, περπάτημα στις μύτες, λίκνισμα σώματος. Εμφανίστηκε συνολικά σε 6 κανόνες (CASD151): Μυρίζει, βάζει στο στόμα, μασάει, γλύφει ή τρίβει αντικείμενα ή επιφάνειες, σε υπερβολικό βαθμό. Εμφανίστηκε συνολικά σε 4 κανόνες (SRS-2.20): Επιδεικνύει ασυνήθιστα αισθητηριακά ενδιαφέροντα (π.χ. βάζει αντικείμενα στο στόμα ή περιστρέφει αντικείμενα) ή έχει περίεργο τρόπο να παίζει με τα παιγνίδια. Εμφανίστηκε συνολικά σε 4 κανόνες (SRS-2.58): Επικεντρώνεται υπερβολικά σε τμήματα των πραγμάτων παρά στη συνολική εικόνα. Για παράδειγμα, εάν του/της ζητηθεί να περιγράψει τι συνέβη σε μια ιστορία, είναι πιθανό να μιλήσει μόνο για το τι ρούχα φορούσαν οι χαρακτήρες. Εμφανίστηκε συνολικά σε 5 κανόνες Να παρατηρήσουμε σε αυτό το σημείο ότι "τρέξαμε" και τον αλγόριθμο και για ένα test set αυτών των αρχείων χρησιμοποιώντας τα 2/3 των instances των αρχικών training set, αλλά τα Δέντρα Αποφάσεων που εξαγάγαμε δεν διέφεραν σε τίποτε σε σχέση με αυτά που είχαμε την πρώτη φορά όταν χρησιμοποιήσαμε τις αρχικές εγγραφές. 47

3.5 Apriori Συσχετίσεις στη Βάση Γνώσης Σε θεωρητικό επίπεδο, έχουμε αναφέρει πως, στα πλαίσια της Μηχανικής Μάθησης χωρίς Επίβλεψη, δεν δίνουμε στο σύστημά μας και στον αλγόριθμο που χρησιμοποιούμε συγκεκριμένη προταξινόμηση(κλάση). Πράγματι, στην περίπτωση της χρήσης του Apriori, θα προσπαθήσουμε στη Βάση Γνώσης που έχουμε να ανακαλύψουμε συσχετίσεις, χωρίς να είμαστε αφενός 100% σίγουροι για αυτό που ψάχνουμε και αφετέρου, χωρίς τελικά να μας απασχολεί αν ένα παιδί πάσχει από αυτισμό ή όχι. Το σημείο στο οποίο θα εστιαστεί το ενδιαφέρον μας, έχει να κάνει με τις πιθανές συσχετίσεις στις απαντήσεις τον γονέων στο ερωτηματολόγιο σχετικά με τα παιδιά τους. Υπάρχει το ενδεχόμενο ένα πολύ σημαντικό ποσοστό των γονέων, όχι απλώς να έχουν δώσει κοινές απαντήσεις, αλλά και συνδυασμό κοινών απαντήσεων που μπορεί να μας οδηγήσουν σε συμπεράσματα του τύπου, όταν ένα παιδί έχει την Χ συμπεριφορά, έχει και το Ψ ελάττωμα κ.ο.κ. Για να εξάγουμε κανόνες συσχέτισης στο WEKA χρησιμοποιώντας τον αλγόριθμο Apriori πραγματοποιούμε τα εξής: Εικόνα 13 - Εξαγωγή Κανόνων Συσχέτισης με τον Apriori - Βήμα 1ο 48

Από το panel του WEKA επιλέγουμε την καρτέλα "Associate", αφού τώρα αυτό που μας ενδιαφέρει είναι να κάνουμε συσχετίσεις. Εν συνεχεία κάνουμε κλικ στου κουμπί "Choose" και επιλέγουμε τον αλγόριθμο Apriori. Όπως είχαμε επισημάνει και στο θεωρητικό μέρος αναφορικά με τους κανόνες συσχέτισης, όταν χρησιμοποιούμε έναν τέτοιου τύπου αλγόριθμο, οφείλουμε ως χρήστες από πριν, να ορίσουμε τα κατώτερα όρια για τα μεγέθη της Υποστήριξης (sup) και της Εμπιστοσύνης (conf). Επιπροσθέτως, πρέπει να ορίσουμε στο WEKA το πλήθος των κανόνων που θέλουμε να μας εξάγει. Σε αυτό το κομμάτι οφείλουμε να είμαστε προσεκτικοί, δεδομένου ότι με ένα πολύ μικρό πλήθος κανόνων δεν βγάζουμε πολλά συμπεράσματα, αλλά και με ένα πολύ μεγάλο πλήθος, θα προκύψουν κανόνες άσχετοι ή που δεν βγάζουν νόημα. Για να μπορέσουμε να ορίσουμε τις παραπάνω παραμέτρους, αφού έχουμε επιλέξει τον Apriori, κάνουμε διπλό κλικ πάνω στην ονομασία του και εμφανίζεται το παρακάτω panel: Εικόνα 14 - Εξαγωγή Κανόνων Συσχέτισης με τον Apriori - Βήμα 2o 49

Σε αυτό το παράθυρο παραμέτρων του Apriori, εμφανίζονται κάποιες επιλογές, ορισμένες από τις οποίες είναι η ελάχιστη υποστήριξη (min support) "upperboundminsupport" με προεπιλεγμένη τιμή "1.0", δηλαδή το 100% των στοιχείων των δεδομένων. Η υποστήριξη μειώνεται με βήμα 5% (delta=0.05) έως ότου είτε βρεθούν 10 κανόνες (numrules=10) με απαιτούμενη ελάχιστη εμπιστοσύνη (minimum confidence) 90% (minmetric=0.9) είτε η ελάχιστη υποστήριξη φτάσει σε ένα κάτω όριο 10% (lowerboundminsupport = 0.1). Υπάρχουν τέσσερεις διαφορετικοί τύπου μετρικής (Confidence, Lift, Leverage, Conviction) εξ ορισμού χρησιμοποιείται η metrictype=confidence. Τέλος, εάν επιλέξουμε outputitemsets = Τrue τότε εμφανίζονται όλα τα στοιχειοσύνολα μαζί με το πλήθος εμφάνισής τους στο σύνολο των δεδομένων. Επειδή ο Apriori είναι ένας αλγόριθμος που λειτουργεί χωρίς επίβλεψη και η έξοδος είναι άγνωστοι, δεν μπορούσαμε να εισάγουμε αρχείο με όλα τα instances κανείς δε θα μπορούσε να εγγυηθεί ότι οι κανόνες του Apriori θα είχαν την επιθυμητή έξοδο, που στην περίπτωσή μας είναι η ύπαρξη ή όχι αυτισμού. Για το λόγο αυτό φιλτράρουμε τα.arff αρχεία που χρησιμοποιήσαμε στον ID3 κατά τέτοιο τρόπο, ώστε τα instances να έχουν ένα attribute Που η τιμή του θα είναι η ίδια για κάθε instance, άρα το.arff σπάει σε αρχεία, σε ένα με τιμή 1 και σε ένα άλλο με τιμή 2. Πειράζοντας τις παραπάνω παραμέτρους κάνουμε κλικ στο κουμπί "Start" για να ξεκινήσει η διαδικασία παραγωγής των κανόνων. Το αποτέλεσμα φαίνεται στην παρακάτω εικόνα: Εικόνα 15 Αποτελέσματα του Apriori 50

Όπως βλέπουμε στην παραπάνω εικόνα, ο Apriori έχει εξάγει αρκετούς κανόνες, σύμφωνα με τις παραμέτρους που ζητήσαμε. Με το βήμα για την αλλοίωση της Υποστήριξης που ορίσαμε, βλέπουμε πως κάθε κανόνας επιβάλλεται να έχει κατώτερο όριο Εμπιστοσύνης 75%, ενώ ο αλγόριθμος πραγματοποίησε σε ολόκληρη τη Βάση Γνώσης συνολικά πέντε (5) περάσματα. Ας πάμε, όμως, να ερμηνεύσουμε τους 8 πιο δυνατούς κανόνες που πήραμε από τον Apriori. Κανόνας 1: Όταν ένα παιδί δεν απαγγέλει αποσπάσματα από ταινίες σε υπερβολικό βαθμό" και δεν έχει εξαιρετικό καλλιτεχνικό ή μουσικό ταλέντο τότε είναι αυτιστικό Κανόνας 2: Όταν ένα παιδί δεν έχει εξαιρετικό καλλιτεχνικό ή μουσικό ταλέντο και δεν είναι υπερβολικά καχύποπτο/η, τότε είναι αυτιστικό Κανόνας 3: Όταν ένα παιδί προτιμά να κάνει πράγματα με τον ίδιο τρόπο ξανά και ξανά και δεν απαγγέλει αποσπάσματα από ταινίες σε υπερβολικό βαθμό τότε είναι αυτιστικό Κανόνας 4: Όταν ένα παιδί προτιμά να κάνει πράγματα με τον ίδιο τρόπο ξανά και ξανά και δεν έχει εξαιρετικό καλλιτεχνικό ή μουσικό ταλέντο τότε είναι αυτιστικό Κανόνας 5: Όταν ένα παιδί προτιμά να κάνει πράγματα με τον ίδιο τρόπο ξανά και ξανά και δεν είναι υπερβολικά καχύποπτο/η, τότε είναι αυτιστικό Κανόνας 6: Όταν ένα παιδί δεν απολαμβάνει την κοινωνική κουβέντα συζήτηση και δεν είναι υπερβολικά καχύποπτο/η, τότε είναι αυτιστικό Κανόνας 7: Όταν ένα παιδί δεν κρατά το φαγητό στο στόμα χωρίς να το καταπίνει δεν απαγγέλει αποσπάσματα από ταινίες σε υπερβολικό βαθμό τότε είναι αυτιστικό Κανόνας 8: Όταν ένα παιδί δεν απαγγέλει αποσπάσματα από ταινίες σε υπερβολικό βαθμό και δεν είναι υπερβολικά καχύποπτο/η,τότε είναι αυτιστικό Να επισημάνουμε σε αυτό το σημείο εκ νέου, πως αυτοί οι κανόνες προέκυψαν, άσχετα με το αν τελικά ένα παιδί διαγνώστηκε ως αυτιστικό ή όχι. Επομένως, μιλάμε για κανόνες που μπορεί να βγάζουν νόημα και πιθανώς να φανούν χρήσιμοι σε ένα ευρύτερο πλαίσιο αναφορικά με την ανατροφή των παιδιών, ασχέτως αν αυτά είναι αυτιστικά ή όχι. 51

3.6 Ο ID3 για παιδιά ηλικίας 0-4 Όπως ήδη έχει αναφερθεί, για παιδιά ηλικίας 0-4 χρησιμοποιήθηκαν επίσης τρία πακέτα ερωτήσεων και διαφοροποιούνται κατά ένα σε σχέση με τα παιδιά ηλικίας 4-11. Τα πακέτα είναι τα CASD, MCHAT και CSBS-DP Ακολουθώντας την ίδια διαδικασία του κεφαλαίου 3.2 κάναμε την απαραίτητη προεπεξεργασία, ενώ εδώ οι ερωτήσεις είχαν τις εξής επιλογές απαντήσεων Για το πρώτο πακέτο ερωτήσεων CASD (Q1-Q75): Όχι 0 Ναι 1 Για τo δεύτερο πακέτο ερωτήσεων MCHAT (Q80-Q103): Όχι 0 Ναι 1 Για τo τρίτο πακέτο ερωτήσεων CSBS-DP (Q104-Q128): Όχι ακόμα 0 Μερικές φορές 1 Συχνά 2 Καμία 0 1-2 1 3-4 2 5-8 3 Πάνω από 8 4 1-3 1 4-10 2 11-30 3 >30 4 5 3 Στη συνέχεια ακολουθήσαμε τα ίδια βήματα του κεφαλαίου 3.4 προκειμένου να εξάγουμε μέσω του ID3 κάποιους κανόνες και ιδιότητες, οι οποίες είναι αυτές που παίζουν και το σημαντικό ρόλο στη μείωση του πλήθους των ερωτήσεων στα ερωτηματολόγια. Σε αυτό το σημείο να παρατηρηθεί ότι τα ερωτηματολόγια που είχαν συγκεντρωθεί είναι σχετικά λίγα, ειδικά με περιπτώσεις αυτισμού, οπότε σε 52

μία μελλοντική επανάληψη κατηγοριοποίησης θα εμφανιστούν πιθανώς καλύτερα αποτελέσματα. Τα Δέντρα Απόφασης που προέκυψαν για το κάθε πακέτο ερωτήσεων φαίνονται παρακάτω με τις αντίστοιχες ιδιότητες (attributes). Εικόνα 16 Δέντρο Απόφασης για CASD Q1-Q79 Από αυτό το Δέντρο Απόφασης προκύπτει οι εξής ιδιότητα (attribute): Q6: (CASD): Υπερβολικά άκαμπτο παιγνίδι με τους συνομήλικους (καθορίζει το παιγνίδι ανάλογα με τους δικούς του/της ιδιόρρυθμους κανόνες και επαναλαμβανόμενα ενδιαφέροντα). και βλέπουμε δύο κανόνες: 1. Αν είναι υπερβολικά άκαμπτο παιγνίδι με τους συνομήλικους (καθορίζει το παιγνίδι ανάλογα με τους δικούς του/της ιδιόρρυθμους κανόνες και επαναλαμβανόμενα ενδιαφέροντα)., τότε είναι αυτιστικό. 2. Αν δεν είναι υπερβολικά άκαμπτο παιγνίδι με τους συνομήλικους (καθορίζει το παιγνίδι ανάλογα με τους δικούς του/της ιδιόρρυθμους κανόνες και επαναλαμβανόμενα ενδιαφέροντα), τότε είναι αυτιστικό. 53

Εικόνα 17 Δέντρο Απόφασης για MCHAT Q80-Q103 Από αυτό το Δέντρο Απόφασης προκύπτει οι εξής ιδιότητα (attribute): Q102: (MCHAT): Μήπως κάποτε κοιτάει στο κενό ή φαίνεται αφηρημένο χωρίς κανένα λόγο; και βλέπουμε δύο κανόνες: 1. Αν κάποτε κοιτάει στο κενό ή φαίνεται αφηρημένο χωρίς κανένα λόγο τότε είναι αυτιστικό. 2. Αν δεν είναι υπερβολικά άκαμπτο παιγνίδι με τους συνομήλικους (καθορίζει το παιγνίδι ανάλογα με τους δικούς του/της ιδιόρρυθμους κανόνες και επαναλαμβανόμενα ενδιαφέροντα), τότε δεν είναι αυτιστικό. 54

Εικόνα 18 Δέντρο Απόφασης για CSBS-DP Q104-127 Από αυτό το Δέντρο Απόφασης προκύπτουν οι εξής ιδιότητες (attributes): Q114: (MCHAT): Κουνάει το παιδί σας το χέρι του για να χαιρετήσει? Q107: (MCHAT): Κοιτάζει το παιδί σας κάποιο παιχνίδι που του δείχνετε στην άλλη άκρη του δωματίου? και βλέπουμε πέντε κανόνες: 1. Αν κουνάει το παιδί σας το χέρι του για να χαιρετήσει μερικές φορές τότε είναι αυτιστικό. 2. Αν το παιδί σας δεν κουνάει ακόμα το χέρι του για να χαιρετήσει και συχνά κοιτάζει το παιδί κάποιο παιχνίδι που του δείχνετε στην άλλη άκρη του δωματίου τότε είναι αυτιστικό. 3. Αν το παιδί σας δεν κουνάει ακόμα το χέρι του για να χαιρετήσει και μερικές φορές κοιτάζει το παιδί κάποιο παιχνίδι που του δείχνετε στην άλλη άκρη του δωματίου τότε είναι αυτιστικό 4. Αν το παιδί σας δεν κουνάει ακόμα το χέρι του για να χαιρετήσει και ακόμα δεν κοιτάζει κάποιο παιχνίδι που του δείχνετε στην άλλη άκρη του δωματίου τότε δεν είναι αυτιστικό 5. Αν κουνάει το παιδί σας το χέρι του για να χαιρετήσει συχνά τότε δεν είναι αυτιστικό. 55

Οι ιδιότητες που θα κρατήσουμε προφανώς είναι αυτές που προέκυψαν και από τρία Δέντρα Απόφασης. 3.7 Apriori για παιδιά ηλικίας 0-4 Για αυτά τα πακέτα ερωτήσεων λειτουργήσαμε λίγο διαφορετικά σε σχέση με αυτόν του προηγούμενου πακέτου. Κρατήσαμε τις ιδιότητες από τους κανόνες που βγάλαμε στον ID3 και αφού αφαιρέσαμε τις υπόλοιπες τρέξαμε τον Apriori. Εικόνα 19 Αποτελέσματα Apriori 0-4 Εδώ μπορούμε να δούμε κάποιους κανόνες που σχετίζονται με τις περιπτώσεις που δεν υπάρχει αυτισμός. Αυτό συμβαίνει γιατί οι περιπτώσεις των απαντημένων ερωτηματολογίων με παιδιά που δεν έχουν αυτισμό είναι περισσότερες σε σχέση με αυτά που έχουν. Από το τρέξιμο που κάναμε προέκυψε ένας σημαντικός κανόνας με ιδιότητες που σχετίζονται μεταξύ τους και επιβεβαιώνουν τον ID3: Όταν δεν είναι υπερβολικά άκαμπτο παιγνίδι με τους συνομήλικους, δεν κοιτάει στο κενό ή φαίνεται αφηρημένο χωρίς κανένα λόγο και κουνάει το παιδί το χέρι του για να χαιρετήσει, τότε δεν είναι αυτιστικό. Ελέγθηκε η αξιοπιστία του περιορισμένου αριθμού των κανόνων που βγάλαμε σε σχέση με τα αρχικά πλήρη ερωτηματολόγια με βάση ένα σύνολο ελέγχου 56

από συμπληρωμένα ερωτηματολόγια και η αξιοπιστία βρέθηκε σε όλες τις περιπτώσεις πάνω από 95%. Κεφάλαιο 4ο 4.1 Σύγκριση μεταξύ των δυο αλγορίθμων και Συμπεράσματα Η πειραματική χρήση των δυο αλγορίθμων ID3 και Apriori ανέδειξε τα πλεονεκτήματα, αλλά και τα μειονεκτήματα του κάθε αλγορίθμου ξεχωριστά. Παρατηρήσαμε ότι μπορεί σαφέστατα ο ένας αλγόριθμος να λειτουργήσει συμπληρωματικά σε σχέση με τον άλλο, αλλά, στην αντίπερα όχθη, παρατηρήσαμε και αντικρουόμενες καταστάσεις ανάμεσα στους τρεις αλγόριθμους. Αυτό το φαινόμενο δεν παρατηρείται ούτε στον ID3, ούτε στον Apriori για τους οποίους, αν δεν πειραχτούν οι αρχικές παράμετροί τους, όσες φορές και να τους εκτελέσουμε πάντοτε το ίδιο αποτέλεσμα θα μας δίνουν. Όσον αφορά τον ID3, εδώ ορισμένα πράγματα είναι σαφώς πιο ξεκάθαρα. Επειδή ο συγκεκριμένος αλγόριθμος εντάσσεται σε αυτούς της Μηχανικής Μάθησης με Επιτήρηση και άρα η έξοδος του αλγορίθμου είναι ήδη γνωστή και καθοδηγούμενη από τον χρήστη (Aftismos), τότε μία και μόνο απάντηση γονέα που απειροελάχιστα διαφοροποιείται από τις υπόλοιπες ενός υποσυνόλου τίθεται αυτομάτως εκτός του κανόνα και απαλείφεται. Έτσι ερμηνεύεται και η εφαρμογή ενός τόσο μεγάλου "κλαδέματος" που έλαβε χώρα στο Δέντρο (97% των ιδιοτήτων δεν υπήρχαν στο δέντρο). Η παράμετρος με την οποία επιβάλλεται ο χρήστης να πειραματιστεί αρκετά αναφορικά με τον ID3, είναι το πλήθος των περιστατικών (instances). Θα αποδείξουμε πόσο σημαντικά ενισχύεται η αξιοπιστία ενός Δέντρου Απόφασης που προκύπτει από τον ID3 (J48) παραθέτοντας το παρακάτω παράδειγμα: Από τα "σπλάχνα" του βασικού μας αρχείου με τα 135 περιστατικά, δημιουργήσαμε ένα νέο αρχείο όπου διατηρήσαμε μόνο τα πρώτα δεκατρία (13) από αυτά και τα υπόλοιπα τα διαγράψαμε. Φορτώσαμε το εν λόγω αρχείο στο WEKA και ζητήσαμε από τον J48 να μας φτιάξει το Δέντρο Απόφασης. Αυτό είχε ως αποτέλεσμα το Δέντρο Απόφασης να μας εμφανίσει μόνο μία ιδιότητα η οποία επηρεάζει το αποτέλεσμα του αν ένα παιδί είναι αυτιστικό ή όχι. Προκύπτει, παρόλα αυτά, συγκρίνοντας αυτό το Δέντρο με το αντίστοιχο των 135 instances το εξής συμπέρασμα: "Το πλήθος των ιδιοτήτων που καθορίζουν το αν ένα παιδί είναι αυτιστικό, αυξάνεται με την αύξηση του πλήθους των γονέων που απαντούν στο ερωτηματολόγιο". Επαγωγικά, λοιπόν, σκεπτόμενοι, καταλήγουμε στο συμπέρασμα πως είναι πολύ πιθανό 57

το ενδεχόμενο, αν βάζαμε για παράδειγμα 500 γονείς να απαντήσουν σε αυτές τις ερωτήσεις να είχαμε ένα νέο δέντρο που θα περιελάμβανε περισσότερα attributes στους κανόνες του. Αυτός είναι και ο λόγος που θεωρούμε πως το σύστημα "εκπαιδεύεται" μέσα από τα instances, και όσο περισσότερα του βάζουμε, τόσο γίνεται πιο έμπειρο, "εκπαιδεύεται", "επαναπροσδιορίζεται". Όσον αφορά τον Apriori, εδώ οι στόχοι και τα κριτήρια είναι εντελώς διαφορετικά. Στον Apriori δεν μας απασχόλησε καμία στιγμή αν σε ένα στοιχειοσύνολο υπάρχει η παράμετρος "Aftismos", δηλαδή εάν η περίπτωση που εξετάζουμε απευθύνεται σε ένα παιδί αυτιστικό ή όχι. Θα μπορούσε, βέβαια, η ιδιότητα αυτή να εμφανιστεί στα αποτελέσματα των δέκα κανόνων που εξήχθησαν, αλλά για να γίνει αυτό, θα έπρεπε η μεταβλητή του αυτισμού να συσχετίζει με ισχυρές μετρικές Εμπιστοσύνης και Υποστήριξης με κάποιο άλλο attribute κάτι το οποίο δε συμβαίνει. Αυτό το γνωρίζουμε, γιατί στην περίπτωση του ID3 δεν παρατηρείται ιδιότητα που από μόνη της και χωρίς να χρειάζεται να εξεταστεί καμία άλλη μαζί με αυτήν, να οδηγεί απευθείας σε συμπέρασμα σχετικά με το αυτιστικό παιδί. Ένα πείραμα που πραγματοποιήσαμε, ήταν με σκοπό να προσπαθήσουμε να "αμφισβητήσουμε" τον ID3 μέσω του Apriori. Η μέθοδος που σκεφτήκαμε ήταν η εξής: Δημιουργούμε ένα νέο.arff αρχείο από τα "σπλάχνα" του πρωτότυπου, διαγράφοντας όλες τις περιπτώσεις των παιδιών στα οποία δεν έχει διαγνωστεί αυτισμός, δηλαδή όλα τα instances που για την τιμή "Aftismos" φέρουν την τιμή "No". Αποτέλεσμα αυτού, είναι να μείνουν στο αρχείο μας instances που όλα τους αφορούν αυτιστικά παιδιά. Επομένως, αν αναθέσουμε στον Apriori να ανακαλύψει συσχετίσεις σε αυτά τα instances είμαστε βέβαιοι πως οι συσχετίσεις αυτές θα αφορούν απαντήσεις γονέων που το παιδί τους έχει χαρακτηριστεί ιατρικά αυτιστικό. Θέτοντας το κατώτερο όριο εμπιστοσύνης στο 100%, θέλουμε να δούμε αν στους κανόνες που θα εξάγει ο Apriori υπάρχει κάποιο Attribute που απαντάται στο Δέντρο Απόφασης του ID3. Αν αυτό το Attribute συσχετίζεται με 100% εμπιστοσύνη με ένα άλλο Attribute που δεν υπάρχει στο δέντρο, τότε κακώς το Attribute αυτό δεν είχε συμπεριληφθεί στο Δέντρο εξαρχής, ή, εν πάση περιπτώσει πρόκειται για έλλειψη πληροφορίας που χαρακτηρίζει το Δέντρο Απόφασης του ID3. Ζητήσαμε από τον Apriori να εξάγει μόνο πέντε (5) κανόνες. Το αποτέλεσμα που πήραμε ήταν να εξαχθούν κανόνες που δεν έβγαζαν κάποιο λογικό συμπέρασμα. Οπότε, εξάγαμε πέντε κανόνες οι οποίοι, όχι μόνο δεν εξέθεσαν τον ID3, αλλά που κανείς τους δεν βγάζει νόημα. Σε αυτό φταίει η δειγματοληψία των περιστατικών που συμπεριλάβαμε στο αρχείο. Το σύστημα "εκπαιδεύτηκε" 58

μόνο με περιστατικά αυτιστικών παιδιών, σαν να είναι αυτή η γενική πραγματικότητα που χαρακτηρίζει ένα παιδί (!) και αυτός είναι ο λόγος που οι κανόνες που εξήγαγε είναι παράλογοι, χωρίς νόημα και άρα άχρηστοι. Αυτός, άλλωστε, είναι και ο λόγος που δεν δοκιμάσαμε τον αλγόριθμο και για περισσότερους από πέντε κανόνες. Επομένως, σχετικά με τον Apriori, συνειδητοποιούμε πως σε καμία περίπτωση δεν μπορούμε στον αλγόριθμο αυτό να έχουμε τυφλή εμπιστοσύνη. Μπορούμε, όμως, να προβληματιστούμε με ευεργετικά αποτελέσματα με την προϋπόθεση ότι έχουμε εισάγει μία πληθωρική Βάση Γνώσης προς διερεύνηση κανόνων συσχέτισης και πως έχουμε θέσει αυστηρά κατώτατα όρια για τα μεγέθη της Υποστήριξης και της Εμπιστοσύνης. Ο λόγος που επιβάλλεται να πάρουμε τα συγκεκριμένα μέτρα είναι για να μειώσουμε όσο γίνεται τις πιθανότητες ο αλγόριθμος να μας εξάγει κανόνες οι οποίοι δεν βγάζουν νόημα (π.χ. " Αν το παιδί αντιδρά σε αυτά που λένε αυτοί που συνομιλεί, τότε είναι αυτιστικό") 4.2 Αξιολόγηση Όπως έχουμε δει μέχρι τώρα, αυτό που χαρακτηρίζει και τους δυο αλγόριθμους (ID3, Apriori) είναι η εξαγωγή κανόνων. Αυτό που επιβάλλεται να γίνει από τη στιγμή που ο χρήστης εξάγει κάποιους κανόνες μέσα από αλγόριθμους εξόρυξης γνώσης όπως αυτοί στην εργασία μας, είναι η αξιολόγηση των κανόνων. Για να γίνει, όμως, κάτι τέτοιο θα πρέπει οι κανόνες που έχουν εξαχθεί να συνταχθούν σε μορφή προγραμματιστικού κώδικα, όπου αυτός ο κώδικας θα είναι η ραχοκοκαλιά ενός ολοκληρωμένου έμπειρου συστήματος. Παρόλο που για τις ανάγκες αυτής της διπλωματικής εργασίες δεν χρειάστηκε η δημιουργία τέτοιου συστήματος, εντούτοις οφείλουμε να αναφέρουμε σε αυτήν την ενότητα τις μετρικές αξιολόγησης που διέπουν την αξιολόγηση αυτών των συστημάτων, αφού, ουσιαστικά, αυτό που αξιολογείται είναι οι κανόνες που έχουμε ήδη εξάγει με κάθε αλγόριθμο ξεχωριστά. Θα πρέπει να τονίσουμε εδώ πως κάθε αλγόριθμος εξάγει μία συγκεκριμένη κατηγορία κανόνων που μεταξύ τους δεν έχουν καμία σχέση. Ο ID3, για παράδειγμα εξάγει κανόνες που αυτοί είναι που καθορίζουν την τελική τιμή της τελικής εξόδου, δεδομένου ότι εφόσον πρόκειται για αλγόριθμο επιτηρούμενης μάθησης, η μεταβλητή εξόδου και οι πιθανές τιμές της είναι πράγματα εξαρχής γνωστά. Αντιθέτως, ο Apriori, εξάγει κανόνες συσχέτισης, δηλαδή ουσιαστικά παρουσιάζει κάποιες ιδιότητες (attributes) οι οποίες εμφανίζονται μαζί με κάποιες άλλες για ένα σημαντικό αριθμό περιστατικών (instances). Εδώ η έξοδος του αλγόριθμου δεν είναι εξαρχής γνωστή. Ένα 59

περιβάλλον που προσφέρει δυνατότητες για προγραμματισμό με κανόνες είναι το CLIPS (C Language Integrated Production System). Η πρώτη έκδοσή του ήταν έτοιμη το1985 και για την ανάπτυξή του χρησιμοποιήθηκε η γλώσσα C, με σκοπό το τελικό προϊόν να είναι συμβατό με όλα τα γνωστά λειτουργικά συστήματα (Dos, Windows, Unix κτλ). Πρόκειται για ένα διερμηνευόμενο τυπικό σύστημα παραγωγής, το οποίο υποστηρίζει την ορθή ακολουθία εκτέλεσης και τα κύρια μέρη του είναι: 1. Η λίστα γεγονότων, η οποία αντιστοιχεί στη μνήμη εργασίας των συστημάτων παραγωγής. Είναι ο χώρος στον οποίο αποθηκεύονται τα γεγονότα (facts), τόσο εκείνα που ορίζονται κατά την εκκίνηση του συστήματος, όσο και εκείνα που δημιουργούνται κατά την εκτέλεσή του 2. Η βάση κανόνων, όπου περιέχονται οι κανόνες 3. Ο μηχανισμός εξαγωγής συμπερασμάτων, ο οποίος ελέγχει τη λειτουργία ολόκληρου του συστήματος. Ο μηχανισμός αυτός προσφέρει ένα πλήθος από στρατηγικές επίλυσης συγκρούσεων για την επιλογή του κανόνα που θα πυροδοτηθεί. Το σύνολο των υποψήφιων κανόνων για πυροδότηση αποτελεί το σύνολο σύγκρουσης ή την ατζέντα του συστήματος Επομένως, πρόγραμμα στο CLIPS είναι σύνολο από κανόνες και γεγονότα και η εκτέλεσή του συνίσταται σε μία ακολουθία από πυροδοτήσεις κανόνων, των οποίων οι συνθήκες ικανοποιούνται. Σε ένα τέτοιο περιβάλλον, έστω ότι έχουμε ένα έμπειρο σύστημα, το οποίο απευθύνει κάποιες ερωτήσεις στους γονείς των παιδιών. Ας πάρουμε για παράδειγμα τον αλγόριθμο ID3 και τους κανόνες που πήραμε από το Δέντρο Απόφασης που εξήγαγε ο αλγόριθμος στο παράδειγμά μας. Οι ερωτήσεις, συνεπώς, που θα τεθούν στους γονείς θα πρέπει να είναι διαμορφωμένες με τέτοιον τρόπο, ώστε να είναι σαν να διαβάζουμε από πάνω προς τα κάτω το Δέντρο. Αυτές οι ερωτήσεις θα μπορούσαν να είναι π.χ.: Παρακολουθεί το παιδί σας τις ίδιες ταινίες ξανά και ξανά; Έχει ασυνήθιστα εξαιρετικό λεξιλόγιο για την ηλικία του; Μοιράζεται τα αντικείμενα και τα συναισθήματά του με άλλους; Προσέχει λεπτομέρειες που οι άλλοι δεν προσέχουν; Περπατάει συνεχώς στις μύτες των ποδιών του; 60

Οι γονείς, αντίστοιχα, απαντούν σε αυτές τις ερωτήσεις με τον προκαθορισμένο τρόπο που έχουμε αναλύσει σε προηγούμενη ενότητα. Αφού ο εκάστοτε γονέας απαντήσει σε όλες τις ερωτήσεις, το έμπειρο σύστημα εξάγει ένα κείμενος συμπεράσματος μέσα από το οποίο αποφαίνεται για το αν το παιδί του γονέα είναι αυτιστικό ή όχι. Για να αξιολογήσουμε το σύστημά μας και άρα τους κανόνες που το διέπουν τους οποίους οι αλγόριθμοι που χρησιμοποιήσαμε στο WEKA εξάγανε, πρέπει να το δοκιμάσουμε για μία νέα γκάμα γονέων, διαφορετικών από αυτούς που έχουμε συμπεριλάβει τις απαντήσεις τους στο ερωτηματολόγιο που σχεδιάσαμε. Στη συνέχεια, συγκρίνουμε τις αποφάσεις του έμπειρου συστήματος με τη διάγνωση του ιατρού για κάθε παιδί ξεχωριστά. Μέσα από αυτή τη διαδικασία δοκιμάζεται η αξιοπιστία των κανόνων μας. Υπάρχουν δύο βασικές μετρικές (μεγέθη) που χρησιμοποιούμε: Η Ευαισθησία (Sensitivity) Η Ειδικότητα (Specificity) Τι εκφράζει όμως κάθε ένα από τα δύο μεγέθη; Για να βοηθηθούμε παραθέτουμε την παρακάτω εικόνα: Εικόνα 20 - Μετρικές Αξιολόγησης Κανόνων Έμπειρου Συστήματος 61