ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Transcript

1 ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) Των σπουδαστών Σκλαβενίτης Αργύρης (Α.Μ. 535) Στασινός Δημήτρης (Α.Μ. 490) Επιβλέπων Καθηγητής: Γεωργούλας Γεώργιος \ Κατσής Χρήστος ΛΕΥΚΑΔΑ 2009

2 2 Ευχαριστίες Κατά τη διάρκεια της υλοποίησης αυτής της πτυχιακής εργασίας μας δόθηκε η ευκαιρία να αποκτήσουμε νέες γνώσεις και ιδέες σε μια περιοχή αρκετά εξελισσόμενη, αυτή της Εξόρυξης Δεδομένων. Για αυτό το λόγο θα θέλαμε να ευχαριστήσουμε τους ανθρώπους που μας βοήθησαν σε αυτή την προσπάθεια. Αρχικά, θα θέλαμε να ευχαριστήσουμε τους επιβλέποντες καθηγητές μας, για τις ουσιαστικές κατευθύνσεις και πολύτιμες συμβουλές που μας έδωσαν κατά τη διάρκεια της εργασίας. Επίσης, τους ευχαριστούμε για την καλή συνεργασία που είχαμε στη διάρκεια εκπόνησης της εργασίας, για τη βοήθεια που μας έδωσαν όποτε τους τη ζητήσαμε και για το ότι μας έδωσαν την ευκαιρία να ασχοληθούμε με αυτόν τον ενδιαφέρον τομέα της Εξόρυξης Δεδομένων. Επίσης, θέλουμε να ευχαριστήσουμε όσους καθηγητής ήταν πρόθυμοι να μας βοηθήσουν όταν τους χρειαζόμασταν, όπως επίσης την βιβλιοθήκη και την γραμματεία του τμήματος ΕΠΔΟ στη Λευκάδα για την εξυπηρέτηση που μας παρείχαν. Το έργο μας θα ήταν πολύ πιο δύσκολο και ίσως να μην το φέρναμε εις πέρας, χωρίς την βοήθεια κάποιων από αυτών. Τέλος, θέλουμε να ευχαριστήσουμε τους γονείς μας, οι οποίοι αν και δεν χρειάστηκε να κάνουν κάτι για αυτή την εργασία, ήταν δίπλα μας με την στήριξη τους και σε αυτή την προσπάθεια, όπως και σε όλη την διάρκεια των σπουδών μας και όπως θα είναι και σε όλη μας τη ζωή.

3 3 Περίληψη Οι περισσότερες εταιρείες σήμερα, με τη βοήθεια των εργαλείων της Πληροφορικής, συλλέγουν και αποθηκεύουν τεράστιο όγκο δεδομένων. Οι βάσεις δεδομένων φθάνουν σε μέγεθος μέχρι και το ένα terabyte και μέσα στους όγκους αυτών των δεδομένων κρύβονται πληροφορίες. Ο λόγος για το φαινόμενο αυτό είναι η τεράστια ανάπτυξη της πληροφορικής. Σήμερα η τεχνολογία προσφέρει τεράστιες δυνατότητες αποθήκευσης και ισχυρούς υπολογιστές με πολλαπλούς επεξεργαστές (multiprocessors) σε πολύ χαμηλές τιμές. Η πρόκληση που αντιμετωπίζουν σήμερα οι περισσότερες εταιρείες είναι όχι πώς να συλλέξουν και να αποθηκεύσουν επαρκείς όγκους πληροφοριών, αλλά πώς να βγάλουν συμπεράσματα που να έχουν νόημα και σημασία από αυτές τις μάζες στοιχείων. Η απάντηση στην πρόκληση αυτή δίδεται από την Εξόρυξη Δεδομένων με την οποία πρόκειται να ασχοληθούμε σε αυτή την εργασία. Πιο γενικά η δομή αυτής της εργασίας είναι διαρθρωμένη ως εξής: Η Εισαγωγή περιγράφει αυτή την επιστήμη που καλείται Εξόρυξη Δεδομένων στο πώς έχει εξελιχθεί στο χρόνο και πόσο χρήσιμη είναι. Στο κεφάλαιο 1 περιγράφεται αναλυτικότερα το πρόβλημα της Εξόρυξης Γνώσης από δεδομένα και καλύπτονται οι βασικές αρχές και εφαρμογές της. Στο κεφάλαιο 2 γίνεται μια αναφορά στο ζήτημα της κατηγοριοποίησης, το οποίο εμφανίζετε σε πολλά ερευνητικά πεδία της πληροφορικής και παρουσιάζονται κάποια εισαγωγικά θέματα γύρω από την έννοιά της. Στο κεφάλαιο 3 παρουσιάζονται κάποιοι από τους γνωστούς αλγόριθμους που χρησιμοποιούνται για την επίλυση προβλημάτων κατηγοριοποίησης. Στο κεφάλαιο 4 γίνεται μια αναφορά στα νευρωνικά δίκτυα και τους νευρώνες από τους οποίους αποτελούνται καθώς παρουσιάζεται η δομή ενός δικτύου, ο τρόπος λειτουργίας του και ο τρόπος εκπαίδευσής του. Τέλος στο κεφάλαιο 5 περιγράφετε η πειραματική μελέτη της εργασίας όπου παρουσιάζονται οι διαδικασίες, τα αποτελέσματα και τα τελικά συμπεράσματα που βγήκαν.

4 4 Περιεχόμενα Εισαγωγή Κεφάλαιο Πρώτο 1. Εξόρυξη Γνώσης από Δεδομένα Εισαγωγή Βασικές Έννοιες Η Ανακάλυψη Γνώσης από Βάσεις Δεδομένων ως Διαδικασία Τα Συστήματα Εξόρυξης Δεδομένων Στοιχεία της Εξόρυξης Δεδομένων Απαιτήσεις του Data Mining Κατηγοριοποίηση των Τεχνικών Data Mining Βασικές Διεργασίες Data Mining Κατηγοριοποίηση (Classification) Ομαδοποίηση (Clustering) Εξόρυξη Κανόνων Συσχέτισης (Association Rules Mining) Εξόρυξη Ακολουθιακών Προτύπων (Sequential Pattern Mining) Εκτίμηση και πρόβλεψη (Estimation & Prediction) Παλινδρόμηση (Regression) Σύνοψη (Summarization) Προσδιορισμός Αλλαγής και Απόκλισης (Change and Deviation Detection) Σύγχρονες Τάσεις Τεχνολογιών και Μεθόδων στην Εξόρυξη Δεδομένων Κατανεμημένη Εξόρυξη Δεδομένων Πανταχού Παρούσα Εξόρυξη Δεδομένων (Ubiquitous Data Mining UMD) Εξόρυξη Δεδομένων από Υπερκείμενα/Υπερμέσα (hypertext/ hypermedia data mining) Εξόρυξη Πολυμέσων Δεδομένων (Multimedia Data Mining) Εξόρυξη Δεδομένων από Χωρικές και Γεωγραφικές Βάσεις Δεδομένων (Spatial and Geographic data mining)... 36

5 Εξόρυξη Ακολουθιακών/Χρονικών Δεδομένων (Time series/sequence data mining) Εξόρυξη Δεδομένων Βασισμένη σε Περιορισμούς (constraint-based data mining) Φαινομενική Εξόρυξη Δεδομένων (Phenomenal data mining) Κεφάλαιο Δεύτερο 2. Κατηγοριοποίηση Εισαγωγή στην Κατηγοριοποίηση Καθάρισμα Δεδομένων Απόδοση της Κατηγοριοποίησης Βάσεις Δεδομένων και Μηχανική Μάθηση Παραδείγματα Εφαρμογών Κατηγοριοποίησης Κεφάλαιο Τρίτο 3. Αλγόριθμοι Κατηγοριοποίησης Εισαγωγή στους Αλγόριθμους Κατηγοριοποίησης Αλγόριθμοι Βασισμένοι στην Aπόσταση Απλή προσέγγιση Κ Κοντινότεροι Γείτονες Αλγόριθμοι Κατηγοριοποίησης Στατιστικής Bayesian Κατηγοριοποίηση Παλινδρόμηση Αλγόριθμοι Κατηγοριοποίησης Δένδρων Αποφάσεων Ο Αλγόριθμος ID Ο Αλγόριθμος C4.5 και C Κεφάλαιο Τέταρτο 4. Νευρωνικά Δίκτυα Τι είναι τα Νευρωνικά Δίκτυα Ένα Απλό Νευρωνικό Δίκτυο Μετάδοση του Σήματος μέσα σε ένα Νευρωνικό Δίκτυο Πώς Εκπαιδεύουμε ένα Νευρωνικό Δίκτυο Τα Νευρωνικά Δίκτυα και οι Υπολογιστές Σύγχρονες Εφαρμογές των Νευρωνικών Δικτύων Αλγόριθμοι Κατηγοριοποίησης Νευρωνικών Δικτύων

6 Διάδοση και Μάθηση Νευρωνικά Δίκτυα Perceptron Κεφάλαιο Πέμπτο 5. Πειραματική Μελέτη Πρόβλεψη Εταιρικής Χρεοκοπίας Το Περιβάλλον Προγραμματισμού WEKA Η Δομή των Αρχείων Εισαγωγή δεδομένων - ο «απλοϊκός τρόπος» Εισαγωγή δεδομένων ο «αποδοτικός τρόπος» Το Περιβάλλον Διεπαφής Ξεκινώντας με το Weka Βελτίωση της απόδοσης ενός ταξινομητή Επιλογή χαρακτηριστικών και μείωση της διάστασης Ταξινόμηση με τη χρήση Δέντρου Αποφάσεων Ταξινόμηση με τη χρήση Νευρωνικού Δικτύου Ταξινόμηση με τη χρήση Naive Bayes Ταξινόμηση με τη χρήση K Κοντινότερων Γειτόνων Συμπεράσματα Αναφορές

7 7 Περιεχόμενα Σχημάτων Κεφάλαιο Πρώτο - Εξόρυξη Γνώσης από Δεδομένα Σχήμα 1.1 Μια διαδικασία KDD Σχήμα 1.2 Αρχιτεκτονική ενός τυπικού συστήματος εξόρυξης δεδομένων Κεφάλαιο Δεύτερο - Εισαγωγή στην Κατηγοριοποίηση Σχήμα 2.1 Το πρόβλημα της κατηγοριοποίησης Σχήμα 2.2 Εκτίμηση ακρίβειας χρησιμοποιώντας την μέθοδο της κατακράτησης Σχήμα 2.3 Σύγκριση της απόδοσης της κατηγοριοποίησης με την ανάκτηση πληροφορίας Σχήμα 2.4 Διαδικασία κατηγοριοποίησης. α. Εκπαίδευση, β. κατηγοριοποίηση Κεφάλαιο Τρίτο - Αλγόριθμοι Κατηγοριοποίησης Σχήμα 3.1 Αλγόριθμος απλής προσέγγισης Σχήμα 3.2 Κατηγοριοποίηση χρησιμοποιώντας τον απλό αλγόριθμο απόστασης Σχήμα 3.3 Κατηγοριοποίηση με χρήση ΚΝΝ Σχήμα 3.4 Αλγόριθμος KNN Σχήμα 3.5 Αλγόριθμος διάσχισης δένδρου απόφασης Σχήμα 3.6 Δένδρο απόφασης για τα δεδομένα του πίνακα 3 (κατηγοριοποίηση 2) Σχήμα 3.7 Ισοζυγισμένο δένδρο Σχήμα 3.8 Βαθύ δένδρο Σχήμα 3.9 Θαμπώδες δένδρο Σχήμα 3.10 Δένδρο χωρίς το χαρακτηριστικό «φύλο» Σχήμα 3.11 Γενικός αλγόριθμος κατασκευής δένδρου απόφασης Σχήμα 3.12 Δένδρο απόφασης παραδείγματος Κεφάλαιο Τέταρτο - Νευρωνικά Δίκτυα Σχήμα 4.1 Ένας νευρώνας (ο κύκλος) με πολλές εισόδους (s 1, s 2, s 3,...), αντίστοιχα βάρη (w 1, w 2, w 3,...) και μία έξοδο... 90

8 8 Σχήμα 4.2 Γράφημα από στοιχεία βάσης δεδομένων που αναφέρεται σε δάνεια, από τα οποία άλλα έχουν αποπληρωθεί σύμφωνα με τους όρους του συμβολαίου και μερικά όχι Σχήμα 4.3 Νευρωνικό δίκτυο για τα δεδομένα του πίνακα Σχήμα 4.4 Αλγόριθμος μάθησης νευρωνικού δικτύου Σχήμα 4.5 Απλό Perceptron κατηγοριοποίησης Κεφάλαιο Πέμπτο Πειραματική Μελέτη Σχήμα 5.1 Ένα μέρος από το περιεχόμενο του αρχείου ARFF Σχήμα 5.2 Η σελίδα με τα attributes από το αρχικό αρχείο Excel Σχήμα 5.3 Ένα μέρος της σελίδα με τα δεδομένα από το αρχικό αρχείο Excel Σχήμα 5.4 Ένα μέρος του αρχείου αποθηκευμένο σε CSV format όταν ανοιχτεί στο WordPad Σχήμα 5.5 Το GUI interface Σχήμα 5.6 Η καρτέλα Preprocess Σχήμα 5.7 Απεικόνιση ιστογραμμάτων όλων των attributes επιλέγοντας Visualize all Σχήμα 5.8 Διαγράμματα διασποράς (scatter plots) Σχήμα 5.9 Απεικόνιση ενός scatter plot Σχήμα 5.10 Πεδία για την επιλογή των αλγορίθμων αναζήτησης χαρακτηριστικών Σχήμα 5.11 Επιλογή ταξινομητή κατά την αναζήτηση των καλύτερων χαρακτηριστικών Σχήμα 5.12 Επιλογή της κατεύθυνσης της αναζήτησης Σχήμα 5.13 Τα Επιλογή του ταξινομητή J Σχήμα 5.14 Αποτελέσματα του ταξινομητή J Σχήμα 5.15 Απεικόνιση του δέντρου ταξινόμησης Σχήμα 5.16 Τα συνολικά αποτελέσματα του ταξινομητή J48 (α μέρος) Σχήμα 5.17 Τα συνολικά αποτελέσματα του ταξινομητή J48 (β μέρος) Σχήμα 5.18 Confusion Matrix Σχήμα 5.19 Το μενού επιλογών του Weka Σχήμα 5.20 Επιλογή του ταξινομητή MultilayerPerceptron Σχήμα 5.21 Καθορισμός αριθμού κρυφών νευρώνων

9 9 Σχήμα 5.22 Η γραφική παράσταση του νευρωνικού δικτύου με 10 κρυφούς νευρώνες, βαθμό εκπαίδευσης 0.6, αριθμό επαναλήψεων 500 και χαρακτηριστικά μεθόδου αναζήτησης Forward Σχήμα 5.23 Καρτέλα ταξινομητών του Weka Σχήμα 5.24 Επιλογή του ταξινομητή των k κοντινότερων γειτόνων Σχήμα 5.25 Καθορισμός αριθμού κοντινότερων γειτόνων Σχήμα 5.26 Διάγραμμα αποτελεσμάτων των ταξινομητών του πίνακα

10 10 Περιεχόμενα Πινάκων Κεφάλαιο Δεύτερο - Εισαγωγή στην Κατηγοριοποίηση Πίνακας 1: Μήτρα σύγχυσης Πίνακας 2: Διαφορές Βάσεων Δεδομένων και Μηχανικής Μάθησης Κεφάλαιο Τρίτο - Αλγόριθμοι Κατηγοριοποίησης Πίνακας 3: Πίνακας δεδομένων του παραδείγματος κατηγοριοποίησης ατόμων στις κατηγορίες "κοντός", "ψηλός", "μέτριος" Πίνακας 4: Παράδειγμα Bayesian κατηγοριοποίησης στα δεδομένα του παραδείγματος του ύψους Πίνακας 5: Δεδομένα εκπαίδευσης παραδείγματος Πίνακας 6: Δεδομένα εκπαίδευσης παραδείγματος Κεφάλαιο Τέταρτο - Νευρωνικά Δίκτυα Πίνακας 7: Ομοιότητες και διαφορές μεταξύ των νευρωνικών δικτύων και του υπολογιστή με τη φιλοσοφία του von Neumann Κεφάλαιο Πέμπτο Πειραματική Μελέτη Πίνακας 8: Οικονομικές μεταβλητές και αναλογίες για την πρόβλεψη εταιρικής χρεοκοπίας Πίνακας 9: Τα αποτελεσματα του ταξινομητή MultilayerPerceptron Πίνακας 10: Τα αποτελέσματα του ταξινομητή IBk Πίνακας 11: Τα αποτελέσματα από την καλύτερη προσπάθεια ταξινόμησης κάθε ταξινομητή

11 11 Εισαγωγή Ο όγκος των δεδομένων που φυλάσσονται στα αρχεία και στις βάσεις δεδομένων αυξάνονται με έναν εκπληκτικό ρυθμό. Την ίδια στιγμή, οι χρήστες αυτών των δεδομένων επιζητούν από αυτά πιο εξειδικευμένες πληροφορίες. Πχ. Ένας διευθυντής πωλήσεων δεν είναι πια ικανοποιημένος με μια απλή λίστα από στοιχεία πελατών αλλά θέλει λεπτομερείς πληροφορίες σχετικά με τις προηγούμενες αγορές των πελατών καθώς επίσης και προβλέψεις για τις μελλοντικές αγορές τους. Απλές ερωτήσεις, που μπορούν να εκφραστούν σε μια δομημένη γλώσσα ερωτήσεων (SQL), δεν αρκούν για να υποστηρίξουν αυτές τις αυξανόμενες απαιτήσεις για πληροφορίες. Η εξόρυξη γνώσης από δεδομένα παρεμβαίνει προκειμένου να ικανοποιήσει αυτές τις ανάγκες. Η εξόρυξη γνώσης από δεδομένα (data mining) συχνά ορίζεται σαν η εύρεση πληροφοριών που είναι κρυμμένες σε μια βάση δεδομένων. Εναλλακτικά η εξόρυξη γνώσης από δεδομένα ονομάστηκε εξερευνητική ανάλυση δεδομένων, ανακάλυψη καθοδηγούμενη από δεδομένα και συμπερασματική μάθηση. Η εξόρυξη γνώσης από δεδομένα έχει προσελκύσει πολύ προσοχή στη βιομηχανία πληροφόρησης και στην κοινωνία συνολικά τα τελευταία χρόνια, λόγω της ευρείας διαθεσιμότητας τεράστιων ποσών δεδομένων και της επικείμενης ανάγκης για τέτοια δεδομένα σε χρήσιμες πληροφορίες και γνώση. Οι πληροφορίες και η γνώση που λαμβάνονται μπορούν να χρησιμοποιηθούν από εφαρμογές διαχείρισης, ανάλυσης αγοράς, ανίχνευσης απάτης και διατήρησης πελατολογίου, μέχρι και σε έλεγχο παραγωγής και επιστημονική έρευνα. Η εξόρυξη δεδομένων μπορεί να αντιμετωπισθεί σαν μια τεχνολογία με αποτέλεσμα την φυσική εξέλιξη των πληροφοριών. Η βιομηχανία συστημάτων βάσεων δεδομένων έχει βεβαιώσει μια εξελικτική πορεία ανάπτυξης των ακόλουθων λειτουργιών: συλλογή δεδομένων και δημιουργία βάσεων δεδομένων, διαχείριση δεδομένων (συμπεριλαμβανομένης της αποθήκευσης δεδομένων και της ανάκτησης, και της επεξεργασίας δειγματοληπτικών βάσεων δεδομένων), και προηγμένη ανάλυση δεδομένων (που περιλαμβάνει την αποθήκευση στοιχείων και την εξόρυξη δεδομένων). Για παράδειγμα, η πρόωρη ανάπτυξη της συλλογής δεδομένων και η δημιουργία μηχανισμών βάσεων δεδομένων που χρησιμεύονται ως μια προϋπόθεση για την επόμενη ανάπτυξη των αποτελεσματικών μηχανισμών για την αποθήκευση και ανάκτηση δεδομένων, και την επεξεργασία δειγματοληψίας από ερωτήσεις. Με πολυάριθμα συστήματα βάσεων δεδομένων που προσφέρουν την επεξεργασία

12 12 δειγματοληψίας από ερωτήσεις να γίνονται κοινή ασχολία, επόμενος στόχος έχει γίνει η προηγμένη ανάλυση στοιχείων. Από τη δεκαετία του '60, η τεχνολογία των βάσεων δεδομένων και των πληροφοριών έχει εξελιχτεί συστηματικά από τα πρωτόγονα συστήματα επεξεργασίας αρχείων σε συστήματα περίπλοκων και ισχυρών βάσεων δεδομένων. Η έρευνα και η ανάπτυξη στα συστήματα βάσεων δεδομένων από τη δεκαετία του '70 έχει προχωρήσει από τα πρόωρα ιεραρχικά και δικτυακά συστήματα βάσεων δεδομένων στην ανάπτυξη σχεσιακών συστημάτων βάσεων δεδομένων (όπου τα στοιχεία αποθηκεύονται στις συγγενικές επιτραπέζιες δομές), εργαλεία μοντελοποίησης (Ο/Σ κλπ), και μεθόδων ευρετηριοποίησης (Β-δέντρα, κατακερματισμός, κλπ). Επιπλέον, οι χρήστες κέρδισαν μια εύκολη και εύκαμπτη πρόσβαση στα δεδομένα μέσω των γλωσσών επερωτήσεων (SQL, κλπ), τις διεπαφές του χρήστη (πχ φόρμες και αναφορές), την επεξεργασία και βελτιστοποίηση των ερωτήσεων, και την διαχείριση συναλλαγών με ανάκαμψη από σφάλματα και έλεγχο συγχρονικότητας. Αποδοτικές μέθοδοι για την άμεση - επεξεργασία κατά δοσοληψία (OLTP), όπου μια ερώτηση αντιμετωπίζεται ως μια συναλλαγή μόνο για ανάγνωση, που έχει συμβάλει ουσιαστικά στην εξέλιξη και την ευρεία αποδοχή της συγγενικής τεχνολογίας ως σημαντικό εργαλείο για την αποδοτική αποθήκευση, ανάκτηση, και διαχείριση μεγάλου αριθμού δεδομένων. Η τεχνολογία των βάσεων δεδομένων από τα μέσα της δεκαετίας του '80 έχει χαρακτηριστεί από εξελιγμένα συστήματα καθώς υπήρξε ανάπτυξη νέων μοντέλων όπως το αντικειμενο-σχεσιακό, τα επεκτεταμένα σχεσιακά κλπ. Επίσης υπήρξαν νέες εφαρμογές και τύποι δεδομένων με ποιο χαρακτηριστικά τα χρονικά, τα χωρικά, τα χρονο-χωρικά, τα δεδομένα από αισθητήρες, τα συνεχή, κλπ). Η σταθερή και καταπληκτική πρόοδος της τεχνολογίας υλικού υπολογιστών τις προηγούμενες τρεις δεκαετίες έχουν οδηγήσει σε μεγάλες προμήθειες ισχυρών και προσιτών υπολογιστών, εξοπλισμού συλλογής δεδομένων, και μέσων απομνημόνευσης. Αυτή η τεχνολογία παρέχει μια μεγάλη ώθηση στη βιομηχανία των βάσεων δεδομένων και της πληροφόρησης, και κάνει έναν τεράστιο αριθμό των βάσεων δεδομένων και των αποθηκών πληροφοριών διαθέσιμο για διαχείριση συναλλαγής, ανάκτηση πληροφοριών, και ανάλυση δεδομένων. Τα δεδομένα μπορούν τώρα να αποθηκευτούν σε πολλά διαφορετικά είδη βάσεων δεδομένων και αποθήκες πληροφοριών. Μια αρχιτεκτονική αποθηκεύσεων δεδομένων που έχει προκύψει είναι η data warehouse, μια αποθήκη πολλαπλών

13 13 ετερογενών πηγών δεδομένων που οργανώνονται κάτω από ένα ενοποιημένο σχήμα σε ένα ενιαίο τόπο προκειμένου να διευκολύνει στο να γίνει μια διοικητική απόφαση. Η τεχνολογία της αποθήκης δεδομένων περιλαμβάνει καθάρισμα δεδομένων, ολοκλήρωση δεδομένων, και άμεση αναλυτική επεξεργασία (OLAP), δηλ., τις τεχνικές ανάλυσης με λειτουργίες όπως η περιληπτική παρουσίαση της πληροφορίας, η σταθεροποίηση, και η συνάθροιση καθώς επίσης και η δυνατότητα να προβληθούν οι πληροφορίες από διαφορετικές οπτικές γωνίες. Αν και τα εργαλεία OLAP υποστηρίζουν πολυδιάστατη ανάλυση και επιλογή απόφασης, τα πρόσθετα εργαλεία ανάλυσης δεδομένων απαιτούνται για την ανάλυση σε βάθος, όπως η ταξινόμηση δεδομένων, η συγκέντρωσή τους, και ο χαρακτηρισμός των αλλαγών των δεδομένων με την πάροδο του χρόνου. Επιπλέον, τεράστιοι όγκοι δεδομένων μπορεί να συσσωρευτούν πέρα από τις βάσεις δεδομένων και τις data warehouse. Η αφθονία δεδομένων, που συνδέεται με την ανάγκη για ισχυρά εργαλεία ανάλυσης δεδομένων, έχει περιγραφτεί σαν μια κατάσταση πλούσια σε δεδομένα αλλά φτωχή σε πληροφορίες. Η γρήγορη ανάπτυξη τεράστιων ποσών δεδομένων, που εισπράττεται και αποθηκεύεται στις μεγάλες και πολυάριθμες αποθήκες δεδομένων, έχει υπερβεί κατά πολύ την ανθρώπινη δυνατότητά για κατανόηση χωρίς ισχυρά εργαλεία. Κατά συνέπεια, τα δεδομένα που συλλέγονται στις μεγάλες αποθήκες δεδομένων γίνονται «τάφοι δεδομένων» - αρχεία δεδομένων που επισκέπτονται σπάνια. Συνεπώς, οι σημαντικές αποφάσεις λαμβάνονται συχνά βασισμένες όχι στα πλούσια σε πληροφορίες δεδομένα που αποθηκεύονται στις αποθήκες δεδομένων, αλλά μάλλον μιας διαίσθησης αυτού που έκανε την απόφαση, απλά επειδή δεν έχει τα εργαλεία για να εξαγάγει την πολύτιμη γνώση που βρίσκετε στα απέραντα ποσά δεδομένων. Επιπλέον, εξετάζονται ειδικές τεχνολογίες συστημάτων, οι οποίες στηρίζονται τυπικά στους χρήστες ή τους εμπειρογνώμονες περιοχών για να εισάγουν χειροκίνητα γνώση στις βάσεις γνώσεων. Δυστυχώς, αυτή η διαδικασία είναι επιρρεπείς σε προκαταλήψεις και λάθη, και είναι εξαιρετικά χρονοβόρα και δαπανηρή. Τα εργαλεία εξόρυξης γνώσης από δεδομένα εκτελούν ανάλυση στα δεδομένα και μπορεί να αποκαλύψουν σημαντικά σχέδια δεδομένων, που συμβάλλουν πολύ στις επιχειρησιακές στρατηγικές, τις βάσεις γνώσεων, και σε επιστημονικές και ιατρικές έρευνες. Το διευρυνόμενο χάσμα μεταξύ των δεδομένων και των πληροφοριών έχει ανάγκη για μια συστηματική ανάπτυξη των εργαλείων εξόρυξης δεδομένων που θα μετατρέψει τους τάφους δεδομένων σε «πολύτιμους λίθους» γνώσης.

14 14 Κεφάλαιο Πρώτο 1. Εξόρυξη Γνώσης από Δεδομένα 1.1 Εισαγωγή Όταν λέμε για εξόρυξη δεδομένων αναφερόμαστε σε εξαγωγή ή «εξόρυξη» γνώσης από μεγάλα ποσά δεδομένων. Ο όρος στην πραγματικότητα είναι μια ακυριολεξία. Για παράδειγμα, η εξόρυξη του χρυσού από τους βράχους ή την άμμο αναφέρεται ως εξόρυξη χρυσού παρά σαν εξόρυξη βράχου ή άμμου. Κατά συνέπεια, η εξόρυξη δεδομένων θα έπρεπε να ονομάζετε καλύτερα σαν «εξόρυξη γνώσης από δεδομένα,» αλλά δεν θα ήταν το ίδιο σύντομο. Η «εξόρυξη γνώσης,» σαν συντομότερη εκδοχή, μπορεί να μην απεικονίσει την έμφαση ότι γίνετε εξόρυξη σε μεγάλα ποσά δεδομένων. Εντούτοις, η εξόρυξη είναι ένας όρος που χαρακτηρίζει τη διαδικασία με την οποία βρίσκουμε ένα μικρό σύνολο πολύτιμων λίθων ανάμεσα σε μεγάλη ποσότητα πρώτων υλών. Κατά συνέπεια, μια τέτοια ακυριολεξία που περιλαμβάνει και «τα δεδομένα» και «την εξόρυξη» έγινε μια δημοφιλής επιλογή. Πολλοί άλλοι όροι φέρουν παρόμοια ή ελαφρώς διαφορετική έννοια στην εξόρυξη δεδομένων, όπως η εξόρυξη γνώσης από δεδομένα, η εξαγωγή γνώσης, η ανάλυση δεδομένων/σχεδίων, η αρχαιολογία δεδομένων, και η εκβάθυνση δεδομένων. 1.2 Βασικές Έννοιες Πολλοί άνθρωποι μεταχειρίζονται την εξόρυξη δεδομένων σαν ένα συνώνυμο ενός άλλου δημοφιλή όρου, την ανακάλυψη γνώσης από βάσεις δεδομένων, ή KDD. Εναλλακτικά, άλλοι βλέπουν την εξόρυξη δεδομένων απλά σαν ένα ουσιαστικό βήμα στο στάδιο της ανακάλυψης γνώσης. Ο όρος KDD (Knowledge Discovery in Database) αναφέρεται στην συνολική διαδικασία εύρεσης χρήσιμης πληροφορίας από σύνολα δεδομένων και σύμφωνα με τον ορισμό που δόθηκε [1] και διατυπώνει με μεγαλύτερη σαφήνεια την έννοια αυτού του όρου, "KDD είναι μία μη τετριμμένη διαδικασία εύρεσης έγκυρων, νέων, χρήσιμων και πλήρως κατανοητών προτύπων από τα δεδομένα". Στον ορισμό αυτό χρησιμοποιούνται έννοιες, όπως δεδομένα, πρότυπα, διαδικασία μη τετριμμένη. Για να κατανοήσουμε καλύτερα τον ορισμό, θα πρέπει να εξετάσουμε με λεπτομέρεια αυτές τις έννοιες:

15 15 Δεδομένα είναι το σύνολο των περιπτώσεων που εμφανίζονται στην βάση δεδομένων. Για παράδειγμα θα μπορούσε να είναι µία συλλογή εγγραφών από την βάση δεδομένων μίας τράπεζας, οι οποίες θα περιείχαν τιμές τριών πεδίων (π.χ. για το τμήμα, το εισόδημα, την κατάσταση του δανείου). Πρότυπα είναι εκφράσεις σε µία συγκεκριμένη γλώσσα οι οποίες περιγράφουν ένα υποσύνολο των δεδομένων. Για παράδειγμα ένα τέτοιο πρότυπο είναι η έκφραση: Εάν το εισόδημα είναι <$t, τότε ο υπάλληλος δεν μπορεί να λάβει δάνειο. Διαδικασία του KDD είναι µία πολλαπλών σταδίων διαδικασία, η οποία περιλαμβάνει προετοιμασία των δεδομένων, αναζήτηση για πρότυπα και αξιολόγηση της γνώσης που ανακτάται από τα δεδομένα. Μη τετριμμένη διαδικασία εμπεριέχει αναζήτηση και εξαγωγή συμπερασμάτων η οποία δεν είναι μια απλή υπολογιστική διαδικασία. Εγκυρότητα είναι τα πρότυπα που εξάγονται από την διαδικασία εξόρυξης και θα πρέπει να ισχύουν και σε νέα δεδομένα µε κάποιο βαθμό βεβαιότητας. Επίσης, τα πρότυπα πρέπει να είναι νέα, δυναμικά, χρήσιμα και κατανοητά και όχι κάποια ενδιάμεσα συμπεράσματα που χρειάζονται παραπάνω επεξεργασία. Ο στόχος της ανακάλυψης γνώσης (knowledge discovery) από τις βάσεις δεδομένων είναι να δημιουργήσουμε Πρότυπα (patterns) κατανοητά στους ανθρώπους προκειμένου τα επικείμενα δεδομένα να είναι πλήρως κατανοητά και να βοηθούν ακόμα και µη ειδικούς στην εξαγωγή χρήσιμων συμπερασμάτων. Το data mining ως στοιχείο της διαδικασίας ανακάλυψης γνώσης από σύνολα δεδομένων αφορά κυρίως τις διαδικασίες και τα μέσα µε τα οποία θα εξάγονται τα πρότυπα από τα σύνολα των δεδομένων. Ενώ η ανακάλυψη γνώσης περιλαμβάνει την εκτίμηση και πιθανή διερμηνεία των προτύπων ώστε να προσδιοριστεί τι αποτελεί

16 16 γνώση και τι όχι. Επίσης περιλαμβάνει την επιλογή κωδικοποίησης των σχημάτων, της κατάλληλης επεξεργασίας των δεδομένων πριν αυτά οδηγηθούν στο στάδιο του data mining. 1.3 Η Ανακάλυψη Γνώσης από Βάσεις Δεδομένων ως Διαδικασία H KDD διαδικασία είναι µία αλληλεπιδραστική και επαναληπτική διαδικασία, η οποία περιλαμβάνει πλήθος βημάτων στα οποία θα πρέπει να ληφθούν αποφάσεις από τον χρήστη. Τα βασικότερα βήματα αυτής της διαδικασίας συνοπτικά είναι [2]: Ανάπτυξη και κατανόηση του πεδίου της εφαρμογής περιλαμβανομένης οποιασδήποτε σχετικής προηγούμενης γνώσης για το πρόβλημα και των στόχων των τελικών χρηστών. Δημιουργία του στοχευόμενου συνόλου δεδομένων: Επιλέγουμε το σύνολο των δεδομένων ή επικεντρώνουμε το ενδιαφέρον µας στις μεταβλητές ή τα δείγματα δεδομένων από τα οποία πρόκειται να εξαχθεί η γνώση. Καθάρισμα και επεξεργασία δεδομένων: Το στάδιο αυτό περιλαμβάνει κάποιες βασικές λειτουργίες όπως για την απομάκρυνση του θορύβου από τα δεδομένα εάν θεωρείται απαραίτητο, για την συλλογή της απαιτούμενης πληροφορίας, ώστε να δημιουργήσουμε ένα μοντέλο ή να μετρήσουμε τον θόρυβο που υπεισέρχεται στα δεδομένα, για να αποφασίσουμε τις στρατηγικές που θα χρησιμοποιήσουμε για να χειριστούμε δεδομένα που τυχόν έχουν χαθεί, καθώς και για την καταμέτρηση της χρονικής ακολουθίας της πληροφορίας και των αλλαγών που τυγχάνει να συμβούν στα δεδομένα. Εύρεση χρήσιμων χαρακτηριστικών για να αναπαραστήσουμε τα δεδομένα ανάλογα µε τους στόχους της εφαρμογής. Χρησιμοποιώντας μείωση διαστάσεων ή μεθόδους μετασχηματισμού γίνεται προσπάθεια μειώσεως του αριθμού των μεταβλητών που λαμβάνονται υπόψη ή

17 17 επιτυγχάνεται η αναπαράσταση των δεδομένων ανεξάρτητα από μεταβλητές. Επιλογή εργασιών data mining: Στο στάδιο αυτό αποφασίζεται ποιες εργασίες Data Mining, (π.χ. clustering, classification, regression κλπ), θα εκτελεστούν κατά την διαδικασία KDD. Επιλογή αλγορίθμου data mining: Επιλέγουμε τις μεθόδους που πρόκειται να χρησιμοποιηθούν για την αναζήτηση προτύπων στα δεδομένα. Αυτό περιλαμβάνει απόφαση για το ποία μοντέλα και παράμετροι είναι οι κατάλληλοι να χρησιμοποιηθούν (π.χ. μοντέλα για δεδομένα µε λεκτικές τιμές είναι διαφορετικά από τα μοντέλα για δεδομένα µε αριθμητικές τιμές), καθώς και αντιστοίχηση μίας δεδομένης μεθόδου data mining µε τα συνολικά κριτήρια της διαδικασίας KDD (π.χ. ο τελικός χρήστης μπορεί να ενδιαφέρεται περισσότερο να κατανοήσει το μοντέλο απ ότι τις μεθόδους πρόβλεψης). Data Mining: Αναζήτηση των προτύπων που µας ενδιαφέρουν σε µία συγκεκριμένη μορφή αναπαράστασης ή σ ένα σύνολο τέτοιων αναπαραστάσεων, όπως classification rules, trees, regression, clustering κλπ. Ο χρήστης μπορεί να βοηθήσει την μέθοδο εξόρυξης γνώσης µε την σωστή εκτέλεση των προηγούμενων βημάτων. Ερμηνεία των προτύπων που έχουμε εξάγει από ένα σύνολο δεδομένων, επιστρέφοντας σε οποιοδήποτε από τα παραπάνω βήματα εάν θεωρηθεί απαραίτητο. Ενοποίηση της γνώσης που έχει εξαχθεί: Ενσωματώνουμε την γνώση αυτή στο σύστημά µας ή απλά παρουσιάζουμε την γνώση αυτή µε την κατάλληλη τεκμηρίωση στα ενδιαφερόμενα µέλη. Επίσης ελέγχουμε και επιλύουμε τυχόν συγκρούσεις προηγούμενης γνώσης που υπήρχε ή είχε εξαχθεί.

18 18 H KDD διαδικασία μπορεί να περιλαμβάνει επανάληψη μεταξύ οποιονδήποτε βημάτων. Η βασική ροή των βημάτων της διαδικασίας περιγράφεται διαγραμματικά στο Σχήμα 1.1. Η περισσότερη εργασία κατά την διαδικασία της εξαγωγή γνώσης από τις βάσεις δεδομένων επικεντρώνεται στο data mining, ωστόσο και τα άλλα βήματα είναι ιδιαίτερης σημασίας για επιτυχή εφαρμογή της διαδικασίας. Data Mining Γνώση Μετασχηματισμός Πρότυπα Επεξεργασία Επιλογή Επεξεργασμένα δεδομένα Μετασχηματισμένα δεδομένα Περιοχή του Data Mining Δεδομένα Στοχευόμενα δεδομένα 1.4 Τα Συστήματα Εξόρυξης Δεδομένων Σχήμα 1.2 Μια διαδικασία KDD Η εξόρυξη δεδομένων είναι ένα βήμα στη διαδικασία ανακάλυψης γνώσης, εντούτοις, στη βιομηχανία, στα μέσα, και στο ερευνητικό περιβάλλον βάσεων δεδομένων, ο όρος εξόρυξη δεδομένων γίνεται πιο δημοφιλής από τον μεγαλύτερο όρο ανακάλυψη γνώσης από βάσεις δεδομένων. Επομένως, οι περισσότεροι, επιλέγουν να χρησιμοποιούν τον όρο εξόρυξη δεδομένων και σαν μια ευρεία άποψη της λειτουργίας εξόρυξης δεδομένων μπορούμε να πούμε πως: η εξόρυξη δεδομένων είναι η διαδικασία όπου αποκτούμε ενδιαφέρουσα γνώση από μεγάλα ποσά δεδομένων που εισάγονται στις βάσεις δεδομένων, τις αποθήκες δεδομένων, ή άλλες αποθήκες πληροφοριών.

19 19 Με βάση αυτήν την άποψη, η αρχιτεκτονική ενός χαρακτηριστικού συστήματος εξόρυξης δεδομένων μπορεί να έχει τα ακόλουθα σημαντικά συστατικά (Σχήμα 1.2): Βάση δεδομένων, αποθήκη δεδομένων, World Wide Web, ή άλλη αποθήκη πληροφοριών: Αυτό είναι μία ή ένα σύνολο βάσεων δεδομένων, αποθηκών δεδομένων, υπολογισμών με λογιστικό φύλλο (spreadsheet), ή άλλων ειδών αποθηκών πληροφοριών. Ο καθαρισμός δεδομένων και οι τεχνικές ολοκλήρωσης δεδομένων μπορούν να εκτελεσθούν στα δεδομένα. Κεντρικός υπολογιστής αποθηκών δεδομένων ή βάσεων δεδομένων: Ο κεντρικός υπολογιστής αποθηκών δεδομένων ή βάσεων δεδομένων είναι αρμόδιος για να προσκομίσει τα σχετικά δεδομένα, βασισμένα στο αίτημα εξόρυξης δεδομένων του χρήστη. Βάση γνώσεων: Αυτή είναι η περιοχή γνώσεων που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση ή να αξιολογήσει την σημαντικότητα των προκυπτόντων σχεδίων. Τέτοια γνώση μπορεί να περιλαμβάνει ιδέες ιεραρχίας, που χρησιμοποιούνται για να οργανώσουν τις ιδιότητες ή να αποδώσουν τιμές στα διαφορετικά επίπεδα αφαίρεσης. Η γνώση όπως και η πεποίθηση των χρηστών, που μπορεί να χρησιμοποιηθεί για να αξιολογήσει την σημαντικότητα ενός σχεδίου βασισμένο στην προσδοκία, μπορεί επίσης να συμπεριληφθεί. Άλλα παραδείγματα της γνώσης της περιοχής είναι πρόσθετοι σημαντικοί περιορισμοί ή κατώτατα όρια, και μεταδεδομένα (π.χ., που περιγράφουν τα δεδομένα από πολλαπλές ετερογενείς πηγές). Μηχανή εξόρυξης δεδομένων: Είναι κάτι ουσιαστικό στο σύστημα εξόρυξης δεδομένων και αποτελείται ιδανικά από ένα σύνολο λειτουργικών ενοτήτων για στόχους όπως η ανάλυση χαρακτηρισμού, ένωσης και συσχετισμού, η ταξινόμηση, η πρόβλεψη, η ανάλυση συστάδων, έκτοπων, και εξέλιξης.

20 20 Ενότητα αξιολόγησης σχεδίων: Αυτό το συστατικό υιοθετεί χαρακτηριστικά τα μέτρα σημαντικότητας και αλληλεπιδρά με τις ενότητες εξόρυξης δεδομένων ώστε να στραφεί η αναζήτηση προς τα ενδιαφέροντα στοιχεία. Μπορεί να χρησιμοποιήσει τα κατώτατα όρια σημαντικότητας για να φιλτράρει τα στοιχεία που ανακαλύφτηκαν. Εναλλακτικά, η ενότητα αξιολόγησης στοιχείων μπορεί να ενσωματωθεί με την ενότητα εξόρυξης, ανάλογα με την εφαρμογή εξόρυξης δεδομένων που χρησιμοποιείτε. Για αποδοτική εξόρυξη δεδομένων, είναι προτιμότερο να ωθήσουμε την αξιολόγηση της σημαντικότητας όσο το δυνατόν βαθύτερα στη διαδικασία εξόρυξης ώστε να περιοριστεί η αναζήτηση μόνο στα ενδιαφέροντα στοιχεία. Διεπαφή με τον χρήστη: Είναι η ενότητα που επικοινωνεί μεταξύ των χρηστών και των συστημάτων εξόρυξης δεδομένων, που επιτρέπει στο χρήστη να αλληλεπιδρά με το σύστημα διευκρινίζοντας ένα ερώτημα ή μία εργασία εξόρυξης δεδομένων, παραχωρώντας πληροφορίες για να βοηθήσει στο που να στραφεί η αναζήτηση, και εκτελώντας διερευνητική εξόρυξη δεδομένων βασισμένη στα ενδιάμεσα αποτελέσματα εξόρυξης δεδομένων. Επιπλέον, αυτό το συστατικό επιτρέπει στο χρήστη να ψάξει στις βάσεις δεδομένων και στα σχήματα των αποθηκών δεδομένων ή στις δομές των δεδομένων, να αξιολογήσει τα εξορυγμένα στοιχεία, και να τα απεικονίσει σε διαφορετικές μορφές.

21 21 Γραφικές Επαφές Χρήστη Εκτίμηση Προτύπων Μηχανή Εξόρυξης Δεδομένων Βάση Γνώσης Εξυπηρετητής Βάσης Δεδομένων ή Αποθήκης Δεδομένων Καθαρισμός, Ενοποίηση και Επιλογή Βάση Δεδομένων Αποθήκη World-Wide Δεδομένων Web Άλλα Σύνολα Δεδομένων Σχήμα 1.2 Αρχιτεκτονική ενός τυπικού συστήματος εξόρυξης δεδομένων Από μια προοπτική αποθηκών δεδομένων, η εξόρυξη δεδομένων μπορεί να αντιμετωπισθεί ως ένα προχωρημένο επίπεδο της άμεσης αναλυτικής επεξεργασίας (OLAP). Ωστόσο, η εξόρυξη δεδομένων πηγαίνει αρκετά πιο πέρα από το στενό πεδίο του ύφους της αναλυτικής επεξεργασίας παρουσίασης της πληροφορίας των συστημάτων αποθηκών δεδομένων έχοντας ενσωματωμένες πιο προηγμένων τεχνικές για ανάλυση δεδομένων. Αν και υπάρχουν πολλά «συστήματα εξόρυξης δεδομένων» στην αγορά, δεν μπορούν όλα να εκτελέσουν αληθινή εξόρυξη δεδομένων. Ένα σύστημα ανάλυσης δεδομένων που δεν χειρίζεται μεγάλα ποσά δεδομένων θα πρέπει καταλληλότερα να κατηγοριοποιηθεί σαν ένα σύστημα εκμάθησης μηχανήματος, εργαλείο ανάλυσης στατιστικών δεδομένων, ή πρωτότυπων πειραματικών συστημάτων. Ένα σύστημα που μπορεί να εκτελέσει μόνο ανάκτηση δεδομένων ή πληροφοριών, συμπεριλαμβάνοντας την εύρεση συνολικών τιμών, ή που πραγματοποιεί παραγωγικές απαντήσεις σε ερωτήματα σε μεγάλες βάσεις δεδομένων θα πρέπει

22 22 καταλληλότερα να κατηγοριοποιηθεί σαν ένα σύστημα βάσεων δεδομένων, σύστημα ανάκτησης πληροφοριών, ή παραγωγικό σύστημα βάσεων δεδομένων. Η εξόρυξη δεδομένων περιλαμβάνει μια ολοκλήρωση τεχνικών από πολλαπλές επιστήμες όπως η τεχνολογία βάσεων δεδομένων και αποθηκών δεδομένων, οι στατιστικές, η μηχανική μάθηση, ο υπολογιστής υψηλής απόδοσης, η αναγνώριση στοιχείων, τα νευρωτικά δίκτυα, η απεικόνιση στοιχείων, η ανάκτηση πληροφοριών, η επεξεργασία εικόνας και σήματος, και η χωρική ή χρονική ανάλυση δεδομένων. Χρησιμοποιώντας μια προοπτική βάσεων δεδομένων για την παρουσίαση της εξόρυξης δεδομένων δίνουμε έμφαση στις αποδοτικές και εξελικτικές τεχνικές εξόρυξης δεδομένων. Για έναν αλγόριθμο για να είναι εξελικτικός, ο χρόνος που τρέχει θα πρέπει να αυξηθεί γραμμικά αναλογικά περίπου προς το μέγεθος των δεδομένων, λαμβάνοντας υπόψη τους διαθέσιμους πόρους του συστήματος όπως η κύρια μνήμη και ο χώρος στο δίσκο. Εκτελώντας εξόρυξη δεδομένων μπορούν να εξαχθούν από τις βάσεις δεδομένων ενδιαφέρουσα γνώση ή υψηλού επιπέδου πληροφορίες κανονικοποιημένες και να αντιμετωπισθούν ή να εξερευνηθούν από διάφορες οπτικές γωνίες. Η γνώση που ανακαλύπτεται μπορεί να εφαρμοστεί στη λήψη μιας απόφασης, σε έλεγχο διεργασίας, διαχείριση πληροφοριών, και επεξεργασία ερωτήματος. Επομένως, η εξόρυξη δεδομένων θεωρείται ένα από τα σημαντικότερα σύνορα στα συστήματα βάσεων δεδομένων και πληροφοριών και μια από τις πιο υποσχόμενες διεπιστημονικές εξελίξεις στην τεχνολογία πληροφοριών. 1.5 Στοιχεία της Εξόρυξης Δεδομένων Ο βασικός στόχος της ανακάλυψης γνώσης είναι η δημιουργία προτύπων (patterns) από τις βάσεις δεδομένων. Ο στόχος αυτός μπορεί να αποσυντεθεί σε δυο κατηγορίες: Επαλήθευση (verification) και αποκάλυψη (discovery). Με την επαλήθευση το σύστημα οριοθετείται να επαληθεύσει τις υποθέσεις του χρήστη, ενώ με την αποκάλυψη το σύστημα αυτόματα βρίσκει πρότυπα και αποσυντίθεται με τη σειρά του σε δυο κατηγορίες: πρόβλεψη (prediction) και περιγραφή (description). Η πρόβλεψη σχετίζεται με την αναζήτηση προτύπων που θα βασιστούν οι μελλοντικές προβλέψεις, ενώ η περιγραφή, με την αναζήτηση προτύπων που είναι κατανοητά στον άνθρωπο.

23 23 Το Data Mining περιλαμβάνει την προσαρμογή μοντέλων στα εξεταζόμενα δεδομένα ή τον καθορισμό προτύπων από αυτά. Τα μοντέλα παίζουν τον ρόλο της γνώσης που εξάγεται από το σύνολο των δεδομένων. Η απόφαση για το αν τα μοντέλα αντανακλούν ή όχι χρήσιμη γνώση είναι μέρος της συνολικής διαδικασίας KDD για την οποία συνήθως απαιτείται η υποκειμενική ανθρώπινη κρίση. Σήμερα υπάρχει πλήθος αλγορίθμων data mining οι οποίοι μπορεί να προέρχονται από τα διάφορα πεδία όπως από το χώρο της στατιστικής, της αναγνώρισης προτύπων, της μηχανικής γνώσης και των βάσεων δεδομένων. Οι περισσότεροι αλγόριθμοι μπορούμε να θεωρήσουμε ότι αποτελούνται από κάποιες βασικές τεχνικές και θεμελιώδεις αρχές. Συγκεκριμένα, οι αλγόριθμοι data mining αποτελούνται από τον συνδυασμό των εξής στοιχείων [3]: Αναπαράσταση μοντέλου (model representation). Είναι μια γλώσσα που χρησιμοποιείται για να περιγράψει τα αποκαλύψιμα πρότυπα. Καθορίζει τόσο την προσαρμοστικότητα του μοντέλου στην αναπαράσταση των δεδομένων, όσο και την δυνατότητα ερμηνείας του μοντέλου με όρους κατανοητούς από τους ανθρώπους. Εάν η αναπαράσταση είναι πολύ περιορισμένη, τότε είναι δύσκολο να δημιουργηθεί ένα ακριβές πρότυπο για τα στοιχεία. Είναι σημαντικό ότι οι υποθέσεις αναπαράστασης πρέπει να είναι έμφυτες στην μέθοδο και να προσδιορίζεται ποιες υποθέσεις αναπαράστασης γίνονται από ένα αλγόριθμο. Τυπικά, τα πιο πολύπλοκα μοντέλα προσαρμόζονται καλύτερα στα δεδομένα αλλά μπορεί να είναι περισσότερο δύσκολο να γίνουν κατανοητά και να προσαρμοστούν στην πραγματικότητα. Οι πιο γνωστές αναπαραστάσεις μοντέλων είναι τα δέντρα αποφάσεων και κανόνες, τα γραμμικά μοντέλα, τα µη γραμμικά μοντέλα (π.χ. νευρωνικά δίκτυα), τα μοντέλα που βασίζονται σε παραδείγματα (example-based) (π.χ. μέθοδοι βασισμένοι στις περιπτώσεις), τα γραφικά μοντέλα βασισμένα σε πιθανότητες (π.χ. Bayesian networks) και σχεσιακά μοντέλα. Τα κριτήρια αξιολόγησης μοντέλου είναι ποσοτικές δηλώσεις που προσδιορίζουν πόσο καλά ένα συγκεκριμένο μοντέλο και οι παράμετροί του προσαρμόζεται στα κριτήρια της διαδικασίας KDD. Για παράδειγμα,

24 24 τα μοντέλα πρόβλεψης κρίνονται συχνά από την εμπειρική ακρίβεια πρόβλεψης σε κάποιο σύνολο δοκιμής, ενώ τα μοντέλα περιγραφής αξιολογούνται από την ακρίβεια, την καινοτομία, την χρησιμότητά τους και από την κατανόηση από τους ανθρώπους. Η μέθοδος αναζήτησης αποτελείται από δυο συστατικά, την αναζήτηση παραμέτρων και την αναζήτηση μοντέλου. Εάν προσδιοριστούν τα μοντέλα αναπαράστασης και τα κριτήρια αξιολόγησης τότε το πρόβλημα εξόρυξης δεδομένων περιορίζεται καθαρά σε έναν στόχο βελτιστοποίησης. Η Αναζήτηση παραμέτρων, οι οποίοι αναζητούν παραμέτρους που θα βελτιστοποιούν το κριτήριο αξιολόγησης του μοντέλου. Οι αλγόριθμοι εκτελούν την αναζήτηση λαμβάνοντας ως είσοδο ένα σύνολο δεδομένων και µία αναπαράστασης μοντέλου. Η Αναζήτηση μοντέλου, οι οποίοι εκτελούν µία επαναληπτική διαδικασία αναζήτησης μοντέλου για την αναπαράσταση των δεδομένων µας. Για μία συγκεκριμένη αναπαράσταση μοντέλου εκτελείται η μέθοδος αναζήτησης παραμέτρων και εκτιμάται η ποιότητα του συγκεκριμένου μοντέλου. 1.6 Απαιτήσεις του Data Mining Προκειμένου να επιτύχουμε ένα αποτελεσματικό data mining, θα πρέπει πρώτα να εξετάσουμε τι είδους χαρακτηριστικά αναμένεται να έχει ένα σύστημα εξόρυξης γνώσης καθώς και τις απαιτήσεις που θα πρέπει να λάβουμε υπόψη µας στην ανάπτυξη data mining τεχνικών. Οι βασικότερες από τις απαιτήσεις είναι [4]: Διαχείριση διαφορετικών τύπων δεδομένων: Καθώς διαφορετικοί τύποι δεδομένων και βάσεων δεδομένων χρησιμοποιούνται σε διαφορετικές εφαρμογές, είναι αναμενόμενο ότι το σύστημα εξόρυξης γνώσης θα πρέπει να έχει την δυνατότητα εκτέλεσης data mining µε αποτελεσματικό τρόπο πάνω σε διαφορετικά είδη δεδομένων. Οι περισσότερες βάσεις δεδομένων

25 25 που είναι σήμερα διαθέσιμες είναι σχεσιακές. Έτσι είναι σημαντικό ένα σύστημα data mining να εκτελεί αποδοτική και αποτελεσματική εξόρυξη γνώσης σε σχεσιακά δεδομένα. Επιπρόσθετα, πολλές από τις βάσεις δεδομένων που χρησιμοποιούνται σήμερα περιέχουν πολύπλοκους τύπους δεδομένων, όπως δομημένα δεδομένα και σύνθετα αντικείμενα, hypertext και δεδομένα πολυμέσων, χωρικά και χρονικά δεδομένα, κλπ. Ένα δυνατό σύστημα data mining θα πρέπει να μπορεί να εκτελέσει αποτελεσματικό data mining σε τέτοιους σύνθετους τύπους δεδομένων. Ωστόσο, η διαφοροποίηση των τύπων δεδομένων και οι διαφορετικοί στόχοι του data mining κάνουν µη ρεαλιστική την ύπαρξη ενός συστήματος data mining που θα χειρίζεται όλες τις περιπτώσεις. Αντίθετα θα πρέπει να αναπτύσσονται συγκεκριμένα συστήματα για συγκεκριμένα είδη δεδομένων, όπως συστήματα που θα εξάγουν γνώση από σχεσιακές Β., χωρικές Β., χρονικές Β., Β. πολυμέσων κλπ. Αποδοτικότητα και κλιμάκωση αλγορίθμων data mining: Για την αποτελεσματική εξαγωγή πληροφορίας από ένα μεγάλο όγκο δεδομένων θα πρέπει οι αλγόριθμοι για την εξαγωγή γνώσης να είναι αποδοτικοί και προσαρμόσιμοι σε μεγάλες βάσεις δεδομένων. Αυτό σημαίνει ότι ο χρόνος εκτέλεσης των data mining αλγορίθμων θα πρέπει να είναι αναμενόμενος και αποδεκτός σε μεγάλες βάσεις δεδομένων. Αλγόριθμοι εκθετικής ή ακόμα πολυωνυμικής πολυπλοκότητας μέσης τάξης δεν θα ήταν κατάλληλοι. Χρησιμότητα, βεβαιότητα και εκφραστικότητα των data mining αποτελεσμάτων: Η εξαγόμενη γνώση θα πρέπει να παρουσιάζει µε ακρίβεια τα περιεχόμενα της βάσης δεδομένων. Η µη καταλληλότητα θα πρέπει να εκφράζεται µε μέτρα αβεβαιότητας. Ο θόρυβος και τα δεδομένα που αποτελούν εξαιρέσεις θα πρέπει να χειρίζονται αποτελεσματικά από τα συστήματα data mining. Αυτό δίνει κίνητρα για µία συστηματική μελέτη μέτρησης της ποιότητας της εξαγόμενης γνώσης, κατασκευάζοντας στατιστικά, αναλυτικά μοντέλα, μοντέλα προσομοίωσης και εργαλεία.

26 26 Έκφραση διαφόρων ειδών data mining ερωτήσεων και αποτελεσμάτων: Διάφορα είδη γνώσης μπορούν να εξαχθούν από ένα μεγάλο σύνολο δεδομένων. Επίσης, μπορεί να θέλουμε να εξετάσουμε την γνώση που έχει εξαχθεί από διαφορετικές όψεις και να τις παρουσιάσουμε σε διαφορετικές μορφές. Αυτό δημιουργεί την ανάγκη να εκφράσουμε τόσο τις data mining ερωτήσεις όσο και την εξαγόμενη γνώση σε γλώσσες υψηλού επιπέδου ή µέσω γραφικών συστημάτων διεπαφής, έτσι ώστε η εργασία του data mining να μπορεί να εκτελεστεί από µη ειδικούς και η εξαγόμενη γνώση να μπορεί να χρησιμοποιηθεί άμεσα από τους χρήστες. Μία ακόμα απαίτηση για την αποτελεσματική παρουσίαση της γνώσης είναι το σύστημα να υιοθετεί εκφραστικές τεχνικές αναπαράστασης γνώσης. Αλληλεπιδραστική εξόρυξη γνώσης σε πολλαπλά αφηρημένα επίπεδα: Η αλληλεπιδραστική εξαγωγή γνώσης δίνει την δυνατότητα σε έναν χρήστη να αλληλεπιδράσει µε το σύστημα και να εκλεπτύνει την ερώτηση data mining, να αλλάξει δυναμικά το επίκεντρο των δεδομένων, να προωθήσει την διαδικασία data mining σε λεπτομερέστερο επίπεδο και να δει τα δεδομένα και τα αποτελέσματα του data mining σε πολλαπλά αφαιρετικά επίπεδα και από πολλές διαφορετικές γωνίες. Εξόρυξη πληροφορίας από διαφορετικές πηγές δεδομένων: Η ευρεία δικτύωση των υπολογιστών σε τοπικό αλλά και σε ευρύτερο επίπεδο, περιλαμβανομένου και του Internet, έχει συνδέσει πολλές πηγές δεδομένων δημιουργώντας μεγάλες κατανεμημένες και ετερογενείς βάσεις δεδομένων. Η εξόρυξη γνώσης από διαφορετικές πηγές δεδομένων µε διαφορετική σημειολογία θέτει νέες απαιτήσεις στο data mining. Το μεγάλο μέγεθος των βάσεων δεδομένων, η ευρεία κατανομή των δεδομένων και υπολογιστική πολυπλοκότητα κάποιων μεθόδων data mining δίνουν το κίνητρο για την ανάπτυξη παράλληλων και κατανεμημένων data mining αλγορίθμων.

27 27 Προστασία των ιδιωτικών στοιχείων και ασφάλεια των δεδομένων: Όταν μπορούμε να δούμε τα δεδομένα από πολλές διαφορετικές γωνίες και από διαφορετικά επίπεδα αφαίρεσης, ο στόχος προστασίας των δεδομένων καθώς και της πληροφορίας ιδιωτικής φύσης απειλείται. Είναι σημαντικό να μελετήσουμε τέτοια θέματα και να δούμε τι μέτρα προστασίας μπορούν να αναπτυχθούν για την προστασία της ευαίσθητης πληροφορίας. 1.7 Κατηγοριοποίηση των Τεχνικών Data Mining Τα τελευταία χρόνια έχουν αναπτυχθεί πολλές τεχνικές data mining καθώς και συστήματα. Διαφορετικά σχήματα κατηγοριοποίησης μπορούν να χρησιμοποιηθούν για να κατηγοριοποιήσουν τις μεθόδους data mining και τα συστήματα, βασιζόμενοι στα είδη των βάσεων δεδομένων που πρόκειται να χρησιμοποιηθούν, στα είδη της γνώσης που εξάγονται και στα είδη των τεχνικών που χρησιμοποιούνται. Η κατηγοριοποίηση των συστημάτων εξόρυξης γνώσης βασίζεται στα εξής κριτήρια [4]: Τι είδος βάσης δεδομένων εξετάζουμε : Ένα σύστημα data mining μπορεί να ταξινομηθεί σύμφωνα με τα είδη των βάσεων δεδομένων στα οποία εκτελείται το data mining. Για παράδειγμα, ένα σύστημα που χρησιμοποιείται για εξόρυξη γνώσης από σχεσιακά δεδομένα καλείται σχεσιακό σύστημα γνώσης. Εάν εξάγει γνώση από αντικειμενοστρεφή βάση δεδομένων καλείται αντικειμενοστρεφές σύστημα εξαγωγής γνώσης. Γενικά, ένα σύστημα εξόρυξης γνώσης μπορεί να κατηγοριοποιηθεί ανάλογα µε τα διαφορετικά είδη των βάσεων δεδομένων που χρησιμοποιούνται, όπως σχεσιακές βάσεις δεδομένων, αντικειμενοστρεφείς βάσεις δεδομένων, χωρικές βάσεις δεδομένων, χρονικές βάσεις δεδομένων, βάσεις δεδομένων πολυμέσων κλπ. Τι είδος γνώσης εξάγουμε: Από ένα σύστημα εξόρυξης γνώσης μπορούν να εξαχθούν διάφορα είδη γνώσης, περιλαμβανομένων association rules, classification rules, characteristic rules, clustering. Επίσης το σύστημα εξόρυξης γνώσης μπορεί να κατηγοριοποιηθεί σύμφωνα µε το αφαιρετικό

28 28 επίπεδο της εξαγόμενης γνώσης η οποία μπορεί να κατηγοριοποιηθεί σε γενική γνώση, γνώση πρώτου - επιπέδου και πολλαπλών επιπέδων γνώση. Τι είδος τεχνική χρησιμοποιείται: Τα συστήματα εξόρυξης γνώσης μπορούν να κατηγοριοποιηθούν σύμφωνα με το είδος των επικείμενων τεχνικών data mining. Για παράδειγμα, μπορούν να κατηγοριοποιηθούν σύμφωνα µε την μέθοδο σε αυτόνομα συστήματα εξόρυξης γνώσης, σε οδηγούμενα από τα δεδομένα συστήματα, οδηγούμενα από τις ερωτήσεις και σε αλληλεπιδραστικά συστήματα δεδομένων. Επίσης ανάλογα µε την προσέγγιση data mining που χρησιμοποιείται μπορούν να κατηγοριοποιηθούν σε γενικευμένη εξόρυξη, βασισμένη σε πρότυπα, εξόρυξη βασισμένη στην στατιστική ή μαθηματική θεωρία κλπ. 1.8 Βασικές Διεργασίες Data Mining Οι δύο βασικοί στόχοι του data mining πρακτικά είναι η πρόβλεψη (prediction) και η περιγραφή (description). Η πρόβλεψη περιλαμβάνει την χρήση κάποιων μεταβλητών ή πεδίων στις βάσεις δεδομένων για να προβλέψουμε άγνωστες ή μελλοντικές τιμές άλλων μεταβλητών που έχουν ενδιαφέρον. Η περιγραφή επικεντρώνεται στην εύρεση προτύπων που περιγράφουν τα δεδομένα και τα οποία μπορούν να ερμηνευτούν από τον άνθρωπο. Η σχετική σημαντικότητα της πρόβλεψης και περιγραφής για συγκεκριμένες data mining εφαρμογές μπορούν να διαφέρουν σημαντικά. Ωστόσο, σε ότι αφορά την ανακάλυψη γνώσης (KDD), η περιγραφή τείνει να είναι περισσότερο σημαντική σε σχέση με την πρόβλεψη σε αντίθεση με τις εφαρμογές αναγνώρισης προτύπων και μηχανικής μάθησης που βασικός σκοπός είναι η πρόβλεψη. Οι μέθοδοι data mining προκειμένου να επιτύχουν τους στόχους για την εξαγωγή και περιγραφή γνώσης από ένα σύνολο δεδομένων, χρησιμοποιούν ή εκτελούν κατά την εφαρμογή τους ένα σύνολο από διεργασίες (tasks). Οι βασικότερες από αυτές τις εργασίες περιγράφονται στην συνέχεια.

29 Κατηγοριοποίηση (Classification) Το classification αποτελεί μία από τις βασικές διεργασίες data mining. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νεοεμφανιζόμενου αντικειμένου το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να ταξινομηθούν αναπαριστάνονται γενικά από τις εγγραφές της βάσης δεδομένων και η διαδικασία του classification αποτελείται από την κατηγοριοποίηση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κλάσεις. Η εργασία του classification χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κλάσεων και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου αποτελείται από προταξινομημένα παραδείγματα. Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο το οποίο θα μπορούσε να εφαρμοστεί για να ταξινομήσει δεδομένα που δεν έχουν ακόμα ταξινομηθεί (τοποθετηθεί σε κάποια από τις κλάσεις). Στις περισσότερες περιπτώσεις, υπάρχει ένας περιορισμένος αριθμός κλάσεων και εμείς θα πρέπει να τοποθετήσουμε κάθε εγγραφή στην κατάλληλη κλάση. Για το σκοπό αυτό χρησιμοποιούνται κάποιες τεχνικές, τις οποίες μπορούμε να κατατάξουμε σε δύο κατηγορίες. Η πρώτη χρησιμοποιεί Δέντρα Αποφάσεων (Decision Trees) και η δεύτερη Νευρωνικά Δίκτυα (Neural Networks). Και οι δύο στηρίζονται στην ιδέα της εκπαίδευσης (training) με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται training set. Το υποσύνολο αυτό επιλέγεται σαν αντιπροσωπευτικό δείγμα του συνολικού όγκου δεδομένων. Με την εφαρμογή της διαδικασίας εκπαίδευσης καθορίζονται κάποια πρότυπα για τις κατηγορίες δεδομένων. Έτσι, όταν προκύψει ένα νέο δεδομένο τότε μπορεί εύκολα να κατηγοριοποιηθεί. Για τη διαδικασία αυτή χρησιμοποιούνται είτε τεχνικές βασισμένες στα νευρωνικά δίκτυα είτε συμβολικές τεχνικές. Στις πρώτες υπάρχει το φαινόμενο της αμφίδρομης αναμετάδοσης και επεξεργασίας δεδομένων ενώ στη δεύτερη υπάρχουν μοντέλα δένδρων αποφάσεων ή μοντέλα για ΕΑΝ ΤΟΤΕ ΑΛΛΙΙΩΣ (IF THEN ELSE) ανάλυση.

30 Ομαδοποίηση (Clustering) Το clustering είναι η εργασία του καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο περισσότερων ετερογενών υποομάδων, clusters. Αυτό που διαφοροποιεί το clustering από το classification είναι ότι το clustering δεν βασίζεται σε προκαθορισμένες κλάσεις. Στο classification, ο πληθυσμός διαιρείται σε κλάσεις αναθέτοντας κάθε στοιχείο ή εγγραφή σε μία προκαθορισμένη κλάση με βάση ένα μοντέλο που αναπτύσσεται μέσω της εκπαίδευσης του με παραδείγματα που έχουν κατηγοριοποιηθεί εκ των προτέρων. Στο clustering δεν υπάρχουν προκαθορισμένες κλάσεις. Οι εγγραφές ομαδοποιούνται σε σύνολα με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους. Επαφίεται σε εμάς να καθορίσουμε την σημασία που θα έχει κάθε ένα από τα clusters που προκύπτουν. Για παράδειγμα, τα clusters συμπτωμάτων μπορεί να υποδεικνύουν διαφορετικές ασθένειες, clusters που περιλαμβάνουν τα χαρακτηριστικά που σχετίζονται με τα φύλλα και τον καρπό φυτών μπορεί να υποδεικνύουν διαφορετικές ποικιλίες ενός φυτού. Το clustering μπορεί να χρησιμοποιηθεί και σαν εισαγωγή σε κάποια άλλη μορφή data mining μοντελοποίησης. Για παράδειγμα, το clustering μπορεί να χρησιμοποιηθεί σαν πρώτο βήμα στην προσπάθεια μερισμού της αγοράς. Αντί δηλαδή να προσπαθούμε να προσδιορίσουμε τι είδος promotion θα ταίριαζε καλύτερα σε κάθε πελάτη, μπορούμε να κατηγοριοποιήσουμε τους πελάτες αρχικά σε ομάδες (clusters) ατόμων που παρουσιάζουν τις ίδιες συνήθειες σχετικά με την αγορά προϊόντων και στην συνέχεια να προσδιορίσουμε το είδος του promotion που ταιριάζει σε κάθε ομάδα Εξόρυξη Κανόνων Συσχέτισης (Association Rules Mining) Στην περίπτωση αυτή έχουμε σύνολα από αντικείμενα ή εγγραφές, κάθε ένα από τα οποία περιέχει έναν αριθμό από αντικείμενα τα οποία ανήκουν σε μία δεδομένη συλλογή. Μία συνάρτηση συσχέτισης είναι μία συνάρτηση που εφαρμόζεται σε ένα σύνολο εγγραφών η οποία επιστρέφει σχέσεις ή πρότυπα τα οποία υπάρχουν στην συλλογή αυτή των αντικειμένων. Τα πρότυπα αυτά μπορεί να εκφραστούν με κανόνες, των οποίων η γενική μορφή είναι Εάν Χ τότε Υ ( If X then Y ).

31 31 Η εξαγωγή των κανόνων γίνεται με την βοήθεια κάποιων αλγορίθμων, οι οποίοι αποδεικνύονται αρκετά αποδοτικοί. Έπειτα από την ανάλυση και εύρεση των κανόνων θα πρέπει να διαπιστωθεί κατά πόσο είναι έγκυροι και σημαντικοί για την εφαρμογή μας. Υπάρχουν δύο συντελεστές οι οποίοι αναφέρονται σε αυτό το θέμα: είναι ο συντελεστής υποστήριξης (support factor) και ο συντελεστής εμπιστοσύνης (confidence factor). Έτσι για τον κανόνα Χ Υ, ο πρώτος υποδεικνύει το ποσοστό των εγγραφών που ισχύει ο συνδυασμός Χ και Υ, ενώ ο δεύτερος αναφέρεται στο ποσοστό των εγγραφών που όταν ισχύει το Χ ισχύει και το Υ. Για παράδειγμα, στην έκφραση "72% των εγγραφών που περιέχουν τα αντικείμενα Α, Β και C επίσης περιέχει και τα αντικείμενα D και Ε ", το ποσοστό των συμβάντων (72) καλείται συντελεστής εμπιστοσύνης του κανόνα. Ένα παράδειγμα χρήσης των συσχετίσεων είναι στην ανάλυση των αιτήσεων που υποβάλλονται από τους ασθενείς στις ασφαλιστικές εταιρίες. Κάθε αίτηση περιέχει ένα σύνολο από ιατρικές διαδικασίες που εκτελέστηκαν σε ένα συγκεκριμένο ασθενή κατά την διάρκεια μίας επίσκεψης. Ορίζοντας το σύνολο των αντικειμένων που αποτελούν όλες τις ιατρικές διαδικασίες που μπορούν να εκτελεστούν σε κάθε ασθενή καθώς και τις εγγραφές που αντιστοιχούν σε κάθε αίτηση, η εφαρμογή μπορεί να βρει με την βοήθεια της συνάρτησης συσχέτισης την σχέση που υπάρχει ανάμεσα στις ιατρικές διαδικασίες που εμφανίζονται πιο συχνά μαζί Εξόρυξη Ακολουθιακών Προτύπων (Sequential Pattern Mining) Η εξόρυξη ακολουθιακών προτύπων είναι η επέκταση της εξόρυξης κανόνων συσχέτισης. Αυτό που την διαφοροποιεί είναι ότι τα αντικείμενα σχετίζονται με το χρόνο. Οι αλγόριθμοι εξόρυξης ακολουθιακών προτύπων εφαρμόζονται σε ένα σύνολο δεδομένων, τα οποία αποτελούνται από τα αντικείμενα και τους αντίστοιχους χρόνους εμφάνισης τους. Τα ακολουθιακά πρότυπα αυτά μπορούν να εκφραστούν με κανόνες, των οποίων η γενική μορφή είναι «Αν Α και Β τότε Γ, σε μια εβδομάδα».

32 Εκτίμηση και πρόβλεψη (Estimation & Prediction) Σε αυτή την κατηγορία χρησιμοποιούνται δύο ειδών τεχνικές: η γραμμική και η μη γραμμική παλινδρόμηση. Στην πρώτη περίπτωση ο αλγόριθμος προσπαθεί να βρει μία γραμμή η οποία να προσεγγίζει με την μεγαλύτερη δυνατή πιθανότητα τις τιμές από ένα σύνολο σημείων του επιπέδου. Στην δεύτερη περίπτωση χρησιμοποιούνται κάποιοι μη γραμμικοί όροι για να μπορέσει το μοντέλο να πλησιάσει ακόμη περισσότερο το σύνολο των δεδομένων. Παρόλα αυτά, όμως, δεν είναι σίγουρο ότι μία τέτοια προσέγγιση μπορεί να καλύψει όλο το σύνολο των δεδομένων με σχετική ασφάλεια. Η RBF (Radial Basis Function - Ακτινικές Συναρτήσεις Βάσεις) είναι μία τεχνική για πρόβλεψη τιμών που παρουσιάζει μεγαλύτερη ευστάθεια και ευελιξία σε σχέση με τις παραδοσιακές τεχνικές. Η τεχνική αυτή βασίζεται στην επιλογή όχι μίας αλλά πολλών μη γραμμικών συναρτήσεων οι οποίες έχουν διαφορετικά βάρη στον τρόπο με τον οποίο επηρεάζουν τα δεδομένα. Τα RBFs μπορούν να χρησιμοποιηθούν για διαφορετικές περιοχές δεδομένων εισόδου. Με αυτόν τον τρόπο προσπαθεί κανείς να πλησιάσει όσο το δυνατόν με μεγαλύτερη ακρίβεια τα δεδομένα της εξόδου Παλινδρόμηση (Regression) Το regression αναφέρεται στην εκμάθηση μίας συνάρτησης η οποία αντιστοιχεί τα δεδομένα σε μία μεταβλητή πρόβλεψης (prediction variable) πραγματικής τιμής. Οι εφαρμογές του regression είναι πάρα πολλές π.χ. εκτίμηση της πιθανότητας ένας ασθενής να έχει κάποια ασθένεια δεδομένων των αποτελεσμάτων ενός συνόλου διαγνωστικών ελέγχων (tests), πρόβλεψη της ζήτησης ενός νέου προϊόντος από τους πελάτες σαν συνάρτηση των εξόδων για διαφήμιση Σύνοψη (Summarization) Περιλαμβάνει μεθόδους για την εύρεση μίας περιγραφής για ένα υποσύνολο δεδομένων. Ένα απλό παράδειγμα θα μπορούσε να είναι η εκτίμηση της μέσης και της τυπικής απόκλισης για όλα τα πεδία. Πιο εξεζητημένες λειτουργίες περιλαμβάνουν την παραγωγή συνοπτικών κανόνων, τεχνικές παρουσίασης πολλαπλών μεταβλητών και την ανακάλυψη λειτουργικών σχέσεων μεταξύ των

33 33 μεταβλητών. Οι εργασίες της σύνοψης χρησιμοποιούνται συχνά στην αλληλεπιδραστική ανάλυση δεδομένων και στην αυτοματοποιημένη παραγωγή αναφορών Προσδιορισμός Αλλαγής και Απόκλισης (Change and Deviation Detection) Η λειτουργία αυτή επικεντρώνεται στην εύρεση των σημαντικότερων αλλαγών στα δεδομένα λαμβάνοντας υπόψη προηγούμενες μετρήσεις. 1.9 Σύγχρονες Τάσεις Τεχνολογιών και Μεθόδων στην Εξόρυξη Δεδομένων Σήμερα, υπάρχουν διάφορες τάσεις από άποψη τεχνολογιών και μεθόδων στην διαδικασία εξόρυξης δεδομένων και αυτή την περίοδο βρίσκονται σε μια φάση ανάπτυξης και έρευνας. Οι τάσεις αυτές περιλαμβάνουν μεθόδους ανάλυσης πιο σύνθετων μορφών δεδομένων. Κυρίως, εστιάζονται στα κατανεμημένα δεδομένα, στην εξόρυξη από υπερκείμενα/υπερμέσα, από πανταχού παρούσα τεχνολογία από πολυμέσα, από χωρικές και γεωγραφικές Βάσεις Δεδομένων και από ακολουθιακά δεδομένα Κατανεμημένη Εξόρυξη Δεδομένων Ένας τομέας που προσελκύει τεράστια προσοχή και ερευνητικό ενδιαφέρον είναι η κατανεμημένη εξόρυξη δεδομένων. Ένα μεγάλο μέρος της έρευνας εστιάστηκε στην εξόρυξη συγκεντρωτικών δεδομένων σε μια φυσική τοποθεσία. Εντούτοις, τα δεδομένα μπορούν να βρίσκονται σε διαφορετικές τοποθεσίες. Όταν η διαδικασία εξόρυξης εκτελείται σε διαφορετικές τοποθεσίες, γενικά ονομάζεται κατανεμημένη εξόρυξη δεδομένων (DDM). Η κατανεμημένη εξόρυξη χρησιμοποιεί μια διαφορετική προσέγγιση ανάλυσης δεδομένων από την παραδοσιακή ανάλυση. Συνδυάζει σε ένα γενικό μοντέλο τα αποτελέσματα των τοπικών αναλύσεων. Όλη η διαδικασία αποτελείται από δυο φάσεις : Με την ανάλυση των τοπικών δεδομένων, δημιουργείται τοπικό μοντέλο των δεδομένων

34 34 Συνδυάζονται τα τοπικά μοντέλα από διαφορετικές τοποθεσίες με σκοπό την ανάπτυξη ενός γενικού μοντέλου. Το γενικό μοντέλο συνδυάζει τα αποτελέσματα των αναλύσεων των διαφορετικών τοποθεσιών. Συχνά το γενικό μοντέλο που παράγεται, μπορεί να είναι ανακριβή ή ασαφή όταν τα δεδομένα αποτελούνται από διαφορετικά χαρακτηριστικά ή γνωρίσματα σε διάφορες τοποθεσίες. Το πρόβλημα αυτό είναι ιδιαίτερα κρίσιμο όταν τα δεδομένα που βρίσκονται σε διαφορετικές τοποθεσίες είναι ετερογενείς παρά ομοιογενείς. Τα ετερογενή δεδoμένα χαρακτηρίζονται και ως κατακόρυφα τεμαχισμένα σύνολα δεδομένων Πανταχού Παρούσα Εξόρυξη Δεδομένων (Ubiquitous Data Mining UMD) Η εμφάνιση των laptops, palmtops, cell phones και wearable υπολογιστών κάνουν την πανταχού παρούσα πρόσβαση σε μεγάλες ποσότητες δεδομένων. Η ανάλυση των δεδομένων για εξαγωγή χρήσιμης γνώσης είναι το επόμενο φυσικό βήμα στον κόσμο του πανταχού παρόντος υπολογισμού. Η προσπέλαση και ανάλυση των δεομένων από πανταχού παρούσες συσκευές προσφέρει πολλές προκλήσεις. Για παράδειγμα, η UMD εισάγει επιπλέον κόστος που σχετίζεται με τις επικοινωνίες, ασφάλεια, πολυπλοκότητα και άλλους παράγοντες. Έτσι ένα από τα αντικείμενα της UMD είναι η ελαχιστοποίηση του κόστους επικοινωνιών. Η διαχείριση των δεδομένων σε ένα κινητό περιβάλλον είναι μια άλλη πτυχή στην UMD. Επίσης, η ανάπτυξη αλγορίθμων σε κατανεμημένο και κινητό περιβάλλον, η ολοκλήρωση των εφαρμογών βάσεων δεδομένων με κινητό περιβάλλον, η χρήση των λογισμικών πρακτόρων (agents) σ ένα τέτοιο περιβάλλον, αποτελούν άλλα βασικά ζητήματα της UMD Εξόρυξη Δεδομένων από Υπερκείμενα/Υπερμέσα (hypertext/ hypermedia data mining) Η διαδικασία εξόρυξης δεδομένων από υπερκείμενα/υπερμέσα σχετίζεται πολύ με την εξόρυξη από τον παγκόσμιο ιστό (web mining) και με πολυμέσα (multimedia) από άποψη περιεχομένου και εφαρμογών.

35 35 Ενώ, ο παγκόσμιος ιστός αποτελείται ουσιαστικά από υπερκείμενα και υπερμέσα, υπάρχουν και άλλες πηγές δεδομένων υπερκείμενα/υπερμέσα, τα οποία δεν βρίσκονται στον ιστό. Παραδείγματα τέτοιων περιπτώσεων είναι οι online κατάλογοι, οι ψηφιακές βιβλιοθήκες, οι online Βάσεις Δεδομένων και άλλα. Μερικές από τις πιο σημαντικές τεχνικές που χρησιμοποιούνται στην διαδικασία εξόρυξης δεδομένων από υπερκείμενα και υπερμέσα είναι η κατηγοριοποίηση (μάθηση με εποπτεία ή εποπτευόμενη μάθηση - supervised learning), ομαδοποίηση (μάθηση χωρίς εποπτεία - unsupervised learning), η ημιδομημένη εκμάθηση και ανάλυση κοινωνικών δικτύων. Η χρήση της τεχνικής classification στην εξόρυξη από τον παγκόσμιο ιστό σχετίζεται με την ομαδοποίηση των καταλόγων ανά θέμα, έτσι η αναζήτηση να μην βασίζεται μόνο στις λέξεις κλειδιά αλλά και στις ιδιότητες ομαδοποίησης. Ενώ, η τεχνική της clustering σχετίζεται με την δημιουργία ιεραρχίας των εγγράφων βάση της ομοιότητάς τους. Η ημι-δομημένη εκμάθηση σχετίζεται με κείμενα που έχουν δομημένο και αδόμητο μέρος, όπως για παράδειγμα τα s. Επίσης ο ιστός θεωρείται κοινωνικό δίκτυο. Εξετάζονται τα δίκτυα που διαμορφώνονται αν είναι μεταξύ των φίλων ή ακαδημαϊκών και άλλα Εξόρυξη Πολυμέσων Δεδομένων (Multimedia Data Mining) Η εξόρυξη πολυμέσων δεδομένων, είναι η ανάλυση διαφορετικών τύπων δεδομένων που συμπεριλαμβάνεται εικόνα, ήχος, βίντεο και κίνηση (animation). Οι τεχνικές εξόρυξης πολυμέσων δεδομένων σχετίζονται άμεσα με τις τεχνικές που χρησιμοποιούνται στην διαδικασία εξόρυξης δεδομένων από υπερκείμενα και μέσα. Η περιοχή αυτή είναι μάλλον νέα, αλλά υπόσχεται πολλά για το μέλλον. Τα πολυμέσα δεδομένα από την φύση τους είναι μια μεγάλη συλλογή από αντικείμενα και πρέπει να αναπαρασταθούν με ένα διαφορετικό τρόπο από τις παραδοσιακές μεθόδους. Μια προσέγγιση είναι η δημιουργία πολυμέσων κύβος (cube) δεδομένων η οποία είναι κατάλληλη για ανάλυση των δεδομένων από τις κύριες τεχνικές της εξόρυξης δεδομένων. Η απεικόνιση των πολυμέσων δεδομένων σε ένα πολυμέσα κύβο δεδομένων πρέπει να λάβει υπ όψιν τα ιδιαίτερα χαρακτηριστικά των πολυμέσων δεδομένων, όπως τις διαστάσεις, τη μορφή, το

36 36 χρώμα και άλλες ιδιότητες των αντικειμένων. Στην ουσία, είναι δυνατό να δημιουργηθεί μια πολυδιάστατη χωρική Βάση Δεδομένων. Οι βασικοί τύποι ανάλυσης στα πολυμέσα δεδομένα που μπορούν να εφαρμοστούν είναι η συσχέτιση, η classification η clustering και η αναζήτηση ομοιότητας Εξόρυξη Δεδομένων από Χωρικές και Γεωγραφικές Βάσεις Δεδομένων (Spatial and Geographic data mining) Οι τύποι δεδομένων που βασίζονται πολλές τεχνικές της εξόρυξης δεδομένων συνήθως είναι γνωστοί και περιλαμβάνουν στατιστικά ή γενικά αριθμητικά δεδομένα ποικίλων ειδών. Εντούτοις, είναι επίσης σημαντικό να εξεταστούν δεδομένα που είναι εξ ολοκλήρου διαφορετικού τύπου, όπως τα χωρικά και γεωγραφικά δεδομένα που μπορούν να περιέχουν αστρονομικά δεδομένα, εικόνες της γης που στέλνονται από ένα διαστημικό σκάφος. Ένα μεγάλο μέρος αυτών των δεδομένων, αποτελείται από εικόνες και μπορούν να αντιπροσωπεύουν πολλές πληροφορίες αν επεξεργαστούν και αναλυθούν κατάλληλα. Ο ορισμός της εξόρυξης χωρικών δεδομένων είναι: «η εξόρυξη έμμεσης (implicit) γνώσης, χωρικών σχέσεων και άλλων προτύπων που αποθηκεύονται όχι με ρητό τρόπο στις χωρικές βάσεις δεδομένων». Μερικά από τα συστατικά των χωρικών βάσεων δεδομένων που τις διαφοροποιούν από άλλες βάσεις είναι ότι περιλαμβάνουν αποστάσεις και τοπολογικές πληροφορίες. Η οποιαδήποτε ανάλυση τέτοιων δεδομένων πρέπει να λάβει υπ όψιν τα χαρακτηριστικά αυτά Εξόρυξη Ακολουθιακών/Χρονικών Δεδομένων (Time series/sequence data mining) Μια άλλη σημαντική περιοχή που είναι στο κέντρο της έρευνας στην εξόρυξη δεδομένων είναι η εξόρυξη ακολουθιακών προτύπων. Με μια απλή τοποθέτηση, περιλαμβάνει την εξόρυξη από ακολουθιακά δεδομένα. Τα δεδομένα μπορεί να είναι ακολουθιακά που σχετίζονται με το χρόνο, είτε δεδομένα που έχουν ταξινομηθεί ακολουθιακά. Γενικά, μια σημαντική πτυχή της εξόρυξης ακολουθιακών δεδομένων είναι ότι εστιάζεται στις μετακινήσεις ή στα συστατικά που υπάρχουν μέσα στα δεδομένα. Με άλλα λόγια, εστιάζεται στην ανάλυση τάσεων στα δεδομένα (trend

37 37 analysis) και μπορεί να περιλαμβάνει μακροπρόθεσμες μετακινήσεις ή τάσεις εποχιακές ή κυκλικές αλλαγές. Μια άλλη τεχνική που μπορεί να χρησιμοποιηθεί σε αυτό τον τύπο δεδομένων είναι η αναζήτηση ομοιότητας, η ακολουθιακή εξόρυξη προτύπων και η ανάλυση περιοδικότητας. Η ανάλυση ομοιότητας σχετίζεται με την ταυτοποίηση ενός ακολουθιακού προτύπου στα δοθέντα ακολουθιακά δεδομένα, το οποίο είναι κοντά ή όμοια και μπορεί να αποσυντεθεί σε δυο κατηγορίες: ολικό ακολουθιακό ταίριασμα και μερικά ή υποακολουθιακό ταίριασμα. Το ολικό ταίριασμα προσπαθεί να βρει όλες τις ακολουθίες που έχουν την ίδια ομοιότητα, ενώ το υποακολουθιακό ταίριασμα προσπαθεί να βρει όλες τις ακολουθίες που έχουν την προσδιορισμένη ομοιότητα. Η εξόρυξη ακολουθιακών προτύπων εστιάζεται στον προσδιορισμό των ακολουθιών που εμφανίζονται συχνά σε ακολουθιακά δεδομένα που μπορεί να σχετίζονται με το χρόνο ή απλά έχουν ακολουθιακή ταξινόμηση. Αυτό είναι ιδιαίτερα χρήσιμο στην ανάλυση των πελατών στην οποία μπορεί να προσδιοριστούν αγοραστικά ακολουθιακά πρότυπα. Η ανάλυση περιοδικότητας προσπαθεί να αναλύσει τα δεδομένα από την προοπτική να προσδιορίσει τα πρότυπα που επαναλαμβάνονται ή επανεμφανίζονται στα ακολουθιακά δεδομένα σε ένα χρονικό διάστημα. Αυτού του τύπου η ανάλυση δεδομένων μπορεί να κατηγοριοποιηθεί σε πλήρης, μερική και κυκλική περιοδική ανάλυση Εξόρυξη Δεδομένων Βασισμένη σε Περιορισμούς (constraint-based data mining) Πολλές από τις τεχνικές εξόρυξης δεδομένων που χρησιμοποιούνται στερούνται από το όφελος οποιασδήποτε καθοδήγησης ή ελέγχου που τίθεται από τον χρήστη. Η εξόρυξη δεδομένων βασισμένη σε περιορισμούς εμπεριέχει τη συμμετοχή του χρήστη και ενσωματώνει την χρήση των περιορισμών που καθοδηγούν τη διαδικασία της εξόρυξης. Υπάρχουν διάφορες κατηγορίες περιορισμών και κάθε μια έχει τους δικούς της σκοπούς και χαρακτηριστικά: Περιορισμοί τύπου γνώσεων (knowledge-type): Ο περιορισμός αυτός προσδιορίζει τον τύπο της γνώσης που θα προκύψει από τη διαδικασία εξόρυξης και

38 38 διευκρινίζει τα χαρακτηριστικά της γνώσης στην αρχή της ερώτησης εξόρυξης. Μερικοί από τους τύπους περιορισμών που μπορούν να χρησιμοποιηθούν είναι clustering, classification και οι κανόνες συσχέτισης. Περιορισμοί δεδομένων: Σε αυτή την περίπτωση, ο περιορισμός εστιάζεται στα δεδομένα και προσδιορίζει τα δεδομένα που θα χρησιμοποιηθούν στην επερώτηση εξόρυξης. Επειδή η εξόρυξη βασισμένη σε περιορισμούς είναι ιδανική στο πλαίσιο ad-hoc, βασισμένο σε επερωτήσεις (query) συστημάτων, ο περιορισμός των δεδομένων μπορεί να προσδιορισθεί όπως στην περίπτωση SQL επερωτήσεων Φαινομενική Εξόρυξη Δεδομένων (Phenomenal data mining) Η τεχνική αυτή στρέφεται στις συσχετίσεις μεταξύ των δεδομένων και των φαινομένων, οι οποίες μπορεί να προκύψουν. Ένα απλό παράδειγμα μιας τέτοιας συσχέτισης είναι οι πληρωμές των αγορών σε ένα πολυκατάστημα, που μπορούν να προσδιορίσουν διάφορες πτυχές των πελατών που κάνουν αυτές τις αγορές. Μερικά από αυτά τα φαινόμενα θα μπορούσαν να συμπεριλάβουν την ηλικία, το εισόδημα, την εθνικότητα και τις αγοραστικές συνήθειες.

39 39 Κεφάλαιο Δεύτερο 2. Κατηγοριοποίηση 2.1 Εισαγωγή στην Κατηγοριοποίηση Η κατηγοριοποίηση (classification) είναι η πιο γνωστή και πιο δημοφιλής τεχνική εξόρυξης γνώσης (data mining). Πολλές εταιρίες του ιδιωτικού και του δημόσιου τομέα χρησιμοποιούν σε καθημερινή βάση συστήματα κατηγοριοποίησης. Παραδείγματα τέτοιου είδους συστημάτων είναι τα συστήματα αναγνώρισης προτύπων, συστήματα ιατρικών διαγνώσεων, συστήματα έγκρισης δανείων και πιστωτικών καρτών, συστήματα ανίχνευσης λαθών σε βιομηχανικές εφαρμογές, συστήματα κατηγοριοποίησης των τάσεων στην οικονομία κ.α. Για παράδειγμα όταν κάποιος προβλέπει μια ηλικία, στην ουσία επιλύει ένα πρόβλημα κατηγοριοποίησης. Ένα πιο καλά ορισμένο παράδειγμα είναι το παρακάτω: Παράδειγμα 2.1: Οι επιχειρήσεις κατηγοριοποιούν τους υπαλλήλους τους ως A, B, C, D ή F με βάση τους μισθούς τους. Χρησιμοποιώντας απλά όρια (600, 700, 800, 900) μπορούμε να έχουμε τον παρακάτω διαχωρισμό των υπαλλήλων σε κλάσεις: 900 μισθός Α, 800 μισθός < 900 Β, 700 μισθός < 800 C, 600 μισθός < 700 D, Μισθός < 600 F Όλες οι προσεγγίσεις στην εκτέλεση της κατηγοριοποίησης προϋποθέτουν γνώση των δεδομένων. Συνήθως χρησιμοποιούμε ένα σύνολο εκπαίδευσης για να καθορίσει τις συγκεκριμένες παραμέτρους που απαιτούνται από την τεχνική. Τα δεδομένα εκπαίδευσης (training data) αποτελούνται από ένα δείγμα δεδομένων εισόδου καθώς επίσης και από την κατηγοριοποίηση που έχει δοθεί σε αυτά τα δεδομένα. Το πρόβλημα της κατηγοριοποίησης παρουσιάζεται από τους ορισμούς 2.1 και 2.2 [5]. Ο δεύτερος ορισμός περιγράφει το πρόβλημα με μαθηματικό τρόπο.

40 40 Ορισμός 2.1: Η κατηγοριοποίηση (classification) είναι η διαδικασία η οποία απεικονίζει ένα σύνολο δεδομένων σε προκαθορισμένες ομάδες. Τις ομάδες αυτές συχνά τις καλούμε κατηγορίες ή κλάσεις. Ορισμός 2.2: Έστω μια Βάση Δεδομένων DB = {t 1,t 2,,t n } πλειάδων (στοιχείων, εγγραφών) και ένα σύνολο από κατηγορίες C = {C 1,C 2,,C m }. Το πρόβλημα της κατηγοριοποίησης είναι ο ορισμός μιας απεικόνισης f: DB C όπου κάθε t i τοποθετείται σε μια κατηγορία. Μια κατηγορία ή κλάση C j, περιέχει ακριβώς αυτές τις πλειάδες όπου έχουν απεικονιστεί σε αυτή, δηλαδή C j = {t i f(t i ) = C j, 1 i n, και t i DB }. Οι ορισμοί 2.1 και 2.2 θεωρούν την κατηγοριοποίηση σαν μια απεικόνιση από τη Βάση Δεδομένων στο σύνολο των κατηγοριών. Θα πρέπει να τονίσουμε ότι οι κατηγορίες είναι προκαθορισμένες, δεν επικαλύπτονται και διαμερίζουν ολόκληρη την Βάση Δεδομένων. Κάθε στοιχείο της Βάσης Δεδομένων τοποθετείται σε ακριβώς μια κατηγορία. Οι κατηγορίες που υπάρχουν σε ένα πρόβλημα κατηγοριοποίησης είναι στην πραγματικότητα κλάσεις ισοδυναμίας (equivalence classes). Η επίλυση των προβλημάτων κατηγοριοποίησης περιλαμβάνει δύο βασικά στάδια (σχήμα 2.4): Δημιουργούμε ένα μοντέλο από την αξιολόγηση και την ανάλυση των δεδομένων εκπαίδευσης. Αυτό το βήμα έχει σαν είσοδο τα δεδομένα εκπαίδευσης και σαν έξοδο ένα ορισμό του μοντέλου που αναπτύχθηκε. Το μοντέλο που δημιουργείται από αυτό το στάδιο είναι σε θέση να κατηγοριοποιεί τα δεδομένα εκπαίδευσης με όσο το δυνατό μεγαλύτερη ακρίβεια. Όταν είναι ήδη γνωστές οι κατηγορίες του συνόλου των δεδομένων εκπαίδευσης, δηλαδή το σύνολο των δεδομένων εκπαίδευσης περιλαμβάνει ένα χαρακτηριστικό το οποίο δείχνει την κλάση στην οποία κατηγοριοποιείται η κάθε πλειάδα, τότε το βήμα αυτό λέγεται εποπτευμένη μάθηση (supervised learning), ενώ σε αντίθετη περίπτωση, όταν δεν είναι γνωστές οι κατηγορίες του συνόλου των δεδομένων εκπαίδευσης, τότε το βήμα αυτό λέγεται μη εποπτευμένη μάθηση (un supervised learning - clustering). Σε αυτή την εργασία δεν εξετάζεται η μη εποπτευόμενη μάθηση. Εφαρμόζουμε το μοντέλο που αναπτύχθηκε στο προηγούμενο βήμα κατηγοριοποιώντας τις πλειάδες της υπό εξέταση Βάσης Δεδομένων (μελλοντικές περιπτώσεις).

41 41 Εάν και το δεύτερο βήμα στην πραγματικότητα εκτελεί την κατηγοριοποίηση, η περισσότερη έρευνα έχει γίνει για το πρώτο βήμα. Το δεύτερο βήμα συνήθως είναι εύκολο στην υλοποίηση. Για να λύθεί το πρόβλημα της κατηγοριοποίησης υπάρχουν τρεις βασικές μέθοδοι που χρησιμοποιούνται: Καθορισμός των ορίων: Η κατηγοριοποίηση εκτελείται με διαίρεση του χώρου της εισόδου των εν δυνάμει πλειάδων της Βάσης Δεδομένων σε περιοχές όπου κάθε περιοχή συνδέεται με μια κατηγορία. Χρήση κατανομών πιθανότητας: Για κάθε κατηγορία που δίνεται C j P(t i C j ) είναι η συνάρτηση κατανομής πιθανότητας (probability distribution function) για την κατηγορία υπολογισμένη σε ένα σημείο, t i. Αν η πιθανότητα εμφάνισης κάθε κατηγορίας P(C j ), είναι γνωστή (ίσως να έχει οριστεί από κάποιον ειδικό του πεδίου εφαρμογής domain expert), τότε P(C j ) P(t i C j ) είναι η εκτίμηση της πιθανότητας ότι η t i ανήκει στην κατηγορία C j. Χρήση εκ των υστέρων πιθανοτήτων: Με δεδομένη μια τιμή δεδομένων t i, θέλουμε να καθορίσουμε την πιθανότητα για την οποία η t i ανήκει στην κατηγορία C j. Αυτό υποδηλώνεται με το P(C j t i ) που ονομάζεται εκ των υστέρων πιθανότητα (posterior probability). Μια προσέγγιση κατηγοριοποίησης είναι ο καθορισμός της εκ των υστέρων πιθανότητας για κάθε κατηγορία και στη συνέχεια η τοποθέτηση των πλειάδων στην κατηγορία με τη μεγαλύτερη πιθανότητα. Το παράδειγμα 2.1 ανήκει στην πρώτη κατηγορία όπως επίσης και όλες οι τεχνικές δένδρων απόφασης, ενώ οι προσεγγίσεις των νευρωνικών δικτύων ανήκουν στην τρίτη κατηγορία. Ας υποθέσουμε ότι μας δίνεται μια Βάση Δεδομένων που αποτελείται από πλειάδες της μορφής t = <x,y> όπου 0 x 8 και 0 y 10. Το σχήμα 2.1 παρουσιάζει το πρόβλημα της κατηγοριοποίησης. Το σχήμα 2.1 (α) παρουσιάζει τις προκαθορισμένες κατηγορίες κλάσεις, το σχήμα 2.1 (β) παρέχει δείγματα δεδομένων εισόδου και το σχήμα 2.1 (γ) παρουσιάζει την κατηγοριοποίηση των δεδομένων με βάση τις ορισμένες κατηγορίες.

42 42 α. ορισμός κατηγοριών β. ΒΔ προς κατηγοριοποίηση γ. κατηγοριοποιημένη ΒΔ Σχήμα 2.1 Το πρόβλημα της κατηγοριοποίησης Ένα πολύ σημαντικό ζήτημα σχετικό με την κατηγοριοποίηση είναι η υπερπροσαρμογή. Συγκεκριμένα, όταν λέμε υπερπροσαρμογή εννοούμε το φαινόμενο κατά το οποίο η τεχνική κατηγοριοποίηση ταιριάζει ακριβώς στα δεδομένα εκπαίδευσης και ίσως να μη μπορεί να εφαρμοστεί σε πιο ευρύ πληθυσμό δεδομένων. Για παράδειγμα, αν υποθέσουμε ότι τα δεδομένα εκπαίδευσης περιέχουν λανθασμένα δεδομένα ή δεδομένα με θόρυβο, τότε σε αυτή την περίπτωση το ακριβές ταίριασμα των δεδομένων δεν είναι επιθυμητό. 2.2 Καθάρισμα Δεδομένων Είναι πολύ συχνό το φαινόμενο κατά το οποίο τιμές χαρακτηριστικών (attributes) των πλειάδων των συνόλων δεδομένων είναι λανθασμένες (θόρυβος), ελλιπείς (missing values) και ασυνεπείς. Το φαινόμενο του θορύβου οφείλεται σε ανθρώπινα λάθη ή λάθη του υπολογιστή, ενώ το φαινόμενο των ελλιπή δεδομένων οφείλεται σε μη εισαγωγή στοιχείων για κάποιες συγκεκριμένες πλειάδες την ώρα της εισαγωγής αφού αυτά δεν είχαν αξία την συγκεκριμένη στιγμή. Επίσης, το φαινόμενο των ασυνεπών δεδομένων οφείλεται σε ενοποιήσεις δεδομένων όπου ένα χαρακτηριστικό έχει διαφορετικό όνομα στις διαφορετικές Βάσεις Δεδομένων. Για αυτό λοιπόν, πριν ξεκινήσει η διαδικασία της εκπαίδευσης του αλγορίθμου κατηγοριοποίησης και της δοκιμής του, θα πρέπει να γίνει το λεγόμενο καθάρισμα των δεδομένων (data cleaning).

43 43 Για να αντιμετωπιστεί το φαινόμενο των ελλιπή δεδομένων υπάρχουν οι εξής τρόποι: Αγνόησε το παράδειγμα: Αυτό γίνεται όταν λείπει η τιμή του χαρακτηριστικού κλάσης. Γέμισε τις τιμές που λείπουν με το χέρι: Χρονοβόρα μέθοδος όπου δεν είναι εφικτή αν είναι πάρα πολλές οι πλειάδες. Χρησιμοποίησε μια σταθερά για το γέμισμα των τιμών που λείπουν (π.χ. «unknown»): Το σύστημα θα χρησιμοποιήσει λανθασμένα αυτού του είδους τις τιμές, αλλά αν και είναι απλή μέθοδος δεν προτείνεται. Χρήση του μέσου όρου των τιμών του χαρακτηριστικού για την συμπλήρωση των τιμών που λείπουν του συγκεκριμένου χαρακτηριστικού. Χρήση του μέσου όρου των τιμών του χαρακτηριστικού για όλες τις πλειάδες που ανήκουν στην ίδια κλάση. π.χ. συμπλήρωση των τιμών που λείπουν με τον μέσο όρο του εισοδήματος για τους πελάτες με το ίδιο credit_risk. Χρήση της πιο πιθανής τιμής. Επίσης για την αντιμετώπιση του φαινομένου του θορύβου υπάρχουν οι παρακάτω τρόποι: Binning: Εξομαλύνει τα δεδομένα συμβουλεύοντας τις τιμές των γειτόνων. Υπάρχουν πολλές τεχνικές binning. Συσταδοποίηση (Clustering): Οι πλειάδες που είναι ακραίες τιμές (outliers) μπορούν να βρεθούν χρησιμοποιώντας τεχνικές συσταδοποίησης. Συνδυασμός ελέγχου υπολογιστή και ανθρώπου ώστε να εντοπιστούν οι outliers. Παλινδρόμηση (Regression): Μπορούν να χρησιμοποιηθούν τεχνικές παλινδρόμησης ώστε οι τιμές των μεταβλητών να μπορούν να βρεθούν από τις άλλες μεταβλητές.

44 Απόδοση της Κατηγοριοποίησης Όπως αναφέραμε παραπάνω, υπάρχουν αρκετοί αλγόριθμοι κατηγοριοποίησης. Θα πρέπει να κοιτάξουμε και ποιος είναι ο καλύτερος αλγόριθμος κατηγοριοποίησης. Η επίδοση των αλγορίθμων εξετάζεται με την εκτίμηση της ακρίβειας (accuracy) της κατηγοριοποίησης, δηλαδή την ικανότητα του μοντέλου να προβλέπει την κατηγορία μιας νέας περίπτωσης. Η εκτίμηση της ακρίβειας είναι ένα πολύ σημαντικό ζήτημα στο χώρο της κατηγοριοποίησης αφού κάτι τέτοιο μας δείχνει το πόσο καλά ανταποκρίνεται ο αλγόριθμος μας για δεδομένα με τα οποία δεν έχει εκπαιδευτεί. Η εκτίμηση της ακρίβειας είναι επίσης θεμιτή αφού μας επιτρέπει την σύγκριση των διαφόρων αλγορίθμων κατηγοριοποίησης. Αν και η ακρίβεια είναι το πιο σημαντικό μέτρο αποτίμησης της απόδοσης του αλγορίθμου κατηγοριοποίησης που χρησιμοποιούμε, υπάρχουν και άλλα μέτρα σύγκρισης όπως: Ταχύτητα: Κόστος υπολογισμού (συμπεριλαμβανομένου την παραγωγή και τη χρήση του μοντέλου). Σθεναρότητα (Robustness): Σωστή πρόβλεψη με ελλιπή δεδομένα ή δεδομένα με θόρυβο. Κλιμάκωση (Scalability): Αποδοτική κατασκευή του μοντέλου δοθέντος μεγάλη ποσότητα δεδομένων (μπορεί να εκτιμηθεί μετρώντας τις λειτουργίες I/O που απαιτεί ο αλγόριθμος). Κατανοητότητα (Interpretability): Επίπεδο κατανόησης και γνώση που παρέχεται από το μοντέλο. (Μπορεί να εκτιμηθεί μετρώντας το πόσο πολύπλοκο είναι το μοντέλο π.χ. αριθμός κόμβων στα δένδρα απόφασης, αριθμός επιπέδων στα νευρωνικά δίκτυα κ.α.). Τώρα θα επιστρέψουμε στην ακρίβεια στη πρόβλεψη της κλάσης που είναι το σημαντικότερο μέτρο μέτρησης απόδοσης. Το μέτρο αυτό είναι το πιο σημαντικό, ωστόσο δε θα πρέπει να υπολογίζεται ανεξάρτητα από τα υπόλοιπα μέτρα. Για παράδειγμα, δεν έχει νόημα το να έχουμε έναν αλγόριθμο κατηγοριοποίησης που μας δίνει αποτελέσματα με πολύ υψηλή ακρίβεια μετά από πολύ χρόνο. Ίσως να ήταν καλύτερη επιλογή το να έχουμε έναν αλγόριθμο κατηγοριοποίησης που να μας δίνει αποτελέσματα με λίγο χαμηλότερη ακρίβεια από τον καλύτερο (ως προς την ακρίβεια) αλγόριθμο κατηγοριοποίησης αλλά πιο σύντομα. Η ακρίβεια της

45 45 κατηγοριοποίησης συνήθως υπολογίζεται με τον καθορισμό του ποσοστού των πλειάδων που τοποθετούνται την σωστή κατηγορία. Για να εκτιμήσουμε την ακρίβεια του αλγορίθμου κατηγοριοποίησης υπάρχουν οι εξής τρεις τρόποι: Μπορούμε να χρησιμοποιήσουμε ένα σύνολο δεδομένων αρχικά για να εκπαιδεύσουμε τον αλγόριθμο μας και στην συνέχεια να χρησιμοποιήσουμε το ίδιο σύνολο δεδομένων για να εκτιμήσουμε την ακρίβεια του αλγορίθμου. Μια τέτοια επιλογή θα μας οδηγούσε σε μια πολύ αισιόδοξη εκτίμηση της ακρίβειας αφού ο αλγόριθμος εκπαιδεύεται αλλά και δοκιμάζεται με το ίδιο σύνολο δεδομένων. Άλλος ένας τρόπος εκτίμησης της ακρίβειας ενός αλγορίθμου κατηγοριοποίησης είναι η μέθοδος της κατακράτησης (holdout method) (Σχήμα 2.2). Χρησιμοποιώντας αυτή την μέθοδο, το σύνολο δεδομένων που έχουμε στην διάθεση μας χωρίζεται με τυχαίο τρόπο σε δυο ανεξάρτητα σύνολα δεδομένων. Το πρώτο ονομάζεται σύνολο δεδομένων εκπαίδευσης και χρησιμοποιείται για την εκπαίδευση του αλγορίθμου κατηγοριοποίησης και το δεύτερο ονομάζεται σύνολο δεδομένων δοκιμής που χρησιμοποιείται για την δοκιμή του αλγορίθμου και την εκτίμηση της ακρίβειας. Στις περισσότερες περιπτώσεις, χρησιμοποιείται τα 2/3 του συνόλου δεδομένων σαν σύνολο εκπαίδευσης και το υπόλοιπο 1/3 σαν σύνολο δοκιμής. Μια παραλλαγή αυτής της μεθόδου είναι γνωστή με το όνομα στοχατική υποδειγματοληψία (random subsampling. Η παραλλαγή αυτή εκτελεί την μέθοδο της κατακράτησης κ φορές. Η τελική εκτίμηση της ακρίβειας είναι ο μέσος όρος των εκτιμήσεων ακρίβειας των επαναλήψεων.

46 46 Σχήμα 2.2 Εκτίμηση ακρίβειας χρησιμοποιώντας την μέθοδο της κατακράτησης Ένας λίγο πιο σύνθετος τρόπος εκτίμησης της απόδοσης είναι ο k-fold cross validation. Σύμφωνα με αυτόν, το αρχικό σύνολο δεδομένων αρχικά χωρίζεται σε k υποσύνολα ή folds, S 1,S 2,,S k κάθε ένα από τα οποία είναι ίδιου μεγέθους.. Η εκπαίδευση και η δοκιμή εκτελείται k φορές. Στην i επανάληψη, το υποσύνολο S i παίζει τον ρόλο του συνόλου δοκιμής, ενώ τα υπόλοιπα k-1 υποσύνολα χρησιμοποιούνται για την εκπαίδευση του αλγορίθμου. Αυτό σημαίνει ότι στην πρώτη επανάληψη, το S 1 λειτουργεί σαν σύνολο δοκιμής ενώ τα {S 2,S 3,,S k } σαν σύνολο εκπαίδευσης. Αντίστοιχα στην δεύτερη επανάληψη, το S 2 λειτουργεί σαν σύνολο δοκιμής, ενώ τα {S 1,S 3,,S k } σαν σύνολο εκπαίδευσης. Η ακρίβεια υπολογίζεται διαιρώντας το συνολικό αριθμό τον σωστών κατηγοριοποιήσεων με τον αριθμό των πλειάδων του αρχικού συνόλου δεδομένων. Όπως γίνεται εύκολα κατανοητό, αυτή η προσέγγιση απαιτεί k φορές περισσότερο χρόνο από την μέθοδο της κατακράτησης. Σύμφωνα με την βιβλιογραφία προτείνεται το 10 σαν καταλληλότερος αριθμός επαναλήψεων (10-fold cross validation). Έστω ότι θέλουμε να εκπαιδεύσουμε έναν αλγόριθμο κατηγοριοποίησης με ένα σύνολο ιατρικών δεδομένων ώστε αυτός να είναι σε θέση να κατατάσσει τις μελλοντικές πλειάδες στις κατηγορίες «cancer» ή «not_cancer». Μια εκτίμηση της ακριβείας γύρω στο 90% μπορεί να παρουσιάζει τον αλγόριθμο μας αρκετά ακριβή, ωστόσο τι γίνεται αν μόνο το 3-4% των δεδομένων εκπαίδευσης ανήκει στην κατηγορία «cancer». Σε μια τέτοια περίπτωση, ένας αλγόριθμος κατηγοριοποίησης με ακρίβεια 90% ίσως να μην είναι δεκτός αφού στην πραγματικότητα θα μπορεί να αναγνωρίζει και να κατηγοριοποιεί μόνο τις πλειάδες που ανήκουν στην κατηγορία

47 47 «cancer». Αντιθέτως εμείς θέλουμε να είμαστε σε θέση να καταλαβαίνουμε το πόσο καλά ο αλγόριθμός μας αναγνωρίζει τις «cancer» πλειάδες (θετικά δείγματα - positive samples) και πόσο καλά αναγνωρίζει τις «non-cancer» πλειάδες (αρνητικά δείγματα - negative samples). Για να γίνει αυτό μπορούμε να χρησιμοποιήσουμε τα μέτρα ευαισθησία (sensitivity) και ειδικότητα (specificity) αντίστοιχα. Επίσης, το μέτρο precision μας δείχνει την ακρίβεια του αλγόριθμου μας, δηλαδή το πόσες πλειάδες κατηγοριοποιήθηκαν σωστά προς τον αριθμό των πλειάδων του συνόλου δεδομένων δοκιμής, χωρίς να εμπεριέχεται σε αυτή η ευαισθησία και η ειδικότητα. Πιο συγκεκριμένα, το precision μας λέει αν έχουν κατηγοριοποιηθεί σωστά τα στοιχεία. Τα παραπάνω μέτρα μπορούν να οριστούν ως εξής: t_pos είναι ο αριθμός των true positives («cancer» πλειάδες που σωστά κατηγοριοποιήθηκαν σαν «cancer»), pos είναι ο αριθμός των positive («cancer») πλειάδων, t_neg είναι ο αριθμός των true negatives («not_cancer» πλειάδες που σωστά κατηγοριοποιήθηκαν σαν «not_cancer»), neg είναι ο αριθμός των negative («not_cancer») πλειάδων και f_pos είναι ο αριθμός των false positives («not_cancer» πλειάδες που λανθασμένα κατηγοριοποιήθηκαν σαν «cancer») Επίσης, μπορούμε να εξετάσουμε την απόδοση της κατηγοριοποίησης με ένα τρόπο όμοιο με αυτό που εφαρμόζεται στα συστήματα ανάκτησης πληροφοριών. Όταν έχουμε δύο κλάσεις, υπάρχουν τέσσερα πιθανά ενδεχόμενα κατηγοριοποίησης, όπως φαίνεται στο σχήμα 2.3. Το πάνω αριστερά και κάτω δεξιά τεταρτημόριο υποδηλώνουν λανθασμένες ενέργειες. Η επίδοση της κατηγοριοποίησης θα μπορούσε να καθοριστεί με την απόδοση κάποιου κόστους σε κάθε ένα από τα τεταρτημόρια. Ωστόσο κάτι τέτοιο θα ήταν δύσκολο αφού θα χρειαζόντουσαν m 2 κόστη, όπου m είναι ο αριθμός των κατηγοριών.

48 48 α. Ανάκτηση πληροφοριών β. κατηγοριοποίηση στην κλάση Α γ. πρόβλεψη κατηγορίας Σχήμα 2.3 Σύγκριση της απόδοσης της κατηγοριοποίησης με την ανάκτηση πληροφορίας Με δεδομένη μια συγκεκριμένη κατηγορία, C j και μια πλειάδα της Βάσης Δεδομένων, t i, αυτή η πλειάδα είτε θα καταχωρηθεί σε αυτή την κατηγορία είτε όχι, ενώ στην πραγματικότητα μπορεί να είναι ή να μην είναι μέλος αυτής της κατηγορίας. Αυτή η παρατήρηση πάλι μας δίνει τα τέσσερα τεταρτημόρια που παρουσιάζονται στο σχήμα 2.3 (γ), τα οποία μπορούμε να περιγράψουμε με τους εξής τρόπους: Αληθώς θετικό (True Positive - TP): το t i εκτιμάται ότι ανήκει στην κατηγορία C j και πράγματι ανήκει σε αυτήν. Ψευδώς θετικό (False Positive - FP): το t i εκτιμάται ότι ανήκει στην κατηγορία C j ενώ στην πραγματικότητα δεν ανήκει σε αυτήν. Αληθώς αρνητικό (True Negative - TN): το t i εκτιμάται ότι δεν ανήκει στην κατηγορία C j και πράγματι δεν ανήκει σε αυτήν. Ψευδώς αρνητικό (False Negative - FN): το t i εκτιμάται ότι δεν ανήκει στην κατηγορία C j ενώ στην πραγματικότητα ανήκει σε αυτήν. Ένας άλλος τρόπος που επιδεικνύει την ακρίβεια της λύσης σε ένα πρόβλημα κατηγοριοποίησης είναι ο πίνακας σύγχυσης ή μήτρα σύγχυσης (confusion matrix). Με δεδομένες m κατηγορίες μια μήτρα σύγχυσης είναι μια m x m μήτρα όπου κάθε καταχώρηση C i, j δείχνει τον αριθμό των πλειάδων οι οποίες τοποθετήθηκαν στην κατηγορία C j αλλά των οποίων η πραγματική κατηγορία είναι η C i. Όπως καταλαβαίνουμε, οι καλύτερες λύσεις θα έχουν μόνο μηδενικές τιμές έξω από την κύρια διαγώνιο. Στον πίνακα 1 παρουσιάζεται μια μήτρα σύγχυσης για τρεις κατηγορίες.

49 49 Πραγματική Εκχώρηση κατηγορία Short Medium Tall Short Medium Tall Πίνακας 1: Μήτρα σύγχυσης 2.4 Βάσεις Δεδομένων και Μηχανική Μάθηση Όπως έχει ήδη αναφερθεί σε αυτή την εργασία, η κατηγοριοποίηση είναι μια εφαρμογή της εξόρυξης δεδομένων. Ωστόσο, η κατηγοριοποίηση ως έννοια «διεκδικείται» από δύο, κυρίως, περιοχές της πληροφορικής, την Τεχνητή Νοημοσύνη (ΤΝ) και συγκεκριμένα την περιοχή της Μηχανικής Μάθησης και την περιοχή των Βάσεων Δεδομένων. Σε αυτή την παράγραφο περιγράφονται οι δύο διαφορετικές σκοπιές από τις οποίες ερευνούν την κατηγοριοποίηση οι δύο αυτές περιοχές. Η ΤΝ εκτός από την κατηγοριοποίηση περιλαμβάνει και άλλες τεχνικές εξόρυξης δεδομένων όπως για παράδειγμα τα νευρωνικά δίκτυα. Ωστόσο οι εφαρμογές ΤΝ δεν απασχολούνται με το θέμα αντιμετώπισης μεγάλων όγκων δεδομένων και αυτό γιατί συνήθως χειρίζονται μικρά σύνολα δεδομένων. Η Μηχανική Μάθηση είναι η περιοχή της ΤΝ η οποία εξετάζει πώς γράφονται προγράμματα που να μαθαίνουν. Για τους σκοπούς της εξόρυξης γνώσης, η Μηχανική Μάθηση χρησιμοποιείται συχνά για πρόβλεψη και κατηγοριοποίηση. Με τη Μηχανική Μάθηση ο υπολογιστής κάνει μια πρόβλεψη και στη συνέχεια, βασιζόμενος σε ανάδραση περί της ορθότητας της πρόβλεψης, «μαθαίνει» από την ανάδραση αυτή. Όταν εμφανιστεί στο μέλλον μια νέα περίπτωση, χρησιμοποιείται η ανάδραση ώστε να γίνει μια νέα πρόβλεψη. Όταν η μηχανική μάθηση εφαρμόζεται για κατηγοριοποίηση, χρησιμοποιείται ένα μοντέλο για να αναπαραστήσει τα δεδομένα. Κατά τη διάρκεια της διαδικασίας της μάθηση, χρησιμοποιείται ένα δείγμα από την Βάση Δεδομένων για να εκπαιδεύσει το σύστημα ώστε αυτό να είναι σε θέση να εκτελεί την κατηγοριοποίηση με όσο το δυνατό μεγαλύτερη επιτυχία (φάση εκπαίδευσης). Στη συνέχεια, το σύστημα εφαρμόζεται στη γενική Βάση Δεδομένων ώστε να εκτελέσει στην πραγματικότητα την κατηγοριοποίηση (φάση ελέγχου).

50 50 Παρόλο που η Μηχανική Μάθηση αποτελεί τη βάση για πολλά από τα κεντρικά ερευνητικά θέματα της εξόρυξης γνώσης, υπάρχει μια πολύ μεγάλη διαφορά μεταξύ των προσεγγίσεων, παρμένη από τις αρχές της ΤΝ και των Βάσεων Δεδομένων. Πολλή από την έρευνα της Μηχανικής Μάθησης έχει επικεντρωθεί στο μαθησιακό τμήμα παρά στην δημιουργία χρήσιμων πληροφοριών για το χρήστη όπως π.χ. προβλέψεις. Επίσης, η Μηχανική Μάθηση εξετάζει τα θέματα που ίσως είναι δύσκολα για τους ανθρώπους να τα επιτύχουν ή επικεντρώνεται στο πώς να αναπτυχθούν τεχνικές που να μπορούν να μιμηθούν την ανθρώπινη συμπεριφορά. Αντίθετα, ο στόχος της εξόρυξης γνώσης από την πλευρά των Βάσεων Δεδομένων είναι να ανακαλύψει πληροφορίες οι οποίες μπορούν να χρησιμοποιηθούν για να παρέχουν γνώση σε ανθρώπους και όχι να τους αντικαταστήσουν. Αυτές οι δύο αντικρουόμενες απόψεις συνοψίζονται στον πίνακα 2. Πολλοί από τους αλγόριθμους κατηγοριοποίησης δημιουργήθηκαν από την κοινότητα της ΤΝ και πρόσφατα έχουν χρησιμοποιηθεί σε πιο ρεαλιστικές δραστηριότητες εξόρυξης δεδομένων. Όταν εφαρμόζονται αυτού του είδους οι αλγόριθμοι σε Βάσεις Δεδομένων, γεννώνται επιπρόσθετες ανησυχίες και προβλήματα όπως μέγεθος, πολύπλοκοι τύποι δεδομένων και συσχετίσεις, δεδομένα ελλιπή και με θόρυβο και Βάσεις Δεδομένων οι οποίες ενημερώνονται συχνά. Βάσεις Δεδομένων Η βάση δεδομένων είναι ενεργή και εξελισσόμενη Οι εγγραφές μπορεί να περιέχουν εσφαλμένες ή ελλιπείς τιμές Τα πιο συνήθη πεδία είναι αριθμητικά Η βάση Δεδομένων αποτελείται από εκατομμύρια εγγραφών Η ΤΝ πρέπει να προσγειωθεί στην πραγματικότητα Μηχανική Μάθηση Η Βάση Δεδομένων είναι στατική Οι Βάσεις Δεδομένων είναι πλήρεις και χωρίς σφάλματα Τα πιο συνήθη χαρακτηριστικά είναι δυαδικής λογικής Η Βάση δεδομένων αποτελείται από εκατοντάδες στοιχεία Όλα τα προβλήματα των Βάσεων Δεδομένων είναι λυμένα Πίνακας 2: Διαφορές Βάσεων Δεδομένων και Μηχανικής Μάθησης Εκτός από τις περιοχές της ΤΝ και των Βάσεων Δεδομένων υπάρχουν και άλλες περιοχές οι οποίες έχουν ασχοληθεί κατά καιρούς με τις τεχνικές της κατηγοριοποίησης και γενικότερα με όλες τις τεχνικές εξόρυξης γνώσης. Αυτές είναι

51 51 η Στατιστική και η περιοχή της αναγνώρισης προτύπων. Για παράδειγμα, η αναγνώριση ενός χαρακτήρα του ελληνικού αλφάβητου αποτελεί εφαρμογή αναγνώρισης προτύπων αλλά στην ουσία αποτελεί μια εφαρμογή κατηγοριοποίησης, η οποία τοποθετεί τις μελλοντικές περιπτώσεις σε μια από τις 24 κλάσεις (μια για κάθε χαρακτήρα). Σε αυτή την εργασία, η κατηγοριοποίηση εξετάζεται από την πλευρά των Βάσεων Δεδομένων η οποία περιλαμβάνει όχι μόνο την μοντελοποίηση αλλά και την ανάπτυξη αποδοτικών αλγορίθμων και δομών δεδομένων για την εκτέλεση της μοντελοποίησης σε μεγάλα σύνολα δεδομένων. 2.5 Παραδείγματα Εφαρμογών Κατηγοριοποίησης Το παράδειγμα 2.1 παρουσιάζει μια πιθανή εφαρμογή κατηγοριοποίησης, ωστόσο η ζωή μας είναι γεμάτη με παραδείγματα τέτοιου είδους εφαρμογών. Στην παράγραφο αυτή, για να γίνει καλύτερα κατανοητή η έννοια της κατηγοριοποίησης, παρουσιάζονται κάποια παραδείγματα όπου θα μπορούσαν να εφαρμοστούν οι διάφοροι αλγόριθμοι κατηγοριοποίησης. Παράδειγμα 2.2: Οι εταιρείες πιστωτικών καρτών πρέπει να καθορίζουν, αν θα εγκρίνουν αγορές μέσω πιστωτικών καρτών. Ας υποθέσουμε ότι με βάση το αγοραστικό ιστορικό ενός πελάτη κάθε αγορά τοποθετείται σε μια από τις τέσσερις κατηγορίες: 1. Να εγκριθεί, 2.Να ζητηθούν επιπλέον στοιχεία ταυτότητας πριν την έγκριση, 3.Να μην εγκριθεί, 4.Να μην εγκριθεί και να ενημερωθεί και η αστυνομία. Οι λειτουργίες εξόρυξης γνώσης εξυπηρετούν δύο σκοπούς. Αρχικά, τα δεδομένα του ιστορικού των πελατών πρέπει να εξεταστούν ώστε να καθοριστεί πώς αυτά ταιριάζουν στις τέσσερις κατηγορίες, και ύστερα το πρόβλημα είναι το πώς θα εφαρμοστεί αυτό το μοντέλο σε κάθε μια από τις νέες αγορές. Παράδειγμα 2.3: Έστω ότι μια επιχείρηση θέλει να κατηγοριοποίηση τους πελάτες της σύμφωνα με τα credits rating αυτών. Η Βάση Δεδομένων που διατηρεί διαθέτει δεδομένα ώστε να είναι δυνατή η κατηγοριοποίηση των πελατών σε «excellent» ή «fair» credit ratings. Το σχήμα 2.4 δείχνει την διαδικασία της εκπαίδευσης η οποία χρησιμοποιείται για την κατασκευή του μοντέλου κατηγοριοποίησης το οποίο στη συνέχεια χρησιμοποιείται για την κατηγοριοποίηση μελλοντικών πελατών.

52 52 Σχήμα 2.4 Διαδικασία κατηγοριοποίησης. α. Εκπαίδευση, β. κατηγοριοποίηση Παράδειγμα 2.4: Έστω ότι έχουμε μια Βάση Δεδομένων πελατών μιας επιχείρησης που εμπορεύεται ηλεκτρονικούς υπολογιστές. Έστω ότι η Βάση Δεδομένων διατηρεί και της διευθύνσεις ηλεκτρονικού ταχυδρομείου των πελατών. Στις διευθύνσεις αυτές αποστέλλεται σε τακτά χρονικά διαστήματα διαφημιστικό υλικό νέων προϊόντων και εκπτώσεων. Η Βάση Δεδομένων περιέχει χαρακτηριστικά πελατών όπως ονοματεπώνυμο, ηλικία, εισόδημα, επάγγελμα και credit ratings. Οι πελάτες μπορούν να κατηγοριοποιηθούν με βάσει αν έχουν αγοράσει ή όχι ηλεκτρονικό υπολογιστή από την συγκεκριμένη εταιρία. Το να στείλουμε mail σε όλους τους πελάτες της εταιρίας (είτε έχουν αγοράσει ηλεκτρονικό υπολογιστή είτε όχι) ίσως να μην ήταν μια σωστή προσέγγιση. Μια καλύτερη λύση είναι το να στείλουμε mail μόνο σε όσους δεν έχουν αγοράσει ηλεκτρονικό υπολογιστή. Ένας αλγόριθμος κατηγοριοποίησης μπορεί να χρησιμοποιηθεί ώστε να κατηγοριοποιήσει

53 53 τους νέους πελάτες σε κατηγορίες ως πελάτες που αγόρασαν υπολογιστή και ως πελάτες που δεν αγόρασαν υπολογιστή.

54 54 Κεφάλαιο Τρίτο 3. Αλγόριθμοι Κατηγοριοποίησης 3.1 Εισαγωγή στους Αλγόριθμους Κατηγοριοποίησης Σε αυτό το κεφάλαιο παρουσιάζονται κάποιοι από τους γνωστούς αλγόριθμους κατηγοριοποίησης που συνιστώνται. Στον πίνακα 3 περιέχονται τα δεδομένα που θα χρησιμοποιηθούν σε αυτό το κεφάλαιο για την παρουσίαση των αλγορίθμων. Το παράδειγμα αυτό υποθέτει ότι το πρόβλημα μας είναι να κατηγοριοποιήσουμε ενήλικές σαν short, medium ή tall. Ο πίνακας 3 περιέχει μια στήλη για τα ύψη (σε μέτρα). Οι τελευταίες δύο στήλες του πίνακα παρουσιάζουν δύο κατηγοριοποιήσεις που θα μπορούσαν να γίνουν (κατηγοριοποίηση 1 και κατηγοριοποίηση 2). Η κατηγοριοποίηση 1 χρησιμοποιεί την απλή διαίρεση που φαίνεται παρακάτω: 2μ ύψος ψηλός, 1,7μ ύψος < 2μ μέτριος, Ύψος 1,7 κοντός Τα αποτελέσματα της κατηγοριοποίησης 2 απαιτούν ένα πιο πολύπλοκο σύνολο από διαμερίσεις αφού αυτό χρησιμοποιεί δύο χαρακτηριστικά του πίνακα 3, το φύλο και το ύψος. Είναι αυτονόητο ότι όσο περισσότερα χαρακτηριστικά εμπλέκονται στην διαδικασία της κατηγοριοποίησης, τόσο πιο σύνθετο και πολύπλοκο γίνεται το μοντέλο κατηγοριοποίησης. Μια κατηγοριοποίηση που βασίζεται σε μια μόνο τιμή ενός χαρακτηριστικού δεν είναι αξιόλογη.

55 55 Όνομα Φύλο Ύψος (μ) Κατηγοριοποίηση 1 Κατηγοριοποίηση 2 Kristina Θ 1,6 Κοντός Μέτριος Jim Α 2 Ψηλός Μέτριος Maggie Θ 1,9 Μέτριος Ψηλός Martha Θ 1,88 Μέτριος Ψηλός Stephanie Θ 1,7 Κοντός Μέτριος Bob Α 1,85 Μέτριος Μέτριος Kathy Θ 1,6 Κοντός Μέτριος Dave Α 1,7 Κοντός Μέτριος Worth Α 2,2 Ψηλός Ψηλός Steven Α 2,1 Ψηλός Ψηλός Debbie Θ 1,8 Μέτριος Μέτριος Todd Α 1,95 Μέτριος Μέτριος Kim Θ 1,9 Μέτριος Ψηλός Amy Θ 1,8 Μέτριος Μέτριος Wynette Θ 1,75 Μέτριος Μέτριος Πίνακας 3: Πίνακας δεδομένων του παραδείγματος κατηγοριοποίησης ατόμων στις κατηγορίες "κοντός", "ψηλός", "μέτριος" Μπορούμε να διακρίνουμε πέντε είδη κατηγοριών αλγορίθμων κατηγοριοποίησης. Συγκεκριμένα, υπάρχουν οι: Στατιστικοί αλγόριθμοι κατηγοριοποίησης Αλγόριθμοι κατηγοριοποίησης βασισμένοι στην απόσταση Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα δένδρα απόφασης Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα Νευρωνικά Δίκτυα Αλγόριθμοι κατηγοριοποίησης βασισμένη σε κανόνες 3.2 Αλγόριθμοι Βασισμένοι στην Aπόσταση Η βασική ιδέα αυτών των αλγορίθμων είναι ότι κάθε στοιχείο του συνόλου δεδομένων που απεικονίζεται στην ίδια κατηγορία θεωρείται ότι είναι πιο κοντά σε στοιχεία της ίδιας κατηγορίας από όσο είναι σε στοιχεία τα οποία ανήκουν σε άλλες κατηγορίες [5]. Έτσι, μπορούν να χρησιμοποιηθούν μέτρα ομοιότητας (ή απόστασης) ώστε να οριστεί η «ομοιότητα» των διαφορετικών στοιχείων της Βάσης Δεδομένων.

56 56 Ορισμός 3.1: Η ομοιότητα ανάμεσα σε δύο πλειάδες t i και t j, sim (t i, t j ), σε μια Βάση Δεδομένων είναι μια απεικόνιση από το D x D στο διάστημα [0, 1]. Έτσι sim (t i, t j ) [0, 1]. Ο Αντικειμενικός σκοπός είναι να οριστεί η απεικόνιση της ομοιότητας με τρόπο ώστε οι πλειάδες που μοιάζουν μεταξύ τους περισσότερο να έχουν μεγαλύτερη τιμή ομοιότητας. Έτσι τα επιθυμητά χαρακτηριστικά ενός καλού μέτρου ομοιότητας είναι τα εξής: t i D,sim(t i,t j ) = 1 t i,t j D,sim(t i,t j ) = 0 αν τα t i και t j δεν μοιάζουν καθόλου μεταξύ τους t i,t j,t k D,sim(t i,t j ) < sim(t i,t k ) αν το t i μοιάζει περισσότερο με το t k παρά με το t j Η δυσκολία στην εφαρμογή των μέτρων ομοιότητας είναι το πώς αυτά θα εφαρμοστούν στα στοιχεία της Βάσης Δεδομένων και αυτό γιατί τα περισσότερα μέτρα ομοιότητας υποθέτουν ότι οι τιμές είναι αριθμητικές (και συχνά διακριτές) και ίσως είναι δύσκολο να χρησιμοποιηθούν σε περισσότερα γενικά και αφηρημένα είδη δεδομένων. Θα πρέπει να αναφερθεί το ότι η χρήση ενός μέτρου ομοιότητας για μια κατηγοριοποίηση οπού οι κατηγορίες έχουν προκαθοριστεί (εποπτευμένη μάθηση), είναι κάπως απλούστερη από την χρήση ενός μέτρου ομοιότητας σε μια συσταδοποίηση (clustering μη εποπτευμένη μάθηση), όπου οι κατηγορίες δεν είναι γνωστές εκ των προτέρων. Σε αυτό το σημείο θα δούμε μερικά είδη αποστάσεων που χρησιμοποιούνται σαν μέτρα ομοιότητας ανάμεσα σε πλειάδες μιας Βάσης Δεδομένων. Το κάθε πεδίο μιας εγγραφής θεωρείται και μια διαφορετική διάσταση, και έτσι μια πλειάδα θεωρείται ένα σημείο στο χώρο των διαστάσεων. α. Ευκλείδεια απόσταση β. Σταθμισμένη Ευκλείδεια απόσταση

57 57 Όπου w k είναι κάποια βάρη που χρησιμοποιούνται για να εξισορροπήσουν την σημαντικότητα των χαρακτηριστικών (διαστάσεων). γ. Απόσταση Manhattan δ. Απόσταση Minkowski Όπου λ είναι ένας ακέραιος. Αν λ=1, τότε έχουμε την απόσταση Manhattan. Αν λ=2, τότε έχουμε την Ευκλείδεια απόσταση. Ο ρόλος του λ, όταν αυξάνεται, είναι να μεγεθύνει την απόσταση ανάμεσα στα πιο ανόμοια στοιχεία σε σχέση με τα πιο όμοια. Υπάρχουν και άλλες, λιγότερο γνωστές, αποστάσεις που εφμανίστηκαν στην βιβλιογραφία. Συγκεκριμένα υπάρχουν σαν μέτρα ομοιότητας η απόσταση Canberra, ο συντελεστής Czekanowski και η απόσταση Chebychev ή Maximum. Δεν μπορούμε να θεωρήσουμε ότι ως μέτρα ομοιότητας χρησιμοποιούνται μόνο οι διάφοροι μαθηματικοί τύποι αποστάσεων. Υπάρχουν και άλλα μέτρα ομοιότητας που έχουν εφαρμοστεί σε συστήματα ανάκτησης πληροφορίας και στις μηχανές αναζήτησης στο διαδίκτυο και μεερικά από τα μέτρα αυτά είναι τα μέτρα Dice, Jaccard, Συνημίτονο, Επικάλυψη Απλή προσέγγιση Αν έχουμε έναν αντιπρόσωπο από κάθε κατηγορία μπορούμε να πραγματοποιήσουμε την κατηγοριοποίηση τοποθετώντας κάθε πλειάδα στην κατηγορία με την οποία μοιάζει περισσότερο. Υποθέτουμε εδώ ότι κάθε πλειάδα, t i, της Βάσης Δεδομένων ορίζεται σαν ένα διάνυσμα t i1, t i2,, t ik από αριθμητικές τιμές. Ομοίως υποθέτουμε ότι κάθε κατηγορία C j είναι ορισμένη από μια πλειάδα C j1, C j2,, C jk από αριθμητικές τιμές. Το πρόβλημα της κατηγοριοποίησης επαναορίζεται από τον ορισμό 3.2 [5].

58 58 Ορισμός 3.2: Δεδομένης μιας Βάσης Δεδομένων D = { t 1, t 2,, t k }, από πλειάδες όπου κάθε πλειάδα t i = < t i1, t i2,, t ik > περιέχει αριθμητικές τιμές και ενός συνόλου από κατηγορίες C = {C 1, C 2,,C m }, όπου κάθε κατηγορία C j = <C j1, C j2,, C jk > έχει αριθμητικές τιμές, το πρόβλημα της κατηγοριοποίησης έγκειται στο να εκχωρήσουμε κάθε μια πλειάδα t i στην κατηγορία C j έτσι ώστε απόσταση(t i, C j ) απόσταση(t i, C l ) C l C όπου C l C j Για να μετρήσουμε αυτά τα μέτρα ομοιότητας, πρέπει να καθοριστεί το αντιπροσωπευτικό διάνυσμα για κάθε μια κατηγόρια. Όσον αφορά στις τρεις κατηγορίες του σχήματος 2.1 (α), μπορούμε να ορίσουμε ένα αντιπροσωπευτικό διάνυσμα για κάθε μια κατηγορία υπολογίζοντας το κέντρο κάθε περιοχής. Έτσι η κατηγορία Α του σχήματος αντιπροσωπεύεται από το διάνυσμα <4, 7.5>, η κατηγορία Β από το <2, 2.5> και η κατηγορία C από το <6, 2.5>. Στην συνέχεια, μπορεί να εφαρμοστεί μια απλή τεχνική κατηγοριοποίησης σύμφωνα με την οποία θα τοποθετόταν κάθε στοιχείο σε εκείνη την κατηγορία όπου το στοιχείο αυτό θα ήταν περισσότερο όμοιο (πλησιέστερο) με το κέντρο της κατηγορίας αυτής. Το αντιπροσωπευτικό διάνυσμα της κάθε κατηγορίας μπορεί να βρεθεί με διάφορους τρόπους, όπως για παράδειγμα, στα προβλήματα αναγνώρισης προτύπου, μπορεί να χρησιμοποιηθεί ένα πρότυπο ορισμένο εκ των προτέρων ως αντιπροσωπευτικό για κάθε κατηγορία. Κάθε στοιχείο που πρόκειται να κατηγοριοποιηθεί, συγκρίνεται με κάθε ένα από τα εκ των προτέρων ορισμένα πρότυπα και το στοιχείο θα τοποθετηθεί σε εκείνη την κατηγορία με την μεγαλύτερη τιμή ομοιότητας. Ο αλγόριθμός του σχήματος 3.1 παρουσιάζει μια απλή προσέγγιση που βασίζεται στην απόσταση, δεδομένου ότι κάθε κατηγορία, C i, αναπαριστάται από το κέντρο της ή από το κέντρο βάρους. Στον αλγόριθμο χρησιμοποιούμε το C i ως κέντρο της κάθε κατηγορίας. Αφού η κάθε πλειάδα πρέπει να συγκριθεί με το κέντρο της κάθε κατηγορίας και αφού υπάρχει ένας σταθερός αριθμός από κατηγορίες, η πολυπλοκότητα για την κατηγοριοποίηση μιας πλειάδας είναι Ο(n). Το σχήμα 3.2 επεξηγεί τη χρήση αυτής της προσέγγισης που πραγματοποιεί την κατηγοριοποίηση χρησιμοποιώντας τα δεδομένα του σχήματος 2.1.

59 59 Είσοδος: c 1,c 2,,c m // Κέντρα κλάσεων t // Πλειάδα προς κατηγοριοποίηση Έξοδος: c // Κλάση όπου θα κατηγοριοποιηθεί η t Απλός _ αλγόριθμος _ Βασισμένος _ στην _ απόσταση Απόσταση = ; Για i από 1 μέχρι m επανέλαβε Αν dist (c i, t) < Απόσταση τότε c i Απόσταση dist(c i, t); Τέλος _ αν Τέλος αλγορίθμου Σχήμα 3.1 Αλγόριθμος απλής προσέγγισης Σχήμα 3.2 Κατηγοριοποίηση χρησιμοποιώντας τον απλό αλγόριθμο απόστασης

60 Κ Κοντινότεροι Γείτονες Η τεχνική κατηγοριοποίησης των Κ κοντινότερων γειτόνων (K nearest neighbors KNN) βασίζεται στη χρήση μέτρων βασισμένων στην απόσταση και πρόκειται για την πιό γνωστή και ευρεία χρησιμοποιούμενη. Η τεχνική ΚΝΝ προϋποθέτει ότι το σύνολο εκπαίδευσης δεν περιλαμβάνει μόνο τα δεδομένα αλλά επίσης και την επιθυμητή κατηγοριοποίηση για κάθε στοιχείο. Αυτό συνεπάγεται τα δεδομένα εκπαίδευσης να αποτελούν το μοντέλο κατηγοριοποίησης. Όταν πρόκειται να γίνει μια κατηγοριοποίηση για ένα νέο στοιχείο, πρέπει να καθοριστεί η απόσταση του από κάθε στοιχείο του συνόλου εκπαίδευσης και μόνο οι Κ κοντινότερες εκχωρήσεις στο σύνολο εκπαίδευσης λαμβάνονται υπόψη στη συνέχεια. Το νέο στοιχείο τοποθετείται στην κατηγορία που περιέχει τα περισσότερα στοιχεία από το σύνολο των Ê κοντινότερων στοιχείων. Το σχήμα 3.3 παρουσιάζει την διαδικασία που χρησιμοποιείται από τον αλγόριθμο ΚΝΝ όπου φαίνονται τα σημεία του συνόλου εκπαίδευσης και παρουσιάζονται τα τρία κοντινότερα στοιχεία στο σύνολο εκπαίδευσης. Το t θα τοποθετηθεί στην κατηγορία στην οποία ανήκουν τα περισσότερα από αυτά τα Ê στοιχεία. Ο Αλγόριθμος του σχήματος 3.4 περιγράφει τη χρήση του ΚΝΝ αλγορίθμου. Κάθε πλειάδα που θα πρέπει να κατηγοριοποιηθεί, θα πρέπει να συγκριθεί με κάθε ένα στοιχείο του συνόλου των δεδομένων εκπαίδευσης και αν υπάρχουν q στοιχεία στο σύνολο εκπαίδευσης, το πρόβλημα αυτό είναι Ο(q) πρόβλημα ενώ αν τα στοιχεία που πρέπει να κατηγοριοποιηθούν είναι n τότε αυτό γίνεται Ο(nq) πρόβλημα. Το παράδειγμα 3.1 επεξηγεί αυτή την τεχνική χρησιμοποιώντας τα δείγματα δεδομένων του πίνακα 3. Πρέπει να τονιστεί ότι η τεχνική ΚΝΝ είναι υπερβολικά ευαίσθητη στην τιμή του Ê, δηλαδή στο πόσοι κοντινότεροι γείτονες χρησιμοποιούνται για την κατηγοριοποίηση. Σύμφωνα με μια εμπειρική μέθοδο πρέπει να ισχύει ότι να είναι Σύμφωνα με αυτή τη μέθοδο, για το παράδειγμα του πίνακα 3, η τιμή Ê πρέπει

61 61 Σχήμα 3.3 Κατηγοριοποίηση με χρήση ΚΝΝ Είσοδος: Τ // Σύνολο δεδομένων εκπαίδευσης Κ // Αριθμός κοντινότερων γειτόνων T // πλειάδα προς κατηγοριοποίηση Έξοδος: c // Κλάση όπου θα κατηγοριοποιηθεί η t Αλγόριθμος _ Κ _ Κοντινότερων _ Γειτόνων Ν = Ø Για κάθε d T επανέλαβε Αν Ν Κ τότε Ν = Ν {d}; Αλλιώς Αν u N τέτοιο ώστε dist(t, u) dist (t, d), τότε Ν = Ν {u}; N = N {d}; Τέλος _ αν Τέλος _ επανάληψης c = κλάση όπου τα περισσότερα u N κατηγοριοποιούνται Τέλος αλγορίθμου Σχήμα 3.4 Αλγόριθμος KNN

62 62 Παράδειγμα 3.1: Χρησιμοποιώντας το δείγμα δεδομένων του πίνακα 3 και την κατηγοριοποίηση 1 σαν τιμή εξόδου του συνόλου εκπαίδευσης, κατηγοριοποιούμε την πλειάδα <Pat, Θ, 1.6>. Μόνο το ύψος χρησιμοποιείται για τον υπολογισμό της απόστασης αφού αυτό είναι το μόνο αριθμητικό χαρακτηριστικό. Είτε χρησιμοποιήσουμε το ευκλείδειο είτε το Manhattan μέτρο απόστασης θα έχουμε τα ίδια αποτελέσματα στην απόδοση. Άρα, η απόσταση είναι απλά η απόλυτη τιμή της διαφοράς των τιμών. Ας υποθέσουμε ότι δίνεται Κ=5. Έτσι στην συνέχεια, υπολογίζοντας της αποστάσεις, οι Κ κοντινότεροι γείτονες στην πλειάδα εισόδου είναι οι πλειάδες {<Kristina, Θ, 1.6 >, <Kathy, Θ, 1.6>, <Stephanie, Θ, 1.7>, <Dave, A, 1.7>, <Wynette, Θ, 1.75>}. Από αυτά τα πέντε στοιχεία, τέσσερα είναι κατηγοριοποιημένα στην κατηγορία των κοντών και ένα στην κατηγορία των μέτριων. Έτσι ο ΚΝΝ θα κατηγοριοποιήσει τον Pat στους κοντούς. Κλείνοντας αυτή την παράγραφο θα κάνουμε μια αναφορά σε μια παραλλαγή του αλγόριθμου κ κοντινότερων γειτόνων, που είναι γνωστή με το όνομα κοντινότερος γείτονας σταθμισμένης απόστασης. Σύμφωνα με την παραλλαγή αυτή, το πόσο συνεισφέρει κάθε γείτονας στην κατηγοριοποίηση υπολογίζεται βάσει ενός βάρους, ανάλογα με την απόσταση του από το ζητούμενο. Έτσι οι κοντινότεροι γείτονες έχουν μεγαλύτερη συνεισφορά αφού έχουν αυξημένο βάρος, ενώ οι μακρινότεροι (από τους k γείτονες) έχουν μικρότερη συνεισφορά. Χρησιμοποιώντας αυτή την μέθοδο, μπορούμε να λάβουμε υπόψη όλες τις πλειάδες του συνόλου των δεδομένων εκπαίδευσης και όχι μόνο τις k κοντινότερες. 3.3 Αλγόριθμοι Κατηγοριοποίησης Στατιστικής Bayesian Κατηγοριοποίηση Μία τεχνική κατηγοριοποίησης που προβλέπει τις πιθανότητες μια νέα πλειάδα να ανήκει σε μια από τις προκαθορισμένες κατηγορίες είναι η Bayesian. Η απόδοση αυτού του είδους κατηγοριοποίησης είναι αρκετά υψηλή και χαρακτηρίζεται από την μεγάλη ταχύτητα της διαδικασίας κατηγοριοποίησης σε μεγάλες Βάσεις Δεδομένων. Θεωρώντας ότι η συνεισφορά όλων των χαρακτηριστικών του συνόλου εκπαίδευσης είναι ανεξάρτητη και ότι κάθε ένα συνεισφέρει εξίσου στο πρόβλημα της κατηγοριοποίησης, έχει προταθεί μια απλή μέθοδος κατηγοριοποίησης η οποία

63 63 είναι γνωστή ως απλοϊκή κατηγοριοποίηση κατά Bayes και βασίζεται στον κανόνα του Bayes για την υπό συνθήκη πιθανότητα. Ο κανόνας Bayes, ο οποίος δίνεται στο ορισμό 3.3 [5], είναι μια τεχνική που εκτιμά την πιθανοφάνεια μιας ιδιότητας παίρνοντας το σύνολο των δεδομένων σαν απόδειξη ή σαν είσοδο. Ας υποθέσουμε ότι είτε η υπόθεση h 1 είτε η υπόθεση h 2 πρέπει να συμβεί, αλλά όχι και οι δύο. Επίσης ας υποθέσουμε ότι το x i είναι το γεγονός που έχει παρατηρηθεί. Ο κανόνας Bayes μας επιτρέπει να προσδιορίζουμε τις πιθανότητες των υποθέσεων, με δεδομένη την τιμή κάποιου δεδομένου, P(h j x i ). Εδώ μιλάμε για πλειάδες όπου στην πραγματικότητα κάθε x i μπορεί να είναι τιμή ενός χαρακτηριστικού των δεδομένων. Κάθε h i μπορεί να είναι η τιμή ενός γνωρίσματος, ένα σύνολο από τιμές χαρακτηριστικών ή ακόμη ένας συνδυασμός από τιμές χαρακτηριστικών. Ορισμός 3.3: κανόνας Bayes ή θεώρημα Bayes είναι: Εδώ το P(h 1 xi) ονομάζεται η εκ των υστέρων πιθανότητα, ενώ το P(h 1 ) είναι η εκ των προτέρων πιθανότητα που σχετίζεται με την υπόθεση h 1. P(x i ) είναι η πιθανότητα να συμβεί το δεδομένο με τιμή x i και P(x i h 1 ) είναι η υπό συνθήκη πιθανότητα να ικανοποιείται από την πλειάδα η δεδομένη πιθανότητα. Αναλύοντας την συνεισφορά κάθε ενός «ανεξάρτητου» χαρακτηριστικού, καθορίζεται μια υπό συνθήκη πιθανότητα. Η κατηγοριοποίηση γίνεται με τον συνδυασμό της συνέπειας που έχουν τα διαφορετικά χαρακτηριστικά στην πρόβλεψη που γίνεται. Η προσέγγιση ονομάζεται απλοϊκή επειδή θεωρεί ότι υπάρχει ανεξαρτησία μεταξύ των τιμών των διαφόρων χαρακτηριστικών. Δεδομένο μιας τιμής για ένα δεδομένο x i, η πιθανότητα ότι μια σχετική πλειάδα, t i, ανήκει στην κατηγορία C j περιγράφεται από την πιθανότητα P(C j x i ). Τα δεδομένα εκπαίδευσης μπορούν να χρησιμοποιηθούν για να καθορίσουν τις P(xi), P(xi C j ) και P(C j ). Από αυτές τις τιμές, το θεώρημα Bayes μας επιτρέπει να εκτιμήσουμε την εκ των υστέρων πιθανότητα P(C j x i ) και στην συνέχεια την P(C j t i ). Δοθέντος ενός συνόλου εκπαίδευσης, ο απλοϊκός αλγόριθμος Bayes αρχικά εκτιμά την εκ των προτέρων πιθανότητα P(C j ) για κάθε κατηγορία μετρώντας το πόσο συχνά κάθε κατηγορία εμφανίζεται στα δεδομένα εκπαίδευσης. Για κάθε χαρακτηριστικό, x i μπορεί να

64 64 μετρηθεί ο αριθμός των εμφανίσεων κάθε τιμής του χαρακτηριστικού x i για να καθορίσει την P(x i ). Παρόμοια, η πιθανότητα P(x i C j ) μπορεί να εκτιμηθεί μετρώντας πόσο συχνά κάθε τιμή εμφανίζεται στην κατηγορία στα δεδομένα εκπαίδευσης. Θα πρέπει να σημειωθεί ότι κοιτάμε όλες τις τιμές των χαρακτηριστικών. Μια πλειάδα στα δεδομένα εκπαίδευσης μπορεί να έχει πολλά διαφορετικά χαρακτηριστικά, κάθε ένα με πολλές τιμές. Αυτό πρέπει να γίνει για όλα τα χαρακτηριστικά και για όλες τις τιμές των χαρακτηριστικών. Στην συνέχεια χρησιμοποιούμε τις πιθανότητες που έχουν παραχθεί με τον παραπάνω τρόπο όταν πρέπει να κατηγοριοποιηθεί μια νέα πλειάδα. Οι πιθανότητες είναι περιγραφικές και χρησιμοποιούνται ώστε να προβλεφτεί η συμμετοχή σε μια κατηγορία για την υπό μελέτη πλειάδα. Όταν κατηγοριοποιούμε μια νέα πλειάδα, η υπό συνθήκη και η εκ των προτέρων πιθανότητες που δημιουργήθηκαν από το σύνολο εκπαίδευσης, χρησιμοποιούνται για την πρόβλεψη. Αυτό γίνεται με τον συνδυασμό των αποτελεσμάτων των διαφόρων τιμών των χαρακτηριστικών της πλειάδας. Ας υποθέσουμε ότι η πλειάδα t i έχει p διαφορετικές τιμές χαρακτηριστικών {x i1, x i2, x ip }. Από τη φάση της περιγραφής ξέρουμε την τιμή της πιθανότητας P(xik Cj). Συνεχίζουμε υπολογίζοντας την τιμή της πιθανότητας P(t i C j ) με την χρήση του τύπου: Έτσι, τώρα έχουμε τις εκ των προτέρων πιθανότητες P(C j ) για κάθε κατηγορία και την υπό συνθήκη πιθανότητα P(t i C j ). Για να υπολογιστεί το P(t i ), μπορούμε να υπολογίσουμε την πιθανοφάνεια για το ότι το t i ανήκει στην κάθε κατηγορία. Αυτό μπορεί να γίνει με την εύρεση της πιθανοφάνειας ότι αυτή η πλειάδα ανήκει στην συγκεκριμένη κατηγορία και στη συνέχεια προσθέσουμε όλες αυτές τις τιμές. Η πιθανότητα ότι η t i ανήκει σε μια κατηγορίαείναι το γινόμενο των υπό συνθήκη πιθανοτήτων για κάθε τιμή του χαρακτηριστικού. Στην συνέχεια υπολογίζεται η εκ των υστέρων πιθανότητα P(C j t i ) για κάθε κατηγορία. Η κατηγορία με την υψηλότερη πιθανότητα είναι αυτή που επιλέγεται για την πλειάδα. Παρακάτω μελετάμε τα παραδείγματα 3.2, 3.3 και 3.4 σχετικά με την Bayesian κατηγοριοποίηση.

65 65 Παράδειγμα 3.2: Λαμβάνοντας υπόψη τα αποτελέσματα της κατηγοριοποίησης 1 του πίνακα 3, υπάρχουν τέσσερις πλειάδες που τοποθετούνται στην κατηγορία των κοντών, οκτώ στην κατηγορία των μέτριων και τρεις στην κατηγορία ψηλός. Για να διευκολύνουμε την κατηγοριοποίηση, χωρίζουμε τις τιμές των χαρακτηριστικών του ύψους σε έξι διαστήματα: (0, 1.6], (1.6, 1.7], (1.7, 1.8], (1.8, 1.9], (1.9, 2.0], (2.0, ) Ο πίνακας 4 παρουσιάζει τις μετρήσεις και τις πιθανότητες που σχετίζονται με τις τιμές αυτών των χαρακτηριστικών. Με αυτά τα δεδομένα είναι εύκολο να υπολογίσουμε τις εκ των προτέρων πιθανότητες: P(κοντός) = 4/15 = 0.267, P(μέτριος) = 8/15 = 0.533, P(ψηλός) = 3/15 = 0.2 Χαρακτηριστικό Τιμή Πλήθος Πιθανότητα Κοντός Μέτριος Ψηλός Κοντός Μέτριος Ψηλός Φύλο Α /4 2/8 3/3 Θ /4 6/8 0/3 (0, 1.6] /4 0 0 (1.6, 1.7] /4 0 0 Ύψος (1.7, 1.8] /8 0 (1.8, 1.9] /8 0 (1.9, 2.0] /8 1/3 (2.0, ) /3 Πίνακας 4: Παράδειγμα Bayesian κατηγοριοποίησης στα δεδομένα του παραδείγματος του ύψους Τώρα, έστω ότι θέλουμε να κατηγοριοποιήσουμε μια νέα πλειάδα. π.χ. έστω ότι η νέα πλειάδα είναι η t = <Adam, A, 1.95>. Χρησιμοποιώντας τις τιμές του πίνακα 1.4 καταλήγουμε στις εκτιμήσεις που ακολουθούν: P(t κοντός) = P(κοντός Α) * P(κοντός (1.9, 2.0]) = 1/4 * 0 = 0 P(t μέτριος) = P(μέτριος Α) * P(μέτριος (1.9, 2.0]) = 2/8 * 1/8 = P(t ψηλός) = P(ψηλός Α) * P(ψηλός (1.9, 2.0]) = 3/3 * 1/3 = 0.333

66 66 Συνδυάζοντας αυτές τις εκτιμήσεις έχουμε: Πιθανόφάνεια να είναι κοντός = P(t κοντός) * P(κοντός) = 0 * = 0 Πιθανόφάνεια να είναι μέτριος = P(t μέτριος) * P(μέτριος) = * = Πιθανόφάνεια να είναι ψηλός = P(t ψηλός) * (ψηλός) = * 0.2 = Εκτιμούμε την P(t) αθροίζοντας αυτές τις τιμές πιθανοφάνειας: P(t) = = Έτσι καταλήγουμε στις πραγματικές πιθανότητες για κάθε κατηγορία: Επομένως, σύμφωνα με τις παραπάνω πιθανότητες, κατηγοριοποιούμε την πλειάδα <Adam, A, 1.95> στην κατηγορία των ψηλών και αυτό γιατί αυτή παρουσιάζει την υψηλότερη πιθανότητα. R/D Age Income Student c_r Class 1 30 H N E N 2 30 H N E N H N F Y 4 >40 M N F Y 5 >40 K Y F Y 6 >40 K Y E N K Y E Y 8 30 M N F N 9 30 K Y F Y 10 >40 M Y F Y M Y E Y M N E Y H Y F Y 14 >40 M N E N Πίνακας 5: Δεδομένα εκπαίδευσης παραδείγματος 3.3

67 67 Παράδειγμα 3.3: Τώρα ας προσπαθήσουμε να κατηγοριοποιήσουμε την πλειάδα t = < 30, M, Y,F > χρησιμοποιώντας την Bayesian κατηγοριοποίηση και το σύνολο δεδομένων εκπαίδευσης που παρουσιάζονται στον πίνακα 5. Age: P( 30 Y) = 2/9, P( 30 N) = 3/5, P( Y) = 4/9, P( N) = 0/5, P(>40 Y) = 3/9, P(>40 N) = 2/5 Income: P(L Y) = 3/9, P(L N) = 1/5, P(M Y) = 4/9, P(M N) = 2/5, P(H Y) = 1/9, P(H N) = 2/5 Student: P(Y Y) = 6/9, P(Y N) = 1/5, P(N Y) = 3/9, P(N N) = 4/5 Credit rating: P(F Y) = 6/9, P(F N) = 2/5, P(E Y) = 3/9, P(E N) = 3/5 Κατηγορία YES (Y) P(Y) * P( 30 Y) * P(M Y) * P(Y Y) * P(F Y) = 9/14 * 2/9 * 4/9 * 6/9 * 6/9 = 2592/91854 = Κατηγορία ΝΟ (Ν) P(N) * P( 30 N) * P(M N) * P(Y N) * P(F N) = 5/14 * 3/5 * 2/5 * 1/5 * 2/5 = 60/8750 = Άρα κατηγοριοποιούμε την νέα πλειάδα στην κατηγορία YES Ημέρα Καιρός Θερμοκρασία Υγρασία Άνεμος Τένις 1 Ηλιόλουστος Μεγάλη Υψηλή Αδύναμος Όχι 2 Ηλιόλουστος Μεγάλη Υψηλή Ισχυρός Όχι 3 Συννεφιασμένος Μεγάλη Υψηλή Αδύναμος Ναι 4 Βροχερός Μεσαία Υψηλή Αδύναμος Ναι 5 Βροχερός Μικρή Κανονική Αδύναμος Ναι 6 Βροχερός Μικρή Κανονική Ισχυρός Όχι 7 Συννεφιασμένος Μικρή Κανονική Ισχυρός Ναι 8 Ηλιόλουστος Μεσαία Υψηλή Αδύναμος Όχι 9 Ηλιόλουστος Μικρή Κανονική Αδύναμος Ναι 10 Βροχερός Μεσαία Κανονική Αδύναμος Ναι 11 Ηλιόλουστος Μεσαία Κανονική Ισχυρός Ναι 12 Συννεφιασμένος Μεσαία Υψηλή Ισχυρός Ναι 13 Συννεφιασμένος Μεγάλη Κανονική Αδύναμος Ναι 14 Βροχερός Μεσαία Υψηλή Ισχυρός Όχι Πίνακας 6: Δεδομένα εκπαίδευσης παραδείγματος 3.4

68 68 Παράδειγμα 3.4: Στην βιβλιογραφία εμφανίζεται ακόμα ένα παράδειγμα για την κατανόηση των αλγορίθμων κατηγοριοποίησης, το οποίο κάνει την πρόβλεψη του «καλού καιρού για τένις». Τα δεδομένα εκπαίδευσης που θα χρησιμοποιήσουμε για αυτό το παράδειγμα παρουσιάζονται στον πίνακα 6. Ας δούμε σε ποια κατηγορία (ναι / όχι) θα κατηγοριοποιηθεί η πλειάδα <Ηλιόλουστος, Μικρή, Υψηλή, Ισχυρός>. Καιρός: P(Ηλιόλουστος όχι) = 3/5, P(Ηλιόλουστος ναι) = 2/9, P(Συννεφιασμένος όχι) = 0/5, P(Συννεφιασμένος ναι)=4/9, P(Βροχερός όχι) = 2/5, P(Βροχερός ναι) = 3/9 Θερμοκρασία: P(Μεγάλη όχι) = 2/5, P(Μεγάλη ναι) = 2/9, P(Μεσαία όχι) = 2/5, P(Μεσαία ναι) = 4/9, P(Μικρή όχι) = 1/5, P(Μικρή ναι) = 3/9 Υγρασία: P(Υψηλή όχι) = 4/5, P(Υψηλή ναι) = 3/9, P(Κανονική όχι) = 1/5, P(Κανονική ναι) = 6/9 Άνεμος: P(Αδύναμος όχι) = 3/5 P(Αδύναμος ναι) = 7/9 P(Ισχυρός όχι) = 2/5 P(Αδύναμος ναι) = 2/9 Κατηγορία ΟΧΙ: P(όχι) * P(Ηλιόλουστος όχι) * P(Μικρή όχι) * P(Υψηλή όχι) * P(Ισχυρός όχι) = 5/14 * 3/5 * 1/5 * 4/5 * 2/5 =120/8750 Κατηγορία ΝΑΙ: P(ναι) * P(Ηλιόλουστος ναι) * P(Μικρή ναι) * P(Υψηλή ναι) * P(Ισχυρός ναι) = 9/14 * 2/9 * 3/9 * 3/9 * 2/9 = 324/91854 Άρα κατηγοριοποιούμε την νέα πλειάδα στην κατηγορία όχι Η προσέγγιση της απλής κατηγοριοποίησης κατά Bayes έχει αρκετά πλεονεκτήματα. Πρώτον, είναι πολύ εύκολο να χρησιμοποιηθεί και δεύτερον, αντίθετα με άλλες τεχνικές κατηγοριοποίησης χρειάζεται μόνο ένα πέρασμα των δεδομένων εκπαίδευσης. Επίσης, η προσέγγιση αυτή μπορεί εύκολα να χειριστεί

69 69 ελλιπή δεδομένα, απλά παραλείποντας τις αντίστοιχες πιθανότητες. Σε περιπτώσεις όπου υπάρχουν απλές συσχετίσεις στα δεδομένα, η τεχνική συνήθως δίνει καλά αποτελέσματα κατηγοριοποίησης σε σύντομο χρονικό διάστημα. Από την άλλη πλευρά, υπάρχουν πολλές περιπτώσεις όπου ο αλγόριθμος κατηγοριοποίησης κατά Bayes δεν δίνει καλά αποτελέσματα. Οι περιπτώσεις όπου τα χαρακτηριστικά δεν είναι ανεξάρτητα είναι σπάνιες και μια προσέγγιση είναι να αγνοήσουμε τα χαρακτηριστικά τα οποία εξαρτώνται από άλλα. Επιπλέον, η τεχνική αυτή δεν μπορεί να χειριστεί συνεχή δεδομένα και αυτό το μειονέκτημα λύνεται με το να χωρίσουμε τα συνεχή χαρακτηριστικά σε διαστήματα. Ωστόσο αυτό δεν είναι κάτι απλό και ο τρόπος με το οποίον θα γίνει είναι πολύ πιθανό να επηρεάσει τα αποτελέσματα Παλινδρόμηση Η τεχνική της Παλινδρόμησης είναι άλλη μία τεχνική κατηγοριοποίησης, και όχι μόνο, που βασίζεται στην Στατιστική. Τα προβλήματα παλινδρόμησης ασχολούνται με την εκτίμηση μιας τιμής εξόδου με βάση τις τιμές εισόδου. Η παλινδρόμηση εκτός από προβλήματα κατηγοριοποίησης μπορεί να εφαρμοστεί και σε άλλες εφαρμογές, όπως η πρόβλεψη. Όταν η τεχνική της παλινδρόμησης εφαρμόζεται για να λύσει προβλήματα κατηγοριοποίησης, οι τιμές εισόδου είναι τα χαρακτηριστικά των πλειάδων και οι τιμές εξόδου αναπαριστούν το χαρακτηριστικό της κατηγορίας. Η παλινδρόμηση μπορεί να εκτελεστεί χρησιμοποιώντας πολλούς διαφορετικούς τύπους τεχνικών, συμπεριλαμβανομένων των Νευρωνικών Δικτύων. Στην πραγματικότητα αυτό που κάνει είναι να δέχεται ένα σύνολο από δεδομένα και να ταιριάζει αυτά τα δεδομένα σε μια εξίσωση. Σε αυτή την εργασία δεν θα αναφερθούμε περισσότερο στην έννοια της παλινδρόμησης γιατί αυτή η τεχνική είναι μια μαθηματική μέθοδος που δεν προορίζεται για την επίλυση προβλημάτων κατηγοριοποίησης. Όπως ειπώθηκε και παραπάνω, η τεχνική της παλινδρόμησης βρίσκει εφαρμογή σε πολλά προβλήματα και μια κατηγορία προβλημάτων είναι και η κατηγοριοποίηση.

70 Αλγόριθμοι Κατηγοριοποίησης Δένδρων Αποφάσεων Τα Δένδρα Απόφασης (Decision Trees) είναι άλλη μία κατηγορία αλγορίθμων που χρησιμοποιούνται για την επίλυση προβλημάτων κατηγοριοποίησης. Το μοντέλο κατηγοριοποίησης αυτής της κατηγορίας αλγορίθμων είναι μια δενδρική δομή όπου μόλις χτιστεί η δενδρική δομή, εφαρμόζεται σε κάθε πλειάδα της Βάσης Δεδομένων και καταλήγει για κάθε μια από αυτές σε μια κατηγοριοποίηση. H διαδικασία κατηγοριοποίησης χωρίζεται σε δύο φάσεις: (α) η κατασκευή του δένδρου και (β) η εφαρμογή του στη Βάση Δεδομένων. Η τεχνικές δένδρων αποφάσεων βασίζονται στη διαίρεση του χώρου αναζήτησης σε ορθογώνιες περιοχές (χρήση της τεχνικής του «διαίρει και βασίλευε»). Κάθε πλειάδα της Βάσης Δεδομένων τοποθετείται με βάση την περιοχή όπου ανήκει. Ένας ορισμός για τα δένδρα απόφασης που χρησιμοποιούνται για κατηγοριοποίηση, είναι ο ορίσμός 3.4 [5]. Ορισμός 3.4: Έστω μια Βάση Δεδομένων D = {t 1, t 2,,t n }, όπου t i = t i1, t i2,, t ih και έστω ότι το σχήμα της Βάσης Δεδομένων περιέχει τα εξής χαρακτηριστικά (πεδία) {Α 1, Α 2,, Α h }. Επίσης, έστω ότι έχουμε ένα σύνολο κατηγοριών C = {C 1, C 2,, C m }. Ένα δένδρο απόφασης ή δένδρο κατηγοριοποίησης είναι μια δενδρική δομή που συσχετίζεται με το D και έχει τις εξής ιδιότητες: Κάθε εσωτερικός κόμβος παίρνει το όνομα του από ένα χαρακτηριστικό, A i. Κάθε τόξο παίρνει το όνομα του από ένα κατηγόρημα που μπορεί να εφαρμοστεί στο χαρακτηριστικό που συνδέεται με τον πατέρα κόμβο. Κάθε φύλλο έχει ως όνομα μια κατηγορία C j. Η λύση του προβλήματος κατηγοριοποίησης, με τη χρήση δένδρων αποφάσεων είναι μια διαδικασία δύο βημάτων: Επαγωγή δένδρου απόφασης: Η κατασκευή του δένδρου απόφασης χρησιμοποιώντας δεδομένα εκπαίδευσης. Για κάθε t i D, εφαρμογή του δένδρου απόφασης που κατασκευάστηκε στο βήμα της επαγωγής για τον προσδιορισμό της κατηγορίας του. Η εφαρμογή των t i πραγματοποιείται βάσει του αλγόριθμου του σχήματος 3.5.

71 71 Ένας άλλος, πιο γενικός ορισμός για τα δένδρα απόφασης δίνεται από τον ορισμό 3.5 [5]. Ορισμός 3.5: Ένα δένδρο απόφασης, είναι ένα δένδρο όπου η ρίζα και κάθε εσωτερικός κόμβος έχει χαρακτηριστεί με μια ερώτηση. Τα τόξα που προέρχονται από κάθε κόμβο αντιπροσωπεύουν κάθε πιθανή απάντηση στη σχετική ερώτηση. Κάθε φύλλο αντιπροσωπεύει μια πρόβλεψη της λύσης στο πρόβλημα που εξετάζεται. Στα προβλήματα κατηγοριοποίηση, η πρόβλεψη είναι η κατηγορία της πλειάδας που εξετάζεται. Ένα δένδρο απόφασης κατασκευάζεται συνήθως σε δύο φάσεις: Στην πρώτη φάση, τη φάση της ανάπτυξης, κατασκευάζεται ένα μεγάλο δένδρο. Το δένδρο αυτό απεικονίζει τις πλειάδες τις Βάσης Δεδομένων με μεγάλη ακρίβεια. Για παράδειγμα, το δένδρο μπορεί να περιέχει φύλλα για μεμονωμένες πλειάδες της Βάσης Δεδομένων. Στη δεύτερη φάση, η οποία ονομάζεται φάση κλαδέματος, προσδιορίζεται το τελικό μέγεθος του δένδρου. Οι κανόνες που μπορούν να παραχθούν από το δένδρο πριν τη φάση του κλαδέματος είναι αρκετά εξειδικευμένοι. Περιορίζοντας το μέγεθος του δένδρου, παράγουμε μικρότερο αριθμό γενικότερων κανόνων το οποίο είναι καλύτερο από το να έχουμε πολλούς και εξειδικευμένους κανόνες. Ένα πιθανό δένδρο απόφασης για τα δεδομένα εκπαίδευσης που παρουσιάζονται στον πίνακα 3 φαίνεται στο σχήμα 3.6. Οι τιμές της στήλης της κατηγοριοποίησης 2 του συγκεκριμένου πίνακα, έχουν προέλθει από την εφαρμογή του συγκεκριμένου δένδρου απόφασης. Όπως είναι φυσικό, για τα ίδια δεδομένα εκπαίδευσης θα μπορούσε να δημιουργηθεί ένα άλλο δένδρο απόφασης, με διαφορετική κατηγοριοποίηση.

72 72 Είσοδος: Τ //Δένδρο απόφασης D //Βάση Δεδομένων Έξοδος: Μ //Κατηγοριοποίηση Αλγόριθμος DTProc Για κάθε t D επανέλαβε n = ρίζα του Τ; Όσο το n δεν είναι κόμβος φύλλο επανέλαβε Επίλεξε την απάντηση στην ερώτηση του κόμβου n όπου εφαρμόζεται το t; Αναγνώρισε το τόξο που περιέχει την σωστή απάντηση; n = κόμβος που καταλήγει το τόξο; Τέλος _ επανάληψης Τοποθέτησε το t στην κατηγορία που ορίζει ο κόμβος n; Τέλος _ επανάληψης Τέλος _ αλγορίθμου Σχήμα 3.5 Αλγόριθμος διάσχισης δένδρου απόφασης Σχήμα 3.6 Δένδρο απόφασης για τα δεδομένα του πίνακα 3 (κατηγοριοποίηση 2) Τα δένδρα απόφασης, ως τεχνική κατηγοριοποίησης, έχουν αρκετά πλεονεκτήματα. Ένα από τα πιο βασικά πλεονεκτήματα είναι το ότι μπορούν να χρησιμοποιηθούν εύκολα και αποτελεσματικά. Επίσης, ένα δένδρο απόφασης μπορεί

73 73 να εξάγει κανόνες οι οποίοι μπορούν εύκολα να κατανοηθούν και να ερμηνευτούν από το χρήστη. Ένα ακόμη βασικό πλεονέκτημα των δένδρων απόφασης είναι το ότι μπορούν να χρησιμοποιηθούν με επιτυχία σε μεγάλες Βάσεις Δεδομένων και αυτό επειδή το μέγεθος της Βάσης Δεδομένων είναι ανεξάρτητο από το μέγεθος του δένδρου. Κάθε πλειάδα προς κατηγοριοποίηση πρέπει να περάσει από το δένδρο. Η διαδικασία αυτή παίρνει χρόνο ανάλογο με το ύψος του δένδρου. Τέλος, είναι δυνατό να κατασκευάσουμε δένδρα για δεδομένα με πολλά χαρακτηριστικά. Από την άλλη πλευρά, υπάρχουν και αρκετά μειονεκτήματα όταν εφαρμόζουμε τα δένδρα απόφασης για να επιλύσουμε προβλήματα κατηγοριοποίησης. Ένα από τα βασικά μειονεκτήματα τους είναι ότι δεν μπορούν να χειριστούν συνεχή δεδομένα. Λύση σε αυτό το πρόβλημα, όπως και στην τεχνική κατηγοριοποίησης κατά Bayes, είναι να χωρίσουμε αυτού του είδους τα χαρακτηριστικά σε διαστήματα. Επίσης, τα δένδρα απόφασης προϋποθέτουν ότι ο χώρος του πεδίου διαιρείται σε ορθογώνιες περιοχές (Σχήμα 2.1 (α)). Άλλου είδους σχήματα δε μπορούν να χειριστούν από αυτή την τεχνική. Τα ελλιπή δεδομένα είναι ένα ακόμη πρόβλημα για τα δένδρα απόφασης και αυτό γιατί δε μπορούν να βρεθούν οι σωστές διακλαδώσεις για να ακολουθηθούν. Επιπρόσθετα, το φαινόμενο της υπερπροσαρμογής είναι πιθανό να εμφανιστεί στα δένδρα απόφασης αφού αυτό δημιουργείται βάσει των δεδομένων εκπαίδευσης. Τέλος, τα δένδρα απόφασης δε λαμβάνουν υπόψη τις πιθανές συσχετίσεις που υπάρχουν μεταξύ των χαρακτηριστικών. Όπως αναφέρθηκε λίγο παραπάνω, μπορούμε να έχουμε διαφορετικά δένδρα απόφασης με διαφορετική απόδοση στην κατηγοριοποίηση, για το ίδιο σύνολο εκπαίδευσης. Τα διαφορετικά δένδρα προκύπτουν από τις επιλογές των χαρακτηριστικών που θα χρησιμοποιηθούν ως ρίζα και ως κόμβοι γονείς. Τα χαρακτηριστικά που θα χρησιμοποιηθούν στους κόμβους του δένδρου και γύρω από τα οποία θα πραγματοποιηθούν οι διαιρέσεις, ονομάζονται χαρακτηριστικά διάσπασης (splitting predicates). Στα δένδρα απόφασης που παρουσιάζονται στα σχήματα 3.7, 3.8, 3.9 και 3.10, τα χαρακτηριστικά διάσπασης είναι τα {φύλο (gender), ύψος (height)}. Τα κατηγορήματα διάσπασης για το χαρακτηριστικό «φύλο» είναι {male, female}, ενώ αυτά για το χαρακτηριστικό «ύψος» είναι {<1.3, >1.8, <1.5, >2}. Τα κατηγορήματα διάσπασης για το «ύψος» διαφέρουν ανάλογα με το αν η πλειάδα είναι για male ή female.

74 74 Σχήμα 3.7 Ισοζυγισμένο δένδρο Σχήμα 3.8 Βαθύ δένδρο

75 75 Σχήμα 3.9 Θαμπώδες δένδρο Σχήμα 3.10 Δένδρο χωρίς το χαρακτηριστικό «φύλο» Ο αλγόριθμος του σχήματος 3.11 που βρίσκετε παρακάτω, παρουσιάζει έναν γενικό και απλό τρόπο κατασκευής του δένδρου απόφασης. Ο αλγόριθμος αυτός είναι αναδρομικός και χτίζει το δένδρο με τρόπο «από πάνω προς τα κάτω» εξετάζοντας τα δεδομένα εκπαίδευσης. Χρησιμοποιώντας τα αρχικά δεδομένα εκπαίδευσης, το καλύτερο χαρακτηριστικό διάσπασης επιλέγεται πρώτο ώστε να γίνει ρίζα του δένδρου. Οι αλγόριθμοι κατασκευής δένδρων απόφασης διαφέρουν στο πώς

76 76 καθορίζουν το «καλύτερο» χαρακτηριστικό και τα αντίστοιχα «καλύτερα» κατηγορήματα. Με το που θα καθοριστεί αυτό, ο κόμβος με τα τόξα του τοποθετούνται στο δένδρο. Ο αλγόριθμος συνεχίζει αναδρομικά, κάνοντας την ίδια διαδικασία για τους κόμβους των υποδένδρων. Ο αλγόριθμος φτάνει στο τέλος όταν ικανοποιούνται κάποια κριτήρια τερματισμού αλλά και πάλι κάθε αλγόριθμος έχει τα δικά του κριτήρια τερματισμού. Μια απλή προσέγγιση είναι να σταματήσει ο αλγόριθμος όταν οι πλειάδες του συνόλου εκπαίδευσης ανήκουν όλες στην ίδια κατηγορία και στην συνέχεια αυτή η κατηγορία, ονομάζει το φύλλο που δημιουργείται. Θα πρέπει να τονίσουμε ότι οι κυριότεροι παράγοντες που επηρεάζουν την απόδοση ενός αλγορίθμου που κατασκευάζει ένα δένδρο απόφασης είναι το μέγεθος του συνόλου εκπαίδευσης και το πώς επιλέγεται το καλύτερο χαρακτηριστικό διάσπασης. Είσοδος: D //Δεδομένα εκπαίδευσης Έξοδος: T //Δένδρο απόφασης Αλγόριθμος DTBuild T Ø; Καθόρισε το καλύτερο κριτήριο διάσπασης; T Δημιούργησε τον κόμβο ρίζα και ονόμασέ τον με το όνομα του χαρακτηριστικού διάσπασης; Τ Πρόσθεσε τόσα τόξα από τον κόμβο ρίζα όσα και τα κατηγορήματα διάσπασης (τιμές χαρακτηριστικού) και ονόμασε τα Για κάθε τόξο επανέλαβε D Δεδομένα εκπαίδευσης που παραμένουν εφαρμόζοντας το κατηγόρημα διάσπασης στο D Αν ικανοποιείται το κριτήριο τερματισμού για αυτό το μονοπάτι τότε Τ Δημιούργησε έναν κόμβο φύλλο και ονόμασε τον με το όνομα της κλάσης Αλλιώς T DTBuild (D); Τέλος _ αν Τ = πρόσθεσε τόξο στο Τ Τέλος _ επανάληψης Τέλος _ αλγορίθμου Σχήμα 3.11 Γενικός αλγόριθμος κατασκευής δένδρου απόφασης

77 77 Κάποια ζητήματα σχετικά με την διαδικασία κατασκευής των δένδρων αποφάσεων που λαμβάνονται υπόψη από τους περισσότερους αλγορίθμους κατασκευής είναι τα παρακάτω: Επιλογή των χαρακτηριστικών διάσπασης: Έχοντας αναφέρει στην εργασία αυτή ότι το ποια χαρακτηριστικά χρησιμοποιούνται ως χαρακτηριστικά διάσπασης, επηρεάζει την απόδοση του δένδρου απόφασης αφού μερικά χαρακτηριστικά είναι καλύτερα από τα άλλα, η επιλογή του χαρακτηριστικού περιλαμβάνει όχι μόνο την εξέταση των δεδομένων του συνόλου εκπαίδευσης, αλλά και την εμπεριστατωμένη άποψη των ειδικών του συγκεκριμένου τομέα. Διάταξη των χαρακτηριστικών διάσπασης: Κάτι πολύ σημαντικό είναι η σειρά με την οποία επιλέγονται τα χαρακτηριστικά διάσπασης. Στο σχήμα 3.7 το χαρακτηριστικό «φύλο» επιλέγεται πρώτα ενώ εναλλακτικά, θα μπορούσε να χρησιμοποιηθεί πρώτα το χαρακτηριστικό «ύψος». Στο σχήμα 3.8, το χαρακτηριστικό «ύψος» εξετάζεται δύο φορές, κάτι που απαιτεί επιπλέον συγκρίσεις και περισσότερο χρόνο. Διασπάσεις: Ο αριθμός των διασπάσεων που έχουμε σχετίζεται με τη διάταξη των χαρακτηριστικών. Σε μερικά χαρακτηριστικά, το πεδίο είναι μικρό, πράγμα που σημαίνει ότι ο αριθμός των διασπάσεων είναι μικρός (όπως και στο χαρακτηριστικό «φύλο»), ενώ αν το πεδίο είναι συνεχές ή έχει μεγάλο πλήθος διαφορετικών τιμών, ο αριθμός των διασπάσεων που θα γίνουν δεν είναι απλή διαδικασία. Δομή του δένδρου: Για να έχουμε καλύτερη απόδοση στην κατηγοριοποίηση, είναι επιθυμητό να έχουμε ένα ισοζυγισμένο δένδρο απόφασης με τα λιγότερα δυνατά επίπεδα. Ωστόσο, κάτι τέτοιο ίσως απαιτούσε πολύπλοκες συγκρίσεις με πολλές διακλαδώσεις. Κριτήρια τερματισμού: Όπως έχει προαναφερθεί, ο κάθε αλγόριθμος παραγωγής ενός δένδρου απόφασης έχει διαφορετικό κριτήριο τερματισμού. Όπως είναι φυσικό, η κατασκευή του δένδρου τερματίζει όταν τα δεδομένα εκπαίδευσης δοκιμάζονται και κατηγοριοποιούνται τέλεια. Ωστόσο, ένα μεγάλο δένδρο απόφασης ίσως δεν είναι τόσο αποδοτικό και έτσι υπάρχουν περιπτώσεις που σταματάμε την

78 78 κατασκευή του δένδρου. Κάτι τέτοιο αποτελεί συμβιβασμό μεταξύ ακρίβειας στην κατηγοριοποίηση και στην απόδοση. Επίσης, είναι επιθυμητό να σταματήσουμε την ανάπτυξη του δένδρου ώστε να αποφύγουμε φαινόμενα υπερπροσαρμογής. Δεδομένα εκπαίδευσης: Η δομή του δένδρου απόφασης εξαρτάται στο μεγαλύτερο ποσοστό, στα δεδομένα εκπαίδευσης που χρησιμοποιούνται. Αν το σύνολο αυτό είναι πολύ μικρό, τότε ίσως το δένδρο να μην είναι αρκετά συγκεκριμένο ώστε να μπορεί να εφαρμοστεί σε γενικά δεδομένα και αντιθέτως, αν το σύνολο εκπαίδευσης είναι μεγάλο, τότε υπάρχουν αυξημένες πιθανότητες να έχουμε φαινόμενα υπερπροσαρμογής. Κλάδεμα: Αφού κατασκευαστεί ένα δένδρο, είναι πιθανό να χρειάζονται κάποιες τροποποιήσεις σε αυτό, ώστε να βελτιωθεί η απόδοση του. Η φάση του κλαδέματος (pruning) αφαιρεί κάποιες περιττές συγκρίσεις ή διαγράφει κάποια υποδένδρα με στόχο την επίτευξη καλύτερης απόδοσης. Οι σχεδιαστικές αποφάσεις για την κατασκευή δένδρου που μόλις αναφέραμε, γίνονται κατανοητές πιο εύκολα, αν παρατηρήσουμε τα σχήματα 3.7, 3.8,3.9 και Τα τρία πρώτα δένδρα εκτελούν την ίδια ακριβώς κατηγοριοποίηση, όλα όμως με διαφορετικό τρόπο. Κάτω από κάθε δένδρο παρουσιάζεται ένας πίνακας που δείχνει τις λογικές διαιρέσεις που χρησιμοποιούνται από το αντίστοιχο δένδρο. Ένα χαρακτηριστικό του πρώτου δένδρου σε αντίθεση με τα άλλα δύο, είναι ότι αυτό είναι ισοζυγισμένο, δηλαδή χρειάζεται τον ίδιο αριθμό βημάτων ώστε να διασχίσει όλα τα μονοπάτια από την ρίζα στα φύλα. Από την άλλη, το χαρακτηριστικό του δεύτερου δένδρου είναι ότι έχει το μεγαλύτερο ύψος, πράγμα που σημαίνει ότι θα έχει μια ελαφρώς χειρότερη συμπεριφορά όταν αυτό χρησιμοποιείται για κατηγοριοποίηση. Παρόλα αυτά, τα παραπάνω χαρακτηριστικά δεν επηρεάζουν την ακρίβεια της κατηγοριοποίησης αλλά τον χρόνο που αυτή απαιτεί. Ωστόσο, ο χρόνος μπορεί να μην ακούγεται κάτι τόσο άσχημο αλλά όταν μιλάμε για μεγάλες Βάσεις Δεδομένων είναι ένα πολύ σημαντικό χαρακτηριστικό της κατηγοριοποίησης. Έτσι, όταν χειριζόμαστε μεγάλες Βάσεις Δεδομένων, είναι απαραίτητη η χρήση ενός ισοζυγισμένου και μικρού ύψους δένδρο.

79 79 Όπως ήδη αναφέραμε, οι τεχνικές κλαδέματος χρησιμοποιούνται μετά από την κατασκευή του δένδρου με στόχο να βελτιώσουν την συνολική απόδοση της κατηγοριοποίησης. Οι τεχνικές κλαδέματος αφαιρούν τμήματα του δένδρου τα οποία σχετίζονται με ένα μη σημαντικό χαρακτηριστικό. Σε περίπτωση που το δένδρο αντιμετωπίζει προβλήματα υπερπροσαρμογής, τότε θα πρέπει να αφαιρεθούν χαμηλότερου επιπέδου υποδένδρα. Οι τεχνικές κλαδέματος μπορεί να εφαρμοστούν όχι μόνο μετά το χτίσιμο του δένδρου αλλά και κατά τη διάρκεια κατασκευής του και με αυτό τον τρόπο αποτρέπουμε την άσκοπη ανάπτυξη του δένδρου. Γενικά, η πολυπλοκότητα σε χρόνο και χώρο των αλγορίθμων δένδρων απόφασης εξαρτάται από το μέγεθος του συνόλου εκπαίδευσης, από τον αριθμό των χαρακτηριστικών και από το σχήμα του δένδρου Ο αλγόριθμος ID3 Ο αλγόριθμος ID3 είναι μια από τις διαδεδομένες και ταυτόχρονα απλές τεχνικές που χρησιμοποιείται για την κατασκευή δένδρων αποφάσεων και αυτό που προσπαθεί να επιτύχει αυτός ο αλγόριθμος είναι να ελαχιστοποιήσει τον αριθμό των συγκρίσεων. Η βασική ιδέα ενός αλγορίθμου επαγωγής είναι να κάνει ερωτήσεις των οποίων οι απαντήσεις να περιέχουν την περισσότερη πληροφορία και όταν λέμε περισσότερη πληροφορία, εννοούμε ερωτήσεις που απορρίπτουν μεγάλο μέρος του χώρου αναζήτησης. Για παράδειγμα, μια ερώτηση της μορφής «is the thing alive?» είναι καλύτερη από την ερώτηση «is it my daddy?» και αυτό γιατί η πρώτη ερώτηση χωρίζει το χώρο αναζήτησης σε δύο μεγάλα πεδία σε αντίθεση με τη δεύτερη που εκτελεί μια μικρή διαίρεση του χώρου. Η βασική ιδέα του αλγορίθμου ID3 είναι η επιλογή χαρακτηριστικών διάσπασης που περιέχουν μεγαλύτερο κέρδος πληροφορίας. Το ποσό της πληροφορίας, το οποίο σχετίζεται με την τιμή ενός χαρακτηριστικού, εξαρτάται από την πιθανότητα εμφάνισης του. Για να μετρηθεί η πληροφορία χρησιμοποιείται η έννοια που καλείται εντροπία (Entropy). Χρησιμοποιούμε το μέτρο της εντροπίας ώστε να μετρήσουμε το πόσο ανομοιογενές είναι ένα σύνολο δεδομένων. Το μέτρο αυτό παίρνει τιμές στο διάστημα [0,1] και πιάνει το μέγιστο όταν όλες οι πιθανότητες είναι ίδιες. Στον ορισμός 3.6 φαίνεται ο τυπικός ορισμός της εντροπίας [5].

80 80 Ορισμός 3.6: Με δεδομένες τις πιθανότητες p 1, p 2,, p s με η εντροπία ορίζεται ως: Δεδομένης μιάς κατάστασης της Βάσης Δεδομένων, D, το Η(D) βρίσκει την ποσότητα της τάξης σε αυτή την κατάσταση. Όταν η κατάσταση D διασπάται σε s καινούργιες καταστάσεις S = {D 1,D 2,,D s }, το μέτρο της εντροπίας μπορεί να εφαρμοστεί σε κάθε μια από αυτές τις νέες καταστάσεις. Κάθε βήμα του ID3 επιλέγει την κατάσταση η οποία διατάσσει περισσότερο τη διάσπαση. Μια κατάσταση της Βάσης Δεδομένων είναι απολύτως διατεταγμένη εάν όλες οι πλειάδες σε αυτή ανήκουν στην ίδια κατηγορία. Ο ID3 επιλέγει το χαρακτηριστικό διάσπασης με το υψηλότερο κέρδος πληροφορίας όπου το Κέρδος (gain) πληροφορίας μετρά την μείωση της εντροπίας που θα προκληθεί αν χωριστεί το σύνολο δεδομένων με βάση κάποιο χαρακτηριστικό. Για να υπολογίσει ο ID3 αλγόριθμος το κέρδος μιας διάσπασης, χρησιμοποιεί τον ακόλουθο τύπο: Ο πρώτος όρος της διαφοράς είναι η εντροπία του συνόλου δεδομένων ενώ ο δεύτερος όρος είναι η εντροπία των δεδομένων μετά τη διάσπασή τους ανάλογα με την τιμή του χαρακτηριστικού S. Ο δεύτερος όρος αποτελείται από το άθροισμα της εντροπίας για το κάθε σύνολο που προκύπτει μετά τη διάσπαση. Παρακάτω παρουσιάζεται μια γενική περιγραφή του ID3: 1. Αρχικά πρέπει να επιλεχτεί το πιο κατάλληλο χαρακτηριστικό για έλεγχο στη ρίζα. 2. Στη συνέχεια, για κάθε δυνατή τιμή του χαρακτηριστικού δημιουργούνται οι αντίστοιχοι απόγονοι της ρίζας. Τα δεδομένα μοιράζονται στους νέους κόμβους ανάλογα με την τιμή που έχουν για το χαρακτηριστικό που ελέγχεται στη ρίζα.

81 81 3. Η όλη διαδικασία επαναλαμβάνεται για κάθε νέο κόμβο. Η επιλογή του χαρακτηριστικού θα γίνει βάσει των δεδομένων που ανήκουν στον κάθε κόμβο. 4. Ένας κόμβος γίνεται φύλλο όταν όλα τα δεδομένα που ανήκουν σε αυτόν ανήκουν στην ίδια κατηγορία (αμιγής κόμβος). Η κατηγορία αυτή γίνεται και η τιμή του φύλλου. 5. Αν σε κάποιο βάθος τελειώσουν τα χαρακτηριστικά προς έλεγχο, τότε ο κόμβος γίνεται τερματικός και σαν τιμή. Παράδειγμα 3.5: Τα δεδομένα εκπαίδευσης του πίνακα 3 (με την κατηγοριοποίηση 1) δείχνουν ότι 4/15 είναι κοντοί, 8/15 είναι μέτριοι και 3/15 είναι ψηλοί. Έτσι η εντροπία του αρχικού συνόλου είναι: 4/15 log(15/4) + 8/15 log(15/8) + 3/15 log(15/3) = Επιλέγοντας το χαρακτηριστικό «φύλο» ως χαρακτηριστικό διάσπασης έχουμε 9 πλειάδες οι οποίες είναι Θ και 6 οι οποίες είναι Α. Η εντροπία του υποσυνόλου που είναι Θ είναι: 3/9 log(9/3) + 6/9 log(9/6) = Ενώ η εντροπία για τις πλειάδες του υποσυνόλου Α είναι: 1/6 log(6/1) + 2/6 log(6/2) + 3/6 log(6/3) = Ο ID3 πρέπει να καθορίσει ποιο είναι το κέρδος στην πληροφορία χρησιμοποιώντας αυτήν την διάσπαση. Για να το κάνει αυτό θα υπολογίσει το σταθμισμένο άθροισμα αυτών των 2 τελευταίων εντροπιών για να πάρει: ((9/15) ) + ((6/15) ) = Επομένως το κέρδος στην εντροπία με τη χρήση του χαρακτηριστικού «φύλο» είναι: =

82 82 Για να κάνουμε την ίδια διαδικασία και για το χαρακτηριστικό «ύψος» όπου έχουμε 2 άτομα με ύψος 1.6, 2 άτομα με ύψος 1.7, 1 άτομο με ύψος 1.75, 2 άτομα με ύψος 1.8, 1 άτομο με ύψος 1.85, 1 άτομο με ύψος 1.88, 2 άτομα με ύψος 1.9, 1 άτομο με ύψος 1.95, 1 άτομο με ύψος 2, 1 άτομο με ύψος 2.1 και 1 άτομο με ύψος 2.2, θα είναι καλύτερο το να χωρίσουμε τα δεδομένα σε διαστήματα, καθώς ξέρουμε ότι θα υπάρξουν πολύ περισσότερες τιμές για το σύνολο δεδομένων εκτός από αυτές τις τιμές. Ο διαχωρισμός αυτός πρέπει να γίνει από έναν ειδικό στο πεδίο του προβλήματος. Τα διαστήματα που προκύπτουν από έναν διαχωρισμό θα μπορούσαν να είναι τα εξής: (0,1.6], (1.6, 1.7], (1.7, 1.8], (1.8, 1.9], (1.9, 2.0], (2.0, ) Υπάρχουν 2 πλειάδες στην πρώτη διαίρεση με εντροπία (2/2(0)+0+0) = 0, 2 στο διάστημα (1.6,1.7] με εντροπία (0+4/4(0)+0)=0, 3 στο (1.7,1.8] με εντροπία (0 +3/3(0)+0) = 0, 4 στο (1.8,1.9] με εντροπία (0+4/4(0)+0)=0, 2 στο (1.9,2.0] με εντροπία (0 + 1/2(0.301) + 1/2(0.301) = και 2 πλειάδες στο (2.0, ) με εντροπία ( /2(0)) = 0. Όλες αυτές οι καταστάσεις είναι εντελώς διατεταγμένες και επομένως έχουν εντροπία ίση με 0, εκτός από αυτή που αντιστοιχεί στο διάστημα (1.9, 2.0]. Επομένως, το κέρδος με την χρήστη του χαρακτηριστικού «ύψος» είναι: /15(0.301) = Από τα παραπάνω καταλαβαίνουμε ότι η διάσπαση χρησιμοποιώντας το χαρακτηριστικό «ύψος» είναι καλύτερη από την διάσπαση βάσει το χαρακτηριστικό «φύλο» αφού αυτή έχει μεγαλύτερο κέρδος. Παράδειγμα 3.6: Σε αυτό το παράδειγμα θα εφαρμόσουμε τον ID3 στα δεδομένα που παρουσιάζονται στον πίνακα 6 (καλός καιρός για τένις: ΝΑΙ ή ΟΧΙ ). S = [9 NAI, 5 - OXI], E = Καιρός: Ηλιόλουστος: S = [2 NAI, 3- OXI], E = Συννεφιά: S = [4 ΝΑΙ, 0- ΟΧΙ], Ε = 0 Βροχερός: S = [3 ΝΑΙ, 2- ΟΧΙ], Ε = 0.971

83 83 Υγρασία: Υψηλή: S = [3- NAI, 4 - OXI], E=0.985 Κανονική: S = [6 ΝΑΙ, 1-ΟΧΙ], Ε=0.592 Θερμοκρασία: Μικρή: S = [3 NAI, 1 - OXI], E=0.811 Μεσαία: S = [4-NAI, 2-OXI], E=0.918 Μεγάλη: S = [2-NAI, 2-OXI], E=1 Άνεμος: Ισχυρός: S = [6 NAI, 2- OXI], E=0.811 Αδύναμος: S = [3 NAI, 3- OXI], E=1 Κέρδος πληροφορίας: Gain(S, καιρός) = (5/14) * (4/14) * 0- (5/14) * 0.971= Gain(S, θερμοκρασία) = (4/14) * (6/14) * (4/14) * 1 = Gain(S, υγρασία) = (7/14) * * (7/14) * = Gain(S, άνεμος) = (8/14) * (6/14) * 1 = Το χαρακτηριστικό «καιρός» παρατηρούμε ότι δίνει το μεγαλύτερο κέρδος πληροφορίας, επομένως επιλέγουμε αυτό για τον διαχωρισμό. Συνεχίζουμε τον αλγόριθμο για τους κόμβους στους οποίους οδηγούν τα κλαδιά «καιρός = ηλιόλουστος» και «καιρός = βροχερός». Για την εύρεση του χαρακτηριστικού στο κόμβο που οδηγεί το κλαδί «καιρός = ηλιόλουστος» θα χρησιμοποιήσουμε μόνο τις 5 περιπτώσεις που ανήκουν στον κόμβο αυτό. S = [2-NAI, 3-OXI], E=0.971 Υγρασία: Υψηλή: S = [0- NAI, 3 - OXI], E=0 Κανονική: S = [2 ΝΑΙ, 0-ΟΧΙ], Ε=0 Θερμοκρασία: Μικρή: S = [1 NAI, 0 - OXI], E=0 Μεσαία: S = [1-NAI, 1-OXI], E=1 Μεγάλη: S = [0-NAI, 2-OXI], E=0 Άνεμος: Ισχυρός: S = [1 NAI, 1- OXI], E=1 Αδύναμος: S = [1 NAI, 2- OXI], E=0.811

84 84 Κέρδος πληροφορίας: Gain(S, θερμοκρασία) = (1/5) * 0 (2/5) * 1 - (2/5) * 0 = Gain(S, υγρασία) = (3/5) * 0 * (2/5) * 0 = Gain(S, άνεμος) = (2/5) * 1 (3/5) * = Επομένως για διαχωρισμό επιλέγουμε το χαρακτηριστικό «υγρασία». Με τον ίδιο τρόπο συνεχίζουμε και για τον κόμβο που οδηγεί το κλαδί «καιρός = βροχερός». Για αυτό το κλαδί το χαρακτηριστικό με το μεγαλύτερο κέρδος πληροφορίας είναι ο «Άνεμος». Άρα καταλήγουμε στο δένδρο απόφασης του σχήματος Σχήμα 3.12 Δένδρο απόφασης παραδείγματος Ο αλγόριθμος C4.5 και C5.0 Ο Αλγόριθμος δένδρου απόφασης C4.5 βελτιώνει τον αλγόριθμο ID3 και συγκεκριμένα με τους εξής τρόπους: Ελλιπή δεδομένα: Όταν το δένδρο απόφασης χτίζεται, τα ελλιπή δεδομένα απλά αγνοούνται. Αυτό σημαίνει ότι το κέρδος υπολογίζεται λαμβάνοντας υπόψη μόνο τις εγγραφές που έχουν κάποια τιμή για εκείνο το χαρακτηριστικό. Για να κατηγοριοποιήσουμε μια πλειάδα με ελλιπή τιμή σε ένα χαρακτηριστικό, η τιμή για αυτό το στοιχείο μπορεί να προβλεφτεί με βάση τις υπόλοιπες τιμές αυτού του χαρακτηριστικού από τις άλλες εγγραφές. Συνεχή δεδομένα: Τα χαρακτηριστικά χωρίζονται σε διαστήματα με βάση τις τιμές των γνωρισμάτων για εκέινα τα στοιχεία τα οποία ανήκουν στο δέιγμα εκπαίδευσης.

85 85 Κλάδεμα: Στον C4.5 υπάρχουν δύο σημαντικές στρατηγικές κλαδέματος που προτείνονται και αυτές είναι: Αντικατάσταση του υποδένδρου (subtree replacement): ένα υποδένδρο αντικαθιστάται από ένα φύλλο εάν αυτή η αντικατάσταση έχει ως αποτέλεσμα ένα σφάλμα κοντά σε αυτό του αρχικού δένδρου. Αυτή η τεχνική εφαρμόζεται ξεκινώντας από το κάτω μέρος του δέντρου, που είναι τα φύλλα, και ανεβαίνοντας προς τη ρίζα. Ανύψωση υποδένδρου (subtree raising): αντικαθιστά ένα υποδένδρο με το πιο χρησιμοποιημένο υποδένδρο του. Επομένως ένα υποδένδρο ανυψώνεται από τη θέση που βρίσκεται σε ένα κόμβο υψηλότερου επιπέδου στο δένδρο. Πάλι όμως, πρέπει να καθορίσουμε την αύξηση στη συχνότητα εμφάνισης λαθών για αυτήν την αντικατάσταση. Κανόνες: Ο C4.5 επιτρέπει την κατηγοριοποίηση είτε μέσω δένδρων αποφάσεων είτε μέσω κανόνων οι οποίοι δημιουργούνται από αυτά. Επιπλέον, προτείνονται μερικές τεχνικές που κάνουν πιό απλούς τους πολύπλοκους κανόνες. Μία προσέγγιση είναι η αντικατάσταση της αριστερής πλευράς ενός κανόνα από μια απλούστερη έκδοση εάν όλες οι εγγραφές του συνόλου εκπαίδευσης αντιμετωπίζονται με τον ίδιο τρόπο. Ένας «εναλλακτικού» τύπου κανόνας μπορεί να χρησιμοποιηθεί για να δείξει τι πρεπει να γίνει αν δεν μπορεί να εφαρμοστεί κανένας άλλος. Διάσπαση: Ο ID3 με την προσέγγιση που χρησιμοποιεί προτιμά τα χαρακτηριστικά με πολλές διαιρέσεις και αυτό μπορεί να οδηγήσει σε υπερπροσαρμογή. Στην πιο ακραία περίπτωση, ένα χαρακτηριστικό το οποίο έχει μια μοναδική τιμή για κάθε πλειάδα στο σύνολο εκπαίδευσης, θα ήταν το καλύτερο καθώς θα υπήρχε μόνο μια πλειάδα, και άρα μόνο μια κατηγορία, για κάθε διαίρεση. Μια βελτίωση θα μπορούσε να γίνει εάν λάβουμε υπόψη την πληθικότητα της κάθε διαίρεσης. Αυτή η προσέγγιση χρησιμοποιεί το GainRatio, και όχι το Gain, και όρίζεται ως εξής:

86 86 Για την διάσπαση, ο C4.5 χρησιμοποιεί το μεγαλύτερο GainRatio το οποίο εξασφαλίζει ένα μεγαλύτερο από το μέσο όρο κέρδος στην πληροφορία. Αυτό αντισταθμίζει το γεγονός ότι η τιμή του GainRatio κλίνει προς διασπάσεις όπου το μέγεθος του ενός υποσυνόλου είναι κοντά προς αυτό του αρχικού. Ο C5.0 είναι μια εμπορική έκδοση του C4.5 που χρησιμοποιείται σε μεγάλο βαθμό στα πακέτα λογισμικού εξόρυξης γνώσης. Ο προσανατολισμός του είναι προς τη χρήση μεγάλων συνόλων δεδομένων. Η φάση της επαγωγής είναι όμοια με αυτή του C4.5 αλλά η δημιουργία κανόνων είναι διαφορετική. Αντίθετα με τον C4.5, οι ακριβείς αλγόριθμοι που χρησιμοποιούνται στον C5.0 δεν έχουν αποκαλυφθεί από τους δημιουργούς τους. Ο αλγοριθμος αυτός περιλαμβάνει βελτιώσεις στη δημιουργία των κανόνων και τα αποτελέσματα δείχνουν ότι ο C5.0 βελτιώνει την χρήση της μνήμης κατά 90%, τρέχει μεταξύ 5,7 και 240 φορές πιο γρήγορα από τον C4.5 και παράγει πιο ακριβείς κανόνες. Μια πολύ σημαντική βελτίωση στην ακρίβεια του C5.0 βασίζεται στην ενίσχυση (boosting) η οποία είναι μία προσέγγιση που συνδυάζει διάφορους κατηγοριοποιητές. Αν και η ενίσχυση κανονικά αυξάνει το χρόνο για το τρέξιμο ενός συγκεκριμένου κατηγοριοποιητή, από την άλλη βελτιώνει την ακρίβεια. Έχει βρεθεί σε μερικά σύνολα δεδομένων, το σφάλμα που προκύπτει να είναι λιγότερο από το μισό αυτού που βρέθηκε για τον C4.5. Η ενίσχηση δεν βοηθάει πάντα όταν τα δεδομένα εκπαίδευσης έχουν πολύ θόρυβο και λειτουργεί με τη δημιουργία πολλαπλών συνόλων εκπαίδευσης από ένα σύνολο εκπαίδευσης. Σε κάθε στοιχείο του συνόλου εκπαίδευσης αποδίδεται ένα βάρος το οποίο δείχνει το πόσο σημαντικό είναι το στοιχείο αυτό για την κατηγοριοποίηση. Για κάθε συνδιασμό των βαρών που χρησιμοποιούνται, δημιουργείται ένας κατηγοριοποιητής και έτσι έχουμε την δημιουργία πολλαπλών κατηγοριοποιητών. Μόλις ο C5.0 εκτελέσει την κατηγοριοποίηση, κάθε κατηγοριοποιητής λαμβάνει μία ψήφο, η ψηφοφορία εκτελείται, και η εν λόγω πλειάδα εκχωρείται στην κατηγορία με τον μεγαλύτερο αριθμό ψήφων.

87 87 Κεφάλαιο Τέταρτο 4. Νευρωνικά Δίκτυα 4.1 Τι είναι τα Νευρωνικά Δίκτυα Τα νευρωνικά δίκτυα (neural networks ή με σύντμηση neural nets) αποτελούν μια σχετικά νέα περιοχή στις φυσικές επιστήμες, καθόσον έχουν γίνει γνωστά και έχουν αναπτυχθεί σε διεθνές επίπεδο μόνο κατά τις τελευταίες δεκαετίες. Εν τούτοις, η περιοχή αυτή έχει δει μια μεγάλη άνθηση, η οποία διαφαίνεται από την μεγάλη ανάπτυξη που έχει παρατηρηθεί, από τον αριθμό των επιστημόνων που ασχολούνται με αυτά τα θέματα και βέβαια από τα πολύ σημαντικά επιτεύγματα που έχουν συμβάλλει στο να γίνουν τα νευρωνικά δίκτυα γνωστά σε ένα ευρύτερο κύκλο. Αποτελούν επομένως ένα θέμα με μεγάλο ενδιαφέρον στις τεχνολογικές επιστήμες. Το κύριο χαρακτηριστικό τους είναι ότι οι πρώτες αρχές και λειτουργίες τους βασίζονται και εμπνέονται από το νευρικό σύστημα των ζώντων οργανισμών (και φυσικά του ανθρώπου), αλλά η μελέτη και η χρήση τους έχει προχωρήσει πολύ πέρα από τους βιολογικούς οργανισμούς. Ουσιαστικά δημιουργήθηκε μία νέα περιοχή η οποία έχει αποκοπεί τελείως από την βιολογία και σήμερα τα νευρωνικά δίκτυα χρησιμοποιούνται για να λύσουν κάθε είδους προβλήματα με ηλεκτρονικό υπολογιστή. Η φιλοσοφία τους όμως είναι διαφορετική από τον τρόπο με τον οποίο δουλεύουν οι κλασικοί υπολογιστές. Η λειτουργία τους προσπαθεί να συνδυάσει τον τρόπο σκέψης του ανθρώπινου εγκεφάλου με τον αφηρημένο μαθηματικό τρόπο σκέψης. Έτσι στα νευρωνικά δίκτυα χρησιμοποιούμε τέτοιες ιδέες όπως, π.χ. ένα δίκτυο μαθαίνει και εκπαιδεύεται, θυμάται ή ξεχνά μια αριθμητική τιμή κτλ., πράγματα που μέχρι τώρα τα αποδίδαμε μόνο στην ανθρώπινη σκέψη. Αλλά βέβαια μπορούν και χρησιμοποιούν επί πλέον και περίπλοκες μαθηματικές συναρτήσεις και κάθε είδους εργαλεία από την μαθηματική ανάλυση. Ένα ιδιαίτερο χαρακτηριστικό είναι ότι οι επιστήμονες στην περιοχή των νευρωνικών δικτύων προέρχονται σχεδόν από όλες τις περιοχές των φυσικών επιστημών, όπως την Ιατρική, την επιστήμη Μηχανικών, τη Φυσική, τη Χημεία, τα Μαθηματικά, την επιστήμη Υπολογιστών, την Ηλεκτρολογία κτλ. Αυτό δείχνει ότι για την ανάπτυξή τους απαιτούνται ταυτόχρονα γνώσεις και θέματα από πολλές περιοχές, ενώ το ίδιο ισχύει και για τις τεχνικές και τις μεθόδους που

88 88 χρησιμοποιούνται. Έτσι καταλαβαίνει κανείς ότι τα νευρωνικά δίκτυα δίνουν μια νέα πρόκληση στις επιστήμες, καθόσον οι νέες γνώσεις που απαιτούνται είναι από τις πιο χρήσιμες στον άνθρωπο, τόσο για την ζωή και την ιατρική όσο και για την τεχνολογία. Καμία άλλη επιστήμη σήμερα δεν συνδυάζει με τόσο άμεσο τρόπο γνώσεις που προέρχονται από τόσο διαφορετικές περιοχές. Η έμπνευση για τα νευρωνικά δίκτυα, όπως αναφέρθηκε παραπάνω, ξεκινά από την βιολογία. Οι ζώντες οργανισμοί, από τους πιο απλούς μέχρι τον άνθρωπο, έχουν ένα νευρικό σύστημα το οποίο είναι υπεύθυνο για μια πλειάδα από διεργασίες, όπως είναι η επαφή με τον εξωτερικό κόσμο, η μάθηση, η μνήμη κτλ. Το νευρικό σύστημα των οργανισμών αποτελείται από πολλά νευρωνικά δίκτυα τα οποία είναι εξειδικευμένα στις διεργασίες αυτές. Η κεντρική μονάδα του νευρικού συστήματος είναι, οπωσδήποτε, ο εγκέφαλος, ο οποίος επίσης αποτελείται από νευρωνικά δίκτυα. Κάθε νευρωνικό δίκτυο αποτελείται από ένα μεγάλο αριθμό μονάδων, που λέγονται νευρώνες ή νευρώνια (neurons). Ο νευρώνας είναι η πιο μικρή ανεξάρτητη μονάδα του δικτύου, όπως λ.χ. το άτομο είναι η πιο μικρή μονάδα της ύλης. Οι νευρώνες συνεχώς και ασταμάτητα επεξεργάζονται πληροφορίες, παίρνοντας και στέλνοντας ηλεκτρικά σήματα σε άλλους νευρώνες. Βλέπουμε λοιπόν ότι οι πρώτες γνώσεις μας για τα νευρωνικά δίκτυα προέρχονται από την βιολογία και την ιατρική. Σήμερα διεξάγεται ιδιαίτερα μεγάλη έρευνα στις δύο αυτές επιστήμες για την καλύτερη κατανόηση των νευρωνικών δικτύων του εγκεφάλου, καθόσον είναι προφανές ότι αυτό θα βοηθήσει στο να εξηγήσουμε πώς ακριβώς λειτουργεί ο εγκέφαλος και τις τόσο περίπλοκες διεργασίες του, όπως πως σκεπτόμαστε, πως θυμόμαστε κτλ. Οι έννοιες αυτές, παρόλο ότι φαίνονται απλές, εν τούτοις δεν έχουν εξηγηθεί σχεδόν καθόλου μέχρι σήμερα από τους επιστήμονες. Έτσι, λοιπόν, τα νευρωνικά δίκτυα των ζώντων οργανισμών τα ονομάζουμε βιολογικά νευρωνικά δίκτυα, ενθυμούμενοι ότι αυτά είναι και τα πρώτα δίκτυα που μελετήθηκαν, καθόσον υπάρχουν σε όλους τους ζώντες οργανισμούς (όχι όμως στα φυτά). Οι διεργασίες που επιτελούνται από τα βιολογικά νευρωνικά δίκτυα στους ζώντες οργανισμούς είναι πολύ περίπλοκες αλλά και τόσο χρήσιμες στην καθημερινή ζωή του ανθρώπου. Μερικές από αυτές είναι εργασίες ρουτίνας, τις οποίες ο ανθρώπινος εγκέφαλος εκτελεί με ελάχιστη ή μηδαμινή προσπάθεια, όπως π.χ. η αναγνώριση μιας εικόνας. Το ερώτημα που προκύπτει λοιπόν είναι αν μπορούν οι ηλεκτρονικοί υπολογιστές να κάνουν αυτά που κάνει το ανθρώπινο μυαλό. Η απάντηση είναι πως πολλά από τα πιο απλά πράγματα, όπως η αναγνώριση φωνής ή

89 89 εικόνας που το μυαλό κάνει πολύ εύκολα, οι υπολογιστές δεν μπορούν εύκολα να τα κάνουν με επιτυχία. Και βέβαια αυτό δεν οφείλεται στην έλλειψη ταχύτητας, καθώς οι υπολογιστές είναι χιλιάδες φορές γρηγορότεροι από το μυαλό. Ο λόγος είναι ότι η δομή των υπολογιστών είναι πάρα πολύ διαφορετική από την δομή του εγκεφάλου. Το επόμενο λογικό ερώτημα είναι αν θα μπορούσαμε να φτιάξουμε έναν υπολογιστή με τέτοια εσωτερική δομή που να μοιάζει με την δομή του εγκεφάλου και έτσι να μπορέσουμε να πετύχουμε αυτό που θέλουμε. Αυτό έχει οδηγήσει στο να γίνουν κάποιες πρώτες σκέψεις μήπως είναι δυνατόν να δημιουργηθούν κάποια πρότυπα (μοντέλα) του νευρωνικού συστήματος του ανθρώπου, τα οποία θα περιέχουν όλα τα χαρακτηριστικά που είναι γνωστά μέχρι σήμερα και τα οποία θα μπορούσαν από μόνα τους να επιτελέσουν τις εργασίες αυτές, με τον ίδιο τρόπο που γίνονται στα βιολογικά νευρωνικά δίκτυα. Τα δίκτυα αυτά ονομάζονται τεχνητά νευρωνικά δίκτυα (artificial neural nets, ANN). Η βασική τους διαφορά από τα βιολογικά δίκτυα είναι ότι τα δίκτυα αυτά παίρνουν γνώσεις (μαθαίνουν) με την εξάσκηση και την εμπειρία, όπως ακριβώς και οι άνθρωποι, αλλά διαφέρουν στο ότι δεν ακολουθούν ορισμένους προκαθορισμένους κανόνες, που είναι χαρακτηριστικό των υπολογιστών. Υπάρχει σήμερα ένας μεγάλος όγκος έρευνας στην περιοχή αυτή, καθώς και εδώ είναι προφανές πόσο χρήσιμο θα ήταν να μπορεί κάτι το άψυχο να επιτελεί εργασίες που μέχρι σήμερα μόνο ο άνθρωπος μπορούσε να κάνει, είτε αυτό είναι μια μηχανή είτε ένα πρόγραμμα ηλεκτρονικού υπολογιστή. Τις τελευταίες λοιπόν δεκαετίες, στην προσπάθεια να απαντηθούν τα ερωτήματα αυτά, τα τεχνητά νευρωνικά δίκτυα έχουν δει μεγάλη άνθηση και πρόοδο [6]. 4.2 Ένα Απλό Νευρωνικό Δίκτυο Ένα νευρωνικό δίκτυο αποτελείται από ένα αριθμό στοιχείων, τους νευρώνες. Σε κάθε νευρώνα καταφθάνει ένας αριθμός σημάτων, τα οποία έρχονται ως είσοδος σ αυτόν. Ο νευρώνας έχει μερικές πιθανές καταστάσεις στις οποίες μπορεί να βρεθεί η εσωτερική δομή του που δέχεται τα σήματα εισόδου και, τέλος, έχει μία μόνον έξοδο, η οποία είναι συνάρτηση των σημάτων εισόδου (Σχήμα 4.1). Κάθε σήμα που μεταδίδεται από ένα νευρώνα σε ένα άλλο μέσα στον νευρωνικό δίκτυο συνδέεται με την τιμή βάρους, w, και η οποία υποδηλώνει πόσο στενά είναι συνδεδεμένοι οι δύο νευρώνες που συνδέονται με το βάρος αυτό. Η τιμή αυτή συνήθως κυμαίνεται σε ένα συγκεκριμένο διάστημα, π.χ. στο διάστημα από 1 ως 1, αλλά αυτό είναι αυθαίρετο

90 90 και εξαρτάται από το πρόβλημα που προσπαθούμε να λύσουμε. Η σημασία του βάρους είναι όπως ακριβώς είναι και ο χημικός δεσμός ανάμεσα σε δύο άτομα που απαρτίζουν ένα μόριο. Ο δεσμός μας δείχνει πόσο δυνατά είναι συνδεδεμένα τα δύο άτομα του μορίου. Έτσι και ένα βάρος μας λέει ακριβώς πόσο σημαντική είναι η συνεισφορά του συγκεκριμένου σήματος στην διαμόρφωση της δομής του δικτύου για τους δύο νευρώνες τους οποίους συνδέει. Όταν το w είναι μεγάλο (μικρό), τότε η συνεισφορά του σήματος είναι μεγάλη και όταν το w είναι μικρό, τότε η συνεισφορά του σήματος είναι μικρή. Σχήμα 4.1 Ένας νευρώνας (ο κύκλος) με πολλές εισόδους (s 1, s 2, s 3,...), αντίστοιχα βάρη (w 1, w 2, w 3,...) και μία έξοδο 4.3 Μετάδοση του Σήματος μέσα σε ένα Νευρωνικό Δίκτυο Έχοντας την δομή ενός απλού δικτύου όπως στο Σχήμα 4.1, μένει τώρα να δούμε πως και με ποιά διαδικασία μεταδίδεται το σήμα από νευρώνα σε νευρώνα. Ουσιαστικά γίνεται πάντοτε αυτό που υπαινίχθηκε παραπάνω, δηλ., όλα τα σήματα που φθάνουν σε ένα νευρώνα μαζεύονται (αθροίζονται), υπόκεινται σε μία διαδικασία, παράγεται ως αποτέλεσμα της διαδικασίας μία έξοδος και αυτό είναι το σήμα το οποίο μεταδίδεται περαιτέρω στους επόμενους νευρώνες. Η θεώρηση αυτή είναι γενική και ισχύει πάντοτε, αυτό όμως που αλλάζει είναι η διαδικασία η οποία δεν είναι πάντα η ίδια. Ας δούμε αρχικά δύο τρόπους με τους οποίους γίνεται η μετάδοση αυτή. Ο πρώτος τρόπος είναι δυαδικός. Στην περίπτωση αυτή ένας νευρώνας μπορεί να βρεθεί σε μία από δύο δυνατές καταστάσεις: να είναι ενεργός ή να είναι αδρανής. Όταν ένας νευρώνας δέχεται διάφορα σήματα, τότε υπολογίζει μία ποσότητα x από όλα τα δεδομένα που έχει και συγκρίνει την τιμή της ποσότητας αυτής με μια τιμή κατωφλίου, θ, η οποία είναι χαρακτηριστική (σταθερή) και ορισμένη από την αρχή για τον νευρώνα αυτόν. Αν η τιμή της ποσότητας είναι

91 91 μεγαλύτερη από την τιμή κατωφλίου, τότε λέμε ότι ο νευρώνας ενεργοποιείται. Αν όμως είναι μικρότερη, τότε ο νευρώνας παραμένει αδρανής, δηλ. στην δεδομένη στιγμή δεν μεταδίδει κανένα σήμα περαιτέρω στο δίκτυο. Επειδή ο νευρώνας εδώ δρα ως δυαδικό στοιχείο, γι αυτό η έξοδός του, f(x), θα είναι 1 όταν είναι ενεργοποιημένος και 0 όταν είναι αδρανής. Με τον δεύτερο τρόπο δεν υπάρχει χαρακτηριστική τιμή κατωφλίου με την οποία γίνεται η σύγκριση της παραπάνω συνάρτησης. Η μετάδοση του σήματος γίνεται πάλι με την συνάρτηση f(x), η οποία τώρα έχει μία ειδική μορφή. Χρησιμοποιούμε όλες τις τιμές των εισόδων και τις τιμές των βαρών, w, και υπολογίζουμε αριθμητικά την f(x). Ένα παράδειγμα μορφής της συνάρτησης αυτής είναι το εξής: Αυτή η συνάρτηση λέγεται σιγμοειδής συνάρτηση. Εκτός από αυτέ τις δύο μορφές θα δούμε αργότερα και άλλες μορφές της f(x). Η γενική της όμως ονομασία σε όλες τις περιπτώσεις είναι συνάρτηση μεταφοράς (transfer function), ή συνάρτηση ενεργοποίησης (activation function). Το κοινό χαρακτηριστικό που έχουν οι συναρτήσεις αυτές είναι ότι πρέπει να είναι πάντοτε μη-γραμμικές. Δεν αρκούν γραμμικές συναρτήσεις, γιατί τότε η έξοδος θα ήταν ευθέως ανάλογη με την είσοδο, κάτι που δεν μπορεί να συμβεί στα νευρωνικά δίκτυα. 4.4 Πώς Εκπαιδεύουμε ένα Νευρωνικό Δίκτυο Ο πρωταρχικός σκοπός της λειτουργίας ενός τεχνητού νευρωνικού δικτύου είναι να μπορεί να λύνει συγκεκριμένα προβλήματα που του παρουσιάζουμε ή να επιτελεί από μόνο του ορισμένες διεργασίες, π.χ. να αναγνωρίζει εικόνες. Για να μπορεί όμως να γίνει αυτό λέμε ότι το νευρωνικό δίκτυο προηγουμένως πρέπει να εκπαιδευθεί κατάλληλα. Αυτό είναι και το βασικό χαρακτηριστικό των νευρωνικών δικτύων, δηλ. ότι μαθαίνουν ή εκπαιδεύονται. Σε αυτό το σημείο θα πρέπει να κατανοήσουμε το τί σημαίνει ότι ένα νευρωνικό δίκτυο εκπαιδεύεται. Όπως και στα βιολογικά δίκτυα έτσι και τα ΤΝΔ δέχονται ορισμένες εισόδους και αντίστοιχα δίνουν ορισμένες εξόδους (input-output). Όταν λέμε εισόδους/εξόδους εννοούμε ότι

92 92 παρουσιάζονται στο δίκτυο κάποια σήματα τα οποία έχουν αριθμητικές τιμές, π.χ. θα μπορούσε να είναι κάποιος δυαδικός αριθμός αποτελούμενος από 0 και 1. Οι αριθμοί αυτοί που δίνονται στην είσοδο του δικτύου αποτελούν κάποιο πρότυπο. Για ένα πρόβλημα μπορεί να απαιτούνται πολλά πρότυπα. Σε κάθε πρότυπο αντιστοιχεί και μία σωστή απάντηση, η οποία είναι το σήμα που πρέπει να πάρουμε στην έξοδο ή αλλιώς ο στόχος. Η εκπαίδευση γίνεται με το να παρουσιάσουμε μια ομάδα από τέτοια πρότυπα στο δίκτυο, αντιπροσωπευτικά ή παρόμοια με αυτά που θέλουμε να μάθει το δίκτυο. Αυτό σημαίνει ότι δίνουμε στο δίκτυο ως εισόδους κάποια πρότυπα για τα οποία ξέρουμε ποιά πρέπει να είναι η έξοδος στο δίκτυο, ξέρουμε δηλ. ποιός είναι ο στόχος, τι πρέπει να δίνει το δίκτυο ως απάντηση στα πρότυπα που του παρουσιάζουμε. Ουσιαστικά είναι σαν να δίνουμε στο δίκτυο μία ερώτηση και ακολούθως να του δίνουμε την απάντηση που αντιστοιχεί. Το δίκτυο χρησιμοποιεί την κατάλληλη συνάρτηση μεταφοράς f(x) για να μεταδίδει το σήμα σε όλη τη δομή του, από την είσοδο ως την έξοδο. Κατά την διάρκεια της εκπαίδευσης το μόνο πράγμα που αλλάζει είναι οι τιμές των βαρών των συνδέσεων των νευρώνων. Αυτό δεν γίνεται πάντα με τον ίδιο τρόπο, αλλά εξαρτάται σημαντικά από την μέθοδο που χρησιμοποιούμε. Το δίκτυο με τα δεδομένα αυτά τροποποιεί την εσωτερική του δομή ώστε να μπορεί να κάνει την ίδια αντιστοιχία που του δώσαμε εμείς. Ενώ αρχικά ξεκινάει με τιμές στα βάρη w που είναι τυχαίες, κατά την διάρκεια της εκπαίδευσης μεταβάλλει τις τιμές αυτές, μέχρι να εκπαιδευθεί πλήρως. Ακολούθως, αφού βρει την σωστή εσωτερική δομή του, τότε θα μπορεί να λύνει και άλλα ανάλογα προβλήματα τα οποία δεν τα έχει δει προηγουμένως, δηλ. δεν έχει εκπαιδευθεί στα πρότυπα των προβλημάτων αυτών. Οπωσδήποτε όμως, τα προβλήματα αυτά θα πρέπει να είναι της ίδιας φύσης και των ίδιων χαρακτηριστικών όπως αυτά της εκπαίδευσης και όχι διαφορετικά. Ως σκέψη λοιπόν μια τέτοια διαδικασία είναι πολύ φιλόδοξη. Αυτός είναι ο πιο συνηθισμένος τρόπος εκπαίδευσης, αλλά θα δούμε στη συνέχεια ότι υπάρχουν διάφορες παραλλαγές ως προς τον τρόπο με τον οποίο τα δεδομένα παρουσιάζονται στο δίκτυο όταν αυτό εκπαιδεύεται. Γενικά, μπορούμε να πούμε ότι κατά την εκπαίδευση ενός δικτύου οι αλλαγές στα βάρη γίνονται με ένα από τους εξής δύο τρόπους: με εποπτευόμενο τρόπο με μη-εποπτευόμενο τρόπο (ή αυτό-εποπτευόμενο τρόπο)

93 93 Η εποπτευόμενη μάθηση είναι και ο πιο συχνός τρόπος στην εκπαίδευση των νευρωνικών δικτύων. Αρχικά δίνουμε τις τιμές των εισόδων και των στόχων που πρέπει να μάθει το δίκτυο, δηλ. παρουσιάζουμε τα πρότυπα στο δίκτυο. Ξεκινούμε με τυχαίες τιμές στα βάρη w. Κατά την διαδικασία εκπαίδευσης το δίκτυο αλλάζει τις τιμές των βαρών διορθώνοντας αυτές ανάλογα με το σφάλμα που παίρνουμε (διαφορά από τον στόχο). O σκοπός μας εδώ είναι τελικά να ελαχιστοποιήσουμε την διαφορά (το σφάλμα) μεταξύ της επιθυμητής εξόδου και της τρέχουσας τιμής της εξόδου μετά από διαδοχικές αλλαγές των βαρών (ανακυκλώσεις διορθώσεων). Μερικές φορές η διαδικασία αυτή μπορεί να απαιτεί μεγάλους αριθμούς τέτοιων διορθώσεων και, επομένως, μεγάλους υπολογιστικούς χρόνους. Στην μη-εποπτευόμενη εκπαίδευση [7] απλώς δίνουμε την πληροφορία στο δίκτυο, αλλά δεν δίνουμε αντίστοιχους στόχους όπως προηγουμένως και έτσι δεν γίνεται κανένας έλεγχος ή σύγκριση για την πορεία του σφάλματος. Το δίκτυο δεν χρησιμοποιεί κάποια εξωτερική παράμετρο για την αλλαγή των βαρών. Υπάρχει βέβαια συγκεκριμένη διαδικασία που ακολουθείται και καταλήγει σε εκπαίδευση του δικτύου. Το δίκτυο χρησιμοποιεί έναν εσωτερικό έλεγχο, ψάχνει να βρει κάποιες τάσεις ή κανονικότητα στα σήματα εισόδου και προσπαθεί ώστε οι έξοδοι να έχουν τα ίδια χαρακτηριστικά όπως και οι είσοδοι. Λέμε ότι έτσι έχουμε αυτόεποπτευόμενη εκπαίδευση διότι το δίκτυο ελέγχει τον εαυτό του και διορθώνει τα σφάλματα στα δεδομένα με ένα μηχανισμό ανάδρασης (feedback). Ο τρόπος αυτός δεν συναντάται τόσο συχνά όπως η εποπτευόμενη εκπαίδευση και δεν είναι απόλυτα κατανοητός, αλλά είναι πολύ χρήσιμος σε ορισμένες καταστάσεις που δεν υπάρχουν δεδομένα στο πρόβλημα. Σε όλες τις περιπτώσεις όταν το δίκτυο σταματάει να αλλάζει τις τιμές των βαρών, τότε θεωρούμε ότι η εκπαίδευση έχει επιτευχθεί. Αυτό συμβαίνει επειδή το λάθος στην έξοδο γίνεται μηδέν ή είναι πολύ κοντά (τείνει) στο μηδέν. 4.5 Τα Νευρωνικά Δίκτυα και οι Υπολογιστές Το Σχήμα 4.1 δίνει το πιο απλό νευρωνικό δίκτυο που μπορεί να υπάρξει, δηλαδή αποτελείται από έναν μόνο νευρώνα. Πιο περίπλοκα νευρωνικά δίκτυα δημιουργούνται από πολλούς νευρώνες οι οποίοι συνδέονται μεταξύ τους με μια συγκεκριμένη δομή. Καθώς, η δομή τέτοιων δικτύων μπορεί να είναι πολύ περίπλοκη, μιλάμε πλέον για αρχιτεκτονική δικτύων, πράγμα που αποτελεί ένα από

94 94 τα καίρια θέματα των τεχνητών νευρωνικών δικτύων. Η αρχιτεκτονική των νευρωνικών δικτύων είναι πολύ διαφορετική από αυτήν των παραδοσιακών υπολογιστών που περιέχουν έναν επεξεργαστή. Οι γνωστοί υπολογιστές δουλεύουν σειριακά, σύμφωνα με τις πρώτες ιδέες του von Neumann [8], και έχουν την ικανότητα να επιτελούν μερικές εκατοντάδες εντολών που είναι πολύ γνωστές, όπως είναι οι αριθμητικές πράξεις κτλ. Στην διαδικασία εκτέλεσης των εντολών ακολουθούν πιστά ένα εσωτερικό ρολόι. Από τη φύση τους τα νευρωνικά δίκτυα δεν λειτουργούν σειριακά, αλλά με τρόπο που μοιάζει πιο πολύ σε παράλληλο τρόπο λειτουργίας, διότι μία εργασία μοιράζεται στα διάφορα τμήματα του δικτύου, μοιράζεται σε όλους τους επί μέρους νευρώνες [9]. Έτσι λέμε ότι τα νευρωνικά δίκτυα είναι συστήματα «παράλληλων κατανεμημένων διεργασιών» («parallel distributed processing»). Αυτό μας παρέχει μεγάλες ταχύτητες, διότι είναι σαν να έχουμε ταυτόχρονα πολλούς επεξεργαστές στη διάθεσή μας. Όμως η αρχιτεκτονική των νευρωνικών δικτύων διαφέρει από αυτήν των παραλλήλων επεξεργαστών, για το λόγο ότι οι απλοί επεξεργαστές των νευρωνικών δικτύων (δηλ. οι νευρώνες) έχουν μεγάλο αριθμό διασυνδέσεων, ο οποίος συνολικά είναι πολύ μεγαλύτερος από τον αριθμό των νευρώνων. Και αυτό βέβαια γιατί κάθε νευρώνας έχει πολλές συνδέσεις. Αντίθετα, στους παράλληλους υπολογιστές, οι επεξεργαστές είναι συνήθως περισσότεροι από τις διασυνδέσεις μεταξύ τους και ως προς την πολυπλοκότητα τους ακολουθούν την μηχανή von Neumann [8]. Τα νευρωνικά δίκτυα διαφέρουν από αυτό, διότι οι μονάδες τους είναι πολύ πιο απλές και επιτελούν πολύ απλούστερες λειτουργίες, δηλ. ξέρουν μόνο να αθροίζουν τα σήματα εισόδου και να τροποποιούν τα βάρη των διασυνδέσεων. Επίσης, οι νευρώνες λειτουργούν ανεξάρτητα ο ένας από τον άλλο και δεν χρειάζονται συγχρονισμό. Αυτό δίνει στα νευρωνικά δίκτυα την ευρωστία και ανοχή σε σφάλματα. Οι πληροφορίες που αποθηκεύονται σε ένα νευρωνικό δίκτυο μοιράζονται σε ένα μεγάλο αριθμό μονάδων, δηλ. σε πολλούς νευρώνες. Αντίθετα, όταν αποθηκεύουμε στοιχεία στην μνήμη του υπολογιστή, κάθε πληροφορία σε δυαδική μορφή τοποθετείται σε μια συγκεκριμένη τοποθεσία.

95 95 Νευρωνικά Δίκτυα 1. Εργάζονται με σύγχρονο τρόπο λειτουργίας Υπολογιστής Εργάζεται με ασύγχρονο τρόπο λειτουργίας 2. Παράλληλη επεξεργασία Σειριακή επεξεργασία 3. Εκπαιδεύονται με παραδείγματα αλλάζοντας τα βάρη των συνδέσεών τους 4. Η μνήμη, τα δίκτυα και οι μονάδες λειτουργίας συνυπάρχουν Προγραμματίζεται με εντολές λογικού χαρακτήρα (if-then) Η μνήμη και επεξεργασία πληροφορίας χωρίζονται 5. Ανοχή στα σφάλματα Καμία ανοχή στα σφάλματα 6. Αυτό-οργάνωση κατά τη διαδικασία της εκπαίδευσης 7. Η πληροφορία αποθηκεύεται στα βάρη των συνδέσεων Εξαρτάται εξ ολοκλήρου από το προσφερόμενο λογισμικό Η πληροφορία αποθηκεύεται σε συγκεκριμένες διευθύνσεις μνήμης 8. Ο χρόνος ενός κύκλου είναι της τάξης Ο χρόνος ενός κύκλου είναι της τάξης του msec του nsec Πίνακας 7: Ομοιότητες και διαφορές μεταξύ των νευρωνικών δικτύων και του υπολογιστή με τη φιλοσοφία του von Neumann Τελικά, όταν ένα νευρωνικό δίκτυο λύνει ένα πρόβλημα με επιτυχία, παρόλο που καταλαβαίνουμε την μαθηματική διαδικασία που ακολουθείται (την οποία εμείς σχεδιάσαμε), εν τούτοις δεν καταλαβαίνουμε γιατί (ή πως) λύνεται το πρόβλημα. Το νευρωνικό δίκτυο δεν «σπάει» το πρόβλημα σε πολλά μικρά λογικά κομμάτια, αλλά το λύνει με μία «ολιστική» μέθοδο, πράγμα που είναι δύσκολο για το ανθρώπινο μυαλό να το κατανοήσει με απλή λογική. Βέβαια η λύση ελέγχεται εύκολα ότι είναι η σωστή, και έτσι η τεχνική αυτή μπορεί να χρησιμοποιείται με επιτυχία. Μια άλλη νέα ιδιότητα στα νευρωνικά δίκτυα είναι αυτή της ανοχής σφάλματος. Αυτό σημαίνει ότι αν ένα μικρό τμήμα του δικτύου χαλάσει, το υπόλοιπο δίκτυο συνεχίζει να λειτουργεί, έστω και με ένα μικρό σφάλμα. Αν το δούμε με άλλο τρόπο, σημαίνει ότι, αν τα δεδομένα ενός προβλήματος σε ένα μικρό μέρος τους είναι εσφαλμένα, το δίκτυο δίδει την σωστή απάντηση και πάλι όμως με ένα μικρό σφάλμα. Είναι γνωστό ότι σε όλα τα παραπάνω οι υπολογιστές δουλεύουν τελείως διαφορετικά. Αν, π.χ. από λάθος σε ένα υπολογιστικό πρόγραμμα ζητήσουμε να γίνει

96 96 μια διαίρεση μιας ποσότητας δια του μηδενός, τότε ο υπολογιστής σταματά αμέσως την εκτέλεση του προγράμματος και δίνει μήνυμα σφάλματος, έστω και αν δεν υπάρχει κανένα άλλο σφάλμα στο πρόγραμμα. Αντίθετα ένα νευρωνικό δίκτυο καταλαβαίνει ότι μια τέτοια διαίρεση είναι αδύνατη, την ξεπερνά με κάποιο σφάλμα στο τελικό αποτέλεσμα και συνεχίζει την λύση του προβλήματος. Αυτό οφείλετε στο ότι στα νευρωνικά δίκτυα έχουμε κάποια ανοχή στα σφάλματα. Για το πόσο μεγάλη μπορεί να είναι η ανοχή αυτή η απάντηση είναι ότι δεν μπορούμε να προσδιορίσουμε ένα γενικό ποσοστό ανοχής σφάλματος, αλλά οι συνηθισμένες τιμές σε διάφορα προβλήματα που παρουσιάζονται για την μεγαλύτερη δυνατή ανοχή είναι της τάξης του 10 15%. Όλα όμως εξαρτώνται από το συγκεκριμένο πρόβλημα και φυσικά υπάρχουν διακυμάνσεις στα νούμερα αυτά. Το χαρακτηριστικό της ανοχής του σφάλματος στα νευρωνικά δίκτυα είναι μια ιδέα που δεν την συναντάμε σε άλλες συνήθεις υπολογιστικές τεχνικές. Μερικές φορές το στοιχείο αυτό είναι επιθυμητό και λύνει το πρόβλημα μας σχετικά εύκολα, ενώ με άλλες μεθόδους μπορεί να είναι πολύ χρονοβόρο. Είναι ιδιαίτερα χρήσιμο όταν δεν μας ενδιαφέρει η απόλυτη ακρίβεια, αλλά μια προσεγγιστική λύση μπορεί να αρκεί για αυτό που θέλουμε. Αυτό όμως δεν συμβαίνει πάντα και δεν μπορούμε να πούμε ότι με τα νευρωνικά δίκτυα μπορούμε να λύσουμε όλα τα προβλήματα που μέχρι σήμερα είναι άλυτα. Σε μερικά προβλήματα η χρήση τους δεν συνίσταται καθόλου. 4.6 Σύγχρονες Εφαρμογές των Νευρωνικών Δικτύων Όλες οι εφαρμογές των νευρωνικών δικτύων έχουν προκύψει τα τελευταία λίγα χρόνια και μερικές από αυτές ήδη βρίσκονται ως έτοιμα προϊόντα στην αγορά και χρησιμοποιούνται ευρέως. Είναι βέβαιο ότι τα επόμενα χρόνια ένας πολύ μεγαλύτερος αριθμός θα ακολουθήσει, αφού ακόμη το πεδίο αυτό βρίσκεται σε νηπιακή ηλικία. Οι εφαρμογές αυτές περιλαμβάνουν αναγνώριση προτύπων, υπολογισμό συναρτήσεων, βελτιστοποίηση, πρόβλεψη, αυτόματο έλεγχο και πολλά άλλα θέματα. Θα περιγράψουμε εδώ μερικές από τις εφαρμογές αυτές, αλλά δεν είναι δυνατόν να αναφερθούμε σε όλες διότι ο αριθμός τους είναι πολύ μεγάλος: Στις τραπεζικές εργασίες μια δύσκολη απόφαση είναι να υπολογισθεί ο παράγοντας επικινδυνότητας σε μια αίτηση για ένα στεγαστικό δάνειο [10]. Από τα δεκάδες στοιχεία που περιέχει μια αίτηση, η τράπεζα θέλει να ξέρει τι πιθανότητα

97 97 υπάρχει ο πελάτης να αδυνατεί να κάνει τις πληρωμές του συμβολαίου. Όπως φαίνεται στο Σχήμα 4.2, τα στοιχεία που παίζουν ρόλο στις αποφάσεις αυτές είναι το εισόδημα και η φερεγγυότητα του δανειολήπτη. Στην περιοχή των «ο», η πιθανότητα να πληρωθεί το δάνειο κανονικά είναι πολύ μεγάλη, γιατί ο δανειολήπτης έχει και μεγάλο εισόδημα και είναι πολύ φερέγγυος, ενώ ακριβώς το αντίθετο συμβαίνει στην περιοχή των «x». Για τις δύο αυτές περιοχές των «ο»και των «x»η απόφαση της τράπεζας είναι μάλλον εύκολη. Ανάμεσα όμως στις δύο περιοχές υπάρχει μια γκρίζα περιοχή, στην οποία προφανώς οι αποφάσεις είναι πολύ δύσκολες. Ένα πρόγραμμα νευρωνικού δικτύου που λέγεται «Νέστωρ» (Nestor) εκπαιδεύεται σε μερικές χιλιάδες αιτήσεις, από τις οποίες οι μισές εγκρίθηκαν και οι μισές απορρίφθηκαν από την τράπεζα με απόφαση των υπαλλήλων της. Συγκρίνοντας με τα πραγματικά δεδομένα, για μία νέα αίτηση δανείου που γίνεται στην τράπεζα, το σύστημα ψάχνει να βρει στοιχεία και να αποφασίσει τι ακριβώς αποτελεί παράγοντα μεγάλης επικινδυνότητας. Τελικά, παίρνει μια απόφαση να δώσει ή να μην δώσει το δάνειο, η οποία έχει μεγαλύτερο ποσοστό επιτυχίας από άλλες μεθόδους. Είναι ιδιαίτερα επιτυχής στην γκρίζα περιοχή του σχήματος, όπου οι άλλες μέθοδοι δεν δουλεύουν με επιτυχία.. Το πρόγραμμα «Nestor» έχει χρησιμοποιηθεί αρκετά τα τελευταία χρόνια. Σχήμα 4.2 Γράφημα από στοιχεία βάσης δεδομένων που αναφέρεται σε δάνεια, από τα οποία άλλα έχουν αποπληρωθεί σύμφωνα με τους όρους του συμβολαίου και μερικά όχι Μια άλλη εφαρμογή είναι η δημιουργία φίλτρου που τοποθετείται σε τηλεπικοινωνιακές γραμμές, όπως π.χ. οι τηλεφωνικές γραμμές, και το οποίο «καθαρίζει» την γραμμή από το θόρυβο και την ηχώ, ενώ συγχρόνως περιορίζει τα

98 98 σφάλματα κατά τη μετάδοση. Το πρώτο τέτοιο φίλτρο επινοήθηκε από τον B.Widrow, ονομάζεται Adaline και χρησιμοποιείται πάνω από 30 χρόνια με επιτυχία. Είναι από τις πιο παλιές εφαρμογές των νευρωνικών δικτύων [11]. Στη χημική ανάλυση χρησιμοποιούνται νευρωνικά δίκτυα εκεί όπου πρέπει να ληφθούν γρήγορες αποφάσεις και δεν υπάρχει χρόνος για να γίνουν λεπτομερείς και χρονοβόρες αναλύσεις στο εργαστήριο [12]. Ένα παράδειγμα είναι να μπορεί να γίνει γρήγορος έλεγχος στις αποσκευές επιβατών στα αεροδρόμια για το αν υπάρχουν εκρηκτικές ύλες μέσα σ αυτές. Η εταιρία Science Application International (SAIC), έχει δημιουργήσει μια συσκευή θερμικής ανάλυσης νετρονίων (thermal neutron analysis, ΤΝΑ) που ελέγχεται από ένα νευρωνικό δίκτυο και ανακαλύπτει αντικείμενα τα οποία περιέχουν εκρηκτικά, με το να αναλύσει το σήμα εκπομπής ακτίνων γ. Η επιτυχία του συνίσταται στο ότι μπορεί να ξεχωρίσει την προέλευση των στοιχείων και, έτσι, μπορεί να καταλάβει και να ξεχωρίσει το σήμα από το άζωτο σε μία βόμβα ή σε ένα γιαούρτι. Σε ένα αεροδρόμιο η ταχύτητα της ανάλυσης είναι 5 δευτερόλεπτα ανά βαλίτσα. Έχει επιτυχία περί το 90%, πράγμα που σημαίνει ότι το ένα στα δέκα αντικείμενα πρέπει να εξετάζεται χειρωνακτικά από υπάλληλο. Μια άλλη πολύ χρήσιμη εφαρμογή των νευρωνικών δικτύων είναι στην αναγνώριση εικόνων, κειμένων και γενικά προτύπων (pattern recognition). Η εφαρμογή αυτή περιλαμβάνει πάρα πολλές δραστηριότητες, από τις πλέον επιτυχείς των νευρωνικών δικτύων, αλλά εδώ θα αναφέρουμε μόνον ένα απλό πρόγραμμα που σήμερα χρησιμοποιείται κατά κόρον στην επεξεργασία κειμένων. Το πρόγραμμα αυτό λέγεται «Omnipage», το ανέπτυξε η εταιρία Caere (που τώρα λέγεται ScanSoft) το 1994 και υλοποιείται σε ένα απλό PC. Το πρόγραμμα και το προϊόν περιγράφονται λεπτομερώς στην ηλεκτρονική διεύθυνση της εταιρίας ( Το πρόγραμμα διαβάζει τυπωμένα κείμενα με σαρωτή (scanner) και τα μετατρέπει σε χαρακτήρες ASCII. Μάλιστα το πρόγραμμα αυτό δουλεύει ικανοποιητικά, έστω και αν τα γράμματα είναι μερικώς καταστραμμένα, όπως π.χ. συμβαίνει συχνά σε σελίδες fax. Η εταιρία Nestor έχει επίσης αναπτύξει ένα πρόγραμμα που αναγνωρίζει την γραφή Κάντζι (ιαπωνική γραφή) και έτσι μεταφράζει αυτόματα διάφορα κείμενα στα Αγγλικά. Η αρχική έκδοση μπορούσε να αναγνωρίσει 2500 χαρακτήρες με επιτυχία 92%. Ο μέσος Ιάπωνας αναγνωρίζει περίπου τέτοιους χαρακτήρες. Το δίκτυο αυτό χρησιμοποιεί μία γενικευμένη λογική που θα μπορούσε εύκολα να εφαρμοσθεί και σε άλλες γλώσσες, όπως Κυριλλικά, Εβραϊκά κτλ.

99 99 Ένα άλλο γνωστό πρόβλημα είναι η μετατροπή κειμένου σε φωνή, και βέβαια το αντίστροφο. Ένα γνωστό πρόγραμμα, το NETtalk, κάνει ακριβώς αυτό, δηλ. ένα δίκτυο εκπαιδεύεται στο να διαβάζει γραπτά κείμενα και να τα απαγγέλλει [13]. Το δίκτυο έχει 309 νευρώνες με συνάψεις σε 3 διαφορετικά επίπεδα. Η είσοδος του δικτύου αποτελείται από 7 ομάδες νευρώνων και κάθε ομάδα από 29 νευρώνες (ένα για τα 26 γράμματα, ένα για το κενό, την τελεία, και το κόμμα). Η έξοδος αποτελείται από 26 νευρώνες, ενώ το μεσαίο επίπεδο έχει 80 νευρώνες. Το πρόγραμμα εξετάζει ένα παράθυρο με 7 χαρακτήρες, το οποίο συνεχώς μετακινείται κατά ένα χαρακτήρα, διορθώνει τα σφάλματα του και μετά την εκπαίδευση του το δίκτυο μπορεί να βρει τους κανόνες για τα φωνήεντα, τα κενά κτλ. και μεταβάλλει τα βάρη του ανάλογα. Στην αρχή η απαγγελία ήταν ακατανόητη, μετά ήταν νηπιακής μορφής και τελικά έφθασε σε 95% αναγνωρίσιμης και κατανοητής ομιλίας. Φυσικά, ο αριθμός των εφαρμογών που λειτουργούν σήμερα και βασίζονται σε νευρωνικά δίκτυα είναι πολύ μεγαλύτερος από αυτές που αναφέρονται παραπάνω, οι οποίες είναι μόνον ενδεικτικές των δραστηριοτήτων στην περιοχή αυτή, ενώ καθημερινά δημιουργούνται καινούργιες. Μια απλή λίστα σε μερικές περιοχές με διάφορες εφαρμογές θα μπορούσε να περιλάβει επιγραμματικά και μόνο: Βιολογία Καλύτερη κατανόηση της λειτουργίας του εγκεφάλου Μοντέλα για την όραση (την αίσθηση στην οποία έχει γίνει η μεγαλύτερη έρευνα σήμερα και για την οποία έχουμε την καλύτερη κατανόηση) Επιχειρήσεις Εκτίμηση για την ύπαρξη κοιτασμάτων πετρελαίου σε γεωλογικά πετρώματα Για την επιλογή του κατάλληλου προσωπικού σε σημαντικές θέσεις στην επιχείρηση Ιατρική Ανάγνωση και ανάλυση των ακτίνων Χ Κατανόηση των επιληπτικών κρίσεων Παρακολούθηση εγχείρησης Προβλέψεις για αντιδράσεις οργανισμών στην λήψη φαρμάκων Διάγνωση και θεραπεία από τα συμπτώματα Ανάλυση ομιλίας σε ακουστικά βαρηκοίας κωφών ατόμων Στρατιωτική τέχνη Αναγνώριση και παρακολούθηση στόχων

100 100 Βελτιστοποίηση της χρήσης πόρων σε έλλειψη Κωδικοποίηση σημάτων ραντάρ Δημιουργία «έξυπνων» όπλων Για κατόπτευση Χρηματοοικονομικά Ανάλυση επικινδυνότητας δανείων Ανάγνωση χειρόγραφων κειμένων Αξιολόγηση επενδύσεων και ανάλυση χαρτοφυλακίων Αναγνώριση πλαστογραφιών Βιομηχανία Αυτοματικοποίηση ρομπότ και συστημάτων ελέγχου Επιλογή ανταλλακτικών κατά την συναρμολόγηση Έλεγχος στην γραμμή παραγωγής Επιθεώρηση της ποιότητας κατα την κατασκευή Περιβάλλον Πρόβλεψη καιρού Ανάλυση τάσεων και παρατηρήσεων 4.7 Αλγόριθμοι Κατηγοριοποίησης Νευρωνικών Δικτύων Αν και τα Νευρωνικά Δίκτυα μοντελοποιούνται με βάση τις λειτουργίες του ανθρώπινου εγκεφάλου, στην πραγματικότητα είναι συστήματα επεξεργασίας πληροφορίας που αποτελούνται από ένα γράφο και διάφορους αλγόριθμους που προσπελαύνουν αυτόν το γράφο. Κάθε κόμβος του γράφου είναι σαν ανεξάρτητο νευρώνες, ενώ τα τόξα είναι σύνδεσμοι των νευρώνων. Κάθε ένας από τους κόμβους είναι στοιχείο επεξεργασίας που λειτουργεί ανεξάρτητα από τους άλλους και χρησιμοποιεί μονό τοπικά δεδομένα που καθοδηγούν την επεξεργασία. Ένα νευρωνικό δίκτυο μπορεί να θεωρηθεί σαν ένας κατευθυνόμενος γράφος με πηγή (είσοδος), καταβόθρα (έξοδος) και εσωτερικούς (κρυμμένους) κόμβους. Οι κόμβοι εισόδου και εξόδου περιέχονται στα αντίστοιχα στρώματα, στρώμα εισόδου και στρώμα εξόδου. Οι κρυμμένοι κόμβοι βρίσκονται σε ένα ή περισσότερα κρυμμένα στρώματα και όπως αναφέρθηκε παραπάνω, τα νευρωνικά δίκτυα δεν είναι κατάλληλα για εφαρμογές πραγματικού χρόνου αφού απαιτούν μακρύ χρόνο εκπαίδευσης.

101 101 Σχήμα 4.3 Νευρωνικό δίκτυο για τα δεδομένα του πίνακα 3 Το σχήμα 4.3 παρουσιάζει ένα νευρωνικό δίκτυο για τα δεδομένα του πίνακα 3. Επειδή υπάρχουν δύο σημαντικά χαρακτηριστικά, έχουμε δύο κόμβος εισόδου. Επίσης, αφού έχουμε τρεις κατηγορίας, έχουμε τρεις κόμβους εξόδου. Αντίθετα, ο αριθμός των κρυμμένων στρωμάτων δεν είναι εύκολο να καθοριστεί. Κάθε κόμβος έχει το όνομα μιας συνάρτησης που δείχνει τη λειτουργία του. Οι συναρτήσεις του στρώματος εισόδου απλά δέχονται τις τιμές των χαρακτηριστικών και τις αναπαράγουν στις εξόδους τους. Οι συναρτήσεις των άλλων στρωμάτων εκτελούν πιο σύνθετες λειτουργίες. Η έξοδος κάθε κόμβου μεταδίδεται σε όλα τα τόξα εξόδου του κόμβου. Όλα τα τόξα του γράφου έχουν ονόματα βαρών τα οποία λαμβάνονται υπόψη κατά την επεξεργασία του κάθε κόμβου. Τα βάρη στα νευρωνικά δίκτυα μπορούν να είναι καθορισμένα από ειδικούς του πεδίου ή να καθορίζονται αυτόματα από την διαδικασία της εκπαίδευσης. Η συνάρτηση του κάθε κόμβου εφαρμόζεται σε κάθε είσοδό του λαμβάνοντας υπόψη και το αντίστοιχο βάρος [5]. Ορισμός 4.1: Ένα νευρωνικό δίκτυο είναι ένας κατευθυνόμενος γράφος F=<V,A> με κορυφές V={1,2,,ν} και τόξα Α = {<i,j> 1 i, j n}, με τους παρακάτω περιορισμούς: Το V χωρίζεται σε ένα σύνολο από κόμβους εισόδου V i, κρυμμένους κόμβους V h και κόμβους εξόδου V o. Οι κορυφές χωρίζονται σε στρώματα (1,2,,k) με όλους τους κόμβους εισόδου στο πρώτο στρώμα, όλους τους κρυμμένους κόμβους στα στρώματα 2,,k-1 (κρυμμένα στρώματα) και όλους τους κόμβους εξόδους στο στρώμα k. Κάθε τόξο <i,j> πρέπει να έχει τον κόμβο i στο στρώμα h-1 και τον κόμβο j στο στρώμα h.

102 102 Το τόξο <i,j> έχει σαν ετικέτα την αριθμητική τιμή w ij. Ο κόμβος i έχει για ετικέτα τη συνάρτηση f i. Υπάρχουν και άλλοι πιο γενική ορισμοί νευρωνικών δικτύων οι οποίοι επιτρέπουν την ύπαρξη τόξων μεταξύ κόμβων οποιοδήποτε στρωμάτων [5]. Ορισμός 4.2: Ένα μοντέλο νευρωνικού δικτύου είναι ένα υπολογιστικό μοντέλο που αποτελείται από τρία μέρη: Το γράφο του νευρωνικού δικτύου, ο οποίος ορίζει τη δομή δεδομένων. Τον αλγόριθμο μάθησης που δείχνει με ποιον τρόπο γίνεται η μάθηση. Τις τεχνικές ανάκλησης που καθορίζουν πώς η πληροφορία παρέχεται από το δίκτυο. Τα νευρωνικά δίκτυα εφαρμόζεται σε πολλές τεχνικές εξόρυξης γνώσης. Όταν χρησιμοποιούνται σε προβλήματα κατηγοριοποίησης αποτελούν μοντέλα που αναπαριστούν τον τρόπο που κατηγοριοποιείται κάθε πλειάδα της Βάσης Δεδομένων. Οι συναρτήσεις ενεργοποίησης συνήθως είναι σιγμοειδείς. Όταν μια πλειάδα πρέπει να κατηγοριοποιηθεί, συγκεκριμένες τιμές από χαρακτηριστικά για αυτή την πλειάδα εισέρχονται στον γράφο μέσω των εισόδων. Συνήθως υπάρχει ένας κόμβος εξόδου για κάθε κατηγορία. Η τιμή της κάθε εξόδου δείχνει την πιθανότητα της πλειάδας να ανήκει στην αντίστοιχη κατηγορία. Η πλειάδα θα τοποθετηθεί στην κατηγορία με την υψηλότερη πιθανότητα. Η διαδικασία της μάθησης τροποποιεί τις τιμές των τόξων έτσι ώστε να έχουμε κατηγοριοποίηση με μεγαλύτερη ακρίβεια. Η διαδικασία της μάθησης συνεχίζεται μέχρις ότου η ακρίβεια φτάσει σε ικανοποιητικά επίπεδα ή τελειώσουν τα δεδομένα εκπαίδευσης. Η επίλυση των προβλημάτων κατηγοριοποίησης χρησιμοποιώντας νευρωνικά δίκτυα περιλαμβάνει τα εξής βήματα: Καθορισμός του αριθμού των εξόδων και των χαρακτηριστικών που θα χρησιμοποιηθούν σαν είσοδοι. Καθορισμός του αριθμού των κρυμμένων στρωμάτων. Το βήμα αυτό εκτελείται από τον ειδικό του τομέα. Καθορισμός των βαρών και των συναρτήσεων που θα χρησιμοποιηθούν. Μετάδοση της κάθε πλειάδας του συνόλου εκπαίδευσης μέσω του δικτύου και αξιολόγηση της εξόδου ως προς το πραγματικό αποτέλεσμα. Αν η κατηγοριοποίηση είναι ακριβής, οι ετικέτες

103 103 προσαρμόζονται κατάλληλα ώστε να σιγουρευτεί το ότι αυτή η κατηγοριοποίηση έχει υψηλότερο βάρος για την έξοδο την επόμενη φορά. Από την άλλη, αν η κατηγοριοποίηση δεν είναι σωστή, τα βάρη πρέπει να προσαρμοστούν ώστε να δώσουν μια χαμηλότερη τιμή για αυτή την κατηγορία. Μετάδοση κάθε πλειάδας ti μέσα στο δίκτυο για να γίνει η κατηγοριοποίηση. Όπως είπαμε, υπάρχουν αρκετά θέματα που πρέπει να μελετηθούν από κάποιον ειδικό του πεδίου. Συγκεκριμένα, ο ειδικός θα πρέπει να μελετήσει τα εξής θέματα: Χαρακτηριστικά (αριθμός κόμβων εισόδου): Το θέμα αυτό είναι παρόμοιο με την επιλογή χαρακτηριστικών διάσπασης στα δένδρα απόφασης. Αριθμός κρυμμένων στρωμάτων: Στην πιο απλή περίπτωση υπάρχει μόνο ένα κρυμμένο στρώμα. Αριθμός κρυμμένων κόμβων: Αυτό είναι ένα αρκετά δύσκολο ζήτημα. Έχουν γίνει πολλές μελέτες που προσπαθούν να απαντήσουν σε αυτή την ερώτηση. Αυτό που είναι σίγουρο είναι ότι ο αριθμός των κρυμμένων κόμβων εξαρτάτε από τη δομή του νευρωνικού δικτύου, το είδος των συναρτήσεων ενεργοποίησης, τον αλγόριθμο εκπαίδευσης και το πρόβλημα που λύνεται. Αν αυτός ο αριθμός είναι μικρός, έχουμε αυξημένες πιθανότητες να συναντήσουμε το φαινόμενο της υποπροσαρμογής και η συνάρτηση να μη μαθευτεί. Αντίθετα, αν χρησιμοποιήσουμε πολλούς κόμβους έχουμε αντίστοιχες πιθανότητες να συναντήσουμε υπερπροσαρμογή. Οι εμπειρικοί κανόνες στηρίζονται στο μέγεθος του συνόλου εκπαίδευσης. Δεδομένα εκπαίδευσης: Αν έχουμε πολλά δεδομένα εκπαίδευσης, τότε μπορεί το μοντέλο να αντιμετωπίζει προβλήματα υπερπροσαρμογής ενώ με λίγα δεδομένα μπορεί να μην είναι ικανό να εκτελεί την κατηγοριοποίηση με μεγάλη ακρίβεια. Αριθμός εξόδων: Συνήθως έχουμε τόσους κόμβους εξόδου όσες είναι οι κατηγορίες. Ωστόσο αυτό δε γίνεται πάντα στην πράξη. π.χ. αν

104 104 έχουμε δύο κατηγορίες, μπορούμε να έχουμε μόνο έναν κόμβο με την τιμή του αποτελέσματος να δείχνει την πιθανότητα της αντίστοιχης κατηγορίας. Εύκολα μπορούμε να υπολογίσουμε την πιθανότητα της άλλης κατηγορίας. Διασυνδέσεις: Στην πιο απλή περίπτωση κάθε κόμβος συνδέεται με όλους τους κόμβους του επόμενου επιπέδου. Βάρη: Το βάρος ενός τόξου δείχνει το σχετικό βάρος μεταξύ των κόμβων που συνδέει. Τα αρχικά βάρη είναι μικροί, θετικοί και τυχαίοι αριθμοί. Συναρτήσεις ενεργοποίησης: Μπορούν να χρησιμοποιηθούν διάφορες συναρτήσεις. Τεχνική μάθησης: Η τεχνική που χρησιμοποιείται για τον καθορισμό των βαρών λέγεται τεχνική μάθησης. Η πιο γνωστές τεχνικές μάθησης είναι κάποια μορφή οπισθοδρόμησης (backpropagation). Η οπισθοδρόμηση είναι μια τεχνική μάθησης που προσαρμόζει τα βάρη με το να μεταδίδει τις αλλαγές προς τα πίσω, δηλαδή από τους κόμβους εξόδου στους κόμβους εισόδου. Τερματισμός: Η μάθηση τερματίζει είτε όταν τελειώσουν τα δεδομένα εκπαίδευσης είτε χρησιμοποιώντας κάποιες ενδείξεις του χρόνου ή του ρυθμού εμφάνισης λαθών. Πλεονεκτήματα χρήσης νευρωνικών δικτύων σε προβλήματα κατηγοριοποίησης: Τα νευρωνικά δίκτυα είναι πιο ισχυρά από τα δένδρα απόφασης εξαιτίας των βαρών Τα νευρωνικά δίκτυα βελτιώνονται από την μάθηση. Αυτό μπορεί να συνεχιστεί ακόμη και μετά την εφαρμογή του συνόλου εκπαίδευσης Η χρήση των νευρωνικών δικτύων μπορεί να παραλληλοποιηθεί εύκολα και με καλύτερη απόδοση. Υπάρχει μεγάλη ακρίβεια όταν εφαρμόζεται το κατάλληλο σύνολο εκπαίδευσης. Τα νευρωνικά δίκτυα δεν επηρεάζονται τόσο πολύ όσο τα δένδρα απόφασης από την ύπαρξη θορύβου.

105 105 Μειονεκτήματα χρήσης νευρωνικών δικτύων σε προβλήματα κατηγοριοποίησης: Τα νευρωνικά δίκτυα είναι δύσκολα στην κατανόηση από το χρήστη. Αντίθετα, τα δένδρα απόφασης κατανοούνται εύκολα. Η δημιουργία κανόνων από νευρωνικά δίκτυα δεν είναι απλή διαδικασία. Οι τιμές των χαρακτηριστικών εισόδου πρέπει να είναι αριθμητικές Δοκιμές Επαλήθευση Μπορεί να εμφανιστούν φαινόμενα υπερπροσαρμογής. Η φάση της μάθησης μπορεί να αποτύχει να συγκλίνει. Τα νευρωνικά δίκτυα μπορεί να είναι αρκετά ακριβά στη χρήση τους Διάδοση και Μάθηση Η πιο γνωστή τεχνική για επεξεργασία στα νευρωνικά δίκτυα ονομάζεται διάδοση (propagation). Έστω μια πλειάδα εισόδου με h χαρακτηριστικά. Κάθε ένα από τα h χαρακτηριστικά δίνεται σε έναν κόμβο εισόδου. Στη συνέχεια σε κάθε κόμβο εφαρμόζεται η συνάρτηση ενεργοποίησης. Μετά από αυτή την εφαρμογή δημιουργείται μια τιμή εξόδου, η οποία διαδίδεται σε όλα τα τόξα του κόμβου. Έτσι οι κόμβοι του επόμενου στρώματος δέχονται τιμές στις εισόδους τους. Αυτή η διαδικασία συνεχίζεται μέχρι οι τιμές να διαδοθούν στο στρώμα εξόδου. Η μάθηση είναι η διαδικασία προσαρμογής των βαρών βάσει της απόδοσης στην κατηγοριοποίηση. Αυτό επιτυγχάνεται συγκρίνοντας την έξοδο με την επιθυμητή συμπεριφορά. Είναι επιθυμητό σε κάθε επανάληψη το σφάλμα της κατηγοριοποίησης να μειώνεται, αυτό όμως δε γίνεται πάντα. Τα βήματα της μάθησης συνοψίζονται στον αλγόριθμο του σχήματος 4.4. Ο αλγόριθμος αυτός πρέπει να συνδυαστεί με κάποιο τρόπο υπολογισμού σφάλματος όπως επίσης και με μια τεχνική προσαρμογής των βαρών. Ένας από τους τρόπους που έχουν προταθεί για τη εύρεση του σφάλματος είναι το μέσο τετραγωνικό σφάλμα (MSE), ενώ για την αλλαγή των βαρών έχουν προταθεί οι κανόνες hebb και δέλτα.

106 106 Είσοδος: Ν //Νευρωνικό δίκτυο Χ //Πλειάδα εισόδου του συνόλου εκπαίδευσης D //Επιθυμητή τιμή εξόδου Έξοδος: Ν //Βελτιωμένο Νευρωνικό δίκτυο Αλγόριθμος SupLearn Διάδωσε το Χ μέσω του Ν και παρήγαγε την έξοδο Υ; Υπολόγισε το σφάλμα συγκρίνοντας το Y με το D; Ενημέρωσε τα βάρη του Ν ώστε να μειωθεί το σφάλμα; Τέλος _ αλγορίθμου Σχήμα 4.4 Αλγόριθμος μάθησης νευρωνικού δικτύου Νευρωνικά Δίκτυα Perceptron Η πιο απλή μορφή νευρωνικών δικτύων είναι τα Perceptron. Στην ουσία, όταν μιλάμε για τέτοιου είδους νευρωνικά δίκτυα, μιλάμε για ένα νευρώνα με πολλαπλές εισόδους και μια έξοδο. Ένα απλό Perceptron μπορεί να χρησιμοποιηθεί για να λύσει προβλήματα κατηγοριοποίησης δύο κλάσεων. Χρησιμοποιώντας μια μονοπολική συνάρτηση ενεργοποίησης, η έξοδος 1, θα χρησιμοποιηθεί για την κατηγοριοποίηση στην μια κατηγορία, ενώ η έξοδος 0 για κατηγοριοποίηση στην άλλη κατηγορία. Παράδειγμα 4.1: Το σχήμα 4.5 παρουσιάζει ένα απλό Perceptron με τρεις εισόδους. Τα βάρη είναι 3,2 και -6 αντίστοιχα. Η συνάρτηση ενεργοποίησης είναι f 4 και είναι αυτή που εφαρμόζεται στην τιμή S = 3x 1 + 2x 2 6. Μια απλή συνάρτηση ενεργοποίησης είναι: Σχήμα 4.5 Απλό Perceptron κατηγοριοποίησης

107 107 Κεφάλαιο Πέμπτο 5. Πειραματική Μελέτη 5.1 Πρόβλεψη Εταιρικής Χρεοκοπίας Όπως οι γιατροί ελέγχουν την πίεση του αίματος και τον σφυγμό σαν δείκτες ζωτικής σημασίας για την υγείας ενός ασθενή, έτσι και οι επιχειρησιακοί αναλυτές εξετάζουν τις οικονομικές αναφορές μιας εταιρίας για να ελέγξουν την οικονομική υγεία της. Εκτιμώντας ότι η πίεση του αίματος, ο σφυγμός, και πολλές άλλες ιατρικές ενδείξεις ζωτικής σημασίας, αν και μετριούνται κατευθείαν με ακριβείς διαδικασίες, οι οικονομικές μεταβλητές καταγράφονται κάτω από πολύ λιγότερο συγκεκριμένες γενικές αρχές της λογιστικής. Ένα αρχικό ζήτημα στην οικονομική ανάλυση, λοιπόν, είναι πόσο προβλέψιμη είναι η υγεία μιας επιχείρησης; Μια δυσκολία στην ανάλυση των πληροφοριών των οικονομικών αναλύσεων είναι η έλλειψη γνωστοποίησης των πραγματικών παραλαβών και εκταμιεύσεων μετρητών. Οι χρήστες της οικονομικής αναφοράς έπρεπε να στηριχθούν σε πληρεξούσια για ταμειακή ροή, ίσως στα απλούστερα τα οποία είναι εισόδημα (INC) ή κέρδος ανά μετοχή. Οι προσπάθειες για να βελτιωθεί το INC ως πληρεξούσιο για ταμειακή ροή περιλαμβάνουν τη χρησιμοποίηση του εισοδήματος συν την απόσβεση (INCDEP), το κεφάλαιο κίνησης από τις λειτουργίες (WCFO), και ταμειακή ροής από τις λειτουργίες (CFFO). Η CFFO λαμβάνεται με τη ρύθμιση του εισοδήματος από τις λειτουργίες για όλα τα είδη δαπανών και εισοδημάτων και για αλλαγές στους τρέχων ενεργητικούς και παθητικούς λογαριασμούς. Μια περαιτέρω δυσκολία στην ερμηνεία πληροφοριών που αποκαλύπτονται σε χρηματοοικονομικά ιστορικά είναι ότι η γνωστοποίηση πληροφοριών προκαλείται όποτε γίνονται σημαντικές αλλαγές στα πρότυπα λογιστικής. Για παράδειγμα, ο Πίνακας Προτύπων Οικονομικής Λογιστικής εξέδωσε διάφορες δημοσιεύσεις στα μέσα της δεκαετίας του '70 που άλλαξαν τις απαιτήσεις για αυξήσεις όπως ας πούμε στις αποδοχές δικαιοσύνης, το κέρδος και τις απώλειες του ξένου νομίσματος, και τους αναβεβλημένους φόρους. Μια επίδραση των αλλαγών αυτού του είδους ήταν ότι οι αριθμοί των αποδοχών έγιναν λιγότερο αξιόπιστοι δείκτες της ταμειακής ροής. Σε αυτές τις δυσκολίες στην ερμηνεία των πληροφοριών λογιστικής, ποιες ακριβώς είναι οι σημαντικές ενδείξεις ζωτικής σημασίας της εταιρικής υγείας; Είναι η

108 108 ταμειακή ροή μια σημαντικό ένδειξη; Εάν όχι, τι είναι; Σε αυτή την περίπτωση, ποιος είναι ο καλύτερος τρόπος να προσεγγιστεί η ταμειακή ροή; Πώς μπορούμε να προβλέψουμε την επικείμενη μεταβίβαση μιας επιχείρησης; Για να αρχίσουμε να απαντάμε σε μερικές από αυτές τις σημαντικές ερωτήσεις, θα χρησιμοποιήσουμε μια μελέτη των οικονομικών ενδείξεων ζωτικής σημασίας χρεοκοπημένων και υγιών επιχειρήσεων. Αρχικά προσδιορίζονται 66 αποτυχημένες εταιρίες από έναν κατάλογο που δόθηκε από την εταιρία συλλογής και παροχής επιχειρηματικών πληροφοριών Dun & Bradstreet. Πρόκειται για εταιρίες κατασκευής ή λιανικής πώλησης και είχαν οικονομικά δεδομένα διαθέσιμα στις ερευνητικές διατυπώσεις της Compustat. Η χρεοκοπία συνέβη κάπου μεταξύ 1970 και Για κάθε μια από αυτές τις 66 αποτυχημένες εταιρίες, έχει επιλεχτεί μια υγιή εταιρία περίπου του ίδιου μεγέθους (όπως μετριέται από τη λογιστική αξία της περιουσίας της εταιρίας) από την ίδια βιομηχανία (κώδικας SIC 3 ψηφίων) σαν βάση σύγκρισης. Αυτή η τεχνική αντιστοίχησης δειγμάτων χρησιμοποιήθηκε για να ελαχιστοποιήσει το αντίκτυπο οποιωνδήποτε ξένων παραγόντων (όπως τη βιομηχανία) στα συμπεράσματα της μελέτης. Η μελέτη σχεδιάστηκε για να δει πόσο καλά μπορεί να προβλεφθεί η χρεοκοπία δύο χρόνια νωρίτερα. Ένα σύνολο από 24 οικονομικές αναλογίες υπολογίστηκαν για κάθε μια από τις 132 εταιρίες χρησιμοποιώντας δεδομένα από τις διατυπώσεις της Compustat και από το βιομηχανικό εγχειρίδιο της Moody για το έτος που ήταν δύο χρόνια πριν από το έτος της χρεοκοπίας. Ο πίνακας 8 απαριθμεί τους 24 κλασματικούς λόγους μαζί με μια εξήγηση των συντμήσεων που χρησιμοποιούνται για τη θεμελιώδη οικονομική μεταβλητή. Όλες αυτές οι μεταβλητές περιλαμβάνονται σε μια ετήσια αναφορά μιας εταιρίας με εξαίρεση την CFFO. Οι κλασματικοί λόγοι χρησιμοποιήθηκαν για να διευκολύνουν τις συγκρίσεις στις εταιρίες των διάφορων μεγεθών. Οι πρώτοι τέσσερις κλασματικοί λόγοι που χρησιμοποιούν CASH στον αριθμητή μπορούν να θεωρηθούν σαν μονάδες μιας πηγής μετρητών μιας εταιρίας με την οποία θα πληρώσει τα χρέη. Οι τρεις λόγοι με CURASS στον αριθμητή συλλαμβάνουν την παραγωγή των τρεχόντων ενεργητικών με την οποία θα πληρώσει τα χρέη. Οι δύο λόγοι, CURDET/DEBT και ASSET/DEBTS, μετρούν τη δομή του χρέους της εταιρίας. Η κατάσταση και ο τζίρος των εισπράξεων μετριούνται από το COGS/INV και το SALES/REC, και το SALES/ASSETS μετρά τη δυνατότητα της

109 109 εταιρίας να κάνει πωλήσεις. Οι τελευταίες 12 αναλογίες είναι μονάδες ροής ενεργητικών. Σύντμηση Οικονομική Μεταβλητή ASSETS Συνολικά ενεργητικά CASH Μετρητά CFFO Ταμειακή ροής από τις λειτουργίες COGS Κόστος των αγαθών που πωλούνται CURASS Τρέχοντα ενεργητικά CURDEBT Τρέχον χρέος DEBTS Συνολικό χρέος INC Εισόδημα INCDEP Εισόδημα συν την απόσβεση INV Απόθεμα REC Εισπρακτέα SALES Πωλήσεις WCFO Κεφάλαιο από τις λειτουργίες Αναλογία Σημασία R1 CASH/CURDEBT R2 CASH/SALES R3 CASH/ASSETS R4 CASH/DEBTS R5 CFF0/SALES R6 CFFO/ASSETS R7 CFFO/DEBTS R8 COGS/INV R9 CURASS/CURDEBT R10 CURASS/SALES R11 CURRASS/ASSETS R12 CURDEBT/DEBTS R13 INC/SALES R14 INC/ASSETS R15 INC/DEBTS R16 UBCDEP/SALES R17 INCDEP/ASSETS R18 INCDEP/DEBTS R19 SALES/REC R20 SALES/ASSETS R21 ASSETS/DEBTS R22 WCFO/SALES R23 WCFO/ASSETS R24 WCFO/DEBTS Πίνακας 8: Οικονομικές μεταβλητές και αναλογίες για την πρόβλεψη εταιρικής χρεοκοπίας

110 Το Περιβάλλον Προγραμματισμού WEKA Το WEKA είναι ένα περιβάλλον ανάπτυξης αλγορίθμων και εφαρμογών μηχανικής μάθησης που έχει αναπτυχθεί σε Java και διατίθεται ελεύθερα από την ιστοσελίδα Το Weka έχει αναπτυχθεί και συνεχίζει να αναπτύσσεται στο Πανεπιστήμιο του Waikato στη Νέα Ζηλανδία και το όνομά του προέρχεται από τα αρχικά των: Waikato Environment for Knowledge Analysis. Παρέχει δυνατότητα για: Προεπεξεργασία των δεδομένων (τα εργαλεία για την προεπεξεργασία στο περιβάλλον του WEKA ονομάζονται filters). Δημιουργία «μοντέλων» από τα δεδομένα με κάποια διαδικασία εκπαίδευσης Χρησιμοποίηση στατιστικών μεγεθών για την αξιολόγηση των διαφόρων αλγορίθμων μάθησης. Απεικόνιση τόσο των αρχικών δεδομένων όσο και των αποτελεσμάτων μετά τη διαδικασία της εκπαίδευσης. Και όλα αυτά σε ένα γραφικό περιβάλλον (υπάρχει και η δυνατότητα χρήσης από τη γραμμή εντολών) το οποίο ονομάζεται «Explorer». Στην εργασία αυτή χρησιμοποιώντας την έκδοση του Weka, θα εφαρμόσουμε κατηγοριοποίηση με τη χρήση αλγορίθμων: 1. Δέντρου αποφάσεων (J48) 2. Νευρωνικού δικτύου (πολυεπίπεδο δίκτυο perceptron) 3. Naive Βayes 4. Knn Η Δομή των Αρχείων Τα βασικά αρχεία τα οποία δέχεται σαν είσοδο το WEKA έχουν την κατάληξη ARFF (Attribute-Relation File Format) και πρόκειται για ένα αρχείο κειμένου χαρακτήρων ASCII (ASCII text file) το οποίο περιγράφει/περιέχει μια σειρά από παραδείγματα (instances) τα οποία «περιγράφονται» από χαρακτηριστικά (attributes). Στο σχήμα 5.1 φαίνετε ένα μέρος του συγκεκριμένου αρχείου του πειράματος. Οι γραμμές οι οποίες ξεκινάνε με % είναι σχόλια και δεν λαμβάνονται υπόψη όταν «φορτώνεται» το αρχείο.

111 111 Σχήμα 5.1 Ένα μέρος από το περιεχόμενο του αρχείου ARFF Με αυτό το τρόπο γίνεται πιο κατανοητό το τι ακριβώς περιλαμβάνεται στο αρχείο. Μετά από τα εισαγωγικά σχόλια ακολουθεί το όνομα που περιγράφει (κατά κάποιο τρόπο) το αρχείο στη γραμμή που αρχίζει με (η γραμμή αυτή

112 112 είναι απαραίτητη και δεν μπορεί να παραλειφθεί). Μετά και από αυτή τη γραμμή ακολουθεί η δήλωση όλων των χαρακτηριστικών που περιγράφουν το συγκεκριμένο σύνολο παραδειγμάτων. Η δήλωση γίνεται χρησιμοποιώντας την < attribute -name> <datatype> όπου <attribute-name> είναι το όνομα του χαρακτηριστικού, στο συγκεκριμένο πείραμα (NO, D, YR, R1, R2,, R24), και το οποίο πρέπει να ξεκινά με γράμμα. Σε περίπτωση που ένα χαρακτηριστικό περιγράφεται με δύο ή περισσότερες λέξεις που χωρίζονται με κενό τότε θα πρέπει όλες αυτές να περικλείονται σε εισαγωγικά ( ). Το όρισμα <datatype> καθορίζει τον τύπο του χαρακτηριστικού. Το Weka υποστηρίζει 4 διαφορετικούς τύπους: Αριθμητικά δεδομένα (numeric). Δεδομένα που ορίζουν κατηγορία (ονομαστικά)(<nominal-specification>). Αλφαριθμητικά (string). Ημερομηνίες με συγκεκριμένο format (date [<date-format>]). (οι λέξεις κλειδιά numeric, string και date μπορούν να γραφούν είτε με κεφαλαία είτε με πεζά (case insensitive)). Ας δούμε ξεχωριστά την κάθε περίπτωση: Αριθμητικών χαρακτηριστικών Numeric attributes: Τα αριθμητικά χαρακτηριστικά μπορεί να είναι είτε πραγματικοί είτε ακέραιοι αριθμοί. Στο πείραμά μας δεν έχουμε τέτοιου τύπου χαρακτηριστικά. «Ονομαστικά» χαρακτηριστικά Nominal attributes: Τα χαρακτηριστικά που παίρνουν «ονομαστικές» τιμές ορίζονται χρησιμοποιώντας αγκύλες εντός των οποίων γράφονται όλες οι δυνατές «τιμές»: {<nominal-name1>, <nominal-name2>, <nominal-name3>,...}. Στο πείραμά μας τέτοιο χαρακτηριστικό είναι η μεταβλητή D όπου οι πιθανές τιμές είναι D {0, 1} Όπως και προηγουμένως για την περίπτωση κενών θα πρέπει να χρησιμοποιούνται εισαγωγικά. Χαρακτηριστικά αλφαριθμητικών String attributes: Τα χαρακτηριστικά αλφαριθμητικών επιτρέπουν τη δημιουργία αυθαίρετων αλφαριθμητικών

113 113 δομών κάτι το οποίο είναι στην περίπτωση που ενδιαφερόμαστε για. textmining applications. Ο ορισμός ενός τέτοιου χαρακτηριστικού έχει την LCC string Ημερομηνίες Date attributes: Ο καθορισμός χαρακτηριστικών που παίρνουν ως τιμή ημερομηνίες γίνεται με την <name> date όπου <name> είναι το όνομα του χαρακτηριστικού και <date> είναι η ημερομηνία σύμφωνα με το format: "yyyy-mm-dd't'hh:mm:ss" (ISO-8601). Π.χ Τ11:50:25 Μετά από τη δήλωση των χαρακτηριστικών ακολουθεί η δήλωση ότι θα ακολουθήσουν τα δεδομένα. Η δηλώνει ότι θα ακολουθήσουν τα δεδομένα (παραδείγματα). Κάθε παράδειγμα αντιπροσωπεύεται από μία γραμμή με το τέλος της γραμμής να σηματοδοτείται με carriage return. Οι τιμές των χαρακτηριστικών για κάθε παράδειγμα διαχωρίζονται μεταξύ τους με κόμμα. Θα πρέπει να εμφανίζονται με τη σειρά με την οποία έχουν δηλωθεί στην επικεφαλίδα του αρχείου. Στην περίπτωση που κάποιες τιμές λείπουν για κάποιο λόγο, τότε στη θέση τους αναγράφεται ένα λατινικό ερωτηματικό όπως 4.4,?,1.5,?,Iris-setosa Οι τιμές των ονομαστικών μεταβλητών και των μεταβλητών που αντιστοιχούν σε αλφαριθμητικά πρέπει να γράφονται ακριβώς όπως έχουν δηλωθεί (είναι case sensitive). Επίσης το Weka μπορεί να πάρει και σαν είσοδο βάση δεδομένων

114 Εισαγωγή δεδομένων - ο «απλοϊκός τρόπος» Για να δημιουργηθεί ένα αρχείο κατάλληλο για χρήση από το WEKA χρειαζόμαστε έναν επεξεργαστή κειμένου (WordPad). Όπως αναφέραμε και παραπάνω, το αρχείο θα πρέπει να περιλαμβάνονται: 1. το όνομα του dataset (@relation ) 2. την πληροφορία για όλα τα χαρακτηριστικά (@attribute ) 3. την πάνω από τμήμα με τα δεδομένα. Τέλος σώζοντας το αρχείο ως απλό κείμενο με την κατάληξη.arff τα δεδομένα μπορούν να φορτωθούν για περαιτέρω επεξεργασία στο WEKA Εισαγωγή δεδομένων ο «αποδοτικός τρόπος» Συνήθως σε ένα πρόβλημα εξόρυξης δεδομένων τα παραδείγματα είναι πάρα πολλά για να χρησιμοποιήσουμε τον απλοϊκό τρόπο και δίνονται είτε σε ένα spreadsheet αρχείο είτε σε μορφή βάσης δεδομένων. Είναι εύκολο από ένα spreadsheet να παράγουμε ένα arff αρχείο. Τα περισσότερα spreadsheet προγράμματα (πχ Microsoft Excel) δίνουν τη δυνατότητα να αποθηκευθεί το αρχείο σε CSV format (comma-separated value), σαν μια σειρά από καταγραφές οι οποίες χωρίζονται μεταξύ τους με κόμμα. Έχοντας αποθηκεύσει τα δεδομένα σε αυτή τη μορφή και χρησιμοποιώντας ξανά έναν επεξεργαστή κειμένου αρκεί κάποιος να προσθέσει το όνομα του dataset (@relation ), την πληροφορία για όλα τα χαρακτηριστικά (@attribute ) και την πάνω από τμήμα με τα δεδομένα. Τέλος σώζοντας το αρχείο ως απλό κείμενο με την κατάληξη.arff τα δεδομένα μπορούν να φορτωθούν για περαιτέρω επεξεργασία στο WEKA. Για την εισαγωγή των δεδομένων του πειράματος της εργασία είναι σαφώς πιο πρακτικός αυτός ο τρόπος. Παρακάτω στα σχήματα 5.2,5.3 και 5.4 φαίνονται βήμα-βήμα οι ενέργειες για την μετατροπή του dataset που χρησιμοποιήσαμε από ένα αρχείο excel σε arff.

115 115 Σχήμα 5.2 Η σελίδα με τα attributes από το αρχικό αρχείο Excel Σχήμα 5.3 Ένα μέρος της σελίδα με τα δεδομένα από το αρχικό αρχείο Excel

116 116 Σχήμα 5.4 Ένα μέρος του αρχείου αποθηκευμένο σε CSV format όταν ανοιχτεί στο WordPad Καμιά φορά κατά την αποθήκευση του αρχείου οι τελείες των υποδιαστολών (1.8) αποθηκεύονται με κόμμα (1,8) και αντί για κόμμα μπορεί ο διαχωρισμός να γίνεται με το ελληνικό ερωτηματικό(;) για κόμμα (,). Σε αυτή την περίπτωση εφόσον χρησιμοποιούμε WordPad κάνουμε αντικαταστήστε το κόμμα (,) με τελεία (.) και στη συνέχεια το ελληνικό ερωτηματικό (;) με κόμμα (,). Το τελικό αρχείο σε arff format, έχοντας κάνει την επεξεργασία στο WordPad για να προσθέσουμε το όνομα του dataset ), την πληροφορία για όλα τα χαρακτηριστικά ) και την πάνω από τμήμα με τα δεδομένα, φαίνετε στο σχήμα 5.1 που είδαμε παραπάνω.

117 Το Περιβάλλον Διεπαφής Μόλις τρέξουμε το Weka στον υπολογιστή, το πρώτο παράθυρο και τα τέσσερα επιμέρους παράθυρα στα οποία μπορεί να μεταβεί ο χρήστης, φαίνονται στο σχήμα 5.5. Σχήμα 5.5 Το GUI interface Το WEKA GUI Chooser window χρησιμοποιείται για να αρχίσει κάποιος τα WEKA s graphical environments. Στο κάτω μέρος του παραθύρου υπάρχουν 4 κουμπιά: 1. Simple CLI: Παρέχει γραμμή εντολών για τις ρουτίνες του weka και είναι περισσότερο για λειτουργικά συστήματα που δεν έχουν γραμμή εντολών 2. Explorer interface: Παρέχει γραφικό περιβάλλον για τις ρουτίνες του weka και τα συστατικά του μέρη, περισσότερο για το exploring of data 3. Experimenter: Επιτρέπει στη δημιουργία πειραμάτων και στατιστικών αναλύσεων των σχημάτων που παρέχονται

118 KnowledgeFlow: Δίνει ίδιες δυνατότητες με το προηγούμενο αλλά με ένα περιβάλλον που επιτρέπει drag-and-drop. Το κουμπί που θα πατήσουμε για να πραγματοποιήσουμε τις διαδικασίες του πειράματός μας είναι το δεύτερο. Έτσι λοιπόν θα μεταφερθούμε στο περιβάλλον Explorer όπου υπάρχουν οι εξής καρτέλες: 1. Preprocess: Επιλογή και τροποποίηση των δεδομένων. 2. Classify: Εκπαίδευση και έλεγχος των προγραμμάτων εκμάθησης (learning schemes) που κάνουν κατηγοριοποίηση ή κάνουν παλινδρόμηση. 3. Cluster: Εφαρμογή ομαδοποίησης στα δεδομένα. 4. Associate: Δημιουργία κανόνων συσχέτισης. 5. Select attributes: Επιλογή των πιο σχετικών χαρακτηριστικών των δεδομένων. 6. Visualize: Προβολή διαδραστικών 2D διαγραμμάτων των δεδομένων. Κατά την εκκίνηση του Explorer μόνο η πρώτη καρτέλα είναι ενεργή και αυτό γιατί πρέπει πριν γίνει οτιδήποτε να ανοιχτεί το αρχείο δεδομένων. Τις διάφορες λειτουργίες της κάθε καρτέλας θα τις δούμε παρακάτω μαζί με εικόνες καθώς θα εκτελούμε το πείραμα της εργασίας Ξεκινώντας με το Weka Έχοντας ανοίξει τον Explorer του weka και βρισκόμαστε στην καρτέλα Preprocess, πατάμε το κουμπί Open file για να φορτώσουμε το αρχείο ARFF που δημιουργήσαμε και ονομάσαμε bankruptcy.arff. Όπως βλέπουμε στο σχήμα 5.6, στο παράθυρο αυτό στο μέσο και αριστερά αναγράφεται ότι το συγκεκριμένο dataset περιλαμβάνει 132 παραδείγματα και κάθε παράδειγμα απαρτίζεται από 26 χαρακτηριστικά. Πιο συγκεκριμένα στο τμήμα Current Relation φαίνονται τα δεδομένα που μόλις έχουν εισαχθεί και περιέχονται τα εξής 3 πεδία: 1. Relation: Το όνομα του relation, όπως δίνεται στο αρχείο. 2. Instances: Ο αριθμός των instances (data points/records) των δεδομένων. 3. Attributes: Ο αριθμός των χαρακτηριστικών (features) των δεδομένων.

119 119 Σχήμα 5.6 Η καρτέλα Preprocess Το πρώτο χαρακτηριστικό (D) είναι επιλεγμένο και στο πάνω δεξιό μέρος αναγράφεται ότι δεν έχει ελλιπείς καταχωρήσεις (missing: 0), πρόκειται για ένα χαρακτηριστικό το οποίο έχει ονομαστικές τιμές (0, 1) οι οποίες εμφανίζονται από 66 φορές και οι δύο. Πιο αναλυτικά στο τμήμα Selected attribute υπάρχουν τα εξής πεδία: 1. Name: Το όνομα του χαρακτηριστικού που έχει επιλεχθεί 2. Type: Ο τύπος του επιλεγμένου χαρακτηριστικού, συνήθως Nominal ή Numeric. 3. Missing: Το ποσοστό των instances στα δεδομένα που λείπουν καταγραφές. 4. Distinct: Ο αριθμός των διαφορετικών τιμών που περιέχουν τα δεδομένα για το επιλεγμένο χαρακτηριστικό. 5. Unique: Το ποσοστό των instances στα δεδομένα που έχουν τιμή που για άλλο χαρακτηριστικό δεν έχουν τα άλλα instances.

120 120 Το ιστόγραμμα απεικονίζει πώς κατανέμονται τα 132 αυτά παραδείγματα στις δύο κατηγορίες D{0, 1}. Στο συγκεκριμένο πείραμα το χαρακτηριστικό D έχει επιλεγεί ως αυτό το οποίο «δείχνει» σε ποια κατηγορία ανήκει το παράδειγμα. Συνήθως πρόκειται (χωρίς να είναι δεσμευτικό) για το τελευταίο χαρακτηριστικό που καταχωρούμε και το οποίο δείχνει την κατηγορία στην οποία ανήκει το παράδειγμα, στην περίπτωση που έχουμε πρόβλημα κατηγοριοποίησης, ή την τιμή της παραμέτρου που μας ενδιαφέρει για προβλήματα παλινδρόμησης (regression). Στην δική μας περίπτωση το χαρακτηριστικό D είναι από τα πρώτα που καταχωρήθηκαν και έτσι το επιλέξαμε από την αναδιπλούμενη λίστα ακριβώς πάνω από το ιστόγραμμα δίπλα από το κουμπί Visualize all για να κατηγοριοποιήσουμε με βάση αυτό το χαρακτηριστικό, καθώς το πρόγραμμα είχε διαλέξει σαν προεπιλογή το τελευταίο χαρακτηριστικό που είχαμε δηλώσει (R24). Διαφορετικά ιστογράμματα και συσχετίσεις εμφανίζονται επιλέγοντας κάποιο άλλο χαρακτηριστικό από την λίστα. Επίσης στο κάτω μέρος του παραθύρου βρίσκεται τo status box και δείχνει κάποια μηνύματα για το τι γίνεται κάθε στιγμή. Π.χ. Όταν ο Explorer είναι απασχολημένος στην φόρτωση ενός αρχείου δεδομένων, τότε το status box κάνοντας δεξί κλικ δίνει ένα μενού με 2 επιλογές: 1. Πληροφορίες για τη μνήμη. Ποσοστό διαθέσιμης μνήμης για το WEKA. 2. Τρέχει ο garbage collector. Τρέχει από την Java ο garbage collector και ψάχνει μνήμη που δεν χρησιμοποιείται και την απελευθερώνει, έτσι υπάρχει διαθέσιμη μνήμη για νέες εργασίες. Ο garbage collector τρέχει στο background. Δίπλα από το status box βρίσκεται το Log button και πατώντας το, ανοίγει ένα παράθυρο που περιέχει πληροφορίες που σε κάθε σειρά δηλώνει την ημερομηνία και το γεγονός που έχει συμβεί κάθε φορά. Καθώς το WEKA κάνει διάφορες ενέργειες το log κρατάει πληροφορίες για τις ενέργειες αυτές. Στο αριστερό μέρος μπορούμε να δούμε τα χαρακτηριστικά του αρχείου μας στο τμήμα Attributes, όπου: No.: Δηλώνει τον αριθμό του χαρακτηριστικού με τη σειρά που βρίσκεται μέσα στο αρχείο δεδομένων. Selection tick boxes: Μπορεί να γίνει επιλογή ορισμένων χαρακτηριστικών που έχουν σχέση με την ανάλυση.

121 121 Name: Tο όνομα του κάθε χαρακτηριστικού όπως είναι δηλωμένο στο αρχείο δεδομένων. Χαρακτηριστικά μπορούν να διαγραφούν, επιλέγοντάς τα και πατώντας το κουμπί Remove. Έτσι κάναμε για τις μεταβλητές NO και YR, καθώς τα συγκεκριμένα χαρακτηριστικά μας έδιναν απλά έναν αύξοντα αριθμό και μία χρονολογία τα οποία δεν μας χρειάζονται για το πείραμα, εφόσον τα συμπεράσματα που θέλουμε να βγάλουμε θα προκύψουν με βάση κάποια από τα υπόλοιπα στοιχεία. Με το κουμπί All επιλέγονται όλα τα χαρακτηριστικά, με το κουμπί None «αποεπιλέγονται» όλα τα χαρακτηριστικά και με το κουμπί Invert απο-επιλέγονται τα ήδη επιλεγμένα και επιλέγονται τα υπόλοιπα. Με το κουμπί Undo αναιρείται μία ενέργεια. Τέλος με το κουμπί Edit εμφανίζεται το dataset και μπορεί ο χρήστης να επέμβει και να αλλάξει συγκεκριμένα παραδείγματα και χαρακτηριστικά Βελτίωση της απόδοσης ενός ταξινομητή Η «τυφλή» χρησιμοποίηση ενός ταξινομητή δεν αποφέρει πάντοτε τα καλύτερα αποτελέσματα. Ίσως το βασικότερο στάδιο κατά τη σχεδίαση ενός συστήματος ταξινόμησης αποτελεί το στάδιο της επιλογής των χαρακτηριστικών (attributes στο Weka) που θα χρησιμοποιηθούν. Για αυτό το λόγο ο χρήστης θα πρέπει αρχικά να παρατηρήσει τα δεδομένα. Το Weka παρέχει τη δυνατότητα για απεικόνιση των χαρακτηριστικών τόσο στο κεντρικό παράθυρο της εφαρμογή στο κάτω δεξιό μέρος όπως είδαμε παραπάνω στο σχήμα 5.6, όσο και σε ξεχωριστό παράθυρο πατώντας το κουμπί Visualize All (Σχήμα 5.7) ή χρησιμοποιώντας τις επιλογές της καρτέλα Visualize (Σχήμα 5.8). Στα σχήματα 5.6 και 5.7 παρατηρούμε ότι απεικονίζεται το ιστόγραμμα των τιμών του/των χαρακτηριστικών σε σχέση με την κατηγορία (class) που θέλουμε να ταξινομήσουμε. Πλήρης επικάλυψη των ιστογραμμάτων που αντιστοιχούν σε διαφορετικές κατηγορίες δηλώνει ότι το συγκεκριμένο χαρακτηριστικό έχει μικρή χρησιμότητα για το συγκεκριμένο πρόβλημα ταξινόμησης και καλό θα ήταν να αφαιρεθεί (χρησιμοποιώντας το κουμπί remove από την καρτέλα preprocess). Από την άλλη, τελείως διαχωρισμένα ιστογράμματα υποδηλώνουν ότι το εύρος για τις τιμές ενός χαρακτηριστικού είναι τελείως διαφορετικό για κάθε κατηγορία και ως εκ τούτου μπορεί από μόνο του να χρησιμοποιηθεί ως είσοδος στον ταξινομητή.

122 122 Με την επιλογή Visualize ο χρήστης μπορεί να εξετάσει τυχόν συσχετίσεις μεταξύ των χαρακτηριστικών (attributes) που χρησιμοποιούνται σαν είσοδοι αλλά και μεταξύ των χαρακτηριστικών που χρησιμοποιούνται σαν είσοδοι με την κατηγορία (χαρακτηριστικό εξόδου). Στην πρώτη περίπτωση η ύπαρξη συσχέτισης δεν είναι επιθυμητή γιατί αυτό σημαίνει ότι έχουμε χαρακτηριστικά που μεταφέρουν την ίδια περίπου πληροφορία και αυτό συνήθως δημιουργεί πρόβλημα κατά την εκπαίδευση ορισμένων μοντέλων ταξινόμησης ενώ στη δεύτερη είναι επιθυμητή γιατί δηλώνει ότι το χαρακτηριστικό εισόδου μπορεί να χρησιμοποιηθεί για την πρόβλεψη της εξόδου (κατηγορίας). Σχήμα 5.7 Απεικόνιση ιστογραμμάτων όλων των attributes επιλέγοντας Visualize all

123 123 Σχήμα 5.8 Διαγράμματα διασποράς (scatter plots) Στην καρτέλα Visualize στο πάνω μέρος δημιουργείται ένα πλέγμα NxN όπου Ν είναι το σύνολο των attributes και κάθε επιμέρους scatter plot αντιστοιχεί σε ένα ζεύγος από attributes (αναγράφονται στο πάνω μέρος και δεξιά του πλέγματος). Στο κάτω μέρος της καρτέλας παρέχονται στον χρήστη τα εξής κουμπιά ελέγχου για την αλλαγή του τρόπου απεικόνισης των scatter plots: H μπάρα PlotSize του δίνει τη δυνατότητα να αλλάξει το μέγεθος των scatter plots. Η μπάρα PointSize του δίνει τη δυνατότητα να αλλάξει το μέγεθος των σημείων εντός των γραφημάτων. Η μπάρα Jitter προσθέτει «θόρυβο» στα σημεία. Αυτό μπορεί να φανεί χρήσιμο στην περίπτωση που έχουμε πολλά σημεία με κοντινές τιμές. Η αναδιπλούμενη λίστα δίνει την δυνατότητα επιλογής του χαρακτηριστικού βάση του οποίου θέλουμε να γίνει ο χρωματισμός των σημείων (η αντιστοίχηση του χρώματος με την τιμή του attribute αναγράφεται και στο κάτω μέρος του παραθύρου).

124 124 Το κουμπί Select Attributes επιτρέπει στο χρήστη να επιλέξει κάποια από τα χαρακτηριστικά των οποίων επιθυμεί να δει τα scatter plots (αντί για την απεικόνιση όλων των χαρακτηριστικών που είναι η προεπιλεγμένη επιλογή). Το κουμπί SubSample χρησιμοποιείται αν θέλουμε να απεικονίσουμε μόνο κάποιο ποσοστό από το σύνολο των παραδειγμάτων (instances) Και τέλος το κουμπί Update καθιστά ενεργές όλες τις νέες επιλογές του χρήστη. Εάν ο χρήστη θέλει να παρατηρήσει κάποιο συγκεκριμένο scatter plot δεν έχει παρά να κάνει κλικ επάνω του και ένα νέο παράθυρο θα ανοίξει μόνο με το συγκεκριμένο plot όπως φαίνεται στο σχήμα 5.9. Σχήμα 5.9 Απεικόνιση ενός scatter plot

125 Επιλογή χαρακτηριστικών και μείωση της διάστασης Σε πολλές εφαρμογές εξόρυξης δεδομένων έχουμε να αντιμετωπίσουμε δεδομένα τα οποία περιέχουν ένα μεγάλο αριθμό από χαρακτηριστικά (attributes). Σε τέτοιες περιπτώσεις είναι πολύ πιθανό κάποιες από τις μεταβλητές να είναι συσχετισμένες σε μεγάλο βαθμό μεταξύ τους. Εάν συμπεριλάβουμε μεταβλητές οι οποίες είναι σε μεγάλο βαθμό συσχετισμένες ή αν συμπεριλάβουμε μεταβλητές που δεν σχετίζονται με την υπό εξέταση μεταβλητή εξόδου τότε μπορεί τόσο η απόδοση όσο και η αξιοπιστία του μοντέλου μας να μειωθεί. Ένας μεγάλος αριθμός από χαρακτηριστικά επίσης μπορεί να δημιουργήσει και υπολογιστικά προβλήματα πέρα από το πρόβλημα της ύπαρξης μεταβλητών που μπορεί να είναι συσχετισμένες μεταξύ τους. Η διάσταση ενός μοντέλου είναι ο αριθμός των μεταβλητών εισόδου (input attributes) που χρησιμοποιούνται από το μοντέλο. Ένα από τα καίρια βήματα στην εξόρυξη δεδομένων είναι η μείωση της διάστασης χωρίς να μειώνεται ταυτόχρονα και η απόδοση του μοντέλου. Έχουν αναπτυχθεί πολλές μέθοδοι για την μείωση του αριθμού των μεταβλητών εισόδου τόσο με επίβλεψη όσο και χωρίς επίβλεψη. Θα πρέπει τέλος να σημειωθεί ότι ορισμένες τεχνικές ταξινόμησης όπως τα δέντρα απόφασης έχουν ένα εγγενή μηχανισμό για την επιλογή των μεταβλητών εισόδου. Αυτή τους η ικανότητα μπορεί να είναι χρήσιμη και για άλλους ταξινομητές όπως τα νευρωνικά δίκτυα. Πριν αρχίσουμε να εκτελούμε το πείραμα της εργασίας θα ήταν καλό να περιγράψουμε λίγο περιληπτικά το dataset που χρησιμοποιούμε και αναλύσαμε στην αρχή αυτού του κεφαλαίου. Έχουμε λοιπόν ένα αρχείο το οποίο περιέχει οικονομικά στοιχεία για εταιρείες καθώς και μία μεταβλητή D που φανερώνει αν χρεοκόπησαν (0) ή όχι (1). Η πρώτη στήλη περιέχει τον αύξοντα αριθμό της εταιρείας, η δεύτερη την κατηγορία και η τρίτη τη χρονιά που έγινε η απογραφή των στοιχειών. Με βάση αυτά τα χαρακτηριστικά θα πρέπει να δημιουργήσουμε κάποια μοντέλα που μπορούν να προβλέψουν την χρεοκοπία μίας εταιρείας. Όπως αναφέραμε νωρίτερα έχουμε αφαιρέσει από μόνοι μας τα χαρακτηριστικά των μεταβλητών NO και YR, και πηγαίνοντας στην καρτέλα Select Attributes του weka θα κάνουμε μια διερεύνηση των χαρακτηριστικών τα οποία θέλουμε να χρησιμοποιήσουμε. Η διαδικασία περιλαμβάνει μία ρουτίνα για

126 126 αξιολόγηση των χαρακτηριστικών και μία ρουτίνα για αναζήτηση στο σύνολο των χαρακτηριστικών (Σχήμα 5.10). Θα επιλέξουμε ClassifierSubsetEval στο Attribute Evaluator (χρησιμοποιεί το κριτήριο του σφάλματος ταξινόμησης) και κάνοντας κλικ πάνω στο όνομά του θα εμφανιστεί το παράθυρο του σχήματος 5.11 από όπου επιλέγουμε τον ταξινομητή που θα χρησιμοποιήσουμε. Στο πεδίο Search Method θα επιλέξουμε BestFirst και πατώντας το start θα επιλεγούν κάποια χαρακτηριστικά. Στη συνέχεια πατώντας στο κουμπί choose δίπλα στη λέξη BestFirst μπορούμε να αλλάξουμε στην μέθοδο αναζήτησης (search method) την κατεύθυνση ψαξίματος (Σχήμα 5.12). Αφού χρησιμοποιήσαμε την Forward θα δοκιμάσουμε το ίδιο με την Backward και στη συνέχεια με την Bi-directional. Σχήμα 5.10 Πεδία για την επιλογή των αλγορίθμων αναζήτησης χαρακτηριστικών Σχήμα 5.11 Επιλογή ταξινομητή κατά την αναζήτηση των καλύτερων χαρακτηριστικών

127 127 Σχήμα 5.12 Επιλογή της κατεύθυνσης της αναζήτησης 5.3 Ταξινόμηση με τη χρήση Δέντρου Αποφάσεων Για αρχή θα κατασκευάσουμε ένα απλό δέντρο αποφάσεων το οποίο να περιγράφει τον τρόπο με τον οποίο μια εταιρία χρεοκόπησε ή όχι. Με αυτό τον τρόπο μπορούμε να δημιουργήσουμε ένα μοντέλο της συμπεριφοράς και να προβλέψουμε μελλοντικές αποφάσεις βασιζόμενοι στα ίδια χαρακτηριστικά. Με άλλα λόγια ξέροντας τις τιμές των χαρακτηριστικών προσπαθούμε να προβλέψουμε την κατηγορία. Πρέπει να σημειωθεί ότι τέτοια μοντέλα συνήθως δεν είναι απόλυτα ακριβή για διάφορους λόγους και για αυτό το λόγο, αυτό που αποζητούμε είναι να έχουν από στατιστικής απόψεως μια όσο το δυνατόν καλύτερη απόδοση. Το δέντρο αποφάσεων που θα δημιουργήσουμε με βάση το συγκεκριμένο dataset αποτελεί ένα από τα πιο συχνά χρησιμοποιούμενα εργαλεία στο πεδίο της εξόρυξης δεδομένων. Πιο συγκεκριμένα θα χρησιμοποιήσουμε τον αλγόριθμο J48 τον οποίο υλοποιεί το WEKA. Από την καρτέλα Classify επιλέγουμε Choose και από την κατηγορία trees J48 (Σχήμα 5.13).

128 128 Σχήμα 5.13 Επιλογή του ταξινομητή J48 Κατόπιν πατώντας το κουμπί Start το πρόγραμμα αρχίζει να δημιουργεί το «δέντρο». Για όση ώρα το πρόγραμμα δουλεύει, το χαρακτηριστικό πουλί στο κάτω δεξί μέρος του παραθύρου πηδά και χορεύει! Με το τέλος της διαδικασίας εκπαίδευσης θα εμφανιστούν τα αποτελέσματα που βλέπουμε στο σχήμα 5.14.

129 129 Σχήμα 5.14 Αποτελέσματα του ταξινομητή J48 Για να δούμε το δέντρο το οποίο κατασκευάσαμε, κάνουμε δεξί κλικ στο αποτέλεσμά μας από την Result list που βρίσκεται κάτω αριστερά και επιλέγουμε Visualize tree. Το δέντρο αυτό φαίνετε στο σχήμα 5.15 παρακάτω.

130 130 Σχήμα 5.15 Απεικόνιση του δέντρου ταξινόμησης Το σχήμα 5.14 που είδαμε παραπάνω απεικονίζει μόνο το κάτω μισό των συνολικών αποτελεσμάτων. Όλα τα αποτελέσματα τα οποία μπορούμε να τα παρατηρήσουμε χρησιμοποιώντας την scroll bar στο δεξί μέρος του παραθύρου φαίνονται στα σχήματα 5.16 και 5.17.

131 Σχήμα 5.16 Τα συνολικά αποτελέσματα του ταξινομητή J48 (α μέρος) 131

132 132 Σχήμα 5.17 Τα συνολικά αποτελέσματα του ταξινομητή J48 (β μέρος) Στην αρχή αυτής της αναφοράς παρατίθεται μία σύνοψη του dataset καθώς και ότι χρησιμοποιήθηκε η 10-fold cross-validation μέθοδος για να γίνει μια εκτίμηση του μοντέλου που παράχθηκε. Κατόπιν ακολουθεί μία λεκτική περιγραφή του δέντρου το οποίο παράχθηκε και το οποίο είναι ένα pruned «ψαλιδισμένοκλαδεμένο» δέντρο. Ο πρώτος χωρισμός γίνεται με βάση το χαρακτηριστικό R24 και στη συνέχεια στο επόμενο επίπεδο ο χωρισμός γίνεται στα χαρακτηριστικά R1 και R21 αντίστοιχα. Σε αυτή τη δομή μετά από την άνω και κάτω τελεία αναγράφεται η κατηγορία η οποία «ανατίθεται» στο συγκεκριμένο φύλλο, ακολουθούμενη από τον αριθμό των παραδειγμάτων (από αυτά που χρησιμοποιούνται για τη δημιουργία του δέντρου) που έχουν καταχωρηθεί σε αυτό το φύλλο (ο λόγος που χρησιμοποιείται δεκαδική αναγραφή σχετίζεται με τον τρόπο με τον οποίο ο συγκεκριμένος αλγόριθμος αντιμετωπίζει ελλιπή δεδομένα, η ανάλυση του οποίου ξεφεύγει από τα όρια της άσκησης). Όταν υπάρχουν και λανθασμένες κατηγοριοποιήσεις ο αριθμός τους επίσης αναγράφεται (π.χ. 3.0/1.0, που σημαίνει ότι στο συγκεκριμένο φύλλο είχαμε 3 παραδείγματα από τα οποία το ένα έχει κατηγοριοποιηθεί λανθασμένα). Στη συνέχεια αναγράφονται ο αριθμός των φύλλων καθώς και ο αριθμός των κόμβων. Στο επόμενο τμήμα δίνονται εκτιμήσεις για την απόδοση του δέντρου. Οι εκτιμήσεις αυτές πραγματοποιήθηκαν χρησιμοποιώντας την μέθοδο 10-fold cross validation. Τα αποτελέσματα δείχνουν ότι 31 από τις 132 περιπτώσεις δεν κατηγοριοποιήθηκαν σωστά. Όσον αφορά τις υπόλοιπες μετρήσεις θα κάνουμε μία παρένθεση για να δώσουμε ορισμένους ορισμούς.

133 133 Η απόδοση μίας διαδικασίας ταξινόμησης μπορεί να περιγραφεί με ένα πίνακα σύγχυσης (confusion matrix), όπως είχαμε αναφέρει στο δεύτερο κεφάλαιο. Στο σχήμα 5.18 απεικονίζεται ένας πίνακας σύγχυσης για την περίπτωση ενός προβλήματος ταξινόμησης με 2 κατηγορίες. TN είναι ο αριθμός των αρνητικών παραδειγμάτων που έχουν ταξινομηθεί σωστά (True Negatives), FP είναι ο αριθμός των αρνητικών παραδειγμάτων που έχουν από λάθος ταξινομηθεί ως θετικά (False Positives), FN είναι ο αριθμός των θετικών παραδειγμάτων που έχουν από λάθος ταξινομηθεί ως αρνητικά (False Negatives) και TP είναι ο αριθμός των θετικών παραδειγμάτων που έχουν σωστά ταξινομηθεί (True Positives). Σχήμα 5.18 Confusion Matrix Με βάση τους παραπάνω ορισμούς υπολογίζουμε τις παρακάτω ποσότητες: TP rate: TP TP FN FP rate: FP FP TN Precision: TP TP FP Recall: TP TP FN = TP rate F-measure:2xRecall Precision/(Recall+Precision)= 2TP 2TP FP FN Όλα τα παραπάνω μεγέθη αναγράφονται στο τέλος πριν από τον confusion matrix (Σχήμα 5.17). Ο λόγος για τον οποίο παρατίθενται 2 διαφορετικά νούμερα οφείλεται στην κατηγορία που επιλέγεται κάθε φορά ως «θετική».

134 134 Το WEKA δίνει τη δυνατότητα για τον υπολογισμό και άλλων μέτρων πατώντας το κουμπί More Options (Σχήμα 5.19). Σχήμα 5.19 Το μενού επιλογών του Weka Εάν για το πείραμά μας είχε επιλεγεί μια διαφορετική μέθοδος για την εκτίμηση της απόδοσης τότε πιθανόν τα αποτελέσματα να είναι λίγο διαφορετικά. Στην περίπτωση που επιλεγεί Use Training set (κάτι το οποίο γενικά δε συνιστάται) τότε τα αποτελέσματα θα είναι ιδιαίτερα «αισιόδοξα» και το πιθανότερο παραπλανητικά. Μια άλλη δυνατότητα είναι να επιλεγεί Percentage Split ή εάν υπάρχει διαθέσιμο και ένα ξεχωριστό σετ για έλεγχο η επιλογή Supplied test set. Στη συνέχεια, θα εφαρμόσουμε ξανά τον ταξινομητή J48, αλλά αυτή τη φορά χρησιμοποιώντας μόνο τα χαρακτηριστικά από τα 3 σύνολα χαρακτηριστικών που προέκυψαν στην επιλογή χαρακτηριστικών. Παρακάτω βλέπουμε τα χαρακτηριστικά που επιλέχτηκαν από κάθε μέθοδο αναζήτησης και τα εκ των υστέρων αποτελέσματα του ταξινομητή για κάθε μία περίπτωση.

135 135 Με τη μέθοδο αναζήτησης Forward επιλέχτηκαν τα χαρακτηριστικά R3, R9, R13, R24 και τα αποτελέσματα που προέκυψαν είναι: Correctly Classified Instances % Incorrectly Classifies Instances % Με τη μέθοδο αναζήτησης Backward επιλέχτηκαν τα χαρακτηριστικά R2, R4, R9, R10, R14, R15, R18, R23 και τα αποτελέσματα που προέκυψαν είναι: Correctly Classified Instances % Incorrectly Classified Instances % Με τη μέθοδο αναζήτησης Bi-directional επιλέχτηκαν τα χαρακτηριστικά R2, R4, R5, R6, R7, R8 R9, R10, R11, R12, R13, R14, R15, R16 R18, R19, R20, R21, R22, R23 και τα αποτελέσματα που προέκυψαν είναι: Correctly Classified Instances % Incorrectly Classified Instances % Παρατηρούμε ότι την καλύτερη απόδοση την έχουμε στην περίπτωση όπου χρησιμοποιήσαμε χαρακτηριστικά επιλεγμένα με την μέθοδο αναζήτησης Forward, καθώς έχουμε το μεγαλύτερο ποσοστό περιπτώσεων που κατηγοριοποιήθηκαν σωστά σε σχέση με τις υπόλοιπες δοκιμές που κάναμε. 5.4 Ταξινόμηση με τη χρήση Νευρωνικού Δικτύου Ένας άλλος πολύ διαδεδομένος ταξινομητής είναι το πολυεπίπεδο perceptron, το οποίο είναι ένα νευρωνικό δίκτυο. Το WEKA δίνει τη δυνατότητα υλοποίησης ενός πολυεπίπεδο perceptron (MLP) το οποίο εκπαιδεύεται με τη χρήση του αλγορίθμου back-propagation. Από την καρτέλα classify επιλέγουμε Choose και από την κατηγορία Functions MultilayerPerceptron (Σχήμα 5.20).

136 136 Σχήμα 5.20 Επιλογή του ταξινομητή MultilayerPerceptron Κάνοντας δεξί κλικ πάνω στη θέση πάνω στον ταξινομητή, εμφανίζεται το παράθυρο του σχήματος Για να δοκιμάσουμε διαφορετικό αριθμό από κρυφούς νευρώνες θα πάμε στο πεδίο hiddenlayers και θα βάλουμε το νούμερο που θέλουμε. Θα πειραματιστούμε διαδοχικά κάνοντας 4 προσπάθειες και για τον αριθμό κόμβων (νευρώνων) στο κρυφό επίπεδο που θα έχουμε το μεγαλύτερο αριθμό σωστών ταξινομήσεων θα κάνουμε γραφική απεικόνιση της καλύτερης αρχιτεκτονικής. Οι αριθμοί που θα δοκιμάσουμε είναι 4,6,8 και 10.

137 137 Σχήμα 5.21 Καθορισμός αριθμού κρυφών νευρώνων Επίσης στην καρτέλα του σχήματος 5.21, υπάρχει και το πεδίο learningrate από όπου μπορούμε να αλλάξουμε τον βαθμό εκπαίδευσης. Αρχικά έχει την τιμή 0.3 με την οποία θα κάνουμε τις πρώτες δοκιμές και συνεχίζοντας θα δοκιμάσουμε να δούμε τι γίνετε και βάζοντας για τιμές τις 0.6 και 0.9. Υπάρχει επίσης και το πεδίο trainingtime από όπου μπορούμε να αλλάξουμε τον αριθμό των επαναλήψεων. Η τιμή που έχει αρχικά και με την οποία θα κάνουμε τις πρώτε δοκιμές είναι το 500. Θα δοκιμάσουμε να δούμε και τι θα γίνει στην περίπτωση που δώσουμε για αριθμό επαναλήψεων το Τώρα για το στάδιο επιλογής χαρακτηριστικών θα χρησιμοποιήσουμε τον ταξινομητή NaiveBayes, κυρίως για λόγους ταχύτητας, αν και αυτό δεν είναι το

138 138 βέλτιστο. Στο τέλος όμως θα δοκιμάσουμε για την καλύτερη περίπτωση νευρωνικού δικτύου, τι γίνετε και όταν χρησιμοποιήσουμε νευρωνικό δίκτυο και στο στάδιο της επιλογής. Να πούμε ότι τα χαρακτηριστικά που επιλέχτηκαν από τις τρείς μεθόδους αναζήτησης είναι: Forward: R2, R9, R12, R17, R20, R23. Backward: R1, R3, R6, R7, R8, R9, R10, R13, R14, R16, R17, R19, R20, R21, R22, R23, R24. Bi-directional: R1, R3, R5, R6, R7, R8, R9, R10, R12, R13, R14, R16, R17, R19, R20, R21, R22, R23, R24. Από αυτές τις δοκιμές προκύπτουν πολλές περιπτώσει και ο καλύτερος τρόπος για να παρουσιάσουμε όλα αυτά τα αποτελέσματα είναι να τα συγκεντρώσουμε σε έναν πίνακα. Στις παρακάτω σελίδες βλέπουμε τον πίνακα 9, όπου περιέχονται όλα τα αποτελέσματα αυτών των περιπτώσεων. Κρυφοί νευρώνες Βαθμός εκπαίδευσης Αριθμός επαναλήψεων Μέθοδος αναζήτησης Forward Backward Bidirectional Forward Backward Correctly Classified Instances % % % % % % % Incorrectly Classified Instances % % % % % % %

139 139 Κρυφοί νευρώνες Βαθμός εκπαίδευσης Αριθμός επαναλήψεων Μέθοδος αναζήτησης Bidirectional Forward Backward Bidirectional Forward Backward Bidirectional Forward Backward Bidirectional Forward Correctly Classified Instances % % % % % % % % % % % % % % % Incorrectly Classified Instances % % % % % % % % % % % % % % %

140 140 Κρυφοί νευρώνες Βαθμός εκπαίδευσης Αριθμός επαναλήψεων Μέθοδος αναζήτησης Backward Bidirectional Forward Backward Bidirectional Forward Backward Bidirectional Forward Backward Bidirectional Correctly Classified Instances % % % % % % % % % % % % % % % Incorrectly Classified Instances % % % % % % % % % % % % % % %

141 141 Κρυφοί νευρώνες Βαθμός εκπαίδευσης Αριθμός επαναλήψεων Μέθοδος αναζήτησης Forward Backward Bidirectional Forward Backward Bidirectional Forward Backward Bidirectional Forward Backward Bidirectional Correctly Classified Instances % % % % % % % % % % % % % % % Incorrectly Classified Instances % % % % % % % % % % % % % % %

142 142 Κρυφοί νευρώνες Βαθμός εκπαίδευσης Αριθμός επαναλήψεων Μέθοδος αναζήτησης Forward Backward Bidirectional Forward Backward Bidirectional Forward Backward Bidirectional Forward Backward Correctly Classified Instances % % % % % % % % % % % % % % % Incorrectly Classified Instances % % % % % % % % % % % % % % %

143 143 Κρυφοί νευρώνες Βαθμός εκπαίδευσης Αριθμός επαναλήψεων Μέθοδος αναζήτησης Bidirectional Forward Backward Bidirectional Forward Backward Bidirectional Forward Backward Bidirectional Forward Correctly Classified Instances % % % % % % % % % % % % % % % Incorrectly Classified Instances % % % % % % % % % % % % % % %

144 144 Correctly Incorrectly Κρυφοί Βαθμός Αριθμός Μέθοδος Classified Classified νευρώνες εκπαίδευσης επαναλήψεων αναζήτησης Instances Instances Backward % % Bidirectional % % % % Forward % % Backward % % Bidirectional % % % % Forward % % Backward % % Bidirectional 75 % 25 % % % Forward % % Backward % % Bidirectional % % Πίνακας 9: Τα αποτελεσματα του ταξινομητή MultilayerPerceptron

145 145 Όπως παρατηρούμαι το νευρωνικό δίκτυο με την καλύτερη απόδοση είναι αυτό όπου χρησιμοποιήσαμε 10 κρυφούς νευρώνες, βαθμό εκπαίδευσης 0.6, αριθμό επαναλήψεων 500 και χαρακτηριστικά επιλεγμένα με την μέθοδο αναζήτησης Forward, καθώς έχει το μεγαλύτερο ποσοστό περιπτώσεων που κατηγοριοποιήθηκαν σωστά σε σχέση με τα υπόλοιπα. Όπως είπαμε, για αυτό το νευρωνικό δίκτυο θα εξετάσουμε και την περίπτωση όπου χρησιμοποιούμε και στο στάδιο επιλογής νευρωνικό δίκτυο. Αμέσως όμως, παρατηρούμε ότι με αυτή την μέθοδο αναζήτησης, επιλέγονται όλα τα χαρακτηριστικά και άρα, τα αποτελέσματα που θα προκύψουν θα είναι τα ίδια με εκείνα της περίπτωσης όπου χρησιμοποιήσαμε 10 κρυφούς νευρώνες, βαθμό εκπαίδευσης 0.6, αριθμό επαναλήψεων 500 και καμία μέθοδο αναζήτησης χαρακτηριστικών. Συνεπώς, δεν πρόκειται για καλύτερα αποτελέσματα. Επίσης, είπαμε ότι για αυτό το νευρωνικό δίκτυο θα κάνουμε γραφική παράσταση. Για να δούμε γραφικά το νευρωνικό δίκτυο, θα πρέπει να πάμε στο παράθυρο του σχήματος 5.19 και να αλλάξουμε την επιλογή δίπλα από το GUI από False σε True. Για αυτή την περίπτωση η γραφική παράσταση απεικονίζεται παρακάτω στο σχήμα Σχήμα 5.22 Η γραφική παράσταση του νευρωνικού δικτύου με 10 κρυφούς νευρώνες, βαθμό εκπαίδευσης 0.6, αριθμό επαναλήψεων 500 και χαρακτηριστικά μεθόδου αναζήτησης Forward

146 Ταξινόμηση με τη χρήση Naive Bayes Μέχρι στιγμής χρησιμοποιήσαμε 2 ταξινομητές για αυτό το προβλήματα κατηγοριοποίησης. Το Weka υποστηρίζει πολύ περισσότερους (Σχήμα 5.23). Είναι ευθύνη του σχεδιαστεί να επιλέξει τον ταξινομητή τον οποίο θα χρησιμοποιήσει για μια συγκεκριμένη εφαρμογή. Η χρήση ενός «ισχυρού» ταξινομητή (όπως τα νευρωνικά δίκτυα και τα δέντρα απόφασης) δεν είναι πάντα η καλύτερη επιλογή. Για αυτό ο χρήστης θα πρέπει πριν αποδεχτεί την υιοθέτηση κάποιου μοντέλου για την επίλυση του προβλήματός του να το συγκρίνει και με άλλα απλούστερα μοντέλα. Εάν η απόδοση των πιο πολύπλοκων ταξινομητών δεν υπερτερεί σημαντικά έναντι των απλούστερων μοντέλων τότε η λύση της χρησιμοποίησης του πιο απλού πιθανόν να είναι καλύτερη. Ένας από τους ταξινομητές που αποτελούν μέτρο σύγκρισης για πιο ισχυρούς ταξινομητές είναι ο Naive Bayes (NaiveBayes στο σχήμα 5.23). Σχήμα 5.23 Καρτέλα ταξινομητών του Weka

147 147 Τα χαρακτηριστικά που προκύπτουν στο στάδιο της επιλογής τα είδαμε παραπάνω, όταν κάναμε επιλογή χαρακτηριστικών για την περίπτωση των νευρωνικών δικτύων. Ας δούμε λοιπόν τα αποτελέσματα του ταξινομητή Naive Bayes που προκύπτουν από αυτές τις δοκιμές. Τα αποτελέσματα που προέκυψαν χωρίς να κάνουμε κάποια επιλογή χαρακτηριστικών είναι: Correctly Classified Instances % Incorrectly Classified Instances % Τα αποτελέσματα που προέκυψαν χρησιμοποιώντας τα χαρακτηριστικά που επιλέχτηκαν με τη μέθοδο αναζήτησης Forward είναι: Correctly Classified Instances % Incorrectly Classifies Instances % Επίσης, τα αποτελέσματα που προέκυψαν χρησιμοποιώντας τα χαρακτηριστικά που επιλέχτηκαν με τη μέθοδο αναζήτησης Backward είναι: Correctly Classified Instances % Incorrectly Classified Instances % Και τα αποτελέσματα που προέκυψαν χρησιμοποιώντας τα χαρακτηριστικά που επιλέχτηκαν με τη μέθοδο αναζήτησης Bi-directional είναι: Correctly Classified Instances % Incorrectly Classified Instances % Από ότι βλέπουμε από αυτά τα αποτελέσματα, στις δύο τελευταίες περιπτώσεις έχουμε τα ίδια ποσοστά, τα οποία είναι και καλύτερα από αυτά των άλλων δύο. Για να επιλέξουμε μία από τις δύο σαν την πιο αποδοτική, συγκρίνουμε τα επιμέρους ποσοστά σωστών ταξινομήσεων (TP rates) για τις εταιρίες που χρεοκοπούν και για αυτές που δεν χρεοκοπούν, και βλέπουμε πως για την μία είναι 75.8% και 71.2%, και για την άλλη είναι 81.8% και 80.3%. Άρα λοιπόν θα επιλέξουμε την τελευταία περίπτωση όπου χρησιμοποιήσαμε χαρακτηριστικά επιλεγμένα από τη μέθοδο αναζήτησης Bi-directional.

148 Ταξινόμηση με τη χρήση K Κοντινότερων Γειτόνων Ένας επίσης απλός ταξινομητής είναι ο ταξινομητής των k κοντινότερων γειτόνων (Κ-nearest neighbors) ο οποίος υλοποιείται στα weka από τον IBk ταξινομητή (Σχήμα 5.24). Σχήμα 5.24 Επιλογή του ταξινομητή των k κοντινότερων γειτόνων Θα χρησιμοποιήσουμε αυτόν τον ταξινομητή για να πραγματοποιήσουμε ταξινόμηση στο αρχείο μας κάνοντας 3 προσπάθειες με διαφορετικό αριθμό κοντινότερων γειτόνων. Για να δώσουμε αυτόν τον αριθμό κάνουμε δεξί κλικ πάνω στη θέση πάνω στον ταξινομητή και στο παράθυρο που εμφανίζεται πάμε στο πεδίο ΚΝΝ και βάζουμε το νούμερο με το οποίο θέλουμε να δοκιμάσουμε (Σχήμα 5.25). Οι αριθμοί κοντινότερων γειτόνων με τους οποίους θα πειραματιστούμε είναι 1, 3 και 7. Δεν κάνουμε χρήση ζυγού αριθμού για αποφυγή "ισοπαλιών".

149 149 Σχήμα 5.25 Καθορισμός αριθμού κοντινότερων γειτόνων Επίσης, θα εφαρμόσουμε τον ταξινομητή IBk για αυτές τις 3 περιπτώσεις, χρησιμοποιώντας μόνο τα χαρακτηριστικά από τα 3 σύνολα χαρακτηριστικών που προέκυψαν στην επιλογή χαρακτηριστικών. Παρακάτω αναφέρουμε τα χαρακτηριστικά που επιλέχτηκαν από κάθε μέθοδο αναζήτησης για κάθε μία από αυτές τις περιπτώσεις και στον πίνακα 10 παρουσιάζονται τα αποτελέσματα που προέκυψαν από τις ταξινομήσεις. Για την περίπτωση με αριθμό κοντινότερων γειτόνων 1, τα χαρακτηριστικά που επιλέχτηκαν από τις τρείς μεθόδους αναζήτησης είναι: Forward: R1, R8. Backward: R21, R22, R24. Bi-directional: R4, R5, R6, R7, R8, R9, R10, R11, R12, R13, R14, R15, R16, R17, R18, R19, R20, R21, R22, R23, R24. Επίσης για την περίπτωση με αριθμό κοντινότερων γειτόνων 3, τα χαρακτηριστικά που επιλέχτηκαν είναι: Forward: R6, R7, R13, R18, R21. Backward: R3, R5, R6, R7, R9, R10, R11, R12, R16, R17, R20, R22.

Δείτε περισσότερα