ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ Διπλωματική Εργασία της Στεργιοπούλου Φωτεινής (ΑΕΜ: 129) Επιβλέποντες Καθηγητές: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ ΚΟΥΣΕΝΙΔΗΣ ΔΗΜΗΤΡΙΟΣ ΘΕΣΣΑΛΟΝΙΚΗ 2007

2

3 Πρόλογος Η παρούσα μελέτη πραγματοποιήθηκε στα πλαίσια εκπόνησης της διπλωματικής εργασίας, με θέμα: «Δημιουργία Μοντέλου Έγκρισης Πιστωτικής Κάρτας από Ιστορικά Δεδομένα» Η εργασία εκπονήθηκε κατά το Ακαδημαϊκό έτος στα πλαίσια του Διατμηματικού Μεταπτυχιακού Προγράμματος Σπουδών «Πληροφορική και Διοίκηση». Στη συγκεκριμένη εργασία επιχειρείται η κατασκευή συστημάτων στήριξης απόφασης τα οποία, χρησιμοποιώντας μοντέλα που προκύπτουν από διάφορους αλγόριθμους εξόρυξης δεδομένων από την επεξεργασία αρχείου με ιστορικά δεδομένα, αξιολογούν την πιστοληπτική ικανότητα των υποψηφίων πελατών κατά την διαδικασία έγκρισης χορήγησης πιστωτικής κάρτας. Σε αυτό το σημείο θα ήθελα να εκφράσω τις θερμές ευχαριστίες μου στον επιβλέποντα Καθηγητή του Τμήματος Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης κ. Ιωάννη Βλαχάβα για την εμπιστοσύνη που μου επέδειξε στην ανάθεση του θέματος, την πολύτιμη καθοδήγησή του κατά τη διάρκεια εκπόνησης της εργασίας, καθώς και για την ευκαιρία που μου έδωσε να ασχοληθώ με το συγκεκριμένο γνωστικό αντικείμενο. Θα ήθελα, επίσης, να ευχαριστήσω τον κ. Δημήτριο Κουσενίδη, Επίκουρο Καθηγητή του Τμήματος Οικονομικών Επιστημών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, για τη συμβολή του κατά τη διάρκεια των μεταπτυχιακών μου σπουδών. Ιδιαίτερα θα ήθελα να ευχαριστήσω τον διδάκτορα του τμήματος Πληροφορικής κ. Φώτη Κόκκορα για την απαράμμιλη και εποικοδομητική συνεργασία μας, την προσφορά των απαιτούμενων στοιχείων καθώς και τις πολύτιμές υποδείξεις του, παράγοντες οι οποίοι συντέλεσαν αποφασιστικά στην άρτια διεκπεραίωση της εργασίας. Στεργιοπούλου Φωτεινή Μάρτιος 2007

4 -ii-

5 Περιεχόμενα ΠΡΟΛΟΓΟΣ... I ΠΕΡΙΕΧΟΜΕΝΑ...III 1 ΕΙΣΑΓΩΓΗ ΟΡΙΟΘΕΤΗΣΗ ΤΗΣ ΠΕΡΙΟΧΗΣ ΜΕΛΕΤΗΣ ΕΠΙΣΚΟΠΗΣΗ ΠΕΡΙΕΧΟΜΕΝΩΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Η ΠΟΡΕΙΑ ΠΡΟΣ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΤΙ ΕΙΝΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Η ΔΙΑΔΙΚΑΣΙΑ ΤΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ (KDD) Η ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΤΑΞΙΝΟΜΗΣΗ ΤΩΝ ΜΕΘΟΔΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΕΠΙΣΚΟΠΗΣΗ ΤΩΝ ΒΑΣΙΚΟΤΕΡΩΝ ΤΕΧΝΙΚΩΝ ΕΔ Κατηγοριοποίηση Παρεμβολή Ομαδοποίηση Κανόνες Συσχέτισης ΣΚΟΠΟΣ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑΣ ΔΕΔΟΜΕΝΩΝ Καθαρισμός Δεδομένων Μετασχηματισμός Δεδομένων ΟΡΙΟΘΕΤΗΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΠΙΣΤΩΤΙΚΕΣ ΚΑΡΤΕΣ Οι Βασικές Κατηγορίες Πιστωτικών Καρτών Η Χαρτογράφηση της Αγοράς Πιστωτικών Καρτών ΠΙΣΤΩΤΙΚΕΣ ΚΑΡΤΕΣ ΚΑΙ ΠΙΣΤΩΤΙΚΟΣ ΚΙΝΔΥΝΟΣ Επισκόπηση Τεχνικών Αξιολόγησης Πελατών ΤΟ ΠΡΟΒΛΗΜΑ ΜΕΛΕΤΗΣ...53

6 4 ΤΟ ΠΡΟΓΡΑΜΜΑ WEKA ΠΛΑΤΦΟΡΜΑ ΕΦΑΡΜΟΓΗΣ WEKA Τα αρχεία στο WEKA Το περιβάλλον Explorer ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΤΑ ΔΕΔΟΜΕΝΑ ΤΟ ΣΥΝΟΛΟ ΔΕΔΟΜΕΝΩΝ Τα Χαρακτηριστικά του Προβλήματος ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΑΛΓΟΡΙΘΜΩΝ Πίνακας Σύγχυσης Ακρίβεια Ορθότητα Ανάκληση Μέτρο F ΕΠΙΛΟΓΉ ΑΛΓΟΡΊΘΜΩΝ Ο αλγόριθμος J O αλγόριθμος JRIP Ο αλγόριθμος ΡΑRT Ο αλγόριθμος ΙΒk Ο αλγόριθμος Naϊve Bayes Ο αλγόριθμος BayesNet Ο αλγόριθμος Multilayer Perceptron Ο αλγόριθμος SMO O αλγόριθμος Simple Logistic ΣΎΓΚΡΙΣΗ ΑΛΓΟΡΊΘΜΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΑΝΑΦΟΡΕΣ iv-

7 1 Εισαγωγή Ζούμε στην εποχή της πληροφορικής επανάστασης, η οποία στηρίζεται στην αποτελεσματική συλλογή, διαχείριση και επεξεργασία πληροφοριών και αποτελεί κρίσιμο παράγοντα για την επιτυχία της επιστημονικής έρευνας, των επιχειρηματικών δράσεων και γενικότερα της κοινωνικής εξέλιξης. Η διαρκής συσσώρευση δεδομένων μέσω καταγραφής συναλλαγών, παρακολούθησης φαινομένων και συλλογής μετρήσεων είναι πλέον ευρύτατα διαδεδομένη. Η ικανότητα συλλογής και αποθήκευσης δεδομένων έχει προ πολλού ξεπεράσει την ικανότητα διαχείρισης και αξιοποίησής τους, με αποτέλεσμα συχνά να εγκαταλείπεται η πιθανότητα αξιοποίησης τους, είτε στα πλαίσια της επιστημονικής έρευνας, είτε στα πλαίσια των επιχειρηματικών δραστηριοτήτων. Προκύπτει, δηλαδή, ότι δεν υπάρχει αντίστοιχη βελτίωση της ικανότητας των ανθρώπων για κατανόηση και αξιοποίηση των αποθηκευμένων πληροφοριών. Οι τεχνικές εξόρυξης δεδομένων (data mining), αξιοποιούν μεθόδους και εργαλεία τα οποία παρέχονται από τις τεχνικές µηχανικής µάθησης (machine learning) και τα οποία αυτοµατοποιούν σύνθετες και χρονοβόρες διαδικασίες επαγωγής γνώσης από δεδοµένα, έτσι ώστε να καθίσταται εφικτή η ανάλυση µεγάλου όγκου δεδοµένων και να συνάγονται χρήσιμα συµπεράσµατα. Στόχος της παρούσας διπλωματικής εργασίας είναι η αντιμετώπιση ενός πραγματικού προβλήματος, συγκεκριµένα της έγκαιρης, επιτυχούς και αξιόπιστης αξιολόγησης των πελατών ενός χρηματοπιστωτικού ιδρύματος κατά τη διαδικασία έγκρισης πιστωτικής κάρτας, εφαρμόζοντας τεχνικές εξόρυξης δεδομένων. Κύριο κριτήριο για την αξιολόγηση των αποτελεσµάτων της λύσης που δίδεται στο πρόβληµα είναι η δυνατότητα επιχειρησιακής αξιοποίησης της γνώσης που προκύπτει. 1.1 Οριοθέτηση της Περιοχής Μελέτης Η αγορά πιστωτικών καρτών, τα τελευταία χρόνια, παρουσιάζει μεγάλη ανάπτυξη στη χώρα μας. Ωστόσο, είναι γεγονός, ότι η πιστωτική κάρτα είναι ένα προϊόν υψηλού κινδύνου, γι αυτό άλλωστε και τα επιτόκια των πιστωτικών καρτών διατηρούνται σε υψη- -1-

8 λά επίπεδα. Αναμενόμενο είναι λοιπόν, από τη στιγμή που οι χρηματοδοτικοί οργανισμοί αποβλέπουν στη μεγιστοποίηση των κερδών τους, να επιδιώκουν τον περιορισμό των επισφαλειών που προέρχονται από τους αφερέγγυους πελάτες. Το σύνολο των πιστωτικών κινδύνων, που περιλαμβάνει τις καθυστερήσεις και τις επισφάλειες εκτιμάται ότι στη χώρα μας φθάνει το 15% περίπου του χαρτοφυλακίου των δανείων των τραπεζών, όταν ο αντίστοιχος ευρωπαϊκός μέσος όρος κινείται στο 10,5%, μέγεθος που περιλαμβάνει και τις απάτες που πραγματοποιούνται μέσω των πιστωτικών καρτών. Στο επίκεντρο του προβληματισμού των τραπεζών έχει τεθεί ο έλεγχος του υψηλού πιστωτικού κινδύνου που συνεπάγεται η διάδοση των πιστωτικών καρτών. Οι υψηλές επισφάλειες που συνεπάγεται η ανάπτυξη της αγοράς της πιστωτικής κάρτας, ανέδειξε και την αδυναμία που υπάρχει στη χώρα μας στο θέμα της αξιολόγησης της πιστωτικής ποιότητας των υποψηφίων πελατών. Η παρούσα διπλωματική εργασία πραγματεύεται την επεξεργασία δεδομένων που αφορούν χαρακτηριστικά πελατών που τους χορηγήθηκε πιστωτική κάρτα, εφαρμόζοντας μεθόδους εξόρυξης γνώσης και τη δημιουργία μοντέλων που να μπορούν να προβλέπουν την πιστοληπτική ικανότητα των υποψηφίων πελατών. Για την επεξεργασία τους και την εξαγωγή πολύτιμης γνώσης από αυτά χρησιμοποιήθηκε το λογισμικό Weka, το οποίο περιέχει υλοποιημένους τους σημαντικότερους αλγορίθμους εξόρυξης γνώσης. 1.2 Επισκόπηση Περιεχομένων Η εργασία, εκτός της Εισαγωγής που αποτελεί και το 1 ο Κεφάλαιο, περιλαμβάνει ακόμα πέντε κεφάλαια και ολοκληρώνεται με το Παράρτημα. Το 2 ο Κεφάλαιο αναφέρεται στον επιστημονικό τομέα της εξόρυξης γνώσης. Παρουσιάζονται συγγενή με αυτή αντικείμενα και περιγράφονται οι κυριότερες τεχνικές ανακάλυψης γνώσης από βάσεις δεδομένων και οι σημαντικότεροι αλγόριθμοι εξόρυξης γνώσης. Πιο συγκεκριμένα, αναλύονται τεχνικές όπως δέντρα απόφασης, Bayesian κατηγοριοποίηση, μάθηση εννοιών, μάθηση κατά περίπτωση, νευρωνικά δίκτυα, μηχανές διανυσμάτων υποστήριξης, κανόνες συσχέτισης, ομαδοποίηση, κτλ. Στο 3 ο Κεφάλαιο δίνονται αρχικά κάποιες γενικές πληροφορίες για την αγορά των πιστωτικών καρτών και στη συνέχεια ακολουθεί η αναλυτική περιγραφή του προβλήματος της εργασίας. -2-

9 Στο 4 ο Κεφάλαιο παρουσιάζεται το λογισμικό Weka που χρησιμοποιήθηκε για την επίλυση του προβλήματος της εργασίας. Περιγράφεται το γραφικό του κομμάτι (GUI) και η παρουσίαση εστιάζεται στο περιβάλλον Explorer του συστήματος, καθώς αυτό χρησιμοποιήθηκε κυρίως κατά την επίλυση του προβλήματος. Στο 5 ο Κεφάλαιο παρουσιάζεται το σύνολο δεδομένων και οι αλγόριθμοι εξόρυξης γνώσης που χρησιμοποιήθηκαν. Συγκεκριμένα, γίνεται μια εκτενή αναφορά στο μέγεθος και στα χαρακτηριστικά των δεδομένων που χρησιμοποιήθηκαν. Έπειτα, παρουσιάζονται οι αλγόριθμοι που χρησιμοποιήθηκαν στο πρόγραμμα Weka και καταγράφονται τα μοντέλα που προέκυψαν σε κάθε περίπτωση, καθώς και η ακρίβειά τους. Το 6 ο Κεφάλαιο περιλαμβάνει τα συμπεράσματα που προέκυψαν μετά την ολοκλήρωση της εργασίας. Καταγράφονται, επίσης, κάποια θέματα που θα μπορούσαν μελλοντικά να αντιμετωπιστούν. Ακολουθούν οι αναφορές στις πηγές που χρησιμοποιήθηκαν για τη συγγραφή της διπλωματικής εργασίας. -3-

10

11 2 Εξόρυξη Δεδομένων Η πρωτοφανής έκρηξη δεδομένων που πυροδοτήθηκε από την ανάπτυξη εργαλείων αυτόματης συλλογής τους και την μείωση του κόστους της μνήμης, έκανε επιτακτική την ανάγκη για επεξεργασία και ερμηνεία του μεγάλου αυτού όγκου δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές, όπως είναι η τεχνητή νοημοσύνη, η στατιστική, οι αποθήκες δεδομένων, η διαδραστική ανάλυση και επεξεργασία δεδομένων, τα έμπειρα συστήματα και η οπτικοποίηση δεδομένων, με αποτέλεσμα να δημιουργηθεί ένας νέος ερευνητικός τομέας, γνωστός ως Εξόρυξη Δεδομένων και Γνώσης (Data and Knowledge Mining). 2.1 Η πορεία προς την Εξόρυξη Δεδομένων Ο βασικότερος λόγος για τον οποίο η εξόρυξη δεδομένων έχει εξελιχθεί σε τεχνολογία αιχμής είναι η διαθεσιμότητα και η πρόσβαση σε τεράστιες ποσότητες δεδομένων, σε συνδυασμό με την επιτακτική ανάγκη τα δεδομένα αυτά να μετατραπούν σε γνώση. Η εξόρυξη δεδομένων μπορεί να θεωρηθεί ως η φυσική εξέλιξη της Τεχνολογίας της Πληροφορίας (Information Technology). Παρακολουθώντας την πορεία της στο χρόνο (Εικόνα 2.1), τη δεκαετία του 60 γίνεται το πρώτο επαναστατικό βήμα με τη συλλογή δεδομένων (data collection), ενώ τη δεκαετία του 70 αναπτύσσεται το πρώτο Σχεσιακό Σχήμα Βάσεων Δεδομένων (RDBMS). Κατά τη δεκαετία του 80 αναπτύσσεται η τεχνολογία της προσπέλασης δεδομένων, με την εφαρμογή του σχεσιακού μοντέλου και την ανάπτυξη σχετικών γλωσσών προγραμματισμού [6]. Σε μικρό χρονικό διάστημα (δεκαετία 90) ακολουθεί και το επόμενο ρηξικέλευθο βήμα στο χώρο της διαχείρισης δεδομένων, η ανάπτυξη των Αποθηκών Δεδομένων (Data Warehouses) και των Συστημάτων Στήριξης Αποφάσεων (Decision Support Systems DSS) [12]. Ωστόσο, παρά τα εντυπωσιακά αποτελέσματα των συστημάτων στήριξης αποφάσεων, κρίνεται αναγκαία η ανάπτυξη μιας νέας γενιάς εργαλείων και τεχνικών για ευφυή ανάλυση βάσεων δεδομένων, έτσι ώστε να επιτευχθεί η επίλυση του πλέον κύριου προβλήματος στις μεγάλες βάσεις δεδομένων, του data-rich but information-poor. Αυτή η αδυναμία της ανθρώπινης αντίληψης να εξάγει συμπεράσματα από τα δεδομένα -5-

12 ενός συστήματος, τα οποία αυξάνονται με ιλιγγιώδεις ρυθμούς, σε συνδυασμό με την ανάγκη ερμηνείας όλων αυτών των δεδομένων, οδήγησε σε αυτό που σήμερα ονομάζουμε Εξόρυξη Δεδομένων (Data Mining). Data Μining (00 s) Data Access (80 s) Data Warehousing & DSS (90 s) Επεξεργασία ανακεφαλαιωτικών & δυναμικών δεδομένων σε πολλαπλά επίπεδα Data Management (70 s) Επεξεργασία ανακεφαλαιωτικών & δυναμικών δεδομένων σε επίπεδο εγγράφων Data Collection (60 s) Δημιουργία DBMS & RDBMS Επεξεργασία στατικών & ανακεφαλαιωτικών δεδομένων Εικόνα 2.1: Η εξέλιξη των τεχνολογιών προς την εξόρυξη δεδομένων 2.2 Τι είναι Εξόρυξη Δεδομένων Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, των μηχανών γνώσης, της στατιστικής, καθώς επίσης και ως μια σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Λογικό είναι, λοιπόν, μέθοδοι παρόμοιες ή παραπλήσιες με την εξόρυξη δεδομένων να ταυτίζονται, λανθασμένα, με αυτήν. Ορισμένες από τις μεθόδους αυτές είναι: Η ανάλυση προτύπων δεδομένων (data/ pattern analysis) Η αρχαιολογία δεδομένων (data archeology) Η συγκομιδή πληροφοριών (information harvesting) Η ευφυΐα συστημάτων επιχειρήσεων (business intelligence). -6-

13 Ο όρος εξόρυξη δεδομένων προέρχεται από τις ομοιότητες που υπάρχουν μεταξύ της αναζήτησης σημαντικής πληροφορίας σε μια μεγάλη βάση δεδομένων και της εξόρυξης σε ένα όρος για κάποιο πολύτιμο μετάλλευμα. Και οι δύο διαδικασίες απαιτούν είτε την εξέταση με προσοχή μια τεράστιας ποσότητας υλικού είτε την ευφυή έρευνά της, προκειμένου να βρεθεί αξία. Η εξόρυξη δεδομένων είναι στενά συνδεδεμένη με την ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases KDD) και πολλές φορές οι ορισμοί των δύο αυτών διαδικασιών ταυτίζονται. Ωστόσο, η KDD αναφέρεται σε ολόκληρη τη διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων. Ένας γενικός ορισμός, που παρουσιάζει με περισσότερη σαφήνεια την έννοια της KDD δόθηκε από τους Fayyad, Piatetsky-Shapiro, & Smyth [13], σύμφωνα με τον οποίο: Η ανακάλυψη γνώσης σε βάσεις δεδομένων είναι η ντετερμινιστική διαδικασία της αναγνώρισης προτύπων σχέσεων μέσα στα δεδομένα μιας βάσης, για τα οποία πρότυπα ισχύει ότι είναι καινούρια, έγκυρα, πιθανώς χρήσιμα και απόλυτα κατανοητά. Με τον όρο πρότυπο εννοούμε ένα μοντέλο το οποίο εφαρμόζεται στα δεδομένα, έτσι ώστε να τους προσδίδει ορισμένα κοινά χαρακτηριστικά. Το εξαγόμενο πρότυπο πρέπει να είναι έγκυρο, δηλαδή συνεπές σε νέα δεδομένα με κάποιον βαθμό βεβαιότητας και κατανοητό, ώστε να μπορεί να οδηγήσει ακόμη και τους μη ειδικούς σε χρήσιμα συμπεράσματα για τη λήψη αποφάσεων. Ο όρος διαδικασία συνεπάγεται ότι η ΚDD αποτελείται από πολλά βήματα, όπως η προ-επεξεργασία των δεδομένων, η έρευνα για πρότυπα και η αξιολόγηση ερμηνεία των αποτελεσμάτων. Η εξόρυξη δεδομένων είναι ένα από τα βήματα της KDD διαδικασίας, η οποία ενδιαφέρεται κυρίως για τις μεθοδολογίες και τις τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από τις μεγάλες αποθήκες δεδομένων. Για να διαφοροποιηθούμε μεταξύ της διαδικασίας και των εργαλείων θα χρησιμοποιήσουμε τον όρο, KDD, για να περιγράψουμε ολόκληρη τη διαδικασία ανάλυσης ε- νός συνόλου δεδομένων, και τον όρο, εξόρυξη δεδομένων, για να αναφερθούμε κυρίως στις μεθόδους και τις τεχνικές που χρησιμοποιούνται στη διαδικασία ανάλυσης. -7-

14 2.3 Η Διαδικασία της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων (KDD) Η ανακάλυψη γνώσης από βάσεις δεδομένων (KDD) είναι μια διαδραστική και επαναληπτική διαδικασία, η οποία περιλαμβάνει τα ακόλουθα βήματα: 1. Την ανάπτυξη και κατανόηση του χώρου της εφαρμογής και την αναγνώριση των στόχων της KDD διαδικασία από την σκοπιά του τελικού χρήστη. 2. Την ολοκλήρωση των δεδομένων. Υπάρχουν διαφορετικά είδη αποθηκών πληροφοριών που μπορούν να χρησιμοποιηθούν στη διαδικασία εξόρυξης γνώσης. Κατά συνέπεια, απαιτείται η εξαγωγή των δεδομένων από αυτές και η οργάνωσή τους σε απλούστερες δομές. 3. Τη δημιουργία του στόχου συνόλου δεδομένων (target data set). Επιλογή του συνόλου δεδομένων στο οποίο θα γίνει η εφαρμογή της εξόρυξης. 4. Τον καθαρισμό και την προ-επεξεργασία των δεδομένων. Σ αυτό το βήμα αντιμετωπίζονται περιπτώσεις, όπως η αφαίρεση του θορύβου ή των outliers, η λήψη αποφάσεων για το χειρισμό πεδίων τα οποία δεν έχουν τιμές κ.λπ. 5. Τον μετασχηματισμό των δεδομένων. Τα δεδομένα μετασχηματίζονται για να διευκολυνθεί η διαδικασία της ανακάλυψης γνώσης. Χρήση των μεθόδων της μείωσης των διαστάσεων των δεδομένων (data reduction), της ομοιόμορφης κωδικοποίησης της ποιοτικά ίδιας πληροφορίας, της εύρεσης κατάλληλης αντιπροσώπευσης των δεδομένων χωρίς μεταβλητές, της μετατροπής συνεχόμενων αριθμητικών τιμών σε διακριτές τιμές (διακριτοποίηση) κλπ. 6. Την επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων. Σ αυτό το στάδιο αποφασίζουμε το στόχο της διαδικασίας ανακάλυψης γνώσης, δηλαδή καθορίζεται τι είδους γνώση θα αναζητηθεί, κάτι που έμμεσα προσδιορίζει και την κατηγορία αλγορίθμων που θα χρησιμοποιηθούν. Τα παράγωγα της διαδικασίας ανακάλυψης γνώσης μπορεί να είναι: Πρότυπα πληροφόρησης (μάθηση χωρίς επίβλεψη), όπου στόχος είναι η ανακάλυψη πιθανών συσχετίσεων ή ομάδων στα δεδομένα. Μοντέλα πρόβλεψης (μάθηση με επίβλεψη), όπου στόχος είναι η μάθηση μιας συνάρτησης που συνδέει ένα σύνολο δεδομένων εισόδου εξόδου. 7. Την εφαρμογή της εξόρυξης δεδομένων. Είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική αναζήτηση της γνώσης στα δεδομένα. -8-

15 8. Την αξιολόγηση των προτύπων. Τα ευρεθέντα πρότυπα αξιολογούνται προκειμένου να προσδιοριστούν τα αληθινά ενδιαφέροντα πρότυπα, δηλαδή αυτά που αντιπροσωπεύουν τη γνώση. Πιθανή επιστροφή σε ένα από τα βήματα 1-7 για περαιτέρω επανάληψη. 9. Την σταθεροποίηση και παρουσίαση της γνώσης. Αυτό μπορεί να σημαίνει είτε επικύρωση/ αναβάθμιση παλιότερα εξαγόμενων συμπερασμάτων, είτε παρουσίαση των συμπερασμάτων αυτών στους άμεσα ενδιαφερόμενους. Η KDD διαδικασία αναπαρίσταται στην Εικόνα 2.2 Εικόνα 2.2: Τα βήματα της διαδικασίας KDD 2.4 Η διαδικασία Εξόρυξης Δεδομένων Η εξόρυξη δεδομένων έχει ως στόχο την εύρεση προτύπων και σχέσεων μεταξύ των δεδομένων. Υπάρχει μια μεγάλη ποικιλία αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς, όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση και οι βάσεις δεδομένων. Δύο συνιστώσες μπορούν να οδηγήσουν σε επιτυχημένα αποτελέσματα εξόρυξης δεδομένων. Από τη μία ο σωστός προσδιορισμός του προβλήματος που θέλουμε να α- ντιμετωπίσουμε και από την άλλη η χρησιμοποίηση των κατάλληλων δεδομένων. Είναι πολύ σημαντικό πριν τη δημιουργία του μοντέλου, να εξεταστούν προσεκτικά τα δεδομένα ώστε να γίνουν κατανοητά [3]. -9-

16 Ο στόχος της εξόρυξης δεδομένων είναι η παραγωγή νέας γνώσης. Πριν ξεκινήσει, λοιπόν, η διαδικασία της εξόρυξης πρέπει να ληφθούν αποφάσεις σχετικά με τα παρακάτω θέματα: Σκοπός για τον οποίο γίνεται η εξόρυξη. Ποιος αλγόριθμος θα επιλεχθεί. Πλατφόρμα εφαρμογής, το εργαλείο δηλαδή που θα χρησιμοποιηθεί για την ε- ξόρυξη των δεδομένων. 2.5 Ταξινόμηση των Μεθόδων Εξόρυξης Δεδομένων Από την παραπάνω ανάλυση μπορεί να γίνει αντιληπτό ότι η εξόρυξη δεδομένων είναι μια διαδικασία πολύπλευρη και σύνθετη, μέρος μιας άλλης επαναληπτικής διαδικασίας, με σκοπό την εξαγωγή γνώσης και συμπερασμάτων. Επιπλέον, είναι ένας διεπιστημονικός τομέας που συνδυάζει τομείς όπως βάσεις δεδομένων, μηχανική μάθηση, στατιστική και ανάκτηση πληροφοριών. Εμπεριέχει, λοιπόν, τεχνολογίες αιχμής χωρίς να τις υποβαθμίζει, αλλά αντιθέτως τις συνδυάζει με διάφορους τρόπους (Εικόνα 2.3) Ανάλογα με τον τρόπο με τον οποίο οι διάφορες τεχνολογίες συμμετέχουν στην ε- ξόρυξη δεδομένων, υλοποιούνται και διαφορετικά συστήματα εξόρυξης δεδομένων. Η κατηγοριοποίηση των συστημάτων εξόρυξης δεδομένων μπορεί να γίνει με βάση τα ακόλουθα κριτήρια [3]: ΣΤΑΤΙΣΤΙΚΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΤΕΧΝΟΛΟΓΙΑ ΠΛΗΡΟΦΟΡΙΑΣ ΟΠΤΙΚΟΠΟΙΗΣΗ ΑΛΛΕΣ ΤΕΧΝΟΛΟΓΙΕΣ Εικόνα 2.3: Οι συγγενείς τεχνολογίες με την Εξόρυξη Δεδομένων Σύμφωνα με το είδος της βάσης δεδομένων που χρησιμοποιείται: Όπως αναφέρθηκε προηγουμένως, είναι δυνατή η εξόρυξη δεδομένων από διάφορους τύπους -10-

17 αποθήκευσης πληροφορίας (π.χ. τα σχεσιακά δεδομένα, τα αντικειμενοστραφή συστήματα βάσεων δεδομένων, οι χωροχρονικές βάσεις δεδομένων, τα συστήματα βάσεων δεδομένων πολυμέσων κ.λπ.). Για παράδειγμα, ένα σύστημα που χρησιμοποιείται για την εξαγωγή γνώσης από αντικειμενοστραφείς βάσεις δεδομένων καλείται αντικειμενοστραφές σύστημα εξόρυξης δεδομένων. Επιπλέον, όλοι οι αλγόριθμοι εξόρυξης δεδομένων δεν είναι εφαρμόσιμοι σε όλους τους τύπους δεδομένων. Σύμφωνα με τον τύπο της γνώσης που εξάγεται: Από ένα σύστημα εξόρυξης δεδομένων μπορούν να προκύψουν είτε πρότυπα πληροφόρησης (informative patterns), όπου περιγράφουν συσχετίσεις μεταξύ των δεδομένων και προκύπτουν με μάθηση χωρίς επίβλεψη, είτε μοντέλα πρόβλεψης (predictive models), όπου προβλέπουν την τιμή μιας μεταβλητής και προκύπτουν με μάθηση με επίβλεψη. Στα πρότυπα πληροφόρησης περιλαμβάνονται οι κανόνες συσχέτισης (association rules), τα ακολουθιακά πρότυπα (sequential patterns) και οι ομάδες (clusters), ενώ στα μοντέλα πρόβλεψης ανήκουν οι κανόνες κατηγοριοποίησης (classification rules), τα δέντρα απόφασης (decision trees), η μάθηση κανόνων (concept learning), η μάθηση με βάση τα παραδείγματα, η μάθηση με βάση την θεωρία του Bayes κλπ. Παράλληλα, ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί ανάλογα με το επίπεδο γενίκευσης της εξορυγμένης γνώσης (γενική, πρώτου επιπέδου ή πολυεπίπεδη γνώση). Σύμφωνα με την τεχνική που θα χρησιμοποιηθεί: Οι τεχνικές μπορούν να περιγραφούν είτε από το βαθμό παρέμβασης του χρήστη (αυτόνομα συστήματα, συστήματα οδηγούμενα από ερωτήματα, διαλογικά συστήματα κ.λπ.) είτε από την μέθοδο ανάλυσης των δεδομένων (συστήματα γενικής εξόρυξης, εξόρυξης βασισμένης στα πρότυπα, OLAP, εξόρυξης βασισμένης στη στατιστική ή στα μαθηματικά, νευρωνικά δίκτυα, κ.λπ.). Σύμφωνα με το πεδίο εφαρμογής της εξόρυξης δεδομένων: Είναι δυνατή η ανάπτυξη συστημάτων εξόρυξης δεδομένων μόνο για συγκεκριμένου τύπου εφαρμογές, όπως για παράδειγμα οικονομικές, χρηματιστηριακές, γενετικές κ.λπ. 2.6 Επισκόπηση των Βασικότερων Τεχνικών ΕΔ Ο σκοπός της KDD διαδικασίας καθορίζεται κατά περίπτωση από τον χρήστη. Γενικά, διακρίνονται δύο είδη σκοπών: α) Επαλήθευση, όπου το σύστημα καλείται να επιβεβαι- -11-

18 ώσει την υπόθεση που έχει κάνει ο χρήστης (DSS) και β) Ανακάλυψη, όπου το σύστημα βρίσκει αυτόνομα νέα πρότυπα (Data Mining). Η Ανακάλυψη μπορεί να χωριστεί σε Πρόβλεψη και σε Περιγραφή. Η Πρόβλεψη στοχεύει στον υπολογισμό της μελλοντικής αξίας ή στην εύρεση μοντέλων με σκοπό την πρόβλεψη της μελλοντικής συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και εξαρτώνται από τη συμπεριφορά άλλων μεταβλητών. Η Περιγραφή στοχεύει στην ανακάλυψη προτύπων με σκοπό την παρουσίαση των δεδομένων μιας πολύπλοκης βάσης δεδομένων σε κάποιο χρήστη σε κατανοητή μορφή. Ένας μεγάλος αριθμός εργαλείων εξόρυξης δεδομένων έχουν αναπτυχθεί για να ι- κανοποιήσουν τις απαιτήσεις διαφορετικών εφαρμογών. Στη συνέχεια παρουσιάζονται οι βασικότερες διεργασίες εξόρυξης δεδομένων Κατηγοριοποίηση H κατηγοριοποίηση (classification) αποτελεί μία από τις σημαντικότερες διεργασίες ε- ξόρυξης δεδομένων. Στόχος είναι η δημιουργία ενός μοντέλου το οποίο θα ταξινομεί ένα νέο αντικείμενο (μη κατηγοριοποιημένο), εξετάζοντας τα χαρακτηριστικά του, σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν αναπαρίστανται από τις εγγραφές της βάσης δεδομένων και η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες. Ο ακριβής ορισμός της κατηγοριοποίησης είναι η διαδικασία εύρεσης κοινών χαρακτηριστικών σε ένα σύνολο οντοτήτων μιας βάσης δεδομένων και, στη συνέχεια, ο διαχωρισμός τους σε κλάσεις σύμφωνα με ένα μοντέλο ομαδοποίησης. Οι βασικές απαιτήσεις για την σωστή εφαρμογή των αλγορίθμων κατηγοριοποίησης είναι: i. Η ύπαρξη ή εξαγωγή ενός καλά ορισμένου συνόλου κλάσεων, και ii. Ένα σύνολο εκπαίδευσης από προ-ταξινομημένα δεδομένα τα οποία θα είναι αντιπροσωπευτικά της απαιτούμενης ταξινόμησης. Πιο συγκεκριμένα, η κατηγοριοποίηση μπορεί να περιγραφεί ως μια διαδικασία δύο βημάτων: 1 ο Βήμα: Mάθηση (Learning): Σε αυτό το βήμα, ένα αντιπροσωπευτικό δείγμα της βάσης δεδομένων, το οποίο καλείται σύνολο εκπαίδευσης (training data), αναλύεται από έναν αλγόριθμο κατηγοριοποίησης για να αναπτυχθεί ένα μοντέλο προκαθορισμένων -12-

19 κλάσεων (ομάδων) χρησιμοποιώντας τα γνωρίσματα τα οποία είναι διαθέσιμα στο σύνολο. Τα στοιχεία αυτού του υποσυνόλου επιλέγονται τυχαία από έναν πληθυσμό δεδομένων και ανήκουν σε μία από τις προκαθορισμένες κατηγορίες. Το μοντέλο που προκύπτει, γνωστό και ως κατηγοριοποιητής (classifier), αναπαρίσταται με τη μορφή κανόνων κατηγοριοποίησης (classification rules) ή δέντρων απόφασης (decision trees) ή μαθηματικών τύπων (mathematical formulas). 2 ο Βήμα: Κατηγοριοποίηση (Classification): Στο δεύτερο βήμα της διαδικασίας χρησιμοποιούνται τα δοκιμαστικά δεδομένα (test data) για να εκτιμηθεί η ακρίβεια του μοντέλου. Υπάρχουν διάφορες μέθοδοι για τον υπολογισμό της ακρίβειας του κατηγοριοποιητή (classifier). Η ακρίβεια του μοντέλου είναι το ποσοστό των δειγμάτων δοκιμής που κατηγοριοποιήθηκαν σωστά από το υπό εκπαίδευση μοντέλο. Εάν η ακρίβεια του μοντέλου θεωρείται αποδεκτή, το μοντέλο μπορεί να χρησιμοποιηθεί για την ταξινόμηση κάθε νέου συνόλου δεδομένων, δηλαδή δεδομένων των οποίων η κατηγοριοποίηση είναι άγνωστη. Οι πιο διαδεδομένες μέθοδοι κατηγοριοποίησης είναι: Η Bayesian κατηγοριοποίηση Τα δέντρα απόφασης Η μάθηση εννοιών Η μάθηση κατά περίπτωση Τα νευρωνικά δίκτυα Οι μηχανές διανυσμάτων υποστήριξης (Support Vector Machines) Bayesian κατηγοριοποίηση Η Bayesian κατηγοριοποίηση προβλέπει τις πιθανότητες μια νέα εγγραφή να ανήκει σε μια από τις προκαθορισμένες κατηγορίες. Όπως είναι προφανές, στηρίζεται στο στατιστικό θεώρημα ταξινόμησης του Bayes, το οποίο υπολογίζει την μεταγενέστερη πιθανότητα ενός γεγονότος δεσμευμένου σε κάποιο άλλο. Πρόκειται για μια προσέγγιση η οποία στηρίζεται στην υπόθεση ότι οι ποσότητες που μας ενδιαφέρουν διέπονται από κατανομές πιθανοτήτων και ότι η εξαγωγή συμπερασμάτων με αυτές τις πιθανότητες σε συνδυασμό με δεδομένα που παρατηρούνται μπορούν να οδηγήσουν στη λήψη βέλτιστων αποφάσεων. Οι απαιτήσεις για την ανάπτυξη και εφαρμογή μιας κατηγοριοποίησης είναι: 1. Η γνώση της πρότερης πιθανότητας (prior probability) p(c i ) για κάθε κλάση c i. -13-

20 2. Η γνώση της συνάρτησης πυκνότητας πιθανότητας υπό συνθήκη για p(x c i ) [0,1]. Με τον τρόπο αυτό είναι δυνατή η εξαγωγή της μεταγενέστερης πιθανότητας q(c i x), χρησιμοποιώντας τον τύπο του Bayes: q(c i x) = p(x c i ) p(c i ) p(x) όπου p(x) είναι η πρότερη πιθανότητα του δείγματος. Κατά τη διάρκεια της ταξινόμησης κατά Bayes, για κάθε νέα περίπτωση υπολογίζεται η πιθανότητα να ανήκει σε μία από τις κλάσεις c 1, c 2,,c n και κατατάσσεται στην κλάση με την υψηλότερη μεταγενέστερη πιθανότητα. Στην κατηγοριοποίηση, κάθε παράδειγμα μπορεί προοδευτικά να αυξήσει ή να μειώσει την πιθανότητα μια υπόθεση να είναι σωστή, γεγονός που παρέχει έναν πιο ευέλικτο τρόπο μάθησης σε σχέση με άλλους αλγορίθμους που διαγράφουν τελείως μια υπόθεση αν δεν είναι συμβατή έστω και με ένα μόνο παράδειγμα. Επιπλέον προϋπάρχουσα γνώση μπορεί να συνδυαστεί με τα δεδομένα εκπαίδευσης με τη μορφή αρχικών τιμών πιθανότητας για τις υπό εξέταση υποθέσεις. Τα μειονεκτήματα της μεθόδου αυτής είναι ότι είναι απαραίτητη η γνώση όλων των πιθανοτήτων των κλάσεων εκ των προτέρων και το ιδιαίτερα μεγάλο υπολογιστικό κόστος. Αν δεν υπάρχει αυτή η γνώση, τότε πρέπει να υπολογιστεί κατ εκτίμηση από παλαιότερα δεδομένα, εμπειρική γνώση, υποθέσεις για τη μορφή της κατανομής αυτών των πιθανοτήτων, κτλ. Μια σημαντική απλουστευμένη εκδοχή της μάθησης κατά Bayes είναι ο απλός ταξινομητής Bayes, γνωστός και ως Naϊve Bayesian κατηγοριοποιητής. Αυτός υποθέτει ότι το αποτέλεσμα της τιμής ενός χαρακτηριστικού για μια συγκεκριμένη κατηγορία είναι ανεξάρτητο από τις τιμές των άλλων χαρακτηριστικών. Αυτή η υπόθεση γίνεται για να απλοποιήσει τους υπολογισμούς που εμπλέκονται και καλείται υπό συνθήκη ανεξαρτησία (class conditional independence) κατηγορίας. Μελέτες έχουν δείξει ότι η απόδοση του Naϊve Bayes είναι συγκρίσιμη με αυτή των δέντρων απόφασης και των νευρωνικών δικτύων. Ένας άλλος Bayesian κατηγοριοποιητής είναι τα Bayesian Belief Νetworks. Είναι γραφικά μοντέλα όπου χρησιμοποιούμενα, αντίθετα με τους Naϊve Bayesian κατηγο- -14-

21 ριοποιητές, επιτρέπουν την παρουσίαση των εξαρτήσεων μεταξύ των υποσυνόλων των χαρακτηριστικών. Δέντρα απόφασης Τα δέντρα απόφασης είναι μία από τις πιο διαδεδομένες μεθόδους ταξινόμησης, γι αυτό και ονομάζονται και δέντρα ταξινόμησης (classification trees), και χρησιμοποιούνται συχνά για την επίλυση προβλημάτων πρόβλεψης. Είναι μία μέθοδος που χρησιμοποιείται για να προσεγγίσει συναρτήσεις στόχους που έχουν σαν έξοδο μόνο διακριτές τιμές. Ένα δέντρο απόφασης επάγεται από ένα σύνολο εκπαίδευσης, που αποτελείται από αντικείμενα. Κάθε αντικείμενο περιγράφεται πλήρως από ένα σύνολο χαρακτηριστικών και από μια ετικέτα κλάσης (class label). Ο στόχος ενός αλγορίθμου αναφορικά με την κατασκευή ενός μοντέλου από ένα σύνολο δεδομένων, είναι η όσο το δυνατόν μεγαλύτερη προσέγγιση της πραγματικής αντιστοίχισης ανάμεσα στο σύνολο των ιδιοτήτων και στην ετικέτα κλάσης. Υπάρχουν δύο βασικά βήματα στην επίλυση ενός προβλήματος ταξινόμησης χρησιμοποιώντας την τεχνική των δέντρων απόφασης [12]: 1. Κατασκευή του δέντρου: Τα δεδομένα εκπαίδευσης χωρίζονται αναδρομικά με βάση κάποιο χαρακτηριστικό τους μέχρις ότου όλα τα στιγμιότυπα μιας ομάδας να ανήκουν στην ίδια κλάση. 2. Για κάθε νέα περίπτωση, εφαρμόζεται το δέντρο απόφασης προκειμένου να οριστεί η κατηγορία στην οποία ανήκει. Τα βασικά χαρακτηριστικά ενός δέντρου απόφασης είναι: Ρίζα: Το γνώρισμα που επιλέγεται ως η βάση, πάνω στην οποία χτίζεται το δέντρο. Εσωτερικός κόμβος: Ένα γνώρισμα το οποίο βρίσκεται στο εσωτερικό του δέντρου. Κλάδος: Μια από τις πιθανές τιμές του γνωρίσματος που βρίσκεται στον κόμβο από τον οποίο ξεκινά ο κλάδος. Φύλλο: Μια από τις καθορισμένες κλάσεις. Επομένως, κάθε κόμβος στο δέντρο ορίζει μια συνθήκη που ελέγχει την τιμή κάποιου χαρακτηριστικού των δεδομένων εκπαίδευσης και κάθε κλαδί που ξεκινά από τον κόμβο αυτό αντιστοιχεί σε μια διαφορετική διακριτή τιμή του συγκεκριμένου χαρακτηριστικού. Η διαδικασία για την κατηγοριοποίηση (πρόβλεψη) μια νέας περίπτωσης με βάση ένα δέντρο απόφασης είναι η ακόλουθη: Ξεκινώντας από τη ρίζα του δέντρου και εξε- -15-

22 τάζοντας τις ιδιότητες που καθορίζονται από τον κόμβο αυτό προσδιορίζονται διαδοχικά οι εσωτερικοί κόμβοι που θα επισκεφτούμε έως ότου καταλήξουμε σε ένα φύλλο. Σε κάθε κόμβο ελέγχεται η τιμή της νέας περίπτωσης για το χαρακτηριστικό του κόμβου. Ο έλεγχος αυτός θα καθορίσει και το κλαδί που θα διασχίσουμε στη συνέχεια καθώς και τον επόμενο κόμβο που θα επισκεφτούμε. Ένα παράδειγμα ταξινομείται λανθασμένα από ένα δέντρο (misclassified), αν η τιμή του φύλλου όπου καταλήγει είναι διαφορετική με την κατηγορία που πραγματικά ανήκει το συγκεκριμένο παράδειγμα. Το ποσοστό των παραδειγμάτων που ταξινομούνται σωστά καλείται ακρίβεια (accuracy), ενώ το ποσοστό των παραδειγμάτων που ταξινομούνται λανθασμένα ονομάζεται σφάλμα (error). Η αναπαράσταση που χρησιμοποιείται από τα δέντρα απόφασης είναι η διάζευξη, η οποία αποτελείται από συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών. Συγκεκριμένα, κάθε μονοπάτι από τη ρίζα προς κάποιο φύλλο αντιστοιχεί σε συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών, ενώ το δέντρο συνολικά εκφράζει τη διάζευξη αυτών των συζεύξεων, αφού αποτελείται από όλα τα εναλλακτικά μονοπάτια [1]. Συγκριτικά με τις υπόλοιπες τεχνικές εξόρυξης δεδομένων, τα δέντρα απόφασης παρουσιάζουν αρκετά πλεονεκτήματα. Πιο συγκεκριμένα, τα δέντρα απόφασης [32]: Είναι εύκολα στην κατανόηση και στην ερμηνεία. Μπορούν να χρησιμοποιηθούν εύκολα και αποτελεσματικά. Η αναγνωσιμότητα τους μπορεί να βελτιωθεί αν αναπαρασταθούν ως σύνολα κανόνων if-then που αποκαλούνται κανόνες κατηγοριοποίησης (classification rules). Μπορούν να χρησιμοποιηθούν με επιτυχία σε μεγάλες βάσεις δεδομένων και αυτό επειδή το μέγεθος της βάσης δεδομένων είναι ανεξάρτητο από το μέγεθος του δέντρου. Το μοντέλο που προκύπτει με βάση το δέντρο απόφασης μπορεί εύκολα να αξιολογηθεί με τη βοήθεια στατιστικών ελέγχων. Συνεπώς, μπορούμε εύκολα να εκτιμήσουμε την ακρίβεια του μοντέλου. Παρουσιάζουν ευρωστία και αρκετά μεγάλη ακρίβεια κατηγοριοποίησης ακόμη και σε μεγάλες βάσεις δεδομένων. Από την άλλη πλευρά, οι αλγόριθμοι μάθησης δέντρων απόφασης παρουσιάζουν και μειονεκτήματα. Κατ αρχάς, ορισμένοι αλγόριθμοι δεν μπορούν να χειριστούν σε ικανοποιητικό βαθμό δεδομένα με συνεχείς τιμές και συνεπώς απαιτείται διακριτοποίη- -16-

23 ση, δηλαδή ο μετασχηματισμός τους σ ένα πεπερασμένο σύνολο διακριτών κατηγοριών. Ωστόσο, η εφαρμογή της παραπάνω πρακτικής εισάγει υποκειμενικότητα που ε- πηρεάζει την τελική μορφή του δέντρου, καθώς υπάρχουν αρκετοί τρόποι με τους οποίους μπορεί να οριστούν οι κατηγορίες. Επιπρόσθετα, ο χειρισμός πεδίων με κενές τιμές είναι δύσκολος, καθώς σωστά κλαδιά στο δέντρο μπορεί να μην ακολουθηθούν. Παράλληλα, υπάρχει ο κίνδυνος της υπερμοντελοποίησης (overfitting) ως απόρροια της κατασκευής του δέντρου με βάση τα δεδομένα εκπαίδευσης. O κίνδυνος αυτός, όμως, μπορεί να περιοριστεί σε μεγάλο βαθμό ή ακόμη και να υπερκεραστεί με κλάδεμα (pruning) του δέντρου. Η φάση του κλαδέματος αφαιρεί κάποιες περιττές συγκρίσεις ή διαγράφει κάποια υποδέντρα με στόχο την επίτευξη καλύτερης απόδοσης. Τέλος, δεν λαμβάνονται υπόψη ενδεχόμενες συσχετίσεις μεταξύ των χαρακτηριστικών. Οι βασικοί παράγοντες που επηρεάζουν την απόδοση των αλγορίθμων μάθησης δέντρων απόφασης είναι το μέγεθος του συνόλου εκπαίδευσης και ο τρόπος επιλογής του καλύτερου χαρακτηριστικού για διαχωρισμό (best splitting attribute). Αναφορικά με το μέγεθος του συνόλου εκπαίδευσης, αν αυτό είναι πολύ μικρό, τότε το εξαγόμενο δέντρο ίσως να μη μπορεί να εφαρμοστεί σε γενικά δεδομένα. Αντιθέτως, αν είναι πολύ μεγάλο, ελλοχεύει ο κίνδυνος της υπερμοντελοποίησης. Γι αυτό κρίνεται πρωταρχικής σημασίας ο καθορισμός τόσο του κριτηρίου βάσει του οποίου θα σταματά η ανάπτυξη του δέντρου, όσο και του τρόπου με τον οποίο θα πραγματώνεται η τεχνική του κλαδέματος. Επιπλέον, σημαντικά θέματα θεωρούνται η επιλογή των χαρακτηριστικών που θα χρησιμοποιηθούν για το διαχωρισμό, αφού κάποια χαρακτηριστικά είναι καλύτερα από κάποια άλλα, η σειρά με την οποία θα επιλεγούν αυτά τα χαρακτηριστικά, ο αριθμός των διασπάσεων (splits) που θα χρησιμοποιηθούν, καθώς και η δομή του δέντρου (τα μικρότερα σε βάθος δέντρα συνήθως προτιμώνται έναντι των μεγάλων δέντρων). Υπάρχουν διάφοροι τρόποι κατασκευής δέντρων απόφασης, οι οποίοι χρησιμοποιούν διαφορετικούς αλγόριθμους επιλογής του κριτηρίου διαχωρισμού του συνόλου των δεδομένων. Οι δημοφιλέστεροι από αυτούς είναι [3]: Ο ID3 και ο C4.5: Αλγόριθμοι κέρδους πληροφορίας. Ο DBLearn: Αλγόριθμος ο οποίος δημιουργεί περιγραφές προκαθορισμένων υποσυνόλων μιας σχεσιακής βάσης δεδομένων χρησιμοποιώντας γνώση του πεδίου ορισμού της εκάστοτε εφαρμογής. -17-

24 -18- CLS: Αλγόριθμος ο οποίος εξετάζει όλα τα πιθανά δέντρα αποφάσεων μέχρι ε- νός συγκεκριμένου βάθους. Τελικά, επιλέγει αυτό το οποίο ελαχιστοποιεί το υ- πολογιστικό κόστος της ταξινόμησης ενός στοιχείου. Οι SLIQ και SPRINT: Αλγόριθμοι που επιλέγουν το χαρακτηριστικό που θα ε- λεγχθεί με βάση το δείκτη GINI και όχι το μέτρο εντροπίας. Το καλύτερο χαρακτηριστικό είναι αυτό που δίνει τη χαμηλότερη τιμή για το δείκτη GINI. Ο Αλγόριθμος ID3 Ο ID3 αναπτύχθηκε από τον J. Ross Quinlan στο Πανεπιστήμιο του Sydney και παρουσιάστηκε για πρώτη φορά στο βιβλίο του Machine Learning το Υπήρξε ο κυριότερος εκπρόσωπος των δέντρων απόφασης που η κατασκευή τους ξεκινά από την κορυφή προς τα κάτω(top Down Induction of Decision Trees TDIDT) μέχρι την έ- λευση του C4.5. Ήταν ο πρώτος αλγόριθμος που χρησιμοποίησε για κριτήριο διαχωρισμού (split criterion) το Κέρδος Πληροφορίας (Information Gain). Ο αλγόριθμος εφαρμόζεται μόνο σε κατηγορικά δεδομένα και στη γενική του μορφή περιγράφεται ως εξής [1]: 1. Εύρεση του χαρακτηριστικού το οποίο αν χρησιμοποιηθεί ως κριτήριο διαχωρισμού των δεδομένων εκπαίδευσης θα οδηγήσει σε όσο το δυνατόν πιο διαφορετικούς μεταξύ τους κόμβους σε σχέση με την εξαρτημένη μεταβλητή. 2. Πραγματοποίηση του διαχωρισμού. 3. Επανάληψη της διαδικασίας διαχωρισμού στους κόμβους που προέκυψαν έως ότου να μην είναι δυνατός περαιτέρω διαχωρισμός. Ο ID3 είναι αναδρομικός και κατασκευάζει το δέντρο άπληστα από πάνω προς τα κάτω ξεκινώντας με την επιλογή του πιο κατάλληλου χαρακτηριστικού για έλεγχο στη ρίζα. Η επιλογή αυτή στηρίζεται σε κάποιο στατιστικό μέτρο που υπολογίζεται από τα δεδομένα. Στη συνέχεια, για κάθε δυνατή τιμή του χαρακτηριστικού δημιουργούνται οι αντίστοιχοι απόγονοι της ρίζας και τα δεδομένα μοιράζονται στους νέους κόμβους ανάλογα με την τιμή που έχουν για το χαρακτηριστικό που ελέγχεται στη ρίζα. Η παραπάνω διαδικασία επαναλαμβάνεται για κάθε νέο κόμβο. Η επιλογή, όμως, του πιο κατάλληλου χαρακτηριστικό σε νέο κόμβο βασίζεται μόνο στα δεδομένα που ανήκουν σε αυτόν τον κόμβο. Η όλη διαδικασία περατώνει όταν οι κόμβοι γίνουν τερματικοί (ή φύλλα). Ένας κόμβος γίνεται φύλλο όταν όλα τα δεδομένα που ανήκουν σε αυτόν εντάσσονται στην ίδια κατηγορία. Οπότε, η κατηγορία αυτή γίνεται και η τιμή του φύλλου και ο κόμβος ονομάζεται αμιγής κόμβος (pure node). Επιπλέον, αν σε κά-

25 ποιο βάθος του δέντρου τελειώσουν τα χαρακτηριστικά προς έλεγχο, τότε ο κόμβος γίνεται τερματικός και λαμβάνει για τιμή την κατηγορία στην οποία ανήκει η πλειοψηφία των δεδομένων του κόμβου αυτού. Για την επιλογή του καταλληλότερου χαρακτηριστικού ως κόμβου χρησιμοποιείται το στατιστικό μέτρο, το Κέρδος Πληροφορίας. Το κέρδος πληροφορίας μετρά τη μείωση της εντροπίας που θα προκληθεί αν τα δείγματα ενός συνόλου χωριστούν σε ομάδες, με βάση κάποιο χαρακτηριστικό τους. Βασίζεται, λοιπόν, στην ποσότητα της Εντροπίας (Entropy), η οποία αναφέρεται στην ανομοιογένεια μιας συλλογής αντικειμένων. Όταν μειώνεται η πληροφοριακή εντροπία, αυξάνεται η πυκνότητα πληροφορίας και άρα η περιγραφή γίνεται περισσότερο συμπαγής. Έστω S ένα σύνολο που περιέχει θετικά και αρνητικά δείγματα δεδομένων που α- φορούν μια έννοια στόχο. Αν ρ + είναι το ποσοστό των θετικών και ρ - των αρνητικών παραδειγμάτων στο σύνολο S, τότε η εντροπία του συνόλου Ε(S) είναι: Ε(S) = - ρ + log 2 (p + ) - ρ - log 2 (p - ) Στην περίπτωση όπου ρ i το ποσοστό των παραδειγμάτων του S που ανήκουν στην κατηγορία i, η γενική σχέση υπολογισμού της εντροπίας για c διαφορετικές κατηγορίες είναι: Εάν Α ένα χαρακτηριστικό με σύνολο τιμών V(Α), τότε το κέρδος πληροφορίας σε σχέση με αυτό το χαρακτηριστικό είναι: E(S) είναι η εντροπία πληροφορίας του υπό εξέταση κόμβου, ενώ ο όρος αθροίσματος Σ είναι η εντροπία των παραδειγμάτων μετά το διαχωρισμό τους ανάλογα με την τιμή του χαρακτηριστικού Α και αποτελείται από το άθροισμα της εντροπίας για το κάθε σύνολο που προκύπτει μετά το διαχωρισμό, όπου u είναι μια από τις δυνατές τιμές του Α, Su είναι το πλήθος των εγγραφών με Α=u και Ε(Su) η εντροπία πληροφορίας του υπό εξέταση κόμβου ως προς την τιμή. Κατά την κατασκευή του δέντρου, ως ρίζα του δέντρου επιλέγεται το χαρακτηριστικό με το μέγιστο κέρδος πληροφορίας συνολικά, ενώ ως κόμβος επιλέγεται το χαρα- -19-

26 κτηριστικό που παρουσιάζει το μέγιστο κέρδος πληροφορίας στο τρέχον σημείο κατασκευής. Η στρατηγική αναζήτησης που ακολουθεί ο αλγόριθμος ID3 είναι η αναρρίχηση λόφων (hill climbing) και κατευθύνεται με βάση το κέρδος πληροφορίας. Ο ΙD3 κάνει αναζήτηση σε έναν χώρο υποθέσεων που απαρτίζεται από όλα τα πιθανά δέντρα αποφάσεων. Οπότε, δεν διατρέχει τον κίνδυνο να μην υπάρχει η έννοια στόχος στον χώρο αυτό και σε κάθε βήμα της αναζήτησης χρησιμοποιεί όλα τα δεδομένα εκπαίδευσης για να υπολογίσει το κέρδος πληροφορίας για τα εναλλακτικά χαρακτηριστικά. Από την άλλη πλευρά, ο ID3 διατηρεί μόνο μια συμβατή υπόθεση με τα δεδομένα κατά την αναζήτηση και επομένως, δεν είναι σε θέση να βρει όλα τα δέντρα που είναι συμβατά με τα δεδομένα. Επιπλέον, δεν έχει τη δυνατότητα οπισθοδρόμησης (backtracking) κατά τη διάρκεια της αναζήτησης. Από τη στιγμή που επιλέξει ένα χαρακτηριστικό για έλεγχο σε κάποιο κόμβο, δεν μπορεί να επιστρέψει για να αλλάξει την επιλογή αυτή. Αυτό σημαίνει ότι διατρέχει τον κίνδυνο να βρει τοπικά βέλτιστα δέντρα. Για την καλύτερη κατανόηση των παραπάνω, ακολουθεί ένα παράδειγμα του αλγορίθμου ID3. Το παράδειγμα αναφέρεται στη διεξαγωγή ενός αγώνα golf και ο Πίνακας 2.1 συνοψίζει κάποια ενδεικτικά δεδομένα. Για την επιλογή της ρίζας υπολογίζουμε το κέρδος για κάθε ένα από τα χαρακτηριστικά του συνόλου (καιρός, θερμοκρασία, υγρασία, άνεμος). Πίνακας 2.1: Δεδομένα εφαρμογής του ID3 αλγόριθμου Καιρός Θερμοκρασία Υγρασία Άνεμος Play_golf Ηλιοφάνεια Υψηλή Υψηλή Ασθενής Όχι Ηλιοφάνεια Υψηλή Υψηλή Ισχυρός Όχι Συννεφιά Υψηλή Υψηλή Ασθενής Ναι Βροχή Κανονική Υψηλή Ασθενής Ναι Βροχή Χαμηλή Κανονική Ασθενής Ναι Βροχή Χαμηλή Κανονική Ισχυρός Όχι Συννεφιά Χαμηλή Κανονική Ισχυρός Ναι Ηλιοφάνεια Κανονική Υψηλή Ασθενής Όχι Ηλιοφάνεια Χαμηλή Κανονική Ασθενής Ναι Βροχή Κανονική Κανονική Ασθενής Ναι Ηλιοφάνεια Κανονική Κανονική Ισχυρός Ναι Συννεφιά Κανονική Υψηλή Ισχυρός Ναι Συννεφιά Υψηλή Κανονική Ασθενής Ναι Βροχή Κανονική Υψηλή Ισχυρός Όχι Οπότε έχουμε: -20-

27 Gain (S, καιρός) = 0,246 Gain (S, θερμοκρασία) = 0,029 Gain (S, υγρασία) = 0,151 Gain (S, άνεμος) = 0,048 Το χαρακτηριστικό καιρός έχει το μεγαλύτερο κέρδος πληροφορίας. Οπότε, είναι το χαρακτηριστικό που ορίζεται ως ρίζα του δέντρου (Εικόνα 2.4). Κλαδιά είναι οι τιμές του χαρακτηριστικού αυτού. Εικόνα 2.4: Επιλογή ρίζας Το επόμενο βήμα είναι η επιλογή του επόμενου κόμβου. Για κάθε μία από τις τιμές τις ρίζας και καθένα από τα υπόλοιπα χαρακτηριστικά ακολουθούμε την ίδια διαδικασία, με αποτέλεσμα το τελικό δέντρο απόφασης που φαίνεται στην Εικόνα 2.5. Εικόνα 2.5: Η γραφική αναπαράσταση του δέντρου απόφασης. -21-

28 Οι Αλγόριθμοι C4.5 και C5.0 Ο αλγόριθμος C4.5 αποτελεί επέκταση του ΙD3 και επιτυγχάνει καλύτερη διαχείριση κενών πεδίων και αριθμητικών δεδομένων, καλύτερο κλάδεμα των δέντρων και αποτελεσματικότερη εξαγωγή κανόνων. Πιο συγκεκριμένα, ο αλγόριθμος C4.5 βελτιώνει τον αλγόριθμο ID3 ως εξής: Ελλιπή δεδομένα: Κατά τη κατασκευή του δέντρου απόφασης, ο αλγόριθμος αγνοεί τα ελλιπή δεδομένα. Αυτό σημαίνει ότι το κέρδος υπολογίζεται λαμβάνοντας υπόψη μόνο τις εγγραφές που έχουν τιμή. Επίσης, κατά την κατηγοριοποίηση ενός παράδειγμα με ελλιπή τιμή σε ένα χαρακτηριστικό, γίνεται πρόβλεψη αυτής της τιμής με βάση τις τιμές των υπολοίπων παραδειγμάτων για το συγκεκριμένο χαρακτηριστικό. Συνεχή δεδομένα: Τα χαρακτηριστικά που λαμβάνουν συνεχείς τιμές, χωρίζονται σε διαστήματα. Κλάδεμα: Υπάρχουν δύο σημαντικές στρατηγικές κλαδέματος στον C4.5: Αντικατάσταση του υποδέντρου (subtree replacement): Ένα υποδέντρο αντικαθίσταται από ένα φύλλο αν αυτή η αντικατάσταση έχει ως αποτέλεσμα σφάλμα κοντά σε αυτό του αρχικού υποδέντρου. Η τεχνική αυτή εφαρμόζεται ξεκινώντας από τα φύλλα και ανεβαίνοντας προς τη ρίζα. Ανύψωση υποδέντρου (subtree raising): Αντικαθιστά ένα υποδέντρο με το περισσότερο χρησιμοποιούμενο υποδέντρό του. Έτσι, ένα υποδέντρο ανυψώνεται αφού αντικαθιστά ένα υπδέντρο που βρίσκεται σε ψηλότερο επίπεδο. Και σε αυτή την περίπτωση πρέπει να λάβουμε υπόψη την αύξηση στη συχνότητα λαθών. Κανόνες: Ο C4.5 επιτρέπει την κατηγοριοποίηση είτε μέσω δέντρων απόφασης είτε μέσω κανόνων που δημιουργούνται από αυτό. Επίσης, προτείνονται κάποιες τεχνικές που απλουστεύουν τους πολύπλοκους κανόνες. Διάσπαση: Ο ID3 προτιμά τα χαρακτηριστικά με πολλές διαιρέσεις. Ωστόσο, αυτό μπορεί να οδηγήσει σε υπερπροσαρμογή. Μια οριακή περίπτωση είναι να έχουμε ένα χαρακτηριστικό που έχει μια μοναδική τιμή για κάθε παράδειγμα. Το χαρακτηριστικό αυτό θα είναι το καλύτερο αφού θα υπήρχε μόνο μία κατηγορία για κάθε διαίρεση. Μια βελτίωση θα μπορούσε να γίνει αν λάβουμε υπόψη την πληθικότητα της κάθε διαίρεσης. Αυτή η προσέγγιση χρησιμοποιεί τον Λόγο Κέρδους (Gain Ratio) αντί του Κέρδους Πληροφορίας. Ο λόγος κέρδους βασίζεται στο χαρακτηριστικό Πληροφορία -22-

29 Διαχωρισμού (Split Information), το οποίο είναι ευαίσθητο στο εύρος και την ομοιομορφία διαχωρισμού των δεδομένων από ένα χαρακτηριστικό. Ο C5.0 είναι μια εμπορική έκδοση του C4.5 που χρησιμοποιείται πολύ συχνά στα πακέτα λογισμικού εξόρυξης δεδομένων. Χρησιμοποιείται κυρίως για μεγάλα σύνολα δεδομένων. Η φάση της επαγωγής είναι όμοια με αυτή του C4.5, αλλά η δημιουργία κανόνων είναι διαφορετική. Τα αποτελέσματα που έχουν δημοσιευτεί αποδεικνύουν ότι ο C5.0 βελτιώνει τη χρήση της μνήμης κατά 90%, τρέχει πολύ πιο γρήγορα από τον C4.5 (μπορεί να τρέξει από 5,7 μέχρι και 240 φορές πιο γρήγορα) και παράγει πιο ακριβείς κανόνες. Μια πολύ σημαντική βελτίωση στην ακρίβεια του C5.0 βασίζεται στην ενίσχυση (boosting), η οποία είναι μια τεχνική που συνδυάζει διάφορους κατηγοριοποιητές. Μάθηση εννοιών Με τον όρο έννοια εννοούμε ένα υποσύνολο αντικειμένων, τα οποία ορίζονται σε σχέση με ένα μεγαλύτερο σύνολο. Εναλλακτικά, μπορούμε να θεωρήσουμε ότι η έννοια είναι μια συνάρτηση που επιστρέφει λογική τιμή: αληθή για τα αντικείμενα ενός συνόλου που ανήκουν σε αυτή και ψευδή για όλα τα άλλα. Το σύστημα, λοιπόν, τροφοδοτείται με παραδείγματα που ανήκουν (θετικά παραδείγματα) ή δεν ανήκουν (αρνητικά παραδείγματα) σε κάποια έννοια/ κατηγορία. Στη συνέχεια μοντελοποιεί κάποια γενικευμένη περιγραφή της, ώστε να μπορεί να διακρίνει αν μια νέα περίπτωση εντάσσεται σε αυτήν την έννοια [1]. Για παράδειγμα, ένα πρόβλημα θα μπορούσε να είναι ο προσδιορισμός της έννοιας «καλός πελάτης» για τη χορήγηση πιστωτικής κάρτας. Τροφοδοτώντας το σύστημα με διάφορα χαρακτηριστικά καλών και κακών πελατών, ζητείται η δημιουργία ενός μοντέλου που θα επιτρέπει την πρόβλεψη σχετικά με ένα νέο πελάτη. Ο πιο διαδεδομένος αλγόριθμος μάθησης εννοιών είναι ο αλγόριθμος απαλοιφής υ- ποψηφίων. Ο αλγόριθμος απαλοιφής υποψηφίων Ο αλγόριθμος απαλοιφής υποψηφίων (candidate elimination algorithm) περιορίζει το χώρο αναζήτησης κάνοντας γενικεύσεις και εξειδικεύσεις σε κάποιες αρχικές υποθέσεις (έννοιες) με βάση τα δεδομένα εκπαίδευσης. Χρησιμοποιεί δύο σύνολα [1]: G: είναι το σύνολο των πιο γενικών υποψήφιων υποθέσεων (Σύνορο G) S: είναι το σύνολο των πιο ειδικών υποψήφιων υποθέσεων (Σύνορο S) -23-

30 Ο αλγόριθμος απαλοιφής υποψηφίων χρησιμοποιεί και τα θετικά και τα αρνητικά παραδείγματα: επεκτείνει το S με βάση τα θετικά παραδείγματα κάνοντας γενικεύσεις και περιορίζει το G με βάση τα αρνητικά παραδείγματα κάνοντας εξειδικεύσεις έως ότου εξαντληθούν τα στοιχεία των δύο αυτών συνόλων. Όταν εξετάσει όλα τα παραδείγματα τότε τα σύνολα S και G περιέχουν όλες τις υποθέσεις που ταξινομούν σωστά τα παραδείγματα. Μια σχηματική περιγραφή του αλγόριθμου δίνεται στην Εικόνα 2.6. Τα σύνολα G και S διαχωρίζουν το χώρο των εννοιών σε περιοχές με θετικά, αρνητικά και απροσδιόριστης φύσης παραδείγματα. Κατά την εκπαίδευση το Σύνορο S επεκτείνεται, ενώ το Σύνορο G συρρικνώνεται μέχρις ότου εξαντληθούν τα παραδείγματα. Εικόνα 2.6: Σχηματική περιγραφή του αλγόριθμου απαλοιφής υποψηφίων Μάθηση κατά περίπτωση Στη μάθηση κατά περίπτωση (instance-based learning IBL) τα δεδομένα εκπαίδευσης αποθηκεύονται αυτούσια. Όταν μια νέα περίπτωση πρέπει να ταξινομηθεί, εξετάζεται η σχέση της με τα ήδη αποθηκευμένα παραδείγματα. Η μέθοδος αυτή αναβάλλει τη μάθηση μέχρι τη στιγμή που θα εμφανιστεί ένα νέο στιγμιότυπο για ταξινόμηση. Για το λόγο αυτό οι αλγόριθμοι της κατηγορίας αυτής λέγονται και αναβλητικοί (lazy learners). Οι πιο γνωστοί αλγόριθμοι αυτής της κατηγορίας είναι: Κοντινότερου γείτονα (Nearest Neighbor, NN) k- κοντινότερου γείτονα (k-nearest Neighbor, knn) Κοντινότερου γείτονα σταθμισμένης απόστασης (Distance Weighted Nearest Neighbor) Τοπικά σταθμισμένη παλινδρόμηση (Locally Weighted Regression, LWR) Συνάρτηση ακτινωτής βάσης (Radial Basis Function, RBF) -24-

31 Συλλογιστική βασισμένη σε παραδείγματα (Case Based Reasoning, CBR) Στις μεθόδους IBL το κόστος για την ταξινόμηση ενός νέου στιγμιότυπου είναι ι- διαίτερα υψηλό καθώς οι περισσότεροι υπολογισμοί πραγματοποιούνται τη στιγμή της ταξινόμησης και όχι τη στιγμή της εισαγωγής των παραδειγμάτων εκπαίδευσης. Όταν εισάγεται ένα νέο στιγμιότυπο, ελέγχεται η σχέση του με τα ήδη αποθηκευμένα παραδείγματα προκειμένου να υπολογιστεί η τιμή της συνάρτησης στόχος για το παράδειγμα αυτό. Στη χειρότερη περίπτωση, μπορεί να ελεγχθούν όλα τα παραδείγματα εκπαίδευσης. Επιπλέον, οι μέθοδοι IBL και κυρίως οι αλγόριθμοι του κοντινότερου γείτονα λαμβάνουν υπ όψη όλα τα χαρακτηριστικά των στιγμιότυπων. Έτσι, σε περίπτωση που η εξαρτημένη μεταβλητή εξαρτάται μόνο από λίγα από αυτά, υπάρχει η πιθανότητα κάποια κοντινά παραδείγματα να θεωρηθούν μακρινά [1]. Ο αλγόριθμος των k-κοντινότερων γειτόνων Τα στιγμιότυπα θεωρούνται σημεία στο n-διάστατο χώρο R n, όπου n ο αριθμός των χαρακτηριστικών (ανεξάρτητων μεταβλητών). Κάθε νέα περίπτωση τοποθετείται στο χώρο ως νέο σημείο και η τιμή του προσδιορίζεται με βάση την τιμή των k γειτονικών σημείων. Οι κοντινότεροι γείτονες ενός σημείου υπολογίζονται με βάση την Ευκλείδεια απόσταση. Έστω ένα τυχαίο στιγμιότυπο x, το οποίο περιγράφεται από ένα σύνολο χαρακτηριστικών [a 1 (x), a 2 (x),., a n (x)], όπου το a r (x) είναι το r χαρακτηριστικό του στιγμιότυπου x. Η απόσταση μια νέας περίπτωσης x που περιγράφεται από το σύνολο χαρακτηριστικών [a 1 (x ), a 2 (x ),., a n (x )]από το στιγμιότυπο x δίνεται από τον τύπο: Η τιμή της νέας περίπτωσης προκύπτει λαμβάνοντας υπόψη τις τιμές των κοντινότερων γειτόνων, βάση της απόστασης που προκύπτει από τον προηγούμενο τύπο. -25-

32 Εικόνα 2.7: Προσδιορισμός κατηγορίας με βάση τους κοντινότερους γείτονες Στην Εικόνα 2.7, όπου υπάρχουν παραδείγματα δύο κατηγοριών, η νέα περίπτωση x χαρακτηρίζεται ως θετική, αν ληφθεί υπ όψη μόνο ο κοντινότερος γείτονας (1- Nearest Neighbor) και ως αρνητική αν ληφθούν υπ όψη οι πέντε κοντινότεροι γείτονες (5-Nearest Neighbors) καθώς η πλειοψηφία αυτών έχει αρνητικό χαρακτηρισμό. Νευρωνικά δίκτυα Τα νευρωνικά δίκτυα είναι μη γραμμικά μοντέλα πρόβλεψης τα οποία μαθαίνουν μέσα από παραδείγματα. Μοντελοποιούνται σύμφωνα με τον τρόπο που λειτουργεί ο ανθρώπινος εγκέφαλος και αποτελούνται από πολλά συνδεδεμένα τμήματα επεξεργασίας. Παρέχουν ένα πρακτικό και εύκολο τρόπο για την εκμάθηση αριθμητικών και διανυσματικών συναρτήσεων με συνεχή ή διακριτά μεγέθη. Χρησιμοποιούνται τόσο για κατηγοριοποίηση όσο και για παρεμβολή [1]. Ένα νευρωνικό δίκτυο είναι είναι δομημένο σαν ένας κατευθυνόμενος γράφος με πολλούς κόμβους (nodes, τμήματα επεξεργασίας) και βέλη (arcs, διασυνδέσεις) ανάμεσα στους κόμβους. Κάθε κόμβος του γράφου είναι σαν ανεξάρτητοι νευρώνες, ενώ τα βέλη είναι σύνδεσμοι των νευρώνων Κάθε κόμβος λειτουργεί αυτόνομα (ανεξάρτητα από τους άλλους) και χρησιμοποιεί μόνο τοπικά δεδομένα (είσοδο και έξοδο στον κόμβο) για να καθοδηγήσει την επεξεργασία. Ένας τεχνητός νευρώνας α i όπως παρουσιάζεται στην Εικόνα 2.8,επιτελεί τα αμέσως ακόλουθα: Δέχεται ένα αριθμό από j εισόδους α k είτε από πραγματικά δεδομένα εισόδoυ, είτε από εξόδους από άλλους νευρώνες του νευρωνικού δικτύου. Κάθε είσοδος έχει μία τιμή βάρους w k (weight). Το σώμα του χωρίζεται σε δύο μέρη: -26-

Δείτε περισσότερα