«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Transcript

1 Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER» ΣΑΙΝΑΤΟΥΔΗ ΣΤΥΛΙΑΝΗ ΟΚΤΩΒΡΙΟΣ 2014 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ ΓΕΡΟΝΤΙΔΗΣ ΙΩΑΝΝΗΣ Εκπονηθείσα πτυχιακή εργασία απαραίτητη για την κτήση του βασικού πτυχίου

2 ΠΡΟΛΟΓΟΣ Η παρούσα πτυχιακή εργασία πραγματοποιήθηκε στο ΤΕΙ Καβάλας, στο τμήμα Διαχείρισης Πληροφοριών. Στόχος αυτής της πτυχιακής εργασίας είναι η στατιστική ανάλυση δεδομένων από τον πιστωτικό κίνδυνο με το λογισμικό εξόρυξης 8ΐ8ίΐ8ΐΙθ8ϋ8ί8ΜΙπθΓ. Η πολυπλοκότητα του προβλήματος του πιστωτικού κινδύνου επιχειρήσεων, αλλά και η ιδιαίτερη σημασία για τις τράπεζες καθιστά αναγκαία την ανάπτυξη των κατάλληλων μοντέλων για την αξιολόγηση. Με τον τρόπο αυτό αυξάνεται η πιθανότητα επιτυχίας, και μειώνεται αμφότερα, η πιθανότητα αβεβαιότητας επίτευξης των συνολικών στόχων. Θέλω να ευχαριστήσω τον επιβλέπων καθηγητή μου Δρ. Γεροντίδη Ιωάννη, ο οποίος με βοήθησε πολύ έτσι ώστε να ολοκληρωθεί αυτή η εργασία. Τον ευχαριστώ για όσα μου δίδαξε, για το επιστημονικό υλικό που μου πρόσφερε και τις συμβουλές του. Τέλος θα ήθελα να ευχαριστήσω την οικογένεια μου και τον Νίκο για την καθημερινή τους συμπαράσταση, την υπομονή τους και για την θετική τους σκέψη, όπου συνέλαβαν στην εκπλήρωση του στόχου μου. Σελίδα 1 από 83

3 ΠΕΡΙΕΧΟΜΕΝΑ ΕΙΣΑΓΩΓΗ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ 1.1 Η τεχνική εξόρυξης από δεδομένα Η διαδικασία εξόρυξης δεδομένων Απαιτήσεις εξόρυξης δεδομένων Τεχνικές ανακάλυψης γνώσης Κατηγοριοποίηση Κατηγοριοποίηση με βάση Νευρωνικά Δίκτυα Συσταδοποίηση Κανόνες συσχέτισης Πρότυπα ακολουθιών Παλινδρόμηση Συνοπτική παρουσίαση πληροφορίας ΔΕΝΔΡΑ ΑΠΟΦΑΣΕΩΝ 2.1 Τι είναι τα δένδρα αποφάσεων Πλεονεκτήματα και μειονεκτήματα των Δένδρων Αποφάσεων Αλγόριθμοι κατασκευής Δένδρων Αποφάσεων Αλγόριθμος ^ Αλγόριθμος C Αλγόριθμος SPRINT Αλγόριθμος SLIQ Αλγόριθμος CHAID Σελίδα 2 από 83

4 2.3.6 Αλγόριθμος CART ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΜΕ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ 3.1 Εισαγωγή Bayesian κατηγοριοποίηση Naïve Bayesian κατηγοριοποίηση Bayesian Belief Networks Κατηγοριοποίηση με βάση Νευρωνικά Δίκτυα Κατηγοριοποίηση με βάση την τεχνική των Εγγύτερων Γειτόνων Ασαφής κατηγοριοποίηση Παραγωγή κανόνων κατηγοριοποίησης ΕΝΝΟΙΑ ΤΟΥ ΚΙΝΔΥΝΟΥ ΚΑΙ ΠΙΣΤΩΤΙΚΟΣ ΚΙΝΔΥΝΟΣ 4.1 Έννοια του κινδύνου και είδη κινδύνων Κίνδυνος αγοράς Πιστωτικός κίνδυνος Κίνδυνος ρευστότητας Λειτουργικός κίνδυνος Κίνδυνος χώρας Πιστωτικός κίνδυνος Είδη πιστωτικού κινδύνου Κίνδυνος αθέτησης Κίνδυνος έκθεσης Κίνδυνος ανάκτησης ΑΝΑΛΥΣΗ ΠΡΑΓΜΑΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ 5.1 Περιγραφή του αρχείου των δεδομένων Ανάλυση δεδομένων με τη μέθοδο CART Ανάλυση δεδομένων με τη μέθοδοchaid Σελίδα 3 από 83

5 5.4 Σύγκριση αποτελεσμάτων μεθόδων ΟΔΚΪκαι ΟΗΔίϋ Συμπεράσματα και περαιτέρω έρευνα Σελίδα 4 από 83

6 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ 3.1: Δοκιμαστικά δεδομένα : Αποτελέσματα τερματικών κόμβων : Εσφαλμένη ταξινόμηση πελατών : Συγκεντρωτικά : Αποτελέσματα τερματικών κόμβων...75 Σελίδα 5 από 83

7 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 1.1: Κατηγοριοποίηση του συνόλου δεδομένων δανείων χρησιμοποιώντας ένα όριο για το γνώρισμα «income» : Διαδικασία ταξινόμησης: Εκμάθηση : Δομή νευρωτικού δικτύου : Βήματα της διαδικασίας συσταδοποιήσης : Δικτυωτό πλέγμα που προκαλείται από τις μέγιστες ακολουθίες T1^H3P1^P2 και H 2 ^T 2 ^T : Δομή Δένδρου Απόφασης : Διαδικασία κατηγοριοποιήσης : Δομή νευρωτικού δικτύου : Επίπεδα νευρωτικού δικτύου : Το δένδρο απόφασης που ορίζεται από τα δοκιμαστικά δεδομένα του Πίνακα : Επεξεργασία δεδομένων με το StatisticaDataMiner : Δένδρο παλινδρόμησης με τη μέθοδο CART : Διάταξη δένδρου για τη μέθοδο CART :Γράφημα εσφαλμένης ταξινόμησης : Δένδρο παλινδρόμησης με τη μέθοδο CHAID : Διάταξη δένδρου για τη μέθοδο CHAID...74 Σελίδα 6 από 83

8 ΕΙΣΑΓΩΓΗ Σκοπός της παρούσας εργασίας είναι η ανάπτυξη ενός μοντέλου πρόβλεψης για τον πιστωτικό κίνδυνο των καταναλωτών, προκειμένου να εντοπιστούν και να διερευνηθούν οι παράγοντες που χαρακτηρίζουν τους επισφαλείς πελάτες μεταξύ εκείνων που έχουν ήδη δανειοδοτηθεί από τις τράπεζες. Στόχος του μοντέλου είναι ο εντοπισμός των μελλοντικών επισφαλών πελατών. Η ανάλυση θα βασιστεί πάνω σ ένα αρχείο 425 περιπτώσεων με 15 μεταβλητές από παλαιούς πελάτες και θα χρησιμοποιηθούν μέθοδοι κατηγοριοποίησης δένδρων αποφάσεων όπως είναι τα CART και CHAID με τη βοήθεια του λογισμικού StatisticaDataMiner. Η δομή της εργασίας διαμορφώνεται ως εξής: Το πρώτο κεφάλαιο που είναι εισαγωγικό περιέχει την οριοθέτηση της πτυχιακής και την βιβλιογραφική έρευνα. Στο δεύτερο κεφάλαιο παρατίθεται ο ορισμός και η περιγραφή του προβλήματος της κατηγοριοποίησης με δένδρα παλινδρόμησης (CART και CHAID). Στο τρίτο κεφάλαιο αναλύουμε την ανακάλυψη γνώσης μέσω κατηγοριοποίησης. Στο τέταρτο κεφάλαιο αναφέρουμε την έννοια του κινδύνου, την αναλύουμε και μελετούμε αναλυτικά τα είδη κινδύνων. Ιδιαίτερα, γίνεται αναφορά και στον πιστωτικό κίνδυνο και τα είδη του. Στο πέμπτο κεφάλαιο πραγματοποιείται ανάλυση πραγματικών δεδομένων με το StatisticaDataMiner παραθέτοντας τα αποτελέσματα που προκύπτουν και η εργασία ολοκληρώνεται με τα συμπεράσματα. Σελίδα 7 από 83

9 ΚΕΦΑΛΑΙΟ 1 ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ 1.1 Η ΤΕΧΝΙΚΗ ΕΞΟΡΥΞΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, των μηχανών γνώσης, της στατιστικής, καθώς επίσης και ως μία σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Οι δικτυακές εφαρμογές που διαχειρίζονται μεγάλες αποθήκες δεδομένων έχουν αρχίσει να κάνουν χρήση διαφόρων τεχνικών εξόρυξης δεδομένων, με σκοπό τη βελτίωση της ποιότητας των παρεχόμενων υπηρεσιών μέσω της μελέτης της συμπεριφοράς των πελατών και της εξαγωγής χρήσιμων συμπερασμάτων από αυτήν (Χαλκίδη, Βαζιργιάννης, 2005). Η τελευταία δεκαετία έχει επιφέρει μια αλματώδη αύξηση στην παραγωγή και συλλογή δεδομένων. Η πρόοδος στην τεχνολογία των βάσεων δεδομένων μας παρέχει νέες τεχνικές για την αποδοτική και αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Επίσης η δυνατότητα ανάλυσης και ερμηνείας των συνόλων δεδομένων, και η εξαγωγή «χρήσιμης» γνώσης από αυτά έχει ξεπεράσει κάθε όριο και έχει δημιουργηθεί η ανάγκη για μία νέα γενιά εργαλείων και τεχνικών για ευφυή ανάλυση βάσεων δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές (τεχνητή νοημοσύνη, στατιστική, αποθήκες δεδομένων, διαδραστική ανάλυση και επεξεργασία, έμπειρα συστήματα και οπτικοποίηση δεδομένων) και ένας νέος ερευνητικός τομέας δημιουργείται, γνωστός ως εξόρυξη δεδομένων και γνώσης (Data and Knowledge Mining). Σελίδα 8 από 83

10 Δεδομένου ότι η πρακτική της εξόρυξης δεδομένων έχει αναπτυχθεί περαιτέρω, το επίκεντρο των ορισμών έχει μετατοπιστεί σε συγκεκριμένες πτυχές των πληροφοριών και των πηγών της. Ο δεύτερος ορισμός εστιάζεται στα μοτίβα των δεδομένων και όχι μόνο σε πληροφορίες υπό μια γενική έννοια. Αυτά τα πρότυπα είναι εξασθενημένα και μπορούν να ανιχνεύονται μόνο από αλγόριθμους ανάλυσης που μπορεί να αξιολογήσουν τις μη γραμμικές σχέσεις μεταξύ των προβλεπτικών μεταβλητών και των προσωπικών στόχων τους. Αυτή η μορφή του ορισμού της εξόρυξης δεδομένων, αναπτύχθηκε μαζί με την άνοδο των εργαλείων μηχανικής μάθησης για χρήση στην εξόρυξη δεδομένων. Εργαλεία όπως τα δένδρα αποφάσεων και τα νευρωνικά δίκτυα επιτρέπουν την ανάλυση των μη γραμμικών προτύπων σε δεδομένα ευκολότερα από ότι είναι δυνατό σε παραμετρικές στατιστικές αλγόριθμους. Ο λόγος είναι ότι οι αλγόριθμοι μηχανικής μάθησης βοηθάνε στο να μάθουμε τον τρόπο με τον οποίο οι άνθρωποι κάνουν το παράδειγμα, όχι με τον υπολογισμό των μετρήσεων που βασίζονται σε μέσους όρους και τις διανομές των δεδομένων. Ο όρος όμως που έχει επικρατήσει και χαρακτηρίζει τη διαδικασία της εύρεσης δομών γνώσης, οι οποίες περιγράφουν με ακρίβεια μεγάλα σύνολα πρωτογενών δεδομένων, είναι «εξόρυξη δεδομένων» (ϋθίθμιπιπς). Οι δομές αυτές αναδεικνύουν γνώση (συσχετίσεις ή κανόνες) που είναι κρυμμένοι μέσα στα δεδομένα και δεν μπορούν να εξαχθούν από τον άνθρωπο-χρήστη της βάσης δεδομένων με «γυμνό» μάτι. Οι προκύπτουσες δομές είναι πλούσιες σε σημασιολογία και εκμεταλλεύονται πιθανές κοινές ιδιότητες των πρωτογενών δεδομένων (Χαλκίδη, Βαζιργιάννης, 2005). Σελίδα 9 από 83

11 Σχήμα 1.1: Κατηγοριοποίηση του συνόλου δεδομένων δανείων χρησιμοποιώντας ένα όριο για το γνώρισμα «income» Μερικές από τις εφαρμογές της εξόρυξης δεδομένων για την ανακάλυψη της γνώσης, είναι: Ανάλυση οργανικών συνθέσεων (analysis of organic compounds) Αυτόματη αφαίρεση (automatic abstracting) Προσδιορισμός απειλών στον κλάδο των πιστώσεων (fraud detection) Ιατρική διάγνωση Οικονομική πρόβλεψη Πρόβλεψη καιρού 1.2 Η ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Η εξόρυξη δεδομένων περιλαμβάνει τα μοντέλα συναρμολογήσεων των υπό εξέταση δεδομένων, ή εναλλακτικά την εξαγωγή των προτύπων από αυτά. Ουσιαστικά, οι παράμετροι του μοντέλου που είναι γνωστές από τα δεδομένα ή τα πρότυπα που προσδιορίζονται, αντιπροσωπεύουν τη γνώση που έχει εξαχθεί από ένα σύνολο δεδομένων. Σελίδα 10 από 83

12 Υπάρχει μια μεγάλη συλλογή αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση, οι αλγόριθμοι και οι βάσεις δεδομένων. Μια θεμελιώδης ιδιότητα των αλγορίθμων εξόρυξης δεδομένων και αυτή που διαφοροποιεί τους περισσότερους από αυτούς από άλλες παρόμοιες τεχνικές που υιοθετούνται στη μηχανική μάθηση και τη στατιστική, είναι ότι οι αλγόριθμοι εξόρυξης δεδομένων έχουν σχεδιαστεί με έμφαση στην εξελιξιμότητα όσον αφορά το μέγεθος του συνόλου δεδομένων εισαγωγής. Η πλειοψηφία των αλγορίθμων εξόρυξης δεδομένων μπορούν να αντιμετωπισθούν ως σύνθεση των τριών ακόλουθων συστατικών (Fayyad, et.al., 1996): S Την περιγραφή του μοντέλου. Υπάρχουν δύο παράγοντες σχετικοί με το μοντέλο: Η λειτουργία του μοντέλου. Καθορίζει τους βασικούς στόχους κατά τη διάρκεια της διαδικασίας εξόρυξης δεδομένων (π.χ. Classification ή clustering). Η παραστατική μορφή τον μοντέλου. Η απεικόνιση του μοντέλου καθορίζει και το ταίριασμα του με την απεικόνιση των δεδομένων και τη δυνατότητα να ερμηνευθεί το μοντέλο με κατανοητούς όρους. Χαρακτηριστικά, πιο περίπλοκα μοντέλα ταιριάζουν καλύτερα στα δεδομένα αλλά μπορεί να είναι δυσκολότερο να γίνουν κατανοητά και να ανταποκριθούν σε πραγματικές συνθήκες. Τα πιο γνωστά μοντέλα είναι τα δένδρα και οι κανόνες απόφασης, τα νευρωνικά δίκτυα, τα συστήματα βασισμένα σε παραδείγματα, τα γραφικά μοντέλα, τα μοντέλα βασισμένα στις πιθανότητες (π.χ. δίκτυα Bayes και τα συγγενικά μοντέλα) (Χαλκίδη, Βαζιργιάννης, 2005). S Την αξιολόγηση του μοντέλου. Με βάση κάποια κριτήρια αξιολόγησης (π.χ. μέγιστη πιθανότητα) μπορεί να καθοριστεί πόσο καλά ένα συγκεκριμένο μοντέλο ταιριάζει με τα κριτήρια της KDD διαδικασίας. Γενικά, η αξιολόγηση του μοντέλου αναφέρεται και στην εγκυρότητα των Σελίδα 11 από 83

13 προτύπων και στην αξιολόγηση της ακρίβειας, της χρησιμότητας και της δυνατότητας κατανόησης του μοντέλου: ^ Τους αλγόριθμους αναζήτησης. Αναφέρεται στην προδιαγραφή ενός αλγορίθμου να βρίσκει συγκεκριμένα μοντέλα και παραμέτρους, δοσμένου ενός συνόλου δεδομένων, μιας οικογένειας μοντέλων και ενός κριτηρίου αξιολόγησης. Υπάρχουν δύο τύποι αλγορίθμων αναζήτησης: Αυτοί που αναζητούν παραμέτρους. Αυτός ο τύπος αλγορίθμων ψάχνει για παραμέτρους, οι οποίες βελτιστοποιούν ένα κριτήριο αξιολόγησης για το μοντέλο. Οι αλγόριθμοι εκτελούν το στόχο αναζήτησης παίρνοντας ως είσοδο ένα σύνολο δεδομένων και μια απεικόνιση μοντέλου. Αυτοί που αναζητούν μοντέλα. Εκτελούν μια επαναληπτική διαδικασία αναζήτησης για την αντιπροσώπευση των δεδομένων. Για κάποια συγκεκριμένη απεικόνιση ενός μοντέλου, εφαρμόζεται η μέθοδος αναζήτησης παραμέτρων και η ποιότητα των αποτελεσμάτων αξιολογείται. 1.3 ΑΠΑΙΤΗΣΕΙΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Για να είναι αποτελεσματική μια διαδικασία εξόρυξης δεδομένων, πρέπει πρώτα να εξεταστεί το είδος των χαρακτηριστικών που ένα σύστημα εξόρυξης δεδομένων αναμένεται να έχει καθώς επίσης και οι απαιτήσεις που πρέπει να ληφθούν υπόψη στην ανάπτυξη των τεχνικών εξόρυξης δεδομένων. Οι κύριες απαιτήσεις μπορούν να συνοψιστούν στα εξής (Chen, et.al., Agrawal, et.al., 1998): S Χειρισμός των διαφορετικών τύπων δεδομένων. Δεδομένου ότι διαφορετικοί τύποι και βάσεις δεδομένων χρησιμοποιούνται σε διαφορετικές εφαρμογές, είναι σημαντικό ένα σύστημα εξόρυξης δεδομένων να εφαρμόζεται αποτελεσματικά σε διαφορετικούς τύπους δεδομένων. Οι βάσεις δεδομένων είναι στη συντριπτική τους πλειοψηφία συγγενείς μεταξύ τους. Συνεπώς, είναι σημαντικό ένα σύστημα εξόρυξης Σελίδα 12 από 83

14 δεδομένων να υποστηρίζει τεχνικές για αποδοτική και αποτελεσματική ανάλυση συγγενικών δεδομένων. ^ Απόδοση και εξελιξιμότητα των αλγορίθμων εξόρυξης δεδομένων. Για να επιτευχθεί αποτελεσματική εξόρυξη γνώσης από μεγάλα σύνολα δεδομένων οι αλγόριθμοι πρέπει να προσαρμοστούν κατάλληλα σε αυτά. Αυτό σημαίνει ότι ο χρόνος εκτέλεσης των αλγορίθμων εξόρυξης δεδομένων πρέπει να είναι αποδεκτός και αναμενόμενος για μεγάλες βάσεις δεδομένων. Οι αλγόριθμοι με εκθετική ή πολυωνυμική πολυπλοκότητα δεν είναι κατάλληλοι. ^ Χρησιμότητα, βεβαιότητα και εκφραστικότητα των αποτελεσμάτων εξόρυξης δεδομένων. Η εξορυγμένη γνώση πρέπει να παρουσιάζει με ακριβή τρόπο τα περιεχόμενα των βάσεων δεδομένων. Η ακρίβεια των αποτελεσμάτων θα μπορούσε να εκφραστεί χρησιμοποιώντας κάποια μέτρα βεβαιότητας. Ο θόρυβος και οι οϋίίιθγβ, που αντιπροσωπεύουν τις εξαιρέσεις, πρέπει να αντιμετωπιστούν αποτελεσματικά από τα συστήματα εξόρυξης δεδομένων. Το γεγονός αυτό, δίνει το κίνητρο για μια συστηματική μελέτη της ποιότητας της εξορυγμένης γνώσης, της κατασκευαστικής στατιστικής, των αναλυτικών μοντέλων, των μοντέλων προσομοίωσης, καθώς και των εργαλείων. ^ Διαφορετικού τύπου εκφράσεις των ερωτήσεων και αποτελεσμάτων της εξόρυξης δεδομένων. Διαφορετικοί τύποι γνώσεων θα μπορούσαν να εξαχθούν από μεγάλα σύνολα δεδομένων. ^ Διαλογική ανακάλυψη γνώσης στα πολυ-εννοιολογικά επίπεδα. Η διαλογική ανακάλυψη της γνώσης επιτρέπει στο χρήστη να αλληλεπιδράσει με ένα σύστημα, καθορίζοντας τις ερωτήσεις εξόρυξης δεδομένων προκειμένου να αλλάξει την εστίαση των δεδομένων, να οδηγήσει μια διαδικασία εξόρυξης δεδομένων σε ένα πιο λεπτομερές επίπεδο και να δει τα δεδομένα και τα αποτελέσματα εξόρυξης δεδομένων σε πολλαπλά επίπεδα και από διάφορες πτυχές. ^ Εξόρυξη γνώσης από διαφορετικές πηγές δεδομένων. Η διάδοση της σύνδεσης υπολογιστών σε τοπικό και παγκόσμιο επίπεδο, συμπεριλαμβανομένου του διαδικτύου, έχει το προβάδισμα στη σύνδεση Σελίδα 13 από 83

15 των διάφορων πηγών δεδομένων. Αυτό οδηγεί στη δημιουργία μεγάλων κατανεμημένων και ετερογενών βάσεων δεδομένων. Το τεράστιο ποσό δεδομένων, η υψηλή κατανομή τους και υπολογιστική πολυπλοκότητα τους οδηγούν στην ανάπτυξη παράλληλων και κατανεμημένων αλγορίθμων εξόρυξης δεδομένων. 1.4 ΤΕΧΝΙΚΕΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ Η ανακάλυψη γνώσης από βάσεις δεδομένων (Knowledge Discovery in Databases - KDD) αναφέρεται στη διεργασία εξόρυξης γνώσης από τις μεγάλες αποθήκες δεδομένων. Ο όρος εξόρυξη δεδομένων χρησιμοποιείται ως συνώνυμο της ανακάλυψης γνώσης από βάσεις δεδομένων, καθώς επίσης και για αναφορά στις πραγματικές τεχνικές που χρησιμοποιούνται για την ανάλυση και την εξαγωγή της από διάφορα σύνολα δεδομένων (Χαλκίδη, Βαζιργιάννης, 2005). Η εξόρυξη δεδομένων (DataMining) μπορεί να οριστεί με διάφορους τρόπους, που διαφέρουν κυρίως στο επίκεντρο τους σχετικά με διάφορες πτυχές της εξόρυξης δεδομένων. Ένας από τους πρώτους ορισμούς είναι η μη-τετριμμένη σιωπηρή εξόρυξη, προηγουμένως άγνωστη, και πιθανότατα αποτελεί μια χρήσιμη πληροφορία από τα δεδομένα (Frawleyetal, 1991). Άλλοι ορισμοί που χρησιμοποιούνται οι ακόλουθοι ορισμοί: Στατιστική μοντελοποίηση: Η χρήση των παραμετρικών στατιστικών αλγορίθμων για την ομάδα ή για την πρόβλεψη ενός αποτελέσματος ή μιας εκδήλωσης, με βάση τις μεταβλητές πρόβλεψης. Η εξόρυξη δεδομένων: Η χρήση αλγορίθμων μηχανικής μάθησης για να βρει εξασθενημένα πρότυπα της σχέσης μεταξύ των στοιχείων δεδομένων σε μεγάλα, θορυβώδη και βρώμικα σύνολα δεδομένων, τα οποία μπορεί να οδηγήσουν σε ενέργειες για την αύξηση του επιδόματος με κάποια μορφή (διάγνωση, το κέρδος, την ανίχνευση, κ.λπ.). Σελίδα 14 από 83

16 Ανακάλυψη γνώσης: Η όλη διαδικασία της πρόσβασης στα δεδομένα, η διερεύνηση δεδομένων, η προετοιμασία των δεδομένων, η μοντελοποίηση, το μοντέλο ανάπτυξης και το μοντέλο παρακολούθησης. Οι βασικοί στόχοι της εξόρυξης γνώσης είναι η εφαρμογή τεχνικών περιγραφής και πρόβλεψης σε μεγάλα σύνολα δεδομένων. Η πρόβλεψη στοχεύει στον υπολογισμό της μελλοντικής αξίας ή στην πρόβλεψη της συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και οι οποίες βασίζονται στη συμπεριφορά άλλων μεταβλητών. Η περιγραφή επικεντρώνεται στην ανακάλυψη προτύπων και αναπαριστά τα δεδομένα μιας πολύπλοκης βάσης δεδομένων με έναν κατανοητό και αξιοποιήσιμο τρόπο. Η σημαντικότητα της πρόβλεψης και της περιγραφής διαφέρει ανάλογα με τις εφαρμογές εξόρυξης δεδομένων. Ωστόσο, ως προς την εξόρυξη γνώσης η περιγραφή τείνει να είναι περισσότερο σημαντική από την πρόβλεψη, σε αντίθεση με την αναγνώριση προτύπων και την εφαρμογή μηχανικής μάθησης για τις οποίες η πρόβλεψη είναι πιο σημαντική. Ένας αριθμός μεθόδων εξόρυξης δεδομένων, έχει προταθεί για να ικανοποιεί τις απαιτήσεις διαφορετικών εφαρμογών. Ωστόσο, όλες επιτυγχάνουν μια ομάδα από διεργασίες εξόρυξης δεδομένων για να προσδιορίσουν και να περιγράψουν ενδιαφέροντα πρότυπα γνώσης που έχουν αντληθεί από ένα σύνολο δεδομένων. Παρακάτω περιγράφονται οι διεργασίες αυτές (Berry, et.al., Fayyad, et.al., 1996) Κατηγοριοπ οίηση To πρόβλημα της κατηγοριοποίησης έχει μελετηθεί εκτενώς στη στατιστική, στην αναγνώριση προτύπων (patterns) και μηχανικής μάθησης (machine learning) στα πλαίσια του προβλήματος της ανάκτησης ή εξαγωγής γνώσης από σύνολα δεδομένων (Duda, et. al., 1973). Σελίδα 15 από 83

17 Χαρακτηρίζεται ως μία από τις βασικές εργασίες στη διαδικασία εξόρυξης γνώσης, η οποία αποσκοπεί στην ανάθεση ενός στοιχείου σε ένα προκαθορισμένο σύνολο κατηγοριών (classes).h κατηγοριοποίηση (classification) μπορεί να περιγραφεί ως μία λειτουργία που αντιστοιχίζει (κατηγοριοποιεί) ένα στοιχείο σε μία από τις διαφορετικές κατηγορίες που Λ έχουν προκαθοριστεί1(fayyad, et.al., 1996). Η κατηγοριοποίηση χαρακτηρίζεται από ένα καλά καθορισμένο σύνολο κατηγοριών καθώς και ένα σύνολο από προκατηγοριοποιημένα (pre-classified) παραδείγματα (αντίθετα, η διαδικασία συσταδοποίησης δεν στηρίζεται σε προκαθορισμένες κατηγορίες ή παραδείγματα). Γενικά, ο στόχος της διαδικασίας κατηγοριοποίησης είναι η δημιουργία ενός μοντέλου που θα μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση μελλοντικών δεδομένων των οποίων η κατηγοριοποίηση είναι άγνω στη^π7, et.al., 1996). Στις περισσότερες περιπτώσεις, υπάρχει ένας περιορισμένος αριθμός κατηγοριών και θα πρέπει κάθε εγγραφή να ανατεθεί στην κατάλληλη κατηγορία. Για το σκοπό αυτό χρησιμοποιούνται κάποιες τεχνικές, οι οποίες κατατάσσονται σε δύο κατηγορίες. Η πρώτη χρησιμοποιεί Δένδρα Αποφάσεων (Decision Trees) (Mitcell, Han, et. al., 2001) και η δεύτερη Νευρωνικά Δίκτυα (Neural Networks). Και οι δύο στηρίζονται στην ιδέα της «εκπαίδευσης» (training) με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης (training set). Το υποσύνολο αυτό επιλέγεται σαν αντιπροσωπευτικό δείγμα του συνολικού όγκου δεδομένων. Με την εφαρμογή της διαδικασίας εκπαίδευσης καθορίζονται κάποια πρότυπα για τις κατηγορίες δεδομένων. Έτσι, όταν προκύψει ένα νέο στοιχείο τότε μπορεί εύκολα να κατηγοριοποιηθεί. Για τη διαδικασία αυτή χρησιμοποιούνται είτε τεχνικές βασισμένες στα νευρωνικά δίκτυα είτε συμβολικές τεχνικές. Στις πρώτες υπάρχει το φαινόμενο της αμφίδρομης αναμετάδοσης και επεξεργασίας 1 Ο όρος ταξινόμηση χρησιμοποιείται στη βιβλιογραφία ως συνώνυμο της κατηγοριοποίησης. Σελίδα 16 από 83

18 δεδομένων ενώ στη δεύτερη υπάρχουν μοντέλα δένδρων αποφάσεων ή μοντέλα για IF...THEN...ELSE ανάλυση. Πιο συγκεκριμένα, η κατηγοριοποίηση δεδομένων μπορεί να περιγραφεί ως μία διαδικασία δύο βημάτων: Βήμα 1ο: Εκμάθηση (Learning). Σε αυτό το βήμα χτίζεται ένα μοντέλο (model), περιγράφοντας ένα προκαθορισμένο σύνολο από κατηγορίες δεδομένων. Τα δεδομένα εκπαίδευσης (training data) αναλύονται από έναν αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν στη συνέχεια το μοντέλο. Τα στοιχεία που αποτελούν το σύνολο κατάρτισης επιλέγονται τυχαία από έναν πληθυσμό δεδομένων και ανήκουν σε μία από τις προκαθορισμένες κατηγορίες. Δεδομένου ότι η κατηγορία των δειγμάτων εκπαίδευσης είναι γνωστή, αυτό το βήμα είναι επίσης γνωστό σαν «εποπτευμένη μάθηση» (supervised learning). Το μοντέλο που ορίζεται, γνωστό και ως κατηγοριοποιητής (classifier), αναπαριστάται με τη μορφή κανόνων κατηγοριοποίησης (classification rules), δένδρων αποφάσεων (decision trees) ή μαθηματικών τύπων (mathematical formulas) (Han, et.al., 2001). Βήμα 2ο: Κατηγοριοποίηση (Classification). Σε αυτό το βήμα χρησιμοποιούνται τα δοκιμαστικά δεδομένα (test data) για να υπολογίσουν την ακρίβεια (accuracy) του μοντέλου. Υπάρχουν διάφορες μέθοδοι για να εκτιμηθεί η ακρίβεια του κατηγοριοποιητή (classifier). Τα δεδομένα εκπαίδευσης επιλέγονται τυχαία και είναι ανεξάρτητα. Το μοντέλο κατηγοριοποιεί κάθε ένα από τα δοκιμαστικά παραδείγματα (training samples). Στη συνέχεια η κατηγορία που ανήκουν τα δεδομένα με βάση το σύνολο δοκιμαστικών δεδομένων συγκρίνεται με την πρόβλεψη που έκανε το μοντέλο για την κατηγορία. Η ακρίβεια του μοντέλου σε ένα καθορισμένο σύνολο δεδομένων δοκιμής είναι το ποσοστό των δειγμάτων δοκιμής που κατηγοριοποιήθηκαν σωστά από το υπό εκπαίδευση μοντέλο. Εάν η ακρίβεια του μοντέλου θεωρείται ως αποδεκτή, το μοντέλο μπορεί πλέον να χρησιμοποιηθεί για να κατηγοριοποιήσει τα μελλοντικά Σελίδα 17 από 83

19 δείγματα δεδομένων (αντικείμενα), των οποίων η κατηγοριοποίηση είναι άγνωστη Κατηγοριοποίηση με βάση Νευρωνικά Δίκτυα (NeuralNetworks) Μια άλλη προσέγγιση της κατηγοριοποίησης που χρησιμοποιείται σε πολλές εφαρμογές εξόρυξης γνώσης για πρόβλεψη (prediction) και κατηγοριοποίηση (classification) βασίζεται στα νευρωνικά δίκτυα. Οι μέθοδοι αυτής της προσέγγισης χρησιμοποιούν τα νευρωνικά δίκτυα για να κατασκευάσουν ένα μοντέλο κατηγοριοποίησης ή πρόβλεψης. Τα κύρια βήματα αυτής της διαδικασίας είναι: S Αναγνώριση των χαρακτηριστικών (features) εισόδου και εξόδου. S Κατασκευή ενός δικτύου με την κατάλληλη τοπολογία. S Επιλογή του σωστού συνόλου εκπαίδευσης. S Εκπαίδευση του δικτύου με βάση ένα αντιπροσωπευτικό σύνολο δεδομένων. Τα δεδομένα πρέπει να απεικονίζονται με τέτοιον τρόπο ώστε να μεγιστοποιηθεί η δυνατότητα του δικτύου να αναγνωρίζει πρότυπα. Σελίδα 18 από 83

20 S Έλεγχος του δικτύου χρησιμοποιώντας ένα σύνολο ελέγχου (test data set) το οποίο είναι ανεξάρτητο από το σύνολο εκπαίδευσης (training data set). Κατόπιν το μοντέλο που παράγεται από το δίκτυο, εφαρμόζεται για να προβλέψει τις κατηγορίες (έξοδοι - outputs) των μη κατηγοριοποιημένων δειγμάτων (είσοδοι - inputs). Τα νευρωνικά δίκτυα γίνονται ολοένα και πιο δημοφιλή στον κόσμο των επιχειρήσεων, της επιστήμης, και τον ακαδημαϊκό χώρο. Αυτό συμβαίνει επειδή έχουν ένα αποδεδειγμένο ιστορικό στην πρόβλεψη αριθμητικών ή διαδοχικών αποτελεσμάτων. Τα Νευρωνικά Δίκτυα που χρησιμοποιούνται για τον υπολογισμό, βασίστηκαν στην αρχική κατανόηση της δομής και της λειτουργίας του ανθρώπινου εγκεφάλου. Προτάθηκαν ως ένα μέσο για τον μαθηματικό υπολογισμό από τους McCulloch and Pitts (1943). Ο βασικός ισχυρισμός των νευρωνικών δικτύων είναι ότι όλες οι λειτουργίες ενός ψηφιακού υπολογιστή μπορούν να εκτελεστούν με ένα σύνολο διασυνδεδεμένων «νευρώνων». Σχήμα 1.3: Δομή νευρωνικού δικτύου Σελίδα 19 από 83

21 1.4.2 Συσταδοπ οιήσ η Η συσταδοποιήση (clustering) είναι μια από τις πιο χρήσιμες διεργασίες στη διαδικασία εξόρυξης γνώσης για την ανακάλυψη συστάδων και για τον προσδιορισμό κατανομών ή προτύπων (patterns). Το πρόβλημα της συσταδοποίησης σχετίζεται με την τμηματοποίηση (partitioning) ενός συνόλου δεδομένων σε συστάδες έτσι ώστε τα στοιχεία του συνόλου των δεδομένων που ανήκουν σε μια συστάδα να είναι περισσότερο όμοια μεταξύ τους από ότι είναι με τα στοιχεία των άλλων συστάδων. Για παράδειγμα, έστω μια βάση δεδομένων με εγγραφές λιανικών πωλήσεων. Μια διαδικασία συσταδοποίησης θα ομαδοποιούσε τους πελάτες με τέτοιον τρόπο ώστε οι πελάτες που παρουσιάζουν όμοια αγοραστικά πρότυπα να ανήκουν στην ίδια συστάδα (cluster). Έτσι, το βασικό μέλημα της διαδικασίας συσταδοποίησης είναι να αποκαλύψει την οργάνωση προτύπων σε «λογικές» συστάδες, οι οποίες θα επιτρέψουν την ανακάλυψη ομοιοτήτων και διαφορών, καθώς επίσης και την αποκόμιση χρήσιμων συμπερασμάτων γι αυτά. Η συσταδοποίηση μπορεί να βρεθεί με διαφορετικά ονόματα σε διαφορετικά πεδία, όπως μη εποπτευόμενη μάθηση (unsupervised learning) στην αναγνώριση προτύπων, αριθμητική ταξονομία (numerical taxonomy) στη βιολογία, στην οικολογία, τυπολογία (typology) στις κοινωνικές επιστήμες και τμηματοποίηση (partition) στη θεωρία των γράφων. Στη διαδικασία της συσταδοποίησης δεν υπάρχουν προκαθορισμένες κατηγορίες ούτε κάποιο παράδειγμα που θα έδειχνε ποιες επιθυμητές σχέσεις θα ήταν έγκυρες μεταξύ των δεδομένων. Για το λόγο αυτόν είναι γνωστή ως διαδικασία μη εποπτευόμενης μάθησης (η κατηγοριοποίηση είναι μια διαδικασία ανάθεσης ενός αντικειμένου από το σύνολο των δεδομένων σε μια προκαθορισμένη κατηγορία). Η συσταδοποίηση παράγει τις αρχικές κατηγορίες στις οποίες οι τιμές ενός συνόλου δεδομένων μπορούν να κατηγοριοποιηθούν κατά τη διαδικασία της κατηγοριοποίησης. Σελίδα 20 από 83

22 Η διαδικασία συσταδοποίησης μπορεί να οδηγήσει σε διαφορετικές τμηματοποιήσεις ενός συνόλου δεδομένων, ανάλογα με το κριτήριο που χρησιμοποιείται για τη συσταδοποίηση. Κατά συνέπεια, υπάρχει ανάγκη προεπεξεργασίας των δεδομένων προτού να εφαρμοστεί η διεργασία της συσταδοποίησης σε ένα σύνολο δεδομένων. Τα βασικά βήματα για την ανάπτυξη της διαδικασίας της συσταδοποίησης παρουσιάζονται στο Σχήμα 1.4 και μπορούν να συνοψιστούν στα εξής: S Επιλογή χαρακτηριστικών γνωρισμάτων. Ο στόχος είναι να επιλεγούν κατάλληλα τα γνωρίσματα στα οποία πρόκειται να εφαρμοστεί η συσταδοποίηση ώστε να κωδικοποιηθεί όσο το δυνατόν περισσότερη πληροφορία σχετικά με την εργασία που ενδιαφέρει. Κατά συνέπεια, η προεπεξεργασία των δεδομένων μπορεί να είναι απαραίτητη πριν από τη χρησιμοποίησή τους στη διαδικασία της συσταδοποίησης. S Αλγόριθμος συσταδοποίησης. Αυτό το βήμα αναφέρεται στην επιλογή ενός αλγορίθμου που οδηγεί στον καθορισμό ενός καλού σχήματος συσταδοποίησης (clustering scheme) για ένα σύνολο δεδομένων. Το μέτρο γειτνίασης και το κριτήριο συσταδοποίησης που θα χρησιμοποιηθούν, χαρακτηρίζουν ουσιαστικά τον αλγόριθμο συσταδοποίησης καθώς και τη δυνατότητά του να καθορίσει ένα σχήμα συσταδοποίησης που να ταιριάζει στο σύνολο δεδομένων. Συνεπώς το βήμα αυτό βασίζεται στα εξής: Στο μέτρο γειτνίασης (proximity measure) το οποίο προσδιορίζει πόσο «όμοια» είναι δύο αντικείμενα (δηλαδή διανύσματα γνωρισμάτων). Στις περισσότερες από τις περιπτώσεις πρέπει να εξασφαλιστεί ότι όλα τα επιλεγμένα γνωρίσματα συμβάλλουν εξίσου στον υπολογισμό του μέτρου εγγύτητας και δεν υπάρχει κανένα γνώρισμα που να υπερισχύει των άλλων. Κριτήριο συσταδοποίησης. Στο βήμα αυτό, πρέπει να καθοριστεί το κριτήριο συσταδοποίησης, το οποίο μπορεί να εκφραστεί μέσω μιας συνάρτησης κόστους ή κάποιου άλλου τύπου κανόνων. Πρέπει να τονιστεί ότι πρέπει να ληφθεί υπόψη ο τύπος των συστάδων που αναμένεται να εμφανιστούν στο σύνολο δεδομένων. Κατά συνέπεια, Σελίδα 21 από 83

23 πρέπει να καθοριστεί «ένα καλό» κριτήριο συσταδοποίησης που να οδηγεί σε μια τμηματοποίηση που να ταιριάζει καλά στο σύνολο δεδομένων. ^ Επικύρωση αποτελεσμάτων. Η ακρίβεια των αποτελεσμάτων του αλγορίθμου συσταδοποίησης εξακριβώνεται χρησιμοποιώντας τα κατάλληλα κριτήρια και τεχνικές. Εφόσον οι αλγόριθμοι συσταδοποίησης καθορίζουν τις συστάδες που δεν είναι γνωστές εκ των προτέρων, ανεξάρτητα από τις μεθόδους συσταδοποίησης, η τελική τμηματοποίηση των δεδομένων απαιτεί κάποιου είδους αξιολόγηση στις περισσότερες εφαρμογές. ^ Ερμηνεία των αποτελεσμάτων. Σε πολλές περιπτώσεις, οι εμπειρογνώμονες στην περιοχή της εφαρμογής που αναφέρεται η συσταδοποίηση πρέπει να ενσωματώσουν τα αποτελέσματα της συσταδοποίησης με άλλα πειραματικά στοιχεία καθώς και αποτελέσματα προηγούμενης ανάλυσης των υπό μελέτη στοιχείων, προκειμένου να προκύψει το σωστό συμπέρασμα. Ερμηνεία Εγκυρου: κ ι αποτελεσμάτων συσταδοποιησης Γνώση / μπιλ Επιλογή αλγορίθμου συσταδοποιησης V 0 Τελικές συστάδες Επιλογή χαρακτηριστικών Αποτελέσματα αλγορίθμων Δεδομένα προς ανάλυση Δεδομένα Σχήμα 1.4: Βήματα της διαδικασίας συσταδοποιησης Σελίδα 22 από 83

24 1.4.3 Κανόνες συσχέτισης Οι κανόνες συσχέτισης (association rules) αποτελούν μια σύγχρονη μέθοδο για την εξαγωγή γνώσης από μεγάλες βάσεις δεδομένων, καθότι πρωτοεμφανίστηκε το Οι κανόνες συσχέτισης (association rules) θεωρούνται μια από τις σημαντικότερες διεργασίες εξόρυξης δεδομένων. Έχει προσελκύσει ιδιαίτερο ενδιαφέρον καθώς παρέχουν έναν συνοπτικό τρόπο για να εκφραστούν οι ενδεχομένως χρήσιμες πληροφορίες που γίνονται εύκολα κατανοητές από τους τελικούς χρήστες. Οι κανόνες συσχέτισης ανακαλύπτουν κρυμμένες «συσχετίσεις» μεταξύ των γνωρισμάτων ενός συνόλου των δεδομένων. Αυτοί οι συσχετισμοί παρουσιάζονται στην ακόλουθη μορφή: Α^-Β όπου το Α και το Β αναφέρονται στα σύνολα γνωρισμάτων που υπάρχουν στα υπό ανάλυση δεδομένα. Αν υποτεθεί ότι δίνεται ένα σύνολο συναλλαγών S = {S1,S2,...,Sn}, όπου κάθε συναλλαγή St, είναι ένα υποσύνολο του A={A1,A2,...,AJ (At, i = \,...,k είναι οι ιδιότητες του συνόλου δεδομένων). Για ένα δεδομένο σύνολο A ca, η υποστήριξη του A, sup(a), καθορίζεται ώστε να είναι ο αριθμός συναλλαγών στο S που είναι υπερσύνολα του Α (δηλαδή το Α εμφανίζεται σε αυτές τις συναλλαγές). Εάν η υποστήριξη ενός συνόλου αντικειμένων Α είναι μεγαλύτερη από ένα καθορισμένο από το χρήστη κατώτατο όριο υποστήριξης Τ, τότε ονομάζουμε το Α ως συχνό σύνολο. Με βάση τα προηγούμενα, το πρόβλημα της εξαγωγής κανόνων συσχέτισης μπορεί να περιγραφεί ως εξής (Agrawal,Srikant, 1994, Agrawalet.al., 1996). Λαμβάνοντας υπόψη ένα σύνολο από n συναλλαγές S, κάθε υποσύνολο ενός συνόλου Α = {Α..., A}, ένα κατώτατο όριο υποστήριξης Τ και ένα κατώτατο όριο εμπιστοσύνης s, παράγονται όλοι οι κανόνες Α ^Β, όπου AcA, BcA, AH Β = 0, sup (Al B) > Τ, και Sup (ALB) / sup Σελίδα 23 από 83

25 (A) >s. Η σημασία ενός τέτοιου κανόνα, είναι ότι οι συναλλαγές στο σύνολο δεδομένων, που περιέχουν τις ιδιότητες του Α, τείνουν επίσης να περιέχουν τις ιδιότητες του Β (Srikant, Agrawal, 1995). Σημειωτέον ότι οι κανόνες συσχέτισης που εξάγονται πρέπει να μπορούν επίσης να ικανοποιούν κι άλλους περιορισμούς που καθορίζονται από το χρήστη, σχετικούς με τα μέτρα των κανόνων συσχέτισης. Λαμβάνοντας υπόψη την ανωτέρω περιγραφή, μια σημαντική δευτερεύουσα λειτουργία που συνήθως λύνεται πρώτη, είναι αυτή του υπολογισμού των συχνών συνόλων. Δηλαδή, λαμβάνοντας υπόψη ένα σύνολο συναλλαγών S, υπολογίζονται όλα τα συχνά υποσύνολα του Α (για το δεδομένο κατώτατο όριο υποστήριξης Τ). Μόλις βρεθούν τα συχνά σύνολα, το πρόβλημα του υπολογισμού των κανόνων συσχέτισης από αυτά γίνεται πολύ απλό. Για κάθε συχνό σύνολο Α, και για κάθε ΒΑ μπορεί να εξεταστεί η εμπιστοσύνη του κανόνα Α/Β ^ Β. Ο υπολογισμός (Agrawal,Srikant, 1994, Agrawalet.al., 1996) όλων των συχνών συνόλων ξεκινά με τον υπολογισμό του συνόλου των συχνών συνόλων με αριθμό στοιχείων ίσο με 1. Κατόπιν, υποθέτοντας ότι όλα τα συχνά σύνολα με πλήθος στοιχείων i είναι γνωστά, ο αλγόριθμος υπολογίζει ένα σύνολο υποψηφίων συχνών συνόλων: σύνολα στοιχείων με πλήθος στοιχείων i + 1, έτσι ώστε όλα τα υποσύνολά τους να είναι συχνά υποσύνολα. Για καθένα από τα υποψήφια συχνά σύνολα, υπολογίζει τη συχνότητά του. Αυτή η επαναληπτική διαδικασία εκτελείται έως ότου δεν βρίσκονται άλλα συχνά σύνολα. Η ακρίβεια του αλγορίθμου προκύπτει από τη φθίνουσα μονοτονία της συνάρτησης υποστήριξης: if BcAthensup(B) >sup(a). Αυτός ο αλγόριθμος έχει χρησιμοποιηθεί με διάφορες μορφές στην εύρεση των κανόνων συσχέτισης, των ακολουθιακών κανόνων (sequential rules), και των επεισοδίων. Αποδεικνύεται ότι είναι βέλτιστος για τον υπολογισμό όλων των συχνών συνόλων (Gunopulos, et.al, 1997). Οι πρόσφατες μελέτες έχουν επικεντρωθεί στους αποδοτικούς αλγορίθμους για τα μέγιστα συχνά Σελίδα 24 από 83

26 σύνολα (δηλαδή συχνά σύνολα που δεν έχουν συχνά υπερσύνολα). Δεδομένου ότι ο αριθμός μέγιστων συχνών συνόλων μπορεί να είναι εκθετικά μικρότερος από τον αριθμό συχνών συνόλων, μέχρι στιγμής τα μέγιστα συχνά σύνολα μπορούν να χαρακτηρίσουν όλα τα συχνά σύνολα, αφού τέτοιοι αλγόριθμοι μπορούν να προσφέρουν ουσιαστικές βελτιώσεις για σύνολα δεδομένων που έχουν συχνά σύνολα μεγάλου πληθικού αριθμού. Οι πρόσφατοι αλγόριθμοι εύρεσης των μέγιστων συχνών συνόλων περιλαμβάνουν τον MaxMiner (Bayardo, 1998), την Dualize-and- Advance (Gunopulos, et.al, 1997), τον FPGrowth (Han, et.al., 2000) και τον MAFIA (Budrick, et.al., 2001) Πρότυπ α Α κολουθιώ ν Η εξόρυξη προτύπων ακολουθιών (sequential patterns) είναι η εξόρυξη των συχνά εμφανιζομένων προτύπων σχετικών με το χρόνο ή άλλες ακολουθίες. Οι περισσότερες μελέτες στα πρότυπα ακολουθιών επικεντρώνονται στα συμβολικά πρότυπα. Το πρόβλημα των προτύπων ακολουθιών μπορεί να οριστεί ως εξής (Agrawal, Srikant, 1996, Mannila, et.al., 1997): Λαμβάνοντας υπόψη ένα ενδεχομένως μεγάλο πρότυπο (συμβολοσειρά) S, ενδιαφερόμαστε για τα πρότυπα ακολουθιών της μορφής a ^ b, όπου τα a, b, ab είναι υποσυμβολοσειρές μέσα στο S, τέτοιες ώστε η συχνότητα του ab να μην είναι μικρότερη από κάποια ελάχιστη υποστήριξη και η πιθανότητα ότι το a ακολουθείται αμέσως από το b να μην είναι μικρότερη από την ελάχιστη εμπιστοσύνη. Επίσης ο χρήστης μπορεί να προσδιορίσει τους περιορισμούς στα είδη των προτύπων ακολουθιών που εξάγονται με την παροχή των προσχεδίων προτύπων (template patterns) υπό μορφή σειριακών επεισοδίων, παράλληλων επεισοδίων, ή κανονικών εκφράσεων (Han, et.al., 2001). Ένα σειριακό επεισόδιο είναι ένα σύνολο γεγονότων που εμφανίζεται σε μια συνολική κατάταξη ενώ ένα παράλληλο επεισόδιο είναι Σελίδα 25 από 83

27 ένα σύνολο γεγονότων του οποίου η κατάταξη των γεγονότων είναι ασήμαντη. Για παράδειγμα, η ακολουθία Α^ Β είναι ένα σειριακό επεισόδιο που υπονοεί ότι το γεγονός Β ακολουθεί το γεγονός Α, ενώ το Α&Β είναι ένα παράλληλο επεισόδιο που δείχνει ότι τα γεγονότα Α και Β εμφανίζονται στα στοιχεία μας αλλά η κατάταξή τους δεν είναι σημαντική. Ο χρήστης μπορεί επίσης να προσδιορίσει τους περιορισμούς υπό τη μορφή κανονικών εκφράσεων. Για παράδειγμα, το template (A B)C*(D E) δείχνει ότι ο χρήστης θα επιθυμούσε να βρει πρότυπα όπου πρώτα πραγματοποιούνται τα γεγονότα Α και Β, η σχετική κατάταξή τους δεν είναι σημαντική, ακολουθούνται από το γεγονός C, το οποίο ακολουθείται από τα γεγονότα D και Ε (το D μπορεί να είναι πριν από ή μετά από το Ε). Τα ακολουθιακά δεδομένα είναι διαθέσιμα και χρησιμοποιούνται παντού στην καθημερινή και επιστημονική ζωή. Μερικά αντιπροσωπευτικά παραδείγματα είναι τα κείμενα, οι μουσικές νότες, τα δεδομένα καιρού, η ροή δεδομένων από δορυφόρους, οι επιχειρησιακές συναλλαγές, τα αρχεία τηλεπικοινωνιών, οι πειραματικές εκτελέσεις προγραμμάτων, οι ακολουθίες DNA, τα αρχεία ιατρικών ιστορικών. Η ανακάλυψη ενός προτύπου ακολουθίας μπορεί να ωφελήσει το χρήστη της επιστήμης με την πρόβλεψη των εισερχόμενων δραστηριοτήτων, την ερμηνεία των επαναλαμβανόμενων φαινομένων ή την εξαγωγή των ομοιοτήτων (Χαλκίδη, Βαζιργιάννης, 2005). Σελίδα 26 από 83

28 Σχήμα 1.5: Δικτυωτό πλέγμα που προκαλείται από τις μέγιστες ακολουθίες Τ 1 ^ Η 3 Ρ 1 ^ Ρ 2 και Η 2 ^ Ϊ 2 ^ Ϊ Π αλινδρόμηση Η Παλινδρόμηση (regression) (Berry, 1996) αναφέρεται στην εκμάθηση μιας λειτουργίας που εκχωρεί τα δεδομένα σε μια μεταβλητή η οποία παίρνει πραγματικές τιμές. Υπάρχουν πολλές εφαρμογές της οπισθοδρόμησης. Για παράδειγμα, η παλινδρόμηση μπορεί να χρησιμοποιηθεί για να υπολογίσει την πιθανότητα με την οποία ένας ασθενής θα αναρρώσει βασισμένος στα αποτελέσματα της διάγνωσης. Ένα άλλο παράδειγμα είναι η πρόβλεψη της ζήτησης για ένα νέο προϊόν σαν συνάρτηση των δαπανών διαφήμισης Συνοπτική παρουσίαση πληροφορίας Η συνοπτική παρουσίαση πληροφορίας περιλαμβάνει τη διαδικασία ανεύρεσης μιας συμπαγούς περιγραφής για ένα σύνολο δεδομένων (Barbara, et.al., 1996). Για παράδειγμα, η περιληπτική παρουσίαση της πληροφορίας θα μπορούσε να χρησιμοποιηθεί για να υπολογίσει τη μέση Σελίδα 27 από 83

29 τιμή και τη σταθερή απόκλιση για όλες τις ιδιότητες ενός συνόλου δεδομένων. Άλλες πιο περίπλοκες εφαρμογές της περιληπτικής παρουσίασης της πληροφορίας είναι η παραγωγή των συνοπτικών κανόνων, τεχνικών απεικόνισης πολλών μεταβλητών. Οι τεχνικές περιληπτικής παρουσίασης της πληροφορίας εφαρμόζονται συχνά στη διαλογική διερευνητική ανάλυση δεδομένων και την αυτοματοποιημένη παραγωγή εκθέσεων (Ρ8γγ8ά, θί.8!., 1996). Σελίδα 28 από 83

30 ΚΕΦΑΛΑΙΟ 2 ΔΕΝΔΡΑ ΑΠΟΦΑΣΕΩΝ 2.1 ΤΙ ΕΙΝΑΙ ΤΑ ΔΕΝΔΡΑ ΑΠΟΦΑΣΕΩΝ Τα δένδρα αποφάσεων (ϋθοίβιοπ ΤΓθθ8)είναι μια από τις ευρέως χρησιμοποιούμενες τεχνικές για την κατηγοριοποίηση και την πρόβλεψη. Διάφοροι δημοφιλείς κατηγοριοποιητές κατασκευάζουν τα δένδρα αποφάσεων ως μοντέλα κατηγοριοποίησης (Χαλκίδη, Βαζιργιάννης, 2005). Η μάθηση των Δένδρων Αποφάσεων, που χρησιμοποιούνται στην εξόρυξη δεδομένων, χρησιμοποιεί ένα δένδρο απόφασης ως μοντέλο πρόβλεψης, που χαρτογραφεί παρατηρήσεις σχετικά με ένα στοιχείο σε συμπεράσματα σχετικά με την τιμή στόχο του στοιχείου. Σε αυτές τις δενδρικές δομές, τα φύλλα αντιπροσωπεύουν ταξινομήσεις και τα κλαδιά αντιπροσωπεύουν συνδέσμους χαρακτηριστικών που οδηγούν σε αυτές τις ταξινομήσεις. Ο στόχος είναι να δημιουργηθεί ένα μοντέλο που προβλέπει την τιμή μιας μεταβλητής στόχου βασισμένο σε διάφορες μεταβλητές εισόδου (Nisbet, et.al., 2009). Το δένδρο απόφασης έχει τρεις τύπους κόμβων: Ο κόμβος ρίζα που δεν έχει εισερχόμενες ακμές και μηδέν ή περισσότερες εξερχόμενες. Εσωτερικοί κόμβοι καθένας από τους οποίους έχει ακριβώς μια εισερχόμενη ακμή και δύο ή περισσότερες εξερχόμενες. Φύλλα ή τερματικοί κόμβοι καθένας από τους οποίους έχει ακριβώς μία εισερχόμενη ακμή και καμία εξερχόμενη. Σελίδα 29 από 83

31 Σχήμα 2.1: Δομή Δένδρου Απόφασης Επεξήγηση Σχήματος: ΚΑ είναι ένας κόμβος απόφασης (τετράγωνο). ΚΠ1 και ΚΠ2 είναι κόμβοι πιθανότητας (κύκλος). Οι δεσμοί α1, α2 συμβολίζουν τις εναλλακτικές ενέργειες. Ρ1, Ρ2 είναι οι πιθανότητες να εμφανιστούν τα γεγονότα Γ1 και Γ2 αντίστοιχα. Οι τερματικοί κόμβοι ΚΤ1,...,ΚΤ4 συμβολίζουν τα αποτελέσματα (κέρδη) που θα προκύψουν από τα αντίστοιχα γεγονότα (τρίγωνο). ΑΧΚ είναι το αναμενόμενο χρηματικό κέρδος (expected monetary value). Κάθε εσωτερικός κόμβος αντιστοιχεί σε μία από τις μεταβλητές εισόδου: υπάρχουν άκρες σε κάθε μία από τις πιθανές τιμές αυτής της μεταβλητής εισόδου. Κάθε φύλλο αντιπροσωπεύει μια τιμή της μεταβλητής στόχου δεδομένων των τιμών των μεταβλητών εισόδου που αντιπροσωπεύεται από το μονοπάτι από τη ρίζα ως το φύλλο(nisbet, et.al., 2009). Οι μη τερματικοί κόμβοι, οι οποίοι περιλαμβάνουν τη ρίζα και άλλους εσωτερικούς κόμβους, περιέχουν συνθήκες ελέγχου χαρακτηριστικών για να διαχωρίζουν τις εγγραφές που έχουν διαφορετικά γνωρίσματα. Ένα δένδρο μπορεί να «μάθει» από τη διάσπαση της πηγής σε υποσύνολα, με βάση ένα τεστ τιμής παραμέτρου. Αυτή η διαδικασία επαναλαμβάνεται σε κάθε υποσύνολο και ονομάζεται αναδρομική Σελίδα 30 από 83

32 διαμέριση. Η αναδρομή ολοκληρώνεται όταν το υποσύνολο σε έναν κόμβο, έχει την ίδια τιμή με την τιμή της μεταβλητής στόχου, ή όταν η επιπλέον διάσπαση δεν προσθέτει αξία στις προβλέψεις. Στην ανάλυση αποφάσεων, ένα δένδρο απόφασης μπορεί αν χρησιμοποιηθεί για να αντιπροσωπεύσει οπτικά και ρητά τις αποφάσεις και τη λήψη αποφάσεων. Στην εξόρυξη δεδομένων, το δένδρο απόφασης περιγράφει τα δεδομένα αλλά όχι τις αποφάσεις (Νίβόθί, θί.8!., 2009). Η κατηγοριοποίηση μιας εγγραφής ελέγχου είναι απλή από τη στιγμή που δημιουργείται το δένδρο απόφασης. Ξεκινώντας από τον κόμβο ρίζα, εφαρμόζεται η συνθήκη ελέγχου στην εγγραφή και ακολουθείται η κατάλληλη διακλάδωση με βάση τα αποτελέσματα του ελέγχου. Αυτό θα οδηγήσει είτε σε έναν άλλο εσωτερικό κόμβο, για τον οποίο εφαρμόζεται μια νέα συνθήκη ελέγχου, είτε σε ένα φύλλο. Η ετικέτα κατηγορίας που σχετίζεται με τον κόμβο φύλλο αποδίδεται στη συνέχεια στην εγγραφή. 2.2 ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΚΑΙ ΜΕΙΟΝΕΚΤΗΜΑΤΑ ΔΕΝΔΡΩΝ ΑΠΟΦΑΣΕΩΝ Υπάρχουν πολλά πλεονεκτήματα των δένδρων αποφάσεων ως εργαλείο ταξινόμησης. Πιο συγκεκριμένα: ^ Τα δένδρα αποφάσεων είναι αυτονόητα και ακόμη και συμπιεσμένα μπορούν εύκολα να ακολουθηθούν. Με άλλα λόγια, εάν ένα δένδρο έχει έναν λογικό αριθμό φύλλων, μπορεί να γίνει αντιληπτό από μη επαγγελματίες χρήστες. Επιπλέον, τα δένδρα αποφάσεων μπορούν να μετατραπούν σε σύνολο κανόνων. ^ Τα δένδρα αποφάσεων μπορούν να χειριστούν τόσο ονομαστικά όσο και αριθμητικά χαρακτηριστικά εισόδου. ^ Η αναπαράσταση των δένδρων αποφάσεων είναι αρκετά πλούσια ώστε να αντιπροσωπεύουν οποιοδήποτε ταξινομητή διακριτής αξίας. ^ Τα δένδρα αποφάσεων είναι σε θέση να χειρίζονται σύνολα δεδομένων που μπορεί να έχουν λάθη. Σελίδα 31 από 83

33 ^ Τα δένδρα αποφάσεων είναι σε θέση να χειρίζονται σύνολα δεδομένων από τα οποία μπορεί να λείπουν τιμές. ^ Τα δένδρα αποφάσεων θεωρούνται ως μία μη παραμετρική μέθοδος. Αυτό σημαίνει ότι τα δένδρα αποφάσεων δεν έχουν παραδοχές σχετικά με την κατανομή χώρου και τη δομή του ταξινομητή. Αφετέρου, τα δένδρα αποφάσεων έχουν και μειονεκτήματα, όπως: οι περισσότεροι από τους αλγορίθμους ^ 4.5 και ^ 3 ) απαιτούν το χαρακτηριστικό προορισμού να έχει μόνο διακριτές τιμές. δένδρα αποφάσεων έχουν την τάση να εκτελούνται καλά εάν υπάρχουν μερικά πολύ σημαντικά χαρακτηριστικά, αλλά όχι τόσο καλά εάν είναι παρούσες πολλές πολύπλοκες αλληλεπιδράσεις. Μία από τις αιτίες είναι ότι άλλοι ταξινομητές μπορούν να περιγράψουν συμπαγώς έναν ταξινομητή που θα ήταν πολύ δύσκολο να εκπροσωπηθεί με τη χρήση ενός δένδρου απόφασης. το άπληστο χαρακτηριστικό των δένδρων αποφάσεων οδηγεί σε ένα άλλο μειονέκτημα που είναι η υπερευαισθησία τους στο σετ εκπαίδευσης, σε άσχετα χαρακτηριστικά και στον θόρυβο (Νίβόθί, θί.8!., 2009). 2.3 ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΑΣΚΕΥΗΣ ΔΕΝΔΡΩΝ ΑΠΟΦΑΣΕΩΝ Κατά τη διάρκεια των τελευταίων ετών έχουν αναπτυχθεί διάφοροι αλγόριθμοι κατασκευής των δένδρων αποφάσεων. Μερικοί από τους πιο γνωστούς αλγορίθμους που προτείνονται στη βιβλιογραφία είναι οι: ID3 (Mitchell, 1997), C4.5 (Quinlan, 1993), SPRINT (Shafer,et.al., 1996), SLIQ (Melta, 1996), CHAID, CART (Breiman, et.al., 1984),, κ.λπ. Γενικά, οι περισσότεροι από τους αλγόριθμους έχουν δύο διακριτές φάσεις: τη φάση οικοδόμησης (building phase,) και τη φάση περικοπής (pruning phase) (Mitchell, 1997). Στη φάση οικοδόμησης, το σύνολο των δεδομένων εκπαίδευσης χωρίζεται κατ επανάληψη μέχρις ότου όλα τα δείγματα σε Σελίδα 32 από 83

34 ένα τμήμα (partition) να ανήκουν στην ίδια κατηγορία. Το αποτέλεσμα είναι ένα δένδρο που κατηγοριοποιεί κάθε στοιχείο του συνόλου εκπαίδευσης. Ωστόσο, το δένδρο που κατασκευάζεται μπορεί να είναι ευαίσθητο στις στατιστικές παρατυπίες (irregularities) του συνόλου κατάρτισης. Κατά συνέπεια, οι περισσότεροι από τους αλγορίθμους εκτελούν μια φάση περικοπής μετά από τη φάση κατασκευής του δένδρου, στην οποία οι κόμβοι περικόπτονται για να αποτραπούν οι επικαλύψεις και για να δημιουργηθεί ένα δένδρο με υψηλότερη ακρίβεια (Χαλκίδη, Βαζιργιάννης, 2005). Οι διάφοροι αλγόριθμοι κατασκευής δένδρων αποφάσεων χρησιμοποιούν διαφορετικούς αλγορίθμους για την επιλογή του κριτηρίου ελέγχου για την κατηγοριοποίηση ενός συνόλου δεδομένων (Rastori, 1998). Ένας από τους πιο πρόσφατους αλγορίθμους, ο CLS, εξετάζει όλα τα δυνατά δένδρα αποφάσεων σ ένα συγκεκριμένο βάθος (Rastori, 1998). Στη συνέχεια επιλέγει τον έλεγχο που ελαχιστοποιεί το υπολογιστικό κόστος κατηγοριοποίησης ενός στοιχείου. Ο ορισμός αυτού του κόστους αποτελείται από το κόστος καθορισμού των τιμών των χαρακτηριστικών για έλεγχο καθώς και το κόστος λανθασμένης κατηγοριοποίησης. Οι αλγόριθμοι ID3 (Mitchell, 1997) και C4.5 (Quinlan, 1993), βασίζονται σε μια στατιστική ιδιότητα, καλούμενη κέδρος πληροφορίας (information gain), προκειμένου να επιλέξουμε το γνώρισμα που θα ελέγξουμε σε κάθε κόμβο του δένδρου. Ο ορισμός του μέτρου βασίζεται στην εντροπία, η οποία χαρακτηρίζει την καθαρότητα μιας αφηρημένης επιλογής των δειγμάτων. Εναλλακτικά οι αλγόριθμοι όπως ο SLIQ (Melta, 1996), SPRINT (Shafer,et.al., 1996), επιλέγουν το γνώρισμα που θα ελεγχθεί με βάση το δείκτη GINI και όχι το μέτρο εντροπίας. Το καλύτερο γνώρισμα για τον έλεγχο (δηλαδή το γνώρισμα που δίνει την καλύτερη τμηματοποίηση) δίνει τη χαμηλότερη τιμή για το δείκτη GINI. Στη συνέχεια θα αναλυθούν οι κυριότεροι αλγόριθμοι των δένδρων αποφάσεων. Σελίδα 33 από 83

35 2.3.1 Αλγόριθμος ID3 Ο αλγόριθμος ID3 θεωρείται ένας από τους βασικούς αλγορίθμους κατηγοριοποίησης. Στη συνέχεια παρουσιάζονται τα βασικά βήματα για τη δημιουργία ενός δένδρου απόφασης με βάση τον αλγόριθμο ID3. Είσοδος: Δείγματα εκπαίδευσης τα οποία παρουσιάζονται με διακριτές τιμές γνωρισμάτων. Έξοδος: Δένδρο Απόφασης Διαδικασία: Βήμα 1ο: Το δένδρο ξεκινάει με ένα μόνο κόμβο που αντιπροσωπεύει ολόκληρο το σύνολο των δεδομένων εκπαίδευσης. Βήμα 2ο: Αν τα δείγματα είναι όλα της ίδιας κατηγορίας, τότε ο κόμβος γίνεται φύλλο και προστίθεται η ετικέτα της κατηγορίας. Βήμα 3ο: Ο αλγόριθμος χρησιμοποιεί ένα μέτρο εντροπίας, γνωστό σαν κέρδος πληροφορίας, για την επιλογή των γνωρισμάτων που διαχωρίζουν καλύτερα τα δείγματα στις διαφορετικές κατηγορίες. Στη συνέχεια το κέρδος πληροφορίας υπολογίζεται για κάθε γνώρισμα. Το γνώρισμα με το μέγιστο κέρδος πληροφορίας επιλέγεται σαν γνώρισμα ελέγχου. S Επιλογή γνωρίσματος. Έστω S το σύνολο των s δειγμάτων δεδομένων. Υποθέτοντας ένα σύνολο m κατηγοριών Ο, (για i = 1,2,..., m), η αναμενόμενη πληροφορία που απαιτείται για την κατηγοριοποίηση του ενός δείγματος δίνεται από την εξίσωση: m i =1 όπου β, είναι ο αριθμός των δειγμάτων στην κατηγορία Ο, και ρ είναι η πιθανότητα ένα δείγμα να ανήκει στην κατηγορία Ο,, ρ = 5. /β. Έστω Α ένα γνώρισμα που έχει ν διακριτές τιμές {αι α2,..., αν}. Το Α μπορεί να χρησιμοποιηθεί για το διαχωρισμό του β σε ν υποσύνολα {βΐ;82,..., 8ν}, όπου β] περιέχει εκείνα τα δείγματα του β που έχουν την Σελίδα 34 από 83

36 τιμή η για το γνώρισμα Α. Η αναμενόμενη πληροφορία που με βάση το διαχωρισμό του β σε υποσύνολα από την Α ορίζεται ως εξής: και, Σ»» (Λ ) = ϊ,,) 1 =1 Μ ( \ όπου βή είναι ο αριθμός των δειγμάτων στο Ο,, σε ένα υποσύνολο ^ και β είναι ο αριθμός των δειγμάτων στο β. Η σχέση βι/ι^! είναι η πιθανότητα ότι ένα δείγμα στο ^ ανήκει στην κατηγορία Ο,. Η πληροφορία που κερδίζεται με τη διακλάδωση του Α είναι: Βήμα 4ο: Ένας κόμβος δημιουργείται και χαρακτηρίζεται γνώρισμα ελέγχου (ΐΘβΐ8ΚπόϋΐΘ), όσο δημιουργούνται κλαδιά για κάθε τιμή του. Στη συνέχεια το δείγμα δεδομένων διαχωρίζεται αναλόγως. Βήμα 5ο: Ο αλγόριθμος εφαρμόζεται συνεχώς για τη μορφοποίηση ενός δένδρου απόφασης με βάση τα δείγματα σε κάθε προκαθορισμένη κατηγορία. Ο συνεχής διαχωρισμός σταματάει μόνο όταν κάποια από τις παρακάτω συνθήκες ικανοποιείται: Όλα τα δείγματα του δοσμένου κόμβου ανήκουν στην ίδια κατηγορία, ή Δεν υπάρχουν άλλα γνωρίσματα με βάση τα οποία τα δείγματα θα μπορούσαν να διαχωριστούν περαιτέρω, ή Δεν υπάρχουν μη κατηγοριοποιημένα δείγματα για το κλαδί του γνωρίσματος ελέγχου (ΜΙίοήΘ!!, 1997). Σελίδα 35 από 83

37 2.3.2 Αλγόριθμος C4.5 Ο αλγόριθμός αυτός εφαρμόζει μια απλή κατά βάθος μέθοδο για την κατασκευή του δένδρου. Τα γνωρίσματα κάθε κόμβου του δένδρου μπορούν να έχουν συνεχείς τιμές. Ωστόσο, για να λειτουργήσει σωστά χρειάζεται ολοκληρωμένα δεδομένα. Ο αλγόριθμός C4.5 (Quinlan, 1993) κρίνεται ακατάλληλος για μεγάλα σύνολα δεδομένων, αφού η ακρίβεια (accuracy) που παρουσιάζει είναι πολύ μικρή Αλγόριθμος SPRINT Το σύνολο των γνωρισμάτων προ-κατηγοριοποιούνται. Η κατηγοριοποίηση αυτή διατηρείται σε όλη τη διάρκεια του διαχωρισμού. Το δένδρο απόφασης αυξάνεται με μια κατά-εύρος μέθοδο και τα γνωρίσματα διαχωρίζονται μεταξύ των κόμβων. Η καθοριστική φάση του διαχωρισμού είναι μια γραμμική ανίχνευση των καταλόγων σε κάθε κόμβο και για το σκοπό αυτό χρησιμοποιείται ένα hashing σχήμα. Ακολουθούν τα κυριότερα μειονεκτήματα του αλγορίθμου: S Το μέγεθος του hash πίνακα είναι συνήθως Ο(Ν) για τα επάνω επίπεδα του δένδρου. S Αν ο hash πίνακας δεν χωράει στη μνήμη, γεγονός το οποίο είναι πολύ πιθανό για μεγάλες βάσεις δεδομένων, τότε διασπάται σε μικρότερα κομμάτια. Αυτό έχει σαν αποτέλεσμα πολλαπλά και ακριβά περάσματα εισόδου - εξόδου από ολόκληρη τη βάση δεδομένων (Shafer,et.al., 1996) Αλγόριθμος βυθ Σύμφωνα με την προσέγγιση αυτή εφαρμόζεται ένα αρχικό στάδιο κατηγοριοποίησης των γνωρισμάτων (προ-κατηγοριοποίηση). Το δένδρο κατηγοριοποίησης αυξάνεται με μια κατα-εύρος μέθοδο. Αρχικά ορίζεται ο Σελίδα 36 από 83

38 κόμβος ρίζα του δένδρου. Κατά τη διάρκεια της φάσης του διαχωρισμού, γίνεται χρήση της λίστας κατηγοριών προκειμένου να υπολογιστεί ο καλύτερος δυνατός διαχωρισμός για κάθε γνώρισμα. Ο κατάλογος του τρέχοντος κάθε φορά γνωρίσματος χρησιμοποιείται για να ενημερώσει τις αντίστοιχες ετικέτες των φύλλων (οι οποίες αντιστοιχούν στις κατηγορίες). Αφού διαχωριστεί ένας κόμβος, οι είσοδοι της λίστας κατηγοριών τροποποιούνται για να υποδείξουν τον κόμβο στον οποίον ανήκει η εγγραφή. Ο αλγόριθμος αυτός έχει το μειονέκτημα, ότι γίνεται συχνή προσπέλαση των κατηγοριών και μάλιστα με τυχαίο τρόπο και από τις δύο φάσεις της επαγωγής του δένδρου. Για το λόγο αυτόν, πρέπει να βρίσκεται στη μνήμη συνεχώς προκειμένου να επιτευχθεί μια καλή απόδοση. Αυτό, όμως, περιορίζει το μέγιστο επιτρεπτό μέγεθος του συνόλου εκπαίδευσης (trainingset) (Melta, 1996) Αλγόριθμος CHAID Chi-Squared Automatic Interaction Detection (CHAID) είναι μια τεχνική του δένδρου απόφασης ή δένδρου παλινδρόμησης. Είναι το καλύτερο εργαλείο που χρησιμοποιείται για να ανακαλύψει τη σχέση μεταξύ των μεταβλητών. Η ανάλυση CHAID καθορίζει πως οι μεταβλητές συνδυάζονται καλύτερα για να εξηγήσουν το αποτέλεσμα στις δεδομένες εξαρτημένες μεταβλητές. Χρησιμοποιεί κατηγορικά ή τακτικά δεδομένα. Η τεχνική CHAID μετατρέπει συνεχή δεδομένα σε τακτικά δεδομένα κατά τη διάρκεια της ανάλυσης. Η καλύτερη χρήση της ανάλυσης CHAID στους πίνακες έκτακτης ανάγκης είναι να αποφασιστεί ποια μεταβλητή έχει τη μέγιστη ανικανότητα στην κατάταξη. Έχει επίσης τη δυνατότητα να χτίσει μη-δυαδικά δένδρα ταξινόμησης. Αυτό είναι που πάνω από δύο κλάδοι μπορούν να περάσουν από τον κόμβο. Στην τεχνική CHAID, μπορούμε να δούμε οπτικά τη σχέση μεταξύ της μεταβλητής και του συνδεδεμένου σχετικού παράγοντα με ένα δένδρο (Nisbet, et.al., 2009). Σελίδα 37 από 83

Δείτε περισσότερα