ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ Τμήμα Μαθηματικών και Τμημα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ «Data Mining στην Χρηματοοικονομική Ανάλυση» Μεταπτυχιακός Φοιτητής: Παγουρόπουλος Απόστολος ΑΜ: 150 Επιβλέπων Καθηγητής: Βουτσινάς Βασίλης Πάτρα 17 Οκτωβρίου 2006

2 ΠΕΡΙΕΧOΜΕΝΑ ΕΡΓΑΣΙΑΣ Πρόλογος σελ 2 0. Εισαγωγή σελ 3 Ά μέρος 1. Λίγα για την Τεχνητή Νοημοσύνη σελ 4 2. Η τεχνική Data Mining / Εξόρυξη από Δεδομένα σελ Τα στάδια της διαδικασίας Data Mining σελ Μέθοδοι της τεχνικής Data Mining σελ Ταξινόμηση (Classification) σελ Ομαδοποίηση (Clustering) σελ Oμαδοποιώντας μεγάλα σύνολα / Clustering large datasets σελ Συσχέτιση (Dependency Modeling) σελ Άλλες μέθοδοι Data Mining σελ Εφαρμογές της μεθόδου Data Mining σε διάφορα επιστημονικά πεδία σελ 44 Β μέρος Εφαρμογές Data Mining στο χρηματοοικονομικό περιβάλλον Ενότητα Ά 1. Δημιουργώντας ένα μοντέλο πρόβλεψης σελ Σημαντικές μορφές μοντέλων πρόβλεψης Data Mining σελ Το στατιστικό μοντέλο ARIMA, ARIMA model σελ Relational Data Mining σελ 61

3 2.3. Αξιοποιώντας χρονοσειρές που αφορούν την συμπεριφορά μετοχών / Stock time series pattern matching: Template-based vs. Rule-based approaches σελ Μοντέρνες μεθοδολογίες για την Ανεύρεση Γνώσης στα χρηματοοικονομικά σελ 70 Ενότητα Β 3. Προκλήσεις που πηγάζουν από τα χρηματοοικονομικά σελ Πτώχευση σελ Πιστωτικός κίνδυνος επιχειρήσεων σελ Διαχείριση και επιλογή χαρτοφυλακίου σελ Μεταβλητότητα σελ Διαχείριση πιστώσεων (εμπορικές πιστώσεις) σελ Βιωσιμότητα των επιχειρήσεων σελ 88 Γ μέρος Πειραματικά αποτελέσματα σε πραγματικά δεδομένα Α. Εφαρμόζοντας την μέθοδο της Συσχέτισης για θέματα Διαχείρισης Χαρτοφυλακίου σελ 93 Β. Εφαρμόζοντας τις μεθόδους Ταξινόμησης και Ομαδοποίησης στην Χρηματοοικονομική Ανάλυση για θέματα Βιωσιμότητας και Πτώχευσης των επιχειρήσεων σελ 119 Β1. Εφαρμόζοντας την μέθοδο της Ταξινόμησης στην Χρηματοοικονομική Ανάλυση σελ 123 Β2. Εφαρμόζοντας την μέθοδο της Ομαδοποίησης στην Χρηματοοικονομική Ανάλυση σελ Συμπεράσματα, μελλοντικές προκλήσεις σελ 162 Βιβλιογραφία / Πηγές σελ 163

4

5 Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών «Μαθηματικά των Υπολογιστών και των Αποφάσεων» Επιβλέπων: Βασίλης Βουτσινάς Τριμελής επιτροπή: Βασίλης Βουτσινάς, Ιωάννης Χατζηλυγερούδης, Κωνσταντίνος Τσεκούρας Μεταπτυχιακός: Παγουρόπουλος Απόστολος ΑΜ:150 Περίληψη της διπλωματικής εργασίας: Data Mining στην Xρηματοοικονομική Ανάλυση Η εργασία με τίτλο Data Mining στην Χρηματοοικονομική Ανάλυση, έχει σαν στόχο να αναδείξει τον βαθμό που μπορούν οι μέθοδοι Data Mining να αξιοποιήσουν τα οποιαδήποτε οικονομικά δεδομένα και να εξάγουν χρήσιμα συμπεράσματα και γνώση. Στο περιεχόμενο της εργασίας παρουσιάζεται η σημασία και η έννοια της τεχνικής Data Mining, περιγράφονται οι σημαντικότερες μέθοδοι (Ταξινόμηση, Ομαδοποίηση, Συσχέτιση) καθώς και πληροφορίες για τα διάφορα πεδία που εφαρμόζεται. Στην συνέχεια παραθέτονται στοιχεία σχετικά με την εφαρμογή της μεθόδου σε οικονομικά δεδομένα καθώς και στους τρόπους επεξεργασίας αυτών των δεδομένων και εστιάζουμε σε ζητήματα που απασχολούν την σύγχρονη οικονομία και στο πως αντιμετωπίζονται. Τέλος έχουν συλλεχθεί οικονομικά στοιχεία από εταιρείες οι οποίες έχουν πτωχεύσει και από εταιρείες που συνεχίζουν να λειτουργούν, καθώς και από μετοχές τραπεζών τα οποία θα χρησιμοποιηθούν για την εκπαίδευση αλγορίθμων Ταξινόμησης, Ομαδοποίησης και Συσχέτισης όπου από τους ελέγχους που θα διενεργηθούν, θα εξαχθούν συμπεράσματα σχετικά με το πόσο ικανοποιητικά είναι τα αποτελέσματα που λάβαμε για την αντιμετώπιση θεμάτων όπως η πτώχευση, η βιωσιμότητα οικονομικών οργανισμών και η μελέτη στοιχείων που αφορούν την συμπεριφορά των μετοχών. Λέξεις κλειδιά: Data Mining, Ταξινόμηση, Ομαδοποίηση, Συσχέτιση, αλγόριθμοι, μετοχές, πτώχευση, βιωσιμότητα, αριθμοδείκτες. Summary of project: Data Mining in Financial Analysis This project is about Data Mining methods and how we can use them in Financial Analysis. We describe the most popular methods, such as Classification, Clustering and Association. In addition, we focus on ways of financial data preprocessing and on topics that concern finance in general. Finally we use real financial data in order to train algorithms of all methods to extract knowledge and test the quality of results we earn, in topics that concern enterprises like financial / economic failure, viability, and stock market analysis. Keywords: Data Mining, Classification, Clustering / Cluster Analysis, Association, algorithms, financial / economic failure, viability, stock market analysis.

6

7 Η εργασία αυτή υλοποιήθηκε ώστε να διερευνηθεί η σχέση που μπορεί να υπάρξει μεταξύ των τεχνικών Data Mining / Εξόρυξη από Δεδομένα και της Χρηματοοικονομικής Ανάλυσης. Συλλέχτηκαν πληροφορίες για την θεωρητική θεμελίωση την τεχνικής Data Mining, από διάφορα επιστημονικά συγγράμματα, ώστε να γίνει μία όσο το δυνατόν πληρέστερη παρουσίασή της. Στην συνέχεια επελέγησαν κάποια πεδία της οικονομίας γενικότερα, τα οποία θεωρήθηκαν ως πρωταρχικής σημασίας για έρευνα, όπως η πτώχευση, η βιωσιμότητα επιχειρήσεων, και η διαχείριση χαρτοφυλακίου, η διαχείριση πιστώσεων κα τα οποία αναλύθηκαν και παρουσιάστηκαν πληροφορίες γύρω από αυτά. Κατέστει δυνατή η συλλογή ικανοποιητικών δεδομένων μόνο για την πτώχευση, την βιωσιμότητα και την διαχείριση χαρτοφυλακίου και επομένως οι εφαρμογές που έγιναν εστιάστηκαν στα πεδία αυτά. Άλλωστε από οικονομικής φύσεως θεωρούνται και από τα σημαντικότερα. Αυτά τα στοιχεία αξιοποιήθηκαν και επεξεργάστηκαν βάσει κάποιων τεχνικών και ενός αλγορίθμου κατηγοριοποίησης. Στόχος και πρόκληση ήταν να δούμε πόσο καλά μπορούν να αξιοποιηθούν αυτά μέσω των ανάλογων τεχνικών, (Ομαδοποίηση, Συσχέτιση, Ταξινόμηση), να εντοπιστούν σχέσεις και τάσεις που μπορεί να φαντάζουν παράξενες και πρωτόγνωρες, και τέλος να εξαχθούν χρήσιμα συμπεράσματα και γνώση, καθώς και να διαπιστωθεί ο βαθμός που τα αποτελέσματα συμβαδίζουν με την υπάρχουσα χρηματοοικονομική θεωρία.

8 Πρόλογος Η εργασία αυτή έχει ως στόχο να αναδείξει την σχέση που μπορεί να υπάρξει ανάμεσα στην Χρηματοοικονομική και Διοικητική επιστήμη και σε αυτήν της Τεχνητής Νοημοσύνης, εστιάζοντας κυρίως στο κατά πόσο η δεύτερη μπορεί να δώσει λύσεις σε καίρια ζητήματα, προβλήματα αλλά και προκλήσεις που παρουσιάζονται στο σύγχρονο οικονομικό περιβάλλον. Το μέσο για την εκπλήρωση αυτού του στόχου είναι οι τεχνικές Data Mining, που στα ελληνικά σαν όρος, αποδίδονται ως Τεχνικές Εξόρυξης Δεδομένων. Για την υλοποίηση της εργασίας αυτής, σαν πηγές χρησιμοποιήθηκαν πολλά επιστημονικά βιβλία που σχετίζονται με την Διοίκηση των Επιχειρήσεων, τα Χρηματοοικονομικά, την Τεχνητή Νοημοσύνη και τις μεθόδους Data Mining, τις Πολυκριτήριες Τεχνικές Ταξινόμησης αλλά και την Στατιστική. Το αποτέλεσμα από τον συνδυασμό των παραπάνω θα παρουσιαστεί στις σελίδες που θα ακολουθήσουν. Δεδομένου ότι δεν υπήρχε πλούσιο υλικό σχετικά με την εργασία έγινε η καλύτερη δυνατή προσπάθεια για την ενοποίηση των πληροφοριών και την όσο το δυνατό ικανοποιητικότερη σύνδεση μεταξύ τους, ώστε να είναι σε θέση ο κάθε ενδιαφερόμενος που θα μελετήσει την εργασία να αποκομίσει χρήσιμες πληροφορίες και γνώση. 2

9 0. Εισαγωγή Ο 20 Ος αιώνας έχει χαρακτηριστεί από πολλούς, ειδικούς και μη, συγκεκριμένα και άλλες φορές αυθαίρετα, ως ο αιώνας της πληροφορίας. Εκείνοι οι οποίοι είναι σε θέση και έχουν την ικανότητα να συλλέγουν πληροφορίες και δεδομένα, και έπειτα να τα αναλύουν και να τα αξιοποιούν, μοιραία είναι σε θέση να πρωταγωνιστήσουν σε όποιο πεδίο δραστηριοποιούνται. Η πληροφορία και η αξιοποίησή της, καθώς και η ανάλυση διάφορων δεδομένων τα οποία μπορούν να συλλεχθούν δίνουν την δυνατότητα σε κάθε ενδιαφερόμενο να αποκτήσει ένα ανταγωνιστικό πλεονέκτημα στον χώρο στον οποίο δραστηριοποιείται και να πάρει τις βέλτιστες αποφάσεις σε θέματα και διλήμματα που τον αφορούν. Αυτού του είδους οι αναλύσεις, που λαμβάνουν χώρα σε ποιοτικά αλλά και αριθμητικά δεδομένα γίνονται, ανάμεσα σε άλλες και με την βοήθεια της επιστήμης της Τεχνητής Νοημοσύνης, και πιο συγκεκριμένα με την χρήση των τεχνικών Data Mining, οι οποίες δίνουν την δυνατότητα εξαγωγής κανόνων μέσω των ηλεκτρονικών υπολογιστών. Στην συγκεκριμένη εργασία θα δούμε πως μπορούν οι τεχνικές αυτές να αποδώσουν στο χρηματοοικονομικό περιβάλλον, αλλά και γενικότερα στην οικονομία και να αντιμετωπίσουν προβλήματα όπως η πτώχευση των επιχειρήσεων, θέματα διαχείρισης χαρτοφυλακίου και πρόβλεψης της πορείας (όσον αφορά την τιμή) χρηματοοικονομικών προϊόντων, καθώς και πληροφορίες γύρω από την βιωσιμότητα των επιχειρήσεων. Η εργασία αρχικά θα αναφερθεί συνοπτικά στην επιστήμη της Τεχνητής Νοημοσύνης, έπειτα θα εστιάσει στις τεχνικές Data Mining, και στην συνέχεια θα επικεντρώσει σε θέματα οικονομίας που είναι ζωτικής σημασίας για οικονομικούς οργανισμούς αναφέροντας και παρουσιάζοντας έννοιες και στοιχεία που χαρακτηρίζουν αυτά, θα επισημάνει τρόπους και μεθόδους επίλυσης και αντιμετώπισης που προέρχονται από άλλα επιστημονικά πεδία, και τέλος μέσω κάποιων εφαρμογών με την βοήθεια αλγορίθμων οι οποίοι θα εφαρμοστούν σε οικονομικά στοιχεία που έχουν συλλεχθεί, θα καταλήξουμε στο κατά πόσο είναι ικανές αυτές οι τεχνικές στην αντιμετώπιση τέτοιων ζητημάτων. 3

10 Ά ΜΕΡΟΣ 1. Λίγα για την Τεχνητή Νοημοσύνη Το να δοθεί ένας ακριβής ορισμός γύρω από τον όρο Τεχνητή Νοημοσύνη, δεν είναι κάτι εύκολο και απλό. Αντίθετα κατά πολλούς είναι πολύπλοκο και σύνθετο καθώς η έννοια της λέξης «νοημοσύνη», πραγματικά προσεγγίζεται από πάρα πολλά σημεία. Ο Marvin Minsky υποστήριξε πως Τεχνητή Νοημοσύνη είναι η επιστήμη του να κάνεις τις μηχανές να κάνουν πράγματα που θα απαιτούσαν αν εγένετο από έναν άνθρωπο. Ένας άλλος ορισμός αναφέρει πως Τεχνητή Νοημοσύνη είναι η μελέτη του πώς να κάνουμε τους ηλεκτρονικούς υπολογιστές να κάνουν πράγματα για τα οποία, προς το παρόν, οι άνθρωποι είναι καλύτεροι (Elaine Rich 1983). Επίσης, διάσταση απόψεων υπάρχει και στο εάν η Τεχνητή Νοημοσύνη αποτελεί επιστήμη ξεχωριστή, ή απλά είναι ένας κλάδος της επιστήμης των υπολογιστών. [.1] Εμείς εδώ, θα θεωρήσουμε ότι η Τεχνητή Νοημοσύνη αποτελεί επιστήμη η οποία έχει σαν μοναδικό μέσο πειραματισμού τους ηλεκτρονικούς υπολογιστές. Η Τεχνητή Νοημοσύνη γεννήθηκε στις αρχές της δεκαετίας του 1940, με το ενδιαφέρον να περιστρέφεται στην κατασκευή προγραμμάτων για παίξιμο παιχνιδιών και αποδείξεις θεωρημάτων. Η κυρίως έμφαση δόθηκε στην κατασκευή συστημάτων τα οποία είχαν κάποιο βαθμό γενικής ευφυΐας ή ικανότητας για την επίλυση προβλημάτων από διαφορετικά πεδία και χώρους. Στο σημείο αυτό αξίζει να επισημάνουμε ότι ώθηση στην εξέλιξη της επιστήμης έδωσε η δημιουργία της γλώσσας LISP. Η βασική κατεύθυνση της επιστήμης και βασικός της σκοπός ήταν η δημιουργία δομών που παριστάνουν τον τρόπο με τον οποίο ο ανθρώπινος εγκέφαλος αποθηκεύει δεδομένα, πληροφορία, γνώση καθώς και τρόπους επεξεργασίας αυτών και αντιστοιχία του ανθρώπινου συλλογισμού. Οι προσπάθειες όλες αφιερώθηκαν στην κατασκευή συστημάτων με περιορισμένο πεδίο εφαρμογής που κατείχαν σημαντικό όγκο γνώσης για το συγκεκριμένο πεδίο (το πεδίο προσδιορίζει το ανάλογο αντικείμενο, επιστημονικό χώρο). Στο σημείο αυτό θα αναφερθούμε σύντομα στους σπουδαιότερους τομείς της Τεχνητής Νοημοσύνης και θα δώσουμε μία μικρή περιγραφή για τον κάθε ένα από αυτούς [.1] : Παίξιμο Παιχνιδιών (Game Playing) Αναφέρεται στο παίξιμο των παιχνιδιών που απαιτούν συλλογισμό, όπως το σκάκι, και είναι από τους παλαιότερους τομείς. Αυτοποιημένος Συλλογισμός (Automated Reasoning) Θα μπορούσε κανείς να ισχυριστεί πως η αυτόματη απόδειξη θεωρημάτων (automatic theorem proving) είναι ο παλαιότερος κλάδος της Τεχνητής Νοημοσύνης που απέδωσε πολλούς καρπούς. Στάθηκε αφορμή για την τυποποίηση πολλών αλγορίθμων αναζήτησης και την ανάπτυξη του κατηγορηματικού λογισμού πρώτης τάξης (first-order predicate calculus) καθώς και της γλώσσας PROLOG. 4

11 Έμπειρα Συστήματα (Expert Systems) Αποτελεί τον πιο επιτυχημένο κλάδο με εμπορεύσιμα αποτελέσματα σε πολλά πεδία της καθημερινότητας και επιστημών. Το έμπειρο σύστημα είναι ένα πρόγραμμα το οποίο μιμείται έναν εμπειρογνώμονα για την επίλυση προβλημάτων και την λήψη αποφάσεων. Στηρίζονται στην σπουδαιότητα της εξειδικευμένης γνώσης, για ένα στενό πεδίο, που λαμβάνεται από ένα η περισσότερους εμπειρογνώμονες στο πεδίο αυτό. Η γνώση των συστημάτων βασίζεται στην εμπειρία που αποκτήθηκε. Στην ουσία τέτοια συστήματα αποτελούν την συνέννωση πολλών εμπειρογνωμόνων σε έναν όσον αφορά την γνώση. Κατανόηση Φυσικής Γλώσσας (Natural Language Understanding) Αποτελεί ένα από τα δυσκολότερα προβλήματα της επιστήμης. Υπάρχουν ελάχιστα συστήματα τα οποία κατανοούν την γλώσσα, και αναφέρονται σε περιορισμένου μεγέθους λεξιλόγια και σύνολα εννοιών. Μηχανική Μάθηση (Machine Learning) Η αυτοποιημένη μάθηση είναι και αυτή από τα δυσκολότερα προβλήματα. Αναφέρεται στο κατά πόσο μπορεί ένα πρόγραμμα να είναι ικανό για αυτομάθηση, είτε μέσω εμπειρίας, είτε μέσω παραδειγμάτων αλλά και περιγραφών σε φυσική γλώσσα. Αυτός ο τομέας εξελίσσεται δυναμικά, και σε αυτόν βασίζονται και οι τεχνικές Data Mining που θα μας απασχολήσουν στην συγκεκριμένη εργασία. Η Μηχανική Μάθηση αποσκοπεί στην διερεύνηση των μηχανισμών και των υπολογιστικών διαδικασιών μέσω των οποίων είναι δυνατή η εξαγωγή και οργάνωση της γνώσης από την υπάρχουσα εμπειρία. Μεταξύ των διαφόρων μορφών συστημάτων μάθησης, η επαγωγική μάθηση μέσω παραδειγμάτων (inductive learning) έχει γνωρίσει τη μεγαλύτερη διάδοση. Στο συγκεκριμένο πεδίο σημαντικό ρόλο παίζει και η ποιότητα των κανόνων που εξάγονται από την υπάρχουσα γνώση καθώς και η βελτίωσή της. Κατανόηση Εικόνας (Image Understanding) Ο τομέας αυτός αναφέρεται στη δυνατότητα ενός ηλεκτρονικού υπολογιστή που είναι εφοδιασμένος με κάμερα να κατανοεί. Να αναγνωρίζει δηλαδή αντικείμενα και τις σχέσεις τους στο χώρο σε μια εικόνα, όπου η εικόνα μπορεί να είναι σχέδια αλλά και φυσική. Αποτελεί έναν από τους δυσκολότερους τομείς της επιστήμης αυτής. 5

12 2. Η τεχνική Data Mining / Εξόρυξη από Δεδομένα Η διαδικασία Data Mining, η ελληνική απόδοση της οποίας είναι Εξόρυξη από Δεδομένα ή Ανεύρεση Γνώσης από Δεδομένα, είναι η αναλυτική διαδικασία η οποία έχει σχεδιαστεί για να αναλύει και να εξερευνεί δεδομένα σε μεγάλες ποσότητες και έπειτα να δημιουργεί κανόνες και σχέσεις μεταξύ των μεταβλητών που ενδιαφέρουν να ερευνηθούν. Γενικά ο όρος Data Mining αναφέρεται σε υψηλού επιπέδου εφαρμογές και μεθόδους και παρόμοια εργαλεία, που χρησιμοποιούνται για να παρουσιάσουν και να αναλύσουν δεδομένα σε πεδία λήψης αποφάσεων. Η βασική ιδέα πίσω από τον όρο Data Mining είναι η ανεύρεση εκείνης της μη μηδενικής λύσης η οποία δίνει την δυνατότητα εξαγωγής χρήσιμων και ουσιαστικών κανόνων σε δεδομένα [3]. Η όλη διαδικασία βασίζεται στην χρησιμοποίηση αλγορίθμων οι οποίοι αναζητούν κανόνες μεταξύ των μεταβλητών των δεδομένων, και έπειτα καταχωρούν τα δεδομένα σε νέες βάσεις δεδομένων. Τεχνικώς οι αλγόριθμοι αυτοί είναι τα συστατικά της διαδικασίας η οποία βρίσκει συσχετισμούς ή κανόνες μέσα από τεράστιες βάσεις αποθηκευμένων δεδομένων / πληροφοριών. Επίσης η διαδικασία Data Mining αναφέρεται συχνά και ως Computerized Technology (Πληροφοριακή Τεχνολογία) η οποία χρησιμοποιεί πολύπλοκους αλγόριθμους που δημιουργούν κανόνες και σχέσεις μέσα σε τεράστιες βάσεις δεδομένων, αναλύοντάς τες, με σκοπό την λήψη στρατηγικών αποφάσεων. Η τεχνική Data Mining, DM, ενδιαφέρει ερευνητές από διάφορα πεδία επιστημών όπως εκείνα της Μηχανικής Μάθησης (Machine Learning), Αναγνώρισης Κανόνων (Pattern Recognition), των Βάσεων Δεδομένων (Databases), την Στατιστική (Statistics), την Τεχνητή Νοημοσύνη (Artificial Intelligence ΑΙ), και τα Έμπειρα Συστήματα (Expert Systems). Οι περισσότεροι αλγόριθμοι και τεχνικές προέρχονται από αυτά τα πεδία. Η βάση όλων των παραπάνω είναι η απόσπαση κανόνων που περιέχουν γνώση, μέσα από πλήθος δεδομένων. Οι κυριότεροι στόχοι των τεχνικών DM είναι η Πρόβλεψη (Prediction) και η Περιγραφή (Description) [.3]. Η Πρόβλεψη, που αποτελεί και το σημαντικότερο είδος DM, χρησιμοποιεί υπάρχουσες μεταβλητές στις βάσεις δεδομένων ώστε να προβλέπει άγνωστες ή μελλοντικές αξίες ενδιαφέροντος. Από την άλλη μεριά, η Περιγραφή επικεντρώνεται στο να βρίσκει κανόνες περιγράφοντας δεδομένα. Οι αλγόριθμοι της κάθε τεχνικής DM αποτελούνται από τρία συστατικά στοιχεία [.3]: Model Representation (Αναπαράσταση Μοντέλου) Model Evaluation (Αποτίμηση Μοντέλου) Search Method (Μέθοδος Αναζήτησης) Επεξήγηση των σημαντικότερων στοιχείων ενός αλγορίθμου (DM): -Model Representation: Είναι η γλώσσα L η οποία περιγράφει ανακαλυφθήσες μεθόδους. Εάν η αναπαράσταση είναι μικρή και περιορισμένη αρκετά τότε τίποτε από παραδείγματα η από χρόνο εκπαίδευσης δεν θα παράγει ένα μοντέλο για τα δεδομένα. 6

13 -Model Evaluation (Μοντέλο αποτίμησης): Υπολογίζει πόσο καλά μια συγκεκριμένη μέθοδος, ένα μοντέλο με τις παραμέτρους του, συνιστούν τα κριτήρια της διαδικασίας Knowledge Discovery Databases (Ανεύρεση γνώσης σε βάσεις δεδομένων). -Search: Αποτελείται από δύο στοιχεία. Το πρώτο είναι η parameter search όπου ο αλγόριθμος πρέπει να ψάχνει για παραμέτρους που συνοψίζουν τα μοντέλα αποτίμησης που έλαβαν δεδομένα και έτοιμη αναπαράσταση του μοντέλου. Δεύτερον έχουμε την model research. Συνοπτικά, το μοντέλο της τεχνικής που θα χρησιμοποιηθεί πρέπει να αναπαριστά καθαρές υποθέσεις και συμπεράσματα, ώστε να αποσπώνται οι κανόνες που ενδιαφέρουν. Επιπρόσθετα το μοντέλο θα πρέπει να έχει έγκυρη πρόβλεψη η οποία θα μπορεί να βασιστεί στην μέθοδο Cross Validation και η αναζήτηση να συνοψίζει τα κριτήρια αποτίμησης του μοντέλου σχετικά με την αναπαράσταση των δεδομένων. Τα εργαλεία εξόρυξης (Mining Tools or Search Engines) είναι συνήθως «έξυπνα» από το πεδίο της Τεχνητής Νοημοσύνης σχετικά με βάσεις δεδομένων. Ποικίλα είναι τα είδη / τύποι των εργαλείων που χρησιμοποιούνται στην τεχνική Data Mining. Στο σημείο αυτό θα αναφέρουμε ονομαστικά τα κυριότερα αυτών: Neural Networks, (Νευρωνικά Δίκτυα) Τα Νευρωνικά Δίκτυα (Artificial neural networks), είναι μη γραμμικά μοντέλα πρόβλεψης για λήψη αποφάσεων, τα οποία χρησιμοποιούν υπάρχοντα δεδομένα τα οποία έχουν γνωστά αποτελέσματα (outcomes) για να εκπαιδεύσουν ένα μοντέλο το οποίο μπορεί μετά να χρησιμοποιηθεί για να κάνει προβλέψεις. Επειδή τα Νευρωνικά Δίκτυα αποτελούν από τα σημαντικότερα εργαλεία της τεχνικής Data Mining θα αναφερθούμε λίγο εκτενέστερα σε αυτά. Τα Νευρωνικά Δίκτυα ΝΔ, τα οποία αναφέρονται και ως Τεχνητά Νευρωνικά Δίκτυα, (Artificial Neural Networks) αναπτύχθηκαν μέσω της επιστήμης της Τεχνητής Νοημοσύνης ως μία καινοτόμος μεθοδολογία μοντελοποίησης πολύπλοκων προβλημάτων. Η κύρια μεθοδολογική τους βάση είναι η προσπάθεια εξομοίωσης του τρόπου λειτουργίας του ανθρώπινου εγκεφάλου κατά την επεξεργασία των σημάτων / μηνυμάτων που λαμβάνει από το εξωτερικό περιβάλλον. Κάθε ΝΔ, είναι ένα δίκτυο παράλληλων μονάδων επεξεργασίας οι οποίες είναι οργανωμένες σε μια σειρά επιπέδων (layers). Μια τυπική αρχιτεκτονική ενός ΝΔ περιλαμβάνει: -Ένα επίπεδο εισόδου (input layer) αποτελούμενο από μια σειρά κόμβων (επιμέρους μονάδες επεξεργασίας), έναν για κάθε είσοδο του ΝΔ. -Ένα επίπεδο εξόδου (output layer) το οποίο αποτελείται από έναν ή περισσότερους κόμβους, ανάλογα με τη μορφή που έχει το αποτέλεσμα του ΝΔ. Στην περίπτωση προβλημάτων ταξινόμησης το πλήθος των κόμβων του επιπέδου εξόδου καθορίζεται ανάλογα με το πλήθος των κατηγοριών. Έτσι στην περίπτωση των δύο κατηγοριών, το δίκτυο μπορεί να έχει μόνο έναν κόμβο εξόδου ο οποίος θα λαμβάνει την τιμή 1 για την κατηγορία C1 και 2 για την κατηγορία C2 (οι συμβολισμοί είναι αυθαίρετοι). Στην γενικότερη περίπτωση όπου υπάρχουν q κατηγορίες, τότε το πλήθος των 7

14 κόμβων στο επίπεδο εξόδου συνήθως καθορίζεται ως ο αμέσως μεγαλύτερος ακέραιος αριθμός από τον πραγματικό αριθμό log 2 q. Εναλλακτικά, μπορεί να καθοριστεί ένας κόμβος εξόδου για κάθε κατηγορία. -Μια σειρά ενδιάμεσων επιπέδων (hidden layers). Όλοι οι κόμβοι διαδοχικών επιπέδων συνδέονται πλήρως μεταξύ τους, ενώ είναι επίσης δυνατή η ανάπτυξη ΝΔ στα οποία υπάρχουν συνδέσεις ακόμα και κόμβων που δεν ανήκουν σε διαδοχικά επίπεδα. Στο σχήμα που θα ακολουθήσει παρουσιάζεται ένα ΝΔ που χρησιμοποιεί την αρχιτεκτονική αυτή (fully connected neural network model) με ένα ενδιάμεσο επίπεδο. Γενικά, δεν υπάρχει ένας συγκεκριμένος κανόνας βάσει του οποίου καθορίζεται ο αριθμός των κόμβων ενδιαμέσων επιπέδων. Κάθε σύνδεση μεταξύ δύο κόμβων του ΝΔ έχει ένα βάρος (weight), το οποίο αναπαριστά την ισχύ της σύνδεσης. Ο καθορισμός των βαρών αυτών που αποτελεί την εκμάθηση του δικτύου, επιτυγχάνεται μέσω διαδικασιών βελτιστοποίησης, με σκοπό την ελαχιστοποίηση των αποκλίσεων μεταξύ των αποτελεσμάτων του δικτύου από το πραγματικό αποτέλεσμα (προκαθορισμένη ταξινόμηση) το οποίο καθορίζεται για ένα δείγμα εκμάθησης. Ως μέτρο των αποκλίσεων συνήθως χρησιμοποιείται το άθροισμα των τετραγώνων των σφαλμάτων, κατά αναλογία με την στατιστική παλινδρόμηση. Η πλέον διαδεδομένη διαδικασία εκμάθησης του δικτύου, είναι η διαδικασία back propagation, ενώ παράλληλα σημαντική είναι και η συμβολή εξελιγμένων τεχνικών μη γραμμικής βελτιστοποίησης οι οποίες παρέχουν υψηλή υπολογιστική ισχύ και οδηγούν στον εντοπισμό του ολικού ελάχιστου (global minimum) της συνάρτησης σφάλματος. Παρακάτω παρουσιάζεται η γενική αρχιτεκτονική ενός νευρωνικού δικτύου: Έξοδος 1 Έξοδος 2 Είσοδος 1 Είσοδος 2 Είσοδος 3 8

15 Βάσει των βαρών των συνδέσεων, η είσοδος στον κάθε κόμβο του δικτύου υπολογίζεται ως ο σταθμισμένος μέσος των εξόδων όλων των κόμβων με τους οποίους συνδέεται. Στη γενικότερη περίπτωση ενός πλήρως συνδεδεμένου ΝΔ η είσοδος in ir στον κόμβο ι του επιπέδου r υπολογίζεται από τον τύπο: n j i 1 j ir = ik kj + ir j= 0 k = 1 in w o φ όπου n j είναι ο αριθμός των κόμβων στο επίπεδο j, w j ik είναι το βάρος της σύνδεσης μεταξύ του κόμβου i στο επίπεδο r και του κόμβου k στο επίπεδο j, ο kj είναι η έξοδος του κόμβου k στο επίπεδο j και φ ir είναι ένας όρος σφάλματος. Η έξοδος κάθε νευρώνα προκύπτει μέσω μιας συνάρτησης μετασχηματισμού της εισόδου του νευρώνα. Η συνηθέστερη συνάρτηση μετασχηματισμού που χρησιμοποιείται είναι η λογιστική συνάρτηση: o = 1 ir in ir T 1+ e όπου Τ μία σταθερά. Βασικό πλεονέκτημα των ΝΔ είναι η δυνατότητα παράλληλης επεξεργασίας που παρέχουν, και κυρίως η δυνατότητα αναπαράστασης έντονα μη γραμμικών συμπεριφορών. Από την άλλη μεριά, χαρακτηρίζονται από μειονεκτήματα όπως ο αυξημένος υπολογιστικός φόρτος που απαιτείται κατά την φάση της εκμάθησης του δικτύου και η μη επεξήγηση των αποτελεσμάτων που δίνει [.2]. Decision Trees, (Δένδρα Αποφάσεων) Τα δέντρα αποφάσεων είναι μοντέλα υποστήριξης λήψης αποφάσεων τα οποία δημιουργούν κανόνες για να ταξινομούν ένα σύνολο δεδομένων όπου το κάθε δέντρο αναπαριστά σύνολα από αποφάσεις. 9

16 Rule Induction, (Εισαγωγή Κανόνων) Είναι η χρησιμοποίηση if-then κανόνων σε σύνολα από δεδομένα, τα οποία βασίζονται κυρίως σε στατιστικά μοντέλα. Data Visualization, (Απεικόνιση Δεδομένων) Αποτελεί την εικονική αναπαράσταση σχέσεων μεταξύ δεδομένων. Genetic Algorithms, (Γενετικοί Αλγόριθμοι) Οι Γενετικοί Αλγόριθμοι είναι μία τεχνική η οποία βασίζεται σε στοιχεία / συστατικά natural evolution χρησιμοποιώντας γενετικούς συνδυασμούς. Nearest Neighbor Method, (Μέθοδος Γειτνίασης) Είναι μία τεχνική ταξινόμησης δεδομένων που βασίζεται σε ομοειδείς εγγραφές μέσα από προηγούμενες (historical) βάσεις δεδομένων. 2.1 Τα στάδια της διαδικασίας Data Mining Πριν αναφερθούμε στα στάδια της διαδικασίας Data Mining, είναι χρήσιμο να επισημάνουμε πως πολλοί αναφέρουν ότι η διαδικασία Data Mining αποτελεί μία στατιστική διαδικασία η οποία αναλύει δεδομένα αποθηκευμένα μέσα σε Data Warehouses. Τα Data Warehouses αποτελούν τεράστια πεδία με αποθηκευμένα δεδομένα, όπου εκεί περιέχονται ποικίλες πληροφορίες για όλες τις λειτουργίες ενός οργανισμού (είτε πρόκειται για ιδιωτική επιχείρηση, νοσοκομείο, δημόσια υπηρεσία κ.α). Τα δεδομένα αυτά είναι επεξεργασμένα κατά τέτοιο τρόπο που διευκολύνουν τα εργαλεία της μεθόδου Data Mining να τα επεξεργάζονται καλύτερα. Μικρότερες σε μέγεθος εκδόσεις των Data Warehouses είναι τα Data Marts τα οποία επικεντρώνονται και εστιάζονται σε συγκεκριμένες περιοχές / ομάδες ενδιαφέροντος, είναι οικονομικότερα και λειτουργούν σε μικρότερο περιβάλλον. Στην συνέχεια ακολουθεί ένα παράδειγμα σύγκρισης μεταξύ Data Warehouse και Data Mart σε πίνακα: 10

17 DATA WAREHOUSE DATA MART Total company sales information Πληροφορίες για τις συνολικές πωλήσεις Store sales / Hourly sales Συνολικό ποσοστό πωλήσεων Customer profiles Εικόνα / Προφίλ πελατών Sales for a simple location Πωλήσεις για μία τοποθεσία,εστία της αγοράς Credit card sales only Πωλήσεις / αγορές που έγιναν με πιστωτική κάρτα Credit card customer profiles Εικόνα πελατών σχετικά με την χρησιμοποίηση της πιστωτικής κάρτας Credit card purchasing history Πορεία πιστωτικής κάρτας Η διαδικασία Εξόρυξης από δεδομένα αποτελείται από τρία στάδια [.3] : Το στάδιο της «εξερεύνησης» των δεδομένων (initial exploration) Το στάδιο δημιουργίας και κατασκευής του κατάλληλου μοντέλου πρόβλεψης (model building and validation) Τέλος, το στάδιο της περαιτέρω ανάπτυξης της διαδικασίας (deployment) Στο σημείο αυτό θα ακολουθήσει μια περιγραφή του κάθε σταδίου της διαδικασίας με όσο το δυνατό πιο σαφή και κατανοητό τρόπο [.3] : Αναζήτηση και «Εξερεύνηση» των δεδομένων (initial exploration) Αυτό το στάδιο συνήθως ξεκινάει με την προετοιμασία των δεδομένων (data preparation), που περιλαμβάνει καθαρισμό από πιθανούς θορύβους που υπάρχουν μέσα στα δεδομένα, μετασχηματισμούς δεδομένων και επιλογή των κατάλληλων υποσυνόλων εγγραφών και καθορισμό ομάδων δεδομένων με μεγάλους αριθμούς μεταβλητών και πεδίων (fields) διεξάγοντας μία επιλογή χαρακτηριστικών (feature selections). Έπειτα, ανάλογα με την φύση του προβλήματος αυτό το στάδιο της διαδικασίας μπορεί να περιλαμβάνει μία απλή επιλογή από μεθόδους πρόβλεψης για ένα μοντέλο ανάλυσης, ώστε να βγάλει κάποια συμπεράσματα χρησιμοποιώντας μία μεγάλη ποικιλία από στατιστικές μεθόδους (EDA Exploratory Data Analysis) για να αναγνωρίσει τις πιο σχετικές μεταβλητές και να εξαλείψει την πολυπλοκότητα από το επόμενο στάδιο υλοποίησης της διαδικασίας. 11

18 Δημιουργία του κατάλληλου μοντέλου πρόβλεψης (model building and validation) Tο συγκεκριμένο στάδιο περιλαμβάνει την επεξεργασία πολλών και ποικίλων μοντέλων και την επιλογή εκείνου που βασίζεται στην άριστη / βέλτιστη απόδοση της πρόβλεψης. Αυτό ίσως ακούγεται σαν μια απλή διαδικασία, αλλά είναι γεγονός ότι μερικές φορές αποτελεί μία πολύπλοκη και δύσκολη διαδικασία. Είναι μία μεγάλη γκάμα τεχνικών που αναπτύχθηκαν για να επιτύχουν το στόχο αυτού του σταδίου και έχουν την προσωνυμία Competitive Evaluation Models.Ο σκοπός είναι να απευθυνόμαστε σε διαφορετικά μοντέλα με το ίδιο σύνολο δεδομένων και συγκρίνοντας την απόδοση της μεθόδου να επιλέγουμε την καλύτερη. Αυτές οι τεχνικές οι οποίες αποτελούν την «αφρόκρεμα» του Predictive Data Mining είναι οι εξής: Bagging (Voting,Averaging), Boosting, Stacking (Stacked Generalizations), και τέλος η τεχνική Meta-Learning. Ανάπτυξη (Deployment) Στο τελικό στάδιο χρησιμοποιούμε το μοντέλο που επιλέχθηκε σαν το καλύτερο από το στάδιο της δημιουργίας του μοντέλου της κάθε διαδικασίας και το εφαρμόζουμε σε νέα δεδομένα, ώστε να παράγει προβλέψεις ή να εκτιμήσει το νέο αποτέλεσμα. Να εξάγει δηλαδή νέους κανόνες. 2.2 Μέθοδοι της τεχνικής Data Mining Οι κυριότερες μέθοδοι της τεχνικής Εξόρυξης από Δεδομένα οι οποίες χρησιμοποιούν κανόνες Μηχανικής Μάθησης είναι [.4] : Κανόνες Ταξινόμησης Κανόνες Ομαδοποίησης Κανόνες Συσχέτισης Υπάρχουν βέβαια και άλλα πεδία τέτοιων κανόνων, όπως στατιστικής ανάλυσης (statistical analysis) της αριθμητικής ταξινόμησης (numerical taxonomy), της παλινδρόμησης (regression analysis) και άλλων αρκετών. Στην συνέχεια θα παρουσιάσουμε αναλυτικά τον τρόπο λειτουργίας και δομής των κανόνων ταξινόμησης,ομαδοποίησης και συσχέτισης. 12

19 2.2.1 Ταξινόμηση (Classification) Ίσως η πιο δημοφιλής και αποτελεσματική τεχνική. Οι αλγόριθμοι ταξινόμησης εφαρμόζονται σε δεδομένα τα οποία έχουν προταξινομηθεί σε συγκεκριμένες κλάσεις με στόχο την εξαγωγή κανόνων οι οποίοι μπορεί μετέπειτα να χρησιμοποιηθούν για ταξινόμηση νέων δεδομένων στις ίδιες κλάσεις. Ένα σύνολο εξαγόμενων κανόνων ονομάζεται ταξινομητής (classifier). Η λειτουργία των αλγορίθμων ταξινόμησης έχει ως εξής [.4]: (1) Δίνουμε ένα σύνολο από δεδομένα σαν είσοδο σε έναν αλγόριθμο ταξινόμησης (2) Ο αλγόριθμος έπειτα με την σειρά του «μαθαίνει» από το πώς αυτά τα δεδομένα έχουν ταξινομηθεί. Δηλαδή κατανοεί τους κανόνες βάσει των οποίων ταξινομήθηκαν τα δεδομένα (3) Έπειτα βάσει των συγκεκριμένων κανόνων έχει την ικανότητα να ταξινομήσει νέα δεδομένα Υπάρχουν δύο βασικοί τύποι αλγόριθμων ταξινόμησης ανάλογα με το είδος του ταξινομητή που παράγουν: (a) Οι αλγόριθμοι που παράγουν λίστες αποφάσεων [πχ Clark] (b) Οι αλγόριθμοι που παράγουν δένδρα αποφάσεων [πχ Quinlan] Οι κανόνες που παράγουν λίστες αποφάσεων έχουν την μορφή λογικών κανόνων που βγάζουν ανάλογα συμπεράσματα και είναι μία σχετικά νέα μορφή αλγόριθμων. Από την άλλη μεριά οι αλγόριθμοι που παράγουν δένδρα αποφάσεων είναι εκείνοι που αποτελούν ίσως την πιο παλιά μορφή και έκφραση της τεχνικής Data Mining. Οι αλγόριθμοι που παράγουν δένδρα αποφάσεων έχουν στην ρίζα τους και στους ενδιάμεσους κόμβους τιμές των διάφορων πεδίων και στα φύλλα τους τιμές του πεδίου κλάσης. Ο κάθε κόμβος διακλαδώνεται προς τα κάτω έχοντας ένα κλαδί για κάθε διακριτή τιμή του πεδίου. Σε περίπτωση συνεχούς αριθμητικού πεδίου, χωρίζεται το εύρος του πεδίου σε διαστήματα και ο κόμβος διακλαδώνεται με βάση αυτά. Τέλος ένας αλγόριθμος που παράγει δένδρα αποφάσεων ακολουθεί συνήθως αναλυτική προσέγγιση (top-down), δημιουργεί δηλαδή το δένδρο από την ρίζα και προχωράει προς τα κάτω. Στην συνέχεια θα περιγραφεί αναλυτικά ένας από τους βασικότερους αλγόριθμους ταξινόμησης που παράγει δένδρα αποφάσεων, ο ID3. Ο αλγόριθμος αυτός παρουσιάστηκε ολοκληρωμένα από τον J.R Quinlan στο περιοδικό Machine Learning το Η αρχική του έκδοση είχε δημοσιευτεί από τον ίδιο το Το όνομά του προκύπτει από τα αρχικά Induction of Decision Trees. Ο αλγόριθμος αυτός θεωρήθηκε πρωτοποριακός την εποχή εκείνη εξαιτίας της πληρότητας της μελέτης και της αποτελεσματικότητάς του. Ο ID3 ανήκει στην οικογένεια των συστημάτων μάθησης TDIDT (Top-Down Inductuon of Decision Trees), ακολουθώντας την αναλυτική προσέγγιση. Δέχεται σαν είσοδο ένα σύνολο εκπαίδευσης οι εγγραφές του οποίου έχουν προταξινομηθεί σε κλάσεις. Ο αλγόριθμος, στην αρχική του μορφή, θεωρεί δύο διακριτές τιμές κλάσης 13

20 οι οποίες συμβολίζονται στην βιβλιογραφία ως P (positive) και N (negative). Βέβαια ο αλγόριθμος μπορεί να επεκταθεί και σε περισσότερες από δύο τιμές κλάσης. Αντί να εξάγεται το δένδρο αποφάσεων από ολόκληρο το σύνολο εκπαίδευσης, χρησιμοποιείται ένα «παράθύρο», δηλαδή ένα υποσύνολο εγγραφών. Με το δένδρο που προκύπτει ταξινομείται ολόκληρο το σύνολο εκπαίδευσης και ελέγχεται η ακρίβεια της ταξινόμησης. Αν όλες οι εγγραφές έχουν ταξινομηθεί σωστά, τότε το υπάρχον δένδρο γίνεται αποδεκτό και ο αλγόριθμος τερματίζει. Διαφορετικά, προστίθενται οι άλλες εγγραφές στο «παράθυρο» και η διαδικασία επαναλαμβάνεται. Αυτό συνεχίζεται μέχρι όλες οι εγγραφές να ταξινομηθούν σωστά από το δένδρο. Για να εξασφαλιστεί η επιτυχής κατάληξη του αλγορίθμου, πρέπει να υπάρχει δυνατότητα το «παράθυρο» να μεγαλώσει τόσο που να περιέχει όλο το σύνολο των εγγραφών. Επομένως μία σημαντική παράμετρος του αλγορίθμου είναι το ποσοστό εγγραφών που θα περιέχει το «παράθυρο» και με τι ρυθμό θα μεγαλώνει εφόσον δεν είναι επαρκές. Επόμενη και σημαντική παράμετρος είναι το κριτήριο επιλογής κάθε κόμβου, με το οποίο θα γίνει η διακλάδωση. Χρησιμοποιείται ως κριτήριο επιλογής ένα μέγεθος δανεισμένο από την Θεωρία της Πληροφορίας η Εντροπία. Το μέγεθος Εντροπία, ως αντίθετο στο μέγεθος Πληροφορία, δίνει μία εκτίμηση του πόσο λανθασμένα χωρίζεται κάθε φορά το σύνολο εκπαίδευσης, με βάση το συγκεκριμένο πεδίο. Άρα το πεδίο με την μικρότερη Εντροπία χωρίζει καλύτερα το σύνολο εκπαίδευσης. Σε αυτό το σημείο θα αναφερθούμε στα βήματα του αλγορίθμου ID3, τα οποία έχουν ως εξής: I. Διάλεξε ένα πεδίο για ρίζα του δένδρου απόφασης και σχημάτισε διακλάδωση με ένα φύλλο για κάθε διαφορετική τιμή (ή διάστημα) αυτού του πεδίου II. Το δένδρο απόφασης που έχει μέχρι στιγμής κατασκευασθεί χρησιμοποιείται για να ταξινομήσει το σύνολο εκπαίδευσης. Αν όλες οι εγγραφές που ταξινομούνται σε ένα συγκεκριμένο φύλλο ανήκουν στην ίδια κλάση, ονόμασε το φύλλο αυτό με την κλάση αυτή. Αν όλα τα φύλλα έχουν ονομασθεί με κάποια κλάση ο αλγόριθμος τελειώνει III. Διαφορετικά, για κάθε φύλλο που δεν έχει ονομαστεί με κάποια κλάση, διάλεξε ένα πεδίο που δεν έχει προηγουμένως επιλεγεί στο μονοπάτι από το φύλλο έως την ρίζα, ονόμασε το φύλλο (κόμβος πλέον) με αυτό το πεδίο και σχημάτισε διακλάδωση με ένα φύλλο για κάθε διαφορετική τιμή (ή διάστημα) αυτού του πεδίου. Έπειτα συνέχισε στο Βήμα ΙΙ. Στο σημείο αυτό θα παρουσιάσουμε ακόμη έναν αλγόριθμο ταξινόμησης, τον C4.5. Ο αλγόριθμος αυτός αποτελεί μία από τις πλέον γνωστές τεχνικές στο χώρο της μηχανικής μάθησης, ο οποίος αναπτύσσει δένδρα αποφάσεων που παρουσιάζονται και ως κανόνες απόφασης της μορφής [.2]: Εάν στοιχειώδεις συνθήκες Τότε συμπεράσματα 14

21 Ο C4.5 αναπτύχθηκε από τον Quinlan (1993) και αποτελεί εξέλιξη του αλγορίθμου ID3. Ο καινούργιος αλγόριθμος σε σχέση με τον προκάτοχό του έχει τα εξής βασικά πλεονεκτήματα 1. Δυνατότητα επεξεργασίας και διαχείρισης ποσοτικών κριτηρίων 2. Δυνατότητα διαχείρισης δεδομένων με ελλιπή στοιχεία 3. Αποφυγή της μεγάλης προσαρμογής στα δεδομένα του δείγματος εκμάθησης (overfitting) Ο αλγόριθμος ξεκινώντας από ένα σύνολο παραδειγμάτων τα οποία διαμορφώνουν το δείγμα εκμάθησης, οδηγεί στην ανάπτυξη ενός συνόλου κανόνων αποφάσεων για την ταξινόμηση εναλλακτικών δραστηριοτήτων. Οι κανόνες αυτοί με την σειρά τους οργανώνονται και δημιουργούν ένα δέντρο αποφάσεων. Ο κάθε κόμβος του δέντρου περιλαμβάνει το κριτήριο αξιολόγησης το οποίο ελέγχεται βάσει των συνθηκών που καθορίζουν τα κλαδιά του δέντρου. Τα φύλλα με την σειρά τους υποδεικνύουν την κατηγορία στην οποία πρέπει να ενταχθεί μια εναλλακτική δραστηριότητα η οποία επαληθεύει την συνθήκη του κλάδου που καταλήγει στο φύλλο. Εδώ παραθέτουμε ένα τέτοιο δέντρο: G1 1 >1 G2 G3 >0,3 0,3 >1,2 1,2 C1 C2 C1 C2 15

22 Αυτό το δέντρο απόφασης, αναπτύσσεται μέσω μίας επαναληπτικής διαδικασίας όπου κάθε στάδιο αυτής περιλαμβάνει τα παρακάτω τρία βήματα: -Αξιολόγηση της διακριτικής ικανότητας των κριτηρίων αξιολόγησης στην ταξινόμηση των εναλλακτικών δραστηριοτήτων. -Επιλογή του κριτηρίου αξιολόγησης με την υψηλότερη διακριτική ικανότητα -Διαχωρισμός των εναλλακτικών δραστηριοτήτων σε υποσύνολα αντίστοιχα με το πλήθος των τιμών του επιλεγμένου κριτηρίου αξιολόγησης (στην περίπτωση ποιοτικών κριτηρίων) ή των σημείων διαχωρισμού (cut-points, εάν τα κριτήρια είναι ποσοτικά). Η παραπάνω διαδικασία επαναλαμβάνεται για κάθε υποσύνολο εναλλακτικών δραστηριοτήτων που σχηματίζεται στο τρίτο βήμα, μέχρι τελικά να επιτευχθεί η σωστή ταξινόμηση όλων των εναλλακτικών δραστηριοτήτων του δείγματος εκμάθησης. Ο έλεγχος της διακριτικής ικανότητας κάθε κριτηρίου αξιολόγησης κατά το πρώτο βήμα της παραπάνω διαδικασίας, πραγματοποιείται βάσει της πληροφορίας που εισάγει το κριτήριο αξιολόγησης στην ταξινόμηση των εναλλακτικών δραστηριοτήτων. Ως μέτρο χρησιμοποιείται η εντροπία της ταξινόμησης που εισάγει το κάθε κριτήριο. Εάν ένα κριτήριο χωρίζει τις m εξεταζόμενες εναλλακτικές δραστηριότητες σε t υποσύνολα D 1,D 2,..,D t, καθένα από τα οποία περιλαμβάνει ν h εναλλακτικές δραστηριότητες (h=1,2,..,t), τότε η εντροπία του διαχωρισμού που πραγματοποιεί το κριτήριο αξιολόγησης υπολογίζεται βάσει της σχέσης: t q vh I ( D) = p( Dh / Ck)log[ p( Dh / Ck)] m h= 1 k= 1 όπου, ως p( D h / C k) συμβολίζεται το πλήθος των εναλλακτικών δραστηριοτήτων του συνόλου Dh τα οποία ανήκουν στην κατηγορία C k. Το κριτήριο που παρουσιάζει την μικρότερη εντροπία επιλέγεται ως εκείνο που παρέχει την υψηλότερη νέα πληροφορία στην ταξινόμηση των εναλλακτικών δραστηριοτήτων. Η παραπάνω διαδικασία μπορεί να οδηγήσει στην δημιουργία ενός περίπλοκου και εξειδικευμένου δέντρου κάθε φύλλο του οποίου θα αφορά μόνο μία εναλλακτική δραστηριότητα. Η αντιμετώπιση του προβλήματος αυτού πραγματοποιείται σε ένα δεύτερο στάδιο του αλγορίθμου μέσο της τεχνικής pruning έτσι ώστε να αποφεύγεται η περίπτωση υπερταιριάσματος, (overfitting), που οφείλεται στην μεγάλη προσαρμογή του αναπτυσσόμενου δέντρου στα δεδομένα του δείγματος εκμάθησης. Στην λογική του αλγορίθμου C4.5 αλλά και του ID3 κινούνται πολλοί νέοι αλγόριθμοι που έχουν αναπτυχθεί στα πλαίσια της επαγωγικής μάθησης όπως ο CN2, αλγόριθμοι της οικογένειας AQ και άλλοι πολλοί. Τελειώνοντας με τους αλγόριθμους ταξινόμησης, τα κύρια πλεονεκτήματά τους είναι τα ακόλουθα: 16

23 -Παρέχουν δυνατότητα διαχείρισης ποιοτικών δεδομένων -Έχουν τη δυνατότητα διαχείρισης δεδομένων με ελλιπή στοιχεία -Δυνατότητα διαχείρισης τεράστιων συνόλων δεδομένων αποτελεσματικά -Ευκατανόητη μορφή του αναπτυσσόμενου υποδείγματος ταξινόμησης. Στο σημείο αυτό θα κάνουμε μία μικρή αναφορά γύρω από την τεχνική pruning για τους αλγόριθμους ταξινόμησης Με τον όρο Pruning Decision Trees ονομάζουμε εκείνη την διαδικασία στο πεδίο των δέντρων αποφάσεων (Decision trees) κατά την οποία «κλαδεύουμε» ένα δέντρο απόφασης, με σκοπό να καταφέρουμε να αποφύγουμε την περίπτωση «υπερταιριάσματος» (overfitting) των δεδομένων / εγγραφών που έχουμε με το πεδίο εκπαίδευσης, έτσι ώστε να πετύχουμε μία γενικοποίηση με την δημιουργία ενός δέντρου καταλληλότερου για ταξινόμηση νέων εγγραφών. Στόχος της διαδικασίας είναι να μην είναι το δέντρο υπερβολικά εξειδικευμένο στην ταξινόμηση νέων εγγραφών, αλλά αντίθετα να είναι ευέλικτο ως προς την ταξινόμηση νέων εγγραφών με την καλύτερη δυνατή ακρίβεια (accuracy). Οι αλγόριθμοι που χρησιμοποιούν την μέθοδο pruning είναι εκείνοι που παράγουν δέντρα απόφασης και συνήθως είναι ο αλγόριθμος ID3 και ο αλγόριθμος C4.5 Οι δύο αυτοί αλγόριθμοι χρησιμοποιούν την μέθοδο pruning αλλά με διαφορετική δομή και λειτουργία. Βέβαια ο σκοπός και στους δύο είναι ο ίδιος, δηλαδή να αποφύγουν την περίπτωση overfitting και να δημιουργήσουν ένα ιδανικό δέντρο ταξινόμησης ID3 / Rule post pruning Με την μέθοδο Rule post-pruning πετυχαίνουμε υψηλή ακρίβεια στην ταξινόμηση των νέων εγγραφών (high accuracy hypothesis) Τα βήματα αυτής της μεθόδου είναι τα ακόλουθα : -Απομονώνουμε το δέντρο απόφασης από το πεδίο εκπαίδευσης (training set), το αναλύουμε μέχρι το τελικό φύλλο, μέχρι τα δεδομένα εκπαίδευσης να ταιριάζουν όσο το δυνατόν καλύτερα με τα κλαδιά του δέντρου, και επιτρέπουμε το overfitting -Μετατρέπουμε το δέντρο σε ένα ισοδύναμο πεδίο από κανόνες δημιουργώντας ένα κανόνα για κάθε μονοπάτι, από την ρίζα μέχρι το φύλλο κόμβο. -Κλαδεύω κάθε κανόνα μετακινώντας τις προηγούμενες συνθήκες, και έτσι πετυχαίνω καλύτερη ακρίβεια (estimated accuracy) -Κόβω τους κλαδεμένους κανόνες ανάλογα με την ακρίβειά τους και τους έχω για ταξινομητές στην συνέχεια. 17

24 Παράδειγμα Rule Post Pruning Σχήμα Outlook Sunny Humidity Overcast Yes Rain Wind High Normal Strong Weak No Yes No Yes Ο αριστερότερος κανόνας που προκύπτει από το δέντρο είναι ο : IF Then (Outlook = Sunny) and (Humidity = High) PlayTennis = No Με την μέθοδο Post pruning θα μετακινούσαμε τις προσυνθήκες, (Outlook = Sunny) και (Humidity = High) και θα βλέπαμε ποια από τις δύο θα πετύχαινε υψηλότερη ακρίβεια στον κανόνα. Σε περίπτωση που δεν γινόταν κάτι τέτοιο κανένα «κλάδεμα» δεν θα γινόταν. Pruning ID3 Reduced error pruning Στην μέθοδο Reduced error pruning, θεωρούμε κάθε κόμβο από το δέντρο απόφασης να είναι υποψήφιος για αποκοπή. Αυτό γίνεται μετακινώντας το υποδέντρο του κόμβου, δημιουργώντας ένα φύλλο κόμβο, και θεωρώντας τον κατάλληλο για την ταξινόμηση νέων εγγραφών. Οι κόμβοι μετακινούνται μόνο εάν το νέο δέντρο αποδίδει όχι χειρότερα από το πρωτότυπο πάνω σε ένα πεδίο εγκυρότητας (validation set). Αυτό έχει το αποτέλεσμα ότι κάθε κόμβος φύλλο, που προστίθεται στο training set είναι υποψήφιος και πιθανόν να αποκοπεί, επειδή τα χαρακτηριστικά που θα έχει είναι δύσκολο να συμβαδίζουνε με το τεστ εγκυρότητας. Οι κόμβοι 18

25 κλαδεύονται, διαλέγοντας εκείνον του οποίου η αποκοπή αυξάνει την ακρίβεια της ταξινόμησης στο validation set. Pruning C4.5 Ο αλγόριθμος C4.5 επιτρέπει την αντικατάσταση ενός υποδέντρου με ένα από τα παιδιά του. Υποθέτουμε ότι μπορούμε να προβλέψουμε το ποσοστό λάθους error rate ενός δέντρου και των υποδέντρων του. Θα έχω: -Υποθέτουμε ότι μπορούμε να προβλέψουμε το ποσοστό λάθους ενός δέντρου και των υποδέντρων του. -Ξεκινάμε από την κορυφή του δέντρου και εξετάζουμε κάθε μη φύλλο (nonleaf subtree). -Εάν η αντικατάσταση του υποδέντρου με ένα δέντρο ή με το ποιο κοινά χρησιμοποιούμενο κλαδί οδηγεί σε ένα χαμηλότερο αναμενόμενο ποσοστό λάθους, τότε κλαδεύουμε το δέντρο γνωρίζοντας ότι το αναμενόμενο ποσοστό σφάλματος για όλα τα δέντρα που περιέχουν το συγκεκριμένο θα επηρεαστούνε. Όσο το ποσοστό σφάλματος για όλο το δέντρο μειώνεται καθώς το ίδιο συμβαίνει και για τα υποδέντρα, αυτή η διαδικασία θα οδηγήσει σε ένα δέντρο του οποίου το αναμενόμενο ποσοστό λάθους είναι μικρότερο. Pessimistic pruning / C4.5 Με την μέθοδο αυτή αυξάνουμε τον αριθμό των σφαλμάτων που παρατηρούνται σε κάθε φύλλο. Λειτουργία: Έχω Ν περιπτώσεις εκπαίδευσης οι οποίες αναφέρονται σε ένα φύλλο, εκ των οποίων οι Ε είναι λανθασμένες. Το σφάλμα σε αυτήν την περίπτωση ισούται με τον λόγο Ε/Ν. Ο λόγος αυτός μας δείχνει ότι έχουμε Ε γεγονότα σε Ν προσπάθειες. Εάν αυτό το πεδίο των Ν περιπτώσεων θεωρηθεί σαν δείγμα θα μπορούμε να αναρωτηθούμε τι πληροφορία μας δίνει αυτό το αποτέλεσμα, σχετικά με την πιθανότητα λάθους πάνω σε έναν πληθυσμό του φύλλου που είμαστε. 19

26 ΕΥΡΕΣΗ ΣΦΑΛΜΑΤΟΣ / ERROR ESTIMATION Ο υπολογισμός του σφάλματος μπορεί να ορισθεί βάση του υψηλότερου ορίου με τα όρια αξιοπιστίας, και γράφεται UCF(E,N)ª όπου a=6. Ο αλγόριθμος υπολογίζει το σφάλμα σε ένα φύλλο με το μεγαλύτερο όριο αξιοπιστίας, έχοντας ως κανόνα ότι το δέντρο έχει σκοπό να ελαχιστοποιήσει το ποσοστό σφάλματος. Ο τύπος που μας δίνει το ποσοστό σφάλματος σε ένα πεδίο εκπαίδευσης είναι ο ακόλουθος: Error = N X UCF (E,N) όπου Ν είναι οι περιπτώσεις που έχω και UCF(E,N) το αναμενόμενο ποσοστό σφάλματος. Παράδειγμα C4.5 Pessimistic / Pruning Υποθέτουμε ότι έχουμε το υποδέντρο education spending = n: democrat (6) education spending = y: democrat (9) education spending = u: republican (1) Για το πρώτο φύλλο έχω Ν=6 και Ε=0 και με το επίπεδο αξιοπιστίας (confidence level) CL=25% έχω U25%(0,6)= Έτσι εάν είχα να ταξινομήσω 6 περιπτώσεις θα είχα 6 Χ Ομοίως, για τα υπόλοιπα φύλλα έχω: U25%(0.1)= 0,750, U25%(0.9)= Επομένως ο αριθμός των προβλευθέντων σφαλμάτων του υποδέντρου θα ισούται με 6 Χ Χ Χ = Στην περίπτωση που θα επιλεγεί το φύλλο democrat για αντικατάσταση του υποδέντρου, θα έχουμε 16 περιπτώσεις με 1 σφάλμα και σύμφωνα με τα παραπάνω το αναμενόμενο σφάλμα θα ισούται με 16 Χ U25%(1.16) = 16 X = Όσο το υποδέντρο που εξετάζουμε θα έχει υψηλότερο αριθμό προβλευθέντων σφαλμάτων, θα κλαδεύεται σε φύλλο για καλύτερη λειτουργία ταξινόμησης. Το υποδέντρο έχει την μορφή : adoption of the budget resolution = y: democrat (151) adoption of the budget resolution = u:democrat (1) adoption of the budget resolution = n: democrat (16/1) με προβλεπόμενο αριθμό σφαλμάτων: 151 X U25%(0.151) + 1 X U25%(0,1) = Εάν αυτό το υποδέντρο αντικαθήστατω από το φύλλο democrat τα προβλευθέντα σφάλματα θα ήταν 168 Χ U25%(1.168) = που είναι μικρότερο του σφάλματος του υποδέντρου και άρα μας συμφέρει να κλαδέψουμε το υποδέντρο σε φύλλο. 20

27 Εκτιμώντας τα επίπεδα λάθους για δέντρα αποφάσεων Ν = αριθμός περιπτώσεων εκπαίδευσης Ε = προβλεπόμενα σφάλματα σε ένα σύνολο Ν νέων περιπτώσεων Ο λόγος του αριθμού προβλεπόμενων σφαλμάτων στα φύλλα προς τον αριθμό των περιπτώσεων σε ένα σύνολο εκπαίδευσης μας δίνει μία εκτίμηση του ποσοστού σφάλματος ενός κλαδεμένου δέντρου σε μη γνωστές περιπτώσεις ταξινόμησης Error Rate = E / N Ομαδοποίηση (Clustering) Οι κανόνες Ομαδοποίησης επίσης είναι αρκετά διαδεδομένοι. Διαφέρουν από εκείνους της ταξινόμησης στο ότι τα δεδομένα που χρησιμοποιούνται για μάθηση δεν είναι προταξινομημένα, λείπει δηλαδή η κλάση του πεδίου. Η τεχνική ομαδοποίησης χωρίζει ουσιαστικά ένα σύνολο εγγραφών σε ομάδες έτσι ώστε οι εγγραφές που βρίσκονται στην ίδια ομάδα να έχουν περισσότερες ομοιότητες μεταξύ τους, με βάση ορισμένα προκαθορισμένα κριτήρια, απ ότι με εγγραφές άλλων ομάδων [.4]. Σήμερα είναι ιδιαίτερα σημαντικό για της επιχειρήσεις να μπορούν να ομαδοποιούν τους πελάτες τους σε συγκεκριμένες κατηγορίες. Με βάση αυτές τις κατηγορίες μπορούν να αξιολογούν έναν νέο πελάτη με βάση την ομάδα στην οποία κατατάσσεται ή ακόμα να προσδιορίσουν τα χαρακτηριστικά των πελατών που αποφέρουν μεγάλα κέρδη στην εταιρεία. Με βάση αυτόν τον διαχωρισμό των πελατών μπορούν να προσανατολίσουν την στρατηγική της εταιρείας στην εξειδικευμένη εξυπηρέτηση ορισμένων πελατειακών ομάδων. Για παράδειγμα, από την ανάλυση ενός πολύ μεγάλου συνόλου πελατών, μπορεί να μειωθεί το κόστος μίας διαφημιστικής εκστρατείας που βασίζεται στην αποστολή διαφημιστικών φυλλαδίων. Αυτό γίνεται περιορίζοντας το πλήθος των πελατών στους οποίους απευθύνεται, επιλέγοντας αυτούς με μεγαλύτερη πιθανότητα να αντιδράσουν θετικά. Για να μπορέσει να γίνει η επιλογή του κατάλληλου αλγορίθμου απαραίτητη προϋπόθεση είναι η μελέτη των δεδομένων που θα χρησιμοποιηθούν για τον προσδιορισμό κυρίως του κριτηρίου ομοιότητας των εγγραφών μίας ομάδας. Γενικά η τεχνική της ομαδοποίησης μπορεί να είναι: Στατιστική ή Αριθμητική (statistical/numerical clustering) Σε αυτήν την περίπτωση χρησιμοποιούνται διάφορα αριθμητικά κριτήρια ομοιότητας. Έτσι οι ομάδες που προκύπτουν περιγράφονται από αριθμητικές τιμές Εννοιολογική (conceptual clustering) Σε αυτήν την περίπτωση ο προσδιορισμός των ομάδων βασίζεται στο νόημα και στις έννοιες που τα διάφορα αριθμητικά στοιχεία 21

28 αντιπροσωπεύουνε. Έτσι οι τιμές που έχουμε είναι κατηγορικές και όχι αριθμητικές. Πολλοί από τους αλγόριθμους ομαδοποίησης απαιτούν τo σύνολο εκπαίδευσης που επεξεργάζονται να είναι αριθμητικό (πχ k- means) είτε κατηγορικό (πχ k-modes).υπάρχουν και αλγόριθμοι βέβαια που επιτρέπουν μικτό σύνολο εκπαίδευσης (πχ ο k-prototypes). Στην συνέχεια θα περιγραφεί αναλυτικά ένας από τους βασικότερους αλγόριθμους ομαδοποίησης ο k-means, ο οποίος παρουσιάστηκε αρχικά το 1967 [.4]. Ο k-means διαχωρίζει τα δεδομένα του συνόλου εκπαίδευσης σε k ομάδες, όπου το k καθορίζεται από τον χρήστη. Η λειτουργία του βασίζεται σε διαδοχικές επαναλήψεις κατά τις οποίες τα δεδομένα κατατάσσονται σε κάποια ομάδα με βάση την ομοιότητα που παρουσιάζουν με το μέσο αυτής της ομάδας. Ο αλγόριθμος στηρίζεται ουσιαστικά σε κάποια αντιπροσωπευτικά δείγματα (means) κάθε ομάδας. Κάθε μία από τις k ομάδες που θα δημιουργηθούν θα περιέχει ένα αντιπροσωπευτικό δείγμα το οποίο ουσιαστικά θα αντιπροσωπεύει την ομάδα, καθώς θα αποτελεί μια μέση περιγραφή της ομάδας. Επίσης το αντιπροσωπευτικό δείγμα θεωρείται ότι είναι το κέντρο βάρους της ομάδας. Ο αλγόριθμος προσπαθεί να κατατάξει τις εγγραφές στις διάφορες ομάδες έτσι ώστε μετά τον τερματισμό, κάθε εγγραφή να ανήκει σε εκείνη την ομάδα από της οποίας το αντιπροσωπευτικό δείγμα απέχει λιγότερο σε σχέση με αυτά των άλλων ομάδων. Τα βήματα του αλγορίθμου είναι τα εξής: 1. Προσδιόρισε το k 2. Πάρε τα αρχικά k αντιπροσωπευτικά δείγματα (πχ πάρε τις πρώτες k αντιπροσωπευτικές εγγραφές) 3. Επανέλαβε 4. Για κάθε εγγραφή βρες την απόστασή της από τα αντιπροσωπευτικά δείγματα και θεώρησε ότι ανήκει στην ομάδα του πιο κοντινότερου αντιπροσωπευτικού δείγματος 5. Υπολόγισε τα νέα αντιπροσωπευτικά δείγματα (κέντρα βάρους) των ομάδων 6. Μέχρι να μην γίνονται αλλαγές. Μία βελτιωμένη έκδοση του αλγορίθμου k-means αποτελεί ο αλγόριθμος K-modes πάνω στον οποίο θα γίνει και η εφαρμογή μας για Ομαδοποίηση στο πρακτικό κομμάτι της εργασίας. Για τον λόγο αυτό κρίνουμε σκόπιμο να παρουσιάσουμε κάποια στοιχεία που αφορούν τον συγκεκριμένο αλγόριθμο. Ο αλγόριθμος K-modes Ο αλγόριθμος K-modes είναι ένας αλγόριθμος κατηγοριοποίησης δεδομένων [.17]. Πραγματεύεται και εφαρμόζεται σε κατηγορικά δεδομένα και αποτελεί θα μπορούσαμε να πούμε μία βελτιωμένη έκδοση του αλγορίθμου k-means. Ο συγκεκριμένος αλγόριθμος απαιτεί από τον χρήστη να καθορίσει από την αρχή τον αριθμό των ομάδων που επιθυμεί να εξαχθούν και να παραχθούν και ο αλγόριθμος με την σειρά του προχωράει σε αυτό. Κάθε ομάδα (cluster) έχει ένα κέντρο ή αλλιώς μέσο (mode) που σχετίζεται με αυτήν. Υποθέτουμε ότι τα αντικείμενα του συνόλου 22

29 που έχουμε στην διάθεσή μας περιγράφονται από m κατηγορικά πεδία, το κέντρο της κάθε ομάδας είναι ένα διάνυσμα Q = (q 1,q 2,.,q m ) όπου το στοιχείο q i είναι εκείνο με την μεγαλύτερη συχνότητα όσον αφορά την τιμή του για το iοστό πεδίο στην ομάδα των αντικειμένων. Δοθέντος ενός συνόλου δεδομένων και ορίζοντας τον αριθμό των ομάδων, ο αλγόριθμος λειτουργεί ως εξής: 1. Επέλεξε αρχικά k κέντρα για k ομάδες (clusters) 2. Για κάθε στοιχείο Χ -Υπολόγισε την ομοιότητα μεταξύ του αντικειμένου / στοιχείου Χ και των κέντρων όλων των ομάδων -Εισήγαγε το στοιχείο Χ στην ομάδα c της οποίας το κέντρο / μέσο είναι το πιο κοντινό, όμοιο με το Χ -Κάνε update στο κέντρο της ομάδας c 3. Επανεξέτασε την ομοιότητα των στοιχείων σε σχέση με τα υπάρχοντα κέντρα των ομάδων (modes). Στην περίπτωση που ένα στοιχείο είναι κοντύτερα σε ένα κέντρο / mode που ανήκει σε άλλη ομάδα παρά στην δική του, επανατοποθέτησε το σε εκείνη την ομάδα και επαναπροσδιόρισε τα κέντρα / modes των ομάδων. Επανέλαβε το βήμα 3 έως ότου κανένα ή ελάχιστα αντικείμενα να αλλάζουν ομάδες. Για την ομοιότητα χρειαζόμαστε μία μετρική ώστε να επιλέγουμε την κοντινότερη ομάδα για κάθε αντικείμενο. Έστω Χ = {x 1,x 2,.x m } είναι ένα στοιχείο, όπου x i είναι η τιμή του iοστού πεδίου, και Q = (q 1,q 2,.,q m ) είναι το κέντρο της ομάδας. Το μέτρο ομοιότητας (similarity measure) μεταξύ του X και του Q μπορεί να προσδιοριστεί ως: similarity( X, Q) = δ ( xi, qi) m i= 1 όπου δ ( x, q ) = i i 1 (xi = qi) 0 (xi qi) Στην συνέχεια θα παρουσιάσουμε περισσότερα στοιχεία για την ομαδοποίηση (Cluster Analysis) [.8]. Οι αλγόριθμοι που χρησιμοποιούνται για clustering / ομαδοποίηση ανήκουν σε πέντε κατηγορίες όπως αυτές αναφέρονται παρακάτω: 23

Δείτε περισσότερα