ΤΕΙ ΚΑΒΑΛΑΣ ΣΧΟΛΗ: ΣΔΟ ΤΜΗΜΑ: ΔΙΑΧΕΙΡΙΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΦΟΙΤΗΤΡΙΑ: ΑΓΑΟΓΛΟΥ ΣΟΦΙΑ ΑΕΜ: 369

Transcript

1 ΤΕΙ ΚΑΒΑΛΑΣ ΣΧΟΛΗ: ΣΔΟ ΤΜΗΜΑ: ΔΙΑΧΕΙΡΙΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΦΟΙΤΗΤΡΙΑ: ΑΓΑΟΓΛΟΥ ΣΟΦΙΑ ΑΕΜ: 369 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "Στατιστικές μέθοδοι στην εξόρυξη πληροφοριών " Επιβλέπων καθηγητής :Παπαντόπουλος Γεώργιος

2 ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1ο: Εξόρυξη δεδομένων Παράγραφος 1.1: Τι είναι η εξόρυξη δεδομένων (περιληπτικά).3 Παράγραφος 1.2: Τι δεν μπορεί να κάνει η εξόρυξη δεδομένων..3-4 Παράγραφος 1.3: Εξόρυξη δεδομένων και αποθήκες δεδομένων Παράγραφος 1.4: Εξόρυξη δεδομένων και ανάλυση OLAP.. 6 Παράγραφος 1.5: Εξόρυξη πληροφοριών, τεχνική νοημοσύνη και στατιστική 7 Παράγραφος 1.6: Εξόρυξη πληροφοριών ιδωμένοι από την σκοπιά του Hardware και Software Παράγραφος 1.7: Εφαρμογές της εξόρυξης πληροφοριών..8-9 Παράγραφος 1.8:Επιτυχής εξόρυξη δεδομένων... 9 Κεφάλαιο 2ο: Προετοιμασία δεδομένων για την εξόρυξη πληροφοριών Παράγραφος 2.1: Ανάλυση και αναπαράσταση δεδομένων Παράγραφος 2.2: Ομαδοποίηση δεδομένων Παράγραφος 2.3: Ανάλυση συσχετίσεων Κεφάλαιο 3ο: Εξόρυξη δεδομένων ως μέθοδος πρόβλεψης Παράγραφος 3.1: Ιεράρχηση επιλογών Παράγραφος 3.2: Ταξινόμηση Παράγραφος 3.3: Επανάληψη Παράγραφος 3.4: Χρονοσειρές Κεφάλαιο 4ο: Μοντέλα και αλγόριθμοι εξόρυξης πληροφοριών Παράγραφος 4.1: Νευρωνικά δίκτυα Παράγραφος 4.2: Δένδρα αποφάσεων Παράγραφος 4.3: Επαγωγή κανόνων Παράγραφος 4.4: Ανάλυση διακριτότητας Παράγραφος 4.5: Μέθοδος των πλησιέστερων γειτόνων (K-nearest neighbour and memory-based reasoning MBR) Παράγραφος 4.6: Μέθοδοι προώθησης (Boosting) Παράγραφος 4.7: Γενετικοί αλγόριθμοι Κεφάλαιο 5ο: Διαδικασίες εξόρυξης πληροφοριών Παράγραφος 5.1: Μοντελοποίηση διαδικασιών εξόρυξης πληροφοριών Κεφάλαιο 6ο: Εμπορικά πακέτα εξόρυξης πληροφοριών Κεφάλαιο 7ο: Συμπεράσματα..76 2

3 Κεφάλαιο 1ο: Εξόρυξη δεδομένων Παράγραφος 1.1: Τι είναι η εξόρυξη δεδομένων (περιληπτικά) Στην σύγχρονη εποχή οι βάσεις δεδομένων έχουν αναπτυχθεί τόσο πολύ που μπορούν να φτάσουν ακόμη και το μέγεθος των <terabytes> και μάλιστα πολλές φορές ξεπερνούν τα bytes δεδομένων.μέσα σε αυτές τις μάζες δεδομένων υπάρχει κρυμμένη πληροφορία στρατηγικής σημασίας.ένα εύλογο ερώτημα λοιπόν θα ήταν πως μέσα από αυτές τις μάζες θα μπορούσε να εξαχθεί χρήσιμη πληροφορία. Η νεότερη απάντηση σε αυτό το ερώτημα είναι η εξόρυξη δεδομένων <Data Mining>,η οποία χρησιμοποιείται και για να αυξήσει τα έσοδα αλλά και για να μειώσει τα έξοδα των επιχειρήσεων.οι εισπράξεις που θα προκύψουν ύστερα από μια σωστή διεκπαιρέωση της διαδικασίας εξόρυξης δεδομένων είναι τεράστιες.κάποιες παγκόσμιες οργανώσεις έχουν καινοτομήσει και ήδη χρησιμοποιούν την εξόρυξη δεδομένων για να μπορέσουν να προσδιορίσουν τους πελάτες τους και ακόμη πιο συγκεκριμένα να προσδιορίσουν εκείνους τους πελάτες που έχουν την μεγαλύτερη αξία για την επιχείρηση.επίσης χρησιμοποιούν την εξόρυξη δεδομένων για να επανακατασκευάσουν το προϊόν τους σύμφωνα με τις επιθυμίες των πελατών έτσι ώστε να μπορέσουν να αυξήσουν τις πωλήσεις τους,αλλά και για να μειώσουν τις απώλειες που μπορεί να οφείλονται σε κάποια λάθη της επίχειρησης ή και σε κάποιες περιπτώσεις απάτης. Η εξόρυξη δεδομένων είναι μια διαδικασία που χρησιμοποιεί μια ποικιλία εργαλείων ανάλυσης δεδομένων για να ανακαλύψει σχέδια και σχέσεις στα δεδομένα τα οποία θα μπορούσαν να χρησιμοποιηθούν για να κάνουν πολύτιμες προβλέψεις. Το πρώτο και πιο απλό αναλυτικό βήμα στην εξόρυξη δεδομένων είναι να γίνει η περιγραφή των δεδομένων δηλαδή να καταγραφούν περιληπτικά κάποια στατιστικά χαρακτηριστικά τους (όπως ο μέσος και η τυπική απόκλιση ), να χρησιμοποιηθούν τα διαγράμματα και τα γραφήματα τους και να γίνει εξέταση κάποιων ενδεχόμενων μεγάλης σημασίας σχέσεων μεταξύ τους (όπως για παράδειγμα κάποιες τιμές που εμφανίζονται συχνά μαζί ).Στο τμήμα της διαδικασίας της εξόρυξης δεδομένων η συλλογή,η έρευνα και η επιλογή των σωστών δεδομένων έχει τεράστια σημασία. Όμως η περιγραφή των δεδομένων από μόνη της δεν μπορεί να παρέχει ένα ενεργό πλάνο..θα πρέπει λοιπόν να χτιστεί ένα μοντέλο πρόβλεψης το οποίο να βασίζεται σε σχέδια τα οποία δημιουργήθηκαν από γνωστά αποτελέσματα. Στην συνέχεια θα πρέπει να γίνει η δοκιμή αυτού του μοντέλου σε αποτελέσματα εκτός αυτού του αρχικού δείγματος.ένα καλό μοντέλο δεν θα πρέπει ποτέ να συγχέεται με την πραγματικότητα, (για παράδειγμα ένας οδικός χάρτης μπορεί να απεικονίζει το πώς είναι οι δρόμοι όμως δεν αποτελεί και τέλεια αντιπροσώπευση και του πως είναι στην πραγματικότητα οι δρόμοι αυτοί ),αλλά είναι ένας χρήσιμος οδηγός για να μπορέσει κάποιος να καταλάβει την επιχείρηση του. Το τελικό βήμα είναι να γίνει εμπειρικά η επικύρωση του μοντέλου.για παράδειγμα από μια βάση δεδομένων που περιέχει πελάτες που ήδη ανταποκρίθηκαν σε κάποια προσφορά της επιχείρησης μπορεί η επιχείρηση να χτίσει ένα μοντέλο που να προβλέπει ποιοι πιθανοί αγοραστές είναι πιθανότερο να ανταποκριθούν στην ίδια προσφορά και έπειτα να στείλει ταχυδρομικά την προσφορά αυτή σε αυτούς τους πιθανούς πελάτες και να δει ποια θα είναι τα αποτελέσματα που θα πάρει. Παράγραφος 1.2: Τι δεν μπορεί να κάνει η εξόρυξη δεδομένων Η εξόρυξη δεδομένων είναι απλά ένα εργαλείο και όχι «ένα μαγικό ραβδί» με το οποίο μια επιχείρηση μπορεί να κάνει τα πάντα. Η δουλειά του εργαλείου της εξόρυξης δεν είναι να βρίσκεται μονίμως σε μια βάση δεδομένων και να στέλνει e- mails στον χρήστη της βάσης κάθε φορά που βλέπει ένα ενδιαφέρον σχέδιο.επίσης δεν μπορεί να μηδενίσει την ανάγκη που έχει κάποιος να γνωρίσει την επιχείρηση του, να κατανοήσει τα δεδομένα και να καταλάβει τις αναλυτικές μεθόδους.η 3

4 εξόρυξη δεδομένων μπορεί να στηρίξει τους αναλυτές των επιχειρήσεων στο να βρίσκουν σχέδια και σχέσεις μέσα στα δεδομένα,όχι όμως και να εξηγεί το ποια είναι η αξία των σχεδίων αυτών για την επιχείρηση.επιπλέον τα σχέδια που ανακαλύφθηκαν από την εξόρυξη δεδομένων θα πρέπει να δοκιμαστούν και στον πραγματικό κόσμο. Θα πρέπει να τονιστεί επίσης ότι οι σχέσεις που προβλέφτηκαν δια μέσου της εξόρυξης δεδομένων δεν είναι απαραίτητα αιτίες κάποιας συμπεριφοράς.παραδείγματος χάρη το Data Mining θα μπορούσε να προσδιορίσει ότι οι άντρες που έχουν εισόδημα μεταξύ 50000$ και 65000$ και οι οποίοι είναι συνδρομητές σε κάποιο περιοδικό βρίσκονται περισσότερο κοντά στο να αγοράσουν κάποιο προϊόν που θέλει να πουλήσει η επιχείρηση.έτσι λοιπόν οι επιχειρήσεις θα μπορούσαν να χρησιμοποιήσουν τα πλεονεκτήματα που προσφέρει αυτό το εργαλείο και έτσι να στοχεύσουν στο συγκεκριμένο μέρος εκείνο της αγορά που ταιριάζει περισσότερο σε αυτό το σχέδιο,.όμως σε καμία περίπτωση δεν θα πρέπει να συμπεράνουν ότι κάποιος από αυτούς τους παράγοντες τους οδήγησε στο να αγοράσουν το προϊόν. Για να εξασφαλιστούν κάποια σημαντικά αποτελέσματα θα πρέπει πρώτα να γίνουν κατανοητά τα δεδομένα.η ποιότητα του αποτελέσματος μπορεί να είναι ευαίσθητη σε κάποια <outliers>( τιμές δεδομένων που είναι πολύ διαφορετικές από τις τυπικές τιμές της βάσης δεδομένων), μπορεί επίσης να είναι ευαίσθητη στις άσχετες στήλες ή σε στήλες που μπορεί να ποικίλουν (όπως η στήλη της ηλικίας και της χρονολογίας γεννήσεως ),ή στον τρόπο που κωδικοποιεί η επιχείρηση τα δεδομένα της,η στα δεδομένα που διαγράφονται. Οι αλγόριθμοι έχουν διαφορετική ευαισθησία σε τέτοια θέματα δεδομένων.θα ήταν λάθος το να εξαρτιέται μια επιχείρηση μόνο και μόνο στο προϊόν της εξόρυξης δεδομένων της για να πάρει όλες τις σωστές αποφάσεις. Το εργαλείο αυτό δεν μπορεί αυτόματα να ανακαλύψει κάποιες λύσεις χωρίς να υπάρχει καθοδήγηση.καλύτερο πάντως από το να θέσει μια επιχείρηση τους στόχους της ως εξής <Βελτίωση της ανταπόκρισης των πελατών στα s > θα ήταν να χρησιμοποιήσει το εργαλείο της εξόρυξης ώστε να βρει 1)Ποιοι πελάτες ανταποκρίθηκαν ή 2)Ποιοι πελάτες ανταποκρίθηκαν και έκαναν μεγάλες αγορές Τα σχέδια που θα έβρισκε το εργαλείο του Data Mining για αυτούς τους δύο σκοπούς θα ήταν πολύ διαφορετικά. Ένα καλό εργαλείο εξόρυξης δεδομένων μπορεί να βοηθήσει μια επιχείρηση να αποφύγει το μπέρδεμα που προκαλούν οι στατιστικές τεχνικές.απαιτεί από εσάς να κατανοήσετε τις λειτουργίες των εργαλείων που επιλέγετε καθώς επίσης και των αλγορίθμων στους οποίους βασίζονται.οι επιλογές που θα κάνει κάποιος για να ετοιμάσει το εργαλείο εξόρυξης δεδομένων καθώς και οι βελτιστοποιήσεις θα επηρεάσουν την ταχύτητα αλλά και την ακρίβεια του μοντέλου. Το εργαλείο της εξόρυξης δεδομένων δεν αντικαθιστά τους μάνατζερ και τους ειδικούς αναλυτές των επιχειρήσεων αλλά τους παρέχει ένα νέο δυνατό εργαλείο για να βελτιώσουν την εργασία που κάνουν.κάθε εταιρεία που γνωρίζει τις δουλειές της και τους πελάτες της έχει ήδη επίγνωση πολλών σημαντικών σχεδίων που οι εργαζόμενοι της παρατήρησαν κατά την διάρκεια της εργασίας τους.αυτό που μπορεί να κάνει αυτό το εργαλείο είναι να επιβεβαιώσει τέτοιες εμπειρικές παρατηρήσεις και να βρει νέα έξυπνα σχέδια τα οποία μπορούν να αποφέρουν σταθερά την βελτίωση (συν την περιοδική διορατικότητα που προσφέρουν ). Παράγραφος 1.3: Εξόρυξη δεδομένων και αποθήκες δεδομένων. Tα δεδομένα που πρόκειται να εξορυχθούν εξάγονται αρχικά από μια αποθήκη δεδομένων και στην συνέχεια αποθηκεύονται σε κάποια βάση δεδομένων εξόρυξης δεδομένων ή σε κάποια αγορά δεδομένων (Σχήμα 1). Υπάρχει κάποιο σημαντικό όφελος εάν τα δεδομένα είναι ήδη μέρος μιας αποθήκης δεδομένων. Τα προβλήματα του καθαρισμού των δεδομένων για μια αποθήκη δεδομένων αλλά και για την εξόρυξη δεδομένων είναι πολύ παρόμοια μεταξύ τους. Εάν τα δεδομένα έχουν ήδη καθαριστεί για μια αποθήκη δεδομένων, τότε πιθανότατα δεν θα 4

5 χρειαστούν περαιτέρω καθαρισμό για να γίνει η εξόρυξη τους. Επιπλέον, θα έχουν ήδη διευθετηθεί πολλά από τα προβλήματα της σταθεροποίησης των δεδομένων και θα έχουν ήδη αρχίσει κάποιες διαδικασίες υποστήριξης. Έτσι λοιπόν θα λέγαμε ότι η βάση δεδομένων εξόρυξης δεδομένων αποτελεί ένα λογικό, παρά ένα φυσικό.υποσύνολο της αποθήκης δεδομένων, από την άποψη ότι η αποθήκη εμπορευμάτων DBMS μπορεί να υποστηρίξει τις πρόσθετες απαιτήσεις πόρων της εξόρυξης δεδομένων. Εάν μια αποθήκη δεδομένων δεν είναι σε θέση να υποστηρίξει τις πρόσθετες απαιτήσεις πόρων της εξόρυξης δεδομένων, τότε θα ήταν καλύτερα να υπάρχει μια ξεχωριστή βάση δεδομένων εξόρυξης δεδομένων. Σχήμα 1. Εξόρυξη δεδομένων αγοράς δεδομένων που εξάγονται από μια αποθήκη δεδομένων. Περιγραφή σχήματος :Όπως βλέπουμε στο παραπάνω σχήμα η αποθήκη δεδομένων <Data Warehouse>προμηθεύεται δεδομένα από διάφορες πήγες<data Sources> και στην συνέχεια η ίδια προμηθεύει με δεδομένα τις τρεις βάσεις δεδομένων που είναι οι εξής : η Αγορά Γεωγραφικών Δεδομένων < Geographic Data Mart>, η Αγορά Ανάλυσης Δεδομένων < Analysis Data Mart> και η Αγορά Δεδομένων Εξόρυξης Δεδομένων < Data Mining Data Mart> Πρέπει να τονιστεί σε αυτό το σημείο ότι η ύπαρξη μιας αποθήκης δεδομένων δεν αποτελεί προϋπόθεση για να μπορεί να γίνει η εξόρυξη των δεδομένων. Ιδρύοντας μια μεγάλη αποθήκη δεδομένων που σταθεροποιεί τα δεδομένα από πολλές διαφορετικές πηγές, αυτό μπορεί να επιλύσει τα προβλήματα της ακεραιότητας των δεδομένων, και να φορτώσει τα δεδομένα σε μια βάση δεδομένων ερωτήσεων πράγμα το οποίο να αποτελέσει ένα πολύ μεγάλο και σημαντικό έργο το οποίο μερικές φορές μπορεί να πάρει ακόμη και χρόνια και να κοστίσει εκατομμύρια δολάρια. Όμως θα μπορούσε κάποιος να εξορύξει δεδομένα από μια ή περισσότερες λειτουργικές ή συναλλακτικές βάσεις δεδομένων εξάγοντας τα δεδομένα απλά από μια βάση δεδομένων ανάγνωσης (Σχήμα 2). Αυτή η νέα βάση δεδομένων θα λειτουργούσε ως ένας τύπος αγοράς δεδομένων.όπως βλέπουμε στο σχήμα 2 η εξόρυξη των δεδομένων γίνεται κατευθείαν από τις πηγές των δεδομένων και όχι από μια αποθήκη δεδομένων. Σχήμα 2. Αγορά δεδομένων εξόρυξης δεδομένων που εξάγονται από λειτουργικές βάσεις δεδομένων. 5

6 Παράγραφος 1.4: Εξόρυξη δεδομένων και ανάλυση OLAP. Ένα πολύ συχνό ερώτημα από τους ειδικούς της επεξεργασίας των δεδομένων είναι για την διαφορά που υπάρχει ανάμεσα στην εξόρυξη δεδομένων <Data Mining> και στην επιτόπου αναλυτική επεξεργασία <OLAP-On Line Analytical Processing> Αυτά τα δύο εργαλεία διαφέρουν το ένα από το άλλο και θα λέγαμε ότι το ένα εργαλείο συμπληρώνει το άλλο. Η <OLAP> είναι μέρος του φάσματος των εργαλείων υποστήριξης απόφασης.τα παραδοσιακά ερωτηματολόγια και κάποια εργαλεία έκθεσης,περιγράφουν τι υπάρχει μέσα στην βάση δεδομένων.η OLAP φθάνει ακόμη μακρύτερα.μπορεί να χρησιμοποιηθεί για να απαντήσει γιατί κάποια πράγματα είναι αληθινά.αυτό που μπορεί να κάνει ο χρήστης είναι να σχηματίσει μια υπόθεση για κάποια σχέση και στην συνέχεια να την επικυρώσει αυτήν την σχέση με μια σειρά από ερωτήσεις στα δεδομένα. Για παράδειγμα ένας αναλυτής μπορεί να θέλει να καθορίσει τους παράγοντες που οδηγούν στις λανθασμένες παραχωρήσεις δανείων.αρχικά θα μπορούσε να υποθέσει ότι τα άτομα που έχουν χαμηλά εισοδήματα αποτελούν για την επιχείρηση κακά πιστωτικά ρίσκα και στην συνέχεια να αναλύσει την βάση δεδομένων με την βοήθεια της OLAP για να επικυρώσει ή να διαψεύσει αυτήν την υπόθεση που έκανε.αν αυτή η υπόθεση δεν παράχθηκε από τα δεδομένα τότε ο αναλυτής μπορεί να κοιτάξει το υψηλό χρέος ως έναν καθοριστικό παράγοντα του ρίσκου.αν τα δεδομένα δεν υποστηρίξουν ούτε αυτήν την υπόθεση τότε ο αναλυτής θα μπορούσε να χρησιμοποιήσει το χρέος και το εισόδημα ως τους καλύτερους προβλεπτές των κακών πιστωτικών ρίσκων Με άλλα λόγια ο αναλυτής OLAP παράγει μια σειρά από υποθετικά σχέδια και σχέσεις και χρησιμοποιεί ερωτηματολόγια που θέτει στη βάση δεδομένων για να τα επικυρώσει ή να τα διαψεύσει.η ανάλυση OLAP είναι μια συμπερασματική διαδικασία Το ερώτημα που μας δημιουργείται όμως τώρα είναι τι συμβαίνει όταν ο αριθμός των μεταβλητών που πρόκειται να αναλυθούν είναι εκατοντάδες. Τότε γίνεται ακόμη δυσκολότερο και χρονοβόρο να βρεθεί μια καλή υπόθεση και να αναλύσουμε την βάση δεδομένων με την βοήθεια της OLAP για να την επικυρώσουμε ή να την διαψεύσουμε. Η εξόρυξη δεδομένων διαφέρει από την OLAP γιατί από το να επικυρώνει υποθετικά σχέδια,αυτό που κάνει είναι να χρησιμοποιεί τα ίδια τα δεδομένα για να αποκαλύψει τέτοια σχέδια.η εξόρυξη δεδομένων είναι στην ουσία μια επαγωγική μέθοδος.για παράδειγμα ας υποθέσουμε ότι ένας αναλυτής θέλει να βρει τους παράγοντες που οδηγούν σε κακά πιστωτικά ρίσκα και ότι για να βρει τους παράγοντες χρησιμοποιεί το Data Mining.Αυτό που μπορεί να κάνει το Data mining σε αυτήν την περίπτωση είναι ότι πέρα από το ότι θα ανακαλύψει ότι άτομα με χαμηλό εισόδημα και υψηλό χρέος αποτελούν κακό πιστωτικό ρίσκο (το οποίο μπορεί να το ανακαλύψει και η ανάλυση OLAP) το Data Mining μπορεί να προχωρήσει περισσότερο και να ανακαλύψει σχέδια που οι αναλυτές μπορεί να μην σκεφτούν να τα χρησιμοποιήσουν.όπως για παράδειγμα και ότι η ηλικία είναι ένας ακόμη καθοριστικός παράγοντας του ρίσκου. Σε αυτό το σημείο θα λέγαμε ότι το ένα εργαλείο συμπληρώνει το άλλο.πριν να ενεργήσει επάνω στο σχέδιο ο αναλυτής θα πρέπει να γνωρίζει ποιες είναι οι οικονομικές επιδράσεις της χρήσης του ανακαλυφθέντος αυτού σχεδίου.το εργαλείο OLAP μπορεί να βοηθήσει τον αναλυτή να μπορεί να απαντήσει σε τέτοιου είδους ερωτήσεις Η OLAP θα μπορούσαμε να πούμε ότι παρέχει σημαντική βοήθεια στα πρώιμα στάδια της διαδικασίας ανακάλυψης γνώσης γιατί βοηθάει στην εξερεύνηση των δεδομένων,παραδείγματος χάρη συγκεντρώνοντας την προσοχή σε σημαντικές μεταβλητές, ή αναγνωρίζοντας τις εξαιρέσεις,η βρίσκοντας αλληλεπιδράσεις.αυτό είναι πάρα πολύ σημαντικό γιατί όσο καλύτερα καταλάβει μια επιχείρηση τα δεδομένα τόσο πιο αποτελεσματική θα είναι η διαδικασία της ανακάλυψης γνώσης. 6

7 Παράγραφος 1.5: Εξόρυξη πληροφοριών, τεχνική νοημοσύνη και στατιστική Η εξόρυξη δεδομένων χρησιμοποιεί ως πλεονεκτήματα την ανάπτυξη που υπάρχει στα πεδία της τεχνητής νοημοσύνης <Artificial Intelligence-AI> καθώς επίσης και της στατιστικής <Statistics>.Και τα δύο αυτά πεδία εργάζονται επάνω στα προβλήματα της αναγνώρισης των σχεδίων και της ταξινόμησης.αυτές οι δύο κοινότητες έχουν προσφέρει πολλά στην κατανόηση τόσο των νευρωνικών δικτύων όσο και στην κατανόηση των δέντρων απόφασης. Η εξόρυξη δεδομένων δεν αντικαθιστά τις παραδοσιακές στατιστικές τεχνικές.θα λέγαμε ότι είναι περισσότερο σαν μία επέκταση των στατιστικών τεχνικών και συμμετείχε σε πολλές σημαντικές αλλαγές που έγιναν στο πεδίο των στατιστικών τεχνικών.η ανάπτυξη των περισσότερων στατιστικών τεχνικών ήταν βασισμένη μέχρι τώρα σε μια θεωρία και σε αναλυτικές μεθόδους που δούλευαν αρκετά καλά με τα μικρά ποσά των δεδομένων που αναλύονταν.η αυξημένη δύναμη των υπολογιστών και το χαμηλότερο κόστος τους σε συνδυασμό με την ανάγκη να αναλυθούν τα τεράστια σύνολα δεδομένων με εκατομμύρια γραμμές,οδήγησε στην ανάπτυξη νέων τεχνικών βασισμένων σε μια τεραστίας δύναμης εξερεύνηση των πιθανών λύσεων Κάποιες νέες τεχνικές περιλαμβάνουν κάποιους πρόσφατους αλγορίθμους όπως τα νευρωνικά δίκτυα και τα δέντρα απόφασης καθώς και κάποιες νέες προσεγγίσεις παλιότερων αλγορίθμων όπως της ανάλυσης διακριτότητας.με την αύξηση της δύναμης των ηλεκτρονικών υπολογιστών που σήμερα μπορούν να επεξεργαστούν μεγάλες ποσότητες δεδομένων,αυτές οι τεχνικές μπορούν σήμερα να υπολογίσουν σχεδόν κάθε λειτουργική μορφή ή αλληλεπίδραση από μόνες τους ενώ οι παραδοσιακές στατιστικές τεχνικές βασίζονται στον σχεδιαστή για να μπορέσουν να προσδιορίσουν την λειτουργική μορφή και τις αλληλεπιδράσεις. Το βασικό σημείο είναι ότι η εξόρυξη δεδομένων είναι μια εφαρμογή αυτών και πολλών άλλων τεχνικών της τεχνητής νοημοσύνης καθώς και πολλών άλλων στατιστικών τεχνικών που χρησιμοποιούνται για την επίλυση των κοινών προβλημάτων των επιχειρήσεων με τέτοιο τρόπο που κάνει αυτές τις τεχνικές να είναι διαθέσιμες τόσο στους έμπειρους υπαλλήλους όσο και στους εκπαιδευμένους επαγγελματίες στατιστικούς. Το Data Mining είναι ένα εργαλείο για να αυξήσει την παραγωγικότητα των ατόμων που προσπαθούν να χτίσουν προβλεπτικά μοντέλα. Παράγραφος 1.6: Εξόρυξη πληροφοριών ιδωμένη από την σκοπιά του Hardware και Software Ένα κλειδί που ενδυναμώνει την εξόρυξη δεδομένων είναι η πρόοδος που έχει γίνει στην τιμή αλλά και στην απόδοση του <hardware > υλικού. Η τεραστίων διαστάσεων μείωση 99% στην τιμή για την αποθήκευση δεδομένων στους υπολογιστές που έγινε στα τελευταία έτη άλλαξε ριζικά τα οικονομικά τόσο για την συλλογή όσο και για την αποθήκευση μεγάλων ποσών δεδομένων. Και έτσι ενώ παλιότερα για την αποθήκευση των δεδομένων η αξία για την αποθήκευση δεδομένων ήταν ένα terabyte δεδομένων $ Σήμερα ένα terabyte δεδομένων κοστίζει μόνο $ για την αποθήκευση του Επίσης και η πτώση στο κόστος της επεξεργασίας των υπολογιστών ήταν το ίδιο μεγάλη. Κάθε νέα γενιά των τσιπ αυξάνει σημαντικά τη δύναμη της ΚΜΕ -κεντρικής μονάδας επεξεργασίας < CPU-central processing unit>, επιτρέποντας έτσι να γίνονται και άλλες μειώσεις στην καμπύλη κόστους. Αυτό φαίνεται επίσης και στην τιμή της <RAM-Random access memory> μνήμη τυχαίας προσπέλασης, όπου το κόστος ενός megabyte έχει μειωθεί κατά πολύ και μάλιστα από εκατοντάδες δολάρια που ήταν η τιμή του μειώθηκε σε περίπου ένα δολάριο μέσα σε μερικά μόνο έτη. Συνήθως οι ηλεκτρονικοί υπολογιστές έχουν 64 megabyte ή και περισσότερο μνήμη RAM, οι τερματικοί σταθμοί μπορούν να έχουν 256 megabyte ή και περισσότερο μνήμη RAM, και τέλος οι κεντρικοί υπολογιστές (servers) φτάνουν ακόμη και τα gigabytes σε μνήμη RAM. 7

8 Ενώ η δύναμη της μεμονωμένης ΚΜΕ( CPU )έχει αυξηθεί κατά πολύ, οι πραγματικές πρόοδοι στην εξελιξιμότητα προέρχονται από τις αρχιτεκτονικές των παράλληλων υπολογιστών. Ουσιαστικά όλοι οι κεντρικοί υπολογιστές (servers) σήμερα μπορούν να υποστηρίξουν πολλαπλές CPUs με την χρησιμοποίηση της συμμετρικής πολυεπεξεργασίας, και οι συστοιχίες αυτών των κεντρικών υπολογιστών SMP που μπορούν να δημιουργηθούν επιτρέπουν στις εκατοντάδες CPUs να λειτουργήσουν για την εύρεση σχεδίων στα δεδομένα. Οι πρόοδοι που έγιναν επίσης στα συστήματα διαχείρισης των βάσεων δεδομένων καθώς εκμεταλλεύθηκαν αυτά τα πλεονέκτημα του παράλληλου hardware βοήθησε στο να επωφεληθούν και στην διαδικασία της εξόρυξης δεδομένων. Εάν κάποιος έχει ένα μεγάλο ή σύνθετο πρόβλημα εξόρυξης δεδομένων να αντιμετωπίσει,το οποίο απαιτεί μία μεγάλη δυνατότητα πρόσβασης σε μια υπάρχουσα βάση δεδομένων, η εγγενής πρόσβαση DBMS (πρόγραμμα διαχείρισης βάσεων δεδομένων) προσφέρει την καλύτερη λύση παρέχοντας την καλύτερη δυνατή απόδοση. Το αποτέλεσμα αυτών των τάσεων είναι να εξαλειφθούν πολλά από τα εμπόδια απόδοσης στα ευρισκόμενα σχέδια Παράγραφος 1.7: Εφαρμογές της εξόρυξης πληροφοριών Η εξόρυξη δεδομένων έχει γίνει το πιο δημοφιλή εργαλείο λόγω της ουσιαστικής συνεισφοράς που έχει προσφέρει στην επεξεργασία των δεδομένων. Μπορεί να χρησιμοποιηθεί για να ελέγξει τις δαπάνες καθώς επίσης και να συμβάλει στις αυξήσεις του εισοδήματος. Πολλές οργανώσεις χρησιμοποιούν την εξόρυξη δεδομένων για να βοηθήσουν στο να διαχειριστούν σωστά όλες τις φάσεις του κύκλου ζωής πελατών, όπως για παράδειγμα της απόκτησης νέων πελατών, της αύξησης του εισοδήματος από τους ήδη υπάρχοντες πελάτες,καθώς και της διατήρησης των καλών πελατών. Με τον καθορισμό των χαρακτηριστικών των καλών πελατών κάνοντας δηλαδή την σκιαγράφηση τους, μια επιχείρηση μπορεί να στοχεύσει σε προοπτικές στις οποίες οι πελάτες έχουν παρόμοια χαρακτηριστικά. Με τη σκιαγράφηση των πελατών που έχουν αγοράσει ένα ιδιαίτερο προϊόν μια επιχείρηση μπορεί να στρέψει την προσοχή της και σε παρόμοιους πελάτες που δεν έχουν αγοράσει το προϊόν (Αυτού του είδους η πώληση λέγεται διαγώνιος-πώληση). Με τη σκιαγράφηση των πελατών που έχουν φύγει, και γνωρίζοντας με αυτόν τον τρόπο η επιχείρηση ποια ήταν εκείνα τα χαρακτηριστικά που τους οδήγησαν να αναζητήσουν το προϊόν από άλλες επιχειρήσεις, μια επιχείρηση μπορεί να ενεργήσει έτσι ώστε να διατηρήσει τους πελάτες εκείνους που πρόκειται να φύγουν από την συγκεκριμένη επιχείρηση. Είναι προτιμότερο και λιγότερο ακριβό μια επιχείρηση να προσπαθήσει να διατηρήσει τους πελάτες της από το να προσπαθεί να αποκτήσει καινούριους πελάτες.έτσι λοιπόν συγκεντρωτικά θα λέγαμε ότι το εργαλείο της εξόρυξης δεδομένων βοηθάει στο Μάρκετινγκ και στις πωλήσεις εφόσον γίνεται με την βοήθεια των μεθόδων ανάλυσης δεδομένων,για την ανάλυση των προϊόντων, για την δημιουργία σχεδίων αγοράς, για την πρόβλεψη των πωλήσεων, και για τον προσδιορισμό της ασυνήθιστης συμπεριφοράς των καταναλωτών. Μια δεύτερη εφαρμογή που έχει η εξόρυξη δεδομένων είναι η προσφορά βοήθειας σε ένα ευρύ φάσμα των βιομηχανιών. Οι τηλεπικοινωνίες και οι επιχειρήσεις πιστωτικών καρτών είναι δύο από τους ηγέτες στην εφαρμογή της εξόρυξης δεδομένων για να ανιχνευθεί η ψευδής χρήση των υπηρεσιών τους. Οι ασφαλιστικές εταιρείες και οι εταιρείες ανταλλαγής αποθεμάτων ενδιαφέρονται και αυτές επίσης για την εφαρμογή αυτής της τεχνολογίας ώστε να μειωθεί η απάτη. Δηλαδή ένας άλλο τομέας που βοηθάει η εξόρυξη είναι τα οικονομικά για την πρόβλεψη χρηματιστηρίου, για την πιστωτική αξιολόγηση, και για την ανίχνευση απάτης. Μια άλλη εφαρμογή που έχει το εργαλείο αυτό είναι στις ιατρικές εφαρμογές : η εξόρυξη δεδομένων μπορεί να χρησιμοποιηθεί για να προβλέψει την αποτελεσματικότητα των χειρουργικών διαδικασιών Επίσης χρησιμοποιείται για να 8

9 καταγραφούν και να αποφευχθούν με την κατάλληλη επεξεργασία της πληροφορίας οι παρενέργειες των φαρμάκων, για να γίνει η ανάλυση των δαπανών των νοσοκομείων, καθώς και η ανάλυση της γενετικής ακολουθίας.. Μια τέταρτη εφαρμογή της εξόρυξης είναι ότι βοηθάει τις επιχειρήσεις που είναι ενεργές στις χρηματιστικές αγορές να καθορίσουν τα χαρακτηριστικά αγοράς και βιομηχανίας καθώς επίσης και για να προβλέψουν τη μεμονωμένη απόδοση της επιχείρησης και των αποθεμάτων. Οι λιανοπωλητές κάνουν περισσότερη χρήση της εξόρυξης δεδομένων για να αποφασίσουν ποια προϊόντα θα πρέπει να είναι στο απόθεμα στα ιδιαίτερα καταστήματα (και ακόμα και πώς να τα τοποθετήσουν μέσα σε ένα κατάστημα), και τέλος να αξιολογήσουν την αποτελεσματικότητα των προωθήσεων και των κουπονιών. Μια άλλη εφαρμογή είναι στην εφαρμοσμένη μηχανική για παράδειγμα στα αυτοματοποιημένα διαγνωστικά έμπειρα συστήματα και στην ανίχνευση ελαττωμάτων Τέλος το εργαλείο της εξόρυξης δεδομένων θα λέγαμε ότι βοηθάει και στις επιστημονικές ανακαλύψεις όπως για παράδειγμα στην έρευνα υπεραγωγιμότητας Γενικά θα λέγαμε ότι βοηθάει στην απόκτηση γνώσης εφόσον προκύπτουν νέες πληροφορίες από τις ήδη υπάρχουσες με την κατάλληλη επεξεργασία των ήδη γνωστών πληροφοριών.. Παράγραφος 1.8:Επιτυχής εξόρυξη δεδομένων. Για να είναι επιτυχής η εξόρυξη δεδομένων υπάρχουν δύο κλειδιά.το πρώτο κλειδί για να επιτευχθεί η σωστή εξόρυξη δεδομένων είναι να γίνει ένας σαφής καθορισμός του προβλήματος που πρόκειται να λυθεί.μια συγκεκριμένη και σαφής δήλωση του προβλήματος θα βοηθήσει πολύ στο να ξεκινήσει σωστά η διαδικασία της εξόρυξης. Το δεύτερο σημαντικό κλειδί για μια επιτυχή εξόρυξη είναι να χρησιμοποιηθούν τα σωστά δεδομένα.εφόσον γίνει η επιλογή των δεδομένων από τα δεδομένα που είναι διαθέσιμα στην επιχείρηση μπορεί στην συνέχεια να χρειαστεί να γίνει κάποια μετατροπή τους ή ακόμη και να συνδυαστούν μεταξύ τους με διάφορους τρόπους έτσι ώστε να προσφέρουν κάποιο συγκεκριμένο νόημα με αυτήν την μορφή τους. Όσο περισσότερο παίζει με τα δεδομένα ο χτίστης του μοντέλου,όσα περισσότερα μοντέλα χτίσει και στην συνέχεια τα δοκιμάσει και αξιολογεί τα αποτελέσματα και όσο περισσότερο ασχοληθεί με τα δεδομένα,τόσο πιο καλό θα είναι το τελικό μοντέλο. Επομένως από τα παραπάνω μπορεί να γίνει αντιληπτό ότι ο βαθμός στον οποίο το εργαλείο της εξόρυξης δεδομένων υποστηρίζει αυτήν την εξερεύνηση των δεδομένων είναι πιο σημαντικός από τους αλγόριθμους που χρησιμοποιεί. Ιδανικά θα ήταν καλό αν τα εργαλεία της εξερεύνησης των δεδομένων (όπως τα γραφικά,τα ερωτηματολόγια και η ανάλυση OLAP) είναι το ίδιο ολοκληρωμένα με τις μεθόδους της λογικής ανάλυσης ή τους αλγορίθμους που χτίζουν τα μοντέλα. 9

10 Κεφάλαιο 2ο: Προετοιμασία δεδομένων για την εξόρυξη πληροφοριών Παράγραφος 2.1: Ανάλυση και αναπαράσταση δεδομένων Προτού να δημιουργηθούν τα προβλεπτικά μοντέλα, θα πρέπει να γίνουν αντιληπτά τα δεδομένα.καλό θα ήταν λοιπόν να ξεκινήσει κάποιος συγκεντρώνοντας ένα πλήθος με αριθμητικά δεδομένα χρησιμοποιώντας (την περιγραφική στατιστική <descriptive statistics> η οποία περιλαμβάνει το μέσο όρο,τις σταθερές αποκλίσεις και ούτω καθ 'εξής [1] ) και κατόπιν να γίνει η εξέταση της διανομής των δεδομένων. Στη συνέχεια μπορούν να γίνουν διαγώνιες ταξινομήσεις όπως για παράδειγμα οι πίνακες άξονα <pivot tables> [2] ) οι οποίοι χρησιμοποιούνται για πολυδιάστατα δεδομένα. Τα δεδομένα μπορούν να είναι συνεχή, και να έχουν κάποια αριθμητική αξία (για παράδειγμα να εκφράζουν την ποσότητα που πωλείται) ή μπορεί να είναι κατηγορικά, ένα παράδειγμα κατηγορικών δεδομένων θα μπορούσε να είναι τα χρώματα (π.χ., κόκκινο, μπλε, πράσινο). Τα κατηγορικά δεδομένα ονομάζονται τακτικά όταν παίρνουν συγκεκριμένες τιμές (π.χ., υψηλός /μέσος /χαμηλός ), είτε ονομαστικά, τα οποία δεν έχουν κάποια συγκεκριμένη σειρά όπως έχουν τα τακτικά δεδομένα,τέτοια δεδομένα ονομαστικά nominal είναι (π.χ., οι ταχυδρομικοί κώδικες). Τα εργαλεία της γραφικής παράστασης και της απεικόνισης είναι μια αρκετά σημαντική βοήθεια για την προετοιμασία των δεδομένων και η σημασία τους για την αποτελεσματική ανάλυση των στοιχείων δεν θα πρέπει να παραβλεφθεί. Αυτό που προσφέρει η απεικόνιση των δεδομένων είναι μια παράσταση δεδομένων η οποία είναι απλά παρατηρήσιμη και μπορεί να οδηγήσει σε νέες ιδέες και τελικά στην επιτυχία. Μερικές από τις πιο κοινές και πολύ χρήσιμες γραφικές παραστάσεις των δεδομένων είναι το ιστόγραμμα <histogram> [3], παραστάσεις διασποράς <scatter plots > [4] για την αναπαράσταση πολυδιάστατων δεδομένων, δηλαδή την δημιουργία γραφικών παραστάσεων συνδυάζοντας τις μεταβλητές ανά δύο ή τρεις.η δυνατότητα του να μπορούμε να προσθέσουμε σε μια γραφική παράσταση και μια τρίτη μεταβλητή, αυξάνει πολύ τη χρησιμότητα μερικών τύπων γραφικών παραστάσεων. Η απεικόνιση των δεδομένων με γραφικές παραστάσεις (για παράδειγμα μια ανοδική καμπύλη )είναι χρήσιμη γιατί μπορεί να γίνει πιο κατανοητή σε αντιδιαστολή με το κείμενο ή τους αριθμούς. Δύσκολα μπορεί να αντιληφθεί κάποιος τις αυξομειώσεις των τιμών μόνο με νούμερα ενώ με την αναπαράσταση τους σε γραφική παράσταση οι αυξομειώσεις γίνονται αντιληπτές. Επίσης κάποιος μπορεί να δει σε μια εικόνα το δάσος αλλά και να κάνει ζουμ μέσα στα δέντρα. Έτσι λοιπόν τα χαρακτηριστικά σχήματα <patterns>, οι σχέσεις <relationships>, οι τιμές εξαίρεσης <exceptional values> και οι ελλείπουσες τιμές <missing values> μπορούν να κατανοηθούν πιο εύκολα όταν παρουσιάζονται γραφικά, παρά αν θα παρουσιάζονταν ως κατάλογοι αριθμών και κειμένου [5]. Το πρόβλημα με την απεικόνιση των δεδομένων είναι ότι τα σχέδια μπορεί να έχουν πολλές διαστάσεις ή μεταβλητές, αλλά υπάρχει περιορισμός στην απεικόνιση των δεδομένων στον υπολογιστή καθώς ο υπολογιστής μπορεί να παρουσιάσει σε δυο διαστάσεις την «εικόνα» των δεδομένων.δεν φαίνεται για παράδειγμα ο όγκος ενός σχήματος ενώ φαίνεται το μήκος το πλάτος και το ύψος. Για αυτόν τον λόγο και επειδή μπορεί να θελήσει κάποιος να δει τη σχέση μεταξύ του πιστωτικού κινδύνου και της ηλικίας, του φύλου, της οικογενειακής κατάστασης, της ιδιοκτησίας ή ενοικίασης, των ετών στην εργασία, κ.λπ. τα οποία δεδομένα δεν μπορούν να παρασταθούν σε τρεις διαστάσεις στον υπολογιστή, τα εργαλεία απεικόνισης χρησιμοποιούν κάποιες έξυπνες αντιπροσωπεύσεις για να μετατρέψουν τις ν διαστάσεις σε δύο. Συνεχώς αναπτύσσονται όλο και περισσότερο ισχυρά και περίπλοκα εργαλεία απεικόνισης στοιχείων, αλλά απαιτούν από τους ανθρώπους που τα χειρίζονται να εκπαιδευτούν ακόμη καλύτερα μέσω της πρακτικής 10

11 προκειμένου να καταλάβουν τις πληροφορίες που μεταβιβάζονται. Οι χρήστες που είναι δαλτονικοί ή που δεν είναι προσανατολισμένοι στο χώρο μπορούν επίσης να έχουν προβλήματα με τα εργαλεία απεικόνισης [6]. Παράγραφος 2.2: Ομαδοποίηση δεδομένων Η ανάλυση των δεδομένων αποτελεί τη βάση σε πολλές εφαρμογές στον τομέα της πληροφορικής, είτε κατά την διάρκεια της σχεδίασης κάποιας εφαρμογής ή κατά την λειτουργία της. Οι διαδικασίες ανάλυσης δεδομένων μπορούν να χωριστούν σε δύο κατηγορίες, τις διαδικασίες ανεύρεσης, με στόχο την ανακάλυψη και την κατασκευή υποθέσεων (hypothesis) από τα δεδομένα, και τις διαδικασίες επιβεβαίωσης με στόχο την λήψη αποφάσεων δεδομένης της δομής της πληροφορίας. Ο διαχωρισμός βασίζεται στην ύπαρξη ή μη κατάλληλων μοντέλων τα οποία εκφράζουν την πηγή των δεδομένων. Και στις δύο περιπτώσεις διαδικασιών όμως, σημείο κλειδί είναι η ομαδοποίηση (ή κατηγοριοποίηση) των δεδομένων με βάση (α) το υιοθετημένο μοντέλο, ή (β) τις φυσικές ομάδες δεδομένων (κατηγοριοποίηση) που προκύπτουν από την ανάλυση των δεδομένων.η ανάλυση συστάδων (cluster analysis) ή πιο απλά το clustering είναι η οργάνωση μιας συλλογής από δείγματα-στοιχεία (patterns) σε συστάδες (clusters) με βάση κάποιο μέτρο ομοιότητας. Τα στοιχεία συνήθως περιγράφονται σαν διανύσματα τιμών κάποιων μέτρων ή αναπαριστώνται ως σημεία σε έναν πολυδιάστατο χώρο. Στοιχεία που ανήκουν στην ίδια ομάδα παρουσιάζουν μεγαλύτερη ομοιότητα από ότι στοιχεία που ανήκουν σε διαφορετικές ομάδες και τα στοιχεία που ανήκουν στην ίδια ομάδα έχουν κοινό αριθμό. Η ποικιλία τεχνικών για την αναπαράσταση των δεδομένων, έκφρασης της ομοιότητας μεταξύ στοιχείων και ομαδοποίησης των δεδομένων έχει ως αποτέλεσμα την ύπαρξη μιας πλούσιας συλλογής μεθόδων ομαδοποίησης. Η ομαδοποίηση (clustering) είναι μια διαδικασία που εντάσσεται γενικότερα στην μη επιβλέπουσα κατηγοριοποίηση (unsupervised classification). Είναι σημαντικό να καταλάβουμε την διαφορά μεταξύ supervised και unsupervised classification. Στην επιβλέπουσα κατηγοριοποίηση (supervised classification) ένα σύνολο από προομαδοποιημένα στοιχεία είναι διαθέσιμο, και αυτό που μας ζητείται είναι να εντάξουμε ένα νέο στοιχείο σε κάποια από τις υπάρχουσες ομάδες. Συνήθως τα προομαδοποιημένα στοιχεία χρησιμοποιούνται για να περιγράψουν τις διαφορετικές ομάδες κλάσεις στις οποίες θα εντάξουμε νέα στοιχεία. Αντίθετα στην unsupervised classification και στην ομαδοποίηση το πρόβλημα είναι να ομαδοποιήσουμε σε λογικές κλάσεις τα στοιχεία μας, χωρίς καμία γνώση για προϋπάρχουσες ομάδες. Έτσι η κατηγοριοποίηση είναι απόλυτα οδηγούμενη από τα δεδομένα (data driven) και παράγεται μόνο από αυτά. Το Clustering είναι πολύ χρήσιμο σε πολλούς τομείς όπως η ανάλυση προτύπων (pattern-analysis), η λήψη αποφάσεων (decision-making), η μηχανική εκμάθηση (machine-learning), η εξόρυξη δεδομένων (data mining), η ανάκτηση κειμένων (document retrieval) κ.α. Στις περισσότερες των περιπτώσεων που εφαρμόζεται το Clustering υπάρχει μικρή γνώση για την δομή και το είδος των στοιχείων π.χ. στατιστικά μοντέλα, που να περιγράφουν τα δεδομένα. Έτσι ο υπεύθυνος για την λήψη των τελικών αποφάσεων και την εφαρμογή του Clustering στα δεδομένα θα πρέπει να κάνει κάποιες υποθέσεις για τα δεδομένα. Κάτω από αυτούς τους περιορισμούς η μεθοδολογία του Clustering διαφαίνεται ιδιαίτερα κατάλληλη για την ανακάλυψη αλληλοσυσχετισμών μεταξύ των δεδομένων προκειμένου να κατανοηθεί η δομή τους, κάτι που είναι και ο απώτερος στόχος. 11

12 Η διαδικασία του Clustering Συνήθως τα βήματα που ακολουθούνται κατά την διαδικασία του Clustering είναι: a. Αναπαράσταση των στοιχείων η οποία μπορεί να περιλαμβάνει παραγωγή νέων χαρακτηριστικών η επιλογή μέρους των χαρακτηριστικών των στοιχείων. (Pattern representation) b. Ορισμός του μέτρου ομοιότητας μεταξύ των στοιχείων. (Similarity measure definition) c. Η καθεαυτή διαδικασία της ομαδοποίησης. (Clustering) d. Αφαίρεση δεδομένων όταν χρειάζεται. (Data abstraction) e. Προσδιορισμός και εκτίμηση του αποτελέσματος. (Assessment of output) Παρακάτω παρουσιάζεται μια τυπική αλληλουχία των τριών πρώτων σταδίων κατά την διαδικασία του Clustering. a.η αναπαράσταση των στοιχείων αφορά στον αριθμό των κλάσεων, τον αριθμό των διαθέσιμων στοιχείων, στον αριθμό και τύπο των χαρακτηριστικών τα οποία ενδιαφέρουν τον αλγόριθμο του Clustering. Μερικά από τα προηγούμενα δεν είναι άμεσα διαθέσιμα. Ενδιαφέρον παρουσιάζει η διαδικασία της επιλογής χαρακτηριστικών κατά την οποία βρίσκονται και επιλέγονται τα καταλληλότερα χαρακτηριστικά των στοιχείων τα οποία θα χρησιμοποιηθούν για το Clustering. Εξάλλου, η διαδικασία της εξαγωγής χαρακτηριστικών χρησιμοποιεί μετασχηματισμούς υπαρχόντων χαρακτηριστικών για την παραγωγή άλλων τα οποία πιθανόν να είναι πιο ενδιαφέροντα. Οποιαδήποτε από τις τεχνικές αυτές μπορεί να χρησιμοποιηθεί για την επιλογή των κατάλληλων χαρακτηριστικών για την αναπαράσταση των στοιχείων προς ομαδοποίηση. b.το μέτρο ομοιότητας μεταξύ των στοιχείων καθορίζεται από μια συνάρτηση απόστασης. Ένα απλό μέτρο απόστασης όπως η Ευκλείδεια απόσταση μπορεί να χρησιμοποιηθεί για να αντικατοπτρίσει την διαφορά-ανομοιότητα μεταξύ δύο στοιχείων, ενώ άλλα μέτρα απόστασης ποσοτικοποιούν την ομοιότητα των στοιχείων. c.η διαδικασία του Clustering μπορεί να πραγματοποιηθεί με πολλούς τρόπους. Το αποτέλεσμα μπορεί να είναι απόλυτα καθορισμένο ( από την ομαδοποίηση των δεδομένων σε ξένες μεταξύ τους κλάσεις), ή fuzzy (όπου κάθε στοιχείο δεν ανήκει μόνο σε μία κλάση αλλά είναι μέλος όλων των κλάσεων με κάποιο βαθμό σε κάθε μια). Οι αλγόριθμοι ιεραρχικού Clustering παράγουν μια σειρά από εμφωλευμένες κλάσεις μετά από διαδικασίες διαχωρισμού ή συγχώνευσης με βάση το μέτρο ομοιότητας μεταξύ των στοιχείων διαφορετικών ομάδων. Οι αλγόριθμοι διαμέρισης από την μεριά τους στοχεύουν στο να διαχωρίσουν τα δεδομένα με τέτοιο τρόπο ώστε να βελτιστοποιείται το κριτήριο με το οποίο γίνεται το Clustering, πιθανόν κάποιο μέτρο ομοιότητας η διαφοροποίησης. Άλλες τεχνικές Clustering βασίζονται στην θεωρία των πιθανοτήτων και άλλες σε θεωρία γράφων. d.η αφαίρεση δεδομένων είναι διαδικασία κατά την οποία το σύνολο των δεδομένων αποκτά μια απλή και συμπαγή αναπαράσταση. Ο όρος απλή αναπαράσταση μπορεί να εξηγηθεί είτε από την μεριά της αυτοματοποιημένης ανάλυσης είτε από την μεριά του ανθρώπου. Στην πρώτη περίπτωση θα θέλαμε τα δεδομένα μας να αναπαριστώνται με τέτοιο σαφή και απλό τρόπο ώστε μια περεταιτέρω υπολογιστική επεξεργασία να είναι εξίσου εφικτή. Στην δεύτερη περίπτωση η απλή αναπαράσταση 12

13 των δεδομένων τα κάνει πιο κατανοητά στους ειδικούς που πρόκειται να τα επεξεργαστούν και να βγάλουν συμπεράσματα. Συνήθως η αφαίρεση δεδομένων στο Clustering είναι μια συνοπτική αναπαράσταση κάθε κλάσης με την βοήθεια κάποιου αντιπροσώπου στοιχείου το οποίο καλείται κεντροειδές (centroid). e.τέλος η εκτίμηση της διαδικασίας του Clustering προσπαθεί να εκτιμήσει το αποτέλεσμα ενός αλγορίθμου, να βρει τι χαρακτηρίζει μια καλή διαδικασία από μια όχι και τόσο επιτυχή. Κυρίως αυτό που εκτιμάται είναι το τελικό αποτέλεσμα, δηλαδή κατά πόσο οι κλάσεις που δημιουργήθηκαν έχουν νόημα και κατά πόσο αυτές δεν δημιουργήθηκαν κατά τυχαίο τρόπο εξαιτίας του συγκεκριμένου αλγορίθμου που χρησιμοποιήθηκε. Επιλογή του Κατάλληλου Αλγόριθμου Η επιλογή του κατάλληλου αλγορίθμου για Clustering δεν είναι απλό πράγμα. Η πληθώρα αλγορίθμων Clustering οι οποίοι υπάρχουν στην βιβλιογραφία είναι ένα μεγάλο εμπόδιο στην απόφαση του καλύτερου αλγορίθμου για το εκάστοτε πρόβλημα που αντιμετωπίζεται. Ένα σύνολο από κριτήρια αποδοχής κάποιου αλγορίθμου έχουν προταθεί για την σύγκριση αλγορίθμων Clustering. Αυτά βασίζονται (1) στο τρόπο με τον οποίο σχηματίζονται τα clusters, (2) την δομή που έχουν τα δεδομένα προς επεξεργασία, (3)στην ευαισθησία που έχει ο αλγόριθμος σε αλλαγές που δεν επηρεάζουν τα δεδομένα. Παράλληλα με αυτά τα κριτήρια θα βοηθούσε πολύ να μπορούσαμε να δώσουμε απαντήσεις και σε άλλα ερωτήματα όπως (Α) ποιο είναι το καλύτερο μέτρο για την σύγκριση της ομοιότητας των στοιχείων, (Β) πως πρέπει να αξιοποιηθεί κάποια γνώση που έχουμε για τα δεδομένα κ.α. Το κυρίως πρόβλημα ενός αλγορίθμου Clustering είναι ότι δεν μπορεί για όλες τις περιπτώσεις δεδομένων να εφαρμοστεί και να αναδείξει επιτυχώς την ποικιλία δομών που εμφανίζονται ειδικά σε πολυδιάστατα σύνολα δεδομένων. Για να γίνει αυτό πιο κατανοητό ας θεωρήσουμε το παράδειγμα στο σχήμα 1(α). Δυστυχώς δεν είναι εύκολο για όλους τους αλγορίθμους να αναδείξουν τα clusters που φαίνονται στο σχήμα 1(β). Αυτό συμβαίνει γιατί σε κάθε αλγόριθμο χρησιμοποιούνται διαφορετικές υποθέσεις για την δομή των δεδομένων, διαφορετικά μέτρα σύγκρισης ομοιότητας και διαφορετικά κριτήρια ομαδοποίησης. Για τον λόγο αυτό είναι απαραίτητο για κάθε χρήστη ενός αλγορίθμου Clustering να γνωρίζει πολύ καλά την τεχνική που ακολουθεί ο αλγόριθμος της επιλογής του, να έχει γνώση των λεπτομερειών στο πως ομαδοποιούνται τα δεδομένα σε clusters και να είναι καλός γνώστης της πληροφορίας που πρόκειται να επεξεργαστεί. Όσο περισσότερη πληροφορία για τα δεδομένα έχει στα χέρια του ο χρήστης τόσο καλύτερα θα εκτιμηθεί η διαδικασία του Clustering και σωστά συμπεράσματα θα προκύψουν. Επίσης η γνώση για τα δεδομένα μπορεί να χρησιμοποιηθεί για να βελτιώσει την ποιότητα παραγωγής χαρακτηριστικών, να επιλεγεί το καλύτερο μέτρο ομοιότητας και να αποφασιστεί η όσο το δυνατόν καλύτερη αναπαράσταση των δεδομένων. Τεχνικές Clustering Οι τεχνικές Clustering μπορούν να διαχωριστούν με πολλούς τρόπους, όπως Ιεραρχικό Clustering σε αντίθεση με το Διαμεριστικό, και καθένα από αυτά να χωριστεί σε άλλες υποκατηγορίες. Θα αναφερθούμε σε διαφορετικές προσεγγίσεις Clustering παρακάτω αφού προηγουμένως δούμε κάποιους όρους και διαφοροποιήσεις που παρουσιάζουν οι διάφοροι αλγόριθμοι. Οι αλγόριθμοι για Clustering μπορεί να είναι: 13

14 Συγκεντρωτικοί και Διαχωριστικοί (Agglomerative and Divisive). Η διαφοροποίηση των ειδών αυτών σχετίζεται με την λειτουργία και τις δομές του αλγορίθμου. Στην πρώτη περίπτωση ο αλγόριθμος ξεκινά θεωρώντας κάθε στοιχείο σαν ένα ξεχωριστό cluster, και προχωρά συγχωνεύοντας στοιχεία και clusters μέχρις ότου να ικανοποιηθεί μια συνθήκη. Στην περίπτωση ενός διαχωριστικού αλγορίθμου, όλα τα στοιχεία θεωρούνται ότι ανήκουν σε ένα cluster και ακολουθείται μια συνεχής διάσπαση του cluster αυτού σε υποcluster μέχρις ότου να ικανοποιηθεί η συνθήκη τερματισμού. Μονοθετικοί και Πολυθετικοί (Monothetic and Polythetic). Η διαφορά αυτών χαρακτηρίζει την σειριακή ή ταυτόχρονη χρησιμοποίηση των χαρακτηριστικών των στοιχείων κατά την διαδικασία του Clustering. Οι περισσότεροι αλγόριθμοι είναι πολυθετικοί, κάτι που σημαίνει ότι όλα τα χαρακτηριστικά των στοιχείων συμμετέχουν κάθε φορά στον καθορισμό της απόστασης του στοιχείου από κάποιο άλλο. Ένας μονοθετικός αλγόριθμος λαμβάνει υπόψη του μόνο ένα χαρακτηριστικό τη φορά και πραγματοποιεί ομαδοποιήσεις με βάση αυτό το χαρακτηριστικό. Στην επόμενη επανάληψη χρησιμοποιεί άλλο χαρακτηριστικό και διαχωρίζει τις ήδη υπάρχουσες ομάδες. Ένα παράδειγμα φαίνεται στο σχήμα 3. Εδώ τα στοιχεία του χώρου μας έχουν χωριστεί σε δύο clusters αρχικά με βάση το χαρακτηριστικό Χ1. Ο διαχωρισμός δηλώνεται με την κάθετη γραμμή V. Στην συνέχεια κάθε cluster χωρίζεται με βάση το χαρακτηριστικό Χ2 και τα νέα clusters διαχωρίζονται από τις οριζόντιες γραμμές Η1 και Η2. Το πρόβλημα αυτών των αλγορίθμων είναι ότι τα στοιχεία χωρίζονται τελικά σε 2 d clusters όπου d είναι ο αριθμός των χαρακτηριστικών των στοιχείων. Αυτό συνήθως οδηγεί σε πολλά clusters εκ των οποίων τα περισσότερα είναι μικρά και ασήμαντα. Σκληροί και fuzzy (hard and fuzzy). Ένας σκληρός αλγόριθμος τοποθετεί κάθε στοιχείο σε ένα και μόνο cluster, σε αντίθεση με τους fuzzy αλγορίθμους οι οποίοι δίνουν σε κάθε στοιχείο για κάθε cluster έναν βαθμό που εκφράζει κατά πόσο το στοιχείο αυτό ανήκει στο cluster αυτό. Ντετερμινιστικοί και Στοχαστικοί (Deterministic and Stochastic). Αυτοί οι αλγόριθμοι είναι κυρίως διαιρετικοί και σχετίζονται με την βελτιστοποίηση της ομαδοποίησης. Αυξυντικοί και μη αυξυντικοί (Incremental and non-incremental). Η διαφορά αυτών των αλγορίθμων εμφανίζεται όταν το σύνολο των δεδομένων προς ομαδοποίηση είναι πολύ μεγάλο και περιορισμοί που υπάρχουν στον χρόνο εκτέλεσης και τον διαθέσιμο χώρο μνήμης επηρεάζουν την αρχιτεκτονική του αλγορίθμου. Στα πρώτα βήματα της θεωρίας περί clustering τα δεδομένα δεν ήταν ιδιαίτερα πολλά και προβλήματα με το μέγεθος της πληροφορίας δεν υπήρχαν. Με την αύξηση όμως της πληροφορίας υπήρξε η ανάγκη για εύρεση αλγορίθμων οι οποίοι ελαχιστοποιούν τον αριθμό σαρώσεων των δεδομένων, μειώνουν τον αριθμό των στοιχείων που εξετάζονται η μειώνουν το μέγεθος των δομών που χρησιμοποιούνται κατά την εκτέλεση του αλγορίθμου. Α)Αλγόριθμοι Ιεραρχικού clustering Οι περισσότεροι ιεραρχικοί αλγόριθμοι είναι παραλλαγές των αλγορίθμων απλούσυνδέσμου (single-link), του πλήρους-συνδέσμου(complete-link). Η διαφορά μεταξύ των αλγορίθμων αυτών έχει να κάνει με τον τρόπο με τον οποίο ορίζουν την ομοιότητα μεταξύ στοιχείων και κατά συνέπεια clusters πριν την συγχώνευσή τους. Στην περίπτωση του απλού-συνδέσμου η απόσταση μεταξύ δύο clusters είναι η ελάχιστη από τις αποστάσεις μεταξύ όλων των ζευγών στοιχείων από τα δύο clusters (κάθε ζεύγος περιέχει ένα στοιχείο από το ένα cluster και ένα από το άλλο). Στον αλγόριθμο πλήρους-συνδέσμου η απόσταση μεταξύ δύο clusters είναι η μέγιστη από 14

15 τις αποστάσεις μεταξύ όλων των ζευγών στοιχείων από τα δύο clusters. Και στις δύο περιπτώσεις δυο clusters συγχωνεύονται για να δημιουργήσουν ένα cluster όταν η απόσταση αυτή, όπως και αν ορίζεται είναι ελάχιστη. Έχει αποδειχτεί ότι ο αλγόριθμος του πλήρους συνδέσμου δημιουργεί καλύτερα, πιο συμπαγή clusters. Αντίθετα ο αλγόριθμος του απλού-συνδέσμου έχει την τάση να δημιουργεί σκόρπια και επιμήκη clusters. Ο αλγόριθμος απλού συνδέσμου είναι αρκετά ευέλικτος σε δύσκολες περιπτώσεις. Για παράδειγμα ο αλγόριθμος απλού-συνδέσμου μπορεί να εξάγει ομόκεντρα clusters ενώ ο αλγόριθμος πλήρους-συνδέσμου δεν μπορεί. Τελικά κανείς από του δύο αλγορίθμους δεν είναι πανάκεια. Φαίνεται όμως ότι ο δεύτερος παράγει καλύτερες και πιο χρήσιμες ιεραρχίες από τον πρώτο σε πολλές εφαρμογές. Β) Διαμεριστικοί αλγόριθμοι Ένας διαμεριστικός αλγόριθμος έχει ως αποτέλεσμα μια διαμέριση του χώρου των δεδομένων σε αντίθεση με τους ιεραρχικούς αλγορίθμους που δημιουργούν πιο πολύπλοκες δομές που περιγράφονται από τα δενδρογράμματα. Οι αλγόριθμοι αυτοί υπερτερούν σε περιπτώσεις όπου τα δεδομένα είναι πάρα πολλά και η δημιουργία δενδροδιαγραμματων είναι αδύνατη. Το κυρίως πρόβλημα των αλγορίθμων αυτών είναι η απόφαση για τον αριθμό των τελικών clusters. Ο αριθμός αυτός καθορίζεται κυρίως από την προσπάθεια βελτιστοποίησης μιας συνάρτησης. Στην πραγματικότητα αυτό που γίνεται είναι να τρέχει ο αλγόριθμος για διάφορους αριθμούς από clusters και να επιλέγεται εκείνη η τελική κατάσταση η οποία βελτιστοποιεί την παραπάνω συνάρτηση. Το κριτήριο που χρησιμοποιείται κυρίως σε διαμεριστικούς αλγορίθμους για την τελική απόφαση του αριθμού των clusters είναι το κριτήριο του τετραγωνικού λάθους ή η συνάρτηση τετραγωνικού λάθους (squared error function ).Ένας διαμεριστικός αλγόριθμος είναι και ο k-means.παρακάτω δίνεται μια σύντομη περιγραφή των βημάτων για την πραγματοποίηση k-means clustering. K-means clustering μέθοδος 1. Επιλογή k κεντροειδών cluster τα οποία αποτελούν και τα μόνα στοιχεία των k επελεγμένων clusters. 2. Τοποθέτησε κάθε στοιχείο στο πιο κοντινό cluster μετά από υπολογισμό της απόστασης του σημείου από το κεντροειδές του cluster. 3. Υπολόγισε το νέο κεντροειδές. 4. Αν το κριτήριο τερματισμού δεν ικανοποιείται πήγαινε στο βήμα 2. Γ)Clustering κοντινότερου γείτονα Σε ένα cluster έχουμε παρατηρήσει ότι τα στοιχεία είναι συνήθως κοντά μεταξύ τους. Έτσι οι αποστάσεις στοιχείων από γειτονικά στοιχεία θα μπορούσαν να χρησιμοποιούν για να πραγματοποιήσουμε ομαδοποιήσεις. Μια επαναληπτική μέθοδος που τοποθετεί κάθε στοιχείο στο cluster το οποίο ανήκει και ο κοντινότερος γείτονας του, δεδομένου ότι η απόσταση αυτή είναι κάτω από κάποιο κατώφλι. Η διαδικασία αυτή συνεχίζεται μέχρι να μην υπάρχουν άλλα στοιχεία η να μην δημιουργούνται άλλα clusters. 15

16 Δ) Fuzzy clustering Μέχρι τώρα έχουμε δει ότι όλες οι τεχνικές και οι αλγόριθμοι clustering τοποθετούν ένα στοιχείο σε ένα και μόνο cluster, σε αυτό που τελικά ανήκει. Πρόκειται λοιπόν για σκληρούς αλγόριθμους και αυτό συνεπάγεται ότι τα clusters σε αυτές τις περιπτώσεις είναι ξένα μεταξύ τους σύνολα. Το fuzzy clustering επεκτείνει την έννοια του «ένα στοιχείο ανήκει σε ένα cluster» και συνδέει κάθε στοιχείο με όλα τα clusters χρησιμοποιώντας μια συνάρτηση μέλους. Το αποτέλεσμα είναι κάποια σύνολα από στοιχεία αλλά όχι μια απόλυτη διαμέριση του χώρου δεδομένων. Ένας αλγόριθμος fuzzy clustering κάνει τα εξής σε γενικές γραμμές: 1. Επιλογή μιας fuzzy διαμέρισης των Ν στοιχείων σε Κ clusters. Καθορισμός του πίνακα U=ΝxΚ του οποίου κάθε στοιχείο u ij δηλώνει τον βαθμό συμμετοχής του στοιχείου i στο cluster j. Η τιμές των u είναι μεταξύ 0 και Χρησιμοποιώντας τον πίνακα U βρίσκεται η τιμή κάποιας συνάρτησης που αποτελεί και το κριτήριο τερματισμού, και η οποία πρέπει να βελτιστοποιηθεί. Συνεχώς επανατοποθετούμε στοιχεία στα clusters με νέες τιμές συμμετοχής και επαναπροσδιορίζουμε τον πίνακα U και την τιμή της συνάρτησης. 3. Επαναλαμβάνουμε το βήμα 2 μέχρι να μην επέρχονται σημαντικές αλλαγές στον πίνακα U και την τιμή της συνάρτησης. Αναπαράσταση των clusters Το αποτέλεσμα του clustering είναι μια διαμέριση των δεδομένων σε clusters. Η διαμέριση αυτή δίνει μια ιδέα για το πως μπορούμε να ομαδοποιήσουμε τα δεδομένα μας σε έναν συγκεκριμένο αριθμό από κλάσεις. Σε πολλές εφαρμογές και κυρίως σε εκείνες λήψεως αποφάσεων είναι ανάγκη να υπάρξει μια συμπαγής και κατανοητή αναπαράσταση των clusters. Το ζήτημα της αναπαράστασης των clusters που είναι άμεσα συνδεδεμένο με την αφαίρεση δεδομένων είναι πολύ σημαντικό για την λήψη αποφάσεων. Η αναπαράσταση ενός cluster μπορεί να γίνει με διάφορους τρόπους. Μερικοί από τους προτεινόμενους είναι και οι παρακάτω: 1. Ένα cluster μπορεί να αναπαρασταθεί από το κεντροειδές σημείου του ή από έναν αριθμό σημείων που είναι τα πιο απομακρυσμένα στο cluster. 2. Οι κόμβοι ενός δένδρου κατηγοριοποίησης μπορούν να αναπαραστήσουν ένα cluster. 3. Επίσης ένα cluster μπορεί να αναπαρασταθεί χρησιμοποιώντας συζευκτικούς λογικούς τελεστές. Ο πρώτος τρόπος αναπαράστασης με την χρήση ενός κεντροειδούς είναι ο πιο συνήθης και έχει καλά αποτελέσματα όταν τα clusters είναι συμπαγή και τα στοιχεία κατανέμονται ομοιόμορφα γύρω από το κεντροειδές. Σε αντίθετη περίπτωση ο τρόπος αυτός αναπαράστασης δεν είναι ο πιο κατάλληλος. Στην περίπτωση αυτή η αναπαράσταση ενός cluster από συνοριακά σημεία είναι μια πολύ καλή λύση υπάρχουν αρκετοί αλγόριθμοι που ακολουθούν αυτή την τεχνική όπως ο αλγόριθμος CURE [4]. Όσο το σχήμα του cluster αλλάζει και παίρνει διάφορα σχήματα στο χώρο, η επιλογή των σημείων πρέπει να είναι τέτοια ώστε να περιγράφεται το cluster όσο το δυνατόν καλύτερα. Η αναπαράσταση με ένα δένδρο κατηγοριοποίησης είναι ισοδύναμη με την αναπαράσταση ενός cluster με λογικούς συζευκτικούς τελεστές. Η αναπαράσταση των clusters και η αφαίρεση δεδομένων που αυτή συνεπάγεται είναι πολύ σημαντική γιατί (α) δίνει μια απλή και ανθρωπίνως κατανοητή αναπαράσταση των δεδομένων, (β) Επιτυγχάνεται συμπίεση των δεδομένων η οποία 16

17 μπορεί να αξιοποιηθεί από άλλες υπολογιστικές εφαρμογές και (γ) βοηθάει και επιταχύνει την διαδικασία λήψεως αποφάσεων. Ομαδοποιώντας μεγάλα σύνολα δεδομένων. Σήμερα υπάρχουν εφαρμογές που απαιτούν την ομαδοποίηση πολύ μεγάλων συνόλων δεδομένων Η έννοια του μεγάλου αλλάζει από εποχή σε εποχή και οι αλλαγές αυτές ακολουθούν τις τεχνολογικές εξελίξεις. Πριν χρόνια πολλά δεδομένα θεωρούνταν μερικές χιλιάδες από στοιχεία, ενώ σήμερα τα δεδομένα προς ομαδοποίηση όχι μόνο μετρώνται σε εκατομμύρια αλλά και η διαστασιμότητά τους είναι πολύ μεγάλη. Για παράδειγμα φανταστείτε τον χώρο των κειμένων μιας βιβλιοθήκης η μιας επιχείρησης και σκεφτείτε πόσο δύσκολο είναι να ομαδοποιήσει κανείς με ότι μέσα και αν διαθέτει όλα τα κείμενα δεδομένου ότι η διάσταση κάθε κειμένου ξεπερνά τα εκατό χαρακτηριστικά. Τα τελευταία χρόνια νέες τεχνικές και αλγόριθμοι έχουν αναπτυχθεί, προταθεί για το clustering μεγάλων συνόλων δεδομένων, στα πλαίσια και νέων εφαρμογών όπως είναι η εξόρυξη δεδομένων. Μερικοί από τους πρώτους αλγορίθμους για ομαδοποίηση μεγάλων δεδομένων είναι ο CLARANS [2] και ο BIRCH [3]. Οι αλγόριθμοι αυτοί ομαδοποιούν μεγάλα σύνολα δεδομένων εφόσον όλα τα δεδομένα μπορούν να χωρέσουν στην μνήμη. Όμως αυτό είναι και το πρόβλημα των περισσοτέρων εφαρμογών σήμερα. Τα δεδομένα είναι τόσα πολλά που η τοποθέτηση τους είναι αδύνατη στην κύρια μνήμη για συνολική επεξεργασία. Το πρόβλημα αυτό αντιμετωπίζεται με διάφορες τεχνικές όπως: Το σύνολο των στοιχείων αποθηκεύεται στη δευτερεύουσα μνήμη και υποσύνολα των δεδομένων ομαδοποιούνται ανεξάρτητα μεταξύ τους. Στη συνέχεια ακολουθείται μια διαδικασία συγχώνευσης ώστε να ομαδοποιηθούν συνολικά τα δεδομένα. Αυτή η τεχνική ακολουθεί το ρητό Διαίρει και βασίλευε. Όλα τα δεδομένα τοποθετούνται στην δευτερεύουσα μνήμη. Τα δεδομένα μεταφέρονται στην κύρια μνήμη ένα για ομαδοποίηση. Στην κύρια μνήμη αποθηκεύονται μόνο οι αναπαραστάσεις των clusters. Μια παράλληλη υλοποίηση μπορεί επίσης να χρησιμοποιηθεί. Απ όλα τα παραπάνω μπορούμε να καταλάβουμε ότι το clustering είναι η διαδικασία κατά την οποία ένα σύνολο δεδομένων ομαδοποιείται με βάση κάποιο μέτρο ομοιότητας. Το clustering είναι μια διαδικασία η οποία εξαρτάται από το είδος των δεδομένων. Δεδομένα διαφορετικών εφαρμογών μπορεί να χρειάζεται να ομαδοποιηθούν διαφορετικά. Αυτό κάνει το clustering αρκετά περίπλοκο γιατί θα πρέπει να αποφασιστεί ο καταλληλότερος αλγόριθμος για την εκάστοτε εφαρμογή. Πολλές φορές λύσεις στο πρόβλημα της επιλογής αλγορίθμου προέρχονται από την γνώση που έχουμε για τα δεδομένα μας. Η γνώση αυτή χρησιμοποιείται σε διάφορες φάσεις του clustering. Το πρώτο και σημαντικότερο βήμα κατά το clustering είναι η αναπαράσταση των δεδομένων, η επιλογή και η παραγωγή χαρακτηριστικών. Στην συνέχεια πρέπει να οριστεί το μέτρο ομοιότητας με το οποίο θα γίνονται οι συγκρίσεις μεταξύ των στοιχείων. Τέλος η καθεαυτού διαδικασία ομαδοποίησης ακολουθείται για την τελική παραγωγή των clusters στα οποία ομαδοποιούνται τα δεδομένα. Οι ιεραρχικοί και οι διαμεριστικοί είναι οι κυριότεροι τύποι αλγόριθμων που χρησιμοποιούνται. Το clustering είναι μια πολύ χρήσιμη τεχνική και ένα πρόβλημα που προκαλεί για νέες λύσεις. Εφαρμόζεται σε πολλές εφαρμογές και τα αποτελέσματα του είναι τα επιθυμητά μετά από προσεκτική επιλογή των κατάλληλων παραμέτρων. 17

18 Παράγραφος 2.3: Ανάλυση συσχετίσεων Η ανάλυση συσχετίσεων <link analysis> [12] είναι μια περιγραφική προσέγγιση η οποία βοηθάει στο να εξερευνήσουμε τα δεδομένα τα οποία μπορούν να βοηθήσουν στο να αναγνωρίσουμε τις σχέσεις που υπάρχουν μεταξύ των τιμών σε μια βάση δεδομένων. Δύο κοινές προσεγγίσεις στην ανάλυση συσχετίσεων είναι η ανακάλυψη ένωσης < association discovery> και η ανακάλυψη ακολουθίας <sequence discovery>. Η ανακάλυψη ένωσης βρίσκει κανόνες για τα δεδομένα που εμφανίζονται μαζί σε ένα γεγονός όπως μια συναλλαγή αγορών. Η ανάλυση του καλαθιού-αγοράς είναι ένα γνωστό παράδειγμα της ανακάλυψης ένωσης. Η ανακάλυψη ακολουθίας είναι παρόμοια με την ανακάλυψη ένωσης, δεδομένου ότι μια ακολουθία είναι μια ένωση σχετική κατά τη διάρκεια του χρόνου. Οι ενώσεις παριστάνονται ως A => B, όπου το Α παριστάνει το αίτιο το οποίο βρίσκεται στην αριστερή πλευρά (LHS-Left Hand Side), και το Β παριστάνει το αποτέλεσμα το οποίο βρίσκεται στην δεξιά πλευρά (RHS-Right Hand Side). Παραδείγματος χάριν, στον κανόνα ένωσης "Εάν οι άνθρωποι αγοράσουν καφέ στην συνέχεια θα αγοράσουν και ζάχαρη," το αίτιο σε αυτόν τον κανόνα ένωσης είναι ότι οι άνθρωποι αγόρασαν καφέ " και το αποτέλεσμα είναι ότι θα αγοράσουν και ζάχαρη. Ένα δεύτερο παράδειγμα κανόνα ένωσης θα μπορούσε να είναι Εάν οι άνθρωποι αγοράσουν σφυριά στην συνέχεια θα αγοράσουν και καρφιά " το αίτιο σε αυτόν τον κανόνα ένωσης είναι ότι οι άνθρωποι αγόρασαν σφυριά " και το αποτέλεσμα είναι ότι θα αγοράσουν και καρφιά. Το να καθοριστεί το ποσοστό των συναλλαγών που περιέχουν ένα ιδιαίτερο στοιχείο ή ένα σύνολο στοιχείων είναι κάτι το απλό: απλά θα πρέπει να τα μετρήσουμε. Η συχνότητα με την οποία μια ιδιαίτερη ένωση (π.χ., το σύνολο στοιχείων "σφυριά και καρφιά " ) εμφανίζεται στη βάση δεδομένων καλείται η υποστήριξη ή επικράτησή της. Εάν, για παράδειγμα, 15 συναλλαγές από τις αποτελούνται από "το σφυρί και τα καρφιά," η υποστήριξη για αυτήν την ένωση θα ήταν 1,5%.ή εάν ένα χαμηλό επίπεδο υποστήριξης (για παράδειγμα μια συναλλαγή από ένα εκατομμύριο) μας δείχνει ότι η ιδιαίτερη ένωση δεν είναι πολύ σημαντική εφόσον η υποστήριξή της θα ήταν 0,0001% το οποίο υπολογίζεται ως εξής [(1/ )*100] καθώς επίσης και μια τέτοια υποστήριξη μπορεί να δείξει και την παρουσία κακών-και μη λογικών δεδομένων (π.χ., "αρσενικός και έγκυος ").. Για να ανακαλύψει κάποιος σημαντικούς κανόνες όμως θα πρέπει επίσης να εξετάσει και τη σχετική συχνότητα <relative frequency > της εμφάνισης των στοιχείων και των συνδυασμών τους. Έτσι δημιουργείται το εξής ερώτημα λαμβάνοντας υπόψη το περιστατικό του στοιχείου Α το οποίο παριστάνει (το αίτιο), πόσο συχνά θα εμφανίζονταν το στοιχείο Β το οποίο παριστάνει (το αποτέλεσμα ) ; Αυτό το ερώτημα με διαφορετικά λόγια θα μπορούσε να εκφραστεί ως ποια είναι η υπό όρους προβλεψιμότητα <conditional predictability> του Β, λαμβάνοντας υπόψη το Α; Και ποιο συγκεκριμένα για το ανωτέρω παράδειγμα, αυτό θα σήμαινε ότι "αν οι άνθρωποι αγοράσουν ένα σφυρί, πόσο συχνά θα αγόραζαν επίσης και καρφιά;" Ένας άλλος όρος για αυτήν την υπό όρους προβλεψιμότητα είναι η εμπιστοσύνη <confidence>. Η εμπιστοσύνη υπολογίζεται ως αναλογία(κλάσμα): (Συχνότητα του Α και του Β)/(Συχνότητα του Α). Παρακάτω παρατίθεται μία υποθετική βάση δεδομένων ενός υποθετικού καταστήματος για να γίνει λεπτομερέστερη η επεξήγηση των παραπάνω εννοιών. Έτσι αν είχαμε : Συνολικές συναλλαγές του υλικού του καταστήματος : Ποσότητα των σφυριών που πουλήθηκαν : 50 Ποσότητα "των καρφιών που πουλήθηκαν ": 80 Ποσότητα "της ξυλείας που πουλήθηκε": 20 Ποσότητα "των σφυριών " και "των καρφιών " που πουλήθηκε: 15 18

19 Ποσότητα "των καρφιών" και "της ξυλείας που πουλήθηκε ": 10 Ποσότητα "των σφυριών " και "της ξυλείας " που πουλήθηκε : 10 Και ποσότητα "των σφυριών," "καρφιών " και "ξυλείας " που πουλήθηκε : 5 Τότε : Η υποστήριξη για "το σφυρί και τα καρφιά" θα ήταν = 1,5% (15/1.000) Η υποστήριξη για "το σφυρί, τα καρφιά και την ξυλεία" θα ήταν = 0,5% (5/1.000) Η εμπιστοσύνη για το " σφυρί => καρφιά" θα ήταν = 30% (15/50) Η εμπιστοσύνη για το "καρφιά => σφυρί" θα ήταν = 19% (15/80) Η εμπιστοσύνη για "το σφυρί και καρφιά =>ξυλεία " θα ήταν = 33% (5/15) Και τέλος η εμπιστοσύνη του "ξυλεία =>σφυρί και καρφιά " θα ήταν = 25% (5/20) Από τα παραπάνω μπορούμε να διακρίνουμε τα εξής ότι η πιθανότητα του αν κάποιος αγοράζοντας ένα σφυρί θα αγοράσει επίσης και καρφιά που είναι (30%) είναι μεγαλύτερη από την πιθανότητα ότι κάποιος αγοράζοντας καρφιά θα αγοράσει επίσης και ένα σφυρί που είναι (19%). Η επικράτηση λοιπόν αυτής της ένωσης Αγοράζοντας κάποιος ένα σφυρί θα αγοράσει και καρφιά (δηλ. έχοντας υποστήριξη 1.5%) είναι αρκετά υψηλή πράγμα το οποίο θα μπορούσαμε να πούμε ότι δημιουργεί και τον ανάλογο σημαντικό κανόνα του ότι δηλαδή αγοράζοντας κάποιος ένα σφυρί είναι σχεδόν σίγουρο ότι θα αγοράσει και καρφιά. Ένα άλλο μέτρο της δύναμης μιας ένωσης είναι ο ανελκυστήρας <lift>. Όσο μεγαλύτερος είναι ο ανελκυστήρας, τόσο μεγαλύτερη θα είναι και η πιθανότητα ότι συμβαίνοντας το περιστατικό Α θα εμφανισθεί το αποτέλεσμα Β. Ο ανελκυστήρας υπολογίζεται ως αναλογία (κλάσμα) του (εμπιστοσύνη του A => B Β)/(συχνότητα Β). Έτσι λοιπό από το παραπάνω παράδειγμά θα είχαμε : Ανελκυστήρας του "σφυριού => καρφιά ": 3.75 (30%/8%) Ανελκυστήρας "του σφυριού και καρφιά => ξυλεία ": 16.5 (33%/2%) Οι αλγόριθμοι ένωσης βρίσκουν αυτούς τους κανόνες με το να κάνουν την ισοτιμία της ταξινόμησης των δεδομένων κατά την διάρκεια που μετράνε τα περιστατικά έτσι ώστε να μπορούν να υπολογίσουν αμέσως την εμπιστοσύνη και την υποστήριξη. Η συχνότητα με την οποία οι αλγόριθμοι μπορούν να το κάνουν αυτό είναι κάτι το οποίο διαφέρει από αλγόριθμο σε αλγόριθμο Αυτό είναι ιδιαίτερα σημαντικό λόγω της συνδυαστικής έκρηξης που οδηγεί στους τεράστιους αριθμούς κανόνων, ακόμη και για τα καλάθια αγοράς στη σαφή πάροδο. Μερικοί αλγόριθμοι μπορούν επίσης να δημιουργήσουν μια βάση δεδομένων που αποτελείται από τέτοιους κανόνες,δηλαδή περιέχουν τους παράγοντες εμπιστοσύνης, καθώς και την υποστήριξης και μπορούν σε τέτοιου είδους αλγορίθμους να γίνονται κάποιες ερωταποκρίσεις (παραδείγματος χάριν, θα μπορούσε να ζητηθεί το εξής "να μου παρουσιάσετε όλες τις ενώσεις κατά τις οποίες το παγωτό είναι η συνέπεια, το οποίο έχει έναν παράγοντα εμπιστοσύνης πάνω από 80% και μια υποστήριξη 2% ή περισσότερο"). Ένα άλλο χαρακτηριστικό των κανόνων ένωσης είναι η ικανότητα τους να μπορούν να καθορίσουν μια ιεραρχία για κάποιο υλικό. Στο παράδειγμά μας εξετάσαμε τα καρφιά και τα σφυριά, όχι όμως για κάποια ιδιαίτερα μοντέλα τους. Είναι σημαντικό να γίνει επιλογή ενός κατάλληλου επίπεδου συνάθροισης ή θα ήταν απίθανο να βρει κάποιος κάποιες ενώσεις που θα ήταν ενδιαφέρουσες. Έχοντας μια ιεραρχία στοιχείων αυτό μπορεί να βοηθήσει κάποιον να ελέγξει το επίπεδο συνάθροισης και να πειραματιστεί με διαφορετικά επίπεδα. Θα πρέπει όμως να τονιστεί ότι οι κανόνες ένωσης ή ακολουθίας δεν είναι πραγματικοί κανόνες, αλλά απλά μπορούν να περιγράψουν κάποιες σχέσεις σε μια βάση δεδομένων. Επίσης πρέπει να αναφερθεί ότι δεν υπάρχει καμία επίσημη δοκιμή και έλεγχος αυτών των μοντέλων σε άλλα δεδομένα για να μπορούμε να καταλάβουμε την δύναμη που έχουνε αυτοί οι κανόνες στο να προβλέπουν κάποια πράγματα αλλά θα λέγαμε ότι αυτό που ισχύει για αυτούς τους κανόνες είναι ότι μια 19

20 καταγεγραμμένη συμπεριφορά που παρατηρήθηκε στο παρελθόν έχει μεγάλη πιθανότητα να συνεχιστεί να εμφανίζεται και στο μέλλον. Ένα ερώτημα που μας δημιουργείται είναι που αλλού θα μπορούσαμε να χρησιμοποιήσουμε τους κανόνες ένωσης.γνωρίζοντας όλα όσα αναφέρθηκαν παραπάνω δηλαδή ότι αγοράζοντας ένα προϊόν κάποιος θα αγοράσει και κάποιο άλλο στο συγκεκριμένο παράδειγμα «σφυρί-καρφιά» αυτό μας οδηγεί στην ιδέα ότι ο κανόνας της ένωσης θα μπορούσε πολύ απλά να χρησιμοποιηθεί στο merchandising μιας επιχείρησης.τοποθετώντας λοιπόν σύμφωνα με τον κανόνα της ένωσης τα προϊόντα που έχουν άμεση σχέση μεταξύ τους δηλαδή η αγορά του ενός θα συνεπάγονταν και την αγορά του άλλου παραδείγματος χάρη «πινέλα ρολά» αυτό θα είχε ως αποτέλεσμα να μειωθεί η συνολική αξία των καλαθιών αγοράς καθώς οι πελάτες μπορούν να αγοράσουν λιγότερο συνολικά επειδή δεν θα παίρνουν πλέον τα μη σχεδιασμένα στοιχεία περπατώντας άσκοπα μέσω του καταστήματος σε αναζήτηση των επιθυμητών στοιχείων αλλά βρίσκοντας αμέσως τα προϊόντα που επιθυμούν.έτσι θα μπορούσαμε να πούμε ότι ο κανόνας της ένωσης κατά κάποιο τρόπο μπορεί να βοηθήσει να αυξηθούν και οι πωλήσεις μιας επιχείρησης..για να επιτύχουμε τα παραπάνω οφέλη από τον κανόνα της ένωσης απαιτείται ανάλυση και πειραματισμός. Οι γραφικές μέθοδοι μπορούν επίσης να φανούν πολύ χρήσιμες στην δομή των συνδέσεων <links>. Στο σχήμα 3 κάθε ένας από τους κύκλους αντιπροσωπεύει μια τιμή ή ένα γεγονός. Οι γραμμές που συνδέουν τους κύκλους παρουσιάζουν μια σχέση μεταξύ τους. Οι παχύτερες γραμμές αντιπροσωπεύουν τους ισχυρότερους ή συχνότερους δεσμούς, υπογραμμίζοντας κατά συνέπεια τις σημαντικότερες σχέσεις όπως οι ενώσεις. Παραδείγματος χάριν, εξετάζοντας μια βάση δεδομένων ασφαλείας για την ανίχνευση κάποιας πιθανής απάτης μπορεί να αποκαλύψει ότι ένας γιατρός και ένας δικηγόρος εργάζονται μαζί σε έναν ασυνήθιστα μεγάλο αριθμό περιπτώσεων. Σχήμα 3. Διάγραμμα συνδέσμων 20

21 Κεφάλαιο 3ο: Εξόρυξη δεδομένων ως μέθοδος πρόβλεψης Παράγραφος 3.1: Ιεράρχηση επιλογών Ο στόχος της εξόρυξης δεδομένων είναι να πάρει ο χρήστης κάποιες νέες ιδέες με την επεξεργασία των δεδομένων. Αυτές οι ιδέες ενδεχομένως να του φανούν χρήσιμες στην λήψη κάποιων αποφάσεων ή να τον βοηθήσουν να διαμορφώσει μια πιο καθαρή εικόνα για τα δεδομένα του. Η μέθοδος με την οποία ο χρήστης μπορεί να επεξεργαστεί τα δεδομένα του είναι να δημιουργήσει ένα μοντέλο το οποίο κατά κάποιο τρόπο θα αντιπροσωπεύει τον πραγματικό κόσμο και θα βασίζεται σε δεδομένα πραγματικά τα οποία θα συλλέγονται από μια ποικιλία πηγών. Τέτοιες πηγές μπορεί για παράδειγμα να είναι: Οι συναλλαγές που πραγματοποιήθηκαν με έναν συγκεκριμένο πελάτη πράγμα το οποίο δείχνει το πόσο συχνός πελάτης είναι κάποιος σε μια επιχείρηση το ιστορικό των πελατών για παράδειγμα σαν ιστορικό πελάτη θα μπορούσε να θεωρήσει κάποιος ότι είναι η καταχώρηση ενός δανειολήπτη στο σύστημα «Τειρεσίας» που σημαίνει ότι ο συγκεκριμένος πελάτης έχει απέναντι στον δανειστή κάποιες ανεκπλήρωτες υποχρεώσεις οι δημογραφικές πληροφορίες, για παράδειγμα το πλήθος των κατοίκων της Αθήνας είναι πολύ μεγαλύτερο από της Θεσσαλονίκης πράγμα το οποίο σήμαινε ότι ενδεχομένως για μια μεγάλη επιχείρηση θα συνέφερε περισσότερο να δραστηριοποιηθεί στην Αθήνα η διαδικασία ελέγχου των δεδομένων για να διαπιστωθεί αν έχει υπάρξει κάποιο λάθος ώστε να διορθωθεί. Το αποτέλεσμα της δημιουργίας ενός τέτοιου μοντέλου είναι η περιγραφή των σχέσεων που υπάρχουν ανάμεσα στα δεδομένα οι οποίες μπορούν να χρησιμοποιηθούν για την παραγωγή κάποιας πρόβλεψης, η οποία να είναι καίριας σημασίας για την επιχείρηση. Ένα τέτοιο παράδειγμα θα λέγαμε ότι είναι η επεξεργασία των δεδομένων για την εξέλιξη των καιρικών συνθηκών, τα οποία για μια αεροπορική εταιρία έχουν άμεση σημασία, καθώς από την διαχείριση αυτών των δεδομένων θα εξαρτηθεί το αν θα πραγματοποιηθεί κάποιο ταξίδι. Αυτό που θα πρέπει να τονιστεί σε αυτό το σημείο είναι ότι δεν θα πρέπει να μπερδέψει μια επιχείρηση σε καμία περίπτωση διαφορετικές πτυχές της εξόρυξης δεδομένων, είναι χρήσιμο να θέσει η επιχείρηση μια ιεραρχία των επιλογών και των αποφάσεων που πρέπει να ληφθούν πριν την έναρξη της όλης διαδικασίας : Έτσι θα λέγαμε ότι κατά σειρά προτεραιότητας όσο αφορά την εξόρυξη δεδομένων της η επιχείρηση θα πρέπει να αναλογιστεί τα εξής : 1. Που στοχεύει η επιχείρηση μέσα από αυτήν την εξόρυξη δεδομένων. Ποιος είναι ο σκοπός της. 2. Ο τύπος της πρόβλεψης της, αν δηλαδή θα πρέπει να χρησιμοποιήσει την ταξινόμηση, την παλινδρόμηση ή την επανάληψη. 3. Ο τύπος του μοντέλου που θα χρησιμοποιήσει, αν δηλαδή θα χρησιμοποιήσει νευρωνικό δίκτυο ή δέντρο απόφασης 4. Τι είδους αλγόριθμο θα χρησιμοποιήσει για παράδειγμα αν θα χρησιμοποιήσει τον αλγόριθμο της αντιδιασποράς ή την αλυσίδα chaid. 5. Η επιλογή του προϊόντος εξόρυξης δεδομένων. Για να γίνουν σαφή όλα αυτά παρακάτω ακολουθεί μια ανάλυση τους. Στο πιο υψηλό επίπεδο είναι ο επιχειρησιακός στόχος: Ποιος είναι δηλαδή ο τελικός σκοπός της εξόρυξης των συγκεκριμένων δεδομένων. Για παράδειγμα, μια 21

22 επιχείρηση ψάχνοντας κάποια πληροφορία στα δεδομένα η οποία θα βοηθήσει για να διατηρηθούν οι καλοί πελάτες, ωστόσο όμως μπορεί το πρότυπο που θα αναπτυχθεί να αποβλέπει στην ταξινόμηση των πελατών με βάση την κερδοφορία που απολαμβάνει η επιχείρηση από ένα πελάτη ή ένας τρίτος στόχος θα μπορούσε να είναι η ανάπτυξη ενός προτύπου το οποίο η επιχείρηση θα χρησιμοποιήσει ως εργαλείο για να προσδιορίζει εκείνους τους πελάτες που έχουν μεγάλη πιθανότητα να εγκαταλείψουν την εταιρεία και να προβεί έναντι αυτών σε διορθωτικές κινήσεις. Όπως και να έχει αυτό που καθορίζει τη διατύπωση του στόχου των μοντέλων μιας επιχείρησης είναι η γνώση των αναγκών που υπάρχουν για την οργάνωση της. Στο επόμενο βήμα θα πρέπει η επιχείρηση να αποφασίζει σχετικά με τον τύπο πρόβλεψης που είναι πιο κατάλληλος να εφαρμοστεί. Για παράδειγμα η μέθοδος της ταξινόμησης μπορεί να χρησιμοποιηθεί για προβεί σε μια προβλέψει αν σε κάποια κατηγορία πελατών αντιστοιχεί μία συγκεκριμένη ιδιότητα, ενώ η μέθοδος της παλινδρόμησης μπορεί να χρησιμοποιηθεί για να γίνει προβλέψει για τον βαθμό αξίας που έχει μια μεταβλητή (εάν είναι μια μεταβλητή που ποικίλλει με το χρόνο, καλείται πρόβλεψη χρονικής σειράς). Έτσι λοιπόν στο παραπάνω παράδειγμα θα μπορούσαμε να χρησιμοποιήσουμε την παλινδρόμηση για να προβλέψουμε το μέγεθος της κερδοφορίας και την ταξινόμηση για να προβλέψουμε ποιοι πελάτες πρόκειται να φύγουν. Στη συνέχεια μπορεί να γίνει επιλογή του τύπου του μοντέλου: ένα νευρωνικό δίκτυο μπορεί να χρησιμοποιηθεί για να εκτελεστεί η παλινδρόμηση και ένα δέντρο απόφασης θα μπορούσε να χρησιμοποιηθεί για να εκτελεστεί η ταξινόμηση. Μια επιχείρηση θα μπορούσε επίσης να επιλέξει και κάποια παραδοσιακά στατιστικά πρότυπα όπως η λογιστική παλινδρόμηση (logistic regression), η ανάλυση διακριτότητας (discriminant analysis), ή τα γενικά γραμμικά μοντέλα. Πολλοί αλγόριθμοι επίσης είναι διαθέσιμοι για να δημιουργήσουν μοντέλα.έτσι μπορεί κάποιος να δημιουργήσει ένα νευρωνικό δίκτυο χρησιμοποιώντας την αντιδιασπορά (backpropagation) ή τις λειτουργίες ακτινωτής βάσης (radial basis function). Για το δέντρο απόφασης, μπορεί να γίνει επιλογή μεταξύ του CART, του C5.0, της αναζήτησης, ή της αλυσίδας (CHAID). Κατά την επιλογή ενός προϊόντος εξόρυξης δεδομένων, θα πρέπει να γνωρίζουμε ότι έχουν διαφορετικές εφαρμογές ενός ιδιαίτερου αλγορίθμου ακόμα και όταν αυτόν τον αλγόριθμο τον προσδιορίζουν με το ίδιο όνομα. Αυτές οι διαφορές εφαρμογής μπορούν να επηρεάσουν τα λειτουργικά χαρακτηριστικά όπως το μέγεθος της χρήσης της μνήμης και την αποθήκευση των δεδομένων, καθώς επίσης και τα χαρακτηριστικά απόδοσης όπως η ταχύτητα και η ακρίβεια. Πολλοί επιχειρησιακοί στόχοι καλύπτονται καλύτερα από την δημιουργία πολλαπλάσιων τύπων μοντέλου χρησιμοποιώντας μία ποικιλία αλγορίθμων. Επίσης πρέπει να τονιστεί ότι κάποιος μπορεί να μην είναι σε θέση να καθορίσει ποιος τύπος μοντέλου είναι ο καλύτερος έως ότου έχει δοκιμάσει διάφορες προσεγγίσεις αυτού του μοντέλου. Στα προβλεπτικά μοντέλα, οι τιμές ή οι τάξεις τις οποίες προβλέπουμε καλούνται ως απάντηση <response>, εξαρτώμενη «dependent> ή μεταβλητές στόχoυ <target variables >. Οι τιμές που χρησιμοποιούνται για να κάνουν την πρόβλεψη καλούνται προφητικές ή ανεξάρτητες μεταβλητές. Τα προβλεπτικά μοντέλα χτίζονται, και εκπαιδεύονται, χρησιμοποιώντας δεδομένα για τα οποία η τιμή της μεταβλητής είναι ήδη γνωστή. Έτσι γνωρίζοντας ήδη αυτό αποτέλεσμα μπορούν να καθοδηγήσουν τους αλγόριθμους Αυτό το είδος κατάρτισης αναφέρεται μερικές φορές ως εποπτευμένη εκμάθηση, επειδή οι υπολογισμένες ή οι κατ' εκτίμηση τιμές συγκρίνονται με τα γνωστά αποτελέσματα. Σε 22

23 αντίθεση, περιγραφικές <descriptive techniques> καλούνται οι τεχνικές όπως η συστοιχία <clustering>, οι οποίες αναφέρονται μερικές φορές ως μη επιβλεπόμενη εκμάθηση επειδή δεν υπάρχει κανένα ήδη-γνωστό αποτέλεσμα για να καθοδηγήσει τους αλγορίθμους. Έτσι λοιπόν θα λέγαμε ότι η επανάληψη ή αλλιώς παλινδρόμηση <regression > χρησιμοποιεί τις υπάρχουσες τιμές για να προβλέψει ποιες θα είναι κάποιες άλλες τιμές. Στην απλούστερη περίπτωση, χρησιμοποιεί τυποποιημένες στατιστικές τεχνικές όπως η γραμμική παλινδρόμηση <linear regression >. Θα πρέπει όμως σε αυτό το σημείο να τονιστεί ότι πολλά από τα προβλήματα που υπάρχουν πραγματικά στον κόσμο δεν μπορούν να αποτελέσουν γραμμικές προβολές προηγούμενων τιμών. Παραδείγματος χάριν, οι συχνότητες των πωλήσεων, οι τιμές των αποθεμάτων, και τα ποσοστά αποτυχίας της παραγωγής προϊόντων μιας επιχείρησης είναι πολύ δύσκολο να προβλεφθούν επειδή αυτού του είδους τα προβλήματα εξαρτώνται και οφείλονται σε σύνθετες μεταβλητές. Για να μπορέσουμε να προβλέψουμε έστω και τέτοιου είδους προβλήματα τα οποία οφείλονται σε διαφορετικές μεταβλητές μπορούμε να χρησιμοποιήσουμε κάποιες πιο σύνθετες τεχνικές όπως (π.χ., την λογική παλινδρόμηση <logistic regression>, τα δέντρα απόφασης <desision trees >, ή τα νευρωνικά δίκτυα <neural networks>) οι οποίες μπορούν να προβλέψουν ποιες θα μπορούσαν να είναι οι μελλοντικές τιμές. Οι ίδιοι αυτοί τύποι των μοντέλων μπορούν συχνά να χρησιμοποιηθούν και για την παλινδρόμηση και για την ταξινόμηση. Παραδείγματος χάριν, ο αλγόριθμος δέντρου αποφάσεων < CART- Classification And Regression Trees> Ταξινόμηση και δέντρα παλινδρόμησης ) μπορεί να χρησιμοποιηθεί για να χτίσει και τα δέντρα ταξινόμησης (για να ταξινομήσει τις μεταβλητές των κατηγοριοποιημένων απαντήσεων ) και τα δέντρα παλινδρόμησης (για να προβλέψει τις μεταβλητές των συνεχών απαντήσεων). Τα νευρωνικά δίκτυα επίσης μπορούν να δημιουργήσουν τα μοντέλα ταξινόμησης και της παλινδρόμησης. Παράγραφος 3.2: Ταξινόμηση Τα προβλήματα της ταξινόμησης έχουν ως σκοπό να αναγνωρίζουν τα χαρακτηριστικά εκείνα τα οποία μπορούν να χρησιμοποιηθούν για τον προσδιορισμό μιας ομάδας και να κατατάξουν τα «άτομα» σ αυτές. Η δημιουργία ενός σχεδίου ταξινόμησης μπορεί να χρησιμοποιηθεί και για να καταλάβουμε τα υπάρχοντα δεδομένα, αλλά και να προβλέψουμε ποια θα είναι η συμπεριφορά του σχεδίου αυτού με κάποια νέα δεδομένα. Παραδείγματος χάριν, μπορεί να χρησιμοποιηθεί για να προβλέψουμε ποια άτομα μπορούν να ταξινομηθούν ως πιθανά στο να αποκριθούν σε μια άμεση παράκληση του ταχυδρομείου, καθώς και ποια άτομα θα μπορούσαν να κάνουν μια χειρουργική επέμβαση η οποία δεν θα δημιουργήσει κάποιο πρόβλημα στον ασθενή. Ένα άλλο παράδειγμα είναι μια ιατρική βάση δεδομένων όπου ένας γιατρός ρωτάει τον ασθενή για το αν υπάρχει κάποια κληρονομική ασθένεια έτσι γνωρίζοντας ήδη κάποια δεδομένα μπορεί να υπολογίσει ποια μπορεί να είναι η έκβαση της υγείας ενός ατόμου. Η εξόρυξη δεδομένων δημιουργεί μοντέλα ταξινόμησης εξετάζοντας τα ήδη ταξινομημένα δεδομένα (περιπτώσεις) και βρίσκει επαγωγικά ένα προβλεπτικό σχέδιο. Αυτές οι υπάρχουσες περιπτώσεις μπορούν να προέρχονται από μια βάση δεδομένων που έχει ένα ιστορικό, για παράδειγμα το ιστορικό των ανθρώπων που έχουν υποβληθεί ήδη σε μια ιδιαίτερη ιατρική περίθαλψη ή έχουν επιλέξει μια καινούρια υπηρεσία εξυπηρέτησης πελατών. Όλα αυτά μπορούν να προέλθουν από ένα πείραμα στο οποίο ένα δείγμα της βάσης δεδομένων εξετάζεται στον πραγματικό κόσμο και τα αποτελέσματα που θα παρθούν από αυτό το πείραμα χρησιμοποιούνται στην συνέχεια για να δημιουργήσουν έναν ταξινομητή. Παραδείγματος χάριν, μια ηλεκτρονική επιχείρηση θα μπορούσε στέλνοντας κάποια s με τα οποία θα έκανε κάποια προσφορά προς τους πελάτες, να καταγράψει τα αποτελέσματα της αποστολής(την συμπεριφορά των πελατών θετική είτε αρνητική σε αυτά τα s ) και στην συνέχεια χρησιμοποιώντας αυτά τα αποτελέσματα της 23

24 συμπεριφοράς των καταναλωτών να αναπτύξει ένα πρότυπο ταξινόμησης το οποίο θα το εφαρμόσει σε ολόκληρη την βάση δεδομένων της και με το οποίο θα προβλέπει ποιες θα μπορεί να είναι οι συμπεριφορές των μελλοντικών καταναλωτών. Μερικές φορές ένας εμπειρογνώμονας ταξινομεί ένα δείγμα της βάσης δεδομένων, και αυτή η ταξινόμηση μπορεί χρησιμοποιηθεί στην συνέχεια για να δημιουργήσει ένα μοντέλο το οποίο θα εφαρμοστεί σε ολόκληρη την βάση δεδομένων. Τα εργαλεία της εξόρυξης δεδομένων πρέπει να εξάγουν με λογική ανάλυση ένα μοντέλο από την βάση δεδομένων και στην περίπτωση της επιβλεπόμενης εκμάθησης αυτό απαιτεί από τον χρήστη να καθορίσει μια ή περισσότερες τάξεις.η βάση δεδομένων περιέχει ένα ή περισσότερα χαρακτηριστικά που δηλώνουν την τάξη ενός tuple και αυτά είναι γνωστά ως προβλεπόμενα χαρακτηριστικά <predicted attributes> ενώ τα χαρακτηριστικά που παραμένουν καλούνται χαρακτηριστικά πρόβλεψης <predicting attributes >. Ένας συνδυασμός τιμών για τα προβλεπόμενα χαρακτηριστικά καθορίζει και μια τάξη. Όταν μαθαίνει κάποιος κανόνες ταξινόμησης το σύστημα θα πρέπει να βρει εκείνους τους κανόνες που προβλέπουν την τάξη από τα χαρακτηριστικά πρόβλεψης,έτσι πρώτα από όλα ο χρήστης πρέπει να καθορίσει τις συνθήκες για κάθε τάξη,τότε το σύστημα της εξόρυξης δεδομένων κατασκευάζει περιγραφές για τις τάξεις.βασικά θα πρέπει να δοθεί στο σύστημα μια συνθήκη ή ένα tuple με συγκεκριμένες γνωστές τιμές χαρακτηριστικών έτσι ώστε να είναι σε θέση να προβλέψει σε ποια τάξη ανήκει αυτή η συνθήκη. Μόλις καθοριστούν οι τάξεις το σύστημα θα πρέπει να συμπεράνει κάποιους κανόνες που κυβερνούν την ταξινόμηση και έτσι το σύστημα θα μπορεί να είναι ικανό να βρει την περιγραφή της κάθε τάξης. Οι περιγραφές θα πρέπει μόνο να αναφέρονται στα χαρακτηριστικά πρόβλεψης του σετ εκπαίδευσης έτσι ώστε τα θετικά παραδείγματα να ικανοποιούν την περιγραφή και όχι τα αρνητικά παραδείγματα. Ένας κανόνας λέγεται ότι είναι σωστός αν η περιγραφή του καλύπτει όλα τα θετικά παραδείγματα και κανένα από τα αρνητικά μιας τάξης. Ένας κανόνας γενικά παρουσιάζεται εξής,εάν το αριστερό τμήμα (LHS) τότε και το δεξί τμήμα (RHS), έτσι ώστε σε όλα τα παραδείγματα όπου το LHS είναι αληθές τότε και το RHS είναι επίσης αληθές, είναι πολύ πιθανά. Οι κατηγορίες των κανόνων είναι : Ο ακριβής κανόνας <exact rule>,δεν επιτρέπει να γίνονται εξαιρέσεις έτσι ώστε κάθε αντικείμενο του LHS να είναι και αντικείμενο του RHS Ο δυνατός κανόνας < strong rule>,επιτρέπει κάποιες εξαιρέσεις,όμως αυτές οι εξαιρέσεις έχουν ένα δεδομένο όριο. Ο πιθανοτικός κανόνας <probabilistic rule>,συνδέει την υποθετική πιθανότητα P(RHS LHS) στην πιθανότητα P(RHS). Άλλοι τύποι κανόνων είναι οι κανόνες ταξινόμηση όπου το LHS είναι μια επαρκής συνθήκη για την ταξινόμηση αντικειμένων όπως ανήκουν στην ιδέα που αναφέρεται στο RHS. ΟΡΙΣΜΟΣ Έστω µια βάση δεδοµένων D = {t1, t2,., tn}, όπου τα ti είναι πλειάδες της µορφής <ti1, ti2,, tip> (που καλούνται στοιχεία ή εγγραφές ή παραδείγµατα), και ένα σύνολο κλάσεων C = {C1, C2,, Cm}. Το πρόβληµα της ταξινόμησης συνίσταται στον προσδιορισµό της απεικόνισης : f : D -> C (όπου κάθε ti αντιστοιχεί σε µια κλάση Cj. Η απεικόνιση αυτή ονοµάζεται και µοντέλο). 24

25 Έτσι, µια κλάση Cj ορίζεται ως το σύνολο των παραδειγµάτων που κατατάσσονται σ αυτήν: Cj = {ti /f(ti) = Cj, 1<=i<= n, ti Έ D} όπου κάθε παράδειγµα ti θεωρείται ως ένα διάνυσµα (µε την παραπάνω µορφή). Τα tik, k = 1, p είναι τιµές (διακριτές ή αριθµητικές), που αναφέρονται σε αντίστοιχα (φυσικά) χαρακτηριστικά (features) Χ1, Χ2,, Χp. Γι αυτό και ένα τέτοιο διάνυσµα ονοµάζεται διάνυσµα χαρακτηριστικών (feature vector). Κάθε χαρακτηριστικό Xk µπορεί να πάρει κάποιες τιµές D xk = {xki, i = 1, r}. Εποµένως, σ ένα παράδειγµα κάθε tik είναι µια από τις xki, δηλ. tik Έ D xk. Οι κλάσεις αναφέρονται κι αυτές σ ένα χαρακτηριστικό Xf, που ονοµάζεται χαρακτηριστικό στόχου (target feature). Πιο συγκεκριµένα, οι κλάσεις αντιστοιχούν στις διαφορετικές τιµές που µπορεί να πάρει το χαρακτηριστικό στόχου. Διαδικασία της ταξινόμησης Φάση 1: Εκµάθηση (Learning) Εδώ γίνεται η δηµιουργία και ο προσδιορισµός του μοντέλου µε βάση ένα σύνολο προκατηγοριοποιηµένων παραδειγµάτων, που ονοµάζεται σύνολο εκπαίδευσης (training set). Φάση 2: Έλεγχος (Testing) Εδώ γίνεται ο έλεγχος ακρίβειας και η αποδοχή του μοντέλου µε βάση ένα δεύτερο σύνολο προκατηγοριοποιηµένων παραδειγµάτων, που ονοµάζεται σύνολο δοκιµής (test set). Φάση 3: Εφαρµογή (Application) Σε αυτήν την φάση το μοντέλο εφαρµόζεται σε πραγµατικά (µη κατηγοριοποιηµένα) δεδοµένα. ΚΑΤΗΓΟΡΙΕΣ ΜΕΘΟΔΩΝ ΤΑΞΙΝΟΜΗΣΗΣ Στατιστικές-Πιθανοτικές (Regression, Bayesian) Βασισµένες σε Μετρικές Απόστασης (k-nn) Δένδρα Απόφασης (ID3, C4.5) Νευρωνικά δίκτυα (Perceptron, BP) Μέσω Κανόνων Παρόλο που η ταξινόμηση και η ομαδοποίηση αναφέρονται συχνά ως ίδιες τεχνικές, ωστόσο είναι διαφορετικές αναλυτικές προσεγγίσεις Σε αυτό το σημείο θα περιγράψουμε τις ομοιότητες και τις διαφορές μεταξύ αυτών των τεχνικών. Ας φανταστούμε μια βάση δεδομένων αρχείων πελατών, όπου κάθε αρχείο αντιπροσωπεύει τις ιδιότητες ενός πελάτη. Αυτά τα αρχεία μπορούν να περιλάβουν χαρακτηριστικά πελατών όπως το όνομα και η διεύθυνση, οι δημογραφικές πληροφορίες όπως το φύλο και η ηλικία, και οι οικονομικές ιδιότητες όπως το εισόδημα και το εισόδημα που ξοδεύονται. Η συγκέντρωση είναι μια αυτοματοποιημένη διαδικασία για να ομαδοποιήσει μαζί συσχετιζόμενες εγγραφές. Αυτές οι συσχετιζόμενες εγγραφές ομαδοποιούνται μαζί με σκοπό να έχουν παρόμοιες τιμές για τα χαρακτηριστικά. συγκεντρώνονται βάσει της κατοχής των παρόμοιων τιμών για τις ιδιότητες. Αυτή η προσέγγιση της τομής της βάσης δεδομένων μέσω της ανάλυσης της συγκέντρωσης χρησιμοποιείται συχνά ως μια διερευνητική τεχνική επειδή δεν είναι απαραίτητο για τον τελικό χρήστη και για τον αναλυτή να διευκρινιστεί πώς πρέπει να είναι συνδεδεμένα μαζί τα αρχεία. Στην πραγματικότητα, ο στόχος της ανάλυσης είναι να ανακαλυφθούν τα τμήματα ή οι συστάδες, και να εξεταστούν έπειτα οι ιδιότητες και οι τιμές που καθορίζουν αυτές τις συστάδες ή τα τμήματα Υπό αυτήν τη μορφή, ενδιαφέροντες και εκπληκτικοί τρόποι της ομαδοποίησης πελατών μπορούν μαζί να γίνουν προφανείς, και αυτό μπορεί στη συνέχεια να χρησιμοποιηθεί για να οδηγήσει τις στρατηγικές μάρκετινγκ και προώθησης στο να μπορούν να στοχεύσουν σε συγκεκριμένους τύπους πελατών. 25

26 Υπάρχουν ποικίλοι αλγόριθμοι που χρησιμοποιούνται για την ομαδοποίηση, αλλά όλοι μοιράζονται την ιδιοκτησία επαναληπτικών εκχωρητικών εγγραφών σε μια ομάδα, υπολογίζοντας έτσι ένα μέτρο (συνήθως ομοιότητα, ή/και διακριτικότητα), και επανεκχωρούν εγγραφές στις ομάδες έως ότου μην μπορούν να αλλάξουν κατά πολύ τα υπολογισμένα μέτρα δείχνοντας έτσι ότι η διαδικασία έχει συγκλίνει σε σταθερά τμήματα. Τα αρχεία που βρίσκονται μέσα σε μια ομάδα είναι παρόμοια το ένα με το άλλο, και διαφορετικά από τα αρχεία που είναι σε άλλες ομάδες. Με βάση αυτήν την ιδιαίτερη εφαρμογή, υπάρχουν μια ποικιλία μέτρων της ομοιότητας που χρησιμοποιούνται (π.χ. βασισμένα στη χωρική απόσταση, βασισμένα στη στατιστική μεταβλητότητα, ή ακόμα και τις προσαρμογές των τιμών Condorcet που χρησιμοποιούνται στην ψηφοφορία των σχημάτων), αλλά ο γενικός στόχος αυτής της προσέγγισης είναι να γίνει η συγκλίση των ομάδων των συσχετιζόμενων εγγραφών. Η ταξινόμηση είναι μια διαφορετική τεχνική από την ομαδοποίηση.είναι παρόμοια με την ομαδοποίηση για το λόγο το ότι τμηματοποιεί τις εγγραφές των πελατών σε ξεχωριστά τμήματα που ονομάζονται τάξεις. Όμως αντίθετα από την ομαδοποίηση η ανάλυση της ταξινόμησης απαιτεί ότι ο τελικός χρήστης /αναλυτής θα πρέπει να γνωρίζει πάρα πολύ καλά πως καθορίζονται οι τάξεις.για παράδειγμα οι τάξεις μπορούν να καθοριστούν για να αντιπροσωπεύουν την πιθανότητα ότι ένας πελάτης μπορεί να είναι ένας κακός πιστωτικός κίνδυνος για την παραχώρηση δανείου.είναι απαραίτητο κάθε εγγραφή στο σετ δεδομένων να χρησιμοποιείται για να χτίσει τον ταξινομητή που έχει ήδη μια τιμή για το χαρακτηριστικό που χρησιμοποιείται για να προσδιορίσει τις τάξεις.επειδή κάθε εγγραφή έχει μια τιμή για το χαρακτηριστικό που χρησιμοποιείται για να προσδιορίσει τις τάξεις,και επειδή ο τελικός χρήστης είναι αυτός που αποφασίζει ποιο χαρακτηριστικό θα χρησιμοποιήσει,η ταξινόμηση είναι πολύ λιγότερο διερευνητική σε σχέση με την ομαδοποίηση. Ο αντικειμενικός σκοπός ενός ταξινομητή δεν είναι να εξερευνεί τα δεδομένα για να ανακαλύπτει ενδιαφέροντα τμήματα,αλλά ο σκοπός του είναι να αποφασίσει πως οι νέες εγγραφές θα ταξινομηθούν δηλαδή για την παραπάνω περίπτωση του δανείου αυτό που θα ενδιέφερε τον ταξινομητή θα ήταν να καταλάβει πότε ένας καινούριος πελάτης είναι πιθανότερο να μην ξεπληρώσει το δάνειο που πήρε. Η ταξινόμηση που επαναλαμβάνεται στην εξόρυξη δεδομένων χρησιμοποιεί επίσης μια ποικιλία αλγορίθμων,και ο ιδιαίτερος αλγόριθμος που χρησιμοποιείται μπορεί να επηρεάσει τον τρόπο με τον οποίο ταξινομούνται οι εγγραφές.μια κοινή προσέγγιση για τους ταξινομητές είναι να χρησιμοποιούν δέντρα απόφασης για να χωρίσουν και να τμηματοποιήσουν τις εγγραφές.οι νέες εγγραφές μπορούν να ταξινομηθούν ξεψαχνίζοντας το δέντρο από την ρίζα και διαμέσου των κλαδιών και των κόμβων σε ένα φύλλο που αντιπροσωπεύει μια τάξη.το μονοπάτι που παίρνει μια εγγραφή διαμέσου ενός δέντρου απόφασης μπορεί στην συνέχεια να παρουσιαστεί ως ένας κανόνας.για παράδειγμα, "Εισόδημα<$30,000 και ηλικία <25, και χρέος =υψηλό, τότε η καθορισμένη τάξη =Ναι). Αλλά λόγω της διαδοχικής φύσης του τρόπου με τον οποίο ένα δέντρο απόφασης διασπά τις εγγραφές (δηλαδή τις πιο ευδιάκριτες τιμές χαρακτηριστικών [π.χ. το εισόδημα ] που εμφανίζονται νωρίς στο δέντρο) μπορεί να καταλήξει σε ένα δέντρο απόφασης που είναι υπερευαίσθητο στις αρχικές διασπάσεις.επομένως κατά την αξιολόγηση ενός δέντρου απόφασης είναι σημαντικό να εξεταστούν οι συχνότητες των λαθών για κάθε φύλλο κόμβου (την πρόθεση των εγγραφών που ταξινομήθηκαν λανθασμένα).ένα θετικό στοιχείο των ταξινομητών των δέντρων απόφασης είναι ότι επειδή τα μονοπάτια μπορούν να εκφραστούν ως κανόνες,γίνεται πιο πιθανό να χρησιμοποιηθούν μετρήσεις για την αξιολόγηση της χρησιμότητας των κανόνων όπως η Υποστήριξη,η Εμπιστοσύνη,και ο Ανελκυστήρας που μπορούν επίσης να χρησιμοποιηθούν για να αξιολογήσουν την χρησιμότητα του δέντρου. Έτσι λοιπόν η ταξινόμηση και η ομαδοποίηση που χρησιμοποιούνται συχνά για τους σκοπούς της τμηματοποίησης των εγγραφών, έχουν διαφορετικούς αντικειμενικούς στόχους και πετυχαίνουν τις τμηματοποιήσεις τους με διαφορετικούς 26

27 τρόπους.έτσι γνωρίζοντας ποια προσέγγιση να χρησιμοποιήσουμε είναι σημαντικό για την λήψη αποφάσεων. Παράγραφος 3.3: Επανάληψη (Regression) Η ανάλυση της παλινδρόμησης δείχνει την σχέση που υπάρχει ανάμεσα σε μία ή περισσότερες μεταβλητές απόκρισης <response variables>(που ονομάζονται επίσης εξαρτώμενες μεταβλητές,μεταβλητές εξήγησης ή μεταβλητές πρόβλεψης) και συνήθως αυτές οι μεταβλητές εμφανίζονται με το γράμμα Y, και στους προβλεπτές <predictors> (που ονομάζονται επίσης και ως ανεξάρτητες μεταβλητές,μεταβλητές εξήγησης και μεταβλητές ελέγχου) και συνήθως εμφανίζονται με τα γράμματα X 1,...,X p ). Αν υπάρχουν περισσότερες από μια μεταβλητές απάντησης μιλάμε για πολυμεταβλητή παλινδρόμηση. Τι είναι οι μεταβλητές απόκρισης Στον πειραματικό σχεδιασμό μια εξαρτώμενη μεταβλητή είναι ένας παράγοντας που συγκρίνονται οι τιμές του σε διαφορετικές καταστάσεις χειρισμού.αυτό συμβαίνει γιατί ο πειραματιστής θέλει να καθορίσει εάν η τιμή της εξαρτώμενης μεταβλητής ποικίλει όταν οι τιμές της ανεξάρτητης μεταβλητής επίσης ποικίλουν ) και αν ναι κατά πόσο.στις απλές περιόδους η ανεξάρτητη μεταβλητή εμφανίζεται να προκαλεί μια ξεχωριστή αλλαγή ή απλά να επηρεάζει την εξαρτώμενη μεταβλητή. Στην ανάλυση οι ερευνητές θέλουν συνήθως να εξηγήσουν γιατί η εξαρτώμενη μεταβλητή έχει μια δοσμένη τιμή. Σε μια έρευνα συνήθως συγκρίνονται οι τιμές μιας εξαρτώμενης μεταβλητής σε διαφορετικές καθοριζόμενες λειτουργίες. Για παράδειγμα σε μια μελέτη του πόσες διαφορετικές δόσεις φαρμάκου συνδέονται με την σοβαρότητα των συμπτωμάτων μιας αρρώστιας,η μέτρηση της σοβαρότητας των συμπτωμάτων της αρρώστιας είναι η εξαρτώμενη μεταβλητή και η ανταπόκριση που έχει το φάρμακο σε συγκεκριμένες δόσεις είναι η ανεξάρτητη μεταβλητή. Έτσι ο ερευνητής θα συγκρίνει τις διαφορετικές τιμές της εξαρτώμενης μεταβλητής (σοβαρότητα των συμπτωμάτων )και θα προσπαθήσει από αυτήν την σύγκριση να βγάλει ένα συμπέρασμα. Τύποι της παλινδρόμησης 1)Απλή και πολλαπλή γραμμική παλινδρόμηση. a)η απλή γραμμική παλινδρόμηση b) και η πολλαπλή γραμμική παλινδρόμηση είναι συνδεόμενες στατιστικές μέθοδοι για την μοντελοποίηση της σχέσης μεταξύ δύο ή περισσοτέρων τυχαίων μεταβλητών χρησιμοποιώντας μια γραμμική ισoδυναμία < linear equation.>. (Όταν λέμε γραμμική ισοδυναμία εννοούμε μια ισοδυναμία που περιέχει μόνο το άθροισμα κάποιων σταθερών ή κάποιων σταθερών προϊόντων και την πρώτη δύναμη μιας μεταβλητής. Μια τέτοια ισοδυναμία θα λέγαμε ότι είναι ισάξια με μια πρωτοβάθμια πολυωνιμική εξίσωση που ισούται με το 0.Αυτές οι ισοδυναμίες ονομάζονται γραμμικές επειδή αναπαριστούν ίσιες γραμμές στον άξονα των συντεταγμένων.μια κοινή μορφή μιας γραμμικής ισοδυναμίας δύο μεταβλητών θα μπορούσε να είναι η y = mx + b, (e.g. y = 3x + 5). Σε αυτήν την ισοδυναμία η τιμή m θα καθορίσει την κλίση της γραμμής και η τιμή b θα καθορίσει το σημείο στο οποίο η γραμμή διασταυρώνεται με τον άξονα των Υ. Ισοδυναμίες που περιέχουν όρους όπως x 2, y 1/3, και xy δεν είναι γραμμικές. Παραδείγματα γραμμικών ισοδυναμιών με δύο μεταβλητές : Η απλή γραμμική παλινδρόμηση αναφέρεται σε μία παλινδρόμηση σε δύο μεταβλητές ενώ η πολλαπλή παλινδρόμηση αναφέρεται σε μια παλινδρόμηση σε περισσότερες από δύο μεταβλητές.η γραμμική παλινδρόμηση περιλαμβάνει τον 27

28 καλύτερο υπολογισμό της απάντησης που είναι μια γραμμική λειτουργία μερικών παραμέτρων (και μάλιστα όχι απαραίτητα γραμμικών στους προβλεπτές ) a)απλή γραμμική παλινδρόμηση. Στην στατιστική η γραμμική παλινδρόμηση είναι μία μέθοδος μοντελοποίησης της υποθετικής αναμενόμενης τιμής μιας μεταβλητής της y με δοσμένες της τιμές κάποιας άλλης μεταβλητής ή κάποιων άλλων μεταβλητών x. Η παλινδρόμηση γενικά είναι το πρόβλημα του υπολογισμού μιας υποθετικής αναμενόμενης τιμής. Είναι θα λέγαμε ειρωνικό παρόλο που η τεχνική καλείται γραμμική παλινδρόμηση είναι ότι το γράφημα y = α + βx είναι μια γραμμή.αλλά στην πραγματικότητα εάν το μοντέλο είναι (στην οποία περίπτωση τοποθετήσαμε στο ρόλο και τα διανύσματα του ρόλου που άλλοτε παιζόταν από το διάνυσμα x i και τα διανύσματα (β,γ) στον ρόλο που άλλοτε παιζόταν από το β, όμως το πρόβλημα υπάρχει πάλι ακόμη και αν το γράφημα δεν είναι ίσια γραμμή. Η αιτιολογία αυτής της ορολογίας εξηγείται παρακάτω. Η γραμμική παλινδρόμηση καλείται γραμμική λόγω του ότι η σχέση της απάντησης με τις μεταβλητές απόκρισης παριστάνει μια γραμμική συνάρτηση μερικών παραμέτρων.τα μοντέλα παλινδρόμησης, που δεν είναι μια γραμμική συνάρτηση παραμέτρων,καλούνται μοντέλα μη γραμμικής παλινδρόμησης.ένα πολυστρωματικό τεχνητό νευρωνικό δίκτυο θα μπορούσαμε να πούμε ότι είναι ένα παράδειγμα ενός μοντέλου μη γραμμικής παλινδρόμησης Ακόμη γενικότερα η παλινδρόμηση θα μπορούσε να θεωρηθεί ως μια ειδική περίπτωση εκτίμηση πυκνότητας.η κοινή διανομή της απάντησης και των μεταβλητών απόκρισης μπορεί να κατασκευαστεί από μια υποθετική διανομή της μεταβλητής απόκρισης και της οριακής διανομής < marginal distribution> των μεταβλητών απόκρισης. Σε ορισμένα προβλήματα είναι καλύτερο και πιο εύκολο να δουλέψουμε προς μια άλλη κατεύθυνση : Από την κοινή διανομή,μπορεί να προέλθει η υποθετική διανομή της μεταβλητής απόκρισης. 2)Μοντέλα μη γραμμικής παλινδρόμησης. Αν η σχέση μεταξύ των μεταβλητών που αναλύονται δεν είναι γραμμική στις παραμέτρους,τότε μπορεί να χρησιμοποιηθεί ένας αριθμός μη γραμμικών τεχνικών για να επιτευχθεί μια πιο ακριβής παλινδρόμηση.παρακάτω περιγράφονται οι τεχνικές της μη γραμμικής παλινδρόμησης. Τεχνικές μη γραμμικής παλινδρόμησης. Στην στατιστική η μη γραμμική παλινδρόμηση είναι το πρόβλημα του να ταιριάξει ένα μοντέλο στα πολυδιάστατα δεδομένα χ, υ, όπου το f είναι μια μη γραμμική συνάρτηση του χ με θ παράμερους. Είναι συχνά ειρωνικό παρά την χρήση της μεθόδου των ελάχιστων τετραγώνων να υπολογίσουμε τις παραμέτρους a, b, c στο μοντέλο. Η παραπάνω συνάρτηση είναι ένα παράδειγμα μη γραμμικής παλινδρόμησης. Γενικά δεν υπάρχει καμιά αλγεβρική έκφραση για τις καλύτερες ταιριαζόμενες παραμέτρους όπως υπάρχει στην γραμμική παλινδρόμηση.συνήθως αριθμητικοί βελτιστοποιημένοι αλγόριθμοι εφαρμόζονται για να καθορίσουν τις καλύτερες μεταβλητές που θα ταιριάζουν καλύτερα. Μπορεί να υπάρχουν πολλά τοπικά μέγιστα από το σωστό ταίριασμα σε αντίθεση με την γραμμική παλινδρόμηση στην 28

29 οποία υπάρχει συνήθως ένα μοναδικό μέγιστο της σωστότητας του ταιριάσματος. Για να καθορίσουμε ποιο μέγιστο θα καθοριστεί χρησιμοποιώντας αριθμητική βελτιστοποίηση χρησιμοποιούνται οι τιμές πρόβλεψης των παραμέτρων. Μερικά προβλήματα μη γραμμικής παλινδρόμησης μπορούν να έχουν γραμμική μορφή αν μπορεί να βρεθεί η λύση στην ισότητα της υποθετικής παλινδρόμησης. Για παράδειγμα : Αν πάρουμε έναν λογάριθμο της y = Ae Bx παλινδρόμησης, θα έχει την εξής μορφή lny = lna + Bx ενός συνηθισμένου προβλήματος γραμμικής παλινδρόμησης της βελτιστοποίησης των παραμέτρων lna και B, του οποίου η ακριβής λύση είναι γνωστή.ωστόσο πραγματοποιώντας μια τέτοια γραμμική μορφοποίηση μπορεί αυτό να προκαταλάβει μερικά δεδομένα έτσι ώστε να γίνουν πιο σχετικά από άλλα,το οποίο όμως μπορεί να μην είναι και ένα επιθυμητό επακόλουθο. Πιο σύνθετα προβλήματα όπως η υπερβατική παλινδρόμηση < transcendental regression > έχουν βελτιστοποιηθεί με πιο σύνθετους αλγορίθμους. Άλλες μη γραμμικές παλινδρομήσεις μπορεί να έχουν μερικά καλά ταιριάσματα μεγίστων, απαιτούν από τους επιστήμονες να εισάγουν τιμές πρόβλεψης για τις βελτιστοποιημένες παραμέτρους. Τα μοντέρνα προγράμματα λογιστικών φύλλων έχουν μια συνεργασία από μοντέλα παλινδρόμησης 3)Άλλα μοντέλα παλινδρόμησης Παρόλο που αυτοί οι τρεις τύποι παλινδρόμησης που αναφέρονται παρακάτω είναι οι πιο κοινοί ωστόσο υπάρχουν και άλλοι τύποι. a) παλινδρόμηση πουασόν <Poisson regression>,b) επιβλεπόμενη εκμάθηση <supervised learning>, and c) και η σταθμικά ομαδοποιημένη παλινδρόμηση <unit-weighted regression>. a)παλινδρόμηση Πουασόν Στην στατιστική τα χαρακτηριστικά του μοντέλου της παλινδρόμησης πουασόν σε μια μεταβλητή απόκρισης Y είναι μια κατανομή πουασόν(πιθανότητες ) < a Poisson distribution > της οποίας η αναμενόμενη τιμή εξαρτάται από μια μεταβλητή πρόβλεψης x (γραμμένη σε μια χαμηλότερη συνθήκη γιατί το μοντέλο συμπεριφέρεται στο x σαν μια μη τυχαία μεταβλητή : (όπου "log" σημαίνει φυσικός λογάριθμος ). Τα μοντέλα παλινδρόμησης είναι γενικευμένα γραμμικά μοντέλα που έχουν το "log" ως κάποια κανονική λειτουργία σύνδεσης,. Αν οι Y i είναι ανεξάρτητες παρατηρήσεις με αντίστοιχες μεταβλητές x i της μεταβλητής πρόβλεψης,τότε το a και το b μπορούν να υπολογιστούν με την μέγιστη πιθανότητα αν ο αριθμός των διακεκριμένων τιμών είναι τουλάχιστον 2. Η μέγιστη πιθανότητα υπολογίζει την έλλειψη μιας κλειστού τύπου έκφρασης και πρέπει στην συνέχεια να βρεθεί από αριθμητικές μεθόδους. Παλινδρόμηση Πουασόν στην πρακτική. Η παλινδρόμηση πουασόν είναι κατάλληλη όταν η εξαρτώμενη μεταβλητή είναι μια αρίθμηση παραδείγματος χάρη γεγονότα όπως ένα τηλεφώνημα σε ένα τηλεφωνικό κέντρο.τα γεγονότα πρέπει να είναι ανεξάρτητα από την άποψη ότι ένα τηλεφώνημα δεν συνεπάγεται και ένα άλλο ή κάποιο λιγότερο αλλά η πιθανότητα στην μονάδα του 29

30 χρόνου των γεγονότων είναι ολοφάνερο ότι συνδέεται με κάποιες μεταβλητές όπως ο χρόνος της ημέρας.. Προσανατολισμός και εξισορρόπηση. Ή παλινδρόμηση πουασόν είναι επίσης κατάλληλη για τα σπάνια δεδομένα όπου το κλιμάκιο είναι ένα μέτρημα γεγονότων που απασχολούν ένα ιδιαίτερο τμήμα κάποιας παρατήρησης, χωρισμένη από μερικές μετρήσεις από τις αποκαλύψεις του τμήματος.για παράδειγμα οι βιολόγοι μπορούν να μετρήσουν τα είδη των δέντρων στα δάση όπου η κλίμακα θα είναι ο αριθμός των ειδών ανά τετραγωνικό χιλιόμετρο.επίσης οι δημογράφοι μπορούν να μοντελοποιήσουν τις κλίμακες θανάτων που θα περιέχουν τα άτομα και τα χρόνια ζωής τους.πιο γενικά οι κλίμακες γεγονότων μπορούν να υπολογιστούν ως γεγονότα ανά μονάδα του χρόνου πράγμα το οποίο επιτρέπει στο πεδίο της παρατήρησης να ποικίλει για κάθε μονάδα.σε αυτά τα παραδείγματα η έκθεση είναι μια σεβαστή μονάδα περιοχής,άτομα-χρόνια και μονάδα του χρόνου Στην παλινδρόμηση Πουασόν αυτό μεταχειρίζεται ως έναν αντιστάθμισμα όπου η μεταβλητή έκθεσης εισέρχεται στην δεξιά πλευρά της ισοδυναμίας αλλά με μια παράμετρο η οποία περιορίζεται στην μονάδα. το οποίο συνεπάγεται Υπερδιασπορά <Overdispersion> Ένα χαρακτηριστικό της διανομής Πουασόν είναι ότι ο μέσος του είναι ίσος με την διακύμανση του.σε μερικές περιπτώσεις φαίνεται ότι η παρατηρούμενη διακύμανση είναι μεγαλύτερη από το μέσο.αυτό είναι γνωστό ως υπερδιασπορά και δείχνει ότι το μοντέλο δεν είναι κατάλληλο.ένας κοινός λόγος είναι η παράλειψη κάποιων κατάλληλων,εξερευνητικών μεταβλητών.. Ένα άλλο κοινό πρόβλημα της παλινδρόμησης Πουασόν είναι τα υπερβολικά μηδενικά : Αν υπάρχουν δύο λειτουργίες στην εργασία,η μια να καθορίζει αν υπάρχουν μηδενικά γεγονότα κάποιων γεγονότων,και μια λειτουργία Πουασόν που θα καθορίζει πόσα γεγονότα υπάρχουν,τότε θα υπάρχουν περισσότερα μηδενικά από αυτά που θα προβλέψει η παλινδρόμηση Πουασόν.Ένα παράδειγμα είναι η διανομή τσιγάρων που καπνίστηκαν σε μια ώρα από μέλη ενός γκρουπ που κάποιοι από αυτά τα μέλη δεν είναι καπνιστές. b)επιβλεπόμενη εκμάθηση Η επιβλεπόμενη εκμάθηση είναι μια τεχνική εκμάθησης μηχανών για την δημιουργία μιας λειτουργίας από τα δεδομένα κατάρτισης.τα δεδομένα κατάρτισης περιλαμβάνουν ένα ζευγάρι από αντικείμενα εισαγωγής (τυπικά διανύσματα ) καθώς και επιθυμητά outputs.το output της λειτουργίας μπορεί να είναι μια συνεχής τιμή (που ονομάζεται παλινδρόμηση) ή μπορεί να προβλέπει μια ετικέτα τάξης του εισαγόμενου αντικειμένου (που ονομάζεται ταξινόμηση ). Το καθήκον του επιβλεπόμενου εκπαιδευομένου είναι να προβλέψει την τιμή της συνάρτησης για κάθε ένα αποτελεσματικό εισαχθέν αντικείμενο αφότου έχει δει έναν αριθμό από καταρτισμένα παραδείγματα.(δηλαδή ζεύγη από input και στοχευόμενα output.για να επιτευχθεί αυτό,ο εκπαιδευόμενος θα πρέπει να γενικεύσει τα υπάρχοντα δεδομένα σε αθέατες περιστάσεις με έναν λογικό τρόπο. Η επιβλεπόμενη εκμάθηση μπορεί να παραγάγει μοντέλα δύο τύπων. Πιο συχνά η επιβλεπόμενη εκμάθηση παράγει ένα παγκόσμιο μοντέλο που χαρτογραφεί τα εισαγόμενα αντικείμενα σε επιθυμητές εξόδους <outputs>.σε μερικές περιπτώσεις όμως ο χάρτης υλοποιείται ως ένα σύνολο τοπικών μοντέλων (όπως στο συμπέρασμα που είναι βασισμένο στις περιπτώσεις case-based reasoning ή τον αλγόριθμο του κοντινότερου γείτονα. 30

31 Με σκοπό να λυθεί ένα δεδομένο πρόβλημα επιβλεπόμενης εκμάθησης (για παράδειγμα ένα πρόβλημα εκμάθησης αναγνώρισης του γραφικού χαρακτήρα ) θα πρέπει να ληφθούν υπόψη τα εξής βήματα : 1. Θα πρέπει να γίνει ο καθορισμός του τύπου των παραδειγμάτων εξάσκησης.πριν να γίνει οτιδήποτε άλλο ο μηχανικός θα πρέπει να αποφασίσει τι είδη δεδομένων θα χρησιμοποιηθούν ως παράδειγμα.για παράδειγμα αυτό θα μπορούσε να είναι ένας μοναδικός γραφικός χαρακτήρας,μια ολόκληρη λέξη γραμμένη με το χέρι ή μια ολόκληρη γραμμή γραμμένη με το χέρι. 2. Θα πρέπει να γίνει η συγκέντρωση ενός σετ εκπαίδευσης.αυτό το σετ εκπαίδευσης πρέπει να είναι χαρακτηριστικό της πραγματικής χρήσης της λειτουργίας αυτής.έτσι λοιπόν συγκεντρώνεται ένα σετ εισαχθέντων αντικειμένων και συγκεντρώνονται επίσης και τα αντίστοιχα outputs είτε από ειδικούς ή από διάφορες μετρήσεις που έγιναν. 3. Θα πρέπει να γίνει ο καθορισμός της αντιπροσωπεύσης των εισαχθέντων χαρακτηριστικών της μαθημένης λειτουργίας.η ακρίβεια της μαθημένης λειτουργίας εξαρτάται από το πόσο μπορούν να αντιπροσωπευθούν τα εισαχθέντα αντικείμενα.τυπικά τα εισαχθέντα αντικείμενα μετασχηματίζονται σε ένα διάνυσμα χαρακτηριστικών,το οποίο περιέχει ένα αριθμό χαρακτηριστικών τα οποία είναι περιγραφικά του αντικειμένου.ο αριθμός των χαρακτηριστικών δεν πρέπει να είναι και τόσο μεγάλος λόγο της δυσκολίας της διαστατικότητας,όμως θα πρέπει να είναι αρκετά μεγάλος για να μπορεί να προβλέψει με ακρίβεια το output. 4. Θα πρέπει να γίνει ο καθορισμός της δομής της μαθημένης λειτουργίας και του αντίστοιχου αλγορίθμου εκμάθησης.για παράδειγμα ένας μηχανικός μπορεί να επιλέξει να χρησιμοποιήσει τεχνητά νευρωνικά δίκτυα ή δέντρα απόφασης.. 5. Τέλος θα πρέπει να γίνει η ολοκλήρωση του σχεδίου.ο μηχανικός μετά τρέχει τον αλγόριθμο εκμάθησης στο συγκεντρωμένο σετ εκπαίδευσης.παράμετροι του αλγόριθμου εκμάθησης μπορούν να ταιριαστούν με την εκτίμηση την παρουσίασης σε ένα υποσύνολο (που ονομάζεται σετ επισημοποίησης < validation set>) του σετ εκπαίδευσης,ή της διάμεσης διασταύρωσης < via cross-validation>.αφού προσαρμοστεί ο παράμετρος και γίνει η εκμάθηση του,η παρουσίαση του αλγόριθμου μπορεί να μετρηθεί σε ένα σύνολο τεστ που είναι ξεχωριστό από το σετ εκπαίδευσης. c) Σταθμικά ομαδοποιημένη παλινδρόμηση <unit-weighted regression> Στην στατιστική η σταθμικά ομαδοποιημένη παλινδρόμηση είναι πιθανότατα η πιο απλή μορφή της ανάλυσης πολλαπλής παλινδρόμησης,μια μέθοδος στην οποία χρησιμοποιούνται δύο ή περισσότερες μεταβλητές για να προβλέψουν την τιμή ενός αποτελέσματος. Μέχρι ένα σημείο,το παράδειγμα του χασίματος βάρους μπορεί να εξηγήσει την ιδέα της πολλαπλής παλινδρόμησης. Εάν ένα γκρουπ ανθρώπων συμμετέχουν σε ένα πρόγραμμα χασίματος βάρους, μπορεί να θελήσουμε να προβλέψουμε ποιος από αυτούς τους ανθρώπους θα χάσει βάρος.το αποτέλεσμα θα είναι το χαμένο βάρος.μπορεί να βρούμε ότι αυτοί που έχασαν βάρος,αύξησαν την διατροφή τους σε φρούτα,εξασκούνταν περισσότερο και είχαν αντικαταστήσει τα γλυκά ποτά από ποτά χαμηλών θερμίδων.το θέμα είναι ότι μερικές μεταβλητές έχουν μεγάλη σημασία λόγω της επίδρασης που έχουν σε ένα αποτέλεσμα.. Παράγραφος 3.4: Χρονοσειρές Παρακάτω θα δούμε κάποιες τεχνικές που είναι χρήσιμες για την ανάλυση των δεδομένων των χρονοσειρών,όπως είναι για παράδειγμα η συχνότητες των 31

32 μετρήσεων που έχουν μη τυχαίες σειρές.αντίθετα από την ανάλυση των τυχαίων δειγμάτων των παρατηρήσεων,η ανάλυση των χρονοσειρών βασίζεται στην υπόθεση ότι αλλεπάλληλες τιμές στα αρχεία των δεδομένων αντιπροσωπεύουν συνεχείς μετρήσεις που πάρθηκαν σε ίσα χρονικά διαστήματα. Δύο βασικοί στόχοι Υπάρχουν δύο κύριοι στόχοι της ανάλυσης των χρονοσειρών: (a) Να αναγνωριστεί η φύση του φαινομένου που αντιπροσωπεύεται από την συχνότητα των παρατηρήσεων και (b) η πρόβλεψη (Δηλαδή το να προβλεφθούν μελλοντικές τιμές της μεταβλητής των χρονοσειρών ). Και οι δύο αυτοί στόχοι απαιτούν να μπορεί να αναγνωριστεί το σχέδιο των παρατηρούμενων δεδομένων των χρονοσειρών και λίγο ή πολύ να μπορεί να περιγραφεί.μόλις εγκατασταθεί το σχέδιο μπορούμε να το εξηγήσουμε και να το ενώσουμε σε ένα ενιαίο σύνολο με άλλα δεδομένα. (δηλαδή να το χρησιμοποιήσουμε στην θεωρία του ερευνούμενου φαινομένου όπως για τις εποχιακές τιμές των εμπορευμάτων).ανεξάρτητα από το βάθος της κατανόησης μας και από την αξιοπιστία της εξήγησης (θεωρίας )του φαινομένου μπορούμε να δημιουργήσουμε ένα σχέδιο για να προβλέπουμε μελλοντικά γεγονότα. Δύο γενικές πλευρές των σχεδίων των χρονικών σειρών Τα περισσότερα σχέδια των χρονοσειρών μπορούν να περιγραφούν σε περιόδους δύο βασικών τάξεων περιεχομένων: Της τάσης και της εποχικότητας. Η πρώτη που είναι η τάση αντιπροσωπεύει ένα γενικό γραμμικό συστατικό (ή τις περισσότερες φορές )ένα μη γραμμικό συστατικό που αλλάζει κατά την διάρκεια του χρόνου και δεν επαναλαμβάνεται ή τουλάχιστον δεν επαναλαμβάνεται στο χρονικό διάστημα που χρησιμοποιείται από τα δεδομένα μας. (δηλαδή η υψηλότερη περιοχή του διαγράμματος ακολουθείται από μια περίοδο μιας εκθετικής ανάπτυξης ).Η δεύτερη που είναι η εποχικότητα έχει παρόμοια φύση με την τάση (δηλαδή η υψηλότερη περιοχή του διαγράμματος ακολουθείται από μια περίοδο μιας εκθετικής ανάπτυξης), η διαφορά της όμως από την τάση είναι ότι επαναλαμβάνεται σε συστηματικά χρονικά διαστήματα.αυτές οι δύο γενικές τάξεις των συστατικών των χρονοσειρών μπορούν να συνυπάρχουν στα πραγματικά δεδομένα.για παράδειγμα οι πωλήσεις μια εταιρείας μπορούν να ανέβουν με τα χρόνια όμως και πάλι οι πωλήσεις αυτές ακολουθούν κάποια συνεχή εποχιακά σχέδια. (Παραδείγματος χάρη το περισσότερο από τις 25% των ετήσιων πωλήσεων κάθε χρόνο πραγματοποιούνται τον Δεκέμβριο, ενώ τον Αύγουστο πραγματοποιούνται μόνο το 4%.). Σχήμα 4 Αυτό το γενικό σχέδιο είναι καλά εικονογραφημένο σε ένα κλασσικό σετ δεδομένων σειράς G (Box and Jenkins, 1976, p. 531) (Σχήμα 4). αντιπροσωπεύει την μηνιαία 32

33 διεθνή αεροπορική εταιρεία όπου εμφανίζει τους επιβάτες (μετρημένους ανά εκατοντάδες )σε δώδεκα συνεχή χρόνια από το 1949 μέχρι και το 1960 (Δέστε το γράφημα που βρίσκεται από πάνω ). Αν σχεδιάσετε τις επιτυχημένες παρατηρήσεις (μήνες ) των επιβατών της αεροπορικής εταιρείας συνολικά,εμφανίζεται μια καθαρή,και σχεδόν γραμμική τάση,που δείχνει το ότι η βιομηχανία της συγκεκριμένης αεροπορικής εταιρείας είχε μια σταθερή ανάπτυξη κατά την διάρκεια των ετών. (Περίπου 4 φορές περισσότεροι επιβάτες ταξίδεψαν το 1960 σε σχέση με το 1949).Επίσης την ίδια στιγμή οι μηνιαίες φιγούρες θα ακολουθήσουν ένα σχεδόν πανομοιότυπο σχέδιο κάθε χρόνο. (δηλαδή περισσότεροι άνθρωποι ταξιδεύουν κατά την διάρκεια των διακοπών παρά από οποιοδήποτε άλλη περίοδο κατά την διάρκεια του έτους.αυτό το παράδειγμα επίσης δείχνει ένα πολύ κοινό γενικό τύπο σχεδίου στις χρονοσειρές δεδομένων, όπου η άμβλυνση των εποχιακών αλλαγών αυξάνεται με την ολική τάση(δηλαδή η διακύμανση συνδέεται με τον μέσο με ένα ευθύγραμμο τμήμα των σειρών.αυτό το σχέδιο που ονομάζεται μοναδιαία επικαιρότητα <multiplicative seasonality> δείχνει ότι η συσχετιζόμενη άμβλυνση των εποχιακών αλλαγών είναι συνεχής κατά την διάρκεια του χρόνου,και έτσι συνδέεται με την τάση. A) Ανάλυση τάσης <Trent Analysis> Δεν υπάρχουν αποδεδειγμένες αυτόματες τεχνικές για να αναγνωρίσουν τα συστατικά των τάσεων στα δεδομένα των χρονικών σειρών,όπως και να έχει όμως όσο η τάση είναι μονότονη (δηλαδή να αυξάνεται συνεχώς ή να μειώνεται συνεχώς )αυτό το μέρος της ανάλυσης των δεδομένων τυπικά δεν είναι τόσο δύσκολο.εάν τα δεδομένα των χρονικών σειρών περιέχουν ένα υπολογίσιμο λάθος,τότε το πρώτο βήμα στην διαδικασία αναγνώρισης της τάσης είναι η ομαλοποίηση. Ομαλοποίηση. <Smoothing> Η ομαλοποίηση εμπλέκει πάντα κάποια μορφή τοπικών μέσων όρων των δεδομένων έτσι ώστε τα μη συστηματικά στοιχεία των ατομικών παρατηρήσεων να ακυρώνονται μεταξύ.η πιο κοινή τεχνική είναι η ομαλοποίηση του κινούμενου μέσου όρου <moving average>,η οποία αντικαθιστά κάθε στοιχείο των σειρών είτε με το πιο απλό είτε με το πιο σταθμικό μέσο όρο των n περικυκλωμένων στοιχείων, όπου το n είναι το πλάτος του ομαλοποιημένου παραθύρου.οι διάμεσοι μπορούν να χρησιμοποιηθούν αντί για τους μέσους.το βασικό πλεονέκτημα των διάμεσων σε σύγκριση με την ομαλοποίηση του κινούμενου μέσου όρου είναι ότι τα αποτελέσματά του είναι πολύ λίγο διαφορετικά σε τιμή από τα outliers. (Εσωτερικά του παραθύρου ομαλοποίησης.έτσι εάν υπάρχουν outliers στα δεδομένα (κατά την διάρκεια των λαθών των μετρήσεων ), η μέση ομαλοποίηση τυπικά παράγει πιο ομαλοποιημένη η τουλάχιστον πιο αξιόπιστες καμπύλες από το κινούμενο μέσο όρο βασισμένο στο ίδιο πλάτος παραθύρου. Το βασικό μειονέκτημα της μέσης ομαλοποίησης είναι ότι η απουσία των καθαρών outliers μπορεί να παραγάγει περισσότερες καμπύλες με ανώμαλες επιφάνειες που κινούνται υπολογισμένες κατά μέσο όρο και δεν επιτρέπει να γίνεται επιβάρυνση. Στις λιγότερο συνδεόμενες περιπτώσεις (στις χρονοσειρές των δεδομένων) όταν το λάθος μετρήσεως είναι πολύ μεγάλο, τότε μπορούν να χρησιμοποιηθούν οι τεχνικές της σταθμισμένης απόστασης ελαχίστων τετραγώνων ομαλοποίησης <distance weighted least squares smoothing> ή οι τεχνικές αρνητικής εκθετικής συνάρτησης ομαλοποίησης <negative exponentially weighted smoothing>. Όλες αυτές οι μέθοδοι θα φιλτράρουν τον θόρυβο και θα αντιστρέψουν τα δεδομένα σε μια ομαλή καμπύλη η οποία είναι σχετικά αμερόληπτη από τα outliers. Οι σειρές με λίγα συνδεόμενα και συστηματικά κατανεμημένα σημεία μπορούν να ομαλοποιηθούν με τις bicubic splines. Προσαρμόζοντας μια συνάρτηση. 33

34 Πολλά μονότονα δεδομένα χρονοσειρών μπορούν να υπολογιστούν επαρκώς με μια γραμμική συνάρτηση.αν υπάρχει ένα καθαρό μονότονο μη γραμμικό στοιχείο,το δεδομένο πρώτα από όλα χρειάζεται να μετασχηματιστεί για να αφαιρέσει την έλλειψη γραμμικότητας. Συνήθως μπορούν να χρησιμοποιηθούν ένας εκθετικός λογάριθμος ή (λιγότερο συχνά )μια πολυωνυμική συνάρτηση. B) Ανάλυση επικαιρότητας <Analysis of seasonality> Η εποχιακή εξάρτηση (επικαιρότητα) είναι ένα άλλο γενικό στοιχείο του σχεδίου των χρονοσειρών. Η έννοια αυτή εικονογραφήθηκε στο παράδειγμα των επιβατών της αεροπορικής εταιρείας παραπάνω. Επίσημα καθορίζεται ως συσχετιζόμενη εξάρτηση της σειράς k ανάμεσα σε κάθε i'th στοιχείο των σειρών και το (i-k)'th στοιχείο (Kendall, 1976) μετρημένη με την αυτοσυσχέτιση (δηλαδή μια σχέση ανάμεσα σε δύο περιόδους ).Το k συνήθως καλείται ως διάλειμμα.αν το λάθος της μέτρησης δεν είναι και τόσο μεγάλο,η εποχικότητα μπορεί να αναγνωριστεί οπτικά στις σειρές ως ένα σχέδιο που επαναλαμβάνεται κάθε k στοιχεία. Γράφημα αυτοσυσχέτισης <Autocorrelation correlogram>. Τα εποχιακά σχέδια των χρονοσειρών μπορούν να εξεταστούν μέσω των γραφημάτων αυτοσυσχέτισης.το γράφημα αυτοσυσχέτισης επιδεικνύει γραφικά και αριθμητικά την συνάρτηση αυτοσυσχέτισης (ACF), που είναι ένας σειριακός συντελεστής συσχέτισης (και των σταθερών λαθών τους ) για τις συνεχείς λωρίδες σε ένα καθορισμένο εύρος λωρίδων (δηλαδή 1 διαμέσου 30).Τα εύροι δύο σταθερών λαθών για κάθε λωρίδα συνήθως μαρκάρονται στα γραφήματα συσχέτισης,αλλά τυπικά το μέγεθος της αυτοσυσχέτισης έχει περισσότερο ενδιαφέρον από την αξιοπιστία του γιατί συνήθως ενδιαφερόμαστε για τις πολύ δυνατές (και συνεπώς πολύ σημαντικές ) αυτοσυσχετίσεις. Εξετάζοντας τα γραφήματα συσχέτισης. Καθώς εξετάζουμε τα γραφήματα συσχέτισης κάποιος θα πρέπει να συγκρατεί ότι οι αυτοσυσχετίσεις για τις συνεχείς λωρίδες είναι επίσημα εξαρτημένες.δώστε προσοχή στο παράδειγμα που ακολουθεί. Αν το πρώτο στοιχείο είναι πολύ στενά συνδεδεμένο με το δεύτερο,και το δεύτερο με το τρίτο, και έτσι και το πρώτο στοιχείο θα πρέπει επίσης να συνδέεται με κάποιο τρόπο με το τρίτο κτλ. Αυτό συνεπάγεται ότι το σχέδιο των σειριακών εξαρτήσεων μπορεί να αλλάξει αισθητά αφού αφαιρέσουμε την αυτοσυσχέτιση της πρώτης σειράς ( δηλαδή αφού διαφοροποιήσουμε τις σειρές με μια λωρίδα 1.) 34

35 Σχήμα 5 Αυτοσυσχετίσεις μερικώς. Ακόμη μια χρήσιμη μέθοδος για να εξετάσουμε τις σειριακές εξαρτήσεις,είναι να εξετάσουμε την συνάρτηση μερικής αυτοσυσχέτισης <partial autocorrelation function (PACF)> -μια επέκταση της αυτοσυσχέτισης,όπου αφαιρείται η εξάρτηση στα ενδιάμεσα στοιχεία (εκείνων που βρίσκονται μέσα στη λωρίδα )(Σχήμα 5).Με άλλα λόγια η μερική αυτοσυσχέτιση είναι παρόμοια με την αυτοσυσχέτιση,με μόνη διαφορά ότι όταν την υπολογίσουμε,οι (αυτό)συσχετίσεις με όλα τα στοιχεία διαμέσου της λωρίδας είναι μερικώς έξω. (Box & Jenkins,1976). Αν μία λωρίδα του 1 έχει καθοριστεί (δηλαδή δεν υπάρχουν ενδιάμεσα στοιχεία μέσα στην λωρίδα ),τότε η μερικώς αυτοσυσχέτιση είναι ισάξια με την αυτοσυσχέτιση.κατά μια άποψη η μερική αυτοσυσχέτιση παρέχει μια καθαρότερη εικόνα σειριακών εξαρτήσεων για τις ατομικές λωρίδες ( όχι συγχυσμένη από άλλες σειριακές εξαρτήσεις ). Αφαιρώντας σειριακές εξαρτήσεις. Η σειριακή εξάρτηση για μια ιδιαίτερη λωρίδα k μπορεί να αφαιρεθεί διαφοροποιώντας τις σειρές που κάνει αντιμετάθεση κάθε i'th στοιχείο των σειρών όσο αφορά την διαφορά του από το (i-k)''th στοιχείο. Υπάρχουν δύο κύριοι λόγοι για αυτού του είδους τους μετασχηματισμούς. Πρώτον ότι κάποιος μπορεί να αναγνωρίσει την κρυμμένη φύση των εποχιακών εξαρτήσεων στις σειρές.θα πρέπει να θυμηθούμε από την προηγούμενη παράγραφο ότι οι αυτοσυσχετίσεις για τις συνεχείς λωρίδες είναι ανεξάρτητες.παρόλα αυτά αφαιρώντας μερικές από τις αυτοσυσχετίσεις αυτό θα αλλάξει άλλες αυτοσυσχετίσεις,το οποίο σημαίνει ότι μπορεί να τις εξολοθρεύσει ή μπορεί να κάνει κάποιες άλλες εποχικότητες πιο φανερές. Ο άλλος λόγος για την αφαίρεση εποχιακών εξαρτήσεων είναι για να κάνουμε τις σειρές σταθερές που είναι κάτι το απαραίτητο για την ARIMA και άλλες τεχνικές. Έτσι λοιπόν συγκεντρωτικά θα λέγαμε ότι η πρόβλεψη που μπορεί να γίνει με τις 35

36 χρονικές σειρές μπορεί να προβλέψει άγνωστες μελλοντικές τιμές οι οποίες βασίζονται σε ένα χρονοδιάγραμμα το οποίο ποικίλει Η ομοιότητα της χρονικής σειράς με την παλινδρόμηση είναι ότι όπως και η παλινδρόμηση, η χρονική σειρά χρησιμοποιεί τα ήδη υπάρχοντα και γνωστά αποτελέσματα για να καθοδηγήσει τις προβλέψεις του. Τα μοντέλα πρέπει να λάβουν υπόψη τους κάποιες ιδιότητες όπως ο χρόνος,καθώς και την ιεραρχία των περιόδων (όπως για παράδειγμα οι πολλοί διαφορετικοί ορισμοί που μπορούν να δοθούν για την εβδομάδα για παράδειγμα άλλοι το χρονικό διάστημα μιας εβδομάδας το θεωρούν ως πέντε ημερών - και άλλοι ως επτά ημερών εβδομάδα εργασίας, άλλοι θεωρούν ότι το έτος έχει δέκα τρεις μήνες, κ.λπ.), επίσης θα πρέπει να δοθεί σημασία και στις ιδιότητες της εποχικότητας, σε κάποιες ιδιαιτερότητες που υπάρχουν στο ημερολόγιο όπως οι γιορτές, καθώς και η αρίθμηση της ημερομηνίας. 36

37 Κεφάλαιο 4ο: Μοντέλα και αλγόριθμοι εξόρυξης πληροφοριών Τώρα θα γίνει η εξέταση μερικών από τους τύπους μοντέλων και αλγορίθμων που χρησιμοποιούνται για την εξόρυξη δεδομένων. Τα περισσότερα προϊόντα χρησιμοποιούν παραλλαγές αλγορίθμων που έχουν δημοσιευθεί στα περιοδικά πληροφορικής ή στατιστικών, με κάποιες συγκεκριμένες εφαρμογές τους που προσαρμόζονται έτσι ώστε να εξυπηρετήσουν τους στόχους ενός μεμονωμένου προμηθευτή. Παραδείγματος χάριν, πολλοί προμηθευτές πωλούν εκδόσεις των CART ή των δέντρων απόφασης CHAID έχοντας εφαρμόσει σε αυτά κάποιες αλλαγές για να λειτουργήσουν ακόμη και σε παράλληλους υπολογιστές. Μερικοί προμηθευτές παρόλα αυτά έχουν ιδιόκτητους αλγορίθμους οι οποίοι παρόλο που δεν έχουν δεχθεί κάποιες παραλλαγές ή δεν δέχθηκαν κάποιες προσθέσεις οποιασδήποτε δημοσιευμένης προσέγγισης, μπορούν να λειτουργήσουν αρκετά καλά. Τα περισσότερα από τα μοντέλα και τους αλγορίθμους που θα αναφερθούν σε αυτό το κεφάλαιο μπορούν να θεωρηθούν ως γενικεύσεις ενός τυποποιημένου workhorse της μοντελοποίησης, που είναι το μοντέλο της γραμμικής παλινδρόμησης. Μεγάλη προσπάθεια έχει καταβληθεί στις στατιστικές, την πληροφορική, την τεχνητή νοημοσύνη και τις κοινότητες εφαρμοσμένης μηχανικής για να υπερνικηθούν οι περιορισμοί αυτού του βασικού μοντέλου. Το κοινό χαρακτηριστικό πολλών από τις νεότερες τεχνολογίες είναι ότι ο «pattern-finding» μηχανισμός θα είναι ένας καθοδηγούμενος από τα δεδομένα μηχανισμός παρά καθοδηγούμενος από τον χρήστη πράγμα το οποίο θα βοηθήσει το χρήστη κατά πολύ. Δηλαδή στις νεότερες τεχνολογίες οι σχέσεις βρίσκονται αυτόματα από το ίδιο το λογισμικό το οποίο βασίζεται στα υπάρχοντα δεδομένα, χωρίς να απαιτείται από τον modeler να κάνει κάποιες κινήσεις για να διευκρινιστεί η λειτουργική μορφή και οι αλληλεπιδράσεις. Ένα σημαντικό πράγμα που θα πρέπει να τονιστεί σε αυτό το σημείο είναι ότι κανένα μοντέλο ή αλγόριθμος δεν μπορεί ή δεν θα πρέπει να χρησιμοποιείται αποκλειστικά. Για οποιοδήποτε δεδομένο πρόβλημα, η φύση των ιδίων των δεδομένων θα καθορίζει και την επιλογή των μοντέλων και των αλγορίθμων που θα επιλέξει κάποιος. Δεν υπάρχει κανένα "καλύτερο" μοντέλο ή αλγόριθμος. Συνεπώς, είναι απαραίτητη μία ποικιλία εργαλείων και τεχνολογιών προκειμένου να βρεθεί το καλύτερο δυνατό μοντέλο. Παράγραφος 4.1: Νευρωνικά δίκτυα Τα νευρωνικά δίκτυα έχουν μεγάλο ενδιαφέρον επειδή προσφέρουν αποτελεσματική μοντελοποίηση σε μεγάλα και σύνθετα προβλήματα στα οποία μπορούν να υπάρξουν εκατοντάδες μεταβλητές που έχουν πολλές και ποικίλες αλληλεπιδράσεις.( Τα πραγματικά βιολογικά νευρωνικά δίκτυα <Actual biological neural networks> είναι ασύγκριτα περισσότερο σύνθετα από κάποιου άλλου είδους νευρωνικά δίκτυα.) Τα νευρωνικά δίκτυα μπορούν να χρησιμοποιηθούν στα προβλήματα ταξινόμησης (όπου η παραγωγή( output) είναι μια κατηγορική μεταβλητή) ή στις επαναλήψεις - παλινδρομήσεις (όπου η μεταβλητή( output) είναι συνεχής) Ένα νευρωνικό δίκτυο (Σχήμα 6) αρχίζει με ένα στρώμα εισαγωγής <input layer> το στρώμα της εισαγωγής στο Σχήμα 6 απεικονίζεται με τους κόμβους κυκλάκια 1 και 2, όπου οι κόμβοι 1 και 2 απεικονίζουν ο καθένας απ αυτούς μια μεταβλητή πρόβλεψης. Αυτοί οι κόμβοι εισαγωγής συνδέονται με άλλους κόμβους σε ένα κρυμμένο στρώμα. Συγκεκριμένα στο σχήμα οι κόμβοι εισαγωγής 1 και 2 συνδέονται με τους κόμβους 3,4,5 στο κρυμμένο στρώμα.στην συνέχεια οι κόμβοι στο κρυμμένο στρώμα 3,4,5 μπορούν να συνδεθούν με τους κόμβους σε ένα άλλο κρυμμένο στρώμα(αυτή η σύνδεση δεν παρουσιάζεται στο σχήμα ), ή με ένα στρώμα παραγωγής( output layer) στο σχήμα συνδέονται με τον κόμβο παραγωγής 6. Το στρώμα αυτό της παραγωγής αποτελείται από μια ή περισσότερες μεταβλητές απάντησης 37

38 Σχήμα 6. Ένα νευρωνικό δίκτυο με ένα κρυμμένο στρώμα. Μετά από το στρώμα εισαγωγής, κάθε κόμβος παίρνει μέρος σε ένα σύνολο από εισαγωγές, τις οποίες πολλαπλασιάζει με ένα βάρος σύνδεσης Wxy (π.χ., στο σχήμα 7 το βάρος σύνδεσης από τον κόμβο 1 έως και τον 3 είναι W13 ), στην συνέχεια τις προσθέτει μαζί δημιουργώντας μια λειτουργία (αποκαλούμενη λειτουργία ενεργοποίησης ή συμπίεσης <activation of squashing function > )προς αυτές, και στην συνέχεια μεταφέρει το output ή τα outputs στο επόμενο στρώμα. Παραδείγματος χάριν, η τιμή που περνά από τον κόμβο 4 στον κόμβο 6 στο σχήμα 7 είναι: Εφαρμοσμένη Λειτουργία Ενεργοποίησης = Σχήμα 7 Το Wxy είναι το βάρος από τον κόμβο x στον κόμβο y. Κάθε κόμβος μπορεί να αντιμετωπισθεί ως μία μεταβλητή πρόβλεψης ( κόμβοι 1 και 2 σε αυτό το παράδειγμα) ή ως συνδυασμός μεταβλητών πρόβλεψης (όλοι οι κόμβοι που συνδέονται ο ένας με τον άλλο και καταλήγουν στον κόμβο 6 ). Ο κόμβος 6 είναι ένας μη γραμμικός συνδυασμός των τιμών των κόμβων 1 και 2, λόγω της λειτουργίας ενεργοποίησης των αθροισμένων τιμών στους κρυμμένους κόμβους. Στην πραγματικότητα, εάν υπάρχει μια γραμμική λειτουργία 38

39 ενεργοποίησης αλλά κανένα κρυμμένο στρώμα τα νευρωνικά δίκτυα είναι ισοδύναμα με μια γραμμική παλινδρόμηση και με ορισμένες μη γραμμικές λειτουργίες ενεργοποίησης. Επομένως τα νευρωνικά δίκτυα είναι ισοδύναμα με τη λογική παλινδρόμηση. Τα βάρη σύνδεσης (W) είναι οι άγνωστες παράμετροι οι οποίες υπολογίζονται με μια μέθοδο κατάρτισης. Αρχικά, η πιο κοινή μέθοδος κατάρτισης ήταν η <backpropagation> δημιουργήθηκαν όμως και άλλες νεότερες μέθοδοι οι οποίες είναι : η συζευγμένη κλίση <conjugate gradient >,η < quasi-newton>, η <Levenberg- Marquardt>, και οι γενετικοί αλγόριθμοι <genetic algorithms >. Κάθε μέθοδος εκπαίδευσης έχει ένα σύνολο παραμέτρων που ελέγχουν διάφορες πτυχές της εκπαίδευσης όπως για παράδειγμα την αποφυγή των τοπικών βέλτιστων <local optimal> ή την ρύθμιση της ταχύτητας της μετατροπής.. Η αρχιτεκτονική (ή η τοπολογία) ενός νευρωνικού δικτύου είναι ο αριθμός των κόμβων και των κρυμμένων στρωμάτων, καθώς επίσης και το πώς συνδέονται. Στο σχεδιασμό ενός νευρωνικού δικτύου, κάθε χρήστης πρέπει να επιλέξει τον αριθμό των κρυμμένων κόμβων και των κρυμμένων στρωμάτων, καθώς επίσης και τη λειτουργία ενεργοποίησης, και τα όρια των βαρών.από την στιγμή που υπάρχουν μερικές γενικές οδηγίες, θα πρέπει να γίνει πειραματισμός με αυτές τις παραμέτρους. Ένας από τους πιο κοινούς τύπους νευρωνικών δικτύων είναι το feed-forward backpropagation δίκτυο. Για να γίνει πιο εύκολη η συζήτηση, θα υποθέσουμε ότι υπάρχει ένα μονό κρυμμένο στρώμα.. Η κατάρτιση του Backpropagation είναι απλά μια έκδοση της καθόδου κλίσης <gradient descent>,η οποία είναι ένας τύπος αλγορίθμου που προσπαθεί να μειώσει μια στοχευόμενη τιμή (λάθος, στην περίπτωση των νευρωνικών δικτύων ) σε κάθε βήμα. Ο αλγόριθμος γίνεται ως εξής : Feed forward: Η τιμή του κόμβου παραγωγής υπολογίζεται με βάση τις τιμές εισαγωγής των (input) κόμβων καθώς επίσης και από ένα σύνολο από κάποια αρχικά βάρη. Οι τιμές από τους κόμβους εισαγωγής συνδυάζονται μεταξύ τους στα κρυμμένα στρώματα, και στην συνέχεια οι τιμές των κόμβων των κρυμμένων στρωμάτων συνδυάζονται για να υπολογίσουν την τιμή παραγωγής<output value>. Backpropagation: Το λάθος στην παραγωγή <output >υπολογίζεται με την εύρεση της διαφοράς μεταξύ της υπολογισμένης παραγωγής και της επιθυμητής παραγωγής (δηλ., οι πραγματικές τιμές που βρίσκονται στο σετ εκπαίδευσης ). Έπειτα, το λάθος από την παραγωγή <output > ορίζεται στους κρυμμένους κόμβους του στρώματος ανάλογα με τα βάρη τους. Αυτό επιτρέπει να μπορεί να υπολογιστεί ένα λάθος για κάθε κόμβο παραγωγής καθώς και για κάθε κρυμμένο κόμβο του δικτύου. Τελικά, το λάθος σε κάθε έναν από τους κρυμμένους κόμβους και τους κόμβους παραγωγής χρησιμοποιείται από τον αλγόριθμο για να ρυθμιστεί το βάρος που μπαίνει σε εκείνο τον κόμβο έτσι ώστε να μειωθεί το λάθος. Αυτή η διαδικασία επαναλαμβάνεται για κάθε γραμμή στο σετ εκπαίδευσης. Κάθε μονοπάτι διαμέσου όλων των γραμμών στο σετ εκπαίδευσης καλείται εποχή <epoch>. Αυτό το σετ εκπαίδευσης θα χρησιμοποιείται επανειλημμένα, έως ότου το λάθος δεν μειώνεται πλέον. Σε αυτό το σημείο το νευρωνικό δίκτυο εκπαιδεύεται έτσι ώστε να μπορεί να βρει το σχέδιο στο σετ δοκιμής. Επειδή μπορεί να υπάρξουν τόσες πολλές παράμετροι στα κρυμμένα στρώματα, ένα νευρωνικό δίκτυο που έχει αρκετούς κρυμμένους κόμβους τελικά θα ταιριάζει στο σετ εκπαίδευσης και ιδιαίτερα εάν αφεθεί να τρέξει για αρκετό χρονικό διάστημα. Μια ερώτηση που μπορεί να δημιουργηθεί είναι το πόσο καλά θα τα πάει ένα νευρωνικό δίκτυο με άλλα δεδομένα. Για να αποφευχθεί ένα overfitted νευρωνικό δίκτυο το οποίο θα λειτουργεί καλά μόνο στα δεδομένα εκπαίδευσης, θα πρέπει να γνωρίζει κάποιος πότε να σταματήσει την εκπαίδευση.κάποιες εφαρμογές θα αξιολογήσουν ανά περιόδους το νευρωνικό δίκτυο όσο αφορά τα δεδομένα ελέγχου <test data> κατά τη διάρκεια της εκπαίδευσης. Εφ' όσον μειώνεται το ποσοστό λάθους στο σετ εκπαίδευσης, η κατάρτιση θα συνεχιστεί. Εάν 39

40 το ποσοστό λάθους στα δεδομένα δοκιμής ανεβαίνει, ακόμα κι αν το ποσοστό λάθους στα δεδομένα της εκπαίδευσης μειώνεται, τότε το νευρωνικό δίκτυο μπορεί να κάνει over fitting στα δεδομένα. Η γραφική παράσταση στο σχήμα 8 εξηγεί πώς το σύνολο δεδομένων της δοκιμής μας βοηθά να αποφύγουμε το over fitting. Μπορεί λοιπόν να δει κάποιος πώς το ποσοστό λάθους <Training Set Error> μειώνεται με κάθε πέρασμα που κάνει το νευρωνικό δίκτυο διαμέσου των δεδομένων (δείκτες των μικρών κύκλων), αλλά το ποσοστό λάθους για τα δεδομένα δοκιμήςtest Set Error (δείκτες τριγώνων) ανατρέπεται και αρχίζει να αυξάνεται (Σχήμα 8). Εφόσον ο στόχος της εξόρυξης δεδομένων είναι να γίνουν προβλέψεις σε δεδομένα διαφορετικά απ αυτού του σετ εκπαίδευσης, είναι σαφώς καλύτερο το να χρησιμοποιήσει κάποιος ένα νευρωνικό δίκτυο που ελαχιστοποιεί το λάθος στα δεδομένα δοκιμής <test data>, και όχι στα δεδομένα εκπαίδευσης <training data>. Σχήμα 8. Ποσοστό λάθους ως λειτουργία του αριθμού εποχών σε ένα νευρωνικό δίκτυο ( Dr. Richard D. De Veaux, Williams College) Τα νευρωνικά δίκτυα διαφέρουν στη φιλοσοφία από πολλές στατιστικές μεθόδους για διαφορετικούς λόγους. Κατ' αρχάς, ένα νευρωνικό δίκτυο έχει συνήθως περισσότερες παραμέτρους από ένα τυπικό στατιστικό μοντέλο. Παραδείγματος χάριν, υπάρχουν δέκα τρεις παράμετροι (εννέα βάρη και τέσσερις προκατειλημμένοι ή σταθεροί όροι) στο νευρωνικό δίκτυο όπως παρουσιάζεται στο σχήμα 7. Επειδή είναι τόσο πολυάριθμοι οι παράμετροι, και επειδή τόσοι πολλοί συνδυασμοί παραμέτρων οδηγούν σε παρόμοιες προβλέψεις, οι παράμετροι γίνονται ανερμήνευτες και το δίκτυο χρησιμεύει ως ένας προβλεπτής "μαύρων κιβωτίων ". Στην πραγματικότητα, ένα δεδομένο αποτέλεσμα μπορεί να συνδεθεί με πολλά διαφορετικά σύνολα βαρών. Συνεπώς, τα βάρη των δικτύων γενικά δεν χρησιμεύουν στην κατανόηση της διαδικασίας που παράγει την πρόβλεψη. Ωστόσο, αυτό είναι αποδεκτό σε πολλές εφαρμογές. Για παράδειγμα μια τράπεζα μπορεί να θέλει να αναγνωρίζει αυτόματα τις χειρόγραφες εφαρμογές, αλλά δεν ενδιαφέρεται και για τη μορφή της λειτουργικής σχέσης που υπάρχει μεταξύ των εικονοκυττάρων <pixels> και των χαρακτήρων που αυτά αντιπροσωπεύουν. Μερικές από τις πολλές εφαρμογές όπου εκατοντάδες μεταβλητές μπορούν να εισαχθούν στα μοντέλα με χιλιάδες παραμέτρους ( όπως τα βάρη των κόμβων) περιλαμβάνουν τη διαμόρφωση των χημικών εγκαταστάσεων, τα ρομπότ τις χρηματιστικές αγορές, τα προβλημάτων αναγνώρισης σχεδίων όπως η ομιλία, το όραμα και την αναγνώριση του χειρόγραφου χαρακτήρα. Ένα πλεονέκτημα των μοντέλων των νευρωνικών δικτύων είναι ότι μπορούν εύκολα να χρησιμοποιηθούν για να τρέξουν σε μαζικά παράλληλους υπολογιστές όπου κάθε κόμβος κάνει ταυτόχρονα τους υπολογισμούς του. Οι χρήστες θα πρέπει να γνωρίζουν κάποια συγκεκριμένα χαρακτηριστικά που έχουν τα νευρωνικά δίκτυα: Πρώτον ότι τα νευρωνικά δίκτυα δεν ερμηνεύονται εύκολα και ότι δεν υπάρχει καμία δοσμένη ρητή λογική για τις αποφάσεις ή τις προβλέψεις που κάνει ένα νευρωνικό δίκτυο. 40

41 Δεύτερον, τα νευρωνικά δίκτυα τείνουν να κάνουν overffit στα δεδομένα εκπαίδευσης αν δεν χρησιμοποιούνται συνετά και με πολύ αυστηρές μετρήσεις, όπως η αποσύνθεση βάρους ή/ και η διασταύρωση. Αυτό οφείλεται στον πολύ μεγάλο αριθμό των παραμέτρων του νευρωνικού δικτύου,το οποίο νευρωνικό δίκτυο εάν είναι ικανοποιητικού μεγέθους, θα εγκαταστήσει αυθαίρετα οποιοδήποτε σετ δεδομένων. Τρίτον, τα νευρωνικά δίκτυα απαιτούν ένα εκτενές ποσό χρόνου κατάρτισής τους εκτός αν το πρόβλημα είναι πολύ μικρό. Μόλις εκπαιδευθούν, εντούτοις, μπορούν να παρέχουν τις προβλέψεις πολύ γρήγορα Τέταρτο, δεν απαιτούν τίποτα λιγότερο από την προετοιμασία δεδομένων σε σχέση με οποιαδήποτε άλλη μέθοδο, πράγμα το οποίο σημαίνει ότι απαιτούν μεγάλη προετοιμασία δεδομένων. Ένας μύθος για τα νευρωνικά δίκτυα είναι ότι δεδομένα οποιασδήποτε ποιότητας μπορούν να χρησιμοποιηθούν για να παρέχουν λογικές προβλέψεις. Οι επιτυχέστερες εφαρμογές των νευρωνικών δικτύων (ή των δέντρων απόφασης, ή της λογικής παλινδρόμησης, ή οποιασδήποτε άλλης μεθόδου) απαιτούν πολύ προσοχή όσο αφορά τον καθαρισμό των δεδομένων, την επιλογή τους, την προετοιμασία τους και την προεπεξεργασία τους. Παραδείγματος χάριν, τα νευρωνικά δίκτυα απαιτούν όλες οι μεταβλητές να είναι αριθμητικές. Επομένως κατηγορικά δεδομένα όπως "το κράτος " χωρίζεται συνήθως σε πολλαπλάσιες διχοτομικές μεταβλητές (π.χ., "Καλιφόρνια," "Νέα Υόρκη"), κάθε μια με μια "αξία 1"για (ναι) ή "0"για (όχι ). Η προκύπτουσα αυτή αύξηση στις κατηγορικές μεταβλητές καλείται κατηγορική έκρηξη <categorical explosion>. Τέλος, τα νευρωνικά δίκτυα τείνουν να λειτουργούν καλύτερα όταν το σύνολο δεδομένων είναι αρκετά μεγάλο και ο λόγος του σήματος προς τον θόρυβο είναι εύλογα υψηλός. Επειδή είναι τόσο εύκαμπτα τα νευρωνικά, θα βρουν πολλά ψεύτικα σχέδια σε μία κατάσταση που έχει έναν χαμηλό λόγο του σήματος προς το θόρυβο. Παράγραφος 4.2: Δένδρα αποφάσεων Τα δέντρα απόφασης είναι ένας τρόπος για την αντιπροσώπευση μια σειράς από κανόνες οι οποίοι κανόνες οδηγούν σε μια τάξη ή μια τιμή. Παραδείγματος χάριν, μπορείτε να επιθυμήσετε να ταξινομήσετε τους υποψηφίους δανείου ως καλούς ή κακούς πιστωτικούς κινδύνους με βάση κάποια χαρακτηριστικά που διαθέτουν για παράδειγμα το εισόδημα τους. Το σχήμα 9 παρακάτω παρουσιάζει ένα απλό δέντρο απόφασης που λύνει αυτό το πρόβλημα επεξηγώντας όλα τα βασικά συστατικά ενός δέντρου απόφασης τα οποία είναι : ο κόμβος απόφασης, οι κλάδοι και τα φύλλα. Σχήμα 9. Ένα απλό δέντρο ταξινόμησης. 41

42 Το πρώτο συστατικό είναι ο κορυφαίος κόμβος απόφασης, ή αλλιώς όπως ονομάζεται ο κόμβος ρίζας, ο οποίος διευκρινίζει και το τεστ που θα πραγματοποιηθεί. Στο σχήμα 9 ο κόμβος ρίζας σε αυτό είναι "εισόδημα > $ " Τα αποτελέσματα αυτού του τεστ προκαλούν την διάσπαση του δέντρου σε κλάδους,όπου ο κάθε ένας κλάδος αντιπροσωπεύει μια από τις πιθανές απαντήσεις. Σε αυτήν την περίπτωση, εισόδημα της δοκιμής "> $40,000 "μπορεί να απαντηθεί είτε με " ναι "είτε με" όχι, " όπως φαίνεται και από το σχήμα 9 και έτσι δημιουργούνται δύο κλάδοι σε αυτήν την περίπτωση. Ανάλογα με τον αλγόριθμο, κάθε κόμβος μπορεί να έχει δύο ή περισσότερους κλάδους. Παραδείγματος χάριν, ο αλγόριθμος CART παράγει δέντρα με μόνο δύο κλάδους σε κάθε κόμβο. Ένα τέτοιο δέντρο που έχει δύο μόνο κλάδους καλείται δυαδικό δέντρο <Binary Tree>. Όταν ένα δέντρο έχει περισσότερους από δύο κλάδους καλείται πολύκλαδο δέντρο <Multiway Tree>. Κάθε κλάδος θα οδηγήσει είτε σε έναν άλλο κόμβο απόφασης είτε στο κατώτατο σημείο του δέντρου που αποκαλείται κόμβος φύλλων <Leaf Node>. Με την πλοήγηση του δέντρου απόφασης μπορείτε να ορίσετε μια αξία ή μια κατηγορία σε μια περίπτωση αποφασίζοντας ποιον κλάδο θα πάρει, ξεκινώντας από τον κόμβο ρίζας και κινούμενοι προς κάθε επόμενο κόμβο μέχρι να φτάσετε στο τέλος του δέντρου απόφασης δηλαδή στον κόμβο φύλλου. Κάθε κόμβος χρησιμοποιεί τα δεδομένα από την περίπτωση για να επιλέξει τον αρμόδιο κλάδο. Έτσι χρησιμοποιώντας αυτό το δείγμα δέντρου το οποίο περιέχει μια εφαρμογή δανείου, ένας υπάλληλος ο οποίος ασχολείται με την παροχή δανείου θα μπορούσε να καθορίσει εάν ο υποψήφιος που θέλει να πάρει ένα δάνειο ήταν ένας καλός ή κακός πιστωτικός κίνδυνος.έτσι ένα άτομο με " εισόδημα > $40.000" και "υψηλό χρέος " θα ταξινομούταν ως έναν "κακό ρίσκο," ενώ ένα άτομο με " εισόδημα < $40.000" και "εργασία > 5 έτη "θα ταξινομούνταν ως έναν" καλό ρίσκο." Έτσι οι ακριβείς κινήσεις που θα έκανε ένας υπάλληλος,με βάση το παραπάνω δέντρο απόφασης του σχήματος 9,για να αποφασίσει για το αν ένας πελάτης είναι σε θέση να πάρει ένα δάνειο χωρίς να δημιουργήσει στην τράπεζα κίνδυνο είναι οι εξής.κατ αρχάς ο υπάλληλος θα ρωτούσε τον πελάτη αν το εισόδημα του ξεπερνάει τα δολάρια.εάν ο πελάτης απαντούσε αρνητικά τότε ο υπάλληλος θα διέγραφε τον δεξιό κλάδο και θα συνέχιζε από τον αριστερό.έτσι στην συνέχεια θα ρωτούσε αν η εργασία του ξεπερνάει τα πέντε χρόνια.αν η απάντηση ήταν θετική τότε θα διέγραφε το δεξί φύλλο που στην προκειμένη περίπτωση είναι η αρνητική απάντηση.έτσι διανύοντας το δέντρο απόφασης με βάση της παραπάνω απαντήσεις του πελάτη ο υπάλληλος θα έφτανε στο κατώτατο σημείο του δέντρου δηλαδή στον κόμβο φύλλων <Leaf Node> που στην προκειμένη περίπτωση είναι το αποτέλεσμα ότι ο πελάτης είναι καλός πιστωτικός κίνδυνός για την επιχείρηση. Τα μοντέλα των δέντρων απόφασης χρησιμοποιούνται συνήθως στην εξόρυξη δεδομένων για να εξετάσουν τα δεδομένα και να αναγκάσουν το δέντρο και τους κανόνες του ότι θα χρησιμοποιηθούν για να κάνουν προβλέψεις. Ένας αριθμός διαφορετικών αλγόριθμων μπορεί να χρησιμοποιηθεί για την οικοδόμηση των δέντρων απόφασης συμπεριλαμβανομένου του αλγόριθμου CHAID <chi-squared automatic interaction detection > υψωμένη στο τετράγωνο αυτόματη ανίχνευση αλληλεπίδρασης, του αλγορίθμου <CART -classification and regression trees > δέντρα ταξινόμησης και παλινδρόμησης, του αλγόριθμου της αναζήτησης, και του C5.0. Τα δέντρα απόφασης μεγαλώνουν μέσω ενός επαναληπτικού διαχωρισμού των δεδομένων στις ιδιαίτερες ομάδες, όπου ο σκοπός είναι να μεγιστοποιηθεί η "απόσταση" μεταξύ των ομάδων σε κάθε διάσπαση. Μια από τις διακρίσεις μεταξύ των μεθόδων των δέντρων απόφασης είναι το πώς μετρούν την απόσταση. Ενώ οι λεπτομέρειες μιας τέτοιας μέτρησης είναι πέρα από το πεδίο αυτής της εισαγωγής, κάθε διάσπαση μπορεί να θεωρηθεί ως χωρισμός των δεδομένων σε νέες ομάδες οι οποίες διαφέρουν η μία από την άλλη όσο γίνεται. Αυτό επίσης μερικές φορές καλείται καθιστώντας τις ομάδες 42

43 καθαρότερες. Χρησιμοποιώντας το απλό παράδειγμα μας όπου τα δεδομένα μας είχαν δύο πιθανές τάξεις output καλό ρίσκο και κακό ρίσκο θα ήταν προτιμητέο εάν κάθε διάσπαση δεδομένων έβρισκε ένα καλό κριτήριο που κατέληγε σε "καθαρές " ομάδες με παραδείγματα μιας μόνο τάξης αντί για δύο τάξεις. Τα δέντρα απόφασης που χρησιμοποιούνται για να προβλέψουν τις κατηγορικές μεταβλητές καλούνται δέντρα ταξινόμησης <Classification Trees > επειδή τοποθετούν τις περιπτώσεις σε κατηγορίες ή τάξεις. Τα δέντρα απόφασης που χρησιμοποιούνται για να προβλέψουν τις συνεχείς μεταβλητές καλούνται δέντρα παλινδρόμησης <Regression Trees>. Το παράδειγμα που έχουμε χρησιμοποιήσει μέχρι τώρα είναι πολύ απλό. Το δέντρο εύκολα μπορεί να καταλάβει και να ερμηνεύσει κάποια πράγματα. Εντούτοις, τα δέντρα μπορούν να γίνουν πολύ περίπλοκα. Ως παράδειγμα μπορούμε να αναφέρουμε την πολυπλοκότητα ενός δέντρου απόφασης που προέρχεται από μια βάση δεδομένων εκατοντάδων ιδιοτήτων και μιας μεταβλητής απάντησης με μία ντουζίνα από output τάξεις. Ένα τέτοιο δέντρο θα ήταν εξαιρετικά δύσκολο να γίνει κατανοητό, αν και κάθε μονοπάτι σε ένα φύλλο είναι συνήθως κατανοητό. Υπό αυτήν την έννοια ένα δέντρο απόφασης μπορεί να εξηγήσει τις προβλέψεις του, το οποίο είναι ένα σημαντικό πλεονέκτημα. Εντούτοις, αυτή η σαφήνεια μπορεί να είναι κάπως παραπλανητική. Παραδείγματος χάριν, οι σκληρές διασπάσεις των δέντρων απόφασης υπονοούν μια ακρίβεια που απεικονίζεται σπάνια στην πραγματικότητα. (Γιατί κάποιος του οποίου ο μισθός ήταν $ θα ήταν ένα καλό πιστωτικό ρίσκο ενώ κάποιος άλλος του οποίου ο μισθός ήταν $ να μην είναι καλό ρίσκο;) Επιπλέον, δεδομένου ότι διάφορα δέντρα μπορούν συχνά να αντιπροσωπεύσουν τα ίδια δεδομένα με την ίδια ακρίβεια, το ερώτημα που δημιουργείται τώρα είναι ποια ερμηνεία θα έπρεπε να δοθεί στους κανόνες; Τα δέντρα απόφασης κάνουν λίγα περάσματα μέσω των δεδομένων (όχι περισσότερο από ένα πέρασμα για κάθε επίπεδο του δέντρου) και λειτουργούν καλά με πολλές μεταβλητές πρόβλεψης. Κατά συνέπεια, τα μοντέλα μπορούν να χτιστούν πολύ γρήγορα, καθιστώντας τα δέντρα απόφασης κατάλληλα για τα μεγάλα σύνολα δεδομένων. Τα δέντρα που αφήνονται να αυξηθούν χωρίς σύνδεσμο παίρνουν περισσότερο για να χτιστούν και να γίνουν αντιληπτά, αλλά το πιο σημαντικό είναι ότι κάνουν overfit στα δεδομένα. Το μέγεθος των δέντρων μπορεί να ελεγχθεί μέσω της παύσης των κανόνων που περιορίζουν την αύξηση. Ένας κοινός κανόνας παύσης είναι απλά να οριστεί το μέγιστο βάθος στο οποίο ένα δέντρο μπορεί να αυξηθεί. Ένας άλλος στάσιμος κανόνας είναι να καθιερωθεί ένα κατώτατο όριο στον αριθμό αρχείων σε έναν κόμβο και να μην γίνουν οι διασπάσεις κάτω από αυτό το όριο. Μια εναλλακτική λύση της παύσης των κανόνων είναι να κλαδευτεί το δέντρο. Το δέντρο επιτρέπεται να αυξηθεί στο πλήρες μέγεθός του και κατόπιν, χρησιμοποιώντας είτε ενσωματωμένες λειτουργίες χειρισμού είτε την επέμβαση χρηστών, το δέντρο επανέρχεται στο μικρότερο μέγεθος το οποίο δεν παραθέτει και την μεγαλύτερη ακρίβεια. Παραδείγματος χάριν, για κάθε έναν κλάδο ή ένα υποδέντρο που γεμίζει ένας χρήστης δεν υπάρχουν επακόλουθα επειδή έχει πολύ λίγες περιπτώσεις να αφαιρεθούν.οι αλγόριθμοι CART κλαδεύουν τα δέντρα διασταυρώνοντάς τα για να δουν αν η βελτίωση στην ακρίβεια δικαιολογεί τους έξτρα κόμβους. Μια κοινή κριτική των δέντρων απόφασης είναι ότι επιλέγουν μια διάσπαση χρησιμοποιώντας έναν "μη καθαρό " αλγόριθμο στον οποίο η απόφαση για το ποια μεταβλητή θα διαχωριστεί δεν έχει καμία επίδραση στο να συμβούν κάποιες μελλοντικές διασπάσεις. Με άλλα λόγια, η απόφαση της διάσπασης λαμβάνεται στον κόμβο "στιγμιαία " και δεν ξαναεπισκέπτεται ποτέ. Επιπλέον, όλες οι διασπάσεις γίνονται διαδοχικά, έτσι κάθε διάσπαση εξαρτάται από τον προκάτοχό της. 43

44 Κατά συνέπεια όλες οι μελλοντικές διασπάσεις εξαρτώνται από την πρώτη διάσπαση, το οποίο σημαίνει ότι η τελική λύση θα μπορούσε να είναι πολύ διαφορετική εάν υπήρχε μια διαφορετική πρώτη διάσπαση. Το όφελος για να καταστήσουμε τις καλύτερες διασπάσεις βασισμένες σε δύο ή περισσότερα επίπεδα είναι λιγάκι ασαφές. Τέτοιες προσπάθειες να κοιτάξουμε μπροστά είναι στο ερευνητικό στάδιο, αλλά είναι αρκετά εντατικές και προς το παρόν μη διαθέσιμες στις εμπορικές εφαρμογές Επιπλέον, οι αλγόριθμοι που χρησιμοποιούνται για το διαχωρισμό είναι γενικά μεταβλητοί δηλαδή εξετάζουν μία μόνο μεταβλητή πρόβλεψης κάθε φορά. Και ενώ αυτή η προσέγγιση είναι ένας από τους λόγους που το μοντέλο χτίζεται γρήγορα, αυτό περιορίζει τον αριθμό των πιθανών διασπωμένων κανόνων,αυτό καθιστά επίσης τις σχέσεις μεταξύ των μεταβλητών πρόβλεψης δυσκολότερες να μπορούν να ανιχνευθούν. Τα δέντρα απόφασης που δεν περιορίζονται στις μεταβλητές διασπάσεις θα μπορούσαν να χρησιμοποιήσουν τις πολλαπλάσιες μεταβλητές πρόβλεψης σε έναν ενιαίο διασπώμενο κανόνα. Ένα τέτοιο δέντρο απόφασης θα μπορούσε να επιτρέψει τους γραμμικούς συνδυασμούς μεταβλητών, επίσης γνωστούς ως πλάγια δέντρα <Oblique Trees >. Ένα κριτήριο για μια διάσπαση μπορεί να είναι για παράδειγμα ο "ΜΙΣΘΟΣ < (0,35 * ΥΠΟΘΗΚΗ),". Ο διαχωρισμός στους λογικούς συνδυασμούς μεταβλητών (όπως "ο ΜΙΣΘΟΣ > ή ΥΠΟΘΗΚΗ < ") είναι ένα άλλο είδος διάσπασης πολλών μεταβλητών. Τα δέντρα απόφασης χειρίζονται τα μη αριθμητικά δεδομένα πολύ καλά. Αυτή η δυνατότητα να δεχτούμε αυτά τα κατηγορικά δεδομένα εναλλασσόμενου ρεύματος ελαχιστοποιεί τα ποσά των μετασχηματισμών των δεδομένων και την έκρηξη των μεταβλητών πρόβλεψης που είναι έμφυτες στα νευρωνικά δίκτυα. Μερικά δέντρα ταξινόμησης σχεδιάστηκαν για το γεγονός και επομένως δουλεύουν καλύτερα όταν οι μεταβλητές πρόβλεψης είναι επίσης κατηγορικές. Οι συνεχείς προάγγελοι μπορούν συχνά να χρησιμοποιηθούν ακόμη και σε αυτές τις περιπτώσεις με την μετατροπή της συνεχούς μεταβλητής σε ένα σύνολο σειρών (binning). Υπάρχουν όμως μερικά δέντρα απόφασης που δεν μπορούν να υποστηρίξουν τις συνεχείς μεταβλητές απάντησης (δηλ., δεν μπορούν να χτίσουν δέντρα παλινδρόμησης), οπότε σ'αυτή την περίπτωση οι μεταβλητές απάντησης στο σύνολο κατάρτισης πρέπει επίσης να είναι συνδεδεμένη με τις κατηγορίες παραγωγής. Παράγραφος 4.3: Επαγωγή κανόνων(rule induction) Η εκμάθηση των μηχανών είναι μια πολύ σημαντική μορφή της ανάλυσης έξυπνων δεδομένων.στην εκμάθηση μηχανών συνηθίζεται να γίνεται μια διάκριση μεταξύ συμβολικών και μη συμβολικών προσεγγίσεων.οι συμβολικές προσεγγίσεις παρέχουν ένα είδος περιγραφικής γλώσσας με την οποία εκφράζεται η αποκτηθείσα με μάθηση γνώση.οι μέθοδοι εκμάθησης μηχανών μπορούν να κατασκευάσουν συμβολικούς κανόνες ταξινόμησης οι οποίοι γενικεύουν τις συνθήκες εκπαίδευσης/ κατάρτισης και έτσι αποτελούν παραδείγματα της συμβολικής εκμάθησης μηχανών. Αυτή η περιοχή της εκμάθησης των μηχανών καλείται κανόνας επαγωγής.ένα πολύ σημαντικό θετικό στοιχείο των κανόνων της επαγωγής που τους κάνει θελκτικούς στην χρησιμοποίηση τους είναι ότι αυτού του είδους οι κανόνες είναι πολύ πιο εύκολοι στο να μεταφραστούν και είναι πιο ξεκάθαροι σε σχέση με ένα μοντέλο παλινδρόμησης ή με ένα νευρωνικό δίκτυο. Αυτό που συμβαίνει στους κανόνες τις επαγωγής είναι το εξής :από ένα ήδη καταγεγραμμένο γεγονός το οποίο αποτελεί την συνέπεια κάποιων χαρακτηριστικών,μπορούν για παρεμφερή χαρακτηριστικά να συμπεράνουν ποιο θα είναι το ενδεχόμενο αποτέλεσμα.παρακάτω παρατίθεται ένα παράδειγμα κανόνα επαγωγής. Ας υποθέσουμε ότι έχουμε έναν πίνακα από μια ιατρική βάση με εγγραφές προηγούμενων ασθενών.παρακάτω παρατίθεται ο πίνακας 1 44

45 ΠΙΝΑΚΑΣ ΕΜΦΑΝΙΣΗΣ ΚΑΡΚΙΝΟΥ ΤΩΝ ΠΝΕΥΜΟΝΩΝ ΜΕΤΑΒΛΗΤΗ ΤΙΜΗ ΠΟΤΕ Η ΜΕΤΑΒΛΗΤΗ ΛΑΜΒΑΝΕΙ ΤΗΝ ΤΙΜΗ Κ 0 Υπάρχει ιστορία καπνίσματος 1 Δεν υπάρχει ιστορία καπνίσματος Β 0 Υπάρχει βρογχίτιδα 1 Δεν υπάρχει βρογχίτιδα L 0 Υπάρχουν συμπτώματα κούρασης 1 Δεν υπάρχουν συμπτώματα κούρασης A 0 Αρνητική Χ- ακτινών θώρακος 1 Θετική Χ-ακτίνων θώρακος Πίνακας 1 Όπως βλέπουμε πίσω από τις συνεχείς τιμές (Υπάρχει ιστορία καπνίσματος Δεν υπάρχει ιστορία καπνίσματος κτλπ.)υπάρχουν κρυμμένες τιμές, στην προκειμένη περίπτωση οι τιμές αυτές είναι το 0 και το 1, που αναγνωρίζει η μέθοδος rule induction.έτσι λοιπόν με την χρήση του παραπάνω πίνακα οι γιατροί θα μπορούν να καταλάβουν πότε ένας ασθενής θα εμφανίσει καρκίνο των πνευμόνων. Παρακάτω παρατίθενται η επαγωγή κανόνων του Πίνακα 1 : If k =1 And B=1 And L=1 Then A=0 Αυτές οι μεταβλητές θα μεταφράζονταν ως εξής : Αν δεν υπάρχει ιστορία καπνίσματος,αν δεν υπάρχει βρογχίτιδα,αν δεν υπάρχουν συμπτώματα κούρασης τότε ο ασθενής δεν θα εμφανίσει καρκίνο (Αρνητικη Χ- ακτίνων θώρακος ). Άλλη επαγωγή κανόνων θα μπορούσε να είναι : If K=0 And B=1 And L=0 Then A=1 Ή θα μπορούσε να είναι If K=1 And B=0 And L=0 Then A=0 Έτσι λοιπόν χρησιμοποιώντας την επαγωγή κανόνων θα μπορούσαμε να καταλάβουμε πότε είναι πιθανό να εμφανιστεί ένα γεγονός,γνωρίζοντας ήδη κάποια χαρακτηριστικά. Σε αυτό το σημείο θα πρέπει να τονιστεί ότι η επαγωγή κανόνων αντίθετα από τα δέντρα, μπορεί να μην καλύπτει όλες τις πιθανές καταστάσεις..επίσης αντίθετα από 45

46 τα δέντρα, οι κανόνες μπορούν μερικές φορές να συγκρουστούν στις προβλέψεις τους, οπότε σ'αυτή την περίπτωση είναι απαραίτητο να επιλεχτεί ποιος κανόνας θα ακολουθηθεί. Μια κοινή μέθοδος για να επιλυθούν οι συγκρούσεις μεταξύ των κανόνων είναι να οριστεί μια εμπιστοσύνη(βάρος ) στους κανόνες και να χρησιμοποιηθεί αυτός στον οποίο η εμπιστοσύνη είναι μεγαλύτερη. Εναλλακτικά, εάν συγκρούονται περισσότεροι από δύο κανόνες, μπορεί κάποιος γνωρίζοντας την εμπιστοσύνη που έχει κάθε κανόνας να ψηφίσει εκείνον τον κανόνα που θα έχει τις περισσότερες ψήφους εμπιστοσύνης. Παρακάτω παρουσιάζονται δύο κανόνες που συγκρούονται μεταξύ τους. If Car = Ford and Age = Then Defaults = Yes If Age = and Prior_purchase = No Then Defaults = No Weight = 3.7 Weight = 1.2 Έτσι από τα παραπάνω στην ανωτέρω περίπτωση θα επιλέγαμε τον πρώτο κανόνα επαγωγής εφόσον το βάρος εμπιστοσύνης είναι μεγαλύτερο 3,7 σε σχέση με τον δεύτερο που είναι 1,2 Συγκεντρωτικά οι κανόνες επαγωγής τείνουν να είναι απλοί,μη δομημένοι και λιγότερο άκαμπτοι. Πρέπει όμως να πούμε ότι είναι ανεπαρκείς να αντιπροσωπεύσουν πολλούς τύπους γνώσεων. Παράγραφος 4.4: Ανάλυση διακριτότητας Γενικός σκοπός της ανάλυσης διακριτότητας: Η λειτουργία της ανάλυσης διακριτότητας χρησιμοποιείται για να καθορίσει ποιες μεταβλητές διαφέρουν μεταξύ δύο ή περισσότερων ομάδων. Παραδείγματος χάριν, ένας ερευνητής μπορεί να θέλει να ερευνήσει ποιες μεταβλητές είναι εκείνες που διαφέρουν μεταξύ των πτυχιούχων γυμνασίου,μεταξύ αυτών που θέλουν (1) να πάνε στο κολλέγιο (2) να παρακολουθήσουν μαθήματα σε μια εμπορική σχολή ή σε ένα επαγγελματικό σχολείο, ή (3) να μην επιδιώξουν καμία περαιτέρω κατάρτιση. Για αυτόν τον σκοπό ο ερευνητής θα μπορούσε να συλλέξει δεδομένα όσον αφορά αυτές τις μεταβλητές πριν από την αποφοίτηση των σπουδαστών. Μετά την αποφοίτηση τους, οι περισσότεροι σπουδαστές θα πέσουν φυσικά σε μια από τις παραπάνω τρεις κατηγορίες. Η ανάλυση διακριτότητας θα μπορούσε τότε να χρησιμοποιηθεί για να καθορίσει ποια μεταβλητή (ή μεταβλητές ) είναι οι καλύτεροι προβλεπτές των επόμενων σπουδαστών σε σχέση με τις επιλογές τους. Ένας ιατρικός ερευνητής θα μπορούσε να καταγράψει τις διαφορετικές μεταβλητές σχετικά με τα υπόβαθρα των ασθενών προκειμένου να μάθει ποιες μεταβλητές είναι καλύτερες στο να προβλέψουν εάν ένας ασθενής είναι πιθανό να γίνει καλά εντελώς (ομάδα 1), μερικώς (ομάδα 2), ή καθόλου (ομάδα 3). Ένας βιολόγος θα μπορούσε να καταγράψει τα διαφορετικά χαρακτηριστικά παρόμοιων τύπων(ομάδων) λουλουδιών, και στην συνέχεια να εκτελέσει την λειτουργία την ανάλυσης διακριτότητας για να καθορίσει το σύνολο των χαρακτηριστικών που επιτρέπουν να γίνει καλύτερη διάκριση μεταξύ των τύπων των λουλουδιών. Υπολογιστική προσέγγιση Υπολογιστικά, η λειτουργία της ανάλυσης διακριτότητας μοιάζει πολύ με την ανάλυση της διαφοράς (ANOVA). Θα εξετάσουμε λοιπόν ένα απλό παράδειγμα. Ας υποθέσουμε ότι μετράμε το ύψος σε ένα τυχαίο δείγμα 50 αντρών και 50 γυναικών. Οι γυναίκες κατά μέσο όρο, δεν είναι τόσο ψηλές όσο οι άντρες, και αυτή η διαφορά θα απεικονιστεί στη διαφορά που θα υπάρχει στο μέσο όρο (means) (για την μεταβλητή ύψος ). Παρόλα αυτά όμως, η μεταβλητή του ύψους μας επιτρέπει να κάνουμε διακρίσεις μεταξύ των αντρών και των γυναικών με μια αρκετά καλή 46

47 πιθανότητα : εάν ένα άτομο είναι ψηλό, τότε το πιο πιθανό είναι να είναι άντρας, εάν ένα άτομο είναι κοντό, τότε το πιο πιθανό είναι να είναι γυναίκα. Αυτόν τον συλλογισμό θα μπορούσαμε να τον γενικεύσουμε σε ομάδες και μεταβλητές που είναι λιγότερο "κοινές -trivial". Παραδείγματος χάριν, ας υποθέσουμε ότι έχουμε δύο ομάδες πτυχιούχων γυμνασίου: Αυτούς που επιλέγουν να πάνε στο κολλέγιο μετά από την αποφοίτηση τους και αυτούς που δεν το επιλέγουν αυτό. Θα μπορούσαμε να έχουμε μετρήσει τους σπουδαστές που θέλουν να πάνε στο κολλέγιο ένα έτος πριν από την αποφοίτηση τους. Εάν οι μέσοι όροι για τις δύο ομάδες (εκείνων που πήγαν τελικά στο κολλέγιο και εκείνων που τελικά δεν πήγαν) είναι διαφορετικοί, τότε μπορούμε να πούμε ότι η πρόθεση που υπήρχε από κάποια παιδιά να θέλουν να πάνε στο κολλέγιο η οποία πρόθεση τους είχε δηλωθεί πριν να γίνει η αποφοίτηση μας επιτρέπει να μπορούμε να ξεχωρίσουμε εκείνους που τελικά θα πάνε και εκείνους που τελικά δεν θα πάνε στο κολλέγιο (και αυτή η πληροφορία μπορεί να χρησιμοποιηθεί από τους συμβούλους σταδιοδρομίας για να παρέχουν τις κατάλληλες οδηγίες στους αντίστοιχους σωστούς σπουδαστές). Συγκεντρωτικά, η βασική ιδέα της λειτουργίας της ανάλυσης της διακριτότητας είναι να καθορίσουμε εάν οι ομάδες διαφέρουν όσον αφορά το μέσο όρο μιας μεταβλητής τους, και στην συνέχεια να χρησιμοποιήσουμε αυτήν την μεταβλητή για να προβλέψουμε τα μέλη της ομάδας αυτής (π.χ. των νέων περιπτώσεων που θα είχαμε όπως στο παραπάνω παράδειγμα). Ανάλυση Διακύμανσης <Analysis of variance>. θα μπορούσε να ειπωθεί ότι το πρόβλημα της λειτουργίας της διακριτότητας μπορεί να εκφραστεί και ως ένα πρόβλημα ανάλυσης διακύμανσης της (ANOVA). Συγκεκριμένα, κάποιος θα μπορούσε να αναρωτηθεί εάν δύο ή περισσότερες ομάδες διαφέρουν κατά πολύ η μια από την άλλη όσον αφορά το μέσο όρο μιας ιδιαίτερης μεταβλητής τους. Εάν οι μέσοι όροι για μια μεταβλητή είναι πολύ διαφορετικοί σε δύο διαφορετικές ομάδες, τότε μπορούμε να πούμε ότι αυτή η μεταβλητή μπορεί να κάνει τον διαχωρισμό μεταξύ των ομάδων Σταδιακή ανάλυση διακριτότητας Πιθανότατα η πιο κοινή εφαρμογή της λειτουργίας της ανάλυσης διακριτότητας είναι να συμπεριλάβουμε πολλές μεταβλητές στην έρευνα μας, προκειμένου να μπορούμε να καθορίσουμε αυτές που κάνουν τις διακρίσεις μεταξύ των ομάδων. Παραδείγματος χάριν, ένας εκπαιδευτικός ερευνητής που ενδιαφέρεται να προβλέπει αν θα πραγματοποιηθούν οι επιλογές των αποφοίτων για περαιτέρω εκπαίδευση μπορεί να συμπεριλάβει τις εξής μεταβλητές : την προσωπικότητα, το κίνητρο που έχουν, την απόδοση τους, κτλπ έτσι ώστε να μπορέσει να καταλάβει ποια μεταβλητή είναι εκείνη που θα τους βοηθήσει περισσότερο στην πρόβλεψη τους. Μπροστινή σταδιακή ανάλυση < Forward stepwise analysis>. Στην σταδιακή λειτουργία της ανάλυσης διακριτότητας, χτίζεται ένα μοντέλο της διάκρισης που υπάρχει μεταξύ κάποιων ομάδων βήμα προς βήμα. Συγκεκριμένα, σε κάθε βήμα όλες οι μεταβλητές αξιολογούνται για να καθοριστεί ποια συμβάλει πιο πολύ στη διάκριση μεταξύ των ομάδων. Αφού βρεθεί ποια μεταβλητή είναι αυτή τότε αυτή η μεταβλητή θα περιληφθεί στο μοντέλο, και η διαδικασία αυτή αρχίζει πάλι από την αρχή. Οπίσθια σταδιακή ανάλυση < Backward stepwise analysis> Κάποιος θα μπορούσε να κάνει αυτήν την διαδικασία επιλογής των μεταβλητών ανάποδα. Σε αυτήν την περίπτωση όλες οι μεταβλητές συμπεριλαμβάνονται εξ αρχής στο μοντέλο και έπειτα, σε κάθε βήμα, η μεταβλητή που συμβάλλει λιγότερο στην πρόβλεψη της ιδιότητας του μέλους της ομάδας αποβάλλεται. Έτσι λοιπόν, ως αποτέλεσμα μιας επιτυχούς λειτουργίας ανάλυσης διακριτότητας, κάποιος θα 47

48 κρατούσε μόνο τις "σημαντικές " μεταβλητές στο μοντέλο, που φυσικά θα ήταν εκείνες οι μεταβλητές που συμβάλλουν περισσότερο στην διάκριση μεταξύ των ομάδων. Οι τιμές «F to enter, F to remove». Η σταδιακή αυτή διαδικασία "καθοδηγείται" από τις αντίστοιχες τιμές «F to enter and F to remove». Η τιμή F για μια μεταβλητή δείχνει τη σημασία που έχει η μεταβλητή αυτή από στατιστικής πλευράς στη διάκριση μεταξύ των ομάδων, δηλαδή είναι ένα μέτρο του βαθμού με τον οποίο μια μεταβλητή συμβάλει στην πρόβλεψη της ιδιότητας του μέλους της ομάδας. Ερμηνεία μιας δύο-ομάδων λειτουργίας της ανάλυσης διακριτότητας. Στην περίπτωση των δύο-ομάδων, η λειτουργία της ανάλυσης διακριτότητας μπορεί επίσης να θεωρηθεί (και επίσης θα λέγαμε ότι είναι ανάλογη) ως μια πολλαπλή παλινδρόμηση. Αυτή η δύο-ομάδων ανάλυση διακριτότητας καλείται επίσης «γραμμική ανάλυση διακριτότητας του fisher,1936» Όλες αυτές οι προσεγγίσεις είναι παρόμοιες μεταξύ τους. Εάν κωδικοποιήσουμε τις δύο ομάδες στην ανάλυση ως 1 και 2, και χρησιμοποιήσουμε αυτήν την μεταβλητή ως εξαρτώμενη μεταβλητή σε μια ανάλυση πολλαπλής παλινδρόμησης, τότε θα πάρουμε αποτελέσματα που είναι ανάλογα με εκείνα που θα παίρναμε μέσω της ανάλυσης διακριτότητας. Γενικά, στην περίπτωση των δύο ομάδων ανάλυσης διακριτότητας έχουμε μια γραμμική εξίσωση του τύπου: Group = a + b 1 *x 1 + b 2 *x b m *x m όπου a είναι μια σταθερά και b 1 μέχρι και το b m είναι συντελεστές παλινδρόμησης. Η ερμηνεία των αποτελεσμάτων ενός προβλήματος δύο-ομάδων είναι απλή και ακολουθεί στενά τη λογική της πολλαπλής παλινδρόμησης: Εκείνες οι μεταβλητές που έχουν τους μεγαλύτερους (τυποποιημένους ) συντελεστές παλινδρόμησης είναι και αυτοί που συμβάλλουν περισσότερο στην πρόβλεψη της ιδιότητας του μέλους της ομάδας. Λειτουργίες της διακριτότητας για πολλαπλές ομάδες. Όταν υπάρχουν περισσότερες από δύο ομάδες, τότε μπορούμε να υπολογίσουμε περισσότερες από μια συναρτήσεις διακριτότητας σε σχέση με αυτήν που παρουσιάζεται παραπάνω. Παραδείγματος χάριν, όταν υπάρχουν τρεις ομάδες, θα μπορούσαμε να υπολογίσουμε, (1)μια συνάρτηση για τις διακρίσεις μεταξύ των ομάδων 1, και των συνδιαζόμενων ομάδων 2 και 3 και (2) και μια ακόμη συνάρτηση μεταξύ των ομάδων 2 και 3. Έτσι για παράδειγμα, θα μπορούσαμε να έχουμε μια συνάρτηση που θα δίνει την διάκριση μεταξύ εκείνων των πτυχιούχων γυμνασίου που πηγαίνουν στο κολλέγιο και εκείνων που δεν πάνε, και μια δεύτερη συνάρτηση που θα δίνει την διάκριση μεταξύ εκείνων των πτυχιούχων γυμνασίου που πηγαίνουν σε έναν επαγγελματικό ή σε ένα εμπορικό σχολείο σε αντίθεση με εκείνους τους απόφοιτους που δουλεύουν. Κανονική ανάλυση <Canonical analysis>. Όταν πραγματοποιούμε μια πολλών ομάδων ανάλυση διακριτότητας, δεν χρειάζεται να διευκρινίσουμε πώς θα συνδυάσουμε τις ομάδες έτσι ώστε να διαμορφώσουμε διαφορετικές συναρτήσεις διακριτότητας. Θα ήταν καλύτερο να καθοριστεί αυτόματα κάποιος βέλτιστος συνδυασμός μεταβλητών έτσι ώστε η πρώτη συνάρτηση να παρέχει μια πιο γενική διάκριση μεταξύ των ομάδων, η δεύτερη να παρέχει μια ακόμη περισσότερο γενική διάκριση,και ούτω καθ εξής. Επιπλέον, οι συναρτήσεις αυτές θα είναι ανεξάρτητες ή ορθογώνιες,πράγμα το οποίο σημαίνει ότι οι συνεισφορές 48

49 τους στη διάκριση μεταξύ των ομάδων δεν θα επικαλύπτονται η μία από την άλλη. Υπολογιστικά, θα ήταν σαν να εκτελούνταν μια ανάλυση κανονικού συσχετισμού < canonical correlation analysis> Ο μέγιστος αριθμός των συναρτήσεων θα είναι ίσος με τον αριθμό των ομάδων μείον ένα, ή με τον αριθμό των μεταβλητών στην ανάλυση. Ερμηνεία των συναρτήσεων της διακριτότητας. Όπως και πριν, θα πάρουμε b (τυποποιημένους ) συντελεστές για κάθε μεταβλητή σε κάθε συνάρτηση διακριτότητας ( που τώρα επίσης ονομάζεται και κανονική ), οι οποίοι μπορούν να ερμηνευθούν ως εξής : όσο μεγαλύτερος είναι ο τυποποιημένος συντελεστής, τόσο μεγαλύτερη είναι η συμβολή της αντίστοιχης μεταβλητής στη διάκριση μεταξύ των ομάδων.( Θα πρέπει να σημειωθεί ότι μπορούμε επίσης να ερμηνεύσουμε τους συντελεστές δομών,όπως φαίνεται παρακάτω. Παρόλα αυτά, αυτοί οι συντελεστές δεν μας λένε μεταξύ ποιών από τις ομάδες κάνουν διακρίσεις οι αντίστοιχες συναρτήσεις. Μπορούμε να προσδιορίσουμε τη φύση της διάκρισης για κάθε λειτουργία διακριτότητας εξετάζοντας τους μέσους των συναρτήσεων για όλες τις ομάδες.μπορούμε επίσης να απεικονίσουμε πώς οι δύο συναρτήσεις κάνουν διακρίσεις μεταξύ των ομάδων με τη χάραξη μεμονωμένων αποτελεσμάτων για τις δύο λειτουργίες διακριτότητας.(παρακάτω ακολουθεί ένα παράδειγμα γραφικής παράστασης ). Σχήμα 10 Σε αυτό το παράδειγμα, στον οριζόντιο άξονα η Ρίζα 1 <Root 1>,φαίνεται να διαφέρει πολύ μεταξύ των ομάδων Setosa, και του συνδυασμού των ομάδων Virginic και Versicol. Στον κάθετο άξονα που είναι η Ρίζα 2 <Root 2>, μια μικρή τάση των σημείων Versicol τείνουν να πέσoυν κάτω από την κεντρική γραμμή (0) του άξονα αυτού.(σχήμα 10) Μήτρα δομών παραγόντων < Factor structure matrix> Ένας άλλος τρόπος για να καθοριστεί ποιες μεταβλητές "τονίζουν" ή καθορίζουν μια ιδιαίτερη λειτουργία διακριτότητας είναι η εξέταση της δομής των παραγόντων. Οι συντελεστές της δομής του παράγοντα είναι οι συσχετισμοί μεταξύ των μεταβλητών στο μοντέλο και των συναρτήσεων της διακριτότητας. Θα μπορούσαμε να σκεφτούμε αυτούς τους συσχετισμούς ως φορτώσεις του παράγοντα των μεταβλητών σε κάθε λειτουργία διακριτότητας. Το σημαντικότερο πράγμα που θα πρέπει να θυμάται κάποιος είναι ότι οι συντελεστές της συνάρτησης διακριτότητας δείχνουν τη μοναδική (μερική) συμβολή κάθε μεταβλητής στη συνάρτηση (ή στις συναρτήσεις ) της διακριτότητας, ενώ οι δομές των συντελεστών δείχνουν τους απλούς συσχετισμούς μεταξύ των μεταβλητών και της συνάρτησης (συναρτήσεων). Εάν θέλει κάποιος να ορίσει τις "σημαντικές " ετικέτες στις συναρτήσεις διακριτότητας τότε θα πρέπει να χρησιμοποιήσει τις δομές των συντελεστών. Εάν θέλει κάποιος να μάθει ποια είναι 49

50 η "μοναδική συμβολή κάθε μεταβλητής στη λειτουργία της διακριτότητας, τότε θα πρέπει να χρησιμοποιήσει τους συντελεστές της λειτουργίας διακριτότητας ( δηλαδή τα βάρη) Σημασία της λειτουργίας της διακριτότητας. Κάποιος μπορεί να εξετάσει τον αριθμό των ριζών <roots> που βοηθούν σημαντικά στη διάκριση που γίνεται μεταξύ της ομάδας. Μόνο εκείνες που βρέθηκαν ότι είναι στατιστικά σημαντικές θα πρέπει να χρησιμοποιηθούν για να γίνει η ερμηνεία. Οι μη σημαντικές συναρτήσεις (ρίζες ) θα πρέπει να αγνοηθούν.. Παράγραφος 4.5: Μέθοδος των πλησιέστερων γειτόνων και συλλογισμός βασισμένος στην μνήμη (K-nearest neighbour and memory-based reasoning MBR) Η μέθοδος των πλησιέστερων γειτόνων είναι μία μέθοδος κατά την οποία οι άνθρωποι στη προσπάθεια τους να λύσουν κάποια νέα προβλήματα που εμφανίστηκαν, εξετάζουν συχνά λύσεις από παρόμοια προβλήματα που είχαν λύσει προηγουμένως. Ο Κ-κοντινότερος γείτονας (k- ΝΝ) είναι μια τεχνική ταξινόμησης που χρησιμοποιεί μια έκδοση αυτής της ίδιας μεθόδου. Αποφασίζει σε ποια κατηγορία να τοποθετήσει μια νέα υπόθεση εξετάζοντας έναν αριθμό "Κ",στον Κ-κοντινότερο γείτονα,των πιο παρόμοιων περιπτώσεων ή των γειτόνων τους (σχήμα 11).Στη συνέχεια μετρά τον αριθμό των περιπτώσεων για κάθε κατηγορία, και κατατάσσει τη νέα υπόθεση στην κατηγορία εκείνη στην οποία βρίσκονται οι περισσότεροι γείτονές της. Σχήμα 11. Κ-κοντινότερος γείτονας.. Ο N είναι μια νέα υπόθεση. Θα κατατάσσονταν στην κατηγορία Χ επειδή τα επτά Χ μέσα στον ελλειψοειδή κύκλο ξεπερνούν αριθμητικώς τα δύο Υ. Το πρώτο πράγμα που πρέπει να κάνει κάποιος για να εφαρμόσει την μέθοδο Κ- NN κοντινότερου γείτονα είναι να βρει πρώτα ένα μέτρο της απόστασης μεταξύ των χαρακτηριστικών στα δεδομένα και έπειτα να υπολογίσει την απόσταση. Ενώ αυτό είναι εύκολο για τα αριθμητικά δεδομένα, οι κατηγορικές μεταβλητές χρειάζονται ειδικό χειρισμό. Για παράδειγμα θα ήταν δύσκολο να βρούμε, ποια είναι η απόσταση μεταξύ του μπλε και του πράσινου. Έπειτα θα πρέπει να υπάρχει ένας τρόπος ώστε να ήμαστε σε θέση να αθροίσουμε τα μέτρα της απόστασης για τα χαρακτηριστικά. Μόλις μπορέσουμε να υπολογίσουμε την απόσταση μεταξύ των περιπτώσεων, έπειτα μπορούμε να επιλέξουμε το σύνολο των ήδη ταξινομημένων περιπτώσεων για να τις χρησιμοποιήσουμε ως βάση για την 50

51 ταξινόμηση των νέων υποθέσεων, έτσι ώστε να αποφασίσουμε το πόσο μεγάλη θα πρέπει να είναι μια γειτονιά στην οποία θα γίνουν οι συγκρίσεις, καθώς επίσης και να αποφασίσουμε το πώς να μετρήσουμε τους ίδιους τους γείτονες (π.χ., μπορεί να ορίσει κάποιος ότι οι κοντινότεροι γείτονες θα έχουν μεγαλύτερο βάρος από τους μακρινότερους γείτονες). Η μέθοδος Κ ΝΝ όμως δημιουργεί ένα μεγάλο υπολογιστικό φορτίο στον υπολογιστή επειδή ο χρόνος υπολογισμού αυξάνεται ανάλογα με τον παραγοντικό του συνολικού αριθμού των σημείων. Παρόλο που είναι μια γρήγορη διαδικασία για να εφαρμοστεί ένα δέντρο απόφασης ή ένα νευρωνικό δίκτυο σε μια νέα υπόθεση, το Κ- ΝΝ απαιτεί να γίνεται ένας νέος υπολογισμός για κάθε νέα συνθήκη. Για να επιταχυνθεί η μέθοδος Κ- ΝΝ, συχνά όλα τα δεδομένα κρατούνται στη μνήμη. Ο βασισμένος στην μνήμη συλλογισμός συνήθως αναφέρεται σε έναν ταξινομητή Κ- ΝΝ ο οποίος αποθηκεύεται στη μνήμη. Τα μοντέλα Κ ΝΝ είναι πολύ εύκολο να γίνουν αντιληπτά όταν υπάρχουν λίγες μεταβλητές πρόβλεψης. Επίσης χρησιμεύουν και στο να χτίζουν μοντέλα τα οποία περιλαμβάνουν μεταβλητούς τύπους δεδομένων, όπως για παράδειγμα ένα κείμενο. Η μόνη απαίτηση για να έχουμε την δυνατότητα να συμπεριλάβουμε έναν τύπο δεδομένων είναι η ύπαρξη ενός κατάλληλου μετρικού. Παράγραφος 4.6: Μέθοδοι προώθησης (Boosting) Οι αλγόριθμοι Boosting, όπως ο αλγόριθμος AdαBoost,είναι επαναληπτικοί αλγόριθμοι που θέτουν διαφορετικά βάρη σε μια διανομή σε κάθε επανάληψη που κάνουν. Μετά από κάθε επανάληψη ο boosting αυξάνει τα βάρη εκείνα που συνδέονται με τα λανθασμένα παραδείγματα και μειώνει τα βάρη που συνδέονται με τα σωστά παραδείγματα. Αυτό αναγκάζει τους εκπαιδευόμενους χρήστες να συγκεντρωθούν περισσότερο στα λανθασμένα παραδείγματα σε κάθε επόμενη επανάληψη.λόγω το ότι οι σπάνιες τάξεις/ συνθήκες είναι περισσότερο επιρρεπείς στα λάθη σε σχέση με τις απλές κοινές τάξεις είναι πολύ λογικό να καταλάβουμε ότι το boosting μπορεί να βελτιώσει την απόδοση της ταξινόμησης γιατί θα αυξήσει τα βάρη των παραδειγμάτων που συνδέονται με εκείνες τις σπάνιες τάξεις.σε αυτό το σημείο θα πρέπει να τονιστεί ότι λόγω το ότι το Boosting μεταβάλλει αποτελεσματικά την διανομή των εκπαιδευόμενων δεδομένων <training data>,κάποιος θα μπορούσε να θεωρήσει το boosting σαν ένα τύπο μιας βελτιωμένης τεχνικής δειγματοληψίας.ο κανόνας Ada Boost έχει δημιουργηθεί έτσι ώστε να μπορεί να ανακαλύπτει παραδείγματα που ανήκουν στις σπάνιες τάξεις και να δίνει σε αυτά μεγαλύτερα βάρη από ότι σε εκείνα που ανήκουν στις κοινές τάξεις.επίσης ένα άλλο σύστημα το Adacost μπορεί να μειώσει το κόστος από την λανθασμένη ταξινόμηση περισσότερο από τον αλγόριθμο AdaBoost και επομένως όπως και άλλες μέθοδοι θα μπορούσε να χρησιμοποιηθεί για να συγκεκριμενοποιήσει το πρόβλημα με τις σπάνιες τάξεις.σε κάθε επανάληψη του boosting ένας άλλος αλγόριθμος ο Rare cost κλιμακώνει τα παραδείγματα σε λανθασμένα-θετικά έτσι ώστε να μπορεί να τα ξεχωρίζει από τα σωστά -θετικά παραδείγματα,καθώς επίσης κλιμακώνει τα λανθασμένα-θετικά παραδείγματα έτσι ώστε να μπορεί να τα ξεχωρίζει από τα σωστά αρνητικά παραδείγματα.επειδή όμως ο αλγόριθμος Adacost σε αντίθεση από τον Rareboost,δεν κάνει αυτόν τον διαχωρισμό,θεωρείται ότι μερικές φορές μπορεί να υπερτονίζει την ανάκληση της πληροφορίας και έτσι κατά συνέπεια να οδηγεί σε χαμηλότερη ακρίβεια.ένας δεύτερος αλγόριθμος που χρησιμοποιεί το Boosting για να καθορίσει τα προβλήματα με τις σπάνιες τάξεις είναι ο SMOTEBoost.Αυτός ο αλγόριθμος μπορεί να αναγνωρίσει αν υποφέρει το Boosting από προβλήματα όπως η υπερδειγματοληψία ή η υπερχείλιση,εφόσον το Boosting θα προσπαθήσει να καθορίσει αν τα παραδείγματα ανήκουν στις σπάνιες τάξεις ή στις κοινές τάξεις,και έτσι θα μπορέσει να αντιγράψει αποτελεσματικά μερικά από τα παραδείγματα που ανήκουν στις σπάνιες τάξεις.αντί όμως να αλλάξουμε την διανομή των δεδομένων καθορίζοντας κάθε φορά τα βάρη τα οποία συνδέονται με κάθε παράδειγμα,ο αλγόριθμος SMOTEBoost μεταβάλει την διανομή προσθέτοντας 51

52 κάποια νέα παραδείγματα μικρότερων τάξεων χρησιμοποιώντας τον αλγόριθμο SMOTE <SMOTE algorithm>. Η παραπάνω ανάλυση του Boosting θα λέγαμε ότι είναι περισσότερο θεωρητική για να μπορέσουμε να δείξουμε το κατά πόσο μπορεί να βελτιώσει την απόδοση της ταξινόμησης κάθε νέου χρήστη της βάσης.έτσι λοιπόν από τα παραπάνω μπορεί να γίνει αντιληπτό ότι δεν υπάρχει εγγύηση για αυτό.επίσης η βελτίωση της απόδοσης συνδέεται στενά με την επιλογή του αλγορίθμου εκμάθησης της βάσης,και επομένως η απόδοση του Boosting θα μειωθεί αν ο χρήστης της βάσης πετύχει χαμηλή ακρίβεια.αυτή η ανάλυση δείχνει επίσης ότι εάν ο χρήστης της βάσης μπορεί να ανταλλάξει αποτελεσματικά την ακρίβεια και την ανάκληση τότε η μέθοδος Boosting θα μπορέσει να βελτιώσει αισθητά την απόδοση του χρήστη της βάσης. Παράγραφος 4.7: Γενετικοί αλγόριθμοι Τα τελευταία τριάντα χρόνια, παρατηρείται ένα συνεχώς αυξανόμενο ενδιαφέρον για την ανάπτυξη συστημάτων επίλυσης προβλημάτων βασισμένων στις αρχές της Φυσικής Εξέλιξης. Τα συστήματα αυτού του είδους λειτουργούν διατηρώντας έναν πληθυσμό κωδικοποιημένων πιθανών λύσεων του προβλήματος που προσπαθούμε να επιλύσουμε,και εφαρμόζοντας πάνω σε αυτόν διάφορες διαδικασίες εμπνευσμένες από τη βιολογική εξέλιξη. Έτσι, περνώντας από γενιά σε γενιά, τα συστήματα αυτά δημιουργούν συνεχώς νέους πληθυσμούς πιθανών λύσεων εξελίσσοντας τους προηγούμενους πληθυσμούς. Οι Γενετικοί Αλγόριθμοι (Genetic Algorithms) είναι ένα παράδειγμα τέτοιου συστήματος που μαζί με τον Εξελικτικό Προγραμματισμό (Evolutionary Programming.), τις Στρατηγικές Εξέλιξης (Evolution Strategies), τα Συστήματα Ταξινόμησης (Classifier Systems) και το Γενετικό Προγραμματισμό (Genetic Programming) αποτελούν μια κατηγορία συστημάτων επίλυσης προβλημάτων που είναι ευρύτερα γνωστή με τον όρο Εξελικτικοί Αλγόριθμοι (Evolutionary Algorithms). Η βασική ιδέα που κρύβεται πίσω από τους γενετικούς αλγόριθμους είναι η μίμηση των μηχανισμών της βιολογικής εξέλιξης που απαντώνται στη φύση. Ας πάρουμε, για παράδειγμα, τους λαγούς και τον τρόπο που αναπαράγονται και εξελίσσονται από γενιά σε γενιά [Michalewicz, 1996]. Έστω ότι αρχίζουμε να παρατηρούμε ένα συγκεκριμένο πληθυσμό από λαγούς σε ένα οικοσύστημα. Όπως είναι φυσικό, κάποιοι από αυτούς θα είναι πιο γρήγοροι και πιο εύστροφοι από άλλους. Αυτοί οι λαγοί έχουν περισσότερες πιθανότητες να επιβιώσουν στο φυσικό τους περιβάλλον (δηλαδή να εξασφαλίζουν τροφή και να ξεφεύγουν από τα διάφορα αρπακτικά που τους καταδιώκουν, όπως για παράδειγμα τις αλεπούδες) από ότι κάποιοι πιο αργοί ή λιγότερο έξυπνοι λαγοί. Φυσικά δεν είναι λίγοι οι αργοί ή λιγότερο έξυπνοι λαγοί που καταφέρνουν να επιβιώνουν εξαιτίας της τύχης ή άλλων παραγόντων. Όλοι αυτοί οι λαγοί, που καταφέρνουν να επιβιώσουν, θα αρχίσουν την παραγωγή της επόμενης γενιάς τους, μιας γενιάς που θα συνδυάζει με διάφορους τρόπους όλα τα χαρακτηριστικά των μελών της προηγούμενης. Έτσι, μερικοί αργοί λαγοί θα αναμειχθούν με κάποιους γρήγορους, κάποιοι γρήγοροι με άλλους γρήγορους, κάποιοι εύστροφοι λαγοί με κάποιους μη εύστροφους και ούτω καθεξής, δημιουργώντας έτσι σταδιακά έναν πληθυσμό που απαρτίζεται από λαγούς που κατά μέσο όρο είναι εξυπνότεροι και ταχύτεροι από τους προγόνους τους. Ευτυχώς όμως, για τη διατήρηση της φυσικής ισορροπίας, και τα αρπακτικά υφίστανται την ίδια διαδικασία εξέλιξης από γενιά σε γενιά, διαφορετικά οι λαγοί θα γίνονταν υπερβολικά γρήγοροι και έξυπνοι για να μπορούν να τους πιάσουν. Οι γενετικοί αλγόριθμοι χρησιμοποιούν ορολογία δανεισμένη από το χώρο της Φυσικής Γενετικής. Αναφέρονται σε άτομα (individuals) ή γενότυπους (genotypes) μέσα σε ένα πληθυσμό. Κάθε άτομο ή γενότυπος αποτελείται από χρωμοσώματα (chromosomes). Στους γενετικούς αλγόριθμους αναφερόμαστε συνήθως σε άτομα με ένα μόνο χρωμόσωμα. Τα χρωμοσώματα αποτελούνται από γονίδια (genes) που είναι διατεταγμένα σε γραμμική ακολουθία. Κάθε γονίδιο επηρεάζει την κληρονομικότητα ενός ή περισσότερων χαρακτηριστικών. Τα γονίδια που 52

53 επηρεάζουν συγκεκριμένα χαρακτηριστικά γνωρίσματα του ατόμου βρίσκονται και σε συγκεκριμένες θέσεις του χρωματοσώματος που καλούνται loci. Κάθε χαρακτηριστικό γνώρισμα του ατόμου (όπως για παράδειγμα το χρώμα των μαλλιών) έχει τη δυνατότητα να εμφανιστεί με διάφορες μορφές, ανάλογα με την κατάσταση στην οποία βρίσκεται το αντίστοιχο γονίδιο που το επηρεάζει. Οι διαφορετικές αυτές καταστάσεις που μπορεί να πάρει το γονίδιο καλούνται alleles (τιμές χαρακτηριστικού γνωρίσματος). Κάθε γενότυπος αναπαριστά μια πιθανή λύση σε ένα πρόβλημα. Το «αποκωδικοποιημένο» περιεχόμενο ενός συγκεκριμένου χρωμοσώματος καλείται φαινότυπος (phenotype) (π.χ. ένας ζωντανός οργανισμός είναι ο φαινότυπος των χρωμοσωμάτων του). Μια διαδικασία εξέλιξης που εφαρμόζεται πάνω σε ένα πληθυσμό αντιστοιχεί σε ένα εκτενές ψάξιμο στο χώρο των πιθανών λύσεων. Απαραίτητη προϋπόθεση για την επιτυχημένη έκβαση ενός τέτοιου ψαξίματος αποτελεί η εξισορρόπηση δύο διαδικασιών που είναι προφανώς αντικρουόμενες, της εκμετάλλευσης και διατήρησης των καλύτερων λύσεων, και της όσο το δυνατόν καλύτερης εξερεύνησης όλου του διαστήματος. Οι γενετικοί αλγόριθμοι διατηρούν έναν πληθυσμό πιθανών λύσεων, του προβλήματος που μας ενδιαφέρει, πάνω στον οποίο δουλεύουν, σε αντίθεση με άλλες μεθόδους αναζήτησης που επεξεργάζονται ένα μόνο σημείο του διαστήματος αναζήτησης. Έτσι ένας γενετικός αλγόριθμος πραγματοποιεί αναζήτηση σε πολλές κατευθύνσεις και υποστηρίζει καταγραφή και ανταλλαγή πληροφοριών μεταξύ αυτών των κατευθύνσεων. Ο πληθυσμός υφίσταται μια προσομοιωμένη γενετική εξέλιξη. Σε κάθε γενιά, οι σχετικά "καλές" λύσεις αναπαράγονται, ενώ οι σχετικά "κακές" απομακρύνονται. Ο διαχωρισμός και η αποτίμηση των διαφόρων λύσεων γίνεται με την βοήθεια μιας αντικειμενικής συνάρτησης (objective ή fitness function), η οποία παίζει το ρόλο του περιβάλλοντος μέσα στο οποίο εξελίσσεται ο πληθυσμός. Συνοψίζοντας μπορούμε να πούμε ότι ένας γενετικός αλγόριθμος για ένα συγκεκριμένο πρόβλημα πρέπει να αποτελείται από τα παρακάτω πέντε συστατικά: 1. Μια γενετική αναπαράσταση των πιθανών λύσεων του προβλήματος. 2. Έναν τρόπο δημιουργίας ενός αρχικού πληθυσμού από πιθανές λύσεις (αρχικοποίηση). 3. Μια αντικειμενική συνάρτηση αξιολόγησης των μελών του πληθυσμού, που παίζει το ρόλο του περιβάλλοντος. 4. Γενετικούς τελεστές για τη δημιουργία νέων μελών (λύσεων). 5. Τιμές για τις διάφορες παραμέτρους που χρησιμοποιεί ο γενετικός αλγόριθμος (μέγεθος πληθυσμού, πιθανότητες εφαρμογής των γενετικών τελεστών, κ.τ.λ.). Μερικά από τα σημαντικότερα πλεονεκτήματα που έχει η χρήση γενετικών αλγορίθμων για την επίλυση προβλημάτων είναι τα εξής: Μπορούν να επιλύουν δύσκολα προβλήματα γρήγορα και αξιόπιστα. Ένας από τους σημαντικούς λόγους χρήσης των γενετικών αλγορίθμων είναι η μεγάλη τους αποδοτικότητα. Τόσο η θεωρία, όσο και η πράξη έχουν δείξει ότι προβλήματα που έχουν πολλές, δύσκολα προσδιορισμένες λύσεις μπορούν να αντιμετωπιστούν καλύτερα από γενετικούς αλγόριθμους. Είναι δε αξιοσημείωτο ότι συναρτήσεις που παρουσιάζουν μεγάλες διακυμάνσεις και καθιστούν ανεπαρκείς άλλες μεθόδους στην εύρεση των ακρότατών τους, για τους γενετικούς αλγόριθμους δεν αποτελούν σημεία δυσχέρειας. Μπορούν εύκολα να συνεργαστούν με τα υπάρχοντα μοντέλα και συστήματα. Οι γενετικοί αλγόριθμοι προσφέρουν το σημαντικό πλεονέκτημα της χρήσης τους με προσθετικό τρόπο στα μοντέλα που χρησιμοποιούνται σήμερα, μη απαιτώντας την επανασχεδίασή τους. Μπορούν εύκολα να συνεργαστούν με τον υπάρχοντα κώδικα, χωρίς μεγάλο κόπο. Αυτό συμβαίνει, διότι χρησιμοποιούν μόνο πληροφορίες της διαδικασίας ή συνάρτησης που πρόκειται να βελτιστοποιήσουν, δίχως να ενδιαφέρει άμεσα ο ρόλος της μέσα στο σύστημα ή η όλη δομή του συστήματος. Είναι εύκολα επεκτάσιμοι και εξελίξιμοι, οι γενετικοί αλγόριθμοι δεν αντιστέκονται σε αλλαγές, επεκτάσεις και μετεξελίξεις, ανάλογα με την κρίση του σχεδιαστή. Σε 53

54 πολλές εφαρμογές, έχουν αναφερθεί λειτουργίες των γενετικών αλγορίθμων που δεν είναι δανεισμένες από τη φύση ή που έχουν υποστεί σημαντικές αλλαγές, πάντα προς όφελος της απόδοσης. Παραλλαγές στο βασικό σχήμα δεν είναι απλά αναγκαίες, αλλά σε ορισμένες περιπτώσεις επιβάλλονται. Μπορούν να συμμετέχουν σε υβριδικές μορφές με άλλες μεθόδους. Αν και η ισχύς των γενετικών αλγορίθμων είναι μεγάλη, σε μερικές ειδικές περιπτώσεις προβλημάτων, όπου άλλες μέθοδοι συμβαίνει να έχουν πολύ υψηλή αποδοτικότητα, λόγω εξειδίκευσης, υπάρχει η δυνατότητα χρησιμοποίησης ενός υβριδικού σχήματος γενετικού αλγορίθμου. με άλλη μέθοδο. Αυτό είναι αποτέλεσμα της μεγάλης ευελιξίας των γενετικών αλγορίθμων. Εφαρμόζονται σε πολύ περισσότερα πεδία από κάθε άλλη μέθοδο. Το χαρακτηριστικό που τους εξασφαλίζει αυτό το πλεονέκτημα είναι η ελευθερία επιλογής των κριτηρίων που καθορίζουν την επιλογή μέσα στο τεχνικό περιβάλλον. Έτσι, γενετικοί αλγόριθμοι μπορούν να χρησιμοποιηθούν στην οικονομία, στο σχεδιασμό μηχανών, στην επίλυση μαθηματικών εξισώσεων, στην εκπαίδευση Νευρωνικών Δικτύων και σε πολλούς άλλους τομείς. Δεν απαιτούν περιορισμούς στις συναρτήσεις που επεξεργάζονται. Ο κύριος λόγος που καθιστά τις παραδοσιακές μεθόδους δύσκαμπτες και ακατάλληλες για πολλά προβλήματα είναι η απαίτησή τους για ύπαρξη περιορισμών, όπως ύπαρξη παραγώγων, συνέχεια, όχι "θορυβώδεις" συναρτήσεις κ.τ.λ. Τέτοιου είδους ιδιότητες είναι αδιάφορες για τους γενετικούς αλγόριθμους πράγμα που τους κάνει κατάλληλους για ένα μεγάλο φάσμα προβλημάτων. Δεν ενδιαφέρει η σημασία της υπό εξέταση πληροφορίας. Η μόνη "επικοινωνία" του γενετικού αλγόριθμου με το περιβάλλον του είναι η αντικειμενική συνάρτηση. Αυτό εγγυάται την επιτυχία του ανεξάρτητα από την σημασία του προβλήματος. Βέβαια, δεν σημαίνει ότι δεν υπάρχουν άλυτα προβλήματα για τους γενετικούς αλγόριθμους Όπου όμως δεν τα καταφέρνουν, η αιτία είναι η φύση του χώρου που ερευνούν και όχι το πληροφοριακό περιεχόμενο του προβλήματος. Έχουν από τη φύση τους το στοιχείο του παραλληλισμού. Οι γενετικοί αλγόριθμοι σε κάθε τους βήμα επεξεργάζονται μεγάλες ποσότητες πληροφορίας, αφού κάθε άτομο θεωρείται αντιπρόσωπος πολλών άλλων. Έχει υπολογιστεί ότι η αναλογία αυτή είναι της τάξεως O(n3), δηλαδή 10 άτομα αντιπροσωπεύουν περίπου Είναι, λοιπόν, προφανές ότι μπορούν να καλύψουν με αποδοτικό ψάξιμο μεγάλους χώρους σε μικρούς χρόνους. Είναι μία μέθοδος που κάνει ταυτόχρονα εξερεύνηση του χώρου αναζήτησης και εκμετάλλευση της ήδη επεξεργασμένης πληροφορίας. Ο συνδυασμός αυτός σπάνια συναντάται σε οποιαδήποτε άλλη μέθοδο. Με το τυχαίο ψάξιμο γίνεται καλή εξερεύνηση του χώρου, αλλά δεν γίνεται εκμετάλλευση της πληροφορίας. Αντίθετα, με το hill-climbing γίνεται καλή εκμετάλλευση της πληροφορίας, αλλά όχι καλή εξερεύνηση. Συνήθως τα δύο αυτά χαρακτηριστικά είναι ανταγωνιστικά και το επιθυμητό είναι να συνυπάρχουν και τα δύο προς όφελος της όλης διαδικασίας. Οι γενετικοί αλγόριθμοι επιτυγχάνουν το βέλτιστο συνδυασμό εξερεύνησης και εκμετάλλευσης, πράγμα που τους κάνει ιδιαίτερα αποδοτικούς και ελκυστικούς. Τέλος επιδέχονται παράλληλη υλοποίηση. Οι γενετικοί αλγόριθμοι. μπορούν να εκμεταλλευτούν τα πλεονεκτήματα των παράλληλων μηχανών, αφού λόγω της φύσης τους, εύκολα μπορούν να δεχτούν παράλληλη υλοποίηση. Το χαρακτηριστικό αυτό αυξάνει ακόμη περισσότερο την απόδοσή τους, ενώ σπάνια συναντάται σε ανταγωνιστικές μεθόδους. Οι γενετικοί αλγόριθμοι <genetic algorithms > δεν χρησιμοποιούνται για να βρουν τα σχέδια αυτά καθ' αυτά, αλλά θα λέγαμε ότι χρησιμοποιούνται για να καθοδηγούν την διαδικασία εκμάθησης των αλγορίθμων εξόρυξης δεδομένων όπως τα νευρωνικά δίκτυα. Ουσιαστικά, οι γενετικοί αλγόριθμοι ενεργούν ως μία μέθοδος για να γίνει μια καθοδηγημένη αναζήτηση των καλών μοντέλων στο διάστημα της λύσης. Καλούνται γενετικοί αλγόριθμοι επειδή ακολουθούν αόριστα το σχέδιο της βιολογικής εξέλιξης στην οποία τα μέλη μιας γενεάς (των μοντέλων) 54

55 ανταγωνίζονται για να δώσουν τα χαρακτηριστικά τους στην επόμενη γενεά (των μοντέλων ), έως ότου βρεθεί το καλύτερο (μοντέλο ). Η πληροφορία που μεταβιβάζεται περιλαμβάνεται "στα χρωμοσώματα," που περιέχουν εκείνες τις παραμέτρους που χρειάζονται για την οικοδόμηση του μοντέλου. Παραδείγματος χάριν, στην οικοδόμηση ενός νευρωνικού δικτύου,οι γενετικοί αλγόριθμοι μπορούν να επαναχρησιμοποιήσουν την backpropagation ως έναν τρόπο για να ρυθμίσουν τα βάρη. Το χρωμόσωμα σε αυτήν την περίπτωση θα περιείχε τα βάρη. Εναλλακτικά, οι γενετικοί αλγόριθμοι μπορούν να χρησιμοποιηθούν για να βρουν την καλύτερη αρχιτεκτονική, και τα χρωμοσώματα θα περιέχουν τον αριθμό των κρυμμένων στρωμάτων καθώς επίσης και τον αριθμό των κόμβων σε κάθε ένα από αυτά τα στρώματα. Ενώ όμως οι γενετικοί αλγόριθμοι είναι μια ενδιαφέρουσα προσέγγιση για την βελτιστοποίηση των μοντέλων, το μειονέκτημα τους είναι ότι προσθέτουν πολλά υπολογιστικά έξοδα. 55

56 Κεφάλαιο 5ο: Διαδικασίες εξόρυξης πληροφοριών Παράγραφος 5.1: Μοντελοποίηση διαδικασιών εξόρυξης πληροφοριών Αναγνωρίζοντας ότι μια συστηματική προσέγγιση είναι ουσιαστική στην επιτυχή εξόρυξη δεδομένων, πολλοί προμηθευτές αλλά και συμβουλευτικές οργανώσεις συνέστησαν την ύπαρξη ενός μοντέλου διαδικασίας με σκοπό να καθοδηγήσει και να βοηθήσει το χρήστη (ειδικά κάποιους νέους χρήστες στην οικοδόμηση των προβλεπτικών μοντέλων) μέσω μιας σειράς από βοηθητικά βήματα που θα οδηγήσει στα καλά αποτελέσματα. Το SPSS είναι ένα μοντέλο διαδικασίας το οποίο χρησιμοποιεί τα 5Α,το SPSS αξιολογεί, έχει πρόσβαση, αναλύει, ενεργεί και αυτοματοποιεί και όλα αυτά τα κάνει για να βοηθήσει τους χρήστες.η SAS είναι ένα άλλο μοντέλο διαδικασίας το οποίο χρησιμοποιεί το δείγμα SEMMA, το οποίο εξερευνά, τροποποιεί, διαμορφώνει-μοντελοποιεί, και αξιολογεί. Πρόσφατα μια κοινοπραξία των προμηθευτών και των χρηστών, οι οποίοι προέρχονται από την εφαρμοσμένη μηχανική συστημάτων της Κοπεγχάγης NCR (Δανία), την επιχείρηση Daimler-Benz AG (Γερμανία), την επιχείρηση SPSS/Integral Solutions Ltd. (Αγγλία) και από την τράπεζα OHRAVerzekeringen EN Groep B.V (Οι Κάτω Χώρες),έχει αναπτύξει μια προδιαγραφή αποκαλούμενη <CRISP-DM-Cross Industry Standard Process For Data Mining> Στάνταρ λειτουργία της διαγώνιου βιομηχανίας για την εξόρυξη δεδομένων. Το μοντέλο διαδικασίας CRISP -DM είναι παρόμοιο με τα μοντέλα διαδικασίας από άλλες επιχειρήσεις συμπεριλαμβανομένου αυτού της επιχείρησης «Two Crows Corporation>. Από τον Σεπτέμβριο του 1999, το CRISP -DM βρίσκεται υπό εξέλιξη. Το CRISP -DM είναι μια καλή αρχή στο να δοθεί μια σημαντική βοήθεια στους ανθρώπους για να μπορέσουν να κατανοήσουν τα απαραίτητα βήματα που πρέπει να γίνουν για μια επιτυχή εξόρυξη δεδομένων. Παρακάτω δίνεται αναλυτικά το μοντέλο διαδικασίας της επιχείρησης < Two Crows> το οποίο έχει εκμεταλλευτεί και κάποια πλεονεκτήματα και ιδέες που υιοθέτησε από το μοντέλο διαδικασίας CRISP-DM. Θα πρέπει να ληφθεί υπόψη ότι ενώ τα βήματα που θα πρέπει να γίνονται σε μια διαδικασία εξόρυξης δεδομένων εμφανίζονται σε έναν κατάλογο, η διαδικασία εξόρυξης δεδομένων δεν είναι γραμμική που αυτό σημαίνει ότι ο χρήστης αναπόφευκτα θα χρειαστεί να κινηθεί κυκλικά στο βρόχο πίσω στα προηγούμενα βήματα. Παραδείγματος χάριν, ότι έχει αποκομίσει ο χρήστης στο βήμα των "ερευνηθέντων δεδομένων " μπορεί να τον βοηθήσει αυτή η γνώση στο να έχει την ικανότητα να γνωρίζει πότε και αν πρέπει να προσθέσει ο χρήστης νέα δεδομένα στη βάση δεδομένων εξόρυξης δεδομένων. Τα αρχικά μοντέλα που θα χτίσει ο χρήστης μπορούν να του παρέχουν την διορατικότητα ότι χρειάζεται να δημιουργήσει νέες μεταβλητές. Τα βασικά βήματα της εξόρυξης δεδομένων για την ανακάλυψη γνώσης είναι: 1. Καθορίστε το επιχειρησιακό πρόβλημα 2. Χτίστε τη βάση δεδομένων της εξόρυξης δεδομένων 3. Ερευνήστε τα δεδομένα. 4. Προετοιμάστε τα δεδομένα για μοντελοποίηση. 5. Χτίστε το μοντέλο. 6. Αξιολογήστε το μοντέλο. 7. Επεκτείνετε το μοντέλο και τα αποτελέσματα. Παρακάτω δίνεται η ανάλυση όλων αυτών των επτά βημάτων για να γίνει καλύτερα κατανοητή η διαδικασία της εξόρυξης δεδομένων 56

57 1. Καθορίστε το επιχειρησιακό πρόβλημα Πρώτα απ' όλα, βασική προϋπόθεση στην ανακάλυψη γνώσης είναι η κατανόηση των δεδομένων και της ίδιας της επιχείρησής. Χωρίς αυτήν την κατανόηση, κανένας αλγόριθμος, άσχετα από το πόσο εκλεπτυσμένος είναι, δεν πρόκειται να παρέχει ένα αποτέλεσμα στο οποίο θα μπορούσε η επιχείρηση να έχει εμπιστοσύνη. Χωρίς αυτό το υπόβαθρο της επίγνωσης της κατάστασης που επικρατεί στην επιχείρηση δεν θα μπορούν να προσδιοριστούν σωστά τα προβλήματα που προσπαθεί μια επιχείρηση να λύσει και συνεπώς να προετοιμάσει τα δεδομένα για τη εξόρυξη, ή να ερμηνεύσει σωστά τα αποτελέσματα. Για να γίνει μία ακόμη καλύτερη χρήση της εξόρυξης δεδομένων θα πρέπει να γίνει μια σαφή δήλωση των στόχων της επιχείρησης. Για παράδειγμα μια επιχείρηση μπορεί να έχει ως στόχο της την αύξηση των απαντήσεων σε μια άμεση εκστρατεία ταχυδρομείου. Εδώ η επιχείρηση θα πρέπει να εκφράσει αυτόν τον στόχο της ακόμη πιο συγκεκριμενοποιημένα ανάλογα με τον συγκεκριμένο στόχο που έχει.για παράδειγμα ο στόχος όπως "η αύξηση του ποσοστού απάντησης "και ο στόχος " η αύξηση της αξίας μιας απάντησης, " βλέπουμε ότι είναι δύο διαφορετικοί στόχοι και επομένως σε κάθε έναν από αυτούς τους στόχους θα αντιστοιχούσε και ένα πολύ διαφορετικό μοντέλο διαδικασίας για την εξόρυξη δεδομένων. Μια αποτελεσματική δήλωση του προβλήματος θα βοηθήσει στην δημιουργία ενός τρόπου μέτρησης του αποτελέσματος του προγράμματος για την ανακάλυψη γνώσης. Μπορεί επίσης να συμπεριλάβει μια αιτιολόγηση του κόστους. 2. Χτίστε τη βάση δεδομένων εξόρυξης δεδομένων. Αυτό το βήμα του χτισίματος της βάσης δεδομένων για την εξόρυξη γνώσης μαζί με τα επόμενα δύο βήματα που είναι η έρευνα των δεδομένων και η προετοιμασία των δεδομένων για μοντελοποίηση αποτελούν τον πυρήνα της προετοιμασίας των δεδομένων. Αυτά τα τρία βήματα μαζί, παίρνουν περισσότερο χρόνο και προσπάθεια από όλα τα άλλα τέσσερα βήματα.αυτό συμβαίνει για το λόγο ότι μπορούν να υπάρξουν συνεχείς επαναλήψεις για την προετοιμασία των δεδομένων καθώς και των βημάτων του χτισίματος του μοντέλου.δηλαδή καθώς έχοντας φθάσει κάποιος σε αυτό το σημείο και βλέποντας τα βήματα και το κτίσμα που έχει δημιουργήσει μέχρι αυτό το σημείο,μπορεί να μάθει κάτι το καινούριο από το ίδιο το μοντέλο,το οποίο για παράδειγμα μπορεί να δείξει ότι χρειάζεται να γίνει μια τροποποίηση των δεδομένων. Αυτά τα βήματα προετοιμασιών δεδομένων μπορούν να πάρουν από το 50% μέχρι και το 90% του χρόνου και της προσπάθειας που απαιτείται για την ολοκλήρωση της διαδικασίας του χτισίματος ενός μοντέλου για την ανακάλυψη γνώσης! Τα δεδομένα που πρόκειται να εξορυχτούν πρέπει να συλλεχθούν σε μια βάση δεδομένων. Σε αυτό το σημείο θα πρέπει να σημειωθεί ότι αυτό δεν υπονοεί απαραιτήτως και την χρήση ενός συστήματος διαχείρισης βάσεων δεδομένων. Ανάλογα με το ποσό των δεδομένων, την πολυπλοκότητα τους και τις χρήσεις στις οποίες πρόκειται να τεθούν,θα μπορούσε κάποιος να χρησιμοποιήσει ένα επίπεδο αρχείο <flat file> ή ακόμη και λογιστικό φύλλο <spreadsheet> για να βοηθηθεί. Γενικά, θα λέγαμε ότι δεν είναι καλή ιδέα να χρησιμοποιηθεί μια συνεταιρική αποθήκη δεδομένων για αυτό το σκοπό. Θα ήταν καλύτερα αν δημιουργούσε κάποιος μία χωριστή περιοχή δεδομένων. Η εξαγωγή των δεδομένων θα μπορούσε να βοηθήσει κάποιον να γίνει ένας πολύ ενεργός χρήστης της αποθήκης δεδομένων, αυτό όμως θα μπορούσε να προκαλέσει προβλήματα κατανομής των πόρων. Η ενεργή αυτή δράση που θα αποκτούσε ο χρήστης από την εξαγωγή των δεδομένων θα του έδινε την ευκαιρία να μπορεί να ενώνει πολλούς πίνακες μαζί καθώς επίσης και να έχει πρόσβαση σε ουσιαστικές μερίδες της αποθήκης με τα δεδομένα. Ένα μόνο δοκιμαστικό μοντέλο μπορεί να απαιτήσει να υπάρξουν πολλά περάσματα μέσω ενός μεγάλου μέρους της αποθήκης δεδομένων. 57

58 Αυτό που πρέπει να τονιστεί είναι ότι μπορούν να γίνουν κάποιες αλλαγές στις αποθήκες των δεδομένων. Έτσι σχεδόν βέβαιος κάποιος θα μπορούσε να τροποποιήσει τα δεδομένα από την αποθήκη δεδομένων. Για παράδειγμα μπορεί κάποιος να θέλει να φέρει δεδομένα έξω από την επιχείρησή του για να επικαλύψει τα δεδομένα που υπάρχουν στις αποθήκες ή θα μπορούσατε να θέλει να προσθέσει κάποιους νέους τομείς που υπολογίζονται από τους ήδη υπάρχοντες τομείς. Μπορεί επίσης να πρέπει να συλλεχθούν κάποια πρόσθετα δεδομένα μέσω των ερευνών που έγιναν. Αυτό σημαίνει ότι μια επιχείρηση μπορεί να χτίσει διαφορετικά μοντέλα από την αποθήκη δεδομένων της σε σχέση με κάποια άλλη. Αυτό θα μπορούσε να συμβεί ακόμη και αν οι δυο επιχειρήσεις χρησιμοποιούσαν τα ίδια δεδομένα.επίσης μια επιχείρηση μπορεί να θελήσει να κάνει παρόμοιες αλλαγές με κάποια άλλη στην αποθήκη δεδομένων της. Παρόλα αυτά, οι διοικητές των αποθηκών δεδομένων θεωρούν ότι δεν πρέπει να γίνονται πολύ συχνές αλλάγες στις αποθήκες των δεδομένων. Ένας άλλος λόγος για το ότι θα πρέπει να υπάρχει μια χωριστή βάση δεδομένων είναι ότι η δομή της εταιρικής αποθήκης δεδομένων δεν μπορεί να υποστηρίξει εύκολα τα είδη εξερεύνησης που πρέπει να κάνει μια επιχείρηση για να καταλάβει σωστά τα δεδομένα. Αυτή η εξερεύνηση των δεδομένων μπορεί να περιλαμβάνει ερωτήσεις που συνοψίζουν τα δεδομένα, πολυδιάστατες εκθέσεις μερικές φορές αποκαλούμενες ως πίνακες άξονα <pivot tables >, και πολλά διαφορετικά είδη γραφικών παραστάσεων ή απεικονίσεων. Τελικά, μπορεί να θελήσει κάποιος να αποθηκεύσει αυτά τα δεδομένα σε ένα διαφορετικό DBMS (πρόγραμμα διαχείρισης βάσεων δεδομένων) με ένα διαφορετικό φυσικό σχέδιο από αυτό που χρησιμοποιείτε στην εταιρική αποθήκη δεδομένων της επιχείρησης. Όλο και περισσότερο, οι άνθρωποι επιλέγουν ειδικής χρήσης DBMSs που υποστηρίζουν αυτές τις απαιτήσεις εξόρυξης δεδομένων και μάλιστα αρκετά καλά. Εάν, εντούτοις, η εταιρική αποθήκη επιτρέπει στο να δημιουργηθούν τα λογικά δεδομένα marts και εάν μπορεί να χειριστεί τις απαιτήσεις των πόρων της εξόρυξης δεδομένων, τότε μπορεί επίσης και να χρησιμεύσει ως μια καλή βάση δεδομένων εξόρυξης δεδομένων Οι στόχοι στην οικοδόμηση μιας βάσης δεδομένων εξόρυξης δεδομένων είναι: α. Η συλλογή των δεδομένων. β. Η περιγραφή των δεδομένων. γ. Η επιλογή των δεδομένων. δ. Η ποιοτική αξιολόγηση των δεδομένων και ο καθαρισμός των δεδομένων. ε. Η σταθεροποίηση και η ολοκλήρωση. στ. Η κατασκευή μεταδεδομένων. ζ. Η φόρτωση της βάσης δεδομένων εξόρυξης δεδομένων. η. Η διατήρηση της βάσης δεδομένων εξόρυξης δεδομένων. Όλοι αυτοί οι στόχοι δεν εκτελούνται στην ακριβή ακολουθία που βρίσκονται αλλά εκτελούνται σύμφωνα με τις ανάγκες που θα προκύψουν. Παραδείγματος χάριν,κάποιος θα ξεκινήσει από την κατασκευή μεταδεδομένων δεδομένου ότι έχει ήδη κάποια δεδομένα και συλλέγει κάποια καινούρια δεδομένα, δεν χρειάζεται δηλαδή τα παραπάνω βήματα να γίνονται όπως είναι αλλά με βάση τις ανάγκες των χρηστών. Αυτό που μαθαίνει κάποιος στην εμπέδωση και στην αποτίμηση της ποιότητας των δεδομένων μπορεί να αλλάξει την αρχική απόφαση επιλογής σας. Παρακάτω γίνεται η ανάλυση των στόχων του χτισίματος μιας βάσης δεδομένων εξόρυξης δεδομένων. α. Συλλογή δεδομένων. Σε αυτό το σημείο θα πρέπει να γίνει ο προσδιορισμός των πηγών των δεδομένων που θα εξαχθούν. Η φάση της συλλογής των δεδομένων είναι απαραίτητη επειδή μερικά από τα δεδομένα που χρειάζεστε μπορεί να μην είχαν συλλεχθεί ποτέ. Επίσης μπορεί να πρέπει κατά την φάση αυτήν να αποκτηθούν κάποια εξωτερικά 58

59 δεδομένα από δημόσιες βάσεις δεδομένων (όπως τα στοιχεία απογραφής ή του καιρού) ή από ιδιόκτητες βάσεις δεδομένων (όπως τα δεδομένα πιστωτικών γραφείων). Για αυτά τα δεδομένα τα οποία συλλέγονται θα πρέπει να γίνει μια έκθεση η οποία θα απαριθμεί τις ιδιότητες των διαφορετικών πηγών των συνόλων δεδομένων. Μερικά από τα στοιχεία που μπορεί να περιέχει μια τέτοια έκθεση είναι : Η πηγή των δεδομένων (δηλαδή ποια είναι η εσωτερική εφαρμογή ή ποιος είναι ο εξωτερικός πωλητής ) Ποιος είναι ο ιδιοκτήτης των δεδομένων αυτών Ποιο είναι το πρόσωπο ή η οργάνωση που έχουν ως αρμοδιότητα τους τη διατήρηση των δεδομένων. Θα περιέχει επίσης την DBA. Το κόστος της DBA (εάν αγοράζεται) Την οργάνωση της αποθήκευσης (π.χ., αν είναι βάση δεδομένων Oracle, ή κάποιο αρχείο VSAM...) Το μέγεθος των πινάκων, των γραμμών, των εγγραφών κ.λπ. Το μέγεθος των ψηφιολέξεων < bytes> Τον τρόπο της φυσικής αποθήκευσης (π.χ. CD-ROM, ταινία, κεντρικός υπολογιστής -server). Τις απαιτήσεις ασφάλειας που υπάρχουν. Τους περιορισμούς που υπάρχουν στη χρήση. Τις απαιτήσεις μυστικότητας. Θα πρέπει επίσης να γίνει η σημείωση των ειδικών ζητημάτων της ασφάλειας και της μυστικότητας που η βάση δεδομένων εξόρυξης δεδομένων θα κληρονομήσει από τα δεδομένα της πηγής. Παραδείγματος χάριν, πολλά ευρωπαϊκά σύνολα δεδομένων περιορίζονται και μέσα στην ίδια την χρήση τους από τους κανονισμούς μυστικότητας που είναι πολύ πιο αυστηροί από εκείνους τους κανονισμούς ασφαλείας που υπάρχουν στις Ηνωμένες Πολιτείες. β. Η περιγραφή των δεδομένων : Εδώ γίνεται περιγραφή των περιεχομένων των αρχείων ή του πίνακα των βάσεων δεδομένων. Μερικές από τις τεκμηριωμένες ιδιότητες σε μια έκθεση περιγραφής δεδομένων είναι: Ο αριθμός των πεδίων και των στηλών Ο αριθμός ή το ποσοστό των αρχείων με χαμένες τιμές Τα ονόματα των πεδίων. Για κάθε πεδίο περιέχονται τα εξής στοιχεία μέσα στην έκθεση της περιγραφής των δεδομένων : Ο τύπος των στοιχείων Ο καθορισμός των στοιχείων Η περιγραφή των στοιχείων Η πηγή του πεδίου. Η μονάδα του μέτρου Ο αριθμός των μοναδικών τιμών. Κατάλογος τιμών Μια λίστα από τιμές. Ο αριθμός ή το ποσοστό των χαμένων τιμών. Πληροφορίες που έχουν σχέση με την συλλογή των πληροφοριών (π.χ., πώς συλλέχθηκαν οι πληροφορίες, από πού και οι όροι συλλογής τους ) Το χρονικό πλαίσιο στο οποίο έγινε η συλλογή των δεδομένων (π.χ., καθημερινά, εβδομαδιαία, ή μηνιαία) Στοιχεία του συγκεκριμένου χρόνου που έγινε η συλλογή τους (π.χ., κάθε Δευτέρα ή κάθε Τρίτη) Το πρωτεύον κλειδί ή το άγνωστο κλειδί των σχέσεων. 59

60 γ.η Επιλογή των δεδομένων. Το επόμενο βήμα στην προετοιμασία της βάσης δεδομένων εξόρυξης δεδομένων είναι να επιλεγεί εκείνο το υποσύνολο των δεδομένων που θέλει κάποιος να εξορύξει. Αυτό δεν είναι το ίδιο με την επιλογή της βάση δεδομένων ή της επιλογής των μεταβλητών πρόβλεψης. Μάλλον, είναι μια ακαθάριστη αποβολή των άσχετων ή αχρείαστων δεδομένων. Άλλα κριτήρια για τον αποκλεισμό των δεδομένων μπορεί να είναι ο περιορισμός των πόρων, το κόστος τους, οι περιορισμοί που υπάρχουν στη χρήση των δεδομένων, ή τα ποιοτικά προβλήματα. δ. Η Ποιοτική αξιολόγηση των δεδομένων και ο καθαρισμός των δεδομένων. Το <GIGO -Garbage In, Garbage Out> που σημαίνει σκουπίδια μέσα,σκουπίδια έξω είναι αρκετά εφαρμόσιμο στην εξόρυξη δεδομένων, έτσι εάν θέλει κάποιος καλά μοντέλα πρέπει να έχει και καλά δεδομένα.η ποιοτική αξιολόγηση ενός δεδομένου προσδιορίζει τα χαρακτηριστικά εκείνα των δεδομένων που έχουν επιπτώσεις στην ποιότητα του μοντέλου. Ουσιαστικά, θα πρέπει να υπάρχει εξασφάλιση όχι μόνο για την ακρίβεια και τη συνέπεια των τιμών αλλά επίσης θα πρέπει να εξασφαλιστεί ότι όλα τα δεδομένα που έχει κάποιος μετρούν το ίδιο πράγμα και με τον ίδιο τρόπο. Υπάρχουν διάφοροι τύποι προβλημάτων με την ποιότητα των δεδομένων. Οι μοναδικοί τομείς μπορούν να έχουν μια ανακριβή αξία. Παραδείγματος χάριν, πρόσφατα ένας εννιαψήφιος αριθμός αναγνώρισης της κοινωνικής ασφάλισης κάποιου ατόμου εισάχθηκε κατά λάθος ως το εισόδημα αυτού του ατόμου και το λάθος ανακαλύφθηκε όταν υπολόγισε η κυβέρνηση τους φόρους του! Ακόμα και όταν μεμονωμένα πεδία έχουν τι εμφανίζεται ως σωστές τιμές, μπορεί ακόμη και εκεί να υπάρχουν ανακριβείς συνδυασμοί, όπως για παράδειγμα τα έγκυα αρσενικά. Επίσης μερικές φορές η αξία για έναν πεδίο μπορεί να λείπει. Οι ασυνέπειες πρέπει να είναι προσδιορισμένες και αφαιρούμενες κατά την παγίωση των δεδομένων από τις πολλαπλές πηγές.. Το χάσιμο των δεδομένων μπορεί να είναι ένα πολύ σοβαρό πρόβλημα. Εάν πρέπει να διαγράψετε κάθε εγγραφή που περιέχει κενά πεδία, μπορείτε να χρησιμοποιήσετε με μια πολύ μικρή βάση δεδομένων ή μια ανακριβή εικόνα της όλης βάσης δεδομένων. Το γεγονός ότι μπορεί να λείπει μια τιμή καθιστά το γεγονός αυτό σημαντικό από μόνο του. Ίσως μόνο οι πλούσιοι πελάτες θα άφηναν τακτικά κενό το πεδίο "εισόδημα".θα ήταν κάτι πολύ σημαντικό αν δημιουργούσε κάποιος μια νέα μεταβλητή για να μπορεί να προσδιορίσει τις ελλείπουσες τιμές, να χτίσει ένα μοντέλο και να μπορεί να το χρησιμοποιήσει, και να συγκρίνετε τα αποτελέσματα που επιτευχθούν ύστερα από την αντικατάσταση της ελλείπουσας τιμής. Μια άλλη προσέγγιση είναι να υπολογιστεί μια υποκατάστατη τιμή. Μερικές κοινές στρατηγικές για τον υπολογισμό των ελλειπουσών τιμών περιλαμβάνουν τη χρησιμοποίηση της τροπικής τιμής (για ονομαστικές μεταβλητές), την διάμεσο (για την τακτική μεταβλητή), ή το μέσο όρο (για τις συνεχείς μεταβλητές). Μια λιγότερο κοινή στρατηγική είναι να οριστεί μια ελλειπούσα τιμή που υπολογίζεται με βάση τη διανομή των τιμών για εκείνη την μεταβλητή. Παραδείγματος χάριν, εάν μια βάση δεδομένων αποτελείτε από 40% θηλυκά και 60% αρσενικά, τότε θα μπορέσει κάποιος να προσδιορίσει αν υπάρχει κάποια ελλείπουσα είσοδος με τιμή γένους «θηλυκά» εφόσον η τιμή αυτή ανήκει μέσα στο 40% της τιμής που αντιστοιχεί για τα θηλυκά,και με τον ίδιο τρόπο θα μπορούσε να υπολογίσει μια ελλειπούσα είσοδο και για τα αρσενικά Μερικές φορές οι άνθρωποι χτίζουν προβλεπτικά μοντέλα χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων για να προβλέψουν τις ελλείπουσες τιμές. Αυτό δίνει συνήθως ένα καλύτερο αποτέλεσμα από έναν απλό υπολογισμό, αλλά είναι πιο χρονοβόρο. Σε αυτό το σημείο πρέπει να τονιστεί ότι δεν μπορούν να λυθούν όλα τα προβλήματα, έτσι θα πρέπει να γίνει σημαντική εργασία γύρω από αυτά όσο καλύτερα γίνεται. Είναι προτιμότερο και πιο αποδοτικό να οργανώσει κάποιος τις διαδικασίες και τους ελέγχους που πρέπει να γίνουν για την αποφυγή εμφάνισης 60

61 προβλημάτων ποιότητας στα δεδομένα,θα πρέπει με άλλα λόγια να υπάρχει κάποια πρόληψη. Συνήθως πρέπει τα μοντέλα να χτιστούν με τα δεδομένα που έχετε τώρα. ε. Η σταθεροποίηση και η ολοκλήρωση. Τα δεδομένα που χρειάζεται κάποιος μπορούν να αποθηκευτούν σε μια ενιαία βάση δεδομένων ή μέσα σε πολλαπλάσιες βάσεις δεδομένων. Οι βάσεις δεδομένων πηγής μπορούν να είναι βάσεις δεδομένων συναλλαγής που χρησιμοποιούνται από τα λειτουργικά συστήματα της επιχείρησής σας. Άλλα δεδομένα μπορούν να βρίσκονται στις αποθήκες δεδομένων ή στα <marts > δεδομένων που είναι χτισμένα για συγκεκριμένους λόγους. Επίσης κάποια άλλα δεδομένα μπορούν να αποθηκευτούν σε μια ιδιόκτητη βάση δεδομένων που ανήκει μια άλλη επιχείρηση όπως ένα πιστωτικό γραφείο Η ολοκλήρωση και η σταθεροποίηση δεδομένων συνδυάζουν δεδομένα από διαφορετικές πηγές σε μια ενιαία βάση δεδομένων εξόρυξης δεδομένων και απαιτούν την εναρμόνιση των διαφορών αυτών που υπάρχουν στις τιμές των δεδομένων από διαφορετικές πηγές. Τα ακατάλληλα αυτά εναρμονισμένα δεδομένα θα λέγαμε ότι είναι μια σημαντική πηγή των προβλημάτων ποιότητας. Υπάρχουν συχνά μεγάλες διαφορές με τον τρόπο που τα δεδομένα καθορίζονται αλλά και χρησιμοποιούνται σε διαφορετικές βάσεις δεδομένων. Μπορεί να αποκαλυφτούν πολύ εύκολα μερικές ασυνέπειες, όπως για παράδειγμα οι διαφορετικές διευθύνσεις για τον ίδιο πελάτη. Αυτό που κάνει ακόμη δυσκολότερο την επίλυση αυτών των προβλημάτων είναι ότι είναι πολύ περίπλοκα. Παραδείγματος χάριν, ένας πελάτης μπορεί να έχει διαφορετικά ονόματα ή ακόμα χειρότερα να υπάρχουν πολλοί διαφορετικοί αριθμοί αναγνώρισης πελατών. Για παράδειγμα το ίδιο όνομα μπορεί να χρησιμοποιηθεί για διαφορετικές οντότητες (ομώνυμα), ή διαφορετικά ονόματα μπορούν να είναι χρησιμοποιημένα για την ίδια οντότητα (συνώνυμα).υπάρχουν συχνά ασυμβίβαστα μονάδων, ειδικά όταν οι πηγές δεδομένων παγιώνονται από διαφορετικές χώρες παραδείγματος χάριν, τα αμερικάνικα δολάρια και τα καναδικά δολάρια δεν μπορούν να προστεθούν χωρίς πρώτα να γίνει η μετατροπή τους. στ. Η κατασκευή μεταδεδομένων. Οι πληροφορίες που βρίσκονται στην περιγραφή του συνόλου δεδομένων καθώς και στις εκθέσεις περιγραφής των δεδομένων είναι η βάση για την υποδομή των μεταδεδομένων. Στην ουσία αυτό είναι μια βάση δεδομένων για την ίδια την βάση δεδομένων. Αυτή η βάση δεδομένων παρέχει πληροφορίες που θα χρησιμοποιηθούν στη δημιουργία της φυσικής βάσης δεδομένων καθώς επίσης και πληροφορίες που θα χρησιμοποιηθούν από τους ίδιους τους αναλυτές στην κατανόηση των δεδομένων και την οικοδόμηση των μοντέλων. ζ. Η φόρτωση της βάσης δεδομένων εξόρυξης δεδομένων. Στις περισσότερες περιπτώσεις τα δεδομένα πρέπει να αποθηκευτούν στην βάση δεδομένων της επιχείρησης. Για μεγάλους όμως αριθμούς δεδομένων και για σύνθετα δεδομένα, θα ήταν καλύτερα να χρησιμοποιηθεί ένα DBMS (πρόγραμμα διαχείρισης βάσεων δεδομένων) σε αντιδιαστολή με ένα επίπεδο αρχείο <flat file>. Συλλέγοντας τα δεδομένα, ενσωματώνοντας τα στην βάση δεδομένων και καθαρίζοντας τα, είναι τώρα απαραίτητο να φορτωθεί πραγματικά η ίδια βάση δεδομένων. Ανάλογα με το DBMS (πρόγραμμα διαχείρισης βάσεων δεδομένων) και το υλικό που χρησιμοποιείτε, το ποσό των δεδομένων, και την πολυπλοκότητα του σχεδίου βάσεων δεδομένων, μπορεί να αποδειχθεί αυτό ως ένα πολύ σοβαρό θέμα που απαιτεί την πείρα των επαγγελματιών συστημάτων των πληροφοριών η. Η διατήρηση της βάση δεδομένων εξόρυξης δεδομένων. Μόλις δημιουργηθεί μια βάση δεδομένων στην συνέχεια θα πρέπει να φροντίζεται συνεχώς. Πρέπει να υπάρχει περιοδική υποστήριξη της απόδοσης της καθώς επίσης και έλεγχος. Μπορεί επίσης να χρειαστεί περιστασιακή αναδιοργάνωση για να 61

62 αξιοποιήσει σωστά το μέγεθος της αποθήκευσης των δίσκων ή για να βελτιώσει την απόδοση. Για μια μεγάλη, σύνθετη βάση δεδομένων που αποθηκεύεται σε ένα DBMS (πρόγραμμα διαχείρισης βάσεων δεδομένων), η συντήρηση μπορεί επίσης να απαιτήσει τις υπηρεσίες επαγγελματιών συστημάτων πληροφοριών. 3)Ερευνήστε τα δεδομένα. Ο στόχος σε αυτό το σημείο είναι να προσδιοριστούν οι σημαντικότεροι τομείς στην πρόβλεψη μιας έκβασης, καθώς επίσης και να καθοριστούν ποιες προσδιορισμένες τιμές μπορεί να είναι χρήσιμες. Σε ένα σύνολο δεδομένων με εκατοντάδες ή ακόμα και χιλιάδες στήλες,η εξερεύνηση των δεδομένων είναι μια πολύ χρονοβόρα διαδικασία και η εργασία είναι εντατική επειδή θα πρέπει να γίνει ο διασαφηνισμός των δεδομένων.σε αυτήν την περίπτωση μια καλή διεπαφή <interface> και μια γρήγορη απάντηση υπολογιστών είναι πολύ σημαντικές επειδή μπορούν να αλλάξουν την ίδια την φύση της εξερεύνησής των δεδομένων όταν πρέπει να περιμένετε μόνο για 20 λεπτά για μερικές γραφικές παραστάσεις, πόσο μάλλον αν θα περίμενε κάποιος μια ημέρα. 4) Προετοιμάστε τα δεδομένα για μοντελοποίηση. Αυτό είναι το τελικό βήμα της προετοιμασίας των δεδομένων πριν να χτιστούν τα δεδομένα. Υπάρχουν τέσσερα κύρια μέρη σε αυτό το βήμα: α. Επιλέξτε τις μεταβλητές β. Επιλέξτε τις σειρές γ. Κατασκευάστε τις νέες μεταβλητές δ. Μετασχηματίστε τις μεταβλητές α. Επιλέξτε τις μεταβλητές. Ιδανικά, κάποιος θα έπαιρνε όλες τις μεταβλητές που είχε και θα τις έδινε σε το εργαλείο της εξόρυξης δεδομένων που είχε για να αποφασίσει εκείνο ποιες είναι οι καλύτερες μεταβλητές πρόβλεψης Στην πράξη όμως αυτό δεν θα λειτουργούσε πολύ καλά. Ένας λόγος είναι ότι ο χρόνος που θα απαιτούνταν για να χτιστεί ένα μοντέλο θα αυξάνονταν ανάλογα με τον αριθμό των μεταβλητών. Ένας άλλος λόγος είναι ότι συμπεριλαμβάνοντας ξένες στήλες αυτό μπορεί να οδηγήσει σε ανακριβή μοντέλα. Ένα πολύ κοινό λάθος, παραδείγματος χάριν, είναι η χρησιμοποίηση μιας μεταβλητής πρόβλεψης δεδομένων που μπορεί να είναι γνωστή μόνο εάν γνωρίζει κάποιος και την τιμή της μεταβλητής απάντησης. Ένα παράδειγμα είναι ότι οι άνθρωποι χρησιμοποιούν την ημερομηνία γέννησης για "να προβλέψουν " την ηλικία χωρίς πραγματικά να την συνειδητοποιούν. Ενώ σε γενικές γραμμές μερικοί αλγόριθμοι εξόρυξης δεδομένων θα αγνοούσαν αυτόματα τις άσχετες μεταβλητές και θα έκαναν κατάλληλα τον απολογισμό για τις σχετικές (covariant) στήλες, στην πράξη αυτό θα ήταν καλό να αποφευχθεί στηριζόμενοι μόνο στο εργαλείο αυτό των αλγορίθμων. Συχνά η γνώση της περιοχής του προβλήματος μπορεί να οδηγήσει στο να γίνουν πολλές από αυτές τις επιλογές σωστά. Παραδείγματος χάριν, οι μεταβλητές για τον αριθμό ταυτότητας ή για τον αριθμό κοινωνικής ασφάλισης δεν θα είχαν στην καλύτερη περίπτωση κανένα όφελος και στη χειρότερη περίπτωση θα μπορούσαν ακόμη και να μειώσουν το βάρος άλλων σημαντικών μεταβλητών. β. Επιλέξτε τις σειρές. Όπως και στην περίπτωση της επιλογής των μεταβλητών, θα επιθυμούσατε να χρησιμοποιήσετε όλες τις σειρές που έχετε για να χτίσετε τα μοντέλα. Εάν έχετε πολλά δεδομένα αυτό μπορεί να πάρει πάρα πολύ χρόνο ή μπορεί να απαιτήσει από εσάς να αγοράσετε έναν μεγαλύτερο υπολογιστή. έτσι λοιπόν θα λέγαμε ότι είναι μια πολύ καλή ιδέα μια καλή ιδέα να δοκιμάσει κάποιος τα δεδομένα όταν η βάση δεδομένων του είναι μεγάλη. Με αυτόν τον 62

63 τρόπο δεν υπάρχει καμία απώλεια πληροφοριών για τα περισσότερα προβλήματα των επιχειρήσεων, παρόλα αυτά η επιλογή των δειγμάτων των δεδομένων πρέπει να γίνει πολύ προσεκτικά για να διαβεβαιώσει ότι το δείγμα είναι πραγματικά τυχαίο. Αν είχαμε να επιλέξουμε μεταξύ της έρευνας μερικών μοντέλων που στηρίχτηκαν σε όλα τα δεδομένα ή της έρευνας περισσοτέρων μοντέλων τα οποία στηρίχτηκαν σε ένα δείγμα, θα ήταν καλύτερο να επιλέξουμε την τελευταία προσέγγιση γιατί θα μπορούσε να βοηθήσει περισσότερο να αναπτυχθεί ένα ακριβέστερο και δυνατό μοντέλο. Μπορεί επίσης να θέλει κάποιος να πετάξει κάποια δεδομένα τα οποία μπορεί να θεωρήσει ότι δεν έχουν άμεση σχέση με το θέμα του,ακόμα όμως και σε αυτές τις περιπτώσεις και αυτά τα δεδομένα μπορεί να περιέχουν σημαντικές πληροφορίες για το χτίσιμο ενός μοντέλου, συχνά μπορούν να αγνοηθούν αυτού του είδους τα δεδομένα εξαιτίας της προσπάθειας να κατανοήσει κάποιος το πρόβλημά του. Παραδείγματος χάριν, μπορούν να είναι το αποτέλεσμα της εισαγωγής λανθασμένων δεδομένων, ή ενός περιστατικού που δεν συμβαίνει συχνά όπως για παράδειγμα μια απεργία εργασίας. Μερικές φορές μπορεί να πρέπει να προστεθούν και κάποιες νέες εγγραφές όπως (π.χ., εγγραφές για τους πελάτες που δεν έκαναν καμία αγορά). γ. Κατασκευάστε τις νέες μεταβλητές. Είναι συχνά απαραίτητο να κατασκευαστούν κάποιες νέες μεταβλητές πρόβλεψης που προέρχονται από ακατέργαστα δεδομένα. Παραδείγματος χάριν, θα ήταν καλύτερη ιδέα να χρησιμοποιήσουμε την πρόβλεψη του πιστωτικού κινδύνου που χρησιμοποιεί μια αναλογία για το χρέος εισόδημα, παρά ακριβώς το χρέος και το εισόδημα ως μεταβλητές πρόβλεψης, γιατί απλά η πρώτη περίπτωση μπορεί να παραγάγει ακριβέστερα αποτελέσματα τα οποία είναι επίσης και ευκολότερα να γίνουν κατανοητά. Ορισμένες μεταβλητές που μόνες τους έχουν μικρή επίδραση καθώς και μικρή σημασία για το χτίσιμο του μοντέλου συνδιαζόμενες με κάποιες άλλες μεταβλητές μπορούν να βοηθήσουν κατά πολύ την εργασία μας και να παρέχουν σημαντικές πληροφορίες, χρησιμοποιώντας διάφορες αριθμητικές ή αλγεβρικές διαδικασίες (π.χ., προσθήκη, αναλογίες). Επίσης μερικές μεταβλητές πρόβλεψης και πάλι από μόνες τους μπορεί να μη φαίνονται χρήσιμες όμως αν τροποποιηθούν μπορούν να προσφέρουν σημαντικές πληροφορίες, οι τροποποιήσεις που μπορούν να γίνουν είναι για παράδειγμα η χρήση λογάριθμου του εισοδήματος αντί του ίδιου του εισοδήματος. δ. Μετασχηματίστε τις μεταβλητές. Το εργαλείο που θα επιλεγεί μπορεί να υπαγορεύσει το πώς θα αναπαραστήσει κάποιος τα δεδομένα του, για παράδειγμα, τα νευρωνικά δίκτυα απαιτούν την κατηγορική έκρηξη για την αναπαράσταση των δεδομένων. Οι μεταβλητές μπορούν επίσης να κλιμακωθούν για να πέσουν μέσα σε μια συγκεκριμένη κλίμακα, όπως για παράδειγμα στην κλίμακα του 0 έως το 1. Πολλά δέντρα απόφασης που χρησιμοποιούνται για την ταξινόμηση απαιτούν συνεχή δεδομένα όπως το εισόδημα το οποίο μπορεί να ομαδοποιηθεί σε ράβδους (δοχεία) όπως υψηλό, μέσο, και χαμηλό. Η κωδικοποίηση που θα επιλέξει κάποιος μπορεί να επηρεάσει το αποτέλεσμα του μοντέλου του. Παραδείγματος χάριν, η διακοπή των σημείων που υπάρχουν ανάμεσα από τις ράβδους μπορούν να αλλάξουν την έκβαση ενός μοντέλου. 5. Χτίστε το μοντέλο. Το σημαντικότερο πράγμα που θα πρέπει να θυμάται κάποιος για το χτίσιμο του μοντέλου του είναι ότι θα πρέπει να υπάρχει μια επαναληπτική διαδικασία. Θα πρέπει να ερευνήσει διάφορα εναλλακτικά μοντέλα που υπάρχουν έτσι ώστε να βρει αυτό που θα ήταν πιο χρήσιμο και κατάλληλο στην επίλυση του επιχειρησιακού του προβλήματός. Αυτό που μπορεί να μάθει κάποιος κατά την έρευνα για την 63

64 εύρεση ενός καλού μοντέλου μπορεί να οδηγήσει στο να επιστρέψει και να κάνει μερικές αλλαγές στα δεδομένα που έχει ή ακόμη και να τροποποιήσει την δήλωση του προβλήματος του. Μόλις αποφασίσει σχετικά με τον τύπο πρόβλεψης που θέλει να χρησιμοποιήσει (π.χ., ταξινόμηση ή παλινδρόμηση), θα πρέπει στην συνέχεια να επιλέξει έναν τύπο μοντέλου για την παραγωγή της πρόβλεψης. Αυτό θα μπορούσε να είναι ένα δέντρο απόφασης, ή ένα νευρωνικό δίκτυο,ή λογική παλινδρόμηση,ή ακόμη και μια ιδιόκτητη δική του μέθοδος. Η επιλογή του τύπου δεδομένων θα επηρεάσει και το πώς θα πρέπει να προετοιμαστούν τα δεδομένα. Για παράδειγμα, ένα εργαλείο νευρωνικού δικτύου μπορεί να απαιτήσει την χρήση της μεθόδου της έκρηξης στις κατηγορικές μεταβλητές του. Επίσης ένα εργαλείο θα μπορούσε να απαιτήσει τα δεδομένα να έχουν κάποιο ιδιαίτερο σχήμα αρχείων, αυτό θα σήμαινε ότι απαιτεί κατά συνέπεια να εξαχθούν τα δεδομένα στο ίδιο αυτό σχήμα. Μόλις τα δεδομένα είναι έτοιμα, μπορεί να συνεχίσει με την κατάρτιση του μοντέλου. Η διαδικασία του χτισίματος των προβλεπτικών μοντέλων απαιτεί ένα καθορισμένο με σαφήνεια πρωτόκολλο κατάρτισης και επικύρωσης προκειμένου να διασφαλιστούν ακριβέστερες και δυνατές προβλέψεις. Αυτό το είδος πρωτοκόλλου μερικές φορές αποκαλείται ως εποπτευομένη εκμάθηση. Η ουσία της εποπτευομένης εκμάθησης είναι ότι πρόκειται να εκπαιδεύσει (εκτίμηση) το μοντέλο σε μια μερίδα των δεδομένων, και κατόπιν να το δοκιμάσει και να το επικυρώσει στο υπόλοιπο μέρος των δεδομένων. Ένα μοντέλο χτίζεται όταν ολοκληρωθεί ο κύκλος της κατάρτισης και της δοκιμής του.μερικές φορές μπορεί να απαιτηθεί και ένα τρίτο σύνολο δεδομένων, αποκαλούμενο ως σύνολο δεδομένων επικύρωσης, επειδή τα δεδομένα δοκιμής μπορούν να επηρεάσουν τα χαρακτηριστικά γνωρίσματα του μοντέλου, έτσι θα λέγαμε ότι το σύνολο επικύρωσης δρα ως ένα ανεξάρτητο μέτρο της ακρίβειας του μοντέλου. Η κατάρτιση και η δοκιμή του μοντέλου εξόρυξης δεδομένων απαιτούν να χωριστούν τα δεδομένα σε δύο τουλάχιστον ομάδες: μία για την εκπαίδευση του μοντέλου (δηλ., για την εκτίμηση των παραμέτρων του μοντέλου ) και μια για την δοκιμή του μοντέλου. Εάν κάποιος δεν χρησιμοποιεί διαφορετικά δεδομένα εκπαίδευσης και ελέγχου, η ακρίβεια του μοντέλου θα υπερεκτιμηθεί. Από την στιγμή που θα παραχθεί το μοντέλο χρησιμοποιώντας τη βάση δεδομένων κατάρτισης, στη συνέχεια μπορεί να χρησιμοποιηθεί για να προβλέψει τη βάση δεδομένων δοκιμής, και το προκύπτον ποσοστό ακρίβειας μπορεί να προσφέρει μια καλή εκτίμηση για το πώς το θα τα πάει το μοντέλο σε μελλοντικές βάσεις δεδομένων που είναι παρόμοιες με τις βάσεις δεδομένων κατάρτισης και δοκιμής. Αυτό δεν εγγυάται ότι το μοντέλο είναι απολύτως σωστό αλλά απλά λέει ότι εάν η ίδια τεχνική χρησιμοποιηθεί σε άλλες βάσεις δεδομένων με παρόμοια δεδομένα με τα δεδομένα κατάρτισης και δοκιμής, η μέση ακρίβεια θα ήταν πολύ κοντά σε αυτήν που επιτεύχθηκε με τον παραπάνω τρόπο. Απλή επικύρωση. Η πιο βασική μέθοδος εξέτασης καλείται απλή επικύρωση. Για να πραγματοποιηθεί αυτή η μέθοδος, πρέπει να θέσει κάποιος κατά μέρος ένα ποσοστό της βάσης δεδομένων ως βάση δεδομένων δοκιμής, αυτή η βάση δεδομένων δεν θα χρησιμοποιούνταν από καμιά άποψη για το χτίσιμο του μοντέλου και την εκτίμηση του. Αυτό το ποσοστό πρέπει να είναι συγκεκριμένα μεταξύ 5% και 33%. Για να είναι όλοι οι μελλοντικοί υπολογισμοί σωστοί, ο διαχωρισμός των δεδομένων σε δύο ομάδες πρέπει να είναι τυχαίος, έτσι ώστε τα σύνολα δεδομένων κατάρτισης και δοκιμής και τα δύο να αντανακλούν τα δεδομένα που μοντελοποιούνται. Μετά από το χτίσιμο του μοντέλου και στο κυρίως σώμα των δεδομένων, το μοντέλο χρησιμοποιείται για να προβλέψει τις τάξεις ή τις τιμές της βάσης δεδομένων δοκιμής. Διαιρώντας τον αριθμό των ανακριβών ταξινομήσεων με τον συνολικό αριθμό των περιπτώσεων αυτό δίνει ένα ποσοστό λάθους. Διαιρώντας των αριθμό των σωστών ταξινομήσεων με το συνολικό αριθμό των περιπτώσεων αυτό δίνει ένα ποσοστό ακρίβειας (δηλ., ακρίβεια = 1 λάθος). Σε ένα μοντέλο 64

65 παλινδρόμησης, το πόσο καλά είναι ταιριασμένο το " r τετράγωνο " χρησιμοποιείται συνήθως για την εκτίμηση της ακρίβειας. Στην οικοδόμηση ενός μοναδικού μοντέλου,ακόμη και αυτή η απλή επικύρωση μπορεί να χρειαστεί να πραγματοποιηθεί πάρα πολλές φορές. Παραδείγματος χάριν, κατά την χρησιμοποίηση ενός νευρωνικού δικτύου, μερικές φορές σε κάθε μονοπάτι της εκπαίδευσης διαμέσου του δικτύου, το δίκτυο εξετάζεται σε σχέση με την βάση δεδομένων δοκιμής. Η εκπαίδευση σταματά όταν τα ποσοστά ακρίβειας στη βάση δεδομένων δοκιμής δεν μπορούν πλέον να βελτιωθούν ύστερα από τις πρόσθετες επαναλήψεις που έχουν γίνει. Διαγώνια επικύρωση <cross validation>. Εάν κάποιος έχει ένα μικρό ποσό δεδομένων (για παράδειγμα μερικές χιλιάδες σειρές) για το χτίσιμο του μοντέλου, δεν θα μπορέσει να διαθέσει κατά μέρος ένα ποσοστό από αυτά τα δεδομένα για την απλή επικύρωση. Η διασταύρωση είναι μια μέθοδος που μπορεί να επιτρέψει σε κάποιον να χρησιμοποιήσει όλα τα δεδομένα. Το δεδομένο διαιρείται τυχαία σε δύο ίσα σύνολα προκειμένου να υπολογιστεί η προφητική ακρίβεια του μοντέλου. Κατ' αρχάς, ένα μοντέλο χτίζεται από το πρώτο σύνολο και χρησιμοποιείται στην συνέχεια για να προβλέψει τις εκβάσεις στο δεύτερο σύνολο και για να υπολογίσει ξανά ένα ποσοστό λάθους. Στην συνέχεια χτίζεται ένα άλλο μοντέλο από το δεύτερο σύνολο και χρησιμοποιείται για να προβλέψει τις εκβάσεις στο πρώτο σύνολο και να υπολογίσει πάλι ένα ποσοστό λάθους. Τέλος, ένα μοντέλο χτίζεται χρησιμοποιώντας όλα τα δεδομένα. Έτσι μέχρι αυτό το σημείο θα λέγαμε ότι υπάρχουν δύο ανεξάρτητες εκτιμήσεις λάθους που μπορούν να υπολογιστούν στην συνέχεια κατά μέσο όρο έτσι ώστε να δώσουν μια καλύτερη εκτίμηση της πραγματικής ακρίβειας του μοντέλου που στηρίζεται τώρα σε όλα τα δεδομένα.τυπικά, χρησιμοποιείται η πιο γενική διασταύρωση ν- πτυχών <n-fold cross validation>. Σε αυτήν την μέθοδο, τα δεδομένα διαιρούνται τυχαία σε ν διαφορετικές ομάδες. Παραδείγματος χάριν, αν υποθέσουμε ότι το δεδομένο διαιρείται σε δέκα ομάδες. Η πρώτη ομάδα τίθεται κατά μέρος για να δοκιμαστεί και οι υπόλοιπες εννιά συγκεντρώνονται όλες μαζί για να χτίσουν το μοντέλο. Το μοντέλο που χτίζεται από αυτήν την ομάδα του 90%,χρησιμοποιείται έπειτα για να προβλέψει την ομάδα που τέθηκε κατά μέρος. Αυτή η διαδικασία επαναλαμβάνεται συνολικά 10 φορές καθώς κάθε ομάδα στη συνέχεια τίθεται κατά μέρος, και το μοντέλο χτίζεται από τα υπόλοιπα 90% των δεδομένων. Έπειτα αυτό το μοντέλο χρησιμοποιείται για να προβλέψει την ομάδα τέθηκε στην άκρη. Τελικά χτίζεται ένα μοντέλο χρησιμοποιώντας όλα τα δεδομένα. Ο μέσος όρος από τα 10 ανεξάρτητα ποσοστά λάθους της πρόβλεψης χρησιμοποιείται ως το ποσοστό λάθους για αυτό το τελευταίο μοντέλο. Το < Bootstrapping > είναι μια άλλη τεχνική για τον υπολογισμό του λάθους ενός μοντέλου, συχνά χρησιμοποιείται με πολύ μικρά σύνολα δεδομένων. Όπως στη διασταύρωση <cross validation>, το μοντέλο χτίζεται από ολόκληρο το σύνολο των δεδομένων. Στη συνέχεια πολυάριθμα σύνολα δεδομένων τα οποία ονομάζονται <Bootstrapp> δημιουργούνται κάνοντας την δειγματοληψία από το αρχικό σύνολο δεδομένων. Αφότου γίνει δειγματοληψία σε κάθε περίπτωση, στην συνέχεια αντικαθίσταται και μια περίπτωση επιλέγεται πάλι μέχρι να δημιουργηθεί ολόκληρο το bootstrap. Θα πρέπει να τονιστεί ότι οι εγγραφές μπορούν να εμφανιστούν περισσότερο από μία φορά στα σύνολα δεδομένων που δημιουργήθηκαν έτσι.ένα μοντέλο χτίζεται από αυτό το σύνολο δεδομένων, και το ποσοστό λάθους του μπορεί να υπολογιστεί. Αυτό το λάθος καλείται λάθος επαναντικατάστασης < resubstitution error>. Πολλά δείγματα Bootstrapp> δημιουργούνται (μερικές φορές και άνω των 1,000).Ο τελευταίος υπολογισμός του λάθους, για το μοντέλο το οποίο χτίζεται από ολόκληρο το σύνολο δεδομένων, γίνεται με τη λήψη του μέσου όρου από των εκτιμήσεων που έγιναν από κάθε ένα από τα δείγματα Bootstrapp>. Βασισμένος κάποιος στα αποτελέσματα από το χτίσιμο του μοντέλου, μπορεί να θελήσει να χτίσει ένα άλλο μοντέλο χρησιμοποιώντας την ίδια τεχνική αλλά 65

66 διαφορετικές παραμέτρους, ή ίσως να δοκιμάσει κάποιους άλλους αλγορίθμους ή εργαλεία. Παραδείγματος χάριν, μια άλλη προσέγγιση θα μπορούσε να αυξήσει την ακρίβεια. Κανένα εργαλείο ή τεχνική δεν είναι τέλειο για όλα τα δεδομένα, και θα ήταν πολύ δύσκολο εάν όχι ακατόρθωτο να επιλέξει κάποιος προτού ξεκινήσει με σιγουριά ποια τεχνική θα λειτουργήσει καλύτερα.αυτό που συμβαίνει πιο συχνά είναι να χτίζονται πολλά μοντέλα πριν να βρεθεί ένα ικανοποιητικό μοντέλο. 6. Αξιολογείστε το μοντέλο. α. Επικύρωση μοντέλου. Αφού χτιστεί ένα μοντέλο, θα πρέπει να αξιολογηθούν τα αποτελέσματά του και να ερμηνευθεί η σημασία τους. Το ποσοστό ακρίβειας που βρίσκεται κατά τη διάρκεια της δοκιμής ισχύει μόνο για τα δεδομένα εκείνα με τα οποία χτίστηκε το μοντέλο. Στην πράξη, η ακρίβεια μπορεί να ποικίλει εάν τα δεδομένα στα οποία αναφέρεται το μοντέλο διαφέρουν για πολλούς σημαντικούς και άγνωστους λόγους από τα αρχικά δεδομένα.θα πρέπει σε αυτό το σημείο να τονιστεί το εξής ότι η ίδια η ακρίβεια δεν είναι απαραιτήτως η σωστή μετρική για την επιλογή του καλύτερου μοντέλου.θα πρέπει να γνωρίζει κάποιος περισσότερα πράγματα όσο αφορά τον τύπο των λαθών και τα κόστη που συνδέονται με αυτά τα λάθη. β. Μήτρες σύγχυσης. Για τα προβλήματα ταξινόμησης, μια μήτρα σύγχυσης είναι ένα πολύ χρήσιμο εργαλείο για να κατανοηθούν καλύτερα τα αποτελέσματα. Μια μήτρα σύγχυσης (Πίνακας 2) παρουσιάζει τις αριθμήσεις του πραγματικών εναντίον των προβλεφθεισών τιμών των κατηγοριών..μια μήτρα σύγχυσης δεν δείχνει μόνο το πόσο καλά προβλέπει το μοντέλο, αλλά παρουσιάζει επίσης και λεπτομέρειες οι οποίες έπρεπε να κοιταχτούν ακριβώς εκεί όπου τα πράγματα μπορεί να είχαν πάει στραβά. Ο ακόλουθος πίνακας 2 είναι μια μήτρα σύγχυσης δειγμάτων. Οι στήλες παρουσιάζουν τις πραγματικές κατηγορίες, ενώ οι σειρές παρουσιάζουν τις προβλεφθείσες κατηγορίες. Επομένως η διαγώνιος παρουσιάζει όλες τις σωστές προβλέψεις. Δηλαδή οι σωστές προβλέψεις θα ήταν στην προκειμένη περίπτωση τα νούμερα 45,38 και 40.Επίσης μπορεί να δει κάποιος ότι το μοντέλο προέβλεψε 38 από τις 46 κατηγορίες της τάξης Β σωστά, αλλά από τις 46 κατηγορίες προέβλεψε λανθασμένα 8 : δύο ως κατηγορία Α και έξι ως κατηγορία Γ. Αυτό είναι πιο πληροφοριακό από το να πούμε απλά ότι το γενικό ποσοστό ακρίβειας είναι 82% (δηλαδή 123 σωστές ταξινομήσεις από τις 150 περιπτώσεις. Πίνακας 2 Μήτρα σύγχυσης. Ειδικότερα, εάν υπάρχουν διαφορετικές δαπάνες που κάθε μία από αυτές μπορεί να συνδεθεί με διαφορετικά λάθη, τότε σε αυτήν την περίπτωση ένα μοντέλο με μια χαμηλότερη γενική ακρίβεια θα ήταν προτιμητέο σε σχέση με κάποιο άλλο μοντέλο που θα παρείχε υψηλότερη ακρίβεια αλλά μεγαλύτερο κόστος οργάνωσης λόγω των τύπων λαθών που θα έπρεπε να περιορίσει. Παραδείγματος χάριν, αν υποθέσουμε ότι στην παραπάνω μήτρα σύγχυσης κάθε σωστή απάντηση είχε μια αξία $10 και κάθε ανακριβής απάντηση για την κατηγορία Α είχε κόστος $5, για την 66

67 κατηγορία Β κόστος $10, και για την κατηγορία C κόστος $20, τότε η καθαρή αξία της μήτρας θα ήταν ; Στην ακόλουθη μήτρα σύγχυσης (Πίνακας 2). Η ακρίβεια έχει μειωθεί σε 79% (118/150). Αν εφαρμόσουμε τις δαπάνες της παραπάνω μήτρας σε αυτήν την μήτρα σύγχυσης (δηλαδή τα 10$,5$,10$ και 20$)η καθαρή αξία της μήτρας θα ήταν Επομένως αν είχαμε να επιλέξουμε μεταξύ της μήτρας του πίνακα 2, με ποσοστό ακριβείας 82% και καθαρή αξία μήτρας 885$,και της μήτρας του πίνακα 3,με ποσοστό ακριβείας 79% και καθαρή αξία μήτρας 940% θα επιλέγαμε την πρώτη μήτρα του πίνακα 2 εφόσον έχει και μεγαλύτερο ποσοστό ακριβείας αλλά και χαμηλότερη αξία σε σχέση με την μήτρα του πίνακα 3. Πίνακας 3. Μια άλλη μήτρα σύγχυσης. Κατά συνέπεια, εάν θελήσει κάποιος να μεγιστοποιήσει την αξία του μοντέλου, θα ήταν καλύτερη επιλογή να επιλέξει ένα λιγότερο ακριβές μοντέλο που έχει μια υψηλότερη καθαρή αξία. Το διάγραμμα (κέρδους ) του ανελκυστήρα <lift>(σχήμα 12) είναι επίσης μια μεγάλη βοήθεια στην αξιολόγηση της χρησιμότητας ενός μοντέλου. Αυτό επιδεικνύει πώς οι απαντήσεις (π.χ., σε μια άμεση παράκληση ταχυδρομείου ή μια χειρουργική επέμβαση ) αλλάζουν με την εφαρμογή του μοντέλου. Αυτή η αναλογία της αλλαγής των απαντήσεων καλείται ανελκυστήρας <lift>. Παραδείγματος χάριν, αντί του 10% του ποσοστού των απαντήσεων όταν ένα τυχαίο ποσοστό 10% του πληθυσμού νοσηλεύεται το ποσοστό των απαντήσεων του σκορ 10% του πληθυσμού,είναι πάνω από 30%. Ο ανελκυστήρας σε αυτήν την περίπτωση είναι 3. 67

68 Σχήμα 12 Διάγραμμα ανελκυστήρων. Ένα άλλο σημαντικό στοιχείο αυτής της ερμηνείας είναι να αξιολογηθεί η αξία του μοντέλου. Πάλι, ένα σχέδιο θα μπορούσε να είναι ενδιαφέρον, αλλά ενεργώντας σε αυτό μπορεί να κοστίσει περισσότερο από το εισόδημα ή την αποταμίευση που θα παρήγαγε αυτό. Το διάγραμμα <ROI - Return On Investment > επιστροφή στην επένδυση στο Σχήμα 13 είναι ένα καλό παράδειγμα για το πώς η ένωση των τιμών με απαντήσεις και τις δαπάνες ενός προγράμματος μπορεί να παρέχει πρόσθετες οδηγίες λήψης απόφασης. Εδώ, το ROI διάγραμμα ορίζεται ως η αναλογία του κέρδους προς το κόστος.) Πρέπει να σημειωθεί επίσης ότι πέρα από το 8ο δεκατημόριο (80%), το ROI του μοντέλου γίνεται αρνητικό. Ενώ στο 2ο δεκατημόριο (20%) γίνεται μέγιστο. Σχήμα 13. Διάγραμμα ROI. Εναλλακτικά θα μπορούσατε να θέλετε να εξετάσετε την αποδοτικότητα ενός μοντέλου (κέρδος = εισόδημα μείον κόστος), όπως φαίνεται στο ακόλουθο διάγραμμα (Σχήμα 14). 68

69 Σχήμα 14. Διάγραμμα κέρδους Θα πρέπει να σημειωθεί ότι στο παράδειγμα που έχουμε χρησιμοποιήσει, ο μέγιστος ανελκυστήρας (για τα 10 δεκατημόρια) πραγματοποιήθηκε στο 1ο δεκατημόριο (10%), το μέγιστο ROI στο 2ο δεκατημόριο είναι (20%), και το μέγιστο κέρδος πραγματοποιήθηκε στο 3ο και 4ο δεκατημόριο. Ιδανικά, θα ήταν καλό να μπορεί να ενεργήσει κάποιος στα αποτελέσματα ενός μοντέλου για κάποιο κερδοφόρο σκοπό. Όμως, μπορεί να μην υπάρξει κανένα πρακτικό μέσο για να εκμεταλλευθεί κάποιος την γνώση που αποκτιέται. γ. Εξωτερική επικύρωση. Όπως επισημαίνεται ανωτέρω, ανεξάρτητα από το πόσο καλή υπολογίζεται να είναι η αξία ενός μοντέλου, δεν υπάρχει καμία εγγύηση ότι απεικονίζει τον πραγματικό κόσμο. Ένα έγκυρο μοντέλο δεν είναι απαραιτήτως και ένα σωστό μοντέλο. Ένας από τους κύριους λόγους για αυτό το πρόβλημα είναι ότι γίνονται πάντα υποθέσεις σε αυτό το μοντέλο. Παραδείγματος χάριν, το ποσοστό πληθωρισμού μπορεί να μην έχει περιληφθεί σαν μεταβλητή σε ένα μοντέλο που προβλέπει τη ροπή ενός ατόμου για την πραγματοποίηση μιας αγορά, αλλά ως ένα άλμα του πληθωρισμού από 3% σε 17% πράγμα το οποίο θα έχει επιπτώσεις φυσικά στη συμπεριφορά των ανθρώπων. Επίσης, τα δεδομένα που χρησιμοποιούνται για να χτίσουν το μοντέλο μπορεί να μην ταιριάζουν στην ουσία με τον πραγματικό κόσμο πράγμα το οποίο οδηγεί σε έναν ανακριβή μοντέλο. Επομένως είναι σημαντικό να εξεταστεί ένα μοντέλο στον πραγματικό κόσμο. Εάν ένα μοντέλο χρησιμοποιείται για να επιλέξει ένα υποσύνολο μιας αποστελλόμενης λίστας, καλό θα ήταν να κάνετε πρώτα μια αποστολή δοκιμής για να ελέγξετε το μοντέλο. Εάν ένα μοντέλο χρησιμοποιείται για να προβλέψει τον πιστωτικό κίνδυνο, θα πρέπει να δοκιμάσετε το μοντέλο σε ένα μικρό σύνολο υποψηφίων αρχικά πριν να επεκταθεί η χρήση του σε όλο το σύνολο των υποψηφίων. Όσο περισσότερο συνδέεται ο κίνδυνος με ένα ανακριβές μοντέλο,τόσο σημαντικότερο είναι να κατασκευάσουμε ένα πείραμα για να ελέγξουμε τα αποτελέσματα του μοντέλου. 7. Επεκτείνετε το μοντέλο και τα αποτελέσματα. Μόλις χτιστεί και επικυρωθεί ένα μοντέλο εξόρυξης δεδομένων, μπορεί να χρησιμοποιηθεί για έναν ή δύο κύριους τρόπους. Ο πρώτος τρόπος είναι ένας αναλυτής να προτείνει να γίνουν κάποιες ενέργειες βασισμένες απλά στην εξέταση του μοντέλου και των αποτελεσμάτων του. Για παράδειγμα, ο αναλυτής μπορεί να εξετάσει τις συστοιχίες που αναγνώρισε το μοντέλο, τους κανόνες που διέπουν το 69

Δείτε περισσότερα