ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ. Μοντέλο 3 Μ οοποοιοης. Αξιολόγηση αποτελεσμάτων συσταδοποίησης. Μπαμπαλιάρης Αθανάσιος.

Transcript

1 ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΊΔΡΥΜΑ ΚΑΒΑΛΑΣ Σχολή Διοίκησης & Οικονομίας ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ Νέα δεδομένα Μοντέλο 3 Μ οοποοιοης Σύνολο δεδομένων δοκιμής Αξιολόγηση αποτελεσμάτων συσταδοποίησης Ακρίβεια μοντέλου κ α ιη γο ριοπ οιιο η ς ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Μπαμπαλιάρης Αθανάσιος Ιανουάριος 2011 ΕΠΟΠΤΗΣ ΚΑΘΗΓΗΤΗΣ Δρ. Γ κούμας Στέφανος Επίκουρος Καθηγητής

2

3 Περιεχόμενα 3 Πρόλογος 5 Σκοπός της πτυχιακής 7 Εισαγωγή 8 Κεφάλαιο 1 Η διαδικασία εξόρυξης γνώσης 1.1 Εισαγωγή στην εξόρυξη γνώσης 1.2 Εξόρυξη γνώσης και δεδομένων 1.3 Η ανακάλυψη γνώσης από βάσεις δεδομένων (Κϋϋ) σε εξόρυξη δεδομένων 1.4 Η διαδικασία εξόρυξης δεδομένων 1.5 Απαιτήσεις εξόρυξης δεδομένων 1.6 Κατηγοριοποίηση των μεθόδων εξόρυξης δεδομένων 1.7 Επισκόπηση των εργασιών εξόρυξης δεδομένων Κατηγοριοποίηση Συσταδοποίηση Κανόνες συσχέτισης Κεφάλαιο 2 Κατηνοριοποίηση 2.1 Εισαγωγή στη κατηγοριοποίηση Bayesian κατηγοριοποίηση Naïve Bayesian Κατηγοριοποιητής Bayesian Balief Networks Δέντρα απόφασης Αλγόριθμος ID SLIQ C SPRINT Νευρωνικά δίκτυα Κατηγοριοποίηση με βάση τα νευρωνίκα δίκτυα Κατηγοριοποίηση με βάση την τεχνική των Κοντινότερων Γειτόνων Ασαφής κατηγοριοποίηση Παραγωγή κανόνων κατηγοριοποίησης 44 Κεφάλαιο 3 Συσταδιοποίηση 3.1 Εισαγωγή στη Συσταδοποίση Μέθοδοι συσταδοποίησης Κατηγοριοποίηση με βάση τη μέθοδο συσταδοποίησης 49 Σελίδα 3 από σχέση με την

4 3.2.2 Κατηγοριοποίση με τον αλγοριθμο K-Means Διαιρετικοί (Partitional) αλγόριθμοι Αλγόριθμος K-Means Εκλέπτυση σημείων για τον αλγόριθμο K-Means RAM CLARANS Ιεραρχικοί αλγόριθμοι συσταδοποίησης Cure Birch CHAMELEON Chamelom Βασισμένη στην πυκνότητα συσταδοποίηση (Density-based clustering) Βασισμένοι σε πλέγμα (Grid-based) αλγόριθμοι STING Wave Cluster Συσταδοποίηση υπο-χώρων CLIQUE PROCLUS Αλγόριθμοι συσταδοποίησης για δεδομένα με λεκτικές τιμές ROCK Αλγόριθμοι βασισμένα στο K-Means για λεκτικά δεδομένα Ασαφής συσταδοποίηση Kohonen Net συσταδοποίηση Κλιμάκωση και στάθμιση 76 Κεφάλαιο 4 Κανόνες Συσχέτισης 4.1 Εισαγωγή στους κανόνες συσχέτισης Αλγόριθμος Apriori Σύγκριση αλγορίθμων παραγωγής κανόνων συσχέτισης Ποσοτικοί κανόνες συσχέτισης 97 Συμπεράσματα/μελλοντική εργασία 104 Βιβλιογραφία 105 Σελίδα 4 από 105

5 Πρόλογος Τις τελευταίες δεκαετίες έχουν παραχθεί ασύλληπτα μεγάλες ποσότητες δεδομένων από διάφορες διεργασίες που έχουν οργανωθεί με χρήση υπολογιστικών συστημάτων όπως, συστήματα δοσοληψιών που λειτουργούν επί πολλά χρόνια όπως τραπεζικές συναλλαγές, τηλεφωνικές κλήσεις, αγορές με πιστωτική κάρτα και διαδικασίες που συσσωρεύουν μεγάλα ψηφιακά αρχεία όπως φωτογραφίες από δορυφόρους και πειραματικά δεδομένα. Οι δοσοληψίες αυτές καταγράφονται και έτσι έχουν δημιουργηθεί τεράστιες βάσεις δεδομένων (κυρίως σε σχεσιακή μορφή) οι οποίες στην μεγάλη πλειοψηφία των περιπτώσεων μένουν αδρανείς. Οι μόνες χρήσεις που τους γίνονται είναι είτε για σχεσιακού τύπου ερωτήσεις με στόχο επιλογή μικρού υποσύνολου των δεδομένων που ικανοποιούν κάποια πολύ συγκεκριμένα κριτήρια που ο χρήστης επιλεγεί, είτε για στατιστική επεξεργασία κυρίως με την μορφή αθροιστικών συναρτήσεων που εφαρμόζονται σε πολλές διαστάσεις (κυρίως στις βάσεις δεδομένων). Και στις δυο παραπάνω περιπτώσεις ο χρήστης έχει γνώση του στόχου των ερωτήσεων, πράγμα που υπονοεί ότι ο χρήστης γνωρίζει τη δομή και την σημασία των δεδομένων και των τιμών που εμφανίζονται. Από την άλλη μεριά είναι πολύ πιθανόν στις τεράστιες αυτές βάσεις δεδομένων να υπάρχει «κρυμμένη γνώση», με τη μορφή συσχετίσεων, εξαρτήσεων και ομαδοποιήσεων, που δεν είναι εκ των πρότερων γνωστή αλλά που μπορεί να είναι πολύ χρήσιμη στους χρηστές. Αυτό που λείπει είναι η «μη επιβλεπόμενη ανάκτηση γνώσης», η αλλιώς η εφαρμογή αλγορίθμων στα δεδομένα μας για την ανακάλυψη και την εξαγωγή της κρυμμένης γνώσης που προαναφέρθηκε. Σελίδα 5 από 105

6 Ο χώρος της εξόρυξης δεδομένων ήρθε να καλύψει ακριβώς αυτήν την απαίτηση της παραπέρα επεξεργασίας αυτών των αποθηκών δεδομένων. Η περιοχή αυτή γνώρισε με γαλή ανάπτυξη, ο τζίρος τα τελευταία χρόνια στην παγκόσμια αγορά είναι της τάξης των δισεκατομμυρίων ευρώ, καθώς αναπτύχτηκε μεγάλη ερευνητική αλλά και βιομηχανική δραστηριότητα στον χώρο αυτό. Ήδη γίνονται αρκετά διεθνή συνέδρια σε ετήσια βάση και εκδίδονται δυο διεθνή περιοδικά στο χώρο. Ακόμα οι απαιτήσεις των οργανισμών προκάλεσαν νέες απαιτήσεις σε ότι αφορά την ανάλυση δεδομένων και συνέλαβαν στην ανάπτυξη της βιομηχανίας λογισμικού, με την δημιουργία εργαλείων για εξόρυξη γνώσης. Τα εργαλεία αυτά είναι είτε γενικού σκοπού, είτε προσαρμοσμένα στις απαιτήσεις συγκεκριμένων περιοχών εφαρμογών. Η εξόρυξη δεδομένων έχει εισήχθη και διδάσκετε ήδη σε αρκετά ΑΤΕΙ και ΑΕΙ στην Ελλάδα σε προπτυχιακό και μεταπτυχιακό επίπεδο. Σελίδα 6 από 105

7 Σκοπός της πτυχιακής εργασίας Η πτυχιακή αυτή εργασία αποσκοπεί στο να δώσει μια σύντομη, αλλά περιεκτική «μάτια» στις τεχνικές και τους αλγορίθμους που χρησιμοποιούνται για την εξαγωγή γνώσης από τις βάσεις δεδομένων, με την ελπίδα πως θα μπορεί μια μέρα να χρησιμοποιεί σαν παράδειγμα και οδηγός-βοήθημα από τους μελλοντικούς συνάδελφους-φοιτητές του τμήματος διαχείρισης πληροφοριών. Σελίδα 7 από 105

8 Εισαγωγή Στην πτυχιακή αυτή εργασία θα δούμε τις βασικές τεχνικές και αλγορίθμους εξόρυξης δεδομένων, ειδικότερα θα δούμε τις βασικές έννοιες της διαδικασίας εξόρυξης δεδομένων καθώς και μια ανασκόπηση των τεχνικών και των προσεγγίσεων της διαδικασίας κατηγοριοποίησης. Ακόμα θα εμβαθύνουμε στις βασικές έννοιες της διαδικασίας συσταδοποίησης συγκρίνοντας τους κυριότερους αλγορίθμους αυτής της διαδικασίας και θα δούμε το ρολό της διαδικασίας εξαγωγής κανόνων συσχέτισης στην συνολική διαδικασία εξόρυξης δεδομένων, παρουσιάζοντας τις προσεγγίσεις και τις τεχνικές που έχουν προταθεί στη βιβλιογραφία. Σελίδα 8 από 105

9 1o ΚΕΦΑΛΑΙΟ Η Διαδικασία Εξόρυξης Γνώσης 1.1 Εισαγωγή στην εξόρυξη γνώσης Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, των μηχανών γνώσης, της στατιστικής, καθώς επίσης και ως μία σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Οι δικτυακές εφαρμογές που διαχειρίζονται μεγάλες αποθήκες δεδομένων έχουν αρχίσει να κάνουν χρήση διαφόρων τεχνικών εξόρυξης δεδομένων, με σκοπό τη βελτίωση της ποιότητας των παρεχόμενων υπηρεσιών μέσω της μελέτης της συμπεριφοράς των πελατών και της εξαγωγής χρήσιμων συμπερασμάτων από αυτήν. Η τελευταία δεκαετία έχει επιφέρει μια αλματώδη αύξηση στην παραγωγή και συλλογή δεδομένων. Η πρόοδος στην τεχνολογία των βάσεων δεδομένων μας παρέχει νέες τεχνικές για την αποδοτική και αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Κάθε χρόνο παράγονται τεράστιοι όγκοι δεδομένων (1-2 exa-bytes) από εταιρίες και πανεπιστήμια τα οποία αποθηκεύονται σε μεγάλες βάσεις δεδομένων. Επίσης η δυνατότητα ανάλυσης και ερμηνείας των συνόλων δεδομένων, και η εξαγωγή «χρήσιμης» γνώσης από αυτά έχει ξεπεράσει κάθε όριο και η ανάγκη για μία νέα γενιά εργαλείων και τεχνικών για ευφυή ανάλυση βάσεων δεδομένων έχει δημιουργηθεί. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές (τεχνητή νοημοσύνη, στατιστική, αποθήκες δεδομένων, διαδραστική ανάλυση και επεξεργασία, έμπειρα συστήματα και οπτικοποίηση δεδομένων) και ένας νέος ερευνητικός τομέας δημιουργείται, γνωστός ως εξόρυξη δεδομένων και γνώσης (Data and Knowledge Mining). Σελίδα 9 από 105

10 1.2 Εξόρυξη γνώσης και δεδομένων Η ανακάλυψη γνώσης από βάσεις δεδομένων (Knowledge Discovery in Databases - KDD) αναφέρεται στη διεργασία εξόρυξης γνώσης από τις μεγάλες αποθήκες δεδομένων. Ο όρος εξόρυξη δεδομένων χρησιμοποιείται ως συνώνυμο της ανακάλυψης γνώσης από βάσεις δεδομένων, καθώς επίσης και για αναφορά στις πραγματικές τεχνικές που χρησιμοποιούνται για την ανάλυση και την εξαγωγή της από διάφορα σύνολα δεδομένων. Για να διαφοροποιηθούμε μεταξύ της διαδικασίας και των εργαλείων, θα χρησιμοποιήσουμε τον πρώτο όρο, KDD, για να περιγράψουμε ολόκληρη τη διαδικασία ανάλυσης ενός συνόλου δεδομένων, και το δεύτερο όρο, την εξόρυξη δεδομένων, για να αναφερθούμε κυρίως στις μεθόδους και τις τεχνικές που χρησιμοποιούνται στη διαδικασία ανάλυσης. Πολλοί ερευνητές θεωρούν τον όρο εξόρυξη δεδομένων μη αντιπροσωπευτικό της διαδικασίας που αντιπροσωπεύει, υποστηρίζοντας ότι ο όρος εξόρυξη γνώσης θα ήταν μια πιο κατάλληλη περιγραφή Εντούτοις, ένας τέτοιος όρος μπορεί να μην δίνει έμφαση στην ανάλυση και την εξαγωγή των προτύπων από μεγάλα σύνολα δεδομένων. ο όρος εξόρυξη δεδομένων (Data Mining) είναι αυτός που έχει επικρατήσει και χαρακτηρίζει τη διαδικασία της εύρεσης δομών γνώσης οι οποίες περιγράφουν με ακρίβεια μεγάλα σύνολα πρωτογενών δεδομένων. Οι δομές αυτές αναδεικνύουν γνώση (συσχετίσεις ή κανόνες) που είναι κρυμμένοι μέσα στα δεδομένα και δεν μπορούν να εξαχθούν από τον άνθρωπο-χρήστη της βάσης με «γυμνό» μάτι. Οι προκύπτουσες δομές είναι πλούσιες σε σημασιολογία και εκμεταλλεύονται πιθανές κοινές ιδιότητες των πρωτογενών δεδομένων. Στα πλαίσια αυτού του βιβλίου θα χρησιμοποιούμε τον όρο εξόρυξη δεδομένων και γνώσης εναλλακτικά. Σελίδα 10 από 105

11 1.3 Η ανακάλυψη γνώσης από βάσεις δεδομένων (KDD) σε σχέση με την εξόρυξη δεδομένων. Η ανακάλυψη γνώσης από μία βάση δεδομένων (KDD) αναφέρεται σε ολόκληρη τη διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων. Ένας γενικός ορισμός, που παρουσιάζει με περισσότερη σαφήνεια την έννοια του όρου KDD δόθηκε από τους Frawley, Piatesky-Shaphiro & Matheus (1991) [FPSU96], σύμφωνα με τον οποίο: «KDD είναι η ντετερμινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών προτύπων στα δεδομένα». Για την κατανόηση του παραπάνω ορισμού, θα εξετάσουμε λεπτομερώς τις βασικές έννοιες των όρων στους οποίους είναι βασισμένος [FPSU96]: 1. Τα δεδομένα περιγράφουν οντότητες ή συσχετίσεις του πραγματικού κόσμου, F. Παραδείγματος χάριν θα μπορούσε να είναι ένα σύνολο εγγραφών που αναφέρονται στις συναλλαγές τραπεζών, οι οποίες να περιέχουν τις τιμές τριών ιδιοτήτων (π.χ. τμήμα, εισόδημα, κατάσταση δανείου). 2. Ένα πρότυπο είναι μια έκφραση Ε σε μια γλώσσα L η οποία περιγράφει ένα υποσύνολο δεδομένων F cf εκμεταλλευόμενο κοινές ιδιότητες των δεδομένων του. Σε αυτή την περίπτωση το πρότυπο θεωρείται υποσύνολο του F και αφαίρεση (abstraction) του F. Παραδείγματος χάριν, ο κανόνας: «Εάν οι τηλεφωνικοί συνδρομητές έχουν income > $t λ age[av α2], δηλαδή εισόδημα μεγαλύτερο από μία τιμή t και η ηλικία τους βρίσκεται στο διάστημα τιμών [a,, a,], τότε ανταποκρίνονται στη νέα προσφορά υπηρεσιών». Σελίδα 11 από 105

12 3. Η διαδικασία Κϋϋ είναι μια διαδικασία πολλαπλών βημάτων, η οποία περιλαμβάνει την προ-επεξεργασία των δεδομένων, την αναζήτηση των προτύπων και την αξιολόγηση της εξαγόμενης γνώσης. 4 Εγκυρότητα. Το εξαγόμενο πρότυπο θα πρέπει να είναι συνεπές σε νέα δεδομένα με κάποιο βαθμό βεβαιότητας. Το ζήτημα της εγκυρότητας αποτελεί ένα από τα βασικά προβλήματα και αντικείμενο έρευνας στην εξόρυξη δεδομένων. 5 Πιθανά χρήσιμο. Η εξαγωγή των προτύπων θα πρέπει να ακολουθείται από μερικές χρήσιμες διεργασίες όπως η αξιολόγηση τους από κάποιες συναρτήσεις χρησιμότητας. Επίσης, θα ήταν χρήσιμο να εμπλουτιστεί η σημασιολογία τους, διατηρώντας όσο το δυνατόν περισσότερη γνώση από τα αρχικά δεδομένα η οποία μπορεί να φανεί χρήσιμη για τη λήψη αποφάσεων. Παραδείγματος χάριν, σε περίπτωση μίας βάσης δεδομένων που αφορά σε δάνεια, σαν χρήσιμη διαδικασία θα μπορούσε να θεωρηθεί αυτή που θα δίνει μια ένδειξη της αναμενόμενης αύξησης στα κέρδη. Συνδέεται επίσης με τον ακόλουθα κανόνα απόφασης: «Εάν έσοδα < $ΐ, τότε ο πελάτης δεν μπορεί να πάρει δάνειο». 6 Τελικά κατανοητό. Ο στόχος της εξόρυξης γνώσης είναι να προσδιοριστούν τα πρότυπα και να γίνουν κατανοητά, ώστε να μπορούν να οδηγήσουν ακόμη και τους μη ειδικούς σε χρήσιμα συμπεράσματα και αποφάσεις. Η διαδικασία Κϋϋ είναι μια διαλογική και επαναληπτική διαδικασία που αποτελείται από μια σειρά από τα ακόλουθα βήματα (Σχήμα 1) 1) Την ανάπτυξη και κατανόηση της περιοχής της εφαρμογής, της σχετικά προγενέστερης γνώσης του εξέταση τομέα και τους στόχους του τελικού χρήστη. Σελίδα 12 από 105

13 2) Την ολοκλήρωση των δεδομένων. Υπάρχουν διαφορετικά είδη αποθηκών πληροφοριών που μπορούν να χρησιμοποιηθούν στη διαδικασία εξόρυξης γνώσης. Κατά συνέπεια, οι πολλαπλές πηγές δεδομένων μπορούν να συνδυαστούν καθορίζοντας το σύνολο στο οποίο τελικά η διαδικασία εξόρυξης πρόκειται να εφαρμοστεί. 3) Τη δημιουργία του στόχων-συνόλου δεδομένων. Επιλογή του συνόλου δεδομένων (δηλαδή μεταβλητές, δείγματα δεδομένων) στο οποίο η διαδικασία εξόρυξης πρόκειται να εκτελεσθεί. 4) Τον καθαρισμό και την προ-επεξεργασία δεδομένων. Αυτό το βήμα περιλαμβάνει βασικές διαδικασίες όπως η αφαίρεση του θορύβου ή των outliers, η συλλογή των απαραίτητων πληροφοριών για τη διαμόρφωση ή τη μέτρηση του θορύβου, η απόφαση σχετικά με τις στρατηγικές διαχείρισης των ελλειπόντων πεδίων δεδομένων. 5) Τον μετασχηματισμό των δεδομένων. Τα δεδομένα μετασχηματίζονται ή παγιώνονται σε μορφές κατάλληλες για εξόρυξη. Χρήση των μεθόδων μείωσης διαστάσεων ή μετασχηματισμού για τη μείωση του αριθμού των υπό εξέταση μεταβλητών ή την εύρεση κατάλληλης αντιπροσώπευσης των δεδομένων χωρίς μεταβλητές. 6) Την επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων. Σε αυτό το βήμα αποφασίζουμε το στόχο της διαδικασίας KDD, επιλέγοντας τους στόχους εξόρυξης δεδομένων που θέλουμε να επιτύχουμε. Επίσης, επιλέγονται οι μέθοδοι που θα χρησιμοποιηθούν. Αυτό περιλαμβάνει την επιλογή του κατάλληλου μοντέλου και παραμέτρων (π.χ. κατηγορικό ή αριθμητικό μοντέλο δεδομένων). Επίσης η μέθοδος εξόρυξης δεδομένων πρέπει να αντιστοιχηθεί με τις απαιτήσεις και τα γενικά κριτήρια της διαδικασίας KDD. Σελίδα 13 από 105

14 7)Την εξόρυξη δεδομένων. Εφαρμόζοντας ευφυείς μεθόδους, ψάχνουμε για ενδιαφέροντα πρότυπα γνώσης. Τα πρότυπα θα μπορούσαν να είναι μια συγκεκριμένης αντιπροσωπευτικής μορφής ή ενός συνόλου τέτοιων αντιπροσωπεύσεων, όπως κανόνες κατηγοριοποίησης (classification rules), δέντρα, παλινδρόμηση, συσταδοποίηση (clustering) κ.λπ. Η απόδοση και τα αποτελέσματα της μεθόδου εξόρυξης δεδομένων εξαρτώνται από τα προηγούμενα βήματα. ΣΧΗΜΑ 1. Τα βήματα της διαδικασίας KDD. Αξιολόγηση προτύπων Εξόρυξη γνώσης Μετασχηματισμός δεδομένων < 5 I Πρότυπα Γνώση Καθαρισμός δεδομένων & προεπεξεργασία, Μετασχηματισμένα * δεδομένα Επιλογή ίπεξεργασμένα δεδομένα ν Στοχευομενα 4 δεδομένα Αποθήκη δεδομένων Βάση δεδομένων Αρχεία Σελίδα 14 από 105

15 8) Την αξιολόγηση των προτύπων. Τα εξαγόμενα πρότυπα αξιολογούνται με κάποια μέτρα, προκειμένου να προσδιοριστούν τα πρότυπα τα οποία αντιπροσωπεύουν τη γνώση, δηλαδή τα αληθινά ενδιαφέροντα πρότυπα. 9) Την σταθεροποίηση και παρουσίαση της γνώσης. Σε αυτό το βήμα, η εξορυγμένη γνώση ενσωματώνεται στο σύστημα ή απλά την απεικόνιση μας και κάποιες τεχνικές αντιπροσώπευσης γνώσης χρησιμοποιούνται για να παρουσιάσουν την εξορυγμένη γνώση στο χρήστη. Επίσης, ελέγχουμε για επίλυση τυχών συγκρούσεων με προηγούμενη εξορυγμένη γνώση. Η εξόρυξη δεδομένων ως βήμα της διαδικασίας Κϋϋ ενδιαφέρεται κυρίως για τις μεθοδολογίες και τις τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από τις μεγάλες αποθήκες δεδομένων. Αφ' ετέρου η διαδικασία Κϋϋ περιλαμβάνει την αξιολόγηση και την ερμηνεία των προτύπων. Επίσης, περιλαμβάνει την επιλογή της κωδικοποίησης των προτύπων, της προεπεξεργασίας, της δειγματοληψίας και του μετασχηματισμού των δεδομένων πριν από το βήμα της εξόρυξης των δεδομένων. Η διαδικασία Κϋϋ είναι επαναληπτική και θα μπορούσε να περιέχει βρόχους μεταξύ οποιωνδήποτε από τα ανωτέρω βήματα. Η βασική ροή των βημάτων είναι διευκρινισμένη στο Σχήμα 1-2. Αν και η κύρια εργασία στη διαδικασία εξόρυξης γνώσης εστιάζεται στη διαδικασία εξόρυξης δεδομένων, τα άλλα βήματα είναι εξίσου σημαντικά για την επιτυχή εφαρμογή της τεχνικής Κϋϋ. 1.4 Η διαδικασία εξόρυξης δεδομένων Η εξόρυξη δεδομένων περιλαμβάνει τα μοντέλα συναρμολογήσεων των υπό εξέταση δεδομένων, ή εναλλακτικά την εξαγωγή των προτύπων από αυτά. Ουσιαστικά, οι παράμετροι του μοντέλου που Σελίδα 15 από 105

16 είναι γνωστές από τα δεδομένα ή τα πρότυπα που προσδιορίζονται, αντιπροσωπεύουν τη γνώση που έχει εξαχθεί από ένα σύνολο δεδομένων. Υπάρχει μια μεγάλη συλλογή αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση, οι αλγόριθμοι και οι βάσεις δεδομένων. Μια θεμελιώδης ιδιότητα των αλγορίθμων εξόρυξης δεδομένων, και αυτή που διαφοροποιεί τους περισσότερους από αυτούς από άλλες παρόμοιες τεχνικές που υιοθετούνται στη μηχανική μάθηση και τη στατιστική, είναι ότι οι αλγόριθμοι εξόρυξης δεδομένων έχουν σχεδιαστεί με έμφαση στην εξελιξιμότητα όσον αφορά το μέγεθος του συνόλου δεδομένων εισαγωγής. Η πλειοψηφία των αλγορίθμων εξόρυξης δεδομένων θα μπορούσε να περιγραφεί σε υψηλό επίπεδο με τον όρο ενός απλού πλαισίου. Συγκεκριμένα, μπορούν να αντιμετωπισθούν ως σύνθεση των τριών ακόλουθων συστατικών: Την περιγραφή του μοντέλου. Υπάρχουν δύο παράγοντες σχετικοί με το μοντέλο: 1) Η λειτουργία του μοντέλου. Καθορίζει τους βασικούς στόχους κατά τη διάρκεια της διαδικασίας εξόρυξης δεδομένων (π.χ. classification ή clustering). 2) Η παραστατική μορφή του μοντέλου. Η απεικόνιση του μοντέλου καθορίζει και το ταίριασμα του με την απεικόνιση των δεδομένων και τη δυνατότητα να ερμηνευθεί το μοντέλο με κατανοητούς όρους. Χαρακτηριστικά, πιο περίπλοκα μοντέλα ταιριάζουν καλύτερα στα δεδομένα αλλά μπορεί να είναι δυσκολότερο να γίνουν κατανοητά και να ανταποκριθούν σε πραγματικές συνθήκες. Τα πιο γνωστά μοντέλα είναι τα δέντρα και οι κανόνες απόφασης, τα νευρωνικά δίκτυα, τα συστήματα Σελίδα 16 από 105

17 βασισμένα σε παραδείγματα, τα γραφικά μοντέλα, τα μοντέλα βασισμένα στις πιθανότητες (π.χ. δίκτυα Bayes και τα συγγενικά μοντέλα. Την αξιολόγηση του μοντέλου. Με βάση κάποια κριτήρια αξιολόγησης (π.χ. μέγιστη πιθανότητα) θα μπορούσαμε να καθορίσουμε πόσο καλά ένα συγκεκριμένο μοντέλο ταιριάζει με τα κριτήρια της KDD διαδικασίας. Γενικά, η αξιολόγηση του μοντέλου αναφέρεται και στην εγκυρότητα των προτύπων και στην αξιολόγηση της ακρίβειας, της χρησιμότητας και της δυνατότητας κατανόησης του μοντέλου. Τους αλγόριθμους αναζήτησης. Αναφέρεται στην προδιαγραφή ενός αλγορίθμου να βρίσκει συγκεκριμένα μοντέλα και παραμέτρους, δοσμένου ενός συνόλου δεδομένων, μιας οικογένειας μοντέλων και ενός κριτηρίου αξιολόγησης. Υπάρχουν δύο τύποι αλγορίθμων αναζήτησης: 1) Αυτοί που αναζητούν παραμέτρους. Αυτός ο τύπος αλγορίθμων ψάχνει για παραμέτρους, οι οποίες βελτιστοποιούν ένα κριτήριο αξιολόγησης για το μοντέλο. Οι αλγόριθμοι εκτελούν το στόχο αναζήτηση παίρνοντας ως είσοδο ένα σύνολο δεδομένων και μια απεικόνιση μοντέλου. 2) Αυτοί που αναζητούν μοντέλα. Εκτελούν μια επαναληπτική διαδικασία αναζήτησης για την αντιπροσώπευση των δεδομένων. Για κάποια συγκεκριμένη απεικόνιση ενός μοντέλου, εφαρμόζεται η μέθοδος αναζήτησης παραμέτρων και η ποιότητα των αποτελεσμάτων αξιολογείται. 1.5 Απαιτήσεις εξόρυξης δεδομένων Για να επιτύχουμε μια αποτελεσματική διαδικασία εξόρυξης δεδομένων, Σελίδα 17 από 105

18 πρέπει πρώτα να εξετάσουμε το είδος των χαρακτηριστικών που ένα σύστημα εξόρυξης δεδομένων αναμένεται να έχει καθώς επίσης και τις απαιτήσεις που πρέπει να λάβουμε υπόψη στην ανάπτυξη των τεχνικών εξόρυξης δεδομένων. Οι κύριες απαιτήσεις μπορούν να συνοψιστούν στα εξής: 1) Χειρισμός των διαφορετικών τύπων δεδομένων. Δεδομένου ότι διαφορετικοί τύποι και βάσεις δεδομένων χρησιμοποιούνται σε διαφορετικές εφαρμογές, είναι σημαντικό ένα σύστημα εξόρυξης δεδομένων να εφαρμόζεται αποτελεσματικά σε διαφορετικούς τύπους δεδομένων. Οι βάσεις δεδομένων είναι στη συντριπτική τους πλειοψηφία συγγενείς μεταξύ τους. Συνεπώς, είναι σημαντικό ένα σύστημα εξόρυξης δεδομένων να υποστηρίζει τεχνικές για αποδοτική και αποτελεσματική ανάλυση συγγενικών δεδομένων. Επιπλέον, πολλά συστήματα βάσεων δεδομένων που τέθηκαν πρόσφατα σε χρήση περιέχουν σύνθετους τύπους δεδομένων, όπως δομές δεδομένων και σύνθετα αντικείμενα, υπερκείμενο και στοιχεία πολυμέσων, χωροχρονικά στοιχεία, κ.λπ. Ένα τέτοιο σύστημα πρέπει να λειτουργεί αποτελεσματικά ανεξάρτητα από τους τύπους δεδομένων. Εντούτοις, η διαφοροποίηση των τύπων δεδομένων και οι διαφορετικοί στόχοι της εξόρυξης θα μπορούσαν να καταστήσουν δύσκολη την ύπαρξη ενός συστήματος που χειρίζεται όλες τις περιπτώσεις. Αντίθετα, θα μπορούσαν να είναι πιο ρεαλιστικά, συστήματα για συγκεκριμένους τύπους δεδομένων και εφαρμογές που αναπτύσσονται, όπως το σύστημα που εξάγει γνώση από σχεσιακές βάσεις δεδομένων, χωροχρονικές βάσεις δεδομένων, βάσεις δεδομένων πολυμέσων κ.λπ. 2) Απόδοση και εξελιξιμότητα των αλγορίθμων εξόρυξης δεδομένων. Για να επιτευχθεί αποτελεσματική εξόρυξη γνώσης από μεγάλα σύνολα δεδομένων οι αλγόριθμοι πρέπει να προσαρμοστούν κατάλληλα σε αυτά. Αυτό σημαίνει ότι ο χρόνος Σελίδα 18 από 105

19 εκτέλεσης των αλγορίθμων εξόρυξης δεδομένων πρέπει να είναι αποδεκτός και αναμενόμενος για μεγάλες βάσεις δεδομένων. Οι αλγόριθμοι με εκθετική ή πολυωνομική πολυπλοκότητα δεν είναι κατάλληλοι. 3) Χρησιμότητα, βεβαιότητα και εκφραστικότητα των αποτελεσμάτων εξόρυξης δεδομένων. Η εξορυγμένη γνώση πρέπει να παρουσιάζει με ακριβή τρόπο τα περιεχόμενα των βάσεων δεδομένων. Η ακρίβεια των αποτελεσμάτων θα μπορούσε να εκφραστεί χρησιμοποιώντας κάποια μέτρα βεβαιότητας. Ο θόρυβος και οι outliers, που αντιπροσωπεύουν τις εξαιρέσεις, πρέπει να αντιμετωπιστούν αποτελεσματικά από τα συστήματα εξόρυξης δεδομένων. Το γεγονός αυτό, δίνει το κίνητρο για μια συστηματική μελέτη της ποιότητας της εξορυγμένης γνώσης, της κατασκευαστικής στατιστικής, των αναλυτικών μοντέλων, των μοντέλων προσομοίωσης, καθώς και των εργαλείων. 4) Διαφορετικού τύπου εκφράσεις των ερωτήσεων και αποτελεσμάτων της εξόρυξης δεδομένων. Διαφορετικοί τύποι γνώσεων θα μπορούσαν να εξαχθούν από μεγάλα σύνολα δεδομένων. Θα ήταν επίσης χρήσιμο να μπορούμε να εξετάσουμε τη γνώση από ποικίλες απόψεις και να την αντιπροσωπεύσουμε με διαφορετικές μορφές. Κατά συνέπεια υπάρχει μια ανάγκη να εκφραστούν οι επερωτήσεις εξόρυξης δεδομένων και η εξορυγμένη γνώση σε γλώσσες υψηλού επιπέδου ή μέσω γραφικών διεπαφών των χρηστών προκειμένου η διαδικασία εξόρυξης δεδομένων να μπορεί να είναι εφαρμόσιμη από μη ειδικούς και η εξορυγμένη γνώση να χρησιμοποιείται άμεσα από τους χρήστες. Μια άλλη απαίτηση για την αποτελεσματική παρουσίαση της γνώσης, είναι Σελίδα 19 από 105

20 το σύστημα να υιοθετήσει τις εκφραστικές τεχνικές αναπαράστασης γνώσης. 5) Διαλογική ανακάλυψη γνώσης στα πολυ-εννοιολογικά επίπεδα. Η διαλογική ανακάλυψη της γνώσης επιτρέπει στο χρήστη να αλληλεπιδράσει με ένα σύστημα, καθορίζοντας τις ερωτήσεις εξόρυξης δεδομένων προκειμένου να αλλάξει την εστίαση των δεδομένων, να οδηγήσει μια διαδικασία εξόρυξης δεδομένων σε ένα πιο λεπτομερές επίπεδο και να δει τα δεδομένα και τα αποτελέσματα εξόρυξης δεδομένων σε πολλαπλά επίπεδα και από διάφορες πτυχές. 6) Εξόρυξη γνώσης από διαφορετικές πηγές δεδομένων. Η διάδοση της σύνδεσης υπολογιστών σε τοπικό και παγκόσμιο επίπεδο, συμπεριλαμβανομένου του διαδικτύου, έχει το προβάδισμα στη σύνδεση των διάφορων πηγών δεδομένων. Αυτό οδηγεί στη δημιουργία μεγάλων κατανεμημένων και ετερογενών βάσεων δεδομένων. Το τεράστιο ποσό δεδομένων, η υψηλή κατανομή τους και υπολογιστική πολυπλοκότητα τους οδηγούν στην ανάπτυξη παράλληλων και κατανεμημένων αλγορίθμων εξόρυξης δεδομένων. 1.6 Κατηνοριοποίηση των μεθόδων εξόρυξης δεδομένων Τα τελευταία έτη διάφορες τεχνικές και μέθοδοι εξόρυξης δεδομένων έχουν αναπτυχθεί. Διαφορετικά κριτήρια κατηγοριοποίησης μπορούν να χρησιμοποιηθούν για να κατηγοριοποιήσουν τις μεθόδους και τα συστήματα εξόρυξης δεδομένων, βασισμένες στους τύπους των βάσεων δεδομένων που θα χρησιμοποιηθούν, τους τύπους γνώσης που θα εξαχθούν και τις τεχνικές που θα εφαρμοστούν. Η κατηγοριοποίηση των συστημάτων εξόρυξης δεδομένων είναι βασισμένη στα ακόλουθα κριτήρια: Σελίδα 20 από 105

21 Α)Τι είδους βάση δεδομένων χρησιμοποιείται; Ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί σύμφωνα με τα είδη βάσεων δεδομένων στις οποίες εφαρμόζεται η εξόρυξη δεδομένων. Παραδείγματος χάριν, ένα σύστημα που χρησιμοποιείται για την εξαγωγή γνώσης από σχεσιακά δεδομένα καλείται σχεσιακό σύστημα γνώσης. Εάν εξάγει τη γνώση από αντικειμενοστρεφείς βάσεις δεδομένων καλείται αντικειμενοστρεφές σύστημα εξόρυξης δεδομένων. Γενικά, ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί βασισμένο στους διάφορους τύπους συστημάτων βάσεων δεδομένων, όπως τα σχεσιακά συστήματα βάσεων δεδομένων, τα αντικειμενοστρεφή συστήματα βάσεων δεδομένων, οι χωροχρονικές βάσεις δεδομένων, τα συστήματα βάσεων δεδομένων πολυμέσων, κ.λπ. Β) Τι είδους γνώσης εξάγεται; Από ένα σύστημα εξόρυξης δεδομένων θα μπορούσαν να εξαχθούν διάφορα είδη γνώσης, όπως κανόνες συσχέτισης (association rules), συσταδοποίηση (clustering), κανόνες κατηγοριοποίησης (classification rules), χαρακτηριστικοί κανόνες. Ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί σύμφωνα με το επίπεδο αφαίρεσης της εξορυγμένης γνώσης, η οποία θα μπορούσε να είναι γενική, πρώτου επιπέδου γνώση ή πολυεπίπεδη γνώση. Γ) Ποιο είδος τεχνικών χρησιμοποιείται; Τα συστήματα εξόρυξης δεδομένων θα μπορούσαν να ταξινομηθούν σύμφωνα με τις χρησιμοποιούμενες τεχνικές εξόρυξης δεδομένων. Παραδείγματος χάριν, θα μπορούσαν να ταξινομηθούν σε αυτόνομα συστήματα, συστήματα προσανατολισμένα στα δεδομένα, συστήματα οδηγούμενα από ερωταποκρίσεις καθώς και διαλογικά συστήματα. Επίσης, Σελίδα 21 από 105

22 σύμφωνα με την προσέγγιση που χρησιμοποιείται θα μπορούσαν να ταξινομηθούν σε συστήματα γενικής εξόρυξης, εξόρυξης βασισμένης στα πρότυπα, εξόρυξης βασισμένης στην στατιστική ή τα μαθηματικά, κ.λπ. 1.7 Επισκόπηση των εργασιών εξόρυξης δεδομένων Οι δύο βασικοί στόχοι της εξόρυξης δεδομένων (γνώσης) είναι η εφαρμογή τεχνικών περιγραφής και πρόβλεψης σε μεγάλα σύνολα δεδομένων. Η πρόβλεψη στοχεύει στον υπολογισμό της μελλοντικής αξίας ή στην πρόβλεψη της συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και οι οποίες βασίζονται στη συμπεριφορά άλλων μεταβλητών. Η περιγραφή επικεντρώνεται στην ανακάλυψη προτύπων και αναπαριστά τα δεδομένα μίας πολύπλοκης βάσης δεδομένων με ένα κατανοητό και αξιοποιήσιμο τρόπο. Μία καλή περιγραφή θα μπορούσε να δώσει μια καλή εξήγηση στη συμπεριφορά των δεδομένων. Η σημαντικότητα της πρόβλεψης και της περιγραφής διαφέρει ανάλογα με τις εφαρμογές εξόρυξης δεδομένων. Ωστόσο, ως προς την εξόρυξη γνώσης η περιγραφή τείνει να είναι περισσότερο σημαντική από την πρόβλεψη, σε αντίθεση με την αναγνώριση προτύπων και την εφαρμογή μηχανικής μάθησης για τις οποίες η πρόβλεψη είναι πιο σημαντική. Ένας αριθμός μεθόδων εξόρυξης δεδομένων έχουν προταθεί για να ικανοποιούν τις απαιτήσεις διαφορετικών εφαρμογών. Ωστόσο, όλες επιτυγχάνουν μία ομάδα από διεργασίες εξόρυξη δεδομένων για να προσδιορίσουν και περιγράψουν ενδιαφέροντα πρότυπα γνώσης που έχουν αντληθεί από ένα σύνολο δεδομένων. Στη συνέχεια αυτές οι διεργασίες περιγράφονται με μεγαλύτερη λεπτομέρεια. Σελίδα 22 από 105

23 1.7.1 Κατηγοριοποίηση Η κατηγοριοποίηση (classification) αποτελεί μία από τις βασικές εργασίες (tasks) εξόρυξης δεδομένων. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου (μη κατηγοριοποιημένο) το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν αναπαριστάνονται γενικά από τις εγγραφές της βάσης δεδομένων και η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες. Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κατηγοριών και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου αποτελείται από προκατηγοριοποιημένα παραδείγματα. Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο το οποίο θα μπορούσε να εφαρμοστεί για να κατηγοριοποιεί δεδομένα που δεν έχουν ακόμα κατηγοριοποιηθεί (ανατεθεί σε κάποια από τις κατηγορίες). Στις περισσότερες περιπτώσεις, υπάρχει ένας περιορισμένος αριθμός κατηγοριών και εμείς θα πρέπει να αναθέσουμε κάθε εγγραφή στην κατάλληλη κατηγορία. Για το σκοπό αυτό χρησιμοποιούνται κάποιες τεχνικές, τις οποίες μπορούμε να κατατάξουμε σε δύο κατηγορίες. Η πρώτη χρησιμοποιεί Δέντρα Αποφάσεων (Decision Trees) και η δεύτερη Νευρωνικά Δίκτυα (Neural Networks). Και οι δύο στηρίζονται στην ιδέα της «εκπαίδευσης» (training) με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης (training set). Το υποσύνολο αυτό επιλέγεται σαν αντιπροσωπευτικό δείγμα του συνολικού όγκου δεδομένων. Με την εφαρμογή της διαδικασίας εκπαίδευσης καθορίζονται κάποια πρότυπα για τις κατηγορίες δεδομένων. Έτσι. όταν προκύψει ένα νέο στοιχείο τότε μπορεί εύκολα Σελίδα 23 από 105

24 να κατηγοριοποιηθεί. Για τη διαδικασία αυτή χρησιμοποιούνται είτε τεχνικές βασισμένες στα νευρωνικά δίκτυα είτε συμβολικές τεχνικές. Στις πρώτες υπάρχει το φαινόμενο της αμφίδρομης αναμετάδοσης και επεξεργασίας δεδομένων ενώ στη δεύτερη υπάρχουν μοντέλα δένδρων αποφάσεων ή μοντέλα για ΙΕ...ΤΗΕΝ...ΕΙ_3Ε ανάλυση Συσιαδοποίηοη Η συσταδοποίηση (clustering) είναι η εργασία του καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο περισσότερων ετερογενών συστάδων (clusters). Αυτό που διαφοροποιεί την ομαδοποίηση από την κατηγοριοποίηση είναι ότι η ομαδοποίηση δεν βασίζεται σε προκαθορισμένες κατηγορίες. Στην κατηγοριοποίηση, ο πληθυσμός διαιρείται σε κατηγορίες αναθέτοντας κάθε στοιχείο ή εγγραφή σε μία προκαθορισμένη κατηγορία με βάση ένα μοντέλο που αναπτύσσεται μέσω της εκπαίδευσης του με παραδείγματα που έχουν κατηγοριοποιηθεί εκ των προτέρων. Στην συσταδοποίηση δεν υπάρχουν προκαθορισμένες κατηγορίες. Οι εγγραφές ομαδοποιούνται σε σύνολα με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους. Επαφίεται σε εμάς να καθορίσουμε την σημασία που θα έχει κάθε μία από τις ομάδες που προκύπτουν. Για παράδειγμα, οι ομάδες συμπτωμάτων μπορεί να υποδεικνύουν διαφορετικές ασθένειες, ομάδες που περιλαμβάνουν τα χαρακτηριστικά που σχετίζονται με τα φύλλα και τον καρπό φυτών μπορεί να υποδεικνύουν διαφορετικές ποικιλίες ενός φυτού. Η συσταδοποίηση μπορεί να χρησιμοποιηθεί και σαν εισαγωγή σε κάποια άλλη διαδικασία εξόρυξης γνώσης ή μοντελοποίησης. Για παράδειγμα, η ομαδοποίηση μπορεί να χρησιμοποιηθεί σαν πρώτο βήμα στην προσπάθεια μερισμού της αγοράς. Αντί δηλαδή να Σελίδα 24 από 105

25 προσπαθούμε να προσδιορίσουμε τι είδος promotion θα ταίριαζε καλύτερα σε κάθε πελάτη, μπορούμε να κατηγοριοποιήσουμε τους πελάτες αρχικά σε ομάδες (clusters) ατόμων που παρουσιάζουν τις ίδιες συνήθειες σχετικά με την αγορά προϊόντων και στην συνέχεια να προσδιορίσουμε το είδος του promotion που ταιριάζει σε κάθε ομάδα Κανόνες συσχέτισης Η εξαγωγή κανόνων συσχέτισης (association rules) θεωρείται μια από τις σημαντικότερες διεργασίες εξόρυξης δεδομένων. Έχει προσελκύσει ιδιαίτερο ενδιαφέρον καθώς οι κανόνες συσχέτισης παρέχουν έναν συνοπτικό τρόπο για να εκφραστούν οι ενδεχομένως χρήσιμες πληροφορίες που γίνονται εύκολα κατανοητές από τους τελικούς χρήστες. Οι κανόνες συσχέτισης ανακαλύπτουν κρυμμένες «συσχετίσεις» μεταξύ των γνωρισμάτων ενός συνόλου των δεδομένων. Αυτοί οι συσχετισμοί παρουσιάζονται στην ακόλουθη μορφή: Α->Β όπου το Α και το Β αναφέρονται στα σύνολα γνωρισμάτων που υπάρχουν στα υπό ανάλυση δεδομένα. Υποθέστε ότι μας δίνεται ένα σύνολο συναλλαγών S = (S,,..., Sn}, όπου κάθε συναλλαγή είναι ένα υποσύνολο του Α = {Α1,...Λχ} (Ai, i = 1,2,..., Κ, είναι οι ιδιότητες του συνόλου δεδομένων). Για ένα δεδομένο σύνολο AcΑ, η υποστήριξη του A, sup(a), καθορίζεται ώστε να είναι ο αριθμός συναλλαγών στο S που είναι υπερσύνολα του Α (δηλαδή το Α εμφανίζεται σε αυτές τις συναλλαγές). Εάν η υποστήριξη ενός συνόλου αντικειμένων Α είναι μεγαλύτερη από ένα καθορισμένο από τον χρήστη κατώτατο όριο υποστήριξης Τ, τότε ονομάζουμε το Α ως συχνό σύνολο. Σελίδα 25 από 105

26 Η σημασία ενός τέτοιου κανόνα είναι ότι οι συναλλαγές στο σύνολο δεδομένων, που περιέχουν τις ιδιότητες του Α, τείνουν επίσης να περιέχουν τις ιδιότητες του Β. Σημειώνουμε επίσης ότι οι κανόνες συσχέτισης που εξάγονται πρέπει να μπορούν επίσης να ικανοποιούν κι άλλους περιορισμούς που καθορίζονται από το χρήστη, σχετικούς με τα μέτρα των κανόνων συσχέτισης. Λαμβάνοντας υπόψη την ανωτέρω περιγραφή, μια σημαντική δευτερεύουσα λειτουργία που συνήθως λύνεται πρώτη είναι αυτή του υπολογισμού των συχνών συνόλων. Δηλαδή, λαμβάνοντας υπόψη ένα σύνολο συναλλαγών S, υπολογίζονται όλα τα συχνά υποσύνολα του Α (για το δεδομένο κατώτατο όριο υποστήριξης Τ). Μόλις βρεθούν τα συχνά σύνολα, το πρόβλημα το υπολογισμού των κανόνων συσχέτισης από αυτά γίνεται πολύ απλό. Για κάθε συχνό σύνολο Α, και για κάθε Β c Α μπορεί να εξεταστεί η εμπιστοσύνη του κανόνα Α/Β -> Β. Ο υπολογισμός όλων των συχνών συνόλων ξεκινά με τον υπολογισμό του συνόλου των συχνών συνόλων με αριθμό στοιχείων ίσο με 1. Κατόπιν, υποθέτοντας ότι όλα τα συχνά σύνολα με πλήθος στοιχείων i είναι γνωστά, ο αλγόριθμος υπολογίζει ένα σύνολο υποψηφίων συχνών συνόλων: σύνολα στοιχείων με πλήθος στοιχείων i + 1, έτσι ώστε όλα τα υποσύνολα τους να είναι συχνά υποσύνολα. Για καθένα από τα υποψηφία συχνά σύνολα, υπολογίζει τη συχνότητα του. Αυτή η επαναληπτική διαδικασία εκτελείται έως ότου δεν βρίσκονται άλλα συχνά σύνολα. Η ακρίβεια του αλγορίθμου προκύπτει από την φθίνουσα μονοτονία της συνάρτησης υποστήριξης: if Β c A then sup(b) >= sup(a). Αυτός ο αλγόριθμος έχει χρησιμοποιηθεί με διάφορες μορφές στην εύρεση των κανόνων συσχέτισης, των ακολουθιακών κανόνων (sequential rules), και των επεισοδίων. Αποδεικνύεται ότι είναι βέλτιστος για τον υπολογισμό όλων των συχνών συνόλων. Οι πρόσφατες μελέτες Σελίδα 26 από 105

27 έχουν επικεντρωθεί στους αποδοτικούς αλγορίθμους για τα μέγιστα συχνά σύνολα (δηλαδή συχνά σύνολα που δεν έχουν συχνά υπερσύνολα). Δεδομένου ότι ο αριθμός μέγιστων συχνών συνόλων μπορεί να είναι εκθετικά μικρότερος από τον αριθμό συχνών συνόλων, μέχρι στιγμής τα μέγιστα συχνά σύνολα μπορούν να χαρακτηρίσουν όλα τα συχνά σύνολα, αφού τέτοιοι αλγόριθμοι μπορούν να προσφέρουν ουσιαστικές βελτιώσεις για σύνολα δεδομένων που έχουν συχνά σύνολα μεγάλου πληθικού αριθμού. Οι πρόσφατοι αλγόριθμοι εύρεσης των μέγιστων συχνών συνόλων περιλαμβάνουν τον MaxMiner, την Dualize-and-Advance, τον FPGrowth και τον MAFIA. Σελίδα 27 από 105

28 2o ΚΕΦΑΛΑΙΟ Κατηγοριοποίηση 2.1 Εισαγωγή στη κατηγοριοποίηση Το πρόβλημα της κατηγοριοποίησης έχει μελετηθεί εκτενώς στη στατιστική, στην αναγνώριση προτύπων (patterns) και μηχανική μάθηση (machine learning) στα πλαίσια του προβλήματος της ανάκτησης ή εξαγωγής γνώσης από σύνολα δεδομένων. Χαρακτηρίζεται ως μία από τις βασικές εργασίες στη διαδικασία εξόρυξης γνώσης η οποία αποσκοπεί στην ανάθεση ενός στοιχείου σε ένα προκαθορισμένο σύνολο κατηγοριών (classes). Η κατηγοριοποίηση (classification) μπορεί να περιγραφεί λοιπόν ως μία λειτουργία που αντιστοιχεί (κατηγοριοποιεί) ένα στοιχείο σε μία από τις διαφορετικές κατηγορίες που έχουν προκαθοριστεί. Η κατηγοριοποίηση χαρακτηρίζεται από ένα καλά καθορισμένο σύνολο κατηγόριων καθώς και ένα σύνολο από προκατηγοριοποιημένα (preclassified) παραδείγματα. Αντίθετα, η διαδικασία τμηματοποίησης δεν στηρίζεται σε προκαθορισμένες κατηγορίες ή παραδείγματα. Γενικά, ο στόχος της διαδικασίας κατηγοριοποίησης είναι η δημιουργία ενός μοντέλου που θα μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση μελλοντικών δεδομένων των οποίων η κατηγοριοποίηση είναι άγνωστη. Πιο συγκεκριμένα η κατηγοριοποίηση δεδομένων μπορεί να περιγραφεί ως μία διαδικασία δύο βημάτων: Βήμα 1ο: Εκμάθηση (Learning). Σε αυτό το βήμα χτίζεται ένα μοντέλο (model), περιγράφοντας ένα προκαθορισμένο σύνολο από κατηγορίες δεδομένων. Τα δεδομένα εκπαίδευσης (training data) Σελίδα 28 από 105

29 αναλύονται από έναν αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν στην συνέχεια το μοντέλο. Τα στοιχεία που αποτελούν το σύνολο κατάρτισης επιλέγονται τυχαία από έναν πληθυσμό δεδομένων και ανήκουν σε μία από τις προκαθορισμένες κατηγορίες. Δεδομένου ότι η κατηγορία των δειγμάτων εκπαίδευσης είναι γνωστή, αυτό το βήμα είναι επίσης γνωστό σαν «εποπτευμένη μάθηση» (supervised learning). Το μοντέλο που ορίζεται, γνωστό και ως κατηγοριοποιητής (classifier), αναπαριστάται με τη μορφή κανόνων κατηγοριοποίησης (classification rules), δέντρων απόφασης (decision trees) ή μαθηματικών τύπων (mathematical formulas). Βήμα 2ο: Κατηγοριοποίηση (Classification). Σε αυτό το βήμα χρησιμοποιούνται τα δοκιμαστικά δεδομένα (test data) για να υπολογίσουν την ακρίβεια (accuracy) του μοντέλου. Υπάρχουν διάφορες μέθοδοι για να εκτιμηθεί η ακρίβεια του κατηγοριοποιητή (classifier). Τα δεδομένα εκπαίδευσης επιλέγονται τυχαία και είναι ΣΧΗΜΑ 3. Διαδικασία ταξινόμησης: Εκμάθηι ανεξάρτητα. Το μοντέλο κατηγοριοποιεί κάθε ένα από τα δοκιμαστικά παραδείγματα (training samples). Στη συνέχεια η κατηγορία που ανήκουν τα δεδομένα με βάση το σύνολο δοκιμαστικών δεδομένων συγκρίνεται με την πρόβλεψη που έκανε το μοντέλο για την Σελίδα 29 από 105

30 κατηγορία. Η ακρίβεια του μοντέλου σε ένα καθορισμένο σύνολο δεδομένων δοκιμής είναι το ποσοστό των δειγμάτων δοκιμής που κατηγοριοποιήθηκαν σωστά από το υπό εκπαίδευση μοντέλο. Εάν η ακρίβεια του μοντέλου θεωρείται ως αποδεκτή, το μοντέλο μπορεί πλέον να χρησιμοποιηθεί για να κατηγοριοποιήσει το μελλοντικά δείγματα δεδομένων (αντικείμενα), των οποίων η κατηγοριοποίηση είναι άγνωστη. 2.2 Bayesian κατηγοριοποίηση Η Bayesian κατηγοριοποίηση (classification) βασίζεται στην στατιστική θεωρία κατηγοριοποίησης του Bayes. Ο στόχος είναι να κατηγοριοποιηθεί ένα δείγμα Χ σε μια από τις δεδομένες κατηγορίες Ci, C2,..., Cn χρησιμοποιώντας ένα μοντέλο πιθανότητας που ορίζεται σύμφωνα με τη θεωρία Bayes. Κάθε κατηγορία χαρακτηρίζεται από μια εκ των προτέρων πιθανότητα (a prior probability) παρατήρησης της κλάσης Ci. Επίσης, υποθέτουμε ότι το δεδομένο δείγμα Χ ανήκει σε μια κλάση Ci, με την υπό συνθήκη συνάρτηση πυκνότητας πιθανότητας: p(x/ci) ε ([0,10]. Κατόπιν, χρησιμοποιώντας τους ανωτέρω ορισμούς και βασιζόμενοι στη θεωρία Bayes, καθορίζουμε την εκ των υστέρων (posterior) πιθανότητα p(ci/x) ως εξής: Σελίδα 30 από 105

31 Ο απλούστερος Bayesian κατηγοριοποιητής είναι ο γνωστός naive Bayesian κατηγοριοποιητής. Αυτός υποθέτει ότι η επίδραση ενός ΣΧΗΜΑ 4. Διαδικασία Κατηγοριοποίησης. γνωρίσματος (attribute) σε μια δεδομένη κατηγορία είναι ανεξάρτητη από τις τιμές των άλλων γνωρισμάτων. Αυτή η υπόθεση γίνεται για να απλοποιήσει τους υπολογισμούς που εμπλέκονται και καλείται υπό συνθήκη ανεξαρτησία (conditional independence) κατηγορίας. Ένας άλλος Bayesian κατηγοριοποιητής είναι τα Bayesian Belief Networks. Είναι γραφικά μοντέλα όπου χρησιμοποιούμενα, αντίθετα με τους Naive Bayesian κατηγοριοποιητές, επιτρέπουν την παρουσίαση των εξαρτήσεων μεταξύ των υποσυνόλων των γνωρισμάτων Naive Bayesian κατηγοριοποιητής Υποθέστε ότι έχουμε ένα σύνολο δεδομένων S και έστω κάθε δείγμα δεδομένων αντιπροσωπεύεται από ένα η-διάστατο χαρακτηριστικό διάνυσμα, Χ = (Χ1, Χ2,, xn), το οποίο απεικονίζει τις n μετρήσεις που γίνονται στο δείγμα για τα n γνωρίσματα, A1 Α2,..., Α^ Σελίδα 31 από 105

32 Υποθέστε ότι υπάρχουν m κατηγορίες C1, C2,... Cm. Κατόπιν δεδομένου ενός άγνωστου δείγματος δεδομένων, Χ, ο κατηγοριοποιητής θα προβλέψει ότι το Χ ανήκει στην κατηγορία που έχει την υψηλότερη εκ των υστέρων πιθανότητα δεδομένου του Χ. Αυτό υπονοεί ότι ο κατηγοριοποιητής Naive Bayesian αναθέτει το δείγμα Χ στην κατηγορία Q εάν και μόνο εάν: p(ci Χ) > p(ci X) for\<j < m,j Φΐ Κατά συνέπεια, ο στόχος είναι να μεγιστοποιηθεί η εκ των υστέρων υπόθεση (posterior hypothesis). Η κατηγορία Q για την οποία η πιθανότητα p(ci Χ) μεγιστοποιείται καλείται μέγιστη μεταγενέστερη υπόθεση. Ο Naive Bayesian κατηγοριοποιητής υπολογίζει τις υπό συνθήκη πιθανότητες της κατηγορίας υποθέτοντας υπό συνθήκη ανεξαρτησία (conditional independence). Κατόπιν, πρέπει να υποθέσουμε ότι p(x Ci) = p(χι Ci)...p(xn Ci), και κάθε μία από τις πιθανότητες p (χϊ Ci) μπορεί να υπολογιστεί από τα δε- δομένα εκπαίδευσης. Κατά συνέπεια, ο Naive Bayesian κατηγοριοποιητής είναι μια πολύ αποδοτική τεχνική. Θεωρητικά, οι Bayesian κατηγοριοποιητές έχουν το ελάχιστο ποσοστό σφάλματος σε σύγκριση με όλους τους άλλους κατηγοριοποιητές. Στην πράξη, όμως, αυτό δεν συμβαίνει πάντα λόγω των υποθέσεων που απαιτούνται να γίνουν κατά την χρήση τους, όπως η υπό συνθήκη ανεξαρτησία, και η έλλειψη διαθέσιμων δεδομένων για τον ακριβή υπολογισμό των υπό συνθήκη πιθανοτήτων. Ωστόσο, έχει βρεθεί ότι είναι συγκρίσιμοι με τα δέντρα απόφασης και τους κατηγοριοποιητές που βασίζονται σε νευρωνικά δίκτυα σε μερικές εφαρμογές Bayesian Belief Networks Τα Bayesian Belief Networks προσδιορίζουν τις συνδεδεμένες υπό συνθήκη κατανομές πιθανότητας (joint conditional probability Σελίδα 32 από 105

33 distributions) στοχεύοντας στο να λάβουν υπόψη τις εξαρτήσεις που μπορούν να υπάρξουν μεταξύ των μεταβλητών. Ένα Belief Network καθορίζεται από δύο στοιχεία. Το πρώτο είναι ένας κατευθυνόμενος ακυκλικός γράφος, όπου κάθε κόμβος αντιπροσωπεύει μία τυχαία μεταβλητή και κάθε τόξο αντιπροσωπεύει μία εξάρτηση πιθανοτήτων (probabilistic dependencies). Εάν ένα τόξο έχει αρχή έναν κόμβο Υ και πέρας ένα κόμβο Ζ, τότε το Υ είναι ο γονέας του Ζ και το Ζ είναι ο απόγονος του Υ. Κάθε μεταβλητή είναι ανεξάρτητη από τους μη προγονούς της στο γράφο, δεδομένου των γονέων της. Το δεύτερο στοιχείο που καθορίζει ένα Belief Network αποτελείται από έναν πίνακα υπό συνθήκη πιθανότητας (Conditional Probability Table: CPT) για κάθε μεταβλητή. Ο CPT για μία μεταβλητή Χ προσδιορίζει την δεσμευμένη κατανομή p(x Parent (Χ)). Η συνδυασμένη πιθανότητα (joint probability) κάθε συνόλου (xl5 χ2,..., xj που αντιστοιχεί στα γνωρίσματα Α 1, Α2,..., Απ, δίνεται από την ακόλουθη εξίσωση: η... *η) = Π ρ(χ'. I parent (χ,)) όπου parent(xi) είναι ο γονέας του χ και p(x; parent(xi) αντιστοιχεί στις υπό συνθήκη καταχωρήσεις του CPT για το Xi. Ένας από τους κόμβους του δικτύου μπορεί να επιλεχτεί ως «output» κόμβος αντιπροσωπεύοντας τα γνωρίσματα μίας κατηγορίας. Οι αλγόριθμοι συμπεράσματος (inference algorithms) για εκμάθηση μπορούν να εφαρμοστούν στο δίκτυο. 2.3 Δέντρα απόφασης Τα δέντρα απόφασης είναι μια από τις ευρέως χρησιμοποιούμενες τεχνικές για την κατηγοριοποίηση (classification) και την πρόβλεψη Σελίδα 33 από 105

34 (prediction). Διάφοροι δημοφιλείς κατηγοριοποιητές κατασκευάζουν τα δέντρα απόφασης ως μοντέλα κατηγοριοποίησης. Ένα δέντρο απόφασης κατασκευάζεται με βάση ένα σύνολο εκπαίδευσης προ-κατηγοριοποιημένων δεδομένων. Κάθε ένας από τους εσωτερικούς κόμβος του δέντρου απόφασης προσδιορίζει τον έλεγχο ενός γνωρίσματος και κάθε κλαδί που «κατεβαίνει» από εκείνον τον κόμβο αντιστοιχεί σε μια από τις πιθανές τιμές για το συγκεκριμένο γνώρισμα. Επίσης, κάθε φύλλο αντιστοιχεί σε μια από τις κατηγορίες που έχουν οριστεί. Η διαδικασία για την κατηγοριοποίηση ενός νέου δείγματος με βάση ένα δέντρο απόφασης είναι η ακόλουθη: ξεκινώντας από την ρίζα του δέντρου και εξετάζοντας τα γνωρίσματα που καθορίζονται από τον κόμβο αυτό προσδιορίζονται διαδοχικά οι εσωτερικοί κόμβοι που θα επισκεφτούμε έως ότου καταλήξουμε σε ένα φύλλο. Σε κάθε εσωτερικό κόμβο ελέγχεται εάν το δείγμα ικανοποιεί το συγκεκριμένο κόμβο. Η έκβαση αυτής της δοκιμής σ' έναν εσωτερικό κόμβο καθορίζει το κλαδί που θα διασχίσουμε στην συνέχεια καθώς και τον επόμενο κόμβο που θα επισκεφτούμε. Η κατηγορία του υπό μελέτη δείγματος είναι η κατηγορία του τελικού κόμβου ο οποίος αντιστοιχεί σε φύλλο του δέντρου. Διάφοροι αλγόριθμοι κατασκευής των δέντρων απόφασης έχουν αναπτυχθεί κατά τη διάρκεια των τελευταίων ετών. Μερικοί από τους πιο γνωστούς αλγορίθμους είναι οι: ID3, C4.5, SPRINT, SLIQ, CART, Rainforest κ.λπ. Γενικά, οι περισσότεροι από τους αλγόριθμους έχουν δύο διακριτές φάσεις: τη φάση οικοδόμησης (building phase) και την φάση περικοπής (pruning phase). Στη φάση οικοδόμησης, το σύνολο των δεδομένων εκπαίδευσης χωρίζεται κατ' επανάληψη μέχρις ότου όλα τα δείγματα σ' ένα τμήμα (partition) να ανήκουν στην ίδια κατηγορία. Το αποτέλεσμα είναι ένα δέντρο που κατηγοριοποιεί κάθε στοιχείο του συνόλου εκπαίδευσης. Ωστόσο, το Σελίδα 34 από 105

35 δέντρο που κατασκευάζεται μπορεί να είναι ευαίσθητο στις στατιστικές παρατυπίες (irregularities) του συνόλου κατάρτισης. Κατά συνέπεια, οι περισσότεροι από τους αλγορίθμους εκτελούν μια φάση περικοπής μετά από τη φάση κατασκευής του δέντρου, στην οποία οι κόμβοι περικόπτονται για να αποτραπούν οι επικαλύψεις και για να δημιουργηθεί ένα δέντρο με υψηλότερη ακρίβεια. Οι διάφοροι αλγόριθμοι κατασκευής δέντρων απόφασης χρησιμοποιούν διαφορετικούς αλγορίθμους για την επιλογή του κριτηρίου ελέγχου για την κατηγοριοποίηση ενός συνόλου δεδομένων. Ένας από τους πιο πρόσφατους αλγορίθμους, ο CLS, εξετάζει όλα τα δυνατά δέντρα αποφάσεων σ' ένα συγκεκριμένο βάθος. Στην συνέχεια επιλέγει τον έλεγχο που ελαχιστοποιεί το υπολογιστικό κόστος κατηγοριοποίησης ενός στοιχείου. Ο ορισμός αυτού του κόστους αποτελείται από το κόστος καθορισμού των τιμών των χαρακτηριστικών για έλεγχο καθώς και το κόστος λανθασμένης κατηγοριοποίησης. Οι αλγόριθμοι ID3 και C4. βασίζονται σε μία στατιστική ιδιότητα, καλούμενη κέδρος πληροφορίας (information gain), προκειμένου να επιλέξουμε το γνώρισμα που θα ελέγξουμε σε κάθε κόμβο του δέντρου. Ο ορισμός του μέτρου βασίζεται στην εντροπία, η οποία χαρακτηρίζει την καθαρότητα μίας αφηρημένης επιλογής των δειγμάτων. Εναλλακτικά οι αλγόριθμοι όπως ο SLIQ, SPRINT επιλέγουν το γνώρισμα που θα ελεγχθεί με βάση το δείκτη GINI και όχι το μέτρο εντροπίας. Το καλύτερο γνώρισμα για τον έλεγχο (δηλαδή το γνώρισμα που δίνει τη καλύτερη τμηματοποίηση) δίνει την χαμηλότερη τιμή για το δείκτη GINI Αλγόριθμος ID3 Στην συνέχεια παρουσιάζουμε τα βασικά βήματα για τη δημιουργία ενός δέντρου αποφάσεων με βάση τον αλγόριθμο ID3, ο Σελίδα 35 από 105

36 οποίος θεωρείται ένας από τους βασικούς αλγορίθμους κατηγοριοποίησης. Είσοδος: Δείγματα εκπαίδευσης τα οποία παρουσιάζονται με διακριτές τιμές γνωρισμάτων. Έξοδος: Δέντρο Απόφασης. Διαδικασία: Βήμα 1ο: Το δέντρο ξεκινάει με έναν μόνο κόμβο που αντιπροσωπεύει ολόκληρο το σύνολο των δεδομένων εκπαίδευσης. Βήμα 2ο: Αν τα δείγματα είναι όλα της ίδιας κατηγορίας, τότε ο κόμβος γίνεται φύλλο και προστίθεται η ετικέτα της κατηγορίας. Βήμα 3ο: Ο αλγόριθμος χρησιμοποιεί ένα μέτρο εντροπίας, γνωστό σαν κέρδος πληροφορίας, για την επιλογή των γνωρισμάτων που διαχωρίζουν καλύτερα τα δείγματα στις διαφορετικές κατηγορίες. Στην συνέχεια το κέρδος πληροφορίας υπολογίζεται για κάθε γνώρισμα. Το γνώρισμα με το μέγιστο κέρδος πληροφορίας επιλέγεται σαν γνώρισμα ελέγχου. Επιλογή γνωρίσματος. Έστω 3 το σύνολο των $ δειγμάτων δεδομένων. Υποθέτοντας ένα σύνολο η κατηγοριών Οι (για ί = 1,2,..., η), η αναμενόμενη πληροφορία που απαιτείται για την κατηγοριοποίηση του ενός δείγματος δίνεται από την εξίσωση: Σελίδα 36 από 105

37 όπου Si είναι ο αριθμός των δειγμάτων στην κατηγορία Ci και Ρι είναι η πιθανότητα να χρησιμοποιηθεί για το διαχωρισμό του S σε ν υποσύνολα {S,, S2,..., Sv), όπου Sj περιέχει εκείνα τα δείγματα του S που έχουν την τιμή αλ για το γνώρισμα Α. Βήμα 4ο: Ένας κόμβος δημιουργείται και χαρακτηρίζεται γνώρισμα ελέγχου (test attribute), όσο δημιουργούνται κλαδιά για κάθε τιμή του. Στην συνέχεια το δείγμα δεδομένων διαχωρίζεται αναλόγως. Βήμα 5ο: Ο αλγόριθμος εφαρμόζεται συνεχώς για τη μορφοποίηση ενός δέντρου απόφασης με βάση τα δείγματα σε κάθε προκαθορισμένη κατηγορία. Ο συνεχής διαχωρισμός σταματάει μόνο όταν κάποια από τις παρακάτω συνθήκες ικανοποιείται: - Όλα τα δείγματα του δοσμένου κόμβου ανήκουν στην ίδια κατηγορία, ή - Δεν υπάρχουν άλλα γνωρίσματα με βάση τα οποία τα δείγματα θα μπορούσαν να διαχωριστούν περαιτέρω, ή - Δεν υπάρχουν μη κατηγοριοποιημένα δείγματα για το κλαδί του γνωρίσματος ελέγχου SLIQ Σύμφωνα με την προσέγγιση αυτή το σύνολο των γνωρισμάτων προ-κατηγοριοποιείται. Το δέντρο κατηγοριοποίησης αυξάνεται με μια κατά-εύρος μέθοδο. Αρχικά ορίζεται ο κόμβος ρίζα του δέντρου. Κατά τη διάρκεια της φάσης του διαχωρισμού, γίνεται χρήση της λίστας κατηγοριών για τον υπολογισμό του καλύτερου δυνατού διαχωρισμού για κάθε μεμονωμένο γνώρισμα. Ο κατάλογος του τρέχοντος κάθε φορά γνωρίσματος χρησιμοποιείται για να ενημερώσει τις αντίστοιχες ετικέτες των φύλλων (οι οποίες αντιστοιχούν στις κατηγορίες). Αφού διαχωριστεί ένας κόμβος, οι Σελίδα 37 από 105

38 είσοδοι της λίστας κατηγοριών τροποποιούνται για να υποδείξουν τον κόμβο στον οποίον η εγγραφή ανήκει. Ο αλγόριθμος αυτός έχει το μειονέκτημα ότι οι κατηγορίες προσεγγίζονται συχνά και μάλιστα με τυχαίο τρόπο και από τις δύο φάσεις της επαγωγής του δέντρου. Για τον λόγο αυτόν, πρέπει να βρίσκεται στη μνήμη συνεχώς προκειμένου να πετύχουμε μία καλή απόδοση. Αυτό, όμως, περιορίζει το μέγιστο επιτρεπτό μέγεθος του συνόλου εκπαίδευσης C4.5 Ο αλγόριθμος αυτός εφαρμόζει μία απλή κατά-βάθος μέθοδος για την κατασκευή του δέντρου. Τα γνωρίσματα κάθε κόμβου του δέντρου μπορούν να έχουν συνεχείς τιμές. Ωστόσο, για να λειτουργήσει σωστά χρειάζεται ολοκληρωμένα δεδομένα. Ο C4.5 κρίνεται ακατάλληλος για μεγάλα σύνολα δεδομένων, αφού η ακρίβεια που παρουσιάζει είναι πολύ μικρή SPRINT Το σύνολο των γνωρισμάτων προ-κατηγοριοποιούνται. Η κατηγοριοποίηση αυτή διατηρείται καθ' όλη τη διάρκεια του διαχωρισμού. Το δέντρο αποφάσεων αυξάνεται με μια κατά-εύρος μέθοδο και τα γνωρίσματα διαχωρίζονται μεταξύ των κόμβων. Η καθοριστική φάση του διαχωρισμού είναι μια γραμμική ανίχνευση των καταλόγων σε κάθε κόμβο και για το σκοπό αυτό χρησιμοποιείται ένα hashing σχήμα. Ακολουθούν τα κυριότερα μειονεκτήματα του αλγορίθμου: Το μέγεθος του hash πίνακα είναι συνήθως Ο(Ν) για τα επάνω επίπεδα του δέντρου. Αν ο hash πίνακας δεν χωράει στη μνήμη, γεγονός το οποίο είναι πολύ πιθανό για μεγάλες βάσεις δεδομένων, τότε διασπάται σε Σελίδα 38 από 105

39 μικρότερα κομμάτια. Αυτό έχει σαν αποτέλεσμα πολλαπλά και ακριβά περάσματα εισόδου - εξόδου από ολόκληρη τη βάση δεδομένων. 2.4 Νευρωνικά δίκτυα Μία άλλη προσέγγιση της κατηγοριοποίησης που χρησιμοποιείται σε πολλές εφαρμογές εξόρυξης γνώσης για πρόβλεψη (prediction) και κατηγοριοποίηση (classification) βασίζεται στα νευρωνικά δίκτυα. Οι μέθοδοι αυτής της προσέγγισης χρησιμοποιούν τα νευρωνικά δίκτυα για να κατασκευάσουν ένα μοντέλο κατηγοριοποίησης ή πρόβλεψης. Τα κύρια βήματα αυτής της διαδικασίας είναι: a) Αναγνώριση των χαρακτηριστικών (features) εισόδου και εξόδου. b) Κατασκευή ενός δικτύου με την κατάλληλη τοπολογία. ^Επιλογή του σωστού συνόλου εκπαίδευσης. d) Εκπαίδευση του δικτύου με βάση ένα αντιπροσωπευτικό σύνολο δεδομένων. Τα δεδομένα πρέπει να απεικονίζονται με τέτοιο τρόπο ώστε να μεγιστοποιηθεί η δυνατότητα του δικτύου να αναγνωρίζει πρότυπα. e) Έλεγχος του δικτύου χρησιμοποιώντας ένα σύνολο ελέγχου (test data set) το οποίο είναι ανεξάρτητο από το σύνολο εκπαίδευσης (training data set). Κατόπιν το μοντέλο που παράγεται από το δίκτυο, εφαρμόζεται για να προβλέψει τις κατηγορίες (έξοδοι - outputs) των μη κατηγοριοποιημένων δειγμάτων (είσοδοι - inputs) Κατηγοριοποίηση με βάση νευρωνικά δίκτυα Τα νευρωνικά δίκτυα αποτελούνται από «νευρώνες» με βάση τη νευρωνική δομή του εγκεφάλου. Επεξεργάζονται τα στοιχεία ένα κάθε Σελίδα 39 από 105

Δείτε περισσότερα