ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ

Transcript

1 ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΘΕΜΑ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ ΜΕ ΤΗ ΧΡΗΣΗ WEKA ΛΑΖΑΡΙΔΟΥ ΠΑΡΘΕΝΑ ΜΕΤΑΞΑ ΟΛΓΑ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ ΣΤΑΥΡΟΣ ΒΑΛΣΑΜΙΔΗΣ ΚΑΒΑΛΑ 2006

2 Ευχαριστίες Για την ολοκλήρωση της πτυχιακής μας εργασίας ευχαριστούμε θερμά τον επιβλέποντα καθηγητή κ. Βαλσαμίδη Σταύρο για την πολύτιμη βοήθεια και υποστήριξη. Ιδιαίτερα θέλουμε να ευχαριστήσουμε τις οικογένειές μας, Λαζαρίδης Χρήστος Σουμέλα, Αντώνης και Σούλα και Μεταξάς Γεώργιος Αθηνά, Παναγιώτης και Ελένη, που μας εμπιστεύονται και στηρίζουν κάθε μας επιλογή. Επίσης, θέλουμε να ευχαριστήσουμε και τον κ. Παπαδημητρίου Στέργιο για την μεγάλη του συνεισφορά.

3 Εισαγωγή Ο κόσμος κατακλύζεται από δεδομένα. Η ποσότητα των δεδομένων συνεχώς αυξάνεται και φαίνεται πως δεν υπάρχει τέλος. Οι ηλεκτρονικοί υπολογιστές, που πλέον είναι διαδεδομένοι παντού, διευκολύνουν την αποθήκευση δεδομένων, που παλιότερα θεωρούνταν απορρίμματα και μη χρήσιμα δεδομένα. Οι μεγάλοι σε χωρητικότητα και οικονομικοί δίσκοι που υπάρχουν σήμερα, αναβάλλουν αποφάσεις όσον αφορά τι θα απογίνουν όλα αυτά τα δεδομένα απλά αγοράζεται ένας ακόμη δίσκος και διατηρούνται όλα τα στοιχεία αποθηκευμένα. Η ηλεκτρονική επιστήμη καταγράφει τις αποφάσεις, τις επιλογές στα σούπερ μάρκετ, τις οικονομικές προτιμήσεις, τα έσοδα και τα έξοδα όλων των ανθρώπων, αφού έχει εισέλθει σε κάθε τομέα. Κάθε κίνηση αποτελεί και μια εγγραφή σε μια βάση δεδομένων. Όλα αυτά είναι προσωπικές επιλογές που έχουν παράλληλα αναρίθμητες αντιστοιχίες στην παγκόσμια οικονομία και βιομηχανία. Κάθε ένας είναι μάρτυρας του αναπτυσσόμενου χάσματος μεταξύ της «γενιάς» των δεδομένων και της κατανόησης αυτών. Καθώς ο όγκος των δεδομένων αυξάνεται δυσανάλογα η κατανόηση μειώνεται δραματικά. Κρυφά μέσα στα δεδομένα υπάρχουν σημαντικές πληροφορίες, που σπάνια αποσαφηνίζονται και εκμεταλλεύονται. Οι άνθρωποι από πολύ νωρίς άρχισαν να αναζητούν πρότυπα στα δεδομένα. Οι κυνηγοί ψάχνουν πρότυπα στην μεταναστευτική συμπεριφορά των ζώων, οι αγρότες την καλλιέργεια της σοδιάς τους, οι πολιτικοί στις αποφάσεις ψήφου των πολιτών. Το έργο ενός επιστήμονα είναι να κατανοεί τα δεδομένα, να ανακαλύπτει τα πρότυπα που ρυθμίζουν τη λειτουργία του φυσικού

4 Πρόλογος 16 κόσμου και να τα συμπεριλάβει σε θεωρίες που μπορούν να χρησιμοποιηθούν για την πρόβλεψη του τι πρόκειται να γίνει με βάση νέες περιπτώσεις. Ένας επιχειρηματίας πρέπει να είναι σε θέση να αναγνωρίζει και να αξιοποιεί ευκαιρίες, που αποτελούν πρότυπα συμπεριφοράς και μπορούν να μετατραπούν σε προσοδοφόρες επιχειρήσεις. Η αχαλίνωτη αύξηση των βάσεων δεδομένων τα τελευταία χρόνια τοποθετεί την εξόρυξη δεδομένων (Data Mining) στο προσκήνιο των νέων επιχειρησιακών τεχνολογιών. Έχει εκτιμηθεί ότι η ποσότητα των δεδομένων, που αποθηκεύονται σε παγκόσμιες βάσεις δεδομένων, διπλασιάζεται κάθε είκοσι μήνες. Καθόσον η ροή των δεδομένων διογκώνεται και οι μηχανές αναζήτησης γίνονται κοινοτοπικές, οι ευκαιρίες για εξόρυξη δεδομένων αυξάνονται. Μοναδική ελπίδα για την αποσαφήνιση των προτύπων που υπόκεινται στις βάσεις δεδομένων είναι η εξόρυξη δεδομένων. Τα ευφυώς αναλυόμενα δεδομένα είναι πολύτιμη πηγή, που οδηγούν σε νέα επίγνωση πραγμάτων και, σε εμπορικό περιβάλλον, σε ανταγωνιστικά πλεονεκτήματα. Η εξόρυξη δεδομένων ορίζεται ως μια διαδικασία ανακάλυψης προτύπων σε δεδομένα. Τα πρότυπα πρέπει να είναι σημαντικά, επιφέροντας επουσιώδη πλεονεκτήματα. Τα χρήσιμα πρότυπα οδηγούν σε μη τετριμμένες προβλέψεις πάνω σε νέα δεδομένα.

5 Περιεχόμενα Εισαγωγή 15 1 ο Κεφάλαιο Ανακάλυψη Γνώσης Από Βάσεις Δεδομένων και Εξόρυξη Δεδομένων 1.1 Εισαγωγή Η Διαδικασία Ανακάλυψης Γνώσης από Βάσεις Δεδομένων Η Διαδικασία Εξόρυξης Δεδομένων Βασικές Εργασίες Εξόρυξης Δεδομένων Κατηγοριοποίηση Παλινδρόμηση Ανάλυση Χρονοσειρών Πρόβλεψη Συσταδοποίηση Παρουσίαση Συνόψεων Κανόνες Συσχέτισης Ανακάλυψη Ακολουθιών Κατηγορίες Μεθόδων Εξόρυξης Δεδομένων Απαιτήσεις Εξόρυξης Δεδομένων Η Ανάπτυξη της Εξόρυξης Δεδομένων 41

6 Περιεχόμενα Θέματα Εξόρυξης Δεδομένων Μέτρα Αξιολόγησης Η Εξόρυξη Δεδομένων από την Σκοπιά των Βάσεων Δεδομένων Κοινωνικές Επιπτώσεις 52 2 ο Κεφάλαιο Κατηγοριοποίηση 2.1 Εισαγωγή Ζητήματα σχετικά με την Κατηγοριοποίηση Αλγόριθμοι βασισμένοι στη Στατιστική Παλινδρόμηση Bayesian Κατηγοριοποίηση Αλγόριθμοι βασισμένοι στην Απόσταση Απλή Προσέγγιση Κ Πλησιέστεροι Γείτονες Αλγόριθμοι βασισμένοι σε Δένδρα Απόφασης Αλγόριθμος ID SLIQ C4.5 και C SPRINT CART Αλγόριθμοι βασισμένοι σε Νευρωνικά Δίκτυα Δίκτυα Συνάρτησης Ακτινικής Βάσης Νευρωνικά Δίκτυα Perceptron 104

7 Περιεχόμενα Αλγόριθμοι βασισμένοι σε Κανόνες Δημιουργία Κανόνων από ένα Δένδρο Απόφασης Δημιουργία Κανόνων από ένα Νευρωνικό Δίκτυο Δημιουργία Κανόνων χωρίς DT ή NN Συνδυαστικές Τεχνικές ο Κεφάλαιο Συσταδοποίηση 3.1 Εισαγωγή Διαδικασία Συσταδοποίησης Εφαρμογές Συσταδοποίησης Ομοιότητα και Μέτρα Απόστασης Ακραία Σημεία Μέθοδοι Συσταδοποίησης Κατηγοριοποίηση Αλγορίθμων με βάση τη μέθοδο Συσταδοποίησης Κατηγοριοποίηση με βάση των τύπο Δεδομένων Ιεραρχικοί Αλγόριθμοι Συσσωρευτικοί (Agglomerative) Ιεραρχικοί Αλγόριθμοι Διαιρετικοί (Divisive) Ιεραρχικοί Αλγόριθμοι Διαμεριστικοί Αλγόριθμοι Συσταδοποίηση K-means Συσταδοποίηση PAM (Partitioning Around Medoids) Αλγόριθμος Ενέργειας Δεσμού Αλγόριθμος CLARA (Clustering Large Applications) 147

8 Περιεχόμενα Αλγόριθμος CLARANS (Clustering Large Applications based on Randomized Search ) Συσταδοποίηση με Γενετικούς Αλγόριθμους Δέντρο Ελάχιστης Ζεύξης Συσταδοποίηση με Νευρωνικά Δίκτυα Συσταδοποίηση σε Μεγάλες Βάσεις Δεδομένων Αλγόριθμος Cure Αλγόριθμος BIRCH Συσταδοποίηση βασισμένη στην Πυκνότητα Αλγόριθμος DBSCAN DENCLUE Αλγόριθμοι βασισμένοι σε πλέγμα (Grid-based) STING (Statiistical Information Grid-based method) WaveCluster Συσταδοποίηση Υπο-χώρων (Subspace Clustering) CLIQUE PROCLUS Αλγόριθμοι Συσταδοποίησης για σύνολα Δεδομένων με Λεκτικές Τιμές ROCK (Robust Clustering Algorithm for Categorical Attributes) Αλγόριθμοι βασισμένοι στον K-Means για Λεκτικές Δεδομένα Αλγόριθμος K-Prototypes Αλγόριθμος K-Modes Ιεραρχική και βασισμένη σε Γράφους Συσταδοποίηση CHAMELEOn C 2 P 183

9 Περιεχόμενα Αποδοτικότητα Συσταδοποίησης ο Κεφάλαιο Κανόνες Συσχέτισης 4.1 Εισαγωγή Το Πρόβλημα Εξαγωγής Κανόνων Συσχέτισης Εξαγωγή Κανόνων Συσχέτισης Ταξινόμηση Αλγορίθμων Βασικοί Αλγόριθμοι Αλγόριθμος Apriori Ψευδοκώδικας του Αλγορίθμου Apriori Συνάρτηση Apriori-Gen Συνάρτηση Subset Μια παραλλαγή στον αλγόριθμο Αλγόριθμος AprioriTID Αλγόριθμος Δειγματοληψίας Διαμέριση Αντιπροσωπευτικοί Κανόνες Συσχέτισης Τελεστής Κάλυψης (Cover Operator) Ορισμός Αντιπροσωπευτικών Κανόνων Συσχέτισης Παράλληλοι και Κατανεμημένοι Αλγόριθμοι Παραλληλισμός Δεδομένων Παραλληλισμός Εργασιών Αυξητικοί Κανόνες 217

10 Περιεχόμενα Προηγμένες Τεχνικές Επαγωγής Κανόνων Συσχέτισης Γενικευμένοι Κανόνες Συσχέτισης Κανόνες Συσχετίσεων Πολλαπλών Επιπέδων Πολλαπλές Τιμές Ελάχιστης Υποστήριξης Κανόνες Στατιστικής Συσχέτισης Ποσοτικοί Κανόνες Συσχέτισης Ισο-βαθύς Κατάτμηση (Equi-depth Partitioning) Κανόνες με βάση την Απόσταση (Distance-based Rules) ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 5.1 Εισαγωγή Επισκόπηση Χωρικών Δεδομένων Χωρικές Ερωτήσεις Δομές Χωρικών Δεδομένων Θεματικοί Χάρτες Βάσεις Δεδομένων Εικόνων Βασικές Αρχές Εξόρυξης Γνώσης από Χωρικά Δεδομένα Γενίκευση και Εξειδίκευση Προοδευτική Βελτίωση Γενίκευση STING Χωρικοί Κανόνες Αλγόριθμοι Χωρικής Κατηγοριοποίησης 258

11 Περιεχόμενα Αλγόριθμοι Χωρικής Συσταδοποίησης Επεκτάσεις CLARANS SD(CLARANS) DBCLASD BANG WaveCluster Προσέγγιση ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 6.1 Εισαγωγή Μοντελοποίηση Χρονικών Γεγονότων Χρονολογικές Σειρές Ανάλυση Χρονολογικών Σειρών Ανάλυση Τάσεων Μετασχηματισμός Ομοιότητα Πρόβλεψη Ανίχνευση Προτύπων Ακολουθίες Αλγόριθμος AprioriAu SPADE Κανόνες Χρονικών Συσχετίσεων Κανόνες Συσχετίσεων δια-συναλλαγών 306

12 Περιεχόμενα Κανόνες Επεισοδίων Εξαρτήσεις Τάσεων Κανόνες Συσχέτισης Ακολουθιών Ημερολογιακοί Κανόνες Συσχετίσεων ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Δεδομένων 7.1 Η Χρησιμότητα των Τεχνικών Οπτικής Παρουσίασης Οι Αρχές και οι Κανόνες Τεχνικές Οπτικής Παρουσίασης Τεχνικές Μείωσης Διαστάσεων MDS Multi Dimensional Scaling Karhunen Loeve Retrieval &Clustering FastMap Γεωμετρικές Τεχνικές Projection Views Parallel Coordinate Scatterplots Matrices Landscapes Hyperslice Τεχνικές βασισμένες σε Εικόνες Chernoff Faces Stick Figures 333

13 Περιεχόμενα Shape Coding Color Icons TileBars Ιεραρχικές Τεχνικές Dimensional Stacking Worlds Within Worlds Treemap Venn Cone Trees InfoCube File System Navigation FSN Τεχνικές Σχεδίασης σε επίπεδο Pixels Query Dependent Query Independent Grouping Techniques Τεχνικές βασισμένες σε Γραφήματα Orthogonal Graph Symmetric Graph Cluster Based Graph Acyclic Graph Hypergraphs SeeNet Graphs Narcissus Graph Τεχνικές Παραμόρφωσης Εικόνας Perspective Wall Table Lens Fisheye View 359

14 Περιεχόμενα Hyperbolic Trees HyperBox Δυναμικές Τεχνικές ο Κεφάλαιο Εξόρυξη Δεδομένων με το Weka 8.1 Εισαγωγή Ξεκινώντας την εφαρμογή Δοκιμή της εφαρμογής Weka 369 Επίλογος 376 Βιβλιογραφία 378

15 1ο Κεφάλαιο Εξόρυξη Δεδομένων 1.1 Εισαγωγή Οι όροι ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases - KDD) και εξόρυξη γνώσης από δεδομένα (Data Mining) συχνά χρησιμοποιούνται εναλλακτικά για την ίδια έννοια. Στην πραγματικότητα, έχουν δοθεί πολλές διαφορετικές ονομασίες σε αυτήν τη διαδικασία ανακάλυψης χρήσιμων (κρυμμένων) προτύπων από τα δεδομένα, όπως εξαγωγή γνώσης, ανακάλυψη πληροφοριών, εξερευνητική ανάλυση δεδομένων, συγκομιδή πληροφοριών, μη επιβλεπόμενη αναγνώριση προτύπου. Σήμερα, ο όρος KDD αναφέρεται σε ολόκληρη τη διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων, που αποτελείται από πολλά βήματα, ένα από τα οποία είναι η εξόρυξη γνώσης από δεδομένα. Οι γενικοί ορισμοί των όρων KDD και Data Mining, παρατίθενται παρακάτω.[1]: KDD - Η ανακάλυψη γνώσης σε βάσεις δεδομένων είναι η διαδικασία εύρεσης έγκυρων πληροφοριών και αναγνώρισης χρήσιμων και κατανοητών προτύπων στα δεδομένα.

16 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 18 Data Mining - Η εξόρυξη γνώσης από δεδομένα είναι η χρήση αλγορίθμων για την εξαγωγή των πληροφοριών και προτύπων που παράγονται με τη διαδικασία KDD. Για την κατανόηση των ορισμών παρουσιάζονται λεπτομερώς οι βασικές έννοιες των όρων, όπου βασίζονται. Τα δεδομένα περιγράφουν οντότητες ή συσχετίσεις του πραγματικού κόσμου, F. Για παράδειγμα, ένα σύνολο εγγραφών από συναλλαγές τραπεζών, οι οποίες περιέχουν τις τιμές τριών ιδιοτήτων (π.χ. τμήμα, εισόδημα, κατάσταση δανείου). Ένα πρότυπο είναι μια έκφραση E σε μια γλώσσα L η οποία περιγράφει ένα υποσύνολο δεδομένων F E F εκμεταλλευόμενο κοινές ιδιότητες των δεδομένων του. Σε αυτή την περίπτωση το πρότυπο θεωρείται υποσύνολο του F και αφαίρεση (abstraction) του If income $ t age a 1, a2, then client is F. target.«εάν οι πελάτες έχουν εισόδημα μεγαλύτερο από μία συγκεκριμένη τιμή t και η ηλικία τους βρίσκεται σε ένα διάστημα τιμών a 1, a 2, τότε ανταποκρίνονται στη νέα προσφορά υπηρεσιών». Η διαδικασία KDD είναι μια διαδικασία πολλαπλών βημάτων, η οποία περιλαμβάνει την προ-επεξεργασία των δεδομένων, την αναζήτηση των προτύπων και την αξιολόγηση της εξαγόμενης γνώσης. Εγκυρότητα. Το εξαγόμενο πρότυπο θα πρέπει να είναι συνεπές σε νέα δεδομένα με κάποιο βαθμό βεβαιότητας. Το ζήτημα της εγκυρότητας αποτελεί ένα από τα βασικά προβλήματα και αντικείμενο έρευνας στην εξόρυξη δεδομένων. Χρησιμότητα. Η εξαγωγή των προτύπων θα πρέπει να ακολουθείται από μερικές χρήσιμες διεργασίες όπως η αξιολόγηση τους από κάποιες

17 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 19 συναρτήσεις χρησιμότητας. Επίσης, θα ήταν χρήσιμο να εμπλουτιστεί η σημασιολογία τους, διατηρώντας όσο το δυνατόν περισσότερη γνώση από τα αρχικά δεδομένα η οποία μπορεί να φανεί χρήσιμη για τη λήψη αποφάσεων. Στην περίπτωση μίας βάσης δεδομένων που αφορά σε δάνεια, χρήσιμη διαδικασία θα μπορούσε να θεωρηθεί αυτή που δίνει μια ένδειξη αναμενόμενης αύξησης στα κέρδη. Συνδέεται επίσης με έναν κανόνα απόφασης: «Εάν το εισόδημα είναι δεν μπορεί να πάρει δάνειο». $ t, τότε ο πελάτης Κατανόηση. Ο στόχος της εξόρυξης γνώσης είναι να προσδιοριστούν τα πρότυπα και να γίνουν κατανοητά, ώστε να μπορούν να οδηγήσουν ακόμη και τους μη ειδικούς σε χρήσιμα συμπεράσματα και αποφάσεις. 1.2 Η Διαδικασία Ανακάλυψης Γνώσης από Βάσεις Δεδομένων Η KDD είναι μια διαλογική και επαναληπτική διαδικασία που περιλαμβάνει πολλά διαφορετικά βήματα. Η είσοδος σε αυτή είναι τα δεδομένα και οι χρήσιμες πληροφορίες είναι η έξοδος (Σχήμα 1.1). Συγκεκριμένα αποτελείται από τα εξής βήματα [1]: 1. Την ανάπτυξη και κατανόηση της περιοχής της εφαρμογής και στόχων του τελικού χρήστη. 2. Την επιλογή των δεδομένων Υπάρχουν διαφορετικά είδη αποθηκών πληροφοριών που μπορούν να χρησιμοποιηθούν στη διαδικασία εξόρυξης γνώσης. Κατά συνέπεια, οι πολλαπλές πηγές δεδομένων (βάσεις δεδομένων, αρχεία και μη ηλεκτρονικές πηγές) μπορούν να συνδυαστούν καθορίζοντας το σύνολο στο οποίο τελικά η διαδικασία εξόρυξης πρόκειται να εφαρμοστεί.

18 1 ο Κεφάλαιο Εξόρυξη Δεδομένων Τη δημιουργία του στόχου-συνόλου δεδομένων Επιλογή του συνόλου δεδομένων (δηλαδή μεταβλητές, δείγματα δεδομένων) στο οποίο η διαδικασία εξόρυξης πρόκειται να εκτελεστεί. 4. Τον καθαρισμό και την προεπεξεργασία δεδομένων Αυτό το βήμα περιλαμβάνει βασικές διαδικασίες όπως η αφαίρεση του θορύβου ή των outliers, η συλλογή των απαραίτητων πληροφοριών για τη διαμόρφωση ή τη μέτρηση του θορύβου, η απόφαση σχετικά με τις στρατηγικές διαχείρισης των ελλειπόντων πεδίων δεδομένων. 5. Τον μετασχηματισμό των δεδομένων Τα δεδομένα μετασχηματίζονται ή παγιώνονται σε μορφές κατάλληλες για εξόρυξη. Τα λανθασμένα δεδομένα διορθώνονται ή διαγράφονται, ενώ τα ελλιπή συγκεντρώνονται ή αξιολογούνται. Γίνεται χρήση μεθόδων μείωσης διαστάσεων ή μετασχηματισμού για τη μείωση του αριθμού των υπό εξέταση μεταβλητών ή την εύρεση κατάλληλης αντιπροσώπευσης των δεδομένων χωρίς μεταβλητές. Για να προετοιμαστούν τα δεδομένα για εξόρυξη γνώσης και να παραχθούν αποτελέσματα με περισσότερο νόημα χρησιμοποιούνται τεχνικές μετασχηματισμού. Για να διευκολυνθεί η χρήση αυτών των τεχνικών που απαιτούν ειδικούς τύπους κατανομής δεδομένων μπορεί να τροποποιηθεί η πραγματική κατανομή των δεδομένων. Μπορούν να συνδυαστούν τιμές γνωρισμάτων για να δώσουν νέες τιμές, μειώνοντας έτσι την πολυπλοκότητα των δεδομένων. Για παράδειγμα, η σημερινή ημερομηνία και η ημερομηνία γέννησης, θα μπορούσαν να αντικατασταθούν από την ηλικία. Ένα γνώρισμα θα μπορούσε να αντικατασταθεί από ένα άλλο. Ένα παράδειγμα θα ήταν η αντικατάσταση μίας ακολουθίας που περιέχει τις πραγματικές τιμές ενός γνωρίσματος, με τις διαφορές μεταξύ των διαδοχικών τιμών. Μπορούμε να χειριστούμε ευκολότερα τις τιμές των γνωρισμάτων διαμερίζοντάς τις σε διαστήματα και χρησιμοποιώντας αυτά τα διακριτά διαστήματα τιμών. Μερικές τιμές δεδομένων μπορούν και να

19 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 21 αφαιρεθούν. Οι ακραίες τιμές, που εμφανίζονται σπάνια, μπορούν να αφαιρεθούν. Αν εφαρμοστεί μια μεταβλητή στις τιμές μπορούν να τροποποιηθούν τα δεδομένα. Μία συνηθισμένη συνάρτηση μετασχηματισμού είναι η χρήση του λογάριθμου της τιμής παρά της ίδιας της τιμής. Αυτές οι τεχνικές κάνουν την διαδικασία της εξόρυξης γνώσης από δεδομένα ευκολότερη με τη μείωση των διαστάσεων (του πλήθους των γνωρισμάτων) ή τη μείωση της μεταβλητότητας των τιμών των δεδομένων. Η αφαίρεση των ακραίων τιμών μπορεί πραγματικά να βελτιώσει την ποιότητα των αποτελεσμάτων. Όμως, η τροποποίηση δεδομένων πρέπει να γίνει με προσοχή, όπως με προσοχή πρέπει να γίνουν και όλα τα άλλα βήματα της διαδικασίας KDD. Εάν η τροποποίηση γίνει με λανθασμένο τρόπο τότε θα αλλάξουν ριζικά τα δεδομένα και τα αποτελέσματα από την εξόρυξη γνώσης από δεδομένα θα είναι ανακριβή. 6. Την επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων. Σε αυτό το βήμα καθορίζεται ο στόχος της διαδικασίας KDD, έχοντας τους στόχους εξόρυξης δεδομένων που πρόκειται να επιτευχθούν. Επίσης, επιλέγονται οι μέθοδοι που θα χρησιμοποιηθούν. Αυτό περιλαμβάνει την επιλογή του κατάλληλου μοντέλου και παραμέτρων (π.χ. κατηγορικό ή αριθμητικό μοντέλο δεδομένων). Επίσης η μέθοδος εξόρυξης δεδομένων πρέπει να αντιστοιχηθεί με τις απαιτήσεις και τα γενικά κριτήρια της διαδικασίας ΚDD. 7. Την εξόρυξη δεδομένων. Εφαρμόζοντας ευφυείς μεθόδους, ψάχνουμε για ενδιαφέροντα πρότυπα γνώσης. Τα πρότυπα θα μπορούσαν να είναι μιας συγκεκριμένης αντιπροσωπευτικής μορφής ή ενός συνόλου τέτοιων αντιπροσωπεύσεων, όπως κανόνες κατηγοριοποίησης (classification rules), δέντρα, παλινδρόμηση, συσταδοποίηση (clustering). Η απόδοση και τα αποτελέσματα της μεθόδου εξόρυξης δεδομένων εξαρτώνται από τα προηγούμενα βήματα.

20 1 ο Κεφάλαιο Εξόρυξη Δεδομένων Την αξιολόγηση των προτύπων. Τα εξαγόμενα πρότυπα αξιολογούνται με κάποια μέτρα, προκειμένου να προσδιοριστούν τα πρότυπα τα οποία αντιπροσωπεύουν τη γνώση, δηλαδή τα αληθινά ενδιαφέροντα πρότυπα. 9. Την σταθεροποίηση και παρουσίαση της γνώσης Σε αυτό το βήμα, η εξορυγμένη γνώση ενσωματώνεται στο σύστημα. Είναι πολύ σημαντικό το πώς θα παρουσιαστούν στους χρήστες τα αποτελέσματα της εξόρυξης γνώσης, επειδή η χρησιμότητα ή μη των αποτελεσμάτων μπορεί να εξαρτάται ακριβώς από αυτήν την παρουσίαση. Υπάρχουν διάφορες στρατηγικές οπτικοποίησης και γραφικές διεπαφές χρήστη (GUI). Η οπτικοποίηση (visualization) αναφέρεται ως η οπτική παρουσίαση των δεδομένων. Η κλασική έκφραση που λέει ότι «μία εικόνα αξίζει όσο χίλιες λέξεις» βεβαίως και είναι σωστή όταν εξετάζεται η δομή των δεδομένων. Για παράδειγμα, μία γραφική παράσταση που δείχνει την κατανομή μιας μεταβλητής δεδομένων είναι πιο κατανοητή και ίσως πιο κατατοπιστική από έναν τύπο για την αντίστοιχη κατανομή. Η χρήση των τεχνικών οπτικοποίησης επιτρέπει στους χρήστες να συνοψίζουν, να εξάγουν και να αντιλαμβάνονται πιο πολύπλοκα αποτελέσματα από αυτά που τους επιτρέπουν να αντιλαμβάνονται οι πιο μαθηματικοί και πιο περιγραφικοί τρόποι παρουσίασης των αποτελεσμάτων. Οι τεχνικές οπτικοποίησης μπορεί να είναι: Γραφικές: Μπορούν να χρησιμοποιηθούν οι παραδοσιακές γραφικές παραστάσεις, όπως τα ραβδογράμματα, οι πίτες, τα ιστογράμματα και τα γραμμογράμματα. Γεωμετρικές: Οι γεωμετρικές τεχνικές περιλαμβάνουν θηκογράμματα και διαγράμματα διασποράς. Βασισμένες σε εικονίδια: Χρησιμοποιώντας σχήματα, χρώματα, ή εικονίδια βελτιώνεται η παρουσίαση των αποτελεσμάτων.

21 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 23 Βασισμένες σε εικονοστοιχεία: Με αυτές τις τεχνικές, κάθε τιμή που αντιστοιχεί σε δεδομένο παρουσιάζεται σαν ένα εικονοστοιχείο χρωματισμένο με μοναδικό τρόπο. Ιεραρχικές: Αυτές οι τεχνικές διαιρούν ιεραρχικά το χώρο παρουσίασης (οθόνη) σε περιοχές, βασιζόμενες στις τιμές των δεδομένων. Υβριδικές: Οι προηγούμενες τεχνικές μπορούν να συνδυαστούν σε μία ενιαία παρουσίαση. Οποιαδήποτε από τις παραπάνω προσεγγίσεις μπορεί να είναι δυσδιάστατη ή τρισδιάστατη. Μπορούν να χρησιμοποιηθούν εργαλεία οπτικοποίησης, για να συνοψίσουν τα δεδομένα, όπως θα έκανε από μόνη της μία τεχνική εξόρυξης γνώσης. Επιπρόσθετα, μπορεί να χρησιμοποιηθεί η οπτικοποίηση για να εμφανίσει τα πολύπλοκα αποτελέσματα των εργασιών της εξόρυξης γνώσης από δεδομένα. Όλες οι παραπάνω τεχνικές θα αναλυθούν σε ένα από τα επόμενα κεφάλαια. Η εξόρυξη δεδομένων ως βήμα της διαδικασίας KDD ενδιαφέρεται κυρίως για τις μεθοδολογίες και τις τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από τις μεγάλες αποθήκες δεδομένων. Αφ' ετέρου η διαδικασία KDD περιλαμβάνει την αξιολόγηση και την ερμηνεία των προτύπων. Επίσης, περιλαμβάνει την επιλογή της κωδικοποίησης των προτύπων, της προ-επεξεργασίας, της δειγματοληψίας και του μετασχηματισμού των δεδομένων πριν από το βήμα της εξόρυξης των δεδομένων.

22 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 24 Σχήμα 1.1 Διαδικασία KDD Η διαδικασία KDD είναι επαναληπτική και θα μπορούσε να περιέχει βρόχους μεταξύ οποιωνδήποτε από τα ανωτέρω βήματα. Αν και η κύρια εργασία στη διαδικασία εξόρυξης γνώσης εστιάζεται στη διαδικασία εξόρυξης δεδομένων, τα άλλα βήματα είναι εξίσου σημαντικά για την επιτυχή εφαρμογή της τεχνικής KDD [1]. Η βασική ροή των βημάτων παρουσιάζεται στο Σχήμα 1.1.

23 1 ο Κεφάλαιο Εξόρυξη Δεδομένων H Διαδικασία Εξόρυξης Δεδομένων Η εξόρυξη δεδομένων περιλαμβάνει τα μοντέλα συναρμολογήσεων των υπό εξέταση δεδομένων, ή εναλλακτικά την εξαγωγή των προτύπων από αυτά. Ουσιαστικά, οι παράμετροι του μοντέλου που είναι γνωστές από τα δεδομένα ή τα πρότυπα που προσδιορίζονται, αντιπροσωπεύουν τη γνώση που έχει εξαχθεί από ένα σύνολο δεδομένων. Υπάρχει μια μεγάλη συλλογή αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση, οι αλγόριθμοι και οι βάσεις δεδομένων. Μια θεμελιώδης ιδιότητα των αλγορίθμων εξόρυξης δεδομένων, και αυτή που διαφοροποιεί τους περισσότερους από αυτούς από άλλες παρόμοιες τεχνικές που υιοθετούνται στη μηχανική μάθηση και τη στατιστική, είναι ότι οι αλγόριθμοι εξόρυξης δεδομένων έχουν σχεδιαστεί με έμφαση στην εξελιξιμότητα όσον αφορά το μέγεθος του συνόλου δεδομένων εισαγωγής. Η πλειοψηφία των αλγορίθμων εξόρυξης δεδομένων θα μπορούσε να περιγραφεί σε υψηλό επίπεδο με τον όρο ενός απλού πλαισίου. Συγκεκριμένα, μπορούν να αντιμετωπισθούν ως σύνθεση των τριών ακόλουθων συστατικών [1]: 1) Την περιγραφή του μοντέλου Υπάρχουν δύο παράγοντες σχετικοί με το μοντέλο: Η λειτουργία τον μοντέλου. Καθορίζει τους βασικούς στόχους κατά τη διάρκεια της διαδικασίας εξόρυξης δεδομένων για παράδειγμα classification ή clustering. Η παραστατική μορφή τον μοντέλου. Η απεικόνιση του μοντέλου καθορίζει και το ταίριασμά του με την απεικόνιση των δεδομένων και τη δυνατότητα να ερμηνευθεί το μοντέλο με κατανοητούς όρους. Χαρακτηριστικά, πιο περίπλοκα μοντέλα ταιριάζουν καλύτερα στα δεδομένα αλλά μπορεί να είναι δυσκολότερο να γίνουν κατανοητά και να ανταποκριθούν σε πραγματικές

24 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 26 συνθήκες. Τα πιο γνωστά μοντέλα είναι τα δέντρα και οι κανόνες απόφασης, τα νευρωνικά δίκτυα, τα συστήματα βασισμένα σε παραδείγματα, τα γραφικά μοντέλα, τα μοντέλα βασισμένα στις πιθανότητες (π.χ. δίκτυα Bayes και τα συγγενικά μοντέλα). 2) Την αξιολόγηση του μοντέλου Με βάση κάποια κριτήρια αξιολόγησης (π.χ. μέγιστη πιθανότητα) θα μπορούσε να καθοριστεί πόσο καλά ένα συγκεκριμένο μοντέλο ταιριάζει με τα κριτήρια της ΚDD διαδικασίας. Γενικά, η αξιολόγηση του μοντέλου αναφέρεται και στην εγκυρότητα των προτύπων και στην αξιολόγηση της ακρίβειας, της χρησιμότητας και της δυνατότητας κατανόησης του μοντέλου. 3) Τους αλγόριθμους αναζήτησης Αναφέρεται στην προδιαγραφή ενός αλγορίθμου να βρίσκει συγκεκριμένα μοντέλα και παραμέτρους, δοσμένου ενός συνόλου δεδομένων, μιας οικογένειας μοντέλων και ενός κριτηρίου αξιολόγησης. Υπάρχουν δύο τύποι αλγορίθμων αναζήτησης: Αναζήτησης παραμέτρων. Αυτός ο τύπος αλγορίθμων ψάχνει για παραμέτρους, οι οποίες βελτιστοποιούν ένα κριτήριο αξιολόγησης για το μοντέλο. Οι αλγόριθμοι εκτελούν το στόχο αναζήτησης παίρνοντας ως είσοδο ένα σύνολο δεδομένων και μια απεικόνιση μοντέλου. Αναζήτησης μοντέλων Εκτελούν μια επαναληπτική διαδικασία αναζήτησης για την αντιπροσώπευση των δεδομένων. Για κάποια συγκεκριμένη απεικόνιση ενός μοντέλου, εφαρμόζεται η μέθοδος αναζήτησης παραμέτρων και η ποιότητα των αποτελεσμάτων αξιολογείται.

25 1 ο Κεφάλαιο Εξόρυξη Δεδομένων Βασικές Εργασίες Εξόρυξης Γνώσης από Δεδομένα Στη συνέχεια μελετώνται με συντομία μερικές από τις λειτουργίες της εξόρυξης γνώσης. Φυσικά, αυτές οι μεμονωμένες εργασίες μπορούν να συνδυαστούν για να προκύψουν εξειδικευμένες εφαρμογές της εξόρυξης γνώσης από δεδομένα Κατηγοριοποίηση Η κατηγοριοποίηση (classification) απεικονίζει τα δεδομένα σε προκαθορισμένες ομάδες ή κατηγορίες - κλάσεις (classes). Αναφέρεται συχνά σαν εποπτευόμενη μάθηση, επειδή οι κατηγορίες - κλάσεις καθορίζονται πριν ακόμη εξεταστούν τα δεδομένα. Δύο παραδείγματα εφαρμογών κατηγοριοποίησης είναι ο καθορισμός, εάν θα δοθεί ένα τραπεζικό δάνειο και ο προσδιορισμός του πιστωτικού ρίσκου. Οι αλγόριθμοι κατηγοριοποίησης απαιτούν οι κατηγορίες να ορίζονται με βάση τις τιμές των γνωρισμάτων των δεδομένων Συχνά περιγράφουν αυτές τις κατηγορίες κοιτάζοντας τα χαρακτηριστικά δεδομένων που είναι ήδη γνωστό ότι ανήκουν στις κατηγορίες. Η αναγνώριση προτύπου (pattern recognition) αποτελεί ένα είδος κατηγοριοποίησης, όπου ένα πρότυπο εισόδου κατηγοριοποιείται σε μία από διάφορες κατηγορίες, με βάση την εγγύτητα του ως προς αυτές τις προκαθορισμένες κατηγορίες. Το πρώτο παράδειγμα παρουσιάζει ένα γενικό πρόβλημα κατηγοριοποίησης, ενώ το επόμενο δείχνει ένα απλό παράδειγμα αναγνώρισης προτύπου. Παράδειγμα 1.1 Οι εταιρείες πιστωτικών καρτών πρέπει να καθορίζουν, εάν θα εγκρίνουν αγορές μέσω πιστωτικών καρτών. Αν με βάση το αγοραστικό ιστορικό ενός πελάτη, κάθε αγορά τοποθετείται σε μία από τέσσερις κατηγορίες:

26 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 28 (1) να εγκριθεί (2) να ζητηθούν επιπλέον στοιχεία ταυτότητας πριν από την έγκριση (3) να μην εγκριθεί και (4) να μην εγκριθεί και να ενημερωθεί η αστυνομία. Οι λειτουργίες της εξόρυξης γνώσης από δεδομένα εξυπηρετούν δύο σκοπούς. Κατά πρώτον, τα δεδομένα του ιστορικού των πελατών πρέπει να εξεταστούν για να καθοριστεί πως ταιριάζουν στις τέσσερις κατηγορίες. Κατά δεύτερον, το πρόβλημα είναι πώς θα εφαρμοστεί αυτό το μοντέλο σε κάθε μία από τις νέες αγορές. Εάν και μπορεί να θεωρηθεί ότι το δεύτερο μέρος είναι πραγματικά μία απλή ερώτηση βάσης δεδομένων, το πρώτο μέρος δεν μπορεί να θεωρηθεί σαν τέτοια. Τα δεδομένα μοντελοποιούνται με το διαχωρισμό τους σε τέσσερις κατηγορίες. Η αναζήτηση προϋποθέτει την εξέταση των δεδομένων που είναι σχετικά με προηγούμενες αγορές μέσω πιστωτικής κάρτας και των αποτελεσμάτων της εξέτασης, για να καθορίσει τα κριτήρια που πρέπει να χρησιμοποιηθούν, ώστε να οριστεί η δομή της κατηγορίας. Προτίμηση δίνεται στα κριτήρια εκείνα που φαίνεται να ταιριάζουν καλύτερα στα δεδομένα. Η διαδικασία αναζήτησης απαιτεί να είναι κατάλληλα ορισμένα τα κριτήρια που χρειάζονται, για να ταιριάξουν τα δεδομένα στις κατηγορίες. Παράδειγμα 1.2 Ένας σταθμός ελέγχου ασφάλειας αεροδρομίου χρησιμοποιείται για να καθοριστεί, εάν οι επιβάτες είναι πιθανοί τρομοκράτες ή εγκληματίες. Για να γίνει αυτό, σαρώνεται με ειδικό σαρωτή το πρόσωπο κάθε επιβάτη και

27 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 29 αναγνωρίζεται το βασικό του πρότυπο (απόσταση μεταξύ των ματιών, μέγεθος και σχήμα στόματος, σχήμα κεφαλιού, κ.λπ.). Αυτό το πρότυπο συγκρίνεται με τις καταχωρήσεις μιας βάσης δεδομένων για να διαπιστωθεί, εάν ταιριάζει με κάποια πρότυπα που συσχετίζονται με γνωστοποιημένους παραβάτες το νόμου Παλινδρόμηση Η παλινδρόμηση (regression) χρησιμοποιείται για να απεικονιστεί ένα στοιχειώδες δεδομένο σε μία πραγματική μεταβλητή πρόβλεψης. Στην πραγματικότητα, η παλινδρόμηση περιλαμβάνει την εκμάθηση της συνάρτησης που κάνει αυτή την απεικόνιση. Η παλινδρόμηση προϋποθέτει ότι τα σχετικά δεδομένα ταιριάζουν με μερικά γνωστά είδη συνάρτησης (π.χ. γραμμική, λογαριθμική κλπ.) και μετά καθορίζει την καλύτερη συνάρτηση αυτού του είδους που μοντελοποιεί τα δεδομένα που έχουν δοθεί. Ένα είδος ανάλυσης σφάλματος χρησιμοποιείται για να καθορίσει ποια συνάρτηση είναι «η καλύτερη». Η τυπική γραμμική παλινδρόμηση που περιγράφεται στο παράδειγμα 3 αποτελεί ένα απλό παράδειγμα παλινδρόμησης. Παράδειγμα 1.3 Μία καθηγήτρια πανεπιστημίου επιθυμεί οι αποταμιεύσεις της να φτάσουν σε ένα ορισμένο επίπεδο πριν από τη συνταξιοδότηση της. Περιοδικά, προβλέπει ποιες θα είναι οι αποταμιεύσεις της κατά τη συνταξιοδότηση της βασιζόμενη στην τρέχουσα τιμή τους και σε προηγούμενες τιμές. Χρησιμοποιεί έναν απλό γραμμικό τύπο παλινδρόμησης για να προβλέψει αυτήν την τιμή ταιριάζοντας προηγούμενες συμπεριφορές σε μία γραμμική συνάρτηση και στη συνέχεια χρησιμοποιεί αυτή τη συνάρτηση για να προβλέψει τις τιμές σε κάποιες

28 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 30 στιγμές στο μέλλον. Βασιζόμενη σε αυτές τις τιμές, στη συνέχεια τροποποιεί το χαρτοφυλάκιο των επενδύσεων της Ανάλυση Χρονοσειρών Με την ανάλυση χρονολογικών σειρών ή χρονοσειρών (time series analysis), μελετάται η τιμή ενός γνωρίσματος καθώς μεταβάλλεται στο χρόνο. Οι τιμές συνήθως λαμβάνονται σε ίσα χρονικά διαστήματα (ημερήσια, εβδομαδιαία, ωριαία, κοκ.). Για να παρασταθούν οπτικά οι χρονοσειρές χρησιμοποιείται ένα διάγραμμα χρονοσειρών (Σχήμα 1.2). Σε αυτό το σχήμα οι γραφικές παραστάσεις των Υ και Ζ έχουν παρόμοια συμπεριφορά, ενώ του Χ φαίνεται να έχει λιγότερη αστάθεια. Υπάρχουν τρεις βασικές λειτουργίες που πραγματοποιούνται στην ανάλυση χρονοσειρών. Στη μία περίπτωση, χρησιμοποιούνται μονάδες μέτρησης απόστασης για να καθορίσουν την ομοιότητα ανάμεσα σε διαφορετικές χρονοσειρές. Στη δεύτερη περίπτωση, εξετάζεται η δομή της χρονοσειράς για να καθορίσει (και ίσως να κατηγοριοποιήσει) τη συμπεριφορά της. Μία τρίτη εφαρμογή θα μπορούσε να είναι η χρήση διαγραμμάτων χρονοσειρών για την πρόβλεψη μελλοντικών τιμών. Σχήμα 1.2 Διάγραμμα Χρονοσειρών

29 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 31 Παράδειγμα 1.4 Ο κύριος Smith προσπαθεί να προσδιορίσει, εάν θα αγοράσει μετοχές από τις εταιρείες Χ, Υ ή Ζ. Για τη χρονική περίοδο ενός μηνός παριστάνει γραφικά την ημερήσια τιμή της μετοχής κάθε εταιρείας. Το Σχήμα 1.2 δείχνει το διάγραμμα χρονοσειρών που δημιούργησε ο κύριος Smith. Χρησιμοποιώντας αυτό το διάγραμμα καθώς και σχετικές πληροφορίες που του παρέχει ο χρηματιστής του, ο κύριος Smith αποφασίζει να αγοράσει τη μετοχή Χ που είναι λιγότερο ασταθής και συνολικά παρουσιάζει ένα ελαφρά μεγαλύτερο σχετικό ποσό αύξησης από τις άλλες δύο μετοχές. Στην πραγματικότητα, οι μετοχές Υ και Ζ έχουν παρόμοια συμπεριφορά. Η συμπεριφορά της Υ, ανάμεσα στις μέρες 6 και 20, είναι πανομοιότυπη με αυτή της Ζ, ανάμεσα στις ημέρες 13 και Πρόβλεψη Πολλές από τις πρακτικές εφαρμογές εξόρυξης γνώσης μπορούν να θεωρηθούν σαν πρόβλεψη μελλοντικών καταστάσεων με γνώση των προηγούμενων και των σημερινών δεδομένων. Η πρόβλεψη (prediction) μπορεί να θεωρηθεί σαν ένα είδος κατηγοριοποίησης. (Σημείωση: Αυτή η εργασία εξόρυξης γνώσης είναι διαφορετική από το μοντέλο πρόβλεψης, παρόλο που η διαδικασία πρόβλεψης αποτελεί έναν τύπο μοντέλου πρόβλεψης.) Η διαφορά είναι ότι ως πρόβλεψη θεωρείται περισσότερο το να δίνεται τιμή σε μία μελλοντική κατάσταση παρά σε μία τρέχουσα. Εδώ αναφερόμαστε σε ένα είδος εφαρμογής παρά σε μια προσέγγιση μοντελοποίησης, όπως συζητήθηκε προηγουμένως. Οι εφαρμογές πρόβλεψης περιλαμβάνουν πρόγνωση πλημμυρών, αναγνώριση ομιλίας, μηχανική μάθηση και αναγνώριση προτύπου. Εάν και μπορούν να προβλεφθούν οι μελλοντικές τιμές με τεχνικές ανάλυσης χρονοσειρών ή

30 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 32 παλινδρόμησης, μπορούν να χρησιμοποιηθούν επίσης και άλλες προσεγγίσεις. Το Παράδειγμα 1.5 επεξηγεί τη διαδικασία. Παράδειγμα 1.5 Η πρόβλεψη μιας πλημμύρας είναι δύσκολο πρόβλημα. Μία προσέγγιση περιλαμβάνει τη χρήση οργάνων παρακολούθησης και ελέγχου που έχουν τοποθετηθεί σε διάφορα σημεία του ποταμού. Αυτά τα όργανα συλλέγουν δεδομένα σχετικά με την πρόβλεψη της πλημμύρας: ύψος της στάθμης του νερού, ποσότητα βροχής, χρόνος, υγρασία, κοκ. Στη συνέχεια μπορεί να προβλεφθεί το ύψος της στάθμης του νερού σε ένα σημείο του ποταμού στο οποίο είναι πιθανό να δημιουργηθεί πλημμύρα, βάσει των δεδομένων που συλλέχθηκαν από αισθητήρες που βρίσκονται στον ποταμό πάνω από το σημείο αυτό. Η πρόβλεψη πρέπει να γίνει σε σχέση με το χρόνο που συλλέχθηκαν τα δεδομένα Συσταδοποίηση Η συσταδοποίηση (clustering) είναι παρόμοια με την κατηγοριοποίηση εκτός από το ότι οι συστάδες - ομάδες δεδομένων - δεν είναι προκαθορισμένες αλλά ορίζονται κυρίως από τα ίδια τα δεδομένα. Η συσταδοποίηση αναφέρεται εναλλακτικά και σαν μη εποπτευόμενη μάθηση ή τμηματοποίηση. Μπορεί να θεωρηθεί σαν μια διαμέριση ή τμηματοποίηση των δεδομένων σε ομάδες που μπορεί να είναι ή να μην είναι διακριτές μεταξύ τους. Η συσταδοποίηση συνήθως επιτυγχάνεται με τον καθορισμό της ομοιότητας, ως προς προκαθορισμένα γνωρίσματα, ανάμεσα στα δεδομένα. Tα πιο σχετικά δεδομένα ομαδοποιούνται στις ίδιες ομάδες. Το παράδειγμα 6 δίνει ένα απλό παράδειγμα συσταδοποίησης. Αφού οι ομάδες δεν είναι προκαθορισμένες

31 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 33 χρειάζεται ένας ειδικός του πεδίου για να ερμηνεύσει τη σημασία των συστάδων που δημιουργούνται. Παράδειγμα 1.6 Μία αλυσίδα πολυκαταστημάτων δημιουργεί ειδικούς καταλόγους, που στοχεύουν σε διάφορες δημογραφικές ομάδες, με βάση γνωρίσματα όπως το εισόδημα, ο τόπος διαμονής και τα φυσικά χαρακτηριστικά των δυνητικών πελατών (ηλικία, ύψος, βάρος κ.λπ.). Προκειμένου να καθορίσει σε ποιους από τους πελάτες των διαφόρων καταλόγων θα σταλεί ταχυδρομικά διαφημιστικό υλικό και προκειμένου να δημιουργηθούν καινούργιοι και πιο συγκεκριμένοι κατάλογοι, η εταιρεία κάνει συσταδοποίηση των πιθανών πελατών βασιζόμενη στις προκαθορισμένες τιμές γνωρισμάτων. Tα αποτελέσματα της συσταδοποίησης χρησιμοποιούνται στη συνέχεια από τη διεύθυνση προκειμένου να δημιουργηθούν ειδικοί κατάλογοι που θα διανεμηθούν στο πιο κατάλληλο τμήμα του πληθυσμού, βάσει της ομάδας που αντιστοιχεί σε αυτόν τον κατάλογο. Μία ειδική κατηγορία συσταδοποίησης ονομάζεται κατάτμηση (segmentation). Με την κατάτμηση, μια βάση δεδομένων χωρίζεται σε διακριτές ομάδες παρόμοιων εγγραφών που ονομάζονται τμήματα (segments). Η κατάτμηση συχνά θεωρείται πανομοιότυπη με την συσταδοποίηση. Κατά άλλους, η κατάτμηση θεωρείται σαν ένας ειδικός τύπος συσταδοποίησης που εφαρμόζεται στην ίδια τη βάση δεδομένων Παρουσίαση Συνόψεων Η παρουσίαση συνόψεων (summarization) απεικονίζει τα δεδομένα σε υποσύνολα τους με συνοδευτικές απλές περιγραφές. Η σύνοψη των δεδομένων ονομάζεται επίσης και χαρακτηρισμός (characterization) ή γενίκευση (generalization). Εξάγει ή παράγει αντιπροσωπευτικές πληροφορίες

32 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 34 σχετικά με τις βάσεις δεδομένων. Αυτό γίνεται ανακτώντας, στην πραγματικότητα, τμήματα από τα δεδομένα. Εναλλακτικά, μπορούν να εξαχθούν από τα δεδομένα συνοπτικές πληροφορίες (όπως είναι ο μέσος όρος κάποιου αριθμητικού γνωρίσματος). Εν ολίγοις, η παρουσίαση συνόψεων χαρακτηρίζει τα περιεχόμενα της βάσης δεδομένων. Το Παράδειγμα 1.7 παρουσιάζει αυτήν τη διαδικασία. Παράδειγμα 1.7 Ένα από τα πολλά κριτήρια που χρησιμοποιεί το U.S. News & World Report για να συγκρίνει τα πανεπιστήμια, είναι η μέση βαθμολογία SAT ή ACT. Αυτό είναι μία συνοπτική παρουσίαση των δεδομένων που χρησιμοποιείται για να αξιολογηθεί ο τύπος και το μορφωτικό επίπεδο των φοιτητών Κανόνες Συσχέτισης Η ανάλυση συνδέσμων (link analysis), που εναλλακτικά αναφέρεται και σαν ανάλυση συγγένειας (affinity analysis) ή συσχέτιση (association), αναφέρεται στη διαδικασία εκείνη της εξόρυξης γνώσης που αποκαλύπτει συσχετίσεις μεταξύ των δεδομένων. Το καλύτερο παράδειγμα αυτού του είδους της εφαρμογής είναι ο προσδιορισμός κανόνων συσχετίσεων. Ένας κανόνας συσχέτισης (association rule) είναι ένα μοντέλο που αναγνωρίζει ειδικούς τύπους συσχέτισης μεταξύ δεδομένων. Αυτές οι συσχετίσεις συχνά χρησιμοποιούνται στις λιανικές πωλήσεις για να αναγνωριστούν προϊόντα που συχνά αγοράζονται μαζί. Το Παράδειγμα 1.8 δείχνει τη χρήση των κανόνων συσχετίσεων στην "ανάλυση καλαθιού αγορών" (market basket analysis). Εδώ τα δεδομένα που αναλύονται αποτελούνται από πληροφορίες σχετικά με τα προϊόντα που αγοράζει ένας πελάτης. Συσχετίσεις

33 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 35 χρησιμοποιούνται επίσης σε πολλές άλλες εφαρμογές, όπως είναι η πρόβλεψη της αποτυχίας λειτουργίας των τηλεπικοινωνιακών διακοπτών. Παράδειγμα 1.8 Ένα κατάστημα λιανικής πώλησης τροφίμων προσπαθεί να αποφασίσει εάν θα βάλει το ψωμί σε έκπτωση. Προκειμένου να βοηθηθεί ο πωλητής να καθορίσει τον αντίκτυπο αυτής της απόφασης, δημιουργεί κανόνες συσχέτισης που δείχνουν ποια άλλα προϊόντα αγοράζονται συχνά μαζί με το ψωμί. Βρίσκει ότι στο 60% των περιπτώσεων που πωλείται ψωμί πωλούνται και κουλουράκια και ότι στο 70% των περιπτώσεων πωλούνται επίσης και ζελεδάκια. Βασιζόμενος σε αυτά τα δεδομένα προσπαθεί να εκμεταλλευτεί τη συσχέτιση ανάμεσα στο ψωμί, τα κουλουράκια και τα ζελεδάκια βάζοντας μερικά κουλουράκια και μερικά ζελεδάκια στο τέλος του διαδρόμου εκεί που είναι τοποθετημένο το ψωμί Επιπλέον αποφασίζει να μη βάλει αυτά τα προϊόντα ταυτόχρονα σε έκπτωση. Η χρήση των κανόνων συσχετίσεων για τις όποιες αποφάσεις πρέπει να γίνεται πολύ προσεκτικά επειδή υπάρχει ο κίνδυνος αυτές οι συσχετίσεις να είναι τυχαίες. Οι συσχετίσεις αυτές μπορεί να μην αντιπροσωπεύουν καμία έμφυτη σχέση ανάμεσα στα δεδομένα (κάτι που ισχύει για παράδειγμα στις συναρτησιακές εξαρτήσεις). Πιθανώς να μην υπάρχει καμία συσχέτιση ανάμεσα στο ψωμί και στα κουλουράκια, η οποία να προκαλεί τα δύο προϊόντα να αγοράζονται μαζί. Ούτε υπάρχει καμία εγγύηση ότι αυτή η συσχέτιση θα εμφανίζεται και στο μέλλον. Ωστόσο, οι κανόνες συσχετίσεων μπορούν να χρησιμοποιηθούν για να βοηθήσουν τη διοίκηση των καταστημάτων λιανικής πώλησης στην αποτελεσματική διαφήμιση, στο μάρκετινγκ και στον έλεγχο της αποθήκης.

34 1 ο Κεφάλαιο Εξόρυξη Δεδομένων Ανακάλυψη Ακολουθιών Η ακολουθιακή ανάλυση (sequential analysis) ή αλλιώς ανακάλυψη ακολουθιών (sequence discovery) χρησιμοποιείται για να καθοριστούν σειριακά πρότυπα στα δεδομένα. Αυτά ι πρότυπα βασίζονται σε μία χρονική ακολουθία ενεργειών. Αυτά τα πρότυπα είναι παρόμοια με τις συσχετίσεις στο ότι συσχετίζονται τα δεδομένα (ή τα γεγονότα) που εξάγονται, με τη διαφορά ότι η συσχέτιση τους αυτή βασίζεται στο χρόνο. Αντίθετα με την ανάλυση καλαθιού αγορών, που προϋποθέτει να γνωρίζουμε ποια προϊόντα αγοράστηκαν ταυτόχρονα, στην ανακάλυψη ακολουθιών τα προϊόντα αγοράζονται με κάποια σειρά κατά τη διάρκεια μιας περιόδου. Το Παράδειγμα 1.9 επεξηγεί την ανακάλυψη μερικών απλών προτύπων. Ένας παρόμοιος τύπος ανακάλυψης μπορεί να βρεθεί μέσα στην ακολουθία των προϊόντων που αγοράζονται. Για παράδειγμα, οι περισσότεροι άνθρωποι που αγοράζουν CD players ίσως και να αγοράζουν μέσα σε μία εβδομάδα και CDs. Όπως θα δούμε, οι χρονικοί κανόνες συσχέτισης πράγματι εμπίπτουν σε αυτήν την κατηγορία. Παράδειγμα 1.9 Ο webmaster της εταιρείας ΧΥΖ περιοδικά αναλύει τα δεδομένα καταγραφών στο Web για να προσδιορίσει τον τρόπο που οι χρήστες έχουν πρόσβαση στις ιστοσελίδες της εταιρείας. Συγκεκριμένα, ενδιαφέρεται να προσδιορίσει τις ακολουθίες ιστοσελίδων που προσπελαύνονται συχνότερα. Ανακαλύπτει ότι το 70% των ανθρώπων που επισκέπτονται τη σελίδα Α ακολουθούν ένα από τα ακόλουθα πρότυπα συμπεριφοράς: Α, Β, C ή D, Β, C ή Α, Ε, Β, C. Στη συνέχεια, αποφασίζει να προσθέσει έναν απευθείας σύνδεσμο από τη σελίδα Α στη σελίδα C.

35 1 ο Κεφάλαιο Εξόρυξη Δεδομένων Κατηγορίες των Μεθόδων Εξόρυξης Εεδομένων Οι δύο βασικοί στόχοι της εξόρυξης δεδομένων (γνώσης) είναι η εφαρμογή τεχνικών περιγραφής και πρόβλεψης σε μεγάλα σύνολα δεδομένων. Η πρόβλεψη στοχεύει στον υπολογισμό της μελλοντικής αξίας ή στην πρόβλεψη της συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και οι οποίες βασίζονται στη συμπεριφορά άλλων μεταβλητών. Η περιγραφή επικεντρώνεται στην ανακάλυψη προτύπων και αναπαριστά τα δεδομένα μίας πολύπλοκης βάσης δεδομένων με ένα κατανοητό και αξιοποιήσιμο τρόπο. Μία καλή περιγραφή θα μπορούσε να δώσει μια καλή εξήγηση στη συμπεριφορά των δεδομένων. Η σημαντικότητα της πρόβλεψης και της περιγραφής διαφέρει ανάλογα με τις εφαρμογές εξόρυξης δεδομένων. Ωστόσο, ως προς την εξόρυξη γνώσης η περιγραφή τείνει να είναι περισσότερο σημαντική από την πρόβλεψη, σε αντίθεση με την αναγνώριση προτύπων και την εφαρμογή μηχανικής μάθησης για τις οποίες η πρόβλεψη είναι πιο σημαντική. Ένας αριθμός μεθόδων εξόρυξης δεδομένων έχουν προταθεί για να ικανοποιούν τις απαιτήσεις διαφορετικών εφαρμογών. Ωστόσο, όλες επιτυγχάνουν μία ομάδα από διεργασίες εξόρυξη δεδομένων για να προσδιορίσουν και περιγράψουν ενδιαφέροντα πρότυπα γνώσης που έχουν αντληθεί από ένα σύνολο δεδομένων. Ένα προβλεπτικό μοντέλο (predictive model) κάνει μία πρόβλεψη για τις τιμές των δεδομένων, χρησιμοποιώντας γνωστά αποτελέσματα που έχει βρει από άλλα δεδομένα. Η μοντελοποίηση πρόβλεψης μπορεί να γίνει με βάση τη χρήση ιστορικών δεδομένων. Για παράδειγμα, η χρήση μιας πιστωτικής κάρτας μπορεί να μη γίνει δεκτή, όχι λόγω του πιστωτικού ιστορικού του πελάτη αλλά λόγω του ότι η τωρινή αγορά είναι σχετική με προηγούμενες αγορές οι οποίες διαδοχικά βρέθηκαν να έγιναν με κλεμμένες κάρτες. Το Παράδειγμα 1.1 χρησιμοποιεί μοντελοποίηση πρόβλεψης για να προβλέψει το πιστωτικό ρίσκο. Οι εργασίες εξόρυξης γνώσης από δεδομένα για το χτίσιμο ενός προβλεπτικού μοντέλου περιλαμβάνουν κατηγοριοποίηση, παλινδρόμηση, ανάλυση χρονολογικών σειρών και πρόβλεψη,

36 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 38 πρόβλεψη μπορεί να χρησιμοποιηθεί επίσης για να υποδηλώσει ένα συγκεκριμένο τύπο λειτουργίας εξόρυξης γνώσης από δεδομένα. Ένα περιγραφικό μοντέλο (descriptive model) αναγνωρίζει πρότυπα ή συσχετίσεις στα δεδομένα. Αντίθετα από το προβλεπτικό, το περιγραφικό μοντέλο λειτουργεί σαν ένα μέσο που διερευνά τις ιδιότητες των δεδομένων που εξετάζονται, όχι να προβλέπει νέες ιδιότητες. Η συσταδοποίηση, η παρουσίαση συνόψεων, οι κανόνες συσχετίσεων και η ανακάλυψη ακολουθιών συνήθως θεωρούνται σαν περιγραφικές εργασίες από τη φύση τους. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΠΡΟΒΛΕΠΤΙΚΑ ΜΟΝΤΕΛΑ ΑΝΑΛΥΣΗ ΧΡΟΝΟΣΕΙΡΩΝ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΠΡΟΒΛΕΨΗ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΠΕΡΙΓΡΑΦΙΚΑ ΜΟΝΤΕΛΑ ΠΑΡΟΥΣΙΑΣΗ ΣΥΝΟΨΕΩΝ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΑΝΑΚΑΛΥΨΗ ΑΚΟΛΟΥΘΙΩΝ Σχήμα 1.3 Μοντέλα Εξόρυξης Δεδομένων 1.6 Απαιτήσεις Εξόρυξης Δεδομένων Για να επιτευχθεί μια αποτελεσματική διαδικασία εξόρυξης δεδομένων, πρέπει πρώτα να εξεταστεί το είδος των χαρακτηριστικών που ένα σύστημα εξόρυξης δεδομένων αναμένεται να έχει καθώς επίσης και τις απαιτήσεις που πρέπει να

37 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 39 ληφθούν υπόψη στην ανάπτυξη των τεχνικών εξόρυξης δεδομένων. Οι κύριες απαιτήσεις μπορούν να συνοψιστούν στα εξής [2],[3]: Χειρισμός των διαφορετικών τύπων δεδομένων. Δεδομένου ότι διαφορετικοί τύποι και βάσεις δεδομένων χρησιμοποιούνται σε διαφορετικές εφαρμογές, είναι σημαντικό ένα σύστημα εξόρυξης δεδομένων να εφαρμόζεται αποτελεσματικά σε διαφορετικούς τύπους δεδομένων. Οι βάσεις δεδομένων είναι στη συντριπτική τους πλειοψηφία συγγενείς μεταξύ τους. Συνεπώς, είναι σημαντικό ένα σύστημα εξόρυξης δεδομένων να υποστηρίζει τεχνικές για αποδοτική και αποτελεσματική ανάλυση συγγενικών δεδομένων. Επιπλέον, πολλά συστήματα βάσεων δεδομένων που τέθηκαν πρόσφατα σε χρήση περιέχουν σύνθετους τύπους δεδομένων, όπως δομές δεδομένων και σύνθετα αντικείμενα, υπερκείμενο, στοιχεία πολυμέσων και χωροχρονικά στοιχεία. Ένα τέτοιο σύστημα πρέπει να λειτουργεί αποτελεσματικά ανεξάρτητα από τους τύπους δεδομένων. Εντούτοις, η διαφοροποίηση των τύπων δεδομένων και οι διαφορετικοί στόχοι της εξόρυξης θα μπορούσαν να καταστήσουν δύσκολη την ύπαρξη ενός συστήματος που χειρίζεται όλες τις περιπτώσεις. Αντίθετα, θα μπορούσαν να είναι πιο ρεαλιστικά, συστήματα για συγκεκριμένους τύπους δεδομένων και εφαρμογές που αναπτύσσονται, όπως το σύστημα που εξάγει γνώση από σχεσιακές βάσεις δεδομένων, χωροχρονικές βάσεις δεδομένων, βάσεις δεδομένων πολυμέσων κ.λπ. Απόδοση και εξελιξιμότητα των αλγορίθμων εξόρυξης δεδομένων. Για να επιτευχθεί αποτελεσματική εξόρυξη γνώσης από μεγάλα σύνολα δεδομένων οι αλγόριθμοι πρέπει να προσαρμοστούν κατάλληλα σε αυτά. Αυτό σημαίνει ότι ο χρόνος εκτέλεσης των αλγορίθμων εξόρυξης δεδομένων πρέπει να είναι αποδεκτός και αναμενόμενος για μεγάλες βάσεις δεδομένων. Οι αλγόριθμοι με εκθετική ή πολυωνυμική πολυπλοκότητα δεν είναι κατάλληλοι.

38 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 40 Χρησιμότητα, βεβαιότητα και εκφραστικότητα των αποτελεσμάτων εξόρυξης δεδομένων. Η εξορυγμένη γνώση πρέπει να παρουσιάζει με ακριβή τρόπο τα περιεχόμενα των βάσεων δεδομένων. Η ακρίβεια των αποτελεσμάτων θα μπορούσε να εκφραστεί χρησιμοποιώντας κάποια μέτρα βεβαιότητας. Ο θόρυβος και οι outliers, που αντιπροσωπεύουν τις εξαιρέσεις, πρέπει να αντιμετωπιστούν αποτελεσματικά από τα συστήματα εξόρυξης δεδομένων. Το γεγονός αυτό, δίνει το κίνητρο για μια συστηματική μελέτη της ποιότητας της εξορυγμένης γνώσης, της κατασκευαστικής στατιστικής, των αναλυτικών μοντέλων, των μοντέλων προσομοίωσης, καθώς και των εργαλείων. Διαφορετικού τύπου εκφράσεις των ερωτήσεων και αποτελεσμάτων της εξόρυξης δεδομένων. Διαφορετικοί τύποι γνώσεων θα μπορούσαν να εξαχθούν από μεγάλα σύνολα δεδομένων. Θα ήταν επίσης χρήσιμο να μπορούσε να εξεταστεί η γνώση από ποικίλες απόψεις και να την αντιπροσωπεύσουμε με διαφορετικές μορφές. Κατά συνέπεια υπάρχει μια ανάγκη να εκφραστούν οι επερωτήσεις εξόρυξης δεδομένων και η εξορυγμένη γνώση σε γλώσσες υψηλού επιπέδου ή μέσω γραφικών διεπαφών των χρηστών προκειμένου η διαδικασία εξόρυξης δεδομένων να μπορεί να είναι εφαρμόσιμη από μη ειδικούς και η εξορυγμένη γνώση να χρησιμοποιείται άμεσα από τους χρήστες. Μια άλλη απαίτηση για την αποτελεσματική παρουσίαση της γνώσης, είναι το σύστημα να υιοθετήσει τις εκφραστικές τεχνικές αναπαράστασης γνώσης. Διαλογική ανακάλυψη γνώσης στα πολύ-εννοιολογικά επίπεδα. Η διαλογική ανακάλυψη της γνώσης επιτρέπει στο χρήστη να αλληλεπιδράσει με ένα σύστημα, καθορίζοντας τις ερωτήσεις εξόρυξης δεδομένων προκειμένου να αλλάξει την εστίαση των δεδομένων, να οδηγήσει μια διαδικασία εξόρυξης δεδομένων σε ένα πιο λεπτομερές επίπεδο και να δει τα δεδομένα και τα αποτελέσματα εξόρυξης δεδομένων σε πολλαπλά επίπεδα και από διάφορες πτυχές.

39 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 41 Εξόρυξη γνώσης από διαφορετικές πηγές δεδομένων. Η διάδοση της σύνδεσης υπολογιστών σε τοπικό και παγκόσμιο επίπεδο, συμπεριλαμβανομένου του διαδικτύου, έχει το προβάδισμα στη σύνδεση των διάφορων πηγών δεδομένων. Αυτό οδηγεί στη δημιουργία μεγάλων κατανεμημένων και ετερογενών βάσεων δεδομένων. Το τεράστιο ποσό δεδομένων, η υψηλή κατανομή τους και υπολογιστική πολυπλοκότητα τους οδηγούν στην ανάπτυξη παράλληλων και κατανεμημένων αλγορίθμων εξόρυξης δεδομένων. 1.7 Η Ανάπτυξη της Εξόρυξης Γνώσης από Δεδομένα Η σημερινή εξέλιξη στις λειτουργίες και στα προϊόντα της εξόρυξης γνώσης από δεδομένα είναι αποτέλεσμα πολλών χρόνων επιρροής από πολλούς επιστημονικούς κλάδους όπως είναι οι βάσεις δεδομένων, η ανάκτηση πληροφοριών, η στατιστική, οι αλγόριθμοι και η μηχανική μάθηση (Σχήμα 1.4). Μία άλλη περιοχή της πληροφορικής, που επηρέασε σημαντικά τη διαδικασία KDD είναι η περιοχή των πολυμέσων και των γραφικών. Ένας βασικός στόχος είναι να μπορέσει να δοθεί μία περιγραφή με νόημα στα αποτελέσματα της διαδικασίας KDD. Επειδή προκύπτουν συχνά πολλά διαφορετικά αποτελέσματα, είναι πολύπλοκο πρόβλημα να δοθεί μία τέτοια περιγραφή. Οι τεχνικές οπτικοποίησης συχνά περιλαμβάνουν εξειδικευμένα πολυμέσα και γραφικές παρουσιάσεις. Επιπλέον, οι τεχνικές εξόρυξης γνώσης από δεδομένα μπορούν να εφαρμοστούν σε εφαρμογές πολυμέσων. Αντίθετα με τη μέχρι τώρα έρευνα σε αυτές τις διαφορετικές περιοχές, μία μεγάλη τάση στην περιοχή των βάσεων δεδομένων θέλει να συνδυάζονται τα αποτελέσματα από αυτούς τους, διαφορετικούς κατά τα φαινόμενα, επιστημονικούς κλάδους σε μία ενοποιημένη προσέγγιση με βάση τα δεδομένα ή τους αλγορίθμους. Αν και η εξέλιξη αυτή βρίσκεται σε νηπιακό στάδιο, ο τελικός της στόχος είναι να δημιουργήσει μία σφαιρική εικόνα της

40 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 42 περιοχής η οποία θα διευκολύνει την ολοκλήρωση, των διάφορων τύπων των εφαρμογών σε υπάρχοντα πεδία για το χρήστη. Ανάκτηση Πληροφοριών Βάσεις Δεδομένων Εξόρυξη Γνώσης Στατιστική Αλγόριθμοι Μηχανική Μάθηση Σχήμα 1.4 Ιστορική Άποψη Εξόρυξης Γνώσης Ο Πίνακας 1.1 παρουσιάζει χρονολογικά τις εξελίξεις στις περιοχές της Τεχνητής Νοημοσύνης (ΤΝ), της Ανάκτησης Πληροφοριών (ΑΠ), των Βάσεων Δεδομένων (ΒΔ), και της Στατιστικής που κυριαρχούν στη σύγχρονη εικόνα της εξόρυξης γνώσης από δεδομένα. Αυτές οι διαφορετικές επιρροές από το παρελθόν, οι οποίες οδήγησαν στην ανάπτυξη της περιοχής της εξόρυξης γνώσης από δεδομένα, συντέλεσαν στη δημιουργία διαφορετικών απόψεων για το τι είναι στην πραγματικότητα οι λειτουργίες της εξόρυξης γνώσης [4]: Η επαγωγή χρησιμοποιείται για να οδηγηθεί μία πολύ εξειδικευμένη γνώση σε πιο γενικές πληροφορίες. Αυτό το είδος της τεχνικής συχνά υπάρχει στις εφαρμογές της ΤΝ. Επειδή ο πρωταρχικός αντικειμενικός στόχος της εξόρυξης γνώσης από δεδομένα είναι να περιγράψει μερικά χαρακτηριστικά ενός

41 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 43 συνόλου δεδομένων από ένα γενικό μοντέλο, αυτή η προσέγγιση μπορεί να θεωρηθεί σαν ένα είδος συμπίεσης. Εδώ, τα λεπτομερή δεδομένα της βάσης δεδομένων «αναιρούνται» και συμπιέζονται σε μία μικρότερη περιγραφή των χαρακτηριστικών των δεδομένων που βρίσκονται στο μοντέλο. Η διαδικασία της εξόρυξης γνώσης από δεδομένα μπορεί να θεωρηθεί από μόνη της σαν ένας τύπος διαδικασίας υποβολής ερωτήσεων στη σχετική βάση δεδομένων. Πράγματι, η έρευνα στην εξόρυξη γνώσης από δεδομένα τείνει προς την κατεύθυνση εκείνη όπου αναζητείται ο τρόπος ορισμού μιας ερώτησης εξόρυξης γνώσης και το κατά πόσο μπορεί να αναπτυχθεί μία γλώσσα ερωτήσεων (σαν την SQL) που να περιλαμβάνει τόσους πολλούς διαφορετικούς τύπους επερωτήσεων εξόρυξης γνώσης. Σχήμα 1.5 Χρονοδιάγραμμα Εξόρυξης Δεδομένων

42 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 44 Η περιγραφή μιας μεγάλης βάσης δεδομένων μπορεί να θεωρηθεί σαν να χρησιμοποιούμε προσέγγιση προκειμένου να αποκαλυφθούν κρυμμένες πληροφορίες σχετικές με τα δεδομένα. Όταν χρησιμοποιούνται μεγάλες βάσεις δεδομένων, η επίδραση του μεγέθους και η ικανότητα ανάπτυξης ενός αφηρημένου μοντέλου μπορούν να θεωρηθούν σαν ένας τύπος προβλήματος αναζήτησης. Πίνακας 1.1 Εξέλιξη Εξόρυξης Δεδομένων Χρόνος Περιοχή Συνεισφορά Τέλη του 1700 Στατιστική Θεώρημα των πιθανοτήτων του Bayes Αρχές του 1900 ΤΝ Ανάλυση με παλινδρόμηση Αρχές του 1920 Στατιστική Εκτιμήτρια μέγιστης πιθανοφάνειας Αρχές του 1940 ΤΝ Νευρωνικά δίκτυα Αρχές του 1950 Πλησιέστερος γείτονας Αρχές του 1950 Απλός σύνδεσμος Τέλη του 1950 ΤΝ Perception Τέλη του 1950 Στατιστική Επαναδειγματοληψία, μείωση μεροληψίας, Jackknife εκτιμήτρια Αρχές του 1960 ΤΝ Έναρξη μηχανικής μάθησης Αρχές του 1960 ΒΔ Μαζικές αναφορές Μέσα του 1960 Δένδρα αποφάσεων Μέσα του 1960 Στατιστική Γραμμικά μοντέλα κατηγοριοποίησης ΑΠ Μέτρα ομοιότητας ΑΠ Συσταδοποίηση Στατιστική Εξερευνητική ανάλυση δεδομένων (EDA) Τέλη του 1960 ΒΔ Σχεσιακό μοντέλο δεδομένων Αρχές του 1970 ΑΠ Έξυπνα συστήματα ΑΠ Μεσάτου 1970 ΤΝ Γενετικοί αλγόριθμοι Τέλη του 1970 Στατιστική Εκτίμηση με μη πλήρη δεδομένα (ΕΜ αλγόριθμος) Τέλη του 1970 Στατιστική Συσταδοποίηση K-means Αρχές του 1980 ΤΝ Αυτο-οργανωμένα δίκτυα Kohonen Μέσα του 1980 ΤΝ Αλγόριθμοι δένδρων αποφάσεων Αρχές του 1990 ΒΔ Αλγόριθμοι κανόνων συσχετίσεων Παγκόσμιος ιστός και μηχανές αναζήτησης 1990 ΒΔ Αποθήκες δεδομένων 1990 ΒΔ Άμεση αναλυτική επεξεργασία (OLAP)

43 1 ο Κεφάλαιο Εξόρυξη Δεδομένων Θέματα Εξόρυξης Γνώσης από Δεδομένα Υπάρχουν πολλά σημαντικά θέματα υλοποίησης που σχετίζονται με την εξόρυξη γνώσης από δεδομένα [5]: 1. Ανθρώπινη αλληλεπίδραση. Αφού τα προβλήματα της εξόρυξης γνώσης από δεδομένα συνήθως δεν ορίζονται με ακρίβεια, μπορεί να είναι αναγκαία μια αλληλεπίδραση μεταξύ των ειδικών του πεδίου εφαρμογής με τους ειδικούς της συγκεκριμένης τεχνικής εξόρυξης γνώσης. Στην προκειμένη οι δεύτεροι χρησιμοποιούνται για να μορφοποιήσουν τις ερωτήσεις και να βοηθήσουν στην ερμηνεία των αποτελεσμάτων. Από την άλλη οι πρώτοι είναι απαραίτητοι για να ταυτοποιήσουν τα δεδομένα εκπαίδευσης και να ορίσουν τα επιθυμητά αποτελέσματα. 2. Υπερπροσαρμογή. Όταν προκύπτει ένα μοντέλο που συσχετίζεται με μία δεδομένη κατάσταση μίας βάσης δεδομένων, είναι επιθυμητό αυτό το μοντέλο να ταιριάζει επίσης και σε μελλοντικές καταστάσεις της βάσης δεδομένων. Η υπερπροσαρμογή (over-fitting) εμφανίζεται όταν το μοντέλο δεν ταιριάζει σε μελλοντικές καταστάσεις. Αυτό μπορεί να συμβαίνει εξαιτίας υποθέσεων που γίνονται για τα δεδομένα ή απλά μπορεί να συμβαίνει εξαιτίας του μικρού μεγέθους των δεδομένων εκπαίδευσης. Έστω, για παράδειγμα, ένα μοντέλο κατηγοριοποίησης που κατατάσσει τους υπαλλήλους σε 'κοντούς', 'μέτριους' ή 'ψηλούς', σε μια βάση δεδομένων που αφορά εργαζομένους. Εάν τα δεδομένα εκπαίδευσης είναι αρκετά λίγα, το μοντέλο ίσως λανθασμένα δείξει ότι κάθε άτομο με ύψος κάτω από 1.80 είναι 'κοντό' επειδή στη βάση με τα δεδομένα εκπαίδευσης υπάρχει μόνο μία καταχώριση για ύψος κάτω από Σε αυτήν την περίπτωση, πολλοί υπάλληλοι λανθασμένα θα καταχωρηθούν σαν 'κοντοί'. Η υπερπροσαρμογή μπορεί επίσης να

44 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 46 εμφανιστεί και σε άλλες περιπτώσεις, ακόμα και όταν δεν αλλάζουν τα δεδομένα. 3. Ακραίες τιμές. Υπάρχουν συχνά πολλές καταχωρήσεις δεδομένων που δεν ταιριάζουν σωστά στο μοντέλο που έχει αναπτυχθεί. Αυτό συμβαίνει συχνά στις πολύ μεγάλες βάσεις δεδομένων. Εάν το μοντέλο που θα δημιουργηθεί περιλαμβάνει αυτές τις ακραίες τιμές (outliers), τότε ίσως να μη συμπεριφέρεται σωστά για τα μη ακραία δεδομένα. 4. Ερμηνεία των αποτελεσμάτων. Με τα σημερινά δεδομένα, τα αποτελέσματα από την εξόρυξη γνώσης πρέπει να ερμηνεύονται από ειδικούς του πεδίου, αλλιώς θα είναι χωρίς νόημα για το μέσο χρήστη. 5. Οπτικοποίηση των αποτελεσμάτων. Η οπτικοποίηση των αποτελεσμάτων των αλγορίθμων εξόρυξης γνώσης είναι χρήσιμη για να δούμε και να κατανοήσουμε ευκολότερα τα αποτελέσματα αυτά. 6. Μεγάλα σύνολα δεδομένων. Τα ογκώδη σύνολα δεδομένων δημιουργούν προβλήματα όταν εφαρμόζονται αλγόριθμοι εξόρυξης γνώσης που έχουν σχεδιαστεί για μικρά σύνολα δεδομένων. Πολλές εφαρμογές μοντελοποίησης αυξάνονται εκθετικά στον αριθμό των δεδομένων και γι' αυτόν το λόγο οι εφαρμογές αυτές είναι αναποτελεσματικές στα μεγαλύτερα σύνολα δεδομένων. Αποτελεσματικά εργαλεία για να αντιμετωπιστεί το πρόβλημα της κλιμάκωσης είναι η δειγματοληψία και ο παραλληλισμός. 7. Υψηλές διαστάσεις. Το σχήμα μίας συμβατικής βάσης δεδομένων μπορεί να αποτελείται από πολλά διαφορετικά γνωρίσματα. Το πρόβλημα εδώ είναι ότι ίσως δεν χρειάζονται όλα τα γνωρίσματα για να λυθεί ένα συγκεκριμένο

45 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 47 πρόβλημα εξόρυξης γνώσης. Στην πράξη, αν χρησιμοποιηθούν κάποια γνωρίσματα μπορεί να μην επιτευχθεί η σωστή ολοκλήρωση μίας εργασίας. Η χρήση άλλων γνωρισμάτων μπορεί απλά να αυξήσει τη συνολική πολυπλοκότητα και να μειώσει την απόδοση ενός αλγορίθμου. Αυτό το πρόβλημα μερικές φορές αναφέρεται σαν η κατάρα των υψηλών διαστάσεων (dimensionality curse), εννοώντας ότι υπάρχουν πολλά γνωρίσματα(διαστάσεις) που εμπλέκονται και είναι δύσκολο να καθοριστεί ποια γνωρίσματα πρέπει να χρησιμοποιηθούν. Μία λύση στο πρόβλημα των υψηλών διαστάσεων είναι να μειωθούν τα γνωρίσματα, κάτι που αναφέρεται ως μείωση των υψηλών διαστάσεων (dimensionality reduction). Όμως, δεν είναι πάντα εύκολο να προσδιοριστούν τα γνωρίσματα που δεν χρειάζονται. 8. Δεδομένα πολυμέσων. Οι περισσότεροι από τους αλγορίθμους που έχουν προταθεί κατά καιρούς στοχεύουν στα παραδοσιακά είδη δεδομένων (αριθμητικά, χαρακτήρες, κείμενο). Η χρήση των δεδομένων πολυμέσων, όπως και στις γεωγραφικές βάσεις δεδομένων, περιπλέκει ή καθιστά ακατάλληλους πολλούς από τους αλγορίθμους αυτούς. 9. Ελλιπή δεδομένα. Κατά τη διάρκεια της φάσης της προεπεξεργασίας στη διαδικασία KDD, τα δεδομένα που λείπουν μπορούν να συμπληρωθούν με κατ' εκτίμηση τιμές. Αυτή η προσέγγιση, καθώς και άλλες προσεγγίσεις που αντιμετωπίζουν το πρόβλημα των ελλιπών δεδομένων, ενδεχομένως οδηγούν σε λανθασμένα αποτελέσματα κατά την εξόρυξη γνώσης από δεδομένα. 10. Άσχετα δεδομένα. Μερικά γνωρίσματα στη βάση δεδομένων ίσως να μην έχουν ενδιαφέρον όσον αφορά στη συγκεκριμένη εργασία εξόρυξης γνώσης που πραγματοποιείται.

46 1 ο Κεφάλαιο Εξόρυξη Δεδομένων Δεδομένα με θόρυβο. Μερικές τιμές των γνωρισμάτων μπορεί να είναι άκυρες ή λανθασμένες. Αυτές οι τιμές συνήθως διορθώνονται πριν τρέξουμε την εφαρμογή της εξόρυξης γνώσης από δεδομένα. 12. Δεδομένα που αλλάζουν. Οι βάσεις δεδομένων δεν μπορεί να θεωρηθούν ότι είναι στατικές. Όμως, οι περισσότεροι αλγόριθμοι εξόρυξης γνώσης υποθέτουν ότι η βάση δεδομένων είναι στατική. Αυτό απαιτεί ο αλγόριθμος να ξανατρέχει από την αρχή κάθε φορά που αλλάζει η βάση δεδομένων. 13. Ολοκλήρωση. Η διαδικασία KDD σήμερα δεν αποτελεί μέρος των συνηθισμένων εργασιών επεξεργασίας των δεδομένων. Οι απαιτήσεις της KDD μπορεί να αντιμετωπίζονται σαν ιδιαίτερες, ασυνήθιστες, ή σαν απαιτήσεις της «μιας φοράς». Οι απαιτήσεις αυτές γίνονται άρα αναποτελεσματικές και όχι αρκετά γενικές για να χρησιμοποιούνται σε συνεχή βάση. Φυσικά ένας επιθυμητός στόχος είναι η ενσωμάτωση των λειτουργιών της εξόρυξης γνώσης σε παραδοσιακά συστήματα διαχείρισης βάσεων δεδομένων. 14. Εφαρμογή. Αποτελεί πρόκληση το να προσδιοριστεί η ενδεικνυόμενη χρήση για μια πληροφορία που προήλθε από τη λειτουργία της εξόρυξης γνώσης. Πράγματι, η αποτελεσματική ερμηνεία των αποτελεσμάτων θεωρείται μερικές φορές, από τα στελέχη μίας επιχείρησης, πιο δύσκολο έργο από το τρέξιμο ενός αλγορίθμου. Επειδή τα δεδομένα είναι πληροφορίες που δεν ήταν γνωστές στο παρελθόν, οι τεχνικές των επιχειρήσεων πρέπει να τροποποιηθούν για να καθορίσουν τον τρόπο με τον οποίο θα χρησιμοποιήσουν τις κρυμμένες πληροφορίες. Αυτά τα θέματα πρέπει να αντιμετωπιστούν από τους αλγόριθμους και τα προϊόντα της εξόρυξης γνώσης από δεδομένα.

47 1 ο Κεφάλαιο Εξόρυξη Δεδομένων Μέτρα Αξιολόγησης Η μέτρηση της αποτελεσματικότητας και της χρησιμότητας μιας τεχνικής εξόρυξης γνώσης από δεδομένα δεν είναι πάντα απλή διαδικασία. Στην πράξη, μπορούν να χρησιμοποιηθούν διαφορετικά μέτρα αξιολόγησης για διαφορετικές τεχνικές και επίσης ανάλογα με το επίπεδο ενδιαφέροντος. Για να αξιολογηθεί συνολικά μία επιχείρηση ή να αξιολογηθεί η χρησιμότητα της τεχνικής μπορεί να χρησιμοποιηθεί σαν μέτρο αξιολόγησης η απόδοση της επένδυσης (Return On Investment ROI). Το μέτρο ROI εξετάζει τη διαφορά ανάμεσα στο κόστος εφαρμογής της τεχνικής από τη μία και στην εξοικονόμηση ή στα κέρδη από την άλλη που προκύπτουν από τη χρήση της τεχνικής αυτής. Φυσικά, η διαφορά αυτή ίσως είναι κάτι δύσκολα μετρήσιμο αφού η απόδοση δύσκολα ποσοτικοποιείται. Η διαφορά αυτή θα μπορούσε να μετρηθεί σαν αύξηση στις πωλήσεις, σαν μείωση στις δαπάνες διαφήμισης, ή σαν το άθροισμα αυτών των δύο. Σε μια συγκεκριμένη διαφημιστική καμπάνια, η οποία υλοποιείται μέσω διαφημιστικών καταλόγων που θα σταλούν ταχυδρομικά, το ποσοστό των ατόμων που θα πάρουν τον κατάλογο και ο αριθμός των αγορών ανά άτομο, θα μπορούσε να παρέχει ένα μέτρο υπολογισμού της αποτελεσματικότητας της ταχυδρομικής αποστολής των καταλόγων [5] Η Εξόρυξη Γνώσης από την σκοπιά των Βάσεων Δεδομένων Η εξόρυξη γνώσης από δεδομένα μπορεί να μελετηθεί από πολλές διαφορετικές σκοπιές. Ένας ερευνητής ΑΠ ίσως να επικεντρωνόταν στη χρήση των τεχνικών εξόρυξης γνώσης από δεδομένα για να έχει πρόσβαση σε κείμενα. Ένας στατιστικός ίσως κοιτούσε τεχνικές, όπως η ανάλυση χρονοσειρών, η δοκιμή υποθέσεων και εφαρμογές του θεωρήματος Bayes. Ένας ειδικός στη μηχανική μάθηση ίσως να ενδιαφερόταν για τους αλγορίθμους της εξόρυξης γνώσης που μαθαίνουν, και ένας ερευνητής

48 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 50 αλγορίθμων θα ενδιαφερόταν να μελετήσει και να συγκρίνει τους αλγορίθμους έχοντας σα βάση τον τύπο του αλγορίθμου και την πολυπλοκότητα του. Η μελέτη της εξόρυξης γνώσης από δεδομένα, από την σκοπιά των βάσεων δεδομένων, περιλαμβάνει την εξέταση όλων των ειδών των εφαρμογών και των τεχνικών της εξόρυξης γνώσης από δεδομένα. Όμως, ενδιαφερόμαστε κυρίως για αυτές που έχουν πρακτικό ενδιαφέρον. Κυρίως εξετάζονται τα επόμενα θέματα [5]: Κλιμάκωση: Οι αλγόριθμοι που δεν αποδίδουν καλά όταν υπάρχει κλιμάκωση των δεδομένων, όπως πράγματι συμβαίνει στις πραγματικές ογκώδεις βάσεις δεδομένων, είναι περιορισμένης χρήσης. Με αυτό συσχετίζεται το γεγονός ότι οι τεχνικές πρέπει να λειτουργούν ανεξάρτητα από το μέγεθος της διαθέσιμης κύριας μνήμης. Πραγματικά δεδομένα: Τα πραγματικά δεδομένα έχουν θόρυβο και πολλές ελλιπείς τιμές γνωρισμάτων. Οι αλγόριθμοι θα πρέπει να μπορούν να δουλεύουν ακόμα και παρουσία αυτών των προβλημάτων. Ενημέρωση: Πολλοί αλγόριθμοι εξόρυξης γνώσης από δεδομένα δουλεύουν με στατικές βάσεις δεδομένων. Αυτό δεν μπορεί να θεωρηθεί ρεαλιστική υπόθεση. Ευκολία στη χρήση: Πολλοί αλγόριθμοι μπορεί μεν να δουλεύουν καλά αλλά να είναι δυσνόητοι και δύσχρηστοι, άρα μη αποδεκτοί από τους χρήστες. Αυτά τα θέματα είναι κρίσιμα, έχοντας ως στόχο εφαρμογές που πρόκειται να γίνουν αποδεκτές και να χρησιμοποιηθούν στο χώρο εργασίας. Η εξόρυξη γνώσης από δεδομένα σήμερα βρίσκεται σε μία κατάσταση παρόμοια με αυτή των βάσεων δεδομένων στις αρχές της δεκαετίας του Εκείνη την εποχή, κάθε εφαρμογή βάσης δεδομένων υλοποιούταν ανεξάρτητα, ακόμα και αν υπήρχαν πολλές ομοιότητες μεταξύ διαφορετικών εφαρμογών. Στα μέσα της δεκαετίας του 1960, παρουσιάστηκε μία πληθώρα εργαλείων που έμοιαζαν με

49 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 51 συστήματα διαχείρισης βάσης δεδομένων (σαν τα συστήματα χρέωσης υλικών, συμπεριλαμβανομένων των DBOMP και CFMS). Παρόλο που με αυτά η ανάπτυξη των εφαρμογών έγινε ευκολότερη, παρέμεναν ακόμα να υπάρχουν διαφορετικά εργαλεία για διαφορετικές εφαρμογές. Η εμφάνιση των Συστημάτων Διαχείρισης Βάσεων Δεδομένων - ΣΔΒΔ (Database Management Systems -DBMS) έγινε στις αρχές της δεκαετίας του Η επιτυχία τους οφειλόταν, εν μέρει, στον αφηρημένο ορισμό των δεδομένων και στους βασικούς κανόνες προσπέλασης για ένα μικρό πυρήνα λειτουργικών απαιτήσεων. Τέτοια αφαιρετική διαδικασία δεν έχει ακόμα γίνει στις εργασίες της εξόρυξης γνώσης από δεδομένα. Κάθε εργασία αντιμετωπίζεται ξεχωριστά. Οι περισσότερες εργασίες εξόρυξης γνώσης από δεδομένα (σήμερα) βασίζονται σε συγκεκριμένους αλγόριθμους που θα πραγματοποιήσουν καθεμία πράξη ξεχωριστά. Δεν υπάρχει καμία γενικά αποδεκτή αφαίρεση σε ένα μικρό σύνολο βασικών αρχών. Ένας στόχος μερικών ερευνητών των βάσεων δεδομένων είναι η ανάπτυξη μίας τέτοιας αφαιρετικής διαδικασίας. Ένα κρίσιμο σημείο της αφαίρεσης στις βάσεις δεδομένων είναι η υποστήριξη της επεξεργασίας ερωτήσεων. Ένας λόγος για τον οποίο οι σχεσιακές βάσεις δεδομένων είναι τόσο δημοφιλείς σήμερα, είναι η ανάπτυξη της SQL. Η SQL είναι εύκολη στη χρήση (τουλάχιστον σε σχέση με τις παλαιότερες γλώσσες ερωτήσεων, όπως ήταν η DBTG και η IMS DML) και έχει γίνει βιομηχανικό πρότυπο γλώσσας που υλοποιείται από όλους τους κατασκευαστές ΣΔΒΔ. Η SQL έχει επίσης καλά ορισμένες στρατηγικές βελτιστοποίησης. Εάν και σήμερα δεν υπάρχει κάποια γλώσσα που να ανταποκρίνεται στην εξόρυξη γνώσης από δεδομένα, στην περιοχή αυτή γίνεται συνεχώς μία προσπάθεια επέκτασης της SQL προκειμένου να υποστηρίξει τις εργασίες της εξόρυξης γνώσης από δεδομένα.

50 1 ο Κεφάλαιο Εξόρυξη Δεδομένων Κοινωνικές Επιπτώσεις Η ενσωμάτωση των τεχνικών εξόρυξης γνώσης στις καθημερινές δραστηριότητες αποτελεί πλέον μια συνηθισμένη δραστηριότητα. Καθημερινά όλοι έρχονται αντιμέτωποι με διαφημίσεις, και οι επιχειρήσεις έχουν γίνει πιο αποτελεσματικές στο να μειώσουν τα έξοδα τους με χρήση της διαδικασίας KDD. Όμως, οι «εχθροί» της εξόρυξης γνώσης από δεδομένα ανησυχούν ότι αυτές οι πληροφορίες παρέχονται με κόστος την καταπάτηση της ιδιωτικής ζωής. Οι εφαρμογές εξόρυξης γνώσης μπορούν να εξάγουν πολλές δημογραφικές πληροφορίες που αφορούν πελάτες, οι οποίες ήταν πριν άγνωστες ή κρυμμένες στα δεδομένα. Η μη εξουσιοδοτημένη χρήση αυτών των δεδομένων θα μπορούσε να οδηγήσει στην αποκάλυψη πληροφοριών που θεωρούνται εμπιστευτικές. Η απάντηση σε αυτά είναι ότι οι τεχνικές Data Mining ψάχνουν για πρότυπα και όχι ανθρώπους! Υπάρχουν τεχνικές λύσεις που μπορούν να περιορίσουν την πρόσβαση σε προσωπικά δεδομένα όπως: Αντικατάσταση ευαίσθητων δεδομένων µε ανώνυμα ID Παραγωγή τυχαιοποιημένων εξόδων Κατανεµηµένα δεδομένα κατανεµηµένος υπολογισμός Πρόσφατα παρατηρείται ένα αυξανόμενο ενδιαφέρον στις τεχνικές εξόρυξης γνώσης από δεδομένα που χρησιμοποιούνται σε εφαρμογές όπως είναι η ανίχνευση απάτης, η αναγνώριση υπόπτων για εγκλήματα και η πρόβλεψη των πιθανών τρομοκρατών. Ανίχνευση απάτης (Fraud Detection) σε αγορές µε πιστωτικές κάρτες, ξέπλυμα χρήματος, απάτη στην τηλεφωνία (AT&T, Bell Atlantic, British Telecom/MCI), ανίχνευση βιοτρομοκρατία (bioterrorism) στους Salt Lake Olympics Αυτά μπορούν να θεωρηθούν σαν τύποι προβλημάτων κατηγοριοποίησης. Η προσέγγιση που συχνά χρησιμοποιείται είναι η δημιουργία ενός «προφίλ», με μια τυπική συμπεριφορά και τα κατάλληλα χαρακτηριστικά. Πράγματι, πολλές τεχνικές κατηγοριοποίησης λειτουργούν αναγνωρίζοντας τις τιμές των

51 1 ο Κεφάλαιο Εξόρυξη Δεδομένων 53 γνωρισμάτων που εμφανίζονται συχνά για την υπό εξέταση κατηγορία - κλάση. Στη συνέχεια, κατηγοριοποιούνται οι καταγραφές με βάση αυτές τις τιμές των γνωρισμάτων. Αυτές οι προσεγγίσεις όμως της κατηγοριοποίησης δεν είναι τέλειες. Μπορεί να γίνουν λάθη. Το ότι κάποιος αγοράζει με πιστωτική κάρτα μια σειρά από προϊόντα που συνήθως αγοράζονται όταν η πιστωτική κάρτα είναι κλεμμένη, δεν σημαίνει ότι η κάρτα του είναι κλεμμένη ή ότι ο συγκεκριμένος καταναλωτής είναι εγκληματίας. Οι χρήστες των τεχνικών εξόρυξης γνώσης πρέπει να είναι ευαισθητοποιημένοι σε αυτά τα θέματα και δεν θα πρέπει να παραβιάζουν κατευθύνσεις ή οδηγίες σχετικές με θέματα προστασίας προσωπικών δεδομένων [5].

52 2 ο Κεφάλαιο Κατηγοριοποίηση 2.1 Εισαγωγή Tο πρόβλημα της κατηγοριοποίησης έχει μελετηθεί εκτενώς στη στατιστική, στην αναγνώριση προτύπων (patterns) και μηχανική μάθηση (machine learning) στα πλαίσια του προβλήματος της ανάκτησης ή εξαγωγής γνώσης από σύνολα δεδομένων [6]. Παραδείγματα εφαρμογών περιλαμβάνουν αναγνώριση προτύπων και εικόνας, ιατρική διάγνωση, έγκριση δανείων, ανίχνευση λαθών σε βιομηχανικές εφαρμογές, όπως επίσης και κατηγοριοποίηση των τάσεων στην οικονομία. Η εκτίμηση και η πρόβλεψη μπορούν να θεωρηθούν σαν ειδικοί τύποι της κατηγοριοποίησης. Όταν κάποιος κάνει μία εκτίμηση της ηλικίας είναι στην πραγματικότητα ένα προβλήματα κατηγοριοποίησης. Η πρόβλεψη μπορεί να θεωρηθεί σαν η κατηγοριοποίηση της τιμής ενός γνωρίσματος σε μία από ένα σύνολο από πιθανές κλάσεις. Η κατηγοριοποίηση (classification) χαρακτηρίζεται ως μία από τις βασικές τεχνικές της εξόρυξης γνώσης, η οποία αποσκοπεί στην ανάθεση ενός στοιχείου σε ένα προκαθορισμένο σύνολο κατηγοριών (classes). Μπορεί να περιγραφεί λοιπόν ως μία λειτουργία που αντιστοιχεί (κατηγοριοποιεί) ένα στοιχείο σε μία από τις διαφορετικές κατηγορίες που έχουν προκαθοριστεί.

53 2 ο Κεφάλαιο Κατηγοριοποίηση 55 Η κατηγοριοποίηση χαρακτηρίζεται από ένα καλά καθορισμένο σύνολο κατηγοριών καθώς και ένα σύνολο από προκατηγοριοποιημένα (preclassified) παραδείγματα. Αντίθετα, η διαδικασία τμηματοποίησης δεν στηρίζεται σε προκαθορισμένες κατηγορίες ή παραδείγματα. Γενικά, ο στόχος της διαδικασίας κατηγοριοποίησης είναι η δημιουργία ενός μοντέλου που θα μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση μελλοντικών δεδομένων των οποίων η κατηγοριοποίηση είναι άγνωστη. Πιο συγκεκριμένα, η κατηγοριοποίηση δεδομένων μπορεί να περιγραφεί ως μία διαδικασία με δυο βήματα [7]: Βήμα 1ο: Εκμάθηση (Learning). Σε αυτό το βήμα χτίζεται ένα μοντέλο (model), περιγράφοντας ένα προκαθορισμένο σύνολο από κατηγορίες δεδομένων. Tα δεδομένα εκπαίδευσης (training data) αναλύονται από έναν αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν στην συνέχεια το μοντέλο. Tα στοιχεία που αποτελούν το σύνολο κατάρτισης επιλέγονται τυχαία από έναν πληθυσμό δεδομένων και ανήκουν σε μία από τις προκαθορισμένες κατηγορίες. Δεδομένου ότι η κατηγορία των δειγμάτων εκπαίδευσης είναι γνωστή, αυτό το βήμα είναι επίσης γνωστό σαν «εποπτευμένη μάθηση» (supervised learning). To μοντέλο που ορίζεται, γνωστό και ως κατηγοριοποιητής (classifier), αναπαριστάται με τη μορφή κανόνων κατηγοριοποίησης (classification rules), δέντρων απόφασης (decision trees) ή μαθηματικών τύπων (mathematical formulas) [8]. Αλγόριθμος κατηγοριοποίησης Σύνολο δεδομένων εκπαίδευσης Μοντέλο κατηγοριοποίησης Σχήμα 2.1 Διαδικασία Εκμάθησης

54 2 ο Κεφάλαιο Κατηγοριοποίηση 56 Βήμα 2ο: Κατηγοριοποίηση (Classification). Σε αυτό το βήμα χρησιμοποιούνται τα δοκιμαστικά δεδομένα (test data) για να υπολογίσουν την ακρίβεια (accuracy) του μοντέλου. Υπάρχουν διάφορες μέθοδοι για να εκτιμηθεί η ακρίβεια του κατηγοριοποιητή (classifier). Tα δεδομένα εκπαίδευσης επιλέγονται τυχαία και είναι ανεξάρτητα. Το μοντέλο κατηγοριοποιεί κάθε ένα από τα δοκιμαστικά παραδείγματα (training samples). Στη συνέχεια η κατηγορία που ανήκουν τα δεδομένα με βάση το σύνολο δοκιμαστικών δεδομένων συγκρίνεται με την πρόβλεψη που έκανε το μοντέλο για την κατηγορία. Η ακρίβεια του μοντέλου σε ένα καθορισμένο σύνολο δεδομένων δοκιμής είναι το ποσοστό των δειγμάτων δοκιμής που κατηγοριοποιήθηκαν σωστά από το υπό εκπαίδευση μοντέλο. Εάν η ακρίβεια του μοντέλου θεωρείται ως αποδεκτή, το μοντέλο μπορεί πλέον να χρησιμοποιηθεί για να κατηγοριοποιήσει το μελλοντικά δείγματα δεδομένων (αντικείμενα), των οποίων η κατηγοριοποίηση είναι άγνωστη. Νέα Δεδομένα Σύνολο δεδομένων δοκιμής Μοντέλο Κατηγοριοποίησης Αξιολόγηση αποτελεσμάτων συσταδοποίησης Ακρίβεια Μοντέλου Κατηγοριοποίησης Σχήμα 2.2 Διαδικασία Κατηγοριοποίησης

55 2 ο Κεφάλαιο Κατηγοριοποίηση 57 Ορισμός Δεδομένης μίας βάσης δεδομένων D t t,..., πλειάδων (στοιχείων, εγγραφών) και ένα σύνολο από κατηγορίες C C C,..., 1, 2 της κατηγοριοποίησης είναι να οριστεί μία απεικόνιση: t n 1, 2 C m το πρόβλημα f : D C όπου κάθε t i εκχωρείται σε μία κατηγορία. Μία κατηγορία ή κλάση, C j, περιέχει ακριβώς αυτές τις πλειάδες όπου έχουν απεικονιστεί σε αυτή, δηλαδή: C j t t f C, 1 i n, και t D. i i j i Ο ορισμός αυτός θεωρεί την κατηγοριοποίηση σαν μία απεικόνιση από τη βάση δεδομένων στο σύνολο των κατηγοριών. Οι κατηγορίες είναι προκαθορισμένες, δεν είναι επικαλυπτόμενες και διαμερίζουν ολόκληρη τη βάση δεδομένων. Κάθε πλειάδα της βάσης δεδομένων εκχωρείται σε ακριβώς μία κατηγορία. Οι κατηγορίες που υπάρχουν για ένα πρόβλημα κατηγοριοποίησης είναι στην πραγματικότητα κλάσεις ισοδυναμίας (equivalence classes). Παράδειγμα 2.1 Πτυχίο 8,5 ό Άριστα 6,5 ό 8,5 Λίαν Καλώς ό 6,5 Καλώς

56 2 ο Κεφάλαιο Κατηγοριοποίηση 58 Η κατηγοριοποίηση ανάλογα με το βαθμό του πτυχίου γίνεται με βάση απλών ορίων. Όλες οι προσεγγίσεις στην εκτέλεση της κατηγοριοποίησης προϋποθέτουν κάποια γνώση των δεδομένων. Συχνά ένα σύνολο εκπαίδευσης χρησιμοποιείται για να καθορίσει τις συγκεκριμένες παραμέτρους που απαιτούνται από την τεχνική. Tα δεδομένα εκπαίδευσης (training data) αποτελούνται από ένα δείγμα δεδομένων της εισόδου όπως επίσης και από την κατηγοριοποίηση που έχει δοθεί σε αυτά τα δεδομένα. Στο Σχήμα 2.3 εμφανίζονται σε μια γενική μορφή οι τομείς των αλγορίθμων κατηγοριοποίησης. Οι στατιστικοί αλγόριθμοι βασίζονται άμεσα στη χρήση της στατιστικής πληροφορίας. Αλγόριθμοι που βασίζονται στην απόσταση χρησιμοποιούν μέτρα ομοιότητας ή απόστασης για να εκτελέσουν την κατηγοριοποίηση. Τεχνικές δέντρων αποφάσεων και ΝΝ (Neural Networks) χρησιμοποιούν αυτές τις δομές για να εκτελέσουν την κατηγοριοποίηση. Αλγόριθμοι κατηγοριοποίησης βασισμένοι σε κανόνες, δημιουργούν if then κανόνες για να εκτελέσουν την κατηγοριοποίηση. Κατηγοριοποίηση Στατιστική Απόσταση Δέντρα Αποφάσεων Νευρωνικά Δίκτυα Κανόνες Σχήμα 2.3 Κατηγορίες αλγορίθμων Κατηγοριοποίησης

57 2 ο Κεφάλαιο Κατηγοριοποίηση 59 Υπάρχουν τρεις βασικές μέθοδοι που χρησιμοποιούνται για να λύσουν το πρόβλημα της κατηγοριοποίησης [9]: Καθορισμός των ορίων. Εδώ η κατηγοριοποίηση εκτελείται με τη διαίρεση του χώρου της εισόδου των εν δυνάμει πλειάδων της βάσης δεδομένων σε περιοχές όπου κάθε περιοχή συνδέεται με μία κατηγορία. Χρήση κατανομών πιθανότητας. Για κάθε μια κατηγορία C που δίνεται, j P t C i j είναι η συνάρτηση κατανομής πιθανότητας (probability distribution function PDF) για την κατηγορία υπολογισμένη σε ένα σημείο εμφάνισης για κάθε κατηγορία, C j t i. Εάν η πιθανότητα P, είναι γνωστή, τότε P C Pt C είναι η εκτίμηση της πιθανότητας ότι η t i ανήκει στην κατηγορία j i C j. j Χρήση εκ των υστέρων πιθανοτήτων. Με δεδομένη μία τιμή δεδομένων t i, καθορίζεται η πιθανότητα ότι η t i ανήκει στην κατηγορία C. Αυτό υποδηλώνεται με το j P t C και i j ονομάζεται εκ των υστέρων πιθανότητα (posterior probability). Μία προσέγγιση για την κατηγοριοποίηση θα μπορούσε να είναι ο καθορισμός της εκ των υστέρων πιθανότητας για κάθε κατηγορία και στη συνέχεια η εκχώρηση του υψηλότερη πιθανότητα. t i στην κατηγορία εκείνη με την Παράδειγμα 2.2 Το παράδειγμα υποθέτει ότι το πρόβλημα είναι η κατηγοριοποίηση ενηλίκων σαν άτομα με κοντό, μέτριο και ψηλό ανάστημα. Τα δεδομένα αυτά θα χρησιμοποιηθούν παρακάτω για την επίδειξη των διάφορων τεχνικών. Ο πίνακας περιέχει μία λίστα ύψους σε μέτρα (μ). Οι τελευταίες δύο στήλες του

58 2 ο Κεφάλαιο Κατηγοριοποίηση 60 πίνακα παρουσιάζουν δύο κατηγοριοποιήσεις που θα μπορούσαν να γίνουν, με επικεφαλίδες Έξοδος 1 και Έξοδος 2 αντίστοιχα. Η κατηγοριοποίηση για την Έξοδο 1 χρησιμοποιεί την απλή διαίρεση Πίνακας 2.1 Κατηγοριοποίηση με απλή διαίρεση Ύψος Ανάστημα 2 ύ Ψηλό 1,70 ύ 2 Μέτριο ύ 1, 70 Κοντό Πίνακας 2.2 Δεδομένα για την κατηγοριοποίηση αναστήματος Όνομα Φύλο Ύψος Έξοδος 1 Έξοδος 2 Ανάστημα Ανάστημα Χριστίνα Γ 1,6m Κοντό Μέτριο Δημήτρης Α 2m Ψηλό Μέτριο Μαρία Γ 1,9m Μέτριο Ψηλό Δέσποινα Γ 1,88m Μέτριο Ψηλό Αθηνά Γ 1,7m Κοντό Μέτριο Κώστας Α 1,85m Μέτριο Μέτριο Κατερίνα Γ 1,6m Κοντό Μέτριο Γιώργος Α 1,7m Κοντό Μέτριο Μανώλης Α 2,2m Ψηλό Ψηλό Θανάσης Α 2,1m Ψηλό Ψηλό Ελένη Γ 1,8m Μέτριο Μέτριο Αλέξης Α 1,95m Μέτριο Μέτριο Άννα Γ 1,9m Μέτριο Ψηλό Σοφία Γ 1,8m Μέτριο Μέτριο Στέλλα Γ 1,75m Μέτριο Μέτριο Τα αποτελέσματα από την Έξοδο 2 απαιτούν ένα πιο πολύπλοκο σύνολο από διαμερίσεις χρησιμοποιώντας και το γνώρισμα του ύψους και το γνώρισμα του φύλου.

59 2 ο Κεφάλαιο Κατηγοριοποίηση Ζητήματα σχετικά με την κατηγοριοποίηση Ελλιπή δεδομένα. Οι ελλιπείς τιμές δεδομένων προκαλούν προβλήματα κατά τη διάρκεια τόσο της φάσης της εκπαίδευσης όσο και κατά τη διεργασία της ίδιας της κατηγοριοποίησης. Πρέπει να χειριστούμε τις ελλιπείς τιμές στα δεδομένα εκπαίδευσης γιατί ίσως αυτές μπορούν να δώσουν ένα ανακριβές αποτέλεσμα. Τα ελλιπή δεδομένα σε μία πλειάδα, η οποία πρέπει να κατηγοριοποιηθεί, θα είναι δυνατόν να τα χειριστεί η παραγόμενη μορφή της κατηγοριοποίησης. Αναλογία υπάρχει μεταξύ των ελλιπών δεδομένων σε προβλήματα κατηγοριοποίησης και των κενών τιμών (null) στις παραδοσιακές βάσεις δεδομένων. Υπάρχουν πολλές προσεγγίσεις για το χειρισμό των ελλιπών δεδομένων: Να αγνοηθούν τα ελλιπή δεδομένα. Να δοθεί υποθετικά κάποια τιμή για τα ελλιπή δεδομένα. Αυτή μπορεί να καθοριστεί από τη χρήση μίας μεθόδου που θα προβλέψει ποια πρέπει να είναι αυτή η τιμή Να δοθεί υποθετικά μία ειδική τιμή για τα ελλιπή δεδομένα. Αυτό σημαίνει ότι τα ελλιπή δεδομένα θεωρούνται ότι έχουν μία συγκεκριμένη τιμή από μόνα της. Μέτρηση επίδοσης Ο Πίνακας 2.2 δείχνει δύο διαφορετικά αποτελέσματα χρησιμοποιώντας δύο διαφορετικά εργαλεία κατηγοριοποίησης. Ο καθορισμός για το ποιο είναι το καλύτερο εξαρτάται από την ερμηνεία που δίνουν στο πρόβλημα οι χρήστες. Η επίδοση των αλγορίθμων κατηγοριοποίησης συχνά εξετάζεται με την

60 2 ο Κεφάλαιο Κατηγοριοποίηση 62 εκτίμηση της ακρίβειας της κατηγοριοποίησης. Ωστόσο, επειδή η κατηγοριοποίηση είναι ένα ασαφές πρόβλημα, η σωστή απάντηση μπορεί να εξαρτάται από το Μπορούν να χρησιμοποιηθούν παραδοσιακές προσεγγίσεις για την εκτίμηση των αλγορίθμων, όπως ο καθορισμός του πλεονάζοντος χώρου και χρόνου, αλλά αυτές οι προσεγγίσεις είναι συνήθως δευτερεύουσες. Η ακρίβεια της κατηγοριοποίησης συνήθως υπολογίζεται με τον καθορισμό του ποσοστού των πλειάδων που τοποθετούνται στη σωστή κατηγορία. Εδώ αγνοούμε το γεγονός ότι υπάρχει επίσης κάποιο κόστος το οποίο συνδέεται με μη σωστή εκχώρησης λανθασμένη κατηγορία. Μπορεί να εξεταστεί η επίδοση της κατηγοριοποίησης με τον ίδιο τρόπο, όπως γίνεται και με τα συστήματα ανάκτησης πληροφοριών. Με δύο μόνο κατηγορίες, τέσσερα πιθανά ενδεχόμενα για την κατηγοριοποίηση, όπως φαίνεται στο Σχήμα 2.4. Το πάνω αριστερά και το κάτω δεξιά τεταρτημόριο [για το Σχήμα 2.4(α) και (β)] αναπαριστούν σωστές ενέργειες. Τα υπόλοιπα δύο τεταρτημόρια υποδηλώνουν λανθασμένες ενέργειες. Η επίδοση της κατηγοριοποίησης θα μπορούσε να καθοριστεί με την κάποιου κόστους σε κάθε ένα από τα τεταρτημόρια. Ωστόσο, αυτό θα ήταν επειδή ο συνολικός αριθμός στα κόστη που χρειάζεται είναι κατηγοριών. Με δεδομένη μία συγκεκριμένη κατηγορία, 2 m, όπου m είναι ο αριθμός των C j, και μία πλειάδα της βάσης δεδομένων, t i αυτή η πλειάδα είτε θα εκχωρηθεί σε αυτήν την κατηγορία είτε όχι, ενώ στην πραγματικότητα μπορεί να είναι ή να μην είναι μέλος αυτής της κατηγορίας. Αυτή η παρατήρηση δίνει τα τέσσερα τεταρτημόρια που παρουσιάζονται στο Σχήμα. τα οποία μπορούν να περιγραφούν με τους παρακάτω τρόπους: Αληθώς Θετικό (True Positive TP) το t i εκτιμάται ότι ανήκει στην κατηγορία αυτήν. C j και πράγματι ανήκει σε Ψευδώς Θετικό (False Positive FP)

61 2 ο Κεφάλαιο Κατηγοριοποίηση 63 το t i εκτιμάται ότι ανήκει στην κατηγορία δεν ανήκει σε αυτήν. C j ενώ στην πραγματικότητα Αληθώς Αρνητικό (True Negative TN) το t i εκτιμάται ότι δεν ανήκει στην κατηγορία ανήκει σε αυτήν. C j και πράγματι δεν Ψευδώς Αρνητικό (False Negative FN) το t i εκτιμάται ότι δεν ανήκει στην κατηγορία C j ενώ στην πραγματικότητα ανήκει σε αυτήν. Μία χαρακτηριστική καμπύλη λειτουργίας (operating characteristic OC), ή μία χαρακτηριστική καμπύλη λειτουργίας δέκτη (receiver operating characteristic ROC), ή μία σχετική χαρακτηριστική καμπύλη λειτουργίας (relative operating characteristic ROC) δείχνει τη σχέση μεταξύ των αναληθώς θετικών και των αληθώς θετικών. Οι καμπύλες OC χρησιμοποιήθηκαν στην αρχή, στον τομέα των επικοινωνιών, για να εξετάσουν ρυθμούς ψευδών συναγερμών. Έχουν επίσης χρησιμοποιηθεί στην ανάκτηση πληροφοριών για να εξετάσουν τη διαρροή (fallout, το ποσοστό των μη σχετικών μεταξύ αυτά που έχουν ανακτηθεί) σε σχέση με την ανάκληση (recall, το ποσοστό των σχετικών μεταξύ αυτών που έχουν ανακτηθεί). Στον οριζόντιο άξονα της OC καμπύλης υπάρχει το ποσοστό των ψευδώς θετικών και στον κάθετο άξονα υπάρχει το ποσοστό των αληθώς θετικών για ένα δείγμα της βάσης δεδομένων.

62 2 ο Κεφάλαιο Κατηγοριοποίηση 64 RET REL NOTRET REL Ανάθεση Τύπου Α στην Α Ανάθεση Τύπου Β στην Α Αληθώς Θετική Ψευδώς Αρνητική RET NOTREL NOTRET NOTREL Ανάθεση Τύπου Α στην Β Ανάθεση Τύπου Β στην Β Ψευδώς Θετική Αληθώς Αρνητική (α) Ανάκτηση Πληροφοριών (β) Κατηγοριοποίηση στην κλάση Α (γ) Πρόβλεψη κατηγορίας Σχήμα 2.4 Σύγκριση επίδοσης της κατηγοριοποίησης με την ανάκτηση πληροφοριών Στην αρχή της διαδικασίας αξιολόγησης ενός δείγματος, δεν ανήκει κανένα δεδομένο σε καμία κατηγορία, ενώ στο τέλος της διαδικασίας υπάρχουν όλες οι κατηγορίες εξ ολοκλήρου. Κατά τη διάρκεια της αξιολόγησης των αποτελεσμάτων για ένα συγκεκριμένο δείγμα, η καμπύλη μοιάζει με μια οδοντωτή σκάλα, όπως στο Σχήμα 2.5, καθώς κάθε ένα νέο στοιχείο αποτελεί ένα ψευδώς θετικό ή ένα αληθώς θετικό δεδομένο. Θα ήταν δυνατό να αναπτυχθεί μία περισσότερο εξομαλυνθείσα έκδοση της καμπύλης ΟC. Σχήμα 2.5 Χαρακτηριστική καμπύλη λειτουργίας

63 2 ο Κεφάλαιο Κατηγοριοποίηση 65 Ένας πίνακας σύγχυσης επιδεικνύει την ακρίβεια της λύσης σε ένα πρόβλημα κατηγοριοποίησης. Με δεδομένες m κατηγορίες, μία μήτρα σύγχυσης (confusion matrix) είναι μία m m μήτρα, όπου κάθε καταχώρηση c i, j δείχνει τον αριθμό των πλειάδων από το D, οι οποίες εκχωρήθηκαν στην κατηγορία C j, αλλά των οποίων η πραγματική κατηγορία είναι η C i. Προφανώς οι καλύτερες λύσεις θα έχουν μηδενικές τιμές έξω από τη διαγώνιο. Ο Πίνακας 2.3 δείχνει μία μήτρα σύγχυσης για το παράδειγμα με το ύψος, όπου η εκχώρηση της Έξοδος 1 θεωρείται ότι είναι σωστή ενώ αυτή που πραγματικά προκύπτει είναι η εκχώρηση της Έξοδος 2. Πίνακας 2.3 Μήτρα Σύγχυσης Πραγματική Εκχώρηση κατηγορία Κοντό Μέτριο Ψηλό Κοντό Μέτριο Ψηλό Αλγόριθμοι βασισμένοι στη Στατιστική Στην συγκεκριμένη ενότητα αναλύονται λεπτομερώς η παλινδρόμηση και η Bayesian Κατηγοριοποίηση Παλινδρόμηση Τα προβλήματα παλινδρόμησης (regression) ασχολούνται με την εκτίμηση μιας τιμής εξόδου με βάση τις τιμές της εισόδου. Όταν χρησιμοποιούνται για κατηγοριοποίηση, οι τιμές της εισόδου είναι τιμές από τη βάση δεδομένων D και οι τιμές της εξόδου αναπαριστούν τις κατηγορίες. Η παλινδρόμηση μπορεί να χρησιμοποιηθεί για να λύσει προβλήματα κατηγοριοποίησης, αλλά μπορεί

64 2 ο Κεφάλαιο Κατηγοριοποίηση 66 επίσης να χρησιμοποιηθεί και για άλλες εφαρμογές, όπως η πρόβλεψη. H παλινδρόμηση συχνά μπορεί να εκτελεστεί χρησιμοποιώντας πολλούς διαφορετικούς τύπους τεχνικών, συμπεριλαμβανομένων των Νευρωνικών Δικτύων. Στην πραγματικότητα, η παλινδρόμηση δέχεται ένα σύνολο από δεδομένα και ταιριάζει αυτά τα δεδομένα σε μία εξίσωση. Έτσι ένα απλό πρόβλημα γραμμικής παλινδρόμησης μπορεί να θεωρηθεί σαν η εκτίμηση της εξίσωσης για μία ευθεία γραμμή (σε ένα διδιάστατο χώρο). Αυτό φαίνεται να είναι ισοδύναμο με τη διαμέριση των δεδομένων σε δύο κατηγορίες. Έτσι αν χρησιμοποιηθεί το παράδειγμα μιας τράπεζας, η διαμέριση των δεδομένων μπορεί να είναι η έγκριση ή η απόρριψη μίας αίτησης δανείου. Η ευθεία γραμμή είναι η εξισορρόπηση ή διαίρεση μεταξύ δύο κατηγοριών. Η παλινδρόμηση μπορεί να χρησιμοποιηθεί για να εκτελέσει κατηγοριοποίηση χρησιμοποιώντας δύο διαφορετικές προσεγγίσεις: Διαίρεση Τα δεδομένα διαιρούνται σε περιοχές με βάση την κατηγορία τους. Πρόβλεψη Δημιουργούνται εξισώσεις για την πρόβλεψη της τιμής εξόδου της κατηγορίας. Η πρώτη περίπτωση θεωρεί τα δεδομένα ότι έχουν παρασταθεί γραφικά σε ένα n -διάστατο χώρο χωρίς την προφανή ένδειξη των τιμών της κατηγορίας. Μέσω της παλίνδρομης ο χώρος διαιρείται σε περιοχές - μία για κάθε κατηγορία. Με τη δεύτερη προσέγγιση, μια τιμή για κάθε κατηγορία περιλαμβάνεται στο γράφημα. Χρησιμοποιώντας την παλινδρόμηση, δημιουργείται με αυτόν τον τρόπο η εξίσωση της ευθείας που προβλέπει τις τιμές για την κατηγορία. Παρακάτω στο Παράδειγμα 2.3 παρουσιάζεται η διαδικασία της διαίρεσης (διαμέρισης), ενώ στο Παράδειγμα 2.4 επιδεικνύεται η διαδικασία της πρόβλεψης χρησιμοποιώντας τα δεδομένα του Πίνακα 2.2. Γίνεται υπόθεση, ότι τα δεδομένα εκπαίδευσης περιλαμβάνουν, μόνο δεδομένα για «κοντούς»

65 2 ο Κεφάλαιο Κατηγοριοποίηση 67 και «μέτριους» ανθρώπους και ότι η κατηγοριοποίηση εκτελείται χρησιμοποιώντας τις τιμές της στήλης Έξοδος 1. Παράδειγμα 2.3 Τα δεδομένα της στήλης Έξοδος 1 από τον Πίνακα 2.2, και με τη βασική κατανόηση ότι η κατηγορία στην οποία εκχωρείται ένα άτομο βασίζεται μόνο στην αριθμητική τιμή του ύψους του, σε αυτό το παράδειγμα εφαρμόζει την έννοια της γραμμικής παλινδρόμησης για να καθοριστεί με ποιο τρόπο θα διαφοροποιηθούν τα άτομα μεταξύ τους των κατηγοριών «κοντός» και «μέτριος». Το Σχήμα 2.6(α) δείχνει τα σημεία εξετάζονται. Έτσι εφαρμόζεται η εξίσωση της γραμμικής παλινδρόμησης y c 0 Αυτό υποδηλώνει ότι στην πραγματικότητα πρέπει να βρεθεί η τιμή του c 0 ή οποία χωρίζει με τον καλύτερο τρόπο τις αριθμητικές τιμές του ύψους σε αυτές που αναφέρονται σε κοντούς και σε εκείνες που αναφέρονται σε μέτριους. Έτσι παρατηρείται ότι στα δεδομένα του Πίνακα ότι μόνο 12 από τις 15 καταγραφές μπορούν να χρησιμοποιηθούν για να διαφοροποιήσουν τα μέτρια από τα κοντά άτομα. Με αυτόν τον τρόπο λαμβάνονται οι ακόλουθες τιμές για το y i στα δεδομένα εκπαίδευσης που περιλαμβάνονται {1.6, 1.9, 1.88, 1.7, 1.85, 1.6, 1.7, 1.95, 1.9, 1.8, 1.75}. Θα πρέπει να ελαχιστοποιηθεί το: 12 2 L i1 i 12 i1 ( y i c ) 0 2 Λαμβάνοντας την παράγωγο ως προς c 0 και θέτοντας ίση με το 0 παίρνουμε 2 12 y 12 i i1 i1 2c 0 0

66 2 ο Κεφάλαιο Κατηγοριοποίηση 68 Σχήμα 2.6 Κατηγοριοποίηση με τη χρησιμοποίηση διαίρεσης Λύνοντας ως προς c 0 προκύπτει το παρακάτω c 12 y i i Έτσι με αυτόν τον τρόπο υπάρχει η διαίρεση μεταξύ «κοντών» και «μέτριων» ατόμων που καθορίζεται από το y= Παράδειγμα 2.4 Σε αυτήν την περίπτωση προβλέπετε η κατηγορία χρησιμοποιώντας τα δεδομένα για τα κοντά και μέτρια άτομα, σαν είσοδο, και παρατηρώντας την κατηγοριοποίηση της Έξοδος 1. Τα δεδομένα είναι τα ίδια όπως αυτά του

67 2 ο Κεφάλαιο Κατηγοριοποίηση 69 Παραδείγματος 2.2, εκτός του ότι τώρα ελέγχονται οι κατηγορίες, όπως αυτές εμφανίζονται στα δεδομένα εκπαίδευσης. Επειδή η παλινδρόμηση χρησιμοποιεί αριθμητικά δεδομένα, γίνεται υπόθεση ότι για τη κατηγορία κοντός (short) η τιμή είναι 0 και για την κατηγορία μέτριος (medium) η τιμή είναι 1. Το Σχήμα 2.6 δείχνει τα δεδομένα για το παράδειγμα: {(1.6,0), (1.9,1), (1.88,1), (1.7,0), (1.85,1), (1.6,0), (1.7,0), (1.8,1), (1.95,1), (1.9,1), (1.8,1), (1.75,1)}. Σε αυτή την περίπτωση χρησιμοποιείται η εξίσωση της παλινδρόμησης με μία μεταβλητή: y c0 c1x1 Έτσι επιθυμείτε να ελαχιστοποιηθεί: 12 2 L i1 i 12 i1 ( y i c 0 c x ) 1 1i 2 Παίρνοντας τη μερική παράγωγο ως προς το c0 και θέτοντας την ίση με το 0 προκύπτει: L c yi 2c0 2c1x1 i i1 i1 0 Για να απλοποιηθεί ο συμβολισμός, δεν χρησιμοποιούνται τα πεδία τιμών για το σύμβολο της άθροισης επειδή είναι όλα τα ίδια. Λύνοντας ως προς c 0, προκύπτει: c 0 y i 12 c x 1 1i

68 2 ο Κεφάλαιο Κατηγοριοποίηση 70 Σχήμα 2.7 Κατηγοριοποίηση με τη χρησιμοποίηση πρόβλεψης Λαμβάνοντας τώρα τη μερική παράγωγο του L ως προς 1 c, αντικαθιστώντας την τιμή του 0 c και θέτοντας την παράσταση ίση με το 0 : 0 ) )( ( i i i x x c c y c L Τέλος λύνοντας ως προς 1 c τελικά προκύπτει: 12 ) ( ) ( 12 ) ( i i i i i i x x y x y x c

69 2 ο Κεφάλαιο Κατηγοριοποίηση 71 Έτσι λύνοντας ως προς c 0 και c 1. Τοποθετούνται τα δεδομένα από τα δώδεκα σημεία των δεδομένων εκπαίδευσης προκύπτουν τα αποτελέσματα για την πρόβλεψη y x. Αυτή η γραμμή παρουσιάζεται γραφικά στο παραπάνω σχήμα Bayesian Κατηγοριοποίηση Ας θεωρηθεί ότι η συνεισφορά όλων των γνωρισμάτων είναι ανεξάρτητη και ότι κάθε ένα συνεισφέρει εξίσου στο πρόβλημα της κατηγοριοποίησης, μία απλή μέθοδος κατηγοριοποίησης έχει προταθεί η οποία καλείται απλοϊκή κατηγοριοποίηση κατά Bayes και βασίζεται στον κανόνα του Bayes για την υπό συνθήκη πιθανότητα, στον οποίο αναφέρεται ότι η μεροληψία (Bias) μιας εκτιμήτριας είναι η διαφορά μεταξύ της αναμενόμενης τιμής της εκτιμήτριας και της πραγματικής τιμής [10]. ) Bias E( Αναλύοντας τη συνεισφορά κάθε ενός «ανεξάρτητου» γνωρίσματος, καθορίζεται μία υπό συνθήκη πιθανότητα. Η κατηγοριοποίηση γίνεται με το συνδυασμό της συνέπειας που έχουν τα διαφορετικά γνωρίσματα στην πρόβλεψη που γίνεται. Η προσέγγιση ονομάζεται «απλοϊκή» επειδή θεωρεί ανεξαρτησία μεταξύ των τιμών των διαφόρων γνωρισμάτων. Δεδομένης μίας τιμής για ένα δεδομένο στην κατηγορία j x i η πιθανότητα ότι μία σχετική πλειάδα, t i, ανήκει C περιγράφεται από P c j x ) Τα δεδομένα εκπαίδευσης ( i μπορούν να χρησιμοποιηθούν για να καθορίσουν τις xi Pxi C P C j P και, j. Από αυτές τις τιμές το θεώρημα του Bayes μας επιτρέπει να

70 2 ο Κεφάλαιο Κατηγοριοποίηση 72 εκτιμήσουμε την εκ των υστέρων πιθανότητα P C i x i και στη συνέχεια την P C t. j i Δοθέντος ενός συνόλου εκπαίδευσης, ο απλοϊκός αλγόριθμος Bayes αρχικά εκτιμά την εκ των προτέρων πιθανότητα P C j για κάθε κατηγορία μετρώντας πόσο συχνά κάθε κατηγορία εμφανίζεται στα δεδομένα εκπαίδευσης. Για κάθε γνώρισμα, γνωρίσματος i x i μπορεί να μετρηθεί ο αριθμός των εμφανίσεων κάθε τιμής του x, για να καθορίσει τη P x i. Παρόμοια, η πιθανότητα P x i C j μπορεί να εκτιμηθεί μετρώντας πόσο συχνά κάθε τιμή εμφανίζεται στην κατηγορία στα δεδομένα εκπαίδευσης. Σε αυτό το σημείο πρέπει να παρατηρούνται όλες οι τιμές των γνωρισμάτων εδώ. Μία πλειάδα στα δεδομένα εκπαίδευσης μπορεί να έχει πολλά διαφορετικά γνωρίσματα, κάθε ένα με πολλές τιμές. Αυτό πρέπει να γίνει για όλα τα γνωρίσματα και για όλες τις τιμές των γνωρισμάτων. Στη συνέχεια χρησιμοποιούνται αυτές οι πιθανότητες που έχουν παραχθεί με αυτόν τον τρόπο όταν πρέπει να κατηγοριοποιηθεί μία νέα πλειάδα. Αυτός είναι ο λόγος γιατί η απλοϊκή κατηγοριοποίηση κατά Bayes μπορεί να θεωρηθεί σαν ένας τύπος αλγορίθμου που μπορεί να χρησιμοποιηθεί και για την περιγραφή και για την πρόβλεψη των δεδομένων. Οι πιθανότητες είναι περιγραφικές και στη συνέχεια χρησιμοποιούνται για να προβλέψουν τη συμμετοχή σε μία κατηγορία για την υπό μελέτη πλειάδα. Όταν κατηγοριοποιείται μία πλειάδα, οι υπό συνθήκη και εκ των προτέρων πιθανότητες, που δημιουργήθηκαν από το σύνολο εκπαίδευσης, χρησιμοποιούνται για την πρόβλεψη. Αυτό γίνεται με το συνδυασμό των αποτελεσμάτων των διαφόρων τιμών των γνωρισμάτων από την πλειάδα. Ας γίνει υπόθεση ότι η πλειάδα x,..., t i έχει p διαφορετικές τιμές γνωρισμάτων i1, xi2 xip.έτσι από τη φάση της περιγραφής είναι γνωστή η τιμή P x ik C j, για κάθε κατηγορία C j και γνώρισμα εκτίμηση για την P t C i ) με τη χρήση του τύπου: ( j x ik.στη συνέχεια γίνεται

71 2 ο Κεφάλαιο Κατηγοριοποίηση 73 p C Px C P t i j k1 ik j Σε αυτό το σημείο του αλγορίθμου υπάρχουν οι απαραίτητες εκ των προτέρων πιθανότητες P C ) για κάθε κατηγορία, και την υπό συνθήκη ( j πιθανότητα P t C i ). Για να υπολογιστεί το P t ), μπορεί να εκτιμηθεί η ( j πιθανοφάνεια ότι το ti ανήκει στην κάθε κατηγορία. Αυτό μπορεί να γίνει με την εύρεση της πιθανοφάνειας ότι αυτή η πλειάδα ανήκει σε αυτήν την κατηγορία και αφού στη συνέχεια προστεθούν όλες αυτές οι τιμές. Η πιθανότητα ότι t i ανήκει σε μία κατηγορία είναι το γινόμενο των υπό συνθήκη πιθανοτήτων για κάθε τιμή του γνωρίσματος. Στη συνέχεια βρίσκεται η εκ των υστέρων πιθανότητα P C t j ) για κάθε κατηγορία. Η κατηγορία με την ( i ( i υψηλότερη πιθανότητα είναι αυτή που επιλέγεται για την πλειάδα. Στο παρακάτω παράδειγμα παρουσιάζεται η χρήση της απλοϊκής κατηγοριοποίησης κατά Bayes. Παράδειγμα 2.5 Χρησιμοποιώντας τα αποτελέσματα της κατηγοριοποίησης της Εξόδου 1 για τον Πίνακα 2.2, υπάρχουν τέσσερις πλειάδες που κατηγοριοποιούνται σαν «κοντός», οκτώ σαν «μέτριος», και τρεις σαν «ψηλός». Για να διεξαχθεί με ευκολία η κατηγοριοποίηση, χωρίζετε το γνώρισμα του ύψους σε έξι διαστήματα: (0,1.6], (1.6,1.7], (1.7,1.8], (1.8,1.9], (1.9,2.00],(2.00, ) Ο παρακάτω πίνακας 2.4 δείχνει τις μετρήσεις και επομένως τις πιθανότητες που σχετίζονται με αυτά τα γνωρίσματα. Με αυτά τα δεδομένα εκπαίδευσης, υπολογίζονται οι εκ των προτέρων πιθανότητες:

72 2 ο Κεφάλαιο Κατηγοριοποίηση 74 P κοντό ανάστημα 4 / P μέτριο ανάστημα P ψηλό ανάστημα 3/ / Πίνακας 2.4 Πιθανότητες που σχετίζονται με γνωρίσματα Γνώρισμα Τιμή Πλήθος Πιθανότητες Ανάστημα Κοντό Μέτριο Ψηλό Κοντό Μέτριο Ψηλό Φύλο Α /4 2/8 3/3 Γ /4 6/8 0/3 (0,1.6] /4 0 0 (1.6,1.7] /4 0 0 Ύψος (1.7,1.8] /8 0 (1.8,1.9] /8 0 (1.9,2] /8 1/3 (2, ) /3 Χρησιμοποιούνται αυτές οι τιμές για να κατηγοριοποιηθεί μια καινούργια πλειάδα. Για παράδειγμα, ας γίνει υπόθεση ότι επιθυμείται να κατηγοριοποιηθεί οι πλειάδα t Αντώνης, Α, 1.95μ. Χρησιμοποιώντας αυτές τις τιμές και τις συσχετιζόμενες πιθανότητες του φύλου και του ύψους, λαμβάνονται οι ακόλουθες εκτιμήσεις: P t κοντό ανάστημα 1/ P t μέτριο ανάστημα 2 / 81/ ψηλό ανάστημα 3/ 31/ P t

73 2 ο Κεφάλαιο Κατηγοριοποίηση 75 Συνδυάζοντας τις παραπάνω εκτιμήσεις προκύπτει: Πιθανοφάνεια ναέχει κοντόανάστημα Πιθανοφάνεια ναέχει μέτριο ανάστημα Πιθανοφάνεια να έχει ψηλό ανάστημα Η P (t) εκτιμάται από την άθροιση των παραπάνω μεμονωμένων τιμών πιθανοφάνειας, αφού η πλειάδα t θα ανήκει σε μια από τις τρεις κατηγορίες (κοντό ανάστημα, μέτριο ανάστημα ή ψηλό ανάστημα): P t Τελικά, οι πραγματικές πιθανότητες για κάθε περίπτωση είναι οι εξής: P κοντό ανάστημα t P μέτριο ανάστημα t P(ψηλό ανάστημα t) Με βάση αυτές τις πιθανότητες κατηγοριοποιείται η νέα πλειάδα ως ψηλό ανάστημα επειδή η συγκεκριμένη κατηγορία έχει την υψηλότερη πιθανότητα. Η προσέγγιση της απλής κατηγοριοποίησης κατά Bayes έχει αρκετά πλεονεκτήματα. Πρώτον, είναι εύκολο να χρησιμοποιηθεί. Δεύτερον, αντίθετα με άλλες προσεγγίσεις κατηγοριοποίησης, απαιτείται μόνο ένα πέρασμα των δεδομένων εκπαίδευσης. Η προσέγγιση του Bayes μπορεί εύκολα να χειριστεί ελλιπή δεδομένα, απλά παραλείποντας εκείνη την πιθανότητα όταν υπολογίζει τις πιθανοφάνειες του μέλους για κάθε κατηγορία. Σε εκείνες τις περιπτώσεις

74 2 ο Κεφάλαιο Κατηγοριοποίηση 76 που υπάρχουν απλές συσχετίσεις, η τεχνική συνήθως δίνει καλά αποτελέσματα. Από την άλλη πλευρά, παρόλο που η απλοϊκή προσέγγιση του Bayes είναι αρκετά απλή στη χρήση της, δεν δίνει πάντα ικανοποιητικά αποτελέσματα. Πρώτον, τα γνωρίσματα δεν είναι ανεξάρτητα. Θα μπορούσε να χρησιμοποιηθεί ένα υποσύνολο των γνωρισμάτων αγνοώντας εκείνα που εξαρτώνται από άλλα. Η τεχνική αυτή δεν μπορεί να χειριστεί συνεχή δεδομένα. Η διαίρεση των συνεχών τιμών σε διαστήματα θα μπορούσε να χρησιμοποιηθεί για να λύσει αυτό το πρόβλημα, αλλά η διαίρεση του πεδίου σε διαστήματα δεν είναι μία απλή λειτουργία, και ο τρόπος με τον οποίον θα γίνει αυτό μπορεί φυσικά να επηρεάσει τα αποτελέσματα. 2.4 Αλγόριθμοι βασισμένοι στην Απόσταση Σύμφωνα με αυτούς τους αλγόριθμους, κάθε στοιχείο που απεικονίζεται στην ίδια κατηγορία μπορεί να θεωρηθεί ότι είναι πιο κοντά σε στοιχεία της ίδιας κατηγορίας από όσο είναι σε στοιχεία τα οποία ανήκουν σε άλλες κατηγορίες. Επομένως, μέτρα ομοιότητας (ή απόστασης) μπορούν να χρησιμοποιηθούν για να οριστεί η «ομοιότητα» διαφορετικών στοιχείων στη βάση δεδομένων. Η ιδέα του μέτρου ομοιότητας παρουσιάστηκε στο προηγούμενο κεφάλαιο σε σχέση με την ανάκτηση πληροφοριών. Βέβαια, η ιδέα αυτή είναι πολύ γνωστή σε οποιονδήποτε έχει ψάξει στον Παγκόσμιο ιστό χρησιμοποιώντας μία μηχανή αναζήτησης. Σε αυτές τις περιπτώσεις, το σύνολο των σελίδων του διαδικτύου αντιπροσωπεύει ολόκληρη τη βάση δεδομένων και χωρίζεται σε δύο κατηγορίες: στις σελίδες που απαντούν στην ερώτηση που υποβάλλεται και σε αυτές που δεν την απαντούν. Αυτές που απαντούν στην ερώτηση θα πρέπει να μοιάζουν περισσότερο μεταξύ τους από ότι αυτές που δεν απαντούν σε αυτήν. Η ομοιότητα σε αυτήν την περίπτωση καθορίζεται από την ερώτηση που τίθεται, υπό μορφή μίας λίστας από λέξεις κλειδιά. Έτσι, οι ανακτημένες σελίδες είναι παρόμοιες αφού όλες τους περιέχουν (σε κάποιο βαθμό) τη λίστα με τις λέξεις κλειδιά που έχουν καθοριστεί.

75 2 ο Κεφάλαιο Κατηγοριοποίηση 77 Η ιδέα των μέτρων ομοιότητας μπορεί να εφαρμοστεί σε πιο γενικά προβλήματα κατηγοριοποίησης. Η δυσκολία βρίσκεται στο πώς τα μέτρα ομοιότητας θα οριστούν και θα εφαρμοστούν στα στοιχεία της βάσης δεδομένων. Αφού τα περισσότερα μέτρα ομοιότητας υποθέτουν ότι οι τιμές είναι αριθμητικές (και συχνά διακριτές), ίσως είναι δύσκολο να χρησιμοποιηθούν σε περισσότερο γενικά και αφηρημένα είδη δεδομένων. Μπορεί να χρησιμοποιηθεί μία απεικόνιση από το πεδίο ορισμού του γνωρίσματος, σε ένα υποσύνολο ακεραίων. Η χρήση ενός μέτρου ομοιότητας, για μία κατηγοριοποίηση όπου οι κατηγορίες έχουν προκαθοριστεί, είναι κάπως απλούστερη από τη χρήση ενός μέτρου ομοιότητας η μία συσταδοποίηση, όπου οι κατηγορίες δεν είναι γνωστές εκ των προτέρων. Έτσι το πρόβλημα της κατηγοριοποίησης γίνεται στη συνέχεια ένα πρόβλημα καθορισμού της ομοιότητας όχι ανάμεσα στις πλειάδες της βάσεις δεδομένων αλλά ανάμεσα σε κάθε μία πλειάδα και στην ερώτηση. Αυτό κάνει το πρόβλημα να είναι περισσότερο 2 παρά n O. O n πρόβλημα Απλή Προσέγγιση Χρησιμοποιώντας την Απλή Προσέγγιση, εάν υπάρχει ένας αντιπρόσωπος από κάθε κατηγορία, μπορεί να πραγματοποιηθεί κατηγοριοποίηση εκχωρώντας κάθε πλειάδα στην κατηγορία με την οποία μοιάζει περισσότερο. Γίνεται υπόθεση ότι κάθε πλειάδα, t i, στη βάση δεδομένων ορίζεται σαν ένα διάνυσμα t 1,.., t από αριθμητικές τιμές. Ομοίως υποτίθεται ότι κάθε i, ti2 ik κατηγορία C j είναι ορισμένη πλειάδα C 1,.., C από αριθμητικές τιμές. Το j, C j2 πρόβλημα της κατηγοριοποίησης δηλώνεται παρακάτω jk

76 2 ο Κεφάλαιο Κατηγοριοποίηση 78 Ορισμός Δεδομένης μίας βάσης δεδομένων D t t,..., πλειάδα i, i1 i2 ik 1, 2 t n, από πλειάδες όπου κάθε t t t,..., t περιέχει αριθμητικές τιμές, και ενός συνόλου από κατηγορίες C C,..., 1 C m, όπου κάθε κατηγορία C j C j C j,..., C jk 1, 2 έχει αριθμητικές τιμές, το πρόβλημα της κατηγοριοποίησης έγκειται στο να εκχωρήσουμε κάθε μία t i στην κατηγορία C j sim( ti, C j ) sim( ti, Cl )Cl C όπου Cl C j. έστω Για να μετρηθούν αυτά τα μέτρα ομοιότητας, πρέπει να καθοριστεί το αντιπροσωπευτικό διάνυσμα για κάθε μία κατηγορία. Στην συνέχεια μία απλή μια απλή τεχνική κατηγοριοποίησης θα ήταν η τοποθέτηση κάθε στοιχείου σε εκείνη την κατηγορία όπου το στοιχείο αυτό θα είναι περισσότερο όμοιο (πλησιέστερο) με το κέντρο της κατηγορίας αυτής. Το αντιπροσωπευτικό διάνυσμα της κατηγορίας μπορεί να βρεθεί με διάφορους τρόπους. Για παράδειγμα, στα προβλήματα αναγνώρισης προτύπου, ένα πρότυπο ορισμένο εκ των προτέρων, μπορεί να χρησιμοποιηθεί για να αντιπροσωπεύσει κάθε κατηγορία. Κάθε φορά που ορίζεται ένα μέτρο ομοιότητας, κάθε στοιχείο που πρόκειται να κατηγοριοποιηθεί, συγκρίνεται με κάθε ένα από τα εκ των προτέρων ορισμένα πρότυπα. Το στοιχείο θα τοποθετηθεί σε εκείνη την κατηγορία με την μεγαλύτερη τιμή ομοιότητας. Ο παρακάτω αλγόριθμος παρουσιάζει μία απλή προσέγγιση που βασίζεται στην απόσταση, δεδομένου ότι κάθε κατηγορία, c i, αναπαρίσταται από το κέντρο της ή από το κέντρο βάρους. Στον αλγόριθμο χρησιμοποιείται το c i ως το κέντρο της κατηγορίας του. Αφού η κάθε πλειάδα πρέπει να συγκριθεί με το κέντρο της κάθε κατηγορίας, και αφού υπάρχει ένας σταθερός (συνήθως μικρός) αριθμός από κατηγορίες, η πολυπλοκότητα για τη κατηγοριοποίηση μίας πλειάδας είναι O n.

77 2 ο Κεφάλαιο Κατηγοριοποίηση 79 Αλγόριθμος Απλής Προσέγγισης Input: C 1,..., C m // Centers for each class t // Input tuple to classify Output: c // Class to which t is assigned Simple distance-based algorithm dist= ; For i:=1 to m do If dis (c i, t)<dist, then c=i; dist=dist(c i, t); Το Σχήμα 2.8 επεξηγεί τη χρήση αυτής της προσέγγισης. Τα τρία σκούρα σημεία είναι οι αντιπρόσωποι κατηγοριών για τις τρεις κατηγορίες, Class A, Class B και Class C. Οι διακεκομμένες γραμμές δείχνουν την απόσταση από κάθε στοιχείο στο κοντινότερο κέντρο. Σχήμα 2.8 Κατηγοριοποίηση με τη χρησιμοποίηση απλού αλγόριθμου απόστασης

78 2 ο Κεφάλαιο Κατηγοριοποίηση K Πλησιέστεροι Γείτονες Ένα τυπικό σχήμα κατηγοριοποίησης που βασίζεται στη χρήση μέτρων βασισμένων στην απόσταση, είναι αυτό των Κ πλησιέστερων γειτόνων (Nearest Neighbors ΚΝΝ). Η τεχνική του Κ πλησιέστερων γειτόνων προϋποθέτει ότι το σύνολο εκπαίδευσης δεν περιλαμβάνει μόνο τα δεδομένα αλλά επίσης και την επιθυμητή κατηγοριοποίηση για κάθε στοιχείο. Αυτό έχει σαν αποτέλεσμα τα δεδομένα εκπαίδευσης να αποτελούν το μοντέλο. Όταν πρόκειται να γίνει μία κατηγοριοποίηση για ένα καινούργιο στοιχείο, πρέπει να καθοριστεί η απόσταση του από κάθε στοιχείο του συνόλου εκπαίδευσης. Μόνο οι Κ πλησιέστερες εκχωρήσεις στο σύνολο εκπαίδευσης λαμβάνονται υπόψη στη συνέχεια. Το νέο στοιχείο τοποθετείται μετά στην κατηγορία που περιέχει τα περισσότερα στοιχεία από το σύνολο των κοντινότερων στοιχείων. Το Σχήμα 2.9 επεξηγεί τη διαδικασία που χρησιμοποιείται από τον Αλγόριθμο ΚΝΝ. Εδώ δείχνονται τα σημεία στο σύνολο εκπαίδευσης και 3 Παρουσιάζονται τα τρία κοντινότερα στοιχεία στο σύνολο εκπαίδευσης. To t θα τοποθετηθεί στην κατηγορία στην οποία ανήκουν τα περισσότερα από αυτά στοιχεία. Σχήμα 2.9 Κατηγοριοποίηση με τη χρησιμοποίηση KNN

79 2 ο Κεφάλαιο Κατηγοριοποίηση 81 Ο Αλγόριθμος KNN περιγράφει τη χρήση του πλησιέστερου γείτονα αλγορίθμου. Χρησιμοποιείται το για τα δεδομένα εκπαίδευσης. Αφού κάθε πλειάδα που θα κατηγοριοποιηθεί πρέπει να συγκριθεί με κάθε ένα στοιχείο από τα δεδομένα εκπαίδευσης, εάν υπάρχει q στοιχεία στο σύνολο εκπαίδευσης, το πρόβλημα αυτό είναι O q πρόβλημα. Εάν τα στοιχεία που πρέπει να κατηγοριοποιηθούν είναι n τότε αυτό γίνεται O nq πρόβλημα. Δεδομένου ότι τα δεδομένα εκπαίδευσης είναι σταθερού μεγέθους(αν και ίσως αρκετά μεγάλου) μπορεί να θεωρηθεί σαν O n πρόβλημα. Το παρακάτω Παράδειγμα 2.6 επεξηγεί αυτήν την τεχνική χρησιμοποιώντας τα δείγματα δεδομένων από τον Πίνακα 2.2. Η τεχνική των πλησιέστερων γειτόνων είναι υπερβολικά ευαίσθητη στην τιμή του. Σύμφωνα με μία εμπειρική μέθοδο πρέπει να ισχύει ότι αριθμός στοιχείων εκπαίδευση ς [9]. Για αυτό το παράδειγμα η τιμή είναι Οι αλγόριθμοι του εμπορίου συχνά χρησιμοποιούν σαν προεπιλεγμένη τιμή το 10 Αλγόριθμος KNN Input: T // Training data K // Number of neighbors t // Input tuple to classify Output: c // Class to which t is assigned KNN algorithm: // Algorithm to classify tuple using KNN N=Ø; // Find set of neighbors, N, for t for each d T do if N K, then N=N {d}; else if un such that sim(t,u) sim(t,d), then begin N=N-{u}; N=N {d}; end c= class to which the most un are classified;

80 2 ο Κεφάλαιο Κατηγοριοποίηση 82 Παράδειγμα 2.6 Χρησιμοποιώντας το δείγμα δεδομένων από τον Πίνακα 2.2 και την κατηγοριοποίηση Έξοδος 1 σαν την τιμή εξόδου του συνόλου εκπαίδευσης, κατηγοριοποιείται η πλειάδα (Αλεξάνδρα, Γ, 1.6). Μόνο το ύψος χρησιμοποιείται για τον υπολογισμό της απόστασης έτσι ώστε και το Ευκλείδειο και το Manhattan μέτρο απόστασης να έχουν τα ίδια αποτελέσματα στην απόδοση. Άρα, η απόσταση είναι απλά η απόλυτη τιμή της διαφοράς των τιμών. Ας γίνει υπόθεση ότι δίνεται K = 5. Έτσι στη συνέχεια προκύπτει ότι οι Κ πλησιέστεροι γείτονες στην πλειάδα εισόδου είναι οι πλειάδες {<Χριστίνα, Γ, 1.6>,<Κατερίνα, Γ, 1.6>, <Αθηνά, Γ, 1.7>, <Στέλλα, Γ, 1.75>}. Από αυτά τα πέντε στοιχεία, τέσσερα είναι κατηγοριοποιημένα σαν άτομα με κοντό ανάστημα και ένα σαν μέτριο ανάστημα. Έτσι, ο αλγόριθμος ΚΝΝ θα κατηγοριοποιήσει την Αλεξάνδρα ως άτομο με κοντό ανάστημα. 2.5 Αλγόριθμοι Βασισμένοι σε Δένδρα Απόφασης Η προσέγγιση του δένδρου απόφασης είναι πολύ χρήσιμη στα προβλήματα κατηγοριοποίησης και είναι μια από τις ευρέως χρησιμοποιούμενες τεχνικές. Με αυτήν την τεχνική, κατασκευάζεται ένα δένδρο για να μοντελοποιήσει τη διαδικασία της κατηγοριοποίησης. Μόλις χτιστεί ένα δένδρο, εφαρμόζεται σε κάθε μία πλειάδα στη βάση δεδομένων και καταλήγει σε μία κατηγοριοποίηση για κάθε πλειάδα. Υπάρχουν δύο βασικά βήματα στην τεχνική αυτή: η κατασκευή του δένδρου και η εφαρμογή του στη βάση δεδομένων

81 2 ο Κεφάλαιο Κατηγοριοποίηση 83 Η περισσότερη έρευνα έχει επικεντρωθεί στο πώς θα χτιστούν αποτελεσματικά δένδρα καθώς η διαδικασία εφαρμογής είναι αρκετά προφανής. Η προσέγγιση των αποφάσεων για την κατηγοριοποίηση βασίζεται στη διαίρεση του χώρου αναζήτησης σε ορθογώνιες περιοχές. Μία πλειάδα κατηγοριοποιείται με βάση την περιοχή μέσα στην οποία ανήκει. Ένας ορισμός για ένα δένδρο απόφασης, που χρησιμοποιείται στην κατηγοριοποίηση δίνεται παρακάτω. Ορισμός Δίνεται ότι μία βάση δεδομένων είναι η D t t,..., t,..., 1, 2 t n, όπου i t, i1 ti2 tih και ότι το σχήμα της βάσης δεδομένων περιέχει τα ακόλουθα γνωρίσματα 1 A. Επίσης δίνεται ένα σύνολο από κατηγορίες C C C,..., A,...,, 2 A h 1, 2 C m. Ένα δέντρο απόφασης (decision tree - DT) ή δέντρο κατηγοριοποίησης είναι ένα δέντρο που συσχετίζεται με το D και έχει τις ακόλουθες ιδιότητες: Κάθε εσωτερικός κόμβος παίρνει το όνομα του από ένα γνώρισμα, A 1. Κάθε τόξο παίρνει το όνομα του από ένα κατηγόρημα το οποίο μπορεί να εφαρμοστεί στο γνώρισμα που συνδέεται με τον πατέρα κόμβο. Κάθε φύλλο έχει ως όνομα μία κατηγορία C j. Η λύση του προβλήματος της κατηγοριοποίησης, με τη χρήση δένδρων αποφάσεων, είναι μία διαδικασία δύο βημάτων: Επαγωγή δένδρου απόφασης: Η δημιουργία ενός DT χρησιμοποιώντας δεδομένα εκπαίδευσης. Για κάθε t i D, εφαρμογή του DT για τον προσδιορισμό της

82 2 ο Κεφάλαιο Κατηγοριοποίηση 84 κατηγορίας του. Ένα δέντρο απόφασης κατασκευάζεται με βάση ένα σύνολο εκπαίδευσης προ-κατηγοριοποιημένων δεδομένων. Κάθε ένας από τους εσωτερικούς κόμβος του δέντρου απόφασης προσδιορίζει τον έλεγχο ενός γνωρίσματος και κάθε κλαδί που «κατεβαίνει» από εκείνον τον κόμβο αντιστοιχεί σε μια από τις πιθανές τιμές για το συγκεκριμένο γνώρισμα. Επίσης, κάθε φύλλο αντιστοιχεί σε μια από τις κατηγορίες που έχουν οριστεί. Η διαδικασία για την κατηγοριοποίηση ενός νέου δείγματος με βάση ένα δέντρο απόφασης είναι η ακόλουθη: ξεκινώντας από την ρίζα του δέντρου και εξετάζοντας τα γνωρίσματα που καθορίζονται από τον κόμβο αυτό προσδιορίζονται διαδοχικά οι εσωτερικοί κόμβοι που θα επισκεφτούμε έως ότου καταλήξει σε ένα φύλλο. Σε κάθε εσωτερικό κόμβο ελέγχεται εάν το δείγμα ικανοποιεί το συγκεκριμένο κόμβο. Η έκβαση αυτής της δοκιμής σ' έναν εσωτερικό κόμβο καθορίζει το κλαδί που θα διασχιστεί στην συνέχεια καθώς και τον επόμενο κόμβο που θα επισκεφθεί. Η κατηγορία του υπό μελέτη δείγματος είναι η κατηγορία του τελικού κόμβου ο οποίος αντιστοιχεί σε φύλλο του δέντρου. Υπάρχουν πολλά πλεονεκτήματα από τη χρήση των DT για την κατηγοριοποίηση. Τα DT φυσικά και είναι εύκολα στη χρήση και αποτελεσματικά. Μπορούν να δημιουργηθούν κανόνες οι οποίοι είναι εύκολοι στο να κατανοηθούν και να ερμηνευτούν. Τα DT αποδίδουν καλά για μεγάλες βάσεις δεδομένων επειδή το μέγεθος του δένδρου είναι ανεξάρτητο το από το μέγεθος της βάσης δεδομένων. Κάθε πλειάδα της βάσης δεδομένων πρέπει να φιλτραριστεί μέσα από το δένδρο. Αυτό παίρνει χρόνο ανάλογα με το ύψος του δένδρου, το οποίο είναι συγκεκριμένο. Επιπλέον μπορούν να κατασκευαστούν δένδρα για δεδομένα με πολλά γνωρίσματα. Υπάρχουν όμως και μειονεκτήματα για τους DT αλγορίθμους. Κατά πρώτον, δεν χειρίζονται εύκολα συνεχή δεδομένα. Αυτά τα πεδία των γνωρισμάτων θα πρέπει να χωριστούν σε κατηγορίες για να μπορούν να χειριστούν. Η προσέγγιση που χρησιμοποιείται είναι ότι ο χώρος του πεδίου διαιρείται σε ορθογώνιες περιοχές. Βέβαια, δεν είναι όλα τα προβλήματα κατηγοριοποίησης αυτού του τύπου. Επιπλέον ο χειρισμός που γίνεται στα ελλιπή δεδομένα είναι δύσκολος γιατί δεν μπορούν να βρεθούν οι σωστές

83 2 ο Κεφάλαιο Κατηγοριοποίηση 85 διακλαδώσεις του δέντρου για να ακολουθήσουν. Επειδή το DT δημιουργείται από δεδομένα της εκπαίδευσης, μπορεί να εμφανιστεί υπερπροσαρμογή. Αυτό όμως θα μπορούσε να προσπεραστεί με τη φάση της περικοπής του δέντρου. Τελικά οι συσχετίσεις μεταξύ των γνωρισμάτων της βάσης δεδομένων αγνοούνται από τη διαδικασία DT. Σχήμα 2.11 Δένδρα Αποφάσεων Υπάρχουν πολλοί αλγόριθμοι για δένδρα αποφάσεων. Στον παρακάτω αλγόριθμο παρουσιάζεται η δημιουργία ενός δένδρου με τον απλουστευμένο DTBuild Αλγόριθμο. Τα γνωρίσματα από το σχήμα της βάσης δεδομένων, που θα χρησιμοποιηθούν για να ονοματίσουν τους κόμβους του δένδρου και γύρω από τα οποία θα λάβουν χώρα οι διαιρέσεις, ονομάζονται γνωρίσματα διάσπασης (splitting attributes). Τα κατηγορήματα που χρησιμοποιούνται για να ονοματίσουν τα τόξα του δένδρου, ονομάζονται κατηγορήματα διάσπασης (splitting predicates). Στα δένδρα αποφάσεων που φαίνονται στο Σχήμα 2.11 τα γνωρίσματα διάσπασης είναι {φύλο, ύψος}. Τα κατηγορήματα διάσπασης για το φύλο είναι {=Γυναίκα, =Άνδρας}, ενώ αυτά για το ύψος είναι {<1.3 μ, >1.8 μ, <1.5 μ, >2 μ}. Τα κατηγορήματα διάσπασης για το ύψος διαφέρουν

84 2 ο Κεφάλαιο Κατηγοριοποίηση 86 ανάλογα με το εάν η πλειάδα είναι για άντρας ή για γυναίκα. Αυτός ο αναδρομικός αλγόριθμος χτίζει το δένδρο σε μία μορφή «από πάνω προς τα κάτω» εξετάζοντας τα δεδομένα της εκπαίδευσης. Χρησιμοποιώντας τα αρχικά δεδομένα της εκπαίδευσης, το «καλύτερο» γνώρισμα διάσπασης επιλέγεται πρώτο. Οι αλγόριθμοι διαφέρουν στο πώς καθορίζουν το «καλύτερο» γνώρισμα και τα αντίστοιχα «καλύτερα κατηγορήματα» που θα χρησιμοποιήσουν για τη διάσπαση. Με το που θα καθοριστεί αυτό, δημιουργούνται ο κόμβος και τα τόξα του και προστίθενται στο δένδρο που έχει δημιουργηθεί. Ο αλγόριθμος συνεχίζει αναδρομικά, προσθέτοντας νέα υποδένδρα σε κάθε τόξο διακλάδωσης. Ο αλγόριθμος φτάνει σε ένα τέλος όταν ικανοποιούνται κάποια «κριτήρια τερματισμού». Και πάλι κάθε αλγόριθμος καθορίζει το πότε θα σταματήσει το δέντρο με διαφορετικό τρόπο. Μία απλή προσέγγιση θα ήταν να σταματήσει ο αλγόριθμος όταν οι πλειάδες του περιορισμένου συνόλου εκπαίδευσης ανήκουν όλες στην ίδια κατηγορία. Αυτή η κατηγορία χρησιμοποιείται στη συνέχεια για να δώσει όνομα στο φύλλο που δημιουργείται. Αλγόριθμος DTBuild Input: D // Training data Output: T // Decision Tree DTBuilt algorithm: // Simplistic algorithm to illustrate naïve approach to building DT T=Ø; Determine best splitting criterion; T=Create root node and label with splitting attribute; T=Add arc to root node for each split predicate and label; For each arc do D=Database created by applying splitting predicate to D; if stopping point reached for this path, then T =Create leaf node and label with appropriate class;

85 2 ο Κεφάλαιο Κατηγοριοποίηση 87 else T =DTBuild (D); T=Add T to arc; Οι κυριότεροι παράγοντες στην απόδοση ενός αλγορίθμου που χτίζει DT είναι το μέγεθος του συνόλου εκπαίδευσης και το πώς επιλέγεται το καλύτερο γνώρισμα διάσπασης. Τα ζητήματα που ακολουθούν αντιμετωπίζονται από τους περισσότερους DT αλγόριθμους: Επιλογή των γνωρισμάτων διάσπασης Το ποια γνωρίσματα χρησιμοποιούνται ως γνωρίσματα διάσπασης επηρεάζει την απόδοση της εφαρμογής του DT που έχει χτιστεί. Μερικά γνωρίσματα είναι καλύτερα από άλλα. Στα δεδομένα που φαίνονται στον Πίνακα 2.2 το γνώρισμα όνομα φυσικά και δε θα έπρεπε να χρησιμοποιηθεί, ενώ αντίθετα θα μπορούσε να χρησιμοποιηθεί το γνώρισμα φύλο. Η επιλογή του γνωρίσματος περιλαμβάνει όχι μόνο μία εξέταση των δεδομένων του συνόλου εκπαίδευσης, αλλά και την εμπεριστατωμένη άποψη των ειδικών στον τομέα. Διάταξη των γνωρισμάτων διάσπασης Η σειρά με την οποία επιλέγονται τα γνωρίσματα είναι επίσης σημαντική. Στο Σχήμα 2.11 στο ισοζυγισμένο δένδρο το γνώρισμα φύλο επιλέγεται πρώτα. Στο βαθύ δέντρο το γνώρισμα ύψος εξετάζεται και δεύτερη φορά. Διασπάσεις Σχετικός με τη διάταξη των γνωρισμάτων, είναι ο αριθμός των διασπάσεων που λαμβάνονται. Σε μερικά γνωρίσματα, τα πεδίο είναι μικρό, έτσι ο αριθμός των διασπάσεων είναι φανερός με βάση το πεδίο. Ωστόσο, εάν το πεδίο είναι συνεχές ή έχει ένα μεγάλο αριθμό τιμών, ο αριθμός των διασπάσεων που θα χρησιμοποιηθεί δεν είναι εύκολο να καθοριστεί.

86 2 ο Κεφάλαιο Κατηγοριοποίηση 88 Δομή του δένδρου Για να βελτιωθεί η απόδοση της εφαρμογής του δένδρου για κατηγοριοποίηση, είναι επιθυμητό ένα ισοζυγισμένο δένδρο με τα λιγότερα επίπεδα. Ωστόσο, σε αυτήν την περίπτωση, ίσως να χρειάζονται πιο πολύπλοκες συγκρίσεις με πολλαπλές διακλαδώσεις. Μερικοί αλγόριθμοι χτίζουν μόνο δυαδικά δένδρα. Κριτήρια τερματισμού Η δημιουργία του δένδρου φυσικά και σταματά όταν τα δεδομένα εκπαίδευσης κατηγοριοποιούνται τέλεια. Ίσως όμως να υπάρξουν περιπτώσεις, όπου αν σταματήσει νωρίτερα μπορεί για να αποτραπεί η δημιουργία μεγαλύτερων δένδρων. Αυτό αποτελεί ένα συμβιβασμό μεταξύ της ακρίβειας της κατηγοριοποίησης και της απόδοσης. Επιπλέον, μπορεί να σταματήσει για να αποφευχθεί η υπερπροσαρμογή. Είναι επίσης κατανοητό ότι θα μπορούσαν να δημιουργηθούν περισσότερα επίπεδα, από ότι χρειάζεται, σε ένα δένδρο, εάν είναι γνωστό ότι υπάρχουν κατανομές δεδομένων οι οποίες δεν αναπαρίστανται στα δεδομένα εκπαίδευσης. Δεδομένα εκπαίδευσης Η δομή του DT που δημιουργείται εξαρτάται από τα δεδομένα εκπαίδευσης. Εάν το σύνολο των δεδομένων εκπαίδευσης είναι πολύ μικρό, τότε το δένδρο που δημιουργείται ίσως να μην είναι αρκετά συγκεκριμένο για να δουλεύει κατάλληλα με πιο γενικά δεδομένα. Εάν το σύνολο των δεδομένων εκπαίδευσης είναι πολύ μεγάλο, τότε το δένδρο που δημιουργείται ίσως να προκαλέσει υπερπροσαρμογή. Κλάδεμα Μόλις χτιστεί ένα δένδρο, ίσως να είναι απαραίτητες μερικές τροποποιήσεις στο δένδρο για να βελτιώσουν τη απόδοση του, κατά τη διάρκεια της φάσης της κατηγοριοποίησης. Η φάση του κλαδέματος (pruning) μπορεί να αφαιρέσει περιττές συγκρίσεις ή να διαγράψει υποδένδρα για να πετύχει καλύτερη απόδοση.

87 2 ο Κεφάλαιο Κατηγοριοποίηση 89 Διάφοροι αλγόριθμοι κατασκευής των δέντρων απόφασης έχουν αναπτυχθεί κατά τη διάρκεια των τελευταίων ετών. Μερικοί από τους πιο γνωστούς αλγορίθμους είναι οι: ID3, C4.5, SPRINT, SLIQ, CART, RainForest. Γενικά, οι περισσότεροι από τους αλγόριθμους έχουν δύο διακριτές φάσεις: τη φάση οικοδόμησης (building phase) και την φάση περικοπής (pruning phase) [11]. Στη φάση οικοδόμησης, το σύνολο των δεδομένων εκπαίδευσης χωρίζεται κατ επανάληψη μέχρις ότου όλα τα δείγματα σ' ένα τμήμα (partition) να ανήκουν στην ίδια κατηγορία. Το αποτέλεσμα είναι ένα δέντρο που κατηγοριοποιεί κάθε στοιχείο του συνόλου εκπαίδευσης. Ωστόσο, το δέντρο που κατασκευάζεται μπορεί να είναι ευαίσθητο στις στατιστικές παρατυπίες (irregularities) του συνόλου κατάρτισης. Κατά συνέπεια, οι περισσότεροι από τους αλγορίθμους εκτελούν μια φάση περικοπής μετά από τη φάση κατασκευής του δέντρου, στην οποία οι κόμβοι περικόπτονται για να αποτραπούν οι επικαλύψεις και για να δημιουργηθεί ένα δέντρο με υψηλότερη ακρίβεια. Οι διάφοροι αλγόριθμοι κατασκευής δέντρων απόφασης χρησιμοποιούν διαφορετικούς αλγορίθμους για την επιλογή του κριτηρίου ελέγχου για την κατηγοριοποίηση ενός συνόλου δεδομένων [12]. Ένας από τους πιο πρόσφατους αλγορίθμους, ο CLS, εξετάζει όλα τα δυνατά δέντρα αποφάσεων σ' ένα συγκεκριμένο βάθος Στην συνέχεια επιλέγει τον έλεγχο που ελαχιστοποιεί το υπολογιστικό κόστος κατηγοριοποίησης ενός στοιχείου. Ο ορισμός αυτού του κόστους αποτελείται από το κόστος καθορισμού των τιμών των χαρακτηριστικών για έλεγχο καθώς και το κόστος λανθασμένης κατηγοριοποίησης. Οι αλγόριθμοι ID3 και C4.5 βασίζονται σε μία στατιστική ιδιότητα, καλούμενη κέδρος πληροφορίας (information gain), προκειμένου να επιλεγεί εκείνο το γνώρισμα που θα ελεγχθεί σε κάθε κόμβο του δέντρου Αλγόριθμος ID3 Η ID3 για το χτίσιμο του δέντρου απόφασης βασίζεται στη θεωρία της πληροφορίας και προσπαθεί να ελαχιστοποιήσει τον αναμενόμενο αριθμό των

88 2 ο Κεφάλαιο Κατηγοριοποίηση 90 συγκρίσεων. Η βασική ιδέα ενός αλγορίθμου επαγωγής είναι να θέτει ερωτήσεις των οποίων οι απαντήσεις παρέχουν την περισσότερη πληροφορία. Για παράδειγμα στο παιχνίδι «20 Ερωτήσεις», η πρώτη ερώτηση που θα μπορούσε να ρωτήσει ένας ενήλικας είναι "Is the thing alive?" ενώ ένα παιδί θα μπορούσε να ρωτήσει "Is it my daddy?". H πρώτη ερώτηση χωρίζει το χώρο αναζήτησης σε δύο μεγάλα πεδία αναζήτησης, ενώ η δεύτερη εκτελεί μία μικρή διαίρεση του χώρου. Η βασική στρατηγική που εκτελείται από το ID3 είναι η επιλογή γνωρισμάτων διάσπασης με το υψηλότερο κέρδος πληροφορίας πρώτα. Το ποσό της πληροφορίας, το οποίο συνδέεται με την τιμή ενός γνωρίσματος, σχετίζεται με την πιθανότητα εμφάνισης του. Κοιτώντας το παραπάνω παράδειγμα η ερώτηση του παιδιού χωρίζει το χώρο αναζήτησης σε δύο σύνολα. Το ένα σύνολο (Daddy) έχει μία απειροελάχιστη πιθανότητα που συνδέεται με αυτό, ενώ το άλλο σύνολο είναι σχεδόν σίγουρο, ενώ αντίθετα η ερώτηση την οποία κάνει ο ενήλικας διαίρει το χώρο αναζήτησης σε δύο υποσύνολα με σχεδόν ίση πιθανότητα εμφάνισης. Η έννοια που χρησιμοποιείται για να μετρηθεί η πληροφορία καλείται εντροπία. Η εντροπία χρησιμοποιείται για να μετρήσει την ποσότητα της αβεβαιότητας, ή της έκπληξης σε ένα σύνολο δεδομένων. Φυσικά, όταν όλα τα δεδομένα ενός συνόλου ανήκουν σε μία και μόνο κατηγορία, δεν υπάρχει καθόλου αβεβαιότητα. Σε αυτήν την περίπτωση η εντροπία είναι μηδέν. Ο στόχος της κατηγοριοποίησης ενός δένδρου απόφασης είναι το να διαχωρίσει επαναληπτικά το υπό εξέταση σύνολο δεδομένων σε υποσύνολα όπου όλα τα στοιχεία σε κάθε τελικό υποσύνολο να ανήκουν στην ίδια κατηγορία. Τα βασικά βήματα για την δημιουργία ενός δέντρου αποφάσεων με βάση τον αλγόριθμο ID3 παρουσιάζεται παρακάτω [11]: Είσοδος Δείγματα εκπαίδευσης τα οποία παρουσιάζονται με διακριτές τιμές γνωρισμάτων. Έξοδος Δέντρο Απόφασης.

89 2 ο Κεφάλαιο Κατηγοριοποίηση 91 Διαδικασία Βήμα 1 ο : Το δέντρο ξεκινάει με έναν μόνο κόμβο που αντιπροσωπεύει ολόκληρο το σύνολο των δεδομένων εκπαίδευσης Βήμα 2 ο : Αν τα δείγματα είναι όλα της ίδιας κατηγορίας, τότε ο κόμβος γίνεται φύλλο και προστίθεται η ετικέτα κατηγορίας. Βήμα 3 ο : Ο αλγόριθμος χρησιμοποιεί ένα μέτρο εντροπίας, γνωστό σαν κέρδος πληροφορίας, για την επιλογή των γνωρισμάτων που διαχωρίζουν καλύτερα τα δείγματα στις διαφορετικές κατηγορίες. Στην συνέχεια το κέρδος πληροφορίας υπολογίζεται για κάθε γνώρισμα. Το γνώρισμα με το μέγιστο κέδρος πληροφορίας επιλέγεται σαν γνώρισμα ελέγχου. Βήμα 4 ο : Ένας κόμβος δημιουργείται και χαρακτηρίζεται γνώρισμα ελέγχου (test attribute), όσο δημιουργούνται κλαδιά για κάθε τιμή του. Στην συνέχεια το δείγμα δεδομένων διαχωρίζεται αναλόγως. Βήμα 5 ο : Ο αλγόριθμος εφαρμόζεται συνεχώς για τη μορφοποίηση ενός δέντρου απόφασης με βάση τα δείγματα σε κάθε προκαθορισμένη κατηγορία. Ο συνεχής διαχωρισμός σταματάει μόνο όταν κάποια από τις παρακάτω συνθήκες ικανοποιείται: Όλα τα δείγματα του δοσμένου κόμβου ανήκουν στην ίδια κατηγορία, ή Δεν υπάρχουν άλλα γνωρίσματα με βάση τα οποία τα δείγματα θα μπορούσαν να διαχωριστούν περαιτέρω, ή Δεν υπάρχουν μη κατηγοριοποιημένα δείγματα για το κλαδί του γνωρίσματος ελέγχου.

90 2 ο Κεφάλαιο Κατηγοριοποίηση SLIQ Σύμφωνα με την προσέγγιση αυτή το σύνολο των γνωρισμάτων προκατηγοριοποιείται. Το δέντρο κατηγοριοποίησης αυξάνεται με μια κατά εύρος μέθοδο. Αρχικά ορίζεται ο κόμβος ρίζα του δέντρου. Κατά τη διάρκεια της φάσης του διαχωρισμού, γίνεται χρήση της λίστας κατηγοριών για τον υπολογισμό του καλύτερου δυνατού διαχωρισμού για κάθε μεμονωμένο γνώρισμα. Ο κατάλογος του τρέχοντος κάθε φορά γνωρίσματος χρησιμοποιείται για να ενημερώσει τις αντίστοιχες ετικέτες των φύλλων (οι οποίες αντιστοιχούν στις κατηγορίες). Αφού διαχωριστεί ένας κόμβος, οι είσοδοι της λίστας κατηγοριών τροποποιούνται για να υποδείξουν τον κόμβο στον οποίον η εγγραφή ανήκει. Ο αλγόριθμος αυτός έχει το μειονέκτημα ότι οι κατηγορίες προσεγγίζονται συχνά και μάλιστα με τυχαίο τρόπο και από τις δύο φάσεις της επαγωγής του δέντρου. Για τον λόγο αυτόν, πρέπει να βρίσκεται στη μνήμη συνεχώς προκειμένου να πετύχουμε μία καλή απόδοση. Αυτό, όμως, περιορίζει το μέγιστο επιτρεπτό μέγεθος του συνόλου εκπαίδευσης [7] C4.5 και C5.0 Ο αλγόριθμος C4.5 εφαρμόζει μία απλή κατά-βάθος μέθοδος για την κατασκευή του δέντρου. Τα γνωρίσματα κάθε κόμβου του δέντρου μπορούν να έχουν συνεχείς τιμές. Ωστόσο, για να λειτουργήσει σωστά χρειάζεται ολοκληρωμένα δεδομένα. Ο C4.5 κρίνεται ακατάλληλος για μεγάλα σύνολα δεδομένων, αφού η ακρίβεια που παρουσιάζει είναι πολύ μικρή [13]. Όμως ο αλγόριθμος δέντρου απόφασης C4.5 βελτιώνει τον ID3 με τους ακόλουθους τρόπους: Ελλιπή δεδομένα Όταν το δένδρο απόφασης χτίζεται, τα ελλιπή δεδομένα αγνοούνται. Το οποίο σημαίνει ότι το κλάσμα του κέρδους υπολογίζεται κοιτώντας,

91 2 ο Κεφάλαιο Κατηγοριοποίηση 93 μόνο σε εκείνες τις εγγραφές που έχουν κάποια τιμή για εκείνο το γνώρισμα. Για κατηγοριοποιηθεί μία εγγραφή με ελλιπή τιμή για ένα γνώρισμα, η τιμή για το στοιχείο μπορεί να προβλεφθεί με βάση το τι είναι γνωστό για τις τιμές του γνωρίσματος από τις άλλες εγγραφές. Συνεχή δεδομένα Η βασική ιδέα είναι να χωριστούν τα δεδομένα σε διαστήματα με βάση τις τιμές των γνωρισμάτων για εκείνα τα στοιχεία τα οποία ανήκουν στο δείγμα εκπαίδευσης. Κλάδεμα Υπάρχουν δύο σημαντικές στρατηγικές κλαδέματος οι οποίες προτείνονται στο C4.5: 1. Με την αντικατάσταση υποδέντρου (subtree replacement), ένα υποδέντρο αντικαθίσταται από ένα φύλλο εάν αυτή η αντικατάσταση έχει σαν αποτέλεσμα ένα σφάλμα κοντά σε αυτό του αρχικού δένδρου. Η αντικατάσταση ενός υποδένδρου δουλεύει ξεκινώντας από το κάτω μέρος του δένδρου και βαίνοντας προς τη ρίζα. 2. Μία άλλη στρατηγική κλαδέματος, καλείται ανύψωση υποδέντρου (subtree raising), αντικαθιστά ένα υποδέντρο με το πιο χρησιμοποιημένο υποδέντρο του. Σε αυτήν την περίπτωση ένα υποδέντρο ανυψώνεται από την τρέχουσα θέση του σε ένα κόμβο που βρίσκεται υψηλότερα στο δένδρο. Και πάλι, πρέπει να καθοριστεί η αύξηση στη συχνότητα εμφάνισης λαθών για αυτήν την αντικατάσταση. Κανόνες Ο C4.5 επιτρέπει την κατηγοριοποίηση είτε μέσω δένδρων αποφάσεων είτε μέσω κανόνων οι οποίοι δημιουργούνται από αυτά. Επιπλέον, προτείνονται μερικές τεχνικές για την απλούστευση των πολύπλοκων

92 2 ο Κεφάλαιο Κατηγοριοποίηση 94 κανόνων. Μία προσέγγιση είναι η αντικατάσταση της αριστερής πλευράς ενός κανόνα από μία απλούστερη έκδοση εάν όλες οι εγγραφές του συνόλου εκπαίδευσης αντιμετωπίζονται με τον ίδιο τρόπο. Ένας «εναλλακτικού» τύπου κανόνας μπορεί να χρησιμοποιηθεί για να δείξει τι πρέπει να γίνει εάν κανένας άλλος κανόνας δεν μπορεί να εφαρμοστεί. Διάσπαση Η προσέγγιση που χρησιμοποιεί ο ID3 προτιμά γνωρίσματα με πολλές διαιρέσεις και έτσι μπορεί να οδηγήσει σε υπερπροσαρμογή. Στην πιο ακραία περίπτωση, ένα γνώρισμα, το οποίο έχει μία μοναδική τιμή για κάθε πλειάδα στο σύνολο εκπαίδευσης, θα ήταν το καλύτερο επειδή θα υπήρχε μόνο μία πλειάδα (και έτσι μόνο μία κατηγορία) για κάθε διαίρεση. Μία βελτίωση θα μπορούσε να γίνει εάν λαμβανόταν υπόψη η πληθικότητα της κάθε διαίρεσης. Ο C5.0 (ο οποίος ονομάζεται See 5 στα Windows) είναι μία εμπορική έκδοση του C4.5 ο οποίος χρησιμοποιείται εκτενέστατα σε πολλά πακέτα εξόρυξης γνώσης όπως το Clementine και RuleQuest. Ο προσανατολισμός του είναι προς τη χρήση μεγάλων συνόλων δεδομένων. Η επαγωγή του DT μοιάζει με αυτή του C4.5 αλλά η δημιουργία κανόνων είναι διαφορετική. Σε αντιδιαστολή με τον C4.5 οι ακριβείς αλγόριθμοι που χρησιμοποιούνται στον C5.0 δεν έχουν αποκαλυφθεί από τους δημιουργούς τους. Ο C5.0 πράγματι περιλαμβάνει βελτιώσεις στη δημιουργία των κανόνων. Τα αποτελέσματα δείχνουν ο C5.0 βελτιώνει τη χρήση της μνήμης κατά 90%, τρέχει μεταξύ 5.7 και 240 φορές n γρήγορα από τον C4.5 και παράγει πιο ακριβείς κανόνες. Μία πολύ σημαντική βελτίωση στην ακρίβεια του C5.0 βασίζεται στην ενίσχυση (boosting). Η ενίσχυση είναι μία προσέγγιση η οποία συνδυάζει διάφορους κατηγοριοποιητές. Παρόλο που η ενίσχυση κανονικά αυξάνει το χρόνο για το τρέξιμο ενός συγκεκριμένου κατηγοριοποιητή, βελτιώνει όμως την ακρίβεια. Το σφάλμα που προκύπτει q βρεθεί να είναι λιγότερο από το μισό αυτού που βρέθηκε για τον C4.5 σε μερικά σύνολα δεδομένων. Η ενίσχυση δε βοηθάει πάντα όταν τα δεδομένα εκπαίδευσης έχουν πολύ

93 2 ο Κεφάλαιο Κατηγοριοποίηση 95 θόρυβο. Η ενίσχυση λειτουργεί με τη δημιουργία πολλαπλών συνόλων εκπαίδευσης από ένα σύνολο εκπαίδευσης. Σε κάθε στοιχείο του συνόλου εκπαίδευσης αποδίδεται ένα βάρος. Το βάρος αυτό δείχνει το πόσο σημαντικό είναι το στοιχείο αυτό για την κατηγοριοποίηση. Ένας κατηγοριοποιητής δημιουργείται για κάθε συνδυασμό των βαρών χρησιμοποιούνται. Έτσι, στην πραγματικότητα δημιουργούνται πολλαπλοί κατηγοριοποιητές. Όταν ο C5.0 εκτελεί την κατηγοριοποίηση, κάθε κατηγοριοποιητής λαμβάνει ψήφο, η ψηφοφορία εκτελείται, και η εν λόγω πλειάδα εκχωρείται στην κατηγορία με τον μεγαλύτερο αριθμό των ψήφων SPRINT Το σύνολο των γνωρισμάτων προ-κατηγοριοποιούνται. Η κατηγοριοποίηση αυτή διατηρείται καθ' όλη τη διάρκεια του διαχωρισμού. Το δέντρο αποφάσεων αυξάνεται με μια κατά-εύρος μέθοδο και τα γνωρίσματα διαχωρίζονται μεταξύ των κόμβων. Η καθοριστική φάση του διαχωρισμού είναι μια γραμμική ανίχνευση των καταλόγων σε κάθε κόμβο και για το σκοπό αυτό χρησιμοποιείται ένα hashing σχήμα. Ακολουθούν τα κυριότερα μειονεκτήματα του αλγορίθμου: Το μέγεθος του hash πίνακα είναι συνήθως O N για τα επάνω επίπεδα του δέντρου. Αν ο hash πίνακας δεν χωράει στη μνήμη, γεγονός το οποίο είναι πολύ πιθανό για μεγάλες βάσεις δεδομένων, τότε διασπάται σε μικρότερα κομμάτια. Αυτό έχει σαν αποτέλεσμα πολλαπλά και ακριβά περάσματα εισόδου - εξόδου από ολόκληρη τη βάση δεδομένων.

94 2 ο Κεφάλαιο Κατηγοριοποίηση CART Τα δένδρα κατηγοριοποίησης και παλινδρόμησης (classification and regression tree CART) είναι μία τεχνική που δημιουργεί ένα δυαδικό δένδρο απόφασης. Όπως και με ID3, η εντροπία χρησιμοποιείται σαν μέτρο για την επιλογή του καλύτερου γνωρίσματος διάσπασης και του κριτηρίου τερματισμού. Σε αντιδιαστολή με τον ID3, ωστόσο. ένα παιδί δημιουργείται για κάθε υποκατηγορία, εδώ δημιουργούνται μόνο δύο παιδιά Η διάσπαση εκτελείται γύρω από εκείνο το σημείο που θεωρείται σαν το καλύτερο σημείο διάσπασης. Σε κάθε βήμα, γίνεται μια πλήρης αναζήτηση για να καθορίσει την καλύτερη διάσπαση, όπου η «καλύτερη» ορίζεται από m s / t 2PL PR PC j tl PC j tr j1 Αυτός ο τύπος υπολογίζεται στον τρέχοντα κόμβο t κα για κάθε πιθανό γνώρισμα διάσπασης και κριτήριο s. Τα L και R χρησιμοποιούνται για να υποδηλώσουν το αριστερό και το δεξιό υποδένδρο του τρέχοντα κόμβου του δένδρου. Οι PL και PR εκφράζουν την πιθανότητα μία πλειάδα του συνόλου εκπαίδευσης να ανήκει στην αριστερή ή στη δεξιά πλευρά του δένδρου. Αυτή ορίζεται σαν: πλειάδες του υποδέντρου πλειάδες του συνόλου εκπαίδευσης Υπάρχει η παραδοχή ότι, σε περίπτωση ισοπαλίας, ακολουθείται η δεξιά διακλάδωση. Η P C t j ) ή P C t ) J είναι η πιθανότητα μία πλειάδα να ανήκει ( L ( R σε αυτήν την κατηγορία C j και στο αριστερό ή στο δεξιό υποδένδρο. Αυτή ορίζεται ως : πλειάδες της κατηγορίας j στο υποδέντρο. πλειάδες στον κόμβο εξέτασης

95 2 ο Κεφάλαιο Κατηγοριοποίηση 97 Ο CART επιβάλει τη χρήση μιας διάταξης για τα γνωρίσματα. Ο CART διαχειρίζεται ελλιπή δεδομένα με το να αγνοήσει απλά εκείνη την εγγραφή στον υπολογισμό της ορθότητας της διάσπασης ενός γνωρίσματος. Η ανάπτυξη του δένδρου σταματά όταν δεν υπάρχει καμία διάσπαση που να μπορεί να βελτιώσει την απόδοση. Επιπλέον παρατηρείται ότι και εάν ακόμα αυτό είναι το καλύτερο για τα δεδομένα εκπαίδευσης, ίσως να μην είναι το καλύτερο για όλα τα πιθανά δεδομένα που θα προστεθούν στο μέλλον [9]. 2.6 Αλγόριθμοι Βασισμένοι σε Νευρωνικά Δίκτυα Μία άλλη προσέγγιση της κατηγοριοποίησης που χρησιμοποιείται σε πολλές εφαρμογές εξόρυξης γνώσης για πρόβλεψη (prediction) και κατηγοριοποίηση (classification) βασίζεται στα νευρωνικά δίκτυα. Οι μέθοδοι αυτή της προσέγγισης χρησιμοποιούν τα νευρωνικά δίκτυα για να κατασκευάσουν ένα μοντέλο κατηγοριοποίησης ή πρόβλεψης. Με τα νευρωνικά δίκτυα (ΝΝ), όπως και με τα δένδρα αποφάσεων, κατασκευάζεται ένα μοντέλο το οποίο αναπαριστά πώς κατηγοριοποιείται κάθε πλειάδα βάσης δεδομένων. Οι συναρτήσεις ενεργοποίησης συνήθως είναι σιγμοειδείς. Όταν μία εγγραφή πρέπει κατηγοριοποιηθεί, συγκεκριμένες τιμές από τα γνωρίσματα για αυτήν την εγγραφή δίνονται σαν είσοδοι στον κατευθυνόμενο γράφο στους αντίστοιχους κόμβους εισόδου. Συνήθως υπάρχει ένα κόμβος καταβόθρα για κάθε μία κατηγορία. Η τιμή της εξόδου που δημιουργείται δείχνει την πιθανότητα ότι η αντίστοιχη εγγραφή εισόδου ανήκει σε εκείνη την κατηγορία. Η εγγραφή στη συνέχεια θα εκχωρηθεί σε αυτήν την κατηγορία με την υψηλότερη πιθανότητα συμμετοχής. Η διαδικασία της μάθησης τροποποιεί τις τιμές των τόξων έτσι ώστε οι εγγραφές να κατηγοριοποιούνται καλύτερα. Με δεδομένη μία αρχική δομή και τιμή για όλες τις ετικέτες του γράφου, καθώς κάθε εγγραφή του συνόλου εκπαίδευσης διοχετεύεται μέσω του δικτύου, η κατηγοριοποίηση που γίνεται από το γράφο μπορεί να συγκριθεί με την πραγματική κατηγοριοποίηση. Με βάση την ακρίβεια της πρόβλεψης, μπορεί να αλλάξουν πολλές τιμές για τις ετικέτες στο

96 2 ο Κεφάλαιο Κατηγοριοποίηση 98 γράφο. Αυτή η διαδικασία της μάθησης συνεχίζει με όλα τα δεδομένα εκπαίδευσης ή μέχρι η ακρίβεια της κατηγοριοποίησης να είναι ικανοποιητική. Η επίλυση του προβλήματος της κατηγοριοποίησης, χρησιμοποιώντας ΝΝ περιλαμβάνει αρκετά βήματα: 1. Πρέπει να καθοριστεί ο αριθμός των κόμβων εξόδου, όπως επίσης ποια γνωρίσματα πρέπει να χρησιμοποιηθούν σαν είσοδος. Επίσης πρέπει να αποφασιστεί ο αριθμός των κρυμμένων στρωμάτων (μεταξύ των κόμβων πηγής και καταβόθρας). Αυτό το βήμα εκτελείται από έναν ειδικό του πεδίου εφαρμογής. 2. Πρέπει να καθοριστούν τα βάρη (ετικέτες) και των συναρτήσεων που θα χρησιμοποιηθούν για το γράφο. 3. Η κάθε πλειάδα από το σύνολο εκπαίδευσης πρέπει να μεταδοθεί μέσω του δικτύου και να αξιολογηθεί η πρόβλεψη της εξόδου ως προς το πραγματικό αποτέλεσμα. Εάν η πρόβλεψη είναι ακριβής, οι ετικέτες πρέπει να προσαρμοστούν για να είναι σίγουρο ότι αυτή η πρόβλεψη έχει υψηλότερο βάρος για την έξοδο την επόμενη φορά. Εάν η πρόβλεψη δεν είναι σωστή, τα βάρη πρέπει να προσαρμοστούν έτσι ώστε να δώσουν μία χαμηλότερη τιμή εξόδου για αυτήν την κατηγορία. 4. Για κάθε πλειάδα t i D, ή t i πρέπει να μεταδοθεί μέσα από το δίκτυο και να γίνει η κατάλληλη κατηγοριοποίηση. Υπάρχουν πολλά ζητήματα που πρέπει να εξεταστούν: Γνωρίσματα Συγκεκριμένα είναι ο αριθμός των κόμβων στην πηγή. Εξίσου αυτό είναι το ίδιο ζήτημα όπως ο καθορισμός των γνωρισμάτων που θα χρησιμοποιηθούν σαν γνωρίσματα διάσπασης.

97 2 ο Κεφάλαιο Κατηγοριοποίηση 99 Αριθμός των κρυμμένων στρωμάτων Στην απλούστερη περίπτωση υπάρχει μόνο ένα κρυμμένο στρώμα. Αριθμός των κρυμμένων κόμβων Η επιλογή του καλύτερου αριθμού των κρυμμένων κόμβων ανά κρυμμένο στρώμα είναι ένα από τα πιο δύσκολα προβλήματα, όταν χρησιμοποιηθούν ΝΝ. Έχουν γίνει πολλές εμπειρικές και θεωρητικές μελάτες οι οποίες προσπαθούν να απαντήσουν σε αυτήν την ερώτηση. Η απάντηση εξαρτάται από τη δομή του ΝΝ, τους τύπους των συναρτήσεων ενεργοποίησης, τον αλγόριθμο εκπαίδευσης και το πρόβλημα το οποίο λύνεται. Εάν χρησιμοποιηθούν πολύ λίγοι κρυμμένοι κόμβοι, η συνάρτηση ίσως και να μην μαθευτεί. Εάν από την άλλη μεριά χρησιμοποιηθούν πολλοί κόμβοι, τότε μπορεί να παρουσιαστεί υπερπροσαρμογή. Συχνά δίνονται εμπειρική κανόνες οι οποίοι βασίζονται στο μέγεθος του συνόλου εκπαίδευσης. Δεδομένα εκπαίδευσης Όπως με τα DT, με πάρα πολλά δεδομένα εκπαίδευσης το ΝΝ μπορεί να πάσχει από υπερπροσαρμογή, ενώ με πολύ λίγα δεδομένα μπορεί να μην είναι ικανό να κατηγοριοποιήσει με αρκετή ακρίβεια. Αριθμός των καταβοθρών Εάν και συνήθως υποτίθεται ότι ο αριθμός των κόμβων εξόδου είναι ο ίδιος με τον αριθμό των κατηγοριών, αυτό δε συμβαίνει πάντα στη πράξη. Για παράδειγμα, για δύο κατηγορίες θα μπορούσε να υπάρχει μόνο ένας κόμβος εξόδου, με την τιμή του αποτελέσματος να δείχνει την πιθανότητα της αντίστοιχης κατηγορίας. Αφαιρώντας αυτήν την τιμή από την μονάδα θα μπορούσε να παραχθεί η πιθανότητα για τη δεύτερη κατηγορία. Διασυνδέσεις Στην απλούστερη περίπτωση, κάθε κόμβος συνδέεται με όλους τους κόμβους του επόμενου επιπέδου.

98 2 ο Κεφάλαιο Κατηγοριοποίηση 100 Βάρη Το βάρος που εκχωρείται σε ένα τόξο δείχνει το σχετικό βάρος μεταξύ των κόμβων που συνδέει. Τα αρχικά βάρη συνήθως υποτίθενται ότι είναι μικροί θετικοί αριθμοί και συνήθως εκχωρούνται τυχαία. Συναρτήσεις ενεργοποίησης Μπορούν να χρησιμοποιηθούν πολλοί διαφορετικοί τύποι συναρτήσεων ενεργοποίησης. Τεχνική μάθησης Η τεχνική που χρησιμοποιείται για τον καθορισμό των βαρών καλείται τεχνική μάθησης. Εάν και πολλές προσεγγίσεις μπορούν να χρησιμοποιηθούν, η πιο κοινή προσέγγιση είναι κάποια μορφή της οπισθοδιάδοσης (backpropagation). Τερματισμός Η μάθηση μπορεί να τερματιστεί είτε όταν όλες οι πλειάδες του συνόλου εκπαίδευσης έχουν διαδοθεί μέσω του δικτύου, είτε χρησιμοποιώντας κάποιες ενδείξεις του χρόνου ή του ρυθμού εμφάνισης λαθών. Υπάρχουν πολλά πλεονεκτήματα για τη χρήση των ΝΝ στην κατηγοριοποίηση: Τα ΝΝ είναι πιο ισχυρά από τα DT εξαιτίας της χρήσης των βαρών. Το ΝΝ βελτιώνει την απόδοση του με τη μάθηση. Αυτό μπορεί να συνεχιστεί ακόμα και μετά την εφαρμογή του συνόλου εκπαίδευσης. Η χρήση ΝΝ μπορεί να παραλληλοποιηθεί για καλύτερη απόδοση. Υπάρχει χαμηλό σφάλμα και επομένως υψηλός βαθμός ακρίβειας, εφόσον έχει εφαρμοστεί το κατάλληλο σύνολο εκπαίδευσης.

99 2 ο Κεφάλαιο Κατηγοριοποίηση 101 Τα ΝΝ είναι περισσότερο εύρωστα από τα DT σε περιβάλλοντα που υπάρχει θόρυβος. Από την άλλη πλευρά τα Νευρωνικά Δίκτυα παρουσιάζουν αρκετά μειονεκτήματα: Τα ΝΝ είναι δύσκολα στην κατανόηση. Μη ειδικοί χρήστες μπορεί να έχουν δυσκολία στο να καταλάβουν πως δουλεύουν τα ΝΝ. Ενώ είναι εύκολο να εξηγηθούν τα δένδρα αποφάσεων, τα ΝΝ είναι πολύ πιο δύσκολο να εξηγηθούν. Η δημιουργία κανόνων από τα ΝΝ δεν είναι εύκολη υπόθεση. Οι τιμές των γνωρισμάτων εισόδου πρέπει να είναι αριθμητικές. Δοκιμές. Επαλήθευση. Όπως και με τα DT, μπορεί να παρουσιαστεί υπερπροσαρμογή. Η φάση της μάθησης μπορεί να αποτύχει να συγκλίνει. Τα ΝΝ μπορεί να είναι αρκετά ακριβά στη χρήση τους. Τα νευρωνικά δίκτυα αποτελούνται από «νευρώνες» με βάση τη νευρωνική δομή του εγκεφάλου. Επεξεργάζονται τα στοιχεία ένα κάθε φορά και «μαθαίνουν» συγκρίνοντας την κατηγοριοποίηση τους για μία εγγραφή (που, στην έναρξη, είναι κατά ένα μεγάλο μέρος αυθαίρετη) με τη γνωστή πραγματική κατηγοριοποίηση της εγγραφής. Τα λάθη από την αρχική κατηγοριοποίηση της πρώτης εγγραφής επανατροφοδοτούνται στο δίκτυο, και χρησιμοποιούνται για να τροποποιήσουν τον αλγόριθμο δικτύων τη δεύτερη φορά. Η διαδικασία αυτή συνεχίζεται επαναληπτικά.

100 2 ο Κεφάλαιο Κατηγοριοποίηση 102 Γενικά, ένας νευρώνας σε ένα τεχνητό νευρωνικό δίκτυο είναι: I. Ένα σύνολο εισερχόμενων τιμών ( x i ) και συσχετιζόμενων βαρών ( w ). i II. Μια συνάρτηση (g) που αθροίζει τα βάρη και αντιστοιχεί τα αποτελέσματα σε μια έξοδο (y). Είσοδος Κρυμμένο Επίπεδο Νευρώνων Έξοδος Σχήμα 2.12 Επίπεδα Νευρωνικού Δικτύου Οι νευρώνες οργανώνονται σε επίπεδα όπως στο παραπάνω Σχήμα Το επίπεδο εισαγωγής αποτελείται όχι από τους πλήρεις νευρώνες, αλλά συνίσταται απλά από τιμές ενός στοιχείου του συνόλου δεδομένων, οι οποίες αποτελούν τις εισαγωγές στο επόμενο επίπεδο καλείται κρυμμένο επίπεδο (hidden layer). Μπορούν να υπάρξουν διάφορα κρυμμένα επίπεδα (hidden layers). Το τελευταίο επίπεδο είναι η έξοδος, όπου υπάρχει ένας κόμβος για κάθε κατηγορία. Μία μόνο σάρωση προς τα εμπρός του δικτύου οδηγεί στην ανάθεση μιας τιμής σα κάθε κόμβο εξόδου, και η εγγραφή ανατίθεται στον κόμβο της κατηγορίας που έχει την υψηλότερη τιμή.

101 2 ο Κεφάλαιο Κατηγοριοποίηση Δίκτυα Συνάρτησης Ακτινικής Βάσης Μία ακτινική συνάρτηση ή συνάρτηση ακτινικής βάσης (Radial Basis Function RBF) είναι μια κατηγορία συναρτήσεων των οποίων η τιμή μειώνεται (ή αυξάνεται) με την απόσταση από ένα κεντρικό σημείο. Μία RBF έχει το σχήμα της συνάρτησης Gauss και ένα RBF δίκτυο είναι συνήθως ένα NN με τρία στρώματα. Το στρώμα εισόδου χρησιμοποιείται απλά για να εισάγει τα δεδομένα. Μία συνάρτηση ενεργοποίησης του Gauss χρησιμοποιείται στο κρυμμένο στρώμα, ενώ μία γραμμική συνάρτηση ενεργοποίησης χρησιμοποιείται στο στρώμα εξόδου. Ο στόχος είναι οι κρυμμένοι κόμβου να μαθαίνουν να αποκρίνονται μόνο σε ένα υποσύνολο της εισόδου, εκείνο στο οποίο η συνάρτηση του Gauss είναι κεντραρισμένη. Αυτό συνήθως επιτυγχάνεται μέσω της εποπτευόμενης μάθησης. Όταν χρησιμοποιούνται συναρτήσεις RBF σαν συναρτήσεις ενεργοποίησης στο κρυμμένο στρώμα, οι κόμβοι μπορεί να είναι ευαίσθητοι σε ένα υποσύνολο των τιμών [5]. Το σχήμα 2.13 δείχνει τη βασική δομή μίας μονάδας RBF με ένα κόμβο εξόδου. Σχήμα 2.13 Δίκτυο Συνάρτησης Ακτινικής Βάσης

102 2 ο Κεφάλαιο Κατηγοριοποίηση Νευρωνικά Δίκτυα Perceptron Το απλούστερο ΝΝ ονομάζεται perceptron. Ένα perceptron είναι ένας νευρώνας με πολλαπλές εισόδους και μία έξοδο. Το πρώτο perceptron πρότεινε τη χρήση μίας συνάρτησης ενεργοποίησης βήματος, αλλά είναι πιο κοινό να δοθεί ένας άλλος τύπος συνάρτησης όπως τη σιγμοειδή συνάρτηση. Ένα απλό perceptron μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση σε δύο κατηγορίες. Χρησιμοποιώντας μία μονοπολική συνάρτηση ενεργοποίησης, η Έξοδος 1 θα χρησιμοποιηθεί για να κατηγοριοποιήσει τη μία κατηγορία, ενώ η Έξοδος 0 θα χρησιμοποιηθεί για την άλλη κατηγορία. Στο παρακάτω παράδειγμα παρουσιάζεται αυτή η διαδικασία. Παράδειγμα 2.7 Το Σχήμα 2.14 (α) απεικονίζει ένα perceptron με δύο εισόδους και μια είσοδο με μεροληψία. Τα τρία βάρη είναι 3,2 και -6 αντίστοιχα. Η συνάρτηση ενεργοποίησης f 4 είναι αυτή που εφαρμόζεται στην τιμή S x 2x 6. Με τη χρησιμοποίηση μιας απλής συνάρτησης ενεργοποίησης μονοπολικού βήματος, προκύπτει f 4 1 εάν S 0 0 αλλιώς Ένας εναλλακτικός τρόπος αντιμετώπισης του προβλήματος κατηγοριοποίησης παρουσιάζεται στο Σχήμα 2.14 (β). Το x 1 βρίσκεται στον οριζόντιο άξονα ενώ το x 2 στον κάθετο άξονα. Η περιοχή του επιπέδου στα δεξιά της ευθείας x2 3 3/ 2x1 αποτελεί τη μια κατηγορία ενώ το υπόλοιπο κομμάτι είναι η δεύτερη κατηγορία.

103 2 ο Κεφάλαιο Κατηγοριοποίηση 105 Σχήμα 2.14 Κατηγοριοποίηση Perceptron Το ΝΝ απλής τροφοδότησης ονομάζεται στη πραγματικότητα perceptron πολλαπλών στρωμάτων (MultiLayer Perceptron MLP) Ένα MLP είναι ένα δίκτυο perceptrons. Οι νευρώνες είναι τοποθετημένοι σε στρώματα με εξόδους που πάντα ρέουν προς το στρώμα της εξόδου. Εάν υπάρχει μόνο ένα στρώμα, αυτό είναι perceptron. Εάν υπάρχουν πολλαπλά στρώματα, τότε υπάρχει MLP. Στην δεκαετία του 1950 ένας Ρώσος μαθηματικός, ο Audrey Kolmogorov, απέδειξε ότι ένα MLP δε χρειάζεται παραπάνω από δύο κρυμμένα στρώματα. Το θεώρημα Kolmogorov δηλώνει ότι μία απεικόνιση, ανάμεσα σε δύο σύνολα από αριθμούς, μπορεί να πραγματοποιηθεί χρησιμοποιώντας ένα ΝΝ με ένα μόνο κρυμμένο στρώμα. Σε αυτήν την περίπτωση, το ΝΝ πρέπει να έχει έναν κόμβο εισόδου για κάθε γνώρισμα εισόδου, και με δεδομένα n γνωρίσματα εισόδου το κρυμμένο στρώμα πρέπει να έχει 2n 1 κόμβους, όπου ο καθένας δέχεται είσοδο από όλους τους κόμβους εισόδου. Το στρώμα εξόδου έχει έναν κόμβο για κάθε επιθυμητή τιμή εξόδου. 2.7 Αλγόριθμοι Βασισμένοι σε Κανόνες Ένας ακριβής τρόπος για να πραγματοποιηθεί η κατηγοριοποίηση είναι να δημιουργηθούν if then κανόνες οι οποίες καλύπτουν όλες τις περιπτώσεις.

104 2 ο Κεφάλαιο Κατηγοριοποίηση 106 Για παράδειγμα, θα μπορούσαν να υπάρχουν οι παρακάτω κανόνες για να οριστεί η κατηγοριοποίηση βαθμών. If 90 Βαθμός, then Κατηγορία = A If 80 Βαθμός 90, then Κατηγορία = B If 70 Βαθμός 80, then Κατηγορία = C If 60 Βαθμός 70, then Κατηγορία = D If Βαθμός 60, then Κατηγορία = F Ένας κανόνας κατηγοριοποίησης (classification rule), r a, c, αποτελείται από το if ή αλλιώς πρότερο τμήμα (antecedent), a, και από το then ή το επακόλουθο τμήμα (consequent), c. Η υπόθεση περιέχει ένα κατηγόρημα το οποίο μπορεί να αξιολογηθεί σαν αληθές ή -ψευδές ως προς κάθε πλειάδα στη βάση δεδομένων (και προφανώς ως προς τα δεδομένα εκπαίδευσης). Αυτοί οι κανόνες σχετίζονται άμεσα με το αντίστοιχο DT που θα μπορούσε να δημιουργηθεί, θα μπορούσε να χρησιμοποιηθεί ένα DT για να δημιουργήσει κανόνες, αλλά οι κανόνες δεν είναι ισοδύναμοι με το δένδρο. Υπάρχουν διαφορές ανάμεσα σα στους κανόνες και στα δένδρα: Το δένδρο υπονοεί μια σειρά με την οποία πραγματοποιείται η διάσπαση. Οι κανόνες δεν έχουν σειρά. Ένα δένδρο δημιουργείται κοιτώντας σε όλες τις κατηγορίες. Όταν δημιουργούν κανόνες, μόνο μία κατηγορία πρέπει να εξετάζεται κάθε φορά. Υπάρχουν αλγόριθμοι οι οποίοι δημιουργούν κανόνες από δένδρα όπως επίσης υπάρχουν και αλγόριθμοι που δημιουργούν κανόνες χωρίς να δημιουργήσουν πρώτα DT.

105 2 ο Κεφάλαιο Κατηγοριοποίηση Δημιουργία Κανόνων από ένα Δένδρο Απόφασης Η διαδικασία της δημιουργίας ενός κανόνα από ένα DT είναι άμεση και περιγράφεται τον παρακάτω αλγόριθμο. Αυτός ο αλγόριθμος θα δημιουργήσει έναν κανόνα για κάθε φύλλο στο δένδρο απόφασης. Όλοι οι κανόνες που έχουν το ίδιο επακόλουθο μπορούν να συνδυαστούν εκτελώντας την πράξη του λογικού OR στα πρότερα τμήματα των κανόνων. Αλγόριθμος Gen Input: T // Decision tree Output: R // rules Gen algorithm: // Illustrate simple approach to generating classification rules from a DT R=Ø; for each path from root to leaf in T do a=true for each non-leaf node do a=a (label of node combined with label of incident outgoing arc) c=label of leaf node R=R r=<a,c> Δημιουργία Κανόνων από ένα Νευρωνικό Δίκτυο Για να αυξηθεί η κατανόηση ενός ΝΝ, μπορεί να παραχθούν κανόνες κατηγοριοποίησης από αυτό. Ενώ το αρχικό ΝΝ μπορεί ακόμα να χρησιμοποιηθεί για κατηγοριοποίηση, οι παραγόμενοι κανόνες μπορεί να χρησιμοποιηθούν για να βεβαιώσουν ή να ερμηνεύσουν το δίκτυο. Το πρόβλημα είναι ότι οι κανόνες δεν υπάρχουν στην πραγματικότητα. Είναι κρυμμένοι στη δομή του ίδιου του γράφου. Επιπλέον, εάν πραγματοποιείται

106 2 ο Κεφάλαιο Κατηγοριοποίηση 108 ταυτόχρονα και μάθηση, οι κανόνες οι ίδιοι είναι δυναμικοί. Οι κανόνες που δημιουργούνται τείνουν να είναι και περισσότερο λιτοί και να έχουν χαμηλότερο σφάλμα από εκείνο που έχουν οι κανόνες που χρησιμοποιούνται με τα DT. Η βασική ιδέα του RX αλγόριθμου είναι να ομαδοποιήσει τις τιμές εξόδου με τους συσχετισμένους κρυμμένους κόμβους και την είσοδο. Ένα βασικό πρόβλημα με την εξαγωγή κανόνων είναι το πιθανό μέγεθος που πρέπει να έχουν αυτοί οι κανόνες. Για παράδειγμα, εάν υπάρχει ένας κόμβος με n εισόδους, όπου η καθεμία έχει 5 τιμές, υπάρχουν 5n διαφορετικοί συνδυασμοί εισόδων μόνο για αυτόν τον κόμβο. Αυτά τα πρότυπα θα πρέπει να ληφθούν όλα υπόψη όταν δημιουργούνται κανόνες. Για να ξεπεραστεί αυτό το πρόβλημα, καθώς και εκείνο του να υπάρχουν συνεχή διαστήματα τιμών εξόδου από τους κόμβους, οι τιμές εξόδου τόσο από τα κρυμμένα στρώματα όσο και από τα στρώματα εξόδου πρώτα διακριτοποιούνται. Αυτό κατορθώνεται με το να ομαδοποιούνται οι τιμές και με το να χωρίζονται οι συνεχείς τιμές σε μη επικαλυπτόμενα διαστήματα. Ο αλγόριθμος εξαγωγής κανόνων, RX είναι ο ακόλουθος [14]: Αλγόριθμος RX Input: D // Training data N // initial neural network Output: R // Derived rules RX algorithm: // rule extraction algorithm to extract rules from NN cluster output node activation values; cluster hidden node activation values; generate rules that describe the output values in terms of the hidden activation values; generate rules that describe hidden output values in terms of inputs; combine the two sets of rules.

107 2 ο Κεφάλαιο Κατηγοριοποίηση Δημιουργία Κανόνων χωρίς DT ή NN Αυτές οι τεχνικές ονομάζονται και αλγόριθμοι κάλυψης (covering) επειδή προσπαθούν να δημιουργήσουν κανόνες έτσι ώστε να καλύψουν μία συγκεκριμένη κατηγορία [15]. Οι αλγόριθμοι δημιουργίας δένδρων λειτουργούν με μία από πάνω προς τα κάτω προσέγγιση τύπου "διαίρει και βασίλευε", αλλά κάτι αντίστοιχο δε χρειάζεται για τους αλγόριθμους κάλυψης. Αυτοί δημιουργούν τον καλύτερο δυνατό κανόνα με τη βελτιστοποίηση της επιθυμητής πιθανότητας κατηγοριοποίησης. Συνήθως επιλέγεται το «καλύτερο» ζευγάρι γνωρίσματος - τιμής, αντίθετα από την επιλογή του καλύτερου γνωρίσματος που λαμβάνει χώρα σε αλγορίθμους βασισμένους σε δένδρα. Ας γίνει υπόθεση ότι πρέπει να δημιουργηθεί ένας κανόνας για να κατηγοριοποιήσει τα ψηλά άτομα. Ο βασικός τύπος για αυτόν τον κανόνα είναι επομένως If? then class = tall Ο αντικειμενικός σκοπός για τους αλγορίθμους κάλυψης είναι η αντικατάσταση του «?» στην παραπάνω πρόταση με κατηγορήματα τα οποία μπορούν να χρησιμοποιηθούν για λάβουμε την «καλύτερη» πιθανότητα του να είναι κάποιος ψηλός. Μία απλή προσέγγιση καλείται 1R επειδή δημιουργεί ένα απλό σύνολο από κανόνες που είναι ισοδύναμοι με ένα DT που έχει μόνο ένα επίπεδο. Η βασική ιδέα είναι η επιλογή του καλύτερου γνωρίσματος για την εκτέλεση της κατηγοριοποίησης με βάση τα δεδομένα εκπαίδευσης. Το «καλύτερο» ορίζεται εδώ από το μέτρημα του αριθμού των σφαλμάτων. Στον Πίνακα 2.5 παρουσιάζεται αυτή η προσέγγιση χρησιμοποιώντας την τιμή Έξοδος 1 για το παράδειγμα του ύψους

108 2 ο Κεφάλαιο Κατηγοριοποίηση 110 Πίνακας 2.5 Κατηγοριοποίηση 1R Επιλογή Γνώρισμα Κανόνες Σφάλματα 1 Gender Γ Μέτριο Ανάστημα 3/9 Α Ψηλό Ανάστημα 3/6 (0,1.6] Κοντό Ανάστημα 0/2 (1.6,1.7] Κοντό Ανάστημα 0/2 2 Height (1.7,1.8] Μέτριο Ανάστημα 0/3 (1.8,1.9] Μέτριο Ανάστημα 0/4 (1.9,2.0] Μέτριο Ανάστημα 1/2 (2.0, ] Ψηλό Ανάστημα 0/2 Συνολικά Σφάλματα 6/15 1/15 Εάν χρησιμοποιηθεί μόνο το γνώρισμα φύλο, υπάρχει ένα σύνολο από 6/15 σφάλματα, ενώ εάν χρησιμοποιηθεί το γνώρισμα ύψος, υπάρχουν μόνο 1/15. Έτσι, θα επιλεγεί το ύψος και θα χρησιμοποιηθούν οι έξι κανόνες, που παρουσιάζονται στον πίνακα. Όπως και με τον ID3, ο 1R τείνει να επιλέγει γνωρίσματα με ένα μεγάλο αριθμό από τιμές οδηγώντας έτσι σε υπερπροσαρμογή. Ο 1R μπορεί να χειριστεί ελλιπή δεδομένο, προσθέτοντας μία επιπλέον τιμή για το γνώρισμα, δηλαδή την τιμή missing. Παρακάτω περιγράφεται αυτός ο αλγόριθμος [15]. Αλγόριθμος 1R Input: D // Training data R // Attributes to consider for rules C // Classes Output: R // Rules 1R algorithm: // 1R algorithm generates rules based on one attribute R=Ø; for each AR do

109 2 ο Κεφάλαιο Κατηγοριοποίηση 111 R A = Ø; for each possible value, v,of A do // v may be a range rather than a specific value for each C j C find count(c j ); // Here count is the number of occurrences of this class for this attribute Let C m be the class with the largest count; R A =R A ((A=v) (class=c m )); ERR A =number of tuples incorrectly classified by RA; R=RA where ERRA is minimum; 2.8 Συνδυαστικές Τεχνικές Με δεδομένο ένα πρόβλημα κατηγοριοποίησης, δεν υπάρχει τεχνική κατηγοριοποίησης που να δίνει πάντα τα καλύτερα αποτελέσματα. Για αυτό το λόγο, έχουν γίνει κάποιες προτάσεις οι οποίες κοιτάζουν το συνδυασμό των τεχνικών. Δύο βασικές τεχνικές μπορούν να χρησιμοποιηθούν για να το επιτύχουν. 1) Μία σύνθεση από προσεγγίσεις λαμβάνει πολλαπλές τεχνικές και τις αφομοιώνει σε μία νέα τεχνική. Ένα παράδειγμα αυτής της προσέγγισης θα ήταν η χρησιμοποίηση μίας τεχνικής πρόβλεψης, όπως η γραμμική παλινδρόμηση για την πρόβλεψη μιας μελλοντικής τιμής για ένα γνώρισμα το οποίο στην συνέχεια χρησιμοποιείται σαν είσοδος σε ένα ΝΝ για κατηγοριοποίηση. Με αυτόν τον τρόπο το ΝΝ χρησιμοποιείται για να προβλέψει μία μελλοντική τιμή κατηγοριοποίησης. 2) Πολλαπλές ανεξάρτητες τεχνικές μπορούν να εφαρμοστούν σε ένα πρόβλημα κατηγοριοποίησης, κάθε μία δίνοντας τη δική της πρόβλεψη για την κατηγορία. Τα αποτελέσματα αυτών των ξεχωριστών τεχνικών μπορούν στη συνέχεια να συνδυαστούν με κάποιο τρόπο. Αυτή η προσέγγιση είναι γνωστή με το όνομα συνδυασμός πολλαπλών

110 2 ο Κεφάλαιο Κατηγοριοποίηση 112 κατηγοριοποιητών (Combination of Multiple Classifiers CMC). Μία προσέγγιση για το συνδυασμό ανεξάρτητων κατηγοριοποιητών υποθέτει την ύπαρξη n ανεξάρτητων κατηγοριοποιητών όπου κάθε ένας από τους οποίους δημιουργεί εκ των υστέρων πιθανότητα P C t ) για κάθε κατηγορία. k ( j i Οι τιμές συνδυάζονται με ένα γραμμικό σταθμισμένο συνδυασμό n k1 w P( C k j t ) i Εδώ τα βάρη, w k, μπορεί να εκχωρηθούν από έναν χρήστη ή να μαθευτούν με βάση προηγούμενη ακρίβεια του κάθε κατηγοριοποιητή. Μία άλλη τεχνική είναι να επιλεχτεί ο κατηγοριοποιητής ο οποίος έχει την καλύτερη ακρίβεια σε ένα δείγμα της βάσης δεδομένων. Αυτό είναι γνωστό σαν δυναμική επιλογή κατηγοριοποιητή (Dynamic Classifier Selection DCS). Μία άλλη παραλλαγή αυτής της μεθόδου είναι η απλή ψηφοφορία: η πλειάδα εκχωρείται σε εκείνη την κατηγορία στην οποία την έχει εκχωρήσει η πλειοψηφία των κατηγοριοποιητών. Αυτό θα πρέπει να τροποποιηθεί ελαφρώς στην περίπτωση που υπάρχουν πολλές κατηγορίες και δεν υπάρχει πλειοψηφία. Πρόσφατα προτάθηκε μία νέα τεχνική CMC με το όνομα προσαρμοστικός συνδυασμός κατηγοριοποιητών (Adaptive Classifier Combination ACC) [16]. Με δεδομένη μία πλειάδα για κατηγοριοποίηση, πρώτα καθαρίζεται η γειτονιά γύρω από αυτήν, στην συνέχεια κατηγοριοποιούνται οι πλειάδες σε αυτή τη γειτονιά με κάθε κατηγοριοποιητή, και τελικά μετράτε η ακρίβεια για κάθε κατηγορία. Εξετάζοντας την ακρίβεια ως προς όλους τους κατηγοριοποιητές για κάθε κατηγορία, η πλειάδα τοποθετείται σε εκείνη την κατηγορία η οποία έχει την υψηλότερη τοπική ακρίβεια. Στην ουσία, η κατηγορία που επιλέγεται είναι εκείνη στην οποία οι περισσότεροι από τους γείτονες έχουν κατηγοριοποιηθεί ορθά, ανεξάρτητα του κατηγοριοποιητή.

111 3 ο Κεφάλαιο Συσταδοποίηση 3.1 Εισαγωγή H συσταδοποίηση (clustering) είναι μία από τις πιο χρήσιμες διεργασίες στην διαδικασία εξόρυξης γνώσης για την ανακάλυψη συστάδων και για τον προσδιορισμό κατανομών ή προτύπων (patterns) που παρουσιάζουν ενδιαφέρον στα υπό μελέτη δεδομένα. Το πρόβλημα της συσταδοποίησης σχετίζεται με την τμηματοποίηση (partitioning) ενός συνόλου δεδομένων σε συστάδες έτσι ώστε τα στοιχεία του συνόλου των δεδομένων που ανήκουν σε μία συστάδα να είναι περισσότερο όμοια μεταξύ τους από ότι είναι με τα στοιχεία των άλλων συστάδων [17]. Επίσης η συσταδοποίηση (clustering) είναι παρόμοια με την κατηγοριοποίηση καθώς και στις δύο περιπτώσεις τα δεδομένα οργανώνονται σε ομάδες. Στη συσταδοποίηση, ωστόσο, σε αντίθεση με την κατηγοριοποίηση, οι ομάδες δεν είναι προκαθορισμένες. Η συσταδοποίηση επιτυγχάνεται βρίσκοντας ομοιότητες μεταξύ των δεδομένων βάσει των χαρακτηριστικών που υπάρχουν σε αυτά. Οι ομάδες αυτές ονομάζονται συστάδες (clusters). Μερικοί θεωρούν ότι η συσταδοποίηση είναι μια ειδική μορφή κατηγοριοποίησης. Μερικοί ορισμοί είναι η εξής:

112 3 ο Κεφάλαιο Συσταδοποίηση 113 Σύνολο όμοιων στοιχειών. Στοιχεία διαφορετικών συστάδων δεν είναι όμοια. Η απόσταση μεταξύ των σημείων κάποιας συστάδας είναι μικρότερη από την στάση μεταξύ ενός σημείου της συστάδας και οποιουδήποτε σημείου έκτος της συστάδας Παρεμφερής έννοια της συσταδοποίησης είναι και η έννοια τη δεδομένων (database segmentation), όπου παρόμοιες εγγραφές της βάσης δεδομένων ομαδοποιούνται στο ίδιο τμήμα. Αυτό γίνεται προκειμένου η βάση δεδομένων να διαιρεθεί ή να κατατμηθεί σε συστατικά που δίνουν εν συνεχεία στο χρήστη μια πιο γενική εικόνα δεδομένων. Η συσταδοποίηση μπορεί να βρεθεί με διαφορετικά ονόματα σε διαφορετικά πεδία, όπως μη εποπτευόμενη μάθηση (unsupervised learning) στην αναγνώριση προτύπων, αριθμητική ταξονομία (numerical taxonomy) στην βιολογία, οικολογία, τυπολογία (typology) στις κοινωνικές επιστήμες και τμηματοποίηση (partition) στη θεωρία των γράφων [18]. Στη διαδικασία της συσταδοποίησης δεν υπάρχουν προκαθορισμένες κατηγορίες ούτε κάποιο παράδειγμα που θα έδειχνε ποιες επιθυμητές σχέσεις θα ήταν έγκυρες μεταξύ των δεδομένων. Για το λόγο αυτό είναι γνωστή ως διαδικασία μη εποπτευόμενης μάθησης. Από την άλλη πλευρά, η κατηγοριοποίηση είναι μια διαδικασία ανάθεσης ενός αντικειμένου από το σύνολο των δεδομένων σε μία προκαθορισμένη κατηγορία. Η συσταδοποίηση παράγει τις αρχικές κατηγορίες στις οποίες οι τιμές ενός συνόλου δεδομένων μπορούν να κατηγοριοποιηθούν κατά την διαδικασία της κατηγοριοποίησης. Η διαδικασία συσταδοποίησης μπορεί να οδηγήσει σε διαφορετικές τμηματοποιήσεις ενός συνόλου δεδομένων, ανάλογα με το κριτήριο που χρησιμοποιείται για την συσταδοποίηση. Κατά συνέπεια, υπάρχει ανάγκη προεπεξεργασίας των δεδομένων προτού να εφαρμοστεί η διεργασία της συσταδοποίησης σε ένα σύνολο δεδομένων [1]. Βασικά χαρακτηριστικά της συσταδοποίησης που έρχονται σε αντίθεση με την κατηγοριοποίηση:

113 3 ο Κεφάλαιο Συσταδοποίηση 114 Ο (βέλτιστος) αριθμός συστάδων δεν είναι γνωστός. Μπορεί να μην υπάρχει καμία εκ των προτέρων γνώση σχετικά με τις συστάδες. Τα αποτελέσματα των συστάδων είναι δυναμικά. 3.2 Διαδικασία Συσταδοποίησης Τα βασικά βήματα για την ανάπτυξη της διαδικασίας της συσταδοποίησης συνοψίζονται στα εξής [1]: 1. Επιλογή χαρακτηριστικών γνωρισμάτων. Ο στόχος είναι να επιλεχτούν κατάλληλα τα γνωρίσματα στα οποία πρόκειται να εφαρμοστεί η συσταδοποίηση ώστε να κωδικοποιηθεί όσο το δυνατόν περισσότερη πληροφορία σχετικά με την εργασία που μας ενδιαφέρει. Κατά συνέπεια, η προεπεξεργασία των δεδομένων μπορεί να είναι απαραίτητη πριν από τη χρησιμοποίηση τους στην διαδικασία της συσταδοποίησης. 2. Αλγόριθμος συσταδοποίησης. Αυτό το βήμα αναφέρεται στην επιλογή ενός αλγορίθμου που οδηγεί στον καθορισμό ενός καλού σχήματος συσταδοποίησης (clustering scheme) για ένα σύνολο δεδομένων. Το μέτρο γειτνίασης και το κριτήριο συσταδοποίησης που θα χρησιμοποιηθούν χαρακτηρίζουν ουσιαστικά τον αλγόριθμο συσταδοποίησης καθώς και τη δυνατότητα του να καθορίσει ένα σχήμα συσταδοποίησης που να ταιριάζει στο σύνολο δεδομένων. Συνεπώς το βήμα αυτό βασίζεται στα εξής:

114 3 ο Κεφάλαιο Συσταδοποίηση 115 Στο μέτρο γειτνίασης (proxitity measure) το οποίο προσδιορίζει πόσο «όμοια» είναι δύο αντικείμενα (δηλαδή διανύσματα γνωρισμάτων). Στις περισσότερες από τις περιπτώσεις πρέπει να εξασφαλίσουμε ότι όλα τα επιλεγμένα γνωρίσματα συμβάλλουν εξίσου στον υπολογισμό του μέτρου εγγύτητας και δεν υπάρχει κανένα γνώρισμα που να υπερισχύει των άλλων. Κριτήριο συσταδοποίησης. Σε αυτό το βήμα, πρέπει να καθορίσουμε το κριτήριο συσταδοποίησης το οποίο μπορεί να εκφραστεί μέσω μιας συνάρτησης κόστους ή κάποιου άλλου τύπου κανόνων. Πρέπει να τονίσουμε ότι πρέπει να λάβουμε υπόψη τον τύπο των συστάδων που αναμένονται να εμφανιστούν στο σύνολο δεδομένων. Κατά συνέπεια, πρέπει να καθορίσουμε «ένα καλό» κριτήριο συσταδοποίησης που να οδηγεί σε μία τμηματοποίηση που να ταιριάζει καλά στο σύνολο δεδομένων. 3. Επικύρωση αποτελεσμάτων. Η ακρίβεια των αποτελεσμάτων του αλγορίθμου συσταδοποίησης εξακριβώνεται χρησιμοποιώντας τα κατάλληλα κριτήρια και τεχνικές. Εφόσον οι αλγόριθμοι συσταδοποίησης καθορίζουν τις συστάδες που δεν είναι γνωστές εκ των προτέρων, ανεξάρτητα από τις μεθόδους συσταδοποίησης, η τελική τμηματοποίηση των δεδομένων απαιτεί κάποιου είδους αξιολόγηση στις περισσότερες εφαρμογές [19]. 4. Ερμηνεία των αποτελεσμάτων. Σε πολλές περιπτώσεις, οι εμπειρογνώμονες στην περιοχή της εφαρμογής που αναφέρεται η συσταδοποίηση πρέπει να ενσωματώσουν τα αποτελέσματα της συσταδοποίησης με αλλά πειραματικά στοιχεία καθώς και αποτελέσματα προηγούμενης ανάλυσης των υπό μελέτη στοιχείων, προκειμένου να προκύψει το σωστό συμπέρασμα.

115 3 ο Κεφάλαιο Συσταδοποίηση 116 Σχήμα 3.1 Διαδικασία Συσταδοποίησης 3.3 Εφαρμογές Συσταδοποίησης Η συσταδοποίηση είναι ένα σημαντικό εργαλείο με ποικίλες εφαρμογές σε πολλά πεδία τόσο στο χώρο των επιστημών όσο και των επιχειρήσεων. Μερικά από τα πεδία εφαρμογής της συσταδοποίησης είναι [7]: Μείωση δεδομένων Η συσταδοποίηση μπορεί να συμβάλει στη συμπίεση της πληροφορίας των δεδομένων. Σε διάφορες περιπτώσεις, το ποσό των διαθέσιμων δεδομένων είναι πολύ μεγάλο και η επεξεργασία τους γίνεται πολύ απαιτητική. Η συσταδοποίηση μπορεί να χρησιμοποιηθεί για το χωρισμό του συνόλου δεδομένων σε έναν αριθμό συστάδων που παρουσιάζουν «ενδιαφέρον». Κατόπιν, αντί της επεξεργασίας των δεδομένων ως οντότητες, υιοθετούμε τους αντιπροσώπους των συστάδων στη διαδικασία μας. Κατά συνέπεια, η συμπίεση δεδομένων έχει επιτευχθεί.

116 3 ο Κεφάλαιο Συσταδοποίηση 117 Παραγωγή υπόθεσης Η συσταδοποίηση χρησιμοποιείται σ' αυτή την περίπτωση προκειμένου να προκύψουν μερικές υποθέσεις για τα δεδομένα. Για παράδειγμα μπορούμε να βρούμε σε μια βάση δεδομένων λιανικών πωλήσεων ότι υπάρχουν δύο σημαντικές συστάδες πελατών με βάση την ηλικία τους και την χρονική στιγμή που κάνουν τις αγορές τους. Κατόπιν, μπορούν να προκύψουν μερικές υποθέσεις για τα δεδομένα, όπως, «οι νέοι άνθρωποι πηγαίνουν για ψώνια το βράδυ», «οι μεγάλοι σε ηλικία άνθρωποι πηγαίνουν για ψώνια το πρωί». Έλεγχος υπόθεσης Σε αυτήν την περίπτωση, η ανάλυση συστάδων (cluster analysis) χρησιμοποιείται για την επαλήθευση της εγκυρότητας μιας συγκεκριμένης υπόθεσης. Παραδείγματος χάριν, θεωρούμε την ακόλουθη υπόθεση: Οι «νέοι άνθρωποι πηγαίνουν για ψώνια το βράδυ». Ένας τρόπος να ελεγχθεί εάν αυτό είναι αληθινό είναι να εφαρμοστεί η διαδικασία της συσταδοποίησης σε ένα αντιπροσωπευτικό σύνολο καταστημάτων. Υποθέτοντας ότι κάθε κατάστημα αντιπροσωπεύεται από πληροφορίες για τους πελάτες του (ηλικία, εργασία κ.λπ.) και το χρόνο των συναλλαγών τους. Εάν, μετά την εφαρμογή της συσταδοποίησης, δημιουργηθεί μία συστάδα που αντιστοιχεί στο «νέοι άνθρωποι αγοράζουν το βράδυ», τότε η υπόθεση υποστηρίζεται από την ανάλυση συστάδων. Πρόβλεψη βασισμένη σε συστάδες Η συσταδοποίηση εφαρμόζεται σε σύνολα δεδομένων και οι συστάδες που προκύπτουν χαρακτηρίζονται από τα χαρακτηριστικά των προτύπων που ανήκουν σε αυτές τις συστάδες. Κατόπιν, τα άγνωστα πρότυπα μπορούν να ταξινομηθούν στις προσδιοριζόμενες συστάδες σύμφωνα με την ομοιότητα τους στα χαρακτηριστικά των συστάδων. Συνεπώς χρήσιμη γνώση που αφορά τα στοιχεία μας μπορεί να εξαχθεί. Μπορεί να ειπωθεί ότι η διαδικασία της συσταδοποίησης εφαρμόζεται σε ένα σύνολο δεδομένων που αφορούν ασθενείς που μολύνονται από

117 3 ο Κεφάλαιο Συσταδοποίηση 118 την ίδια νόσο. Το αποτέλεσμα είναι διάφορες ομάδες ασθενών, σύμφωνα με την αντίδραση τους σε συγκεκριμένα φάρμακα. Κατόπιν για έναν νέο ασθενή, προσδιορίζουμε την συστάδα στην οποία μπορεί να κατηγοριοποιηθεί και βασιζόμενοι σε αυτή την απόφαση μπορούμε να καθορίσουμε την φαρμακευτική του αγωγή. Πιο συγκεκριμένα, μερικές χαρακτηριστικές εφαρμογές συσταδοποίησης αφορούν τα ακόλουθα πεδία [8]: Επιχειρήσεις Σε μια επιχείρηση, η συσταδοποίηση μπορεί να βοηθήσει τους εμπόρους να ανακαλύψουν σημαντικές συστάδες στη βάση δεδομένων των πελατών τους και να τις χαρακτηρίσουν με βάση τα αγοραστικά πρότυπα Βιολογία Στη βιολογία, μπορεί να χρησιμοποιηθεί για να καθορίσει τις ταξονομίες, να κατηγοριοποιήσει τα γονίδια με παρόμοια λειτουργία και να μελετηθούν σε βάθος οι υπό μελέτη δομές των πληθυσμών. Χωρική ανάλυση στοιχείων Εξαιτίας του τεράστιου όγκου χωρικών δεδομένων που μπορούν να ληφθούν από τις δορυφορικές εικόνες, ιατρικό εξοπλισμό, γεωγραφικά συστήματα πληροφοριών (GIS), εξερεύνηση βάσεων δεδομένων εικόνας κ.λπ., είναι ακριβό και δύσκολο για τους χρήστες να εξετάσουν τα χωρικά στοιχεία λεπτομερώς. Η συσταδοποίηση μπορεί να βοηθήσει στην αυτοματοποίηση της διαδικασίας ανάλυσης και κατανόησης των χωρικών δεδομένων. Χρησιμοποιείται για να προσδιορίσει και να εξάγει τα ενδιαφέροντα χαρακτηριστικά και τα πρότυπα που μπορούν να υπάρξουν σε μεγάλες χωρικές βάσεις δεδομένων.

118 3 ο Κεφάλαιο Συσταδοποίηση 119 Εξόρυξη στο παγκόσμιο ιστό Σε αυτήν την περίπτωση, η συσταδοποίηση χρησιμοποιείται για να ανακαλύψει τις σημαντικές συστάδες εγγράφων στην τεράστια συλλογή ημιδομημένων εγγράφων του παγκόσμιου ιστού (WWW). Αυτή η κατηγοριοποίηση των εγγράφων του παγκόσμιου ιστού βοηθά στην ανακάλυψη χρήσιμης πληροφορίας. Γενικά, η συσταδοποίηση μπορεί να χρησιμεύσει ως βήμα προεπεξεργασίας για άλλους αλγορίθμους, όπως στην κατηγοριοποίηση η οποία θα λειτουργούσε πάνω στις προσδιοριζόμενες συστάδες από την διαδικασία της συσταδοποίησης. Όταν εφαρμόζεται συσταδοποίηση σε πραγματικές βάσεις δεδομένων, προκύπτουν πολλά ενδιαφέροντα προβλήματα. Ο χειρισμός των ακραίων σημείων (outliers) είναι δύσκολος. Τα στοιχεία αυτά δεν ανήκουν στην πράξη σε καμία συστάδα μπορούν να θεωρηθούν σαν μεμονωμένες συστάδες. Ωστόσο, αν ένας αλγόριθμος συσταδοποίησης επιχειρήσει να βρει μεγαλύτερες συστάδες, αυτά τα στοιχεία αναγκαστικά θα τοποθετούν σε κάποια ευρύτερη συστάδα. Καθώς αυτή η διαδικασία μπορεί να συνδυάσει δύο υπάρχουσες συστάδες και να αφήσει το απομονωμένο σημείο στη δική του συστάδα, μπορεί να οδηγήσει σε φτωχή συσταδοποίηση. Τα δυναμικά δεδομένα που υπάρχουν στη βάση δεδομένων υποδηλώνουν ότι η σύσταση των συστάδων μπορεί να αλλάξει στην πορεία του χρόνου. Η ερμηνεία της σημασιολογίας κάθε συστάδας ενδέχεται να είναι δύσκολη. Στην περίπτωση της κατηγοριοποίησης, η περιγραφή των κλάσεων είναι γνωστή εκ των προτέρων. Αυτό όμως δεν ισχύει στη συσταδοποίηση. Συνεπώς, όταν ολοκληρωθεί η διαδικασία συσταδοποίησης δημιουργώντας ένα σύνολο συστάδων, μπορεί να μην

119 3 ο Κεφάλαιο Συσταδοποίηση 120 είναι προφανής η ακριβής σημασία της κάθε συστάδας. Στο σημείο αυτό χρειάζεται ένας ειδικός του πεδίου προκειμένου να αναθέσει "ετικέτες" ή προσδιορισμούς στις συστάδες. Δεν υπάρχει μία και μόνη σωστή λύση σε ένα πρόβλημα συσταδοποίησης. Στην πραγματικότητα, μπορούν να βρεθούν πολλές απαντήσεις. Το ακριβές πλήθος των συστάδων που απαιτούνται δεν είναι τόσο εύκολο να προσδιοριστεί. Και πάλι, μπορεί να χρειαστεί ένας ειδικός του πεδίου. Για παράδειγμα, έστω ότι έχουμε ένα σύνολο δεδομένων για τα φυτά που συλλέχθηκαν κατά τη διάρκεια μιας εκδρομής. Αν δεν υπάρχει καμία προηγούμενη γνώση σχετικά με την ταξινομία των φυτών και επιχειρηθεί να χωριστεί αυτό το σύνολο δεδομένων σε παρόμοιες ομάδες, δε θα είναι προφανές πόσες ομάδες θα πρέπει να δημιουργηθούν. Ένα άλλο σχετικό θέμα είναι τι δεδομένα θα πρέπει να χρησιμοποιηθούν για τη συσταδοποίηση. Σε αντίθεση με τη μάθηση κατά τη διάρκεια της διαδικασίας κατηγοριοποίησης, όπου υπάρχει εκ των προτέρων κάποια γνώση σχετικά με το ποια πρέπει να είναι τα γνωρίσματα της κατηγοριοποίησης, στη συσταδοποίηση δεν υπάρχει επιβλεπόμενη μάθηση για να βοηθήσει τη διαδικασία. Πράγματι, η συσταδοποίηση μπορεί να θεωρηθεί παρόμοια με τη μη επιβλεπόμενη μάθηση. 3.4 Ομοιότητα και Μέτρα Απόστασης Οι συστάδες που προκύπτουν από την επίλυση ενός συγκεκριμένου προβλήματος συσταδοποίησης έχουν πολλές επιθυμητές ιδιότητες. Η πιο σημαντική από αυτές είναι ότι μία πλειάδα είναι πιο όμοια με τις πλειάδες που ανήκουν στην ίδια συστάδα από ότι με τις πλειάδες που ανήκουν σε διαφορετικές συστάδες. Όπως και στην περίπτωση της κατηγοριοποίησης, θεωρούμε τον ορισμό ενός μέτρου ομοιότητας, Sim t i, t l, μεταξύ οποιωνδήποτε δύο πλειάδων, t, t D. Αυτό οδηγεί σε έναν πιο αυστηρό και i l εναλλακτικό ορισμό της συσταδοποίησης.

120 3 ο Κεφάλαιο Συσταδοποίηση 121 Ορισμός Δοθέντων μιας βάσης δεδομένων D t t,..., που αποτελείται από πλειάδες, ενός μέτρου ομοιότητας Sim t i, t l, μεταξύ οποιωνδήποτε δύο πλειάδων 1, 2 t, t D, και μιας ακέραιας τιμής k, το πρόβλημα της i l συσταδοποίησης έγκειται στον ορισμό μιας αντίστοιχης f D 1,..., k κάθε t i, ανατίθεται σε μία συστάδα K, t, t K και t K, simt, t simt, t. j jl jm j i j jl jm K j t n : όπου, 1 j k. Δοθείσης μιας συστάδας, jl i Μερικοί αλγόριθμοι συσταδοποίησης εξετάζουν μόνο αριθμητικά - μετρικά δεδομένα. Τα μετρικά (metric) γνωρίσματα ικανοποιούν την τριγωνική ανισότητα. Συνεπώς, οι συστάδες μπορούν να περιγραφούν μέσω αρκετών χαρακτηριστικών τιμών. Δοθείσης μιας συστάδας, Km που αποτελείται από Ν σημεία t 1 t,..., t ακολουθούν παρακάτω οι ορισμοί για το κέντρο βάρους m, m2 mn (centroid), την ακτίνα (radius) και τη διάμετρο (diameter) μιας συστάδας [20]. centroid C m N i1 t N mi radius R m N i1 ( t mi N c m ) diameter D m N i1 N j1 t mi t mj N N 1 2

121 3 ο Κεφάλαιο Συσταδοποίηση Ακραία Σημεία Τα ακραία σημεία (outliers) είναι δείγματα δεδομένων με τιμές πολύ διαφορετικές από τις τιμές του υπολοίπου συνόλου δεδομένων. Τα ακραία σημεία μπορεί να αναπαριστούν σφάλματα στα δεδομένα (ένας ελαττωματικός αισθητήρας μπορεί να καταγράψει κάποια λανθασμένη τιμή) ή μπορεί να αφορούν σε σωστά δεδομένα που απλά διαφέρουν κατά πολύ από τα υπόλοιπα. Για παράδειγμα, ένας άνθρωπος ύψους 2.5 μέτρων είναι πολύ ψηλότερος από τη μεγάλη πλειοψηφία των ανθρώπων και έτσι η τιμή αυτή μπορεί να θεωρηθεί ως ακραία σε μια πιθανή ανάλυση του ύψους των ανθρώπων. Κάποιες τεχνικές συσταδοποίησης δεν έχουν καλή απόδοση όταν υπάρχουν ακραία σημεία. Το πρόβλημα αυτό επεξηγείται στο Σχήμα 3.2 Αν στο σχήμα αυτό βρεθούν τρεις συστάδες (συνεχόμενη γραμμή), το ακραίο σημείο θα βρίσκεται από μόνο του σε μία από αυτές. Αν, ωστόσο, βρεθούν δύο συστάδες (διακεκομμένη γραμμή), τα δύο (προφανώς, διαφορετικά) σύνολα δεδομένων θα τοποθετηθούν αναγκαστικά σε μία συστάδα επειδή είναι πιο κοντά μεταξύ τους από ότι με το ακραίο σημείο. Το πρόβλημα αυτό περιπλέκεται από το γεγονός ότι πολλοί αλγόριθμοι συσταδοποίησης έχουν ως είσοδο το επιθυμητό πλήθος των συστάδων. Σχήμα 3.2. Ακραία Σημεία

122 3 ο Κεφάλαιο Συσταδοποίηση 123 Οι αλγόριθμοι συσταδοποίησης μπορούν πράγματι να βρουν και να απομακρύνουν τα ακραία σημεία έτσι ώστε να εξασφαλίσουν καλύτερη απόδοση. Ωστόσο, η απομάκρυνση αυτών των σημείων θα πρέπει να γίνεται με μεγάλη προσοχή. Για παράδειγμα, ας υποθέσουμε την μελέτη του προβλήματος πρόγνωσης πλημμύρας με τεχνικές εξόρυξης γνώσης. Στο πρόβλημα αυτό, εμφανίζονται πολύ σπάνια εξαιρετικά υψηλές τιμές στα επίπεδα του νερού οι τιμές αυτές, σε σύγκριση με τις κανονικές τιμές των επιπέδων του νερού, ενδέχεται να θεωρηθούν ως ακραίες. Ωστόσο, η απομάκρυνση αυτών των τιμών μπορεί να οδηγήσει στην αναποτελεσματικότητα του αλγορίθμου εξόρυξης γνώσης καθώς δε θα υπάρχουν δεδομένα με ακραίες τιμές που να υποδεικνύουν ότι συμβαίνουν και πλημμύρες. Η ανίχνευση ακραίων σημείων (outlier detection) ή, αλλιώς, εξόρυξη ακραίων σημείων (outlier mining) είναι η διαδικασία της αναγνώρισης των ακραίων σημείων μέσα σε ένα σύνολο δεδομένων. Οι αλγόριθμοι συσταδοποίησης, και γενικότερα οι αλγόριθμοι εξόρυξης γνώσης, έχουν τη δυνατότητα να επιλέγουν είτε την απομάκρυνση αυτών των σημείων είτε την αντιμετώπιση τους με διαφορετικό τρόπο. Κάποιες άλλες τεχνικές ανακάλυψης ακραίων σημείων βασίζονται σε στατιστικές τεχνικές. Συνήθως, οι τεχνικές αυτές υποθέτουν ότι το σύνολο των δεδομένων ακολουθεί κάποια γνωστή κατανομή και τα ακραία σημεία ανακαλύπτονται εφαρμόζοντας κάποιους από τους ευρέως γνωστούς ελέγχους, όπως για παράδειγμα τους ελέγχους δυσαρμονίας (discordancy tests). Ωστόσο, οι έλεγχοι αυτοί δεν είναι τόσο ρεαλιστικοί για δεδομένα του πραγματικό κόσμου επειδή οι τιμές των δεδομένων ενδέχεται να μην ακολουθούν κάποια καλά ορισμένη κατανομή. Επίσης, οι περισσότεροι από αυτούς τους ελέγχους υποθέτουν τιμές ενός γνωρίσματος μόνο ενώ σε πραγματικές εφαρμογές εμπλέκονται πολλά γνωρίσματα Εναλλακτικές τεχνικές ανίχνευσης ακραίων σημείων μπορούν να βασιστούν στα μέτρα απόστασης.

123 3 ο Κεφάλαιο Συσταδοποίηση Μέθοδοι Συσταδοποίησης Υπάρχει μεγάλο πλήθος μοντέλων συσταδοποίησης. Οι αλγόριθμοι συσταδοποίησης μπορούν γενικά να ταξινομηθούν σύμφωνα με: 1. τον τύπο δεδομένων που εισάγονται στον αλγόριθμο 2. τη μέθοδο που καθορίζει την συσταδοποίηση του συνόλου των δεδομένων 3. τη θεωρία και τις θεμελιώδεις έννοιες στις οποίες είναι βασισμένες οι τεχνικές ανάλυσης συστάδας Κατηγοριοποίηση αλγορίθμων με βάση τη μέθοδο Συσταδοποίησης Σύμφωνα με τη μέθοδο που υιοθετείται για τον καθορισμό των συστάδων, οι αλγόριθμοι μπορεί να ταξινομηθούν στους ακόλουθους τύπους [21]: Διαιρετική συσταδοποίηση (Partitional Clustering), βασίζεται στην άμεση αποσύνθεση του συνόλου των δεδομένων σε ένα σύνολο μη σχετιζόμενων συστάδων. Η συνάρτηση που ο αλγόριθμος συσταδοποίησης προσπαθεί να ελαχιστοποιήσει μπορεί να δίνει έμφαση στην τοπική δομή των δεδομένων, αναθέτοντας συστάδες στα άκρα της συνάρτησης (ελάχιστο, μέγιστο) ή στην γενική δομή των δεδομένων. Το γενικό κριτήριο είναι η ελαχιστοποίηση κάποιων μέτρων ανομοιότητας μεταξύ των δειγμάτων μέσα σε κάθε μία από τις συστάδες, καθώς και η μεγιστοποίηση την ανομοιότητας μεταξύ των διαφορετικών συστάδων.

124 3 ο Κεφάλαιο Συσταδοποίηση 125 Η ασαφής συσταδοποίηση (Fuzzy Clustering), η οποία χρησιμοποιεί τεχνικές ασαφούς λογικής για να ομαδοποιήσει δεδομένα και θεωρεί ότι ένα αντικείμενο μπορεί να ταξινομηθεί σε περισσότερες από μία συστάδες. Αυτός ο τύπος αλγορίθμων οδηγεί σε σχήματα συσταδοποίησης τα οποία είναι συμβατά με την εμπειρία μας από την καθημερινή ζωής δεδομένου ότι χειρίζονται την αβεβαιότητα πραγματικών δεδομένων. Ο σημαντικότερος ασαφής αλγόριθμος συσταδοποίησης είναι ο Fuzzy C-Means. Η μη ασαφής συσταδοποίηση (Crisp Clustering), θεωρεί μη επικαλυπτόμενα χωρίσματα σημαίνοντας ότι ένα στοιχείο του συνόλου δεδομένου είτε ανήκει σε μια κατηγορία είτε όχι. Οι περισσότεροι από τους αλγορίθμους συσταδοποίησης οδηγούν σε σαφή συστάδες και μπορούν έτσι να κατηγοριοποιηθούν στην κατηγορία της μη ασαφής συσταδοποίησης. Συσταδοποίηση βασισμένη στα δίκτυα Kohonen (Kohonen Net Clustering), η οποία είναι βασισμένη στις έννοιες των νευρωνικών δικτύων. Το δίκτυο Kohonen έχει κόμβους εισόδου και εξόδου. Το επίπεδο εισόδου (κόμβοι εισόδου) έχει έναν κόμβο για κάθε γνώρισμα μίας εγγραφής τα οποία συνδέονται με κάθε κόμβο εξόδου (στρώμα εξόδου). Κάθε σύνδεση συσχετίζεται με ένα βάρος (weight), το οποίο καθορίζει τη θέση του αντίστοιχου κόμβου εξόδου. Κατά συνέπεια, σύμφωνα με έναν αλγόριθμο, που αλλάζει κατάλληλα τα βάρη, οι κόμβοι εξόδου τείνουν να σχηματίζουν συστάδες. Ιεραρχική Συσταδοποίηση (Hierarchical Clustering). Οι αλγόριθμοι της κατηγορίας αυτής βασίζονται στην διαδοχική σύνδεση μικρότερων συστάδων σε μεγαλύτερα ή διάσπαση μεγαλύτερων συστάδων σε μικρότερες. Οι μέθοδοι συσταδοποίησης διαφέρουν στο κανόνα με βάση τον οποίο αποφασίζεται ποια από τις μικρότερες συστάδες θα συγχωνευτούν για την δημιουργία κάποιου μεγαλύτερου, ή ποια μεγάλη συστάδα θα διασπαστεί. Το τελικό αποτέλεσμα του αλγορίθμου είναι

125 3 ο Κεφάλαιο Συσταδοποίηση 126 ένα δέντρο από συστάδες το οποίο καλείται δενδρογράφημα (Σχήμα 3.3) και το οποίο παρουσιάζει τον τρόπο που οι συστάδες σχετίζονται μεταξύ τους. Εάν κόψουμε το δενδρογράφημα σε κάποιο επίπεδο που επιθυμούμε μπορούμε να έχουμε την συσταδοποίηση των δεδομένων μας σε συστάδες μη σχετιζόμενες. Σχήμα 3.3 Δενδρογράφημα Συσταδοποίηση βασισμένη στην πυκνότητα (Density-based Clustering). H βασική ιδέα αυτού του τύπου συσταδοποίησης είναι η οργάνωση γειτονικών αντικειμένων ενός συνόλου δεδομένων σε συστάδες με βάση κάποια κριτήρια πυκνότητας. Συσταδοποίηση βασισμένη σε πλέγμα (Grid-based Clustering). Αυτός ο τύπος αλγορίθμων προτείνεται κυρίως για την ανάλυση χωρικών δεδομένων. Το βασικό χαρακτηριστικό τους είναι ότι χωρίζουν το χώρο σε έναν πεπερασμένο αριθμό κελιών και έπειτα κάνουν όλες τις διαδικασίες στο κβαντοποιημένο χώρο.

126 3 ο Κεφάλαιο Συσταδοποίηση 127 Συσταδοποίηση υποχώρων (Subspace Clustering). Αυτή η κατηγορία αλγορίθμων προσπαθεί να βρει τα υποσύνολα του αρχικού χώρου όπου τα αποτελέσματα συσταδοποίησης είναι «καλύτερα» Κατηγοριοποίηση αλγορίθμων με βάση τον τύπο Δεδομένων Ένα άλλο κριτήριο με βάση το οποίο κατηγοριοποιούνται οι αλγόριθμοι είναι το είδος των δεδομένων που πρόκειται να μελετηθεί (δηλαδή, αριθμητικά, κατηγορικά). Συσταδοποίηση αριθμητικών δεδομένων. Οι αλγόριθμοι παράγουν συστάδες με βάση κάποια μέτρα αριθμητικής ομοιότητας μεταξύ των αντικειμένων. Περιορίζεται δηλαδή στο ότι μπορεί να εφαρμοστεί σε βάσεις δεδομένων με τύπο γνωρισμάτων αριθμητικές τιμές. Κάθε αντικείμενο περιγράφεται από ένα σύνολο γνωρισμάτων, των οποίων οι τιμές είναι αριθμητικές. Μία τυπική εγγραφή (αντικείμενο) που αφορά στην περιγραφή κάποιου ατόμου μπορεί να είναι η εξής: Attribute Height Weight IQ Value Η περιγραφή ενός αντικειμένου μπορεί να αναπαρασταθεί με την βοήθεια ενός διανύσματος ως εξής: Object 1 (1.85,180.0,100) Object 2 (1.75,195.0,080) Object 3 (1.45,135.0,055)

127 3 ο Κεφάλαιο Συσταδοποίηση 128 Προκειμένου να μετρήσουμε την ομοιότητα ή την απόσταση μεταξύ των αντικειμένων θα πρέπει να χρησιμοποιήσουμε κάποιο μέτρο απόστασης. Ένα τέτοιο μέτρο μπορεί να είναι η Ευκλείδεια απόσταση ή η City-block απόσταση, οι οποίες δίνονται από τις παρακάτω εξισώσεις: Ευκλείδεια Απόσταση = 2 x i y i City-block Απόσταση = x i y i Όπου x i και αντικείμενα X και Y. y i είναι τα στοιχεία των δύο διανυσμάτων που αντιστοιχούν στα Στην κατηγορία αυτή ανήκει και η στατιστική συσταδοποίηση (Statistical Clustering) που έχει της ρίζες της στο πεδίο της στατιστικής ανάλυσης. Εννοιολογική Συσταδοποίηση Αντίθετα με την συσταδοποίηση αριθμητικών τιμών, η εννοιολογική συσταδοποίηση (Conceptual Clustering) μπορεί εφαρμοστεί σε βάσεις δεδομένων με τύπο γνωρισμάτων μόνο κείμενο. Συνεπώς, η εννοιολογική συσταδοποίηση μπορεί να εφαρμοστεί σε αντικείμενα που έχουν την εξής μορφή: Attribute Height Weight IQ Value Tall Heavy Average Οι γεωμετρικές αποστάσεις δεν είναι κατάλληλες στην περίπτωση αυτή προκειμένου να εκτιμηθεί η απόσταση μεταξύ αντικειμένων της παραπάνω μορφής. Μία εναλλακτική διαδικασία που μπορεί να χρησιμοποιηθεί είναι ο αριθμός των γνωρισμάτων που δεν είναι κοινά στα δύο αντικείμενα. Για παράδειγμα έστω τα αντικείμενα:

128 3 ο Κεφάλαιο Συσταδοποίηση 129 Object 1 Object 2 Object 3 (Tall, Heavy, Average) (Tall Heavy, Low) (Short, Light, High) Η απόσταση μεταξύ του Object 1 και Object 2 είναι 1 καθώς διαφέρουν μόνο στην τιμή του γνωρίσματος IQ. Η απόσταση μεταξύ του Object 1 και Object 2 είναι 3 καθώς έχουν διαφορετικές τιμές και για τα τρία γνωρίσματα. Γενικά, οι αλγόριθμοι συσταδοποίησης είναι βασισμένοι σε ένα κριτήριο αξιολόγησης της ποιότητας μιας δεδομένης τμηματοποίησης. Πιο συγκεκριμένα, παίρνουν ως είσοδο μερικές παραμέτρους (π.χ. αριθμός συστάδων, πυκνότητα των συστάδων) και προσπαθούν να καθορίσουν την καλύτερη τμηματοποίηση ενός συνόλου δεδομένων για τις δεδομένες παραμέτρους. Κατά συνέπεια, καθορίζουν την τμηματοποίηση ενός συνόλου δεδομένων με βάση ορισμένες υποθέσεις και όχι απαραιτήτως την «καλύτερη» που ταιριάξει στο σύνολο δεδομένων. Εφόσον οι αλγόριθμοι συσταδοποίησης ανακαλύπτουν συστάδες που δεν είναι γνωστές εκ των προτέρων, ο τελικός χωρισμός ενός συνόλου δεδομένων απαιτεί κάποιο είδος αξιολόγησης στις περισσότερες εφαρμογές [19]. Για παράδειγμα ερωτήσεις όπως «πόσες συστάδες υπάρχουν σε ένα σύνολο δεδομένων;», «το σχήμα συσταδοποίησης που προκύπτει ταιριάζει στο σύνολο δεδομένων;», «υπάρχει καλύτερη τμηματοποίηση για το σύνολο δεδομένων μας;» διερευνούν την εγκυρότητα των αποτελεσμάτων της συσταδοποίησης και είναι τα θέματα των μεθόδων που συζητούνται στη βιβλιογραφία. Στοχεύουν στην ποσοτική αξιολόγηση των αποτελεσμάτων των αλγορίθμων συγκέντρωσης και είναι γνωστοί κάτω από το γενικό όρο μέθοδοι εγκυρότητας συστάδας (cluster validity).

129 3 ο Κεφάλαιο Συσταδοποίηση Ιεραρχικοί Αλγόριθμοι Οι ιεραρχικοί αλγόριθμοι συσταδοποίησης δημιουργούν στην πραγματικότητα σύνολα συστάδων. Στο παρακάτω παράδειγμα επεξηγείται η βασική τους ιδέα. Οι αλγόριθμοι αυτοί διαφέρουν ως προς το πώς δημιουργούνται τα σύνολα των συστάδων. Για την επεξήγηση της τεχνικής της ιεραρχικής συσταδοποίηση; και των συνόλων των διαφορετικών συστάδων μπορεί να χρησιμοποιηθεί μια δενδρική δομή δεδομένων, γνωστή ως δενδρόγραμμα. Στη ρίζα του δενδρογράμματος υπάρχει μία συστάδα με όλα τα στοιχεία. Στα φύλλα του δενδρογράμματος υπάρχουν ατομικές συστάδες, δηλαδή κάθε φύλλο περιέχει μια συστάδα με ένα στοιχείο. Οι εσωτερικό, κόμβοι του δενδρογράμματος αναπαριστούν νέες συστάδες οι οποίες προκύπτουν από την συνένωση των συστάδων που εμφανίζονται ως παιδιά τους στο δενδρόγραμμα. Κάθε επίπεδο του δενδρογράμματος συνδέεται με ένα μέτρο απόστασης που χρησιμοποιείται για την συγχώνευση των συστάδων. Οι συστάδες ενός συγκεκριμένου επιπέδου δημιουργούνται μόνο εφόσον οι συστάδες-παιδιά απέχουν μεταξύ τους απόσταση μικρότερη από την απόσταση που συνδέεται μ' αυτό το επίπεδο στο δενδρόγραμμα. Το δενδρόγραμμα για το Παράδειγμα απεικονίζεται στο Σχήμα 3.5. Παράδειγμα 3.1 Υπάρχουν έξι στοιχεία, {Α, Β, C, D, Ε, F}, που πρόκειται να ομαδοποιηθούν σε συστάδες. Στα τμήματα (α) έως (ε) του σχήματος φαίνονται πέντε διαφορετικά σύνολα συστάδων. Στο τμήμα (α) κάθε συστάδα αποτελείται από ένα μόνο στοιχείο. Το τμήμα (β) απεικονίζει τέσσερις συστάδες, εδώ υπάρχουν δύο σύνολα συστάδων, όπου κάθε συστάδα αποτελείται από δύο στοιχεία. Στο συγκεκριμένο επίπεδο δημιουργούνται οι συστάδες επειδή τα δύο αυτά στοιχεία είναι πιο κοντά μεταξύ τους απ' ότι με τα υπόλοιπα στοιχεία.

130 3 ο Κεφάλαιο Συσταδοποίηση 131 Στο τμήμα (γ) φαίνεται μία νέα συστάδα η οποία σχηματίζεται προσθέτοντας ένα κοντινό σημείο σε μία από τις δύο ήδη υπάρχουσες συστάδες. Σχήμα 3.4 Επίπεδα Συσταδοποίησης

131 3 ο Κεφάλαιο Συσταδοποίηση 132 Στο τμήμα (δ) οι συστάδες των δύο και τριών στοιχείων συγχωνεύονται σε μια νέα συστάδα πέντε στοιχείων. Αυτό συμβαίνει επειδή οι δύο αυτές συστάδες βρίσκονται πιο κοντά μεταξύ τους απ' ότι με τη συστάδα του απομακρυσμένου στοιχείου, {F}. Στο τελευταίο στάδιο, (ε), και τα έξι στοιχεία συγχωνεύονται σε μία συστάδα. A B C D E F Σχήμα 3.5 Δενδρόγραμμα Οι ιεραρχικοί αλγόριθμοι συσταδοποίησης σύμφωνα με τη μέθοδο που παράγουν τις συστάδες μπορούν να διαιρεθούν σε Συσσωρευτικούς Ιεραρχικούς Αλγόριθμους (Agglomerative) και σε Διαιρετικούς Ιεραρχικούς Αλγόριθμους (Divisive). Στη συνέχεια αναλύονται και οι δύο κατηγορίες σε ξεχωριστές ενότητες.

132 3 ο Κεφάλαιο Συσταδοποίηση Συσσωρευτικοί (Agglomerative) Ιεραρχικοί Αλγόριθμοι Οι αλγόριθμοι αυτοί παράγουν μια ακολουθία σχημάτων συσταδοποίησης μειώνοντας τον αριθμό συστάδων σε κάθε βήμα. Το σχέδιο συσταδοποίησης που παράγεται σε κάθε βήμα οδηγεί από το προηγούμενο με τη συγχώνευση των δύο πλησιέστερων συστάδων. Για να βρει την ομοιότητα δύο συστάδων, χρησιμοποιείται ένα από τα ακόλουθα χαρακτηριστικά κριτήρια: η ελάχιστη, μέγιστη, ή μέση pairwise απόσταση μεταξύ των σημείων των δύο συστάδων. Επιπλέον οι συσσωρευτικοί (agglomerative) αλγόριθμοι ξεκινούν θεωρώντας ότι κάθε στοιχείο ανήκει στην δική του συστάδα και επαναληπτικά συγχωνεύουν τις συστάδες ώσπου c στοιχεία να ανήκουν στην ίδια συστάδα. Οι συσσωρευτικοί αλγόριθμοι διαφοροποιούνται μεταξύ τους ως προς το πώς συγχωνεύονται οι συστάδες σε κάθε επίπεδο. Έτσι, υπάρχουν δύο προσεγγίσεις σε κάθε επίπεδο είτε να συγχωνεύονται μόνο δύο συστάδες του προηγούμενου επιπέδου ή να συγχωνεύονται περισσότερες από δύο συστάδες. Ένα άλλο σημείο διαφοροποίησης αποτελεί και η απόφαση σχετικά με το ποιες συστάδες θα συγχωνεύονται όταν υπάρχουν πολλαπλές συστάδες με τις ίδιες ακριβώς αποστάσεις. Επιπλέον, μπορεί να διαφέρει και η τεχνική που χρησιμοποιείται για τον καθορισμό της απόστασης μεταξύ των συστάδων. Οι πιο γνωστές τεχνικές, οι οποίες στηρίζονται σε ευρέως γνωστές έννοιες της θεωρίας γράφων, είναι η τεχνική του απλού συνδέσμου (Single Link), η τεχνική του πλήρους συνδέσμου (Complete Link) και η τεχνική του μέσου συνδέσμου (Average Link). Όλες οι προσεγγίσεις συσσωρευτικών αλγορίθμων υπόκεινται σε υπερβολικούς περιορισμούς χρόνου και χώρου. Ο χώρος που απαιτείται από 2 τη μήτρα γειτνίασης είναι O n, όπου n το πλήθος των στοιχείων της συστάδας. Εξαιτίας της επαναληπτικής φύσης του αλγορίθμου, η μήτρα (ή υποσύνολο της) θα πρέπει να προσπελαύνεται πολλές φορές. Ένα άλλο ζήτημα με τη συσσωρευτική προσέγγιση είναι ότι αυτή δεν είναι αυξητική. Αυτό σημαίνει πως όταν προστίθενται νέα στοιχεία, ή αφαιρούνται ή τροποποιούνται τα ήδη υπάρχοντα θα πρέπει να τρέξει πάλι ο αλγόριθμος από την αρχή.

133 3 ο Κεφάλαιο Συσταδοποίηση 134 Τεχνική απλού συνδέσμου (Single Link Technique) Η τεχνική απλού συνδέσμου βασίζεται στην ιδέα της εύρεσης μέγιστων συνεκτικών συνιστωσών σε ένα γράφο. Μια συνεκτική συνιστώσα (connected component) είναι ένας γράφος στον οποίο υπάρχει μονοπάτι μεταξύ οποιωνδήποτε δύο κορυφών. Στην τεχνική απλού συνδέσμου, δύο συστάδες συγχωνεύονται αν υπάρχει τουλάχιστον μία ακμή που ενώνει τις δύο συστάδες δηλαδή αν η ελάχιστη απόσταση μεταξύ οποιωνδήποτε δύο σημείων των συστάδων είναι μικρότερη ή ίση από την απόσταση κατωφλίου. Για το λόγο αυτό η συγκεκριμένη τεχνική ονομάζεται συχνά και τεχνική συσταδοποίησης πλησιέστερου γείτονα Ο αλγόριθμος απλού συνδέσμου προκύπτει αντικαθιστώντας στο συσσωρευτικό αλγόριθμο τη διαδικασία NewClusters με μία διαδικασία για την εύρεση των συνεκτικών συνιστωσών ενός γράφου. Με την προϋπόθεση ότι αυτή η διαδικασία έχει ως είσοδο ένα γράφο (που αναπαρίσταται από μία μήτρα γειτνίασης κορυφών και ένα σύνολο κορυφών) και ως έξοδο ένα σύνολο συνεκτικών συνιστωσών που ορίζεται μέσω ενός αριθμού (που δηλώνει το πλήθος των συνιστωσών) και ενός πίνακα που περιέχει πληροφορία μέλους για κάθε συνιστώσα. Σημειώνετε ότι αυτός είναι ο σκοπός για τον οποίο χρησιμοποιούνται από το δενδρόγραμμα οι δύο τελευταίες είσοδοι της διατεταγμένης τριάδας. Η προσέγγιση απλού συνδέσμου είναι αρκετά απλή, αλλά πάσχει από αρκετά προβλήματα. Καταρχήν, ο αλγόριθμος δεν είναι πολύ αποδοτικός και αυτό οφείλεται στο γεγονός ότι η διαδικασία των 2 συνεκτικών συνιστωσών, η οποία έχει n O πολυπλοκότητα χώρου και χρόνου, καλείται σε κάθε επανάληψη. Θα μπορούσε να αναπτυχθεί ένας πιο αποδοτικός αλγόριθμος ο οποίος θα εξέταζε ποιες από τις συστάδες προηγούμενων επιπέδων μπορούν να συγχωνευτούν σε κάθε βήμα. Ένα άλλο πρόβλημα είναι ότι η συσταδοποίηση δημιουργεί μεγάλες αλυσίδες μέσα στις συστάδες (η επονομαζόμενη "επίπτωση της αλυσίδας" (chain effect). Μια εναλλακτική προσέγγιση για τη συγχώνευση των συστάδων στην τεχνική απλού συνδέσμου είναι να γίνεται η συγχώνευση δύο συστάδων σε κάποιο επίπεδο με απόσταση κατωφλίου d μόνο αν η ελάχιστη απόσταση μεταξύ οποιασδήποτε

134 3 ο Κεφάλαιο Συσταδοποίηση 135 κορυφής της μιας συστάδας και οποιασδήποτε κορυφής της άλλης συστάδας είναι το πολύ d. Υπάρχουν βέβαια και άλλες παραλλαγές για τον αλγόριθμο του απλού συνδέσμου. Αλγόριθμος πλήρους συνδέσμου (Complete Link Algorithm) Ο αλγόριθμος πλήρους συνδέσμου είναι παρόμοιος με τον αλγόριθμο απλού συνδέσμου, με τη διαφορά ότι ο πρώτος ψάχνει για κλίκες (cliques) ενώ ο άλλος για συνεκτικές συνιστώσες. Μία κλίκα είναι ένας μέγιστος γράφος στον οποίο υπάρχει ακμή μεταξύ οποιωνδήποτε δύο κορυφών. Στον αλγόριθμο πλήρους συνδέσμου χρησιμοποιείται μια διαδικασία για την εύρεση της μέγιστης απόστασης μεταξύ όλων των συστάδων έτσι ώστε δύο συστάδες να συγχωνεύονται αν η μέγιστη μεταξύ τους απόσταση είναι μικρότερη ή ίση της απόστασης κατωφλίου. Στο συγκεκριμένο αλγόριθμο, θεωρούμε την ύπαρξη μιας διαδικασίας, clique, που βρίσκει όλες τις κλίκες ενός γράφου. Όπως και στην περίπτωση του αλγορίθμου απλού συνδέσμου, η διαδικασία αυτή είναι 2 ακριβή αφού πρόκειται για αλγόριθμο πολυπλοκότητας O n. Οι συστάδες που προκύπτουν από την μέθοδο πλήρους συνδέσμου τείνουν να είναι πιο συμπαγείς από αυτές που προκύπτουν από την τεχνική απλού συνδέσμου. Αλγόριθμος μέσου συνδέσμου (Average Link Algorithm) Ο αλγόριθμος μέσου συνδέσμου συγχωνεύει δύο συστάδες αν η μέση απόσταση μεταξύ δύο οποιωνδήποτε σημείων των συστάδων είναι μικρότερη από την απόσταση κατωφλίου. Ο αλγόριθμος που χρησιμοποιείται στην περίπτωση αυτή είναι ελαφρώς διαφορετικός από αυτόν που χρησιμοποιείται στην τεχνική απλού συνδέσμου και την τεχνική πλήρους συνδέσμου επειδή σε κάθε επίπεδο πρέπει να εξεταστεί ο πλήρης γράφος.

135 3 ο Κεφάλαιο Συσταδοποίηση Διαιρετικοί (Divisive) Ιεραρχικοί Αλγόριθμοι Αυτοί οι αλγόριθμοι παράγουν μια ακολουθία σχημάτων συσταδοποίησης που αυξάνουν τον αριθμό συστάδων σε κάθε βήμα. Σε αντίθεση με τους συσσωρευτικούς αλγορίθμους η συσταδοποίηση που παράγεται σε κάθε βήμα από τον προηγούμενο αλγόριθμο οδηγεί στον διαχωρισμό μίας συστάδας σε δύο. Επιπλέον στην περίπτωση των διαιρετικών αλγορίθμων συσταδοποίησης (divisive clustering) όλα τα στοιχεία τοποθετούνται αρχικά σε μία συστάδα. Στη συνέχεια κάθε συστάδα διασπάται σε δύο επιμέρους συστάδες. Η διαδικασία επαναλαμβάνεται εωσότου κάθε στοιχείο να ανήκει στη δική του συστάδα. Η βασική ιδέα είναι ότι μία συστάδα διασπάται όταν κάποια από τα στοιχεία της δεν βρίσκονται αρκετά κοντά στα υπόλοιπα στοιχεία της. 3.8 Διαμεριστικοί Αλγόριθμοι Στους μη ιεραρχικούς ή διαμεριστικούς αλγορίθμους (Partitional Algorithms) οι συστάδες δημιουργούνται σε ένα βήμα. Μόνο ένα σύνολο συστάδων δημιουργείται παρόλο που εσωτερικά, μέσω των διαφόρων αλγορίθμων, μπορεί να δημιουργηθούν αρκετά διαφορετικά σύνολα συστάδων. Δεδομένου ότι η έξοδος αποτελείται από ένα μόνο σύνολο συστάδων, ο χρήστης θα πρέπει να δώσει ως είσοδο το επιθυμητό πλήθος συστάδων, k. Επιπλέον, χρησιμοποιούνται μέτρα ποιότητας (μετρικές, συναρτήσεις κριτηρίων) για τον προσδιορισμό της καταλληλότητας των προτεινόμενων λύσεων. Ένα τέτοιο μέτρο ποιότητας θα μπορούσε να είναι η μέση απόσταση μεταξύ των συστάδων ή κάποια άλλη μετρική. Η λύση που τελικά χρησιμοποιείται είναι αυτή που έχει την καλύτερη τιμή για τη συνάρτηση κριτηρίου. Ένα συνηθισμένο μέτρο είναι μία μετρική τετραγωνικού σφάλματος (squared error), η οποία μετράει την τετραγωνική απόσταση των σημείων της συστάδας από το κέντρο της συστάδας:

136 3 ο Κεφάλαιο Συσταδοποίηση 137 k m1 t mi K m dis C, t 2 m mi Η πολυπλοκότητα των διαμεριστικών αλγορίθμων μπορεί να εκτοξευτεί υψηλά λόγω του πλήθους των πιθανών λύσεων. Πράγματι, η αναζήτηση όλων των πιθανών εναλλακτικών λύσεων ως επί το πλείστον δεν είναι εφικτή. Για παράδειγμα, δοθέντος ενός κριτηρίου μέτρησης, μία απλοϊκή λύση θα μπορούσε να κάνει αναζήτηση σε όλα τα πιθανά σύνολα των k συστάδων. Υπάρχουν n k παρακάτω τύπο S, πιθανοί συνδυασμοί που πρέπει να εξεταστούν. Στον S 1 k! k ki n, k 1 k i i1 i n υπάρχουν διαφορετικοί τρόποι να συσταδοποιηθούν 19 στοιχεία σε 4 συστάδες. Συνεπώς, οι περισσότεροι αλγόριθμοι κάνουν αναζήτηση μόνο σε ένα μικρό υποσύνολο όλων των συστάδων χρησιμοποιώντας κάποια στρατηγική για τον εντοπισμό των σημαντικών συστάδων. Εξαιτίας της πληθώρας των διαμεριστικών αλγορίθμων, παρακάτω θα γίνει αναφορά μόνο σε κάποιους αντιπροσωπευτικούς Συσταδοποίηση Κ-means Η μέθοδος K-Means αποτελεί μία από τις πιο συχνά χρησιμοποιούμενες μεθόδους συσταδοποίησης [23]. Ανήκει στην κατηγορία της διαιρετικής συσταδοποίησης (partitional clustering) καθώς βασίζεται στην άμεση αποσύνθεση του συνόλου των δεδομένων σε ένα σύνολο ασυσχέτιστων συστάδων. Η αντικειμενική συνάρτηση την οποία προσπαθεί να ελαχιστοποιήσει ο αλγόριθμος είναι η μέση τετραγωνική απόσταση των δεδομένων από τα πλησιέστερα κέντρα των συστάδων και δίνεται από την εξίσωση:

137 3 ο Κεφάλαιο Συσταδοποίηση 138 E c i1 xc 1 d x, m i Στην παραπάνω εξίσωση, m ι, είναι το κέντρο της συστάδας C i, ενώ d x, είναι η Ευκλείδεια απόσταση μεταξύ ενός στοιχείου x και του κέντρου m ι. Κατά συνέπεια, το κριτήριο - συνάρτηση E προσπαθεί να ελαχιστοποιήσει την απόσταση κάθε σημείου από το κέντρο της συστάδας στο οποίο το σημείο ανήκει. Πιο συγκεκριμένα, ο αλγόριθμος ξεκινά με την αρχικοποίηση των κέντρων των c συστάδων. Κατόπιν, αναθέτει κάθε στοιχείο (αντικείμενο) του συνόλου δεδομένων στη συστάδα στης οποίας το κέντρο είναι πιο κοντά και ξαναυπολογίζει τα κέντρα. Η διαδικασία συνεχίζει εωσότου τα κέντρα των συστάδων σταματήσουν να αλλάζουν. Ο βασικός αλγόριθμος για να ελαχιστοποιήσει την αντικειμενική συνάρτηση αρχίζει θεωρώντας ένα σύνολο από k σημεία σαν κέντρα των k συστάδων (Σχήμα 3.6). Αν η σειρά των δεδομένων δεν έχει κάποια ιδιαίτερη σημασία, τότε παίρνει τις πρώτες k εγγραφές. Αλλιώς επιλέγει σημεία αντιπροσωπευτικά για τις θεωρούμενες συστάδες. Καθένα από τα κέντρα αντιπροσωπεύει μία συστάδα. Στο δεύτερο βήμα, κάθε σημείο αντιστοιχείται στην συστάδα της οποίας το κέντρο βρίσκεται πιο κοντά. Στη συνέχεια υπολογίζεται τα νέα κέντρα των συστάδων με χρήση του μέσου όρου των σημείων τους. Για άλλη μια φορά αντιστοιχείται κάθε σημείο στην συστάδα της οποίας το κέντρο είναι πιο κοντά. Η διαδικασία επαναλαμβάνεται συνεχώς εωσότου τα όρια των συστάδων παύουν να μεταβάλλονται, ή η συνάρτηση E δεν μεταβάλλεται σημαντικά. Ο αλγόριθμος K-Means χρησιμοποιεί σταθερό και δεδομένο εξαρχής αριθμό συστάδων που θα δημιουργηθούν (όσα και τα κέντρα). m i

138 3 ο Κεφάλαιο Συσταδοποίηση 139 Σχήμα 3.6 Αρχικοποίηση K-means Αλγόριθμος K-Means Εδώ παρουσιάζονται τα βασικά βήματα του αλγορίθμου K-Means. Ο αλγόριθμος ξεκινά καθορίζοντας με τυχαίο τρόπο c κέντρα που θα αντιπροσωπεύουν τις c συστάδες. Στην συνέχεια προσδιορίζεται η απόσταση κάθε στοιχείου του συνόλου δεδομένων από το κέντρο κάθε συστάδας και κάθε στοιχείο τοποθετείται στην συστάδα από την οποία απέχει λιγότερο. Τα κέντρα των νέων συστάδων υπολογίζονται σαν ο μέσος όρος των στοιχείων που ανήκουν μέχρι στιγμής σε κάθε συστάδα. Η διαδικασία επαναλαμβάνεται μέχρι οι συστάδες να σταματήσουν να μεταβάλλονται. Αυτό σημαίνει ότι η απόκλιση μεταξύ των κέντρων των συστάδων που προέκυψαν τελευταία από αυτά της προηγούμενης επανάληψης είναι κοντά στο μηδέν (τα κέντρα ταυτίζονται). Τα βήματα του αλγορίθμου σε μορφή ψευδοκώδικα είναι τα εξής: 1. Εύρεση των αρχικών κέντρων v i, Για κάθε επανάληψη r 1,2,3,... r max i 1,2,3,..., c, για τις c συστάδες

139 3 ο Κεφάλαιο Συσταδοποίηση Υπολογισμός της απόστασης κάθε στοιχείου του συνόλου δεδομένων από το κέντρο κάθε συστάδας d ki x v 2, k 1,2,3,..., n, i 1,2,3,... c k i 3. Κάθε στοιχείο x k αντιστοιχίζεται στην συστάδα για την οποία ισχύει, i k min, k i d ik, 4. Υπολογισμός των νέων κέντρων των συστάδων m r1 i ni k 1 n x i k 5. If r r1 m m then i i stop else r r 1, go to2. Παραλλαγές K-Means Ο K-Means όπως προαναφέρθηκε αποτελεί μία ευρέως αποδεκτή τεχνική συσταδοποίησης, η οποία έχει χρησιμοποιηθεί αποτελεσματικά για συσταδοποίηση σε διάφορα πεδία ορισμού. Ωστόσο, ο αλγόριθμος K-Means δεν είναι η μοναδική τεχνική, υπάρχουν διάφορες εκδόσεις και πλήθος παραλλαγών αυτής. Οι παραλλαγές αυτές διαφέρουν κυρίως στον τρόπο επιλογής των αρχικών k μέσων (κέντρων) των συστάδων, στον υπολογισμό της ομοιότητας και στη στρατηγική που χρησιμοποιούν για τον υπολογισμό των μέσων των συστάδων. Ορισμένες χαρακτηριστικές παραλλαγές του K- Means είναι: O αλγόριθμος ISODATA ο οποίος περιλαμβάνει μία διαδικασία για αναζήτηση του καλύτερου αριθμού συστάδων με βάση κάποιο κόστος εκτέλεσης

140 3 ο Κεφάλαιο Συσταδοποίηση 141 O Fuzzy C-Means ο οποίος επεκτείνει τον κλασικό αλγόριθμο K-Means χρησιμοποιώντας την θεωρία της ασαφής λογικής O SAS PROC FASTCLUS, ο οποίος ελέγχει την διαδικασία συσταδοποίησης υιοθετώντας δύο ακόμα παραμέτρους, την max_rad και min_size. Η πρώτη παράμετρος ελέγχει τον ελάχιστο αριθμό στοιχείων που μπορεί να έχει κάθε συστάδα ενώ η δεύτερη καθορίζει ότι η απόσταση κάθε στοιχείου μίας συστάδας από το κέντρο της συστάδας δεν πρέπει να είναι μεγαλύτερη του max_rad. Επιπρόσθετα, διάφορα στατιστικά πακέτα όπως το SAS, SPSS και BMPD που χρησιμοποιούν τον K-Means υιοθετούν την δική τους έκδοση το καθένα για τον αλγόριθμο. Ο K-means είναι ένας επαναληπτικός αλγόριθμος στον οποίο τα στοιχεία μετακινούνται μεταξύ των διαφόρων συνόλων συστάδων μέχρι να επιτευχθεί το επιθυμητό σύνολο συστάδων. Ως τέτοιος, ο k-means μπορεί να θεωρηθεί ως αλγόριθμος τετραγωνικού σφάλματος, παρά το γεγονός ότι το κριτήριο σύγκλισης δε χρειάζεται να οριστεί βάσει του τετραγωνικού σφάλματος. Μέσω του συγκεκριμένου αλγορίθμου επιτυγχάνεται μεγάλος βαθμός ομοιότητας μεταξύ των στοιχείων της ίδιας συστάδας, ενώ ταυτόχρονα επιτυγχάνεται και μεγάλη διαφορά μεταξύ των στοιχείων που ανήκουν σε διαφορετικές συστάδες. Ο μέσος της συστάδας (cluster mean) K t t,... t t ορίζεται ως: i1, i2 im m 1 m i t ij m j1 Ο ορισμός αυτός υποθέτει ότι κάθε πλειάδα έχει μόνο μία αριθμητική τιμή. Ο αλγόριθμος k-means απαιτεί να υπάρχει κάποιος ορισμός για τον μέσο της συστάδας, δεν χρειάζεται όμως να είναι ο παραπάνω. Στον παραπάνω ορισμό, ο μέσος της συστάδας ορίζεται πανομοιότυπα με το κέντρο βάρους. Ο αλγόριθμος υποθέτει ότι το επιθυμητό πλήθος συστάδων, k, δίνεται ως είσοδος στον αλγόριθμο. Σημειώστε πως οι αρχικές τιμές για τους μέσους των

141 3 ο Κεφάλαιο Συσταδοποίηση 142 συστάδων ανατίθενται τυχαία. Η ανάθεση θα μπορούσε να γίνει είτε τυχαία είτε χρησιμοποιώντας τις τιμές των k πρώτων στοιχείων. Το κριτήριο σύγκλισης θα μπορούσε να βασιστεί στο τετραγωνικό σφάλμα, αλλά αυτό δεν είναι απαραίτητο. Για παράδειγμα, ο αλγόριθμος θα μπορούσε να τερματίζει όταν δεν υπάρχει καμία πλειάδα (ή υπάρχουν ελάχιστες) που να ανατίθεται σε διαφορετικές συστάδες. Άλλες τεχνικές τερματισμού απλά τερματίζουν μετά από ένα συγκεκριμένο πλήθος επαναλήψεων. Μπορεί να προβλεφθεί ένας μέγιστος αριθμός επαναλήψεων που να εγγυάται τον τερματισμό του αλγορίθμου ακόμη και όταν δεν συγκλίνει Συσταδοποίηση ΡΑΜ (Partitioning Around Medoids) Ο ΡΑΜ αναπτύχθηκε από τους Kaufmann και Rousseeuw και αποτελεί μία από τις πιο γνωστές k -medoids μεθόδους συσταδοποίησης. Προκειμένου να βρεθούν k συστάδες με την προσέγγιση ΡΑΜ καθορίζεται ένα αντικείμενο αντιπρόσωπος για κάθε συστάδα. Τα αντικείμενα αντιπρόσωποι καλούνται medoids και είναι τα αντικείμενα εκείνα που βρίσκονται πιο κοντά στα κέντρα των συστάδων. Η χρήση των medoids βοηθά στην επίλυση του προβλήματος των απομονωμένων σημείων. Μόλις επιλεχθούν τα medoids, κάθε μη επιλεγμένο αντικείμενο ομαδοποιείται στην συστάδα του medoid με το οποίο μοιάζει περισσότερο. Ειδικότερα, εάν και O i είναι ένα (επιλεγμένο) medoid, λέμε ότι το που αντιπροσωπεύεται από το έκφραση i O j είναι ένα μη επιλεγμένο αντικείμενο O j ανήκει στην συστάδα O εάν d O, O min do, O j i Oc j c, όπου η min Oc δηλώνει το ελάχιστο μεταξύ όλων των medoids O c και το d, δηλώνει την απόσταση μεταξύ των αντικειμένων O a O b d O O a, b. Όλες οι τιμές των αποστάσεων μεταξύ των αντικειμένων δίνονται σαν είσοδο στο ΡΑΜ. Η ποιότητα της συσταδοποίησης μετριέται με βάση τη μέση διαφοροποίηση ανάμεσα σε ένα αντικείμενο και στο medoid της συστάδας που ανήκει.

142 3 ο Κεφάλαιο Συσταδοποίηση 143 Περιγραφή αλγορίθμου Με δεδομένο ένα σύνολο n αντικειμένων το οποίο πρόκειται να ομαδοποιηθεί σε k συστάδες με βάση τον αλγόριθμο ΡΑΜ. Ο ΡΑΜ ξεκινά με την εύρεση των k medoids, επιλέγοντας αυθαίρετα k αντικείμενα. Στην συνέχεια σε κάθε βήμα, εκτελείται μία ανταλλαγή ανάμεσα σε ένα επιλεγμένο αντικείμενο σε ένα μη επιλεγμένο O i και O h αντικείμενο μέχρι η ανταλλαγή αυτή να οδηγήσει στην βελτίωση της ποιότητας της συσταδοποίησης. Ειδικότερα, για να υπολογίσουμε το αποτέλεσμα μίας τέτοιας ανταλλαγής ανάμεσα στα αντικείμενα O i και O h, ο ΡΑΜ υπολογίζει το κόστος C jih για όλα τα μη επιλεγμένα αντικείμενα O j. Ο ορισμός του κόστους γίνεται σύμφωνα με τέσσερις ακόλουθες εκφράσεις ανάλογα με τις περιπτώσεις των αντικειμένων O j. Το O j ανήκει στην συστάδα που αντιπροσωπεύεται από το O i. Επιπρόσθετα, με την προϋπόθεση ότι το O j είναι πιο κοντά στο αντικείμενο O j, 2 από ότι στο αντικείμενο O h, O O do, O d j, h j j,2, όπου το j, 2 πιο κοντά στο O j. Έτσι εάν αντικατασταθεί το δηλαδή O είναι το δεύτερο medoid που είναι O i με το O h σαν medoid, το O θα ανήκει στην συστάδα που αντιπροσωπεύεται από το O j, 2. Το j κόστος της ανταλλαγής θα δίνεται από την εξίσωση: C jih d( O j, O j 2) d( O, O ), j i Η ισότητα αυτή δίνει πάντα μη αρνητική τιμή για το κόστος, υποδηλώνοντας ότι το κόστος που προκύπτει για την αντικατάσταση του O i με το O h δεν είναι αρνητικό.

143 3 ο Κεφάλαιο Συσταδοποίηση 144 Το O j ανήκει στην συστάδα που αντιπροσωπεύεται από το αυτή τη φορά, το σχέση με το αντικείμενο O i. Αλλά O σε O j είναι λιγότερο κοντά στο αντικείμενο j, 2 O, δηλαδή O O do, O h d. Έτσι εάν j, h j j,2 αντικατασταθεί το O i με το O h σαν medoid, το O j θα ανήκει στην συστάδα που αντιπροσωπεύεται από το ανταλλαγής θα δίνεται από την εξίσωση: O h. Το κόστος της C jih d( O j, Oh ) d( O j, Oi ) Η τιμή του κόστους μπορεί να είναι αρνητική ή και θετική ανάλογα με το αν το αντικείμενο O j προσεγγίζει περισσότερο το O i ή το O h. Υποθέτοντας ότι το O j ανήκει σε μία συστάδα διαφορετική από αυτή που αντιπροσωπεύεται από το O j. Έστω ότι j, 2 O είναι ο αντιπρόσωπος της συστάδας. Επίσης, θεωρείται ότι το περισσότερο το O h, το O i από ότι το O h. Έτσι εάν αντικατασταθεί το O j προσεγγίζει O i με το O j θα παραμείνει στην συστάδα που αντιπροσωπεύεται από το O j,2. To κόστος της ανταλλαγής θα δίνεται από την εξίσωση: C jih 0 Το O j ανήκει στην συστάδα που αντιπροσωπεύεται από το Oj2. Αλλά το O j είναι λιγότερο κοντά στο αντικείμενο Oj,2 από ότι με το αντικείμενο O h. Έτσι εάν αντικατασταθεί το Ο; με το O h θεωρώντας σαν νέο medoid, το O j θα μετακινηθεί στην συστάδα που αντιπροσωπεύεται από το από την εξίσωση: O h. To κόστος της ανταλλαγής θα δίνεται

144 3 ο Κεφάλαιο Συσταδοποίηση 145 C jih d( O j, Oh ) d( O j, O j, 2) Το κόστος στην περίπτωση αυτή θα είναι πάντοτε αρνητικό. Συνδυάζοντας τις παραπάνω περιπτώσεις το συνολικό κόστος αντικατάστασης του αντικειμένου O i με το O h δίνεται από την εξίσωση TC ih j C jih Βήματα αλγορίθμου ΡΑΜ Τα βασικά βήματα του ΡΑΜ σε μορφή ψευδοκώδικα είναι [7]: 1. Τυχαία επιλογή k αντιπροσώπων για τις συστάδες. 2. Υπολογισμός του συνολικού κόστους TC ih για όλα τα ζεύγη των αντικειμένων και το O i, O h όπου το O h είναι ένα μη επιλεγμένο αντικείμενο. O i είναι το τρέχον επιλεγμένο αντικείμενο 3. Επιλέγεται το ζεύγος O i, O h το οποίο αντιστοιχεί στο min Oi, Oh TC ih. Εάν το συνολικό κόστος είναι αρνητικό αντικαθίσταται το O i με το O h και γίνεται επιστροφή στο βήμα Διαφορετικά, για κάθε μη επιλεγμένο αντικείμενο, υπολογίζεται το αντικείμενο αντιπρόσωπος που προσεγγίζει περισσότερο. Halt. Ο ΡΑΜ δουλεύει ικανοποιητικά για μικρά σύνολα δεδομένων, ενώ αποδεικνύεται μη αποδοτικός για σύνολα δεδομένων μεσαίου και μεγάλου μεγέθους λόγω της μεγάλης πολυπλοκότητας του. Στο βήμα 2 και 3 υπάρχουν συνολικά kn k ζεύγη αντικειμένων O i, O h, όπου n είναι ο αριθμός των

145 3 ο Κεφάλαιο Συσταδοποίηση 146 στοιχείων του συνόλου δεδομένων και k είναι ο αριθμός των συστάδων. Για κάθε ζεύγος ο υπολογισμός του συνολικού κόστους απαιτεί την εξέταση n k μη επιλεγμένων αντικειμένων. Συνεπώς τα βήματα 2 και 3 έχουν για μία επανάληψη πολυπλοκότητα kn k έχει μεγάλο κόστος για μεγάλες τιμές του n και k. 2 O. Είναι λοιπόν φανερό ότι ο ΡΑΜ Αλγόριθμος Ενέργειας Δεσμού Ο αλγόριθμος ενέργειας δεσμού (Bond Energy Algorithm - BEA) αναπτύχθηκε και χρησιμοποιείται στη σχεδίαση των βάσεων δεδομένων για τον καθορισμό του τρόπου ομαδοποίησης των δεδομένων και της φυσικής τους τοποθέτησης στο δίσκο. Μπορεί να χρησιμοποιηθεί για τη συσταδοποίηση των γνωρισμάτων βάσει της χρήσης τους και στη συνέχεια να εκτελέσει λογικό ή φυσικό σχεδιασμό ανάλογα. Στον αλγόριθμο ΒΕΑ, η συγγένεια ή δεσμός (bond) μεταξύ των γνωρισμάτων της βάσης δεδομένων βασίζεται στον κοινό τρόπο χρήσης. Ο δεσμός αυτός χρησιμοποιείται από τον αλγόριθμο συσταδοποίησης ως μέτρο ομοιότητας. Το πραγματικό μέτρο μετράει το πλήθος των περιπτώσεων που δύο γνωρίσματα χρησιμοποιούνται μαζί σε μια δοθείσα χρονική στιγμή. Για να βρεθεί αυτό, θα πρέπει να εντοπιστούν όλα τα κοινά ερωτήματα. Σχήμα 3.7 Μήτρα Συγγένειας για τον Αλγόριθμο BEA

146 3 ο Κεφάλαιο Συσταδοποίηση 147 Η βασική ιδέα της τεχνικής αυτής είναι πως τα γνωρίσματα που χρησιμοποιούνται μαζί σχηματίζουν μια συστάδα και θα πρέπει να αποθηκεύονται μαζί. Σε μια κατανεμημένη βάση δεδομένων, κάθε συστάδα που προκύπτει ονομάζεται κάθετο τεμάχιο (vertical fragment), το καθένα από τα οποία τοποθετείται σε διαφορετικό τόπο (site). Τα βασικά βήματα αυτού του αλγορίθμου συσταδοποίησης είναι τα ακόλουθα: 1) Δημιουργία μιας μήτρας συγγένειας γνωρισμάτων, της οποίας η κάθε είσοδος δείχνει τη συγγένεια μεταξύ των δύο σχετιζόμενων γνωρισμάτων. Οι είσοδοι στη μήτρα ομοιότητας βασίζονται στη συχνότητα της κοινής χρήσης των ζευγών γνωρισμάτων. 2) Μετατροπή, στη συνέχεια, αυτής της μήτρας ομοιότητας σε μία BOND μήτρα, οι είσοδοι της οποίας αντιπροσωπεύουν έναν τύπο συγγένειας πλησιέστερου γείτονα που βασίζεται στην πιθανότητα ταυτόχρονης πρόσβασης. Εκ νέου διάταξη των γραμμών ή των στηλών έτσι ώστε παρόμοια γνωρίσματα να εμφανίζονται στη μήτρα σε κοντινή απόσταση μεταξύ τους. 3) Τέλος, χάραξη ορίων γύρω από τις περιοχές της μήτρας που παρουσιάζουν μεγάλη ομοιότητα CLARA (Clustering Large Applications) Ο αλγόριθμος CLARA σχεδιάστηκε από τους Kaufman και Rousseeuw, προκειμένου να διαχειριστούν μεγάλα σύνολα δεδομένων. Η βασική διαφορά ανάμεσα στον CLARA και τον ΡΑΜ είναι ότι ο πρώτος βασίζεται στην δειγματοποίηση (sampling). Ο CLARA αντίθετα με τον ΡΑΜ δεν βρίσκει αντικείμενα αντιπροσώπους για ολόκληρο το σύνολο δεδομένων, αλλά λαμβάνει με τυχαίο τρόπο ένα δείγμα του συνόλου των δεδομένων, εφαρμόζει στο δείγμα τον ΡΑΜ και βρίσκει τα medoids του δείγματος. Η ιδέα είναι ότι εάν

147 3 ο Κεφάλαιο Συσταδοποίηση 148 το δείγμα είναι σχεδιασμένο με εντελώς τυχαίο τρόπο, τότε αναπαριστά ολόκληρο το σύνολο ικανοποιητικά και για το λόγο αυτό τα αντικείμενα αντιπρόσωποι (medoids) του δείγματος θα προσεγγίζουν τα medoids ολόκληρου του συνόλου δεδομένων. Ο αλγόριθμος σχεδιάζει πολλαπλά δείγματα και εξάγει την καλύτερη συσταδοποίηση από τα δείγματα αυτά. Τα πειράματα έχουν αποδείξει ότι πέντε δείγματα μεγέθους ικανοποιητικά αποτελέσματα [23]. 40 2k δίνουν Αλγόριθμος CLARA Για i 1,... 5, επαναλαμβάνουμε τα επόμενα βήματα Σχεδιάζεται ένα δείγμα 40+2k αντικειμένων με τυχαίο τρόπο από το σύνολο των δεδομένων και καλείται ο αλγόριθμος ΡΑΜ για να την εύρεση των k αντιπροσώπων για τις συστάδες. Για κάθε αντικείμενο O j στο σύνολο δεδομένων, καθορίζεται πιο από τα k medoids προσεγγίζει περισσότερο το O j. Υπολογίζεται η συνολική ανομοιότητα για την συσταδοποίηση που λαμβάνεται από το προηγούμενο βήμα. Εάν αυτή η τιμή είναι μικρότερη από το τρέχον ελάχιστο, χρησιμοποιείται αυτή η τιμή του ελαχίστου σαν τρέχον ελάχιστο και διατηρούνται τα k medoids που βρέθηκαν στο δεύτερο βήμα σαν το καλύτερο σύνολο των medoids που υπολογίστηκαν μέχρι στιγμής. Επιστροφή στο πρώτο βήμα και έναρξη της επόμενης επανάληψης. Ο CLARA εφαρμόζει τον ΡΑΜ μόνο σε δείγματα και έτσι σε κάθε επανάληψη η πολυπλοκότητα είναι O k k 2 kn k 40. Συνεπώς ο CLARA είναι πιο

148 3 ο Κεφάλαιο Συσταδοποίηση 149 αποδοτικός από τον ΡΑΜ για μεγάλες τιμές του n (αριθμός στοιχείων συνόλου δεδομένων) [24] CLARANS (Clustering Large Applications Based on Randomized Search) Ο Αλγόριθμος CLARANS προσπαθεί να συνδυάσει τους αλγορίθμους ΡΑΜ και CLARA εκτελώντας κάθε φορά αναζήτηση μόνο σε ένα υποσύνολο του συνόλου των δεδομένων ενώ δεν περιορίζεται σε κάποιο δείγμα σε μια δεδομένη στιγμή. Ενώ ο CLARA έχει ένα καθορισμένο δείγμα σε κάθε βήμα της αναζήτησης, ο CLARANS σχεδιάζει ένα δείγμα με τυχαίο τρόπο σε κάθε βήμα της αναζήτησης. Η διαδικασία συσταδοποίησης μπορεί να παρασταθεί σαν ένα γράφημα όπου κάθε κόμβος είναι μια πιθανή λύση δηλαδή ένα σύνολο από k medoids. Η συσταδοποίηση που λαμβάνεται μετά την αντικατάσταση ενός medoid καλείται γείτονας (neighbor) της τρέχουσας συσταδοποίησης. Ο αριθμός των γειτόνων που μπορούν να δοκιμαστούν τυχαία περιορίζεται από μία παράμετρο που καλείται maxneighbor. Εάν βρεθεί ένας καλύτερος γείτονας ο CLARANS μετακινείται στον κόμβο του γείτονα και η διαδικασία ξεκινάει πάλι από τον κόμβο αυτό, ενώ σε διαφορετική περίπτωση η τρέχουσα συσταδοποίηση παράγει ένα τοπικό βέλτιστο. Εάν βρεθεί ένα τοπικό βέλτιστο, ο αλγόριθμος CLARANS αρχίζει με ένα νέο τυχαία επιλεγμένο κόμβο για την αναζήτηση ενός νέου τοπικού βέλτιστου. Ο αριθμός των τοπικών βέλτιστων που θα αναζητηθούν καθορίζεται επίσης από μία παράμετρο που καλείται numlocal. Ο αλγόριθμος αυτός έχει αποδειχθεί πιο αποδοτικός σε σχέση με τον CLARA και τον ΡΑΜ και η υπολογιστική πολυπλοκότητα του για κάθε επανάληψη εξαρτάται από τον αριθμό των 2 αντικειμένων, O n. Ωστόσο, λόγω της τυχαίας προσέγγισης του CLARANS, για μεγάλες τιμές του Ν, η ποιότητα των αποτελεσμάτων δεν είναι εγγυημένη.

149 3 ο Κεφάλαιο Συσταδοποίηση 150 Βήματα αλγορίθμου CLARANS Τα βασικά βήματα του αλγορίθμου μπορούν να συνοψιστούν στα εξής : 1ο. Αρχικοποίηση των παραμέτρων numlocal (αριθμός τοπικών βέλτιστων που θα αναζητηθούν) και maxneighbor (μέγιστος αριθμός γειτόνων που μπορούν να εξεταστούν). Αρχικοποίηση του i σε 1 και καθορισμός ως ελάχιστο κόστος mincost έναν μεγάλο αριθμό. 2ο. Καθορισμός της μεταβλητής current (τρέχον κόμβος προς εξέταση) ώστε να αναφέρεται σε έναν αρχικό κόμβο G nk. 3ο. Τίθεται το j ίσο με 1. 4ο. Θεωρείται ένας τυχαίος γείτονας S του τρέχοντος και υπολογίζεται το κόστος αντικατάστασης του τρέχοντος κόμβου από τον γειτονικό κόμβο. 5ο. Εάν ο S έχει μικρότερο κόστος, τίθεται ως τρέχον κόμβος (current) ο S και επιστροφή στο 3ο βήμα. 6ο. Διαφορετικά, αυξάνεται το j κατά 1. Εάν j maxneighbor, επιστροφή στο 4ο βήμα. 7ο. Διαφορετικά, όταν το j maxneighbor, συγκρίνεται το κόστος του τρέχοντος κόμβου current με το ελάχιστο κόστος mincost. Εάν το πρώτο είναι μικρότερο από το mincost, τίθεται ως mincost το κόστος του current και ορίζεται ως καλύτερος κόμβος (bestnode) ο current. 8ο. Αυξάνεται το i κατά 1. Εάν i numlocal, εξάγεται ο καλύτερος κόμβος και η διαδικασία σταματά. Διαφορετικά, η διαδικασία επιστρέφει στο 2ο βήμα.

150 3 ο Κεφάλαιο Συσταδοποίηση 151 Όσο μεγαλύτερος είναι ο αριθμός των γειτόνων (maxneighbor) που εξετάζονται τόσο ο αλγόριθμος CLARANS προσεγγίζει τον ΡΑΜ και η αναζήτηση για την εύρεση του τοπικού ελαχίστου έχει μεγαλύτερη διάρκεια. Αλλά η ποιότητα ενός τέτοιου τοπικού ελαχίστου είναι μεγαλύτερη και έτσι λιγότερα τοπικά ελάχιστα χρειάζεται να εξεταστούν [24] Συσταδοποίηση με Γενετικούς Αλγορίθμους Υπάρχουν αλγόριθμοι συσταδοποίησης που βασίζονται στη χρήση γενετικών αλγορίθμου. Πριν προσδιοριστεί ο τρόπος εκτέλεσης συσταδοποίησης μέσω γενετικών αλγορίθμου θα πρέπει πρώτα να καθοριστεί πώς θα αναπαρασταθούν οι συστάδες. Μια απλή προσέγγιση θα ήταν η χρήση μιας bitmap αναπαράστασης για κάθε πιθανή συστάδα. Για παράδειγμα, για μια βάση δεδομένων με τέσσερα στοιχεία, {Α, Β, C, D}, θα μπορούσε να αναπαρασταθεί μια λύση για τη δημιουργία δύο συστάδων ως 1001 και Η λύση αυτή αναπαριστά τις ακόλουθες δύο συστάδες: {A, D} και {Β, C}. Στον παρακάτω αλγόριθμο παρουσιάζεται μια πιθανή επαναληπτική τεχνική βελτίωσης για τη συσταδοποίηση η οποία χρησιμοποιεί γενετικούς αλγορίθμους. Η προσέγγιση αυτή μοιάζει με την προσέγγιση τετραγωνικού σφάλματος δεδομένου ότι και στις δύο δίνεται μια αρχική τυχαία λύση και μετά από διαδοχικές αλλαγές σε αυτή, υπάρχει σύγκλιση σε ένα τοπικό ελάχιστο. Μια νέα λύση παράγεται από την προηγούμενη λύση μέσω των γενετικών λειτουργιών διασταύρωσης και μεταλλαγής. Ο αλγόριθμος μας δείχνει μόνο τη λειτουργία της διασταύρωσης. Η χρήση της διασταύρωσης για την δημιουργία μιας νέας λύσης από κάποια προηγούμενη λύση παρουσιάζεται στο ακόλουθο παράδειγμα Η νέα "λύση" θα πρέπει να δημιουργηθεί κατά τρόπο που να αντιπροσωπεύει μια έγκυρη k συσταδοποίηση. Θα πρέπει να χρησιμοποιηθεί μια συνάρτηση καταλληλότητας, η οποία μπορεί να οριστεί βάσει του αντίστροφου του τετραγωνικού σφάλματος. Εξαιτίας του τρόπου με τον οποίο δουλεύει η λειτουργία της διασταύρωσης, οι γενετικοί αλγόριθμοι εκτελούν καθολική αντί τοπικής αναζήτησης των ενδεχόμενων λύσεων.

151 3 ο Κεφάλαιο Συσταδοποίηση 152 Αλγόριθμος GA Input D t 1, t 2,..., t n //set of elements k //Number of desired clusters Output: K // Set of clusters GA clustering algorithm: Randomly create an initial solution; Repeat Use crossover to create a new solution; Until termination criteria is met; Παράδειγμα 3.2 Έστω μια βάση δεδομένων η οποία περιέχει τα ακόλουθα οκτώ στοιχεία {Α, Β, C, D, Ε, F, G, Η), που θα πρέπει να τοποθετηθούν σε τρεις συστάδες. Αρχικά τα στοιχεία τοποθετούνται στις τρεις συστάδες {A, C, Ε}, {Β, F} και {D, G, Η}, που αναπαρίστανται ως , και , αντίστοιχα. Έστω ότι επιλέγεται το πρώτο και το τρίτο στοιχείο ως γονείς και γίνεται μια απλή διασταύρωση στο σημείο 4. Αυτό οδηγεί στη νέα λύση: , , και Δέντρο Ελάχιστης Ζεύξης Δεδομένου ότι υπάρχουν τόσο συσσωρευτικοί όσο και διαιρετικοί αλγόριθμοι που στηρίζονται στη χρήση του δένδρου ελάχιστης ζεύξης, θα παρουσιαστεί στη συνέχεια ένας διαμεριστικός MST αλγόριθμος. Η συγκεκριμένη προσέγγιση είναι πολύ απλοϊκή, αλλά επιλέγει τον τρόπο με τον οποίο δουλεύουν οι διαμεριστικοί αλγόριθμοι. Ο αλγόριθμος φαίνεται στον παρακάτω αλγόριθμο, δεδομένου ότι το πρόβλημα της συσταδοποίησης είναι

152 3 ο Κεφάλαιο Συσταδοποίηση 153 ο καθορισμός μιας αντιστοίχησης, η έξοδος αυτού του αλγορίθμου δείχνει τις συστάδες ως ένα σύνολο διατεταγμένων ζευγών t i, j όπου f ( t i ) K j. Αλγόριθμος Partitional MST Input D t 1, t 2,..., t n //set of elements A // Adjacency matrix showing distance between elements k // Number of desired clusters Output: f //Mapping represented as a set of ordered pairs Partitional MST algorithm: M=MST(A) Identify inconsistent edges in M; Remove k-1 inconsistent edges; Create output representation; Το πρόβλημα είναι ο ορισμός των "ασυνεπών" (inconsistent) ακμών. Θα μπορούσαν να οριστούν όπως και στον προηγούμενο διαιρετικό MST αλγόριθμο βάσει της απόστασης. Ο αλγόριθμος θα απομάκρυνε τις μεγαλύτερες k 1 ακμές από τον αρχικό πλήρως συνεκτικό γράφο και θα παρήγαγε τα ίδια αποτελέσματα με το αντίστοιχο επίπεδο του δενδρογράμματος. Ο Zahn προτείνει πιο λογικά μέτρα ασυνέπειας που βασίζονται στο βάρος (απόσταση) μιας ακμής σε σχέση με τις γειτονικές της ακμές. Για παράδειγμα, ασυνεπής ακμή θα ήταν μία της οποίας το βάρος είναι πολύ μεγαλύτερο από το μέσο όρο των γειτονικών ακμών. Η πολυπλοκότητα χρόνου του συγκεκριμένου αλγορίθμου καθορίζεται και 2 πάλι από τη διαδικασία MST, η οποία έχει πολυπλοκότητα O n. Θα απομακρυνθούν το πολύ k 1 ακμές και έτσι τα τελευταία τρία βήματα του αλγορίθμου, υποθέτοντας ότι κάθε βήμα απαιτεί σταθερό χρόνο, απαιτούν χρόνο k 1 O. Παρά το γεγονός ότι ο προσδιορισμός των ασυνεπών ακμών του M μπορεί να είναι αρκετά πολύπλοκος, ο χρόνος που απαιτείται δεν υπερβαίνει το πλήθος των ακμών του M. Το πλήθος των γειτονικών ακμών μιας ακμής δεν υπερβαίνει το k 2. Στην περίπτωση αυτή, τα τελευταία τρία

153 3 ο Κεφάλαιο Συσταδοποίηση βήματα απαιτούν O k 2 πολυπλοκότητα n O [5]., και ο συνολικός αλγόριθμος εξακολουθεί να έχει Συσταδοποίηση με Νευρωνικά Δίκτυα Τα Νευρωνικά Δίκτυα (Neural Networks NN) που χρησιμοποιούν μη επιβλεπόμενη μάθηση προσπαθούν να βρουν χαρακτηριστικά στα δεδομένα που χαρακτηρίζουν την επιθυμητή έξοδο. Ψάχνουν για συστάδες παρόμοιων δεδομένων. Αυτοί οι τύπο νευρωνικών δικτύων καλούνται πολύ συχνά και self-organizing neural networks. Υπάρχουν δύο βασικοί τύποι μη επιβλεπόμενης μάθησης ή μη ανταγωνιστική και η ανταγωνιστική μάθηση. Στη μη ανταγωνιστική (non competitive) ή Hebbian μάθηση, το βάρος μεταξύ δύο κόμβων αλλάζει ώστε να είναι ανάλογο και των δύο τιμών εξόδου. Δηλαδή w y ji j y i Στην ανταγωνιστική μάθηση (competitive learning), οι κόμβοι επιτρέπεται να ανταγωνίζονται μεταξύ τους και "ο νικητής τα παίρνει όλα". Αυτή η προσέγγιση προϋποθέτει συνήθως ένα νευρωνικό δίκτυο δύο επιπέδων στο οποίο όλοι οι κόμβοι του ενός επιπέδου συνδέονται με όλους τους κόμβους του άλλου επιπέδου. Καθώς γίνεται η εκπαίδευση, οι κόμβοι του επιπέδου εξόδου συσχετίζονται με συγκεκριμένες πλειάδες του συνόλου δεδομένων εισόδου. Αυτό οδηγεί στη συσταδοποίηση αυτών των πλειάδων σε μία συστάδα. Κάθε πλειάδα εισόδου έχει όλες τις τιμές γνωρισμάτων ως είσοδο κάποιο συγκεκριμένο κόμβο εισόδου του ΝΝ. Το πλήθος των κόμβων εισόδου ισούται με το πλήθος των γνωρισμάτων. Μπορεί συνεπώς να συσχετιστεί το βάρος του κόμβου εξόδου με ένα από τα γνωρίσματα της πλειάδας εισόδου. Όταν μία πλειάδα είναι είσοδος στο ΝΝ, όλοι οι κόμβοι εξόδου παράγουν μια τιμή εξόδου. Ο κόμβος που έχει πιο κοντινά βάρη ως προς τους κόμβους εισόδου

154 3 ο Κεφάλαιο Συσταδοποίηση 155 θεωρείται νικητής. Στη συνέχεια ρυθμίζονται τα βάρη του. Η διαδικασία αυτή συνεχίζεται με είσοδο κάθε πλειάδα του συνόλου εκπαίδευσης. Με ένα μεγάλο και αρκετά διαφορετικό σύνολο εκπαίδευσης, στην πορεία του χρόνου κάθε κόμβος εξόδου θα πρέπει να συσχετιστεί με ένα σύνολο πλειάδων, βάρη εισόδου του κόμβου είναι τότε κοντά στο μέσο όρο των πλειάδων της συστάδας Self-Organizing Feature Map Ένας Self-Organizing Feature Map (SOFM) ή Self-Organizing Map (SOM) είναι μια ΝΝ προσέγγιση που χρησιμοποιεί ανταγωνιστική μη επιβλεπόμενη μάθηση. Η μάθηση βασίζεται στην ιδέα ότι η συμπεριφορά ενός κόμβου θα πρέπει να επιδρά μόνο στους κοντινούς του κόμβους και ακμές. Αρχικά τα βάρη on τίθενται τυχαία και ρυθμίζονται κατά τη διάρκεια της διαδικασίας μάθησης για να παράγουν καλύτερα αποτελέσματα. Κατά τη διάρκεια αυτής της διαδικασίας μάθησης, κρυμμένα γνωρίσματα ή πρότυπα στα δεδομένα δεν έχουν αποκαλυφθεί και τα βάρη μοιράζονται ανάλογα. Η λειτουργία των SOFM βασίζεται στον τρόπο λειτουργίας των νευρώνων του εγκεφάλου και των τεχνητών νευρωνικών δικτύων. Πιο συγκεκριμένα [25]: Η διέγερση των νευρώνων επηρεάζει και τη διέγερση άλλων νευρώνων που βρίσκονται κοντά του. Οι νευρώνες που βρίσκονται σε μεγάλες μεταξύ τους αποστάσεις φαίνεται να αλληλοαναχαιτίζονται. Οι νευρώνες φαίνεται να έχουν συγκεκριμένες διακριτές μεταξύ τους λειτουργίες. Ο όρος αυτοργανωνόμενος δείχνει την ικανότητα αυτών των ΝΝ να οργανώνουν τους κόμβους σε συστάδες βάσει της μεταξύ τους ομοιότητας. Οι

155 3 ο Κεφάλαιο Συσταδοποίηση 156 κόμβοι που βρίσκονται πιο κοντά μεταξύ τους έχουν μεγαλύτερη ομοιότητα απ' ότι οι κόμβοι που βρίσκονται μακριά Αυτό αποτελεί και ένδειξη του πώς εκτελείται η πραγματική συσταδοποίηση. Με τη πάροδο του χρόνου, οι κόμβοι του επιπέδου εξόδου ταιριάζουν με τους κόμβους του επιπέδου εισόδου και αναδύονται τα πρότυπα κόμβων του επιπέδου εξόδου. Σχήμα 3.8 Δίκτυο Kohonen Το πιο γνωστό παράδειγμα SOFM είναι ο αυτοοργανωνόμενος χάρτης Kohonen (Kohonen Self-Organizing Map), o οποίος χρησιμοποιείται εκτενώς στα εμπορικά προϊόντα εξόρυξης γνώσης για την εκτέλεση της συσταδοποίησης. Υπάρχει ένα επίπεδο εισόδου και ένα ειδικό επίπεδο, που παράγει τιμές εξόδου που συναγωνίζονται μεταξύ τους. Ως αποτέλεσμα, δημιουργούνται πολλαπλές έξοδοι και επιλέγεται η καλύτερη. Αυτό το επιπλέον επίπεδο τεχνικά δεν είναι ούτε κρυφό επίπεδο ούτε επίπεδο εξόδου, και έτσι αναφερόμαστε σ' αυτό ως το ανταγωνιστικό επίπεδο. Οι κόμβοι αυτού του επιπέδου θεωρούνται ως 2-διάστατα πλέγματα κόμβων όπως φαίνεται στο Σχήμα 3.8. Κάθε κόμβος εισόδου συνδέεται με κάθε κόμβο του πλέγματος. Η διάδοση εμφανίζεται με την αποστολή της τιμής εισόδου κάθε

156 3 ο Κεφάλαιο Συσταδοποίηση 157 κόμβου εισόδου σε κάθε κόμβο του ανταγωνιστικού επιπέδου. Όπως και στα κανονικά ΝΝ, κάθε ακμή σχετίζεται με ένα βάρος και κάθε κόμβος του ανταγωνιστικού επιπέδου έχει μια συνάρτηση ενεργοποίησης. Έτσι, κάθε κόμβος του ανταγωνιστικού επιπέδου παράγει μια τιμή εξόδου, ο κόμβος με την καλύτερη έξοδο κερδίζει τον ανταγωνισμό και ορίζεται να είναι η έξοδος για τη συγκεκριμένη είσοδο. Ένα ελκυστικό χαρακτηριστικό των δικτύων Kohonen είναι ότι τα δεδομένα μπορούν να τροφοδοτήσουν παράλληλα τους πολλαπλούς ανταγωνιστικούς κόμβους. Η εκπαίδευση λαμβάνει χώρα ρυθμίζοντας τα βάρη έτσι ώστε η καλύτερη έξοδος να είναι ακόμη καλύτερη την επόμενη φορά που θα χρησιμοποιηθεί αυτή η είσοδος. Η έννοια "καλύτερη" ορίζεται υπολογίζοντας ένα μέτρο απόστασης. Μια συνηθισμένη προσέγγιση είναι η αρχικοποίηση των βαρών των ακμών εισόδου του ανταγωνιστικού επιπέδου με κανονικοποιημένες τιμές. Η ομοιότητα μεταξύ των κόμβων εξόδου και των διανυσμάτων εισόδου ορίζεται τότε ως το εσωτερικό γινόμενο των δύο διανυσμάτων. Δοθείσης μιας πλειάδας εισόδου X x,..., x και των βαρών των ακμών που αποτελούν 1 h εισόδους σε κάποιο ανταγωνιστικό κόμβο i ως των Χ και i μπορεί να υπολογιστεί ως εξής: w 1,..., w, η ομοιότητα μεταξύ i hi X, i Sim j1 h x i w ji Ο ανταγωνιστικός κόμβος που έχει τη μεγαλύτερη ομοιότητα με τον κόμβο εισόδου κερδίζει τον ανταγωνισμό. Βάσει αυτού, αυξάνονται τα βάρη που καταλήγουν στον κόμβο i, όπως επίσης και αυτά των κόμβων που τον περιβάλλουν άμεσα στη μήτρα. Αυτή είναι η φάση μάθησης. Δοθέντος ενός κόμβου i, χρησιμοποιούμε το συμβολισμό ένωση του i με τους κοντινούς του κόμβους στη μήτρα. N i για να αναπαραστήσουμε την

157 3 ο Κεφάλαιο Συσταδοποίηση Συσταδοποίηση σε Μεγάλες Βάσεις Δεδομένων Οι αλγόριθμοι συσταδοποίησης που παρουσιάστηκαν παραπάνω αποτελούν μερικούς από τους κλασικούς αλγορίθμους συσταδοποίησης Ωστόσο, οι αλγόριθμοι αυτοί ενδέχεται να είναι ακατάλληλοι στην περίπτωση των δυναμικών βάσεων δεδομένων. Καταρχήν, επειδή οι περισσότεροι έχουν 2 πολυπλοκότητα n O θεωρούν ότι υπάρχει επαρκής κύρια μνήμη για την αποθήκευση των προς συσταδοποίηση δεδομένων και των δομών δεδομένων που χρειάζονται για την υποστήριξη τους. Δεδομένου όμως ότι οι μεγάλες βάσεις δεδομένων περιέχουν χιλιάδες στοιχεία (ή και περισσότερα) οι παραδοχές αυτές δεν είναι ρεαλιστικές. Επιπλέον, η εκτέλεση I/O λειτουργιών είναι πολύ ακριβή λόγω της επαναληπτικής φύσης των αλγορίθμων. Εξαιτίας αυτών των περιορισμών της κύριας μνήμης, οι αλγόριθμοι δεν έχουν κλιμάκωση σε μεγάλες βάσεις δεδομένων. Ένα ακόμη θέμα είναι ότι μερικοί αλγόριθμοι υποθέτουν πως τα δεδομένα υπάρχουν όλα ταυτοχρόνως. Οι τεχνικές αυτές δεν είναι κατάλληλες για δυναμικές βάσεις δεδομένων. Οι τεχνικές συσταδοποίησης θα πρέπει να μπορούν να προσαρμόζονται καθώς η βάση δεδομένων αλλάζει. Οι αλγόριθμοι που μελετώνται στις επόμενες ενότητες εξετάζουν ο καθένας από ένα θέμα που σχετίζεται με την εκτέλεση της συσταδοποίησης σε ένα περιβάλλον βάσης δεδομένων. Για να είναι αποδοτικός σε μεγάλες βάσεις δεδομένων ένας αλγόριθμος συσταδοποίησης θα πρέπει [26]: 1) να μην απαιτεί περισσότερο από (κατά προτίμηση, να απαιτεί λιγότερο από) μία σάρωση της βάσης δεδομένων 2) να έχει την ικανότητα κατά τη διάρκεια της εκτέλεσης του να παρέχει πληροφορίες σχετικά με την κατάσταση και τη "βέλτιστη" μέχρι εκείνη τη στιγμή απάντηση. Αυτή η δυνατότητα μερικές φορές καλείται online 3) να μπορεί να διακόπτεται προσωρινά, να σταματά οριστικά, να συνεχίζει την εκτέλεση του μετά από προσωρινή διακοπή.

158 3 ο Κεφάλαιο Συσταδοποίηση 159 4) να μπορεί να ενημερώνει τα αποτελέσματα του αυξητικά, καθώς προστίθενται ή αφαιρούνται δεδομένα από τη βάση δεδομένων 5) να δουλεύει με περιορισμένη κύρια μνήμη 6) να έχει την ικανότητα να εκτελεί διαφορετικές τεχνικές για τη σάρωση της βάσης δεδομένων, συμπεριλαμβανομένης πιθανώς της δειγματοληψίας. 7) να επεξεργάζεται κάθε πλειάδα μία φορά μόνο. Πρόσφατη έρευνα της Microsoft εξετάζει το θέμα της αποδοτικής εκτέλεσης των αλγορίθμων συσταδοποίησης σε μεγάλες βάσεις δεδομένων [26]. Η βασική ιδέα αυτής της προσέγγισης κλιμάκωσης είναι η ακόλουθη: Ανάγνωση ενός υποσυνόλου της βάσης δεδομένων στην κύρια μνήμη. Εφαρμογή τεχνικών συσταδοποίησης στα δεδομένα της (κύριας) μνήμης. Συνδυασμός των αποτελεσμάτων με αυτά προηγούμενων δειγμάτων. Διαχωρισμός των δεδομένων που βρίσκονται στη μνήμη σε τρεις διαφορετικούς τύπους: I. Tα στοιχεία που θα χρειάζονται συνεχώς, ακόμα και όταν θα έρθουν τα επόμενα δείγματα. II. Tα στοιχεία που μπορούν να απορριφθούν με κατάλληλες ενημερώσεις στα δεδομένα που κρατούνται προκειμένου να απαντηθεί το πρόβλημα.

159 3 ο Κεφάλαιο Συσταδοποίηση 160 III. Aυτά που θα αποθηκευτούν σε συμπιεσμένη μορφή. Έτσι, ανάλογα με τον τύπο του, ένα στοιχείο είτε διατηρείται στη μνήμη ή διαγράφεται ή συμπιέζεται. Αν τα κριτήρια τερματισμού δεν ικανοποιούνται, επανάληψη της διαδικασίας ξεκινώντας από το βήμα 1. Η παραπάνω προσέγγιση εφαρμόστηκε στον αλγόριθμο k-means και φάνηκε να είναι αποτελεσματική Αλγόριθμος Cure Ο CURE είναι ένας αλγόριθμος συσταδοποίησης του οποίου τα βασικά χαρακτηριστικά είναι ότι [27] : μπορεί να αναγνωρίζει συστάδες αυθαίρετων (arbitrary) σχημάτων (π.χ. ελλειψοειδή), είναι εύρωστος στην παρουσία των outliers, οι απαιτήσεις του σε χώρο αποθήκευσης είναι γραμμική συνάρτηση του αριθμού των στοιχείων εισόδου και η χρονική πολυπλοκότητα του είναι 2 O για δεδομένα μικρών διαστάσεων, όπου n είναι ο αριθμός των n στοιχείων εισόδου. Ο αλγόριθμος μπορεί να εφαρμοστεί αποδοτικά και για συσταδοποίηση μεγάλων βάσεων δεδομένων συνδυάζοντας τεχνικές τυχαίας δειγματοποίησης (sampling) και τμηματοποίησης (partitioning). Επομένως, τα δεδομένα που εισάγονται στον αλγόριθμο μπορεί να είναι ένα δείγμα που επιλέχθηκε τυχαία από τα αυθεντικό σύνολο δεδομένων ή ένα υποσύνολο αυτού του δείγματος εάν προηγουμένως εφαρμοστεί η συσταδοποίηση.

160 3 ο Κεφάλαιο Συσταδοποίηση 161 Περιγραφή αλγορίθμου Ο αλγόριθμος αρχίζει λαμβάνοντας κάθε σημείο εισόδου σαν ξεχωριστή συστάδα και σε κάθε βήμα που ακολουθεί συγχωνεύει τα πλησιέστερα ζευγάρια συστάδων. Προκειμένου να υπολογιστεί η απόσταση μεταξύ των συστάδων, αποθηκεύονται για κάθε συστάδα c αντιπρόσωποι (representatives). Οι αντιπρόσωποι αυτοί καθορίζονται επιλέγοντας αρχικά τα ή πιο διάσπαρτα σημεία μέσα σε μία συστάδα και στην συνέχεια μετακινούμε τα σημεία προς τον μέσο της συστάδας κατά ένα ποσοστό α. Η απόσταση μεταξύ των συστάδων είναι η απόσταση μεταξύ των πιο κοντινών αντιπροσώπων δύο συστάδων. Έτσι μόνο τα σημεία αντιπρόσωποι μίας συστάδας χρησιμοποιούνται για να υπολογιστεί η απόσταση της από μία άλλη συστάδα. Οι c αντιπρόσωποι προσπαθούν να προσδιορίσουν το φυσικό σχήμα και την γεωμετρία της συστάδας. Επιπρόσθετα, μετακινώντας τα διάσπαρτα σημεία προς το μέσο κατά ένα ποσοστό a απομακρύνεται ο θόρυβος και μετριάζονται οι επιδράσεις των outliers. Ο λόγος που γίνεται αυτό είναι ότι οι outliers βρίσκονται τυπικά μακριά από το κέντρο της συστάδας και έτσι η συρρίκνωση θα κάνει τους outliers να κινηθούν περισσότερο προς το κέντρο ενώ οι αντιπρόσωποι που θα απομείνουν θα υποστούν ελάχιστη μετακίνηση. Οι μεγάλες μετακινήσεις στους outliers θα μειώσουν την δυνατότητα τους να προκαλέσουν συγχώνευση λάθος συστάδων. Η παράμετρος a μπορεί επίσης να χρησιμοποιηθεί και για τον έλεγχο του σχήματος των συστάδων. Μία μικρή τιμή για το a συρρικνώνει τα διάσπαρτα σημεία πολύ λίγο και έτσι ενισχύει την ύπαρξη συστάδων που δεν είναι σφαιρικές. Αντίθετα, μεγάλες τιμές για το a έχουν σαν αποτέλεσμα την δημιουργία συμπαγών συστάδων καθώς τα διάσπαρτα σημεία τοποθετούνται πιο κοντά στο μέσο των συστάδων. Ο αλγόριθμος CURE χειρίζεται περιορισμένη μνήμη καθώς επιλέγει ένα τυχαίο δεν μα για να βρει τις αρχικές συστάδες. Το τυχαίο δείγμα τεμαχίζεται και στη συνέχεια κάθε τεμάχιο συσταδοποιείται. Οι συστάδες που προκύπτουν συσταδοποιούνται στη συνέχεια πλήρως σε ένα δεύτερο πέρασμα. Η δειγματοληψία και ο διαμερισμός γίνονται μεμονωμένα μένα για να εξασφαλιστεί ότι τα δεδομένα (ανεξάρτητα από το μέγεθος της βάσης)

161 3 ο Κεφάλαιο Συσταδοποίηση 162 μπορούν να χωρέσουν στη διαθέσιμη κύρια μνήμη. Όταν ολοκληρωθεί η συσταδοποίηση του δείγματος, εκτελείται η ανάθεση των δεδομένων του δίσκου στις συστάδες. Κάθε στοιχείο, ανατίθεται στη συστάδα με τα πλησιέστερα αντιπροσωπευτικά σημεία. Τα βασικά βήματα του αλγορίθμου CURE για μεγάλες βάσεις δεδομένων είναι τα ακόλουθα: 1. Απομόνωση ενός δείγματος της βάσης δεδομένων. 2. Τεμαχισμός του δείγματος σε p τμήματα, μεγέθους n το καθένα. p Αυτό γίνεται προκειμένου να επιταχυνθεί ο αλγόριθμος καθώς η συσταδοποίηση εκτελείται σε κάθε τμήμα ξεχωριστά. 3. Συσταδοποίηση των σημείων σε κάθε τμήμα χρησιμοποιώντας τον ιεραρχικό αλγόριθμο. Αυτό δίνει μια πρώτη αίσθηση σχετικά με το πώς θα πρέπει να είναι οι συστάδες. Το πλήθος των συστάδων είναι n για κάποια σταθερά q. pq 4. Απομάκρυνση των ακραίων σημείων. Τα ακραία σημεία αποβάλλονται χρησιμοποιώντας δύο διαφορετικές τεχνικές. Η πρώτη τεχνική αποβάλλει τις συστάδες που μεγαλώνουν πολύ αργά. Όταν το πλήθος των συστάδων είναι κάτω από κάποιο κατώφλι, οι συστάδες με μόνο ένα ή δύο στοιχεία διαγράφονται. Είναι πιθανό κάποια κοντινά ακραία σημεία να αποτελούν μέρος του δείγματος και έτσι να μην εντοπιστούν με την πρώτη τεχνική. Η δεύτερη τεχνική απομακρύνει τις πολύ μικρές συστάδες προς το τέλος της φάσης συσταδοποίησης. 5. Συσταδοποίηση όλων των δεδομένων του δείγματος χρησιμοποιώντας τον Αλγόριθμο. Στο σημείο αυτό, για να εξασφαλίσουμε την εκτέλεση στην κύρια μνήμη, η είσοδος περιέχει μόνο τους αντιπροσώπους των συστάδων που βρέθηκαν σε κάθε

162 3 ο Κεφάλαιο Συσταδοποίηση 163 τμήμα κατά τη διάρκεια του βήματος της μερικής συσταδοποίησης (βήμα 3). 6. Συσταδοποίηση όλης της βάσης δεδομένων στο δίσκο χρησιμοποιώντας c σημεία για την αναπαράσταση κάθε συστάδας. Κάθε στοιχείο της βάσης δεδομένων τοποθετείται στη συστάδα με το πλησιέστερο αντιπροσωπευτικό σημείο. Αυτά τα σύνολα των αντιπροσώπων είναι αρκετά μικρά τόσο ώστε να χωράνε στην κύρια μνήμη, έτσι καθένα από τα n σημεία θα πρέπει να συγκριθεί με ck αντιπροσωπευτικά σημεία. Επεκτάσεις για Μεγάλα Σύνολα Δεδομένων Γενικά, οι ιεραρχικοί αλγόριθμοι δεν είναι άμεσα εφαρμόσιμοι σε μεγάλα σύνολα δεδομένων εξαιτίας της υψηλής πολυπλοκότητας. Προκειμένου ο CURE να χειριστεί μεγάλες βάσεις δεδομένων χρησιμοποιεί τον συνδυασμό τυχαίας δειγματοποίησης (sampling) και τμηματοποίησης (partitioning). Ένα τυχαίο δείγμα σχεδιάζεται από το σύνολο των δεδομένων με τρόπο ώστε να είναι αντιπροσωπευτικό του συνόλου. Επιλέγεται δηλαδή ο κατάλληλος αριθμός στοιχείων από το αρχικό σύνολο ώστε κατά την εφαρμογή του αλγορίθμου να μην παραληφθούν συγκεκριμένες συστάδες ή να προσδιοριστούν συστάδες οι οποίες δεν ανταποκρίνονται στα πραγματικές. Καθώς όμως ο διαχωρισμός μεταξύ των συστάδων μειώνεται και οι συστάδες γίνονται λιγότερο πυκνές, απαιτούνται δείγματα μεγάλου μεγέθους για να διακρίνονται με επιτυχία τις συστάδες που υπάρχουν σ' ένα σύνολο δεδομένων. Ωστόσο, καθώς το μέγεθος του συνόλου των δεδομένων εισόδου αυξάνεται, η υπολογιστική πολυπλοκότητα για τον αλγόριθμο συσταδοποίησης CURE αυξάνεται σημαντικά. Για το λόγο αυτό προτείνεται ένα απλό σχήμα συσταδοποίησης για να επιταχυνθεί η εκτέλεση του CURE όταν τα μεγέθη των δειγμάτων εισόδου είναι αρκετά μεγάλα. Το δείγμα του συνόλου των δεδομένων μας διαιρείται σε τμήματα στα οποία και εκτελείται ο αλγόριθμος συσταδοποίησης. Στην συνέχεια με βάση τις συστάδες που έχουν

163 3 ο Κεφάλαιο Συσταδοποίηση 164 προσδιοριστεί στα τμήματα, εφαρμόζεται ο αλγόριθμος για την εύρεση των συστάδων του συνόλου των δεδομένων. Η βασική ιδέα είναι να τμηματοποιήσουμε το δείγμα σε p τμήματα, καθένα μεγέθους n. Στην p συνέχεια εφαρμόζεται συσταδοποίηση σε κάθε τμήμα μέχρι ο αριθμός των συστάδων σε κάθε τμήμα να μειωθεί σε n για κάποια σταθερά q 1. pq Εναλλακτικά, μπορεί να σταματήσει η συγχώνευση των συστάδων σε ένα τμήμα εάν η απόσταση μεταξύ των πλησιέστερων συστάδων που πρόκειται να συγχωνευτούν στο επόμενο βήμα ξεπερνά ένα συγκεκριμένο όριο. Έχοντας παράγει n/pq συστάδες για κάθε τμήμα, μπορεί να εκτελεστεί μία δεύτερη συσταδοποίηση στις n/q συστάδες των τμημάτων Αλγόριθμος BIRCH Ο Aλγόριθμος BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) κατασκευάστηκε για τη συσταδοποίηση μεγάλου πλήθους μετρικών δεδομένων [28]. Ο αλγόριθμος θεωρεί ότι μπορεί να υπάρχει περιορισμένη κύρια μνήμη και επιτυγχάνει γραμμικό χρόνο I/O απαιτώντας μία μόνο σάρωση της βάσης. Ο αλγόριθμος είναι αυξητικός και ιεραρχικός, ενώ χρησιμοποιεί και μια τεχνική για την αντιμετώπιση του προβλήματος των ακραίων σημείων. Τα σημεία που εντοπίζονται σε "αραιοκατοικημένες περιοχές" απομακρύνονται. Η βασική ιδέα του αλγορίθμου είναι η κατασκευή ενός δένδρου που διατηρεί όλη την απαραίτητη πληροφορία για τη διενέργεια της συσταδοποίησης. Η συσταδοποίηση εκτελείται στο ίδιο το δένδρο και οι ετικέτες των κόμβων του δένδρου περιέχουν την απαραίτητη πληροφορία για τον υπολογισμό των αποστάσεων. Ένα κύριο χαρακτηριστικό του αλγορίθμου BIRCH είναι η χρήση του χαρακτηριστικού συσταδοποίησης (clustering feature), μιας τριάδας που περιέχει πληροφορία για τη συστάδα. Το χαρακτηριστικό συσταδοποίησης μιας συστάδας αποτελεί μια περίληψη της πληροφορίας της συστάδας. Από τον ορισμό αυτό είναι ξεκάθαρο πως ο αλγόριθμος BIRCH εφαρμόζεται μόνο σε αριθμητικά δεδομένα. Ο αλγόριθμος

164 3 ο Κεφάλαιο Συσταδοποίηση 165 χρησιμοποιεί ένα δένδρο που καλείται CF-δένδρο, το οποίο ορίζεται στον παρακάτω ορισμό. Το μέγεθος του δένδρου καθορίζεται μέσω μιας τιμή κατωφλίου, Τ, που συνδέεται με κάθε κόμβο φύλλο. Αυτή είναι η μέγιστη επιτρεπτή διάμετρος για κάθε φύλλο. Εδώ η διάμετρος είναι ο μέσος όρος των ανά δύο αποστάσεων μεταξύ όλων των σημείων της συστάδας. Κάθε εσωτερικός κόμβος αντιστοιχεί σε μία συστάδα που συντίθεται από τις υποσυστάδες που αντιπροσωπεύουν τα παιδιά του. Ορισμός Ένα χαρακτηριστικό συσταδοποίησης (clustering feature - CF) είναι μία τριάδα N, LS, SS, όπου N είναι το πλήθος των σημείων της συστάδας, LS είναι το άθροισμα των σημείων της συστάδας, και SS είναι το άθροισμα των τετραγώνων των σημείων της συστάδας. Ορισμός Ένα CF-δένδρο είναι ένα ζυγισμένο δένδρο με παράγοντα διακλάδωσης (το μέγιστο πλήθος παιδιών που μπορεί να έχει ένας κόμβος) B. Κάθε εσωτερικός κόμβος περιέχει μία CF τριάδα για καθένα από τα παιδιά του. Κάθε κόμβος φύλλο αντιπροσωπεύει επίσης μια συστάδα και περιέχει μια CF είσοδο για κάθε υποσυστάδα του. Μία υποσυστάδα σε έναν κόμβο φύλλο πρέπει να έχει διάμετρο μικρότερη από κάποιο δοθέν κατώφλι T. Σε αντίθεση με τα δενδρογράμματα, η αναζήτηση σε ένα CF-δένδρο γίνεται από πάνω προς τα κάτω (top-down). Κάθε κόμβος του CF-δένδρου περιέχει πληροφορία για τα χαρακτηριστικά συσταδοποίησης των υπο-συστάδων του. Το CF-δένδρο κατασκευάζεται καθώς προστίθενται σημεία προς συσταδοποίηση. Ένα σημείο εισάγεται στην πλησιέστερή του συστάδα, η οποία αναπαρίσταται με έναν κόμβο φύλλο. Αν η διάμετρος του κόμβου φύλλου είναι μεγαλύτερη του T, τότε γίνεται διάσπαση και εξισορρόπηση του δέντρου (διαδικασία παρόμοια με αυτή στο B -δένδρο). Ο αλγόριθμος προσαρμόζεται στο μέγεθος της κύριας μνήμης αλλάζοντας την τιμή κατωφλίου. Μεγαλύτερο κατώφλι, T, παράγει μικρότερο CF-δένδρο. Η διαδικασία αυτή μπορεί να εκτελεστεί χωρίς να χρειαστεί να διαβαστούν ξανά

165 3 ο Κεφάλαιο Συσταδοποίηση 166 τα δεδομένα - τα χαρακτηριστικά συσταδοποίησης παρέχουν τις απαραίτητες πληροφορίες. Η πολυπλοκότητα του αλγορίθμου είναι O n. Αλγόριθμος BIRCH Input: D t 1, t 2,..., t n // Set of elements T // Threshold for CF tree construction Output: K // Set of clusters BIRCH clustering algorithm: for each t i D do Determine correct leaf node for t i insertion; if threshold condition is not violated, then add t i to cluster and update CF triples; else if room to insert t i, then insert t i as single cluster and update CF clusters; else split leaf node and redistribute CF features; Ο αλγόριθμος περιγράφει σε γενικές γραμμές τα βήματα του BIRCH. Αυτό που δεν φαίνεται εδώ είναι οι παράμετροι που χρειάζονται για την κατασκευή του CF-δένδρου. όπως για παράδειγμα ο παράγοντας διακλάδωσης, το μέγεθος της σελίδας (κόμβου του δένδρου) και το μέγεθος της μνήμης. Ανάλογα με το μέγεθος σελίδας, κάθε κόμβος έχει χώρο για ένα συγκεκριμένο πλήθος συστάδων B (δηλαδή CF τριάδων). Το πρώτο βήμα δημιουργεί το CF-δένδρο στη μνήμη. Η τιμή κατωφλίου μπορεί να αλλάξει προκειμένου να είμαστε βέβαιοι ότι δένδρο χωράει στη διαθέσιμη μνήμη. Η εισαγωγή ενός νέου σημείου στο CF-δένδρο απαιτεί σάρωση του δέντρου από τη ρίζα προς τα φύλλα επιλέγοντας σε κάθε επίπεδο του δέντρου τον κόμβο που είναι πλησιέστερος στο νέο σημείο. Η απόσταση εδώ υπολογίζεται εξετάζοντας την

166 3 ο Κεφάλαιο Συσταδοποίηση 167 απόσταση του νέου σημείου από το κέντρο βάρους της συστάδας. Αυτό μπορεί να υπολογιστεί εύκολα με τα περισσότερα μέτρα απόστασης (π.χ. Ευκλείδεια ή Manhattan) χρησιμοποιώντας την CF τριάδα. Όταν εισάγεται το νέο στοιχείο, ενημερώνεται κατάλληλα η CF τριάδα, όπως και κάθε CF τριάδα κατά μήκος του μονοπατιού από τη ρίζα στο φύλλο. Στη συνέχεια, εισάγεται στον πλησιέστερο κόμβο φύλλο που βρέθηκε προσαρμόζοντας την CF τιμή αυτού του κόμβου. Όταν κάποιο στοιχείο εισάγεται σε μία συστάδα στον κόμβο φύλλο του δένδρου, η συστάδα πρέπει να ικανοποιεί την τιμή κατωφλίου. Αν την ικανοποιεί, τότε η CF είσοδος αυτής της συστάδας τροποποιείται. Αν δεν την ικανοποιεί, τότε αυτό το στοιχείο προστίθεται στο συγκεκριμένο κόμβο σαν ξεχωριστή συστάδα με ένα, στοιχείο. Μπορεί να συμβούν διασπάσεις κόμβων αν δεν υπάρχει χώρος σε έναν κόμβο για να γίνει μια εισαγωγή. Αυτό καθορίζεται από το μέγεθος της φυσικής σελίδας, αφού το μέγεθος κάθε κόμβου καθορίζεται με βάση το μέγεθος της σελίδας. Ένα ελκυστικό χαρακτηριστικό των CF τιμών είναι ότι είναι αθροιστικές: όταν δύο συστάδες συγχωνεύονται, το CF που προκύπτει είναι η άθροιση των CF τιμών των επιμέρους συστάδων. Από τη στιγμή που χτίζεται το δένδρο οι κόμβοι φύλλα του CF-δένδρου αντιπροσωπεύουν τις τρέχουσες συστάδες. Στην πράξη, ο αλγόριθμος περιλαμβάνει μόνο τα αρχικά βήματα που προτείνονται για τη χρήση του BIRCH σε μεγάλες βάσεις δεδομένων. Η πλήρης περιγραφή των βημάτων είναι: Δημιουργία του αρχικού CF-δένδρου, με εφαρμογή μιας παραλλαγμένης έκδοσης του Αλγορίθμου Η έκδοση αυτή στην ουσία "φορτώνει" τη βάση δεδομένων στην κύρια μνήμη. Αν δεν υπάρχει αρκετή μνήμη για την κατασκευή του CF-δένδρου με ένα συγκεκριμένο κατώφλι, η τιμή του κατωφλίου αυξάνεται και έτσι κατασκευάζεται ένα νέο μικρότερο CF-δένδρο. Αυτό μπορεί να γίνει εισάγοντας τους κόμβους φύλλα του προηγούμενου δένδρου σε ένα νέο μικρότερο δένδρο.

167 3 ο Κεφάλαιο Συσταδοποίηση 168 Η συσταδοποίηση που αναπαρίσταται μέσω ενός CF-δένδρου μπορεί να μην είναι φυσική επειδή κάθε είσοδος έχει περιορισμένο μέγεθος. Επιπλέον, η σειρά εισόδου μπορεί να επηρεάσει αρνητικά το αποτέλεσμα. Αυτά τα προβλήματα μπορούν να ξεπεραστούν μέσω μιας άλλης γενικής προσέγγισης συσταδοποίησης που εφαρμόζεται στους κόμβους φύλλα του CF-δένδρου. Εδώ κάθε κόμβος φύλλο αντιμετωπίζεται ως ένα ξεχωριστό σημείο για τη συσταδοποίηση. Παρά το γεγονός ότι η αρχική εργασία προτείνει έναν συσσωρευτικό ιεραρχικό αλγόριθμο συσταδοποίησης που βασίζεται στο κέντρο βάρους, θα μπορούσαν να χρησιμοποιηθούν και άλλοι αλγόριθμοι. Η τελευταία φάση (προαιρετική) συσταδοποιεί εκ νέου όλα τα σημεία τοποθετώντας τα στη συστάδα με το πλησιέστερο κέντρο βάρους. Κατά τη διάρκεια αυτής της φάσης μπορούν να απομακρυνθούν τα ακραία σημεία, που βρίσκονται μακριά από όλα τα κέντρα βάρους. Ο αλγόριθμος BIRCH είναι γραμμικός τόσο ως προς το χώρο όσο και ως προς το χρόνο I/O. Η επιλογή της τιμής κατωφλίου είναι αναγκαία για την αποδοτική εκτέλεση του αλγορίθμου. Διαφορετικά, το δένδρο ενδέχεται να χρειαστεί να κατασκευαστεί πολλές φορές για να είμαστε σίγουροι ότι χωράει στην κύρια μνήμη. Αυτό οδηγεί στη χειρότερη πολυπλοκότητα χρόνου του 2 αλγορίθμου που είναι n O [5] Συσταδοποίηση βασισμένη στην Πυκνότητα Οι βασισμένοι στην πυκνότητα (Density based) αλγόριθμοι θεωρούν τις συστάδες ως πυκνές περιοχές αντικειμένων στο χώρο των υπό μελέτη δεδομένων, οι οποίες χωρίζονται από περιοχές της χαμηλής πυκνότητας.

168 3 ο Κεφάλαιο Συσταδοποίηση DBSCAN Ο DBSCAN είναι ένας αλγόριθμος συσταδοποίησης ο οποίος βασίζεται στην πυκνότητα. Η βασική ιδέα είναι ότι η περιοχή που εκτείνεται σε συγκεκριμένη ακτίνα (Eps) γύρω από κάθε αντικείμενο μίας συστάδας (γειτονιά αντικειμένου) θα πρέπει να περιέχει έναν ελάχιστο αριθμό από αντικείμενα. Βασικές έννοιες αλγορίθμου Στη συνέχεια γίνεται περιληπτική αναφορά στις κυριότερες έννοιες που αποτελούν την βάση του αλγορίθμου DBSCAN [29]. Θεωρώντας λοιπόν ότι υπάρχει ένα σύνολο αντικείμενων D στο οποίο η γειτονιά κάθε αντικειμένου εκτείνεται σε ακτίνα Eps γύρω από αυτό και ο ελάχιστος αριθμός στοιχείων που μπορεί να περιέχει είναι MinPts, μπορεί να οριστεί στις εξής έννοιες: Ένα αντικείμενο p είναι άμεσα πυκνά-προσεγγίσιμο από ένα αντικείμενο q εάν 1. το αντικείμενο ανήκει στο υποσύνολο των αντικειμένων που βρίσκονται στην γειτονιά του q, 2. ο αριθμός των αντικειμένων που περιέχονται στην γειτονιά του q είναι μεγαλύτερο από ένα όριο MinPts. Ένα αντικείμενο p είναι πυκνά-προσεγγίσιμο από ένα αντικείμενο q, p D q, εάν υπάρχει μια ακολουθία από αντικείμενα n n i p,..., p, p1 q, p p τέτοια ώστε το p 1 να είναι άμεσα πυκνάπροσεγγίσιμο από το p i.

169 3 ο Κεφάλαιο Συσταδοποίηση 170 Ένα αντικείμενο p είναι πυκνά-συνδεδεμένο με ένα αντικείμενο q εάν υπάρχει ένα αντικείμενο ο τέτοιο ώστε τόσο το p όσο και το q να είναι πυκνά-προσεγγίσιμα από το ο. Μία συστάδα C στο σύνολο των δεδομένων D είναι ένα μη-κενό υποσύνολο του D το οποίο ικανοποιεί τις ακόλουθες συνθήκες: 1. Για κάθε p, q D : εάν q c και q p, τότε q C. D 2. Για κάθε p, q C : το p είναι πυκνά-συνδεδεμένο με το q. Έστω ότι C 1 C,..., C, είναι οι συστάδες του συνόλου δεδομένων D., 2 n Ορίζεται ως θόρυβος (noise) το σύνολο των αντικειμένων στην βάση δεδομένων D τα οποία δεν ανήκουν σε καμία συστάδα Q. Επίσης στην συσταδοποίηση τα αντικείμενα διακρίνονται στα αντικείμενα πυρήνα (core objects) τα οποία είναι αντικείμενα που ικανοποιούν την υπόθεση 2 του πρώτου ορισμού και στα αντικείμενα όχι-πυρήνα (non-core objects) τα οποία είναι όλα τα αντικείμενα που δεν ανήκουν στην κατηγορία των αντικειμένων πυρήνα. Περιγραφή αλγορίθμου Ο αλγόριθμος DBSCAN απαιτεί από τον χρήστη να καθορίσει δύο παραμέτρους οι οποίες χρησιμοποιούνται για να ορίσουν την ελάχιστη πυκνότητα για την συσταδοποίησης. Οι παράμετροι αυτοί είναι: η ακτίνα Eps στην οποία θα εκτείνεται η γειτονιά κάθε στοιχείου του συνόλου των δεδομένων και ο ελάχιστος αριθμός των σημείων MinPts που μπορεί να υπάρχουν στην γειτονιά.

170 3 ο Κεφάλαιο Συσταδοποίηση 171 Ο αλγόριθμος αρχίζει με ένα τυχαίο στοιχείο p του συνόλου και ανακτά όλα τα στοιχεία τα οποία είναι πυκνά προσεγγίσιμα από το p. Εάν το στοιχείο p είναι ένα αντικείμενο πυρήνα, ο αλγόριθμος ορίζει μία συστάδα. Εάν το στοιχείο p είναι ένα ακραίο στοιχείο, κανένα αντικείμενο δεν είναι πυκνά προσεγγίσιμο από το p και το p συμπεριλαμβάνεται στο θόρυβο. Τότε, ο DBSCAN λαμβάνει το επόμενο στοιχείο της βάσης δεδομένων. Ενώ ο αλγόριθμος μπορεί να βρει συστάδες με αυθαίρετα σχήματα, έχει αρκετά προβλήματα. Τα κυριότερα από αυτά είναι: Επηρεάζεται από τις τιμές των παραμέτρων Eps και MinPts, οι οποίες είναι δύσκολο να προσδιοριστούν Όπως όλοι οι ιεραρχικοί αλγόριθμοι πάσχει από το πρόβλημα της ευρωστίας καθώς στην περίπτωση που υπάρχει μία πυκνή σειρά σημείων που συνδέει δύο συστάδες ο DBSCAN μπορεί να τελειώσει συγχωνεύοντας τις δύο συστάδες. Δεν εφαρμόζει κάποια μορφή προ-συσταδοποίησης (preclustering) αλλά εφαρμόζεται απευθείας στο σύνολο των δεδομένων με αποτέλεσμα να καθίσταται ασύμφορος για μεγάλες βάσεις δεδομένων λόγω του κόστους I/O. Η χρήση δείγματος (sampling) για να περιοριστεί το μέγεθος της εισόδου κατά την εφαρμογή των αλγορίθμων που βασίζονται στην πυκνότητα δεν είναι εφικτή. Ο λόγος είναι ότι ακόμα και αν το δείγμα είναι μεγάλο, μπορεί να υπάρχουν μεγάλες διακυμάνσεις στην πυκνότητα των σημείων μέσα σε κάθε συστάδα στο τυχαίο δείγμα.

171 3 ο Κεφάλαιο Συσταδοποίηση DENCLUE Ένας άλλος βασισμένος στην πυκνότητα αλγόριθμος συσταδοποίησης, γνωστός ως DENCLUE [30]. Αυτός ο αλγόριθμος εισάγει μία νέα προσέγγιση για συσταδοποίηση σε βάσεις δεδομένων πολυμέσων. Η βασική ιδέα της προσέγγισης αυτής είναι να μοντελοποιήσει την συνολική πυκνότητα των σημείων με αναλυτικό τρόπο ως το άθροισμα των συναρτήσεων επιρροής (influence functions) του υπό θεώρηση συνόλου των δεδομένων. Μία συνάρτηση επιρροής μπορεί να θεωρηθεί σαν μία συνάρτηση η οποία περιγράφει την επίδραση ενός σημείου από το σύνολο των δεδομένων στην γειτονιά του. Οι συστάδες μπορούν να προσδιοριστούν καθορίζοντας τους density attractors. Επιπρόσθετα, οι συστάδες με αφηρημένο σχήμα (arbitrary shape clusters) μπορούν εύκολα να περιγραφούν από μία απλή εξίσωση που βασίζεται στην συνολική συνάρτηση πυκνότητας πιθανότητας. Οι density attractors είναι τα τοπικά μέγιστα της συνολικής συνάρτησης πυκνότητας. Τα βασικά πλεονεκτήματα του DENCLUE είναι ότι διαχειρίζεται καλά σύνολα δεδομένων που περιέχουν θόρυβο ενώ επιτρέπει την ανακάλυψη συστάδων με περίεργες γεωμετρίες σε πολυδιάστατα σύνολα δεδομένων. Ωστόσο, βασίζεται σε δύο παραμέτρους και έτσι όπως και στους περισσότερους αλγορίθμους συσταδοποίησης η ποιότητα των αποτελεσμάτων βασίζεται στην κατάλληλη επιλογή αυτών των παραμέτρων. Οι παράμετροι αυτές είναι [30]: Η παράμετρος η οποία καθορίζει την επίδραση ενός στοιχείου του συνόλου των δεδομένων μας στην γειτονία του. Η η οποία περιγράφει εάν ένας density-attractor είναι σημαντικός, επιτρέποντας μία μείωση του αριθμού των density-attractors και βοηθά στην βελτίωση της αποδοτικότητας.

172 3 ο Κεφάλαιο Συσταδοποίηση Αλγόριθμοι Βασισμένοι σε Πλέγμα (Grid-based) Πρόσφατα διάφοροι αλγόριθμοι συσταδοποίησης έχουν παρουσιαστεί για χωρικά δεδομένα, οι οποίοι είναι γνωστοί ως αλγόριθμοι βασισμένοι σε πλέγμα. Αυτοί οι αλγόριθμοι κβαντοποιούν το διάστημα σε έναν πεπερασμένο αριθμό κελιών και κάνουν έπειτα όλες τις διαδικασίες στο κβαντοποιημένο διάστημα STING (Statistical Information Grid-based method) Η μέθοδος STING (Statistical Information Grid-based method) είναι αντιπροσωπευτική αυτής της κατηγορίας. Διαιρεί τη χωρική περιοχή σε ορθογώνια κελιά χρησιμοποιώντας μια ιεραρχική δομή. Η μέθοδος STING [31] πηγαίνει μέσω της συστάδας δεδομένων και υπολογίζει τις στατιστικές παραμέτρους (όπως μέσος, διακύμανση, ελάχιστο, μέγιστο και τύπος κατανομής) κάθε αριθμητικού γνωρίσματος των δεδομένων μέσα στα κελιά. Κατόπιν παράγει μια ιεραρχική δομή των κελιών πλέγματος ώστε να αντιπροσωπευθούν οι πληροφορίες συσταδοποίησης σε διαφορετικά επίπεδα. Βασισμένος σε αυτήν την δομή ο αλγόριθμος STING επιτρέπει τη χρήση πληροφοριών συσταδοποίησης στην αναζήτηση των ερωτήσεων ή της αποδοτικής ανάθεσης ενός νέου αντικειμένου σε συστάδες WaveCluster Ο WaveCluster [32] είναι ο πιο πρόσφατος βασισμένος σε πλέγμα αλγόριθμος. Είναι βασισμένος στις τεχνικές επεξεργασίας σημάτων (wavelet μετασχηματισμός) οι οποίες μετατραπούν τα χωρικά δεδομένα (spatial data) στο πεδίο συχνοτήτων. Πιο συγκεκριμένα, αρχικά συνοψίζει τα δεδομένα με τον ορισμό μιας πολυδιάστατης δομής πλέγματος επάνω στο διάστημα

173 3 ο Κεφάλαιο Συσταδοποίηση 174 δεδομένων [8]. Κάθε κελί πλέγματος συνοψίζει τις πληροφορίες ενός συνόλου σημείων που απεικονίζονται στο κελί. Κατόπιν χρησιμοποιεί έναν wavelet μετασχηματισμό για να μετασχηματίσει το αρχικό διάστημα χαρακτηριστικών γνωρισμάτων. Στο μετασχηματισμό wavelet, η συνέλιξη με μια κατάλληλη συνάρτηση οδηγεί σε ένα μετασχηματισμένο διάστημα όπου προσδιορίζονται οι φυσικές (πραγματικές) συστάδες στα δεδομένα. Κατά συνέπεια, μπορεί να προσδιοριστεί τις συστάδες από την εύρεση των πυκνών περιοχών στο μετασχηματισμένο χώρο. Η εκ των προτέρων γνώση για τον ακριβή αριθμό συστάδων δεν απαιτεί-στον WaveCluster αλλά μπορεί να βοηθήσει στην αποτελεσματικότητα του αλγορίθμου Συσταδοποίηση Υπο-χώρων (Subspace Clustering) H συσταδοποίηση υπο-χώρων (subspace clustering) εξετάζει τα προβλήματα που προκύπτουν από τις υψηλές διαστάσεις (high dimensionality) δεδομένων. Λόγω των πολλών διαστάσεων και της ύπαρξης των διαστάσεων που αντιστοιχούν σε θορύβου, σχεδόν κάθε περιοχή στο χώρο έχει χαμηλή πυκνότητα σημείων, και όλα τα σημεία είναι μακριά το ένα από το άλλο CLIQUE Με βάση τα παραπάνω προβλήματα των πολλαπλών διαστάσεων στην εργασία εξετάστηκε το πρόβλημα του αυτόματου ορισμού διάφορων υποχώρων (subspaces) του αρχικού χώρου οι οποίοι επιτρέπουν «καλύτερη» συσταδοποίηση των στοιχείων ενός συνόλου δεδομένων [33] Ειδικότερα χρησιμοποιήθηκε μια βασισμένη στην πυκνότητα προσέγγιση για να προσδιοριστούν οι συστάδες. Ο αλγόριθμος CLIQUE προχωρά από χαμηλότερης έως υψηλότερης διάσταση υποχώρους και ανακαλύπτει τις πυκνές περιοχές σε κάθε υποχώρο (subspace). Για να προσεγγίσει την

174 3 ο Κεφάλαιο Συσταδοποίηση 175 πυκνότητα των σημείων, το διάστημα εισόδου χωρίζεται στα κελιά με τη διαίρεση κάθε διάστασης στον ίδιο αριθμό, x i, ίσου μήκους διαστημάτων. Για ένα δεδομένο σύνολο διαστάσεων, ο συνδυασμός των αντίστοιχων διαστημάτων (ένα για κάθε διάσταση του συνόλου) καλείται μονάδα (unit) στον αντίστοιχο υποχώρο. Μια μονάδα είναι πυκνή εάν ο αριθμός σημείων είναι επάνω από ένα δεδομένο όριο t. Τα x i και t είναι παράμετροι που καθορίζονται από το χρήστη. Ο αλγόριθμος βρίσκει όλες τις πυκνές μονάδες σε κάθε k -διάστατο υποχώρο με τη δημιουργία των πυκνών k 1- διάστατων υποχώρων, και στη συνέχεια τις συνδέει για να περιγράψουν συστάδες ως ένωση των μέγιστων ορθογωνίων PROCLUS Ενώ ο CLIQUE εισάγει επιτυχώς μια μεθοδολογία για την εξέταση διαφορετικών υποχώρων για διαφορετικές συστάδες, ωστόσο δεν υπολογίζει μία τμηματοποίηση των στοιχείων σε ασύνδετες συστάδες. Οι αναφερόμενες πυκνές περιοχές μπορούν να επικαλύπτονται. Σε μερικές εφαρμογές, όπως η ανάλυση στοιχείων πελατών, η τμηματοποίηση του συνόλου δεδομένων είναι επιθυμητή. Ο προτεινόμενος αλγόριθμος (PROCLUS) αναζητά υποσύνολα διαστάσεων τέτοια ώστε τα σημεία δεδομένων να είναι πολύ πυκνά ομαδοποιημένα στους αντίστοιχους υποχώρους. Ο αριθμός συστάδων καθώς και ο μέσος αριθμός διαστάσεων ανά συστάδα είναι καθορισμένοι παράμετροι από το χρήστη. Ο PROCLUS αρχίζει με την επιλογή ενός τυχαίου συνόλου medoids, και έπειτα σταδιακά βελτιώνει την ποιότητα των medoids από την εκτέλεση μιας επαναληπτικής hill climbing διαδικασίας η οποία απορρίπτει τα medoids που δεν ταιριάζουν στα υπό ανάλυση δεδομένα από το υπάρχον σύνολο αντιπροσώπων. Προκειμένου να βρεθεί το σύνολο διαστάσεων που επηρεάζουν περισσότερο κάθε συστάδα, ο αλγόριθμος επιλέγει τις διαστάσεις κατά μήκος των οποίων τα σημεία έχουν τη μικρότερη μέση απόσταση από το τρέχον medoid [7].

175 3 ο Κεφάλαιο Συσταδοποίηση Αλγόριθμοι Συσταδοποίησης για Σύνολα Δεδομένων με Λεκτικές Τιμές Οι περισσότεροι από τους κλασικούς αλγορίθμους συσταδοποίησης, μερικούς, περιορίζουν την εφαρμογή τους σε σύνολα δεδομένων με αριθμητικές τιμές. Σε πολλές όμως περιπτώσεις οι εφαρμογές εξόρυξης γνώσης περιλαμβάνουν και μη αριθμητικά δεδομένα (categorical data). Η παραδοσιακή προσέγγιση μετατροπής των μη λεκτικών δεδομένων σε αριθμητικές τιμές δεν παράγει πάντοτε αποτελέσματα που να έχουν κάποιο νόημα, ιδιαίτερα όταν στο πεδίο ορισμού των δεδομένων δεν υπάρχει κάποια διάταξη. Έτσι θα ήταν χρήσιμο να βρεθούν κάποιες άλλες διαδικασίες για την εφαρμογή της συσταδοποίησης και σε λεκτικά δεδομένα. Παρακάτω παρουσιάζονται κάποιοι αλγορίθμους τόσο ιεραρχικούς και διαιρετικούς (partitional), οι οποίοι μπορούν να εφαρμοστούν αποτελεσματικά για συσταδοποίηση μη αριθμητικών γνωρισμάτων. Στην πρώτη κατηγορία των ιεραρχικών αλγορίθμων ανήκει ο ROCK ενώ στην δεύτερη ανήκουν οι αλγόριθμοι K-Modes και K-Prototypes, οι οποίοι είναι βασισμένη στον K- Means αλγόριθμο ROCK (Robust Clustering Algorithm for Categorical Attributes) Ο αλγόριθμος ROCK ανήκει στην κατηγορία των ιεραρχικών αλγορίθμων συσταδοποίησης και αντίθετα με άλλους παραδοσιακούς αλγορίθμους μπορεί να χειριστεί αποτελεσματικά boolean και κατηγορικά γνωρίσματα. Τα μέτρα απόστασης που χρησιμοποιούν οι παραδοσιακοί αλγόριθμοι συσταδοποίησης δεν είναι κατάλληλα για μη αριθμητικά δεδομένα. Για το λόγο αυτό ο ROCK εισάγει δύο νέες έννοιες στις οποίες βασίζεται για να εκτιμήσει την ομοιότητα εγγύτητα μεταξύ των στοιχείων ενός συνόλου δεδομένων. Οι έννοιες αυτές είναι η έννοια του γείτονα (neighbor) και των δεσμών (links) οι οποίες ορίζονται ως εξής [34]:

176 3 ο Κεφάλαιο Συσταδοποίηση 177 Γείτονες (Neighbors) Οι γείτονες ενός σημείου είναι εκείνα τα σημεία τα οποία παρουσιάζουν σημαντική ομοιότητα με αυτό. Συνάρτηση ομοιότητας είναι η sim p i, p j με βάση την οποία εκτιμούμε την εγγύτητα μεταξύ δύο σημείων και η οποία κυμαίνεται μεταξύ του 0 και 1. Η συνάρτηση μπορεί να είναι ένα οποιαδήποτε καλά ορισμένο μέτρο απόστασης ή ακόμα και μία μη μετρική συνάρτηση (για παράδειγμα μία συνάρτηση ομοιότητας που παρέχεται από ειδικούς στο πεδίο που ανήκουν τα στοιχεία που συγκρίνονται). Δεδομένου λοιπόν μίας συνάρτησης ομοιότητας και ενός ορίου 0,1, ένα ζεύγος σημείων p i, p j είναι γείτονες εάν ισχύει η ακόλουθη ανισότητα: sim p i, p j Δεσμοί (Links) Ο δεσμός link p i, p j ορίζεται ως ο αριθμός των κοινών γειτόνων μεταξύ των στοιχείων p, p. i j Η συσταδοποίηση ενός συνόλου δεδομένων που βασίζεται μόνο στην ομοιότητα ή εγγύτητα μεταξύ των στοιχείων του συνόλου δεν έχει αρκετά καλά αποτελέσματα στην διάκριση δύο «όχι τόσο καλά διαχωρίσιμων» συστάδων διότι είναι δυνατόν σημεία τα οποία ανήκουν σε διαφορετικές συστάδες να είναι γείτονες. Το να είναι γείτονες δύο στοιχεία που ανήκουν σε διαφορετικές γείτονες συστάδες, είναι τελείως διαφορετικό με το να έχουν έναν μεγάλο αριθμό κοινών γειτόνων δηλαδή σημείων που να είναι γείτονες και για τα δύο στοιχεία. Η διαπίστωση αυτή καθιστά αναγκαία την χρήση της έννοιας των δεσμών για να καθοριστεί πότε δύο στοιχεία μπορούν να ανήκουν στην ίδια συστάδα. Εάν λοιπόν ο αριθμός link p i, p j είναι μεγάλος τότε είναι πολύ πιθανό τα στοιχεία p, p να ανήκουν στην ίδια συστάδα. Σε αυτό το μέτρο i j βασίζεται και ο ROCK για να καθορίσει τα στοιχεία τα οποία μπορούν να συγχωνευτούν σε μία συστάδα.

177 3 ο Κεφάλαιο Συσταδοποίηση 178 Συνάρτηση κριτήριο (Criterion Function) Το βασικό θέμα που πρέπει να προσδιοριστεί από μία μέθοδο συσταδοποίησης είναι η εύρεση των καλύτερων συστάδων. Θα πρέπει επομένως να καθορισθεί με ποιον τρόπο θα μπορούν να προσδιοριστούν οι βέλτιστες συστάδες. Εάν κάποιος μπορούσε να χαρακτηρίσει διαμέσου μαθηματικών τις «βέλτιστες συστάδες», θα ήταν δυνατόν οι δημιουργία αλγορίθμων οι οποίοι θα βοηθούσαν στην εύρεση αυτών των συστάδων. Ένας συνήθης τρόπος για την εύρεση των βέλτιστων συστάδων είναι ο καθορισμός συναρτήσεων κριτηρίων. Οι συστάδες που μεγιστοποιούν την συνάρτηση είναι και οι βέλτιστες συστάδες. Είναι ενδιαφέρον κάθε συστάδα να έχει ένα υψηλό βαθμό συνεκτικότητας, θα πρέπει να μεγιστοποιηθεί το άθροισμα των δεσμών p q p r link, για κάθε ζευγάρι σημείων p q, pr που ανήκουν σε μία συστάδα και που την ίδια στιγμή ελαχιστοποιούν το άθροισμα των δεσμών p q p s link, για τα σημεία p q, ps σε διαφορετικές συστάδες [7]. Περιγραφή αλγορίθμου Ο αλγόριθμος εφαρμόζεται σε ένα δείγμα του συνόλου των δεδομένων το οποίο επιλέγεται με τυχαίο τρόπο. Ο αλγόριθμος λαμβάνει σαν είσοδο το αριθμό του συνόλου των n σημείων του δείγματος στα οποία πρόκειται να γίνει συσταδοποίηση καθώς και ο αριθμός k των συστάδων. Η διαδικασία ξεκινά με τον υπολογισμό του αριθμού των δεσμών ανάμεσα στα ζεύγη των σημείων. Για κάθε συστάδα i, διατηρούμε σε μία στοίβα κάθε συστάδα j για την οποία ο αριθμός των δεσμών i j στην στοίβα σύνδεση των συστάδων. link, δεν είναι μηδέν(0). Οι συστάδες q i ταξινομούνται με φθίνουσα σειρά του μέτρου ποιότητας για Επιπρόσθετα με την στοίβα Q ο αλγόριθμος διατηρεί και μία στοίβα με όλες τις συστάδες. Οι συστάδες στο Q ταξινομούνται με φθίνουσα σειρά των μέτρων ποιότητας των συστάδων. Έτσι, g q j j, max χρησιμοποιείται για να

178 3 ο Κεφάλαιο Συσταδοποίηση 179 ταξινομηθούν οι διάφορες συστάδες j στο Q, όπου το q j max είναι η καλύτερη συστάδα η οποία μπορεί να συγχωνευτεί με την συστάδα j. Σε κάθε βήμα, η μέγιστη συστάδα j στο Q και η μέγιστη συστάδα στο q j είναι το καλύτερο ζεύγος των συστάδων που πρόκειται να συγχωνευτούν. Αλγόριθμος ROCK procedure cluster (S, k) begin link:= compute_links(s) for each s S do q[s]:= build_local_heap(link, s) Q:= build_global_heap(s,q) while size(q)> k do{ u:= extract_max(q) υ:= max(q[u]) delete(q,υ) w:= merge(u,υ) for each x q[υ] q[u] do{ link[x, w]:= link[x, u]+link[x, υ] delete(q[x], w, g(x,w); insert(q[w], x, g(x,w)) update(q, x, q[x])} insert(q, w, q[w]) deallocate(q[u]); deallocate(q[u]) } end procedure compute_links(s) begin Compute nbrlist[i] for every point i in S Set link[i,j] to be zero for all i,j for i:= 1 to n do N:= nbrlist[i] for j:= 1to [N]-1 do for 1:= j+1 to [N] do link[n[j],n[1]]:= link[n[j],n[1]]+1 } end Με βάση την παραπάνω περιγραφή του αλγορίθμου μπορεί να ειπωθεί ότι η πολυπλοκότητα για τον υπολογισμό των δεσμών ανάμεσα στα σημεία είναι

179 3 ο Κεφάλαιο Συσταδοποίηση 180 m a O n 2 για τον μέσο αριθμό των γειτόνων m a. Ο χρόνος για να δημιουργηθεί μία τοπική στοίβα, αρχικά είναι O n (μία στοίβα για ένα σύνολο n συστάδων εισόδου μπορεί να δημιουργηθεί σε χρόνο ο οποίος είναι γραμμικά ανάλογος με τον αριθμό των συστάδων). Η γενική στοίβα έχει επίσης το πολύ n συστάδες αρχικά και μπορεί να δημιουργηθεί σε χρόνο πολυπλοκότητα για τα βήματα στο while-loop εκτελούνται σε χρόνο O n. Η O n. Το εσωτερικό for-loop κυριαρχεί την πολυπλοκότητα του while-loop. Καθώς το μέγεθος για κάθε τοπική ουρά μπορεί να είναι στην χειρότερη περίπτωση n και μία νέα w συστάδα που προκύπτει από την συγχώνευση άλλων συστάδων μπορεί να χρειάζεται να εισαχθεί σε πολυπλοκότητα για το for-loop είναι n n O n 2 log n O n τοπικές ουρές, η χρονική O log και επομένως για το while-loop στη χειρότερη περίπτωση. Με βάση λοιπόν την μέχρι τώρα ανάλυση η πολυπλοκότητα του αλγορίθμου ROCK σε ότι αφορά τον υπολογισμό της λίστας των γειτονικών κόμβων και δεσμών, είναι: O n 2 2 nm m n m a log n Αλγόριθμοι βασισμένοι στον K-Means για Λεκτικά Δεδομένα Σε σχέση με άλλους αλγορίθμους ο K-Means και οι παραλλαγές του προσαρμόζεται καλά στην διαδικασία εξόρυξης γνώσης λόγω της αποδοτικότητας του στην επεξεργασία μεγάλων συνόλων δεδομένων. Ωστόσο, η χρήση τους περιορίζεται συχνά σε αριθμητικά δεδομένα λόγω του ότι αυτοί οι αλγόριθμοι ελαχιστοποιούν την συνάρτηση κόστους υπολογίζοντας τους μέσους των συστάδων. Για το σκοπό αυτό τα τελευταία χρόνια έχουν γίνει κάποιες προσπάθειες για ανάπτυξη αλγορίθμων συσταδοποίησης που θα επεκτείνουν την βασική λογική του K-Means ώστε να υποστηρίζει συσταδοποίηση σε γνωρίσματα με λεκτικές τιμές (categorical attributes) [35]. Οι κυριότεροι αλγόριθμοι συσταδοποίησης οι οποίοι βασίζονται στον K-Means αλγόριθμο είναι ο k-prototypes και ο k-mode. Οι

180 3 ο Κεφάλαιο Συσταδοποίηση 181 αλγόριθμοι αυτοί σχεδιάστηκαν από τον Huang και έχουν αποδειχθεί αποτελεσματικοί για μεγάλα σύνολα λεκτικών δεδομένων σε σχέση με άλλους αλγορίθμους κυρίως ιεραρχικούς οι οποίοι λόγω της πολυπλοκότητας τους καθίστανται μη αποδοτικοί για μεγάλα σύνολα δεδομένων Αλγόριθμος K-Prototypes Ο K-Prototypes σχεδιάστηκε για συσταδοποίηση μεγάλων συνόλων βάσεων δεδομένων με τιμές αριθμητικές και λεκτικές. Στον αλγόριθμο ορίζεται ένα μέτρο ανομοιότητας το οποίο λαμβάνει υπόψη του γνωρίσματα τόσο με αριθμητικές όσο και με λεκτικές τιμές. Επίσης θεωρεί ότι s n είναι το μέτρο ανομοιότητας σε αριθμητικά γνωρίσματα το οποίο ορίζεται από την Ευκλείδεια απόσταση και s c είναι το μέτρο ανομοιότητας για λεκτικά γνωρίσματα το οποίο ορίζεται σαν ο αριθμός των αταίριαστων κατηγοριών μεταξύ δύο αντικειμένων. Το μέτρο ανομοιότητας ανάμεσα στα δύο αντικείμενα ορίζεται ως s ys, όπου y είναι ένα βάρος για την εξισορρόπηση τον δύο μερών και n c την αποφυγή της εύνοιας κάποιου από τους τύπους των γνωρισμάτων. Η διαδικασία συσταδοποίησης του K-Prototypes είναι ανάλογη με τον αλγόριθμο K-Means εκτός από την νέα μέθοδο που χρησιμοποιείται για την ενημέρωση των λεκτικών τιμών των προτύπων (κέντρων) των συστάδων. Ένα πρόβλημα που προκύπτει από την χρήση αυτού του αλγορίθμου είναι η επιλογή του κατάλληλου βάρους. Μία πρόταση είναι να χρησιμοποιηθεί σαν βάση για την επιλογή του βάρους η τυπική απόκλιση των αριθμητικών γνωρισμάτων Αλγόριθμος K-Modes Ο αλγόριθμος K-Modes προτάθηκε από τον Huang [35] όπως και ο Κ - Prototypes και αποτέλεσε μία απλούστευση του δεύτερου καθώς λαμβάνει υπόψη του μόνο γνωρίσματα με λεκτικές τιμές. Συνεπώς, το βάρος y δεν είναι πλέον απαραίτητο στον αλγόριθμο καθώς δεν λαμβάνεται υπόψη ο

181 3 ο Κεφάλαιο Συσταδοποίηση 182 παράγοντας s n. Η προσέγγιση αυτή θεωρεί ότι εάν στο σύνολο δεδομένων περιλαμβάνονται και αριθμητικά γνωρίσματα τότε γίνεται κατηγοριοποίηση αυτών χρησιμοποιώντας τον αλγόριθμο K-Means ή κάποια από τις παραλλαγές του. Γενικά, ο K-Modes αλγόριθμος βασίζεται στον K-Means στον οποίο όμως έχουν γίνει οι εξής τρεις τροποποιήσεις: 1. χρησιμοποιούνται διαφορετικά μέτρα ανομοιότητας έτσι ώστε να μπορούν να εφαρμοστούν σε λεκτικές τιμές, 2. αντικαταστάθηκαν τα k κέντρα με τα k modes, 3. χρησιμοποιούνται μέθοδοι βασισμένοι στη συχνότητα εμφάνισης των τιμών προκειμένου να ενημερώνονται τα κέντρα των συστάδων, δηλαδή τα modes Ιεραρχική και Βασισμένη σε Γράφους Συσταδοποίηση Σε αυτήν την κατηγορία ορίζουμε αλγορίθμους που στοχεύουν στο συνδυασμό των πλεονεκτημάτων τόσο της Ιεραρχικής Συσταδοποίησης όσο και της συσταδοποίησης βασισμένης σε γράφους CHAMELEON Ένας αλγόριθμος συσταδοποίησης αυτής της κατηγορίας είναι ο CHAMELEON [36]. Είναι ένας συσσωρευτικός (agglomerative) ιεραρχικός αλγόριθμος που μετρά την ομοιότητα δύο συστάδων που βασίζονται σε ένα δυναμικό μοντέλο. Ο CHAMELEON βρίσκει τις συστάδες του συνόλου δεδομένων χρησιμοποιώντας ένα αλγόριθμο δύο φάσεων. Κατά τη διάρκεια

182 3 ο Κεφάλαιο Συσταδοποίηση 183 της πρώτης φάσης, ο CHAMELEON χρησιμοποιεί έναν αλγόριθμο συσταδοποίησης βασισμένο σε γράφους για να τμηματοποιήσει τα δεδομένα σε έναν μεγάλο αριθμό σχετικά μικρών υπό-συστάδων. Κατά τη διάρκεια της δεύτερης φάσης, χρησιμοποιεί έναν συσσωρευτικό ιεραρχικό αλγόριθμο για να βρει τις συστάδες από επαναληπτικούς συνδυασμούς των υπό-συστάδων που προέκυψαν από την πρώτη φάση. Η ομοιότητα μεταξύ των συστάδων καθορίζεται με τον έλεγχο της σχετικής ενδο-συνδετικότητας (interconnectivity) και της σχετικής εγγύτητας (closeness) αυτών. Η αναπαράσταση των δεδομένων βασίζεται στη συνήθως χρησιμοποιημένη προσέγγιση του k - πλησιέστερου γράφου γειτνίασης ( k -nearest neighbor graph). Οι κορυφές του k -πλησιέστερος γράφος γειτνίασης αντιπροσωπεύουν τα αντικείμενα του συνόλου δεδομένων και υπάρχει μια ακμή μεταξύ δύο κόμβων v, v εάν το αντικείμενο που αντιστοιχεί στον v i είναι μεταξύ των k κοντινότερων γειτόνων i j του v j. Κατόπιν ο αλγόριθμος βρίσκει τις αρχικές υπό-συστάδες χρησιμοποιώντας έναν αλγόριθμο τμηματοποίησης γράφου ώστε να κατατμηθεί ο k -πλησιέστερος γράφου γειτνίασης του συνόλου δεδομένων σε έναν μεγάλο αριθμό τμημάτων. Κατά τη διάρκεια της επόμενης φάσης ο CHAMELEON χρησιμοποιεί έναν συσσωρευτικό αλγόριθμο συσταδοποίησης ο οποίος συνδυάζει μαζί αυτές τις υπό-συστάδες του γράφου. Για τη συγχώνευση των υπό-συστάδων λαμβάνει υπόψη τη σχετική ενδοσυνδετικότητα και την εγγύτητα (closeness) των υπό-συστάδων (subclusters). Κατά συνέπεια, εκείνα τα ζευγάρια των συστάδων των οποίων η σχετική ενδο-συνδετικότητα και εγγύτητα είναι πάνω από το όριο που ορίζεται από τους χρήστες συγχωνεύονται C 2 P Ένας πρόσφατος αλγόριθμος συσταδοποίησης που συνδυάζει τα χαρακτηριστικά των ιεραρχικών αλγορίθμων και της θεωρίας γράφων είναι ο C 2 P [37]. Ο C 2 P εκμεταλλεύεται τις δομές ευρετηρίων και την επεξεργασία των

183 3 ο Κεφάλαιο Συσταδοποίηση 184 ερωτήσεων του πιο κοντινού ζευγαριού (Closest Pair Queries CPQ) στις χωρικές βάσεις δεδομένων. Ο C 2 P οργανώνει το αποτέλεσμα του CPQ πάνω μια χωρική μέθοδο προσπέλασης (R-Tree) σε μια δομή γράφου. Κατόπιν η συσταδοποίηση εκτελείται με τον προσδιορισμό των συστάδων ως συστατικά του γράφου. Ο C 2 P αποτελείται από δύο βασικές φάσεις: 1 η Φάση Παράγει διάφορες υπό-συστάδες που είναι μια αποτελεσματική αντιπροσώπευση των τελικών συστάδων. Είναι μια επαναληπτική διαδικασία κατά τη οποία διάφορες συστάδες συγχωνεύονται. Η διαδικασία Self-Semi- CPQ βρίσκει τα ζευγάρια των σημείων p, p' που ανήκουν σε ένα σύνολο δεδομένων S έτσι ώστε dist p p' min dist p, x, x S,. Ο αλγόριθμος χρησιμοποιεί μια γραφική αναπαράσταση που οργανώνει τις πληροφορίες εγγύτητας που υπολογίζονται από το CPQ και ορίζει τις συστάδες ως συστατικά του γράφου. Χρησιμοποιεί τα κέντρα των συστάδων για την αναπαράσταση τους. Ο αλγόριθμος χρησιμοποιεί τον depth-first Search αλγόριθμο στο γράφο για να βρει τα συνδεμένα στοιχεία του γράφου, ο οποίος περιλαμβάνει επίσης τις υπό-συστάδες του συνόλου δεδομένων. Κατά συνέπεια σημεία που ανήκουν στο ίδιο συνδεμένο στοιχείο μπορεί να θεωρηθούν ως μία υπό-συστάδα. Σε περίπτωση που ο αριθμός των καθορισμένων υπό-συστάδων, έστω c, είναι ίσος με τον απαιτούμενο αριθμό υπό-συστάδων η 1 η φάση ολοκληρώνεται. Διαφορετικά, βρίσκει το κέντρο κάθε υπό-συστάδας για να το αντιπροσωπεύσει. Κατόπιν η ίδια διαδικασία όπως περιγράφηκε πιο πάνω εφαρμόζεται επαναληπτικά στο σύνολο των c κέντρων μέχρι που να οριστεί ο απαιτούμενος αριθμός s υπό-συστάδων. 2 η Φάση Είναι μια εξειδικευμένη περίπτωση της πρώτης φάσης που χρησιμοποιεί μια διαφορετική αναπαράσταση συστάδας ώστε να παραχθεί το λεπτότερες τελικό σχήμα συσταδοποίησης. Επιπλέον, συγχωνεύει δύο συστάδες σε κάθε βήμα ώστε να ελεγχθεί η διαδικασία συσταδοποίησης. Σε κάθε βήμα όταν συγχωνεύονται δύο συστάδες, τα σημεία r μεταξύ όλων των σημείων των

184 3 ο Κεφάλαιο Συσταδοποίηση 185 συγχωνευμένων συστάδων που είναι πιο κοντά στο κέντρο επιλέγονται ως αντιπρόσωποι της νέας συστάδας. Χρησιμοποιώντας περισσότερα σημεία ως αντιπροσώπους αντί του κέντρου, ο C 2 P μπορεί αποτελεσματικά να συλλάβει τη μορφή και το μέγεθος των συστάδων. Κατόπιν η εύρεση του πιο κοντινού ζευγαριού συστάδων γίνεται με τον self-cpq. Πιο συγκεκριμένα, αυτή η φάση έχει ως είσοδο τα κέντρα των υπό-συστάδων που καθορίζονται στην 1 η φάση. Σε κάθε επανάληψη της 2 ης φάσης, ο self- CPQ βρίσκει το πιο κοντινό ζευγάρι των συστάδων βρίσκοντας το πιο κοντινό ζευγάρι μεταξύ των αντιπροσωπευτικών σημείων. Κατόπιν αυτές οι δύο συστάδες συγχωνεύονται και τα σημεία r για την αντιπροσώπευση των νέων συστάδων επιλέγονται. Η διαδικασία ολοκληρώνει όταν επιτυγχάνεται ο απαιτούμενος αριθμός συστάδων. Είναι προφανές ότι η 2 η φάση λειτουργεί ως ιεραρχικός συσσωρευτικός αλγόριθμος συσταδοποίησης Αποδοτικότητα Συσταδοποίησης Ένα από τα βασικά θέματα που σχετίζονται και μπορούν να επηρεάσουν την αποδοτικότητα της διαδικασίας συσταδοποίησης είναι η κλιμάκωση (scaling) και διαβάθμιση (weighting). Η κλιμάκωση (scaling) Η κλιμάκωση έχει να κάνει με διαφορετικές μεταβλητές που μετρώνται σε διαφορετικές μονάδες μέτρησης. Σκοπός είναι να μεταφερθούν όλες τις μεταβλητές σε συγκρίσιμα διαστήματα, ώστε μεταβολές μίας μεταβλητής να μην εμφανιστούν ως περισσότερο σημαντικές από ότι μεταβολές κάποιας άλλης μεταβλητής. Τρεις κοινοί τρόποι για κλιμάκωση είναι [38]: 1. Διαίρεση κάθε μεταβλητής με τον μέσο όρο όλων των τιμών που λαμβάνει.

185 3 ο Κεφάλαιο Συσταδοποίηση Διαίρεση κάθε μεταβλητής με το εύρος του πεδίου τιμών της (διαφορά μεταξύ της μικρότερης και μεγαλύτερης τιμής που λαμβάνει η μεταβλητή) αφού γίνει αφαίρεση της κατώτερης τιμής. 3. Αφαίρεση του μέσο όρο από κάθε μεταβλητή και μετά διαίρεση με την τυπική απόκλιση. Η διαδικασία αυτή κλιμάκωσης «καλείται μετατροπή Ζ-τιμή». Συνήθως η κλιμάκωση γίνεται μετατρέποντας όλες τις μεταβλητές (γνωρίσματα) και τις τιμές τους στο κοινό διάστημα 0 έως 1 ή -1 έως 1. Με τον τρόπο αυτό, τουλάχιστον οι αναλογίες των μεταβολών που παρατηρούνται στις μεταβλητές με διαφορετικές μονάδες μέτρησης είναι συμβατές. Επίσης αξίζει να σημειωθεί, ότι η τρίτη μέθοδος κλιμάκωσης (scaling) που αναφέρθηκε έχει αποδειχθεί σε πολλές περιπτώσεις να είναι ευαίσθητη στους outliers. Για να αντιμετωπιστεί το πρόβλημα αυτό προτείνεται η εξαίρεση του 1-5% των δεδομένων από τον υπολογισμό της μέσης τιμής και τυπικής απόκλισης [39]. Η στάθμιση (weighting) Η στάθμιση υλοποιεί το διαφορετικό ενδιαφέρον που μπορεί να έχουν κάποιες μεταβλητές σε σχέση με άλλες. Δίνοντας διαφορετικά βάρη στις μεταβλητές, δίνουμε μεγαλύτερη σημασία στα μεγέθη της μεταβλητής με μεγαλύτερο βάρος. Για παράδειγμα, εάν είναι περισσότερο σημαντικοί οι άνθρωποι που έχουν παιδιά παρά ο αριθμός των πιστωτικών καρτών που διαθέτουν, τότε θα ήταν σκόπιμο στο αποτέλεσμα της συσταδοποίησης να μεροληπτούν υπέρ του αριθμού των παιδιών, πολλαπλασιάζοντας το αντίστοιχο πεδίο με κάποιο βάρος υψηλότερο από ότι το πεδίο που αφορά των αριθμό των

186 3 ο Κεφάλαιο Συσταδοποίηση 187 πιστωτικών καρτών. Η διαδικασία επιλογής βαρών είναι ένα από τα προβλήματα βελτιστοποίησης και μπορεί να επιτευχθεί με χρήση γενετικών αλγορίθμων.

187 4 ο Κεφάλαιο Κανόνες Συσχέτισης 4.1 Εισαγωγή Οι κανόνες συσχέτισης (association rules) αποτελούν μία σχετικά σύγχρονη μέθοδο για την εξαγωγή γνώσης από μεγάλες βάσεις δεδομένων, καθότι πρωτοεμφανίστηκε το 1993 [40]. Οι πληροφορίες που μπορούν να περιγράψουν και να συγκεντρώσουν οι κανόνες συσχέτισης είναι ιδιαίτερα σημαντικές και αφορούν στους διάφορους τομείς της ζωής και ενασχόλησης του ανθρώπου. Κάτι τέτοιο εξάλλου αντικατοπτρίζεται και από το γεγονός ότι έχει γίνει μια σημαντική μελέτη στο πεδίο αυτό, τα τελευταία χρόνια και έχουν αναπτυχθεί πληθώρα αλγορίθμων που παράγουν κανόνες συσχέτισης. Οι κανόνες συσχέτισης είναι μοντέλα που αναγνωρίζουν ειδικούς τύπους συσχετίσεων μεταξύ δεδομένων. Οι συσχετίσεις αυτές δεν είναι έμφυτες αλλά αντιθέτως ανιχνεύουν μια συνηθισμένη χρήση για τα στοιχεία. Οι κανόνες συσχέτισης εμφανίστηκαν για τις ανάγκες της ανάλυσης του «καλαθιού αγοράς» (market basket analysis). Ο όρος αυτός προέρχεται από τις υπεραγορές (super markets) στις οποίες ο καταναλωτής τοποθετεί σε ένα καλάθι το σύνολο των προϊόντων που επιθυμεί να αγοράσει. Οι υπεραγορές αυτές συγκεντρώνουν ένα τεράστιο όγκο πληροφοριών σχετικά με τις αγορές των πελατών τους, καθώς οι συναλλαγές κάθε πελάτη μπορούν να

188 4 ο Κεφάλαιο Κανόνες Συσχέτισης 189 καταχωρηθούν πλέον ηλεκτρονικά. Έτσι δημιουργήθηκε η ιδέα της αξιοποίησης αυτής της πληροφορίας. Οι κανόνες συσχέτισης απλά εκφράζουν το αποτέλεσμα της ανάλυσης των χιλιάδων καλαθιών αγοράς των πελατών. Ένας τέτοιος κανόνας είναι και ο εξής: «Οι πελάτες που αγοράζουν γάλα, αγοράζουν παράλληλα και ψωμί σε ποσοστό 60%». Ο παραπάνω κανόνας γράφεται σύντομα ως «γάλα ψωμί, (60%)». Η πρόταση αυτή παρουσιάζει ένα αίτιο, αγορά γάλατος, και το συνδέει με ένα αποτέλεσμα, αγορά ψωμιού. Επίσης παρέχει μια ένδειξη για το πόσο πιθανό είναι να συμβαίνει μια τέτοια σχέση αιτίας-αιτιατού μέσω του ποσοστού που δίνεται. Οι κανόνες συσχέτισης επομένως, όπως υποδηλώνει το όνομα τους, είναι κανόνες «if-then» που συσχετίζουν αντικείμενα μεταξύ τους. Οι κανόνες συσχέτισης βρήκαν αμέσως πεδίο εφαρμογής σε διάφορες πτυχές της καθημερινότητας. Προώθηση προϊόντων. Έστω ο κανόνας «πατατάκια,... αναψυκτικό», όπου στο πρώτο μέλος οι τελείες δηλώνουν ότι υπάρχουν και άλλα προϊόντα. Το γεγονός ότι το «αναψυκτικό» βρίσκεται στο δεύτερο μέλος τον κανόνα (then-clause) μπορεί να χρησιμοποιηθεί ώστε να βρεθούν τρόποι να αυξηθούν οι πωλήσεις του συγκεκριμένου προϊόντος. Το γεγονός ότι τα «πατατάκια» βρίσκονται στο πρώτο μέλος (if-clause) παρέχει την πληροφορία για το ποια προϊόντα θα επηρεαστούν αν το κατάστημα σταματήσει να πουλά «πατατάκια». Το γεγονός ότι τα «πατατάκια» βρίσκονται στο πρώτο μέλος και ότι το «αναψυκτικό» βρίσκεται στο δεύτερο δίνει πληροφορίες σχετικά με το ποια προϊόντα μπορούν να πουληθούν μαζί με τα «πατατάκια» ώστε να αυξηθούν οι πωλήσεις των αναψυκτικών. Τοποθέτηση προϊόντων στα ράφια καταστημάτων. Οι κανόνες συσχέτισης υποδηλώνουν τις τάσεις αγοράς των πελατών μέσα σε ένα κατάστημα. Επομένως μπορούν να χρησιμοποιηθούν ώστε τα προϊόντα να τοποθετούνται σε τέτοιες σχετικές θέσεις μεταξύ τους ώστε να διευκολύνουν τον πελάτη αλλά και να τον παρακινήσουν να αγοράσει ένα προϊόν που συσχετίζεται με αυτό που αρχικά αγόραζε.

189 4 ο Κεφάλαιο Κανόνες Συσχέτισης 190 Διαχείριση Αποθεμάτων. Αυτό αφορά τη μελέτη της τάσης με την οποία τα προϊόντα διακινούνται με σκοπό την σωστή οργάνωση και διαχείριση των αποθεμάτων ώστε να αποφευχθούν περιπτώσεις αδυναμίας ικανοποίησης των αναγκών των πελατών. 4.2 Το Πρόβλημα Εξαγωγής Κανόνων Συσχέτισης Παρακάτω ορίζονται οι κανόνες συσχέτισης με τυπικό τρόπο [41]. Συνήθως οι κανόνες συσχέτισης χειρίζονται κατηγορικά δεδομένα. Με δεδομένο ένα συγκείμενο πεδίο, τα υπονοούμενα σύνολα των στοιχείων συνήθως είναι γνωστά, έτσι ώστε μια κωδικοποίηση των συναλλαγών θα μπορούσε να λάβει χώρα πριν από την επεξεργασία. Ωστόσο, οι κανόνες συσχετίσεων μπορούν να εφαρμοστούν σε πεδία με δεδομένα που δεν είναι κατηγορικά. Ορισμός Με δεδομένο ένα σύνολο από στοιχεία I I I,..., δεδομένων από συναλλαγές D t t,..., 1, 2 t n 1, 2 I m και μία βάση όπου t I I,..., I i και I ij I, ένας κανόνας συσχέτισης (association rule) είναι ένα επαγωγικό συμπέρασμα της μορφής X Y,όπου X, Y I είναι σύνολα στοιχείων που ονομάζονται στοιχειοσύνολα και X Y. i1, i2 ik Ορισμός Η υποστήριξη (support - s ) για έναν κανόνα συσχέτισης ποσοστό των συναλλαγών στη βάση δεδομένων που περιέχουν το X Y είναι το X Y. Ορισμός Η εμπιστοσύνη ή η ισχύς (confidence, strength - a ) για έναν κανόνα συσχέτισης περιέχουν το X Y, είναι το κλάσμα του αριθμού των συναλλαγών που X Y προς τον αριθμό των συναλλαγών που περιέχουν το X.

190 4 ο Κεφάλαιο Κανόνες Συσχέτισης 191 Τις περισσότερες φορές δεν παρουσιάζουν ενδιαφέρον όλες οι συσχετίσεις αλλά μόνο αυτές που είναι σημαντικές. Η σημαντικότητα συνήθως μετριέται από δύο χαρακτηριστικά που καλούνται υποστήριξη και εμπιστοσύνη, όπως ορίζονται παραπάνω. Η επιλογή των κανόνων συσχέτισης βασίζεται σε αυτές τις δύο τιμές, όπως αναφέρθηκε στον ορισμό του προβλήματος του κανόνα συσχέτισης στον παρακάτω ορισμό. Η εμπιστοσύνη μετρά την ισχύ του κανόνα, ενώ η υποστήριξη μετρά πόσο συχνά εμφανίζεται στη βάση δεδομένων. Τυπικά, χρησιμοποιούνται τιμές μεγάλης εμπιστοσύνης και μία μικρότερη υποστήριξη. Ορισμός Δεδομένου ενός συνόλου από στοιχεία I I I,..., δεδομένων από συναλλαγές D t t,..., 1, 2 t n 1, 2 I m και μία βάση όπου t I I,..., I i και I ij I, τo πρόβλημα των κανόνων συσχέτισης είναι η εύρεση όλων των κανόνων συσχέτισης X Y με μία ελάχιστη τιμή για την υποστήριξη και την εμπιστοσύνη. Αυτές οι τιμές ( s, a ) δίνονται σαν είσοδος στο πρόβλημα. i1, i2 ik Έτσι, το Πρόβλημα της Εξαγωγής Κανόνων Συσχέτισης αναφέρεται στην εύρεση όλων των κανόνων συσχέτισης που ικανοποιούν κάποια όρια (κατώφλια) σε σχέση με την υποστήριξη (support) και την εμπιστοσύνη (confidence). Η υποστήριξη ενός κανόνα πρέπει να είναι μεγαλύτερη από μια τιμή που ονομάζουμε ελάχιστη υποστήριξη (minsup), ενώ η εμπιστοσύνη πρέπει να είναι μεγαλύτερη από μια τιμή που ονομάζουμε ελάχιστη εμπιστοσύνη (minconf). Κατά συνέπεια όλοι οι κανόνες που θα παραχθούν θα πρέπει να ικανοποιούν τους δύο αυτούς περιορισμούς. Οι δύο παράγοντες αυτοί καθορίζουν τον αριθμό των κανόνων που θα προκύψουν και επομένως θα πρέπει να επιλέγονται ανάλογα με τον τύπο δοσοληψιών. Επιπλέον, η αποτελεσματικότητα των αλγορίθμων κανόνων συσχέτισης συχνά μελετάται σε σχέση με τον αριθμό των σαρώσεων που απαιτούνται στη βάση δεδομένων και το μέγιστο αριθμό των στοιχειοσυνόλων που πρέπει να μετρηθούν [7].

191 4 ο Κεφάλαιο Κανόνες Συσχέτισης Εξαγωγή Κανόνων Συσχέτισης Η πιο κοινή προσέγγιση για την εύρεση των κανόνων συσχέτισης, είναι η διάσπαση το προβλήματος σε δύο μέρη: Εύρεση συχνών στοιχειοσυνόλων (frequent itemset) Δημιουργία κανόνων από τα συχνά στοιχειοσύνολα. Ορισμός Ένα στοιχειοσύνολο (itemset) είναι ένα οποιοδήποτε υποσύνολο όλων των στοιχείων. Ένα συχνό (ή μεγάλο) στοιχειοσύνολο είναι ένα στοιχειοσύνολο του οποίου ο αριθμός των εμφανίσεων είναι πάνω από ένα κατώφλι, s. Χρησιμοποιείται ο συμβολισμός L για να δηλωθεί το σύνολο που αποτελείται από όλα τα συχνά στοιχειοσύνολα και το l για να δηλωθεί ένα συγκεκριμένο συχνό στοιχειοσύνολο. Αφού έχουν βρεθεί τα συχνά στοιχειοσύνολα, προκύπτει ότι οποιοσδήποτε κανόνας συσχέτισης που παρουσιάζει ενδιαφέρον, σύνολο X Y X Y, πρέπει να έχει το σε αυτό το σύνολο των συχνών στοιχειοσυνόλων. Παρατηρείται το γεγονός ότι το υποσύνολο οποιοδήποτε συχνού στοιχειοσυνόλου είναι επίσης συχνό. Εξαιτίας του μεγάλου αριθμού των συμβολισμών που χρησιμοποιούνται στους αλγορίθμους εύρεσης κανόνων συσχέτισης παρακάτω δίνεται μία περίληψη όλων αυτών στον Πίνακα 4.1. Όταν ένας συγκεκριμένος όρος έχει ένα δείκτη, αυτό δηλώνει το μέγεθος του συνόλου το οποίο μελετάται. Για παράδειγμα, l k είναι ένα συχνό στοιχειοσύνολο μεγέθους k. Μερικοί αλγόριθμοι διαιρούν το σύνολο των συναλλαγών σε διαμερίσεις. Σε αυτήν την περίπτωση, χρησιμοποιείται το p για να δηλωθεί ο αριθμός των διαμερίσεων και έναν εκθέτη για να δηλωθεί η συγκεκριμένη διαμέριση. Για παράδειγμα, i D είναι η i -οστή διαμέριση του D.

192 4 ο Κεφάλαιο Κανόνες Συσχέτισης 193 Πίνακας 4.1 Συμβολισμοί Κανόνων Συσχέτισης Όρος D t i s Περιγραφή Βάση Συναλλαγών Συναλλαγή στη D Υποστήριξη Εμπιστοσύνη X, Y Στοιχειοσύνολα X Y Κανόνας Συσχέτισης L l C p Σύνολο Συχνών Στοιχειοσυνόλων Συχνό Στοιχειοσύνολο στο L Σύνολο Υποψηφίων Στοιχειοσυνόλων Αριθμός Διαμερισμών Η εύρεση των συχνών στοιχειοσυνόλων είναι το πιο δύσκολο τμήμα του προβλήματος και αποτελεί αρκετά δαπανηρή εργασία. Μία απλοϊκή προσέγγιση θα ήταν να μετρηθούν όλα τα στοιχειοσύνολα, τα οποία εμφανίζονται σε κάθε συναλλαγή. Με δεδομένο ένα σύνολο στοιχείων μεγέθους m, υπάρχουν m 2 υποσύνολα. Επειδή δεν παρουσιάζει ενδιαφέρον το κενό σύνολο, ο εν δυνάμει αριθμός των συχνών στοιχειοσυνόλων είναι, επομένως 2 m 1. Εξαιτίας της εκρηκτικής αύξησης αυτού του αριθμού, η πρόκληση της επίλυσης του προβλήματος των κανόνων συσχέτισης συχνά διαμορφώνεται στο πώς θα καθορίσουμε αποτελεσματικά όλα τα συχνά στοιχειοσύνολα. (Όταν m 5 υπάρχουν 31 πιθανά στοιχειοσύνολα. Όταν m 30 αυτός ο αριθμός γίνεται ) Οι περισσότεροι αλγόριθμοι κανόνων συσχέτισης βασίζονται σε έξυπνους τρόπους για να μειώσουν τον αριθμό των στοιχειοσυνόλων που πρόκειται να μετρηθούν. Αυτά τα πιθανά συχνά στοιχειοσύνολα ονομάζονται υποψήφιοι (candidates) και το σύνολο όλων των καταμετρημένων (πιθανώς συχνών) στοιχειοσυνόλων είναι το σύνολο των υποψηφίων στοιχειοσυνόλων ( C ). Ένα μέτρο της απόδοσης, που χρησιμοποιείται για τους αλγόριθμους των κανόνων συσχέτισης, είναι το μέγεθος του C. Ένα άλλο πρόβλημα, που πρέπει να λυθεί από του

193 4 ο Κεφάλαιο Κανόνες Συσχέτισης 194 αλγορίθμους των κανόνων συσχέτισης είναι ο καθορισμός της δομής δεδομένων που πρόκειται να χρησιμοποιηθεί κατά την διάρκεια της διαδικασίας καταμέτρησης, αρκετές δομές δεδομένων έχουν προταθεί. Ένα δέντρο tree ή ένα δέντρο κατακερματισμού είναι οι συνήθεις δομές δεδομένων που χρησιμοποιούνται για την εργασία αυτή [5]. Έτσι όταν έχουν βρεθεί όλα τα συχνά στοιχειοσύνολα, το δεύτερο βήμα δηλαδή η δημιουργία των κανόνων συσχέτισης είναι μια διαδικασία απλή, και υλοποιείται με βάση τον απλό αλγόριθμο. Για καθένα από τα frequent itemsets l, βρες όλα τα μη κενά υποσύνολα του. Για κάθε τέτοιο υποσύνολο a, παρουσίασε τον κανόνα l αν ο λόγος sup l / supa, που αντιστοιχεί στην εμπιστοσύνη του κανόνα είναι τουλάχιστον minconf. Έχουν κατά καιρούς παρουσιαστεί διαφορετικοί αλγόριθμοι επίλυσης του συγκεκριμένου προβλήματος, Έτσι παρακάτω παρουσιάζονται και εξετάζονται οι τρόποι που ανακαλύπτουν αποτελεσματικά συχνά στοιχειοσύνολα [7]. 4.4 Ταξινόμηση Αλγορίθμων Οι αλγόριθμοι εύρεσης κανόνων συσχέτισης μπορούν να ταξινομηθούν ως προς τις ακόλουθες διαστάσεις [42]: Στόχος. Έτσι υπάρχουν αλγόριθμοι που δημιουργούν όλους τους κανόνες που ικανοποιούν μία δεδομένη τιμή για την υποστήριξη και για το επίπεδο εμπιστοσύνης. Εναλλακτικοί τρόποι σε αυτού του τύπου τους αλγορίθμους είναι εκείνοι οι οποίοι δημιουργούν κάποιο υποσύνολο των κανόνων με βάση τους δεδομένους περιορισμούς. Τύπος. Οι αλγόριθμοι μπορούν να δημιουργήσουν κανονικούς κανόνες συσχετίσεων ή πιο εξελιγμένους κανόνες συσχετίσεων

194 4 ο Κεφάλαιο Κανόνες Συσχέτισης 195 Τύπος δεδομένων. Υπάρχουν κανόνες που δημιουργήθηκαν για δεδομένα σε κατηγορικές βάσεις δεδομένων. Κανόνες μπορούν επίσης να παραχθούν για άλλους τύπους δεδομένων, όπως το απλό κείμενο. Πηγή δεδομένων. Υπάρχουν αλγόριθμοι που παράγουν κανόνες συσχέτισης για δεδομένα του καλαθιού αγορών. Αυτό υποδηλώνει παρουσία των δεδομένων σε μία συναλλαγή. Η απουσία των δεδομένων μπορεί επίσης να είναι παράγοντας προς διερεύνηση. Τεχνική. Η πιο κοινή στρατηγική για τη δημιουργία κανόνων συσχέτισης είναι αυτή της εύρεσης των συχνών στοιχειοσυνόλων. Άλλες τεχνικές μπορούν επίσης να χρησιμοποιηθούν. Στρατηγική στοιχειοσυνόλων. Τα στοιχειοσύνολα μπορούν να μετρηθούν με διάφορους τρόπους. Η πιο απλοϊκή προσέγγιση είναι η δημιουργία όλων των στοιχειοσυνόλων και το μέτρημα αυτών. Καθώς αυτό είναι συνήθως πολύ απαιτητικό σε χώρο, η πιο κοινή προσέγγιση είναι η από κάτω προς τα πάνω (bottom-up) προσέγγιση που χρησιμοποιείται από τον Apriori, η οποία εκμεταλλεύεται την ιδιότητα των συχνών στοιχειοσυνόλων. Εναλλακτικά, θα μπορούσε να χρησιμοποιηθεί μια από πάνω προς τα κάτω (top-down) τεχνική. Στρατηγική συναλλαγών. Για να μετρηθούν τα στοιχειοσύνολα, πρέπει να πραγματοποιηθεί ένα πέρασμα των συναλλαγών της βάσης δεδομένων. Όλες οι συναλλαγές θα μπορούσαν να μετρηθούν, μόνο ένα δείγμα θα μπορούσε να μετρηθεί ή οι συναλλαγές θα μπορούσαν να διαιρεθούν σε διαμερίσεις.

195 4 ο Κεφάλαιο Κανόνες Συσχέτισης 196 Δομή δεδομένων στοιχειοσυνόλων. Η πιο κοινή δομή δεδομένων που χρησιμοποιείται για την αποθήκευση των υποψήφιων στοιχειοσυνόλων, όπως επίσης και των μετρητών τους, είναι ένα δένδρο κατακερματισμού. Τα δένδρα κατακερματισμού παρέχουν μία αποτελεσματική τεχνική για την αποθήκευση, προσπέλαση και μέτρημα των στοιχειοσυνόλων. Τα δένδρα αυτά είναι αποτελεσματικά στην αναζήτηση, στην εισαγωγή και στη διαγραφή στοιχειοσυνόλων. Ένα δένδρο κατακερματισμού (hash tree) είναι ένα δέντρο αναζήτησης πολλαπλών δρόμων, όπου η διακλάδωση που θα ακολουθηθεί σε κάθε επίπεδο του δένδρου καθορίζεται με την εφαρμογή μίας συνάρτησης κατακερματισμού, σε αντίθεση με την σύγκριση των τιμών των κλειδιών με τα σημεία διάσπασης του κόμβου. Ένας κόμβος φύλλο στο δένδρο κατακερματισμού περιέχει τους υποψηφίους που κατακερματίζονται σε αυτό, αποθηκευμένους με κάποια διάταξη. Κάθε εσωτερικός κόμβος στην πραγματικότητα περιέχει έναν πίνακα κατακερματισμού με συνδέσμους προς τους κόμβους κλειδιά. Δομές δεδομένων συναλλαγών. Οι συναλλαγές μπορούν να θεωρηθούν σαν ένα επίπεδο αρχείο, ή σα μία TID λίστα, τα οποία μπορούν να θεωρηθούν σαν ένα αντεστραμμένο αρχείο. Τα στοιχεία συνήθως κωδικοποιούνται και έχει επίσης προταθεί η χρήση των εικονοστοιχείων. Βελτιστοποίηση. Αυτές οι τεχνικές κοιτάζουν στο πώς θα βελτιώσουν την απόδοση ενός αλγορίθμου, δεδομένης της κατανομής των δεδομένων (ανομοιομορφία) ή της ποσότητας της κύριας μνήμης. Αρχιτεκτονική. Υπάρχουν σειριακοί, παράλληλοι όσο και κατανεμημένοι αλγόριθμοι.

196 4 ο Κεφάλαιο Κανόνες Συσχέτισης 197 Στρατηγική παραλληλισμού. Έχουν χρησιμοποιηθεί τόσο ο παραλληλισμός των δεδομένων και ο παραλληλισμός των εργασιών. 4.5 Βασικοί Αλγόριθμοι Σε αυτή την ενότητα αναφέρονται αναλυτικά οι βασικοί αλγόριθμοι που χρησιμοποιούνται για την εύρεση κανόνων συσχέτισης Αλγόριθμος Apriori Ο αλγόριθμος Apriori είναι ο πιο γνωστός αλγόριθμος για την εύρεση κανόνων συσχέτισης και χρησιμοποιείται στα περισσότερα εμπορικά προϊόντα. Χρησιμοποιεί την ακόλουθη ιδιότητα, η οποία ονομάζεται ιδιότητα συχνών στοιχειοσυνόλων: Οποιοδήποτε υποσύνολο ενός συχνού στοιχειοσυνόλου πρέπει να είναι συχνό. Τα συχνά στοιχειοσύνολα ονομάζονται επίσης και κλειστά προς κάτω επειδή εάν ένα στοιχειοσύνολο ικανοποιεί τις απαιτήσεις της ελάχιστης υποστήριξης, το ίδιο συμβαίνει για όλα τα υποσύνολα του. Θεωρώντας το αντίστροφο της παραπάνω πρότασης, εάν είναι γνωστό ότι ένα στοιχειοσύνολο δεν είναι συχνό, δεν χρειάζεται να δημιουργηθεί κανένα υπερσύνολο του, σαν υποψήφιο, επειδή και αυτό αποκλείεται να είναι συχνό. Χρησιμοποιείται το δικτυωτό πλέγμα που φαίνεται στο παρακάτω σχήμα για να παρουσιαστεί η έννοια αυτής της σημαντικής ιδιότητας. Σε αυτήν την περίπτωση υπάρχουν τέσσερα στοιχεία A, B, C, D. Οι γραμμές στο πλέγμα αναπαριστούν τη σχέση του υποσυνόλου, και έτσι η ιδιότητα του συχνού στοιχειοσυνόλου καθορίζει ότι οποιοδήποτε σύνολο στο μονοπάτι επάνω από ένα στοιχειοσύνολο πρέπει να

197 4 ο Κεφάλαιο Κανόνες Συσχέτισης 198 είναι συχνό εάν το αρχικό στοιχειοσύνολο είναι συχνό. Στο σχήμα τα μη κενά υποσύνολα του 2 ACD φαίνεται να είναι τα AC, AD, CD, A, C, D. Εάν το ACD είναι συχνό, το ίδιο ισχύει και για όλα τα υποσύνολα του. Εάν κάποιο από αυτά τα υποσύνολα δεν είναι συχνό, τότε ούτε το ACD είναι συχνό. Σχήμα 4.1 Κλειστότητα προς τα κάτω Η βασική ιδέα του αλγόριθμου Apriori είναι η δημιουργία υποψήφιων στοιχειοσυνόλων ενός συγκεκριμένου μεγέθους και στη συνέχεια η σάρωση της βάσης δεδομένων για να μετρηθούν και να παρουσιαστούν αν αυτά είναι συχνά. Κατά τη διάρκεια του i περάσματος, καταμετρούνται τα υποψήφια στοιχειοσύνολα μεγέθους i, Ci. Μόνο εκείνοι οι υποψήφιοι που είναι συχνοί χρησιμοποιούνται για τη δημιουργία υποψηφίων για το επόμενο πέρασμα. Αυτό σημαίνει ότι το L χρησιμοποιείται για τη δημιουργία του i 1. Ένα i C στοιχειοσύνολο θεωρείται ως υποψήφιο μόνο όταν όλα του τα υποσύνολα είναι επίσης συχνά. Για τη δημιουργία υποψηφίων μεγέθους i 1, γίνονται συνενώσεις συχνών στοιχειοσυνόλων που βρίσκονται στο προηγούμενο πέρασμα. Στον Πίνακα 4.2 παρουσιάζεται η παραπάνω διαδικασία. Δεν

198 4 ο Κεφάλαιο Κανόνες Συσχέτισης 199 υπάρχουν υποψήφιοι μεγέθους τρία επειδή υπάρχει μόνο ένα συχνό στοιχειοσύνολο μεγέθους δύο [5]. Συναλλαγή t 1 t 2 t 3 t 4 t 5 Στοιχεία (Item) Bread, Jelly, Peanut Butter Bread, Peanut Butter Bread, Milk, Peanut Butter Beer, Bread Beer, Milk Πίνακας 4.2 Δείγμα Δεδομένων Πέρασμα Υποψήφιοι {Beer}, {Bread}, {jelly}, {Milk}, {Peanut Butter} {Beer, Bread}, {Beer, Milk} {Beer, Peanut Butter}, {Bread, Milk} {Bread, Peanut Butter}, {Milk, Peanut Butter} Συχνά Στοιχειοσύνολα {Beer}, {Bread}, {Milk},{ Peanut Butter} {Bread, Peanut Butter} Πίνακας 4.3 Εφαρμογή του Apriori στις συναλλαγές του Πίνακα 2 Ανακεφαλαιώνοντας έτσι τα παραπάνω ο Αλγόριθμος Apriori, όπως οι περισσότεροι εξάλλου, διαβάζει τον αρχικό πίνακα D διαδοχικές φορές. Συνολικά ο πίνακας θα διαβαστεί το πολύ τόσες φορές όσες είναι το πλήθος των διαφορετικών items στον πίνακα. Στο πρώτο διάβασμα (πέρασμα) του πίνακα μετριέται η υποστήριξη των 1-itemsets και βρίσκεται ποια από αυτά ικανοποιούν την απαίτηση για ελάχιστη υποστήριξη. Σε κάθε επόμενο βήμα χρησιμοποιούνται τα itemsets του προηγούμενου περάσματος για να δημιουργηθούν καινούργια itemsets. Τα itemsets αυτά ονομάζονται υποψήφια (candidate itemsets) καθώς δεν είναι ακόμη γνωστή η υποστήριξη τους και κατ' επέκταση αν είναι συχνά (frequent). Για το λόγο αυτό μετριέται η υποστήριξη τους μέσω ενός περάσματος από τον αρχικό πίνακα. Το κλειδί σε όλη αυτή τη διαδικασία είναι ότι σε κάθε βήμα γίνεται ακριβώς ένα μόνο

199 4 ο Κεφάλαιο Κανόνες Συσχέτισης 200 πέρασμα από τον αρχικό πίνακα. Στο τέλος του κάθε βήματος αποφασίζετε ποια itemsets είναι συχνά ώστε να χρησιμοποιηθούν για το επόμενο βήμα. Αυτός είναι περιγραφικά ο τρόπος με τον οποίο αλγόριθμος Apriori παράγει τα frequent itemsets. Το όνομα του αλγορίθμου οφείλεται στην εξής ιδιότητα: Κάθε υποσύνολο ενός συχνού itemset είναι επίσης συχνό. Επίσης ισχύει και η αντιστροφή της παρακάτω ιδιότητας: Υπάρχει τουλάχιστον ένα υποσύνολο ενός μη συχνού itemset που να είναι επίσης μη συχνό. Δεδομένων αυτών των ιδιοτήτων παράγονται τα υποψήφια itemsets από τα ήδη γνωστά frequent itemsets και μόνο. Απορρίπτεται έτσι ένα μεγάλο σύνολο από υποψήφια itemsets και δεν υπολογίζουμε την υποστήριξη τους, καθώς είναι γνωστό εκ των προτέρων (a priori) ότι αυτά δεν πρόκειται να είναι συχνά [7] Ψευδοκώδικας Του Αλγορίθμου Apriori Πριν παρουσιαστεί ο ψευδοκώδικας που περιγράφει τον αλγόριθμο είναι χρήσιμο να επεξηγηθούν κάποιες παραδοχές που γίνονται και τους συμβολισμούς που χρησιμοποιούνται. Για όλα τα items που υπάρχουν σε έναν πίνακα θεωρείται ότι υπάρχει μια διάταξη μεταξύ τους, για παράδειγμα λεξικογραφική. Μπορεί ακόμα να αντικατασταθούν τα items με φυσικούς αριθμούς ώστε η διάταξη να είναι περισσότερο προφανής. Τα items που αποτελούν ένα itemset βρίσκονται αποθηκευμένα με βάση αυτή την διάταξη. Έστω ένα k -itemset X, τότε θα χρησιμοποιηθεί ο συμβολισμός X[ 1] X[ 2]... X[ k] που δείχνει ότι το itemset X αποτελείται από τα items X [ 1], X[ 2],..., X[ k] για τα οποία ισχύει ότι X[ 1] X[ 2]... X[ k]. To σύνολο των συχνών (frequent ή large) k -itemsets θα συμβολίζεται με L k, ενώ το σύνολο των υποψήφιων (candidate) k -itemsets θα συμβολίζεται με C k. Φυσικά ισχύει ότι το σύνολο C k είναι υπερσύνολο του L k, δηλαδή L C. Κάθε itemset έχει, εκτός από την λίστα με τα items που περιέχει, και έναν μετρητή υποστήριξης (support count) που χρησιμοποιείται για να υπολογιστεί η υποστήριξη του. Ο μετρητής αυτός (count) αρχικοποιείται στο 0 και κάθε k k

200 4 ο Κεφάλαιο Κανόνες Συσχέτισης 201 φορά που συναντάται το συγκεκριμένο itemset σε ένα transaction του πίνακα τότε αυξάνεται κατά 1. Κατά συνέπεια όταν εξεταστούν όλες οι σειρές του πίνακα η τιμή του μετρητή διαιρεμένη με το πλήθος των σειρών το πίνακα δίνει την υποστήριξη του αντίστοιχου itemset. Να σημειωθεί ότι το minsup που χρησιμοποιείται παρακάτω αντιστοιχεί όχι σε ποσοστό αλλά σε αριθμό transactions που απαιτούνται. Αλγόριθμος Apriori 1 L1= {large 1-itemsets}; 2 for (k=2; Lk-1.0; k++) do begin 3 Ck= a apriori-gen (Lk-1); // create candidates 4 forall transactions td do begin 5 Ct= subset(ck,t); // candidates included in t 6 forall candidates cc t do 7 c.count++; 8 end 9 Lk= (cc k c.count.minsup) 10 end 11 return U k L k ; Όπως και προηγουμένως στο πρώτο πέρασμα από τον πίνακα δοσοληψιών D βρίσκονται τα συχνά 1-itemsets, μετρώντας πόσες φορές εμφανίζεται το κάθε item και απομακρύνοντας αυτά που εμφανίζονται λιγότερο minsup φορές (εντολή 1). Κάθε επόμενο πέρασμα (εντολή 2), έστω το k πέρασμα, περιλαμβάνει δύο φάσεις. Η πρώτη φάση αφορά στην παραγωγή των υποψήφιων k -itemsets C από τα συχνά k 1-itemsets L k που βρέθηκαν k σι προηγούμενο πέρασμα. Για το σκοπό αυτό χρησιμοποιείται η συνάρτηση apriori-gen (εντολή 3) που περιγράφεται παρακάτω. Η δεύτερη φάση αφορά στον υπολογισμό του support count για τα υποψήφια itemsets. Για κάθε transaction (εντολή 4) βρίσκονται τα υποψήφια itemsets που περιέχονται (εντολή 5) και ο μετρητής τους αυξάνεται κατά 1 (εντολή 7). Το κρίσιμο σημείο

201 4 ο Κεφάλαιο Κανόνες Συσχέτισης 202 στην δεύτερη αυτή φάση είναι ο γρήγορος υπολογισμός του συνόλου C t, των υποψηφίων δηλαδή που περιέχονται στην δοσοληψία t. Η συνάρτηση subset επιτυγχάνει αυτό το σκοπό και περιγράφεται αναλυτικά στη συνέχεια. Στο τέλος του περάσματος υπολογίζεται το σύνολο τα itemsets του L k (εντολή 9) απορρίπτοντας C k που δεν είναι συχνά. Ο αλγόριθμος επιστρέφει την ένωση όλων των συχνών itemsets (εντολή 11) λύνοντας έτσι το ζητούμενο πρόβλημα [7] Συνάρτηση Apriori-Gen H συνάρτηση Apriori-Gen όπως παρουσιάστηκε παραπάνω πρέπει να παράγει τα υποψήφια k -itemsets από τα γνωστά συχνά k 1 -itemsets. Έτσι έχει ως είσοδο το σύνολο Lk 1 και ως έξοδο το σύνολο C k, ένα υπερσύνολο δηλαδή του L k. Η συνάρτηση αποτελείται από δύο βήματα, το join-step (ένωση) και το prunestep (ξεκαθάρισμα) που περιγράφονται από τις παρακάτω σχέσεις. join - step X Y X, Y L, X Y k 2 Ck K 1 prune step C X C, X contains members of L k K k 1 Στο πρώτο βήμα γίνεται η ένωση δύο k 1-itemsets που ανήκουν στο Lk 1 και επιπλέον έχουν ακριβώς k 2 κοινά items. Έτσι το itemset που θα προκύψει από αυτήν την ένωση θα αποτελείται από τα k 2 κοινά αυτά items συν το άλλο μη κοινό item από τα δύο k 1-itemsets, δηλαδή θα έχει σύνολο k items. Στο επόμενο βήμα γίνεται χρήση της βασικής αρχής του αλγορίθμου Apriori. Κατά συνέπεια απορρίπτονται εκείνα τα itemsets για τα οποία υπάρχει

202 4 ο Κεφάλαιο Κανόνες Συσχέτισης 203 τουλάχιστον ένα k 1 υποσύνολο τους που να μην ανήκει στο σύνολο Lk 1 (πρόταση ισοδύναμη με την απαίτηση να υπάρχουν ακριβώς k μέλη του Lk 1 στα itemsets), γιατί είναι a priori γνωστό ότι δεν είναι συχνά. Στο πρώτο βήμα μπορεί να γίνει βελτίωση με τη χρησιμοποίηση ορολογίας από την γλώσσα SQL, έτσι το βελτιωμένο join-step γράφεται ως εξής: insert into Ck select X[1], X[2],..., X[k-l], Y[k-1] from Lk-1 X, Lk-1 Υ where X[1]=Y[1],..., X[k-2]=Y[k-2], X[k-1]<Y[k-1] To σύνολο C k που υπολογίζεται με το τροποποιημένο πρώτο βήμα είναι πιο μικρό από το αντίστοιχο Ck υπολογίζεται πιο εύκολα λόγω της ύπαρξης της διάταξης και κατά συνέπεια επιταχύνει την όλη διαδικασία [7]. Παράδειγμα 4.1 Έστω ότι το 3 L περιέχει πέντε 3-itemsets L 3 123, 124, 134, 135, 234. Τότε μετά το join-step θα έχουμε το εξής αποτέλεσμα C , Τέλος το prune-step θα διαγράψει το itemset 1345 επειδή το υποσύνολο του 145 δεν βρίσκεται στο L 3 Κατά συνέπεια το τελικό αποτέλεσμα θα είναι C Συνάρτηση subset Η συνάρτηση subset έχει αναλάβει το πιο δύσκολο έργο του αλγορίθμου. Πρέπει να υπολογίσει για κάθε transaction ποιο είναι το υποσύνολο εκείνο του

203 4 ο Κεφάλαιο Κανόνες Συσχέτισης 204 C k το οποίο αποτελείται από itemsets που περιέχονται όλα στο εκάστοτε transaction. Γίνεται αντιληπτό ότι για τον σκοπό αυτό πρέπει τα υποψήφια itemsets να αποθηκεύονται με τέτοιο τρόπο ώστε να επιταχύνεται η όλη διαδικασία. Τα υποψήφια itemsets C k αποθηκεύονται σε ένα hash-tree (δέντρο κατακερματισμού). Ένας κόμβος του δέντρου αυτού περιέχει είτε μια λίστα από itemsets, αν είναι κόμβος φύλλο, είτε έναν πίνακα κατακερματισμού (hash-table) αν πρόκειται για εσωτερικό κόμβο. Κάθε κουβάς (bucket) του πίνακα κατακερματισμού ενός εσωτερικού κόμβου δείχνει σε έναν άλλο κόμβο. Θεωρώντας ότι η ρίζα του hash-tree έχει βάθος 1, τότε ένας εσωτερικός κόμβος βάθους d δείχνει σε κόμβους βάθους d 1. Τα itemsets επομένως αποθηκεύονται μόνο στα φύλλα, ενώ οι υπόλοιποι κόμβοι περιέχουν πληροφορία για το πώς θα αναζητηθούν τα itemsets. Για να προστεθεί ένα καινούριο itemset, ξεκινάει από την ρίζα και συνεχίζει διασχίζοντας το δέντρο μέχρι να φτάσει σε κάποιο φύλλο. Τότε σε εκείνο το φύλλο προσθέτουμε το itemset στο σύνολο των itemsets που υπάρχουν ήδη αποθηκευμένα. Σε έναν εσωτερικό κόμβο βάθους i αποφασίζεται ποιος κλαδί του κόμβου θα ακολουθήσουμε εφαρμόζοντας την συνάρτηση κατακερματισμού στο d -οστό item του itemset. Όλοι οι κόμβοι αρχικά δημιουργούνται ως φύλλα. Όταν ο αριθμός των itemsets για ένα φύλλο ξεπεράσει ένα συγκεκριμένο κατώφλι τότε το φύλλο αυτό μετατρέπεται σε εσωτερικό κόμβο με τόσα φύλλα όσα τα buckets της συνάρτησης κατακερματισμού. Ως συνέπεια του τρόπου δημιουργίας του hash-tree, αν το δέντρο αποθηκεύει τα υποψήφια k -itemsets, δηλαδή το C k, τότε θα έχει βάθος το πολύ k 1 (η μέγιστη διαδρομή θα περιλαμβάνει k hash-tables και θα καταλήγει σε ένα φύλλο). Ένα hash-tree για κάποιο σύνολο C 3 φαίνεται στο σχήμα παρακάτω. Ο πίνακας δοσοληψιών έχει 9 διαφορετικά items αριθμημένα με τους φυσικούς αριθμούς 1-9. Η συνάρτηση κατακερματισμού που επιλέχθηκε είναι η modulo 3, δηλαδή το υπόλοιπο της διαίρεσης με το 3, όπως επίσης φαίνεται στο σχήμα. Κάθε εσωτερικός κόμβος κατά συνέπεια δείχνει σε 3 κόμβους.

204 4 ο Κεφάλαιο Κανόνες Συσχέτισης 205 Η αποθήκευση του itemset 159 φαίνεται στο παρακάτω σχήμα. Στη ρίζα (βάθος 1) η συνάρτηση κατακερματισμού για το πρώτο item 1 οδηγεί στο πρώτο κλαδί. Στον αμέσως επόμενο κόμβο το item 5 κατακερματίζεται και η διαδρομή που πρέπει να ακολουθηθεί είναι η μεσαία. Τέλος το item 9 οδηγείται μέσω της συνάρτησης κατακερματισμού στο τελευταίο κλαδί του κόμβου βάθους 3 και αποθηκεύεται εκεί ως φύλλο. Candidate Hash Tree Hash Function 1, 4, 7 3, 6, 9 2, 5, 8 Σχήμα 4.2 Αποθήκευση itemset {159} Με αυτόν τον τρόπο τα itemsets που δημιουργούνται από τη συνάρτηση παραγωγής υποψηφίων Apriori-Gen αποθηκεύονται στο hash-tree. Έτσι με τον τρόπο αυτό βρίσκει η συνάρτηση subset τους υποψήφιους που περιέχονται σε μία δοσοληψία t. Αν βρεθεί σε κάποιο φύλλο τότε η διαδικασία τελείωσε καθώς προστίθεται στο υπό αναζήτηση σύνολο C t εκείνα τα itemsets που βρίσκονται αποθηκευμένα στο φύλλο και που περιέχονται στην t.

205 4 ο Κεφάλαιο Κανόνες Συσχέτισης transaction Hash Function 1, 4, 7 3, 6, 9 2, 5, 8 Σχήμα 4.3 Αναζήτηση itemset {12356} Αν βρεθεί σε κάποιον εσωτερικό κόμβο και φτάσει σε αυτό το σημείο εφαρμόζοντας τη συνάρτηση κατακερματισμού για το item i τότε εφαρμόζεται η συνάρτηση κατακερματισμού για κάθε item που βρίσκεται μετά το i με βάση την διάταξη των items που έχουν οριστεί. Η διαδικασία επαναλαμβάνεται αναδρομικά μέχρι να καταλήξει σε κάποιο φύλλο. Στη ρίζα του δέντρου εφαρμόζεται συνάρτηση κατακερματισμού για κάθε item που υπάρχει στην δοσοληψία. Επιπλέον ας θεωρηθεί στο προηγούμενο παράδειγμα όπου υπάρχει αποθηκευμένο το hash-tree για το σύνολο C 3. Έστω επίσης ότι η δοσοληψία t περιέχει τα items Θα επισημανθεί τι συμβαίνει στην ρίζα του δέντρου (Σχήμα 4.3). Έτσι πρέπει να εφαρμοστεί η συνάρτηση κατακερματισμού για όλα τα items της δοσοληψίας. Ακριβέστερα πρέπει να

206 4 ο Κεφάλαιο Κανόνες Συσχέτισης 207 εφαρμοστεί η συνάρτηση μέχρι και το τρίτο από το τέλος item της δοσοληψίας ώστε να εξασφαλίσουμε ότι βρίσκουμε τα 3-itemsets. Όπως φαίνεται καλύτερα στο σχήμα για το πρώτο item ακολουθούμε το πρώτο κλαδί, για το δεύτερο το μεσαίο και για το τρίτο το τελευταίο. Σε κάθε κόμβο η διαδικασία επαναλαμβάνεται αναδρομικά [7] Μία παραλλαγή στον αλγόριθμο Είναι δυνατό να μετριέται η υποστήριξη των υποψηφίων με διαφορετικό μέγεθος με ένα πέρασμα. Ο αλγόριθμος Apriori στο k -πέρασμα από τη βάση υπολογίζει την υποστήριξη των k -itemsets του συνόλου C k. Είναι δυνατόν να υπολογιστεί η υποστήριξη itemsets μεγαλύτερων από k παράγοντας τα σύνολα το C * όταν είναι γνωστό μόνο το σύνολο Lk 1, αντί να παραχθεί μόνο k e C k. Για παράδειγμα από το k 1 C k με εφαρμογή της Apriori-Gen προκύπτει το C * και με επιπλέον εφαρμογή της συνάρτησης στο νέο σύνολο προκύπτει το C * k 2. Τα σύνολα C * k e για e θετικό είναι μεγαλύτερα από τα αντίστοιχα C * καθώς τα τελευταία προέρχονται απευθείας από τα αντίστοιχα Lk e 1. Η k e παραπάνω παραλλαγή εφαρμόζεται όταν το κόστος που προκύπτει από την κράτηση περισσότερων υποψήφιων itemsets αντισταθμίζεται από το γεγονός ότι δεν χρειάζεται να ξαναδιαβαστεί ο αρχικός πίνακας για τα αμέσως επόμενα περάσματα [7] Αλγόριθμος AprioriTID 0 αλγόριθμος AprioriTID ακολουθεί την ίδια λογική με τον Apriori καθώς προτάθηκε στην ίδια εργασία των Agrawal, Srikant [41]. Η ουσιαστική διαφοροποίηση του είναι ότι ο πίνακας των δοσοληψιών D διαβάζεται μόνο μια φορά στην αρχή. Οι πληροφορίες που περιέχει ο πίνακας δοσοληψιών

207 4 ο Κεφάλαιο Κανόνες Συσχέτισης 208 περιέχονται τώρα στον πίνακα C k. Κάθε εγγραφή του πίνακα αυτού είναι της μορφής TID, X k όπου X k είναι ένα υποψήφιο k -itemset που περιέχεται στην δοσοληψία με αναγνωριστικό TID. Ο πίνακας C 1 είναι ουσιαστικά ο αρχικός πίνακας δοσοληψιών με την διαφορά ότι κάθε item i έχει αντικατασταθεί από το 1 -itemset i. Για τιμές του k μεγαλύτερες του 1 ο πίνακας C k προκύπτει από το k βήμα του αλγορίθμου και κάθε εγγραφή του περιέχει itemsets από το εκάστοτε σύνολο Η χρησιμοποίηση του C k. C k αντί του πίνακα δοσοληψιών παρουσιάζει καλύτερα αποτελέσματα για μεγαλύτερες τιμές του k. To γεγονός αυτό οφείλεται στο ότι σταδιακά δοσοληψίες που δεν έχουν συχνά itemsets δεν αναπαρίστανται στον C k. Επίσης κάθε εγγραφή του πίνακα C k γίνεται όλο και πιο μικρή από την αντίστοιχη του πίνακα δοσοληψιών D καθώς λιγότερα υποψήφια itemsets παράγονται όσο το k μεγαλώνει. Παρακάτω παρουσιάζεται ο ψευδοκώδικας του αλγορίθμου AprioriTID. Παρατηρείται ότι η συνάρτηση subset δεν χρειάζεται πια καθώς δεν διαβάζεται ο πίνακας δοσοληψιών αλλά το C k. Η εντολή 7 είναι αυτή που αντικαθιστά την συνάρτηση subset. To σύνολο προκύπτει ελέγχοντας για κάθε υποψήφιο k -itemset αν όλα τα k 1 υποσύνολα του περιέχονται στην εγγραφή που μελετάται. Επιπλέον δεν είναι αναγκαίο να ελεγχθούν όλα τα υποσύνολα, αλλά μόνο τα δύο από τα οποία προέκυψε το k -itemset στο join-step της συνάρτησης apriori-gen, όπως εξάλλου φαίνεται και στον ψευδοκώδικα. Επειδή ο αλγόριθμος AprioriTID έχει καλύτερα αποτελέσματα στα τελευταία περάσματα από ότι στα πρώτα, συνηθίζεται να χρησιμοποιείται ο Apriori για τις πρώτες επαναλήψεις. Ένας τέτοιος αλγόριθμος είναι ο AprioriHybrid που συνδυάζει τα πλεονεκτήματα και των δυο αλγορίθμων που παρουσιάστηκαν. C t

208 4 ο Κεφάλαιο Κανόνες Συσχέτισης 209 Αλγόριθμος AprioriTID 1 L 1 = {large 1-itemsets}; 2 C 1 = database D; 3 for (k=2, L k-1 0; k++) do begin 4 C k = apriori-gen(l k-1); //create candidates 5 C k =0; 6 forall entries tck 1 do begin // find candidates included in entry t 7 Ct={cC k (c-c[k]) t.set_of_itemset (c-c[k-1]) t.set_of_itemset 8 forall candidates cc t do 9 c.count++; 10 if (C t 0) then C k += <t, TID, C t > 11 end 12 L k = {c C k c.count.minsup) 13 end 14 return U k L k ; Αλγόριθμος Δειγματοληψίας Για να διευκολυνθεί το αποτελεσματικό μέτρημα των στοιχειοσυνόλων σε μεγάλες βάσεις δεδομένων, μπορεί να χρησιμοποιηθεί δειγματοληψία της βάσης δεδομένων. Ο πρωτότυπος αλγόριθμος της δειγματοληψίας μειώνει τον αριθμό των περασμάτων της βάσης σε ένα, στην καλύτερη περίπτωση, και δύο, στη χειρότερη περίπτωση. Το δείγμα της βάσης δεδομένων επιλέγεται με τέτοιον τρόπο έτσι ώστε να μπορεί να χωρέσει στη μνήμη. Στη συνέχεια οποιοσδήποτε αλγόριθμος, όπως ο Apriori, χρησιμοποιείται για να βρει τα συχνά στοιχειοσύνολα στο δείγμα. Αυτά θεωρούνται σαν ενδεχομένως συχνά (Potentially Large - PL) στοιχειοσύνολα και χρησιμοποιούνται ως υποψήφια για μέτρημα χρησιμοποιώντας ολόκληρη τη βάση δεδομένων. Επιπλέον υποψήφιοι μπορούν να καθοριστούν με την εφαρμογή της

209 4 ο Κεφάλαιο Κανόνες Συσχέτισης 210 συνάρτησης του αρνητικού ορίου (Negative Border BD) ως προς τα συχνά στοιχειοσύνολα από το δείγμα. Ολόκληρο το σύνολο των υποψήφιο: γίνεται το C BD ( PL) PL. H συνάρτηση του αρνητικού ορίου είναι μία γενίκευση του Apriori-Gen αλγορίθμου. Ορίζεται σαν το ελάχιστο σύνολο των στοιχειοσυνόλων, τα οποίου δεν ανήκουν στο PL, αλλά των οποίων όλα τα υποσύνολα ανήκουν στο PL [5] Διαμέριση Έχουν προταθεί διάφορες προσεγγίσεις για τη δημιουργία συχνών στοιχειοσυνόλων, οι οποίες βασίζονται στη διαμέριση του συνόλου των συναλλαγών. Σε αυτήν την περίπτωση, το D χωρίζεται σε p μέρη D,,...,. Η διαμέριση μπορεί να βελτιώσει την απόδοση της εύρεσης 1 D2 Dp συχνών στοιχειοσυνόλων με αρκετούς τρόπους: Με βάση την ιδιότητα των συχνών στοιχειοσυνόλων, ένα συχνό στοιχειοσύνολο πρέπει να είναι συχνό σε μία τουλάχιστον από τις διαμερίσεις. Αυτή η ιδέα μπορεί να βοηθήσει στο αποτελεσματικότερο σχεδιασμό των αλγορίθμων απ' ότι εκείνες που βασίζονται στην εξέταση ολόκληρης της βάσης δεδομένων. Οι αλγόριθμοι διαμέρισης μπορεί να είναι ικανοί να προσαρμόζονται καλύτερα σε περιορισμένη κύρια μνήμη. Κάθε τμήμα μπορεί να δημιουργηθεί με τέτοιον τρόπο έτσι ώστε να ταιριάζει στην κύρια μνήμη. Επιπλέον, αναμένουμε ότι ο αριθμός των στοιχειοσυνόλων που μετρώνται σε κάθε διαμέριση θα είναι μικρότερος από εκείνους που θα χρειάζονταν για ολόκληρη τη βάση δεδομένων.

210 4 ο Κεφάλαιο Κανόνες Συσχέτισης 211 Χρησιμοποιώντας τη διαμέριση, μπορούν εύκολα να δημιουργηθούν παράλληλο και/ή κατανεμημένοι αλγόριθμοι, όπου κάθε διαμέριση θα μπορούσε να υποστεί επεξεργασία από μία ξεχωριστή μηχανή. Είναι ευκολότερο να εκτελεστεί αυξητική δημιουργία κανόνων συσχέτισης θεωρώντας την τρέχουσα κατάσταση της βάσης δεδομένων σα μία διαμέριση και τις καινούργιες εγγραφές σα μία δεύτερη διαμέριση. Ο βασικός αλγόριθμος της διαμέρισης μειώνει τον αριθμό των περασμάτων της βάσης δεδομένων σε δύο και διαιρεί τη βάση δεδομένων σε τμήματα, έτσι ώστε κάθε ένα να μπορεί να χωρέσει στην κύρια μνήμη. Καθώς σαρώνει τη βάση δεδομένων, φέρνει ένα κάθε φορά τμήμα της βάσης δεδομένων στην κύρια μνήμη και μετράει τα στοιχεία αυτής της διαμέρισης μόνο. Κατά τη διάρκεια του πρώτου περάσματος της βάσης δεδομένων, ο αλγόριθμος βρίσκει όλα τα συχνά στοιχειοσύνολα σε κάθε διαμέριση. Εάν και θα μπορούσε να χρησιμοποιηθεί οποιοσδήποτε αλγόριθμος για αυτό τον σκοπό, η αρχική πρόταση θεωρούσε ότι κάποια προσέγγιση, με βάση τα επίπεδα, όπως ο Apriori, χρησιμοποιείται. Εδώ το στοιχειοσύνολα από τη διαμέριση i L αναπαριστά τα συχνά i D. Κατά τη διάρκεια του δεύτερου περάσματος, μόνο εκείνα τα στοιχειοσύνολα που είναι συχνά σε μία τουλάχιστον διαμέριση χρησιμοποιούνται σαν υποψήφια και καταμετρούνται για να καθοριστεί εάν είναι συχνά σε ολόκληρη τη βάση δεδομένων [5] Αντιπροσωπευτικοί Κανόνες Συσχέτισης Στις προηγούμενες παραγράφους παρουσιάστηκαν με ποιους τρόπους μπορούν να προκύψουν τα συχνά itemsets, από τα οποία είναι πολύ εύκολο έπειτα να παραχθούν οι κανόνες συσχέτισης. Ο αριθμός των κανόνων που προκύπτουν είναι τις περισσότερες φορές πολύ μεγάλος αν δεν εφαρμοστούν κάποια κριτήρια για την σημαντικότητα των κανόνων. Μια άλλη αντιμετώπιση

211 4 ο Κεφάλαιο Κανόνες Συσχέτισης 212 του προβλήματος της παραγωγής πολλών κανόνων προτάθηκε από την Μ. Kryszkiewicz, στην οποία δεν χρησιμοποιούνται μέτρα σημαντικότητας [43]. Διαφορετικά παράγεται ένα ελάχιστο σύνολο κανόνων συσχέτισης από το οποίο προκύπτουν όλοι οι άλλοι κανόνες. Το ελάχιστο αυτό σύνολο ονομάζεται Αντιπροσωπευτικοί Κανόνες Συσχέτισης (Representative Association Rules). Από έναν κανόνα συσχέτισης προκύπτουν άλλοι κανόνες με την εφαρμογή στον αρχικό ενός τελεστή κάλυψης (cover operator). Θα εξεταστούν παρακάτω οι ιδιότητες του τελεστή αυτού Τελεστής κάλυψης (Cover Operator) Το σύνολο όλων των κανόνων συσχέτισης που ικανοποιούν τις απαιτήσεις για ελάχιστη υποστήριξη s και ελάχιστη εμπιστοσύνη c θα το αποκαλούμε εν συντομία AR s, c απλά AR.. Εάν τα s και c εννοούνται τότε μπορούμε να γράφουμε Η κάλυψη (cover) C ενός κανόνα X Y, ορίζεται ως εξής: C ( X Y) { X Z V Z, V και Z V και V δηλαδή κάθε κανόνας στο C( X Y) αποτελείται από ένα υποσύνολο των items που περιέχονται στον κανόνα X Y. Το πρώτο μέλος (antecedent) ενός κανόνα που ανήκει στο σύνολο C( X Y) αποτελείται από τα items του X και πιθανώς κάποια από τα items του Y. Το δεύτερο μέλος (consequent) ενός τέτοιου κανόνα είναι ένα μη κενό υποσύνολο των εναπομενόντων items από το Y. Παρακάτω παρουσιάζονται μερικές ιδιότητες που σχετίζονται με τον τελεστή κάλυψης [44]:

212 4 ο Κεφάλαιο Κανόνες Συσχέτισης η Ιδιότητα Έστω r ένας κανόνας συσχέτισης με υποστήριξη s και εμπιστοσύνη c. Κάθε κανόνας τύπου ανήκει στην κάλυψη C r είναι ένας κανόνας συσχέτισης που έχει υποστήριξη όχι μικρότερη από s και εμπιστοσύνη όχι μικρότερη από c. Η άμεση συνέπεια της ιδιότητας αυτής είναι ότι αν ένας κανόνας r ανήκει στο AR s, c, τότε κάθε κανόνας r από το C r θα ανήκει επίσης στο s c AR,. 2 η Ιδιότητα Έστω r ένας κανόνας συσχέτισης X Y. Τότε το πλήθος των κανόνων που περιέχονται στην κάλυψη του κανόνα αυτού είναι m Y. m m C( r) 3 2, όπου 3 η Ιδιότητα Έστω δύο κανόνες συσχέτισης ανήκει στην κάλυψη του r, Δηλαδή r r C( r') X Y X ' Y ' X X '. r : X Y και r' ( X ' Y' ). Τότε ο r θα C αν και μόνο αν X Y X ' Y ' και X X '. 4 η Ιδιότητα Αν ένας κανόνας συσχέτισης r είναι μεγαλύτερος (περιέχει περισσότερα items) από έναν κανόνα συσχέτισης r τότε r C(r' ). Αν ένας κανόνας συσχέτισης r : ( X Y) είναι μικρότερος από έναν κανόνα συσχέτισης r' : ( X ' Y' ) τότε r C(r' ). αν και μόνο αν X Y X ' Y' και X X '. Αν r : ( X Y) και r' : ( X ' Y' ) είναι διαφορετικοί κανόνες συσχέτισης με το ίδιο μήκος (ίδιο αριθμό από items) τότε r C(r' ). αν και μόνο αν X Y X ' Y' και X X '.

213 4 ο Κεφάλαιο Κανόνες Συσχέτισης Ορισμός Αντιπροσωπευτικών Κανόνων Συσχέτισης Το σύνολο των Αντιπροσωπευτικών Κανόνων Συσχέτισης (Representative Association Rules) με καθορισμένη την ελάχιστη υποστήριξη s και την ελάχιστη εμπιστοσύνη c ή θα συμβολίζεται ως s c RR,, και ορίζεται ως [7]: RR( s, c) r AR( s, c) r' AR( s, c), r r και r C r Αν τα s και c εννοούνται το σύνολο RR s, c, θα δηλώνεται ως RR. Ο παραπάνω ορισμός υποδηλώνει ότι κανένας αντιπροσωπευτικός κανόνας δεν ανήκει στην κάλυψη κάποιου άλλου κανόνα. Επίσης είναι προφανές ότι ισχύει AR( s, c) { C( r) r RR( s, c)}. Για το σύνολο RR s, c, ισχύουν οι παρακάτω απλές ιδιότητες: Ιδιότητα 1 Εάν r RR( s, c) τότε C( r) AR( s, c). Ιδιότητα 2 r AR( s, c) r' RR( s, c) : r C( r) Παράλληλοι και Κατανεμημένοι Αλγόριθμοι Οι περισσότεροι παράλληλοι ή κατανεμημένοι αλγόριθμοι εύρεσης κανόνων συσχέτιση; επιδιώκουν τον παραλληλισμό είτε των δεδομένων, γνωστός ως παραλληλισμός δεδομένων (data parallelism), είτε των υποψηφίων, γνωστός ως παραλληλισμός εργασιών (task parallelism) [5]. Με τον παραλληλισμό εργασιών οι υποψήφιοι διαμερίζονται και καταμετρούνται ξεχωριστά σε κάθε επεξεργαστή. Φανερά, ο αλγόριθμος της διαμέρισης θα ήταν εύκολο να

214 4 ο Κεφάλαιο Κανόνες Συσχέτισης 215 παραλληλιστεί με τη χρήση της προσέγγισης του παραλληλισμού των εργασιών. Άλλες διαστάσεις που εμπλέκονται στο διαχωρισμό διαφόρων αλγορίθμων εύρεσης κανόνων συσχέτισης είναι η προσέγγιση εξισορρόπησης φορτίου και η αρχιτεκτονική. Οι αλγόριθμοι παραλληλισμού δεδομένων έχουν μειωμένο κόστος επικοινωνίας, ως προς την εργασία, επειδή θα πρέπει να κατανεμηθούν μόνο οι αρχικοί υποψήφιοι (το σύνολο των στοιχείων) και οι τοπικοί μετρητές, σε κάθε επανάληψη. Με τον παραλληλισμό των εργασιών, όχι μόνο οι υποψήφιοι αλλά επίσης και το τοπικό σύνολο των συναλλαγών θα πρέπει να αποσταλεί σε όλες τις άλλες περιοχές. Ωστόσο, οι αλγόριθμοι παραλληλισμού δεδομένων απαιτούν η μνήμη σε κάθε επεξεργαστή να είναι αρκετά μεγάλη για να αποθηκεύσει όλους του υποψηφίους σε κάθε πέρασμα (αλλιώς η επίδοση θα φθίνει εμφανώς εξαιτίας του I/O που απαιτείται, τόσο για τη βάση δεδομένων όσο και για το σύνολο των υποψηφίων). Οι προσεγγίσεις παραλληλισμού εργασιών μπορούν να το αποφύγουν αυτό επειδή μόνο το υποσύνολο των υποψηφίων που εκχωρούνται σε έναν επεξεργαστή, κατά τη διάρκεια ενός περάσματος, θα πρέπει να χωράει στη μνήμη. Εφόσον δεν είναι απαραίτητο όλες οι διαμερίσεις των υποψηφίων να έχουν το ίδιο μέγεθος, οι αλγόριθμοι παραλληλισμού εργασιών μπορούν να προσαρμοστούν στο μέγεθος της μνήμης που υπάρχει στην κάθε περιοχή. Ο μόνος περιορισμός που υπάρχει είναι ότι το σύνολο όλων των υποψηφίων πρέπει να είναι αρκετά μικρό για να χωράει στο συνολικό μέγεθος της μνήμης που έχουν διαθέσιμη οι επεξεργαστές. Αξιοσημείωτο αποτελεί το γεγονός ότι υπάρχουν παραλλαγές των βασικών αλγορίθμων που αναπτύχθηκαν σε αυτήν την υποενότητα, που λαμβάνουν υπόψη τους αυτά τα ζητήματα που σχετίζονται με τη μνήμη. Μελέτες επίδοσης έχουν δείξει ότι οι εργασίες παραλληλισμού δεδομένων κλιμακώνονται γραμμικά σε σχέση με τον αριθμό των επεξεργαστών και το μέγεθος της βάσης δεδομένων. Εξαιτίας των μειωμένων απαιτήσεων σε μνήμη, ωστόσο, ο παραλληλισμός εργασιών μπορεί να δουλέψει εκεί όπου ο παραλληλισμός των δεδομένων μπορεί και να μη δουλεύει.

215 4 ο Κεφάλαιο Κανόνες Συσχέτισης Παραλληλισμός Δεδομένων Ένας αλγόριθμος παραλληλισμού δεδομένων είναι ο αλγόριθμος κατανομής μετρητών (Count Distribution Algorithm CDA). Η βάση δεδομένων χωρίζεται σε p τμήματα, ένα για κάθε επεξεργαστή. Κάθε επεξεργαστής μετράει τους υποψηφίους για τα δεδομένα του και στη συνέχεια εκπέμπει τους μετρητές σε όλους τους άλλους επεξεργαστές. Κάθε επεξεργαστής στη συνέχεια, καθορίζει τους καθολικούς μετρητές. Αυτοί στη συνέχεια χρησιμοποιούνται για να καθορίσουν τα συχνά στοιχειοσύνολα και για να δημιουργήσουν τους υποψηφίους για το επόμενο πέρασμα [5] Παραλληλισμός Εργασιών Ο αλγόριθμος κατανομής δεδομένων (Data Distribution Algorithm DDA) παρουσιάζει τον παραλληλισμό εργασιών. Εδώ, οι υποψήφιοι, όπως επίσης και η βάση δεδομένων, διαμερίζονται στους επεξεργαστές. Κάθε επεξεργαστής παράλληλα μετράει τους υποψηφίους που του έχουν αποδοθεί χρησιμοποιώντας την τοπική διαμέριση της βάσης δεδομένων. Έτσι, χρησιμοποιείται το l C k για να δηλωθούν οι υποψήφιοι μεγέθους k που ελέγχονται στον επεξεργαστή l P. Επίσης, l L k είναι τα τοπικά συχνά k - στοιχειοσύνολα στον επεξεργαστή l. Στη συνέχεια κάθε επεξεργαστής εκπέμπει το τμήμα της βάσης του σε όλους τους άλλους επεξεργαστές. Κάθε επεξεργαστής στη συνέχεια χρησιμοποιεί αυτό για να προμηθευτεί τον καθολικό μετρητή για τα δεδομένα του και εκπέμπει αυτόν το μετρητή σε όλους τους άλλους επεξεργαστές. Κάθε επεξεργαστής μετά από αυτό μπορεί να καθορίσει τα καθολικά συχνά στοιχειοσύνολα και να δημιουργήσει τους επόμενους υποψηφίους. Αυτοί οι υποψήφιοι στη συνέχεια μοιράζονται στους επεξεργαστές για το επόμενο πέρασμα. Oι υποψήφιοι αποστέλλονται στην πραγματικότητα σε κάθε επεξεργαστή. Ωστόσο, κάποια προκαθορισμένη τεχνική θα μπορεί να χρησιμοποιηθεί τοπικά από τον κάθε επεξεργαστή για

216 4 ο Κεφάλαιο Κανόνες Συσχέτισης 217 να καθορίσει τους δικούς του υποψηφίους. Αυτός ο αλγόριθμος πάσχει από υψηλή κυκλοφορία μηνυμάτων της οποίας ο αντίκτυπος θα μπορεί να μειωθεί με την επικάλυψη της επικοινωνίας και της επεξεργασίας [5] Αυξητικοί Κανόνες Όλοι οι αλγόριθμοι που περιγράφηκαν μέχρι τώρα προϋποθέτουν μία στατική βάση δεδομένων. Ωστόσο, στην πραγματικότητα δεν μπορεί να ισχύει αυτή η παραδοχή. Με όλους τους παραπάνω αλγορίθμους, η δημιουργία κανόνων συσχέτισης για μία καινούργια κατάσταση της βάσης δεδομένων απαιτεί ένα ολοκληρωμένο τρέξιμο του αλγορίθμου. Διάφορες προσεγγίσεις έχουν προταθεί για να αντιμετωπίσουν το ζήτημα του πώς θα διατηρηθούν οι κανόνες συσχετίσεων καθώς αλλάζει η βάση δεδομένων. Οι περισσότερες από τις προσεγγίσεις που έχουν προταθεί αντιμετωπίζουν το ζήτημα του πώς θα τροποποιηθούν οι κανόνες συσχετίσεων καθώς προστίθενται στη βάση δεδομένων καινούργια δεδομένα. Αυτές οι προσεγγίσεις αυξητικής ενημέρωσης (incremental updating) εστιάζουν στον καθορισμό των συχνών στοιχειοσυνόλων για το D db όπου D είναι η κατάσταση της βάσης δεδομένων και db είναι οι ενημερώσεις σε αυτήν και όπου τα συχνά στοιχειοσύνολα για το D, L, είναι γνωστά. Μία αυξητική προσέγγιση, γρήγορη ενημέρωση (Fast UPdate FUP), βασίζεται στον Apriori αλγόριθμο. Κάθε επανάληψη, k, κάνει ένα πέρασμα του db και του D με υποψήφιους που δημιουργήθηκαν από την προηγούμενη επανάληψη k 1, με βάση τα συχνά στοιχειοσύνολα σε εκείνο το πέρασμα. Επιπλέον χρησιμοποιούμε σα μέρος του συνόλου των υποψηφίων για το πέρασμα k να είναι το L k που βρέθηκε στο D. Η διαφορά είναι ότι ο αριθμός των υποψηφίων που εξετάζονται σε κάθε επανάληψη μειώνεται μέσω της περικοπής των υποψηφίων. Εάν και άλλες τεχνικές περικοπής χρησιμοποιούνται, η πρωταρχική περικοπή βασίζεται στο γεγονός ότι ήδη είναι γνωστό το L από το D. Με βάση την ιδιότητα των συχνών στοιχειοσυνόλων, ένα στοιχειοσύνολο πρέπει να είναι συχνό σε μία

217 4 ο Κεφάλαιο Κανόνες Συσχέτισης 218 τουλάχιστον από αυτές τις διαμερίσεις της νέας βάσης δεδομένων. Για κάθε πέρασμα k της db, το L k μαζί με τους μετρητές για κάθε στοιχειοσύνολο στο L k, χρησιμοποιείται σαν είσοδος. Όταν ο μετρητής για κάθε στοιχείο του βρεθεί στην db, αυτόματα γίνεται γνωστό το κατά πόσο θα είναι συχνό σε ολόκληρη τη βάση δεδομένων χωρίς να σαρωθεί το D. Ούτε χρειάζεται να μετρηθούν κάποια στοιχεία στο L k κατά τη διάρκεια του περάσματος της db, εάν αυτά έχουν ένα υποσύνολο το οποίο δεν είναι συχνό σε ολόκληρη την βάση δεδομένων [5]. L k 4.9. Προηγμένες Τεχνικές Επαγωγής Κανόνων Συσχέτισης Σε αυτή την υποενότητα παρουσιάζονται διάφορες τεχνικές που έχουν προταθεί για τη δημιουργία κανόνων συσχέτισης οι οποίες είναι πιο πολύπλοκες από τους βασικούς κανόνες Γενικευμένοι Κανόνες Συσχετίσεων Χρησιμοποιώντας μία ιεραρχία εννοιών, η οποία παρουσιάζει τη συσχέτιση του συνόλου μεταξύ διαφόρων στοιχείων, γενικευμένοι κανόνες συσχετίσεων επιτρέπουν τους κανόνες σε διάφορα επίπεδα. Παρακάτω ακολουθεί ανάλυση της χρήσης αυτών των γενικευμένων κανόνων. Κανόνες συσχετίσεων θα μπορούσαν να δημιουργηθούν για οποιοδήποτε επίπεδο στην ιεραρχία. Ένας γενικευμένος κανόνας συσχέτισης (generalized association rule), X Y, ορίζεται όπως και ένας συνηθισμένος κανόνας συσχέτισης με τον περιορισμό ότι κανένα στοιχείο του Y δε μπορεί να είναι πάνω (στην ιεραρχία) από ένα στοιχείο του X. Όταν δημιουργούνται γενικευμένοι κανόνες συσχετίσεων όλοι οι πιθανοί κανόνες δημιουργούνται χρησιμοποιώντας μία ή περισσότερες δεδομένες ιεραρχίες. Διάφοροι αλγόριθμοι έχουν προταθεί για τη δημιουργία γενικευμένων κανόνων. Ο απλούστερος θα ήταν να επεκταθεί κάθε

218 4 ο Κεφάλαιο Κανόνες Συσχέτισης 219 συναλλαγή προσθέτοντας (για κάθε στοιχείο σε αυτή) όλα τα στοιχεία που υπάρχουν πάνω από αυτό σε οποιαδήποτε ιεραρχία. Τρόφιμα Λαχανικά Φρούτα Δημητριακά Κρέας Γαλακτοκομικά Ψωμί Ρύζι Σταρένιο Άσπρο Σικάλεως Σχήμα 4.4 Ιεραρχία Εννοιών Παράδειγμα 4.2 To Σχήμα 4.4 παρουσιάζει μία ιεραρχία εννοιών για τρόφιμα. Αυτή η ιεραρχία δείχνει το σταρένιο ψωμί είναι ένα είδος ψωμιού το οποίο περιέχει κόκκους δημητριακών. Ένας κανόνας συσχέτισης του τύπου Ψωμί Φιστικοβούτυρο έχει χαμηλότερη υποστήριξη και χαμηλότερο κατώφλι από εκείνο που έχει ένας κανόνα συσχέτισης του τύπου Δημητριακά Φιστικοβούτυρο. Προφανώς είναι περισσότερες οι συναλλαγές που περιέχουν Δημητριακά, από εκείνες τις συναλλαγές που περιέχουν Ψωμί. Ομοίως ο κανόνας Σταρένιο Ψωμί Φιστικοβούτυρο έχει χαμηλότερο κατώφλι και χαμηλότερη υποστήριξη από τον Ψωμί Φιστικοβούτυρο.

219 4 ο Κεφάλαιο Κανόνες Συσχέτισης Κανόνες Συσχετίσεων Πολλαπλών Επιπέδων Μία παραλλαγή των γενικευμένων κανόνων είναι οι κανόνες συσχετίσεων πολλαπλών επιπέδων (multiple-level association rules). Με τους κανόνες πολλαπλών επιπέδων, τα στοιχειοσύνολα μπορούν να εμφανίζονται σε οποιοδήποτε επίπεδο της ιεραρχίας. Χρησιμοποιώντας μία παραλλαγή του αλγορίθμου Apriori, η ιεραρχία εννοιών διασχίζεται με έναν από πάνω προς τα κάτω τρόπο για τη δημιουργία συχνών στοιχειοσυνόλων. Όταν στο επίπεδο i βρίσκονται συχνά στοιχειοσύνολα, τότε συχνά στοιχειοσύνολα δημιουργούνται για το επίπεδο i 1. Συχνά k -στοιχειοσύνολα, σε ένα επίπεδο στην ιεραρχία εννοιών, χρησιμοποιούνται σαν υποψήφιοι για να δημιουργήσουν συχνά k -στοιχειοσύνολα για τα παιδιά στο επόμενο επίπεδο. Η τροποποίηση στις βασικές ιδέες κανόνων συσχέτισης μπορεί να μεταβάλλεται. Αναμένεται να υπάρχει μεγαλύτερη υποστήριξη για τα στοιχειοσύνολα που συμβαίνουν στα υψηλότερα επίπεδα στην ιεραρχία των εννοιών. Έτσι, η ελάχιστη υποστήριξη που απαιτείται για τους κανόνες συσχετίσεων μπορεί να ποικίλει ανάλογα με το επίπεδο της ιεραρχίας. Επιπλέον αναμένεται ότι η συχνότητα των στοιχειοσυνόλων στα υψηλότερα επίπεδα να είναι πολύ μεγαλύτερη από τη συχνότητα των στοιχειοσυνόλων στα χαμηλότερα επίπεδα. Έτσι, για την έννοια της μειωμένης ελάχιστης υποστήριξης, εφαρμόζονται οι ακόλουθοι κανόνες [5]: Η ελάχιστη υποστήριξη για όλους του κόμβους στην ιεραρχία, στο ίδιο επίπεδο, είναι η ίδια Εάν a i είναι η ελάχιστη υποστήριξη για το i στην ιεραρχία, και ai 1 είναι η ελάχιστη υποστήριξη για το επίπεδο i 1, τότε a a i 1 i.

220 4 ο Κεφάλαιο Κανόνες Συσχέτισης Πολλαπλές Τιμές Ελάχιστης Υποστήριξης Όταν εξετάζονται μεγάλες βάσεις δεδομένων με πολλά είδη δεδομένων, μπορεί να είναι προβληματική η χρήση μίας ελάχιστης τιμής για την υποστήριξη. Διαφορετικά στοιχεία συμπεριφέρνονται με διαφορετικό τρόπο. Φυσικά είναι πιο εύκολο να λαμβάνεις ένα δεδομένο κατώφλι υποστήριξης με ένα γνώρισμα, το οποίο έχει μόνο δύο τιμές, από το λαμβάνεις ένα δεδομένο κατώφλι υποστήριξης με ένα γνώρισμα το οποίο έχει εκατοντάδες τιμές. Μπορεί να είχε περισσότερη σημασία αν βρισκόταν έναν κανόνα του τύπου Αποβουτυρωμένο Γάλα Σταρένιο Ψωμί με μία υποστήριξη του 3% απ' ότι θα είχε αν βρισκόταν: Γάλα Ψωμί με μία υποστήριξη 6%. Έτσι, μπορεί να μη δουλεύει καλά η τακτική του να υπάρχει μόνο μία τιμή υποστήριξης για όλους τους κανόνες συσχετίσεων. Μερικοί χρήσιμοι κανόνες συσχετίσεων μπορεί έτσι να χαθούν. Κάτι τέτοιο είναι ιδιαίτερου ενδιαφέροντος όταν εξετάζονται γενικευμένοι κανόνες συσχετίσεων, αλλά μπορεί επίσης να προκύψει και σε άλλες περιπτώσεις. Ας νοηθούν οι γενικευμένοι κανόνες συσχετίσεων από μία βάση δεδομένων (όχι απαραίτητα καλαθιού αγορών). Όπως ειπώθηκε στους ποσοτικούς κανόνες, μπορούν να διαμεριστούν τιμές γνωρισμάτων σε διαστήματα. Οι διαμερίσεις οι οποίες έχουν ένα μικρό αριθμό τιμών προφανώς θα δημιουργήσουν χαμηλότερες υποστηρίξεις από εκείνες που έχουν ένα μεγάλο αριθμό τιμών. Εάν χρησιμοποιηθεί μεγαλύτερη υποστήριξη, ίσως να μην δημιουργηθούν κανόνες συσχετίσεων άξιους προσοχής. Αυτό το πρόβλημα ονομάζεται το πρόβλημα των σπάνιων στοιχείων (rare item problem). Εάν η ελάχιστη υποστήριξη είναι πολύ υψηλή τότε δε θα δημιουργηθούν οι κανόνες που συνδέονται με στοιχεία που σπανίως εμφανίζονται. Εάν η ελάχιστη υποστήριξη καθορίζεται πολύ χαμηλά, τότε πάρα πολλοί κανόνες μπορεί να δημιουργηθούν, πολλοί από

221 4 ο Κεφάλαιο Κανόνες Συσχέτισης 222 τους οποίους (κυρίως για τα στοιχεία που συμβαίνουν συχνά) δε θα είναι σημαντικοί. Διαφορετικές προσεγγίσεις έχουν προταθεί για το χειρισμό αυτού του προβλήματος. Μια προσέγγιση είναι να διαμεριστούν τα δεδομένα βάσει της υποστήριξης και να δημιουργηθούν κανόνες συσχετίσεων για κάθε διαμέριση ξεχωριστά. Εναλλακτικά, θα μπορούσαν να ομαδοποιηθούν μαζί τα σπάνια στοιχεία και να δημιουργηθούν κανόνες συσχετίσεων για αυτές τις ομάδες. Μία πιο πρόσφατη προσέγγιση για το χειρισμό αυτού του προβλήματος είναι ο συνδυασμός συσταδοποίησης και κανόνων συσχέτισης. Πρώτα ομαδοποιούνται τα δεδομένα με βάση κάποια κριτήρια συσταδοποίησης και στη συνέχεια δημιουργούνται κανόνες για κάθε συστάδα ξεχωριστά. Αυτή είναι μία γενίκευση της λύσης που δίνεται με τη διαμέριση των δεδομένων. Μία προσέγγιση, η MISapriori, επιτρέπει τη χρησιμοποίηση ενός διαφορετικού κατωφλίου υποστήριξης για κάθε ένα από τα στοιχεία. Εδώ το MIS συμβολίζει την ελάχιστη υποστήριξη στοιχείου {minimum item support). Η ελάχιστη υποστήριξη για έναν κανόνα είναι η ελάχιστη από όλες τις ελάχιστες υποστηρίξεις για κάθε στοιχείο του κανόνα. Ένα ενδιαφέρον πρόβλημα εμφανίζεται όταν χρησιμοποιούνται πολλαπλές ελάχιστες υποστηρίξεις. Η ελάχιστη υποστήριξη που απαιτείται για ένα στοιχειοσύνολο μπορεί να ικανοποιείται ακόμα και εάν δεν ικανοποιείται για μερικά από τα υποσύνολα του. Κάτι τέτοιο δείχνει να παραβαίνει την ιδιότητα του συχνού στοιχειοσυνόλου. Μία παραλλαγή της ιδιότητας της προς τα κάτω κλειστότητας, η οποία καλείται η ιδιότητα της ταξινομημένης προς τα κάτω κλειστότητας (sorted downward closure), ικανοποιείται και χρησιμοποιείται για το MISapriori αλγόριθμο. Αρχικά τα στοιχεία κατατάσσονται με αυξανόμενη την τιμή του MIS. Στη συνέχεια η δημιουργία του υποψηφίου στη 2 η σάρωση ελέγχει μόνο αν χρειάζεται να προσθέσει σε ένα συχνό στοιχείο οποιοδήποτε στοιχείο το ακολουθεί (με μεγαλύτερη ή ίση τιμή για το MIS) στη σειρά κατάταξης [5].

222 4 ο Κεφάλαιο Κανόνες Συσχέτισης Κανόνες Στατιστικής Συσχέτισης Ένας κανόνας στατιστικής συσχέτισης (correlation rule) ορίζεται σαν ένα σύνολο από στοιχειοσύνολα τα οποία συσχετίζονται στατιστικά. Το κίνητρο για την ανάπτυξη αυτών των κανόνων συσχέτισης είναι ότι αρνητικές συσχετίσεις μπορεί να είναι χρήσιμες. Το παράδειγμα 4.3 επεξηγεί ακριβώς αυτή την ιδέα [45]. Σε αυτό το παράδειγμα εάν και η πιθανότητα να αγοράσεις δύο στοιχεία μαζί φαίνεται να είναι μεγάλη, είναι πολύ μεγαλύτερη εάν κάθε στοιχείο αγοράζεται χωρίς να αγοραστεί και το άλλο. Η συσχέτιση ικανοποιεί την προς τα πάνω κλειστότητα στο δικτυωτό πλέγμα των στοιχειοσυνόλων. Έτσι, εάν τα στοιχεία ενός συνόλου συσχετίζονται μεταξύ τους, το ίδιο συμβαίνει και με κάθε υπερσύνολο του. Παράδειγμα 4.3 Υπάρχουν δύο στοιχεία, A, B όπου το A B έχει υποστήριξη 15% και εμπιστοσύνη 60%. Επειδή αυτές οι τιμές είναι υψηλές, ένας συνηθισμένος αλγόριθμος εύρεσης κανόνων συσχέτισης θα έβγαζε σα συμπέρασμα ότι αυτός είναι ένας πολύτιμος κανόνας. Όμως, εάν η πιθανότητα να αγοραστεί το στοιχείο B είναι 70%, τότε βλέπουμε ότι η πιθανότητα να αγοραστεί το B επειδή αγοράστηκε το A είναι στην πραγματικότητα χαμηλότερη. Έτσι, φαίνεται να υπάρχει μία αρνητική συσχέτιση ανάμεσα στην αγορά του A και στην αγορά του B. Η συσχέτιση μπορεί να εκφραστεί σαν correlatio n( A B) P( A, B) P( A) P( B) η οποία στην περίπτωση αυτή είναι Επειδή η τιμή της συσχέτισης είναι χαμηλότερη από 1, αυτό υποδηλώνει ότι υπάρχει μια αρνητική συσχέτιση ανάμεσα στο A και στο B.

223 4 ο Κεφάλαιο Κανόνες Συσχέτισης Ποσοτικοί Κανόνες Συσχέτισης Οι αλγόριθμοι κανόνων συσχέτισης που αναλύθηκαν μέχρι τώρα υποθέτουν ότι τα δεδομένα είναι κατηγορικά. Ένας ποσοτικός κανόνας συσχέτισης (quantitative association rule) είναι ένας κανόνας που περιλαμβάνει κατηγορικά και αριθμητικά δεδομένα. Ένα παράδειγμα ενός ποσοτικού κανόνα είναι: Ένας πελάτης που αγοράζει κρασί από 30 μέχρι 50 το μπουκάλι αγοράζει επίσης χαβιάρι Αυτό διαφέρει από τον παραδοσιακό κανόνα συσχέτισης όπως είναι: Ένας πελάτης αγοράζει κρασί αγοράζει επίσης χαβιάρι Η ποσότητα του κόστους έχει διανεμηθεί σε ένα διάστημα. Σε αυτές τις περιπτώσεις, τα στοιχεία δεν είναι απλά συμβολικοί χαρακτήρες. Για παράδειγμα, αντί να υπάρχουν τα στοιχεία Ψωμί, Ζελέ, μπορεί να υπάρχουν τα στοιχεία Ψωμί : 0,1, Ψωμί : 1...2, Ψωμί : 2..., Ζελέ: 0...1,5, Ζελέ: 1,5...3, Ζελέ: 3... Επιπλέον, μέχρι στιγμής παρουσιάστηκαν διάφοροι τρόποι παραγωγής κανόνων συσχέτισης από έναν πίνακα δοσοληψιών. Κάθε σειρά αυτού του πίνακα είναι ένα σύνολο, όχι αναγκαστικά με ίδιο πλήθος, από αντικείμενα (items). Οι πίνακες όμως που συναντιούνται σε βάσεις δεδομένων έχουν άλλη μορφή. Αποτελούνται πάλι από εγγραφές (θα χρησιμοποιείται αυτός ο όρος για τις γραμμές πινάκων βάσεων δεδομένων και ο όρος δοσοληψίες για τις γραμμές πινάκων δοσοληψιών) αλλά κάθε εγγραφή έχει τον ίδιο αριθμό από στήλες που ονομάζονται γνωρίσματα (attributes).ένας πίνακας δοσοληψιών είναι εύκολο να μετατραπεί σε πίνακα βάσης: Τα items αποτελούν τα γνωρίσματα του πίνακα. Μία εγγραφή έχει την τιμή«1» (true) για ένα γνώρισμα αν το item που υποδηλώνει το γνώρισμα περιέχεται στην δοσοληψία που αντιστοιχεί στην συγκεκριμένη εγγραφή, αλλιώς έχει την τιμή

224 4 ο Κεφάλαιο Κανόνες Συσχέτισης 225 «0» (false). Κατά συνέπεια το πρόβλημα της παραγωγής κανόνων συσχέτισης μπορεί να ειδωθεί ως εύρεση συσχετίσεων μεταξύ των τιμών «1» στον παραπάνω πίνακα με Boolean γνωρίσματα και ονομάζεται Boolean Association Rules problem. Επομένως έχει ήδη παρουσιαστεί ο τρόπος λύσης του προβλήματος αυτού. Ένας πίνακας μιας βάσης δεδομένων, όμως, δεν περιέχει Boolean γνωρίσματα. Τα γνωρίσματα μπορεί να είναι είτε ποσοτικά (quantitative) είτε κατηγορικά (categorical). Ποσοτικά είναι γνωρίσματα όπως ηλικία, εισόδημα, τιμή κ.ά., ενώ κατηγορικά είναι γνωρίσματα όπως ταχυδρομικός κώδικας, μάρκα αυτοκινήτου κ.ά. Τα Boolean γνωρίσματα μπορούμε να τα θεωρήσουμε ως κατηγορικά. Πρέπει επομένως να λυθεί το πρόβλημα της παραγωγής κανόνων συσχέτισης από πίνακες με ποσοτικά και κατηγορικά γνωρίσματα. Με το συγκεκριμένο πρόβλημα ασχολήθηκαν οι R. Agrawal και R. Srikant στην εργασία τους στην οποία το αποκαλούν πρόβλημα εύρεσης Ποσοτικών Κανόνων Συσχέτισης (Quantitative Association Rules problem) [46]. Ένας τέτοιος κανόνας θα είναι της μορφής: Ηλικία : και Παντρεμένος : Ναι Αριθμός Αυτοκινήτων : 2 Παρακάτω παρουσιάζεται η λύση που προτείνουν οι R. Agrawal και R. Srikant για την εύρεση ποσοτικών κανόνων συσχέτισης Ίσο-βαθύς κατάτμηση (Equi-depth Partitioning) Στόχος των Agrawal και Srikant ήταν να αντιστοιχήσουν το πρόβλημα εύρεσης των Ποσοτικών Κανόνων στο πρόβλημα εύρεσης των Boolean Association Rules. Αν τα γνωρίσματα στον πίνακα ήταν όλα κατηγορικά ή τα ποσοτικά γνωρίσματα είχαν μικρό πλήθος πιθανών τιμών η αντιστοίχηση γίνεται εύκολα. Αντί να υπάρχει ένα πεδίο (στήλη) στον πίνακα για κάθε γνώρισμα θα υπήρχαν τόσα πεδία όσες οι δυνατές τιμές του κάθε

225 4 ο Κεφάλαιο Κανόνες Συσχέτισης 226 γνωρίσματος. Τα πεδία αυτά θα είναι boolean και θα έχουν όνομα της μορφής <γνώρισμα_1,τιμή_1>.το πεδίο αυτό για παράδειγμα θα έχει τιμή «1» αν το γνώρισμα_1 είχε τιμή_1 στην αρχική εγγραφή, αλλιώς θα είχε τιμή «0». Ο αρχικός πίνακας έτσι μετασχηματίζεται σε πίνακα με boolean γνωρίσματα. Στην περίπτωση όμως που οι πιθανές τιμές για ένα ποσοτικό γνώρισμα είναι πολλές τότε η παραπάνω λύση δεν είναι η ενδεδειγμένη. Μια σωστότερη αντιμετώπιση θα ήταν να κατανεμηθεί το σύνολο τιμών των ποσοτικών γνωρισμάτων σε διαστήματα και να φτιάξουμε τα boolean γνωρίσματα να έχουν την μορφή <γνώρισμα_1, διάστημα_1>. Το πρόβλημα συνεπώς ανάγεται στην εύρεση της κατάλληλης κατάτμησης. Υπάρχουν δυο θέματα για τα οποία πρέπει να δοθεί η βέλτιστη λύση. «MinSup». Αν ο αριθμός των διαστημάτων για ένα ποσοτικό γνώρισμα είναι μεγάλος, τότε η εμπιστοσύνη ενός διαστήματος μπορεί να είναι μικρή. Κατά συνέπεια αν δεν χρησιμοποιηθούν μεγαλύτερα διαστήματα μπορεί να μην παραχθούν κάποιοι κανόνες για αυτό το γνώρισμα καθώς δεν θα έχουν την ελάχιστη εμπιστοσύνη. «MinConf». Υπάρχει κόστος που συνεπάγεται ο χωρισμός των τιμών σε διαστήματα. Πληροφορία χάνεται όσο το μέγεθος των διαστημάτων μεγαλώνει καθώς μερικοί κανόνες μπορεί να έχουν ελάχιστη εμπιστοσύνη (minimum confidence) μόνο όταν το πρώτο μέλος αποτελείται από μικρό διάστημα (μικρή εμπιστοσύνη). Η λύση στο πρώτο πρόβλημα είναι η κατάτμηση να παράγει μεγαλύτερα διαστήματα, δηλαδή λιγότερα σε αριθμό. Αντίθετα η λύση στο δεύτερο πρόβλημα είναι να παράγονται μικρότερα διαστήματα, δηλαδή περισσότερα σε αριθμό. Οι λύσεις συγκρούονται μεταξύ τους και πρέπει να γίνει ένας συμβιβασμός. Ο τρόπος αντιμετώπισης που προτάθηκε είναι η κατάτμηση να δημιουργήσει μικρά διαστήματα τα οποία στη συνέχεια μπορούν να ενωθούν ώστε να φτιάξουν καινούρια μεγαλύτερα και με μεγαλύτερη υποστήριξη. Ο συνδυασμός αυτός μικρότερων διαστημάτων για την παραγωγή μεγαλύτερων είναι ιδιαίτερα χρονοβόρος και για αυτό εισάγεται ένα όριο στην διαδικασία

226 4 ο Κεφάλαιο Κανόνες Συσχέτισης 227 ένωσης των διαστημάτων: Όταν ένα διάστημα αποκτήσει υποστήριξη ίση με μια μέγιστη τιμή maxsup τότε πρέπει να σταματήσει να μεγαλώνει. Το ζητούμενο τώρα είναι να καθοριστεί πως πρέπει να γίνει η τμηματοποίηση για κάθε γνώρισμα, δηλαδή πόσα διαστήματα θα δημιουργηθούν και τι μέγεθος θα έχουν. Όπως ειπώθηκε υπάρχει απώλεια πληροφορίας όταν εφαρμόζεται κατάτμηση. Έστω R το σύνολο όλων των κανόνων που προκύπτουν εξετάζοντας όλα τα πιθανά διαστήματα που προκύπτουν από τις τιμές των ποσοτικών γνωρισμάτων. Έστω R το σύνολο όλων των κανόνων που προκύπτουν εξετάζοντας όλα τα πιθανά διαστήματα που προκύπτουν από τα αρχικά διαστήματα στα οποία κατατμήθηκαν τα ποσοτικά γνωρίσματα. Ένας τρόπος για να μετρηθεί η πληροφορία που χάνεται όταν αντί του R παράγεται το R είναι να μετρηθεί για έναν κανόνα του R πόσο «μακριά» είναι ο «κοντινότερος» κανόνας στο R. Όσο πιο μακριά βρίσκεται ένας κανόνας τόσο μεγαλύτερη απώλεια πληροφορίας υπάρχει. Για έναν κανόνα του υ ο «κοντινότερος» κανόνας στο R είναι αυτός που αποτελεί γενίκευση του R, δηλαδή περιλαμβάνει τουλάχιστον τις τιμές που συσχετίζει ο R. Το πόσο μακριά είναι ένας κανόνας προκύπτει ως ο λόγος K των τιμών του μέτρου υποστήριξη των δύο κανόνων. Για να μετρηθεί, επομένως, η απώλεια πληροφορίας εισάγεται ένα μέτρο Μερικής Ολοκλήρωσης (Partial Completeness). Καθορίζοντας έναν πραγματικό αριθμό K μπορεί μα φραχτεί η απώλεια πληροφορίας από μία κατάτμηση. Ο αριθμός αυτός αποκαλείται βαθμός μερικής ολοκλήρωσης (Partial Completeness Level). Επιστρέφοντας στο προηγούμενο παράδειγμα μεταξύ των συνόλων κανόνων R και R, ο βαθμός μερικής ολοκλήρωσης είναι ο λόγος της υποστήριξης της γενίκευσης ενός κανόνα από το R, προς την υποστήριξη του αρχικού κανόνα. Δηλαδή αν r R, r' R' και r' είναι η μικρότερη γενίκευση του r τότε ισχύει ότι sup( r') K. sup( r) Οι Agrawal και Srikant αποδείξαν ότι δεδομένου ενός βαθμού μερικής ολοκλήρωσης η ίσο-βαθύς κατάτμηση είναι αυτή που ελαχιστοποιεί τον αριθμό των διαστημάτων που είναι αναγκαίο να υπάρχουν ώστε να ικανοποιείται ο συγκεκριμένος βαθμός. Η ίσο-βαθύς κατάτμηση είναι εκείνη στην οποία όλα τα διαστήματα έχουν την ίδια υποστήριξη. Αποδεικνύεται ότι ο

227 4 ο Κεφάλαιο Κανόνες Συσχέτισης 228 αριθμός όλων των διαστημάτων στην περίπτωση αυτή είναι N [ 2 n/( m( K 1))] ], όπου n ο αριθμός των ποσοτικών γνωρισμάτων, m η ελάχιστη υποστήριξη και Κ ο επιθυμητός βαθμός μερικής ολοκλήρωσης. Σύμφωνα με τις παραπάνω διαπιστώσεις η κατάτμηση πραγματοποιείται ως εξής. Για κάθε ποσοτικό γνώρισμα τα διαστήματα στα οποία χωρίζεται το σύνολο τιμών του είναι N [ 2 n/( m( K 1))] το πλήθος και το καθένα αποτελείται από υποστήριξη ( m ( K 1)) / 2 εγγραφές. Αφού πραγματοποιηθεί η κατάτμηση με βάση τον επιθυμητό βαθμό μερικής ολοκλήρωσης βρίσκονται τα συχνά itemsets και παράγονται οι κανόνες συσχέτισης με τρόπο παρόμοιο του αλγορίθμου Apriori. Η ουσιαστική διαφοροποίηση είναι ότι από τα αρχικά διαστήματα προκύπτουν καινούρια με την πράξη της ένωσης [7] Κανόνες με βάση την απόσταση (Distance-based Rules) Στην προηγούμενη παράγραφο παρουσιάστηκε ο τρόπος με τον οποίο προτείνει η ίσο-βαθύς κατάτμηση του συνόλου τιμών ενός ποσοτικού γνωρίσματος. Μια τέτοια κατάτμηση δεν είναι όμως η καλύτερη, καθώς δεν λαμβάνεται υπόψη η πυκνότητα των εγγραφών σε ένα τέτοιο διάστημα. Ο Πίνακας 4.4 παρουσιάζει τη σύγκριση τριών μεθόδων κατάτμησηςκατηγοριοποίησης. Πρόκειται για τις ισοπλατύς (equi-width), ίσο-βαθύς (equidepth) και με βάση την απόσταση (distance-based) κατατμήσεις. Πίνακας 4.4 Σύγκριση μεθόδων κατάτμησης για ένα δεδομένο σύνολο αντικειμένων Price Equi-width (width $ 10) Equi-depth (depth 2) Distance-based 7 [0, 10] [7,20] [7,7] 20 [11,20] [22,50] [20,22] 22 [21,30] [51,53] [50,53] 50 [31,40] 51 [41,50] 53 [51,60] Η πρώτη στήλη περιέχει τις τιμές του γνωρίσματος Price οι οποίες πρέπει να κατηγοριοποιηθούν στις κατηγορίες που προκύπτουν με βάση τις τρεις

228 4 ο Κεφάλαιο Κανόνες Συσχέτισης 229 μεθόδους κατάτμησης. Η ίσο-πλατύς κατάτμηση δεν κοιτά την κατανομή των τιμών των γνωρισμάτων, σε σχέση με την ίσο-βαθύ κατάτμηση η οποία ορίζει διαστήματα που περιέχουν τον ίδιο αριθμό από εγγραφές (ίδια υποστήριξη). Αντίθετα η κατάτμηση με βάση την απόσταση φαίνεται και η πιο λογική καθότι λαμβάνει υπόψη της τις αποστάσεις μεταξύ των διαφόρων τιμών. Μια τέτοια κατηγοριοποίηση μπορεί να προκύψει από την εφαρμογή κάποιου αλγορίθμου συσταδοποίησης πάνω στο πεδίο τιμών ενός ποσοτικού γνωρίσματος. Οι R. J. Miller και Υ. Yang [47] πρότειναν μία μέθοδο παραγωγής κανόνων συσχέτισης που στηρίζεται στην κατάτμηση με βάση την απόσταση. Η μέθοδος αυτή επιτυγχάνει τους παρακάτω βασικούς στόχους-απαιτήσεις: Στην διαδικασία επιλογής διαστημάτων απαιτείται ένα μέτρο της ποιότητας του διαστήματος που θα αντανακλά την απόσταση μεταξύ των σημείων. Για ποσοτικά γνωρίσματα ένας νέος ορισμός του κανόνα συσχέτισης C1 C 2 απαιτείται που να έχει το νόημα ότι τα items στο C 1 είναι πολύ κοντά στο να ικανοποιούν αυτά στο C 2. Τα μέτρα σημαντικότητας ενός κανόνα πάνω σε ποσοτικά γνωρίσματα πρέπει να αντανακλούν την απόσταση μεταξύ των σημείων. Τα κατηγορήματα που παίρνουν μέρος σε έναν κανόνα μπορεί να εκφράζουν ότι ένα γνώρισμα, ή ακόμα και ένα σύνολο από γνωρίσματα ανήκουν μέσα σε ένα υποσύνολο τιμών. Αυτό σημαίνει ότι το υποσύνολο τιμών μπορεί να είναι ένα διάστημα, όπως στην προηγούμενη παράγραφο, αλλά μπορεί να είναι μια περιοχή σε έναν πολυδιάστατο χώρο. Οι κανόνες που θα παραχθούν θα είναι κανόνες μεταξύ συστάδων (clusters). Οι συστάδες είναι ομάδες σημείων οι οποίες είναι συμπαγείς, δηλαδή αποστάσεις μεταξύ των σημείων της ίδιας ομάδας είναι μικρές, ενώ σημεία που ανήκουν σε διαφορετικές ομάδες χαρακτηρίζονται από μεγάλες στάσεις. Η τελευταία απαίτηση ισοδυναμεί με την απαίτηση ο χώρος γύρω από μία

229 4 ο Κεφάλαιο Κανόνες Συσχέτισης 230 συστάδα να είναι σχετικά αραιός. Έτσι πρέπει να βρεθεί εκείνο το σύνολο των συστάδων που ελαχιστοποιεί ένα μέτρο απόστασης. Έστω R A, A,..., ένα σχεσιακό σχήμα και r μια σχέση (πίνακας) πάνω 1 2 Am στο R, με R m και r n Θα χρησιμοποιηθούν τα γράμματα από το τέλος του αγγλικού αλφαβήτου X,Y,... για να αναφέρονται σε σύνολα από γνωρίσματα, ενώ θα χρησιμοποιηθούν τα γράμματα από την αρχή A, B,... για να αναφέρονται σε απλά γνωρίσματα. Μία συστάδα είναι ένα σύνολο εγγραφές. Για ένα συγκεκριμένο σύνολο από γνωρίσματα X, εφαρμόζονται περιορισμούς στις εγγραφές αυτές όταν προβληθούν στο X. Κατά συνέπεια η συστάδα ορίστηκε στο σύνολο X και θα αποκαλείται συστάδα C x. Για μία μονοδιάστατη συστάδα ένα μέτρο ποιότητας του μπορεί να το διάστημα τιμών που καλύπτει. Αν επεκταθεί ο ορισμός για πολυδιάστατα συστάδες θα υπάρχει το ελάχιστο περιβάλλον ορθογώνιο. Αυτά όμως τα μέτρα ποιότητας για μία συστάδα αποκρύπτουν την κατανομή των σημείων μέσα στη συστάδα. Ένα καλύτερο μέτρο θα ήταν η μέση ανά δύο απόσταση των σημείων μέσα στις συστάδες (intra-cluster distance) η οποία αποκαλείται διάμετρος της συστάδας. Τέλος για τον ορισμό της διαμέτρου θα χρησιμοποιηθεί ένα μέτρο απόστασης X ορισμένο στις τιμές του συνόλου X, όπως η απόσταση Manhattan ή η Ευκλείδεια απόσταση [7].

230 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 5.1 Εισαγωγή Τα χωρικά δεδομένα είναι δεδομένα, τα οποία έχουν μια χωρική συνιστώσα (ή συνιστώσα θέσης). Μπορούν να θεωρηθούν ως δεδομένα αντικειμένων τα οποία βρίσκονται σε έναν φυσικό χώρο. Αυτό μπορεί να δηλώνεται ρητά με ένα ή περισσότερα γνωρίσματα θέσης,όπως η διεύθυνση ή το γεωγραφικό πλάτος / μήκος ή μπορεί να υπονοείται, όπως με μια διαμέριση της βάσης δεδομένων η οποία βασίζεται στη θέση. Επιπλέον, τα χωρικά δεδομένα μπορούν να προσπελαστούν χρησιμοποιώντας ερωτήσεις που περιέχουν χωρικούς τελεστές όπως οι τελεστές "κοντά", "βόρεια", "νότια", "γειτονικά" και "περιέχεται σε". Τα χωρικά δεδομένα αποθηκεύονται σε βάσεις χωρικών δεδομένων που περιέχουν τόσο τη χορική όσο και τη μη χωρική πληροφορία. Εξαιτίας της ενυπάρχουσας πληροφορίας της απόστασης που σχετίζεται με τα χωρικά δεδομένα, οι βάσεις χωρικών δεδομένων πολύ συχνά χρησιμοποιούν ειδικές δομές δεδομένων ή ευρετήρια τα οποία είναι χτισμένα με βάση την πληροφορία απόστασης ή τοπολογίας. Όσον αφορά την εξόρυξη γνώσης, αυτή πληροφορία απόστασης παρέχει τη βάση για τις αναγκαίες μετρήσεις ομοιότητας. Τα χωρικά δεδομένα είναι απαιτούμενα για πολλά σύγχρονα πληροφοριακά

231 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 232 συστήματα. Τα Συστήματα Γεωγραφικών Πληροφοριών (Geographical Information Systems GIS) αποθηκεύουν πληροφορία που σχετίζεται με κάποια γεωγραφική θέση στην επιφάνεια της γης. Χρησιμοποιούνται σε εφαρμογές που σχετίζονται με τον καιρό, τις κοινωνικές υποδομές, τη διαχείριση καταστροφών και τα επικίνδυνα απόβλητα. Οι εργασίες εξόρυξης γνώσης από τα δεδομένα περιλαμβάνουν την πρόβλεψη περιβαλλοντικών καταστροφών. Οι βιο-φαρμακευτικές εφαρμογές, συμπεριλαμβανομένων της επεξεργασίας ιατρικών εικόνων και της διάγνωσης ασθενειών, επίσης απαιτούν χωρικά συστήματα. Η εξόρυξη χωρικής γνώσης (spatial mining), που συχνά καλείται ανακάλυψη γνώσης από βάσεις χωρικών δεδομένων, είναι εξόρυξη γνώσης που εφαρμόζεται πάνω σε βάσεις χωρικών δεδομένων ή χωρικά δεδομένα. Ορισμένες από τις εφαρμογές εξόρυξης χωρικής γνώσης εντάσσονται στα πεδία των GIS, γεωλογίας, περιβαλλοντικής επιστήμης, διαχείρισης πόρων, γεωργίας, ιατρικής και ρομποτικής [5] 5.2 Επισκόπηση Χωρικών Δεδομένων Η προσπέλαση των χωρικών δεδομένων μπορεί να είναι πιο πολύπλοκη από αυτήν των μη χωρικών δεδομένων. Υπάρχουν ειδικές λειτουργίες και δομές δεδομένων που χρησιμοποιούνται για την προσπέλαση των χωρικών δεδομένων Χωρικές ερωτήσεις Εξαιτίας της πολυπλοκότητας των χωρικών λειτουργιών, έχει αποτελέσει αντικείμενο ιδιαίτερης μελέτης η επεξεργασία των χωρικών ερωτήσεων και η βελτιστοποίηση της. Μια παραδοσιακή ερώτηση επιλογής που προσπελαύνει μη χωρικά δεδομένα χρησιμοποιεί τις συνήθεις λειτουργίες σύγκρισης:,,,,. Μια χωρική

232 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 233 επιλογή (spatial selection) είναι μια επιλογή σε χωρικά δεδομένα, που μπορεί να χρησιμοποιεί διαφορετικές λειτουργίες σύγκρισης. Οι τύποι των τελεστών χωρικής σύγκρισης που θα μπορούσαν να χρησιμοποιηθούν περιλαμβάνουν τους ακόλουθους: "κοντά", "βόρεια", "νότια", '"ανατολικά", "δυτικά", "περικλείεται από", "επικαλύπτει", "τέμνει". Τα παρακάτω είναι παραδείγματα διάφορων ερωτήσεων χωρικής επιλογής: Βρες όλα τα σπίτια κοντά στο 5 ο δημοτικό σχολείο Καβάλας. Βρες τον πλησιέστερο πυροσβεστικό σταθμό στην οδό Ομονοίας στην Καβάλα. Μια ειδική λειτουργία σύνδεσης που εφαρμόζεται σε δυο χωρικές σχέσεις ονομάζεται χωρική σύνδεση (spatial join). Κατά κάποιο τρόπο μια χωρική σύνδεση είναι παρόμοια, μια συνηθισμένη σχεσιακή σύνδεση, στην οποία δυο εγγραφές συνδέονται μεταξύ τους εάν έχουν κοινά χαρακτηριστικά. Σε μια παραδοσιακή σύνδεση, δυο εγγραφές πρέπει έχουν κοινά γνωρίσματα, τα οποία ικανοποιούν μια προκαθορισμένη συσχέτιση (όπως ισότητα σε μια σύνδεση ισότητας). Σε μια χωρική σύνδεση, η συσχέτιση είναι χωρική. Ο τύπος της συσχέτισης βασίζεται στον τύπο του χωρικού χαρακτηριστικού. Για παράδειγμα η συσχέτιση «πλησιέστερο» μπορεί να χρησιμοποιηθεί για σημεία, ενώ η συσχέτιση «τομή» χρησιμοποιείται για πολύγωνα. Στις εφαρμογές GIS συνηθίζεται να υπάρχουν διαφορετικές όψεις της ίδιας γεωγραφικής περιοχής. Για παράδειγμα, οι υπεύθυνοι για την ανάπτυξη των πόλεων πρέπει να είναι θέση να γνωρίζουν πού υπάρχουν οι απαραίτητες υποδομές, συμπεριλαμβανομένων των δρόμων, των γραμμών τροφοδοσίας, των γραμμών τηλεφώνου και του αποχετευτικού δικτύου. Σε ένα άλλο επίπεδο, μπορεί να ενδιαφέρονται για το πραγματικό υψόμετρο κάθε περιοχής, τις τοποθεσίες των κτιρίων και τα ποτάμια. Καθένας από αυτούς τους τύπους πληροφορίας μπορεί να συντηρείται σε ξεχωριστό αρχείο ενός GIS. Η συγχώνευση αυτών ανόμοιων δεδομένων μπορεί να πραγματοποιηθεί χρησιμοποιώντας έναν ειδικό τελεστή που ονομάζετε υπερθέση χάρτη (map overlay).

233 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 234 Ένα χωρικό αντικείμενο συνήθως περιγράφεται από χωρικά και μη χωρικά γνωρίσματα. Σε αυτά μπορεί να περιλαμβάνεται κάποιος τύπος σχετικός με θέση. Το γνώρισμα αυτό της θέσης θα μπορούσε να προσδιορίζει ένα ακριβές σημείο (όπως ένα ζεύγος γεωγραφικού μήκους και πλάτους) ή μπορεί να είναι μια διεύθυνση ή ένας ταχυδρομικός κωδικός μιας περιοχής. Συχνά, διαφορετικά χωρικά αντικείμενα αναγνωρίζονται από διαφορετικές θέσεις και απαιτείται ένα είδος μετάφρασης από το ένα γνώρισμα στο άλλο προκειμένου να εκτελεστούν χωρικές λειτουργίες μεταξύ των διαφορετικών αντικειμένων. Στην προσέγγιση SAND, τα μη χωρικά γνωρίσματα μπορεί να αποθηκευτούν σε μια παραδοσιακή βάση, ενώ κάθε χωρικό γνώρισμα αποθηκεύεται σε κάποια δομή χωρικών δεδομένων. Κάθε πλειάδα στη σχέση αναπαριστά το χωρικό αντικείμενο και ένας σύνδεσμος στη δομή χωρικών δεδομένων αποθηκεύεται στην αντίστοιχη θέση στη μη χωρική πλειάδα. Πολλές βασικές χωρικές ερωτήσεις μπορεί να βοηθήσουν σε εργασίες εξόρυξης γνώσης από δεδομένα [5] Μια ερώτηση περιοχής (region query) ή ερώτηση εύρους (range query) είναι μια ερώτηση που ζητά αντικείμενα που τέμνουν μια δοθείσα περιοχή στην ερώτηση. Μια ερώτηση πλησιέστερου γείτονα (nearest neighbour query) αναζητά αντικείμενα που είναι κοντά σε ένα συγκεκριμένο αντικείμενο. Μια σάρωση απόστασης (distance scan) βρίσκει αντικείμενα εντός μιας προκαθορισμένης απόστασης από ένα συγκεκριμένο αντικείμενο, με την απόσταση να αυξάνεται σταδιακά. Όλες αυτές οι ερωτήσεις μπορούν να χρησιμοποιηθούν για να βοηθήσουν μια συσταδοποίηση ή κατηγοριοποίηση.

234 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης Δομές Χωρικών Δεδομένων Εξαιτίας των μοναδικών γνωρισμάτων που έχουν τα χωρικά δεδομένα, υπάρχουν πολλές δομές που έχουν σχεδιαστεί ειδικά για την αποθήκευση ή τη δεικτοδότησή τους. Πολλές από αυτές τις δομές βασίζονται σε επεκτάσεις συμβατικών προσεγγίσεων δεικτοδότησης, όπως τα Β-δένδρα ή τα δυαδικά δένδρα αναζήτησης. Οι ερωτήσεις σε βάσεις μη χωρικών δεδομένων που χρησιμοποιούν συνηθισμένες δομές δεικτοδότησης, προσπελαύνουν τα δεδομένα χρησιμοποιώντας μια ερώτηση ταυτότητας (match query). Παρόλα αυτά, οι χωρικές ερωτήσεις μπορεί να χρησιμοποιούν μέτρα εγγύτητας (proximity measures) βασισμένα στις σχετικές θέσεις των χωρικών αντικειμένων. Για την αποδοτική εκτέλεση αυτών των χωρικών ερωτημάτων, είναι φρόνιμο τα γειτονικά (χωρικά) αντικείμενα να ομαδοποιούνται σε συστάδες στο δίσκο. Για αυτό το σκοπό, ο γεωγραφικός χώρος μπορεί να διαμεριστεί σε κελιά (cells) βάσει της εγγύτητας, οπότε αυτά τα κελιά αντιστοιχούν σε φυσικές θέσεις - blocks στο δίσκο. Σύμφωνα με αυτά τα κελιά κατασκευάζεται η αντίστοιχη δομή δεδομένων. Μια συνήθης τεχνική που χρησιμοποιείται για την αναπαράσταση ενός χωρικού αντικειμένου είναι αυτή του μικρότερου ορθογωνίου που περιβάλλει πλήρως το αντικείμενο, η οποία ονομάζεται Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle MBR). Επεξηγείται η χρήση των MBR χρησιμοποιώντας το παράδειγμα μιας λίμνης. Το Σχήμα 5.1 (α) δείχνει το περίγραμμα της λίμνης. Εάν προσανατολιστεί αυτή η λίμνη σε ένα παραδοσιακό σύστημα συντεταγμένων με τον οριζόντιο άξονα να αναπαριστά την κατεύθυνση ανατολή - δύση και τον κατακόρυφο την κατεύθυνση βορράς - νότος, μπορεί να τοποθετηθεί αυτή η λίμνη σε ένα ορθογώνιο (με πλευρές παράλληλες στους άξονες), που να την περιβάλλει. Έτσι, στο Σχήμα 5.1(β) παρουσιάζεται ένα MBR που μπορεί να χρησιμοποιηθεί για την αναπαράσταση αυτής της λίμνης. Εναλλακτικά, στο Σχήμα 5.1 (γ) θα μπορούσε να το αναπαρασταθεί με ένα σύνολο από μικρότερα ορθογώνια Αυτή η δυνατότητα μπορεί να παρέχει καλύτερη προσέγγιση του πραγματικού αντικειμένου, αλλά απαιτεί πολλαπλά MBR. Ένα MBR μπορεί εύκολα να

235 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 236 αναπαρασταθεί από τους συντεταγμένες δυο μη γειτονικών κορυφών του. Επομένως, θα μπορούσε να αναπαρασταθεί το MBR στο Σχήμα 5.1(β) με το ζευγάρι x y, x,, {(x1,y1). Υπάρχουν και άλλοι τρόποι να y2 αποθηκευτούν οι τιμές των MBR και δεν είναι απαραίτητο ο προσανατολισμός των MBR να ταυτίζεται με τους άξονες. Σχήμα 5.1 Παράδειγμα MBR Έστω το τρίγωνο που απεικονίζεται στο Σχήμα 5.2(α) ως ένα απλό χωρικό αντικείμενο. Στο Σχήμα 5.2(β) παρουσιάζεται ένα MBR για το τρίγωνο. Μπορούν να χρησιμοποιηθούν χωρικά ευρετήρια για να βοηθήσουν την εξόρυξη γνώσης από χωρικά δεδομένα. Σχήμα 5.1 Παράδειγμα χωρικού αντικειμένου

236 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 237 Ένα πλεονέκτημα των δομών χωρικών δεδομένων είναι ότι συσταδοποιούν τα αντικείμενα βάσει της θέσης. Αυτό συνεπάγεται ότι αντικείμενα που είναι κοντά στο ν-διάστατο χώρο τείνουν να αποθηκεύονται κοντά στη δομή δεδομένων και στο δίσκο. Επομένως, αυτές οι δομές θα μπορούσαν να χρησιμοποιηθούν για να μειώσουν το κόστος εκτέλεσης ενός αλγορίθμου περιορίζοντας το χώρο αναζήτησης. Πρακτικά, το φιλτράρισμα πραγματοποιείται καθώς διασχίζεται προς τα κάτω μια δενδρική δομή. Επιπλέον, οι χωρικές ερωτήσεις μπορούν να απαντηθούν πιο αποδοτικά με χρήση αυτών των δομών. Τετραδικό Δένδρο. Μια από τις αρχικές δομές δεδομένων που προτάθηκαν για τα χωρικά δεδομένα είναι το τετραδικό δένδρο. Ένα τετραδικό δένδρο (quad tree) αναπαριστά ένα χωρικό αντικείμενο μέσω μιας ιεραρχικής αποσύνθεσης του χώρου σε τεταρτημόρια (κελιά). Αυτή η διαδικασία εξηγείται στο Σχήμα 5.3(α) με χρήση του τριγώνου που απεικονίζεται στο Σχήμα 5.2. Σε αυτήν την περίπτωση το τρίγωνο απεικονίζεται με χρήση τριών σκιασμένων τετραγώνων. Η χωρική περιοχή έχει διαιρεθεί σε δυο επίπεδα από διαιρέσεις τεταρτημορίων. Ο αριθμός των απαιτούμενων επιπέδων εξαρτάται από την επιθυμητή ακρίβεια. Προφανώς, όσο περισσότερα είναι τα επίπεδα, τόσο περισσότερος επιπλέον χώρος απαιτείται για τη δομή δεδομένων. Κάθε επίπεδο στο τετραδικό δένδρο αντιστοιχεί σε ένα από τα ιεραρχικά επίπεδα. Καθένα από τα τέσσερα τεταρτημόρια στο επίπεδο έχει ένα συνδεδεμένο δείκτη σε ένα κόμβο του επόμενου επιπέδου, εάν κάποιο από τα τεταρτημόρια του κατώτερου επιπέδου είναι σκιαγμένο. Επιγράφονται τα τεταρτημόρια σε κάθε επίπεδο αντίθετα ως προς τη φορά των δεικτών του ρολογιού ξεκινώντας από το πάνω δεξιά τεταρτημόριο (όπως φαίνεται στο σχήμα). Το τετράγωνο 0 είναι όλη η περιοχή. Το τετράγωνο 1 είναι το πάνω δεξιά τετράγωνο στο επίπεδο ένα. Το τετράγωνο 15 είναι το τετράγωνο στην χαμηλότερη αριστερή γωνία στο δεύτερο επίπεδο. Σε αυτό το σχήμα, το τρίγωνο αναπαρίσταται από τα τετράγωνα 12,13 και 14, επειδή τέμνει αυτές τις τρεις περιοχές. Το

237 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 238 τετραδικό δένδρο για αυτό το τρίγωνο απεικονίζεται στο Σχήμα 5.3(β). Μόνο οι κόμβοι με μη κενά τεταρτημόρια φαίνονται. Επομένως, δεν υπάρχουν κόμβοι για τα τεταρτημόρια 1 και 4 και για τα υποτεταρτημόρια τους. Σχήμα 5.3 Παράδειγμα τετραδικού δέντρου Τα MBR είναι παρόμοια με τα τεταρτημόρια στο τετραδικό δένδρο εκτός από το ότι δε χρειάζεται να έχουν ίδιες πλευρές. Αν υπάρχουν ιεραρχίες από MBR, δε χρειάζεται να είναι κανονικές, όπως στις αποσυνθέσεις των τεταρτημόριων. R-δένδρο. Μια προσέγγιση στη δεικτοδότηση χωρικών δεδομένων που αναπαρίστανται ως MBR είναι ένα R-δένδρο (R-tree). Κάθε επόμενο επίπεδο στο δένδρο δηλώνει μικρότερα ορθογώνια. Σε ένα R-δένδρο τα κελιά μπορεί στην πραγματικότητα να επικαλύπτονται. Ένα αντικείμενο αναπαρίσταται από ένα MBR το οποίο είναι τοποθετημένο εντός ενός κελιού. Βασικά, ένα κελί είναι το MBR που περιέχει τα αντίστοιχα σύνολα από αντικείμενα (ή MBR) σε ένα χαμηλότερο

238 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 239 επίπεδο της αποσύνθεσης. Κάθε επίπεδο αποσύνθεσης δηλώνεται με ένα επίπεδο στο δένδρο. Καθώς τα χωρικά αντικείμενα προστίθενται στο R-δένδρο το δένδρο δημιουργείται και συντηρείται από αλγορίθμους παρόμοιους με αυτούς που υπάρχουν για τα Β-δένδρα. Το μέγεθος του δένδρου σχετίζεται με τον αριθμό των αντικειμένων. Παρατηρώντας ένα χώρο με μόνο το βασικό τρίγωνο, όπως φαίνεται στο Σχήμα 5.2, θα δημιουργηθεί ένα δένδρο με μόνο ένα κόμβο - ρίζα. Ένα πιο σύνθετο R-δένδρο περιγράφεται στο Σχήμα 5.4. Εδώ υπάρχουν πέντε αντικείμενα που αναπαρίστανται από τα MBR D, Ε, F, G και Η. Ολόκληρος ο γεωγραφικός χώρος έχει ετικέτα Α και απεικονίζεται ως η ρίζα του δένδρου στο Σχήμα 8.4(β). Τρία από τα αντικείμενα (D, Ε, F) περιβάλλονται από το MBR Β, ενώ τα άλλα δύο (G, Η) περιβάλλονται από το MBR C. Οι αλγόριθμοι που εφαρμόζουν χωρικούς τελεστές χρησιμοποιώντας ένα R- δένδρο είναι σχετικά προφανείς. Ας υποτεθεί ότι επιθυμείται να βρεθούν όλα τα αντικείμενα που τέμνονται με ένα δοθέν αντικείμενο. Αναπαριστώντας το αντικείμενο της ερώτησης ως ένα MBR, μπορεί να ερευνηθεί στα ανώτερα επίπεδα του R-δένδρου για να βρεθούν μόνο εκείνα τα κελιά που τέμνουν το MBR της ερώτησης. Τα υποδένδρα που δεν τέμνουν το MBR της ερώτησης μπορούν να απορριφθούν. Σχήμα 5.4 Παράδειγμα R - Δέντρου

239 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 240 k-d δένδρο. Ένα k-d δένδρο (k-d tree) σχεδιάστηκε για να δεικτοδοτήσει δεδομένα με πολλά γνωρίσματα και όχι απαραίτητα χωρικά δεδομένα. Το k-d δένδρο είναι μία παραλλαγή ενός δυαδικού δένδρου αναζήτησης (binary search tree) όπου κάθε επίπεδο στο δένδρο χρησιμοποιείται για να δεικτοδοτήσει ένα από τα γνωρίσματα. Παρακάτω επεξηγείται η χρήση του k-d δένδρου υποθέτοντας έναν διδιάστατο χώρο. Κάθε κόμβος στο δένδρο αναπαριστά μια διαίρεση του χώρου σε δύο υποσύνολα βασισμένη στο σημείο διαίρεσης που χρησιμοποιήθηκε. Επιπλέον, η διαίρεση εναλλάσσεται μεταξύ δύο αξόνων. Στο Σχήμα 5.5 παρουσιάζεται ένα k-d δένδρο που χρησιμοποιεί τα ίδια δεδομένα με αυτά που χρησιμοποιήθηκαν για το R-δένδρο. Όπως και με το R- δένδρο, κάθε κελί του κατώτατου επιπέδου έχει ένα μόνο αντικείμενο εντός του. Παρόλα αυτά, οι διαιρέσεις δε γίνονται με χρήση MBR. Αρχικά, ολόκληρη η περιοχή θεωρείται ως ένα κελί και επομένως ως η ρίζα του k-d δένδρου. Η περιοχή διαιρείται αρχικά σε μια διάσταση και στη συνέχεια και σε μια άλλη διάσταση μέχρι κάθε κελί να περιέχει ένα μόνο αντικείμενο. Σε αυτό το παράδειγμα, παρατηρείται ότι όλη η περιοχή, Α, αρχικά διαιρείται σε δυο κελιά (Β, C) κατά μήκος του οριζόντιου άξονα. Έπειτα, παρατηρείται ότι διαιρείται στα D και Ε. Το D διαιρείται στα Η και I. Σχήμα 5.5 Παράδειγμα k-d Δέντρου

240 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης Θεματικοί Χάρτες Οι θεματικοί χάρτες (thematic maps) επεξηγούν χωρικά αντικείμενα δείχνοντας την κατανομή των γνωρισμάτων ή θεμάτων. Κάθε χάρτης δείχνει ένα (ή περισσότερα) από τα θεματικά γνωρίσματα. Αυτά τα γνωρίσματα περιγράφουν τα σημαντικά μη χωρικά χαρακτηριστικά του σχετιζόμενου χωρικού αντικειμένου. Για παράδειγμα, ένας θεματικός χάρτης μπορεί να δείχνει το υψόμετρο, τη μέση βροχόπτωση και τη μέση θερμοκρασία. Οι βασισμένοι σε καμβά (raster) θεματικοί χάρτες αναπαριστούν τα χωρικά δεδομένα, σχετίζοντας εικονοστοιχεία (pixels) με τιμές γνωρισμάτων των δεδομένων. Για παράδειγμα, σε ένα χάρτη που δείχνει το υψόμετρο, το χρώμα του εικονοστοιχείου μπορεί να συσχετισθεί με το υψόμετρο εκείνης της τοποθεσίας. Ένας βασισμένος σε διανύσματα (vectors) θεματικός χάρτης αναπαριστά τα αντικείμενα με μια γεωμετρική δομή, όπως το περίγραμμα τους ή MBR. Τότε, το αντικείμενο έχει τις τιμές των θεματικών γνωρισμάτων Βάσεις Δεδομένων Εικόνων Στις βάσεις δεδομένων εικόνων τα δεδομένα αποθηκεύονται ως εικόνες. Αυτές οι βάσεις δεδομένων χρησιμοποιούνται σε πολλές εφαρμογές, συμπεριλαμβανομένων της ιατρικής και της τηλεπισκόπησης. Μια πρώτη προσπάθεια κατηγοριοποίησης που είχε γίνει με χρήση μεγάλων βάσεων δεδομένων εικόνων, αναζητούσε τρόπους κατηγοριοποίησης αστρονομικών αντικειμένων. Μια από τις εφαρμογές αυτής της δουλειάς ήταν ο εντοπισμός ηφαιστείων στην Αφροδίτη από φωτογραφίες που είχαν τραβηχτεί από το διαστημόπλοιο Μαγγελάνος. Αυτό το σύστημα απαρτίζονταν από τρία μέρη: εστίαση δεδομένων, εξαγωγή χαρακτηριστικών και κατηγοριοποίηση. Το πρώτο μέρος καθορίζει ποια από τις περιοχές των φωτογραφιών είναι η πιο πιθανή να περιέχει ηφαίστεια. Εδώ η ένταση ενός κεντρικού σημείου μιας περιοχής συγκρίνεται με αυτήν του φόντου. Τα σημαντικά χαρακτηριστικά αυτών των περιοχών εξάγονται και αποθηκεύονται

241 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 242 στο δεύτερο μέρος. Το τμήμα εστίασης συγκρίνει την ένταση ενός κεντρικού σημείου μιας περιοχής με αυτήν του φόντου. Κατά τη διάρκεια της δεύτερης φάσης, αναγνωρίζονται και εξάγονται ενδιαφέροντα χαρακτηριστικά. Τέλος, αυτά τα χαρακτηριστικά κατηγοριοποιούνται βάσει κατηγοριοποιητών που χτίστηκαν χρησιμοποιώντας δεδομένα εκπαίδευσης που παρέχονται από ειδικούς του πεδίου. Το τρίτο μέρος χρησιμοποιεί ένα δένδρο απόφασης για να εκτελέσει την πραγματική κατηγοριοποίηση. Το δένδρο δημιουργείται με χρήση του ID3 και παραδείγματα εκπαίδευσης από ειδικούς. Επιτεύχθηκε ακρίβεια 80%. Μια παρόμοια δουλειά επίσης χρησιμοποιούσε δένδρα αποφάσεων για την κατηγοριοποίηση αστρικών αντικειμένων [48]. Όπως και με την περίπτωση των ηφαιστείων, τα πρώτα δυο βήματα ήταν η αναγνώριση περιοχών ενδιαφέροντος στις εικόνες και στη συνέχεια η εξαγωγή πληροφοριών για αυτές τις περιοχές. Δημιουργήθηκαν πολλαπλά δένδρα αποφάσεων και από αυτά παράχθηκαν σύνολα κανόνων για την κατηγοριοποίηση. Η ακρίβεια βρέθηκε πως προσέγγιζε το 94%. Συγκρινόμενη με πολλές προσεγγίσεις νευρωνικών δικτύων, η προσέγγιση με τα δένδρα αποφάσεων / κανόνες αποδείχθηκε πολύ πιο ακριβής. Και οι δυο μελέτες ανακάλυψαν την ανάγκη κανονικοποίησης των εξαγόμενων, χαρακτηριστικών για την εξισορρόπηση των διαφορών μεταξύ διαφορετικών εικόνων. Για παράδειγμα, δυο εικόνες μπορούσαν να διαφέρουν εξαιτίας της γωνίας από την πραγματοποιήθηκε η λήψη τους. 5.3 Βασικές Αρχές Εξόρυξης Γνώσης από Χωρικά Δεδομένα Οι λειτουργίες που χρειάζονται για να υποστηριχθεί η εξόρυξη γνώσης από χωρικά δεδομένα περιλαμβάνουν εκείνες που απαιτούνται για τις βάσεις χωρικών δεδομένων. Γίνεται υπόθεση ότι τα Α και Β είναι χωρικά αντικείμενα σε ένα δυσδιάστατο χώρο. Μπορεί να θεωρηθεί πως κάθε αντικείμενο αποτελείται από ένα σύνολο σημείων στο χώρο: x, y A και x, y B. a a b b Όπως ορίζεται [49] είναι δυνατό να υπάρχουν πολλές τοπολογικές σχέσεις

242 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 243 μεταξύ δυο χωρικών αντικειμένων. Αυτές οι σχέσεις βασίζονται στους τρόπους με τους οποίους δυο αντικείμενα τοποθετούνται γεωγραφικά: 1. Ξένο: το A είναι ξένο (disjoint) ως προς το B, εάν δεν υπάρχουν σημεία στο A που να περιέχονται στο B. 2. Έχει επικάλυψη ή τέμνει: το A έχει επικάλυψη με (overlaps) ή τέμνει (intersects) το B, εάν υπάρχει τουλάχιστον ένα σημείο στο A που να ανήκει και στο B. 3. Είναι ίσο: το A είναι ίσο με (equals) το B, εάν έχουν όλα τα σημεία τους κοινά. 4. Καλύπτεται από ή βρίσκεται εντός ή περιέχεται σε: το A καλύπτεται από (covered by) ή βρίσκεται εντός (inside) ή περιέχεται στο (contained in) B, εάν όλα τα σημεία του A ανήκουν στο B. Μπορεί να υπάρχουν σημεία του B που δεν ανήκουν στο A. 5. Καλύπτει ή περιέχει: το A καλύπτει (covers) ή περιέχει (contains) το B, εάν και μόνο εάν το B καλύπτεται από ή περιέχεται στο A. Αν και οι εργασίες εξόρυξης γνώσης από δεδομένα μπορεί να μην χειρίζονται με ειδικό τρόπο αυτές τις σχέσεις, η ομοιότητα ανάμεσα στα χωρικά αντικείμενα μπορεί να οριστεί βασισμένη μερικώς σε αυτές τις σχέσεις. Με βάση την τοποθέτηση των αντικειμένων στο χώρο, μπορούν να οριστούν σχέσεις ως προς κατεύθυνση. Αυτές συνήθως ορίζονται με την προσθήκη του προσανατολισμού του χάρτη στο χώρο. Επομένως, έχουμε σχέσεις όπως "βόρεια", "νότια", "ανατολικά", "δυτικά" κοκ. Αυτό που δυσκολεύει την αναγνώριση τέτοιων σχέσεων είναι τα ακανόνιστα σχήματα των χωρικών αντικειμένων και το γεγονός πως μπορεί να επικαλύπτονται. Αξιοσημείωτη είναι η ομοιότητα με τα μέτρα απόστασης που χρησιμοποιήθηκαν στην συσταδοποίηση. Στην πραγματικότητα, μπορεί να θεωρηθεί το χωρικό αντικείμενο ως μια συστάδα των σημείων εντός του. Τα

243 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 244 κεντρικά σημεία που χρησιμοποιήθηκαν για τον τελευταίο τύπο μέτρησης της απόστασης μπορούν να αναγνωριστούν βρίσκοντας το γεωμετρικό κέντρο του αντικειμένου. Για παράδειγμα, εάν χρησιμοποιείται ένα MBR, η απόσταση μεταξύ των αντικειμένων μπορεί να βρεθεί χρησιμοποιώντας την Ευκλείδεια απόσταση μεταξύ των κέντρων των MBR για τα δύο αντικείμενα. Τα χωρικά αντικείμενα μπορούν να ανακτηθούν βάσει λειτουργιών επιλογής, συνάθροισης ή σύνδεσης. Μία επιλογή μπορεί να εφαρμοστεί πάνω στα χωρικά ή μη χωρικά γνωρίσματα. Η ανάκτηση που βασίζεται στα χωρικά γνωρίσματα μπορεί να εφαρμοστεί χρησιμοποιώντας έναν από τους χωρικούς τελεστές. Μια χωρική σύνδεση ανακτά τα χωρικά αντικείμενα βάσει της συσχέτισης μεταξύ τους. 5.4 Γενίκευση και Εξειδίκευση Η χρήση μιας ιεραρχίας εννοιών δείχνει επίπεδα σχέσεων ανάμεσα στα δεδομένα. Όταν εφαρμόζονται σε χαρακτηριστικά χωρικών δεδομένων, οι ιεραρχίες εννοιών επιτρέπουν την ανάπτυξη κανόνων και σχέσεων σε διαφορετικά επίπεδα στην ιεραρχία. Αυτή η ιδέα χρησιμοποιείται σε γενικευμένους κανόνες συσχέτισης. Μια παρεμφερής ιδέα χρησιμοποιείται στις αρχές γενίκευσης και εξειδίκευσης που βρέθηκαν στη μηχανική μάθηση. Σε αυτές τις περιπτώσεις, παρόλα αυτά, η ιεραρχία δεν σχετίζεται αναγκαία με χωρικά δεδομένα. Οι τεχνικές εξόρυξης γνώσης σε χωρικά δεδομένα εμπλέκουν και τις δυο προσεγγίσεις τύπου γενίκευσης και εξειδίκευσης Προοδευτική βελτίωση Εξαιτίας του μεγάλου όγκου δεδομένων που υπάρχουν στις χωρικές εφαρμογές, μπορεί να δοθούν προσεγγιστικές απαντήσεις, προτού αναζητηθούν πιο ακριβείς. Η χρήση των MBR είναι μια μέθοδος προσέγγισης του σχήματος ενός αντικειμένου. Τα τετραδικά δένδρα, τα R-δένδρα και οι

244 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 245 περισσότερες τεχνικές χωρικής δεικτοδότησης χρησιμοποιούν ένα είδος προοδευτικής βελτίωσης. Εκτιμούν το σχήμα των αντικειμένων σε υψηλότερα επίπεδα στη δενδρική δομή και οι είσοδοι των χαμηλότερων επιπέδων παρέχουν πιο ακριβείς περιγραφές των χωρικών αντικειμένων. Η προοδευτική βελτίωση (progressive refinement) μπορεί να θεωρηθεί ως ένα φιλτράρισμα των δεδομένων που δεν είναι εφαρμόσιμα σε ένα πρόβλημα. Με την προοδευτική βελτίωση, τα ιεραρχικά επίπεδα βασίζονται σε χωρικές συσχετίσεις. Το Παράδειγμα 5.1 εξηγεί την ιδέα της προοδευτικής βελτίωσης. Εδώ οι χωρικές συσχετίσεις μπορούν να εφαρμοστούν σε ένα ευρύτερο (ανεβαίνοντας την ιεραρχία) ή πιο περιορισμένο (κατεβαίνοντας την ιεραρχία) επίπεδο. Παράδειγμα 5.1 Ένας φοιτητής της επιστήμης των υπολογιστών επιθυμεί να βρει τα διαμερίσματα που είναι κοντά στο Τμήμα Μηχανικών της Επιστήμης των Υπολογιστών (CSE) του Πανεπιστημίου SMU του Dallas. Μια βάση δεδομένων με τα διαθέσιμα διαμερίσματα στη μητροπολιτική περιοχή του Dallas θα περιέχει πολλά διαμερίσματα που δεν θα είναι κοντά στην πανεπιστημιούπολη του SMU. Ένα αρχικό φιλτράρισμα των μη κατάλληλων στοιχείων της βάσης μπορεί να γίνει βρίσκοντας διαμερίσματα που είναι "γενικά κοντά" στο τμήμα CSE. Αυτό μπορεί να γίνει σε οποιοδήποτε από τα επίπεδα στην ιεραρχία εννοιών. Το παρακάτω Σχήμα 5.6 δείχνει αυτήν την ιδέα. Τα κοντινότερα διαμερίσματα στην πανεπιστημιούπολη του SMU θα είναι πιθανόν στα Park Cities. Φιλτράροντας όλα τα διαμερίσματα σε όλα τα υποδένδρα εκτός από αυτά για τα Park Cities, θα βρεθούν όλα τα διαμερίσματα που είναι κοντά στην πανεπιστημιούπολη. Ας γίνει η υπόθεση ότι υπάρχει ένα κατώτερο επίπεδο στην ιεραρχία εννοιών που περιλαμβάνει τον ταχυδρομικό κωδικό της περιοχής. Εάν βρίσκονταν διαμερίσματα με τον ίδιο κωδικό περιοχής με αυτόν του τμήματος CSE, θα χρησιμοποιούνταν μια πιο ακριβής εκτίμηση εγγύτητας. Αυτή η διαδικασία φιλτράρει γρήγορα διαμερίσματα, τα οποία δεν θα χρησιμοποιούνταν πιθανώς για την απάντηση

245 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 246 της ερώτησης. Στη συγκεκριμένη περίπτωση χρησιμοποιείται πρώτα ένα ευρύτερο κατηγόρημα για να εξαχθούν πιθανές απαντήσεις. Αυτό το κατηγόρημα μπορεί να βελτιωθεί αναδρομικά έως ότου βρεθούν οι ακριβείς απαντήσεις. Σημειώνετε ότι όταν παρατηρείται η ιεραρχία εννοιών, τα ευρύτερα αυτά κατηγορήματα μπορούν να εφαρμοστούν στα MBR στα ανώτερα επίπεδα, ενώ τα πιο περιοριστικά εφαρμόζονται στα κατώτερα επίπεδα Γενίκευση Η γενίκευση καθοδηγείται από μια ιεραρχία εννοιών και μπορεί να θεωρηθεί ως η διαδικασία εξαγωγής πληροφορίας σε ένα υψηλό επίπεδο που βασίζεται σε πληροφορία, η οποία βρέθηκε σε χαμηλότερα επίπεδα. Οι ιεραρχίες εννοιών για χωρικά δεδομένα μπορεί να είναι χωρικές ή μη χωρικές. Μια χωρική ιεραρχία (spatial hierarchy) είναι μια ιεραρχία εννοιών που δείχνει τις σχέσεις μεταξύ γεωγραφικών περιοχών. Το Σχήμα 5.6 δείχνει μια χωρική ιεραρχία. Η γενίκευση μπορεί να εκτελεστεί χρησιμοποιώντας οποιαδήποτε από αυτές τις δυο ιεραρχίες. Όταν γενικεύονται τα χωρικά δεδομένα, τα μη χωρικά πρέπει να τροποποιούνται κατάλληλα, ώστε να αντικατοπτρίζουν τα μη χωρικά δεδομένα που σχετίζονται με τα νέα χωρικά δεδομένα. Παρόμοια, όταν γενικεύονται τα μη χωρικά δεδομένα, τα χωρικά δεδομένα πρέπει να τροποποιούνται κατάλληλα. Χρησιμοποιώντας αυτά τα δυο είδη ιεραρχιών, η γενίκευση, όπως εφαρμόζεται στα χωρικά δεδομένα, μπορεί να διαιρεθεί σε δυο υποκλάσεις: γενίκευση χωρικής τάξης (spatial data dominant generalization) και γενίκευση μη χωρικής τάξης (nonspatial data dominant generalization) [50]. Και οι δυο αυτές υποκλάσεις μπορεί να θεωρηθούν ως ένα είδος συσταδοποίησης. Η γενίκευση χωρικής τάξης πραγματοποιεί τη συσταδοποίηση που βασίζεται σε χωρικές θέσεις (έτσι ώστε να ομαδοποιούνται κοντινά αντικείμενα), ενώ η γενίκευση μη χωρικής τάξης συσταδοποιεί βάσει της ομοιότητας των τιμών μη χωρικών γνωρισμάτων.

246 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 247 Αυτές οι προσεγγίσεις αναφέρονται ως μια επαγωγή προσανατολισμένη σε γνωρίσματα (attribute oriented induction), επειδή η διαδικασία γενίκευσης βασίζεται σε τιμές γνωρισμάτων. Με την γενίκευση χωρικής τάξης, η γενίκευση αρχικά εφαρμόζεται στα χωρικά δεδομένα και στη συνέχεια τα σχετιζόμενα μη χωρικά γνωρίσματα τροποποιούνται ανάλογα. Η γενίκευση εφαρμόζεται έως έναν αριθμό περιοχών, που θεωρείται κατώφλι. Για παράδειγμα, ο προσδιορισμός της μέσης βροχόπτωσης στις νοτιοδυτικές ΗΠΑ θα μπορούσε να γίνει βρίσκοντας τη μέση βροχόπτωση για όλες τις πολιτείες που απεικονίζονται στα νοτιοδυτικά από μια χωρική ιεραρχία. Επομένως, η χωρική ιεραρχία καθορίζει ποιες περιοχές χαμηλού επιπέδου βρίσκονται στην περιοχή υψηλού επιπέδου που εξετάζεται. Ο καθορισμός του τρόπου εφαρμογής της γενίκευσης σε μη χωρικά δεδομένα δεν είναι παρόλα αυτά, μια προφανής διαδικασία συνάθροισης. Στην πράξη ο τρόπος καθορισμού, της μέσης βροχόπτωσης σε αυτήν την περίπτωση είναι ο ίδιος για κάθε πολιτεία. Όμως απαιτείται μια διαδικασία στάθμισης, η οποία θα παρέχει μια πιο ακριβή μέση τιμή βροχόπτωσης για την περιοχή υψηλότερου επιπέδου. Σχήμα 5.6 Η προοδευτική βελτίωση στο Παράδειγμα 5.1 Μια εναλλακτική προσέγγιση είναι εξίσου η γενίκευση των τιμών των μη χωρικών γνωρισμάτων. Η γενίκευση βασίζεται στην ομαδοποίηση των δεδομένων. Οι γειτονικές περιοχές συγχωνεύονται εάν έχουν τις ίδιες γενικευμένες τιμές για τα μη χωρικά δεδομένα. Υποθέστε ότι αντί των μέσων τιμών βροχόπτωσης επιστρέφονται απλώς τιμές που αναπαριστούν την νοτιοδυτική συστάδα. Είναι δυνατόν να αναθέτουν τιμές όπως ισχυρή, μέτρια,

247 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 248 ασθενής κοκ. για να περιγραφή η βροχόπτωση αντί να δοθούν πραγματικές αριθμητικές τιμές. Ο αλγόριθμος που ακολουθεί δείχνει την προσέγγιση γενίκευσης χωρικής τάξης. Μπορεί να δίνεται ένα κατώφλι που καθορίζει το μέγιστο αριθμό περιοχών. Βάσει αυτού, του κατωφλίου, επιλέγεται το σωστό επίπεδο στην ιεραρχία και επομένως καθορίζεται ι αριθμός των περιοχών. Αλγόριθμος SPATIAL data dominant Input: D H C q Output: R // Spatial database // Spatial hierarchy // Concept hierarchy // Query // Rule that states the general characteristics requested SPATIAL - data - dominant algorithm: D = set of data obtained from D based on selection criteria in q; Following the structure of H, combine data into regions until either the desired threshold number of regions is found or the requested level in H is obtained; for each region found do perform an attribute oriented induction on the nonspatial attributes; generate and output a rule that summarizes the results found; Παρόλο που δε φαίνεται εδώ, η τεχνική γενίκευσης μη χωρικής τάξης λειτουργεί με ένα παρόμοιο τρόπο. Το πρώτο βήμα σε αυτόν τον αλγόριθμο είναι η ανάκτηση των δεδομένων βάσει των κριτηρίων μη χωρικής επιλογής που διατυπώνονται στην ερώτηση. Στη συνέχεια εφαρμόζεται η απαιτούμενη προσανατολισμένη στα γνωρίσματα επαγωγή ανακτώμενα μη χωρικά δεδομένα. Για να γίνει αυτό, λαμβάνονται υπόψη οι μη χωρικές εννοιολογικές ιεραρχίες. Κατά τη διάρκεια αυτού του βήματος, γενικεύονται οι τιμές των μη χωρικών δεδομένων σε τιμές πιο υψηλών επιπέδων. Αυτές οι γενικεύσεις είναι συνοπτικές τιμές υψηλότερων επιπέδων των συγκεκριμένων τιμών

248 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 249 χαμηλότερων επιπέδων. Για παράδειγμα, εάν γενικευόταν η μέση θερμοκρασία, θα μπορούσαν να συνδυαστούν διαφορετικές μέσες θερμοκρασίες (ή διαστήματα) και να τους αποδοθεί η ετικέτα «ζέστη». Το τρίτο βήμα είναι η εφαρμογή μιας γενίκευσης χωρικά προσανατολισμένης. Εδώ συγχωνεύονται οι γειτονικές περιοχές με τις ίδιες (ή παρόμοιες) γενικευμένες μη χωρικές τιμές. Αυτό αποσκοπεί στη μείωση των περιοχών που επιστρέφονται σε απάντηση της ερώτησης. Ένα αρνητικό αυτών των προσεγγίσεων είναι ότι η ιεραρχία πρέπει να προκαθοριστεί από ειδικούς του πεδίου και η ποιότητα οποιωνδήποτε αιτημάτων για διαχείριση δεδομένων εξαρτάται από τη δοθείσα ιεραρχία. Η πολυπλοκότητα δημιουργίας των ιεραρχιών είναι n n O log STING Η μέθοδος STatistical INformation Grid-based (STING) χρησιμοποιεί μια ιεραρχική τεχνική για τη διαίρεση των χωρικών περιοχών σε ορθογώνια κελιά παρόμοια με ένα τετραδικό δένδρο. Η βάση χωρικών δεδομένων σαρώνεται μια φορά και για κάθε κελί καθορίζονται στατιστικές παράμετροι (μέση τιμή, διασπορά, τύπος κατανομής). Κάθε κόμβος στη δομή πλέγματος συνοψίζει την πληροφορία για τα στοιχεία εντός της. Με τη λήψη αυτής της πληροφορίας, μπορούν να απαντηθούν πολλά αιτήματα για εξόρυξη γνώσης από δεδομένα, συμπεριλαμβανομένης της συσταδοποίησης, εξετάζοντας τα στατιστικά που δημιουργήθηκαν για τα κελιά. Έτσι, παράγονται μόνο συστάδες με κάθετα και οριζόντια όρια. Παρόλα αυτά, μπορεί να μη χρειάζεται να σαρωθεί ολόκληρη η βάση δεδομένων, αφού ληφθεί αυτή η στατιστική πληροφορία. Αυτό μπορεί να είναι πολύ αποδοτικό όταν γίνονται πολλαπλές αιτήσεις για εξόρυξη γνώσης από τα δεδομένα. Σε αντίθεση με τις τεχνικές γενίκευσης και προοδευτικής βελτίωσης, δεν πρέπει να δίδεται κάποια προκαθορισμένη εννοιολογική ιεραρχία. Η προσέγγιση STING μπορεί να θεωρηθεί ως τεχνική ιεραρχικής συσταδοποίησης. Το πρώτο βήμα είναι η δημιουργία μιας ιεραρχικής

249 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 250 αναπαράστασης (όπως ένα δενδρόγραμμα). Το δένδρο που δημιουργήθηκε διαδοχικά διαιρεί το χώρο σε τεταρτημόρια. Το κορυφαίο στοιχείο στην ιεραρχία αποτελείται από όλο το χώρο. Το κατώτερο επίπεδο έχει ένα φύλλο για καθένα από τα μικρότερα κελιά. Η αρχική πρόταση ήταν ένα κελί να έχει τέσσερα υποκελιά (πλέγματα) στο επόμενο κατώτερο επίπεδο. Η διαίρεση των κελιών είναι ίδια με αυτήν που εφαρμόζεται στα τετραδικά δέντρα. Γενικά, η προσέγγιση δουλεύει με οποιαδήποτε ιεραρχική διάσπαση του χώρου. Το Σχήμα 5.7 επεξηγεί τους κόμβους στα τρία πρώτα επίπεδα του δένδρου που έχει κτιστεί. Σχήμα 5.7 Κόμβοι στη δομή STING Η διαδικασία δημιουργίας του δένδρου δείχνεται στον Αλγόριθμο STING BUILD. Κάθε κελί στο χώρο αντιστοιχεί σε ένα κόμβο του δέντρου και περιγράφεται τόσο από δεδομένα ανεξάρτητα των γνωρισμάτων (αριθμός) όσο και από δεδομένα εξαρτώμενα των γνωρισμάτων (μέση τιμή, τυπική απόκλιση, μέγιστο, ελάχιστο, κατανομή). Καθώς τα δεδομένα φορτώνονται στη βάση, δημιουργείται η ιεραρχία. Η τοποθέτηση ενός στοιχείου σε ένα κελί καθορίζεται πλήρως από τη φυσική του θέση. Ο Αλγόριθμος STING BUILD διαιρείται σε δυο μέρη. Το πρώτο μέρος δημιουργεί την ιεραρχία και το δεύτερο μέρος συμπληρώνει τις τιμές.

250 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 251 Αλγόριθμος STING BUILD Input: D // Data to be placed in the hierarchical structure // Number of desired cells at the lowest level k Output: T // Tree STING BUILD algorithm: // Create empty tree from top down. T= root node with data values initialized; // Initially only root node i=1; repeat for each node level i do Create 4 children nodes with initial values; i=i+1; until 4 i =k; // Populate tree from bottom up. for each item in D do determine leaf node j associated with the Position of D; Update values of j based on attribute values in item; i:= log 4 (k); repeat i:=i-1; for each node j in level i do update values of j based on attribute Values in its 4 children; until i=1; Ο ίδιος ο αλγόριθμος STING απεικονίζεται παρακάτω. Ο αλγόριθμος υποθέτει ότι τίθεται μια ερώτηση q που μπορεί να απαντηθεί από την αποθηκευμένη στατιστική πληροφορία στο κατασκευασμένο δένδρο Τ. Μια τέτοια ερώτηση μπορεί να είναι η εύρεση του εύρους των τιμών των διαμερισμάτων κοντά στο SMU. Θα πρέπει να καθοριστούν τα στατιστικά (μέγιστο και ελάχιστο) των τιμών ενοικίασης των διαμερισμάτων για τα κατάλληλα κελιά. Το κελί που βρίσκεται το SMU θα καθόριζε τις πραγματικές τιμές για αυτά που είναι κοντά στο SMU. Επιπλέον, η ερώτηση θα μπορούσε να ανακτήσει τις πληροφορίες για τα κελιά που το περιβάλλουν ή ίσως για το επόμενο υψηλότερο επίπεδο

251 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 252 στο δένδρο που περιέχει το κελί που βρίσκεται το SMU. Τα κοντινά κελιά θα μπορούσαν να προσδιοριστούν χρησιμοποιώντας κάποια συνάρτηση απόστασης. Το κρίσιμο σημείο εδώ είναι ότι πρέπει να προσδιοριστούν τα κατάλληλα κελιά και στη συνέχεια πρέπει να ανακτηθεί η πληροφορία από αυτά τα κελιά στο κατασκευασμένο δένδρο. Μια διάσχιση κατά πλάτος (breadth-first) χρησιμοποιείται για την εξέταση του δένδρου. Παρόλα αυτά, δεν εφαρμόζεται μια πλήρης διάσχιση του δένδρου. Εξετάζονται μόνο παιδιά σχετικών κόμβων. Εδώ η έννοια της σχέσης είναι περίπου ίδια με αυτή των ερωτήσεων ΑΠ εκτός του ότι η σχέση καθορίζεται εκτιμώντας την αναλογία των αντικειμένων σε εκείνο το κελί που ικανοποιούν τις συνθήκες της ερώτησης. Η πολυπλοκότητα του αλγορίθμου STING είναι O k, όπου k είναι ο αριθμός των κελιών στο κατώτατο επίπεδο. Προφανώς, αυτός είναι ο χώρος που λαμβάνεται από το ίδιο το δένδρο. Όταν χρησιμοποιείται για σκοπούς συσταδοποίησης, το k θα είναι ο μεγαλύτερος αριθμός από συστάδες που δημιουργήθηκαν. Αλγόριθμος STING Input: T // Tree q // Query Output: R // Regions of relevant cells STING algorithm: i=1 repeat for each node in level i do determine if this cell is relevant to q and mark as such; i=i+1 until all layers in the tree have been visited; identify neighboring cells of relevant cells To create regions of cells; Ο υπολογισμός της πιθανότητας ένα κελί να είναι σχετικό με μια ερώτηση βασίζεται στο ποσοστό των αντικειμένων στο κελί που ικανοποιούν τους περιορισμούς της ερώτησης. Χρησιμοποιώντας ένα προκαθορισμένο

252 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 253 ασφαλές διάστημα, εάν το ποσοστό είναι αρκετά μεγάλο, τότε αυτό το κελί ορίζεται ως σχετικό. Η στατιστική πληροφορία που σχετίζεται με αυτά τα σχετικά κελιά χρησιμοποιείται για την απάντηση της ερώτησης. Εάν η προσεγγιστική απάντηση δεν είναι αρκετά καλή, τότε μπορεί τα συνδεόμενα σχετικά αντικείμενα στη βάση δεδομένων να μη χρειάζεται να εξεταστούν για να δώσουν μια πιο ακριβή απάντηση. Τα κελιά που βρέθηκαν από τον STING προσεγγίζουν αυτά που βρέθηκαν από τον DBSCAN. Τα κελιά που βρέθηκαν να είναι αρκετά κοντά σε σχετικά κελιά, περιλαμβάνονται στις περιοχές των κελιών που βρίσκει ο αλγόριθμος. 5.5 Χωρικοί Κανόνες Μπορούν να παραχθούν χωρικοί κανόνες που να περιγράφουν τη συσχέτιση μεταξύ και τη δομή των χωρικών αντικειμένων. Υπάρχουν τρεις τύποι κανόνων που μπορούν να βρεθούν κατά τη διάρκεια της εξόρυξης γνώσης από χωρικά δεδομένα [51]. Οι κανόνες χωρικών χαρακτηριστικών (spatial characteristic rules) περιγράφουν τα δεδομένα. Οι κανόνες χωρικών διαχωρισμών (spatial discriminant rules) περιγράφουν τις διαφορές μεταξύ διαφορετικών κλάσεων των δεδομένων. Ουσιαστικά, περιγράφουν τα χαρακτηριστικά που διαφοροποιούν τις διαφορετικές κλάσεις. Οι κανόνες χωρικών συσχετίσεων (spatial association rules) είναι συνεπαγωγές ενός συνόλου δεδομένων από ένα άλλο. Τα ακόλουθα παραδείγματα επεξηγούν αυτούς τους τρεις τύπους κανόνων: Κανόνας χωρικού χαρακτηριστικού Στο Dallas το μέσο οικογενειακό εισόδημα είναι $50,000. Κανόνας χωρικού διαχωρισμού Στο Dallas το μέσο οικογενειακό εισόδημα είναι $50,000, ενώ στο Piano είναι $75,000.

253 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 254 Κανόνας χωρικής συσχέτισης Στο Dallas το μέσο οικογενειακό εισόδημα για οικογένειες που ζουν κοντά στη White Rock Lake είναι $100,000. Ο χαρακτηρισμός (characterization) είναι η διαδικασία εύρεσης μιας περιγραφής για μια βάση δεδομένων ή για κάποιο τμήμα της. Όλοι αυτοί οι κανόνες μπορεί να θεωρηθούν ως ειδικοί τύποι χαρακτηρισμών. Ο κανόνας χωρικού χαρακτηριστικού είναι ο απλούστερος. Μια άλλη συνήθης προσέγγιση σύνοψης χωρικών δεδομένων είναι αυτή της εκτέλεσης μιας ανίχνευσης τάσης (trend detection), η οποία μπορεί να θεωρηθεί ως μια τυπική αλλαγή σε μια ή περισσότερες τιμές μη χωρικών γνωρισμάτων για χωρικά αντικείμενα, καθώς απομακρύνεται κανείς από ένα άλλο χωρικό αντικείμενο [52]. Για παράδειγμα, η μέση τιμή για κάθε τετραγωνικό μέτρο ενός σπιτιού μπορεί να αυξάνεται όσο αυτό είναι πιο κοντά στον ωκεανό. Για την ανίχνευση μιας τάσης, μπορεί να χρησιμοποιηθεί ανάλυση παλινδρόμησης. Κανόνες χωρικών συσχετίσεων Οι κανόνες χωρικών συσχετίσεων είναι κανόνες συσχετίσεων για αντικείμενα χωρικών δεδομένων. Είτε το πρότερο (antecedent) είτε το απότοκο (consequent) του κανόνα πρέπει να περιέχει κάποια χωρικά κατηγορήματα (π.χ. κοντά): Μη χωρικό πρότερο - χωρικό απότοκο Όλα τα δημοτικά σχολεία βρίσκονται κοντά σε μονοκατοικίες. Χωρικός πρότερο - μη χωρικό απότοκο Εάν ένα σπίτι βρίσκεται στο Highland ParL είναι ακριβό. Χωρικό πρότερο - χωρικό απότοκο Όποιο σπίτι είναι κοντά στο κέντρο της πόλη βρίσκεται νότια του Piano.

254 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 255 Η υποστήριξη και η εμπιστοσύνη για τους κανόνες χωρικών συσχετίσεων ορίζεται όπως και στην περίπτωση των κοινών κανόνων συσχετίσεων. Παρόλα αυτά, σε αντίθεση με τους παραδοσιακούς κανόνες συσχετίσεων, η αντίστοιχη βάση που εξετάζεται συνήθως δε θεωρείται ως ένα σύνολο από συναλλαγές. Αντίθετα, είναι ένα σύνολο από χωρικά αντικείμενα. Ο απλούστερος αλγόριθμος δημιουργίας κανόνων χωρικών συσχετίσεων βρίσκεται στην εργασία [53]. Η προσέγγιση είναι παρόμοια με αυτήν που χρησιμοποιήθηκε για την κατηγοριοποίηση, στην οποία χρησιμοποιείται μια προσέγγιση δυο βημάτων. Όπως και στην περίπτωση των παραδοσιακών αλγορίθμων κανόνων συσχετίσεων, παράγονται από αυτόν τον αλγόριθμο όλοι οι κανόνες συσχετίσεων που ικανοποιούν την ελάχιστη εμπιστοσύνη και υποστήριξη. Εξαιτίας της μεγάλης πιθανότητας για τοπολογικές συσχετίσεις, γίνετε υπόθεση ότι η αίτηση για εξόρυξη γνώσης από δεδομένα καθορίζει ποιο(-α) χωρικό(-ά) κατηγόρημα(-ατα) θα χρησιμοποιηθεί. Από τη στιγμή που καθοριστεί το σχετικό υποσύνολο της βάσης, αναγνωρίζονται συσχετίσεις αυτού του τύπου. Αρχικά γίνεται η υπόθεση πως χρησιμοποιούνται οι "γενικευμένες" εκδοχές των τοπολογικών συσχετίσεων. Οι γενικευμένες συσχετίσεις ικανοποιούνται εάν κάποια αντικείμενα υψηλότερα στην ιεραρχία εννοιών τις ικανοποιούν. Για παράδειγμα, αντί της ακριβούς δομής του σπιτιού μπορούν να χρησιμοποιηθούν οι κωδικοί περιοχών. Σε αυτό το επίπεδο, εφαρμόζεται ένα φιλτράρισμα για την απομάκρυνση αντικειμένων που πιθανόν δεν θα μπορούσαν να ικανοποιούν τη συσχέτιση. Για να εξηγηθεί η έννοια της γενίκευσης με τις χωρικές συσχετίσεις, αναλύετε ένα παράδειγμα [54]. Με την υπόθεση ότι η τοπολογική σχέση που εξετάζεται είναι η "κοντά". Το σύστημα GIS ορίζει τι ακριβώς σημαίνει αυτό το κατηγόρημα. Για παράδειγμα, θα μπορούσε να ορίσει τη σχέση αυτή βάσει της Ευκλείδειας απόστασης μεταξύ των δυο χωρικών αντικειμένων. Επιπλέον, μπορεί να οριστεί διαφορετικά βάσει του τύπου των αντικειμένων στην ερώτηση. Η γενίκευση του "κοντά" που γράφεται "γεν_κοντά" (γενικευμένο κοντά) μπορεί να οριστεί με μια ιεραρχία που δείχνει ότι το "γεν_κοντά" περιέχει το "κοντά" όπως και άλλα κατηγορήματα (όπως το "περιέχει" ή το "ίσο"). Ένα πρώτο βήμα για τον καθορισμό του κατά πόσο ικανοποιείται το κατηγόρημα "κοντά" θα είναι να προσδιοριστεί γενικότερα πόσο ικανοποιείται

255 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 256 το "γεν_κοντά". Η γενικευμένη αποτίμηση χρησιμοποιείται ως ένα είδος φίλτρου για τον αποδοτικό αποκλεισμό αντικειμένων που πιθανόν δε θα μπορούσαν να ικανοποιούν το αληθές κατηγόρημα. Το ευρύτερο κατηγόρημα "ευρύτερο_γεν_κοντά" ικανοποιείται από αντικείμενα εάν τα MBR τους ικανοποιούν το "γεν_κοντά". Μόνο τα αντικείμενα που ικανοποιούν το "ευρύτερο_γεν_κοντά" εξετάζονται για να προσδιοριστούν αν ικανοποιούν το "γεν_κοντά". Ο αλγόριθμος πέντε βημάτων περιγράφεται στον Αλγόριθμο. Γίνετε υπόθεση ότι δίδεται ως είσοδος μια ερώτηση εξόρυξης γνώσης από δεδομένα. Η ερώτηση περιέχει πληροφορία επιλογής που χρησιμοποιείται για να ανακτήσει από τη βάση δεδομένων τα αντικείμενα που μας ενδιαφέρουν. Επίσης δίδονται ως είσοδοι τα τοπολογικά κατηγορήματα που ορίζουν τις χωρικές σχέσεις. Χρησιμοποιώντας αυτά τα κατηγορήματα, P, δημιουργείται ένας αρχικός πίνακας, CP, που αναγνωρίζει ποια ζεύγη αντικειμένων ικανοποιούν το P σε ένα ευρύτερο επίπεδο. Οι ελάχιστες είσοδοι υποστήριξης είναι συνήθως ένα σύνολο από τιμές υποστήριξης για να χρησιμοποιηθούν σε διαφορετικά επίπεδα στη διαδικασία. s 1 είναι το επίπεδο υποστήριξης που πρόκειται να χρησιμοποιηθεί στο ευρύτερο επίπεδο φιλτραρίσματος. Μετά από αυτό το φιλτράρισμα, μετρώνται τα ζεύγη των αντικειμένων που ικανοποιούν τα ευρύτερα κατηγορήματα για να διαπιστωθεί εάν η υποστήριξη τους είναι πάνω από το ελάχιστο. Πρακτικά, αυτή η βάση δεδομένων από συχνά ευρύτερα κατηγορήματα (Frequent coarse predicates FCP) είναι το σύνολο από πολλά σύνολα ενός στοιχείου. Στη συνέχεια, τα κατηγορήματα στην FCP εξετάζονται για να βρεθούν τα συχνά κατηγορήματα σε ένα τελικό επίπεδο (Frequent fine predicates FFP). To τελευταίο βήμα επεκτείνει αυτά τα συχνά κατηγορήματα μεγέθους 1 σε όλα τα αυθαίρετα μεγέθη κατηγορημάτων και στη συνέχεια παράγει τους κανόνες όπως στην περίπτωση των παραδοσιακών κανόνων συσχέτισης. Αυτό συμβαίνει με παρόμοιο τρόπο όπως και στον Apriori αλγόριθμο. Με την εύρεση πρώτα των FCR, ο αριθμός των αντικειμένων που πρόκειται να εξεταστούν μειώνεται στο τελευταίο βήμα.

256 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 257 Αλγόριθμος Spatial Association Rule Input: D // Data, including spatial and nonspatial attributes // Concept hierarchies //Minimum support for levels //Confidence //Query to retrieve interested objects //Topological predicate (s) of interest C s α q p Output: R // Spatial association rules SPATIAL association rule algorithm: D = q(d); CP is built by applying the coarse predicate version of P to D ; // CP consists of the set of coarse predicates satisfied by pairs of objects in D. determine the set of frequent coarse predicates FCP by finding the coarse predicates that satisfy s; find the set of frequent fine predicates FFP from FCP; find R by finding all frequent fine predicates and then generating rules; Αυτός ο αλγόριθμος λειτουργεί με έναν παρόμοιο τρόπο με τον Apriori αλγόριθμο στον οποίο καθορίζονται συχνά «σύνολα κατηγορημάτων». Εδώ ένα σύνολο κατηγορημάτων (predicate set) είναι ένα σύνολο από κατηγορήματα ενδιαφέροντος. Ένα 1-κατηγόρημα μπορεί να είναι το {<κοντά, πάρκο>}, έτσι ώστε όλα τα χωρικά αντικείμενα που είναι κοντά σε ένα πάρκο μετρώνται σε αυτά που ικανοποιούν αυτό το κατηγόρημα. Ένα 2-κατηγόρημα θα μπορούσε να είναι το {<κοντά, πάρκο>, <νότια, Plano>}. Οι εμφανίσει; των 1-κατηγορημάτων μετρώνται και στη συνέχεια εκείνα των οποίων οι εμφανίσεις είναι πολλές χρησιμοποιούνται για την παραγωγή συνόλων από 2- κατηγορήματα που στη συνέχεια μετρώνται και αυτά. Στην πραγματικότητα, ο αλγόριθμος μπορεί να χρησιμοποιηθεί για να παράγει πολυεπίπεδους κανόνες συσχέτισης εάν αυτό είναι επιθυμητό ή κανόνες σε ένα ευρύτερο επίπεδο παρά σε ένα περιορισμένο επίπεδο.

257 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης Αλγόριθμοι Χωρικής Κατηγοριοποίησης Τα προβλήματα χωρικής κατηγοριοποίησης χρησιμοποιούνται για τη διαμέριση συνόλων χωρικών αντικειμένων. Τα χωρικά αντικείμενα μπορούν να κατηγοριοποιηθούν με χρήση μη χωρικών γνωρισμάτων, χωρικών κατηγορημάτων (χωρικών γνωρισμάτων) ή χωρικών και μη χωρικών γνωρισμάτων. Μπορεί επίσης να χρησιμοποιηθούν ιεραρχίες εννοιών όπως και δειγματοληψία. Όπως και με τους άλλους τύπους εξόρυξης γνώσης από χωρικά δεδομένα, μπορούν να χρησιμοποιηθούν τεχνικές γενίκευσης και προοδευτικής βελτίωσης για τη βελτίωση της αποδοτικότητας. Δένδρο χωρικής απόφασης Μια τεχνική χωρικής κατηγοριοποίησης χτίζει δένδρα αποφάσεων χρησιμοποιώντας μια διαδικασία δυο βημάτων παρόμοια με αυτή που χρησιμοποιήθηκε για τους κανόνες συσχετίσεων [55]. Η βάση αυτής της προσέγγισης είναι ότι τα χωρικά αντικείμενα μπορούν να περιγραφούν βάσει των αντικειμένων που είναι κοντά σε αυτά. Στη συνέχεια γίνεται υπόθεση για μια περιγραφή των κλάσεων βασισμένη σε μια συνάθροιση των πιο σχετικών κατηγορημάτων για κοντινά αντικείμενα. Για την κατασκευή του δένδρου απόφασης, πρώτα ορίζονται τα πιο σχετικά (χωρικά και μη) κατηγορήματα. Έτσι αυτή η διαδικασία να δημιουργήσει μικρότερα και πιο ακριβή δένδρα αποφάσεων. Αυτά τα σχετικά κατηγορήματα είναι εκείνα που θα χρησιμοποιηθούν για το χτίσιμο του δένδρου απόφασης. Γίνεται η υπόθεση ότι ένα δείγμα εκπαίδευσης χρησιμοποιείται για να πραγματοποιήσει αυτό το βήμα και ότι ανατίθενται βάρη σε γνωρίσματα και κατηγορήματα. Τα αρχικά βάρη είναι 0. Για κάθε αντικείμενο, εξετάζονται δυο αντίστοιχα αντικείμενα. Η πλησιέστερη αστοχία (nearest miss) είναι το κοντινότερο χωρικό αντικείμενο στο αντικείμενο-στόχο, το οποίο ανήκει σε διαφορετική κλάση. Η πλησιέστερη επιτυχία (nearest hit) είναι ο κοντινότερος στόχος στην ίδια κλάση. Για κάθε τιμή κατηγορήματος στο αντικείμενο-στόχο, εάν η πλησιέστερη επιτυχία έχει την ίδια τιμή, τότε το βάρος του

258 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 259 κατηγορήματος αυξάνεται. Εάν έχει διαφορετική τιμή, τότε μειώνεται. Παρόμοια, το βάρος μειώνεται (αυξάνεται) εάν η πλησιέστερη αστοχία έχει την ίδια (διαφορετική) τιμή. Μόνο κατηγορήματα με θετικά βάρη μεγαλύτερα από κάποιο προκαθορισμένο κατώφλι χρησιμοποιούνται στη συνέχεια για την κατασκευή του δένδρου. Προτείνεται, εξαιτίας της πολυπλοκότητας εύρεσης σχετικών κατηγορημάτων, να βρίσκονται πρώτα σχετικά κατηγορήματα σε ένα ευρύτερο επίπεδο και στη συνέχεια σε ένα περιορισμένο. Αρχικά χρησιμοποιούνται τα MBR αντί των πραγματικών αντικειμένων και μια γενικευμένη ευρύτερη σχέση "κοντά" για την εύρεση των σχετικών κατηγορημάτων. Στη συνέχεια, κατά το δεύτερο πέρασμα, χρησιμοποιούνται αυτά τα σχετικά κατηγορήματα μαζί με τα πραγματικά αντικείμενα. Για κάθε αντικείμενο του δείγματος, εξετάζεται η περιοχή γύρω από αυτό, η οποία καλείται ενδιάμεση ζώνη (buffer). Μια περιγραφή αυτής της ενδιάμεσης περιοχής δημιουργείται με τη συνάθροιση των τιμών των πιο σχετικών κατηγορημάτων των αντικειμένων στην ενδιάμεση περιοχή. Προφανώς, το μέγεθος και το σχήμα της ενδιάμεσης ζώνης επιδρούν στον προκύπτοντα αλγόριθμο κατηγοριοποίησης. Είναι πιθανό, αν και μη ρεαλιστικό, να πραγματοποιηθεί μια εξαντλητική αναζήτηση σε όλα τα πιθανά μεγέθη και σχήματα ενδιάμεσων περιοχών. Ο αντικειμενικός στόχος θα ήταν να επιλεγεί εκείνη η ενδιάμεση ζώνη που οδηγεί στην καλύτερη διάκριση μεταξύ των κλάσεων στο σύνολο εκπαίδευσης. Αυτό θα υπολογίζονταν χρησιμοποιώντας το κέρδος πληροφορίας (information gain). Για την κατασκευή του δένδρου, υποθέτουμε ότι κάθε αντικείμενο του δείγματος έχει συσχετισμένο με αυτό ένα σύνολο από γενικευμένα κατηγορήματα που τα ικανοποιεί Μπορούν τότε να καθοριστούν οι αριθμοί των αντικειμένων που ικανοποιούν ή δεν ικανοποιούν κάθε κατηγόρημα. Αυτό χρησιμοποιείται στη συνέχεια για να υπολογιστεί το κέρδος της πληροφορίας. Αντί να δημιουργείται ένα δένδρο διακλαδώσεων πολλών δρόμων, δημιουργείται ένα δυαδικό δένδρο απόφασης. Ο αλγόριθμος κατασκευής του δένδρου απόφασης που προκύπτει φαίνεται στον παρακάτω Αλγόριθμο.

259 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 260 Αλγόριθμος Spatial Decision Tree Input: D // Data, including spatial and nonspatial attributes // Concept hierarchies C Output: T // Binary decision tree SPATIAL decision tree algorithm: find a simple S of data from D with known classification; identify the best predicates p to use for classification; determine the best buffer size and shape; using p and C, generalize the predicates for each buffer; build binary T using the generalized predicates and ID3; 5.7 Αλγόριθμοι Χωρικής Συσταδοποίησης Οι αλγόριθμοι χωρικής συσταδοποίησης πρέπει να είναι σε θέση να δουλεύουν αποδοτικά με μεγάλες πολυδιάστατες βάσεις δεδομένων. Επιπλέον, θα πρέπει να μπορούν να εντοπίζουν συστάδες από διαφορετικά σχήματα όπως επεξηγείται στο Σχήμα 5.8. Αυτό το σχήμα δείχνει συστάδες σε ένα διδιάστατο χώρο. Προφανώς, κοιτάζοντας αυτό το σχήμα, είναι εύκολο να παρατηρηθεί ότι υπάρχουν τέσσερις συστάδες και καθεμιά τους έχει ένα σαφώς ακανόνιστο σχήμα. Ένας καλός αλγόριθμος χωρικής συσταδοποίησης θα πρέπει να μπορεί να εντοπίζει αυτές τις τέσσερις συστάδες αν και τα σχήματα τους δεν είναι κανονικά και κάποια σημεία σε μια συστάδα μπορεί να είναι πιο κοντά σε κάποια σημεία άλλων συστάδων παρά σε σημεία της δικής τους συστάδας. Ένας αλγόριθμος που δουλεύει χρησιμοποιώντας κέντρα βάρους και απλές μετρήσεις απόστασης πιθανόν δεν θα είναι σε θέση να αναγνωρίζει τα ασυνήθιστα σχήματα.

260 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 261 Σχήμα 5.8 Χωρικές συστάδες Άλλα επιθυμητά χαρακτηριστικά για τη χωρική συσταδοποίηση είναι οι συστάδες που ανακαλύπτονται να είναι ανεξάρτητες της σειράς με την οποία εξετάστηκαν τα σημεία στο χώρο και οι συστάδες να μην επηρεάζονται από ακραία σημεία. Στο Σχήμα 5.8 τα ακραία σημεία στο κάτω δεξιά τμήμα του σχήματος δεν πρέπει να προστεθούν στη μεγάλη συστάδα κοντά σε αυτά. Πολλοί από τους αλγόριθμους συσταδοποίησης που αναλύθηκαν σε προηγούμενο κεφάλαιο μπορεί να θεωρηθούν χωρικοί. Παρακάτω παρουσιάζονται άλλοι αλγόριθμοι, ειδικά σχεδιασμένους για χωρικά δεδομένα Επεκτάσεις CLARANS Η παραδοχή για την κύρια μνήμη του CLARANS δεν είναι αποδεκτή για μεγάλες βάσεις χωρικών δεδομένων. Έχουν προταθεί δυο προσεγγίσεις για τη βελτίωση της απόδοσης του CLARANS εκμεταλλευόμενοι τις δομές χωρικής δεικτοδότησης [56]. Η πρώτη προσέγγιση χρησιμοποιεί ένα τύπο δειγματοληψίας βασισμένο στη δομή του R*-δένδρου (μια παραλλαγή του R-δένδρου). Για την εγγύηση της

261 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 262 ποιότητας της δειγματοληψίας, χρησιμοποιείται το R*-δένδρο για να εξασφαλίσει ότι εξετάζονται αντικείμενα από όλες τις περιοχές του χώρου. Κατά την αναζήτηση, το πιο κεντρικό αντικείμενο που βρίσκεται σε κάθε σελίδα του R*-δένδρου χρησιμοποιείται για την αναπαράσταση αυτής της σελίδας. Το πιο κεντρικό αντικείμενο είναι το αντικείμενο με τη μικρότερη απόσταση από το κέντρο της σελίδας (από όλα τα αντικείμενα που είναι αποθηκευμένα σε αυτή τη σελίδα). Η σελίδα είναι στην πράξη το MBR που περιέχει όλα τα αντικείμενα σε αυτή τη σελίδα. Έτσι, το κέντρο αυτού του MBR μπορεί να οριστεί ως το γεωμετρικό κέντρο του ορθογώνιου που το περικλείει. Ο CLARANS χρησιμοποιείται στη συνέχεια για να βρεθούν συστάδες για αυτά τα κεντρικά αντικείμενα. Τα k medoids που βρέθηκαν σε αυτό το βήμα αναπαριστούν τις k συστάδες που πρέπει να βρεθούν συνολικά για τη βάση δεδομένων. Αφού το R* -δένδρο συσταδοποιεί αντικείμενα που είναι χωρικά κοντά σε ένα κόμβο του δένδρου (και επομένως σελίδα δίσκου ), είναι λογικό ότι αυτή η προσέγγιση στη δειγματοληψία βρίσκει καλά medoids. Σχήμα 5.9 Διάγραμμα Voronoi Η δεύτερη τεχνική βελτιώνει τον τρόπο υπολογισμού του κόστους αλλαγής ενός medoid. Αντί να εξετάζεται όλη η βάση, εξετάζονται μόνο τα αντικείμενα στις δυο συστάδες που επηρεάζονται. Μια ερώτηση περιοχής μπορεί να

262 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 263 χρησιμοποιηθεί για την ανάκτηση των απαραίτητων αντικειμένων. Μια αποδοτική τεχνική για την ανάκτηση μόνο των αντικειμένων σε μια δοθείσα συστάδα βασίζεται στην κατασκευή ενός πολυέδρου γύρω από το medoid της συστάδας. Το πολύεδρο που κατασκευάζεται λέγεται Πολύεδρο Voronoi ή Διάγραμμα Voronoi. Αυτό το πολύεδρο δημιουργείται με την κατασκευή κάθετων διχοτόμων ανάμεσα σε ζεύγη από medoids. Αυτή η διαδικασία επεξηγείται παραπάνω στο Σχήμα 5.9. Αυτό το πολύεδρο στη συνέχεια ορίζει τη συστάδα Τα αντικείμενα ενός διαγράμματος Voronoi είναι πιο κοντά στο medoid του πολύεδροι που ανήκουν σε σχέση με οποιοδήποτε άλλο SD(CLARANS) Ο αλγόριθμος CLARANS χωρικής τάξης [Spatial Dominant - SD(CLARANS)] υποθέτει ότι τα στοιχεία που πρόκειται να συσταδοποιηθούν περιέχουν χωρικές και μη χωρικές συνιστώσες. Πρώτα συσταδοποιεί τις χωρικές συνιστώσες χρησιμοποιώντας τον CLARANS και στη συνέχεια εξετάζει τα μη χωρικά γνωρίσματα εντός κάθε συστάδας για να εξάγει μια περιγραφή αυτής της συστάδας. Για παράδειγμα, η συσταδοποίηση της βλάστησης σε απομακρυσμένες περιοχές μπορεί να βρει ότι σε μια περιοχή (συστάδα) κυριαρχεί ένα δάσος από πεύκα, ενώ μια άλλη περιέχει μεγάλες ανοιχτές πεδιάδες και χορτολιβαδικές εκτάσεις. Ο SD(CLARANS) υποθέτει ότι κάποιο εργαλείο μάθησης όπως το DBLEARN χρησιμοποιείται για να εξάγει την περιγραφή της συστάδας. Αυτή η περιγραφή μπορεί να θεωρηθεί ως μια γενικευμένη πλειάδα. Δηλαδή, χρησιμοποιώντας μια ιεραρχία εννοιών, οι τιμές των γνωρισμάτων για το σύνολο των πλειάδων σε μια συστάδα μπορούν να γενικευτούν για να παρέχουν συνοπτικές τιμές σε ένα μεγαλύτερο επίπεδο στην ιεραρχία. Το εργαλείο μάθησης πραγματοποιεί αυτή την πράξη. Ο Αλγόριθμος περιγράφει τον αλγόριθμο SD(CLARANS). Επίσης υποθέτει ότι στο πρώτο βήμα πραγματοποιείται ένα αρχικό φιλτράρισμα των δεδομένων χρησιμοποιώντας μια σχέση βασισμένη στα μη χωρικά δεδομένα. Οποιοσδήποτε αλγόριθμος συσταδοποίησης θα μπορούσε να χρησιμοποιηθεί

263 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 264 στη θέση CLARANS σε αυτόν τον αλγόριθμο. Στον αλγόριθμο που ακολουθεί δίδεται ως είσοδος ο αριθμός των επιθυμητών συστάδων. Αλγόριθμος SD(CLARANS) Input: D // Data to be clustered k // Number of desired cells at the lowest level Output: K // Set of clusters SD(CLARANS) algorithm: // Find set of tuples that satisfy selection criteria. D = select tuples from D based on nonspatial selection criteria; // Apply CLARANS to D based on spatial attributes. K= CLARANS(D ); // Perform attribute generalization. For a each kk do Apply DBLEARN to the nonspatial attributes in k; Σε αντίθεση με τον SD(CLARANS), ο αλγόριθμος CLARANS μη χωρικής τάξης [non-spatial dominant - NSD(CLARANS)] εξετάζει πρώτα τα μη χωρικά γνωρίσματα. Εφαρμόζοντας μια γενίκευση σε αυτά τα γνωρίσματα, μπορεί να βρεθεί ένα σύνολο από αντιπροσωπευτικές πλειάδες, στο οποίο μια πλειάδα αναπαριστά κάθε συστάδα. Στη συνέχεια ο αλγόριθμος καθορίζει ποια χωρικά αντικείμενα ταιριάζουν με ποια αντιπροσωπευτική πλειάδα για να ολοκληρώσει τη διαδικασία συσταδοποίησης DBCLASD Πρόσφατα προτάθηκε ένας νέος αλγόριθμος χωρικής συσταδοποίησης που βασίζεται στον DBSCAN και ο οποίος ονομάζεται DBCLASD (Distribution Based Clustering of LArge Spatial Databases συσταδοποίηση μεγάλων

264 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 265 βάσεων χωρικών δεδομένων βασισμένη σε κατανομές). Ο αλγόριθμος DBCLASD υποθέτει ότι τα στοιχεία εντός μιας συστάδας είναι ομοιόμορφα κατανεμημένα και ότι σημεία εκτός της συστάδας πιθανόν δεν ικανοποιούν αυτόν τον περιορισμό. Βάσει αυτής της υπόθεσης, ο αλγόριθμος επιχειρεί να προσδιορίσει την κατανομή που ικανοποιείται από τις αποστάσεις μεταξύ πλησιέστερων γειτόνων. Έτσι δημιουργείται μια συστάδα γύρω από ένα στοιχείο - στόχο. Στοιχεία προστίθενται στη συστάδα, όσο το σύνολο των πλησιέστερων - βάσει της απόστασης - γειτόνων ικανοποιεί την υπόθεση της ομοιόμορφης κατανομής. Καθορίζονται τα υποψήφια στοιχεία και στη συνέχεια προστίθενται στην τρέχουσα συστάδα, αν ικανοποιούν ένα κριτήριο μέλους. Τα υποψήφια στοιχεία καθορίζονται με την εκτέλεση μιας ερώτησης περιοχής χρησιμοποιώντας έναν κύκλο ακτίνας m, ο οποίος έχει ως κέντρο ένα σημείο p, το οποίο μόλις προστέθηκε στη συστάδα. Η παράμετρος m επιλέγεται βάσει του ακόλουθου τύπου: m 1 A 1 1 N N όπου N είναι ο αριθμός των σημείων στη συστάδα και A είναι η περιοχή της. Στη συνέχεια τα σημεία που προστίθενται γίνονται νέα υποψήφια. Η περιοχή της συστάδας εκτιμάται με χρήση πλεγμάτων, τα οποία περιβάλλουν τη συστάδα με ένα πολύγωνο. Όταν προστίθεται ένα σημείο σε μια συστάδα, το πλέγμα που περιέχει αυτό το σημείο προστίθεται στο πολύγωνο. Η εγγύτητα του πολυγώνου στο πραγματικό σχήμα της συστάδας εξαρτάται από το μέγεθος των πλεγμάτων. Εάν τα πλέγματα είναι πολύ μεγάλα, το σχήμα μπορεί να μη προσεγγίζει καλά τη συστάδα. Εάν είναι πολύ μικρά, η συστάδα μπορεί στην πράξη να εκτιμηθεί από μη συνεκτικά πολύγωνα. Το μήκος του πλέγματος επιλέγεται να είναι η μεγαλύτερη τιμή στο σύνολο των πλησιέστερων - βάσει της απόστασης γειτόνων [5].

265 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης BANG Η προσέγγιση BANG χρησιμοποιεί μια δομή πλέγματος με ένα k-d δένδρο. Η δομή προσαρμόζεται στην κατανομή των στοιχείων, έτσι ώστε οι πιο πυκνές περιοχές να έχουν ένα μεγαλύτερο αριθμό από μικρότερα πλέγματα, ενώ οι λιγότερο πυκνές να έχουν λίγα μεγάλα πλέγματα. Τα πλέγματα (που αντιστοιχούν σε blocks στο δίσκο) στη συνέχεια ταξινομούνται βάσει της πυκνότητας τους, που είναι ο αριθμός των στοιχείων στην περιοχή διαιρεμένος με το εμβαδόν. Βάσει του αριθμού των επιθυμητών συστάδων, αυτά τα πλέγματα με τις μεγαλύτερες πυκνότητες επιλέγονται ως τα κέντρα των συστάδων. Για κάθε επιλεγμένο πλέγμα, προστίθενται γειτονικά πλέγματα όσο οι πυκνότητες τους είναι μικρότερες ή ίσες από αυτήν του κέντρου της τρέχουσας συστάδας WaveCluster Η προσέγγιση WaveCluster για την παραγωγή χωρικών συστάδων εξετάζει τα δεδομένα σαν να ήταν σήματα. Όπως ο STING, έτσι και ο WaveCluster χρησιμοποιεί πλέγματα. Η πολυπλοκότητα παραγωγής συστάδων είναι O n και δεν επηρεάζεται από ακραία σημεία. Αντίθετα με κάποιες προσεγγίσεις, ο WaveCluster μπορεί να βρει συστάδες τυχαίου σχήματος και δεν χρειάζεται να γνωρίζει τον επιθυμητό αριθμό από συστάδες. Ένα σύνολο από χωρικά αντικείμενα σε ένα ν-διάστατο χώρο θεωρούνται ως ένα σήμα. Τα όρια των συστάδων αντιστοιχούν στις υψηλές συχνότητες. Οι συστάδες από μόνες τους είναι χαμηλής συχνότητας με μεγάλο πλάτος. Μπορούν να χρησιμοποιηθούν τεχνικές επεξεργασίας σήματος για να βρουν τα χαμηλής συχνότητας τμήματα του χώρου. Οι συγγραφείς προτείνουν τη χρήση ενός κυματοειδούς μετασχηματισμού (wavelet transform) για να βρεθούν οι συστάδες. Ένας κυματοειδής μετασχηματισμός χρησιμοποιείται ως φίλτρο για τον καθορισμό την αναλογία συχνότητας του σήματος. Ένας κυματοειδής μετασχηματισμός ενός χωρικού αντικειμένου το αποσυνθέτει σε μια ιεραρχία από χωρικές

266 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 267 εικόνες. Αυτές μπορούν να χρησιμοποιηθούν για κλιμάκωση μιας εικόνας σε διαφορετικά μεγέθη [5] Προσέγγιση Μόλις βρεθούν οι χωρικές συστάδες, είναι επωφελές να προσδιοριστεί γιατί υπάρχουν οι συστάδες, με άλλα λόγια, ποια είναι τα μοναδικά χαρακτηριστικά των συστάδων. Για τον προσδιορισμό των χαρακτηριστικών των συστάδων, μπορεί να χρησιμοποιηθεί η έννοια της προσέγγισης (approximation). Αυτό γίνεται καθορίζοντας τα χαρακτηριστικά που είναι κοντά στις συστάδες. Οι συστάδες μπορούν να διακρίνονται βάσει χαρακτηριστικών μοναδικών σε αυτές ή κοινών σε πολλές συστάδες. Στη συγκεκριμένη περίπτωση, τα χαρακτηριστικά είναι χωρικά αντικείμενα όπως ποτάμια, ωκεανοί, σχολεία. Για παράδειγμα, κάποιες συστάδες μπορεί να είναι μοναδικές εν μέρει επειδή είναι κοντά στον ωκεανό και εν μέρει επειδή είναι κοντά σε καλά σχολεία. Συνήθως γίνεται η υπόθεση ότι τα χαρακτηριστικά και οι συστάδες αναπαρίστανται από πιο πολύπλοκα κλειστά πολύγωνα παρά από απλά MBR. Η συναθροιστική εγγύτητα (aggregate proximity) ορίζεται ως το μέτρο του πόσο κοντά είναι μια συστάδα (ή ομάδα από στοιχεία) σε ένα χαρακτηριστικό (ή σε ένα αντικείμενο στο χώρο). Αυτό δεν είναι ένα μέτρο της απόστασης από τα όρια της συστάδας, αλλά μάλλον προς τα σημεία της συστάδας. Οι παραδοσιακές δομές δεδομένων, όπως τα R-δένδρα και τα k-d δένδρα, δε μπορούν να χρησιμοποιηθούν για την αποδοτική εύρεση αυτών των συσχετίσεων συναθροιστικής εγγύτητας, επειδή εστιάζουν σε ένα όριο συστάδας αντί των αντικειμένων στη συστάδα. Η απόσταση συναθροιστικής εγγύτητας μπορεί να μετρηθεί από το άθροισμα των αποστάσεων σε όλα τα σημεία στη συστάδα. Η σχέση συναθροιστικής εγγύτητας (aggregate proximity relationship) βρίσκει τα k κοντινότερα χαρακτηριστικά σε μια συστάδα. Ο αλγόριθμος CRH έχει προταθεί για την αναγνώριση αυτών των σχέσεων [57]. To C αναπαριστά τον

267 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 268 περικλείοντα κύκλο (encompassing circle), το R το ισοθετικό ορθογώνιο (isothetic rectangle) και το H το κυρτό περίβλημα (convex hull). Αυτά ορίζονται ως ακολούθως: Ισοθετικό ορθογώνιο: είναι το MBR που περιέχει ένα σύνολο σημείων, τέτοιο ώστε οι πλευρές του να είναι παράλληλες στους άξονες συντεταγμένων. Περικλείων κύκλος: είναι ένας κύκλος που περιέχει ένα σύνολο σημείων, και του οποίου η διάμετρος ισούται με τη διαγώνιο του ισοθετικού ορθογωνίου. Κυρτό περίβλημα: είναι το ελάχιστο περιβάλλον κυρτό σχήμα που περιέχει ένα σύνολο σημείων. Αυτό που κάνει αυτά τα σχήματα αποδοτικά είναι ότι δοθέντος ενός συνόλου από n σημεία, τα δυο πρώτα σχήματα μπορούν να βρεθούν σε O χρόνο και το τελευταίο σε n n O lg χρόνο. Αυτά τα γεωμετρικά σχήματα μπορούν να θεωρηθούν ως περιβάλλουσες δομές και μπορούν να χρησιμοποιηθούν ως πολλαπλά επίπεδα φιλτραρίσματος από τα πιθανά κοντινά χαρακτηριστικά. Η ιδέα της χρήσης αυτών των τριών τύπων περιοριστικών σχημάτων φαίνεται στο Σχήμα 5.10, το οποίο απεικονίζει ένα σχολείο. Το σχολείο αναπαρίσταται με αρκετή ακρίβεια από ένα κυρτό περίβλημα, αλλά με λιγότερη ακρίβεια από ένα ορθογώνιο και ένα κύκλο. Ο στόχος είναι να εξασφαλιστεί μια ισορροπία ανάμεσα στην ακρίβεια και την αποδοτικότητα στην αναγνώριση των σχέσεων. n

268 5 ο Κεφάλαιο Εξόρυξη Χωρικής Γνώσης 269 Σχήμα 5.10 Αλγόριθμος CRH Το πρώτο βήμα του αλγορίθμου CRH είναι να εφαρμόσει τον περικλείοντα κύκλο Τα χαρακτηριστικά (χρησιμοποιώντας την κυκλική προσέγγιση) που κατατάσσονται ως τα μεγαλύτερα (αυτά που θεωρούνται να είναι τα κοντινότερα) σε μια δοθείσα συστάδα στέλνονται στη συνέχεια στο φίλτρο στο επόμενο επίπεδο. Σε αυτό το επίπεδο, το ισοθετικό ορθογώνιο χρησιμοποιείται για να αναπαραστήσει τα χαρακτηριστικά, τα οποία κατατάσσονται εκ νέου βάσει της εγγύτητας στη συστάδα. Τα υψηλότερα κατατασσόμενα χαρακτηριστικά σε αυτό το επίπεδο εξετάζονται στο τελικό επίπεδο, όπου χρησιμοποιείται ένα κυρτό περίβλημα για την εκτίμηση κάθε χαρακτηριστικού. Αυτή η προσέγγιση χρησιμοποιείται για κάθε συστάδα. Ο επιθυμητός αριθμός από γνωρίσματα που αναγνωρίζονται σε κάθε επίπεδο καθορίζεται ως είσοδος στον αλγόριθμο. Παρόλο που μπορούν να χρησιμοποιηθούν διαφορετικές τεχνικές για την κατάταξη των χαρακτηριστικών, συνήθως χρησιμοποιείται η τομή ή υπολογίζονται οι πραγματικές αποστάσεις.

269 6 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 6.1 Εισαγωγή Οι Βάσεις Δεδομένων συνήθως δεν περιέχουν χρονικά δεδομένα. Αντιθέτως, τα δεδομένα που είναι αποθηκευμένα αφορούν σε ένα συγκεκριμένο σημείο στο χρόνο. Για το λόγο αυτό μια τέτοια βάση δεδομένων αποκαλείται βάση στιγμιότυπου (snapshot database). Για παράδειγμα, μια βάση με εγγραφές υπαλλήλων περιέχει μόνο τους υπάλληλους που εργάζονται την παρούσα στιγμή στην επιχείρηση και όχι όλους έχουν εργαστεί κατά καιρούς σε αυτήν. Εντούτοις, πολλές ερωτήσεις δεν μπορούν να απαντηθούν από αυτή τη βάση στιγμιότυπου. Ένα διευθυντικό στέλεχος μπορεί να επιθυμεί να παρατηρήσει τάσεις της επιχείρησης στην πρόσληψη και απόλυση υπαλλήλων, ή να παρατηρήσει τη διαφορετικότητα των εθνικοτήτων των υπαλλήλων και πώς αυτή αλλάζει με την πάροδο του χρόνου. Οι ερωτήσεις εξόρυξης γνώσης αυτού του τύπου απαιτούν χρονικά δεδομένα. Σε μία χρονική βάση (temporal database), τα δεδομένα αποθηκεύονται για πολλαπλά σημεία στο χρόνο και όχι μόνο για ένα. Το Παράδειγμα 6.1 παρουσιάζει μια χρονική βάση που αποθηκεύει δεδομένα για υπαλλήλους. Είναι προφανές ότι η αποθήκευση τριών ξεχωριστών εγγραφών για τον ίδιο υπάλληλο είναι μη αποδοτική και μπορούν να εφαρμοστούν τεχνικές για την εξάλειψη τέτοιων πλεονασμών. Το

270 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 271 παράδειγμα δείχνει απλώς την γενική ιδέα. Κάθε πλειάδα περιέχει πληροφορία που είναι έγκυρη από την ημερομηνία που αναφέρεται στην πλειάδα αυτή μέχρι την ημερομηνία που αναφέρεται στην επόμενη πλειάδα σε χρονολογική σειρά. Παράδειγμα 6.1 Η εταιρεία ΑΒ χρησιμοποιεί μια χρονική βάση για να αποθηκεύει πληροφορίες για τους υπαλλήλους της. Για κάθε υπάλληλο διατηρούνται πληροφορίες για τον Αριθμό Φορολογικού Μητρώου (ΑΦΜ), το όνομα του, τη διεύθυνση του και το μισθό του. Όταν γίνεται η εισαγωγή μιας εγγραφής στη βάση, αποθηκεύεται η τρέχουσα ημερομηνία. Ο Joe Smith προσλήφθηκε στις 12/02/2002 με μισθό $50,000. Στον εξάμηνο έλεγχο επίδοσης του δόθηκε αύξηση $2,000 και προαγωγή. Στις 10/12/2002 μετακόμισε σε νέα διεύθυνση. Στο τέλος του 2002 υπήρχαν τρεις εγγραφές στη βάση για τον Joe Smith: Ημερ/νία Ονοματεπώνυμο Α.Φ.Μ. Διεύθυνση Μισθός 12/02/2002 Joe Smith Moss Haven $ /08/2002 Joe Smith Moss Haven $ /12/2002 Joe Smith Chesterton $ Η ανάλυση χρονικών δεδομένων (ή δεδομένων που μεταβάλλονται με το χρόνο) παρουσιάζει πολλές ενδιαφέρουσες προκλήσεις. Για παράδειγμα, υπάρχουν πολλές διαφορετικές αναπαραστάσεις για το χρόνο. Στο Παράδειγμα 6.1 η ημερομηνία που αποθηκεύεται στην εγγραφή είναι η ημερομηνία από την οποία ισχύουν οι πληροφορίες που αναγράφονται. Αυτό συχνά αναφέρεται ως χρόνος εγκυρότητας. Ο χρόνος εγκυρότητας (valid time) είναι η χρονική στιγμή για την οποία μια πληροφορία είναι αληθής στον πραγματικό κόσμο. Αυτός συνήθως αποτελείται από αρχικό χρόνο και τελικό χρόνο. Στο συγκεκριμένο παράδειγμα ο τελικός χρόνος υπονοείται ότι είναι ο αρχικός χρόνος της επόμενης εγγραφής για τον ίδιο υπάλληλο. Ένας άλλος

271 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 272 χρόνος που μπορεί να χρησιμοποιηθεί είναι ο χρόνο: συναλλαγής. Ο χρόνος συναλλαγής (transaction time) είναι η χρονοσφραγίδα που σχετίζεται με την συναλλαγή που έκανε την εισαγωγή της εγγραφής (είναι η χρονική στιγμή κατά την οποία έγινε η εισαγωγή της εγγραφής στη βάση). Αυτός μπορεί να διαφέρει από το αρχικό χρόνο εγκυρότητας. Το χρονικό διάστημα συναλλαγής είναι το χρονικό διάστημα κατά το οποίο η εγγραφή υπήρχε στη βάση. Για παράδειγμα, ο Joe Smith μπορεί να υπέδειξε στις 15/11/2002 ότι η νέα του διεύθυνση θα ισχύει από τις 10/12/2002. Ο αρχικό: χρόνος εγκυρότητας για τη νέα διεύθυνση ήταν 10/12/2002 όμως ο χρόνος συναλλαγής ήταν 15/11/2002. Μπορούν επίσης να χρησιμοποιηθούν διάφοροι άλλοι χρονικοί τύποι. Όταν οι σχετικές με έναν υπάλληλο πληροφορίες αλλάζουν, μια νέα πλειάδα εισάγεται στη βάση. Αλλαγές ή διαγραφές επιτρέπονται μόνο για να διορθωθούν δεδομένα που εισήχθησαν λανθασμένα. Έτσι τα χρονικά δεδομένα αναφέρονται σε μια χρονική διάρκεια, δηλαδή έχουν έναν αρχικό χρόνο και έναν τελικό χρόνο. Σε αυτήν την αναπαράσταση, το διάστημα τιμώνt, t σχετίζεται με κάθε εγγραφή. Εδώ, t s είναι ο αρχικός s e χρόνος και t e είναι ο τελικός χρόνος. Διαφορετικές χρονικές αναπαραστάσεις μπορούν να χρησιμοποιηθούν Μια χρονοσφραγίδα μπορεί να χρησιμοποιηθεί αντί ενός διαστήματος. Αυτό συμβαίνει συχνά σε χρονολογικές σειρές όπου συγκεκριμένες τιμές σχετίζονται με μια χρονική στιγμή. Για παράδειγμα, μια κοινή χρονολογική σειρά είναι αυτή που δείχνει την τιμή μια; μετοχής στο κλείσιμο του χρηματιστηρίου κάθε μέρα. Αυτή είναι η τιμή της μετοχής c μια συγκεκριμένη τιμή στο χρόνο. Υπάρχουν πολλά διαφορετικά παραδείγματα για χρονικά δεδομένα. Οι δορυφόροι συνέχεια συλλέγουν εικόνες και δεδομένα από διάφορους αισθητήρες. Οι πληροφορία: αυτές είναι χρονικές και σχετίζονται με συγκεκριμένες στιγμές στο χρόνο (οι στιγμές που συλλέγονται). Σε ένα νοσοκομείο φυλάσσονται εκτυπώσεις καρδιογραφημάτων τους ασθενείς. Αυτά παρουσιάζουν μια συνεχή όψη χρονικών δεδομένων. Όταν λαμβάνεται ένα ηλεκτροεγκεφαλογράφημα από έναν ασθενή, πολλά διαφορετικά κύματα από τον εγκέφαλο μετριούνται παράλληλα. Κάθε κύμα αναπαριστά ένα συνεχές στο χρόνο σύνολο τιμών. Οι χρονικές βάσεις συνήθως δεν δέχονται τους ίδιους τύπους ενημέρωσης και

272 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 273 ανάκτησης όπως οι παραδοσιακές βάσεις στιγμιότυπου. Επιτρέπονται μόνο ενημερώσεις για διόρθωση λαθών και τη δημιουργία εκδοχών. Πραγματικές τροποποιήσεις των πλειάδων συνήθως απαγορεύονται. Αντί αυτού, εισάγονται νέες πλειάδες με ένα νέο χρόνο εγκυρότητας. Οι χρονικές ερωτήσεις μπορεί να περιέχουν αρκετά πολύπλοκα κριτήρια. Για παράδειγμα, δεν θα είχε νόημα μια ερώτηση για τους μισθούς όλων των υπαλλήλων. Θα ήταν δυνατό να χρησιμοποιηθεί ένα χρονικό κριτήριο: Ανάκτηση των μισθών όλων των υπαλλήλων στις 09/07/2001. Μία ακόμα πιο πολύπλοκη ερώτηση εύρους θα ήταν η ανάκτηση των ονομάτων των υπαλλήλων που είχαν μισθό μεγαλύτερο από $100,000 την χρονική περίοδο από 01/01/2001 μέχρι 31/12/2001. Μία χρονική ερώτηση q περιλαμβάνει μια περίοδο χρόνου q q εγκυρότητας V [ t, t ]. Εδώ το q s e q t s είναι ο αρχικός χρόνος και το q te ο τελικός χρόνος της περιόδου της ερώτησης. Στο τελευταίο παράδειγμα, οι τιμές αυτές ήταν οι 01/01/2001 και 31/12/2001, αντίστοιχα. Η χρονική περίοδος ισχύει τόσο για την ερώτηση όσο και για τα δεδομένα. Υποθέτουμε ότι V [ t d d s, t d e ] είναι ο χρόνος εγκυρότητας για μια πλειάδα. Από τους διάφορους συνδυασμούς των δύο αυτών περιόδων προκύπτουν ειδικοί τύποι χρονικών ερωτήσεων, όπως: Ερώτηση τομής (intersection query): Μια πλειάδα ανακτάται μόνο όταν η περίοδος χρόνου εγκυρότητας της τέμνει αυτήν της ερώτησης: V V 0. d q Ερώτηση εγκλεισμού (inclusion query): Μια πλειάδα ανακτάται μόνο όταν η περίοδος χρόνου εγκυρότητας της περιέχεται πλήρως σε αυτήν της ερώτησης: t q s t t t. d s d e q e Ερώτηση περίκλεισης (containment query): Μια πλειάδα ανακτάται μόνο όταν η περίοδος χρόνου εγκυρότητας της περιέχει πλήρως την περίοδο χρόνου εγκυρότητας της ερώτησης: t d s t t t. q s d e q e

273 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 274 Ερώτηση σημείου (point query): Μια πλειάδα ανακτάται μόνο όταν είναι έγκυρη σε ένα δοθέν χρονικό σημείο: t q s t t t. d s d e q e Όταν γίνεται αναφορά στο χρόνο, υπάρχουν τουλάχιστον τέσσερα είδη βάσεων δεδομένων: Βάση δεδομένων στιγμιότυπου (snapshot database): Το σύστημα βάσεων δεδομένων δεν υποστηρίζει χρονικές ιδιότητες. Τα αποθηκευμένα δεδομένα θεωρείται ότι είναι έγκυρα για την τρέχουσα χρονική στιγμή. Βάση δεδομένων χρόνων συναλλαγής (transaction time database): Τα μοναδικά χρονικά δεδομένα είναι οι χρονικές στιγμές που πραγματοποιήθηκαν οι συναλλαγές. Αυτός ο χρόνος μπορεί να είναι μια χρονοσφραγίδα για το πότε επικυρώθηκε η συναλλαγή (ενέργεια commit) ή ακόμα για το πότε αιτήθηκε (ενέργεια request) ή μπορεί να είναι μια περίοδος. Βάση δεδομένων χρόνων εγκυρότητας (valid time database): Η βάση δεδομένων υποστηρίζει χρόνο εγκυρότητας. Αυτός μπορεί να είναι αποθηκευμένος όπως ο χρόνος συναλλαγής, είτε με μια μοναδική τιμή ή με μία περίοδο. Εάν είναι μοναδική τιμή, θα αντιπροσωπεύει τον αρχικό χρόνο της περιόδου εγκυρότητας ενώ ο τελικός χρόνος της περιόδου θα είναι ο αρχικός της επόμενης εγγραφής με το ίδιο κλειδί. Αμφι-χρονική βάση δεδομένων (bitemporal database): Μια αμφιχρονική βάση δεδομένων υποστηρίζει και τους δύο χρόνους: χρόνο συναλλαγής και χρόνο εγκυρότητας. Στα χρονικά δεδομένα η έννοια του κλειδιού είναι επίσης πολύπλοκη. Στη βάση που περιέχει δεδομένα μισθοδοσίας, ο ΑΦΜ του υπαλλήλου δεν μπορεί πλέον να περιγράφει μοναδικά μια πλειάδα. Χρειάζεται επίσης χρονική πληροφορία.

274 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 275 Όπως και στα χωρικά δεδομένα, έχουν προταθεί εξειδικευμένες δομές δεδομένων για να υποστηρίξουν την εξόρυξη γνώσης από χρονικές βάσεις δεδομένων. Υπάρχουν πολλές τέτοιες ειδικές δομές δεδομένων. Συνήθως αποτελούν γενικεύσεις των Β+-δένδρων και είναι παρόμοιες με εκείνες τις δομές που είδαμε για τις βάσεις χωρικών δεδομένων. Μια διαφορά είναι φυσικά ότι ο χρόνος είναι μονοδιάστατο μέγεθος ενώ ο χώρος συνήθως είναι δύο ή τριών διαστάσεων. Αυτές οι δομές συνήθως θεωρούν ότι μια περίοδος χρόνου εγκυρότητας σχετίζεται με κάθε πλειάδα. Ένας πολύπλοκος παράγοντας είναι αυτός του τρέχοντος χρόνου. Σε αντίθεση με τα χωρικά δεδομένα, η χρονική διάσταση επεκτείνεται συνεχώς. Έτσι για γεγονότα που είναι έγκυρα την τρέχουσα στιγμή, δεν μπορεί να γνωρίζετε ο τελικός χρόνο της περιόδου, δηλαδή το μέχρι πότε θα είναι έγκυρα. Μία λύση είναι να χρησιμοποιηθεί μια ειδική χρονική τιμή που λέγεται παρόν ή τώρα (now), και που είναι η τρέχουσα χρονική στιγμή. Έτσι μια περίοδος με τελικό χρόνο το "παρόν" σημαίνει ότι είναι έγκυρη μέχρι την παρούσα στιγμή. Το αποτέλεσμα είναι οι περίοδοι που τελειώνουν με την τιμή «παρόν» να επεκτείνονται συνεχώς σε μέγεθος. Η εξόρυξη γνώσης από χρονικά δεδομένα περιλαμβάνει πολλές από τις συμβατικές διαδικασίες εξόρυξης γνώσης, αλλά φυσικά είναι πιο πολύπλοκες από την άποψη του χρόνου και των πιο πολύπλοκων τύπων ερωτήσεων. Για παράδειγμα μπορεί να εφαρμοστεί συσταδοποίηση σε δεδομένα χρονολογικών σειρών βασισμένη σε ομοιότητες. Όμως ο καθορισμός της ομοιότητας μεταξύ δύο διαφορετικών συνόλων χρονικών δεδομένων είναι δύσκολος. Δοθείσης μιας χρονολογικής σειράς, μπορεί να προβλεφθεί μια μελλοντική τιμή. Οι κανόνες συσχετίσεων μπορεί να περιέχουν χρονικά δεδομένα και συσχετίσεις. Η εξόρυξη γνώσης από δεδομένα του παγκόσμιο ιστού εμπλέκει χρονικά δεδομένα. Μπορεί επίσης να χρησιμοποιηθεί συνδυασμός εξόρυξης γνώσης από χωρικά και χρονικά δεδομένα [5].

275 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης Μοντελοποίηση Χρονικών Δεδομένων Κατά καιρούς έχουν προταθεί πολλές τεχνικές για τη μοντελοποίηση χρονικών γεγονότων. Τρία από αυτά τα μοντέλα εξετάζονται παρακάτω. Έτσι είναι τα μοντέλα Markov (Hidden Markov Models - HMM) και επανατροφοδοτήσιμα νευρωνικά δίκτυα (Recurrent Neural Networks - RNN). Ας γίνει υπόθεση ότι μας δίνεται το πρόβλημα της αναγνώρισης της συμβολοσειράς από χαρακτήρες "the". Αυτό μπορεί να το δει κανείς σαν μια χρονική σειρά από γεγονότα. Κάθε γεγονός αναγνωρίζει ένα χαρακτήρα. Μια από τις πρώτες τεχνικές για τη μοντελοποίηση μιας ακολουθίας γεγονότων ήταν η μηχανή πεπερασμένων καταστάσεων (Finite State Machine - FSM) ή μηχανή αναγνώρισης περασμένων καταστάσεων (Finite State Recognizer - FSR). Στο Σχήμα 6.1 φαίνεται η μηχανή πεπερασμένων καταστάσεων για τη συμβολοσειρά "the". Ο χρονικός παράγοντας υπονοείται από τα τόξα. Παρατηρείται ότι τα ξεχωριστά γεγονότα (οι χαρακτήρες) συμβαίνουν σε συγκεκριμένα χρονικά σημεία. Σχήμα 6.1 Μηχανή FSR για τη συμβολοσειρά the Παρόλο που η μηχανή FSR μπορεί να χρησιμοποιηθεί για να αναγνωριστεί μια γνωστή ακολουθία, δεν έχει καλή απόδοση όταν το λεξιλόγιο είναι μεγάλο. Επίσης δεν λειτουργεί καλά όταν πρόκειται για τη μοντελοποίηση μεταβάσεων από καταστάσεις που δεν είναι ακριβώς ορισμένες. Τα μοντέλα Markov, και η παραλλαγή τους, τα κρυφά μοντέλα Markov, αποτελούν επεκτάσεις της FSR

276 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 277 αλλά κλιμακώνονται καλά και είναι πιο γενικά. Στο Σχήμα 6.2 φαίνεται ένα απλό μοντέλο Markov. Παρατηρείστε τις ομοιότητες και διαφορές μεταξύ αυτού και της FSR του Σχήματος 6.1. Μια από τις βασικές διαφορές είναι ότι οι μεταβάσεις (τόξα) δεν είναι συσχετισμένα με συγκεκριμένες τιμές εισόδου. Όπως και το FSR, ένα Μοντέλο Markov (Markov Model - MM) είναι ένας κατευθυνόμενος γράφος που μπορεί να χρησιμοποιηθεί για να αναγνωρίσει ένα πρότυπο. Κάθε κόμβος αντιστοιχεί σε μια κατάσταση στην αναγνώριση μιας ακολουθίας γεγονότων (ή ενός προτύπου). Αν και στο παράδειγμα υπάρχουν κόμβοι αρχής και τέλους, γενικά δεν είναι απαραίτητο να υπάρχουν. Μια ακόμη σημαντική διαφορά είναι ότι τα τόξα έχουν πάνω τους μια πιθανότητα, την πιθανότητα μετάβασης (transition probability). Η πιθανότητα p σε ένα τόξο i, j είναι η πιθανότητα να γίνει μια μετάβαση από ij την κατάσταση i στην κατάσταση j. Στο Σχήμα 6.2 η πιθανότητα να συμβεί μια μετάβαση από την κατάσταση 1 στην 2 είναι 0.3, ενώ η πιθανότητα για την παραμονή στην κατάσταση 1 είναι 0.7. Το άθροισμα των βαρών των εξερχόμενων ακμών από κάθε κόμβο είναι 1. Όλα τα τόξα που δεν υπάρχουν έχουν πιθανότητα 0. Οι πιθανότητες μπορεί να συνδυάζονται για να προσδιορίσουν την πιθανότητα να παραχθεί ένα πρότυπο από το MM. Για παράδειγμα με το MM του Σχήματος 6.2 η πιθανότητα μεταβάσεων στο βασικό -οριζόντιο - μονοπάτι είναι 0.3 Χ 0.5 Χ 0.6 = Όπως και στη μηχανή FSR, υπάρχει πάντα μια κατάσταση που χαρακτηρίζεται ως τρέχουσα κατάσταση. Μια βασική ιδιότητα των μοντέλων Markov είναι η ιδιότητα Markov, που δηλώνει ότι, δοσμένης της τρέχουσας κατάστασης, η πιθανότητα μετάβασης σε μια άλλη είναι ανεξάρτητη κάθε προηγούμενης κατάστασης. Με άλλα λόγια, ένα MM δεν έχει μνήμη. Ένας αυστηρός ορισμός ενός MM δίνεται στον Ορισμό.

277 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 278 Σχήμα 6.2 Μοντέλο Markov Ορισμός Ένα Μοντέλο Markov (Markov Model - MM) είναι ένας κατευθυνόμενος γράφος V, A όπου οι κορυφές αναπαριστούν καταστάσεις V v, v,..., και τα τόξα, A i j 1 2 v n, v, v V, δείχνουν μεταβάσεις μεταξύ των i j καταστάσεων. Κάθε τόξο i, j χαρακτηρίζεται από μία πιθανότητα pij j της μετάβασης από τη v i στη v j. Σε κάθε χρονική στιγμή t, μία κατάσταση χαρακτηρίζεται ορίζεται ως τρέχουσα κατάσταση v,. Τη χρονική στιγμή t, η πιθανότητα για κάθε μελλοντική μετάβαση εξαρτάται μόνο από τη v, και όχι από οποιαδήποτε προηγούμενη κατάσταση. Οι πιθανότητες μετάβασης σε ένα MM ορίζονται κατά τη φάση της εκπαίδευση; όπου για κάθε μετάβαση διατηρούνται κατάλληλοι μετρητές. Το μοντέλο Markov έχει χρησιμοποιηθεί σε πολλές διαφορετικές εφαρμογές. Η αναγνώριση φωνής και η επεξεργασία φυσικής γλώσσας είναι πολύ κοινές εφαρμογές των MM. Με την υπόθεση ότι ένα MM δημιουργείται για να μοντελοποιήσει κάποιες φράσεις. Οι διαφορετικοί κόμβοι μπορεί να αναπαριστούν ήχους ή λέξεις. Μια ακολουθία από τέτοιους ήχους ή λέξεις θα είναι μια φράση. Δοσμένης μιας φράσης, η πιθανότητα να συμβεί r φράση αυτή είναι το γινόμενο των πιθανοτήτων από την αρχική κατάσταση στην τελευταία χρησιμοποιώντας τις μεταβάσεις που σχετίζονται με κάθε λέξη στην πρόταση. Με τον τρόπο αυτό, μπορεί να εντοπιστούν οι πιο συχνές φράσεις και η πιο συχνή ακολουθία είναι αυτή που «αναγνωρίζεται». Δοσμένου ενός

278 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 279 μοντέλου, μπορεί να καθοριστεί η πιθανότητα ορισμού της εμφάνισης μιας ακολουθίας γεγονότων. Μπορεί επίσης να καθοριστεί η πιθανότητα να βρισκόμαστε σε μια συγκεκριμένη κατάσταση μια χρονική στιγμή. Μια άλλη εφαρμογή σχετίζεται με το χώρο της αξιοπιστίας συστημάτων. Εδώ ένα MM χρησιμοποιείται για τη μοντελοποίηση της λειτουργίας του συστήματος. Οι πιθανότητες μετάβασης μπορεί να καθοριστούν από ειδικούς του χώρου ή να προκύψουν από δεδομένα εκπαίδευσης. Το μοντέλο που παράγεται μπορεί να χρησιμοποιηθεί για να γίνει ο καθορισμός της διαθεσιμότητας ενός συστήματος ή η πρόβλεψη του μέσου χρόνου μεταξύ βλαβών. Μία επέκταση των MM που επίσης ικανοποιεί την ιδιότητα Markov είναι το κρυφό μοντέλο Markov (Hidden Markov Model - ΗΜΜ). Μια βασική διαφορά μεταξύ των MM και των ΗΜΜ είναι το ότι οι καταστάσεις σε ένα ΗΜΜ μπορεί να μην αντιστοιχούν σε παρατηρήσιμες καταστάσεις. Ένα ΗΜΜ μοντελοποιεί μια διαδικασία που παράγει ως έξοδο μια ακολουθία από παρατηρήσιμα σύμβολα. Το ΗΜΜ θα παράγει στην ουσία τα σύμβολα αυτά. Δοθείσης μιας ακολουθίας συμβόλων, το ΗΜΜ μπορεί να κατασκευαστεί για να παράγει τα σύμβολα αυτά. Αυτό που είναι κρυφό είναι η ακολουθία καταστάσεων που παρήγαγε αυτά τα σύμβολα. Δεν υπάρχει σχέση μεταξύ των καταστάσεων και των πραγματικών τιμών που παρατηρούνται. Μια ακολουθία παρατήρησης μπορεί να παραχθεί από περισσότερες της μίας ακολουθίες καταστάσεων. Όπως και το MM, το ΗΜΜ αποτελείται από ένα σύνολο καταστάσεων με πιθανότητες μετάβασης. Επιπρόσθετα, το ΗΜΜ έχει αντιστοιχίσει σε κάθε κατάσταση μια κατανομή πιθανότητας παρατήρησης (observation probability distribution). Στο Σχήμα 6.3 παρουσιάζεται ένα παράδειγμα ενός ΗΜΜ τροποποιημένο [58]. Μια εμφανής διαφορά είναι οι επιπλέον πιθανότητες. Αυτές αποτελούν το κρυφό μέρος του μοντέλου και συσχετίζονται με την παρατηρήσιμη έξοδο από κάθε κατάσταση. Το παράδειγμα αυτό μοντελοποιεί τα αποτελέσματα της ρίψης δύο νομισμάτων. Η πρώτη κατάσταση σχετίζεται με το ένα νόμισμα και η δεύτερη σχετίζεται με το δεύτερο. Το πρώτο νόμισμα είναι αμερόληπτο αφού οι πιθανότητες να έρθει κεφαλή (Η) ή γράμματα (Τ) είναι 0.5. Το δεύτερο νόμισμα είναι μεροληπτικό προς τα γράμματα (Τ) αφού η πιθανότητα να έρθει γράμματα είναι 0.7. Η μεταβάσεις καταστάσεων είναι όλες 0.5 πράγμα που

279 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 280 σημαίνει ότι μετά από τη ρίψη του νομίσματος είναι το ίδιο πιθανό την επόμενη φορά να ρίξουμε το αμερόληπτο ή το μεροληπτικό νόμισμα. Οι κρυμμένες πιθανότητες χρησιμοποιούνται για να καθορίσουν ποια θα είναι η έξοδος της κατάστασης ενώ οι δημόσιες (ή μεταβατικές) χρησιμοποιούνται για να καθορίσουν την επόμενη κατάσταση. Σχήμα 6.3 Κρυφό μοντέλο Markov Πρέπει να σημειωθεί ότι μια μεγάλη διαφορά μεταξύ των ΜΜ/ΗΜΜ και των FSR είναι ότι τα ΜΜ/ΗΜΜ μοντελοποιούν ένα σύστημα. Δεν είναι φτιαγμένα απλά για να αναγνωρίζουν μια ακολουθία γεγονότων. Έτσι, έχουν πολύ περισσότερες εφαρμογές από τις FSR. Μπορούν όχι μόνο να αναγνωρίσουν αλλά και να προβλέψουν. Είναι πολύ πιο γενικευμένα για αυτό και πιο πολύπλοκα. Υπάρχουν διάφορα ζητήματα όταν ορίζεται το πώς ακριβώς θα πρέπει να είναι το μοντέλο ΗΜΜ: Μέγεθος: Ο προσδιορισμός του αριθμού των καταστάσεων δεν είναι προφανής. Πρέπει να σχετίζονται με παρατηρήσιμα γεγονότα του πραγματικού κόσμου. Πιθανότητες μετάβασης: Ο προσδιορισμός των πιθανοτήτων μετάβασης μεταξύ των καταστάσεων είναι δύσκολος. Ειδικοί του τομέα ή/και αλγόριθμοι μάθησης προσπαθούν να καθορίσουν τις πιθανότητες όπως γίνεται και στα νευρωνικά δίκτυα.

280 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 281 Κρυμμένες πιθανότητες παρατήρησης: Όπως και στις πιθανότητες μετάβασης, μπορούν να γίνουν γνωστές με διαδικασίες μάθησης. Ένας πιο αυστηρός ορισμός των ΗΜΜ δίνεται στον Ορισμό παρακάτω. Οι πιθανότητες μετάβασης και παρατήρησης είναι δεδομένες για μια δεδομένη κατάσταση. Ορισμός Ένα κρυφό μοντέλο Markov (Hidden Markov Model - ΗΜΜ) είναι ένας κατευθυνόμενος γράφος v, v και τα τόξα, A i j V,..., 1 2 v n V, A με τις κορυφές να αναπαριστούν καταστάσεις, v, v V, να δείχνουν τις μεταβάσεις μεταξύ των καταστάσεων. Κάθε ΗΜΜ έχει τα παρακάτω επιπλέον χαρακτηριστικά: i j Μια κατανομή αρχικής κατάστασης, v 0, χρησιμοποιείται για να προσδιορίσει την αρχική κατάσταση τη χρονική στιγμή 0. Κάθε τόξο i, j έχει ως ετικέτα την πιθανότητα, p ij μετάβασης από την κατάσταση v i στην κατάσταση v j. Η τιμή αυτή είναι προκαθορισμένη. Δοθέντος ενός συνόλου από πιθανές παρατηρήσεις, O o o,..., κάθε κατάσταση, παρατήρηση, p, p,..., p. i1,, 1 2 o k v i, περιέχει ένα σύνολο από πιθανότητες για κάθε i2 ik Υπάρχουν τρία βασικά προβλήματα που σχετίζονται με τα ΗΜΜ [58]: Δοθείσης μιας ακολουθίας από αντικείμενα που έχουν παρατηρηθεί και ενός ΗΜΜ ποια είναι η πιθανότητα το ΗΜΜ να παρήγαγε την ακολουθία; Σημειώνετε ότι αυτή σχετίζεται με πρόβλημα αναγνώρισης. Εάν η πιθανότητα είναι χαμηλή, τότε το μοντέλο πιθανώς να μην την

281 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 282 παρήγαγε. Σαν αποτέλεσμα, το σύστημα που μοντελοποιείται από το συγκεκριμένο ΗΜΜ πιθανώς να μην παρήγαγε αυτή την ακολουθία. Δοθείσης μιας ακολουθίας από τιμές που έχουν παρατηρηθεί και ενός ΗΜΜ, ποια είναι η πιο πιθανή ακολουθία καταστάσεων που παρήγαγε την ακολουθία αυτή; Πώς μπορούν να βελτιωθούν οι παράμετροι του μοντέλου (πιθανότητες μετάβασης, πιθανότητες παρατήρησης και κατανομή αρχικής κατάστασης); Το πρόβλημα αυτό είναι παρόμοιο με αυτό της εκμάθησης ενός νευρωνικού δικτύου. Και για τα τρία αυτά προβλήματα έχουν προταθεί σχετικά αποτελεσματικοί αλγόριθμοι. Τα παραδοσιακά νευρωνικά δίκτυα εμπροσθοτροφοδότησης δεν μπορούν εύκολα να χρησιμοποιηθούν για να μοντελοποιήσουν χρονικά γεγονότα επειδή δεν υπάρχει χρονικός μηχανισμός. Εντούτοις, υπάρχουν εξελιγμένες αρχιτεκτονικές Νευρωνικών Δικτύων που μπορούν να χρησιμοποιηθούν και για προβλήματα αναγνώρισης και πρόβλεψης. Σε ένα επανατροφοδοτήσιμο νευρωνικό δίκτυο (Recurrent Neural Network - RNN), ένας νευρώνας μπορεί να δεχτεί είσοδο από οποιονδήποτε άλλο νευρώνα, συμπεριλαμβανόμενων και αυτών από το επίπεδο εξόδου. Ειδικότερα, οι έξοδοι από τους κόμβους στο κρυφό επίπεδο ή στο επίπεδο εξόδου τροφοδοτούνται ως είσοδοι σε ένα προηγούμενο επίπεδο. Αφού ένα RNN αποθηκεύει χρονική πληροφορία, μπορεί να χρησιμοποιηθεί για εφαρμογές χρονικής πρόβλεψης. Είναι ωστόσο δύσκολο να χρησιμοποιηθούν και να εκπαιδευτούν. Αντίθετα με τα παραδοσιακά νευρωνικά δίκτυα εμπροσθοτροφοδότησης, ο χρόνος που χρειάζεται ένα RNN για να παράγει την έξοδο δεν είναι γνωστός. Αυτό συμβαίνει γιατί οι κόμβοι των κρυφών επιπέδων ή των επιπέδων εξόδου παραμένουν ενεργοί μέχρι το σύστημα να σταθεροποιηθεί. Η επανάληψη δείχνει ότι η παρούσα κατάσταση του δικτύου δεν εξαρτάται μόνο από τις τρέχουσες τιμές εισόδου αλλά και από αυτές των προηγούμενων κύκλων (από τις προηγούμενες εξόδους). Στο Σχήμα 6.4 φαίνεται η βασική δομή ενός

282 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 283 RNN. Στο (α) φαίνεται η δομή ενός παραδοσιακού νευρωνικού δικτύου ενώ το (β) δείχνει ένα RNN. Στο (β), η έξοδος από το κρυφό επίπεδο τροφοδοτείται όχι μόνο στο επίπεδο εξόδου αλλά και σε ένα νέο επίπεδο εισόδου που αναφέρεται και ως επίπεδο συμφραζόμενων (context layer). Στη δομή αυτή η είσοδος στο κρυφό επίπεδο έρχεται από το επίπεδο εισόδου και από το επίπεδο συμφραζόμενων. Σχήμα 6.4 Επανατροφοδοτήσιμο Νευρωνικό Δίκτυο 6.3 Χρονολογικές Σειρές Μία χρονολογική σειρά ή χρονοσειρά (time series) είναι ένα σύνολο από τιμές ιδιοτήτων στη διάρκεια του χρόνου. Υπάρχουν και εναλλακτικοί ορισμοί. Άλλοι θεωρούν τη χρονολογική σειρά να αποτελείται μόνο από αριθμητικές τιμές. Άλλοι θεωρούν ότι οι τιμές βρίσκονται σε συγκεκριμένα και ίσα χρονικά σημεία. Τα δεδομένα των χρονολογικών σειρών μπορεί να είναι συνεχή ή διακριτά. Όπως φαίνεται στον Ορισμό, μια χρονολογική σειρά είναι ένα σύνολο από τιμές ιδιοτήτων στη διάρκεια του χρόνου.

283 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 284 Ορισμός Δοθείσης μιας ιδιότητας, A, μια χρονολογική σειρά είναι ένα σύνολο από n τιμές: t, a, t, a,..., t,. Εδώ υπάρχουν n χρονικές τιμές και σε n an καθεμία αντιστοιχεί μια τιμή της A. Συχνά οι τιμές προσδιορίζονται για κάποιες συγκεκριμένες και καλά ορισμένες χρονικές στιγμές, οπότε στην περίπτωση αυτή οι τιμές μπορούν να παρασταθούν σαν ένα διάνυσμα a, a,...,. 1 2 an Ορισμός Μία χρονολογική σειρά Y ' y i,..., y είναι υποσειρά μιας άλλης 1 im χρονολογικής σειράς Y y 1,..., y, αν 1 j m 1, i j i j1 και 1 j m, 1 k n η τέτοια ώστε yij yk. n Συνηθισμένη εφαρμογή εξόρυξης γνώσης για χρονολογικές σειρές είναι ο καθορισμός της ομοιότητας μεταξύ δύο διαφορετικών χρονολογικών σειρών και η πρόβλεψη των μελλοντικών τιμών για μια ιδιότητα, δοσμένης μιας χρονολογικής σειράς με γνωστές τιμές. Προφανώς, η πρόβλεψη είναι ένας τύπος κατηγοριοποίησης, ενώ η ομοιότητα μπορεί να θεωρηθεί είτε ως συσταδοποίηση είτε ως κατηγοριοποίηση. Αν δοθούν κάποιες χρονολογικές σειρές μπορεί διαπιστωθούν ποιες μοιάζουν μεταξύ τους (συσταδοποίηση). Εναλλακτικά, μπορεί να μας δοθεί μια χρονολογική σειρά για να διαπιστωθεί με ποιες μοιάζει από ένα σύνολο χρονολογικών σειρών (κατηγοριοποίηση). Μια ειδική περίπτωση ανάλυσης ομοιότητας είναι αυτή της εύρεσης κάποιου προτύπου μέσα στις χρονολογικές σειρές Ανάλυση Χρονολογικών Σειρών Η ανάλυση χρονολογικών σειρών μπορεί να θεωρηθεί ως η εύρεση προτύπων στα δεδομένα και η πρόβλεψη μελλοντικών τιμών. Τα πρότυπα που ανακαλύπτονται μπορεί να είναι:

284 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 285 Τάσεις Μία τάση μπορεί να θεωρηθεί ως μια συστηματική, μη επαναλαμβανόμενη αλλαγή (γραμμική ή μη) των τιμών της ιδιότητας κατά τη διάρκεια του χρόνου. Ένα παράδειγμα θα ήταν η τιμή μιας μετοχής που συνεχώς ανεβαίνει. Κύκλοι Εδώ, η παρατηρούμενη συμπεριφορά είναι κυκλική. Εποχιακά Τα παρατηρούμενα πρότυπα μπορεί να είναι βασισμένα σε μια συγκεκριμένη περίοδο του έτους ή του μήνα ή της ημέρας. Για παράδειγμα, ο όγκος των πωλήσεων ενός καταστήματος κατά την περίοδο των Χριστουγέννων να είναι πάντα αυξημένος. Ακραία σημεία Για να βοηθήσουμε την πρόβλεψη των προτύπων, χρειάζονται κάποιες τεχνικές για την απομάκρυνση ή εξάλειψη της επίδρασης των ακραίων σημείων. Η εύρεση των προτύπων σε δεδομένα του πραγματικού κόσμου μπορεί να είναι δύσκολη λόγω θορύβου, ακραίων σημείων, σφαλμάτων και ελλιπών στοιχείων. Πολλά πρότυπα μπορεί να βρεθούν στο ίδιο σύνολο δεδομένων. Παρατηρώντας τις πωλήσεις που γίνονται από επιχειρήσεις λιανικής πώλησης σημειώνετε ότι υπάρχουν συνήθως μεγάλες αυξήσεις κατά τη διάρκεια των Χριστουγέννων κάθε χρόνο. Η εποχιακή αλλαγή είναι ανεξάρτητη από τις γενικές τάσεις του όλο και αυξανόμενου τζίρου (πιθανώς λόγω της αύξησης του πληθυσμού και του πληθωρισμού) [5].

285 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης Ανάλυση Τάσεων Πολλές τεχνικές μπορούν να χρησιμοποιηθούν για τον προσδιορισμό τάσεων στις χρονολογικές σειρές. Η εξομάλυνση (smoothing) είναι μια προσέγγιση που χρησιμοποιείται για να αφαιρέσει τη μη συστηματική συμπεριφορά που εμφανίζεται σε μια χρονολογική σειρά. Για παράδειγμα η γενική τάση μπορεί να είναι ότι η χρονολογική σειρά αυξάνεται. Εντούτοις, όταν εξετάζονται συγκεκριμένες τιμές της χρονολογικής σειράς, υπάρχουν πολλές μειώσεις στις τιμές. Η εξομάλυνση συνήθως βρίσκει τους κινούμενους μέσους όρους των τιμών της ιδιότητας. Δοθέντος ενός παράθυρου στο χρόνο, χρησιμοποιείται ο τοπικός μέσος όρος όλων των τιμών της ιδιότητας αντί για τη συγκεκριμένη τιμή στη θέση αυτή. Πολλές φορές, αντί του μέσου χρησιμοποιείται η διάμεσος, λόγω της μικρότερης ευαισθησίας που έχει στις απομονωμένες τιμές. Στο Σχήμα 6.5 φαίνεται η όλη διαδικασία. Η εξομάλυνση χρησιμοποιείται για να αντιμετωπιστεί ο θόρυβος και οι απομονωμένες τιμές. Επίσης μπορεί να χρησιμοποιηθεί στην πρόβλεψη μελλοντικών τιμών γιατί η σειρά που προκύπτει μπορεί να ταιριάξει καλύτερα σε μια γνωστή συνάρτηση (γραμμική, λογαριθμική, εκθετική) Σχήμα 6.5 Εξομάλυνση με χρήση Κινούμενου Μέσου

286 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 287 Η ανακάλυψη των εποχιακών προτύπων σε μια χρονολογική σειρά είναι πιο δύσκολο πρόβλημα. Μια προσέγγιση είναι να βρεθούν στατιστικές συσχετίσεις μεταξύ των ιδιοτήτων σε ισαπέχοντα χρονικά διαστήματα. Για παράδειγμα, μια συσχέτιση μπορεί να βρεθεί μεταξύ κάθε δωδέκατης τιμής (σε δεδομένα μηνιαίων πωλήσεων). Η χρονική διαφορά μεταξύ των συσχετιζόμενων αντικειμένων λέγεται χρονική υστέρηση (lag). Στο παράδειγμα των πωλήσεων η υστέρηση είναι 12. Μπορούν να δημιουργηθούν συναρτήσεις αυτο-συσχέτισης (autocorrelation) για να καθορίσουν τις συσχετίσεις μεταξύ τιμών σε διαφορετικά χρονικά διαστήματα υστέρησης. Ένα γράφημα συσχετίσεων (correlogram) δείχνει τις τιμές αυτοσυσχέτισης για διαφορετικές τιμές χρονικής υστέρησης. Η συνδιακύμανση (covariance) μετρά πόσο δύο μεταβλητές μεταβάλλονται παράλληλα. Μπορεί να χρησιμοποιηθεί σαν βάση για τον καθορισμό των σχέσεων μεταξύ είτε δύο χρονολογικών σειρών είτε των εποχιακών τάσεων σε μία χρονολογική σειρά. Ένας συντελεστής αυτοσυσχέτισης (autocorrelation coefficient), r k, μετρά τις συσχετίσεις μεταξύ των τιμών μιας χρονολογικής σειράς που απέχουν μια συγκεκριμένη απόσταση υστέρησης k. Αρκετές διαφορετικές προσεγγίσεις έχουν χρησιμοποιηθεί για την αυτοσυσχέτιση. Ένας συντελεστής συσχέτισης (correlation coefficient), μετρά τη γραμμική σχέση μεταξύ δύο μεταβλητών (ή αυτή μεταξύ των τιμών της ίδιας μεταβλητής για μία συγκεκριμένη χρονική υστέρηση). Θετικές τιμές δείχνουν ότι οι μεταβλητές μεταβάλλονται παράλληλα, ενώ αρνητικές τιμές δείχνουν ότι ενώ η μία αυξάνεται η άλλη μειώνεται. Τιμές κοντά στο μηδέν δείχνουν μικρή συσχέτιση μεταξύ των μεταβλητών. Ένας βασικός τύπος για τη μέτρηση της συσχέτισης είναι ο συντελεστής συσχέτισης r, που αναφέρεται πολλές φορές και ως το r του Pearson. Δοθεισών δύο χρονολογικών σειρών X και Y με μέσους X και Y με n στοιχεία για κάθε μια, ο τύπος για το r είναι r xi X yi Y 2 2 x X y Y i i Η εφαρμογή αυτού του τύπου για την εύρεση του συντελεστή συσχέτισης με

287 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 288 υστέρηση k σε μία χρονολογική σειρά X x x,..., x 1, 2 n είναι απλή. Η πρώτη χρονολογική σειρά είναι η X x1, x,..., ενώ η δεύτερη χρονολογική ' 2 x n k σειρά είναι η X,..., x '' xk1, xk2 n. Το Παράδειγμα 6.2 δείχνει τη χρήση των συντελεστών αυτοσυσχέτισης [5]. Παράδειγμα 6.2 Κοιτάζοντας τη γραφική παράσταση του Σχήματος 6.6, είναι φανερό ότι υπάρχουν αρκετά πρότυπα. Ένα είναι ότι οι τιμές αυξάνουν γραμμικά για δύο μονάδες και μειώνονται κατά μία και αυτό επαναλαμβάνεται. Οπότε υπάρχει μια προφανής συσχέτιση με υστέρηση 3. Στην περίπτωση αυτή βρίσκεται ότι r k 1 επειδή υπάρχει μία τέλεια θετική συσχέτιση. Σχήμα 6.6 Συσχέτιση με υστέρηση = 3

288 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης Μετασχηματισμός Για να βοηθηθεί η ανακάλυψη προτύπων, μπορεί να απαιτείται να μετασχηματιστούν κατά κάποιο τρόπο τα πραγματικά δεδομένα μίας χρονολογικής σειράς. Μπορεί να χρησιμοποιηθεί, για παράδειγμα λογαριθμικός μετασχηματισμός για να σταθεροποιήσει τη διακύμανση και να κάνει τις εποχιακές τάσεις σταθερές κατά τα διάφορα έτη. Μετασχηματισμός επίσης χρησιμοποιείται για να αντιμετωπιστεί το πρόβλημα ων πολλών διαστάσεων. Το πρόβλημα (η κατάρα ) των πολλών διαστάσεων (dimensionality curse) αναφέρετε στα προβλήματα που δημιουργούνται από το ότι πολλές φορές τα δεδομένα είναι πολύ μεγάλης διάστασης. Η εξόρυξη γνώσης πάνω σε χρονολογικές σειρές με πολλές μεταβλητές δεν είναι μόνο δύσκολη αλλά και ακριβή. Οι δομές δεδομένων που χρειάζονται για την αποθήκευση πολυδιάστατων δεδομένων δεν είναι πολύ αποτελεσματικές. Με το μετασχηματισμό μπορεί να μειωθεί ο αριθμός των διαστάσεων. Σημειώνετε ότι η εξαγωγή χαρακτηριστικών επίσης μειώνει τον αριθμό των διαστάσεων Ομοιότητα Η εξέταση της ομοιότητας μεταξύ προτύπων στην εξόρυξη γνώσης εφαρμόζεται από τα δεδομένα χρήσης του παγκόσμιου ιστού. Πράγματι, αυτές οι εφαρμογές αποτελούν εξόρυξη γνώσης από χρονικά δεδομένα. Δοθέντος ενός προτύπου στόχου X ' x1, x2,..., xn και μιας ακολουθίας Y y y,..., το πρόβλημα είναι να καθοριστεί η ομοιότητα, X Y 1, 2 y m sim,. Εδώ το n μπορεί να είναι ίσο με το m. Το ταίριασμα μπορεί να είναι το απόλυτο ταίριασμα και των δύο ή το ταίριασμα κάποιων μερών τους ή άλλα πιο πολύπλοκα είδη ταιριάσματος. Μία σειρά μπορεί να αλλάξει κλίμακα ή να μετατοπιστεί προκειμένου να ταιριάξει με την άλλη. Μπορεί να χρειάζεται να προστεθούν κενά ή αδιάφορες τιμές για να επιτευχθεί το ταίριασμα. Μερικά ευρέως χρησιμοποιούμενα μέτρα απόστασης είναι η Ευκλείδεια

289 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 290 απόσταση, η γραμμική συσχέτιση και ο διακριτός μετασχηματισμός Fourier. Έχουμε ήδη δει την Ευκλείδεια απόσταση. Υπάρχουν όμως προβλήματα με αυτά τα μέτρα απόστασης: Μήκος: οι σειρές X και Y μπορεί να έχουν διαφορετικά μήκη αλλά εντούτοις να είναι αρκετά όμοιες. Κλίμακα: Ενώ το γενικό σχήμα των X και Y μπορεί να είναι παρόμοιο, η κλίμακα μπορεί να είναι διαφορετική. Για παράδειγμα, η μία σειρά μπορεί να χρησιμοποιεί λογαριθμική κλίμακα. Ή μπορεί να χρησιμοποιούνται διαφορετικά μέτρα (βαθμοί Φαρενάιτ και Κελσίου). Κενά: Κάποιες τιμές που υπάρχουν στη μία σειρά, μπορεί να λείπουν από την άλλη. Ακραίες τιμές: Αυτό είναι παρόμοιο με το πρόβλημα των κενών, εκτός του ότι θεωρείται ότι επιπλέον τιμές στη μία σειρά μπορεί να οφείλονται σε λανθασμένες μετρήσεις. Τιμές βάσης: Οι πραγματικές τιμές βάσης μπορεί να διαφέρουν. Αυτό σημαίνει ότι μπορεί να διαφέρει ο χρόνος μεταξύ δύο διαδοχικών τιμών στην X και στην Y. Μια προσέγγιση για την ομοιότητα είναι να βρεθεί για τη μέγιστη κοινή υποσειρά (longest common subseries) μεταξύ των δύο σειρών. Όταν παρατηρούνται τα X και Y, προσπαθείτε να βρεθεί η μεγαλύτερη υποσειρά που έχουν κοινή. Για παράδειγμα έστω X 10, 5, 6, 9, 22, 15, 4, 2 και Y 6, 9, 10, 5, 6, 22, 15, 4, 2. Η μέγιστη κοινή υποσειρά είναι η 22, 15, 4, 2 και η ομοιότητα simz Y l n 4 9,, όπου l είναι το μήκος της μέγιστης κοινής υποσειράς και n είναι το μήκος της μεγαλύτερης εκ των δύο σειρών. Ενώ στην προσέγγιση αυτή αντιμετωπίζονται κάποια από τα προβλήματα που αναφέρθηκαν παραπάνω, δεν αντιμετωπίζει το πρόβλημα της κλίμακας και

290 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 291 των τιμών βάσης. Πρόσφατα προτάθηκε ένα μέτρο ομοιότητας για να λύσει τα προβλήματα αυτά [59]. Η βασική ιδέα είναι να μετατραπεί η μία σειρά στην άλλη χρησιμοποιώντας μια συνάρτηση γραμμικού μετασχηματισμού f που μετατρέπει μία τιμή της πρώτης σειράς σε μία τιμή της δεύτερης. Αυτή η συνάρτηση, μαζί με μία τιμή επιτρεπτής ανεκτής διαφοράς,, στα αποτελέσματα, αντιμετωπίζει τα προβλήματα της κλίμακας και των τιμών βάσης. Το πρόβλημα των τιμών βάσης αντιμετωπίζεται επίσης με το να επιτρέπεται μια μικρή διαφορά, δ, στις χρονικές τιμές που χρησιμοποιούνται. Η συνάρτηση ομοιότητας που προκύπτει, sim X, Y,, παρουσιάζεται στον Ορισμό. Επιλέγεται η μέγιστη από όλες τις τιμές της f. Όσο πιο κοντά είναι η τιμή της sim X, Y στο 1, ττόσο πιο όμοιες είναι οι X, Y., Ορισμός Δίνεται ακέραιος 0, πραγματικός 1, μία γραμμική συνάρτηση f και δύο χρονολογικές σειρές X και Y με n το μήκος της μεγαλύτερης. Έστω X,..., ' xi 1, xi2 xim και Y ' y j1, yj2,..., y jm και Y αντίστοιχα όπου: οι μεγαλύτερες υποσειρές στη X k m 1, i k j k και, y jk k m f ( x ) (1 ) (1 ) ik y jk Τότε sim X, Y max m n, f. 2 Η μέγιστη κοινή υποσειρά μεταξύ δύο σειρών μπορεί να βρεθεί σε O n το πιο δύσκολο μέρος την εύρεση της sim X, Y. Έτσι, είναι ο προσδιορισμός της f. Έχουν προταθεί διάφοροι αλγόριθμοι για τον προσδιορισμό της

291 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης συνάρτησης αυτής. Ένας ακριβής αλγόριθμος είναι O n, ενώ έχουν προταθεί και προσεγγιστικοί αλγόριθμοι με καλύτερη συμπεριφορά [59] Πρόβλεψη Για την πρόβλεψη (prediction) ή πρόγνωση (forecasting) μελλοντικών τιμών χρονολογικών σειρών μπορούν να χρησιμοποιηθούν τεχνικές που έχουν ήδη αναφερθεί, όπως η παλινδρόμηση. Εντούτοις, στην πράξη τα δεδομένα των χρονολογικών σειρών περιέχουν σφάλματα και θόρυβο. Η χρήση της απλής παλινδρόμησης δεν είναι συνήθως αποτελεσματική. Δοθείσης μιας διακριτής χρονολογικής σειράς με ισαπέχοντα χρονικά διαστήματα, το πρόβλημα της πρόβλεψης είναι να προβλεφθεί τη χρονική στιγμή t η τιμή, x (l), για ένα προβλεπόμενο χρόνο l. Υποτίθεται ότι οι προηγούμενες τιμές τις σειράς x 1 x,..., είναι γνωστές. Ο σκοπός είναι η ελαχιστοποίηση του, 2 x t i1 t l τετραγωνικού μέσου των αποκλίσεων x x ( ). Μπορούν να χρησιμοποιηθούν διάφορα μοντέλα για να αναπαραστήσουν τις τιμές μιας χρονολογικής σειράς και έτσι να προβλέψουν μελλοντικές τιμές. Συνοπτικά αναφέρεται κάποια από αυτά. Οι περισσότερες μελέτες πάνω στην πρόβλεψη των χρονολογικών σειρών υποθέτουν στάσιμες χρονολογικές σειρές. Αυτό σημαίνει ότι οι τιμές προέρχοναι από ένα μοντέλο με σταθερό μέσο. Πιο πολύπλοκες τεχνικές πρόβλεψης υποθέτουν ότι οι χρονολογικές σειρές μη στάσιμες. Συνήθως οι τιμές των χρονολογικών σειρών εξαρτώνται μεταξύ τους, αλλά μπορεί να θεωρηθεί ότι έχουν προκύψει από μια σειρά ανεξάρτητων τιμών που λέγονται shocks. Τα shocks επιλέγονται τυχαία από μια κανονική κατανομή με μηδενικό μέσο. Μια ακολουθία τέτοιων τυχαίων τιμών θεωρείται ότι παριστάνει μια διαδικασία λευκού θορύβου (white noise). Με τη χρήση ενός γραμμικού φίλτρου η διαδικασία λευκού θορύβου μετασχηματίζεται σε μια χρονολογική σειρά. Το γραμμικό φίλτρο μπορεί να θεωρηθεί σαν ένα απλό άθροισμα με βάρη προηγούμενων shocks. Μια ειδική περίπτωση του μοντέλου γραμμικού φίλτρου είναι αυτή που

292 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 293 υποθέτει ότι οι τιμές της χρονολογικής σειράς εξαρτώνται από τις προηγούμενες τους. Η αυτο-παλινδρόμηση (autoregression) είναι μια μέθοδος πρόβλεψης μιας μελλοντικής τιμής της χρονολογικής σειράς, κοιτάζοντας τις προηγούμενες. Δοθείσης μιας χρονολογικής σειράς, X x x,..., x 1, 2 n, μια μελλοντική τιμή μπορεί να υπολογιστεί χρησιμοποιώντας τον παρακάτω τύπο: x x x x n1 n n n1 n n1 Εδώ το n1 είναι ένα τυχαίο σφάλμα τη χρονική στιγμή n 1. Επιπλέον, κάθε στοιχείο της σειράς μπορεί να θεωρηθεί σαν ο συνδυασμός ενός τυχαίου σφάλματος και ενός γραμμικού συνδυασμού των προηγούμενων τιμών. Τα i είναι οι παράμετροι αυτο-παλινδρόμησης. Εναλλακτικά, η τιμή μπορεί να θεωρηθεί σαν ένα άθροισμα με βάρη της προηγούμενης κατανομής από το μέσο. Τα μοντέλα αυτο-παλινδρόμησης μπορεί να είναι στάσιμα ή μη. Μια άλλη εξάρτηση που μπορεί να υπάρχει μεταξύ των τιμών σε μια χρονολογική σειρά είναι αυτή του κινούμενου μέσου όρου. Εδώ μπορεί να βρεθεί μια μελλοντική τιμή xin 1 χρησιμοποιώντας ένα μοντέλο κινούμενου μέσου όρου σε ένα σύνολο προηγούμενων συνεχόμενων τιμών. Υπάρχουν πολλά διαφορετικά μοντέλα κινούμενου μέσου και οποιοδήποτε από αυτά θα μπορούσε να χρησιμοποιηθεί. Επιπλέον, μπορεί να υπάρχει ένα κενό μεταξύ του σημείου στο οποίο εφαρμόζεται ο κινούμενος μέσος και της τιμής πρόβλεψης. Για παράδειγμα, μια εποχιακή πρόβλεψη για πωλήσεις μπορεί να βασιστεί στον μέσο όρο των πωλήσεων της προηγούμενης περιόδου 12 μήνες νωρίτερα. Η αυτο-παλινδρόμηση και ο κινούμενος μέσος μπορούν να συνδυαστούν για να δημιουργήσουν ένα μοντέλο χρονολογικής σειράς που ονομάζεται ARMA (Autoregressive Moving Average). Στην πράξη αυτό το μοντέλο είναι επαρκές για να αναπαραστήσει πολλές χρονολογικές σειρές που συναντάμε στον πραγματικό κόσμο. Όταν ένα μοντέλο δεν είναι στάσιμο, μπορεί να χρησιμοποιηθεί μια επέκταση του ARMA, το ARIMA (Autoregressive Integrated Moving Average). To ARIMA έχει γίνει αρκετά δημοφιλές, είναι όμως σχετικά πολύπλοκο και απαιτεί έναν ειδικό για να το χρησιμοποιήσει

293 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 294 αποτελεσματικά. 6.4 Ανίχνευση Προτύπων Δοθέντος ενός συνόλου από τιμές d,... 1, d2 dn όπου το i d έχει συλλεχθεί τη χρονική στιγμή t i και t t εάν και μόνο εάν i j, το πρόβλημα της i j ανίχνευσης προτύπων (pattern detection) είναι να προσδιοριστεί ένα πρότυπο που εμφανίζεται στην ακολουθία. Αυτός ο τύπος προβλήματος μπορεί να θεωρηθεί ως πρόβλημα κατηγοριοποίησης όπου το πρότυπο που πρόκειται να προβλεφθεί είναι ένα από ένα δοθέν σύνολο προτύπων. Τυπικές εφαρμογές ανίχνευσης προτύπων είναι η αναγνώριση φωνής και η επεξεργασία σήματος. Οι διορθωτές ορθογραφίας και οι επεξεργαστές κειμένου χρησιμοποιούν επίσης απλούς αλγορίθμους ανακάλυψης προτύπων. Αν και αυτοί οι απλοί συγγενείς των πραγματικών προβλημάτων ανίχνευσης προτύπων για εξόρυξη γνώσης είναι ακριβείς, το πιο γενικό πρόβλημα ανίχνευσης προτύπων είναι ασαφές, με μη ακριβές ταίριασμα, όπου χρειάζονται προσεγγίσεις. Οι μηχανές όμως δεν είναι τόσο καλές στην ανίχνευση προτύπων όσο είναι οι άνθρωποι. Ταίριασμα Συμβολοσειρών Στο πρόβλημα ταιριάσματος συμβολοσειρών γίνεται υπόθεση ότι δίνονται ένα μεγάλο κείμενο και ένα μικρό πρότυπο. Το πρόβλημα είναι να προσδιοριστεί σε ποια σημεία του κειμένου εμφανίζεται το πρότυπο. Το Παράδειγμα 6.3 παρουσιάζει ένα πρόβλημα ανακάλυψης προτύπου σε εφαρμογή ταιριάσματος συμβολοσειράς. Το πρόβλημα αυτό είναι πολύ κοινό, με πολλές εφαρμογές στην επεξεργασία κειμένου.

294 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 295 Παράδειγμα 6.3 Η Martha Holder διορθώνει το βιογραφικό της χρησιμοποιώντας ένα δημοφιλή επεξεργαστή κειμένου. Μόλις έχει παντρευτεί και επιθυμεί να αλλάξει, όπου χρειάζεται, το όνομα της από Holder στο νέο της επώνυμο Laros. Ωστόσο, το όνομα Holder δεν πρέπει να αλλαχθεί σε όλα τα σημεία του βιογραφικού. Για παράδειγμα, δε θέλει να αλλάξει το όνομα συγγραφέα προηγούμενων δημοσιεύσεων που έχουν γίνει με το πατρικό της όνομα. Χρησιμοποιώντας τον επεξεργαστή κειμένου, βρίσκει επαναλαμβανόμενα όλες τις εμφανίσεις του Holder στο βιογραφικό. Έπειτα εξετάζει τα συμφραζόμενα για να δει αν χρειάζεται να αλλαχθεί το Holder σε Laros. Στην περίπτωση αυτή το πρότυπο που πρέπει να ταιριάξει είναι (Η, ο, I, d, e, r). Μόνο οι λέξεις που ταιριάζουν ακριβώς με το πρότυπο αυτό πρέπει να βρεθούν. Σημειώστε ότι εδώ κάθε γράμμα θεωρείται σα να έχει εμφανιστεί τελευταίο χρονικά. Στην πραγματικότητα, είναι ένα τελικό σημείο μέσα στο κείμενο. Ένας από τους παλαιότερους αλγορίθμους για ταίριασμα συμβολοσειρών είναι ο αλγόριθμος Knuth-Morris-Pratt, ή ΚΜΡ. Ο ΚΜΡ δημιουργεί μια μηχανή πεπερασμένων καταστάσεων η οποία χρησιμοποιείται για να αναγνωρίσει το δοθέν πρότυπο. Η μηχανή πεπερασμένων καταστάσεων FSM αναπαριστά όλες τις πιθανές καταστάσεις που υπάρχουν όταν ερευνά μια συμβολοσειρά για να ταιριάξει στο δοσμένο πρότυπο. Κάθε κόμβος της FSM σχετίζεται με μία από αυτές τις καταστάσεις. Στο Σχήμα 6.7 φαίνεται μια FSM που δημιουργήθηκε για να αναγνωρίζει το πρότυπο "ΑΒΑΑΒΑ". Εδώ υπάρχουν επτά καταστάσεις. Η κατάσταση i παριστάνει το γεγονός ότι οι πρώτοι i χαρακτήρες στο πρότυπο ταιριάζουν με τους πιο πρόσφατους i χαρακτήρες της συμβολοσειράς. Η έκτη κατάσταση έχει ορισθεί ως η κατάσταση αναγνώρισης της συμβολοσειράς, με συμβολισμό δύο ομόκεντρους κύκλους. Οι ακμές στο γράφο έχουν ετικέτες που αντιστοιχούν στους χαρακτήρες του προτύπου που προκαλούν τη μετάβαση από μια κατάσταση σε μια άλλη όπως φαίνεται. Οι μεταβάσεις που δείχνονται με "*" υποδεικνύουν ότι αυτή η

295 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 296 μετάβαση ακολουθείται με οποιοδήποτε άλλο χαρακτήρα που εμφανίζεται στη συμβολοσειρά. Ο αλγόριθμος ΚΜΡ δημιουργεί τη FSM για ένα δοσμένο πρότυπο. Η FSM μπορεί μετά να εφαρμοστεί στη συμβολοσειρά αρχίζοντας από τον πρώτο της χαρακτήρα. Για μια δοσμένη κατάσταση, ο επόμενος χαρακτήρας στη συμβολοσειρά προσδιορίζει ποια μετάβαση θα ακολουθηθεί. Η κατάσταση αποδοχής της FSM φτάνεται μόνο όταν το πρότυπο βρεθεί στη συμβολοσειρά. Στη χειρότερη περίπτωση, η FSM συμπεριφέρεται με O m n, όπου m είναι το μήκος του προτύπου και η το μήκος της συμβολοσειράς. Η φάση της προπαρασκευής για την κατασκευή της FSM είναι O m σε χώρο και χρόνο. Σχήμα 6.7 FSM για τη συμβολοσειρά ABAABA Ένας άλλος αλγόριθμος που επενδύει πάνω στην προσέγγιση του ΚΜΡ είναι ο αλγόριθμος Boyer-Moore, ή ΒΜ. Η ίδια FSM κατασκευάζεται για να αναγνωριστεί το πρότυπο αλλά το πρότυπο εφαρμόζεται στη συμβολοσειρά από τα δεξιά προς τα αριστερά. Για παράδειγμα όταν αναζητείται το πρότυπο "ΑΒΑΑΒΑ", εάν ο έκτος χαρακτήρας της συμβολοσειράς δεν είναι "Α" τότε ξέρουμε ότι το πρότυπο δεν μπορεί να βρίσκεται στη συμβολοσειρά που ξεκινά με τον πρώτο χαρακτήρα της συμβολοσειράς. Επίσης ξέρουμε ότι αν ο έκτος χαρακτήρας της συμβολοσειράς δεν είναι ούτε "Α" ούτε "Β", τότε το πρότυπο δεν υπάρχει στη συμβολοσειρά που ξεκινά από οποιονδήποτε από τους πρώτους έξι χαρακτήρες. Ο ΒΜ χρειάζεται μόνο μια σύγκριση για να το

296 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 297 εξετάσει αυτό ενώ ο ΚΜΡ θα χρειαζόταν να εξετάσει και τους έξι πρώτους χαρακτήρες. Και πάλι στη χειρότερη περίπτωση, ο ΒΜ θα απαιτήσει Ο(ηι+η) αλλά οι αναμενόμενες και καλύτερες περιπτώσεις είναι καλύτερες από αυτή. Η πραγματική απόδοση φυσικά εξαρτάται από τη συμβολοσειρά και το πρότυπο. Αν και οι ΚΜΡ και ΒΜ είναι αλγόριθμοι αναγνώρισης προτύπων, συνήθως δεν εκλαμβάνονται σαν εφαρμογές εξόρυξης γνώσης. Η αναγνώριση των προτύπων σε αυτές τις τεχνικές είναι ακριβής. Οι περισσότερες εφαρμογές ταιριάσματος προτύπων για εξόρυξη γνώσης είναι ασαφείς. Αυτό σημαίνει ότι το πρότυπο (ο αντιπρόσωπος της κλάσης) και το αντικείμενο που κατηγοριοποιείται δεν ταιριάζουν απόλυτα. Ωστόσο, όπως θα δούμε, υπάρχουν πιο προχωρημένοι αλγόριθμοι αναγνώρισης προτύπων που είναι παρόμοιοι στο ότι κάποιες γραφικές δομές κατασκευάζονται για να αναγνωρίσουν ένα πρότυπο. Σαν αποτέλεσμα, αυτές οι πραγματικές εφαρμογές εξόρυξης γνώσης έχουν βασιστεί σε προηγούμενους αλγόριθμους που δεν σχεδιάστηκαν για εξόρυξη γνώσης. Όταν εξετάζονται συμβολοσειρές, πολλές φορές είναι χρήσιμο να προσδιοριστεί η απόσταση μεταξύ μιας συμβολοσειράς και μιας άλλης. Για παράδειγμα οι ελεγκτές ορθογραφίας χρησιμοποιούν αυτή την έννοια για να προτείνουν διορθώσεις για τις λανθασμένες λέξεις. Και στην περίπτωση αυτή, οι διαδικασίες αυτές δεν εκλαμβάνονται σαν διαδικασίες εξόρυξης γνώσης αλλά οι τεχνικές μέτρησης της απόστασης που αναφέρθηκαν εδώ αποτελούν συχνά τη βάση για πιο προχωρημένες προσεγγίσεις μέτρησης της απόστασης. Ας γίνει υπόθεση ότι πρέπει να μετατραπεί η συμβολοσειρά A,... a, 1 a2 a n σε B b, 1 b2,... bm. Η βασική ιδέα είναι να προσδιοριστεί το ελάχιστο κόστος βημάτων που χρειάζονται για να γίνει η μετατροπή. Υπάρχουν τρεις λειτουργίες που μπορούν να εκτελεστούν για να μετατραπεί μια συμβολοσειρά Α σε μια άλλη Β. Ξεκινώντας από τον πρώτο χαρακτήρα σε κάθε μία, σε κάθε βήμα αναγνωρίζεται ποια λειτουργία θα πρέπει να εκτελεστεί πάνω στις Α και Β για να μετατραπεί η Α στη Β. Κάθε λειτουργία δεν ορίζει απλά τη συγκεκριμένη συνάρτηση που θα εκτελεστεί αλλά προσδιορίζει και ένα κόστος για αυτήν. Παρακάτω, θεωρείται ότι εξετάζεται το

297 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 298 a i στην Α και το b j στη Β: Ταίριασμα: Αφήνετε τα a i, και έλεγχο στην Α είναι ο ai 1 και στη Β ο b j 1 b j όπως είναι. Ο νέος χαρακτήρας για. Το κόστος της λειτουργίας αυτής είναι 0 εάν a b αλλιώς είναι. i j Διαγραφή: Διαγράφετε το a i από την Α. Το νέο μήκος της Α είναι n 1. Το κόστος της λειτουργίας αυτής είναι 1. Εισαγωγή: Εισάγετε ο χαρακτήρας b j στην Α, στη θέση a i. Όλοι οι χαρακτήρες στην Α που ακολουθούσαν το α,- μετατίθενται μια θέση προς τα κάτω και το νέο μήκος της Α είναι n 1. Ο επόμενος χαρακτήρας για έλεγχο στην Α είναι ο ai 1 και στη Β ο b j 1 για τη λειτουργία αυτή είναι 1.. To κόστος Η απόσταση μεταξύ της συμβολοσειράς Α και της Β ορίζεται τότε ως το ελάχιστο συνολικό κόστος για όλες τις λειτουργίες που χρειάζονται για τη μετατροπή. Για παράδειγμα, η απόσταση μεταξύ των catch και cat είναι 2 γιατί το c και το h πρέπει να διαγραφούν. Ομοίως, η διαφορά μεταξύ των cat και hat είναι 2 γιατί χρειάζεται να διαγραφεί το c και να εισαχθεί το h [5]. 6.5 Ακολουθίες Μια ακολουθία (sequence) είναι μια διατεταγμένη λίστα στοιχείων. Ο Ορισμός δίνει τον αυστηρό ορισμό της ακολουθίας

298 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 299 Ορισμός Έστω I I, I,..., ένα σύνολο στοιχείων, ή στοιχειοσύνολο. Μία 1 2 I m ακολουθία, S, είναι: S s, s,..., όπου s i I. 1 2 sn Όπως και με τις χρονολογικές σειρές, παρατηρείτε ότι υπάρχουν πολλοί διαφορετικοί ορισμοί για τις ακολουθίες. Ας θεωρηθεί ότι η ακολουθία μπορεί να είναι μια σειρά από ιστοσελίδες. Άλλες φορές, η ακολουθία μπορεί να θεωρηθεί ως μια διατεταγμένη λίστα από τιμές ιδιοτήτων πάνω σε κάποιο πεδίο ορισμού. Το κάθε ξεχωριστό μέλος της ακολουθίας μερικές φορές θεωρείται σαν ένα σύνολο από αντικείμενα από κάποιο υπό-πεδίο ορισμού (αλφάβητο). Μία συνήθης διαφορά είναι ότι η ακολουθία μπορεί να μην έχει σαφή σχέση με το χρόνο. Η μόνη απαίτηση είναι τα στοιχεία της ακολουθίας να είναι απολύτως διατεταγμένα. Στην πραγματικότητα, οι όροι ακολουθία και χρονολογική σειρά χρησιμοποιούνται ισοδύναμα. Στο παρόν κείμενο, χρησιμοποιούνται δύο όροι. Η βασική διαφορά μεταξύ των δύο εννοιών είναι ότι η χρονολογική σειρά είναι μια διατεταγμένη λίστα τιμών ενώ η ακολουθία είναι μια διατεταγμένη λίστα συνόλων στοιχείων ή τιμών. Το μήκος της ακολουθίας είναι το άθροισμα της πληθικότητας όλων των στοιχειοσυνόλων της ακολουθίας. Υπο-ακολουθία μιας ακολουθίας είναι αυτή που μπορεί να παραχθεί αφαιρώντας κάποια στοιχεία και κάποια κενά στοιχειοσύνολα που μπορεί να προκύψουν από την αρχική ακολουθία. Ας θεωρηθεί ότι τα στοιχεία ομαδοποιούνται σε συναλλαγές. Το χρονικό γνώρισμα προστίθεται θεωρώντας ότι ένας πελάτης μπορεί να αποκτήσει διαφορετικά στοιχεία σε διαφορετικές χρονικές στιγμές. Κάθε σύνολο στοιχείων που αποκτήθηκε από έναν πελάτη σε μια χρονική στιγμή θεωρείται μία συναλλαγή. Το Παράδειγμα 6.4 δείχνει την έννοια της ακολουθίας. Η ακολουθία των συνόλων στοιχείων που αποκτήθηκαν από έναν πελάτη λέγεται ακολουθία-πελάτη. Έστω ότι ο πελάτης C 1 έχει την ακολουθία-πελάτη { A, B},{ B, C},{ C}. H { A},{ C} είναι μια υπο-ακολουθία αυτής, ενώ η { A, C},{ B} δεν είναι. Για να είναι μια ακολουθία υπο-ακολουθία μιας άλλης θα πρέπει κάθε στοιχειοσύνολο της να είναι υποσύνολο ενός στοιχειοσυνόλου

299 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 300 της αρχικής. Επιπλέον, τα στοιχειοσύνολα θα πρέπει να διατηρούν την αρχική διάταξη. Στη συνέχεια παρουσιάζεται ένα παράδειγμα ακολουθιών. Όπως με τα παραδοσιακά σύνολα στοιχείων, για την αναπαράσταση των ακολουθιών μπορεί να δημιουργηθεί ένα πλέγμα. Το πλέγμα ακολουθιών (sequence lattice) χρησιμοποιεί τη σχέση υπό-ακολουθιών (αντί υπο-συνόλων) [60]. Τα δεδομένα στο ένα επίπεδο του πλέγματος προέρχονται από αυτά του αμέσως χαμηλότερου επιπέδου, προσθέτοντας ένα στοιχείο. Αυτό γίνεται είτε με την εισαγωγή του επιπλέον στοιχείου σε ένα υπάρχον σύνολο στοιχείων, είτε με την εισαγωγή του σαν ένα ξεχωριστό σύνολο στοιχείων σε κάποιο μέρος της ακολουθίας. Παράδειγμα 6.4 Έστω τα στοιχεία I A, B, C, D, και με την υπόθεση ότι υπάρχουν τρεις πελάτες C 1, C2 και C 3 που αποκτούν τα αντικείμενα αυτά σε ξεχωριστές χρονικές στιγμές. Ο ακόλουθος πίνακας δείχνει τις αγορές που έγιναν από κάθε πελάτη: Πελάτης Χρόνος Στοιχειοσύνολο C 10 AB 1 C 20 BC 1 C 30 D 1 C 15 ABC 2 C 20 D 2 C 15 ACD 3 Για την ακολουθία A C S,, η υποστήριξη είναι s ( S) 1/ 3 επειδή περιέχεται μόνο στο ακολουθιακό πρότυπο για τον πελάτη C 1. Η ακολουθία

300 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 301 A D T, έχει υποστήριξη s T) 2 / 3 (, ενώ η U B, C, D έχει υποστήριξη s ( U) 2 / 3. Στο ακόλουθο σχήμα παρουσιάζεται το πλέγμα συχνών ακολουθιών για αυτά τα δεδομένα με ελάχιστη τιμή υποστήριξης τα 2/3. Σχήμα 6.8 Πλέγμα συχνών ακολουθιών Αλγόριθμος AprioriAu Ο αλγόριθμος AprioriAU, είναι ένας απλός αλγόριθμος για την εύρεση ακολουθιακών προτύπων. Ο AprioriAU δουλεύει σε τρεις φάσεις: βρίσκοντας πρώτα όλα τα πιο συχνά σύνολα στοιχείων, αντικαθιστώντας έπειτα τις αρχικές συναλλαγές με αυτά τα συχνά σύνολα και,

301 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 302 βρίσκοντας τα ακολουθιακά πρότυπα. Ο αλγόριθμος αυτός. δεν έχει καλή κλιμάκωση, εν μέρει λόγω του βήματος του μετασχηματισμού. Επίσης θα ήταν δύσκολο να ενσωματωθούν επεκτάσεις όπως παράθυρα κύλισης SPADE Ο αλγόριθμος SPADE (Sequential PAttern Discovery using Equivalence classes), αναγνωρίζει τα πρότυπα με τη διάσχιση του πλέγματος από επάνω προς τα κάτω. Για να βελτιωθεί η διαδικασία, ο SPADE χρησιμοποιεί μια λίστα αναγνωριστικών που συσχετίζει τους πελάτες με τις συναλλαγές τους. Ο Πίνακας 6.1 παρουσιάζει αυτή την έννοια για το Παράδειγμα 6.5. Εδώ βλέπουμε τη λίστα αναγνωριστικών για ακολουθίες μήκους 1. Αυτό μπορεί να θεωρηθεί σαν το βασικό στοιχείο για να κατασκευαστούν μετρητές υποστήριξης για μεγαλύτερα σύνολα στοιχείων. Η υποστήριξη για μία ακολουθία μπορεί να προσδιοριστεί ελέγχοντας την τομή οποιωνδήποτε δύο από τις k 1 υπο-ακολουθίες της. Για να επιτευχθεί αυτό δημιουργούνται προσωρινές λίστες αναγνωριστικών από τις αρχικές. Για να παρουσιαστεί η διαδικασία, πρέπει να παρατηρηθεί ακολουθία T { A},{ D}. Στον Πίνακα 6.1 παρατηρείται ότι η {A} παρουσιάζεται 3 φορές, όπως άλλωστε και η {D}. Από το Παράδειγμα 6.4, η T { A},{ D} παρουσιάζεται 2 φορές. Για να προκύψει αυτό, δημιουργείται μια λίστα αναγνωριστικών για την T προσδιορίζοντας την τομή για τις δύο υπο-ακολουθίες. Πελάτης Χρόνος C 1 10 C 2 15

302 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 303 Σημειώνετε ότι η τομή πρέπει να λαμβάνει υπόψη το χρόνο. Έτσι, η T εμφανίζεται 2 φορές, με υποστήριξη 2/3. Η παρατήρηση αυτή χρησιμοποιείται από τον SPADE για την μέτρηση των ακολουθιών και τον προσδιορισμό της υποστήριξης. Το πλέγμα μπορεί να διασχιστεί για να κατασκευαστεί η λίστα αναγνωριστικών για τις ακολουθίες υψηλότερου επιπέδου με την τομή δύο υπο-ακολουθιών στο αμέσως χαμηλότερο επίπεδο. Το πρόβλημα εδώ είναι ότι μπορεί να μην υπάρχει αρκετή μνήμη για να εκτελεστεί εκεί όλη η διαδικασία. Πίνακας 6.1 Λίστες Αναγνωριστικών για τις Ακολουθίες μήκους 1 A B C D Πελάτης Χρόνος Πελάτης Χρόνος Πελάτης Χρόνος Πελάτης Χρόνος C 1 10 C 1 10 C 1 20 C 1 30 C 2 15 C 1 20 C 2 15 C 2 20 C 3 15 C 2 15 C 3 15 C 3 15 Για την αντιμετώπιση του προβλήματος του χώρου, το πλέγμα διαιρείται σε δύο μέρη και αυτά τα μέρη διασχίζονται ανεξάρτητα. Αυτό μειώνει τις απαιτήσεις σε μνήμη μειώνοντας τον αριθμό των λιστών αναγνωριστικών που πρέπει να φυλάσσονται μια χρονική στιγμή. Για να επιτευχθεί αυτό, εφαρμόζεται η ιδέα των κλάσεων ισοδυναμίας. Ένα πρόθεμα μήκους k μπορεί να οριστεί από τα πρώτα k στοιχεία (και τη σχετική διάταξη) της ακολουθίας. Δοθείσης μιας ακολουθίας S, το πρόθεμα μήκους k της S συμβολίζεται ως S k D p,. Στο Παράδειγμα 6.5 παρουσιάστηκε η ακολουθία U B, C,. Η ακολουθία αυτή είναι μια 3-ακολουθία επειδή έχει μήκος 3. Έχει ένα πρόθεμα μήκους 2 του B, C, όπως συμβαίνει και με μια άλλη 3- ακολουθία, την W B, C, D. Η k είναι μια σχέση ισοδυναμίας. Όπως φαίνεται στον Ορισμό, δύο ακολουθίες είναι k ισοδύναμες αν έχουν ταυτοτικά ίσα προθέματα μήκους L Έτσι, βλέπουμε ότι η U είναι ισοδύναμη με τη W, και αυτό συμβολίζεται ως U W mod. Εάν έχουμε τις λίστες αναγνωριστικών των U και W με τους μετρητές τους μπορούμε να βρούμε το συνολικό μετρητή. 2

303 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 304 Ορισμός Δύο ακολουθίες S και T είναι ισοδύναμες, S T S k pt k p,,. mod, αν και μόνο αν Για τη διαμέριση του πλέγματος συχνών ακολουθιών αναζητούμε ακολουθίες σε μια κλάση ισοδυναμίας κλάσεις ισοδυναμίας A 1 B 1, C 1, D 1 k. Στο Σχήμα 6.10 είναι προσδιορισμένες οι,. Η υποστήριξη για τις ακολουθίες σε κάθε υπο-πλέγμα μπορεί να προσδιοριστεί με την τομή των λιστώναναγνωριστικών για δύο ακολουθίες στο χαμηλότερο επίπεδο. Η διαμέριση του πλέγματος μπορεί να επιτευχθεί με οποιαδήποτε κλάση ισοδυναμίας k k. Εάν ο αριθμός των κλάσεων για την κλάση 1 είναι πολύ μεγάλος (δηλαδή ο αριθμός των λιστών-αναγνωριστικών δε χωράει στη μνήμη), τότε μπορεί να χρησιμοποιηθεί μια μεγαλύτερη τιμή για το 1. Το Σχήμα 6.9 δείχνει το πλέγμα 1. Σχήμα 6.9 Θ 1 κλάσεις ισοδυναμίας για το πλέγμα του Σχήματος 6.8

304 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 305 Ο Αλγόριθμος δείχνει τα βήματα του SPADE. Για την απαρίθμηση των συχνών ακολουθιών σε κάθε κλάση ισοδυναμίας μπορεί να εφαρμοστεί αναζήτηση (bretdth-first) ή (depth-first). Το πρώτο βήμα είναι η εύρεση των συχνών 1-ακολουθιών. Αυτό γίνεται με την ανάγνωση των λιστώναναγνωριστικών στη μνήμη και μετρώντας την υποστήριξη για κάθε πελάτη. Στη συνέχεια με την τομή των λιστών-αναγνωριστικών των 1-ακολουθιών μπορούν να βρεθούν οι συχνές 2-ακολουθίες. Μια άμεση προσέγγιση για αυτό είναι να κοιτάξουμε όλους τους πιθανούς συνδυασμούς. Οι συγγραφείς του αλγορίθμου έχουν προτείνει βελτιώσεις σε αυτή τη απλοϊκή τεχνική. Κατόπιν, μπορούν να καθοριστούν οι κλάσεις ισοδυναμίας,, για τη 1. Ο SPADE βρίσκει επιτυχώς όλες τις συχνές ακολουθίες με μόνο τρία περάσματα της βάσης και έχει δειχθεί ότι έχει καλύτερη απόδοση από άλλους αλγορίθμους αναγνώρισης συχνών ακολουθιών. 6.6 Κανόνες Χρονικών Συσχετίσεων Με τους παραδοσιακούς κανόνες συσχετίσεων, μία συναλλαγή μπορεί να παρασταθεί ως εξής: TID, CID, I, I,..., 1 n Im όπου TID είναι το αναγνωριστικό της συναλλαγής, CID είναι το αναγνωριστικό του πελάτη και I, I n,..., I 1 m είναι τα στοιχεία της συναλλαγής. Σε μια χρονική βάση δεδομένων, μία συναλλαγή μπορεί να παρασταθεί ως εξής: TID CID, I, I,..., I, t, t, 1 n m s e όπου t s, t e είναι το χρονικό διάστημα εγκυρότητας της συναλλαγής. Εάν

305 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 306 επρόκειτο για συναλλαγή ενός καταστήματος λιανικής, t t θα ήταν το s e χρονικό σημείο που θα πραγματοποιούταν η συναλλαγή. Εναλλακτικά, εάν η συναλλαγή αναφερόταν σε προϊόντα που έχουν παραγγελθεί από το Internet, t s θα ήταν η στιγμή που θα γινόταν η παραγγελία, ενώ t e θα μπορούσε να είναι ο πραγματικός χρόνος που θα γινόταν η παράδοση. Έτσι t s, t e θα ήταν το χρονικό διάστημα που η συναλλαγή θα ήταν ενεργή. Από τη στιγμή που προστίθεται το χρονικό στοιχείο στη βάση, μπορεί να βρεθούν διαφορετικοί κανόνες συσχετίσεων για διαφορετικές χρονικές στιγμές ή χρονικά διαστήματα. Αυτό είναι παρόμοιο με την ιδέα του συνδυασμού της συσταδοποίησης και των κανόνων συσχετίσεων στο χώρο της εξόρυξης γνώσης από βάσεις χωρικών δεδομένων. Η αναλογία στην εξόρυξη γνώσης από χρονικές βάσεις είναι να χωριστούν τα δεδομένα σε συστάδες βάσει του χρόνου και στη συνέχεια να οριστούν οι κανόνες συσχέτισης. Αυτό μπορεί να γίνει για να ερευνηθεί η αλλαγή των κανόνων συσχέτισης με το πέρασμα του χρόνου, να ανακαλυφθούν οι εποχιακούς κανόνες συσχέτισης και να ανακαλυφθούν κανόνες που δε φαίνονται κοιτώντας ένα μεγάλο σύνολο δεδομένων. Για παράδειγμα ένα κατάστημα λιανικής μπορεί να αναζητά κανόνες συσχέτισης για την περίοδο ενός ολόκληρου έτους. Εντούτοις, με τον τρόπο αυτό δεν θα φανούν στοιχεία που έχουν μεγάλη ζήτηση σε συγκεκριμένες στιγμές του έτους. Η σημασία αυτής της έννοιας φαίνεται από το γεγονός ότι πολλά καταστήματα διαθέτουν ολόκληρες πτέρυγες αφιερωμένες στην πώληση εποχιακών ειδών. Όταν εισάγεται η έννοια του χρόνου στους κανόνες συσχετίσεων μπορεί να προκύψουν διάφοροι τύποι κανόνων. Μερικοί από τους τύπους αναλύονται παρακάτω Κανόνες συσχετίσεων δια-συναλλαγών Οι κλασσικές προσεγγίσεις κανόνων συσχετίσεων εστιάζουν μόνο σε στοιχεία που εμφανίζονται μαζί σε μία συναλλαγή. Αυτοί μπορεί να θεωρηθούν κανόνες συσχετίσεων ενδο-συναλλαγής (intratransaction association rules).

306 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 307 Εντούτοις, υπάρχουν κάποιες περιπτώσεις που προκύπτουν κανόνες συσχετίσεων μεταξύ συναλλαγών. Για παράδειγμα, ένα διευθυντικό στέλεχος ενός καταστήματος ηλεκτρονικών μπορεί να θέλει να γνωρίζει εάν οι πελάτες αγοράζουν λογισμικό υπολογιστών αφού έχουν αγοράσει υπολογιστή. Αυτές οι αγορές μπορεί να βρίσκονται σε συναλλαγές που πραγματοποιήθηκαν σε διαφορετικές χρονικές στιγμές. Για τον ορισμό των κανόνων αυτών χρησιμοποιείται η έννοια του "παραθύρου" στην βάση συναλλαγών. Το βασικό πρόβλημα κανόνων συσχετίσεων θεωρεί την ύπαρξη ενός συνόλου αντικειμένων I I, I,..., και μίας βάσης συναλλαγών D t, t,..., 1 2 I m 1 2 t n όπου t i Ii1, Ii2,..., I και I ij I.. Γίνεται υπόθεση ότι κάθε συναλλαγή t i ik σχετίζεται με μία τιμή d i που μπορεί να είναι χρόνος, τόπος ή κάποια άλλη πληροφορία που περιγράφει τη συναλλαγή. Επιπλέον γίνεται υπόθεση ότι η πληροφορία αυτή είναι ο χρόνος, έτσι d i είναι η χρονική στιγμή που πραγματοποιείται η συναλλαγή. Αν και στην αρχική πρόταση [61] ως d θα μπορούσε να είναι οποιοδήποτε τακτικό γνώρισμα για να απλοποιηθεί η παρουσίαση εδώ, γίνεται αναφορά σε ακέραιους που παριστάνουν το χρόνο. Θεωρείται ένα παράθυρο κύλισης. Το διάστημα μεταξύ δύο συναλλαγών t j και t k είναι d d j i. Ο μέγιστος αριθμός συναλλαγών που θα περικλείονται στο παράθυρο, w, δίνεται σαν παράμετρος εισόδου Κανόνες Επεισοδίων Ένας κανόνας επεισοδίων (episode rule) είναι μια γενίκευση των κανόνων συσχετίσεων, εφαρμοσμένη σε ακολουθίες γεγονότων. Μία ακολουθία γεγονότων (event sequence), S, είναι μία διατεταγμένη λίστα γεγονότων, καθένα από τα οποία συμβαίνει σε συγκεκριμένο χρόνο. Μπορεί λοιπόν να θεωρηθεί σαν μία ειδική περίπτωση χρονολογικής σειράς. Ένα επεισόδιο (episode) είναι ένα σύνολο από κατηγορήματα, A, και μια μερική διάταξη,

307 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 308 στα γεγονότα στο A :{ A, }. Ένα κατηγόρημα γεγονότος είναι ένα κατηγόρημα που μπορεί να οριστεί ως αληθές ή ψευδές όταν εφαρμόζεται σε ένα συγκεκριμένο γεγονός Ένα επεισόδιο μπορεί να παρασταθεί σαν ένας κατευθυνόμενος γράφος όπου οι κορυφές του είναι τα γεγονότα και οι ακμές του παριστάνουν την μεταξύ τους διάταξη. Ένα επεισόδιο B καλείται υποεπεισόδιο (subepisode) του A εάν ο γράφος του B είναι υπο-γράφο: του A. Μία ακολουθία γεγονότων, S, περιέχει ένα επεισόδιο εάν όλα τα κατηγορήματα προειδοποίησης (alarm predicates) ικανοποιούνται στο S και αυτά τα γεγονότα ικανοποιούν τη μερική διάταξη. Ένας αυστηρός ορισμός του κανόνα επεισοδίων είναι ο Ορισμός. Όπως και με τους κανόνες συσχέτισης, μπορεί να οριστεί η υποστήριξη και εμπιστοσύνη στους κανόνες επεισοδίων. Ορισμός Ένας κανόνας επεισοδίων είναι μια συνεπαγωγή της μορφής B και A είναι επεισόδια και το B είναι υπο-επεισόδιο του A. B A όπου τα Μία σημαντική εφαρμογή στα δίκτυα είναι η πρόβλεψη της αποτυχίας ενός κόμβου Οι κανόνες επεισοδίων μπορεί να χρησιμοποιηθούν για να βοηθήσουν στην επίλυση του προβλήματος αυτού. Εάν ήταν δυνατό να γίνει πρόβλεψη επακριβώς μια αποτυχία τότε μπορεί να αντικατασταθεί ένας κόμβος πριν συμβεί η αποτυχία. Όταν παρατηρηθεί από τη σκοπιά προβλήματος εξόρυξης χρονικής γνώσης γίνεται πρόβλημα πρόβλεψης ενός γεγονότος (της αποτυχίας) βασισμένης σε μια ακολουθία προηγούμενων γεγονότων. Αυτά τα γεγονότα μπορεί να θεωρηθούν σαν το μέγεθος της κίνησης που περνά από τον κόμβο ή μηνύματα προειδοποίησης (μηνύματα που παράγονται από μία οντότητα του δικτύου και περιγράφουν συνήθως ένα πρόβλημα). Ένα μήνυμα προειδοποίησης (alarm) μπορεί να θεωρηθεί μια τριάδα t, s, m όπου t είναι ο χρόνος που συνέβη το μήνυμα προειδοποίηση;. s είναι ή προέλευση του μηνύματος και m είναι το ίδιο το μήνυμα. Η ακολουθία των μηνυμάτων προειδοποίησης μπορεί να θεωρηθεί σαν μία χρονολογική σειρά. Οι παρακάτω τεχνικές προπαρασκευής μπορούν να χρησιμοποιηθούν για να πραγματοποιηθούν κάποιες από τις παρακάτω λειτουργίες [62]:

308 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 309 Αφαίρεση των περιττών μηνυμάτων προειδοποίησης. Αφαίρεση των μηνυμάτων προειδοποίησης χαμηλότερης προτεραιότητας εάν υπάρχουν μηνύματα υψηλής προτεραιότητας. Αντικατάσταση κάποιων μηνυμάτων είτε με νέα πληροφορία ή ίσως με μηνύματα υψηλότερης προτεραιότητας. Ένα πρότυπο στατιστικής συσχέτισης (correlation pattern) χρησιμοποιείται για να ταιριάξει στις ακολουθίες που βρέθηκαν στα σήματα ειδοποίησης. Το πρότυπο αυτό μπορεί να συγκριθεί με σήματα ειδοποίησης που έχουν συμβεί σε ένα συγκεκριμένο παράθυρο στο χρόνο. Εάν η ακολουθία των σημάτων ταιριάξει σε ένα πρότυπο συσχέτισης, τότε πραγματοποιείται μία σχετική ενέργεια συσχέτισης (correlation action). Έχουν προταθεί δύο διαφορετικές προσεγγίσεις για την εύρεση κανόνων επεισοδίων. Η μία προσέγγιση, που ονομάζεται WINEPI, εφαρμόζει ένα παράθυρο στα γεγονότα. Δοθείσης μίας ακολουθίας, S, το παράθυρο είναι ένα άνοιγμα στο χρόνο t, t που ορίζει μία υποσειρά της S, εκείνα δηλαδή s e τα γεγονότα (σε διάταξη) που συμβαίνουν μέσα στο χρονικό παράθυρο. Δοθέντος ενός επεισοδίου B, το σύνολο των υποσειρών του B που εμφανίζονται σε όλα τα παράθυρα μεγέθους W αναφέρεται ως B W. To παράθυρο μπορεί να χρησιμοποιηθεί για να οριστεί υποστήριξη και εμπιστοσύνη, όπως φαίνεται στους Ορισμούς παρακάτω. Η υποστήριξη είναι το ποσοστό των παραθύρων στα οποία έχει εμφανιστεί το επεισόδιο-στόχος. Ορισμός Δοθέντος ενός συνόλου υποσειρών, S W, ενός επεισοδίου S, όπως ορίζεται από ένα παράθυρο W, η υποστήριξη ενός επεισοδίου B, ποσοστό των υποσειρών στο B W που έχουν το S σαν υπο-επεισόδιο. s B, είναι το

309 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 310 Ορισμός Η εμπιστοσύνη, a,ενός κανόνα επεισοδίου υποστήριξης του A προς την υποστήριξη του B και ισούται με: B A είναι ο λόγος της s( A). s( B) Εξαρτήσεις Τάσεων Οι εξαρτήσεις τάσεων (trend dependencies) μοιάζουν με τους κανόνες συσχετίσεων στο ότι συγκρίνουν τιμές γνωρισμάτων, αλλά το κάνουν αυτό στην πορεία του χρόνου. Για παράδειγμα, μπορεί να παρατηρηθεί ότι ο μισθός ενός υπαλλήλου πάντα αυξάνει με το πέρασμα του χρόνου. Ένας ακριβής ορισμός είναι ο Ορισμός. Σημειώνετε ότι ο ορισμός δεν αναφέρει σαφώς ότι οι δύο καταστάσεις της βάσης δεδομένων πρέπει να διαφέρουν χρονικά. Φυσικά, αυτό αποτελεί δική μας υπόθεση εδώ, αλλά στη γενική περίπτωση δεν είναι απαραίτητο. Για να προστεθεί η χρονική διάσταση, υποθέτουμε ότι το πρότυπο στην αριστερή μεριά της εξάρτησης είναι έγκυρο σε προηγούμενη χρονική στιγμή από ότι το πρότυπο στη δεξιά μεριά της εξάρτησης. Ορισμός Έστω R ένα σχήμα που περιέχει τα γνωρίσματα A 1 A,..., A το πεδίο, 2 m ορισμού κάθε γνωρίσματος A i πρέπει να είναι ένα πλήρως διατεταγμένο σύνολο. Ένα πρότυπο πάνω στο R είναι ένα σύνολο A, A,,...,, 1, όπου 1 i, j m, A i Aj και i {,,,,, }., A m m Ορισμός Έστω R ένα σχήμα που παρέχει τα γνωρίσματα πλειάδων 1,t2 A 1 A,..., A. Ένα ζεύγος t ικανοποιούν το πρότυπο A, A,,...,, t1( Ai ) it2( Ai )1 i m., 2 m 1, A m m εάν

310 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 311 Ορισμός Μία εξάρτηση τάσης είναι μια συνεπαγωγή της μορφής Y είναι πρότυπα στο σχήμα R. X Y όπου τα X και Μία εξάρτηση τάσης, όπως ένας κανόνας συσχέτισης, μπορεί να έχει υποστήριξη και εμπιστοσύνη. Για παράδειγμα, δε θα ήταν ενδιαφέρον για μια εξάρτηση τάσης που αφορά στους μισθούς εάν αλήθευε σπάνια. Ορισμός Δοθεισών δύο σχέσεων I 1, I 2 στο σχήμα R, η υποστήριξη ( s ) μία: εξάρτησης τάσης X Y είναι το ποσοστό των ζευγών πλειάδων στο I1 I 2 που ικανοποιεί και τα δύο πρότυπα X και Y. Εάν I I 0, τότε s Ορισμός Δοθεισών δύο σχέσεων I 1, I 2, στο σχήμα R, η εμπιστοσύνη ( a ) μία; εξάρτησης τάσης X Y είναι ο λόγος του αριθμού των ζευγών πλειάδων στο I1 I 2 που ικανοποιεί και τα δύο πρότυπα X και Y προς τον αριθμό αυτών που ικανοποιούν το X. Εάν ο αριθμός αυτών που ικανοποιούν το X είναι 0, τότε a 0. Το Παράδειγμα 6.6, δείχνει μια εξάρτηση τάσης. Εδώ υπάρχουν δύο καταστάσεις βάσης δεδομένων: I 1 6 και I 6. Έτσι I1 I 2 = Επίσης, X=(SSN, =) και Y=(Salary, <). Το πλήθος των ζευγών στο I1 I 2, που ικανοποιούν και τα δύο πρότυπα είναι 4. Οι πλειάδες που ικανοποιούν το X είναι 5 Άρα, a % και S %.

311 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 312 Παράδειγμα 6.6 Έστω ότι έχουμε τα δεδομένα του Παραδείγματος 6.1 για όλους τους υπαλλήλους της XYZ. Αντί όμως να τα δούμε σαν ένα πίνακα, θέλουμε να τα δούμε σαν τρία διαφορετικά στιγμιότυπα: I 1, I 2 και I 3. Το I 1 περιέχει έγκυρα δεδομένα για τη χρονική στιγμή 12/02/2002 το I 2 περιέχει έγκυρα δεδομένα για τη χρονική στιγμή 12/08/2002 και το I 3 περιέχει έγκυρα δεδομένα για τη χρονική στιγμή 10/12/2002. Μία τάση που μπορεί να παρατηρηθί (τουλάχιστον για τον Joe Smith) είναι ότι ο μισθός των υπαλλήλων πάντοτε αυξάνει με τ πέρασμα του χρόνου. Αυτή η τάση μπορεί να παρασταθεί ως εξής: ( SSN ) ( salary, ) Δοθεισών δύο πλειάδων t1 I1 και 2 I 2 Salary t Salary t 2 t, εάν t SNN t SSN 2 1 τότε 1. Αυτό ισχύει για δύο καταστάσεις της βάσης όπου η δεύτερη κατάσταση είναι. σε μετέπειτα χρονική στιγμή. Οι παρακάτω πίνακες δείχνουν τα I 1 και I 2. Name SSN Address Salary Joe Smith Moss Haven 50,000 Mary Jones Main 75,000 Bill Adams North 100,000 Selena Shepherd Georgetown 15,0000 Paul Williams East 250,000 Martha Laros Fox 150,000 Για αυτές τις δύο καταστάσεις, η εμπιστοσύνη και η υποστήριξη του X Y είναι a % και S %.

312 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 313 Οι εξαρτήσεις τάσεων ορίζονται μόνο σε δύο καταστάσεις της βάσης. Δεν γενικεύονται εύκολα σε περισσότερες καταστάσεις. Όπως και με τους κανόνες συσχέτισης, μπορεί να δηλωθεί ένα πρόβλημα εξάρτησης τάσης όπως αυτό της εύρεσης όλων των εξαρτήσεων τάσεων με δεδομένες ελάχιστες τιμές υποστήριξης και εμπιστοσύνης σε δύο καταστάσεις της βάσης δεδομένων. Η πολυπλοκότητα του προβλήματος στη χειρότερη περίπτωση είναι αρκετά υψηλή. Υπάρχουν D δυνατοί συνδυασμοί γνωρισμάτων και πράξεων. Εδώ το Θ είναι το σύνολο των πράξεων και D είναι ο αριθμός των πιθανών ζευγών γνωρισμάτων. Στο παράδειγμα, αυτό που προκύπτει είναι 616. Προφανώς, δεν προτείνεται εξαντλητική αναζήτηση. Στην πραγματικότητα, έχει δειχτεί ότι το γενικό πρόβλημα είναι ΝΡ-πλήρες. Όταν το σύνολο των πράξεων περιορίζεται στο {<, =, >} γίνεται πολυωνυμικό και έχει προταθεί ένας αποτελεσματικός αλγόριθμος στην εργασία Κανόνες Συσχέτισης Ακολουθιών Μπορούν να χρησιμοποιηθούν ακολουθίες κανόνων οι οποίες αποκαλούνται κανόνες συσχέτισης ακολουθιών (sequence association rules). Ορισμός Δοθέντος ενός συνόλου στοιχείων I I I,..., 1, 2 I m και ενός συνόλου συναλλαγών ομαδοποιημένων ανά πελάτη σε ακολουθίες-πελατών, ένας κανόνας συσχέτισης ακολουθιών είναι μία συνεπαγωγή της μορφής όπου S και T είναι ακολουθίες. S T Ορισμός Η υποστήριξη ( s ) για ένα κανόνα συσχέτισης ακολουθιών S T είναι το ποσοστό των πελατών (ακολουθιών πελατών) που περιέχουν τις S και T.

313 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 314 Ορισμός Η εμπιστοσύνη ( a ) για ένα κανόνα συσχέτισης ακολουθιών S T είναι ο λόγος του αριθμού των πελατών (ακολουθιών πελατών) που περιέχουν και τις δύο ακολουθίες S και T προς τον αριθμό αυτών που περιέχουν την S. Όπως και με τους κλασσικούς κανόνες συσχέτισης, μπορεί να οριστεί το πρόβλημα του κανόνα συσχέτισης ακολουθιών ως την εύρεση των κανόνων συσχέτισης ακολουθιών με κάποια ελάχιστη τιμή υποστήριξης και εμπιστοσύνης. Υπάρχουν πολλές εφαρμογές που μπορούν να εφαρμοστούν οι κανόνες συσχέτισης ακολουθιών. Στο πεδίο του καλαθιού αγορών, η αγοραστική συμπεριφορά στην πάροδο του χρόνου μπορεί να χρησιμοποιηθεί για την πρόβλεψη μελλοντική συμπεριφορά. Αυτό μπορεί να εφαρμοστεί για κατευθυνόμενη διαφήμιση στους πελάτες που ακολουθούν τον πρώτο τύπο συμπεριφοράς (στο αριστερό μέρος του κανόνα). Σημειώνετε ότι προβλέπετε πρότυπα αγοραστικής συμπεριφοράς στο χρόνο και όχι μόνο σε μία συναλλαγή. Ένα παράδειγμα κανόνων συσχέτισης ακολουθιών υπάρχει στο Παράδειγμα 6.7. Ο αλγόριθμος SPADE, που αναφέρθηκε ήδη, μπορεί να χρησιμοποιηθεί για να βρεθούν συχνές ακολουθίες και αυτές οι ακολουθίες μπορούν τότε να χρησιμοποιηθούν για να λυθεί το πρόβλημα του κανόνα συσχέτισης ακολουθιών. Παράδειγμα 6.7 Χρησιμοποιώντας τα δεδομένα του παραδείγματος 6.5 μπορούν να δημιουργηθούν οι παρακάτω κανόνες συσχέτισης ακολουθιών: Κανόνας Υποστήριξη Εμπιστοσύνη { A},{ C}) ({ A},{ D} 1/3 1 { B, C},{ D}) ({ A},{ C} 1/3 1/2

314 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης Ημερολογιακοί Κανόνες Συσχετίσεων Στους ημερολογιακούς κανόνες συσχετίσεων (calendric association rules), όπως ορίζοντα, στον Ορισμό, θεωρείται ότι κάθε συναλλαγή, t i, σχετίζεται με μία χρονοσφραγίδα, t is το χρόνο που εκτελείται. Επιπλέον, ο χρόνος θεωρείται ότι χωρίζεται σε προκαθορισμένες μονάδες, t. Ένα χρονικό διάστημα, k, ορίζεται από το εύρος kt k 1t. k,, εάν kt tis k 1t D είναι το υποσύνολο των συναλλαγών που συμβαίνουν στο χρονικό διάστημα k. Η υποστήριξη ενός στοιχειοσυνόλου, X στο συναλλαγών το X Y στο k περιέχουν το D k, είναι το ποσοστό των D k που περιέχουν το X. Η εμπιστοσύνη του κανόνα D, είναι ο λόγος του αριθμού των συναλλαγών του k D που X Y προς τον αριθμό αυτών που περιέχουν το X. Το Παράδειγμα 6.8 δείχνει τη χρήση ημερολογιακών κανόνων συσχέτισης. Εδώ η χρονική μονάδα είναι η ημέρα. Σημειώνετε, εντούτοις, ότι τα ίδια δεδομένα μπορεί να χρησιμοποιηθούν σε ημερολογιακούς κανόνες συσχέτισης όπου η χρονική μονάδα είναι διαφορετική: ώρα, μήνας, χρόνος κλπ. Ορισμός Δοθέντος ενός στοιχειοσυνόλου I I I,..., t t n 1, 2 I m,ενός συνόλου συναλλαγών D t,...,, μιας χρονικής μονάδας k, και ενός ημερολογίου 1, 2 s e,..., C 1, 1 s k, e k, ένας ημερολογιακός κανόνας συσχέτισης είναι ένας κανόνας συσχέτισης, X Y, που συμβαίνει στο D k. Παράδειγμα 6.8 Γίνεται υπόθεση ότι ένα κατάστημα λιανικής πώλησης θέλει να αποκτήσει πληροφορίες σχετικά με τις πωλήσεις για μία συγκεκριμένη ημέρα. Στην περίπτωση αυτή η χρονική μονάδα είναι η ημέρα (περίοδος 24 ωρών). Ο διευθυντής του ενδιαφέρεται να βρει κανόνες συσχετίσεων στο χρονικό αυτό

315 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 316 πλαίσιο που να έχουν μία ελάχιστη τιμή υποστήριξης και εμπιστοσύνης. Ο διευθυντής ενδιαφέρεται επίσης για κανόνες συσχετίσεων που ικανοποιούν την ελάχιστη υποστήριξη και εμπιστοσύνη για όλες εκτός από πέντε ημέρες σε μία εποχή. Κατά τη διάρκεια του έτους 2001, ο διευθυντής ορίζει δύο χρονικά διαστήματα κοιτώντας τις ημέρες του χειμώνα όπως ορίζονται στο ημερολόγιο: {(1, 79), (355, 365)}. Υπάρχουν 90 μονάδες χρόνου (ημέρες) στο ημερολόγιο αυτό. Με όριο 5 αστοχίες, ο διευθυντής ενδιαφέρεται μόνο για κανόνες συσχετίσεων που ικανοποιούν την ελάχιστη υποστήριξη και εμπιστοσύνη σε τουλάχιστον 85 από τις ημέρες του χειμώνα. Θα μπορούσε κανείς να φανταστεί κάποιον συμβατικό αλγόριθμο κανόνων συσχετίσεων, όπως για παράδειγμα τον Apriori, να εφαρμόζεται σε ένα υποσύνολο του D που παράγεται βρίσκοντας όλες τις συναλλαγές που συμβαίνουν σε ένα συγκεκριμένο χρονικό διάστημα. Εντούτοις, το πρόβλημα μπορεί να είναι πιο γενικό, όπως για παράδειγμα η εύρεση όλων των ημερολογιακών κανόνων συσχετίσεων που συμβαίνουν σε οποιοδήποτε χρονικό διάστημα (ή σε ένα σύνολο διαστημάτων). Αυτό μπορεί να χρησιμοποιηθεί για να καθοριστούν σημαντικοί κανόνες συσχέτισης σε οποιαδήποτε ημέρα ή χρονική περίοδο (όχι μόνο μία). Θεωρείται ότι ένα συγκεκριμένο ημερολόγιο ορίζεται με πολλές πιθανές χρονικές διαβαθμίσεις. Το πιο γενικό πρόβλημα τότε είναι η εύρεση όλων των ημερολογιακών κανόνων συσχετίσεων που ισχύουν για αυτό το ημερολόγιο. Για ένα ημερολόγιο που αποτελείται από χρονικά διαστήματα και για μια χρονική μονάδα, μπορούν να οριστούν διάφορες εμφανίσεις της χρονικής μονάδας στο κάθε χρονικό διάστημα. Στο Παράδειγμα 6.8 αυτή η χρονική μονάδα είναι η ημέρα, αλλά τα διαστήματα είναι οι εποχές που αποτελούνται από ημέρες των τεσσάρων εποχών. Ένας κανόνας συσχέτισης μπορεί να ικανοποιεί την ελάχιστη υποστήριξη και εμπιστοσύνη για κάποιες χρονικές μονάδες. Έτσι, χρησιμοποιείται ένα επιπλέον όριο, τη, για να δείξει τον αριθμό των χρονικών μονάδων στα διαστήματα του ημερολογίου στα οποία δεν ισχύει ο κανόνας συσχέτισης. Ένα ημερολόγιο ανήκει σε έναν κανόνα συσχέτισης X Y εάν υπάρχουν το πολύ m αστοχίες. Έχει προταθεί ένας αλγόριθμος

316 5 ο Κεφάλαιο Εξόρυξη Χρονικής Γνώσης 317 ημερολογιακών κανόνων συσχέτισης που παίρνει σαν είσοδο ένα σύνολο από πιθανά ημερολόγια και μία χρονική μονάδα. Πρώτα βρίσκει συχνά στοιχειοσύνολα σε όλες τις χρονικές μονάδες και μετά καθορίζει ποια ημερολόγια ανήκουν σε ποιους κανόνες συσχετίσεων.

317 7 ο Κεφάλαιο Τεχνικές οπτικής παρουσίασης των μοντέλων εξόρυξης δεδομένων 7.1 Η χρησιμότητα των τεχνικών οπτικής παρουσίασης Η διαδικασία KDD εμπλέκει μοντέλα τόσο για την ανάλυση των πληροφοριών όσο και για την εξόρυξη γνώσης από τις βάσεις δεδομένων, έχοντας ως επακόλουθο πολύπλοκα αποτελέσματα. Πολλές φορές μάλιστα η διαδικασία έχει να κάνει με συσχετισμένη πληροφόρηση μεταξύ γνωστών και μη γνωστών παραγόντων, τότε η μελέτη των αποτελεσμάτων και η απόδοσή τους σε επιχειρησιακά δεδομένα εμπεριέχει μεγάλο βαθμό δυσκολίας. Η οπτική παρουσίαση των αποτελεσμάτων των μοντέλων εξόρυξης δεδομένων αποσκοπεί ακριβώς στην ευκολότερη κατανόηση των αποτελεσμάτων [7]. Επιπλέον η χρησιμοποίηση τέτοιων τεχνικών βοηθά σημαντικά στην απόκτηση της εμπιστοσύνης του χρήστη. Για παράδειγμα, μετά από τη μελέτη των αποτελεσμάτων εξόρυξης γνώσης, ο διευθυντής έργου αποφασίζει ότι απαιτούνται 3 μήνες για την ολοκλήρωση ενός έργου. Εφόσον αυτός χρησιμοποιήσει μια τεχνική οπτικής παρουσίασης των αποτελεσμάτων με τρόπο ευπαρουσίαστο και ευκολονόητο, τότε θα είναι ευκολότερο για αυτόν να κερδίσει την εμπιστοσύνη του ανώτερου διευθυντή.

318 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 319 Συμπερασματικά, κάθε εργαλείο εξόρυξης δεδομένων θα πρέπει να έχει αρχικά τη δυνατότητα της γραφικής παρουσίασης των αποτελεσμάτων της ανάλυσης των δεδομένων και σε δεύτερο επίπεδο να επιτρέπει στο χρήστη τη δυναμική επίδραση πάνω στο γράφημα, με σκοπό την απάντηση απλών ερωτημάτων αλλά και την προβολή στατιστικών στοιχείων μεγαλύτερης λεπτομέρειας. Τα αποτελέσματα μπορεί να είναι ιδιαίτερα πολύπλοκα, οι συνδυασμοί υπερβολικά πολλοί και να έχουν γενικά δύσκολα παρουσιάσιμη δομή. Στη συγκεκριμένη περίπτωση απαιτείται οι τεχνικές αυτές να χαρακτηρίζονται από σωστή δομή και να παρουσιάζουν τα αποτελέσματα με απλό και ευνόητο τρόπο, για να αποφεύγονται λανθασμένα αποτελέσματα, μιας και αυτά παράγονται από πολύ μεγάλες βάσεις δεδομένων. Δυστυχώς κάποιες φορές τα αποτελέσματα δεν είναι αξιόπιστα και μπορούν να θεωρηθούν ακόμη και παραπλανητικά. Ωστόσο, αυτό το γεγονός δεν οφείλεται συνήθως στον αλγόριθμο εξόρυξης δεδομένων ούτε στις τεχνικές οπτικής παρουσίασης των αποτελεσμάτων αλλά στην παράκαμψη ή σε εσφαλμένη ενεργοποίηση κάποιου βήματος της διαδικασίας της KDD, όπως είναι ο καθαρισμός των δεδομένων. 7.2 Οι Αρχές και οι Κανόνες Ο σκοπός της εξόρυξης δεδομένων είναι να δώσει στον χρήστη ένα κατανοητό αποτέλεσμα, τέτοιο που να δίνει πληροφορίες σχετικά με τις τάσεις και τις συσχετίσεις που υπάρχουν κρυμμένες μέσα στις βάσεις δεδομένων. Αυτή η διαδικασία είναι πολύπλοκη τόσο για την εύρεση πληροφορίας όσο και για την παρουσίασή της. Επιπλέον, η μη γνώση των πιθανών αποτελεσμάτων όσον αφορά τον χρήστη, οδηγεί πολύ εύκολα σε λανθασμένη κατανόησή τους. Είναι απαραίτητο να αναλυθεί αρχικά ο τρόπος σκέψης του χρήστη και στη συνέχεια να σχεδιαστεί το σύστημα στηριζόμενο στις παραδοχές που προκύπτουν [62]. Συνεπώς, η οπτική παρουσίαση των αποτελεσμάτων πρέπει να είναι κατανοητή και αξιόπιστη.

319 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 320 Κατανοητή Ο χρήστης καταλαβαίνει τα αποτελέσματα σε σχέση με το πλαίσιο δεδομένων που εξετάζεται και σε σχέση με το πρόγραμμα που χρησιμοποιείται. Το κάθε πρόγραμμα χρησιμοποιεί αλγορίθμους που δίνουν βάρος σε διαφορετικά σημεία και κατά συνέπεια η άγνοια (από την πλευρά του χρήστη) της λογικής του προγράμματος μπορεί να οδηγήσει σε λανθασμένες αποφάσεις. Συνεπώς, η παρουσίαση των αποτελεσμάτων πρέπει να ελαχιστοποιεί τέτοιες πιθανότητες, καθώς άλλωστε οι τεχνικές οπτικής παρουσίασης δεν απευθύνονται μόνο σε ειδικούς αλλά και σε απλούς χρήστες. Ακόμη, εξίσου σημαντική είναι η δυνατότητα αλληλεπίδρασης με τα αποτελέσματα, ώστε να είναι σε θέση ο χρήστης να δίνει απαντήσεις σε κρίσιμα ερωτήματα που μπορούν να δημιουργηθούν κατά τη διαδικασία της ανάλυσης. Σε γενικές γραμμές υπάρχουν τρεις παράγοντες που προσδιορίζουν τον βαθμό κατανόησης των αποτελεσμάτων: 1. Παρουσίαση Το γράφημα πρέπει να είναι απλό ώστε να συμβαδίζει με τον τρόπο σκέψης του χρήστη, χωρίς βέβαια να υστερεί σε ποιότητα. Πρέπει να δίνεται μεγάλη βαρύτητα στην ισοστάθμιση των παραγόντων πολυπλοκότητας απώλειας στοιχείων. 2. Αλληλεπίδραση Ο χρήστης πρέπει να έχει τη δυνατότητα δυναμικής επικοινωνίας με το οπτικό αποτέλεσμα. Μια διαδικασία επανατροφοδότησης στοιχείων (από το χρήστη προς το σύστημα) απαιτείται ώστε κάθε νέα ερώτηση αν είναι επέκταση μιας προηγούμενης, δίνοντας άμεσα αποτελέσματα (όπως Drill Down, Roll Up, Slice & Dice). 3. Ολοκλήρωση Ο χρήστης με το οπτικό αποτέλεσμα πρέπει να αποκτά μια ολοκληρωμένη εικόνα για τα δεδομένα του.

320 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 321 Αξιόπιστη Ένας χρήστης συνήθως θεωρεί αξιόπιστο ένα μοντέλο όταν δέχεται σωστά αποτελέσματα για μεγάλο χρονικό διάστημα. Ο χρόνος χρήσης αποτελεί έναν από τους σημαντικότερους παράγοντες που επηρεάζουν την εμπιστοσύνη για ένα μοντέλο. Εξίσου, όμως, υπάρχουν και άλλοι παράγοντες, που μπορούν να πείσουν για την αξιοπιστία ενός μοντέλου. Είναι απαραίτητο το μοντέλο να δηλώνει με σαφήνεια μέσω της οπτικής παρουσίασης το βαθμό εμπιστοσύνης των αποτελεσμάτων. Κάθε στατιστική διαδικασία ανεύρεσης συσχετίσεων ή τάσεων μέσα στα δεδομένα εξάγει ένα σύνολο αποτελεσμάτων τα οποία χαρακτηρίζονται από ένα ποσοστό εμπιστοσύνης. Κάθε πρόγραμμα έχει συγκεκριμένους περιορισμούς, αυτοί πρέπει να γνωστοποιούνται στο χρήστη και καθορίζονται διακριτικά, ώστε ο χρήστης να μην ξεπερνάει τα όρια χρήσης τους και να αποφεύγει τυχόν ανακριβή αποτελέσματα. Η παρουσίαση των αποτελεσμάτων θα πρέπει να είναι σαφής και κατανοητή χωρίς πολλά σύνθετα αποτελέσματα. Συχνά η χρησιμοποίηση ενός δισδιάστατου ραβδογράμματος αποτελεί ένα καλύτερο μέσο απεικόνισης των αποτελεσμάτων σε σχέση με ένα πολυδιάστατο γράφημα. Πάντοτε το αποτέλεσμα πρέπει να πλησιάζει τον τρόπο σκέψης του χρήστη.

321 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Τεχνικές Οπτικής Παρουσίασης Οι τεχνικές οπτικής παρουσίασης είναι ειδικά σχεδιασμένες για την απεικόνιση μεγάλου όγκου δεδομένων. Στο παρακάτω σχήμα κατηγοριοποιούνται αυτές οι τεχνικές και διαχωρίζονται ανάλογα με τα χαρακτηριστικά τους. Πίνακας 7.1 Τεχνικές Οπτικής Παρουσίασης 1. Data Preprocessing 2. Geometric Classification 3. Graph Based 4. Hierarchical 5. Icon Based 6. Pixel Oriented Simple 1. Bifocal Displays 1. 3D Complex Hyperbolic Distortion 2. Fisheye 2. HyperBox 3. Hyperbolic 4. Perspective Wall 5. Table Lens 1. Detail On Demand 2. Filtering Dynamic 3. Linking & Brushing 4. Projections 5. Visualization Mapping 6. Zooming

322 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Τεχνικές Μείωσης Διαστάσεων Οι τεχνικές προεπεξεργασίας δεδομένων (Data Preprocessing) ανήκουν στο τμήμα της κατηγοριοποίησης (Classification). Ο σκοπός αυτών των τεχνικών είναι η παρουσίαση k διάστατων δεδομένων σε d διάστατο χώρο, όπου k d για εύκολη αναπαράσταση. Ο αλγόριθμος FastMap αποτελεί μια σχετικά πρόσφατη προσπάθεια σε τέτοιου είδους τεχνικές [63]. Ο βασικός στόχος του είναι η αντιστοίχηση των δεδομένων σε σημεία χρησιμοποιώντας την πληροφορία ομοιογένειας και της απόστασης των δεδομένων μεταξύ τους. Παρακάτω γίνεται περιληπτική αναφορά και σε άλλες τεχνικές όμοιες με τον αλγόριθμο FastMap, με σκοπό την εξαγωγή συγκριτικών αποτελεσμάτων αλλά και την παρουσίαση μερικών μαθηματικών τύπων. Επισημαίνονται μερικοί ορισμοί και μια περίπτωση απόστασης (Distance Case) για την καλύτερη κατανόηση αυτής της τεχνικής. Το k διάστατο σημείο P που αντιπροσωπεύει το αντικείμενο της βάσης O i ονομάζεται εικόνα του O, X X, X,... i P. i i1, i2 i3 Ο χώρος απεικόνισης όλων των εικόνων ονομάζεται στοχευόμενος χώρος (target space). Ερωτήσεις ανά παράδειγμα (query by example) e είναι οι ερωτήσεις που πραγματοποιούνται με σκοπό την ανεύρεση x στοιχείων που απέχουν μια συγκεκριμένη απόσταση (την οποία ορίζει ο ίδιος ο χρήστης) σε σχέση με την ερώτηση που έχει ήδη τεθεί. Όλα τα ζεύγη (all pairs) είναι η ερώτηση που έχει ως αποτέλεσμα την συγκέντρωση όλων των ζευγαριών των αντικειμένων που απέχουν μια συγκεκριμένη απόσταση ( την οποία ορίζει ο ίδιος ο χρήστης) μεταξύ τους (ή και μικρότερη απόσταση από την ορισμένη) [7].

323 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 324 Έστω N αντικείμενα σε k διάστατο χώρο, στόχος είναι να βρεθούν N σημεία στα οποία οι αποστάσεις να είναι ορισμένες με τον καλύτερο δυνατό τρόπο. Με δεδομένες τις αποστάσεις που ορίζονται μεταξύ των αντικειμένων, ζητείται να βρεθούν τα σημεία εκείνα στον k διάστατο χώρο που παρουσιάζουν με τη μικρότερη δυνατή αλλοίωση τις αποστάσεις αυτές. Τα σημαντικότερα πλεονεκτήματα της προεπεξεργασίας δεδομένων είναι: I. Μειώνει το χρόνο αναζήτησης για ερωτήσεις του τύπου: «Να βρεθούν οι εγγραφές που ανήκουν σε ένα συγκεκριμένο εύρος τιμών». II. Βοηθάει με την οπτική παρουσίαση την εύρεση των clusters στις διαδικασίες εξόρυξης γνώσης. III. Χρησιμοποιεί τις αποστάσεις των δεδομένων για την παρουσίαση τους, δεν απαιτείται κανονικοποίηση για την ορθή παρουσίασή τους. Πίνακας 7.2 Classification Data Preprocessing 1. MDS Multi Dimensional Scaling 2. Karhunen Loeve Algorithm 3. Retrieval & Clustering 4. FastMap 1. Projection Views 2. Parallel Coordinates Geometric 3. Scatterplots Matrices 4. Landscapes 5. Hyperslices

324 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Orthogonal Graph 2. Symmetry Optimized Graph 3. Cluster Optimized Graph Graph Based 4. Directed Acyclic Graph 5. Hypergraph 6. SeeNet Graph 7. Narcissus Graph 1. Dimensional Stacking 2. Worlds within Worlds Hierarchical 3. Treemap - Venn 4. Cone Trees 5. InfoCube 6. FSN File System Navigation 1. Chernoff Faces 2. Stick Figures Icon Based 3. Shape Coding 4. Color Icons 5. TileBars 1. Query Dependent Pixel Oriented 2. Query Independent 3. Grouping Techniques MDS Multi Dimensional Scaling Ο αλγόριθμος MDS, με βάση την ομοιότητα (similarity) και την ανομοιογένεια (dissimilarity) των αντικειμένων μεταξύ τους, χρησιμοποιείται για την εύρεση

325 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 326 της υπάρχουσας δομής ενός συνόλου δεδομένων. Το σύνολο των αντικειμένων, οι αποστάσεις τους και η επιθυμητή διάσταση παρουσίασης είναι τα απαραίτητα στοιχεία για την εφαρμογή της μεθόδου. Η μετρική stress υπολογίζει το μέσο όρο του σχετικού λάθους των αποστάσεων, επί του συνόλου των αντικειμένων. Ο τύπος είναι ο εξής: stress square i, j μεταξύ των αντικειμένων τους P i και P j. 2 d / d, όπου δ ij είναι η μετρική ομοιογένειας ij ij 2 O i και i, j ij O, d είναι η απόσταση μεταξύ των εικόνων j ij Η μέθοδος υπολογίζει την απόσταση ενός αντικειμένου προς τα υπόλοιπα N 1 αντικείμενα και σταδιακά μειώνει το λάθος που υπεισέρχεται μειώνοντας τη μετρική stress. Η τεχνική αυτή εφαρμόζει τον αλγόριθμο «steepest descent», δηλαδή αφού αρχικά βρει μια προσέγγιση εφαρμόζει επαναληπτικά 2 την διαδικασία μειώνοντας το λάθος. Γενικά, απαιτεί χρόνο N O που N είναι ο αριθμός των αντικειμένων. Ένα σημαντικό μειονέκτημα όμως, του MDS αλγόριθμου είναι ότι ο υπολογισμός των αποστάσεων ενός νέου εισαγόμενου αντικειμένου καταλήγει να είναι αρκετά χρονοβόρος [ O N στην καλύτερη περίπτωση] Karhunen Loeve Ο αλγόριθμος Karhunen Loeve αναπαριστά σύνολα σημείων που παρουσιάζουν μια συσχέτιση μεταξύ τους με διανύσματα. Γι αυτό ακριβώς χρησιμοποιείται για την εύρεση υποδειγμάτων μοντέλων μέσα στα δεδομένα, δηλαδή σύνολα σημείων που μπορεί να συσχετίζονται μεταξύ τους. Από την μια πλευρά μειώνει το μέσο τετραγωνικό λάθος απεικόνισης ενός αντικείμενου σε k διάστατο χώρο αλλά από την άλλη πλευρά το μειονέκτημά του είναι η υψηλή πολυπλοκότητα που το χαρακτηρίζει.

326 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Retrieval & Clustering Οι τεχνικές ανάκτησης και συσταδοποίησης χωρίζονται σε τρεις γενικότερες κατηγορίες. Μέθοδοι βασισμένοι σε δέντρα (R-tree, P-tree, B-tree). Μέθοδοι που χρησιμοποιούν Linear Quadtrees (ή z-ordering, space filing curves) Μέθοδοι που χρησιμοποιούν grid-files. Καμιά από τις παραπάνω μεθόδους δεν αντιστοιχεί τιμές σε k -διάστατο χώρο. Όλες χρησιμοποιούνται για να μειώσουν το εύρος αναζήτησης σε μια ερώτηση όπου η απάντηση είναι εύρος τιμών FastMap Η τεχνική αυτή βασίζεται στο ότι κάθε αντικείμενο από την υπό θεώρηση βάση δεδομένων αποτελεί ένα σημείο στο k διάστατο χώρο και μπορεί να απεικονιστεί σε αυτόν υπολογίζοντας τις αποστάσεις του σε κάθε διάσταση. Τα απαραίτητα στοιχεία για την εφαρμογή της μεθόδου είναι αρχικά ένα σύνολο από N αντικείμενα, δεύτερον μια συνάρτηση υπολογισμού των αποστάσεων D O i, O j και τρίτον τον αριθμό των διαστάσεων k. Ο τρόπος υπολογισμού των αποστάσεων στην k διάσταση έχει σαν βασική ιδέα τον υπολογισμό των αποστάσεων από μια συγκεκριμένη γραμμή. Όλα τα άλλα αντικείμενα εκφράζονται με βάση την προβολή τους πάνω στη γραμμή αυτή. Ο υπολογισμός της απόστασης της προβολής ενός αντικειμένου δίνεται από το ακόλουθο τύπο:

327 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 328 d, d d 2x d d d d / 2d, Cosine Law: b i a, i a, b i a, b i a, i a, b b, i a b Αυτό όμως είναι η λύση σε μονοδιάστατο χώρο. Σε πολυδιάστατο χώρο χρησιμοποιείται ο ακόλουθος τύπος, με βάση ένα hyper plane το οποίο είναι κάθετο στη γραμμή που ορίζεται. 2 2 D, D, i j i j i j Ο συγκεκριμένος τύπος υπολογίζει τις αποστάσεις των προβολών των αντικειμένων σε ένα δεύτερο επίπεδο πάνω στο hyper plane. Έτσι λύνεται ουσιαστικά το πρόβλημα των δύο διαστάσεων. Επαναλαμβάνοντας αυτό ακριβώς το βήμα k φορές λύνεται το πρόβλημα των k διαστάσεων. Είναι σημαντικό να δοθεί ιδιαίτερη προσοχή όσον αφορά την επιλογή της γραμμής επάνω στην οποία γίνονται οι προβολές. Η γραμμή πρέπει να είναι όσο το δυνατόν μεγαλύτερη προκειμένου να μην δημιουργείται συνωστισμός από τις προβολές των άλλων αντικειμένων επάνω της. Πρέπει να βρεθούν τα δεδομένα Oa και O που μεγιστοποιούν τη συνάρτηση b D O a, O b. Αποστάσεις Δεδομένων O1 O2 O3 O4 O5 O O O O O Αποτελέσματα FastMap X[] f 1 f 2 f 3 O O O O O Επιλεγμένα Δεδομένα Iteration Pivot Stress 1 O1,O O5,O O3,O

328 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Γεωμετρικές Τεχνικές Οι γεωμετρικές τεχνικές (Geometric Techniques) αποσκοπούν στην εύρεση προβολών πολυδιάστατων δεδομένων σε δισδιάστατο χώρο και στην επιλογή εκείνων που είναι περισσότερο σημαντικές Projection Views Οι τεχνικές αυτές αναζητούν τις προβολές εκείνες οι οποίες θα δώσουν ένα ενδιαφέρον αποτέλεσμα, ή βοηθούν τον χρήστη να προσδιορίσει τις προβολές αυτές. Συγκεκριμένα, επιλέγεται στον k διάστατο χώρο κάποιο εύρος τιμών που πρόκειται να προβληθούν και απεικονίζονται με τη χρήση ενός συγκεκριμένου χρώματος σε δισδιάστατο χώρο [64] Parallel Coordinate Η παράλληλη γραμμική αναπαράσταση έχει ως σκοπό την προβολή k διάστατων δεδομένων σε δισδιάστατο χώρο. Αποτελείται από n ισαπέχοντες άξονες οι οποίοι είναι παράλληλοι σε έναν από τους άξονες (x,y) και οι οποίοι αντιπροσωπεύουν τα n γνωρίσματα ενός συνόλου αντικειμένων. Οι άξονες αυτοί είναι ισομήκεις και περιλαμβάνουν όλο το πεδίο τιμών της κάθε μεταβλητής (γνώρισμα) που αντιπροσωπεύουν. Κάθε εγγραφή από το σύνολο των αντικειμένων αντιπροσωπεύεται από μια πολυγωνική γραμμή, η οποία τέμνει τον κάθε άξονα στο σημείο που αντιστοιχεί στην τιμή της για το συγκεκριμένο γνώρισμα.

329 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 330 Σχήμα 7.1 Parallel Coordinates Scatterplots Matrices Σε ένα τέτοιο πίνακα τα Scatterplots αναπαριστούν τις k διαστάσεις των δεδομένων. Κάθε Scatterplot παρουσιάζει σε δύο άξονες (x, y) την κατανομή των τιμών, για δύο από τις k μεταβλητές. Το αποτέλεσμα είναι ένας k διάστατος k k πίνακας ο οποίος παρουσιάζει ένα Scatterplot για κάθε συνδυασμό των μεταβλητών που χρησιμοποιούνται. Όμως τα μισά διαγράμματα αποτελούν επαναλήψεις των υπολοίπων και αυτό είναι ένα αξιοσημείωτο μειονέκτημα. Συγκεκριμένα, το διάγραμμα με τις μεταβλητές (x, y) αποτελεί την περιστροφή κατά 90 ο του διαγράμματος με τις μεταβλητές (y, x), και το διάγραμμα με τις μεταβλητές (x, x) δεν παρέχει καμιά σημαντική πληροφορία. Συνεπώς, μειονέκτημα της μεθόδου είναι η σπατάλη του διαθέσιμου χώρου παρουσίασης. Σε κάθε περίπτωση, τα γραφήματα που 2 έχουν αξία είναι k k/ από το 50%, k k/ 2/ k 50% 1/ 2k, δηλαδή εκμετάλλευση χώρου δυστυχώς μικρότερη.

330 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Landscapes Σε ένα τοπογράφημα τα δεδομένα παρουσιάζονται με προοπτική τοπίου σε τρισδιάστατο χώρο. Στην τεχνική αυτή τα δεδομένα επεξεργάζονται για να δημιουργηθεί η απαραίτητη πληροφορία ώστε να είναι εφικτή η χωρική αναπαράστασή τους. Επομένως, απαιτείται μεγάλη προσοχή για την αποφυγή τυχόν λανθασμένων αποτελεσμάτων και ταυτόχρονα για όσο το δυνατόν καλύτερα συμπεράσματα για τα χαρακτηριστικά που διακρίνουν τα δεδομένα Hyperslice Το Hyperslice είναι μια εξελιγμένη μορφή του Scatterplot Matrices. Χρησιμοποιούν τεχνογνωσία τόσο από Scatterplot Matrices όσο και από Projection Views. Γνωρίζοντας ότι πολυδιάστατα δεδομένα δεν μπορούν να παρουσιαστούν σε δισδιάστατο χώρο, απεικονίζονται πάντα σε φέτες από δεδομένα του k διάστατου χώρου. Το συγκεκριμένο τμήμα δεδομένων που προβάλλεται κάθε φορά προσδιορίζεται αρχικά από το χρήστη αλλά και δυναμικά μέσα από το γράφημα δίνεται η δυνατότητα αλλαγής του σημείου αυτού. Η τεχνική στηρίζεται στην ιδέα ότι ο χρήστης κάθε φορά θέλει να βλέπει ένα συγκεκριμένο σημείο και μια περιοχή γύρω από αυτό. Έτσι, ορίζει ένα σημείο c το οποίο είναι το επίκεντρο έρευνας του χρήστη και ένα εύρος τιμών (ακτίνα) w. Για την αναπαράσταση δεδομένων k διαστάσεων, το σημείο c ορίζεται από τη συνάρτηση c f c c,..., 1, 2 οθόνη χαρακτηρίζει εξίσου και αυτή την τεχνική [65]. c k. Η σπατάλη του διαθέσιμου χώρου στην

331 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Τεχνικές Βασισμένες σε Εικόνες Οι τεχνικές αυτές Icon Based Techniques χρησιμοποιούν εικονίδια για την παρουσίαση των αποτελεσμάτων. Κάθε ένα στοιχείο των δεδομένων αντιπροσωπεύεται από κάποιο εικονίδιο, το οποίο έχει επιλεγεί με βάση κάποιους συγκεκριμένους κανόνες ώστε να εκφράζει τα χαρακτηριστικά του κάθε στοιχείου Chernoff Faces Τα Chernoff Faces είναι μία αρκετά παλιά και γνωστή τεχνική. Τα αποτελέσματα παρουσιάζονται σε δισδιάστατο χώρο ενώ οι υπόλοιπες διαστάσεις αντιστοιχίζονται σε διαφορετικές μορφές προσώπων. Από την μια πλευρά, το γεγονός ότι κάθε άτομο είναι αρκετά εξοικειωμένο με τις εκφράσεις του προσώπου, κάνει τα αποτελέσματα εύκολα κατανοητά. Το μέγεθος όμως των δεδομένων που μπορούν να αναπαρασταθούν είναι περιορισμένο και αυτό ακριβώς είναι ένα από τα μειονεκτήματα της τεχνικής αυτής. Ένας μεγάλος όγκος δεδομένων μπορεί εύκολα να οδηγήσει σε επικάλυψη των εικονιδίων με αποτέλεσμα να χαθούν οι μορφές των προσώπων. Επίσης, η τεχνική αυτή δεν παρουσιάζει πληροφορία για την πραγματική τιμή των δεδομένων. Το σχήμα του προσώπου χαρακτηρίζει γενικά με ευκολία τα δεδομένα αλλά δεν δίνει λεπτομερή ανάλυση τιμών.

332 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 333 Σχήμα 7.2 Chernoff Faces Stick Figures Τα Γραμμικά Σχήματα (Stick Figures) είναι μια παραπλήσια τεχνική των Chernoff Faces. Το πλεονέκτημα που παρουσιάζει η συγκεκριμένη τεχνική είναι ότι υπερτερεί στον όγκο των δεδομένων που μπορεί να αναπαραστήσει, κάτι το οποίο την καθιστά πιο κατάλληλη για τις ανάγκες εξόρυξης γνώσης. Στα Stick Figures χρησιμοποιούνται πολυγωνικές γραμμές, που είναι πάντα μικρές σε όγκο και οι οποίες εμπεριέχουν πληροφορίες για τα χαρακτηριστικά των δεδομένων που παρουσιάζουν μέσα στο σχήμα τους. Αναλυτικότερα, χρησιμοποιείται ένα δισδιάστατο γράφημα για την απεικόνιση των δύο διαστάσεων, ενώ οι υπόλοιπες διαστάσεις απεικονίζονται στα χαρακτηριστικά της γραμμής (γωνίες, μήκος τμήματος πολυγωνικής γραμμής, πάχος τμημάτων γραμμής). Με αυτόν τον τρόπο δημιουργούνται πρότυπα (patterns) που δίνουν χρήσιμη πληροφόρηση. Για παράδειγμα, όταν όλο το γράφημα έχει μια ομοιόμορφη κατανομή, αυτό ταυτόχρονα σημαίνει ότι στην k διάσταση k 2 υπάρχει μια ομοιογένεια στα δεδομένα [66].

333 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Shape Coding Σε αυτή τη τεχνική όλα τα δεδομένα τοποθετούνται σε μια διάσταση και οι υπόλοιπες διαστάσεις παρουσιάζονται σε μικρούς πίνακες από πεδία όπου τα κάθε ένα πεδίο αποτελεί τη μια διάσταση. Για ένα σύνολο δεδομένων με v διαστάσεις, κάθε μια διάσταση θα αποτελεί αυτήν με βάση την οποία τοποθετούνται οι πίνακες στην οθόνη και οι k 1 διαστάσεις θα αποτελούν πεδία των πινάκων. Η οθόνη γεμίζει είτε ανά γραμμή με την τοποθέτηση πινάκων από τα αριστερά προς τα δεξιά και στην επόμενη γραμμή αντίστροφα από τα δεξιά προς τα αριστερά, είτε ανά στήλη Color Icons Η έγχρωμη μορφοποίηση σχήματος (Color Icons) είναι ουσιαστικά η ίδια τεχνική με τη μορφοποίηση σχήματος (Shape Coding) με την μόνη διαφορά ότι στην προκειμένη περίπτωση γίνεται χρήση χρωμάτων για την απεικόνιση των τιμών των δεδομένων TileBars Τα TileBars είναι μια τεχνική αναζήτησης κειμένων (text retrieval). Ο χρήστης θέτει μια ερώτηση χρησιμοποιώντας λέξεις που χαρακτηρίζουν αυτό που ψάχνει. Με την τεχνική αυτή απεικονίζεται η ομοιότητα που υπάρχει ανάμεσα στην ερώτηση που έθεσε ο χρήστης και τα κείμενα που επιστράφηκαν ως αποτελέσματα. Όσο πιο συναφείς είναι οι λέξεις τόσο πιο σχετικό θα είναι το αποτέλεσμα της ερώτησης. Το γραφικό αποτέλεσμα βοηθάει το χρήστη να καταλάβει ποια κείμενα περιέχουν και σε τι βαθμό αυτό που ζητήθηκε. Οι στόχοι της τεχνικής TileBars είναι:

334 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 335 Ο βαθμός συσχέτισης του κάθε επιλεγμένου κειμένου. Η συχνότητα εμφάνισης των λέξεων που αναζητήθηκαν μέσα σε συγκεκριμένο κείμενο. Η κατανομή των λέξεων που ζητήθηκαν μέσα στο κείμενο σε σχέση με τα άλλα επιλεγόμενα κείμενα. Κατά τη διαδικασία της αναζήτησης των λέξεων, κάθε κείμενο χωρίζεται σε τμήματα μέσα στα οποία γίνεται η αναζήτηση της κάθε λέξης που ζητήθηκε από τον χρήστη. Για κάθε έγγραφο που επιλέγεται, η γραφική απεικόνιση του αποτελέσματος είναι ένα παραλληλόγραμμο, το οποίο είναι χωρισμένο σε τόσες γραμμές όσες είναι οι λέξεις που ζητήθηκαν και σε τόσες στήλες όσα είναι τα τμήματα στα οποία χωρίστηκε το κάθε έγγραφο. Ανάλογα με το βαθμό συσχέτισης της κάθε λέξης με το κάθε τμήμα του κειμένου, χρωματίζεται το αντίστοιχο τετραγωνάκι του παραλληλόγραμμου [67] Ιεραρχικές Τεχνικές Οι Ιεραρχικές Τεχνικές (Hierarchical Techniques) απεικονίζουν τα δεδομένα μέσω μιας ιεραρχικής κατηγοριοποίησης της οθόνης σε υποτμήματα Dimension Stacking Η τεχνική της Σειράς Διαστάσεων παρουσιάζει τις k διαστάσεις των δεδομένων σε δισδιάστατο χώρο. Ο διαθέσιμος χώρος τεμαχίζεται έτσι ώστε τα κατώτερα επίπεδα να συνθέτουν το αμέσως επόμενο επίπεδο. Η τεχνική είναι κατάλληλη κυρίως για περιπτώσεις με ιεραρχική διάταξη. Για Χ επίπεδα ιεραρχίας και Ν μεταβλητές τότε αν τα γνωρίσματα Ν1, Ν2, ορίζουν το

335 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 336 κατώτερο επίπεδο ιεραρχίας, τα γνωρίσματα Ν3, Ν4 ορίζονται από κοινού από τα γνωρίσματα Ν1, Ν2 και Ν1,Ν2,Ν3,Ν4=Ν και Χ=2. Συχνά για την αναπαράσταση των τιμών των δεδομένων χρησιμοποιούνται διάφορα χρώματα. Το μειονέκτημα που παρουσιάζει είναι ότι απαιτείται ζυγός αριθμός γνωρισμάτων, επειδή η γραφική παρουσίαση γίνεται σε δισδιάστατο σύστημα αξόνων [7] Worlds within Worlds Τα Ενθυλακωμένα Διαγράμματα (Worlds within Worlds) είναι μια τεχνική περισσότερο γνωστή ως n-vision. Τα δεδομένα παρουσιάζονται σε τρισδιάστατο χώρο, σε κάθε μια από τις τρεις διαστάσεις απεικονίζονται περισσότερα από ένα γνωρίσματα. Είναι σημαντικό το ότι παράγει δυναμικά το γράφημα, ώστε να είναι όσο το δυνατόν πιο κατανοητό για το χρήστη και με δεδομένο βέβαια ότι το σύνολο των γνωρισμάτων δεν έχουν ούτε την ίδια σύνθεση ούτε την ίδια λογική (multivariate). Για την μείωση της πολυπλοκότητας των multivariate συναρτήσεων θέτονται κάποιες από τις ανεξάρτητες ( independent) μεταβλητές ως σταθερές για μια συγκεκριμένη τιμή τους. Κάθε μια σταθερή τιμή της ανεξάρτητης μεταβλητής αντιστοιχεί σε ένα μικρό τμήμα του πολυδιάστατου χώρου για αυτή την μεταβλητή. Συνεχίζοντας με τον ίδιο τρόπο και για τις k 2 μεταβλητές, όπου k το σύνολο μεταβλητών, το αποτέλεσμα είναι ένα τρισδιάστατο γράφημα (2 μεταβλητές και στην Τρίτη διάσταση το μέγεθος που παρακολουθείται). Οι υπόλοιπες μεταβλητές που ορίστηκαν ως σταθερές απεικονίζονται με ένα μεγαλύτερο σύστημα τριών αξόνων, μέσα στο οποίο βρίσκεται φωλιασμένο ήδη το σχεδιασμένο γράφημα. Η τεχνική αυτή απαιτεί την επιλογή ενός σημείου στον πολυδιάστατο χώρο και στη συνέχεια περιγράφει τη συμπεριφορά δύο μεταβλητών σε σχέση με αυτό. Με την επιλογή ενός σημείου στο εξωτερικό σύστημα αξόνων τροποποιούνται ανάλογα και οι τιμές των σταθερών γνωρισμάτων και επανασχεδιάζεται το εσωτερικό γράφημα. Εφαρμόζοντας τη λογική αυτή ακολουθιακά απεικονίζονται στο τέλος όλα τα

336 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 337 γνωρίσματα. Στην ουσία δημιουργείται ένα αλληλεπιδραστικό mater-detail σύστημα. Το σημαντικότερο πλεονέκτημα της τεχνικής Worlds within Worlds είναι ότι αποτελεί μια εύκολα κατανοητή τεχνική και ότι παρέχει τη δυνατότητα στο χρήστη να αλλάζει δυναμικά τα δεδομένα. Από την άλλη πλευρά όμως παρουσιάζει και κάποια μειονεκτήματα. Γίνεται συχνά πολύπλοκή για την ανθρώπινη σκέψη όταν αυξάνονται οι διαστάσεις των δεδομένων. Δεν παρέχει τη δυνατότητα παρακολούθησης όλων των τιμών των δεδομένων ταυτόχρονα, αφού πάντα απεικονίζει ένα κομμάτι αυτών στον πολυδιάστατο χώρο. Επομένως, ο χρήστης δεν έχει μια ολοκληρωμένη συγκεντρωτική εικόνα για τα δεδομένα στο ανώτερο ιεραρχικό επίπεδο [67]. Σχήμα 7.3 Worlds Within Worlds Treemap Venn Η Δεντρική Ενθυλακωμένη παράθεση είναι μια τεχνική σχεδιασμένη για την απεικόνιση δεδομένων που εμπεριέχουν μια δομημένη ιεραρχικά πληροφορία. Η οθόνη τεμαχίζεται σε ενθυλακωμένα παραλληλόγραμμα τα οποία παρουσιάζουν την ιεραρχική δομή των δεδομένων. Τα ιδιαίτερα

337 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 338 χαρακτηριστικά του κάθε παραλληλόγραμμου προσδιορίζονται από το σχήμα και το χρώμα γεμίσματός του. Γενικές ιδιότητες των Treemap διαγραμμάτων είναι οι εξής: Κάθε κόμβος παιδί περιλαμβάνεται ολοκληρωτικά ή είναι ίσος με τον κόμβο πατέρα. Δύο παραλληλόγραμμα δύο κόμβων τέμνονται μόνο όταν ο ένας κόμβος είναι παιδί του άλλου. Κάθε κόμβος καταλαμβάνει μια περιοχή σε αυστηρή σχέση με το βάρος του. Το βάρος κάθε κόμβου είναι μεγαλύτερο ή ίσο του αθροίσματος των βαρών των παιδιών του. Ο όρος βάρος, ορίζει το μέγεθος του κάθε αντικειμένου και είναι υποχρεωτικός ο ορισμός του. Το βάρος είναι ένα μετρούμενο μέγεθος των δεδομένων, όπως για παράδειγμα τα έτη προϋπηρεσίας ενός υπαλλήλου σε μια εταιρία. Δύο είναι οι κατηγορίες αλγορίθμων που προσδιορίζουν τον τρόπο με τον οποίο γίνεται ο καταμερισμός χώρου στην οθόνη: 1) Slice and Dice Ο συγκεκριμένος αλγόριθμος τεμαχίζει την οθόνη σε παραλληλόγραμμα, τα οποία αναπαριστούν αντικείμενα του δέντρου, επαναλαμβανόμενα, αλλάζοντας την κατεύθυνση τεμαχισμού με κάθε αλλαγή επιπέδου. Για παράδειγμα, αν ιεραρχικό δέντρο είναι μια γεωγραφική κατανομή των πωλήσεων μιας εταιρίας ανά γεωγραφικά διαμερίσματα της Ελλάδας τότε το σύνολο της οθόνης αναπαριστά την Ελλάδα. Ανάλογα με το σύνολο των πωλήσεων δίνεται ένα χρώμα. Η οθόνη χωρίζεται σε ν μέρη όσοι και οι νομοί, όπου ως βάρος τίθεται το γεωγραφικό μέγεθος του κάθε νομού. Ο κάθε νομός ξεχωριστά είναι ένα παραλληλόγραμμο που ξεκινάει από την

338 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 339 κορυφή της οθόνης μέχρι το κάτω μέρος της, καταλαμβάνοντας όλο το ύψος του κόμβου του πατέρα αλλά το πλάτος του ισοδυναμεί με το ποσοστό που του αντιστοιχεί με βάση το βάρος που έχει τεθεί (γεωγραφικό μέγεθος νομού). Στο επόμενο ιεραρχικό επίπεδο που είναι οι επαρχίες, κάθε παραλληλόγραμμο νομός τεμαχίζεται οριζόντια. Κάθε επαρχία καταλαμβάνει όλο το εύρος του νομού που ανήκει ως προς το πλάτος αλλά ως προς το ύψος μόνο το ποσοστό που της αντιστοιχεί. Αυτή η διαδικασία εκτελείται επαναληπτικά. Επιπλέον υπάρχουν δυο υποκατηγορίες αλγορίθμων: Φωλιασμένοι (Nested) Το σύνολο των κόμβων παιδιά αφήνει μια μικρή περιοχή περιμετρικά (offset), η οποία παρουσιάζει τον πατέρα κόμβο. Μη Φωλιασμένοι (Not Nested) Εδώ συμβαίνει το αντίθετο, τα παιδιά δεν αφήνουν καθόλου περιθώρια στον κόμβο πατέρα, με αποτέλεσμα το διάγραμμα να παρουσιάζει μόνο τους τερματικούς κόμβους.

339 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 340 Σχήμα 7.4 TreeMap 2) Top Down Οι Top Down αλγόριθμοι έχουν σχεδιαστεί με βάση την ιδέα των δέντρων και ανάλογα ακολουθούν παρόμοιο τρόπο παρουσίασης των αποτελεσμάτων. Στη συνέχεια δίνεται μια αναλυτική περιγραφή του αλγόριθμου. I. Το σύνολο της οθόνης θεωρείται ως ο κόμβος «ρίζα». II. Ο χώρος του κόμβου χωρίζεται σε ω κάθετα τμήματα, όπου ω το σύνολο των παιδιών, ανάλογα με το βάρος του κάθε παιδιού (ποσοστό κάλυψης επί του συνόλου). Υπολογίζεται δηλαδή αρχικά το σύνολο των βαρών όλων των παιδιών και στη συνέχεια το ποσοστό του κόμβου που αντιστοιχεί σε κάθε παιδί.

340 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 341 III. Στον οριζόντιο άξονα και ένα επίπεδο πιο κάτω από τον πατέρα σχεδιάζονται όλα τα παιδιά του κόμβου. IV. Δημιουργείται μια περιοχή μέσα στον κόμβο πατέρα που αντιστοιχεί σε κάθε ένα παιδί και γίνεται για κάθε ένα παιδί του κόμβου. V. Κάθε φορά τίθεται σαν ενεργό ένα παιδί και μετά επαναλαμβάνεται η όλη διαδικασία από το δεύτερο βήμα για όλα τα παιδιά του κόμβου. Ένα από τα μειονεκτήματα που χαρακτηρίζει τον Top Down αλγόριθμο είναι ότι προκειμένου να παρουσιάσει δεδομένα με μεγάλες ιεραρχίες, απαιτεί μεγάλο ύψος στην οθόνη. Έτσι, τα δεδομένα είτε είναι δυσανάγνωστα είτε δεν αναπαρίστανται στο σύνολό τους. Όμως, είναι σημαντικό το γεγονός ότι παρουσιάζει μεγάλη οπτική συνάφεια με την τεχνική των δέντρων, με αποτέλεσμα την εύκολη κατανόησή του από τον χρήστη Cone Trees Η τεχνική των Κωνικών Δέντρων (Cone Trees) αποτελεί μια εξέλιξη των απλών δέντρων με σκοπό την όσο το δυνατόν καλύτερη εκμετάλλευση του χώρου για την αναπαράσταση ιεραρχικών δομών δεδομένων. Με τη χρησιμοποίηση τεχνολογίας τρισδιάστατων γραφικών, κάθε αντικείμενο κόμβος παρουσιάζεται με κείμενο σε ένα τετράγωνο στην οθόνη και όλα τα παιδιά του βρίσκονται κάτω από αυτό σε σχηματισμό κώνου [68]. Η ρίζα τοποθετείται στην κορυφή της οθόνης και το επόμενο επίπεδο τοποθετείται ακριβώς από κάτω με τέτοιο τρόπο ώστε: Το τελευταίο επίπεδο του δέντρου να βρίσκεται κοντά στο κάτω μέρος της οθόνης (σε περιπτώσεις που χρησιμοποιείται η οθόνη στο μέγιστο βαθμό)

341 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 342 Το aspect ratio του δέντρου προσδιορίζεται έτσι ώστε όλο το δέντρο να απεικονίζεται στο σύνολο της οθόνης. Κάθε κώνος του δέντρου έχει το ίδιο ύψος ( ύψος οθόνης / σύνολο επιπέδων δέντρου). Τα αντικείμενα κόμβοι που βρίσκονται στο πίσω μέρος του κώνου παρουσιάζονται μόνο εάν δεν καλύπτονται από κάποιο κώνο στο μπροστινό μέρος του κώνου. Αν η περιγραφή ενός κόμβου δεν χωράει στο τετράγωνο που έχει οριστεί τότε αυτή εμφανίζεται μόνο αν επιλεγεί ο συγκεκριμένος κόμβος. Όταν επιλεγεί ένας κόμβος φύλλο, τότε τονίζεται όλο το μονοπάτι μέχρι τη ρίζα. Αν σε κάποιο επίπεδο ο κόμβος που αντιστοιχεί στο επιλεγμένο μονοπάτι βρίσκεται στο πίσω μέρος του κώνου τότε ο κώνος περιστρέφεται ώστε να έρθει στο προσκήνιο ο συγκεκριμένος κόμβος. Ο κάθε κώνος μπορεί να περιστρέφεται συνεχώς μέχρι ο χρήστης να βρει τον κόμβο που τον ενδιαφέρει. Σχήμα 7.5 ConeTree

342 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 343 Η χρησιμοποίηση της τρισδιάστατης τεχνολογίας είναι ένα πλεονέκτημα της Cone Trees τεχνικής, μιας και αυτό βελτιώνει κατά μεγάλο βαθμό το αποτέλεσμα. Σε ένα κλασικό δέντρο με L επίπεδα και b παράγοντα διακλάδωσης (branching factor), τότε το πλάτος της βάσης θα είναι aspect ratio b L 1 L1 b και το, αυξάνοντας το μέγεθός του εκθετικά όσο μεγαλώνει και ο L παράγοντας διακλάδωσης. Με ένα κωνικό δέντρο όμως, μπορεί εύκολα να αναπαρίστανται μεγάλος όγκος δεδομένων, επειδή ακριβώς τροποποιείται το πάχος του κώνου ανάλογα με τα επίπεδα και τον παράγοντα διακλάδωσης InfoCube Ο ιεραρχικός κύβος (InfoCube) είναι μια ακόμη τεχνική που χρησιμοποιεί τρισδιάστατη τεχνολογία για την αναπαράσταση της πληροφορίας και επιπλέον επιτρέπει την αλληλεπίδραση με το χρήστη. Συγκεκριμένα, αποτελείται από ενθυλακωμένους κύβους οι οποίοι αναπαριστούν την ιεραρχική δομή και καθένας κύβος αναπαριστά ένα κόμβο αντικείμενο. Ο ανώτερος ιεραρχικά κύβος αναπαριστά τα δεδομένα στο σύνολό τους. Οι κύβοι είναι ημιδιαφανείς, έτσι ώστε να έχει τη δυνατότητα ο χρήστης να βλέπει και τους εσωτερικούς κύβους. Σε κάθε κύβο υπάρχει μια μικρή περιγραφή που αφορά το αντικείμενο που παρουσιάζεται σε αυτόν. Επίσης, κάθε κύβος έχει τη δυνατότητα περιστροφής για καλύτερη παρουσίαση και διερεύνηση. Τέλος, με drill down ο χρήστης μπορεί να εξετάσει με μεγαλύτερη λεπτομέρεια τα δεδομένα του κατώτερου επιπέδου. Η InfoCube τεχνική μπορεί εύκολα να αναπαραστήσει μεγάλο αριθμό κόμβων παιδιών για κάθε κόμβο πατέρα ξεχωριστά σε τρισδιάστατο χώρο. Για 1000 κόμβους θα αναπαρασταθούν 10 αντικείμενα σε κάθε μια διάσταση, 10 x 10 x 10 = Όσον αφορά τα επίπεδα ιεραρχίας, είναι σημαντικό το ότι δεν υπάρχει όριο, διότι δίνεται η δυνατότητα drill down, διάσχισης προς τα κάτω στον κύβο. Συνεπώς, τα κατώτερα επίπεδα δεν είναι αναγκαίο να

343 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 344 αναπαρασταθούν από την αρχή, αλλά μπορούν να σχηματίζονται σταδιακά σε κάθε drill down [7]. Σχήμα 7.6 InfoCube File System Navigation FSN Η συγκεκριμένη τεχνική είναι δημιούργημα της Silicon Graphics. Έχει σκοπό την εξερεύνηση της δομής των καταλόγων των αποθηκευτικών συσκευών. Χρησιμοποιεί και αυτή τεχνολογία τριών διαστάσεων και αναπαριστά τους καταλόγους με ένα σύνολο συρταριών όπου κάθε ένα από αυτά περιέχει σύνολα από κουτιά τα οποία με τη σειρά τους αναπαριστούν τα αρχεία. Οι διαστάσεις του κάθε κουτιού αποτελούν το φυσικό του μέγεθος, ενώ το χρώμα απεικονίζει την ηλικία του Τεχνικές Σχεδίασης σε Επίπεδο Pixels Οι τεχνικές σχεδίασης (Pixel Oriented Techniques) σε επίπεδο εικονοστοιχείων παρουσιάζουν κάθε τιμή ενός γνωρίσματος ενός πίνακα με ένα pixel στην οθόνη χρησιμοποιώντας ένα συγκεκριμένο χρωματισμό, ο

344 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 345 οποίος αποδίδει τη σχετικότητα (relevance) των δεδομένων. Κάθε γνώρισμα του πίνακα παρουσιάζεται σε διαφορετικά υπό-παράθυρα στην οθόνη. Οι τεχνικές αυτές χωρίζονται σε τρεις κατηγορίες [69]: Εξαρτώμενες από ερωτήσεις (Query Dependent) Οι αλγόριθμοι που χρησιμοποιούνται είναι: Snake Spiral Snake Axes Ανεξάρτητες από ερωτήσεις (Query Independent) Οι αλγόριθμοι που χρησιμοποιούνται είναι: Screen Filing Curve Recursive Pattern Τεχνικές Ομαδοποίησης (Grouping Techniques) Γενικά, είναι εφικτή η απεικόνιση μεγάλων όγκων δεδομένων, μιας και ο χώρος που καταλαμβάνει ένα pixel (που αντιστοιχεί σε μια εγγραφή) είναι πολύ μικρός. Επιπλέον, δεν απαιτούνται δυνατά μηχανήματα για την εφαρμογή των προσανατολισμένων σε pixel τεχνικών, αφού δεν χρησιμοποιούνται τεχνολογίες τρισδιάστατων γραφικών. Τέλος, δεν απαιτούν ιδιαίτερο χρόνο για τη δημιουργία του γραφικού αποτελέσματος σχετικά με τα δεδομένα που απεικονίζουν. Από την άλλη πλευρά, μειονέκτημά των τεχνικών προσανατολισμένων σε pixels είναι ο μεγάλος βαθμός εξάρτισης από την ανάλυσης της οθόνης. Όσο μεγαλύτερη είναι η ανάλυση της οθόνης τόσο περισσότερα δεδομένα μπορούν να αναπαρασταθούν. Επιπλέον, δεν δημιουργείται συχνά ευνόητο αποτέλεσμα, με αποτέλεσμα να είναι άχρηστες για το μεγαλύτερο μέρος των χρηστών.

345 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Query Dependent Οι συγκεκριμένες τεχνικές δεν παρουσιάζουν τα δεδομένα στο σύνολό τους με βάση την απόσταση μεταξύ τους, αλλά με βάση την απόσταση από την ερώτηση που θέτει κάθε φορά ο χρήστης. Για κάθε στοιχείο εγγραφής υπολογίζεται η συνολική απόσταση των δεδομένων, πάντα με βάση την ερώτηση. Στο τέλος με βάση τη θέση των δεδομένων στην συνολική απόσταση που υπολογίστηκε, τοποθετούνται τα pixels σε ένα σπειροειδή σχηματισμό γύρω από το κέντρο με τα πιο σχετικά στοιχεία (δηλαδή με μικρότερη απόσταση από την ερώτηση) πιο κοντά στο κέντρο. Με αυτόν τον τρόπο ανακαλύπτονται διάφορες συσχετίσεις μεταξύ των δεδομένων, αλληλεξαρτήσεις και συναρτησιακές εξαρτήσεις [7]. Το χρώμα του κάθε pixel προσδιορίζεται από την απόστασή του(distance) από την ερώτηση του χρήστη και η θέση του pixel στην οθόνη προσδιορίζεται όμοια δημιουργώντας μια spiral (snake spiral) τεχνική τοποθέτησης των αντικειμένων γύρω από το κέντρο. Συγκεκριμένα υπάρχουν δύο αλγόριθμοι που υλοποιούν τις τεχνικές εξαρτώμενες από ερωτήσεις. Snake Spiral Το 1% των δεδομένων, που είναι πιο κοντά στην ερώτηση που θέτει ο χρήστης, τοποθετούνται στο κέντρο της οθόνης και τα υπόλοιπα δεδομένα γεμίζουν την οθόνη περιμετρικά. Εφόσον έχουν υπολογιστεί οι αποστάσεις των δεδομένων από τη σωστή απάντηση, τα δεδομένα, τα οποία απέχουν λιγότερο τοποθετούνται πιο κοντά στο κέντρο (distance metrics). Για κάθε μεταβλητή δημιουργείται ένα υπό παράθυρο στην οθόνη, για να υπάρχουν συγκριτικά αποτελέσματα. Στη Snake Spiral τεχνική εμφανίζονται καλύτερα οι συστάδες που υπάρχουν στα δεδομένα. Snake Axes Στην Snake Axes τεχνική χρησιμοποιούνται δύο μεταβλητές. Δίνεται ιδιαίτερη έμφαση στις κατευθύνσεις των αποστάσεων των τιμών των

346 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 347 μεταβλητών από την ερώτηση που θέτει ο χρήστης. Αναλυτικότερα, στον άξονα x τίθεται η μεταβλητή i και στον άξονα y η μεταβλητή j. Οι θετικές τιμές της μεταβλητής i τοποθετούνται στο δεξιό τμήμα της οθόνης και οι αρνητικές στο αριστερό ενώ για τη μεταβλητή j οι θετικές τιμές τοποθετούνται στο κάτω τμήμα της οθόνης και ο αρνητικές στο πάνω τμήμα. Αυτή η τεχνική δίνει μια εικόνα για τον καταμερισμό των τιμών του πίνακα σε σχέση με τις δύο υπό θεώρηση μεταβλητές Query Independent Οι τεχνικές που είναι ανεξάρτητες από ερωτήσεις σκοπεύουν στην απεικόνιση όσο το δυνατόν περισσότερων δεδομένων στην οθόνη. Το γραφικό αποτέλεσμα δεν είναι τρισδιάστατο αλλά έχει μόνο μια διάσταση. Οι πιο γνωστοί αλγόριθμοι που χρησιμοποιούνται ευρέως είναι οι εξής: Line by Line Αρχικά σαρώνεται το αρχείο και τα δεδομένα τοποθετούνται σαν pixels στη οθόνη σειριακά από αριστερά προς τα δεξιά και στη συνέχεια στην επόμενη γραμμή από δεξιά προς τα αριστερά. Στην προκειμένη περίπτωση, για να έχει κάποιο νόημα η παρουσίαση αυτή, απαιτείται η ταξινόμηση των δεδομένων κατά κάποιο γνώρισμα, το οποίο να δίνει ακολουθιακή σημασία στα δεδομένα. Όπως για παράδειγμα, η εξέλιξη των τιμών μιας μεταβλητής σε σχέση με το χρόνο. Column by Column Συγκεκριμένα στον αλγόριθμο αυτό ισχύει ότι και για τον Line by Line με μόνη διαφορά την κατεύθυνση γεμίσματος της οθόνης. Εδώ γίνεται ανά στήλη.

347 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 348 Peano Hilbert / Morton Οι τεχνικές αυτές βασίζονται στους αλγόριθμους γεμίσματος κενού χώρου του Peano Hilbert και Morton αντίστοιχα. Παρουσιάζουν τα δεδομένα, που εμπεριέχουν την έννοια των δύο διαστάσεων, σε μια διάσταση. Με τον τρόπο αυτό περιορίζεται τόσο ο χρόνος απεικόνισης, όσο και οι απαιτήσεις σε πόρους. Δημιουργούνται και γεμίζονται i i τετράγωνα διαστάσεων 2 2, όπου i=0 max. Σε κάθε τετράγωνο 1 1 υπάρχουν υπό-τετράγωνα μεγέθους 2 i 2 i και αυτό εφαρμόζεται επαναληπτικά. Στον αλγόριθμο Morton (που είναι γνωστός και ως Z-curve) το γέμισμα ακολουθεί μια λογική προσανατολισμού, είναι δηλαδή σαφής η κατεύθυνση με την οποία τοποθετούνται τα pixels στην οθόνη. Αντίθετα, στον αλγόριθμο Peano Hilbert η διαδρομή τοποθέτησης των pixels στην οθόνη δεν είναι εύκολα αναγνώσιμη, ακόμη και όταν είναι γνωστός ο τρόπος σχεδιασμού της. Επιπλέον, επειδή ακριβώς δεν υπάρχει κάποιος προσανατολισμός δεν είναι δυνατή η σύγκριση των αποτελεσμάτων. Αυτό λύνεται με τη χρησιμοποίηση της τεχνικής Morton, που έχει ευκολονόητη ακολουθία γεμίσματος των υπό-τετραγώνων. Σχήμα 7.7 Peano - Hilbert

348 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 349 Σχήμα 7.8 Morton Recursive pattern technique Η τεχνική του επαναλαμβανόμενου προτύπου είναι η εξελιγμένη μορφή των τεχνικών γεμίσματος οθόνης που προαναφέρθηκαν. Η βασική ιδέα συνίσταται στη δημιουργία εικόνας δίνοντας έμφαση στις συστάδες (clusters) ενώ ταυτόχρονα δίνει τη δυνατότητα στο χρήστη να επηρεάσει την διάταξη των pixels στην οθόνη ώστε το αποτέλεσμα να είναι πιο κατανοητό ανάλογα με τις ανάγκες του. Αυτό έχει νόημα σε δεδομένα με ακολουθιακή εσωτερική δομή, όπως για παράδειγμα οι χρονολογικές σειρές (time series). Βασίζεται εξίσου σε επαναλαμβανόμενο σχήμα, γεμίζοντας την οθόνη αρχικά από τα αριστερά προς τα δεξιά και στην επόμενη γραμμή από τα δεξιά προς τα αριστερά, κ.ο.κ. ουσιαστικά, ο αλγόριθμος εμφανίζει τα αποτελέσματα στην οθόνη κατατμίζοντάς την έτσι ώστε κάθε ένα τμήμα της να παρουσιάζει τα δεδομένα με βάση τη μεταβλητή ταξινόμησης, για παράδειγμα με βάση τον χρόνο. Παράλληλα, δημιουργεί ομαδοποιήσεις των δεδομένων. Σε ένα υπότμήμα της οθόνης που απεικονίζει την εβδομάδα, τέσσερα υπό-τμήματα μαζί αποτελούν ένα μήνα στο σύνολό του. Με αυτό τον τρόπο δίνεται ιεραρχικό νόημα στο αποτέλεσμα.

349 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 350 Αναλυτικότερα, ορίζονται δύο μετρικές: 1. w που αναφέρεται στο πλάτος γραμμής και 2. h που ορίζει των αριθμό των γραμμών Grouping Techniques Η βασική ιδέα των τεχνικών ομαδοποίησης διαφέρει κατά πολύ από τις προηγούμενες τεχνικές. Δεν χρησιμοποιείται ένα υπό-παράθυρο για κάθε μεταβλητή αλλά τα αντικείμενα κάθε μεταβλητής ομαδοποιούνται και γεμίζουν από κοινού την περιοχή γύρω από το κέντρο. Η λογική αυτή είναι παρόμοια με την dimensional stacking τεχνική. Σημαντικό μειονέκτημά της είναι η αδυναμία απεικόνισης μεγάλου όγκου δεδομένων Τεχνικές βασισμένες σε Γραφήματα Παρόλο που και οι προηγούμενες τεχνικές χρησιμοποιούν διάφορα γραφήματα, η κατηγορία αυτή είναι ξεχωριστή. Οι τεχνικές βασισμένες σε γραφήματα (Graph Based Techniques) έχουν ορισμένα ιδιαίτερα χαρακτηριστικά [64]. Δεν απεικονίζουν την πληροφορία σε σύνολα αξόνων. Έχουν τη δυνατότητα να αναπαραστήσουν πολυδιάστατη πληροφορία χωρίς τη χρήση τρισδιάστατων αξόνων και αυτό τις διαχωρίζει από τις γεωμετρικές τεχνικές.

350 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 351 Αποτελούνται από σύνολα γραμμών ακμών (ευθειών ή καμπύλων) τα οποία ενώνουν σημεία κόμβους, σχηματίζοντας πολυγωνικούς σχηματισμούς γραμμών. Προορίζονται περισσότερο για δεδομένα που εμπεριέχουν πληροφορίες συσχέτισης και αλληλεξάρτησης (relational information). Μέσω των γραμμών ακμών που σχηματίζονται ανάμεσα στους κόμβους δηλώνονται οι σχέσεις αυτές. Υπάρχουν γραφήματα δύο και τριών διαστάσεων. Η εισαγωγή τρισδιάστατης τεχνολογίας εφαρμόζεται σε ήδη υπάρχουσες δισδιάστατες τεχνικές με σκοπό την καλύτερη εκμετάλλευση του χώρου, χωρίς αυτό να αλλοιώνει το αποτέλεσμα. Πάντοτε επιλέγεται μια διαδρομή των γραμμών που απεικονίζονται τέτοια ώστε να αποφεύγεται τόσο η διασταύρωση μεταξύ των γραμμών όσο και η επικάλυψη των σημείων κόμβων. Τα γραφήματα δίνουν μεγάλη έμφαση στον παράγοντα της αισθητικής. Η αισθητική αφορά ακριβώς τις λεπτές αλλά και σημαντικές αρχές που καθορίζουν τη σχεδίαση ενός γραφήματος. Η μεταβολή των κανόνων αισθητικής οδηγεί σε διαφορετικές προσεγγίσεις με αποτέλεσμα τη δημιουργία νέων τύπων γραφημάτων. Μερικοί κανόνες είναι οι εξής: Ο τύπος της ακμής να είναι ευθείες, πολυγωνικές γραμμές, καμπύλες. Το μήκος των ακμών να μεταβάλλεται ή όχι. Όταν το μήκος των ακμών μεταβάλλεται ακαθόριστα μεταξύ των συνδέσεων, τότε οι κόμβοι δεν ισαπέχουν μεταξύ τους. Το μέγεθος (ύψος, πλάτος) και ο χρωματισμός των κόμβων να είναι καθορισμένα.

351 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 352 Η ύπαρξη ομοιόμορφης κατανομής των ακμών στο διαθέσιμο χώρο. Η δημιουργία συμμετρικού ή ισοζυγισμένου γραφήματος. Αν και από πλευρά απεικόνισης είναι εύκολες τεχνικές, υπάρχουν πολλές παγίδες και δυσκολίες που ανακύπτουν. Μερικές είναι οι ακόλουθες: Απαιτούνται πολύπλοκοι αλγόριθμοι για τον υπολογισμό του τρόπου σχεδίασης των ακμών ώστε να μην περιπλέκονται, αποφεύγοντας έτσι ένα ακατανόητο αποτέλεσμα. Χρειάζονται ειδικοί αλγόριθμοι για τον υπολογισμό της κατανομής και των σημείων τοποθέτησης των κόμβων στην οθόνη. Απαραίτητος είναι και ο έλεγχος του βαθμού καμπυλότητας των ακμών. Όλα τα παραπάνω πρέπει να υπολογίζονται σε αποδεκτό χρόνο. Ακολουθεί η παρουσίαση τεσσάρων τεχνικών που ανήκουν στην κατηγορία των δισδιάστατων γραφημάτων και στη συνέχεια τριών που χρησιμοποιούν τεχνολογία τρισδιάστατων γραφημάτων και πολυδιάστατης παρουσίασης. Με αυτόν τον τρόπο γίνεται σαφές ότι κάθε τεχνική θεσπίζει τους κανόνες αισθητικής και έτσι ορίζει τον τύπο της. Ουσιαστικά, δεν αλλάζει η λογική απεικόνισης, αλλά αλλάζουν οι κανόνες Orthogonal Graph Σε ένα ορθογώνιο γράφημα οι ακμές είναι είτε ευθείες είτε πολυγωνικές με ορθογώνιες γωνίες. Για παράδειγμα, σε ένα γράφημα όπου χρησιμοποιούνται

352 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 353 τρεις διαστάσεις, που απεικονίζονται από το ύψος, το πλάτος και το χρώμα του κόμβου, παρουσιάζεται κάθε συσχέτιση ή αλληλεξάρτηση των κόμβων μεταξύ τους Symmetric Graph Η συμμετρική εικόνα του γραφήματος είναι βασικής σημασίας. Οι κόμβοι είναι με τέτοιο τρόπο κατανεμημένοι που παράγεται συμμετρικό αποτέλεσμα. Η συγκεκριμένη διαδικασία απαιτεί πολλούς μαθηματικούς υπολογισμούς δεδομένου ότι η τοποθέτηση των κόμβων γίνεται με βάση τις υπάρχουσες συσχετίσεις, ώστε η διασύνδεσή τους μέσω των ακμών να μην περιπλέκει το γράφημα Cluster Based Graph Στόχος του συγκεκριμένου αλγόριθμου του γραφήματος βασισμένο σε συστάδες, είναι να βρει τους κόμβους που παρουσιάζουν τις περισσότερες συνδυαστικές αλληλοσυσχετίσεις και να τους τοποθετήσει σε κάποιο σημείο ώστε να σχηματίσουν cluster Acyclic Graph Αυτή η τεχνική δημιουργεί ένα γράφημα όπου οι ακμές έχουν την έννοια της κατεύθυνσης. Δεν επιτρέπεται σε καμία περίπτωση η δημιουργία κυκλικών δομών μεταξύ των κόμβων. Αυτό σημαίνει ότι για κάθε κόμβο δεν υπάρχει κανένα μονοπάτι που να οδηγεί σε αυτό το ίδιο πάλι. Η συγκεκριμένη δομή είναι ιδιαίτερα πρόσφορη για την παρουσίαση δεδομένων, τα οποία εμπεριέχουν ιεραρχική πληροφορία.

353 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Hypergraphs Τα υπεργραφήματα εμπλουτίζουν τη λειτουργικότητα των κόμβων προσδίδοντάς τους μία πολυδιάστατη εικόνα. Συγκεκριμένα τα υπεργραφήματα αποτελούνται από τις γνωστές ακμές οι οποίες δηλώνουν τις συσχετίσεις των δεδομένων και από μία νέα μορφή κόμβων οι οποίοι περιέχουν 0 ή περισσότερους υπό-κόμβους. Με την επιλογή ενός σύνθετου κόμβου, ανοίγεται ένα νέο σύνολο δεδομένων με ακμές και κόμβους, οι οποίοι μπορεί να εξίσου σύνθετοι. Τα αποτελέσματα είναι: Κατηγοριοποίηση των δεδομένων, καθώς όλοι οι κόμβοι που ανήκουν σε ένα σύνθετο κόμβο παρουσιάζουν μια αλληλεξάρτηση με αυτόν. Καλύτερη εκμετάλλευση του χώρου της οθόνης, αφού δεν παρουσιάζονται ταυτόχρονα όλα τα δεδομένα της βάσης δεδομένων. Δυνατότητα δυναμικής αλληλεπίδρασης με το χρήστη, ο οποίος μπορεί να ανοίξει ένα σύνθετο κόμβο επιλέγοντάς τον. Αποτελεσματικότερη παρουσίαση των δεδομένων όσον αφορά τον τρόπο με τον οποίο ο χρήστης παρατηρεί και κατανοεί τα δεδομένα. Παρουσιάζονται καλύτερα οι συσχετίσεις και οι κατηγοριοποιήσεις των δεδομένων, χωρίς να χάνεται ο έλεγχος του οπτικού αποτελέσματος, παρόλο που περιορίζεται το μέγεθος των απεικονιζόμενων δεδομένων. Δυνατότητα χρησιμοποίησης εικονιδίων και λεκτικών για την αναπαράσταση των κόμβων. Η συγκεκριμένη τεχνική χρησιμοποιείται κυρίως για την αναπαράσταση ιεραρχικής πληροφόρησης, όπως για παράδειγμα η δομή ενός καταλόγου με web pages. Οι υπερσύνδεσμοι από τη μία σελίδα σε μία άλλη παρουσιάζονται μέσω των ακμών ενώ η ιεραρχική δομή των καταλόγων μέσω σύνθετων

354 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 355 κόμβων. Οι ακμές μπορούν να είναι κατευθυνόμενες, ενώ οι ακμές των σύνθετων κόμβων με τα παιδιά τους να μην είναι SeeNet Graphs Τα γραφήματα SeeNet οπτικοποιούν η ιεραρχικά δίκτυα με βάρη. Σημαντικό είναι το γεγονός ότι έχουν τη δυνατότητα αναπαράστασης ιεραρχικής πληροφορίας και προσαρμόζουν βάρη για την αναγνώριση του βαθμού συσχέτισης των δεδομένων. η θέση των κόμβων είναι σημασιολογική, η τοποθέτηση τους δεν γίνεται τυχαία αλλά σε σχέση με την μεταξύ τους συσχέτιση, δηλαδή οι κόμβοι με μεγάλα βάρη είναι πιο κοντά ο ένας με τον άλλον. Οι ιδιότητες των δεδομένων απεικονίζονται στο χρώμα και το μέγεθος των ακμών και των κόμβων. Ακόμη, υπάρχει η δυνατότητα αλληλεπίδρασης του γραφήματος με το χρήστη Narcissus Graphs Σκοπός της τεχνικής αυτής είναι η απεικόνιση δεδομένων με υψηλό βαθμό συσχετίσεων. Βασικός τομέας εφαρμογής της είναι το Internet, όπου κάθε κόμβος αναπαριστά μία σελίδα και οι ακμές παρουσιάζουν τους συνδέσμους μεταξύ αυτών των σελίδων. Χρησιμοποιείται τεχνολογία τρισδιάστατων γραφικών, και οι ιδιότητες των σελίδων παρουσιάζονται με βάση το χρώμα και το μέγεθος των κόμβων. Με την επιλογή του κάθε κόμβου ενεργοποιείται ο εξερευνητής (explorer) διαδικτύου και αναζητά την επιλεγμένη σελίδα [70]. Η τεχνική Narcissus θα μπορούσε να χρησιμοποιηθεί για την επεξεργασία των ιστορικών σελίδων που έχει επεξεργαστεί κάθε χρήστης. Επιπλέον, θα μπορούσε να χρησιμοποιηθεί και από μηχανές αναζήτησης σελίδων ή κειμένων (search agents, text retrieval). Το μειονέκτημά της όμως είναι ότι δεν παρέχει αναλυτική πληροφόρηση για την κάθε σελίδα.

355 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Τεχνικές Παραμόρφωσης Εικόνας Οι συγκεκριμένες τεχνικές (Distortion Techniques) αποσκοπούν στην ελεγχόμενη παραμόρφωση του οπτικού αποτελέσματος προκειμένου να είναι δυνατή η απεικόνιση όσο το δυνατόν περισσότερων δεδομένων στην οθόνη. Συνήθως, δίνεται έμφαση στα δεδομένα που έχουν μεγαλύτερη σχέση με κάποια ερώτηση που θέτει ο χρήστης, μειώνοντας τον χώρο για τα υπόλοιπα. Ακολουθεί μια περιληπτική παρουσίαση τεχνικών παραμόρφωσης Perspective Wall Το τοίχος με προοπτική είναι μια τεχνική που απευθύνεται κυρίως σε δεδομένα με γραμμική δομή [71]. Γραμμική πληροφορία θα μπορούσε να εμπεριέχει ένα σύνολο δεδομένων που χαρακτηρίζεται από χρονική διαδοχή πράξεων. Η απεικόνιση γραμμικής πληροφορίας έχει δύο σημαντικά μειονεκτήματα: Στις περιπτώσεις που το μέγεθος των δεδομένων είναι μεγάλο τότε είναι αδύνατο να χωρέσουν όλα τα δεδομένα στην οθόνη σειριακά. Επειδή ακριβώς δεν υπεισέρχεται ιεραρχική πληροφορία, δεν μπορούν τόσο να χρησιμοποιηθούν γνωστές ιεραρχικές τεχνικές, όσο και απεικονιστούν σειριακά όλα τα δεδομένα σε μία οθόνη. Δεν είναι δυνατός ο προσδιορισμός μεγάλου aspect ratio και ταυτόχρονα η παρουσίαση ενός κατανοητού αποτελέσματος. Ουσιαστικά, υπάρχει πρόβλημα στην παρουσίαση του συνόλου της πληροφορίας σε αναλυτικό επίπεδο. Η ολοκληρωμένη εικόνα δεν συμβαδίζει με την αναλυτική πληροφόρηση. Η επίλυση του συγκεκριμένου προβλήματος είναι η υλοποίηση της λογικής «Master Detail», κατά την οποία το σύνολο της πληροφορίας παρουσιάζεται

356 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 357 στην οθόνη και όταν ο χρήστης επιλέγει ένα συγκεκριμένο τμήμα τότε σε ένα μέρος της οθόνης παρουσιάζονται αναλυτικές πληροφορίες. Η Perspective Wall τεχνική αποτελεί μια εξέλιξη της Bifocal Lens, προσθέτοντας μία ακόμη διάσταση. Η τεχνική Bifocal Lens σχεδιάστηκε από μία εταιρία που συγκέντρωνε άρθρα, εφημερίδες, περιοδικά, γενικά έντυπο υλικό. Τα βασικά αποτελέσματα σε κάθε ερώτηση του χρήστη παρουσιάζονταν σε οριζόντια παράταξη στην οθόνη ανά σειρά, τα άρθρα, οι εφημερίδες κ.λ.π. στη συνέχεια παρουσιάζονταν και δεδομένα άλλων χρονικών περιόδων που σχετίζονταν με τα αποτελέσματα, στις δύο πλευρές της οθόνης, εισάγοντας κάποια παραμόρφωση, η οποία γινόταν μεγαλύτερη ανάλογα με τη χρονολογία. Στην Perspective Wall, υλοποιείται αυτή η λογική εισάγοντας τρισδιάστατη τεχνολογία και πολυμέσα. Τα βασικά αποτελέσματα της ερώτησης παρουσιάζονται στο κέντρο της οθόνης σε ένα μεγάλο παραλληλόγραμμο που προσομοιώνει ένα τοίχο, και τα σχετικά αποτελέσματα παρουσιάζονται σε δύο τοίχους αριστερά και δεξιά, δημιουργώντας την τρισδιάστατη εντύπωση. Σχήμα 7.9 Perspective Wall

357 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Table Lens Η τεχνική φακού μεγέθυνσης σε πίνακα παρουσιάζει τα δεδομένα ενός πίνακα σε μορφή γραφήματος και αναλυτικών εγγραφών ταυτόχρονα. Οι τιμές των στηλών του πίνακα αντικαθίστανται από την οπτική τους αναπαράσταση σε μία μορφή γραφικής απεικόνισης. Ανάλογα με την πληροφορία που περιέχουν επιλέγεται και ο τρόπος αναπαράστασής τους. Συχνά, οι μεταβλητές, που περιέχουν την πληροφορία με βάση την οποία δημιουργείται ιεραρχική δομή, παρουσιάζονται με χρήση των λεκτικών χαρακτηριστικών τους, ενώ οι μεταβλητές με αριθμητική πληροφορία παρουσιάζονται σε μορφή γραφήματος. Με αυτόν τον τρόπο απεικονίζονται ακόμη περισσότερες εγγραφές, αφού συμπυκνώνονται τα δεδομένα. Δίνεται μια εικόνα για το σύνολο των δεδομένων, έχοντας ένα σύνολο από γραφικές απεικονίσεις των δεδομένων, που είναι πολύ πιο εύκολα κατανοητές από τα νούμερα ενός πίνακα [7]. Η δυνατότητα αναλυτικότερης διερεύνησης των εγγραφών με σημαντική πληροφορία χωρίς απώλεια του συνολικού πλαισίου, είναι το στοιχείο διαφοροποίησης της τεχνικής Table Lens από τις υπόλοιπες προσεγγίσεις. Ο χρήστης έχει τη συνολική εικόνα των δεδομένων παράλληλα μπορεί να πάρει και αναλυτική πληροφόρηση για ένα σύνολο από εγγραφές που παρουσιάζουν ιδιόμορφη συμπεριφορά. Τα σημαντικότερα πλεονεκτήματα είναι τα ακόλουθα: Μεγάλος βαθμός αλληλεπίδρασης με το χρήστη. Εύκολη μεταλλαγή από συνολικό επίπεδο πληροφόρησης σε πιο λεπτομερειακή ανάλυση. Παρουσίαση των αποτελεσμάτων με τρόπο ώστε να μην χάνει ο χρήστης την επαφή με το συνολικό αποτέλεσμα. Ολοκληρωμένη μορφή παρουσίασης των δεδομένων.

358 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 359 Έμφαση σε τμήμα δεδομένων. Επιλέγοντας ένα συγκεκριμένο σύνολο δεδομένων ο χρήστης επικεντρώνει την προσοχή του σε αυτά Fisheye View Η τεχνική με προοπτική φακού μεγέθυνσης είναι αρκετά διαδεδομένη και παλιά τεχνική [72]. Συγκεκριμένα, επικεντρώνει την παρουσίασή της στα δεδομένα εκείνα που έχουν τη μεγαλύτερη σημασία. Θέτονται βάρη για κάθε μονάδα δεδομένων και ανάλογα με αυτά γίνεται και η σχετική απεικόνιση των αντικειμένων. Στην πραγματικότητα η τεχνική αυτή χρησιμοποιείται από πολλές άλλες, όπως Perspective Wall και Table Lens. Και στις δύο υπήρχε παραμόρφωση της εικόνας με σκοπό τόσο την εκμετάλλευση του διαθέσιμου χώρου στην οθόνη όσο και την επικέντρωση σε δεδομένα με σημαντική πληροφορία ή δεδομένα κοντά στο ερώτημα που έθεσε ο χρήστης. Ακριβώς αυτή είναι η λογική της Fisheye View. Στο κέντρο της οθόνης παρουσιάζονται τα δεδομένα με ενδιαφέρουσα πληροφορία με εμφανή διαφοροποίηση από τα άλλα δεδομένα. Στα γραφήματα, η επίδειξη του κέντρου ενδιαφέροντος γίνεται μέσα από τον προσδιορισμό του μεγέθους των κόμβων. Οι πιο σημαντικοί κόμβοι έχουν μεγαλύτερο μέγεθος και μακρύτερες ακμές, ενώ οι μικρότερης σημασίας κόμβοι απεικονίζονται μικρότεροι σε όγκο και πολύ κοντά ο ένας στον άλλο. Συνήθως παρουσιάζονται προβλήματα όσον αφορά την επιλογή των σωστών αλγορίθμων ανάλογα με το είδος των δεδομένων. Τέλος, αρνητικό είναι εξίσου το γεγονός ότι οι αλγόριθμοι απαιτούν χρόνο για τον υπολογισμός των κόμβων ενδιαφέροντος.

359 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης Hyperbolic Trees Η τεχνική δέντρων υπερβολικής γεωμετρίας αποτελεί εξέλιξη της τεχνικής Fisheye View. Υλοποιείται σε περιβάλλον δύο και τριών διαστάσεων και χρησιμοποιείται κυρίως για την απεικόνιση ιεραρχικών δομών δεδομένων. Το οπτικό αποτέλεσμα βασίζεται στις αρχές της Hyperbolic γεωμετρίας, από την οποία παίρνει και το όνομά της. Έχει τη δυνατότητα να παρουσιάζει μεγάλο αριθμό δεδομένων στην οθόνη, τόσο σε δισδιάστατο όσο και σε τρισδιάστατο γράφημα. Τα πλεονεκτήματα που παρουσιάζει σε σχέση με την Fisheye View είναι τα εξής: Η απεικόνιση των αποτελεσμάτων είναι καλύτερη οπτικά. Η παροχή επιπρόσθετης πληροφορίας του φυσικού μεγέθους του κάθε καταλόγου, που παρουσιάζεται από το μέγεθός της απεικόνισής του HyperBox Ο υπερ-κύβος είναι μια δισδιάστατη φωτογραφία ενός πολυδιάστατου κύβου. Το σχήμα του κύβου προκύπτει από ένα σύνολο ενωμένων παραλληλογράμμων που αντιστοιχούν σε κάθε διάσταση, συγκεκριμένου μεγέθους και κλίσης. Η τεχνική του HyperBox χρησιμοποιείται κυρίως για την αναπαράσταση πολυδιάστατης πληροφορίας Δυναμικές Τεχνικές Το κύριο χαρακτηριστικό των δυναμικών τεχνικών (Dynamic Techniques) είναι η δυνατότητα αλληλεπίδρασης. Ουσιαστικά, δεν πρόκειται για μια νέα

360 7 ο Κεφάλαιο Τεχνικές Οπτικής Παρουσίασης των Μοντέλων Εξόρυξης Γνώσης 361 κατηγορία τεχνικών. Αφορά υλοποιήσεις όλων των προηγούμενων τεχνικών από συστήματα τα οποία επιτρέπουν την άμεση αλληλεπίδραση με το χρήστη. Συνήθως, συνδυάζονται τα χαρακτηριστικά από διάφορες τεχνικές με κύριο στόχο την βελτίωση του παραγόμενου αποτελέσματος.

361 8 ο Κεφάλαιο Εξόρυξη Δεδομένων με το Weka 8.1 Εισαγωγή Το πρόγραμμα Weka αναπτύχθηκε στο Πανεπιστήμιο Waikato της Νέας Ζηλανδίας (University of Waikato in New Zealand). Επίσης, το Weka είναι ένα πτηνό με περίεργη μορφή που δεν πετάει και βρίσκεται μόνο σε νησιά της Νέας Ζηλανδίας. Το πρόγραμμα Weka είναι ανοιχτού τύπου λογισμικό (open source) γραμμένο σε Java, μια γλώσσα προγραμματισμού προσανατολισμένη στα αντικείμενα, που είναι ευρέως διαθέσιμη για όλες τις βασικές υπολογιστικές πλατφόρμες. Το Weka έχει δοκιμαστεί σε λειτουργικά συστήματα Linux, Windows αλλά και Macintosh. Εικόνα 8.1 Weka

362 8 ο Κεφάλαιο Εξόρυξη Γνώσης με το Weka 363 Η εφαρμογή παρέχεται δωρεάν στον δικτυακό τόπο μπορεί κάποιος να κατεβάσει την πιο πρόσφατη έκδοση της εφαρμογής, καθώς επίσης και να βρει πλούσιο υλικό. Μερικά από τα σημαντικότερα πλεονεκτήματα του Weka είναι τα ακόλουθα: Ευχέρεια εξόρυξης γνώσης μέσω του γραφικού περιβάλλοντος. Ευχρηστία και αμεσότητα εφαρμογής. Συνδυαστική επιλογή αλγορίθμων. Υποστήριξη δεδομένων από αρχεία και βάσεις δεδομένων. Πολλαπλές προπαρασκευαστικές τεχνικές. 8.2 Ξεκινώντας την Εφαρμογή Το Weka στο αρχικό γραφικό περιβάλλον, όπως φαίνεται και στην Εικόνα 8.2, παρέχει τέσσερις διαφορετικούς τρόπους λειτουργίας: Simple CLI H οποία αποτελεί µια command-line διεπαφή µέσω της οποίας εκτελούνται απευθείας οι εφαρμογές. Εικόνα 8.2 Αρχικό Γραφικό Περιβάλλον Weka

363 8 ο Κεφάλαιο Εξόρυξη Γνώσης με το Weka 364 Explorer Αποτελεί το βασικό περιβάλλον για την εξερεύνηση των δεδομένων όπου γίνεται η προεργασία των δεδομένων και η εκτέλεση των θεμάτων εξόρυξης γνώσης. Experimenter Αποτελεί το περιβάλλον για την πραγματοποίηση πειραμάτων και στατιστικών δοκιμών μεταξύ των σχημάτων που έχουν δημιουργηθεί. KnowledgeFlow Αποτελεί το περιβάλλον στο οποίο ο χρήστης μπορεί να κατασκευάσει τη μέθοδο που επιθυµεί µέσω ενός γραφικού περιβάλλοντος. Ο κοινός τρόπος αποθήκευσης δεδομένων είναι σε spreadsheet και databases. Παρόλα αυτά όμως, η εφαρμογή Weka απαιτεί τη μετατροπή των δεδομένων σε μορφή ARFF, επειδή είναι απαραίτητο να υπάρχει καθορισμός του τύπου κάθε μεταβλητής, αφού είναι αδύνατη η αναγνώριση από τις τιμές που παίρνει κάθε μεταβλητή..αυτό πραγματοποιείται ανοίγοντας αρχικά τη βάση δεδομένων σε text editor ή word processor. Στη συνέχεια, συμπληρώνεται το όνομα της βάσης δεδομένων χρησιμοποιώντας την έπειτα με την δίνονται πληροφορίες για τον τύπο των μεταβλητών και τέλος η δηλώνει την έναρξη των δεδομένων. Στο κεντρικό γραφικό περιβάλλον της εφαρμογής υπάρχουν οι εξής επιλογές (Σχήμα 8.3): Preprocess Επιλογή και τροποποίηση των δεδομένων της βάσης. Αρχικά ο χρήστης μπορεί να εισάγει δεδομένα στο Weka με τρεις τρόπους:

364 8 ο Κεφάλαιο Εξόρυξη Γνώσης με το Weka 365 1) Open file Εισαγωγή δεδομένων από το τοπικό σύστημα αρχείων σε μορφή ARFF. 2) Open URL Εισαγωγή δεδομένων από ένα συγκεκριμένο URL (Uniform Resource Locator), όπου βρίσκονται αποθηκευμένα. 3) Open DB Εισαγωγή δεδομένων από βάση δεδομένων. Για την επιλογή και τροποποίηση των δεδομένων, καθώς και των κατάλληλων γνωρισμάτων, στο στάδιο Preprocess υπάρχουν διαθέσιμες πολλές μέθοδοι: 1. Supervised Learning: Για στοιχεία: Discretization Nominal/Numeric to Binary AttributeSlection ClassOrder Για γνωρίσματα: Resample SpreadSubSample StratifiedRemoveFolds 2 Unsupervised Learning: Για στοιχεία: FirstOrder AddNoise AddCluster RemoveType RemoveUseless

365 8 ο Κεφάλαιο Εξόρυξη Γνώσης με το Weka 366 TimeSeriesDelta Για γνωρίσματα: Normalize Randomize RemoveRange RemoveWithValues Resample Classify Κατηγοριοποίηση δεδομένων. Μερικοί από τους αλγόριθμους που υποστηρίζονται από το Weka είναι οι εξής: 1) Bayes AODE BayesNet NaiveBayes NaiveBayesSimple NaiveBayesUpdateable 2) Functions LeastMedSq Logistic SMO SMOreg SimpleLogistic Winnow 3) Trees ADTree DecisionStump

366 8 ο Κεφάλαιο Εξόρυξη Γνώσης με το Weka 367 Id3 LMT NBTree RandomTree REPTree 4) Rules OneR PART Prism Ridor ZeroR Εικόνα 8.3 Κεντρικό Γραφικό Περιβάλλον Weka

Δείτε περισσότερα