ΜΕΛΕΤΗ ΤΕΧΝΙΚΩΝ, ΜΕΘΟΔΟΛΟΓΙΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΣΤΟΝ ΤΟΜΕΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ

^,ΛίΓ πγΐν ΤΕΙ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ Πτυχιακή Εργασία: ΜΕΛΕΤΗ ΤΕΧΝΙΚΩΝ, ΜΕΘΟΔΟΛΟΓΙΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΣΤΟΝ ΤΟΜΕΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ Κωσιωρή Αφροδίτη ΜΑΙΟΣ 2013 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ Κος Ζαφειρίδης Παναγιώτης Εκπονηθείσα πτυχιακή εργασία απαραίτητη για την κτήση του βασικού πτυχίου

ΠΡΟΛΟΓΟΣ Η σύγκλιση της προόδου των υπολογιστικών συστημάτων και της εξέλιξης στην επικοινωνία έχει οδηγήσει στην δημιουργία μιας κοινωνίας ικανής να παρέχει διαρκώς νέες πληροφορίες. Το υλικό που συγκεντρώνεται καταγράφεται διαρκώς, με αποτέλεσμα τη δημιουργία τεράστιων βάσεων δεδομένων. Το ζήτημα λοιπόν που προκύπτει είναι εάν μπορούμε να διαχειριστούμε αυτές τις βάσεις δεδομένων. Είναι βέβαιο ότι ζούμε στην κοινωνία της πληροφορίας, όπου η μετατροπή των δεδομένων σε πληροφορία απαιτείται να οδηγεί στην μετατροπή της πληροφορίας σε γνώση. Μια από τις πιο μεγάλες προκλήσεις της εποχής μας είναι η ανακάλυψη προτύπων, τάσεων και ανωμαλιών σε τεράστια σύνολα δεδομένων, καθώς και η σύνοψη τους μέσω απλών και εύχρηστων μοντέλων. Η συνύπαρξη ετερόκλητων επιστημονικών πεδίων όπως της στατιστικής, της μηχανικής μάθησης, της θεωρίας της πληροφορίας και των υπολογιστικών διαδικασιών, έχει δημιουργήσει μια νέα επιστήμη με δυναμικά εργαλεία, η οποία καλείται «Εξόρυξη Δεδομένων» Σελ.5 από 157

Περιεχόμενα ΠΡΟΛΟΓΟΣ... 5 Πίνακας Σχημάτων... 10 ΚΕΦΑΛΑΙΟ 1Ο ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ...12 ΕΙΣΑΓΩΓΗ... 12 1.1 Εξόρυξη και Ανακάλυψη Γνώσης...12 1.2 Τα Στάδια της KDD Διαδικασίας...14 1.3 Οι ρίζες της Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων... 19 1.3.1 Στατιστική...20 1.3.2 Τεχνητή Νοημοσύνη-Μηχανική Μάθηση...21 1.3.3 Βάσεις Δεδομένων...22 1.3.4 Ανάκτηση Πληροφοριών...23 1.4 Δεδομένα Προς Ανακάλυψη Γνώσης...23 1.4.1. Τι Είδους Δεδομένα Συλλέγουμε...23 1.4.2 Τύποι Δεδομένων Για Την Ανακάλυψη Γνώσης... 25 1.4.2.1 Επίπεδα αρχεία (Flat files)...25 1.4.2.2 Σχεσιακές βάσεις δεδομένων (Relational Databases)...26 1.4.2.3 Αποθήκες δεδομένων (Data Warehouse)...26 1.4.2.4 Βάσεις Δεδομένων Συναλλαγών (Transactional Databases)...28 1.4.2.5 Βάσεις δεδομένων Πολυμέσων (Multimedia Databases)...28 1.4.2.6 Χρονικές βάσεις δεδομένων (Temporal Databases)...28 1.4.2.7 Χωρικές βάσεις δεδομένων (Spatial Databases)...29 1.4.2.8 Βάσεις δεδομένων κειμένου (Text databases)...29 1.4.2.9 Παγκόσμιος Ιστός...30 1.5 Η Εξόρυξη Γνώσης Από Δεδομένα Ως Στάδιο Της KDD...30 1.6 Εργασίες Εξόρυξης Γνώσης Από Δεδομένα...33 1.6.1 Κατηγοριοποίηση...33 1.6.2 Παλινδρόμηση...34 1.6.3 Ανάλυση Χρονοσειρών...34 Σελ.6 από 157

1.6.4 Πρόβλεψη... 35 1.6.5 Συσταδοποίηση...36 1.6.6 Παρουσίαση Συνόψεων...36 1.6.7 Κανόνες Συσχέτισης...37 1.6.8 Ανακάλυψη Ακολουθιών...37 ΚΕΦΑΛΑΙΟ 2Ο ΜΟΝΤΕΛΟΠΟΙΩΝΤΑΣ ΤΗΝ KDD ΔΙΑΔΙΚΑΣΙΑ...38 Εισαγωγή στη Μοντελοποίηση...38 2.1 Επισκόπηση Μοντέλων...39 2.2 Το μοντέλο Crisp-DM (CRoss Industry Standard Process for Data Mining)... 42 Το CRISP DM σε δράση...47 ΚΕΦΑΛΑΙΟ 3Ο ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ... 52 Εισαγωγή στην Κατηγοριοποίηση...52 3.1 Η διαδικασία της κατηγοριοποίησης...52 3.1.1 Εκτίμηση ακρίβειας Κατηγοριοποιητή...56 3.2 Αλγόριθμοι Κατηγοριοποίησης...58 3.2.1 Αλγόριθμοι Βασισμένοι στην απόσταση...59 3.2.1.1 Κ Πλησιέστεροι Γείτονες...63 3.2.2 Αλγόριθμοι Δένδρων Αποφάσεων...65 3.2.2.1 Ο Αλγόριθμος ID3...71 3.2.2.1.1Ο Αλγόριθμος ID3 σε Java...75 3.2.2.2 Ο Αλγόριθμος C4.5...79 3.2.2.3 Ο Αλγόριθμός CART...81 3.2.2.4 Κλιμακούμενες Τεχνικές για Δένδρα Απόφασης...82 3.2.3 Bayesian Κατηγοριοποίηση...85 3.2.3.1 Naïve Bayes...85 3.2.4 Υπόλοιπες τεχνικές Κατηγοριοποίησης...89 3.2.4.1 Νευρωνικά Δίκτυα...89 3.2.4.2 Κατηγοριοποίηση βάσει Κανόνων...91 Σελ.7 από 157

3.2.4.3 Κατηγοριοποίηση με SVM's...92 ΚΕΦΑΛΑΙΟ 4Ο ΣΥΣΤΑΔΟΠΟΙΗΣΗ...94 Εισαγωγή στη Συσταδοποίηση...94 4.1 Η διαδικασία της Συσταδοποίησης...95 4.2 Κατηγοριοποίηση των αλγορίθμων Συσταδοποίησης...97 4.3 Ιεραρχικοί Αλγόριθμοι Συσταδοποίησης...98 4.3.1 Ο Αλγόριθμος CURE...100 4.3.2 Ο Αλγόριθμος Β^ΟΗ...102 4.3.3 Ο Αλγόριθμος ROCK...103 4.4 Διαμεριστικοί Αλγόριθμοι Συσταδοποίησης...104 4.4.1 Ο Αλγόριθμος K-Means...105 4.4.2 Ο αλγόριθμος PAM...110 ΚΕΦΑΛΑΙΟ 5Ο ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ...114 Εισαγωγή στους Κανόνες Συσχέτισης...114 5.1 Κανόνες Συσχέτισης και Στοιχειοσύνολα...115 5.2 Αλγόριθμοι Κανόνων Συσχέτισης...118 5.2.1 Ο Αλγόριθμος Apriori...118 5.2.2 O Αλγόριθμος Akamas...128 ΚΕΦΑΛΑΙΟ 6Ο Εξόρυξη Γνώσης από τον Παγκόσμιο στον Σημασιολογικό Ιστό... 130 Εισαγωγή... 130 6.1 Εξόρυξη Γνώσης από τον Παγκόσμιο Ιστό (ΠΙ)...132 6.1.1 Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού... 133 6.1.3 Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού...135 6.1.4 Εφαρμογές Εξόρυξης Γνώσης ΠΙ...137 6.1.4.1 Προσωποποίηση περιεχομένου...137 6.1.4.2 Προανάκληση και επαναποθήκευση δεδομένων...137 6.1.4.3 Υποστήριξη στο σχεδιασμό σελίδων...138 Σελ.8 από 157

6.1.4.4 Ηλεκτρονικό εμπόριο...138 6.2 Ο Σημασιολογικός Ιστός (ΣΙ)... 138 6.2.1 Εξόρυξη Γνώσης από τον Σημασιολογικό Ιστό... 142 6.2.2 Εφαρμογές Εξόρυξης Γνώσης ΣΙ... 143 ΚΕΦΑΛΑΙΟ 7Ο Η Προσφορά της Εξόρυξης Γνώσης σε διάφορους επιστημονικούς τομείς... 146 Εισαγωγή... 146 7.1 Εξόρυξη Γνώσης στη Βιοϊατρική και στην ανάλυση DNA δεδομένων... 146 7.2 Εξόρυξη Γνώσης στο Τομέα των Τηλεπικοινωνιών...147 7.3 Εξόρυξη Γνώσης για την Βιομηχανία του Λιανικού εμπορίου(^3ΐί industry)... 149 7.4 Εξόρυξη Γνώσης στην ανάλυση Χρηματοοικονομικών δεδομένων...150 Συμπεράσματα-Μελλοντικές Τάσεις...152 Βιβλιογραφία... 154 Σελ.9 από 157

Πίνακας Σχημάτων [ 1] Σχήμα 1.1: Διαδικασία KDD 16 [2] Σχήμα 1.2: Επιστημονικά Πεδία Ανακάλυψης Γνώσης σε βάσεις δεδομένων 20 [3] Σχήμα 1.3: Αποθήκη δεδομένων 28 [4] Σχήμα 1.4: Μοντέλα και εργασίες στην εξόρυξη γνώσης από δεδομένα 34 [5] Σχήμα 1.5: Ένα τυπικό διάγραμμα χρονοσειρών 36 [6] Σχήμα 2.1: The Reinartz s model 42 [7] Σχήμα 2.2: Το μοντέλο CRISP-DM 44 [8] Σχήμα 2.3: Crisp-dm Step-by-step data mining guide 46 [9] Σχήμα 3.1: Η διαδικασία της κατηγοριοποίησης 55 [ 10] Σχήμα 3.2: Εκτίμηση ακρίβειας με την μέθοδο holdout 57 [ 11] Σχήμα 3.3: Εκτίμηση ακρίβειας με τη μέθοδο k-fold cross-validation 58 [12] Σχήμα 3.6: Κατηγοριοποίηση με χρήση απλού αλγόριθμου απόστασης 62 [ 13] Σχήμα 3.7: Κατηγοριοποίηση με χρήση KNN 63 [ 14] Σχήμα 3.8(i): Αναπαράσταση Δένδρου από δεδομένα πίνακα 3.1 67 [15] Σχήμα 3.9: Το πρόβλημα της κατηγοριοποίησης με ID3 74 [ 16] Σχήμα 3.10: Νευρωνικό Δίκτυο 91 [ 17] Σχήμα 3.11: SVM διαχωρισμός 94 [ 18] Σχήμα 4.1: Η διαδικασία της Συσταδοποίησης 96 [ 19] Σχήμα 4.2 : Δενδρόγραμμα 98 [20] Σχήμα 4.3 Ακολουθία Συσσωρευτικών αλγορίθμων 99 [21] Σχήμα 4.4 : Προσέγγιση του Αλγόριθμου CURE 102 [22] Σχήμα 4.5: Αρχικοποίηση K-Means 107 [23] Σχήμα 4.6: Παράδειγμα αποτελεσμάτων με την μέθοδο K-Means 108 [24] Σχήμα 4.7: Fuzzy k-means 111 [25] Σχήμα 4.8 Σύγκριση Κ-means & Pam 112 [26] Σχήμα 5.1: Παράδειγμα της βασικής αρχής του Apriori αλγόριθμου 119 [27] Σχήμα 5.2: Κλάδεμα των μη συχνών itemsets 120 Σελ.10 από 157

[28] Σχήμα 6.1: Κατηγοριοποίηση εργασιών Web Mining 133 [29] Σχήμα 6.2: Συσχετίσεις κατηγοριών Web Mining 134 [30] Σχήμα 6.3: Ιεραρχία εξόρυξης κειμένου 135 [31] Σχήμα 6.4: Η δημιουργία του Semantic WM 139 [32] Σχήμα 6.5:Η Δομή του Σημασιολογικού Ιστού 141 [33] Σχήμα 6.6: RDF γράφημα οντολογίας 142 Σελ.11 από 157

ΚΕΦΑΛΑΙΟ 1 Ο ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ «Knowledge Discovery is the most desirable end-product of computing. It's not surprising that is also one of the most difficult computing challenges to do well... (Gio Wiederhold '96)» ΕΙΣΑΓΩΓΗ Ιστορικά, στην έννοια της εύρεσης χρήσιμων συσχετίσεων μεταξύ των δεδομένων έχουν δοθεί ποικίλα ονόματα από διάφορες επιστημονικές κοινότητες, μερικά από τα οποία είναι η εξόρυξη γνώσης από δεδομένα, η εξαγωγή γνώσης, η ανακάλυψη γνώσης, η συγκομιδή πληροφοριών, data archaeology και η διαδικασία συσχετίσεων των δεδομένων. Ο όρος "εξόρυξη γνώσης από δεδομένα" (data mining) έχει χρησιμοποιηθεί κυρίως από τους στατιστικούς, τους αναλυτές δεδομένων, τις κοινότητες συστημάτων διαχείρισης πληροφοριών καθώς και στις επιχειρηματικές κοινότητες. Η φράση "Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων"(knowledge discovery in databases) δημιουργήθηκε στο πρώτο KDD εργαστήριο, το 1989 για να δώσει έμφαση στο ότι η γνώση είναι το τελικό προϊόν από μια οδηγούμενη από τα δεδομένα ανακάλυψη. Έχει διαδοθεί στους τομείς της Τεχνητής Νοημοσύνης, της Μηχανικής Μάθησης, της Στατιστικής και των Βάσεων Δεδομένων. Παρακάτω αναφέρουμε τη σχέση μεταξύ της Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων και των παραπάνω τομέων.[7] 1.1 Εξόρυξη και Ανακάλυψη Γνώσης Οι όροι «Εξόρυξη Γνώσης από Δεδομένα» (DataMining) και «Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων» (Knowledge Discovery in Databases, KDD) Σελ.12 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή συχνά χρησιμοποιούνται εναλλακτικά για την ίδια έννοια. Στην πραγματικότητα όμως η «Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων» χρησιμοποιείται για να εκφράσει μια διαδικασία που αποτελείται από πολλά βήματα και η «Εξόρυξη Γνώσης από Δεδομένα» είναι ένα κομμάτι της διαδικασίας αυτής. Με λίγα λόγια, η ανακάλυψη γνώσης σε βάσεις δεδομένων (KDD) είναι η διαδικασία εύρεσης χρήσιμων πληροφοριών και προτύπων στα δεδομένα, ενώ η εξόρυξη γνώσης από δεδομένα είναι η χρήση αλγορίθμων για την εξαγωγή πληροφοριών και προτύπων που παράγονται με την διαδικασία ανακάλυψης γνώσης σε βάσεις δεδομένων.[3] Ένας γενικός ορισμός, που παρουσιάζει με περισσότερη σαφήνεια την έννοια του όρου KDD δόθηκε από τους Frawley,Piatesky-Shaphiro και Matheus (1996), σύμφωνα με τον οποίο: «Η ανακάλυψη γνώσης στις βάσεις δεδομένων είναι η ντετερμινιστική και σημαντική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών μοτίβων στα δεδομένα» Για να γίνει πιο κατανοητή η έννοια των όρων που συμπεριλαμβάνονται στον παραπάνω ορισμό, ακολουθεί μια σύντομη περιγραφής τους: > Τα δεδομένα αποτελούν ένα σύνολο πραγματικών οντοτήτων ή συσχετίσεων. Για παράδειγμα, θα μπορούσε να είναι ένα σύνολο εγγραφών των ασθενών ενός νοσοκομείου στις οποίες υπάρχει περιγραφή κάποιων ιδιοτήτων τους (για παράδειγμα όνομα, επώνυμο, ημερομηνία γέννησης και διάγνωση). > Ο όρος μοτίβο ή πρότυπο (pattern) εγκολπώνει έννοιες όπως συσχετίσεις (correlations), συνάφειες ή σχέσεις (relationships), γραμμές κατεύθυνσης (trends), περιγραφές σπάνιων γεγονότων, κλπ. Βέβαια υπάρχουν και άλλοι τρόποι περιγραφής του στόχου της ανακάλυψης γνώσης και της εξόρυξης δεδομένων, ανάλογα πάντα με τη γενικότητα του προβλήματος και τις προσδοκίες των επιστημόνων. Πρότυπα είναι μια έκφραση, σε μια Σελ. 13 από 157

Κεφάλαιο 1ο 1.2 Τα Στάδια της Κϋϋ Διαδικασίας συγκεκριμένη γλώσσα, που περιγράφει ένα υποσύνολο των δεδομένων χρησιμοποιώντας τις κοινές ιδιότητες τους. > Ο όρος διαδικασία υπονοεί ότι η ανακάλυψη γνώσης από βάσεις δεδομένων είναι μια διαδικασία πολλαπλών βημάτων, που περιλαμβάνει την προεπεξεργασία των δεδομένων, την αναζήτηση προτύπων και την αξιολόγηση της εξαγόμενης γνώσης. Τα βήματα αυτά επαναλαμβάνονται κατά την διάρκεια πολλαπλών επαναλήψεων. > Ο όρος ντετερμινιστική αναφέρεται στο ότι η ανακάλυψη γνώσης δεν είναι ένας απλός υπολογισμός προκαθορισμένων μεγεθών, όπως για παράδειγμα υπολογισμός του μέσου όρου ενός συνόλου αριθμών, αλλά περιλαμβάνει κάποια αναζήτηση και συμπεράσματα. > Εγκυρότητα των προτύπων σημαίνει ότι τα πρότυπα που προκύπτουν θα πρέπει να ισχύουν και είναι συνεπή και για νέα δεδομένα, με κάποιο βαθμό βεβαιότητας. > Ενδεχομένως χρήσιμων σημαίνει ότι η ανακάλυψη προτύπων θα πρέπει να οδηγεί σε ορισμένες χρήσιμες διεργασίες. Η χρησιμότητα τους αξιολογείται μέσω συναρτήσεων εκτίμησης χρησιμότητας. > Εν τέλει Κατανοητά σημαίνει ότι τα νέα πρότυπα που θα προκύψουν θα πρέπει να είναι κατανοητά, αν όχι άμεσα, τουλάχιστον έπειτα από μικρή επεξεργασία, ακόμη και από μη ειδικούς έτσι ώστε να μπορούν να αξιοποιηθούν εύκολα στην λήψη αποφάσεων. 1.2 Τα Στάδια της Κϋϋ Διαδικασίας Η KDD, όπως θα δούμε στη συνέχεια, είναι μια διαδικασία που περιλαμβάνει πολλά βήματα. Η είσοδος σε αυτή τη διαδικασία είναι τα δεδομένα, και οι χρήσιμες πληροφορίες που επιθυμούν οι χρήστες είναι η έξοδος. Όμως, ο αντικειμενικός σκοπός δεν είναι εξαρχής ξεκάθαρος. Η διαδικασία από μόνη της είναι διαδραστική και συνήθως απαιτείται πολύς χρόνος για την ολοκλήρωσης της. Για να διασφαλιστεί η χρησιμότητα και η ακρίβεια των αποτελεσμάτων αυτής της διαδικασίας, συνήθως χρειάζεται η συνεργασία Σελ. 14 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή ειδικών του πεδίου εφαρμογής με ειδικούς της διαδικασίας KDD καθ' όλη τη διάρκεια της διαδικασίας αυτής.[2] Ο Fayyad στο "Advances in Knowledge Discovery and Data Mining (1996) επικεντρώθηκε στην ανακάλυψη γνώσης από βάσεις δεδομένων και θεώρησε την προσπάθεια αυτή ως: «Τη διεργασία της χρήσης των βάσεων δεδομένων μαζί με οποιαδήποτε απαίτηση επιλογής, προεπεξεργασίας, υποδειγματοποίησης και μετασχηματισμού, προκειμένου να εφαρμοσθούν οι διάφοροι μέθοδοι εξόρυξης δεδομένων για να απαριθμηθούν τα μοτίβα που ενυπάρχουν στη βάση, και για να αξιολογηθούν τα προϊόντα της εξόρυξης γνώσης για να αναγνωριστούν τα υποσύνολα των απαριθμηθέντων μοτίβων που θεωρούνται γνώση» Το Σχήμα 1.1 επεξηγεί τη συνολική διαδικασία της ανακάλυψης γνώσης σε βάσεις δεδομένων. Σχήμα1.1: Διαδικασία KDD (τροποποιημένο από [7]). Κάτι σημαντικό, το οποίο πρέπει να ληφθεί σοβαρά υπόψη είναι ότι πολλές φορές μπορεί να χρειαστεί κάποια από τα επιμέρους βήματα να επαναληφθούν. Αυτό μπορεί να συμβεί, γιατί στην πορεία πιθανώς να εμφανιστούν προβλήματα που να έχουν σχέση με τις αρχικές επιλογές και τα Σελ.15 από 157

Κεφάλαιο 1ο 1.2 Τα Στάδια της KDD Διαδικασίας οποία δεν ήταν δυνατόν να εντοπιστούν από την αρχή της διαδικασίας. Είναι, δηλαδή, μία διαδραστική και επαναληπτική διαδικασία, η οποία περιλαμβάνει πολυάριθμα βήματα με πολλές από τις αποφάσεις να λαμβάνονται από το χρήστη. Η διαδικασία KDD αποτελείται από τα επόμενα έξι βήματα: 1. Κατανόηση της περιοχής εφαρμογής Σχετικά με τη προγενέστερη γνώση του προς εξέταση τομέα και τους στόχους του τελικού χρήστη. 2. Επιλογή Δεδομένων Στο στάδιο αυτό δημιουργείται το σύνολο δεδομένων, πάνω στο οποίο θα εφαρμοστεί η KDD διαδικασία. Οι αλγόριθμοι που εκτελούν την ανακάλυψη γνώσης, συνήθως, δεν μπορούν να χρησιμοποιήσουν τα δεδομένα με την μορφή στην οποία είναι εξ αρχής οργανωμένα. Γι' αυτό ακριβώς το λόγο απαιτείται η εξαγωγή τους από τους πολλαπλούς πίνακες και η οργάνωση τους σε απλούστερες και πιο ευκολόχρηστες δομές. Συνήθως, η ανάγκη αυτή ικανοποιείται με την χρήση των συστημάτων αποθήκευσης δεδομένων (data warehouse), τα οποία παρέχουν στους αλγορίθμους ανακάλυψης γνώσης μία πιο εύκολα προσβάσιμη οπτική των δεδομένων. 3. Προεπεξεργασία Δεδομένων Στο στάδιο αυτό αντιμετωπίζονται περιπτώσεις ελλιπών δεδομένων (όπως άδεια πεδία), πεδίων με τιμές που ουσιαστικά τα καθιστούν κενά, (όπως Οδός="Άγνωστο"), πεδίων με τιμές που υπονοούν κάτι άλλο (όπως καταχώριση μιας συγκεκριμένης ημερομηνίας σε πεδίο που απαιτούσε τιμή, αλλά αυτή δεν ήταν διαθέσιμη). Το στάδιο αυτό μπορεί να ονομαστεί και στάδιο καθαρισμού των δεδομένων (data cleaning), εξαιτίας των διαδικασιών που λαμβάνουν χώρα σε αυτό. Στο στάδιο αυτό περιλαμβάνεται ακόμα, η Σελ. 16 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή αφαίρεση του θορύβου (noise, δηλαδή λανθασμένα δεδομένα) από τα δεδομένα, όταν αυτό χρειάζεται, συλλέγοντας τις απαραίτητες πληροφορίες για τη διαμόρφωση ή την περιεκτικότητα του θορύβου, παίρνοντας έτσι αποφάσεις για τις στρατηγικές όσον αφορά τη διαχείριση ελλιπών πεδίων δεδομένων. 4.Μετασχηματισμός Δεδομένων Τα δεδομένα που προέρχονται από διαφορετικές πηγές χρειάζονται να μετατραπούν σε ένα κοινό σχήμα για την περαιτέρω επεξεργασία τους. Μερικά δεδομένα ίσως απαιτείται να κωδικοποιηθούν ή να μετασχηματιστούν σε πιο λειτουργικές δομές. Μπορεί να μειωθούν τα δεδομένα για να ελαττωθεί ο αριθμός των πιθανών τιμών των δεδομένων που θα ληφθούν υπόψη. [2] Οι μετασχηματισμοί μπορεί να περιλαμβάνουν για παράδειγμα, τη μείωση του αριθμού των υπό εξέταση χαρακτηριστικών (dimensionality reduction) με επιλογή ορισμένων εξ' αυτών (feature selection ή attribute selection), την ομοιόμορφη κωδικοποίηση της ποιοτικά ίδιας πληροφορίας, τη μετατροπή συνεχόμενων αριθμητικών τιμών σε διακριτές τιμές (διακριτοποίηση) και πολλά άλλα. Οι μετασχηματισμοί αυτοί γίνονται ανάλογα με τον στόχο της διεργασίας. Η μείωση του αριθμού των διαστάσεων των δεδομένων, αφαιρώντας ακατάλληλα χαρακτηριστικά, μπορεί να βελτιώσει την απόδοση των αλγορίθμων όσον αφορά την ταχύτητα τους, άλλα και την ποιότητα της εξαγόμενης γνώσης, εστιάζοντας στα πιο σχετικά και άρα σημαντικά χαρακτηριστικά. Η επιλογή χαρακτηριστικών μπορεί να γίνει με αυτόματες μεθόδους, αλλά ο καλύτερος τρόπος είναι να γίνει από κάποιον ειδικό του τομέα στον οποίο αναφέρονται τα δεδομένα. Ο ειδικός θα έχει μία καλύτερη οπτική των δεδομένων και θα κατανοεί καλύτερα τη σημασία κάθε χαρακτηριστικού. Σελ.17 από 157

Κεφάλαιο 1ο 1.2 Τα Στάδια της KDD Διαδικασίας Η επιλογή χαρακτηριστικών είναι μία απαραίτητη διαδικασία, γιατί συνήθως τα δεδομένα περιλαμβάνουν χαρακτηριστικά τα οποία είναι είτε περιττά στη διαδικασία ανακάλυψης γνώσης είτε ακατάλληλα. Αν και οι περισσότεροι αλγόριθμοι σχεδιάζονται για να μαθαίνουν ποια είναι τα πιο σημαντικά χαρακτηριστικά για τη λήψη μίας απόφασης, όπως για παράδειγμα στα δέντρα απόφασης, οπού επιλέγεται σε κάθε κόμβο το πιο κατάλληλο χαρακτηριστικό για να γίνει ο διαχωρισμός, εντούτοις η ύπαρξη μεγάλου αριθμού μη-σχετικών ή ακατάλληλων χαρακτηριστικών μειώνει σημαντικά την απόδοση των αλγορίθμων. Με τον όρο διακριτοποίηση αναφερόμαστε στη διαδικασία μετασχηματισμού ενός χαρακτηριστικού που παίρνει συνεχείς αριθμητικές τιμές, σε ένα πεπερασμένο σύνολο διακριτών διαστημάτων. Η διαδικασία αυτή απαιτείται είτε γιατί ο αλγόριθμος δεν μπορεί να χειριστεί αριθμητικά δεδομένα είτε δεν τα χειρίζεται σε βαθμό που να βγάζει τα επιθυμητά αποτελέσματα. 5.Εξόρυξη Γνώσης από Δεδομένα Στο βήμα αυτό καθορίζεται τι είδους γνώση θα αναζητηθεί, κάτι το οποίο έμμεσα προσδιορίζει και την κατηγορία αλγορίθμου που θα χρησιμοποιηθεί. Αν θα είναι αλγόριθμος κατηγοριοποίησης, συσταδοποίησης, οπισθοδρόμησης και ούτω καθεξής. Η εφαρμογή του αλγορίθμου είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική αναζήτηση της γνώσης από τα δεδομένα. Μπορούν να προκύψουν δύο είδη γνώσης ως παράγωγα της διαδικασίας Εξόρυξη Γνώσης από δεδομένα: Τα προβλεπτικά μοντέλα (predictive model) και Τα περιγραφικά μοντέλα (descriptive model) Σελ. 18 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή Η διαφορά των δύο μοντέλων έγκειται στο γεγονός ότι τα προβλεπτικά μοντέλα, σε αντίθεση από τα περιγραφικά, χρησιμοποιούν την μάθηση με επίβλεψη. 6.Ερμηνεία (interpretation) Στο τελευταίο στάδιο της διαδικασίας γίνεται η ερμηνεία και η αξιολόγηση των ευρεθέντων προτύπων/μοντέλων. Είναι πολύ σημαντικό το πώς θα παρουσιαστούν στους χρήστες τα αποτελέσματα της εξόρυξης γνώσης, επειδή η χρησιμότητα ή μη των αποτελεσμάτων μπορεί να εξαρτάται ακριβώς από αυτήν την παρουσίαση. Σε αυτό το τελευταίο βήμα χρησιμοποιούνται διάφορες στρατηγικές οπτικοποίησης και γραφικές διεπαφές χρήστη (GUI- Graphical user interface).[2] 1.3 Οι ρίζες της Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων Η Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων έχει δανειστεί τις τεχνικές και την ορολογία από τις τρείς βασικές της ρίζες, τον τομέα της Στατιστικής, της Μηχανικής Μάθησης(ML)/Τεχνητής Νοημοσύνης(ΑΙ) και των Βάσεων Δεδομένων. Σημαντική επιρροή άσκησε και ο τομέας Ανάκτησης Πληροφοριών. Σχήμα1.2: Επιστημονικά Πεδία Ανακάλυψης Γνώσης σε βάσεις δεδομένων Σελ.19 από 157

Κεφάλαιο 1ο 1.3 Οι ρίζες της Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων 1.3.1 Στατιστική Η Στατιστική είναι ο παλαιότερος τομέας που χρησιμοποιεί η Ανακάλυψη Γνώσης σε Βάσεις δεδομένων και χωρίς αυτή δεν θα ήταν εφικτή η ύπαρξη της. Η κλασσική Στατιστική εμπερικλείει τεχνικές οι οποίες συνοψίζονται σε αυτό που μας είναι γνωστό ως Εξερευνητική Ανάλυση Δεδομένων (Exploratory Data Analysis (EDA)) και χρησιμοποιείται για να προσδιορίσει διάφορες συσχετίσεις ανάμεσα σε διαφορετικές μεταβλητές, όταν δεν υπάρχουν αρκετές πληροφορίες για την φύση των δεδομένων. [4] Το κοινό σημείο του τομέα της στατιστικής και της εξόρυξης γνώσης είναι ότι και οι δύο αποσκοπούν στην αναγνώριση χρήσιμων πληροφοριών και προτύπων στα δεδομένα. Μέρος της διεργασίας μοντελοποίησης της εξόρυξης γνώσης αποτελεί η αναζήτηση των πραγματικών δεδομένων και η εξαγωγή συμπερασμάτων από τα αποτελέσματα της αναζήτησης. Για αυτό το λόγω, μια συχνά χρησιμοποιούμενη τεχνική της εξόρυξης γνώσης είναι αυτή της δειγματοληψίας. Στην στατιστική αυτή η προσέγγιση αναφέρεται ως "στατιστική εξαγωγή συμπερασμάτων.[2] Ένα σημαντικό τμήμα των υλοποιημένων αλγορίθμων εξόρυξης γνώσης αποτελούνται από στατιστικές τεχνικές που έχουν προσαρμοστεί στις απαιτήσεις του τομέα. Όπως και με τις κλασικές τεχνικές στατιστικής στην εξόρυξη γνώσης ακολουθούμε τεχνικές και δείκτες, όπως ανάλυση παλινδρόμησης (regression analysis), ανάλυση συστάδων (cluster analysis), μέσος (mean), διάμεσος (median), τυπική απόκλιση (standard deviation), συσχέτιση, θεώρημα Bayes, ανάλυση χρονοσειρών κ.α., που χρησιμοποιούνται για την μελέτη των δεδομένων και των σχέσεων ανάμεσα στα δεδομένα και αποτελούν δομικά στοιχεία για τις τεχνικές εξόρυξης γνώσης. [4] Η διαφορές ανάμεσα στους δύο τομείς έγκειται στο γεγονός ότι στην στατιστική, αντίθετα με την εξόρυξη γνώσης, χρησιμοποιούνται μικρότερα και πιο σχηματοποιημένα σύνολα δεδομένων.[2] Με την στατιστική ανάλυση Σελ. 20 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή προσπαθούμε να βρούμε αυτό που ήδη ψάχνουμε, ενώ με την εξόρυξη γνώσης ψάχνουμε για το τι μπορεί να ανακαλύψουμε από τα δεδομένα. Η σημαντική επιρροή που άσκησε η Στατιστική στον τομέα της Εξόρυξης Γνώσης παρατηρείται από το γεγονός ότι ακόμα και όταν οι αλγόριθμοι εξόρυξης γνώσης δεν χρησιμοποιούν άμεσα τεχνικές στατιστικής, πολλές φορές οι βασικές τους ιδέες απορρέουν από αυτή. 1.3.2 Τεχνητή Νοημοσύνη-Μηχανική Μάθηση Η Τεχνητή Νοημοσύνη (TN)(Artificial Intelligent), σε αντίθεση με την Στατιστική, έχει βασιστεί σε μεθόδους αυτοδιδαχής. Σκοπός της Τεχνητής Νοημοσύνης, και κοινή συνιστώσα με την ανακάλυψη γνώσης, είναι η εξαγωγή λογικών συμπερασμάτων από ανεπεξέργαστα δεδομένα. Αυτή η διαδικασία στην Τεχνητή Νοημοσύνη πραγματοποιείται μέσω ευφυών υπολογιστικών συστημάτων, δηλαδή συστημάτων που επιδεικνύουν χαρακτηριστικά παρόμοια με την νοημοσύνη στην ανθρώπινη συμπεριφορά. Να μπορούν, δηλαδή, τα ευφυή υπολογιστικά συστήματα να κατέχουν την στοιχειώδη ευφυΐα της μάθησης, της προσαρμοστικότητας, της εξαγωγής συμπερασμάτων, της κατανόησης από συμφραζόμενα, της επίλυσης προβλημάτων κλπ. Ο τομέας της Ανακάλυψης Γνώσης κάνει εκτεταμένη χρήση των εργαλείων της Τεχνητής Νοημοσύνης και της Μηχανικής Μάθησης. Μερικά παραδείγματα είναι τα νευρωνικά δίκτυα, τα δέντρα απόφασης, οι γενετικοί αλγόριθμοι και οι μηχανές διανυσμάτων(support vector machines). Η Μηχανική Μάθηση (Machine Learning) είναι μια περιοχή της Τεχνητής Νοημοσύνης και μπορούμε να πούμε ότι είναι η χρυσή τομή ανάμεσα στον τομέα της Στατιστικής και της Τεχνητής Νοημοσύνης, καθώς συνδυάζει θεμελιώδεις έννοιες της στατιστικής με αλγόριθμους τεχνητής νοημοσύνης. Σκοπός της είναι να παρέχει στα ευφυή υπολογιστικά συστήματα τη δυνατότητα να "μαθαίνουν από τα δεδομένα, δηλαδή να είναι σε θέση να Σελ.21 από 157

Κεφάλαιο 1ο 1.3 Οι ρίζες της Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων παίρνουν διαφορετικές αποφάσεις σε σχέση με την εκάστοτε περίπτωση και ανάλογα με τις προγενέστερες ιδιότητες που είχαν βρει στα δεδομένα. Στην Ανακάλυψη γνώσης, η μηχανική μάθηση χρησιμοποιείται για σκοπούς πρόβλεψης και κατηγοριοποίησης. Με την μηχανική μάθηση, ο υπολογιστής κάνει μια πρόβλεψη και κατόπιν, βασιζόμενος στην ανάδραση περί της ορθότητας της πρόβλεψης, "μαθαίνει από αυτή την ανάδραση. Μαθαίνει μέσω παραδειγμάτων, αποθηκευμένης γνώσης και ανάδρασης, με αποτέλεσμα όταν συμβεί μελλοντικά μια ανάλογη περίπτωση θα μπορεί να χρησιμοποιήσει την ανάδραση και να κάνει την ίδια ή μια τελείως διαφορετική πρόβλεψη. Για να εφαρμοστεί η μηχανική μάθηση στις εργασίες της ανακάλυψης γνώσης χρησιμοποιείται ένα μοντέλο για να αναπαραστήσει τα δεδομένα της βάσης(π.χ. ένα δέντρο απόφασης). [2] Η κύρια διαφορά μεταξύ του τομέα της Ανακάλυψης γνώσης και της Μηχανικής μάθησης έγκειται στο γεγονός ότι στην ανακάλυψη γνώσης δεν χρειάζεται να χρησιμοποιηθεί μια ομοιογενής βάση δεδομένων και αντίθετα με την μηχανική μάθηση χρησιμοποιεί μεγαλύτερες και ετερογενείς βάσεις δεδομένων. 1.3.3 Βάσεις Δεδομένων Μια βάση δεδομένων είναι μια συλλογή από δεδομένα τα οποία έχουν μια ορισμένη δομή ή σχήμα με το οποίο σχετίζονται. Τα δεδομένα σε μια βάση δεδομένων συχνά οπτικοποιούνται με την χρήση ενός μοντέλου δεδομένων. Αυτό το μοντέλο χρησιμοποιείται για να περιγράψει τα δεδομένα, τα γνωρίσματά τους και τις συσχετίσεις μεταξύ τους. Για την πρόσβαση σε βάσεις δεδομένων θα πρέπει να χρησιμοποιηθεί μια γλώσσα ερωταποκρίσεων και η ποιο διαδεδομένη στη χρήση είναι η βοι. Η διαφορά μεταξύ ερωτήσεων ανακάλυψη γνώσης σε βάσεις δεδομένων και αυτών στα Συστήματα Διαχείρισης Βάσεων Δεδομένων είναι το αποτέλεσμα. Μια ερώτηση σε ένα ΣΔΒΔ επιστρέφει ένα υποσύνολο της βάσης, ενώ στην ανακάλυψη γνώσης ένα Κϋϋ αντικείμενο το οποίο δεν προϋπήρχε στην Σελ. 22 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή ερωτηθείσα βάση δεδομένων. Η ανακάλυψη γνώσης σε βάσεις δεδομένων μπορεί να επωφεληθεί από την SQL για την επιλογή των δεδομένων, τον μετασχηματισμό τους και την ενοποίηση τους.[2] 1.3.4 Ανάκτηση Πληροφοριών Η Ανάκτηση Πληροφοριών (ΑΠ) ασχολείται με την ανάκτηση επιθυμητών πληροφοριών από δεδομένα κειμένου ή και διαφόρων άλλων μορφών δεδομένων και μεταδεδομένων (metadata). Η ΑΠ επηρέασε την εξέλιξη της Ανακάλυψης Γνώσης καθώς πολλά μέτρα ομοιότητας και μέτρα ακρίβειας που αναπτύχθηκαν για την ανάκτηση πληροφοριών εφαρμόζονται σε αυτή. 1.4 Δεδομένα Προς Ανακάλυψη Γνώσης 1.4.1. Τι Είδους Δεδομένα Συλλέγουμε Συλλέγουμε μεγάλους όγκους δεδομένων, από απλές αριθμητικές μετρήσεις, έγγραφα κειμένων και διαδικτύου σε πιο σύνθετες πληροφορίες όπως τα χωρικά δεδομένα. Παρακάτω βλέπουμε από ποια πεδία μπορούμε να συλλέξουμε πληροφορίες Επιχειρησιακές συναλλαγές: Κάθε συναλλαγή του κλάδου των επιχειρήσεων συχνά αποθηκεύεται για μελλοντική χρήση. Οι συναλλαγές είναι συνήθως χρονικά συσχετιζόμενες και μπορεί να αφορούν επαγγελματικές συμφωνίες όπως αγορές, ανταλλαγές, τραπεζικές συμφωνίες, συμφωνίες μετοχών κ.λ.π. ή εσωτερικές λειτουργίες της επιχείρησης όπως η διαχείριση της και τα περιουσιακά στοιχεία της. Μεγάλα πολυκαταστήματα, για παράδειγμα, χάρη στη διαδεδομένη χρήση του γραμμοκώδικα (barcode), αποθηκεύουν καθημερινά εκατομμύρια δεδομένα συναλλαγών που συχνά αντιστοιχούν σε terabytes. Ο χώρος αποθήκευσης δεν είναι μεγάλο πρόβλημα καθώς οι τιμές των σκληρών δίσκων μειώνονται συνεχώς, όμως η αποτελεσματική χρήση των δεδομένων σε ένα λογικό χρονικό πλαίσιο για την ανταγωνιστική λήψη αποφάσεων είναι σαφώς το πιο σημαντικό πρόβλημα Σελ.23 από 157

Κεφάλαιο 1ο 1.4 Δεδομένα Προς Ανακάλυψη Γνώσης που εχει να αντιμετωπίσει μια επιχείρηση σε ενα ακρως ανταγωνιστικό περιβάλλον. Επιστημονικά δεδομένα: Είτε πρόκειται για ενα Ελβετικό εργοστάσιο επιτάχυνσης πυρηνικών σωματιδίων, είτε για την συλλογή δεδομένων από ενα παγόβουνο στο Νότιο πόλο σχετικά με τη δραστηριότητα του, τα κολοσσιαία ποσά των επιστημονικών δεδομένων που συλλέγονται πρέπει να αναλυθούν. Δυστυχώς, η καταγραφή και αποθήκευση γίνεται ταχύτερα σε σχέση με ανάλυση τους, με αποτέλεσμα να συσσωρεύονται νέα δεδομένα. Ιατρικά και προσωπικά δεδομένα: Είτε πρόκειται για πελατειακά αρχεία, είτε για κρατικές απογραφές προσωπικού παρατηρούμε ότι αποθηκεύονται μεγάλες ποσότητες πληροφοριών που σχετίζονται με άτομα και ομάδες ατόμων. Ανεξάρτητα από τα ζητήματα απορρήτου, τέτοιου τύπου δεδομένα συχνά αποκαλύπτονται. Οι πληροφορίες που συσχετίζονται με άλλα δεδομένα μπορούν να οδηγήσουν στην ανακάλυψη της συμπεριφοράς των πελατών. Βίντεο και εικόνες/ψηφιακά μέσα: Οι βιντεοκάμερες παρακολούθησης είναι σε πολύ μεγάλη χρήση, τα τελευταία χρόνια. Αν και παλαιότερα ανακυκλώνανε το μαγνητοσκοπημένο περιεχόμενο, στην σημερινή εποχή υπάρχει η τάση αποθήκευσης μεγάλου όγκου δεδομένων για μελλοντική χρήση και ανάλυση. Ένα ενδιαφέρον παράδειγμα για την χρήση των δεδομένων βιντεοσκοπημένου υλικού μας παρουσιάζει η εταιρία Δίη8χ, η οποία δημιούργησε υψηλής τεχνολογίας "κούκλες καταστημάτων με ενσωματωμένο λογισμικό αναγνώρισης προσώπου. Η συγκεκριμένη "κούκλα μπορεί να προσδιορίσει την ηλικία, το φύλο και την αντίδραση των πελατών σε σχέση με το εκάστοτε προϊόν πώλησης. Είναι ένα σύστημα που μπορεί μέσω ανάλυσης των βιντεοσκοπημένων δεδομένων να δώσει δημογραφικά στοιχεία σχετικά με το άτομο που περνάει μπροστά από αυτό. Υπάρχουν φυσικά αντιδράσεις περί της προστασίας των προσωπικών δεδομένων, Σελ. 24 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή παρόλα αυτά οι εταιρίες που τις χρησιμοποιούν (με πρωτοπόρα την Benneton) εφαρμόζουν τις νέες τους στρατηγικές για την αύξηση των πωλήσεων τους. Αυτή η μαζική αποθήκευση είναι μία από αιτίες της ολοένα πιο διαδεδομένης χρήσης και δημιουργίας μεγάλων αποθηκών (warehouses) πολυμεσικών βάσεων δεδομένων. Δεδομένα Δορυφόρων: Οι δορυφόροι της παρέχουν μια συνεχή ροή δεδομένων, με αποτέλεσμα οι ερευνητές να αδυνατούν να επεξεργαστούν τον μεγάλο όγκο δεδομένων. Η χρήση τεχνικών εξόρυξης γνώσης μπορεί να βοηθήσει στην αντιμετώπιση ανάλυσης των δεδομένων. [11] Αθλητισμός: Συλλέγονται τεράστια ποσά δεδομένων και στατιστικών στοιχείων σχετικά με παίκτες και αθλητές. Οι τεχνικές εξόρυξης γνώσης μπορούν να βοηθήσουν σε προβλέψεις, στην δημιουργία μιας ομάδας με καλύτερες επιδόσεις και στον προσδιορισμό της συνεισφοράς και των αδυναμιών των παιχτών. [12] 1.4.2 Τύποι Δεδομένων Για Την Ανακάλυψη Γνώσης Η Ανακάλυψη γνώσης σε βάσεις δεδομένων δεν ασχολείται με έναν μόνο τύπο δεδομένων αλλά μπορεί να εφαρμοστεί σε πολλούς τύπους δεδομένων και σε διάφορες δομές αποθήκευσης της. Ωστόσο, οι αλγόριθμοι και οι τεχνικές εξόρυξης που χρησιμοποιούνται της διάφορους τύπους δεδομένων διαφέρουν σημαντικά. 1.4.2.1 Επίπεδα αρχεία (Flat files) Τα επίπεδα αρχεία είναι η πιο κοινή πηγή δεδομένων για της αλγόριθμους εξόρυξης γνώσης. Πρόκειται για απλά αρχεία δεδομένων σε δυαδική μορφή ή μορφή κειμένου με γνωστή την δομή της για της αλγόριθμους που θα τα χρησιμοποιήσουν. Τα δεδομένα σε αυτά τα αρχεία μπορεί να προέρχονται Σελ.25 από 157

Κεφάλαιο 1ο 1.4 Δεδομένα Προς Ανακάλυψη Γνώσης από οπουδήποτε, της συναλλαγές, χρονολογικές σειρές δεδομένων, επιστημονικές μετρήσεις κλπ. 1.4.2.2 Σχεσιακές βάσεις δεδομένων (Relational Databases) Οι σχεσιακές βάσεις δεδομένων παρέχουν πλούσιες πηγές δεδομένων. Μια σχεσιακή βάση δεδομένων αποτελείται από μια συλλογή πινάκων, όπου κάθε της πίνακας περιέχει ένα σύνολο χαρακτηριστικών (στήλες ή πεδία) και αποθηκεύονται σε αυτή μεγάλες συλλογές εγγραφών(γραμμές). Κάθε εγγραφή της σχεσιακού πίνακα αντιπροσωπεύει ένα αντικείμενο ή μια σχέση ανάμεσα στα αντικείμενα που περιγράφεται από ένα σύνολο τιμών των χαρακτηριστικών και ορίζεται με ένα μοναδικό κλειδί. Η γλώσσα υποβολής δομημένων ερωτημάτων SQL είναι αυτή που χρησιμοποιείται της σχεσιακές βάσεις δεδομένων και επιτρέπει την ανάκτηση, διαχείριση και ενημέρωση των δεδομένων, την δημιουργία και τροποποίηση σχημάτων και σχεσιακών πινάκων, αλλά και τον έλεγχο πρόσβασης στα δεδομένα. Ουσιαστικά, κύριος σκοπός της είναι η βέλτιστη επεξεργασία των δεδομένων. Η ανακάλυψη γνώσης σε βάσεις δεδομένων μπορεί να επωφεληθεί από την SQL για την επιλογή των δεδομένων, τον μετασχηματισμό της και την ενοποίηση της, αλλά η εφαρμογή μεθόδων και τεχνικών εξόρυξης γνώσης πάει ένα βήμα πιο πέρα, παρέχει καλύτερα αποτελέσματα καθώς οδηγεί στην αναζήτηση τάσεων, προτύπων, μοντέλων πρόβλεψης και εντοπισμού αποκλίσεων στα δεδομένα. 1.4.2.3 Αποθήκες δεδομένων (Data Warehouse) Η έννοια της αποθήκευσης δεδομένων χρονολογείται από τα τέλη της δεκαετίας του 1980, όταν οι ερευνητές της IBM Μπάρι Ντέβλιν και Πολ Μέρφι ανέπτυξαν μια επιχείρηση αποθήκης δεδομένων. Στην ουσία, η ιδέα αποθήκευσης των δεδομένων είχε ως στόχο να παρέχει ένα αρχιτεκτονικό μοντέλο για τη ροή των δεδομένων και των επιχειρησιακών συστημάτων σε περιβάλλον υποστήριξης αποφάσεων. Γενικά, μια αποθήκη δεδομένων δίνει Σελ. 26 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή τη δυνατότητα να αναλυθούν δεδομένα από διαφορετικές πηγές. Οι αποθήκες δεδομένων υποστηρίζουν ποικίλες βιομηχανίες, όπως το εμπόριο, οι τηλεπικοινωνίες, η υγεία. Συνήθως, οι μεγάλες εταιρίες αποτελούνται από μεγάλα τμήματα και παραρτήματα και στηρίζονται στην συλλογή λειτουργικών δεδομένων που σχετίζονται με τις ημερήσιες δραστηριότητες τους. Ωστόσο όμως, για την λήψη στρατηγικών αποφάσεων για την μελλοντική κατεύθυνση της εταιρίας, το μάρκετινγκ και την πρόβλεψη, τα συγκεντρωτικά και ιστορικά δεδομένα είναι απαραίτητα και αυτά τα δεδομένα προσφέρουν οι αποθήκες δεδομένων. [11] Σχήμα 1.3: Αποθήκη δεδομένων Οι παραδοσιακές εφαρμογές βάσεων δεδομένων συσχετίζονται με την άμεση επεξεργασία συναλλαγών (OnLine Transactional Processing - OLTP) όπου οι απαιτήσεις των χρηστών δηλώνονται με τη χρήση της γλώσσας SQL και τα αποτελέσματα είναι υποσύνολα των σχέσεων. Οι εφαρμογές, όμως, σε μία αποθήκη δεδομένων σχετίζονται απευθείας με τις επιχειρησιακές αποφάσεις και αναλύσεις των δεδομένων, με την άμεση αναλυτική επεξεργασία (OnLine Analytical Processing - OLAP). Σε αντίθεση με μια συμβατική βάση Σελ.27 από 157

Κεφάλαιο 1ο 1.4 Δεδομένα Προς Ανακάλυψη Γνώσης δεδομένων, μια αποθήκη δεδομένων συσχετίζεται με την επιχείρηση και όχι με την εφαρμογή αυτής. Σε μία αποθήκη δεδομένων μπορεί να δημιουργηθεί ένα υποσύνολο δεδομένων το οποίο καλείται data mart. Τα data marts επικεντρώνονται στην συλλογή δεδομένων που αφορούν ένα συγκεκριμένο μέρος της συνολικής πληροφορίας. Ένα data mart έχει περιορισμένο μέγεθος, μπορεί να αποθηκεύεται και να προσπελαύνεται ξεχωριστά, με αποτέλεσμα να έχει καλύτερη απόδοση στην υποστήριξη εφαρμογών συγκεκριμένου ενδιαφέροντος. [2] 1.4.2.4 Βάσεις Δεδομένων Συναλλαγών (Transactional Databases) Μία βάση δεδομένων συναλλαγών είναι ένα σύνολο εγγραφών που εκπροσωπούν συναλλαγές, καθεμία από τις οποίες περιέχει ένα αναγνωριστικό και ένα σύνολο στοιχείων. Δεδομένου ότι οι σχεσιακές βάσεις δεδομένων δεν επιτρέπουν ένθετους πίνακες, οι συναλλαγές αποθηκεύονται συνήθως σε επίπεδα αρχεία ή σε δύο κανονικοποιημένους πίνακες, ένας για τις συναλλαγές και ένας για τα στοιχεία των συναλλαγών. Βασικές διεργασίες εξόρυξης αποτελούν η ανάλυση του "καλαθιού αγοράς (market basket analysis) και η εύρεση κανόνων συσχετίσεων μεταξύ των στοιχείων. [11] 1.4.2.5 Βάσεις δεδομένων Πολυμέσων (Multimedia Databases) Οι βάσεις πολυμέσων περιέχουν δεδομένα όπως βίντεο, εικόνες, ήχο ή ακόμη και συνδυασμό αυτών. Αυτός ο συνδυασμός των δεδομένων καθιστά την εργασία ανακάλυψης γνώσης ακόμα πιο προκλητική. Η ανακάλυψη γνώσης από δεδομένα τέτοιου τύπου ενδέχεται να περιλαμβάνει μεθοδολογίες ερμηνείας εικόνας, επεξεργασίας φυσικής γλώσσας, μηχανικής όρασης και γραφικών. 1.4.2.6 Χρονικές βάσεις δεδομένων (Temporal Databases) Τα χρονικά δεδομένα που διατηρούνται σε μια χρονική βάση δεδομένων αναφέρονται σε πολλαπλά σημεία στο χρόνο και όχι σε ένα μόνο χρονικό Σελ. 28 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή σημείο. Για παράδειγμα, ένα διευθυντικό στέλεχος μπορεί να επιθυμεί να παρατηρήσει τάσεις της επιχείρησης όσων αφορά την πρόσληψη και απόλυση υπαλλήλων. Τέτοιου τύπου ερωτήσεις στην εξόρυξη γνώσης απαιτούν χρονικά δεδομένα.[11] Η ανάλυση τέτοιου τύπου δεδομένων περιλαμβάνει αρκετές προκλήσεις, λόγω της ερμηνείας του χρόνου και του γεγονότος ότι τέτοιου είδους ερωτήσεις είναι πιο σύνθετες σε σχέση με τις συνηθισμένες των σχεσιακών βάσεων δεδομένων. 1.4.2.7 Χωρικές βάσεις δεδομένων (Spatial Databases) Τα χωρικά δεδομένα είναι δεδομένα, τα οποία έχουν μια συνιστώσα θέσης. Μπορούν να θεωρηθούν ως δεδομένα αντικειμένων τα οποία βρίσκονται σε έναν φυσικό χώρο. Ωστόσο, οι χωρικές βάσεις μπορεί να περιέχουν και μη χωρικές πληροφορίες. Τα χωρικά δεδομένα σχετίζονται με την απόσταση και οι τεχνικές εξόρυξης γνώσης χρησιμοποιούν την πληροφορία της απόστασης ώστε να παρέχουν τη βάση για τις αναγκαίες μετρήσεις ομοιότητας. Οι βάσεις χωρικών δεδομένων,εκτός από την παροχή γεωγραφικών πληροφοριών, μπορούν να χρησιμοποιηθούν και σε εφαρμογές όπως, βιοϊατρική, καιρός, διαχείριση καταστροφών και επικινδύνων αποβλήτων. Οι τεχνικές εξόρυξης γνώσης με την μέθοδο της πρόβλεψης μπορούν να προβλέψουν μελλοντικές καταστροφές ή να δημιουργήσουν μοντέλα που βασίζονται σε κοινά χαρακτηριστικά χωρικών δεδομένων κλπ. Μια άλλη κατηγορία βάσεων αποτελούν οι χωροχρονικές βάσεις δεδομένων (spatiotemporal databases) οι οποίες περιλαμβάνουν χωρικά δεδομένα που μεταβάλλονται στον χρόνο. 1.4.2.8 Βάσεις δεδομένων κειμένου (Text databases) Αυτές οι βάσεις περιέχουν λεκτικές περιγραφές αντικειμένων. Μπορεί να έχουν την μορφή λέξεων-κλειδιών, ολόκληρων προτάσεων, ολόκληρων Σελ.29 από 157

Κεφάλαιο 1ο 1.4 Δεδομένα Προς Ανακάλυψη Γνώσης παραγράφων, εκθέσεων αναφορών κλπ. Η ανακάλυψη γνώσης σε βάσεις κειμένου είναι μια διαδικασία εξαγωγής νέας πληροφορίας από μια συλλογή κειμένων. Ο ακαδημαϊκός επιστήμονας Kalev Leetaru αναφέρει πως από μία συλλογή ειδήσεων σε συνδυασμό με τεχνικές εξόρυξης, θα μπορούσε να προβλεφθεί η εξέγερση της αραβικής άνοιξης. 1.4.2.9 Παγκόσμιος Ιστός Ο Παγκόσμιος Ιστός αποτελεί την πιο ετερογενή και δυναμική πηγή διαθέσιμων δεδομένων. Τα δεδομένα στο διαδίκτυο οργανώνονται σε διασυνδεόμενα έγγραφα και τα έγγραφα μπορεί να είναι κειμένου, ήχου, βίντεο ακόμη και εφαρμογές. Εννοιολογικά ο Παγκόσμιος Ιστός αποτελείται από τρία βασικά συστατικά: Το περιεχόμενο του παγκόσμιου ιστού που περιλαμβάνει τα διαθέσιμα αρχεία, η δομή του παγκόσμιου ιστού που καλύπτει υπερσυνδέσεις και σχέσεις μεταξύ των αρχείων και η χρήση του παγκόσμιου ιστού που περιγράφει τον τρόπο και την χρονική στιγμή που είναι προσπελάσιμες οι πηγές. Οι τεχνικές web mining εφαρμόζονται στους παραπάνω τομείς και βοηθούν στην κατανόηση του τρόπου κατανομής των πληροφοριών στον παγκόσμιο ιστό, στον χαρακτηρισμό και κατηγοριοποίηση των ιστοσελίδων και στην ανακάλυψη συσχετίσεων ανάμεσα σε χρήστες διαδικτύου και ιστοσελίδες. [2] 1.5 Η Εξόρυξη Γνώσης Από Δεδομένα Ως Στάδιο Της KDD Η εξόρυξη γνώσης από δεδομένα περιλαμβάνει πολλούς διαφορετικούς αλγορίθμους για να εκπληρωθούν διαφορετικές εργασίες. Όλοι αυτοί οι αλγόριθμοι επιχειρούν να ταιριάξουν ένα μοντέλο/πρότυπο στα δεδομένα. Οι αλγόριθμοι εξετάζουν τα δεδομένα και καθορίζουν ένα μοντέλο που να είναι πλησιέστερο στα χαρακτηριστικά των δεδομένων που εξετάζονται. Οι αλγόριθμοι εξόρυξης γνώσης μπορεί να θεωρηθεί ότι αποτελούνται από τρία μέρη: 1. Το Μοντέλο Σελ. 30 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή Ο σκοπός του αλγόριθμου είναι να ταιριάξει το μοντέλο στα δεδομένα. [2] Υπάρχουν δύο παράγοντες που σχετίζονται με το μοντέλο: Η λειτουργία του μοντέλου, η οποία καθορίζει τις βασικές εργασίες που θα διεκπεραιωθούν κατά τη διάρκεια της εξόρυξης γνώσης από δεδομένα, π.χ. κατηγοριοποίηση, συσταδοποίηση κ.α. Ο τύπος αναπαράστασης του μοντέλου, ο οποίος καθορίζει τόσο την προσαρμοστικότητα του μοντέλου στην αναπαράσταση των δεδομένων όσο και τη δυνατότητα ερμηνείας του μοντέλου με όρους κατανοητούς από τον άνθρωπο. Τυπικά, τα πιο πολύπλοκα μοντέλα προσαρμόζονται καλύτερα στα δεδομένα, αλλά ενδέχεται να είναι πιο δύσκολο να γίνουν κατανοητά και να προσαρμοστούν σε πραγματικά δεδομένα. Οι πιο γνωστές αναπαραστάσεις μοντέλων είναι τα δέντρα απόφασης, οι κανόνες, τα γραμμικά μοντέλα, τα γραφικά μοντέλα που βασίζονται σε πιθανότητες, τα νευρωνικά δίκτυα κ.ο.κ. 2. Προτίμηση Μοντέλου: Η προτίμηση, η οποία γίνεται βάσει κάποιων κριτηρίων(π.χ. maximum likelihood(μέγιστη πιθανοφάνεια) ), καθορίζει κατά πόσο ένα συγκεκριμένο μοντέλο και οι παράμετροι του προσαρμόζονται στα κριτήρια της KDD διαδικασίας. Η προτίμηση ενός μοντέλου, έναντι ενός άλλου, περιλαμβάνει τόσο την εκτίμηση της εγκυρότητας των προτύπων που παράγονται από αυτό όσο και την εκτίμηση της ακρίβειας, της χρησιμότητας και της ευκολίας κατανόησης του μοντέλου. 3. Αλγόριθμος Αναζήτησης: Αναφέρεται στον καθορισμό ενός αλγορίθμου για την εύρεση συγκεκριμένων μοντέλων και παραμέτρων, με βάση ένα σύνολο δεδομένων, μια οικογένεια μοντέλων και ένα κριτήριο αξιολόγησης. Οι αλγόριθμοι αναζήτησης χωρίζονται σε δύο τύπους: Σελ.31 από 157

Κεφάλαιο 1ο 1.5 Η Εξόρυξη Γνώσης Από Δεδομένα Ως Στάδιο Της KDD Αλγόριθμοι αναζήτησης παραμέτρων, οι οποίοι αναζητούν τις παραμέτρους εκείνες που θα βελτιστοποιήσουν το μοντέλο ως προς το κριτήριο αξιολόγησης. Εκτελούν την αναζήτηση λαμβάνοντας ως είσοδο το σύνολο των δεδομένων και την αναπαράσταση του μοντέλου. Αλγόριθμοι αναζήτησης μοντέλου, οι οποίοι εκτελούν μια επαναληπτική διαδικασία αναζήτησης ενός μοντέλου για την αναπαράσταση των δεδομένων. Για μία συγκεκριμένη αναπαράσταση μοντέλου εκτελείται η μέθοδος αναζήτησης παραμέτρων και εκτιμάται η ποιότητα του συγκεκριμένου μοντέλου. Όπως αναφέρθηκε και προηγουμένως, προκύπτουν δύο είδη γνώσης ως παράγωγα της διαδικασίας Εξόρυξη Γνώσης από δεδομένα, τα περιγραφικά και τα προβλεπτικά μοντέλα. Ένα προβλεπτικό μοντέλο (predictive model) κάνει μία πρόβλεψη για τις τιμές των δεδομένων, χρησιμοποιώντας γνωστά αποτελέσματα που έχει βρει από άλλα δεδομένα. Η μοντελοποίηση πρόβλεψης μπορεί να γίνει με βάση τη χρήση ιστορικών δεδομένων. Οι εργασίες εξόρυξης γνώσης από δεδομένα για τη δημιουργία ενός προβλεπτικού μοντέλου περιλαμβάνουν Κατηγοριοποίηση ή Ταξινόμηση (Classification) Παλινδρόμηση (Regression) Ανάλυση χρονολογικών σειρών (Time series analysis) Πρόβλεψη (Prediction) Ένα περιγραφικό μοντέλο (descriptive model) αναγνωρίζει πρότυπα ή συσχετίσεις στα δεδομένα. Αντίθετα από το προβλεπτικό, το περιγραφικό μοντέλο λειτουργεί σαν ένα μέσο που διερευνά τις ιδιότητες των δεδομένων Σελ. 32 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή που εξετάζονται, και όχι για να προβλέπει νέες ιδιότητες, και οι εργασίες που περιλαμβάνονται είναι Συσταδοποίηση Παρουσίαση Συνόψεων Κανόνες Συσχετίσεων Ανακάλυψη Ακολουθιών Σχήμα1.4 : Μοντέλα και εργασίες στην εξόρυξη γνώσης από δεδομένα 1.6 Εργασίες Εξόρυξης Γνώσης Από Δεδομένα Στις επόμενες παραγράφους αναφέρουμε εν συντομία κάποιες από τις εργασίες της εξόρυξης γνώσης. Αυτές οι μεμονωμένες εργασίες μπορούν να συνδυαστούν προκειμένου να έχουμε πιο εξειδικευμένες εφαρμογές της εξόρυξης γνώσης από δεδομένα. 1.6.1 Κατηγοριοποίηση Η Κατηγοριοποίηση (dassification) ταξινομεί τα δεδομένα σε προκαθορισμένες ομάδες ή κατηγορίες-κλάσεις(dasses). Αναφέρεται συχνά σαν εποπτευόμενη μάθηση, επειδή οι κατηγορίες-κλάσεις καθορίζονται πριν ακόμη εξεταστούν τα δεδομένα. Οι αλγόριθμοι κατηγοριοποίησης απαιτούν οι Σελ.33 από 157

Κεφάλαιο 1ο 1.6 Εργασίες Εξόρυξης Γνώσης Από Δεδομένα κατηγορίες να ορίζονται με βάση τις τιμές των γνωρισμάτων των δεδομένων. Συχνά περιγράφουν αυτές τις κατηγορίες κοιτάζοντας τα χαρακτηριστικά των δεδομένων που είναι ήδη γνωστό ότι ανήκουν στις κατηγορίες. Η αναγνώριση προτύπου (pattern recognition) αποτελεί ένα είδος κατηγοριοποίησης, όπου ένα πρότυπο εισόδου κατηγοριοποιείται σε μία από διάφορες κατηγορίες, με βάση την εγγύτητα του ως προς αυτές τις προκαθορισμένες κατηγορίες. 1.6.2 Παλινδρόμηση Η Παλινδρόμηση (regression) χρησιμοποιείται για να απεικονιστεί ένα στοιχειώδες δεδομένο σε μία πραγματική μεταβλητή πρόβλεψης. Στην πραγματικότητα, η παλινδρόμηση περιλαμβάνει την εκμάθηση της συνάρτησης που κάνει αυτή την απεικόνιση. Η παλινδρόμηση προϋποθέτει ότι τα σχετικά δεδομένα ταιριάζουν με μερικά γνωστά είδη συνάρτησης (πχ. γραμμική, λογαριθμική κτλ.) και μετά καθορίζει την καλύτερη συνάρτηση αυτού του είδους που μοντελοποιεί τα δεδομένα που έχουν δοθεί. Ένα είδος ανάλυσης σφάλματος χρησιμοποιείται για να καθορίσει ποια συνάρτηση είναι "η καλύτερη". Η παλινδρόμηση μπορεί να χρησιμοποιηθεί για να λύσει προβλήματα κατηγοριοποίησης και μπορεί να χρησιμοποιηθεί και σε άλλες εφαρμογές, όπως αυτή της πρόβλεψης. 1.6.3 Ανάλυση Χρονοσειρών Με την Ανάλυση Χρονοσειρών ή χρονολογικών σειρών (times series analysis), μελετάται η τιμή ενός γνωρίσματος καθώς μεταβάλλεται στο χρόνο. Οι τιμές συνήθως λαμβάνονται σε ίσα χρονικά διαστήματα ( ημερήσια, εβδομαδιαία, ωριαία κοκ). Για να παρασταθούν οπτικά οι χρονοσειρές χρησιμοποιείται ένα διάγραμμα χρονοσειρών. Στο σχήμα 1.5 μπορεί κανείς εύκολα να δει ότι οι γραφικές παραστάσεις των Υ και Ζ έχουν παρόμοια συμπεριφορά, ενώ το Χ φαίνεται να έχει λιγότερη αστάθεια. Υπάρχουν τρεις βασικές λειτουργίες που πραγματοποιούνται στην ανάλυση χρονοσειρών. Σελ. 34 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή Στην μία περίπτωση, χρησιμοποιούνται μονάδες μέτρησης απόστασης για να καθορίσουν την ομοιότητα ανάμεσα σε διαφορετικές χρονοσειρές. Στην δεύτερη περίπτωση, εξετάζεται η δομή της χρονοσειράς για να καθορίσει (και ίσως να κατηγοριοποιήσει) τη συμπεριφορά της. Μια τρίτη εφαρμογή θα μπορούσε να είναι η χρήση διαγραμμάτων χρονοσειρών για την πρόβλεψη μελλοντικών τιμών. Σχήμα1.5: Ένα τυπικό διάγραμμα χρονοσειρών 1.6.4 Πρόβλεψη Πολλές από τις πρακτικές εφαρμογές εξόρυξης γνώσης μπορούν να θεωρηθούν σαν πρόβλεψη μελλοντικών καταστάσεων με γνώση των προηγούμενων και των τωρινών δεδομένων. Η πρόβλεψη (Prediction) μπορεί να θεωρηθεί σαν ένα είδος κατηγοριοποίησης. Να σημειωθεί πως αυτή η εργασία εξόρυξης γνώσης είναι διαφορετική από το μοντέλο πρόβλεψης, παρόλο που η διαδικασία πρόβλεψης αποτελεί έναν τύπο μοντέλου πρόβλεψης. Η διαφορά έγκειται στο γεγονός ότι ως πρόβλεψη θεωρείται περισσότερο το να δίνεται τιμή σε μία μελλοντική κατάσταση παρά σε μία τρέχουσα. Εδώ αναφερόμαστε σε ένα είδος εφαρμογής παρά σε μια προσέγγιση μοντελοποίησης. Οι εφαρμογές πρόβλεψης περιλαμβάνουν Σελ.35 από 157

Κεφάλαιο 1ο 1.6 Εργασίες Εξόρυξης Γνώσης Από Δεδομένα πρόγνωση πλημμύρων, αναγνώριση ομιλίας, μηχανική μάθηση και αναγνώριση προτύπων. 1.6.5 Συσταδοποίηση Η Συσταδοποίηση (clustering) είναι παρόμοια με την κατηγοριοποίηση εκτός από το ότι οι συστάδες-ομάδες δεδομένων δεν είναι προκαθορισμένες αλλά ορίζονται κυρίως από τα ίδια τα δεδομένα. Η συσταδοποίηση αναφέρεται εναλλακτικά και σαν μη εποπτευόμενη μάθηση ή τμηματοποίηση. Μπορεί να θεωρηθεί σαν μια διαμέριση ή τμηματοποίηση των δεδομένων σε ομάδες που μπορεί να είναι ή να μην είναι διακριτές μεταξύ τους. Η συσταδοποίηση συνήθως επιτυγχάνεται με τον καθορισμό της ομοιότητας, ως προς προκαθορισμένα γνωρίσματα, ανάμεσα στα δεδομένα. Τα πιο σχετικά δεδομένα ομαδοποιούνται στις ίδιες ομάδες. Μια ειδική κατηγορία συσταδοποίησης ονομάζεται κατάτμηση(segmentation). Με την κατάτμηση, μια βάση δεδομένων χωρίζεται σε διακριτές ομάδες παρόμοιων εγγραφών που ονομάζονται τμήματα (segments). Η κατάτμηση συχνά θεωρείται πανομοιότυπη με την συσταδοποίηση. Κατά άλλους, η κατάτμηση θεωρείται σαν ένας ειδικός τύπος συσταδοποίησης που εφαρμόζεται στην ίδια βάση δεδομένων. 1.6.6 Παρουσίαση Συνόψεων Η Παρουσίαση Συνόψεων (summarization) απεικονίζει τα δεδομένα σε υποσύνολα τους με συνοδευτικές απλές περιγραφές. Η σύνοψη των δεδομένων ονομάζεται επίσης και χαρακτηρισμός (characterization) ή γενίκευση (generalization). Εξάγει ή παράγει αντιπροσωπευτικές πληροφορίες σχετικά με τις βάσεις δεδομένων. Αυτό γίνεται ανακτώντας, στη πραγματικότητα, τμήματα από τα δεδομένα. Εναλλακτικά, μπορούν να εξαχθούν από τα δεδομένα συνοπτικές πληροφορίες (όπως είναι ο μέσος όρος κάποιου αριθμητικού γνωρίσματος). Εν ολίγοις, η παρουσίαση συνόψεων χαρακτηρίζει τα περιεχόμενα της βάσης δεδομένων. Σελ. 36 από 157

Πτυχιακή Εργασία της Αφροδίτης Κωσιωρή 1.6.7 Κανόνες Συσχέτισης Η ανάλυση συνδέσμων (link analysis), που εναλλακτικά αναφέρεται και σαν ανάλυση συγγένειας (affinity analysis) ή συσχέτιση (association), αναφέρεται στη διαδικασία εκείνη της εξόρυξης γνώσης που αποκαλύπτει συσχετίσεις μεταξύ των δεδομένων. Το καλύτερο παράδειγμα αυτού του είδους της εφαρμογής είναι ο προσδιορισμός κανόνων συσχετίσεων. Ένας κανόνας συσχέτισης (association rules) είναι ένα μοντέλο που αναγνωρίζει ειδικούς τύπους συσχέτισης μεταξύ των δεδομένων. Αυτές οι συσχετίσεις συχνά χρησιμοποιούνται στις λιανικές πωλήσεις για να αναγνωριστούν προϊόντα που συχνά αγοράζονται μαζί (market basket analysis Κεφάλαιο 5ο). Η χρήση των κανόνων συσχετίσεων για τις όποιες αποφάσεις πρέπει να γίνεται πολύ προσεκτικά επειδή υπάρχει ο κίνδυνος αυτές οι συσχετίσεις να είναι τυχαίες. Οι συσχετίσεις αυτές μπορεί να μην αντιπροσωπεύουν καμία έμφυτη σχέση ανάμεσα στα δεδομένα ( κάτι που ισχύει για παράδειγμα στις συναρτησιακές εξαρτήσεις). 1.6.8 Ανακάλυψη Ακολουθιών Η ακολουθιακή ανάλυση (sequential analysis) ή αλλιώς ανακάλυψη ακολουθιών (sequence discovery) χρησιμοποιείται για να καθοριστούν σειριακά πρότυπα στα δεδομένα. Αυτά τα πρότυπα βασίζονται σε μία χρονική ακολουθία ενεργειών. Αυτά τα πρότυπα είναι παρόμοια με τις συσχετίσεις στο ότι συσχετίζονται τα δεδομένα ( ή τα γεγονότα) που εξάγονται, με την διαφορά ότι η συσχέτισή τους αυτή βασίζεται στο χρόνο. Αντίθετα με την ανάλυση καλαθιού αγορών, που προϋποθέτει να γνωρίζουμε ποια προϊόντα αγοράστηκαν ταυτόχρονα, στη ανακάλυψη ακολουθιών τα προϊόντα αγοράζονται με κάποια σειρά κατά τη διάρκεια μιας περιόδου. [2] Σελ.37 από 157

ΚΕΦΑΛΑΙΟ 2 0 ΜΟΝΤΕΛΟΠΟΙΩΝΤΑΣ ΤΗΝ KDD ΔΙΑΔΙΚΑΣΙΑ Εισαγωγή στη Μοντελοποίηση Η εργασία της μοντελοποίησης της KDD διαδικασίας είναι δύσκολη λόγω της ποικιλομορφίας των εργασιών και της μοναδικότητας της σε σχέση με την κάθε εφαρμογή. Στην πράξη ακόμα και μέσα σε έναν μόνο τομέα οι λεπτομέρειες της διαδικασίας μπορεί να διαφέρουν ανάλογα με την εφαρμογή. [5] Πολλοί ακαδημαϊκοί επιστήμονες έχουν επιχειρήσει να μοντελοποιήσουν την διαδικασία Ανακάλυψης γνώσης από δεδομένα. Παρακάτω αναφέρουμε περιληπτικά και με χρονολογική σειρά μερικά από τα πιο γνωστά μοντέλα που δημιουργήθηκαν, δίνοντας έμφαση κυρίως στο βιομηχανικό μοντέλο Crisp-DM(Cross Industry Process for Data Mining). Όλα τα μοντέλα της KDD διαδικασίας αποτελούνται από πολλαπλά βήματα τα οποία εκτελούνται σύμφωνα με μία προκαθορισμένη σειρά και συχνά περιλαμβάνουν βρόγχους και επαναλήψεις. Κάθε επόμενο βήμα ξεκινά με την επιτυχή ολοκλήρωση ενός προηγούμενου βήματος, και απαιτεί ως είσοδο το αποτέλεσμα που παράχθηκε από το προηγούμενο βήμα. Ένα κοινό χαρακτηριστικό των μοντέλων είναι το εύρος των καλυπτόμενων δραστηριοτήτων. Το εύρος κυμαίνεται από την κατανόηση του πεδίου εφαρμογής και των δεδομένων, της προετοιμασίας των δεδομένων και της ανάλυσης, αξιολόγησης, κατανόησης, και εφαρμογής των αποτελεσμάτων που δημιουργούνται. Όλα τα προτεινόμενα μοντέλα δίνουν έμφαση στην επαναληπτική φύση τους, η οποία ενεργοποιείται από την διαδικασία της αναθεώρησης. Δηλαδή, μέσω της επανεξέτασης των αποτελεσμάτων, η έξοδος επιστρέφει ως είσοδος. Ουσιαστικά, όλα τα μοντέλα επιχειρούν την μεγίστη αυτοματοποίηση της διαδικασίας. Η κύρια διαφορά των παρακάτω Σελ. 38 από 157