ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΙΑΤΡΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005 ΠΑΠΑΔΟΠΟΥΛΟΣ ΘΩΜΑΣ Ηλεκτρολόγος Μηχανικός & Μηχανικός Υπολογιστών Επιβλέποντες Καθηγητές: ΒΛΑΧΑΒΑΣ Π. ΙΩΑΝΝΗΣ Καθηγητής Τμ. Πληροφορικής Α.Π.Θ. ΜΑΓΚΛΑΒΕΡΑΣ ΝΙΚΟΛΑΟΣ Αναπληρωτής Καθηγητής Τμ. Ιατρικής Α.Π.Θ. ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΕΠΤΕΜΒΡΙΟΣ 2007

2

3 Περίληψη Σε αυτή την εργασία εφαρμόζονται τεχνικές αναζήτησης γνώσης για ανάκτηση χρήσιμης πληροφορίας σε μια ιατρική βάση δεδομένων του Πανεπιστημιακού Νοσοκομείου Chiba της Ιαπωνίας, που αφορά ασθενείς που πάσχουν από Κολλαγόνες ασθένειες (Collagen Diseases ). Τα δεδομένα αφού εξετάστηκαν και καθαρίστηκαν, μετασχηματίστηκαν και φορτώθηκαν σε μια σχεσιακή βάση δεδομένων στον SQL Server Χρησιμοποιήθηκε το περιβάλλον του SQL Server 2005 και οι αλγόριθμοι αναζήτησης γνώσης που περιέχει για να δημιουργηθούν κανόνες και μοντέλα που θα ανιχνεύουν και θα προβλέπουν την ύπαρξη θρόμβωσης στους ασθενείς. - i -

4

5 Περιεχόμενα ΠΕΡΙΛΗΨΗ... I ΠΕΡΙΕΧΟΜΕΝΑ...III 1 ΕΙΣΑΓΩΓΗ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΚΑΙ Η ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ Η ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΔΙΑΦΟΡΩΝ ΜΕΘΟΔΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Μέθοδοι Προτύπων Πληροφόρησης Μέθοδοι Προτύπων Πρόβλεψης SQL SERVER ΕΡΓΑΛΕΙΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΒΑΣΙΚΟΙ ΠΡΟΜΗΘΕΥΤΕΣ ΚΑΙ ΠΡΟΪΟΝΤΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ SQL SERVER ΓΡΑΦΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ SQL SERVER ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΤΟΝ SQL SERVER ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΣΕ ΙΑΤΡΙΚΑ ΔΕΔΟΜΕΝΑ ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΤΗΣ ΕΦΑΡΜΟΓΗΣ Η ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΕΠΕΞΕΡΓΑΣΙΑ ΣΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ SQL SERVER ΑΡΧΙΚΗ ΑΝΑΛΥΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΧΡΗΣΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ Microsoft Decision Trees Microsoft Clustering iii -

6 5.2.3 Microsoft Naïve Bayes Microsoft Association Rules Microsoft Neural Network Microsoft Logistic Regression ΣΥΓΚΡΙΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΚΑΙ ΤΕΛΙΚΗ ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΩΝ ΠΑΡΟΥΣΙΑΣΗ ΤΟΥ ΜΟΝΤΕΛΟΥ ΠΡΟΒΛΕΨΗΣ MICROSOFT NAÏVE BAYES ΠΑΡΟΥΣΙΑΣΗ ΚΑΝΟΝΩΝ MICROSOFT ASSOCIATION RULES ΣΥΜΠΕΡΑΣΜΑΤΑ - ΜΕΛΛΟΝΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ iv -

7 1 Εισαγωγή Είναι γεγονός ότι συνεχώς το μέγεθος των πληροφοριών που αποθηκεύονται συνολικά σε καθημερινή βάση στις βάσεις δεδομένων αυξάνει με γρήγορους ρυθμούς. Είναι λοιπόν αυτονόητο ότι ο όγκος των λειτουργικών δεδομένων (δεδομένα που χρησιμοποιούνται ή δύναται να χρησιμοποιηθούν) είναι μεγάλος και συνεχώς αυξάνεται. Παράλληλα δεν πρέπει να ξεχνάμε το γεγονός ότι τα δεδομένα (τα οποία υπάρχει περίπτωση να α- ναφέρονται στο ίδιο αντικείμενο) συνήθως είναι αποθηκευμένα σε παραπάνω από μία βάσεις δεδομένων, κάτι που μας οδηγεί να συνειδητοποιήσουμε αμέσως το βαθμό ανομοιογένειας της εν λόγω πληροφορίας (πολλές βάσεις δεδομένων με διαφορετικά στοιχεία η καθεμιά, που πολλές φορές αφορούν το ίδιο αντικείμενο). Το πρόβλημα λοιπόν έγκειται στη συγκέντρωση και ανάλυση της πληροφορίας αυτής με τέτοιο τρόπο που θα επιτρέψει την εύκολη και αποδοτική επεξεργασία της με σκοπό την εξαγωγή χρήσιμων συμπερασμάτων που οδηγούν στην λήψη αποφάσεων (π.χ. διοικητικές, οικονομικές, ιατρικές). Η τεχνολογία που επιτρέπει το παραπάνω είναι η τεχνολογία αναζήτησης γνώσης σε βάσεις δεδομένων (knowledge discovery in databases). Θέλοντας λοιπόν να δώσουμε ένα πιο εμπεριστατωμένο ορισμό θα μπορούσαμε να πούμε ότι η αναζήτηση γνώσης είναι μια διαδικασία κατά την οποία ανακαλύπτεται υπονοούμενη γνώση μέσα από μεγάλες βάσεις δεδομένων. Η τεχνολογία αυτή έχει την ικανότητα να αποκαλύπτει κρυμμένες σχέσεις, κρυμμένους συσχετισμούς, κρυμμένα πρότυπα και τάσεις σε δεδομένα που είναι αποθηκευμένα με παραδοσιακούς τρόπους σε μεγάλες βάσεις δεδομένων. Με άλλα λόγια η τεχνολογία αυτή αναζητά μη προφανείς και πιθανώς σύνθετες σχέσεις σε ιστορικά δεδομένα. Στην ιατρική επιστήμη και πιο συγκεκριμένα σε ένα οργανωμένο νοσοκομειακό περιβάλλον, η εξεύρεση γνώσης και η εξαγωγή αυτής, αποτελούν κρίσιμες εφαρμογές. Η Ιατρική από μόνη της δεν καταφέρνει να αποδείξει την γνώση, η οποία ουσιαστικά α- ποτελεί παράγωγο της εμπειρίας και της συχνότητας εμφάνισής της στα περιστατικά των ασθενών. Η γνώση αυτή, εάν εξαχθεί, από τις μεγάλες βάσεις δεδομένων που ουσιαστικά βρίσκεται κρυμμένη, είναι πολύτιμη τόσο για την ισχυροποίηση θεωρητικών - 1 -

8 ιατρικών συμπερασμάτων ή συμπερασμάτων που αναφέρονται κυρίως σε ιατρικά εγχειρίδια, όσο και για την αύξηση της θεωρητικής αυτής γνώσης. Οι ειδικοί του τομέα καταφέρνουν να ολοκληρώσουν αντικειμενικά αποτελέσματα στηριγμένοι στην επιστήμη τους, χρησιμοποιώντας υποκειμενικά και ουσιαστικά στοιχεία παραμέτρων, ό- πως ιατρικό ιστορικό, αποτελέσματα εξετάσεων κ.τ.λ. Σκοπός της εργασίας αυτής είναι η πειραματική εφαρμογή μεθόδων αναζήτησης γνώσης σε πραγματικά ιατρικά δεδομένα, προκειμένου να προσεγγιστούν αυτά από μια διαφορετική σκοπιά. Θα επιχειρηθεί λοιπόν η αναζήτηση και ανάδειξη κρυμμένης γνώσης, η οποία θα μπορέσει να αξιολογηθεί από τους ειδικούς του τομέα της υγείας. Χρησιμοποιήθηκαν ιατρικές πληροφορίες (ιατρικό ιστορικό, αιματολογικές εξετάσεις) α- σθενών που πάσχουν από κολλαγόνες ασθένειες, καθώς και δημογραφικά στοιχεία των ασθενών. Το υπόλοιπο της εργασίας διαρθρώνεται ως εξής: στο Κεφάλαιο 2 παρουσιάζεται η θεωρητική προσέγγιση της έννοιας της μηχανικής μάθησης και της Εξόρυξης Γνώσης από Βάσεις Δεδομένων. Ακολουθεί (Κεφάλαιο 3) η παρουσίαση του SQL Server 2005 που χρησιμοποιήθηκε για την εφαρμογή των θεωρητικών βημάτων που αναφέρονται στα προηγούμενα κεφάλαια. Στο Κεφάλαιο 4 παρουσιάζεται η εφαρμογή τεχνικών αναζήτησης γνώσης σε ιστορικά ιατρικά δεδομένα που αφορούν σε ασθενείς που πάσχουν από κολλαγόνες ασθένειες, ενώ στο Κεφάλαιο 5 γίνεται ανάλυση των αποτελεσμάτων που προέκυψαν. Η εργασία κλείνει με το Κεφάλαιο 6 στο οποίο παρουσιάζονται τα συμπεράσματα που προκύπτουν καθώς και πιθανές μελλοντικές εφαρμογές

9 2 Εξόρυξη Γνώσης 2.1 Εισαγωγή στη Διαδικασία Εξόρυξης Γνώσης από Βάσεις Δεδομένων Είμαστε κατακλυσμένοι από σωρεία δεδομένων. Η ποσότητα πληροφορίας στη ζωή μας φαίνεται να αυξάνεται διαρκώς. Έχουμε φτάσει σε ένα σημείο που απλώς αποθηκεύουμε ότι βρεθεί στο δρόμο μας που μπορεί παλιότερα να είχαμε αγνοήσει. Τα φτηνά αποθηκευτικά μέσα έχουν συμβάλλει και αυτά στη συλλογή δεδομένων, που εν τέλει μπορεί να μην είναι και τόσο χρήσιμα για μας. Όσο ο όγκος των πληροφοριών γύρω μας αυξάνεται, τόσο μειώνονται εκείνοι που τις κατανοούν. Έτσι με τα σημερινά μέσα οι άνθρωποι προσπάθησαν να ανακαλύψουν επιστημονικούς τρόπους για να κατανοήσουν τις πληροφορίες γύρω τους καθώς και τι ενυπάρχει ή κρύβεται πίσω από αυτές. Μπορούμε να πούμε ότι προσπάθησαν να βρουν κάποια πρότυπα (patterns) στα δεδομένα. Τα πρότυπα γενικότερα ως τρόποι συμπεριφοράς υπάρχουν από τη στιγμή που ξεκίνησε η ζωή. Θα μπορούσαμε να υποθέσουμε ότι η ιδανική δουλειά για έναν επιστήμονα είναι να γνωρίσει και να κατανοήσει τα δεδομένα που υπάρχουν στο περιβάλλον του, να ανακαλύψει πρότυπα και κανόνες-νόμους που διέπουν τη λειτουργία του φυσικού κόσμου, και συνεπώς να τα ενσωματώσει όλα αυτά σε μία θεωρία. Στην ανακάλυψη γνώσης από βάσεις δεδομένων, τα δεδομένα είναι αποθηκευμένα σε κάποιο ηλεκτρονικό μέσο, συνήθως σε κάποια βάση δεδομένων και η εύρεση είναι κατά ένα μεγάλο ποσοστό πλήρως αυτοματοποιημένη. Αυτή η ιδέα μπορούμε να πούμε ότι δεν είναι πρόσφατη. Αρκετοί επιστήμονες από διαφορετικούς επιστημονικούς τομείς καιρό τώρα ήθελαν να επιτύχουν κάτι τέτοιο. Αυτό που είναι καινούργιο με την τεχνολογία Data Mining είναι η καταπληκτική αύξηση της πιθανότητας εύρεσης προτύπων γνώσης στα δεδομένα. Η ανακάλυψη γνώσης και η εξόρυξη δεδομένων είναι έ- νας επιστημονικός τομέας που περιλαμβάνει διάφορες αρχές, κυρίως εστιάζοντας στις μεθοδολογίες για εξαγωγή χρήσιμης γνώσης από τα δεδομένα. Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων (data warehouses) έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, της μηχανικής μάθησης (machine learning), της στατιστικής, καθώς επίσης και ως μία σημαντική ευκαιρία για - 3 -

10 καινοτομία στις επιχειρήσεις. Οι δικτυακές εφαρμογές που διαχειρίζονται μεγάλες αποθήκες δεδομένων έχουν αρχίσει να κάνουν χρήση των διαφόρων τεχνικών εξόρυξης δεδομένων, με σκοπό τη βελτίωση της ποιότητας των παρερχομένων υπηρεσιών μέσω της μελέτης της συμπεριφοράς των πελατών και της εξαγωγής χρήσιμων συμπερασμάτων από αυτήν. Η τελευταία δεκαετία έχει επιφέρει μια αλματώδη αύξηση στην παραγωγή και συλλογή δεδομένων. Κάθε χρόνο παράγονται τεράστιοι όγκοι δεδομένων από εταιρίες και πανεπιστήμια τα οποία αποθηκεύονται σε μεγάλες βάσεις δεδομένων. Η πρόοδος στην τεχνολογία των βάσεων δεδομένων μας παρέχει νέες τεχνικές για την αποδοτική και αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Επίσης η δυνατότητα ανάλυσης και ερμηνείας του συνόλου των δεδομένων, και η εξαγωγή «χρήσιμης» γνώσης από αυτά έχει ξεπεράσει κάθε όριο και έχει δημιουργηθεί η ανάγκη για μία νέα γενιά εργαλείων και τεχνικών ικανών για ευφυή ανάλυση επί των βάσεων δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές (τεχνητή νοημοσύνη, στατιστική, αποθήκευση δεδομένων, έμπειρα συστήματα και τέλος τον τομέα της οπτικοποίησης δεδομένων) και δημιουργείται ένας νέος ερευνητικός τομέας, γνωστός ως εξόρυξη δεδομένων και γνώσης. 2.2 Εξόρυξη Δεδομένων και η Ανακάλυψη Γνώσης Η ανακάλυψη γνώσης από βάσεις δεδομένων (Knowledge Discovery in Databases - KDD) αναφέρεται στη διεργασία εξόρυξης γνώσης από μεγάλες βάσεις δεδομένων. Ο όρος εξόρυξη δεδομένων χρησιμοποιείται ως συνώνυμο της ανακάλυψης γνώσης, αν και λανθασμένα, καθώς επίσης και για αναφορά στις πραγματικές τεχνικές που χρησιμοποιούνται για την ανάλυση και την εξαγωγή γνώσης από διάφορα σύνολα δεδομένων. Κατά γενική χρήση ο όρος KDD αναφέρεται στο σύνολο των διαδικασιών από την επεξεργασία των δεδομένων έως το τελικό στάδιο, ενώ ο όρος Data Mining μπορούμε να πούμε ότι αποτελεί μια από τις διαδικασίες του KDD και αναφέρεται στην εξόρυξη γνώσης από τα δεδομένα. Για να διαφοροποιηθούμε μεταξύ της διαδικασίας και των εργαλείων, θα χρησιμοποιήσουμε τον πρώτο όρο, δηλαδή τον όρο KDD, για να περιγράψουμε ολόκληρη τη διαδικασία ανάλυσης ενός συνόλου δεδομένων, και το δεύτερο όρο, την εξόρυξη δεδομένων, για να αναφερθούμε κυρίως στις μεθόδους και τις τεχνικές που χρησιμοποιούνται στη διαδικασία ανάλυσης. Πολλοί ερευνητές θεωρούν τον όρο εξόρυξη δεδομένων μη αντιπροσωπευτικό της διαδικασίας που αντι

11 προσωπεύει, υποστηρίζοντας ότι ο όρος εξόρυξη γνώσης θα ήταν μια πιο κατάλληλη περιγραφή. Εντούτοις, ένας τέτοιος όρος μπορεί να μην δίνει έμφαση στην ανάλυση και την εξαγωγή των προτύπων από μεγάλα σύνολα δεδομένων. Ο όρος εξόρυξη δεδομένων (Data Mining) είναι αυτός που έχει επικρατήσει και χαρακτηρίζει τη διαδικασία της εύρεσης δομών γνώσης, οι οποίες περιγράφουν με ακρίβεια μεγάλα σύνολα πρωτογενών δεδομένων. Οι δομές αυτές αναδεικνύουν γνώση (συσχετίσεις ή κανόνες) που είναι κρυμμένη μέσα στα δεδομένα και δεν μπορεί να εξαχθούν από τον άνθρωποχρήστη της βάσης με «γυμνό» μάτι. Οι προκύπτουσες δομές είναι πλούσιες σε σημασιολογία και εκμεταλλεύονται πιθανές κοινές ιδιότητες των πρωτογενών δεδομένων. Μπορούμε λοιπόν να επικεντρωθούμε στην ανακάλυψη γνώσης από βάσεις δεδομένων και να θεωρήσουμε την προσπάθεια αυτή ως: «τη διεργασία της χρήσης των βάσεων δεδομένων μαζί με οποιαδήποτε απαίτηση επιλογής, προεπεξεργασίας, υποδειγματοποίησης και μετασχηματισμού, προκειμένου να εφαρμοσθούν οι διάφοροι μέθοδοι εξόρυξης δεδομένων για να απαριθμηθούν τα πρότυπα που ενυπάρχουν στη βάση, και για να αξιολογηθούν τα προϊόντα της εξόρυξης γνώσης για να αναγνωριστούν τα υποσύνολα των απαριθμηθέντων προτύπων που θεωρούνται γνώση»(fayyad 1996). Έτσι λοιπόν παρατηρούμε ότι παρ όλη την διεργασία και τους υπολογισμούς για την εξαγωγή συμπερασμάτων με κάποιο ντετερμινιστικό τρόπο, τελικά ο χρήστης ειδικός είναι αυτός που θα κρίνει την χρησιμότητα ή την καταλληλότητα της εξαγόμενης γνώσης. Η ανακάλυψη γνώσης από μία βάση δεδομένων (KDD) αναφέρεται σε ολόκληρη τη διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων. Ένας γενικός ορισμός, που παρουσιάζει με περισσότερη σαφήνεια την έννοια του όρου ΚDD μπορεί να δοθεί ως εξής «:Η ανακάλυψη γνώσης στις βάσεις δεδομένων είναι η ντετερμινιστική και σημαντική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών μοτίβων στα δεδομένα»( Frawley, Piatesky- Shaphiro και Matheus 1996 ). Ο όρος μοτίβο ή πρότυπο (pattern) εγκολπώνει έννοιες όπως συσχετίσεις (correlations), συνάφειες ή σχέσεις (relationships), γραμμές κατεύθυνσης (trends), περιγραφές σπάνιων γεγονότων, κλπ. Βέβαια υπάρχουν και άλλοι τρόποι περιγραφής του στόχου της ανακάλυψης γνώσης και της εξόρυξης δεδομένων, ανάλογα πάντα με τη γενικότητα του προβλήματος και τις προσδοκίες των επιστημόνων

12 Η διαδικασία ΚDD είναι μια διαλογική και επαναληπτική διαδικασία που αποτελείται από μια σειρά από τα ακόλουθα βήματα όπως φαίνονται και στην Εικόνα 1: Την ανάπτυξη και κατανόηση της περιοχής της εφαρμογής, της σχετικά προγενέστερης γνώσης του προς εξέταση τομέα και τους στόχους του τελικού χρήστη. Την ολοκλήρωση των δεδομένων. Υπάρχουν διαφορετικά είδη αποθηκών πληροφοριών που μπορούν να χρησιμοποιηθούν στη διαδικασία εξόρυξης γνώσης. Κατά συνέπεια, οι πολλαπλές πηγές δεδομένων μπορούν να συνδυαστούν καθορίζοντας το σύνολο στο οποίο πρόκειται τελικά να εφαρμοστεί η διαδικασία εξόρυξης. Τη δημιουργία του στόχου-συνόλου δεδομένων. Επιλογή του συνόλου δεδομένων (δηλαδή μεταβλητές, δείγματα δεδομένων) στο οποίο πρόκειται να εκτελεστεί η διαδικασία εξόρυξης. Τον καθαρισμό και την πρoεπεξεργασία δεδομένων. Αυτό το βήμα περιλαμβάνει βασικές διαδικασίες όπως η αφαίρεση του θορύβου ή εκτόπων (outliers), η συλλογή των απαραίτητων πληροφοριών για τη διαμόρφωση ή τη μέτρηση του θορύβου, η απόφαση σχετικά με τις στρατηγικές διαχείρισης των ελλειπόντων πεδίων δεδομένων. Τον μετασχηματισμό των δεδομένων. Τα δεδομένα μετασχηματίζονται ή παγιώνονται σε μορφές κατάλληλες για εξόρυξη. Γίνεται χρήση μεθόδων μείωσης διαστάσεων ή μετασχηματισμού για τη μείωση του αριθμού των υπό εξέταση μεταβλητών ή την εύρεση κατάλληλης αντιπροσώπευσης των δεδομένων. Την επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων. Σε αυτό το βήμα αποφασίζουμε το στόχο της διαδικασίας KDD, επιλέγοντας τους στόχους εξόρυξης δεδομένων που θέλουμε να επιτύχουμε. Επίσης, επιλέγονται οι μέθοδοι που θα χρησιμοποιηθούν. Αυτό περιλαμβάνει την επιλογή του κατάλληλου μοντέλου και παραμέτρων (π.χ. κατηγορικό ή αριθμητικό μοντέλο δεδομένων). Επίσης η μέθοδος εξόρυξης δεδομένων πρέπει να α- ντιστοιχηθεί με τις απαιτήσεις και τα γενικά κριτήρια της διαδικασίας KDD. Την εξόρυξη δεδομένων. Εφαρμόζοντας ευφυείς μεθόδους, ψάχνουμε για ενδιαφέροντα μοτίβα γνώσης. Τα μοτίβα αυτά θα μπορούσαν να είναι μιας συ

13 γκεκριμένης αντιπροσωπευτικής μορφής ή ενός συνόλου αντιπροσωπεύσεων όπως κανόνες κατηγοριοποίησης (classification rules), δέντρα, παλινδρόμηση, συσταδοποίηση (clustering) κ.λπ. Η απόδοση και τα αποτελέσματα της μεθόδου εξόρυξης δεδομένων εξαρτώνται από τα προηγούμενα βήματα της συνολικής διαδικασίας ανακάλυψης γνώσης. Την αξιολόγηση των προτύπων. Τα εξαγόμενα πρότυπα ή μοτίβα αξιολογούνται με κάποια μέτρα, προκειμένου να προσδιοριστούν εκείνα τα οποία α- ντιπροσωπεύουν τη γνώση καλύτερα, δηλαδή τα μοτίβα για τα οποία ενδιαφερόμαστε περισσότερο. Την σταθεροποίηση και παρουσίαση της γνώσης. Σε αυτό το βήμα, η εξορυγμένη γνώση ενσωματώνεται στο σύστημα και χρησιμοποιούνται κάποιες τεχνικές αντιπροσώπευσης αυτής προκειμένου να παρουσιαστεί ευκρινώς στο χρήστη. Εικόνα 1: Τα βήματα της διαδικασίας KDD Όπως προαναφέραμε, η εξόρυξη δεδομένων ως βήμα της διαδικασίας KDD ενδιαφέρεται κυρίως για τις μεθοδολογίες και τις τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από μεγάλες αποθήκες δεδομένων. Αφ' ετέρου, η διαδικασία KDD περιλαμβάνει την αξιολόγηση και την ερμηνεία των προτύπων, την επιλογή της κωδικοποίησης των προτύπων, της προ-επεξεργασίας, της δειγματοληψίας και του μετασχηματισμού των δεδομένων πριν από το βήμα της εξόρυξης των δεδομένων. Η δια

14 δικασία KDD είναι επαναληπτική και, θα μπορούσε να περιέχει βρόχους μεταξύ ο- ποιωνδήποτε από τα ανωτέρω βήματα. Η βασική ροή των βημάτων είναι διευκρινισμένη στην Εικόνα 1. Αν και η κύρια εργασία στη διαδικασία εξόρυξης γνώσης εστιάζεται στη διαδικασία εξόρυξης δεδομένων, τα άλλα βήματα είναι εξίσου σημαντικά για την επιτυχή εφαρμογή της τεχνικής KDD. 2.3 Η διαδικασία εξόρυξης δεδομένων Η εξόρυξη δεδομένων περιλαμβάνει τα μοντέλα συναρμολόγησης γνώσης των υπό εξέταση δεδομένων, ή εναλλακτικά, περιλαμβάνει την εξαγωγή των προτύπων από τα δεδομένα αυτά. Τα μοντέλα κατά κόρον χρησιμοποιούν ευφυείς μεθόδους. Υπάρχει μια μεγάλη συλλογή αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς επιστημονικούς τομείς. Μια θεμελιώδης ιδιότητα των αλγορίθμων εξόρυξης δεδομένων και αυτή που διαφοροποιεί τους περισσότερους από αυτούς από άλλες παρόμοιες τεχνικές που υιοθετούνται στη μηχανική μάθηση και τη στατιστική, είναι ότι οι αλγόριθμοι εξόρυξης δεδομένων έχουν σχεδιαστεί με έμφαση στην εξελιξιμότητα όσον αφορά το μέγεθος του συνόλου δεδομένων εισαγωγής. Η πλειοψηφία των αλγορίθμων εξόρυξης δεδομένων θα μπορούσε να περιγραφεί σε υψηλό επίπεδο με τον όρο ενός απλού πλαισίου. Συγκεκριμένα, μπορούν να αντιμετωπισθούν ως σύνθεση των τριών ακόλουθων συστατικών: Την περιγραφή του μοντέλου Την αξιολόγηση του μοντέλου Τους αλγόριθμους αναζήτησης Κάποια από τα εργαλεία που χρησιμοποιούνται για εξόρυξη δεδομένων είναι η κατηγοριοποίηση, οι μέθοδοι βασισμένοι στο θεώρημα Bayes, η τεχνητή νοημοσύνη (Intelligent Systems, Fuzzy Sets, classical AI, Machine Learning), τα νευρωνικά δίκτυα και ο εξελικτικός προγραμματισμός (Evolutionary Computation, Genetic Programming). Στη διαδικασία Εξόρυξης Γνώσης παίρνουν μέρος τα εξής : Περιγραφή των αρχών του προβλήματος : Χαρακτηριστικά και διακρίσεις. o Γενίκευση, σύνοψη και διαφορές χαρακτηριστικών γνωρισμάτων των δεδομένων (π.χ. ξηρό έναντι του υγρού κλίματος) - 8 -

15 Σχέσεις : Συσχετίσεις και αιτιότητα o Πολυδιάστατη αντί μονοδιάστατης σχέσης o age(x, ) & income(x, K ) buys(x, PC ) [support = 2%, confidence = 60%] o contains(t, computer ) contains(x, software ) [1%, 75%] Κατηγοριοποίηση και Πρόβλεψη o Εύρεση μοντέλων-λειτουργιών που περιγράφουν και διακρίνουν κλάσεις ή έννοιες για περαιτέρω-μελλοντική πρόβλεψη π.χ. ταξινόμηση κρατών βάση του κλίματος, ή ταξινόμηση αυτοκινήτων βάση της ιπποδύναμης. o Παρουσίαση πληροφορίας : Δέντρα Απόφασης, Κανόνες Ταξινόμησης- Κατηγοριοποίησης, Νευρωνικά Δίκτυα. o Πρόβλεψη : Πρόβλεψη κάποιας άγνωστης ή μη-υπάρχουσας αριθμητικής τιμής Ανάλυση Συστάδας-Κλάσης o Περιγραφή κλάσης: Ομαδοποίηση δεδομένων για τη δημιουργία νέων κλάσεων. o Συσταδοποίηση Ομαδοποίηση βασισμένη σε κάποια αρχή : Μεγιστοποιώντας την ομοιότητα των ενδεχόμενων τάξεων εντός μίας τάξης και εξαλείφοντας την δια-ταξική ομοιότητα. Ανάλυση Εκτόπων/Ανωμαλιών (outlier analysis) o Έκτοπα/Ανωμαλίες : Δεδομένα-Αντικείμενα που δεν είναι συμβατά με την γενική συμπεριφορά των δεδομένων. Δεν υπακούν στους κανόνες και δεν ανήκουν σε καμία κλάση/ομάδα o Μπορεί να θεωρηθεί ως θόρυβος στα δεδομένα και είναι ιδιαίτερα χρήσιμη στον εντοπισμό οικονομικών εγκλημάτων. Είδαμε λοιπόν συνοπτικά τις κυριότερες έννοιες και λειτουργίες της ανακάλυψης γνώσης από βάσεις δεδομένων. Βάση των ανωτέρω λοιπόν, συνεχίζουμε στην αναφορά της μεθοδολογίας της εξόρυξης γνώσης

16 2.4 Περιγραφή των διαφόρων μεθόδων Εξόρυξης Δεδομένων Τα πρότυπα που προκύπτουν από μια διαδικασία εύρεσης γνώσης διακρίνονται σε πρότυπα πληροφόρησης και πρότυπα πρόβλεψης. Τα πρότυπα πληροφόρησης (informative patterns) περιγράφουν συσχετίσεις μεταξύ των δεδομένων τις οποίες ο ειδικός του τομέα δεν γνώριζε. Η αξία τους είναι δυσκολότερο να αξιολογηθεί καθώς εξαρτάται από το κατά πόσο προτείνουν κάποιες ενέργειες σε αυτόν και επίσης από το κατά πόσο οι ενέργειες αυτές είναι αποτελεσματικές. Σε αυτήν την κατηγορία ανήκουν οι κανόνες συσχέτισης (association rules) όπως επίσης και οι ομάδες-συστάδες (clusters) οι οποίες προκύπτουν από την KDD διαδικασία της ομαδοποίησης (clustering). Τα πρότυπα πρόβλεψης (predictive patterns) προβλέπουν την τιμή ενός πεδίου με βάση τις τιμές των άλλων πεδίων. Η αξία τους δεν κρίνεται μόνο από την ποιότητα της πρόβλεψης αλλά και από το ότι μπορούν να μεταφέρουν στον ειδικό του τομέα μια γενική εικόνα της σχέσης που χαρακτηρίζει τα πεδία που μελετά. Τέτοιες διαδικασίες εύρεσης γνώσης είναι η κατηγοριοποίηση (classification) με κυριότερες υποπεριπτώσεις τα δένδρα κατηγοριοποίησης (classification trees) και τους απλούς κατηγοριοποιητές Bayes, καθώς και η διαδικασία εντοπισμού εμπειρικών σχέσεων σε μεταβλητές (regression). Στη συνέχεια θα περιγραφούν οι κυριότερες τεχνικές που υλοποιούν τα πρότυπα κάθε κατηγορίας, όπως αυτές αναφέρθηκαν παραπάνω Μέθοδοι Προτύπων Πληροφόρησης Ομαδοποίηση Η ομαδοποίηση-συσταδοποίηση (clustering) είναι η εργασία του καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο λιγότερο ετερογενών υποομάδων (clusters). Αυτό που διαφοροποιεί την ομαδοποίηση από την κατηγοριοποίηση είναι ότι η ομαδοποίηση δε βασίζεται σε προκαθορισμένες κλάσεις. Στην κατηγοριοποίηση, ο πληθυσμός διαιρείται σε κλάσεις αναθέτοντας κάθε στοιχείο ή εγγραφή σε µία προκαθορισμένη κλάση µε βάση ένα μοντέλο που αναπτύσσεται µέσω της εκπαίδευσης του µε παραδείγματα που έχουν κατηγοριοποιηθεί εκ των προτέρων. Οι εγγραφές ομαδοποιούνται σε σύνολα µε βάση την ομοιότητα που παρουσιάζουν μεταξύ τους,όπως φαίνεται

17 για παράδειγμα στην εικόνα 2. Ο ειδικός του τομέα θα καθορίσει την σημασία που θα έχει κάθε μια από τις ομάδες (clusters) που προκύπτουν. Εικόνα 2: Παράδειγμα ομαδοποίησης Clustering Η ομαδοποίηση μπορεί να χρησιμοποιηθεί και σαν εισαγωγή σε κάποια άλλη μορφή Data Mining ή μοντελοποίησης. Για παράδειγμα, η ομαδοποίηση μπορεί να χρησιμοποιηθεί σαν πρώτο βήμα στην προσπάθεια μερισμού των ασθενών ενός νοσοκομείου. Αντί δηλαδή να προσπαθούμε να προσδιορίσουμε τι είδος φαρμακευτική αγωγή θα ταίριαζε καλύτερα σε κάθε ασθενή, μπορούμε να κατηγοριοποιήσουμε τους ασθενείς αρχικά σε ομάδες (clusters) ασθενών που παρουσιάζουν τις ίδιες αλλεργίες στα διάφορα φάρμακα και στην συνέχεια να προσδιορίσουμε το είδος της φαρμακευτικής αγωγής που ταιριάζει σε κάθε ομάδα. Κανόνες Συσχέτισης Στην περίπτωση αυτή συναντόνται σύνολα από αντικείμενα ή εγγραφές, κάθε ένα από τα οποία περιέχει έναν αριθμό από αντικείμενα τα οποία ανήκουν σε µία δεδομένη συλλογή. Μία συνάρτηση συσχέτισης είναι µία συνάρτηση που εφαρμόζεται σε ένα σύνολο εγγραφών η οποία επιστρέφει σχέσεις ή πρότυπα που υπάρχουν στην συλλογή αυτών των αντικειμένων. Τα πρότυπα αυτά μπορεί να εκφραστούν µε κανόνες, των ο- ποίων η γενική μορφή είναι «Αν Χ τότε Υ». Η εξαγωγή των κανόνων γίνεται µε την βοήθεια κάποιων αλγορίθμων, οι οποίοι αποδεικνύονται αρκετά αποδοτικοί. Έπειτα από την ανάλυση και εύρεση των κανόνων

18 θα πρέπει να διαπιστωθεί κατά πόσο είναι έγκυροι και σημαντικοί για την εφαρμογή µας. Υπάρχουν δύο συντελεστές οι οποίοι αναφέρονται στην ποιότητα των ευρεθέντων συσχετίσεων της μορφής: Χ Υ: Ο παράγοντας υποστήριξης (support) είναι ο λόγος των εγγραφών που ικανοποιούν και το Χ και το Υ προς το σύνολο των εγγραφών. Ο παράγοντας εμπιστοσύνης (confidence) είναι ο λόγος των εγγραφών που ικανοποιούν και το Χ και το Υ προς τις εγγραφές που ικανοποιούν µόνο το Χ. Παράδειγμα συσχετίσεων φαίνεται στην εικόνα 3. Εικόνα 3: Παράδειγμα συσχετίσεων Η μεγαλύτερη δυσκολία στην αναζήτηση κανόνων συσχέτισης είναι ο μεγάλος α- ριθμός τέτοιων κανόνων που θεωρητικά υπάρχουν σε μια βάση δεδομένων και η επιλογή εκείνων που έχουν πρακτική αξία. Αυτό συνήθως γίνεται θέτοντας κάποιο κάτω όριο στις τιμές των μεγεθών Εμπιστοσύνη και Υποστήριξη Μέθοδοι Προτύπων Πρόβλεψης Κατηγοριοποίηση Η κατηγοριοποίηση αποτελεί μία από τις βασικές τεχνικές εξόρυξης δεδομένων. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου (μη κατηγοριοποιημένου) το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Η διαδικασία της κατηγοριοποίησης χαρακτηρίζεται από ένα σαφή καθορισμό των κατηγοριών και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου αποτελείται από προκαθορισμένα παραδείγματα. Για το σκοπό αυτό χρησιμοποιούνται κυρίως δύο κατηγορίες τεχνικών. Η πρώτη χρησιμοποιεί Νευρωνικά Δίκτυα και η δεύτερη Δέντρα Αποφάσεων. Και οι δύο τρόποι

19 κατηγοριοποίησης στηρίζονται στην ιδέα της εκπαίδευσης με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης(training set). Το υποσύνολο αυτό επιλέγεται σαν αντιπροσωπευτικό δείγμα του συνολικού όγκου δεδομένων. Με την εφαρμογή της διαδικασίας αυτής καθορίζονται τα πρότυπα κατηγοριοποίησης για τις κατηγορίες δεδομένων που δημιουργήθηκαν από το σύνολο εκπαίδευσης. Δέντρα Αποφάσεων Τα δέντρα απόφασης ή ταξινόμησης (decision ή classification trees) είναι μια μέθοδος που προσφέρει ακρίβεια, σαφήνεια, ταχύτητα και η οποία έχει το πλεονέκτημα ότι η γνώση που προκύπτει γίνεται εύκολα κατανοητή. Πρόκειται για μια τεχνική προσέγγισης συναρτήσεων διακριτών τιμών (target functions) στην οποία η συνάρτηση εκπαίδευσης αναπαρίσταται μέσω ενός δέντρου απόφασης. Πιο συγκεκριμένα η τεχνική εξελίσσεται ικανοποιώντας τη συνθήκη: διαίρεσε το σύνολο των παραδειγμάτων με βάση κάποιο χαρακτηριστικό, με κριτήριο το κέρδος πληροφορίας, σε υποσύνολα, εξασφαλίζοντας ότι κάθε υποσύνολο θα έχει κατά το δυνατό την ίδια τιμή για αυτό το χαρακτηριστικό. Τα δέντρα απόφασης ταξινομούν στιγμιότυπα διατάσσοντας τα από τη ρίζα σε κάποιο κόμβο-φύλλο. Κάθε κόμβος αναφέρεται στην εξέταση κάποιου χαρακτηριστικού (attribute) του στιγμιότυπου και κάθε αμέσως επόμενος κλάδος αντιστοιχεί σε μια από τις πιθανές τιμές του στιγμιότυπου. Γενικά, κάθε διαδρομή από τη ρίζα του δέντρου σε κάποιο φύλλο αντιστοιχεί σε μια ένωση των χαρακτηριστικών, ενώ κάθε διακλάδωση σε μια διάζευξη αυτών των συζεύξεων. Οι γνωστότεροι αλγόριθμοι εκπαίδευσης (ID3, C4.5) χρησιμοποιούν μια top-down, εξαντλητική αναζήτηση στο χώρο των πιθανών δέντρων απόφασης. Αρχίζουν με ένα κενό δέντρο και προοδευτικά θέτουν πιο περίπλοκες υποθέσεις με στόχο την εύρεση ενός δέντρου που ταξινομεί σωστά τα δεδομένα εκπαίδευσης. Όταν έχει ολοκληρωθεί η διαδικασία ανακάλυψης γνώσης με χρήση του αλγόριθμου, τότε το δένδρο μπορεί να αναπαρασταθεί ως σύνολο κανόνων της μορφής: «Εάν <ΣΥΝΟΛΟ ΣΥΝΘΗΚΩΝ> τότε <ΣΥΜΠΕΡΑΣΜΑ> Η ανακάλυψη γνώσης με χρήση αλγορίθμων δένδρων απόφασης αποτελεί μια από τις πλέον δημοφιλείς τεχνικές επαγωγικής εκμάθησης και έχει μεγάλη εφαρμογή στη διάγνωση Ιατρικών περιπτώσεων, στην εκτίμηση πιθανού ρίσκου από πιστοληπτικές τραπεζικές εργασίες κ.ά

20 Παράδειγμα για αυτή την μέθοδο είναι το δέντρο απόφασης για την καταλληλότητα του καιρού για τένις,όπως φαίνεται και στην εικόνα 4. Εικόνα 4: Παράδειγμα για δέντρο απόφασης Εμπειρική Σχέση Μεταβλητών Η εμπειρική σχέση μεταβλητών (regression) αφορά την αναζήτηση προτύπων πρόβλεψης, όπου το χαρακτηριστικό που προβλέπεται απαιτείται να έχει αριθμητική τιμή. Οι κυριότερες μέθοδοι που χρησιμοποιούνται είναι δύο: Η Γραμμική Παρεμβολή (Linear Regression), όπου το χαρακτηριστικό του οποίου η τιμή πρέπει να προβλεφθεί μοντελοποιείται με μια απλή γραμμική εξίσωση των παραμέτρων εισόδου. Τα Νευρωνικά Δίκτυα (Neural Networks), όπου μετά την εκπαίδευσή τους με τα υπάρχοντα δεδομένα εισόδου / εξόδου είναι σε θέση να αποδώσουν μια νέα τιμή εξόδου σε νέα δεδομένα εισόδου. Τα νευρωνικά δίκτυα προτιμώνται σε σχέση με την γραμμική παρεμβολή λόγω του ότι έχουν την δυνατότητα να μοντελοποιούν μη γραμμικά δεδομένα χρησιμοποιώντας συναθροίσεις συναρτήσεων με βάρη. Εκτίμηση και Πρόβλεψη Σε αυτή την κατηγορία χρησιμοποιούνται δύο ειδών τεχνικές: η γραμμική (Linear) και η µη γραμμική παλινδρόμηση(logistic). Στην πρώτη περίπτωση ο αλγόριθμος προσπαθεί να βρει µία γραμμή η οποία να προσεγγίζει µε την μεγαλύτερη δυνατή πιθανότητα τις τιμές από ένα σύνολο σημείων του χώρου. Στην δεύτερη περίπτωση χρησιμοποιούνται κάποιοι µη γραμμικοί όροι για να μπορέσει το μοντέλο να πλησιάσει ακόμη περισ

21 σότερο το σύνολο των δεδομένων. Παρόλα αυτά όμως, δεν είναι σίγουρο ότι µία τέτοια προσέγγιση μπορεί να καλύψει όλο το σύνολο των δεδομένων µε σχετική ασφάλεια. Η παλινδρόμηση αναφέρεται στην εκμάθηση μίας συνάρτησης η οποία αντιστοιχεί τα δεδομένα σε µία μεταβλητή πρόβλεψης (prediction variable) πραγματικής τιμής. Οι εφαρμογές της παλινδρόμησης είναι πάρα πολλές π.χ. εκτίμηση της πιθανότητας ένας ασθενής να έχει κάποια ασθένεια, δεδομένων των αποτελεσμάτων ενός συνόλου διαγνωστικών test και άλλα. Νευρωνικά Δίκτυα Νευρωνικά Δίκτυα ονομάζονται τα δίκτυα μη γραμμικών στοιχείων, διασυνδεδεμένων μέσω ρυθμιζόμενων βαρών. Μάλιστα τα μη γραμμικά στοιχεία δέχονται ως είσοδο το προσαρμοσμένο άθροισμα των εξόδων άλλων στοιχείων προσομοιάζοντας έτσι τη λειτουργία των βιολογικών νευρώνων. Τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ) παρέχουν εν γένει μια πρακτική μέθοδο για την πρόβλεψη συναρτήσεων, που έχουν ως πεδίο τιμών πραγματικές ή διακριτές τιμές, από ένα σύνολο παραδειγμάτων. Αλγόριθμοι, όπως ο Backpropagation, χρησιμοποιούνται για να ρυθμίσουν με λεπτομέρεια τις παραμέτρους του δικτύου, ώστε να επιτευχθεί η καλύτερη δυνατή προσαρμογή του ΤΝΔ στο συγκεκριμένο κάθε φορά πρόβλημα εφαρμογής, όπως αυτό καθορίζεται από τα δεδομένα εισόδου και εξόδου του δικτύου. Η διαδικασία εκπαίδευσης, ενός ΤΝΔ, δεν επηρεάζεται σημαντικά σε σύγκριση με άλλες μεθόδους από λάθη ή από ελλιπείς τιμές που τυχόν υπάρχουν στο σύνολο δεδομένων εκπαίδευσης. Η έμπνευση για τη μελέτη των ΤΝΔ προέκυψε από την παρατήρηση ότι τα βιολογικά συστήματα γνώσης έχουν οικοδομηθεί σε πολυσύνθετες δομές διασυνδεδεμένων φυσικών νευρώνων. Τα ΤΝΔ προσπάθησαν να αντιγράψουν αυτές τις δομές, συνδέοντας μια ομάδα απλών μονάδων (τεχνητών νευρώνων), η κάθε μια από τις οποίες δέχεται έναν αριθμό από εισόδους (συνήθως πραγματικούς αριθμούς) και οι οποίες μπορεί να είναι οι τιμές εξόδου άλλων μονάδων. Οι μονάδες αυτές παράγουν ως έξοδο μια πραγματική τιμή, η οποία μπορεί να αποτελέσει είσοδο σε κάποιους άλλους τεχνητούς νευρώνες. Η γενική δομή ενός νευρωνικού δικτύου φαίνεται στην εικόνα 5. Παραδείγματα επιτυχημένων εφαρμογών ΤΝΔ, μπορούν να αναφερθούν από δύο κυρίως περιοχές. Στην πρώτη περίπτωση οι ερευνητές έχουν ως στόχο τη χρησιμοποίηση των ΤΝΔ στη μελέτη μοντέλων αναπαράστασης βιολογικών διαδικασιών εκμάθησης π.χ. αναγνώριση ομιλίας ή αναγνώρισης γραφικού χαρακτήρα χειρόγραφων κειμένων

22 Στη δεύτερη περίπτωση στόχος είναι η δημιουργία υψηλής απόδοσης αλγορίθμων, ανεξάρτητα εάν οι αλγόριθμοι αυτοί αντιστοιχούν σε γνωστές βιολογικές διαδικασίες. Εικόνα 5: Δομή Νευρωνικού Δικτύου Γενετικοί Αλγόριθμοι Οι γενετικοί αλγόριθμοι μαζί µε τα νευρωνικά δίκτυα αποτελούν τους κυριότερους α- ντιπρόσωπους της αυτό-μάθησης. Η ονομασία τους προήλθε από τα χαρακτηριστικά που έχουν δανειστεί από την γενετική. Όπως και στην περίπτωση του DNA που ολόκληρη η αλυσίδα αποτελείται µόνο από τέσσερα δομικά στοιχεία, έτσι και οι γενετικοί αλγόριθμοι χρησιμοποιούν κωδικοποιήσεις µε περιορισμένο αριθμό στοιχείων. Ένα ακόμα κοινό χαρακτηριστικό τους είναι ότι το τελικό αποτέλεσμα προκύπτει ύστερα από συνδυασμό των επιμέρους λύσεων στα διάφορα στάδια. Η φόρμα υλοποίηση ενός γενετικού αλγορίθμου για την επίλυση προβλημάτων είναι : 1) Επινόηση μίας κατάλληλης κωδικοποίησης του προβλήματος σε όρους συμβολοσειρών µε περιορισμένο αλφάβητο. 2) Ανακάλυψη τρόπων σύμφωνα µε τους οποίους πιθανές λύσεις μπορούν να συνδυαστούν προκειμένου να δοθεί καλύτερη λύση. Μια δημοφιλής λειτουργία είναι η αποκοπή της συμβολοσειράς «πατέρα» και «μητέρας», τροποποίησης τους και η συνένωση τους για τη δημιουργία του απόγονου. 3) Απομάκρυνση των κακών αποτελεσμάτων και αντικατάσταση τους µε καλούς «απογόνους» τους. Η διαδικασία σταματά όταν δημιουργηθεί μια οικογένεια από καλά αποτελέσματα

23 Οι γενετικοί αλγόριθμοι συνήθως βρίσκουν μια ικανοποιητική λύση, εάν βέβαια αυτή υπάρχει. Ωστόσο, σε ειδικές περιοχές λειτουργιών αναζήτησης, οι γενετικοί αλγόριθμοι συχνά δεν είναι κατάλληλοι

24

25 3 SQL Server Εργαλεία εξόρυξης γνώσης Οι Οργανισμοί στις μέρες μας διατηρούν μεγάλες βάσεις δεδομένων, στις οποίες συλλέγονται οι καθημερινές τους συναλλαγές. Στις μέρες μας ένας από τους λόγους για τους οποίους προβαίνουν σε αυτή τη αναζήτηση είναι και η εξασφάλιση επιπρόσθετης πληροφορίας και γνώσης μέσω των τεχνικών αναζήτησης γνώσης που θα συμβάλλουν με τη σειρά τους στην αντιμετώπιση του ανταγωνισμού και στην βελτίωση των παρεχομένων υπηρεσιών. Ο όγκος των δεδομένων που συλλέγονται είναι απαγορευτικός για την επεξεργασία τους από ανθρώπους, χωρίς την χρήση κατάλληλων εργαλείων και μεθόδων. Επίσης, εργαλεία ερωταποκρίσεων δεν επαρκούν για την επεξεργασία και την αξιοποίηση των δεδομένων. Έτσι εμφανίστηκαν εταιρίες παραγωγής λογισμικού οι οποίες αντιλαμβανόμενες την ανάγκη για γνώση και πληροφόρηση, έλεγχο και επεξεργασία, υλοποίησαν εργαλεία τα οποία καταφέρνουν να ενσωματώνουν πληθώρα τεχνικών και αλγορίθμων για την αναζήτηση και εξόρυξη γνώσης και κρυμμένης πληροφορίας από αυτές τις βάσεις δεδομένων. Παρακάτω θα παρουσιάσουμε τους βασικότερους προμηθευτές και τα προϊόντα εξόρυξης γνώσης που παρέχουν. 3.2 Βασικοί προμηθευτές και προϊόντα εξόρυξης γνώσης Υπάρχουν αρκετές εταιρίες και μη κερδοσκοπικοί φορείς που παρέχουν προϊόντα εξόρυξης γνώσης. Το KDNuggets (kdnuggets.com) έχει έναν εκτεταμένο κατάλογο των παραπάνω καθώς και των προϊόντων τους στον τομέα της εξόρυξης γνώσης. Εδώ απαριθμούμε μερικές από τις σημαντικότερες εταιρίες καθώς και τα αντίστοιχα προϊόντα τους. SAS Η SAS είναι πιθανώς ο μεγαλύτερος προμηθευτής προϊόντων εξόρυξης γνώσης από άποψη μεριδίου αγοράς. Η SAS βρισκόταν στον τομέα της στατιστικής για δεκαετίες. Η βάση της SAS περιέχει ένα πολύ πλούσιο σύνολο στατιστικών λειτουργιών που μπο

26 ρούν να χρησιμοποιηθούν για όλα τα είδη της ανάλυσης στοιχείων. Επίσης περιέχει μια ισχυρή γλώσσα επεξεργασίας. Ο SAS Enterprise Miner δημιουργήθηκε το Παρέχει στο χρήστη ένα γραφικό περιβάλλον ροής για δημιουργία μοντέλων και έχει ένα σύνολο δημοφιλών αλγορίθμων εξόρυξης δεδομένων, συμπεριλαμβανομένων αλγορίθμων κατασκευής δέντρων απόφασης,εκπαίδευσης νευρωνικών δικτύων, παλινδρόμησης, εύρεσης κανόνων συσχέτισης κ.τ.λ. Υποστηρίζει επίσης την εξόρυξη γνώσης σε κείμενα. SPSS Η SPSS είναι μια άλλη σημαντική επιχείρηση στατιστικών. Έχει διάφορα προϊόντα εξόρυξης δεδομένων συμπεριλαμβανομένου της SPSS Base και το Answer Tree(δέντρο απόφασης). Η SPSS απόκτησε την βρετανική επιχείρηση ISL στα τέλη του 1998 και κληρονόμησε το πακέτο εξόρυξης δεδομένων Clementine. Η Clementine ήταν μια από τις πρώτες επιχειρήσεις που εισήγαγε την έννοια ροής εξόρυξης δεδομένων, που επιτρέπει στους χρήστες να καθαρίσουν τα δεδομένα και να τα μετασχηματίσουν στο ίδιο περιβάλλον ροής της δουλειάς. Η Clementine έχει επίσης εργαλεία για να διαχειριστεί τον κύκλο του σχεδίου εξόρυξης δεδομένων. ΙΒΜ Η ΙΒΜ έχει ένα ευφυές προϊόν αποκαλούμενο Intelligent Miner, που αναπτύχθηκε από ένα υποκατάστημά της στη Γερμανία Ο Intelligent Miner περιέχει ένα σύνολο αλγορίθμων και εργαλείων απεικόνισης. Ο Intelligent Miner εξάγει τα παραγόμενα πρότυπα σε γλώσσα PMML, που καθορίστηκε από την ομάδα εξόρυξης δεδομένων (DMG). Τα έγγραφα PMML είναι αρχεία μορφής XML που περιέχουν τις περιγραφές των προτύπων και τα στατιστικά του συνόλου δεδομένων εκπαίδευσης. Αυτά τα αρχεία μπορούν να φορτωθούν στη βάση δεδομένων για διεργασίες πρόβλεψης. Microsoft Η Microsoft ήταν ο πρώτος σημαντικός προμηθευτής βάσεων δεδομένων που συμπεριέλαβε τα χαρακτηριστικά γνωρίσματα εξόρυξης δεδομένων σε μια σχεσιακή βάση δεδομένων. Ο SQL Server 2000, που κυκλοφόρησε τον Σεπτεμβρίου του 2000, περιέχει δύο κατοχυρωμένους με δίπλωμα ευρεσιτεχνίας αλγορίθμους εξόρυξης δεδομένων: τον Microsoft Decision Trees και τον Microsoft Clustering. Εκτός από αυτούς τους αλγορίθμους, το σημαντικότερο χαρακτηριστικό γνώρισμα εξόρυξης δεδομένων είναι η εφαρμογή του DB OLE για την εξόρυξη δεδομένων από σχεσιακές βάσεις δεδομένων. Το DB OLE για την εξόρυξη δεδομένων είναι βιομηχανικό πρότυπο που καθορίζει μια

27 γλώσσα εξόρυξης δεδομένων στην μορφή της SQL και ένα σύνολο σχημάτων που α- πευθύνεται στους υπεύθυνους για την ανάπτυξη βάσεων δεδομένων. Αυτό το API καθιστά πολύ εύκολη την ενσωμάτωση των μηχανισμών εξόρυξης δεδομένων στις ε- φαρμογές που αναπτύσσουν οι τελικοί χρήστες.τον Σεπτέμβριο του 2005 κυκλοφόρησε ο SQL Server 2005 τον οποίο χρησιμοποιήσαμε και στην παρούσα εργασία. Oracle To λογισμικό πακέτο Oracle 9i που κυκλοφόρησε το 2000, περιέχει μερικούς αλγορίθμους εξόρυξης δεδομένων βασισμένους στην συσχέτιση και στους κατηγοριοποιειτές Bayes. Το νεότερο πακέτο Oracle 10g περιλαμβάνει πολλούς περισσότερους αλγορίθμους και εργαλεία εξόρυξης δεδομένων. Η Oracle ενσωμάτωσε επίσης την εξόρυξη δεδομένων με μορφή API γραμμένο σε Java. Agnoss Το Angoss Knowledge STUDIO είναι ένα εργαλείο εξόρυξης δεδομένων που περιλαμβάνει τη δυνατότητα της μοντελοποίησης δέντρων απόφασης, της ανάλυσης συστάδων και διάφορα άλλα μοντέλα πρόβλεψης. Αυτά επιτρέπουν στους χρήστες να αναλύσουν τα δεδομένα και τα μοντέλα από διάφορες οπτικές. Περιλαμβάνει ισχυρά εργαλεία α- πεικόνισης δεδομένων για να υποστηρίξει και να εξηγήσει τη γνώση που ανακαλύπτει. Το Angoss υποστηρίζει σύνδεση με το σύστημα SQL Server KXEN H KXEN είναι ένας προμηθευτής λογισμικού εξόρυξης δεδομένων που βρίσκεται στη Γαλλία. Έχει διάφορους αλγορίθμους εξόρυξης δεδομένων, συμπεριλαμβανομένου του SVM, της οπισθοδρόμηση, της κατάτμησης, των δένδρων απόφασης και άλλων. Παρέχει επίσης τις λύσεις εξόρυξης δεδομένων για τους κύβους OLAP ενώ ανέπτυξε και μία εφαρμογή που επιτρέπει στους χρήστες για να κάνουν εξόρυξη κατευθείαν σε ένα περιβάλλον Excel. 3.3 Εισαγωγή στον SQL Server 2005 O Microsoft SQL Server προσφέρει μία ολοκληρωμένη βάση δεδομένων με εργαλεία ανάλυσης. Αποτελεί την πλήρη λύση για αποθήκευση και ανάλυση δεδομένων στον ταχύτατα αναπτυσσόμενο χώρο λύσεων e-commerce, line-of-business και data warehousing. Ο SQL Server 2005 μειώνει σημαντικά το χρόνο που χρειάζεται για την υλοποίηση εφαρμογών και προσφέρει υψηλή κλιμάκωση και αξιοπιστία για τις πλέον απαιτητικές επιχειρηματικές εφαρμογές

28 Ο SQL Server εξασφαλίζει: Περισσότερες δυνατότητες κλιμάκωσης, υψηλή διαθεσιμότητα και μέγιστη α- σφάλεια. Εύκολη εγκατάσταση και απλή διαχείριση Γρήγορη ανάπτυξη και εγκατάσταση εφαρμογών για τις ανάγκες της επιχείρησης. Δυνατότητες XML για όλα τα δεδομένα. Ολοκληρωμένο σύνολο εργαλείων για data warehousing και Business Intelligence. Κοινή πλατφόρμα για μεγάλους server αλλά και συσκευές Pocket PC Βασικές πληροφορίες Αξιοποιώντας την συνεργασία με την πλατφόρμα.net, ο SQL Server αποτελεί τη βάση για τη διαχείριση και την ανάλυση δεδομένων. Επιπλέον παρουσιάζει : 1. Εξαιρετική υποστήριξη web. a. Υποστήριξη XML και Internet. i. Αποθήκευση και ανάκτηση δεδομένων σε μορφή XML με εύκολο τρόπο χάρη σε ενσωματωμένες διαδικασίες. ii. Εισαγωγή, ενημέρωση και διαγραφή δεδομένων για προγραμματιστές XML με XML update grams. iii. Ενοποίηση συστημάτων με υποστήριξη βασικών προτύπων W3C και IETF όπως Xpath, HTTP και XML Update grams. b. Εύκολη πρόσβαση σε κάθε τύπο δεδομένων από το Web. i. Εύκολη πρόσβαση στον SQL Server άμεσα από το web μέσω HTTP. ii. Αναζήτηση δεδομένων που βρίσκονται στη βάση και σε έγγραφα χάρη στους ενσωματωμένους μηχανισμούς για ταχύτερη αναζήτηση full-text. iii. Εύκολη αναζήτηση / Query από το web σε φυσική γλώσσα. 2. Εύκολη διαχείριση και ρύθμιση. a. Αυτοματοποίηση, κεντρική διαχείριση και ρυθμίσεις

29 i. Απαιτείται λιγότερος χρόνος και προσπάθεια χάρη στα χαρακτηριστικά αυτόματης και ρύθμισης. ii. Κεντρική διαχείριση των βάσεων δεδομένων SQL Server. b. Υψηλή απόδοση. i. Πρόσβαση και ρύθμιση της απόδοσης του server. ii. Παρακολούθηση και βελτιστοποίηση για συγκεκριμένα σενάρια χρήσης. iii. Κατανόηση αντικειμένων στη βάση (database objects) για ταχύτερα queries. 3. Ανάπτυξη με τις ανάγκες της επιχείρησης. a. Ολοκληρωμένη λύση για τη μετατροπή των δεδομένων σε αποτέλεσμα. i. Δημιουργία λύσεων για ανάλυση δεδομένων με χρήση ενσωματωμένων εργαλείων με στόχο την αξιοποίηση των δεδομένων. ii. Παρουσίαση σχέσεων και τάσεων στα δεδομένα χάρη σε νέα εργαλεία εξόρυξης γνώσης. iii. Αυτόματη σύνδεση με επιχειρηματικές διαδικασίες με βάση τα αποτελέσματα της ανάλυσης. b. Σταθερότητα και επεκτασιμότητα i. Πλήρης αξιοποίηση του λειτουργικού συστήματος Windows 2000/2003. ii. Εύκολη μεταφορά δεδομένων στον SQL Server iii. Επέκταση χωρίς περιορισμούς. Microsoft SQL 2005 Business Intelligence Η πλατφόρμα επιχειρηματικής ευφυΐας του Microsoft SQL Server 2005 (BI) υποστηρίζει ανάλυση και αποθήκευση δεδομένων και δημιουργία αναφορών. Βοηθάει τις επιχειρήσεις να συλλέγουν χρήσιμες πληροφορίες από τους όγκους ανεπεξέργαστων δεδομένων που είναι αποθηκευμένα σε λειτουργικές βάσεις δεδομένων. Στην εικόνα 6 εμφανίζεται ένα τυπικό σύστημα που συλλέγει δεδομένα από πηγές λειτουργικών δεδομένων (δεξιά), όπως ένα σύστημα πωλήσεων σε ένα κατάστημα λιανικής πώλησης, το οποίο ενοποιεί τα δεδομένα σε έναν χώρο αποθήκευσης δεδομένων (κέντρο) και τα διανέμει

30 σε χρήστες που χρειάζονται να αναλύσουν να λάβουν τακτικές αναφορές όσον αφορά τα δεδομένα (αριστερά). Εικόνα 6: Λειτουργική Αρχιτεκτονική της Πλατφόρμας Επιχειρηματικής Ευφυΐας της Microsoft Η πλατφόρμα επιχειρηματικής ευφυΐας της Microsoft παρέχει τρεις κύριες υπηρεσίες: Η υπηρεσία Integration Services υποστηρίζει διαδικασίες ενοποίησης εξαγωγής, μετατροπής και φόρτωσης (ETL extract, transform,load) δεδομένων, τα οποία συνήθως χρησιμοποιούνται για την ενημέρωση αποθηκών συγκεντρωτικών δεδομένων σε περιοδική βάση. Στην εικόνα 6, η υπηρεσία Integration Services εξάγει δεδομένα από διάφορες ηλεκτρονικές πηγές δεδομένων, στις οποίες είναι δυνατό να περιλαμβάνονται και πηγές που δεν ανήκουν στη Microsoft, όπως βάσεις δεδομένων της Oracle. Η υπηρεσία συνδυάζει, ξεκαθαρίζει και συνοψίζει αυτά τα δεδομένα, για παράδειγμα, μπορεί να τυποποιεί τους γεωγραφικούς κώδικες που χρησιμοποιούνται για τοποθεσίες καταστημάτων λιανικής πώλησης ή τις μορφές των ημερομηνιών. Τέλος, ενημερώνει την αποθήκη συγκεντρωτικών δεδομένων με τα συνοπτικά δεδομένα. Η υπηρεσία Analysis Services υποστηρίζει ειδικές δομές (κύβους OLAP) για την ανάλυση αποθηκών συγκεντρωτικών δεδομένων με χρήση ηλεκτρονικής αναλυτικής επεξεργασίας, μια μέθοδο για αποτελεσματική σύνοψη μεγάλων όγκων ιστορικών δεδομένων. Οι χρήστες εργάζονται με τα δεδομένα OLAP μέσω εργαλείων προγραμμάτων-πελατών (όπως το Excel ή άλλα προγράμματα-πελάτες OLAP τρίτων κατασκευαστών) που επικοινωνούν με το στοιχείο διακομιστή της υπηρεσίας Analysis Services, τη

31 μηχανή για ενημέρωση, υποβολή ερωτημάτων και διαχείριση κύβων OLAP. Η υπηρεσία Analysis Services προέρχεται και επεκτείνει τις αρχικές υπηρεσίες OLAP του SQL Server. Εκτός από τις υπηρεσίες και την υποδομή για υποστήριξη κύβων και εφαρμογών OLAP, η υπηρεσία Analysis Services περιέχει επίσης δυνατότητες για δημιουργία εφαρμογών "εξόρυξης" (mining) δεδομένων, οι οποίες βοηθούν τους εργαζομένους να εντοπίζουν κρυφές συσχετίσεις και πρότυπα σε δεδομένα (π.χ., εντοπίζοντας προϊόντα των οποίων οι πωλήσεις συχνά συνδυάζονται με την πώληση και άλλων προϊόντων). Η υπηρεσία Reporting Services είναι μια υπηρεσία που χρησιμοποιείται για τον προσδιορισμό, τη δημιουργία, την αποθήκευση και τη διαχείριση αναφορών (π.χ., μια αναφορά που συγκρίνει τις πωλήσεις ίδιων καταστημάτων για το διάστημα των τελευταίων 12 μηνών). Οι προγραμματιστές δημιουργούν και συντάσσουν αναφορές (Report definitions), που αποθηκεύονται σε μια βάση δεδομένων SQL Server. Οι αναφορές είναι δυνατό να δημιουργηθούν από μια πληθώρα πηγών δεδομένων, όπως τον χώρο α- ποθήκευσης δεδομένων ή τους κύβους OLAP όπως φαίνεται στην εικόνα 6. Οι χρήστες μπορούν να προβάλουν αναφορές με διάφορα προγράμματα-πελάτες, όπως προγράμματα περιήγησης στο Web ή προγράμματα-πελάτες αναφοράς τρίτων κατασκευαστών. Υπάρχει η δυνατότητα οι αναφορές να αποστέλλονται σε χρήστες μέσω ηλεκτρονικού ταχυδρομείου. Τα προγράμματα-πελάτες αποκτούν πρόσβαση σε αναφορές μέσω του στοιχείου διακομιστή Υπηρεσίες αναφοράς (Reporting Services). Τα στοιχεία αυτής της πλατφόρμας μπορούν να χρησιμοποιηθούν μεμονωμένα ή συλλογικά και κάθε ένα είναι ανεξάρτητο από την προέλευση δεδομένων πολλές ε- ταιρείες χρησιμοποιούν την πλατφόρμα επιχειρηματικής ευφυΐας του SQL Server (ή μεμονωμένα στοιχεία της πλατφόρμας) με συστήματα διαχείρισης βάσεων δεδομένων διαφορετικά από το SQL Server. Για παράδειγμα, οι βάσεις δεδομένων στις οποίες είναι αποθηκευμένα τα δεδομένα στην εικόνα 6 θα μπορούσαν να είναι οποιεσδήποτε βάσεις δεδομένων συμβατές με διασύνδεση OLE (π.χ. Oracle ή SQL της Microsoft). Η πλατφόρμα Microsoft SQL Server 2005 είναι μια ολοκληρωμένη πλατφόρμα επιχειρηματικής ευφυΐας η οποία παρέχει δυνατότητες, εργαλεία και λειτουργίες για τη δημιουργία τόσο κλασικών όσο και καινοτόμων αναλυτικών εφαρμογών. Υπάρχουν δύο νέα στοιχεία για τον SQL Server 2005: SQL Server Management Studio και SQL Server Business Intelligence Development Studio, τα οποία θα αναλυθούν αργότερα. Τα άλλα κύρια στοιχεία επιχειρηματικής ευφυΐας Integration Services, Analysis Services OLAP, Analysis Services Data Mining, και Reporting Services δι

32 αφέρουν σημαντικά και είναι βελτιωμένα στον SQL Server 2005 σε σχέση με τον SQL Server Η σχετική βάση δεδομένων SQL Server 2005 περιέχει σημαντικές νέες δυνατότητες. Το σετ εργαλείων επιχειρηματικής ευφυΐας του SQL Server 2005 παρέχει ενοποίηση εφαρμογών επιχειρηματικής ευφυΐας: Σχεδιασμός: Το Business Intelligence Development Studio είναι το πρώτο ενοποιημένο περιβάλλον ανάπτυξης που έχει σχεδιαστεί για τους προγραμματιστές συστημάτων επιχειρηματικής ευφυΐας. Ενσωματωμένο στο Visual Studio 2005, το Business Intelligence Development Studio παρέχει μια πλούσια, ολοκληρωμένη, επαγγελματική πλατφόρμα ανάπτυξης για τους προγραμματιστές συστημάτων επιχειρηματικής ευφυΐας. Οι δυνατότητες εντοπισμού σφαλμάτων, ελέγχου προέλευσης και ανάπτυξης δεσμών ενεργειών και κώδικα είναι διαθέσιμες για όλα τα στοιχεία της εφαρμογής επιχειρηματικής ευφυΐας. Ενοποίηση: Το Integration Services μπορεί να εκτελεί σύνθετες διαδικασίες ενοποίησης δεδομένων, μετατροπής και σύνθεσης με υψηλές ταχύτητες για πολύ μεγάλους όγκους δεδομένων. Το Business Intelligence Development Studio καθιστά ευχάριστη τη διαδικασία δόμησης και εντοπισμού σφαλμάτων των πακέτων. Το Integration Services, το Analysis Services και το Reporting Services συνεργάζονται για να παρουσιάσουν μια ενιαία προβολή ετερογενών πηγών δεδομένων. Αποθήκευση: Ο SQL Server 2005 δεν διακρίνει με σαφήνεια μεταξύ των σχετικών και των πολυδιάστατων βάσεων δεδομένων. Μπορούμε να αποθηκεύουμε δεδομένα σε μια σχετική βάση δεδομένων, στην πολυδιάστατη βάση δεδομένων ή να χρησιμοποιούμε τη νέα λειτουργία Proactive Cache για να αξιοποιήσουμε με τον καλύτερο δυνατό τρόπο αυτούς τους δύο κόσμους. Ανάλυση: Η εξόρυξη δεδομένων στον SQL Server ήταν πάντα μια εύκολη διαδικασία. Τώρα είναι ακόμη καλύτερη με την προσθήκη σημαντικών νέων αλγορίθμων όπως Association Rules, Time Series, Regression Trees, Clustering, Neural Nets, και Naïve Bayes. Σημαντικές νέες αναλυτικές δυνατότητες έχουν προστεθεί επίσης στους κύβους Analysis Services: Πλαίσιο Key Performance Indicator, δέσμες ενεργειών MDX και άλλες ενσωματωμένες προηγμένες δυνατότητες επιχειρηματικής ανάλυσης. Το πλαίσιο διανομής αναφορών και διαχείρισης του Reporting Services επιτρέπει την εύκολη διανομή σύνθετων αναλυτικών στοιχείων στο ευρύτερο κοινό

33 Αναφορά: Η υπηρεσία Reporting Services επεκτείνει την πλατφόρμα επιχειρηματικής ευφυΐας της Microsoft. Η υπηρεσία Reporting Services είναι ένα επιχειρηματικό περιβάλλον δημιουργίας αναφορών, η ενσωμάτωση και η διαχείριση του οποίου γίνεται με τη χρήση των υπηρεσιών Web. Οι αναφορές είναι δυνατό να προσαρμοστούν και να αποσταλούν σε διάφορες μορφές και επίσης είναι δυνατό να περιλαμβάνουν διάφορες επιλογές αλληλεπίδρασης και εκτύπωσης. Οι πολύπλοκες αναλύσεις μπορούν να σταλούν στο ευρύ κοινό μέσω του συστήματος διανομής αναφορών με τη μορφή προέλευσης δεδομένων για αποστολή δεδομένων επιχειρηματικής ευφυΐας. Μια νέα δυνατότητα στον SQL Server 2005 είναι το Report Builder. Αυτό παρέχει δυνατότητα δημιουργίας αναφορών από τον τελικό χρήστη. Διαχείριση: Το SQL Server Management Studio ενσωματώνει τη διαχείριση όλων των στοιχείων του SQL Server Μέσω του Management Studio, τα στοιχεία της πλατφόρμας επιχειρηματικής ευφυΐας αποκτούν βελτιωμένη δυνατότητα κλιμάκωσης, αξιοπιστία, διαθεσιμότητα και δυνατότητα προγραμματισμού. Αυτές οι βελτιώσεις παρέχουν σημαντικά πλεονεκτήματα στους χρήστες συστημάτων επιχειρηματικής ευφυΐας. Ένας βασικός στόχος των στοιχείων του SQL Server 2005 Business Intelligence είναι η ανάπτυξη και η χρήση της επιχειρηματικής ευφυΐας σε επιχειρήσεις όλων των μεγεθών Για αυτόν τον σκοπό, το SQL Server 2005 είναι πλήρες και εύκολο στη χρήση, δημοσιεύει δεδομένα όπως υπηρεσίες Web, σημειώνει υψηλές επιδόσεις και χαρακτηριστικά που μπορούμε να χρησιμοποιήσουμε για να αναπτύξουμε πρωτοποριακές εφαρμογές ανάλυσης δεδομένων. 3.4 Γραφικό περιβάλλον του SQL server 2005 Ο SQL Server 2005 παρέχει πολλά εργαλεία που εξυπηρετούν διάφορους σκοπούς, ό- πως είναι η εγκατάσταση, η δημιουργία ερωτημάτων σε βάση δεδομένων και η δημιουργία αντιγράφων ασφαλείας (backup). Το κύριο εργαλείο του SQL Server για αλληλεπίδραση με το σύστημα είναι το SQL Server Management Studio.Τόσο οι διαχειριστές όσο και οι τελικοί χρήστες μπορούν να χρησιμοποιούν αυτό το εργαλείο για να διαχειρίζονται πολλαπλούς servers, να αναπτύσσουν βάσεις δεδομένων, να δημιουργούν αντίτυπα δεδομένων καθώς και να κάνουν πολλές άλλες εργασίες

34 Το βασικό παράθυρο του SQL Server Management Studio απεικονίζεται στην εικόνα 7. Εικόνα 7: SQL Server Management Studio Το SQL Server Management Studio έχει κυρίως δύο σκοπούς : Διαχείριση servers βάσης δεδομένων Διαχείριση αντικειμένων βάσης δεδομένων Με λίγα λόγια είναι το περιβάλλον στο οποίο εισάγουμε και διαχειριζόμαστε την βάση δεδομένων μας. Ένα από τα βασικά εργαλεία του SQL Server που χρησιμοποιούνται για την εξόρυξη δεδομένων είναι το Analysis Services.To Analysis Services είναι ένα σύνολο υπηρεσιών που χρησιμοποιούνται για διαχείριση δεδομένων που είναι αποθηκευμένα σε μία αποθήκη δεδομένων. Το Analysis Services οργανώνει δεδομένα από μια αποθήκη δεδομένων σε πολυδιάστατους πίνακες με αθροίσεις για να επιτρέπει την εκτέλεση έξυπνων εκθέσεων και περίπλοκων ερωτημάτων. Το βασικό παράθυρο του Business Intelligence Development Studio απεικονίζεται στην εικόνα

35 Εικόνα 8: Business Intelligence Development Studio Η κύρια διαδικασία που ακολουθούμε είναι να δημιουργήσουμε ένα έργο, μια απεικόνιση ουσιαστικά του προς επίλυση προβλήματος. Όπως παρατηρούμε στο δεξί μέρος της εικόνας 8 κάτω από το έργο που δημιουργούμε υπάρχουν οι εξής φάκελοι: Data Sources Data Source Views Cubes Dimensions Mining Structure Ο φάκελος Data Sources περιέχει τις πληροφορίες για σύνδεση με μια βάση δεδομένων. Ο φάκελος Data Source Views περιέχει πληροφορίες που αφορούν το υποσύνολο των πινάκων της βάσης δεδομένων, ενώ ο επόμενος φάκελος, Cubes, περιέχει όλους τους κύβους που ανήκουν στο έργο. Ο φάκελος Dimensions περιέχει όλες τις διαστάσεις. Τέλος ο φάκελος Mining Structure περιέχει τα μοντέλα εξόρυξης δεδομένων που έχουμε δημιουργήσει. Επιπρόσθετα επιτρέπει την δημιουργία νέων μοντέλων με την χρησιμοποίηση του οδηγού Data Mining Wizard

36 3.5 Εξόρυξη Δεδομένων με τον SQL Server 2005 Στην συνεχεία θα παρουσιάσουμε τους αλγόριθμους εξόρυξης δεδομένων που περιέχει ο SQL Server 2005 καθώς και τις παραμέτρους τους Microsoft Decision Trees Υπάρχουν πολλές παράμετροι για τα Microsoft Decision Trees. Αυτές οι παράμετροι χρησιμοποιούνται για να ελέγχουμε το μεγάλωμα του δένδρου,τη μορφή του και τα χαρακτηριστικά εισόδου/εξόδου. Οι κυριότερες από αυτές είναι: Complexity Penalty.Χρησιμοποιείται για να ελέγξουμε το μεγάλωμα του δένδρου. Παίρνει τιμές από 0 έως 1. Όταν είναι κοντά στο 0,υπάρχει μικρή ποινή και δημιουργούνται μεγάλα δένδρα. Όταν είναι κοντά στο 1 το μεγάλωμα του δένδρου κυρώνεται και δημιουργούνται πολύ μικρά δένδρα. Γενικά μεγάλα δένδρα έχουν πρόβλημα υπερμοντελοποίησης, ενώ μικρά δένδρα χάνουν πολλά χαρακτηριστικά. Minimum Support. Χρησιμοποιείται για να καθορίσει το ελάχιστο πλήθος δεδομένων εισόδου σε κάθε φύλλο του δένδρου. Score Method.Χρησιμοποιείται για να καθορίσει την μέθοδο για την μέτρηση του σκορ της διαίρεσης των φύλλων κατά το μεγάλωμα του δένδρου. Οι μέθοδοι που υποστηρίζονται είναι οι: η Bayesian, η μέτρηση της Εντροπίας. Split Method.Καθορίζει αν το δένδρο θα είναι δυαδικό ή όχι. Maximum Input Attribute.Είναι ένα όριο για τον αριθμό των χαρακτηριστικών εισόδου που θα ληφθούν υπόψη κατά τη δημιουργία του δένδρου. Maximum Output Attribute. Είναι ένα όριο για τον αριθμό των χαρακτηριστικών εξόδου που θα μπορούν να προβλεφθούν από το δένδρο. Force Regressor.Είναι χαρακτηριστική παράμετρος για τα δένδρα παλινδρόμησης. Microsoft Clustering Ο αλγόριθμος Clustering μπορεί επίσης να χρησιμοποιηθεί για να προβλέψει τιμές καθώς επίσης και να παρέχει ομαδοποίησης δεδομένων. Ενώ αυτό φαίνεται όπως μια φυσική και προφανή εφαρμογή, παραδοσιακά, η ομαδοποίηση δεν έχει χρησιμοποιηθεί για τέτοιους λόγους. Ο Microsoft Clustering αλγόριθμος υιοθετεί δύο τεχνάσματα για να επιτύχει αυτό. Πρώτον, θεωρεί τις τιμές που λείπουν ως μη πληροφοριακές. Ο αλ

37 γόριθμος θα χρησιμοποιήσει μόνο τις πληροφορίες για τις οποίες ξέρει τις τιμές. Μόλις καθοριστεί η ιδιότητα μέλους των συστάδων, το δεύτερο τέχνασμα είναι να διαβαστούν απλά οι μακρινές από τη συστάδες τιμές. Υπάρχουν πολλές παράμετροι για τον Microsoft Clustering. Οι κυριότερες από αυτές είναι: Clustering Method. Προσδιορίζει ποιος αλγόριθμος χρησιμοποιείται για να καθορίσει την ιδιότητα μέλους συστάδων Οι εκδόσεις Vanilla κάθε αλγορίθμου αποφεύγουν το βαθμωτό πλαίσιο που περιγράφεται προηγουμένως και λειτουργούν μόνο σε ένα δείγμα των στοιχείων. Οι πιθανές τιμές για αυτήν την παράμετρο είναι: o Βαθμωτό EM (προεπιλογή) o Vanilla (μη- βαθμωτό ) EM o Βαθμωτό Κ-μέσων o Vanilla (μη βαθμωτό) Κ-μέσων Cluster Count. Ουσιαστικά είναι το «Κ» στον αλγόριθμο των Κ-μέσων. Η τιμή του Cluster Count δείχνει στον αλγόριθμο πόσες συστάδες να βρει. Πρέπει να θέτουμε αυτήν την παράμετρο σε έναν αριθμό που έχει νόημα για το επιχειρησιακό πρόβλημά μας. Στην πράξη, όσο περισσότερες ιδιότητες έχουμε, με τόσο περισσότερες συστάδες πρέπει να περιγράψουμε τα δεδομένα μας σωστά Αυτή η τεχνική μειώνει ουσιαστικά τον αριθμό στοιχείων συνόλου χαρακτηριστικών ιδιοτήτων και δημιουργεί τα πιο σημαντικά πρότυπα. Ρύθμιση Cluster Count σε 0 θα αναγκάσει τον αλγόριθμο για να εκτελέσει έναν ευριστικό αλγόριθμο για να υποθέσει το σωστό αριθμό συστάδων. Minimum Support. Ελέγχει πότε μια συστάδα θεωρείται «κενή», οπότε και αυτή απορρίπτεται και απαναρχικοποιείται. Μια πάρα πολύ μεγάλη τιμή του αριθμού μπορεί να δημιουργήσει κακά αποτελέσματα. Modeling Cardinality. Ελέγχει πόσα υποψήφια πρότυπα παράγονται κατά τη διάρκεια της ομαδοποίησης. Μείωση αυτής της τιμής θα αυξήσει την απόδοση, με πιθανό κόστος την ακρίβεια. Stopping Tolerance. Χρησιμοποιείται από τον αλγόριθμο για να καθορίσει πότε ένα πρότυπο έχει συγκλίνει. Αντιπροσωπεύει το μέγιστο αριθμό περιπτώσεων που μπορεί να αλλάξει την ιδιότητα μέλους προτού να θεωρήσει ότι ένα πρότυ

38 πο για να έχει συγκλίνει. Αυτή η αξία ελέγχεται σε κάθε επανάληψη του εσωτερικού βρόχου. Η αύξηση αυτού του αριθμού θα αναγκάσει τον αλγόριθμο να συγκλίνει γρηγορότερα, με συνέπεια τις πιο συγκεχυμένες συστάδες, ενώ άμα μειωθεί θα οδηγήσει σε σφιχτότερες συστάδες. Sample Size.Δείχνει τον αριθμό περιπτώσεων που χρησιμοποιούνται σε κάθε βήμα της διαδικασίας. Κατά χρησιμοποίηση των εκδόσεων Vanilla του αλγορίθμου, η Sample Size δείχνει το συνολικό αριθμό περιπτώσεων που βλέπουμε. Η μείωση αυτής της τιμής μπορεί να αναγκάσει τον αλγόριθμο για να συγκλίνει νωρίς χωρίς να δει όλα στοιχεία, ειδικά όταν συνδέεται με ένα μεγάλο Stopping Tolerance. Αυτό μπορεί να είναι χρήσιμο για μια γρήγορη διαδικασία ομαδοποίησης σε ένα μεγάλο σύνολο δεδομένων. Ο καθορισμός αυτής της τιμής σε 0 θα αναγκάσει τον αλγόριθμο να χρησιμοποιήσει όλη τη διαθέσιμη μνήμη στον κεντρικό υπολογιστή. Σημειώνεται ότι λόγω της φύσης της διαδικασίας, αυτό μπορεί να αναγκάσει τον αλγόριθμο να παραγάγει ελαφρώς διαφορετικά αποτελέσματα με βάση τη μνήμη του εκάστοτε υπολογιστή. Cluster Seed.Είναι ο τυχαίος αριθμός που χρησιμοποιείται για να αρχικοποιήσει τις συστάδες. Αυτή η παράμετρος παρέχεται για να μας επιτρέψει να εξετάσουμε την ευαισθησία των δεδομένων μας στο σημείο έναρξης. Maximum Input Attributes. Ελέγχει πόσα από τα χαρακτηριστικά που εξετάζονται για την ομαδοποίηση θα χρησιμοποιηθούν προτού να εκτελεστεί η αυτόματη επιλογή χαρακτηριστικών γνωρισμάτων. Εάν υπάρχουν περισσότερα από αυτό τον αριθμό ιδιοτήτων στο σύνολο των δεδομένων μας, η επιλογή χαρακτηριστικών γνωρισμάτων θα επιλέξει τα δημοφιλέστερα χαρακτηριστικά από το σύνολο. Τα μη επιλεγμένα χαρακτηριστικά αγνοούνται κατά τη διάρκεια της ομαδοποίησης. Maximum States.Ελέγχει πόσες διαφορετικές τιμές μπορεί να πάρει ένα χαρακτηριστικό. Εάν ένα χαρακτηριστικό περιέχει περισσότερο από αυτόν τον αριθμό διαφορετικών τιμών, οι δημοφιλέστερες τιμές επιλέγονται ενώ οι υπόλοιπες ομαδοποιούνται σε μία τιμή «άλλο». Microsoft Naïve Bayes Η εφαρμογή Naïve Bayes είναι αρκετά απλή και επομένως δεν έχει μεγάλη παραμετροποίηση. Οι παράμετροι που υπάρχουν εξασφαλίζουν ότι ο αλγόριθμος ολοκληρώνεται σε ένα λογικό χρονικό διάστημα. Καθώς εξετάζει όλα τα ζεύγη των χαρακτηριστικών, ο

39 χρόνος και η μνήμη που χρειάζεται για να επεξεργαστεί τα δεδομένα συσχετίζεται με το συνολικό αριθμό τιμών εισαγωγής που πολλαπλασιάζονται με το συνολικό αριθμό τιμών εξόδου. Ο αλγόριθμος κάνει γενικά μια καλή επιλογή των χαρακτηριστικών εισόδου και εξόδου όταν εφαρμόζονται οι παράμετροι. Οι κυριότερες από αυτές είναι: Maximum Input Attributes.Καθορίζει τον αριθμό των χαρακτηριστικών που θα θεωρηθούν ως είσοδοι για την εκπαίδευση του μοντέλου. Εάν υπάρχουν περισσότερα από αυτόν τον αριθμό χαρακτηριστικά, ο αλγόριθμος θα επιλέξει τα σημαντικότερα και θα αγνοήσει το υπόλοιπα. Καθορισμός αυτής της παραμέτρου σε 0 αναγκάζει τον αλγόριθμο για να εξετάσει όλες τα χαρακτηριστικά εισόδου. Maximum Output Attributes. Καθορίζει τον αριθμό των χαρακτηριστικών που θα θεωρηθούν ως έξοδοι για την εκπαίδευση του μοντέλου. Εάν υπάρχουν περισσότερα από αυτόν τον αριθμό χαρακτηριστικά, ο αλγόριθμος θα επιλέξει τα σημαντικότερα και θα αγνοήσει το υπόλοιπα. Καθορισμός αυτής της παραμέτρου σε 0 αναγκάζει τον αλγόριθμο για να εξετάσει όλες τα χαρακτηριστικά ε- ξόδου. Maximum States. Ελέγχει πόσες καταστάσεις των χαρακτηριστικών εξετάζονται. Εάν ένα χαρακτηριστικό έχει περισσότερες από αυτόν τον αριθμό διαφορετικές τιμές, μόνο οι δημοφιλέστερες θα χρησιμοποιηθούν. Οι τιμές που δεν επιλέγονται θα θεωρηθούν «κενές». Όπως με τις άλλες παραμέτρους, θέτοντας αυτήν την παράμετρο σε 0 ο αλγόριθμος θα εξετάσει όλες τις τιμές. Minimum Dependency Probability. Δέχεται τιμές από 0 έως 1. Περιγράφει ουσιαστικά το πόσο πιθανό είναι ένα χαρακτηριστικό εισόδου μπορεί να προβλέψει ένα χαρακτηριστικό εξόδου. Ο καθορισμός της παραμέτρου δεν επηρεάζει την διαδικασία εκπαίδευσης ή πρόβλεψης αλλά μόνο τα αποτελέσματα των γραφημάτων που παρουσιάζει ο server. Θέτοντας την τιμή της σε 0.5 επιστρέφονται μόνο οι εγγραφές που είναι πιθανότερο από τυχαία να συσχετίζονται με τα αποτελέσματα. Microsoft Association Rules Ο αλγόριθμος είναι πολύ ευαίσθητος στις τιμές των παραμέτρων του. Ακολούθως δίνεται ο κατάλογος των βασικότερων παραμέτρων του αλγόριθμου: Minimum Support. Είναι παράμετρος κατώτατων ορίων. Καθορίζει την ελάχιστη υποστήριξη που πρέπει να έχει itemset ώστε να χαρακτηριστεί ως συχνό

40 Παίρνει τιμές από 0 έως 1. Η προκαθορισμένη τιμή είναι Εάν η τιμή της παραμέτρου τεθεί πάρα πολύ χαμηλά - παραδείγματος χάριν, ο αλγόριθμος θα χρειαστεί πολύ περισσότερο χρόνο και μνήμη κατά την διάρκεια της επεξεργασίας. Εάν τεθεί σε μια ακέραια τιμή μεγαλύτερη του 1,τότε η τιμή αυτή θεωρείται σαν ο αριθμός των περιπτώσεων αντί του ποσοστού τους. Maximum Support. Είναι και αυτή παράμετρος κατώτατων ορίων. Καθορίζει το μέγιστο κατώτατο όριο υποστήριξης του συχνού itemset. Παίρνει τιμές από 0 έως 1. Η προκαθορισμένη τιμή είναι Αυτή η παράμετρος μπορεί να χρησιμοποιηθεί για να φιλτράρει και να αποκρίνει τα χαρακτηριστικά που είναι πάρα πολύ συχνά. Εάν τεθεί σε μια ακέραια τιμή μεγαλύτερη του 1,τότε η τιμή αυτή θεωρείται σαν ο αριθμός των περιπτώσεων αντί του ποσοστού τους. Minimum Probability. Καθορίζει την ελάχιστη πιθανότητα για έναν κανόνα. Παίρνει τιμές από 0 έως 1. Η προκαθορισμένη τιμή είναι 0.4. Minimum Importance.Οι κανόνες με τη σπουδαιότητα μικρότερη από αυτή την τιμή απομακρύνονται. Maximum Itemset Size. Διευκρινίζει το μέγιστο μέγεθος ενός itemset. Η προκαθορισμένη τιμή του είναι 0, το οποίο σημαίνει ότι δεν υπάρχει κανένα όριο μεγέθους στο itemset. Η μείωση του μέγιστου μεγέθους itemset μειώνει το χρόνο επεξεργασίας δεδομένου ότι ο αλγόριθμος σταματά τις επαναλήψεις στο σύνολο των δεδομένων όταν φθάσει το μέγεθος των υποψηφίων itemset σε αυτό το όριο. Minimum Itemset Size. Διευκρινίζει το ελάχιστο μέγεθος του itemset. Η προκαθορισμένη τιμή είναι 0. Μερικές φορές δεν ενδιαφερόμαστε για το μεγάλο α- ριθμό μικρότερων itemsets. Παραδείγματος χάριν, μπορεί να ενδιαφερόμαστε μόνο για τα itemsets με το μέγεθος μεγαλύτερο του 4. Η μείωση του Minimum Itemset Size δεν θα μειώσει το χρόνο επεξεργασίας επειδή ο αλγόριθμος πρέπει να αρχίσει με μέγεθος 1 και να αυξάνει το μέγεθος βαθμιαία. Maximum Itemset Count. Καθορίζει το μέγιστο αριθμό itemsets. Εάν δεν έχει καθορισμένη τιμή, ο αλγόριθμος παράγει όλα τα itemsets βασισμένα στην τιμή του Minimum Support. Αυτή η παράμετρος αποφεύγει έναν μεγάλο αριθμό itemsets. Όταν υπάρχουν πάρα πολλά itemsets, ο αλγόριθμος θα κρατήσει μόνο τα μεγαλύτερου μεγέθους itemsets βασισμένος στην τιμή της σπουδαιότητάς τους

41 Optimized Prediction Count. Χρησιμοποιείται για να θέσει τον αριθμό συνιστώμενων χαρακτηριστικών σε μια ερώτηση πρόβλεψης. Εξ ορισμού, ο αλγόριθμος χρησιμοποιεί τους κανόνες με το μήκος 2 για πρόβλεψη. Μπορούμε να αυξήσουμε αυτόν τον αριθμό για να έχουμε καλύτερα αποτελέσματα στην πρόβλεψη. Microsoft Νευρωνικά δίκτυα Τα νευρωνικά δίκτυα υποστηρίζουν τόσο διακριτές όσο και συνεχείς τιμές εισόδου. Όταν οι τιμές είναι συνεχείς, η διαδικασία είναι ουσιαστικά παλινδρόμηση. Στην πραγματικότητα, οι κλασικές τεχνικές παλινδρόμησης, όπως η λογιστική παλινδρόμηση, μπορούν να θεωρηθούν ως ειδικές περιπτώσεις των νευρικών δικτύων. Αν και χρησιμοποιούν χαρακτηριστικά της ταξινόμησης και της παλινδρόμησης,τα νευρωνικά δίκτυα μπορούν επίσης να εφαρμοστούν για κατάτμηση, όταν χρησιμοποιούνται με ένα φίλτρο διαμόρφωσης (μικρό κρυφό επίπεδο). Οι ακόλουθες είναι οι βασικές παράμετροι του Microsoft Neural Network αλγορίθμου: Maximum Input Attributes. Είναι μια παράμετρος κατώτατων ορίων για την επιλογή χαρακτηριστικών γνωρισμάτων εισόδου. Όταν ο αριθμός των χαρακτηριστικών εισόδου είναι μεγαλύτερος από την τιμή της παραμέτρου, η ε- πιλογή χαρακτηριστικών γνωρισμάτων ενεργοποιείται για να επιλέξει τα σημαντικότερα χαρακτηριστικά. Maximum Output Attributes. Είναι μια παράμετρος κατώτατων ορίων της ε- πιλογής χαρακτηριστικών γνωρισμάτων εξόδου. Όταν ο αριθμός προβλέψιμων χαρακτηριστικών εξόδου είναι μεγαλύτερος από την ρύθμιση αυτής της παραμέτρου, η επιλογή χαρακτηριστικών γνωρισμάτων ενεργοποιείται για να επιλέξει τα σημαντικότερα χαρακτηριστικά. Maximum States. Καθορίζει τον μέγιστο αριθμό διαφορετικών τιμών των χαρακτηριστικών που υποστηρίξεις αλγόριθμος. Εάν ο αριθμός των διαφορετικών τιμών που έχει ένα χαρακτηριστικό είναι μεγαλύτερος από το μέγιστο επιτρεπόμενο, ο αλγόριθμος θα χρησιμοποιήσει μόνο τις δημοφιλέστερες. Οι τιμές που δεν επιλέγονται θα θεωρηθούν ως «κενές». Holdout Percentage. Καθορίζει το ποσοστό των αντιπροσωπευτικών δεδομένων. Τα αντιπροσωπευτικά δεδομένα χρησιμοποιούνται για επικύρωση

42 της ακρίβειας κατά την διάρκεια της εκπαίδευσης. Η προκαθορισμένη τιμή είναι 0.1. Holdout Seed. Είναι ένας ακέραιος αριθμός για την επιλογή των αντιπροσωπευτικών δεδομένων. Hidden Node Ratio. Χρησιμοποιείται για να ρυθμίσει τον αριθμό των κρυφών κόμβων. Ο αριθμός των κρυφών κόμβων είναι ίσος με την τετραγωνική ρίζα του γινομένου των χαρακτηριστικών εισόδου επί τα χαρακτηριστικά εξόδου( sqrt (m*n) ). Εάν η τιμή της παραμέτρου είναι ίση με 2, ο αριθμός των κρυφών κόμβων είναι ίσος με 2*sqrt(m*n). Η προεπιλεγμένη τιμή αυτής της παραμέτρου είναι ίση με 4. Sample Size. Είναι το ανώτερο όριο του αριθμού περιπτώσεων που χρησιμοποιούνται για την εκπαίδευση. Η προκαθορισμένη τιμή είναι Microsoft Logistic Regression Ο αλγόριθμος Microsoft Logistic Regression είναι ουσιαστικά μια παραλλαγή αλγορίθμου Microsoft Neural Network. Η μόνη διαφορά του από τον τελευταίο είναι καθορισμός της παραμέτρου Hidden Node Ratio σε 0. Εάν χρησιμοποιήσουμε τον αλγόριθμο Microsoft Neural Network για να δημιουργήσουμε ένα μοντέλα χωρίς κρυφό κόμβο, θα πάρουμε ακριβώς το ίδιο αποτέλεσμα με αυτό που θα παίρναμε αν χρησιμοποιούσαμε τον Microsoft Logistic Regression

43 4 Εξόρυξη Γνώσης σε Ιατρικά Δεδομένα Η ικανότητα για αλληλεπιδραστική εξόρυξη γνώσης σε κλινικές πληροφορίες ασθενών είναι στη σημερινή εποχή ένας τομέας αυξανόμενης ανάγκης και ζήτησης. Ο λόγος είναι ο ολοένα αυξανόμενος αριθμός των κλινικών και εργαστηριακών παραμέτρων που συνοδεύουν μια εξέταση ενός ασθενούς. Στην ολοένα αυξανόμενη ανάγκη για εξόρυξη γνώσης συντελεί επίσης και το γεγονός ότι η πληροφορική και οι νέες τεχνολογίες έ- χουν εισβάλλει με τρομερή αποδοχή και στον ευαίσθητο χώρο της υγείας. Σε παγκόσμιο επίπεδο, οργανισμοί και εμπορικές εταιρίες έχουν στρέψει την προσοχή τους στη χρησιμοποίηση πληροφοριακών συστημάτων με απώτερο σκοπό την ά- ντληση ανταγωνιστικών πλεονεκτημάτων από την σωστή και αποδοτική χρήση τους. Το νέο αυτό φαινόμενο προέκυψε από τον συνδυασμό πολλών παραγόντων όπως η χαμηλή ανάπτυξη, η παγκοσμιοποίηση, καθώς και η άνθηση των τεχνολογιών όπως οι τηλεπικοινωνίες και η μαζική αποθήκευση δεδομένων. Αυτή η μαζική αποθήκευση νοσοκομειακών δεδομένων και ιατρικών δεδομένων ασθενών αποτελεί το έναυσμα για την χρησιμοποίηση των μεθόδων Εξόρυξης Γνώσης στην ανάλυση και εύρεση νέων κανόνων και λύσεων που θα βοηθούν στην αντιμετώπιση των προβλημάτων των ασθενών. Η υγεία σαν τομέας επιστημονικού ενδιαφέροντος έχει ενσωματώσει πλέον νέα γνωστικά αντικείμενα εκτός από την παροχή υπηρεσιών προς τους ασθενείς. Στον τομέα αυτό διαχειρίζονται τεράστιες ποσότητες διαχειριστικών δεδομένων σχετικών με τους ασθενείς, το νοσοκομείο, το κόστος της παρεχόμενης υπηρεσίας, τις ασθένειες, τα φάρμακα, τις προμήθειες σε νοσοκομειακό υλικό κ.τ.λ. Ιατρικές μέθοδοι, ηλεκτρονικός φάκελος ασθενούς και αντιμετώπιση ασθενειών και επιδημιών με ηλεκτρονική υποστήριξη, αυτόματα θα παράγουν με ολοένα και αυξανόμενο ρυθμό μεγάλες ποσότητες νοσοκομειακής πληροφορίας. Αυτή η πληροφορία αποτελεί στρατηγική πηγή ελέγχου και αξιοποίησης για τα νοσοκομεία. Με την εισαγωγή των σύγχρονων πληροφοριακών συστημάτων και των μεθόδων Εξόρυξης Γνώσης, συγκεκριμένες περιοχές ενδιαφέροντος μπορούν να αναλυθούν α- κόμα πιο λεπτομερειακά. Η λειτουργία συγκεκριμένων προϊόντων λογισμικού ειδικά

44 σχεδιασμένων για εφαρμογή στον χώρο της υγείας και ειδικά σε νοσοκομειακό περιβάλλον, δημιουργούν την ευκαιρία για δημιουργία ειδικής πληροφόρησης στους γιατρούς και στους διευθυντές των νοσοκομείων. Τα προϊόντα εξόρυξης γνώσης κάνουν ένα βήμα παραπάνω. Προσφέρουν την ικανότητα της ανακάλυψης προτύπων και αλληλεξαρτήσεων, συμπεράσματα τα οποία βρίσκονται κρυμμένα μέσα στις αποθήκες δεδομένων και δίνουν τα εργαλεία στους ειδικούς να τα ανακαλύψουν και να τα χρησιμοποιήσουν στη δουλειά τους. Άρα λοιπόν οι αποφάσεις και οι ανακαλύψεις σχετίζονται με τους ειδικούς της υγείας και όχι με τους ειδικούς των πληροφοριακών συστημάτων. Το κλειδί για επιτυχημένη εφαρμογή των μεθόδων εξόρυξης γνώσης, είναι πρώτον να αποσαφηνιστεί το κλινικό ή νοσοκομειακό πρόβλημα το οποίο επιθυμούμε να επιλυθεί. Η νέα γνώση δεν ανακαλύπτεται από τους αλγορίθμους αλλά από τον ειδικό που τους εφαρμόζει. Στη συνέχεια θα παρουσιαστεί η εφαρμογή των τεχνικών Εξόρυξης Γνώσης σε κλινικά νοσοκομειακά δεδομένα και συγκεκριμένα σε δεδομένα ασθενών που πάσχουν από κολλαγόνες ασθένειες και θα επιζητήσουμε μοντέλα περιγραφής αλλά και πρόγνωσης της εμφάνισης θρόμβωσης. 4.1 Περιγραφή των δεδομένων της εφαρμογής Η βάση δεδομένων συλλέχθηκε στο πανεπιστημιακό νοσοκομείο του Chiba. Κάθε α- σθενής ήρθε στα εξωτερικά ιατρεία του νοσοκομείου κολλαγόνων νόσων, όπως του συστήθηκε από τον προσωπικό του γιατρό ή κάποιον γενικό παθολόγο του τοπικού νοσοκομείου. Οι ασθένειες κολλαγόνων είναι αυτοάνοσες ασθένειες. Οι ασθενείς παράγουν τα αντισώματα τα οποία βλάπτουν τον ίδιο τους τον οργανισμό τους. Παραδείγματος χάριν, εάν ένας ασθενής παραγάγει αντισώματα στους πνεύμονες, θα χάσει σταδιακά την αναπνευστική του λειτουργία και θα χάσει τελικά τη ζωή του. Οι μηχανισμοί των ασθενειών αυτών είναι μόνο μερικώς γνωστοί και η ταξινόμησή τους είναι ακόμα συγκεχυμένη. Μερικοί ασθενείς μπορούν να παραγάγουν πολλά είδη αντισωμάτων και οι εκδηλώσεις τους μπορούν να περιλάβουν όλα τα χαρακτηριστικά των ασθενειών κολλαγόνων. Στις ασθένειες κολλαγόνων, η θρόμβωση είναι μια από τις σημαντικότερες και δυσκολότερες περιπλοκές και μια από τις σημαντικότερες αιτίες του θανάτου. Η θρόμβωση είναι μια αύξηση της πήξης του αίματος, η οποία φράσει τα αιμοφόρα αγγεία. Συ

45 νήθως διαρκεί αρκετές ώρες και μπορεί να επαναλαμβάνεται με την πάροδο του χρόνου. Η θρόμβωση μπορεί να προκύψει από διαφορετικές ασθένειες κολλαγόνων. Έχει διαπιστωθεί ότι αυτή η περιπλοκή είναι στενά συνδεδεμένη με τα στα αντικαρδιολιπίνα αντισώματα. Αυτό ανακαλύφθηκε από τους παθολόγους, ένας από τους οποίους έδωσε το σύνολο των δεδομένων μας για επιστημονική μελέτη. Η θρόμβωση πρέπει να αντιμετωπίζεται ως έκτακτη ανάγκη. Είναι σημαντικό να ανιχνευθούν και να προβλεφθούν οι πιθανότητες εμφάνισής της. Εντούτοις, τέτοια ανάλυση βάσεων δεδομένων δεν έχει γίνει από οποιουσδήποτε εμπειρογνώμονες στην ανοσολογία. Οι εμπειρογνώμονες αυτοί ενδιαφέρονται πάρα πολύ για την ανακάλυψη σχέσεων που είναι κρυμμένες μέσα στις καταγεγραμμένες εξετάσεις των ασθενών. Στην παρούσα διπλωματική εργασία στόχος μας είναι να προσπαθήσουμε να ανακαλύψουμε πρότυπα που ανιχνεύουν και προβλέπουν την εμφάνιση θρόμβωσης. 4.2 Η Βάση Δεδομένων Η Βάση δεδομένων αποτελείται από τρεις πίνακες(tsum_a.csv, TSUM_B.CSV, TSUM_C.CSV).Οι ασθενείς σε αυτούς συνδέονται μέσω του αναγνωριστικού αριθμού ID. Ο πίνακας TSUM_A.CSV περιέχει τις βασικές πληροφορίες για τους ασθενείς. Τα δεδομένα τους εισάχθηκαν από γιατρούς. Αυτός ο πίνακας περιλαμβάνει όλους τους ασθενείς του νοσοκομείου. Τα περιεχόμενά του είναι τα εξής : Id: Αναγνωριστικό του ασθενή. Sex: Φύλλο. Birthday: Ημερομηνία γέννησης του ασθενή. Description date: Η πρώτη ημερομηνία που καταγράφηκε ο ασθενής. First date: Ημερομηνία εισαγωγής του ασθενούς στο νοσοκομείο. Admission:Ο ασθενής εισήχθη στο νοσοκομείο (+) ή παρέμεινε στα εξωτερικά ιατρεία(-) Diagnosis: Ασθένειες από τις οποίες πάσχει ο ασθενής. Ο πίνακας TSUM_B.CSV περιέχει τα αποτελέσματα ειδικών εξετάσεων των ασθενών. Τα δεδομένα τους εισάχθηκαν από γιατρούς. Αυτός ο πίνακας δεν περιέχει όλους τους

46 ασθενείς, παρά μόνο αυτούς που έκαναν τις συγκεκριμένες εξετάσεις. Τα περιεχόμενά του είναι τα εξής : Id: Αναγνωριστικό του ασθενή. Examination Date: Ημερομηνία που έγιναν οι εξετάσεις. acl IgG: Συγκέντρωση IgG αντισώματος αντί-καρδιολιπίνης acl IgM: Συγκέντρωση IgM αντισώματος αντί-καρδιολιπίνης ANA: Συγκέντρωση αντί-πυρηνικών αντισωμάτων ANA pattern: Πρότυπα που παρατηρήθηκαν στην συγκέντρωση των αντίπυρηνικών αντισωμάτων acl IgA: Συγκέντρωση IgA αντισώματος αντί-καρδιολιπίνης Diagnosis: Όνομα ασθένειας του ασθενή KCT: Μονάδα μέτρησης του βαθμού συγκόλλησης RVVT: Μονάδα μέτρησης του βαθμού συγκόλλησης LAC: Μονάδα μέτρησης του βαθμού συγκόλλησης Symptoms: Άλλα συμπτώματα που παρατηρήθηκαν κατά την διάρκεια τω εξετάσεων Thrombosis: Βαθμός θρόμβωσης: o 0 : αρνητικός (όχι θρόμβωση) o 1 : θετικός (πολύ βαριά μορφή) o 2 : θετικός (βαριά μορφή) o 3: θετικός (ήπια μορφή) Ο πίνακας TSUM_C.CSV περιέχει όλες τις κλινικές εξετάσεις όλων των ασθενών του νοσοκομείου. Όλα τα δεδομένα σε αυτόν τον πίνακα περιέχουν αποτελέσματα από συνήθεις εργαστηριακές εξετάσεις που γινόταν στους ασθενείς του νοσοκομείου. Τα περιεχόμενα αυτού του πίνακα είναι τα ακόλουθα: Id: Αναγνωριστικό του ασθενή Date: Ημερομηνία που έγιναν οι εργαστηριακές εξετάσεις. GOT: AST γλουταμινική οξαλοξεϊκή τρανσαμινάση. GPT: ALT γλουταμινική πυροσταφιλική τρανσαμινάση. LDH: Γαλακτική δενδρογονάση

47 ALP: Αλκαλική Φωσφατάση. TP: Ολικό λεύκωμα. ALB: Αλβουμίνη. UA: Ουρικό οξύ. UN: Ουρία. CRE: Κρεατίνη. T-BILL: Ολική χολερυθρίνη. T-CHO: Ολική χοληστερόλη. TG: Τριγλυκερίδια. CPK: Κρεατινοφωσφοκινάση. GLU: Πλήλοξη αίματος. WBC: Λευκά αιμοσφαίρια αίματος. RBC: Ερυθρά αιμοσφαίρια αίματος. HBC: Αιμοσφαιρίνη. HCT: Αιματοκρίτης. PLT: Αιμοπετάλια. PT: Χρόνος προθρομβίνης. Note: Σχόλια για τον χρόνο προθρομβίνης. APTT: Χρόνος μερικής θρομβοπλαστίνης. FG: Ινοδογόνο. ΑΤ3: Σημείωση του DIC. A2PI: Σημείωση του DIC. U-PRO: Πρωτεϊνουρία. IGG: Αντίσωμα IgG. IGA: Αντίσωμα IgΑ. IGM: Αντίσωμα IgΜ. CPR: C αντιδρώσα πρωτεΐνη. RA: Ρευματοειδής παράγοντας

48 RF: Ρευματοειδής παράγοντας. C3: Συμπλήρωμα C3. C4: Συμπλήρωμα C4. RNP: Αντιριβονουκλεϊκή πρωτεΐνη. SM: Αντι-SM SC170: Αντισκληρόδεργος 70 SSA: Αντι-SSA SSB: Αντι-SSB. CENTROMEA: Αντικεντρομερή. DNA: Αντι-DNA DNA-II: Αντι-DNA. Το βασικό πρόβλημα που παρατηρήσαμε και το οποίο αντιμετωπίσαμε όπως περιγράφεται στις παρακάτω παραγράφους, έχει να κάνει με το γεγονός ότι οι εγγραφές στους πίνακες της βάσης δεδομένων γίνονταν κυρίως από ιατρικό και νοσηλευτικό προσωπικό. Αυτό σημαίνει ότι είναι αναμενόμενο να υπάρχουν πολλά λάθη ή παραλείψεις σε αυτά καθώς τόσο η πίεση του χρόνου όσο και η μη εξειδίκευση του προσωπικού, είναι παράγοντες που λειτουργούν αρνητικά. 4.3 Προεπεξεργασία των δεδομένων Ο πίνακας Tsumoto_a.csv περιλαμβάνει όλα τα στοιχεία όλων των ασθενών που παρακολουθήθηκαν από τους γιατρούς πανεπιστημιακό νοσοκομείο. Ο πίνακας Tsumoto_b.csv περιλαμβάνει τα στοιχεία δύο τύπων ασθενών. Ο πρώτος τύπος είναι ασθενείς που εισήχθησαν στο πανεπιστημιακό νοσοκομείο. Ο δεύτερος τύπος είναι ασθενείς που δεν εισήχθησαν στο πανεπιστημιακό νοσοκομείο, αλλά έκανα τις συγκεκριμένες εργαστηριακές εξετάσεις(ακόμα και σε αυτήν την περίπτωση, θα καταχωρούνταν ο ασθενής και θα του δινόταν προσωπικό αναγνωριστικό του πανεπιστημιακού νοσοκομείου.) Έτσι, οι πίνακες tsumoto_a.csv και tsumoto_b.csv περιλαμβάνουν τρεις τύπους ασθενών: Πρώτος τύπος: Ασθενείς που εισαχθήκαν στο νοσοκομείο αλλά δεν έκαναν τις συγκεκριμένες εξετάσεις

49 Δεύτερος τύπος : Ασθενείς που εισαχθήκαν στο νοσοκομείο και έκαναν τις συγκεκριμένες εξετάσεις. Τρίτος τύπος: Ασθενείς που δεν εισαχθήκαν στο νοσοκομείο αλλά έκαναν τις συγκεκριμένες εξετάσεις. Κατά συνέπεια, ο πίνακας Tsumoto_a.csv έχει 1421 ασθενείς, ο πίνακας Tsumoto_b.csv έχει 806 ασθενείς. Παρατηρήσαμε ότι στον πίνακα Tsumoto_a.csv υπήρχαν διπλοεγγραφές( ID: και ) και δύο εγγραφές με κενό Id. Αφαιρώντας τα διπλότυπα και τα κενά παραμένουν 1237 εγγραφές (ασθενείς). Ο πίνακας Tsumoto_b.csv έχει 806 εγγραφές από τις οποίες οι 36 έχουν κενό Id. Αφαιρώντας αυτές παραμένουν 770 εγγραφές. Η μελέτη μας θα εστιαστεί στους ασθενείς που υπάρχουν ταυτόχρονα και στους δύο πίνακες : Tsumoto_a.csv και Tsumoto_b.csv, δηλαδή σε 417. Από τον πίνακα Tsumoto_c.csv που αρχικά έχει εγγραφές κρατάμε τις εγγραφές για τους συγκεκριμένους 417 ασθενείς, οπότε και ο νέος πίνακας Tsumoto_c.csv έχει πλέον εγγραφές. Τέλος οι παροχείς τις βάσης αναφέρουν ότι στον πίνακα Tsumoto_b.csv το πεδίο Diagnosis έχει πολλά λάθη και προτείνουν την χρήση του αντίστοιχου πεδίου του πίνακα Tsumoto_a.csv το οποίο είναι πιο πρόσφατα ενημερωμένο αλλά και πιο πλήρες. Στη συνέχεια έπρεπε να αντιμετωπίσουμε περιπτώσεις λανθασμένων τιμών σε παιδία. Χαρακτηριστικό παράδειγμα ήταν οι διάφορες ημερομηνίες. Αυτές υπήρχαν άλλοτε με την μορφή ΥΥ.ΜΜ.DD, άλλοτε με την μορφή YYYY.DD.MM και άλλοτε με την μορφή MM.DD.YYYY ή DD.MM.YYYY.Η τελική μορφή την οποία χρησιμοποιήσαμε είναι η: DD.MM.YYYY. Επίσης βασικό πρόβλημα που έπρεπε να αντιμετωπίσουμε ήταν αυτό της ύπαρξης λανθασμένων συμβόλων μέσα στα δεδομένα. Έτσι έπρεπε να καθαρίσουμε τα δεδομένα διώχνοντας σύμβολα όπως $,@,&.^,! ή % ώστε να έχουμε είτε καθαρούς αριθμούς είτε ευανάγνωστες λέξεις τόσο από εμάς όσο και από τον SQL server. Όλα αυτά τα προβλήματα είναι λογικό να υπάρχουν σε μια βάση δεδομένων. Άλλωστε δε θα πρέπει να ξεχνάμε πως η πρωτογενής εισαγωγή των δεδομένων στις βάσεις δεδομένων γίνεται από προσωπικό κυρίως ιατρικό και νοσηλευτικό, το οποίο τις περισ

50 σότερες φορές δεν αντιλαμβάνεται την σημαντικότητα του να τηρούνται οι κανόνες και οι περιορισμοί που χαρακτηρίζουν την εισαγωγή στοιχείων σε μια εφαρμογή. 4.4 Μετασχηματισμοί των δεδομένων Στο στάδιο αυτό επιχειρήθηκαν κυρίως βασικές μετατροπές στη μορφή των δεδομένων ώστε να καταστούν αυτά πιο προσιτά στην ανάλυσή τους από τους αλγορίθμούς εξόρυξης γνώσης. Στο στάδιο αυτό έγινε ποιοτική μελέτη και αξιολόγηση των προς εξέταση παραμέτρων η οποία οδήγησε σε μείωση του αριθμού αυτών είτε με διαγραφή, είτε με αντικατάσταση κάποιων από άλλες. Επίσης βασικό κομμάτι στο στάδιο αυτό αποτέλεσε η κατηγοριοποίηση διακριτοποίηση τιμών ορισμένων παραμέτρων, η αντικατάσταση συνεχών τιμών από διακριτές τιμές κ.ο.κ. Θα πρέπει εδώ να τονιστεί η ιδιαίτερη σημασία του σταδίου αυτού καθώς είναι ορατός ο κίνδυνος ποιοτικής υποβάθμισης των δεδομένων από μια πιθανά αυθαίρετη αντικατάσταση τιμών από άλλες διακριτές και ομαδοποιημένες τιμές. Επίσης η ιδιαιτερότητα και σπουδαιότητα του σταδίου αυτού αυξάνει και από το γεγονός ότι το αμέσως επόμενο στάδιο είναι η επιλογή και εφαρμογή των αλγορίθμων εξόρυξης γνώσης. Οι επεμβάσεις που έλαβαν χώρα στο στάδιο αυτό δίνονται λεπτομερειακά παρακάτω (δίνονται τα πεδία): Τhrombosis: Όπως προαναφέρθηκε η τιμή αυτού του πεδίου έπαιρνε τις διακριτές τιμές 0,1,2 και 3. Παρατηρήθηκε τα δεδομένα εισόδου ήταν πολύ αραιά ι- διαίτερα για τις τιμές 1,2 και 3.Οπότε και αποφασίσαμε να δημιουργήσουμε τον παρακάτω μετασχηματισμό: Πίνακας 1: Μετασχηματισμός πεδίου Thrombosis. Thrombosis Αρχική Τιμή Μετασχηματισμένη τιμή Επεξήγηση 0 αρνητικός (όχι θρόμβωση) ΟΧΙ όχι θρόμβωση 1 θετικός (πολύ βαριά μορφή) ΝΑΙ θρόμβωση 2 θετικός (βαριά μορφή) ΝΑΙ θρόμβωση 3 θετικός (ήπια μορφή) ΝΑΙ θρόμβωση Diagnosis (Tsumoto_a.csv): Το πεδίο αυτό περιείχε πολλαπλές τιμές, χωρισμένες με κόμμα. Ουσιαστικά ήταν ένας εσωκλειόμενος πίνακας. Ο μετασχηματι

51 σμός που εφαρμόσαμε ήταν να δημιουργήσουμε έναν καινούριο εσωκλειόμενο πίνακα. Για παράδειγμα η εγγραφή για τον ασθενή με Id είναι Diagnosis: SLE, SJS, APS. Στον καινούριο πίνακα που δημιουργήσαμε η αναπαράσταση είναι ως εξής: Πίνακας 2:Μετασχηματισμός πεδίου Diagnosis. Id Diagnosis SLE SJS APS Birthday: Αντί της ημερομηνίας γέννησης που έχει συνεχείς τιμές και με μεγάλη διασπορά χρησιμοποιήσαμε τον μετασχηματισμό AGE. Αυτός περιέχει την ηλικία του κάθε ασθενή. Για να μην υπάρχουν προβλήματα ως προς την τιμή της ηλικίας κατά τις εκτελέσεις των αλγορίθμων εξόρυξης γνώσης σε διαφορετικές στιγμές οπότε και θα άλλαζαν τα αποτελέσματα,επιλέξαμε σαν βάση αναφοράς της ηλικίας την ημερομηνία 1/1/2007. Για παράδειγμα κάποιος που γεννήθηκε στις 3/11/1950 θα έχει Age 54. Description date: Αντί της ημερομηνίας εισαγωγής που έχει συνεχείς τιμές και με μεγάλη διασπορά χρησιμοποιήσαμε τον μετασχηματισμό D_DATE. Αυτός περιέχει τις ημέρες που έχουν περάσει από την ημέρα που καταγράφηκε ο ασθενείς στην βάση του νοσοκομείου. Για να μην υπάρχουν προβλήματα ως προς την τιμή της ημερομηνίας κατά τις εκτελέσεις των αλγορίθμων εξόρυξης γνώσης σε διαφορετικές στιγμές οπότε και θα άλλαζαν τα αποτελέσματα,επιλέξαμε σαν βάση αναφοράς την ημερομηνία 1/1/2007. Για παράδειγμα κάποιος που καταγράφηκε στις 138/1997 θα έχει D_DATE Οι προτάσεις που χρησιμοποιήσαμε για τη δημιουργία των παραπάνω μετασχηματισμών παρουσιάζονται στο παράρτημα. Στο σημείο αυτό καλό θα ήταν να τονιστεί ότι πολλοί από τους παραπάνω μετασχηματισμούς δεν είναι δεσμευτικοί. Αυτό σημαίνει πως κατά τη διάρκεια της πειραματικής εφαρμογής των μεθόδων εξόρυξης γνώσης είναι πιθανό κάποιες από τις παραπάνω πρωτοβουλίες αλλαγών να θεωρηθούν ανεπαρκείς ή επίσης να απαιτηθούν επιπλέον παρεμβάσεις και αλλαγές. Αυτό είναι κάτι φυσιολογικό και αποδεκτό. Άλλωστε και η ίδια η διαδικασία ανακάλυψης γνώσης επιτρέπει την επανάληψη κάποιων από τα προα

52 ναφερθέντα βήματα. Και αυτό διότι η εφαρμογή των μεθόδων γίνεται ουσιαστικά σε ένα πειραματικό περιβάλλον στο οποίο ο ειδικός του τομέα έχει την διακριτική ευχέρεια να επεμβαίνει, να τροποποιεί και να διορθώνει τυχόν παραλείψεις και λάθη τα ο- ποία δεν είχε λάβει υπόψη του από την αρχή της διαδικασίας

53 5 Επεξεργασία στο περιβάλλον του SQL Server 2005 Όπως αναφέρθηκε και νωρίτερα τα αρχικά δεδομένα υπήρχαν σε αρχεία πινάκων μορφής csv. Οπότε η πρωταρχική εργασία που έπρεπε να κάνουμε ήταν να μετατρέψουμε τα αρχεία σε μορφή αναγνωρίσιμη από το περιβάλλον του SQL Server. Αυτό έγινε μετατρέποντας τα αρχεία τύπου csv σε αρχεία τύπου Microsoft Excel. Αφού έγινε αυτή η μετατροπή τα δεδομένα εισάχθηκαν στον server και πιο συγκεκριμένα στο Server Management Studio. Στη συνέχεια τα δεδομένα καθαρίστηκαν και μετασχηματίστηκαν όπως αναφέρεται στο προηγούμενο κεφάλαιο, με χρήση sql προτάσεων. Πριν την εφαρμογή των αλγορίθμων για εξόρυξη γνώσης τα δεδομένα έπρεπε να χωριστούν σε δεδομένα εκπαίδευσης(70%) και σε δεδομένα αξιολόγησης(30%). Το εγχείρημα αυτό υλοποιήθηκε μέσω του εργαλείου SQL Server Integration Services. Εικόνα 9: Διάγραμμα ροής του SQL Server Integration Services

54 Στο περιβάλλον αυτό δημιουργήσαμε μια ροή δεδομένων(data flow) που διάβαζε τα αρχικά δεδομένα(ole DB Source),σε δεδομένα εκπαίδευσης και δεδομένα αξιολόγησης (με την χρήση του εργαλείου Row Sampling) και στη συνέχεια αποθήκευε τα αποτελέσματα στην βάση δεδομένων (OLE DB Destination). Το διάγραμμα ροής δεδομένων φαίνεται στην εικόνα 9. Έτσι δημιουργηθήκαν πίνακες που περιέχουν δεδομένα εκπαίδευσης(πίνακες με το πρόθεμα train) και πίνακες που περιέχουν δεδομένα αξιολόγησης (πίνακες με πρόθεμα test).όλοι οι πίνακες βρίσκονται υποθηκευμένοι στο περιβάλλον SQL Server Management Studio, όπως απεικονίζεται και στην εικόνα 10. Εικόνα 10: Πίνακες στο SQL Server Management Studio 5.1 Αρχική ανάλυση των δεδομένων Το εργαλείο του Business Intelligence Development Studio μας παρέχει μια αρχική εικόνα των δεδομένων μέσο ιστογραμμάτων τα οποία μας βοηθούν στην αρχική κατανόηση των δεδομένων που θα επεξεργαστούμε. Παρακάτω θα παρουσιάσουμε τα ιστογράμματα τόσο για τα δεδομένα εκπαίδευσης στις εικόνες 11-14, όσο και για τα δεδομένα αξιολόγησης στις εικόνες

55 Εικόνα 11: Δεδομένα εκπαίδευσης Εικόνα 12: Δεδομένα εκπαίδευσης

56 Εικόνα 13: Δεδομένα εκπαίδευσης Εικόνα 14: Δεδομένα εκπαίδευσης

57 Εικόνα 15: Δεδομένα αξιολόγησης Εικόνα 16: Δεδομένα αξιολόγησης

58 Εικόνα 17: Δεδομένα αξιολόγησης Εικόνα 18: Δεδομένα αξιολόγησης

59 Στην συνέχεια θα παρουσιάσουμε τα αποτελέσματα των διαφόρων αλγορίθμων Εξόρυξης Γνώσης που εφαρμόστηκαν στα δεδομένα μας. 5.2 Χρήση Αλγορίθμων Εξόρυξης Γνώσης Στην παρούσα παράγραφο θα παρουσιάσουμε τα αποτελέσματα της χρήσης των αλγορίθμων με διαφορετικές παραμέτρους, ενώ στην επόμενη παράγραφο θα σχολιάσουμε τα αποτελέσματα και θα επιλέξουμε τους καλύτερους αλγόριθμους. Το Business Intelligence Development Studio μας παρέχει διάφορες μορφές απεικονίσεων των αποτελεσμάτων. Οι κυριότερες και αυτές που θα χρησιμοποιήσουμε είναι το διάγραμμα επιτυχίας (Lift Chart) και ο πίνακας ταξινόμησης(classification Matrix). Το διάγραμμα επιτυχίας παρουσιάζει την καμπύλη πρόβλεψης του ποσοστού επιτυχών προβλέψεων του αλγορίθμου σαν ποσοστό του συνολικού πληθυσμού και την συγκρίνει τόσο με την ι- δανική καμπύλη όσο και με την καμπύλη τυχαίας επιλογής. Ο πίνακας ταξινόμησης παρουσιάζει πόσες φορές ο αλγόριθμος έκανε σωστή πρόβλεψη και τι τιμές προέβλεψε όταν προέβλεψε λάθος. Παρακάτω παρουσιάζουμε τα αποτελέσματά τους τόσο για τα δεδομένα εκπαίδευσης όσο και για τα δεδομένα αξιολόγησης. Συνολικά τα δεδομένα εκπαίδευσης ήταν 292 ασθενείς από τους οποίους οι 47 παρουσίαζαν θρόμβωση, ενώ τα δεδομένα αξιολόγησης ήταν 125 ασθενείς από τους οποίους οι 19 παρουσίαζαν θρόμβωση Microsoft Decision Trees Εφαρμόστηκε ο αλγόριθμος των δένδρων απόφασης με διαφορετικές παραμέτρους ο- πότε και προέκυψαν 5 διαφορετικά δένδρα. Θα παρουσιάσουμε την μορφή ενός δένδρου έτσι όπως μας την δίνει ο SQL Server, στην εικόνα 19, καθώς και τις συσχετίσεις που παρουσιάζει (εικόνα 20). Τα αποτελέσματα τόσο σε μορφή διαγραμμάτων επιτυχίας όσο και σε μορφή πινάκων ταξινόμησης εμφανίζονται παρακάτω στις εικόνες Εικόνα 19: Μορφή δένδρου ταξινόμησης

60 Εικόνα 20: Απεικόνιση συσχετίσεων δένδρου ταξινόμησης Εικόνα 21: Lift Chart δεδομένων εκπαίδευσης δένδρων ταξινόμησης

61 Εικόνα 22: Classification Matrix δεδομένων εκπαίδευσης δένδρων ταξινόμησης Εικόνα 23: Lift Chart δεδομένων αξιολόγησης δένδρων ταξινόμησης

62 Εικόνα 24: Classification Matrix δεδομένων αξιολόγησης δένδρων ταξινόμησης Microsoft Clustering Εφαρμόστηκε ο αλγόριθμος Microsoft Clustering με διαφορετικές παραμέτρους οπότε και προέκυψαν 2 διαφορετικά μοντέλα. Χαρακτηριστικές απεικονίσεις αυτών των μοντέλων είναι τα διαγράμματα του προφίλ των cluster όπως φαίνεται στην εικόνα 25 όσο και των χαρακτηριστικών του κάθε cluster όπως φαίνεται στην εικόνα 26. Εικόνα 25: Διάγραμμα προφίλ Cluster

63 Εικόνα 26: Χαρακτηριστικά Cluster Όπως θα φανεί και από τις παρακάτω εικόνες (27 και 28) τα αποτελέσματα των προβλέψεων με βάσει αυτά τα μοντέλα είναι πάρα πολύ αποθαρρυντικά, λόγω κυρίως των προβλέψεων τιμών του πεδίου Thrombosis. Εικόνα 27: Classification Matrix δεδομένων εκπαίδευσης με ομαδοποίηση Εικόνα 28: Classification Matrix δεδομένων αξιολόγησης με ομαδοποίηση

64 5.2.3 Microsoft Naïve Bayes Σε αυτήν την ενότητα παρουσιάζονται τα αποτελέσματα της εφαρμογής του αλγορίθμου Microsoft Naïve Bayes. Αξίζει εδώ να σημειωθεί ότι παρά την αλλαγή των παραμέτρων του αλγόριθμου τα αποτελέσματα ήταν τα ίδια. Πριν παρουσιάσουμε τα αποτελέσματα θα δείξουμε τις διάφορες απεικονίσεις που προσφέρει ο SQL server και οι οποίες είναι πολύ χρήσιμες για την κατανόηση του μοντέλου. Αυτές είναι: Το δίκτυο εξαρτήσεων όπως φαίνεται στην εικόνα 29, το οποίο δείχνει πια χαρακτηριστικά της εισόδου επηρεάζουν περισσότερο το μοντέλο. Εικόνα 29: Δίκτυο εξαρτήσεων χαρακτηριστικών Το προφίλ των παραπάνω χαρακτηριστικών (εικόνα 30). Εικόνα 30: Προφίλ των χαρακτηριστικών εισόδου

65 Τα χαρακτηριστικά που συνεισφέρουν περισσότερο στην απόφαση, όπως φαίνεται στην εικόνα 31. Η διάκριση των χαρακτηριστικών εισόδου στην απόφαση όπως απεικονίζεται στην εικόνα 32. Εικόνα 31:Χαρακτηριστικά που συνεισφέρουν σε κάθε απόφαση Εικόνα 32: Η διάκριση των χαρακτηριστικών εισόδου στην απόφαση Στην συνέχεια παρουσιάζουμε τα αποτελέσματα του αλγορίθμου τόσο για τα δεδομένα εκπαίδευσης όσο και για τα δεδομένα αξιολόγησης στις εικόνες

66 Εικόνα 33: Lift Chart δεδομένων εκπαίδευσης Microsoft Naïve Bayes Εικόνα 34: Classification Matrix δεδομένων εκπαίδευσης Microsoft Naïve Bayes Εικόνα 35: Lift Chart δεδομένων αξιολόγησης Microsoft Naïve Bayes

67 Εικόνα 36: Classification Matrix δεδομένων αξιολόγησης Microsoft Naïve Bayes Microsoft Association Rules Σε αυτήν την ενότητα παρουσιάζονται τα αποτελέσματα της εφαρμογής του αλγορίθμου Microsoft Association Rules. Πριν παρουσιάσουμε τα αποτελέσματα θα δείξουμε τις διάφορες απεικονίσεις που προσφέρει ο SQL server και οι οποίες είναι πολύ χρήσιμες για την κατανόηση του μοντέλου. Αυτές είναι: Η παράθεση των itemsets που βρέθηκαν, όπου δίνεται η υποστήριξη και το μέγεθός του καθενός από αυτά, παράδειγμα φαίνεται στην εικόνα 37. Η προβολή των κανόνων,που περιέχει τις τιμές της πιθανότητας όσο και της σημαντικότητας του κανόνα, όπως φαίνεται στην εικόνα 38. Το δίκτυο των συσχετίσεων μεταξύ των χαρακτηριστικών εισόδου και εξόδου, όπως φαίνεται στην εικόνα 39. Εικόνα 37: Η παράθεση των itemsets

68 Εικόνα 38: Η προβολή των κανόνων Εικόνα 39: Το δίκτυο των συσχετίσεων Ο αλγόριθμος εφαρμόστηκε με διαφορετικές παραμέτρους οπότε και προέκυψαν 4 διαφορετικά μοντέλα. Θα παρουσιάσουμε τα αποτελέσματα τόσο σε μορφή διαγραμμάτων επιτυχίας όσο και σε μορφή πινάκων ταξινόμησης στις εικόνες

69 Εικόνα 40: Lift Chart δεδομένων εκπαίδευσης Εικόνα 41: Classification Matrix δεδομένων εκπαίδευσης

70 Εικόνα 42: Lift Chart δεδομένων αξιολόγησης Εικόνα 43: Classification Matrix δεδομένων αξιολόγησης

71 5.2.5 Microsoft Neural Network Σε αυτήν την ενότητα παρουσιάζονται τα αποτελέσματα του αλγορίθμου Microsoft Neural Network.Αξίζει εδώ να σημειωθεί ότι παρά την αλλαγή των παραμέτρων του αλγόριθμου τα αποτελέσματα ήταν τα ίδια. Αυτό οφείλεται στο είδος των δεδομένων που εξετάζουμε στην παρούσα εργασία. Αξίζει να παρουσιάσουμε πρώτα μια απεικόνιση που μας παρέχεται και η οποία είναι αντιπροσωπευτική του αλγορίθμου και παρουσιάζει συγκριτικά τα χαρακτηριστικά της εισόδου και πόσο διαφορετικά επιδρούν στην έξοδο. Αυτή η απεικόνιση παρουσιάζεται στην εικόνα 44. Εικόνα 44: Απεικόνιση Microsoft Neural Network Στη συνέχεια στις εικόνες παρουσιάζονται τα αποτελέσματα του αλγορίθμου Microsoft Neural Network για τα δεδομένα εκπαίδευση και αξιολόγησης. Εικόνα 45: Lift Chart δεδομένων εκπαίδευσης Microsoft Neural Network

72 Εικόνα 46: Classification Matrix δεδομένων εκπαίδευσης Microsoft Neural Network Εικόνα 47: Lift Chart δεδομένων αξιολόγησης Microsoft Neural Network Εικόνα 48: Classification Matrix δεδομένων αξιολόγησης Microsoft Neural Network Microsoft Logistic Regression Όπως έχουμε αναφέρει και σε προηγούμενο κεφάλαιο ο αλγόριθμος του Microsoft Logistic Regression είναι παρόμοιος με τον αλγόριθμο Microsoft Neural Network. Η μόνη διαφορά είναι ότι έχει μόνο ένα κρυφό επίπεδο. Παρακάτω στις εικόνες παρουσιάζουμε τα αποτελέσματα τις εφαρμογής αυτού του αλγορίθμου

73 Εικόνα 49: Lift Chart δεδομένων εκπαίδευσης Microsoft Logistic Regression Εικόνα 50: Classification Matrix δεδομένων εκπαίδευσης Microsoft Logistic Regression Εικόνα 51: Lift Chart δεδομένων αξιολόγησης Microsoft Logistic Regression Εικόνα 52: Classification Matrix δεδομένων αξιολόγησης Microsoft Logistic Regression

74 5.3 Σύγκριση αποτελεσμάτων και τελική επιλογή μοντέλων Στην προηγούμενη παράγραφο περιγράψαμε όλα τα μοντέλα που δημιουργήσαμε για κάθε αλγόριθμο. Στην παράγραφο αυτή θα επιχειρήσουμε την επιλογή της καλύτερης υλοποίησης για κάθε αλγόριθμο ξεχωριστά ενώ στο τέλος θα επιλέξουμε τα καλύτερα μοντέλα τόσο για περιγραφή όσο και για πρόβλεψη. Στο σημείο αυτό πρέπει να ξανατονίσουμε ότι οι επιλογές αυτές έγιναν με στατιστικά κριτήρια. Η συμβολή των ειδικών είναι αυτή που τελικά θα οδηγήσει στην ορθότερη επιλογή των μοντέλων. Κρίνεται σκόπιμο να εξηγήσουμε πρώτα τα κριτήρια τα οποία θα μας οδηγήσουν στην επιλογή των μοντέλων. Όπως φάνηκε και από την παρουσίαση των αποτελεσμάτων έχουμε να κάνουμε με τέσσερις περιπτώσεις: Περιπτώσεις που οι ασθενείς παρουσίασαν θρόμβωση και το μοντέλο προέβλεψε σωστά (True Positive- TP). Περιπτώσεις που οι ασθενείς παρουσίασαν θρόμβωση και το μοντέλο προέβλεψε λάθος (False Negative - FN). Περιπτώσεις που οι ασθενείς δεν παρουσίασαν θρόμβωση και το μοντέλο προέβλεψε σωστά(true Negative - TN). Περιπτώσεις που οι ασθενείς δεν παρουσίασαν θρόμβωση και το μοντέλο προέβλεψε λάθος (False Positive - FP). Έτσι μπορούμε να δημιουργήσουμε τον παρακάτω πίνακα αναπαράστασης αποτελεσμάτων: Πίνακας 3:Πίνακας Αναπαράστασης Αποτελεσμάτων. Πραγματική Διάγνωση Πρόβλεψη Μοντέλου ΝΑΙ ΟΧΙ ΝΑΙ TP = a FP = b ΟΧΙ FN = c TN = d Για να εκτιμήσουμε τα αποτελέσματα των μοντέλων που έχουμε δημιουργήσει θα χρησιμοποιήσουμε τα κριτήρια της ευαισθησίας(sensitivity),της ακρίβειας (accuracy) και

75 της Τιμής Θετικής Πρόβλεψης(PPV, Positive Predictive Value),οι οποίες με βάση τον πίνακα 3 ορίζονται ως εξής: Ευαισθησία =a/(a+c) Ακρίβεια = (a+d)/(a+b+c+d) PPV=a/(a+b) Όσο μεγαλύτερες τιμές παίρνουν τα παραπάνω κριτήρια τόσο καλύτερο είναι το μοντέλο που έχουμε δημιουργήσει. Στη συνέχεια θα επιλέξουμε το καλύτερο μοντέλο για κάθε αλγόριθμο και μετά θα επιλέξουμε και το καλύτερο συνολικά. Βέβαια τα παραπάνω κριτήρια θα ισχύουν για τα δεδομένα αξιολόγησης. Το να έχουμε καλά αποτελέσματα για τα δεδομένα εκπαίδευσης δεν είναι και τόσο σημαντικό γιατί μπορεί να υποπέσουμε στην παγίδα της υπερμοντελοποίησης, παρόλα αυτά είναι θεμιτό να έχουμε καλά αποτελέσματα και για τα δεδομένα εκπαίδευσης. Βέβαια η επιλογή θα γίνει με βάση τα αποτελέσματα των δεδομένων αξιολόγησης όπου και θα εφαρμοστούν τα παραπάνω κριτήρια. Ξεκινώντας από τα Δένδρα Απόφασης παρατηρούμε ότι τα καλύτερα αποτελέσματα (Ευαισθησία=0.42, Ακρίβεια=0.87, PPV=0.62) παρουσιάζουν τα τρία πρώτα δένδρα. Επειδή το πρώτο είναι όμως και το πιο μικρό είναι και αυτό που θα επιλέξουμε. Το επιλεγμένο δένδρο έχει τις προεπιλεγμένες(default) τιμές για τις παραμέτρους του. Αναφερόμενοι στη συνέχεια στον αλγόριθμο Microsoft Clustering παρατηρούμε ότι τα καλύτερα αποτελέσματα (Ευαισθησία=0, Ακρίβεια=0.85, PPV=1) παρουσιάζει το πρώτο μοντέλο που έχει τις προκαθορισμένες τιμές παραμέτρων. Για τον αλγόριθμο Microsoft Naïve Bayes είχαμε τις εξής τιμές για τα κριτήρια: Ευαισθησία=0.53, Ακρίβεια=0.82, PPV=0.44. Οι τιμές αυτές ισχύουν για το μοντέλο με τις προκαθορισμένες τιμές παραμέτρων. Για τον αλγόριθμο Microsoft Association Rules θα επιλέξουμε το τρίτο μοντέλο που έχει τιμές Ευαισθησία=0.42, Ακρίβεια=0.83, PPV=0.44. Οι τιμές των παραμέτρων του αλγορίθμου για αυτό το μοντέλο είναι: MAXIMUM ITEMSET COUNT=200000, ITEMSET COUNT=2762, RULE COUNT=1345, MAXIMUM ITEMSET SIZE=0, MINIMUM PROBABILITY= 0.4, MINIMUM SUPPORT=0.03 ΚΑΙ MAXIMUM SUPPORT 254. Όσον αφορά τον αλγόριθμο Microsoft Neural Network τα κριτήρια είχαν τιμές : Ευαισθησία=0.42, Ακρίβεια=0.82, PPV=0.89,οι οποίες επιτευχθήκαν με τις προκαθορισμένες τιμές των παραμέτρων του αλγορίθμου

76 Τέλος για τον αλγόριθμο Microsoft Logistic Regression τα κριτήρια είχαν τιμές : Ευαισθησία=0.37, Ακρίβεια=0.86, PPV=0.58,οι οποίες επιτευχθήκαν με τις προκαθορισμένες τιμές των παραμέτρων του αλγορίθμου. Από όλα τα παραπάνω συμπεραίνουμε ότι το καλύτερο μοντέλο για πρόβλεψη είναι αυτό του Microsoft Naïve Bayes ενώ για παραγωγή κανόνων το τρίτο μοντέλο του Microsoft Association Rules. Το μοντέλο Microsoft Naïve Bayes έχει χαρακτηριστικά που φαίνονται στην εικόνα 53 ενώ τα χαρακτηριστικά του Microsoft Association Rules φαίνονται στην εικόνα 54. Εικόνα 53: Χαρακτηριστικά Microsoft Naïve Bayes Εικόνα 54: Χαρακτηριστικά Microsoft Association Rules

77 5.4 Παρουσίαση του μοντέλου πρόβλεψης Microsoft Naïve Bayes Στην συνέχεια θα παρουσιάσουμε τον τρόπο μα τον οποίο μπορεί να εφαρμοστεί το μοντέλο πρόβλεψης που έχουμε επιλέξει. Το μοντέλο μπορεί να χρησιμοποιηθεί είτε για πρόβλεψη σε ολόκληρο πίνακα είτε για πρόβλεψη με εισαγωγή δεδομένων σε γραφικό περιβάλλον και άμεση εκτέλεση ε- ρωτήματος.. Για την πρώτη περίπτωση πρέπει να συνδέσουμε λογικά τα πεδία των πινάκων τους οποίους θα επεξεργαστεί το μοντέλο με τα αντίστοιχα πεδία ορισμού του αλγορίθμου. Αν τα ονόματα των αντίστοιχων πεδίων είναι ίδια ο server υλοποιεί αυτόματα αυτήν την σύνδεση. Η παραπάνω σύνδεση μπορεί να γίνει με χρήση sql προτάσεων ή με την χρήση του γραφικού περιβάλλοντος όπου το μόνο που έχουμε να κάνουμε είναι να σύρουμε το πεδίο των δεδομένων πάνω στο αντίστοιχο πεδίο του μοντέλου, όπως χαρακτηριστικά φαίνεται στην εικόνα 55. Εικόνα 55: Εφαρμογή μοντέλου πρόβλεψης σε εξωτερικούς πίνακες

78 Ο κώδικας που θα έπρεπε να γράψουμε για την υλοποίηση αυτού του ερωτήματος είναι ο εξής; SELECT t.[id], [Bayes1].[TROMB NAI OXI], (PredictProbability([Bayes1].[TROMB NAI OXI])) as [ΠΙΘΑΝΟΤΗΤΑ] From [Bayes1] PREDICTION JOIN SHAPE { OPENQUERY([Dipl1], 'SELECT [ID], [SEX], [Admission], [AGE], [TROMB_NAI_OXI] FROM (SELECT train_tsum_a_id_b.id, train_tsum_a_id_b.sex, train_tsum_a_id_b.birthday, train_tsum_a_id_b.description, train_tsum_a_id_b.[first Date], train_tsum_a_id_b.admission, train_tsum_b1_id_a.thrombosis, train_tsum_b1_id_a.symptoms, DATEDIFF(YEAR, train_tsum_a_id_b.birthday, ''1/1/2007'') AS AGE, CASE WHEN [Thrombosis] < 1 THEN ''OXI'' ELSE ''NAI'' END AS TROMB_NAI_OXI, DATEDIFF(DAY, train_tsum_a_id_b.description, ''1/1/2007'') AS D_DATE FROM train_tsum_a_id_b INNER JOIN train_tsum_b1_id_a ON train_tsum_a_id_b.id = train_tsum_b1_id_a.id) as [TSUM_A_TROMB_NAI_OXI_AGE] ORDER BY [ID]')} APPEND ({OPENQUERY([Dipl1], 'SELECT [Diagnosis 1], [ID] FROM [dbo].[train_diagnosh1_2_3_4] ORDER BY [ID]')} RELATE [ID] TO [ID]) AS [train_diagnosh1_2_3_4] AS t ON [Bayes1].[SEX] = t.[sex] AND [Bayes1].[Admission] = t.[admission] AND [Bayes1].[AGE] = t.[age] AND [Bayes1].[TROMB NAI OXI] = t.[tromb_nai_oxi] AND [Bayes1].[Train Diagnosh ].[Diagnosis 1] = t.[train_diagnosh1_2_3_4].[diagnosis 1] Συμπεραίνουμε από το παραπάνω παράδειγμα πόσο εύχρηστο είναι το γραφικό περιβάλλον,

79 Τα αποτελέσματα τις εκτέλεσης του παραπάνω ερωτήματος παρουσιάζονται στην εικόνα 56. Εικόνα 56: Αποτελέσματα ερωτήματος σε πίνακα Όσον αφορά την πρόβλεψη με εισαγωγή δεδομένων μπορούμε και πάλι να χρησιμοποιήσουμε το γραφικό περιβάλλον. Αυτή τη φορά θα πρέπει να ενεργοποιήσουμε την επιλογή Singleton Query οπότε και εμφανίζεται το περιβάλλον που παρουσιάζεται στην εικόνα 57. Στα πεδία που εισάγουμε δεδομένα εμφανίζονται αναδυόμενες λίστες και επιλέγουμε τιμές από αυτές, αποφεύγοντας έτσι τα ορθογραφικά λάθη εισαγωγής. Με την εκτέλεση του ερωτήματος αναδύεται ένα καινούριο παράθυρο που παρουσιάζει το αποτέλεσμα, όπως φαίνεται και στην εικόνα

80 Εικόνα 57: Δημιουργία ερωτήματος με εισαγωγή δεδομένων Εικόνα 58: Αποτελέσματα ερωτήματος με εισαγωγή δεδομένων 5.5 Παρουσίαση κανόνων Microsoft Association Rules Συνολικά το μοντέλο Microsoft Association Rules παρήγαγε συνολικά 1345 κανόνες. Από αυτούς κρατήσαμε αυτούς που έχουν Εμπιστοσύνη μεγαλύτερη από και Σημαντικότητα μεγαλύτερη από Οι κανόνες που θεωρούμε σημαντικοί παρουσιάζονται στον πίνακα 4. Α/Α Εμπιστοσύνη Σημαντικότητα Πίνακας 4: Κανόνες Συσχέτισης Κανόνας 1 1 0,794 APS = Existing, AGE = > THROMBOSIS = NAI 2 1 0,794 APS = Existing, AGE = 33-41, SEX = F -> THROMBOSIS = NAI 3 1 0,740 APS = Existing, AGE = 33-41, Admission = + -> THROMBOSIS = NAI 4 1 0,740 APS = Existing, AGE = 33-41, Admission = +, SEX = F -> THROMBOSIS = NAI 5 1 0,714 APS = Existing, AGE >= 66 -> THROMBOSIS = NAI 6 1 0,714 APS = Existing, AGE >= 66, Admission = + -> THROMBOSIS = NAI 7 1 0,714 APS = Existing, AGE >= 66, SEX = F -> THROMBOSIS = NAI 8 1 0,714 APS = Existing, AGE >= 66, Admission = +, SEX = F -> THROMBOSIS = NAI 9 1 0,714 APS = Existing, AGE = 55-66, Admission = + -> THROMBOSIS = NAI ,714 APS = Existing, AGE = 55-66, Admission = +, SEX = F -> THROMBOSIS = NAI

Δείτε περισσότερα