and Intelligent Systems Group LPIS Group).

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "and Intelligent Systems Group LPIS Group)."

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΙΑΤΡΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Αναζήτηση Γνώσης σε Ιατρικά εδοµένα ιπλωµατική Εργασία της Παπαρνάκη Σουλτάνας Επιβλέπων Καθηγητής: Βλαχάβας Ιωάννης Εξεταστική Επιτροπή: Μαγλαβέρας Νικόλαος Μπαµίδης Παναγιώτης ΘΕΣΣΑΛΟΝΙΚΗ εκέµβριος i-

2

3 Πρόλογος Η αλµατώδης ανάπτυξη των νέων τεχνολογιών κατέστησε δυνατή την συλλογή και α- ποθήκευση µεγάλου όγκου δεδοµένων σε οποιαδήποτε επιχείρηση, ίδρυµα, ιδιώτη που επιθυµεί και διαθέτει τα κατάλληλα µέσα και την αντίστοιχη τεχνογνωσία. Βασική επιδίωξη είναι η ανακάλυψη γνώσης που µπορεί να κρύβεται πίσω από τα δεδοµένα, τροχοπέδη αποτελεί όµως, η αδυναµία της επεξεργασίας των δεδοµένων από το ανθρώπινο δυναµικό µέσω των παραδοσιακών τεχνικών. Τα παραπάνω καθιστούν επιτακτική την χρήση µεθόδων και τεχνικών ανακάλυψης εξόρυξης γνώσης σε βάσεις δεδοµένων για την επεξεργασία και κατ επέκταση αξιοποίηση των δεδοµένων. Σκοπός της παρούσας διπλωµατικής εργασίας είναι η εφαρµογή των µεθόδων και τεχνικών ανακάλυψης µη προφανούς γνώσης σε πραγµατικά ιατρικά δεδοµένα, όπου τα αποτελέσµατα θα µπορούν να αξιολογηθούν και να αξιοποιηθούν από τους ειδικούς του τοµέα της ιατρικής. Για την πρακτική εφαρµογή των µεθόδων και τεχνικών ανακάλυψης και εξόρυξης γνώσης χρησιµοποιήθηκαν και συγκρίθηκαν δύο εργαλεία, το WEKA και ο Ms SQL Server Η εκπόνηση της εργασίας έγινε στο Εργαστήριο Γλωσσών και Προγραµµατισµού και Τεχνολογίας Λογισµικού (Programming Languages and Software Engineering Laboratory PlaSE Laboratory) του Τµήµατος Πληροφορικής του Α.Π.Θ., σε συνεργασία µε την οµάδα Λογικού Προγραµµατισµού και Ευφυών Συστηµάτων (Logic Programming and Intelligent Systems Group LPIS Group). Θα ήθελα να ευχαριστήσω των επιβλέποντα καθηγητή κ. Ιωάννη Βλαχάβα για την εµπιστοσύνη που µου έδειξε µε την ανάθεση της εργασίας αυτής, αλλά και τα υπόλοιπα µέλη της εξεταστικής επιτροπής κ. Νικόλαο Μαγκλαβέρα και κ. Μπαµίδη Παναγιώτη. Ιδιαίτερες ευχαριστίες στον κ. Φώτιο Κόκκορα για την συνεργασία και την πολύτι- µη βοήθεια του κατά την εκπόνηση της εργασίας αυτής. Τέλος, θα ήθελα να ευχαριστήσω τον κ. Τορτοπίδη Γεώργιο, πληροφορικό του νοσοκοµείου Παπαγεωργίου. Παπαρνάκη Σουλτάνα -i-

4

5 Περιεχόµενα ΠΡΟΛΟΓΟΣ... I ΠΕΡΙΕΧΟΜΕΝΑ... III 1 ΕΙΣΑΓΩΓΗ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΣΕ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΚΑΙ ΕΞΟΡΥΞΗ ΣΕ Ε ΟΜΕΝΑ ΣΤΑ ΙΑ ΤΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΑΠΟΤΕΛΕΣΜΑΤΑ ΙΑ ΙΚΑΣΙΑΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΕΞΟΡΥΞΗ ΣΕ Ε ΟΜΕΝΑ Εισαγωγή Απαιτήσεις εξόρυξης σε δεδοµένα Κατηγορίες µεθόδων εξόρυξης σε δεδοµένα ΜΕΘΟ ΟΙ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ Μέθοδοι Εξόρυξης Προτύπων Πληροφόρησης Μέθοδοι Εξόρυξης Προτύπων Πρόβλεψης ΠΡΟΒΛΗΜΑΤΑ ΣΤΗΝ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ Ε ΟΜΕΝΑ ΕΦΑΡΜΟΓΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ Επίπεδα αρχεία (Flat files) Σχεσιακές βάσεις δεδοµένων (Relational Databases) Αποθήκες Συγκεντρωτικών δεδοµένων (Data Warehouse) Βάσεις δεδοµένων συναλλαγών (Transactional Databases) Προηγµένα δεδοµένα ΕΡΓΑΛΕΙΑ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΤΟ ΕΡΓΑΛΕΙΟ WEKA Εισαγωγή iii-

6 3.1.2 οµή του WEKA ARFF Σχήµα υνατότητες Ανακάλυψης Γνώσης Η ΠΛΑΤΦΟΡΜΑ SQL SERVER Εισαγωγή Υπηρεσίες OLE DB για Εξόρυξη Γνώσης SQL Server Management Studio Business Intelligence Development Studio Αλγόριθµοι Εξόρυξης Γνώσης του SQL Server ΣΥΓΚΡΙΣΗ ΕΡΓΑΛΕΙΩΝ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΣΕ ΙΑΤΡΙΚΑ Ε ΟΜΕΝΑ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΚΑΙ ΙΑΒΗΤΙΚΟΙ ΑΣΘΕΝΕΙΣ ΠΕΡΙΓΡΑΦΗ Ε ΟΜΕΝΩΝ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ Ε ΟΜΕΝΩΝ ΕΦΑΡΜΟΓΗ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΣΥΝΟΛΑ Ε ΟΜΕΝΩΝ ΑΝΑΖΗΤΗΣΗ ΓΝΩΣΗΣ ΜΕ ΤΗΝ ΠΛΑΤΦΟΡΜΑ WEKA Εισαγωγή / Έλεγχος εδοµένων Γνώση Αλγόριθµοι ένδρων Απόφασης (Decision Trees) Κανόνες Κατηγοριοποίησης (Classification Rules) Naïve Bayes Νευρωνικά ίκτυα (Neural Networks) Συσταδοποίηση (Clustering) Κανόνες Συσχέτισης (Association Rules) ΑΝΑΖΗΤΗΣΗ ΓΝΩΣΗΣ ΜΕ ΤΗΝ ΠΛΑΤΦΟΡΜΑ SQL SERVER Εισαγωγή / Έλεγχος εδοµένων Γνώση Microsoft Decision Trees Microsoft Naive Bayes Microsoft Neural Network Microsoft Association Rules Microsoft Clustering Algorithm iv-

7 5.4 ΑΞΙΟΛΟΓΗΣΗ ΜΟΝΤΕΛΩΝ Ι ΙΑΙΤΕΡΑ ΣΤΟΙΧΕΙΑ ΕΡΓΑΛΕΙΩΝ Εκτέλεση πειραµάτων στην πλατφόρµα Weka Ερωτήµατα Πρόβλεψης Μοντέλων του SQL Server ΣΥΜΠΕΡΑΣΜΑΤΑ- ΜΕΛΛΟΝΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ v-

8

9 Εισαγωγή 1 Εισαγωγή Στην εποχή που βασική πεποίθηση είναι ότι η πληροφορία προσφέρει δύναµη και επιτυχία, η συλλογή τεράστιων όγκων δεδοµένων και πληροφοριών είναι χαρακτηριστική. Ο ρυθµός αυτός συλλογής αυξάνεται ολοένα και περισσότερο µε τις δυνατότητες που προσφέρουν οι νέες τεχνολογίες και η πληροφορική. Τα δεδοµένα ποικίλουν από απλές αριθµητικές µετρήσεις και έγγραφα, σε πιο περίπλοκες πληροφορίες όπως χωρικά δεδοµένα, πολυµεσικά δεδοµένα και έγγραφα υπερκειµένου. Ορισµένες µόνο ενδεικτικές κατηγορίες δεδοµένων που συλλέγονται είναι: συναλλαγές εταιρειών που καταγράφονται για λόγους ιστορικότητας και έχουν σχέση τόσο µε τις συναλλαγές των εταιρειών µε άλλες εταιρείες όσο και µε την εσωτερική τους λειτουργία, επιστηµονικά δεδοµένα, ιατρικά και προσωπικά δεδοµένα που συλλέγονται από κυβερνήσεις, επιχειρήσεις και νοσηλευτικά ιδρύµατα για βελτίωση της ποιότητας των παρεχόµενων υπηρεσιών, βίντεο και εικόνες, αναφορές και σηµειώµατα, µηνύµατα ηλεκτρονικού ταχυδροµείου κτλ. Αρχικά, η συλλογή αυτών των δεδοµένων γινόταν ανεξέλεγκτα βάσει της τεράστιας δύναµης που προσέφερε η ψηφιακή αποθήκευση, αδιαφορώντας για τις δυνατότητες των υπαρχόντων αποθηκευτικών δοµών σχετικά µε την επεξεργασία των δεδοµένων. Αυτό οδήγησε στη δηµιουργία δοµηµένων συστηµάτων διαχείρισης βάσεων δεδοµένων (κυρίως σχεσιακών) που προσέφεραν υπηρεσίες αποτελεσµατικής και αποδοτικής ανάκτησης πληροφοριών από τεράστιες συλλογές δεδοµένων. Βέβαια, οι µόνες δυνατότητες επεξεργασίας που προσέφεραν τα παραπάνω συστήµατα ήταν σχεσιακού τύπου ε- ρωτήµατα για επιλογή ενός υποσυνόλου των δεδοµένων από το καθολικό σύνολο βάσει κάποιων κριτηρίων και διαδικασίες στατιστικής επεξεργασίας των δεδοµένων, δυνατότητες στις οποίες ο χρήστης έχει θέσει εκ των προτέρων ένα συγκεκριµένο στόχο προς αναζήτηση. Σήµερα, τα δεδοµένα που έχουµε είναι πολλά περισσότερα από αυτά τα οποία µπορούµε να διαχειριστούµε. Πολλές φορές µάλιστα το πλήθος των δεδοµένων και το µέγεθος των βάσεων δεδοµένων αυξάνονται τόσο ως προς το πλήθος των εγγράφων όσο και ως προς το πλήθος των πεδίων. Πίσω από αυτές τις τεράστιες βάσεις δεδοµένων -1-

10 Κεφάλαιο 1 υπάρχει µη προφανής γνώση που δεν είναι ορατή και γνωστή εκ των προτέρων, αλλά µπορεί να αποδειχτεί πολύ χρήσιµη αν ανακαλυφθεί. Την απαίτηση αυτή έρχεται να καλύψει ένα νέο επιστηµονικό πεδίο η Ανακάλυψη Γνώσης σε Βάσεις εδοµένων (Knowledge Discovery in Databases) που µε την εφαρµογή µεθόδων και τεχνικών εξόρυξης γνώσης (Data Mining) στοχεύει στην ανακάλυψη προτύπων και κατασκευή µοντέλων από τα δεδοµένα. Πολλοί είναι οι τοµείς των επιστηµών και των επιχειρήσεων που χρησιµοποιούνται και µάλιστα σε µεγάλη έκταση οι τεχνικές ανακάλυψης και εξόρυξης γνώσης. Πιο αναλυτικά: Στον τοµέα της διαφήµισης η πρωταρχική εφαρµογή αφορά στην ανάλυση των βάσεων πελατών για την αναγνώριση διαφορετικών οµάδων πελατών και µετέπειτα πρόβλεψη της συµπεριφοράς τους. Στον τοµέα των οικονοµικών και των επενδύσεων, µεγάλοι τραπεζικοί και ασφαλιστικοί οργανισµοί παρέχουν πλήθος υπηρεσιών στους πελάτες τους, που ποικίλουν από δάνεια, καταθέσεις και απλές συναλλαγές ως επενδυτικά προγράµµατα. Τα στοιχεία που συλλέγονται είναι συνήθως ολοκληρωµένα, αξιόπιστα και υψηλής ποιότητας επιτρέποντας έτσι την συστηµατική ανάλυση των δεδοµένων και εφαρµογή τεχνικών ανακάλυψης και εξόρυξης γνώσης µε κύριους άξονες την πρόβλεψη αποπληρωµής των δανείων και ανάλυσης πολιτικής χρέωσης των πελατών, κατηγοριοποίηση των πελατών για στοχευόµενη διαφήµιση και τον περιορισµό των οικονοµικών εγκληµάτων. Στον τοµέα του λιανικού εµπορίου που προσφέρεται για την εφαρµογή τεχνικών αυτών εφόσον συλλέγονται µεγάλες ποσότητες δεδοµένων για πωλήσεις, µεταφορά αγαθών, κατανάλωση. Η ποσότητα των δεδοµένων αυξάνεται ραγδαία εξαιτίας της ευκολίας που προσφέρει το διαδίκτυο για κατανάλωση και αγορά αγαθών. Χρήσιµες πληροφορίες µπορεί να προκύψουν σχετικά µε την αναγνώριση των αγοραστικών συµπεριφορών των καταναλωτών, βελτίωση της ποιότητας των παρεχόµενων προς τους πελάτες υπηρεσιών, ανακάλυψη αγοραστικών τάσεων και προτύπων, βελτίωση της ικανοποίησης των πελατών και µείωση του λειτουργικού κόστους. Κύριοι άξονες της ανακάλυψης γνώσης στον τοµέα αυτό είναι η πολυδιάστατη ανάλυση των πωλήσεων, των πελατών, των προϊόντων, του χρόνου και περιοχής, η ανάλυση της αποτελεσµατικότητας των εκστρατειών πωλήσεων και ανάλυση της εµπιστοσύνης των πελατών. Στον τοµέα των τηλεπικοινωνιών που εξελίσσεται µε γοργούς ρυθµούς και προσφέρει πλήθος υπηρεσιών, όπως υπηρεσίες σταθερής και κινητής τηλεφωνίας, τηλεµυωτυ- -2-

11 Εισαγωγή πία, διαδίκτυο, υπάρχει έντονη η ανάγκη για εφαρµογή τεχνικών ανακάλυψης γνώσης ώστε να διευκολυνθεί η αναγνώριση των τηλεπικοινωνιακών προτύπων, καλύτερη χρήση των πηγών και η ανακάλυψη υποκλοπών και απάτης. Στον τοµέα ασφάλειας των δικτύων και των υπολογιστικών συστηµάτων. Η ασφάλεια των υπολογιστικών συστηµάτων και των δεδοµένων είναι σε διαρκή κίνδυνο. Η εκτεταµένη ανάπτυξη του διαδικτύου και η πληθώρα των διαθέσιµων εργαλείων και τεχνικών για καταπάτηση και επίθεση στα συστήµατα, κατέστησαν τον περιορισµό της απρόσκλητης παρείσφρησης θέµα µείζονος σηµασίας. Ως επίθεση µπορεί να θεωρηθεί ένα σύνολο ενεργειών που απειλούν την ακεραιότητα, εµπιστευτικότητα και διαθεσιµότητα των δικτυακών πηγών. Οι άξονες που µπορούν να εφαρµοστούν τεχνικές εξόρυξης γνώσης είναι η ανάπτυξη αλγορίθµων για περιορισµό των επιθέσεων και η ανάλυση των κατανεµηµένων δεδοµένων. Στον τοµέα της ανάλυσης βιολογικών δεδοµένων που τα τελευταία χρόνια γνωρίζει ιδιαίτερη ανάπτυξη. Παραδείγµατα είναι η αναγνώριση και η ανάλυση του γονιδιώµατος του ανθρώπου και άλλων οργανισµών, η αναζήτηση των γενετικών δικτύων και των πρωτεϊνών και η ανάπτυξη νέων φαρµάκων βασισµένων στο γενετικό προφίλ του κάθε ασθενούς. Συνεπώς, η εξόρυξη γνώσης στον τοµέα της βιολογίας είναι πολύ ση- µαντική και οδήγησε σε ένα νέο επιστηµονικό πεδίο που καλείται βιοπληροφορική. Η εξόρυξη γνώσης στον τοµέα της βιολογίας αναφέρεται στην εφαρµογή τεχνικών για την σηµασιολογική ολοκλήρωση ετερογενών και κατανεµηµένων βάσεων γονιδίων και πρωτεϊνών, ευθυγράµµιση, ευρετηριοποίηση και ανάλυση πρωτεϊνικών ακολουθιών, ανακάλυψη δοµικών προτύπων και ανάλυση των γενετικών δικτύων και πρωτεϊνικών µονοπατιών. Στο τοµέα της υγείας, πολλοί οργανισµοί παροχής υπηρεσιών ιατρικής περίθαλψης διατηρούν αποθηκευµένα πλήθος κλινικών, δηµογραφικών, οικονοµικών και κοινωνικοοικονοµικών δεδοµένων που αφορούν τόσο σε ασθενής όσο και στους ίδιους τους οργανισµούς. Η εφαρµογή τεχνικών εξόρυξης γνώσης µπορεί να φανεί χρήσιµη για την ανακάλυψη κρυµµένης ιατρικής γνώσης από τα δεδοµένα που διατηρούνται στους ηλεκτρονικούς ιατρικούς φακέλους των ασθενών και που µπορεί να είναι πολύτιµη για την ισχυροποίηση κάποιων ιατρικών συµπερασµάτων, αλλά και την αύξηση ήδη υπάρχουσας γνώσης. Παράλληλα, µπορεί να φανούν χρήσιµα εργαλεία για την διοικητικόοικονοµική διαχείριση τέτοιων οργανισµών. -3-

12 Κεφάλαιο 1 οµή κειµένου Το παρόν κείµενο είναι χωρισµένο σε έξι κεφάλαια. Το δεύτερο κεφάλαιο, µε τίτλο Α- νακάλυψη Γνώσης σε Βάσεις εδοµένων, παρέχει τις βασικές έννοιες σχετικά µε την κατανόηση της επιστηµονικής περιοχής που κινείται η εργασία. Αναφέρονται δηλαδή, οι έννοιες της ανακάλυψης γνώσης σε δεδοµένα και της εξόρυξης δεδοµένων, η σχέση τους µε την µηχανική µάθηση και την στατιστική, η διαδικασία της ανακάλυψης γνώσης, τα προβλήµατα που τυχόν να προκύψουν κατά την εκτέλεση της διαδικασίας, τα αποτελέσµατα της διαδικασίας καθώς και οι µέθοδοι και οι τεχνικές εξόρυξης γνώσης, αλλά και οι δοµές στις οποίες µπορούν οι προηγούµενες να εφαρµοστούν. Στο τρίτο κεφάλαιο, µε τίτλο Εργαλεία Ανακάλυψης Γνώσης, γίνεται µια παρουσίαση και σύγκριση δύο εργαλείων του Weka και του Microsoft SQL Server 2005 σχετικά µε τις δυνατότητές και τους αλγόριθµους που έχουν για την Ανακάλυψη Γνώσης σε Βάσεις εδοµένων. Στο τέταρτο κεφάλαιο, µε τίτλο Ανακάλυψη Γνώσης σε Ιατρικά εδοµένα, παρουσιάζονται και περιγράφονται τα ιατρικά δεδοµένα που αφορούν σε ασθενείς που πάσχουν από σακχαρώδη διαβήτη τα οποία αποτελούν κα τη βάση της µελέτης. Στο πέµπτο κεφάλαιο, µε τίτλο Εφαρµογή Ανακάλυψης Γνώσης, εφαρµόζονται τεχνικές και αλγόριθµοι ανακάλυψης και εξόρυξης γνώσης που κάθε εργαλείο διαθέτει και γίνεται µια σύγκριση των αποτελεσµάτων τους. Τέλος, το έκτο κεφάλαιο µε τίτλο Συµπεράσµατα, είναι ο επίλογος του κειµένου και γίνεται µια συνολική επισκόπηση όλων όσων παρουσιάστηκαν καθώς και κάποιες προτάσεις για πιθανή µελλοντική εργασία. -4-

13 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων 2 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων Η τεράστια πρόοδος της επιστήµης της πληροφορικής ενθάρρυνε την µαζική συλλογή και αποθήκευση δεδοµένων σε όλους τους τοµείς της ανθρώπινης δραστηριότητας. Η τεράστια πρόοδος των βάσεων δεδοµένων, όλων των µεγεθών και τύπων, είναι ενδεικτική της ικανότητας για συλλογή δεδοµένων, αλλά ταυτόχρονα αυξάνει την αναγκαιότητα για καλύτερες µεθόδους πρόσβασης και ανάλυσης των δεδοµένων. Η ανθρώπινη δυνατότητα για την διαχείριση των διαθέσιµων δεδοµένων µε σκοπό την ανακάλυψη νέας γνώσης δεν επαρκεί για έναν σύντοµο έλεγχο και ανάλυση, µε αποτέλεσµα να χρησιµοποιείται ένα µικρό µόνο µέρος από τα διαθέσιµα δεδοµένα. Η τεχνολογία όµως δίνει δυνατότητες µεγιστοποίησης της ωφέλειας από τα δεδοµένα µε γρήγορο και οικονοµικό τρόπο. Στην δεκαετία του 1980 εµφανίστηκε ο όρος Εξόρυξη σε εδοµένα (data mining), που χρησιµοποιήθηκε από τους στατιστικολόγους και αναλυτές των δεδοµένων και περιέγραφε την εφαρµογή αλγορίθµων για την ανεύρεση προτύπων σε συλλογές δεδοµένων. Λίγο αργότερα, το 1989, o όρος Ανακάλυψη Γνώσης σε Βάσεις εδοµένων (Knowledge Discovery in Databases) χρησιµοποιήθηκε για να αντικαταστήσει όλους τους παλιούς όρους που σκοπός τους ήταν η ανακάλυψη προτύπων και οµοιοτήτων σε δεδοµένα. Το νέο αυτό επιστηµονικό πεδίο περιέχει στοιχεία από πολλούς άλλους επιστηµονικούς κλάδους όπως την τεχνητή νοηµοσύνη, µηχανική µάθηση, στατιστική, βάσεων δεδοµένων και οπτική αναπαράσταση εννοιών. Πολύ γρήγορα υιοθετήθηκε ως πρακτική από πολλούς επιστήµονες της τεχνητής νοηµοσύνης και της µηχανικής µάθησης και χρησιµοποιήθηκε για να περιγράψει την συνολική διαδικασία εξαγωγής γνώσης από βάσεις δεδοµένων, από τον προσδιορισµό των στόχων της επιχείρησης ως την τελική ανάλυση των αποτελεσµάτων. Παράλληλα, σύµφωνα µε την θέση που υιοθετήθηκε στο Πρώτο ιεθνές Συνέδριο Ανακάλυψης Γνώσης σε Βάσεις εδοµένων, που πραγµατοποιήθηκε το 1995 στο Μόντρεαλ, ο όρος Εξόρυξη σε εδοµένα (data mining) περιορίστηκε στην περιγραφή ενός -5-

14 Κεφάλαιο 2 µόνο βήµατος της όλης διαδικασίας και πιο συγκεκριµένα αυτού της εφαρµογής των αλγορίθµων εξόρυξης. 2.1 Μηχανική Μάθηση Η Μηχανική Μάθηση (Machine Learning), εµφανίστηκε στις αρχές της δεκαετίας του 1980 και αποτελεί έναν από τους βασικούς τοµείς της Τεχνητής Νοηµοσύνης. Η έννοια της Μηχανικής Μάθησης ταυτίζεται µε την απόκτηση γνώσης και εµπειρίας σε κάποιο τοµέα. Κάθε νοήµων οντότητα µπορεί να µαθαίνει κι έτσι είτε να αποκτά επιπλέον γνώση είτε να βελτιώνει προηγούµενη γνώση. Αντίστοιχα, και ένα υπολογιστικό σύστηµα µπορεί µε αυτόµατο όµως τρόπο να µαθαίνει και να αποθηκεύει, σε καθορισµένη γλώσσα βέβαια, την γνώση αυτή για µελλοντική χρήση µε στόχο την βελτιστοποίηση της µέσω της επανάληψης. Η Μηχανική Μάθηση αποτελεί ένα επιστηµονικό πεδίο που µελετά την σχεδίαση υπολογιστικών προγραµµάτων ικανών να µαθαίνουν, δηλαδή ικανών να βελτιώνουν την απόδοση τους µέσω της αξιοποίησης προηγούµενης γνώσης και εµπειρίας. Η απόκτηση αυτής της γνώσης και εµπειρίας δεν προκύπτει έπειτα από την αλληλεπίδραση του συστήµατος µε το περιβάλλον, αλλά από ένα σύνολο κωδικοποιηµένων δεδοµένων που προέκυψαν από δειγµατοληψία στο σύνολο της βάσης δεδοµένων και αποτελούν το σύνολο των δεδοµένων εκπαίδευσης (training set). Ένας γενικός ορισµός για την Μηχανική Μάθηση είναι αυτός που δόθηκε από τον Mitchell το 1996: «Ένα πρόγραµµα υπολογιστή λέµε ότι µαθαίνει από την εµπειρία Ε ως προς κάποια κλάση εργασιών Τ και µέτρο απόδοσης Ρ, αν η απόδοση του σε εργασίες από το Τ, όπως µετριέται από το Ρ, βελτιώνεται µέσω της εµπειρίας Ε». Η Μηχανική Μάθηση µπορεί να αναχθεί και σε πρόβληµα αναζήτησης. ηλαδή, είναι η αναζήτηση σε ένα χώρο υποθέσεων εκείνης της υπόθεσης που ταιριάζει κατά τον καλύτερο τρόπο στα υπό εξέταση δεδοµένα και σε προηγούµενη γνώση, µε κύριο στόχο την δηµιουργία µοντέλων ή προτύπων από ένα σύνολο δεδοµένων από ένα υπολογιστικό σύστηµα. -6-

15 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων Η εξαγωγή πληροφορίας από τις βάσεις δεδοµένων µπορεί να γίνει µε δυο συλλογιστικές τεχνικές: την παραγωγή (deduction), όπου η πληροφορία που συµπεραίνεται είναι λογικό επακόλουθο της πληροφορίας που είναι αποθηκευµένη στην βάση δεδοµένων και την επαγωγή (induction), όπου έχει µεγαλύτερη αξία γιατί η πληροφορία είναι γενίκευση της πληροφορίας που βρίσκεται στην βάση δεδοµένων. Η τελευταία, η επαγωγική µάθηση και κατ επέκταση η µηχανική µάθηση διακρίνεται σε: Μάθηση µε επίβλεψη (supervised learning) ή µάθηση µε παραδείγµατα (learning from examples) στην οποία το σύστηµα τροφοδοτείται µε διάφορα παραδείγµατα αντικειµένων που ανήκουν σε µια κατηγορία. Το ίδιο το σύστηµα καλείται να ανακαλύψει τις κοινές ιδιότητες των αντικειµένων αυτών. Έτσι, προκύπτουν κανόνες της µορφής: Εάν «Περιγραφή» τότε «Κλάση/Κατηγορία», που χρησιµοποιούνται ως κριτήρια κατηγοριοποίησης νέων αντικειµένων σε γνωστές κλάσεις. Μάθηση χωρίς επίβλεψη (unsupervised learning) ή µάθηση από παρατήρηση, όπου το σύστηµα µόνο του, βασισµένο στις δικές του ιδιότητες καλείται να α- νακαλύψει κλάσεις/κατηγορίες αντικειµένων. Αυτό που προκύπτει είναι πλήρεις περιγραφές όλων των κλάσεων/κατηγοριών που βρέθηκαν. 2.2 Ανακάλυψη Γνώσης και Μηχανική Μάθηση Υπάρχει ισχυρή σχέση ανάµεσα στην Μηχανική Μάθηση και στην Ανακάλυψη Γνώσης σε Βάσεις εδοµένων εφόσον η δεύτερη αποτελεί µια ειδική περίπτωση της πρώτης, στην οποία όµως ο χώρος αναζήτησης γνώσης περιορίζεται σε µια βάση δεδοµένων. Σηµαντική όµως διαφορά εµφανίζεται στην ποιότητα των δεδοµένων. Στην περίπτωση της Ανακάλυψης Γνώσης σε Βάσεις εδοµένων, η αναζήτηση πραγµατοποιείται σε δυναµικές και εξελισσόµενες βάσεις δεδοµένων που έχουν δηµιουργηθεί για γενικότερους σκοπούς και συνήθως περιέχουν χιλιάδες εγγραφών µε λανθασµένα ή ελλιπή στοιχεία. Στην Μηχανική Μάθηση η βάση δεδοµένων είναι στατική, τα δεδοµένα είναι σωστά και ολοκληρωµένα, προσεχτικά συγκεντρωµένα για ένα συγκεκριµένο σκοπό. -7-

16 Κεφάλαιο 2 Σχηµατική αναπαράσταση της προαναφερθείσας σχέσης φαίνεται στην Εικόνα 2-1 που ακολουθεί: Εικόνα 2-1 Αντιστοιχία Μηχανικής Μάθησης και Αναζήτησης Γνώσης 2.3 Ανακάλυψη Γνώσης και Στατιστική Οι παραδοσιακές στατιστικές τεχνικές δεν επαρκούν για την διευθέτηση ορισµένων α- παιτητικών θεµάτων στην εξόρυξη σε δεδοµένα, ιδιαίτερα αυτών που µπορεί να προκύψουν από µαζικά σύνολα δεδοµένων. Ωστόσο όµως, διαδραµατίζουν σηµαντικό ρόλο στην εξόρυξη σε δεδοµένα και στην ανακάλυψη γνώσης. Η ύπαρξη τεράστιου πλήθους εγγραφών σε µια βάση δεδοµένων κάνει πολύ δύσκολο τον άµεσο προσδιορισµό γνώσης από τα δεδοµένα. Αυτό σηµαίνει την ανάγκη ύ- παρξης πιο περίπλοκων τεχνικών και µεθόδων που θα το επιτρέπουν, αλλά ταυτόχρονα θα συµβάλουν στην δηµιουργία γενικών µοντέλων και προτύπων από τα δεδοµένα µε κύριο άξονα πάντοτε την αποφυγή υπέρ-µοντελοποίησης. Εφόσον, η Στατιστική είναι πρωταρχικής σηµασίας στην ανακάλυψη γνώσης και στην εξόρυξη σε δεδοµένα, εύλογο είναι το ερώτηµα που προκύπτει σχετικά µε την ύ- παρξη ή όχι πραγµατικής διαφοράς ανάµεσα σε αυτά τα επιστηµονικά πεδία. Η πιο ουσιαστική διαφορά ανάµεσα στις κλασσικές στατιστικές τεχνικές και σε αυτές της εξόρυξης σε δεδοµένα για την ανακάλυψη γνώσης είναι το µέγεθος του συνόλου των δεδοµένων. Η συµβατική στατιστική ανάλυση είναι κατάλληλη για µερικές εκατοντάδες ή χιλιάδες εγγραφών σε αντίθεση µε την εξόρυξη σε δεδοµένα που οι εγγραφές µπορεί να είναι και αρκετών εκατοµµυρίων ή ακόµη και δισεκατοµµυρίων. Παράλληλα, σηµαντική διαφορά προκύπτει και κατά την ανάκτηση των δεδοµένων. Η διαδικασία της δειγµατοληψίας που εφαρµόζεται στην παραδοσιακή στατιστική γίνεται δύσκολη καθώς οι κατανεµηµένες και αποθηκευµένες σε διαφορετικές µηχανές βάσεις δεδοµένων έχουν πλέον αντικαταστήσει τα «επίπεδα» αρχεία δεδοµένων στα οποία -8-

17 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων οι γραµµές αναπαριστάνουν αντικείµενα και οι στήλες µεταβλητές. Την δύσκολη αυτή κατάσταση ενισχύει ακόµη περισσότερο και το γεγονός ότι τα σύνολα δεδοµένων είναι συνεχώς εξελισσόµενα. Μια ακόµη διαφορά είναι ότι η εξόρυξη σε δεδοµένα για την ανακάλυψη γνώσης αποτελεί µια δευτερεύουσα διαδικασία ανάλυσης δεδοµένων και αυτό γιατί τα δεδοµένα έχουν προηγούµενα συγκεντρωθεί για κάποιο άλλο σκοπό. Σε αντίθεση, η στατιστική επεξεργασία αποτελεί µια πρωτεύουσα διαδικασία ανάλυσης, δηλαδή η συγκέντρωση των δεδοµένων γίνεται µε σκοπό την ανακάλυψη συγκεκριµένης γνώσης. Από τα προηγούµενα προκύπτει επικάλυψη της εξόρυξης σε δεδοµένα για την ανακάλυψη γνώσης µε τις τεχνικές της στατιστικής µε σηµαντικές όµως διαφοροποιήσεις που προκύπτουν από το µέγεθος και την µη παραδοσιακή φύση του συνόλου των δεδο- µένων. 2.4 Ανακάλυψη Γνώσης και Εξόρυξη σε εδοµένα Η Ανακάλυψη Γνώσης σε Βάσεις εδοµένων ( Knowledge Discovery in Database) αποτελεί ένα εξελισσόµενο επιστηµονικό πεδίο που προέκυψε από τον συνδυασµό επιµέρους πεδίων και πιο συγκεκριµένα της Μηχανικής Μάθησης, της Αναγνώρισης Προτύπων, των Βάσεων εδοµένων, της Στατιστικής και των Μαθηµατικών. Αφορµή της α- νάπτυξής της αποτέλεσε η ανάγκη αναζήτησης χρήσιµης πληροφορίας από µεγάλες βάσεις δεδοµένων και η διαφοροποίησης της έγκειται στο ότι πρόκειται για µια επαναληπτική διαδικασία, η οποία χρησιµοποιεί τεχνικές και µεθόδους των παραπάνω πεδίων σε κάποιο στάδιο της. Ένας ορισµός, που περιγράφει µε ακρίβεια την έννοια της, δόθηκε από τους Frawley, Piatesky- Shapiro και Matheus το 1991: «Ανακάλυψη Γνώσης σε Βάσεις εδοµένων είναι η ντετερµινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόµων, ενδεχοµένως χρήσιµων και εν τέλει κατανοητών προτύπων στα δεδοµένα». Για να γίνει πιο κατανοητή η έννοια των όρων που συµπεριλαµβάνονται στον παραπάνω ορισµό, ακολουθεί µια σύντοµη περιγραφής τους: Τα δεδοµένα αποτελούν ένα σύνολο πραγµατικών οντοτήτων ή συσχετίσεων. Για παράδειγµα, θα µπορούσε να είναι ένα σύνολο εγγραφών των ασθενών ενός νοσοκοµείου στις οποίες υπάρχει περιγραφή κάποιων ιδιοτήτων τους (για παράδειγµα όνοµα, επώνυµο, ηµεροµηνία γέννησης και διάγνωση). -9-

18 Κεφάλαιο 2 Πρότυπα είναι µια έκφραση, σε µια συγκεκριµένη γλώσσα, που περιγράφει ένα υποσύνολο των δεδοµένων χρησιµοποιώντας τις κοινές ιδιότητες τους. Ο όρος διαδικασία υπονοεί ότι η ανακάλυψη γνώσης από βάσεις δεδοµένων είναι µια διαδικασία πολλαπλών βηµάτων, που περιλαµβάνει την προεπεξεργασία των δεδοµένων, την αναζήτηση προτύπων και την αξιολόγηση της εξαγόµενης γνώσης. Τα βήµατα αυτά επαναλαµβάνονται κατά την διάρκεια πολλαπλών επαναλήψεων. Ο όρος ντετερµινιστική αναφέρεται στο ότι η ανακάλυψη γνώσης δεν είναι ένας απλός υπολογισµός προκαθορισµένων µεγεθών, όπως για παράδειγµα υπολογισµός του µέσου όρου ενός συνόλου αριθµών, αλλά περιλαµβάνει κάποια αναζήτηση και συµπεράσµατα. Εγκυρότητα των προτύπων σηµαίνει ότι τα πρότυπα που προκύπτουν θα πρέπει να ισχύουν και είναι συνεπή και για νέα δεδοµένα, µε κάποιο βαθµό βεβαιότητας. Ενδεχοµένως χρήσιµων σηµαίνει ότι η ανακάλυψη προτύπων θα πρέπει να οδηγεί σε ορισµένες χρήσιµες διεργασίες. Η χρησιµότητα τους αξιολογείται µέσω συναρτήσεων εκτίµησης χρησιµότητας. Εν τέλει Κατανοητά σηµαίνει ότι τα νέα πρότυπα που θα προκύψουν θα πρέπει να είναι κατανοητά, αν όχι άµεσα έπειτα από µικρή επεξεργασία, ακόµη και από µη ειδικούς έτσι ώστε να µπορούν να αξιοποιηθούν εύκολα στην λήψη αποφάσεων. Ο όρος Ανακάλυψη Γνώσης σε Βάσεις εδοµένων (Knowledge Discovery in Databases) συχνά ταυτίζεται µε τον όρο Εξόρυξη σε δεδοµένα (data mining). Η Εξόρυξη εδοµένων αναφέρεται στην εκµαίευση ή εξόρυξη γνώσης από µεγάλες συλλογές δεδοµένων όπως ακριβώς γίνεται και κατά την εξόρυξη χρυσού. Ο όρος αυτός είναι κατά βάση παραπλανητικός. Σε αντιστοιχία, η εξόρυξη χρυσού από τα πετρώµατα αναφέρεται ως εξόρυξη χρυσού και όχι εξόρυξη πετρωµάτων. Λόγω αυτού, θα ήταν πιο σωστή η ονο- µασία του όρου αυτού ως εξόρυξη γνώσης από τα δεδοµένα κάτι το οποίο βέβαια δεν είναι τόσο πρακτικό λόγω του µεγέθους του όρου. Η εξόρυξη γνώσης, ένας µικρότερος όρος, θα ήταν πρακτικός ωστόσο όµως παραβλέπει την σπουδαιότητα της εξόρυξης από µεγάλες ποσότητες δεδοµένων. Ο όρος λοιπόν που υιοθετήθηκε είναι Εξόρυξη σε εδο- µένα και αναφέρεται στην εφαρµογή τεχνικών και µεθόδων ανακάλυψης γνώσης σε µεγάλες βάσεις δεδοµένων. -10-

19 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων Συνεπώς, η Ανακάλυψη Γνώσης σε Βάσεις εδοµένων αναφέρεται σε µια συνολική, πολλαπλών βηµάτων διαδικασία ανακάλυψης γνώσης από τα δεδοµένα, συµπεριλαµβανοµένου του τρόπου αποθήκευσης και ανάκαµψης των δεδοµένων, του τρόπου εφαρµογής των αλγορίθµων σε µαζικά σύνολα δεδοµένων που εξακολουθούν όµως να εκτελούνται αποδοτικά, του τρόπου ερµηνείας και οπτικοποίησης των αποτελεσµάτων και του τρόπου µοντελοποίησης της αλληλεπίδρασης ανθρώπου µηχανής. Η Εξόρυξη σε εδοµένα είναι ένα µόνο βήµα της Ανακάλυψης Γνώσης σε Βάσεις εδοµένων, που περιλαµβάνει την εφαρµογή της ανάλυσης των δεδοµένων και των αλγορίθµων που παράγουν πρότυπα ή µοντέλα για τα δεδοµένα υπό το πρίσµα αποδεκτών υπολογιστικών περιορισµών αποδοτικότητας. 2.5 Στάδια της Ανακάλυψης Γνώσης Η Ανακάλυψη Γνώσης σε Βάσεις εδοµένων είναι µια αλληλεπιδραστική και επαναληπτική διαδικασία πολλαπλών βηµάτων, κατά την διάρκεια της οποίας οι περισσότερες των αποφάσεων λαµβάνονται από τους ειδικούς. Απαραίτητη προϋπόθεση για την ανακάλυψη γνώσης είναι η κατανόηση του τοµέα πάνω στον οποίο θα εφαρµοστεί, καθώς και ο προσδιορισµός, από την πλευρά του ενδιαφερόµενου, των στόχων προς αναζήτηση, διαδικασίες διόλου απλές στην υλοποίηση. Λόγω αυτού, είναι απαραίτητη η συνεργασία ενός ειδικού στον τοµέα εξερεύνησης και του υπεύθυνου της διαδικασίας της α- νακάλυψης γνώσης για την ακριβή και µε σαφήνεια µετατροπή των σκοπών σε υλοποιήσιµες εφαρµογές εξόρυξης σε δεδοµένα. Τα βήµατα της διαδικασία φαίνονται στην Εικόνα 2-2 που ακολουθεί. Εικόνα 2-2 Στάδια Ανακάλυψης Γνώσης -11-

20 Κεφάλαιο 2 Επιλογή( Selection) Στο στάδιο αυτό επιλέγεται το σύνολο των δεδοµένων στο οποίο θα εφαρµοστεί η διαδικασία ανακάλυψης γνώσης. Πρόκειται είτε για ένα υποσύνολο µεταβλητών είτε δείγ- µα δεδοµένων. Η δηµιουργία ενός βιώσιµου συνόλου δεδοµένων είναι πρωταρχικής σηµασίας. Συνήθως, τα δεδοµένα αυτά προέρχονται από πολλές και ετερογενείς πηγές και έχουν συγκεντρωθεί για πολλούς σκοπούς πλην της ανακάλυψης γνώσης και είναι αποθηκευµένα σε δοµές (κυρίως σχεσιακές βάσεις δεδοµένων) και σε µορφές ακατάλληλες για τις µεθόδους της εξόρυξης σε δεδοµένα. Λόγω αυτού, θα πρέπει να συνδυαστούν και να αποθηκευτούν σε απλούστερες δοµές κατάλληλες για την εξόρυξη σε δεδοµένα. Προ-επεξεργασία (Pre-processing) Σκοπός του σταδίου αυτού είναι η διασφάλιση της ποιότητας των επιλεγµένων δεδοµένων. Απαλλαγµένα από θόρυβο και πλήρως κατανοητά δεδοµένα είναι απαραίτητα για επιτυχηµένη εξόρυξη σε δεδοµένα και διευκολύνουν κατά πολύ την αναζήτηση γνώσης κατά το στάδιο της εξόρυξης. Αποτελεί όµως, και ένα από τα πιο δύσκολα στάδια της όλης διαδικασίας γιατί τα περισσότερα δεδοµένα έχουν συγκεντρωθεί για σκοπούς διαφορετικούς από αυτούς της ανακάλυψης γνώσης και οδηγούν σε δεδοµένα χαµηλής ποιότητας και ακεραιότητας. Για τον λόγο αυτό, το στάδιο αυτό ξεκινά µε µια γρήγορη επισκόπηση της µορφής των δεδοµένων και κάποια µέτρηση της ποιότητας τους. Κατά το στάδιο αυτό αντιµετωπίζονται και δύο πολύ σηµαντικά προβλήµατα: η ύ- παρξη θορύβου και ελλιπών τιµών στα δεδοµένα. Θόρυβος στα δεδοµένα. Ο θόρυβος αντιπροσωπεύει την ύπαρξη τυχαίων λαθών σε τιµές χαρακτηριστικών, δηλαδή τιµών που αποκλίνουν κατά πολύ από τις αναµενόµενες αποδεκτές τιµές. Βασικά προβλήµατα που αντιµετωπίζονται και επιλύνονται είναι η ύπαρξη διπλών εγγραφών και ο προσδιορισµός πεδίων µε λανθασµένες τιµές. Οι διαφορετικές αυτές µορφές θορύβου στα δεδοµένα µπορεί να είναι αποτελέσµατα ανθρώπινων λαθών, οπότε του εντοπισµού τους έπεται είτε η διόρθωσή τους είτε η παράβλεψή των σχετικών εγγραφών ή µπορεί να είναι αποτέλεσµα της επίδρασης των αλλαγών του λειτουργικού συστήµατος στο περιβάλλον εξόρυξης σε δεδοµένα. Ελλιπείς τιµές. Οι ελλιπείς τιµές αντιπροσωπεύουν τιµές οι οποίες δεν υπάρχουν στα επιλεγµένα δεδοµένα ή περιέχουν τιµές µη έγκυρες που τα καθιστούν κενά -12-

21 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων και µπορεί να έχουν διαγραφεί κατά την φάση της απαλοιφής του θορύβου. Οι τιµές αυτές µπορεί να έχουν παραληφθεί λόγω ανθρώπινου σφάλµατος, µη διαθέσιµης πληροφορίας κατά την διάρκεια της συµπλήρωσης ή λόγω επιλογής δεδοµένων από ετερογενείς βάσεις δεδοµένων. Πολλές είναι οι τεχνικές για την αντιµετώπιση του προβλήµατος αυτού, όπως για παράδειγµα απαλοιφή εγγραφών µε ελλιπή στοιχεία, συµπλήρωση τιµών που λείπουν µε τον µέσο όρο του αντίστοιχου χαρακτηριστικού. Πολλές φορές το στάδιο αυτό ονοµάζεται και στάδιο καθαρισµού των δεδοµένων (data cleaning) και ιδεατά υλοποιείται πριν την τελική αποθήκευση των δεδοµένων σε δοµές κατάλληλες για εξόρυξη και ανακάλυψη γνώσης. Ωστόσο όµως, το βήµατα αυτό δεν θα πρέπει να θεωρείται ανεξάρτητο από τα άλλα βήµατα. Σε κάθε επανάληψη της όλης διαδικασίας µπορεί να προκύψουν νέα βελτιωµένα σύνολα δεδοµένων για επιπλέον επανάληψη που θα χρήζουν κάποιου είδους προ-επεξεργασία. Μετασχηµατισµός (Transformation) Επειδή είναι δυνατόν τα δεδοµένα να προέρχονται από διαφορετικές πηγές κρίνεται σκόπιµος ο µετασχηµατισµός τους σε µια κοινά αποδεκτή µορφή, συµβατή µε τις τεχνικές της εξόρυξης σε δεδοµένα καθώς πολλές από αυτές απαιτούν συγκεκριµένες δο- µές για τα δεδοµένα εισόδου. Οι τεχνικές ποικίλουν και ορισµένες που αξίζει να αναφερθούν είναι: Απλός µετασχηµατισµός της µορφοποίησης των δεδοµένων για παράδειγµα από δεδοµένα µε ευρωπαϊκό πρότυπο µορφοποίησης σε δεδοµένα µορφοποιηµένα µε το αµερικάνικο πρότυπο. Μείωση του αριθµού των υπό εξέταση µεταβλητών (data reduction). Κανονικοποίηση αριθµητικών χαρακτηριστικών. Μετατροπή του τύπου των δεδοµένων (data type conversion) καθώς είναι δυνατόν πολλές τεχνικές εξόρυξης σε δεδοµένα να µην επεξεργάζονται αριθµητικές ή κατηγορηµατικές τιµές. ηµιουργία νέων µεταβλητών από τον συνδυασµό άλλων ήδη υπαρχόντων µεταβλητών. Οµοιόµορφη κωδικοποίηση ποιοτικά ίδιας πληροφορίας. Επιλογή Αλγορίθµου και Εφαρµογή (Data Mining) Στο στάδιο αυτό, εφόσον προσδιορίζεται ο σκοπός της διαδικασίας ανακάλυψης γνώσης, δηλαδή η γνώση που θα αναζητηθεί, αναζητούνται οι κατάλληλες µέθοδοι εξόρυ- -13-

22 Κεφάλαιο 2 ξης σε δεδοµένα, όπως κατηγοριοποίηση και οµαδοποίηση. Τα αποτελέσµατα του βή- µατος αυτού είναι είτε πρότυπα πληροφόρησης είτε µοντέλα πρόβλεψης που θα παρουσιαστούν αναλυτικά παρακάτω. Η απόδοση και τα αποτελέσµατα κάθε µεθόδου εξόρυξης σε δεδοµένα εξαρτάται άµεσα από τα προηγούµενα βήµατα. Ερµηνεία και Αξιολόγηση Το στάδιο της ερµηνείας και της αξιολόγησης των ευρεθέντων προτύπων είναι πολύ σηµαντικό. Αν και η χρήση γραφικών απεικονίσεων για την αναπαράσταση της γνώσης είναι πολύ σηµαντική, απαραίτητα προϋπόθεση θεωρείται η συµµετοχή ενός ειδικού αναλυτή δεδοµένων. Η αξιολόγηση των ευρεθέντων προτύπων, µε κάποια µέτρα, γίνεται για τον προσδιορισµό των αληθινών προτύπων που αντιπροσωπεύουν την πραγµατική γνώση. Τα εξαγόµενα πρότυπα µπορούν να οδηγήσουν σε επανάληψη της όλης διαδικασίας ή να χρησιµοποιηθούν σε ένα σύστηµα γνώσης. Πρόκληση αποτελεί και η παρουσίαση των προτύπων αυτών µε πιστικό τρόπο και η µεγιστοποίηση της χρησιµότητας και της απόδοσης τους κατά την εφαρµογή τους σε νέα πραγµατικά δεδοµένα. Πρέπει να σηµειωθεί ότι η διαδικασία µπορεί να περιλαµβάνει συνεχείς επαναλήψεις κι έτσι πολλά βήµατα να επαναλαµβάνονται πολλές φορές ή να υπάρχουν βρόγχοι δύο διαδοχικών βηµάτων ωσότου αυτή ολοκληρωθεί επιτυχώς. Κάτι άλλο που πρέπει να τονιστεί είναι ότι τα βήµατα της διαδικασίας αυτής δεν έχουν τις ίδιες απαιτήσεις χρόνου και προσπάθειας εκτέλεσης. Υπολογίζεται ότι περίπου το 60% του συνολικού χρόνου εκτέλεσης της διαδικασίας δαπανάται στην προετοιµασία και προ-επεξεργασία των δεδοµένων και για το πραγµατικό στάδιο, αυτό της εξόρυξης δηλαδή, µόλις το 10%. 2.6 Αποτελέσµατα διαδικασίας Ανακάλυψης Γνώσης Βασικοί άξονες της διαδικασίας ανακάλυψης γνώσης είναι η εφαρµογή τεχνικών περιγραφής και πρόβλεψης σε µεγάλα σύνολα δεδοµένων. Η πρόβλεψη αποσκοπεί στην πρόβλεψη της συµπεριφοράς κάποιων µεταβλητών που στηρίζονται σε άλλες µεταβλητές, ενώ η περιγραφή αναφέρεται στην ανακάλυψη προτύπων που περιγράφουν τα δεδοµένα. Εποµένως, τα αποτελέσµατα της ανακάλυψης γνώσης είναι τα πρότυπα που διακρίνονται σε πρότυπα πληροφόρησης (information patterns) και σε πρότυπα πρόβλεψης (predictive patterns). -14-

23 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων Τα πρότυπα πληροφόρησης περιγράφουν συσχετίσεις µεταξύ δεδοµένων οι οποίες δεν είναι γνωστές στους ειδικούς του τοµέα ενδιαφέροντος. Η αξία τους στην ανακάλυψη γνώσης είναι πολύ σηµαντική, αλλά εξαρτάται σε µεγάλο βαθµό από κάποιες ε- νέργειες του ειδικού. Ορισµένα παραδείγµατα προτύπων πληροφόρησης είναι οι κανόνες συσχέτισης (association rules), τα σειριακά πρότυπα (sequential patterns) και οι οµάδες που προκύπτουν από την τεχνική της συσταδοποίησης/οµαδοποίησης (clustering). Τα πρότυπα πρόβλεψης αναφέρονται στην πρόβλεψη της τιµής µιας µεταβλητής/χαρακτηριστικού µε βάση τις τιµές άλλων µεταβλητών/χαρακτηριστικών. Την αξία των προτύπων αυτών ενισχύει το γεγονός της πρόσθετης γνώσης που µπορούν να µεταφέρουν για τις σχέσεις των µεταβλητών των δεδοµένων, πράγµα που τα µετατρέπει και σε πρότυπα πληροφόρησης. Ορισµένες διαδικασίες που χρησιµοποιούνται και δίνουν τέτοια πρότυπα είναι η κατηγοριοποίηση (classification) µε πλήθος τεχνικών και αλγορίθµων και ο εντοπισµός σχέσεων σε µεταβλητές (regression). 2.7 Εξόρυξη σε εδοµένα Ακολουθεί ανάλυση της εξόρυξης σε δεδοµένα, ενός βασικού βήµατος της διαδικασίας ανακάλυψης γνώσης Εισαγωγή Η εξόρυξη σε δεδοµένα, ως βήµα της Ανακάλυψης Γνώσης σε Βάσεις εδοµένων, στοχεύει στην ανακάλυψη µοντέλων που περιγράφουν τις µεταβλητές των δεδοµένων ή την δηµιουργία προτύπων από αυτά, δηλαδή στην δηµιουργία νέας γνώσης. Πλήθος αλγορίθµων εξόρυξης γνώσης υπάρχουν, οι οποίοι υιοθετούν πολλές τεχνικές διαφορετικών τοµέων όπως της στατιστικής, της µηχανικής µάθησης και των βάσεων δεδοµένων. Κύρια όµως διαφοροποίηση τους είναι η προσαρµογή τους και η εξέλιξη τους σε σχέση µε το µέγεθος των υπό εξέταση δεδοµένων. Οι αλγόριθµοι εξόρυξης σε δεδοµένα αποτελούνται από τα παρακάτω στοιχεία: Περιγραφή µοντέλου: Περιλαµβάνει δύο σχετικούς µε το µοντέλο παράγοντες: Λειτουργία του µοντέλου όπου προσδιορίζει τους επιδιωκόµενους στόχους κατά την διάρκεια υλοποίησης της εξόρυξης γνώσης από τα δεδοµένα. Αναπαράσταση του µοντέλου όπου προσδιορίζει την προσαρµοστικότητα του µοντέλου στην αναπαράσταση δεδοµένων, αλλά και την δυνατότητα ερµηνείας του µε απλούς και κατανοητού όρους. Περίπλοκα µοντέλα περιγράφουν καλύ- -15-

24 Κεφάλαιο 2 τερα το σύνολο των δεδοµένων, ωστόσο όµως είναι πιο δύσκολα στην κατανόηση και δηµιουργούν καταστάσεις υπέρ-µοντελοποίησης µε αποτέλεσµα την µείωση της ακρίβειας και της αξιοπιστίας τους. Αξιολόγηση του Μοντέλου. Υπολογίζεται, µε την χρήση κάποιων µεθόδων όπως της µέγιστης πιθανότητας, πόσο καλά ένα συγκεκριµένο πρότυπο (µοντέλο και παράµετροι) ικανοποιεί και ταιριάζει µε τα κριτήρια της διαδικασίας ανακάλυψης γνώσης σε βάσεις δεδοµένων. Πιο συγκεκριµένα, αφορά στην εγκυρότητα των προτύπων, στην αξιολόγηση της ακρίβειας, της χρησιµότητας και της ευκολίας κατανόησης του µοντέλου. Μέθοδος Αναζήτησης. Αφορά στον προσδιορισµό αλγορίθµων ικανών στην ανεύρεση συγκεκριµένων µοντέλων και παραµέτρων βάσει κάποιου συνόλου δεδοµένων, µιας οικογένειας µοντέλων και ενός συγκεκριµένου κριτηρίου αξιολόγησης. Υπάρχουν δύο τύποι µοντέλων αναζήτησης: Αλγόριθµοι αναζήτησης παραµέτρων όπου ο αλγόριθµος αναζητά παραµέτρους οι οποίες βελτιστοποιούν ένα κριτήριο αξιολόγησης του µοντέλου, γνωρίζοντας ένα συγκεκριµένο σύνολο καταγεγραµµένων δεδοµένων και ένα προκαθορισµένο µοντέλο αναπαράστασης. Αλγόριθµοι αναζήτησης µοντέλων όπου υπάρχει επαναληπτική διαδικασία για την επίτευξη καλύτερης αντιπροσώπευσης των δεδοµένων. Για κάθε συγκεκριµένη αναπαράσταση του µοντέλου εκτελείται η µέθοδος αναζήτησης παραµέτρων για την εκτίµηση της ποιότητας του µοντέλου Απαιτήσεις εξόρυξης σε δεδοµένα Για την επιτυχηµένη υλοποίηση της εξόρυξης σε δεδοµένα πρέπει να προσδιοριστούν οι παρακάτω απαιτήσεις που πρέπει να ληφθούν υπόψη κατά την ανάπτυξη τεχνικών και αλγορίθµων εξόρυξης σε δεδοµένα. ιαχείριση διαφορετικών τύπων δεδοµένων Χαρακτηριστικό ενός συστήµατος εξόρυξης σε δεδοµένα είναι η ικανότητα διαχείρισης διαφορετικών τύπων δεδοµένων που προκύπτουν από ετερογενείς συλλογές δεδοµένων, αλλά και σύνθετων δοµών δεδοµένων. Σε πραγµατικές συνθήκες, η ύπαρξη ενός συ- -16-

25 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων στήµατος που συνδυάζει και τις δύο απαιτήσεις είναι αδύνατη µε αποτέλεσµα την ανάπτυξη συστηµάτων συγκεκριµένων τύπων δεδοµένων και εφαρµογών. υνατότητα εξέλιξης των αλγορίθµων. υνατότητα καλής προσαρµογής των αλγορίθµων εξόρυξης σε δεδοµένα. Ακριβής παρουσίαση του περιεχοµένου της βάσης δεδοµένων έτσι ώστε να επιτευχθεί αποδεκτός χρόνος εκτέλεσης του αλγορίθµου. Χρησιµότητα, βεβαιότητα και εκφραστικότητα των αποτελεσµάτων εξόρυξης σε δεδοµένα. Ακριβής παρουσίαση του περιεχοµένου της βάσης δεδοµένων από την εξαγόµενη γνώση που προέκυψε από την εξόρυξη. Εξόρυξη γνώσης από διαφορετικές πηγές Η πρόοδος του διαδικτύου οδήγησε στην δηµιουργία µεγάλων, ετερογενών και κατανε- µηµένων βάσεων δεδοµένων που η πολυπλοκότητα και το µέγεθος τους οδήγησε στην δηµιουργία παράλληλων και κατανεµηµένων αλγορίθµων εξόρυξης. ιαλογική ανακάλυψη γνώσης πολλαπλών επιπέδων Ο κάθε χρήστης, µέσω της αλληλεπίδρασης µε το σύστηµα είναι αυτός που θέτει τα ερωτήµατα προς ανακάλυψη, οδηγεί την αναζήτηση σε µεγαλύτερο βάθος και εξετάζει την γνώση που προκύπτει από πολλές πτυχές. Προστασία και ασφάλεια των δεδοµένων. Η προστασία της ακεραιότητας και της εµπιστευτικότητας των προσωπικών στοιχείων είναι σηµαντικό ζητήµατα, ηθικής και νοµικής τάξης και πρέπει να εξασφαλίζεται κατά την επεξεργασία βάσεων δεδοµένων προσωπικών στοιχείων που αποτελούν ευαίσθητα δεδοµένα Κατηγορίες µεθόδων εξόρυξης σε δεδοµένα Οι διάφορες τεχνικές και µέθοδοι εξόρυξης σε δεδοµένα που έχουν αναπτυχθεί µπορούν να διακριθούν σε πολλές κατηγορίες βάσει των ακόλουθων κριτηρίων: -17-

26 Κεφάλαιο 2 Είδος βάσης δεδοµένων που χρησιµοποιείται. Κατηγοριοποίηση ενός συστήµατος εξόρυξης σε δεδοµένα σύµφωνα µε το είδος της βάσης στην οποία εφαρµόζεται η εξόρυξη. Ορισµένες ενδεικτικές κατηγορίες είναι σχεσιακό σύστηµα γνώσης, αντικειµενοστραφές σύστηµα γνώσης, χωροχρονικό σύστηµα γνώσης κλπ. Είδος εξαγόµενης γνώσης. Το είδος της γνώσης που προκύπτει ποικίλει από κανόνες συσχέτισης, κανόνες κατηγοριοποίησης κλπ. Είδος τεχνικών που χρησιµοποιούνται. Ορισµένες κατηγορίες συστηµάτων εξόρυξης γνώσης µε βάση τις τεχνικές εξόρυξης είναι τα αυτόνοµα συστήµατα, συστήµατα προσανατολισµένα στα δεδοµένα, διαλογικά συστήµατα κλπ. Σύµφωνα µε την µέθοδο προσέγγισης των δεδοµένων ταξινοµούνται σε συστήµατα γενικής εξόρυξης, εξόρυξη βασισµένη σε πρότυπα, στην στατιστική ή στα µαθηµατικά κλπ. 2.8 Μέθοδοι και Αλγόριθµοι Εξόρυξης Υπάρχουν διάφορες µέθοδοι που χρησιµοποιούνται για την εξόρυξη σε δεδοµένα. Οι τεχνικές αυτές όχι µόνο απαιτούν συγκεκριµένους τύπους δοµών δεδοµένων, αλλά υ- λοποιούνται και µε πολλούς διαφορετικούς αλγορίθµους. Παρακάτω παρουσιάζονται οι βασικές µέθοδοι που χρησιµοποιούνται για να προκύψουν τα δύο προϊόντα της διαδικασίας ανακάλυψης γνώσης, δηλαδή τα πρότυπα πληροφόρησης και τα πρότυπα πρόβλεψης Μέθοδοι Εξόρυξης Προτύπων Πληροφόρησης Για την παραγωγή προτύπων πληροφόρησης τρεις είναι οι δυνατές µέθοδοι : οι κανόνες συσχέτισης (association rules), οι οµάδες ( cluster) και τα ακολουθιακά πρότυπα (sequential patterns). Κανόνες Συσχέτισης (Association Rules) Το τεράστιο πλήθος των δεδοµένων που συλλέγονται και αποθηκεύονται σε µεγάλες βάσεις, αποτέλεσε αφετηρία για την αναζήτηση χρήσιµων σχέσεων που περιγράφουν συσχετίσεις µεταξύ των δεδοµένων/αντικειµένων. Αρχικά, ξεκίνησε από την διαδικασία ανάλυσης του «καλαθιού αγοράς» κατά την οποία προσδιορίζονταν οι αγοραστικές συ- -18-

27 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων νήθειες των καταναλωτών, ανακαλύπτοντας σχέσεις ανάµεσα στα διάφορα προϊόντα που τοποθετούσαν οι αγοραστές στο καλάθι τους, µε κύριο στόχο την ανάπτυξη στρατηγικών για την ενίσχυση της κατανάλωσης. Κατ αντιστοιχία, οποιοδήποτε πρόβληµα µπορεί να αναπαρασταθεί ως ένα σύνολο διαθέσιµων δεδοµένων σε ένα κατάστηµα, καθένα µε µια µεταβλητή τύπου Boolean που αναπαριστάνει την παρουσία ή την απουσία ενός αντικειµένου. Κάθε καλάθι αντιπροσωπεύεται µε ένα άνυσµα τιµών τύπου Boolean που ανατίθενται σε αυτές τις µεταβλητές. Το άνυσµα αυτό µπορεί να αναλυθεί για τον προσδιορισµό προτύπων που περιγράφουν αντικείµενα που σχετίζονται ή χρησιµοποιούνται συχνά µαζί. Τα πρότυπα αυτά αναπαριστάνονται µε την µορφή κανόνων συσχέτισης. Έτσι λοιπόν, στις αρχές της δεκαετίας του 90, η µέθοδος των κανόνων συσχέτισης άρχισε να χρησιµοποιείται σε πολλούς τοµείς και κυρίως για την υποβοήθηση της λήψης απόφασης. Οι κανόνες συσχέτισης χρησιµοποιούνται για να δείξουν «κρυµµένες» σχέσεις ανά- µεσα στα αντικείµενα ενός συνόλου. Η βάση δεδοµένων στην οποία αναζητούνται κανόνες συσχέτισης αναπαριστάνεται µε ένα σύνολο εγγραφών µε καθεµιά να αποτελείται από ένα σύνολο αντικειµένων. Αν υποθέσουµε ότι υπάρχει ένα σύνολο διακριτών αντικειµένων (items) Ι= {Ι 1, Ι 2,, Ι m } και µια βάση δοσοληψιών D={t 1,t 2,, t n } όπου κάθε δοσοληψία είναι ένα σύνολο αντικειµένων t i = {I i1,i i2,..,i ik } και I ij I, τότε ένας κανόνας συσχέτισης είναι µια έκφραση συσχέτισης της µορφής X Y όπου τα Χ,Y είναι σύνολα αντικειµένων/γνωρισµάτων (itemsets) που υπάρχουν στα υπό ανάλυση δεδοµένα και X Y=. Το πρώτο µέλος του κανόνα ονοµάζεται υπόθεση και το δεύτερο µέλος συµπέρασµα. Αξίζει να σηµειωθεί ότι οι κανόνες συσχέτισης εφαρµόζονται σε σύνολα κατηγορηµατικών δεδοµένων και όχι σε αριθµητικά δεδοµένα. Το πλήθος των δυνατών κανόνων συσχέτισης που µπορεί να προκύψουν για µια βάση δεδοµένων είναι συνήθως πολύ µεγάλο. Βέβαια, όλοι αυτοί δεν είναι χρήσιµοι, ενδιαφέροντες και σηµαντικοί. Η αξία τους συνήθως εκτιµάται µε δύο ποσοτικά µεγέθη την υποστήριξη (support) και την εµπιστοσύνη( confidence). Η υποστήριξη (support) για έναν κανόνα Χ Υ εκφράζει το ποσοστό των δοσοληψιών στην βάση που περιέχουν το XUΥ και υπολογίζεται ως ο λόγος των εγγραφών που περιέχουν το σύνολο { X 1, X N,Y} προς το σύνολο των εγγραφών. -19-

28 Κεφάλαιο 2 Είναι αντιληπτό ότι δείχνει πόσο συχνά εµφανίζονται τα σύνολο αντικειµένων του κανόνα. Η εµπιστοσύνη (confidence) για έναν κανόνα συσχέτισης X Y είναι η αναλογία του αριθµού των δοσοληψιών που περιέχουν το XUΥ προς τον αριθµό των δοσοληψιών που περιέχουν το X. Είναι αντιληπτό, ότι εκφράζει την ισχύ συνεπαγωγής του κανόνα, αλλά και την πιθανότητα ύπαρξης συγκεκριµένου itemset σε οποιαδήποτε δοσοληψία. Σε ένα κανόνα της µορφής Χ Υ, αν η υποστήριξη του συνόλου Χ είναι S(Χ) και του συνόλου {Χ, Υ } είναι S(X, Y), τότε η εµπιστοσύνη του κανόνα µπορεί να εκφραστεί σε σχέση µε την υποστήριξη ως C(X Y) = S( X UY ) S( X ) Το πρόβληµα της επιλογής κανόνων συσχέτισης ανάγεται στην επιλογή κανόνων που ικανοποιούν κάποια ελάχιστα όρια για τα µεγέθη την υποστήριξης και της εµπιστοσύνης. Η διαδικασία εξαγωγής κανόνων συσχέτισης χωρίζεται σε δύο στάδια: Εύρεση όλων των συχνών συνόλων αντικειµένων, δηλαδή αυτών που η συχνότητα εµφάνιση τους ικανοποιεί την ελάχιστη υποστήριξη. Εξαγωγή κανόνων συσχέτισης για τα συχνά σύνολα. Εξ ορισµού οι κανόνες αυτοί πρέπει να ικανοποιούν την ελάχιστη υποστήριξη και εµπιστοσύνη. Από τα παραπάνω στάδια το πιο δύσκολο είναι αυτό της εύρεσης των συχνών συνόλων αντικειµένων. Έχουν προταθεί πολλοί αλγόριθµοι για την εύρεση κανόνων συσχέτισης. Μερικοί από τους πιο σηµαντικούς αναφέρονται παρακάτω: Αλγόριθµός A priori Πρόκειται για τον πιο γνωστό αλγόριθµο δηµιουργίας κανόνων συσχέτισης που προτάθηκε από τους R.Agrawal και R. Srikant το Το όνοµα του το πήρε από το γεγονός ότι χρησιµοποιεί προηγούµενη γνώση για τις ιδιότητες των συνόλων αντικειµένων. Βασική αρχή πάνω στην οποία στηρίζεται είναι ότι αν ένα σύνολο αντικειµένων είναι συχνό τότε και τα υποσύνολα του είναι συχνά. Βασική ιδέα του είναι η δηµιουργία των υποψήφιων συχνών συνόλων (C i ) ενός συγκεκριµένου µεγέθους και έλεγχος ικανοποίησης της ελάχιστης τιµής της υποστήριξης -20-

29 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων για την εύρεση των συχνών συνόλων (L i ) που µόνο αυτά θα χρησιµοποιηθούν για το επόµενο πέρασµα. Έτσι, σε κάθε πέρασµα δηµιουργούνται υποψήφια συχνά σύνολα που στηρίζονται στα σύνολα του προηγούµενου περάσµατος. Η διαδικασία επαναλαµβάνεται έως ένα συγκεκριµένο επίπεδο βάθους ή µέχρι να βρεθούν τα µέγιστα συχνά σύνολα. Το πλήθος των προσπελάσεων του συνόλου δεδοµένων είναι ίσο µε το πλήθος των διαφορετικών γνωρισµάτων (item). Μόνο στο πρώτο βήµα υπάρχει το στάδιο της ένωσης (join step) και του ξεκαθαρίσµατος (prune step). Μετά την δηµιουργία των συχνών συνόλων, η επιλογή των κανόνων συσχέτισης βασίζεται στον υπολογισµό της εµπιστοσύνης των συχνών συνόλων και στην επιλογή αυτών που η τιµή της ξεπερνά το όριο που έχει τεθεί. Βέβαια πολλές είναι οι παραλλαγές του αλγορίθµου αυτού για βελτίωση της απόδοσής του: Τεχνική κατακερµατισµού (Hash based Technique) που χρησιµοποιείται για τον περιορισµό του µεγέθους των υποψήφιων συνόλων. Περιορισµός δοσοληψιών (Transaction Reduction) για τον περιορισµό του πλήθους των δοσοληψιών για επόµενο έλεγχο. Βασίζεται στην ιδέα ότι µια δοσοληψία που δεν έχει συχνά σύνολα µεγέθους k δεν έχει συχνά σύνολα µεγέθους k+1 κι έτσι µπορεί να παραλειφθεί. Τµηµατοποίηση (Partitioning). Στην τεχνική αυτή δύο είναι οι απαραίτητες προσπελάσεις στο σύνολο δεδοµένων για τον εντοπισµό των συχνών συνόλων. Α- ποτελείται από δύο φάσεις: στην πρώτη φάση γίνεται διαχωρισµός του συνόλου των δοσοληψιών σε µη επικαλυπτόµενα τµήµατα. Το όριο υποστήριξης υπολογίζεται ως γινόµενο του αρχικού ορίου υποστήριξης επί τον αριθµό των δοσοληψιών του τµήµατος και έπειτα υπολογίζονται τα νέα τοπικά συχνά σύνολα. Η συλλογή των συχνών συνόλων όλων τµηµάτων δηµιουργεί το σύνολο των υποψήφιων συχνών συνόλων για το σύνολο των δεδοµένων. Στην δεύτερη φάση πραγµατοποιείται ένας δεύτερος έλεγχος στο σύνολο των δεδοµένων για τον υπολογισµό της πραγµατικής υποστήριξης για κάθε υποψήφιο συχνό σύνολο. ειγµατοληψία (Sampling). Στηρίζεται στην ιδέα της επιλογής ενός τυχαίου δείγµατος από το σύνολο των δεδοµένων και στην αναζήτηση κανόνων συσχέτισης σε αυτό. υναµικός Υπολογισµός (Dynamic itemset counting). Στην παραλλαγή αυτή νέα υποψήφια σύνολα µπορούν να προστεθούν σε οποιοδήποτε σηµείο της διαδικασίας σε αντίθεση µε τον παραδοσιακό αλγόριθµο A priori που ο προσδιορισµός -21-

30 Κεφάλαιο 2 νέων υποψήφιων συνόλων γίνεται µετά από την ολοκλήρωση του ελέγχου στην βάση. Αλγόριθµος FP-Growth (Frequent Pattern Growth) Βασικό µειονέκτηµα του αλγορίθµου A priori είναι η συνεχής δηµιουργία υποψήφιων συνόλων και οι επαναλαµβανόµενες προσπελάσεις στο σύνολο των δεδοµένων. Ο αλγόριθµος FP-Growth υιοθετεί την στρατηγική του «διαίρει και βασίλευε» και βρίσκει τα µέγιστα συχνά σύνολα σε λίγα µόνο περάσµατα. Αρχικά, αναπαριστά τα αντικείµενα του συνόλου δεδοµένων σε µια δενδροειδή δοµή, η οποία διατηρεί πληροφορίες για τις συσχετίσεις των αντικειµένων κι έπειτα διαιρεί το σύνολο των δεδοµένων σε µικρότερα σύνολα καθένα από τα οποία σχετίζεται µε ένα µόνο συχνό αντικείµενο και αναζητά συσχετίσεις σε κάθε σύνολο χωριστά. Ακολουθιακά πρότυπα (Sequential Patterns) Τα ακολουθιακά πρότυπα που αποτελούν εξέλιξη των κανόνων συσχέτισης, χρησιµοποιήθηκαν για πρώτη φορά για την µελέτη της σειράς αγοράς των προϊόντων από τους καταναλωτές. Στόχος είναι η εξόρυξη των σχετικών µε τον χρόνο ή άλλων ακολουθιών προτύπων. Το πρόβληµα αυτό µπορεί να οριστεί ως εξής: Για µια δοσµένη συµβολοσειρά S, αναζητούνται πρότυπα της µορφής X Y όπου Χ, Υ είναι υπό-συµβολοσειρές, τέτοιες ώστε η συχνότητα εµφάνισής τους να είναι µεγαλύτερη από την ελάχιστη εµπιστοσύνη που είχε αρχικά προσδιοριστεί. Ένα παράδειγµα ακολουθιακού προτύπου είναι το «Κατά πόσο ένας πελάτης που αγόρασε µια ψηφιακή φωτογραφική µηχανή, θα αγοράσει και έναν εκτυπωτή µέσα στον επόµενο µήνα». Μπορούν να χρησιµοποιηθούν κυρίως για την προώθηση των προϊόντων, την τοποθέτησή τους στα ράφια των καταστηµάτων, στο διαδίκτυο, στην πρόβλεψη του καιρού. Τρεις είναι οι βασικοί αλγόριθµοι για τον προσδιορισµό ακολουθιακών προτύπων που όλοι άµεσα ή έµµεσα εξετάζουν την a priori ιδιότητα σύµφωνα µε την οποία καθε- µιά µη κενή υπό-συµβολοσειρά ενός ακολουθιακού προτύπου είναι ακολουθιακό πρότυπο. Στο αλγόριθµο GSP αναζητούνται και ελέγχονται υποψήφια ακολουθιακά πρότυπα οριζόντιας µορφής αποθήκευσης των εγγραφών της µορφής <ID_Ακολουθίας: ακολουθία αντικειµένων>. Ο αλγόριθµος SPADE είναι παρόµοιος µε τον αλγόριθµο GSP µε την µόνη διαφορά της κατακόρυφης αποθήκευσης των δεδοµένων στην οποία κάθε -22-

31 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων αντικείµενο αναπαριστάνεται ως <αντικείµενο: ID_Ακολουθίας, ID_εγγραφής>. Τέλος, στον αλγόριθµο PrefixSpan που προέρχεται από τον αλγόριθµο FP-Growth δεν υπάρχει δηµιουργία συνόλων υποψήφιων υπό-συµβολοσειρών. Συσταδοποίηση - Οµαδοποίηση (Clustering) Μια συχνά χρησιµοποιούµενη µέθοδος εξόρυξης σε δεδοµένα είναι η συσταδοποίηση/οµαδοποίηση. Αναφέρεται στην δηµιουργία οµάδων όµοιων αντικειµένων από σύνολα αντικειµένων, έτσι ώστε στοιχεία που ανήκουν σε µια οµάδα να είναι περισσότερα όµοια µεταξύ τους από ότι µε στοιχεία άλλων οµάδων. Ο όρος αυτός είναι ταυτόσηµος µε τον όρο της τµηµατοποίησης µιας συλλογής δεδοµένων σε οµάδες, βάσει της οµοιότητάς τους, οι οποίες την περιγράφουν πλήρως. Σηµαντική όµως διαφορά υπάρχει ανάµεσα στους όρους οµαδοποίηση και κατηγοριοποίηση. Στην οµαδοποίηση, οι αρχικές κατηγορίες/κλάσεις δεν είναι προκαθορισµένες, αλλά προσδιορίζονται κατά την διάρκεια της διαδικασίας. Αντίθετα, στην κατηγοριοποίηση κάθε τιµή του συνόλου των δεδοµένων ανατίθεται σε µια από τις εκ των προτέρων γνωστές κατηγορίες. Η διαδικασία δηµιουργίας οµάδων δεν είναι σταθερή και προβλέψιµη καθώς πολλές οµάδες µπορούν να προκύψουν ανάλογα µε το κριτήριο οµαδοποίησης. Αποτελεί όµως µια διαδικασία πολλαπλών βηµάτων, παρόµοιων µε αυτά της ανακάλυψης γνώσης σε βάσεις δεδοµένων: Επιλογή χαρακτηριστικών γνωρισµάτων οµαδοποίησης. Αλγόριθµος οµαδοποίησης που εξαρτάται από το µέτρο γειτνίασης (proximity measures) που είναι το µέτρο της οµοιότητας δύο αντικειµένων και από το κριτήριο οµαδοποίησης. Επικύρωση αποτελεσµάτων προσδιορίζοντας τον βαθµό ακρίβειάς τους. Ερµηνεία αποτελεσµάτων και ενσωµάτωσή τους σε προηγούµενη γνώση για την παραγωγή ισχυρών συµπερασµάτων. Μερικές από τις εργασίες στις οποίες χρησιµοποιείται η οµαδοποίηση είναι για τον περιορισµό των δεδοµένων στις οµάδες µε το µεγαλύτερο ενδιαφέρον, την δηµιουργία και τον έλεγχο της εγκυρότητας µιας υπόθεσης και για πρόβλεψη. -23-

32 Κεφάλαιο 2 Αλγόριθµοι οµαδοποίησης Οι αλγόριθµοι οµαδοποίησης µπορούν να διακριθούν σε διάφορες κατηγορίες βάσει τριών κριτηρίων: Τον τύπο των δεδοµένων προς επεξεργασία. Την θεωρία των τεχνικών ανάλυσης οµάδας. Την µέθοδο καθορισµού οµάδων. Στην πρώτη περίπτωση, µε κριτήριο τον τύπο των δεδοµένων υπάρχει: Οµαδοποίηση αριθµητικών δεδοµένων. Εννοιολογική οµαδοποίηση για δεδοµένα τύπου κειµένου. Στην δεύτερη περίπτωση, η δηµιουργία οµάδων στηρίζεται στον τρόπο διαχείρισης της αβεβαιότητας από την πλευρά της επικάλυψης των οµάδων. Στην τρίτη περίπτωση, µε κριτήριο την µέθοδο δηµιουργίας οµάδων υπάρχουν οι παρακάτω κατηγορίες αλγορίθµων: ιαιρετική οµαδοποίηση (Partitional Clustering) όπου το σύνολο των δεδοµένων αποσυντίθεται σε οµάδες δεδοµένων που ικανοποιούν τους παρακάτω περιορισµούς: κάθε οµάδα θα πρέπει να περιέχει ένα τουλάχιστον αντικείµενο και κάθε αντικείµενο µπορεί να ανήκει σε µια µόνο οµάδα. Γενικό κριτήριο είναι η µεγιστοποίηση της ανο- µοιότητας µεταξύ διαφορετικών οµάδων και η ελαχιστοποίηση της ανοµοιότητας ανά- µεσα σε αντικείµενα ίδιας οµάδας. Κύριος αλγόριθµος υλοποίησης αυτού του τύπου οµαδοποίησης είναι ο αλγόριθµος των Κ-µέσων (k-means) µε βασική του ιδέα τον διαχωρισµό ενός συνόλου δεδοµένων σε ένα προκαθορισµένο σύνολο Κ οµάδων. Η συνάρτηση οµοιότητας που προσπαθεί να ελαχιστοποιήσει είναι η µέση τετραγωνική απόσταση των δεδοµένων από το κέντρο των οµάδων. Ο αλγόριθµος ξεκινά µε την επιλογή Κ τυχαίων σηµείων ως κέντρα των οµάδων. Έπειτα, κάθε στοιχείο του συνόλου ανατίθεται στην οµάδα της οποίας το κέντρο είναι πιο κοντά και υπολογίζει ξανά τα νέα κέντρα των οµάδων µε την χρήση του µέσου όρου των σηµείων. Η διαδικασία επαναλαµβάνεται ώσπου διακοπεί η αλλαγή των κέντρων των οµάδων, ενώ ο αριθµός των οµάδων που θα προκύψουν είναι καθορισµένος. Παραλλαγές αυτού αποτελούν ο αλγόριθµος ISODATA στον οποίο αναζητείται ο καλύτερος αριθµός οµάδων µε βάση κάποιο κόστος εκτέλεσης, ο αλγόριθµος Fuzzy C- means που επεκτείνει τον κλασσικό αλγόριθµο των K-µέσων µε την χρήση της θεωρία -24-

33 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων της ασαφούς λογικής. Για την διαχείριση µεγάλων συνόλων δεδοµένων χρησιµοποιούνται οι αλγόριθµοι PAM (Partition Around Medoids) και ο CLARA( Clustering Large Applications). Ιεραρχική Οµαδοποίηση (Hierarchical Clustering). Η µέθοδος αυτή δηµιουργεί διαδοχική ιεραρχική αποσύνθεση ενός συνόλου δεδοµένων σε οµάδες. Το τελικό αποτέλεσµα είναι ένα δένδρο από οµάδες που ονοµάζεται δενδρόγραµµα, το οποίο παρουσιάζει τον τρόπο διασύνδεσης των οµάδων. Υπάρχουν δύο µέθοδοι δηµιουργίας των οµάδων: Η συσωρευτική µέθοδος (agglomerative method), η οποία παράγει µια ακολουθία οµάδων µε µείωση του αριθµού τους σε κάθε βήµα. Η διαδικασία ξεκινά µε όλα τα αντικείµενα να αποτελούν διαφορετική οµάδα και συνεχίζει µε την συγχώνευση των δύο κοντινότερων οµάδων ώσπου να δηµιουργηθεί µια µόνο οµάδα ή µέχρι συγκεκριµένη επανάληψη. Η διαιρετική µέθοδος (divisive method), η οποία παράγει µια ακολουθία οµάδων που αυξάνει τον αριθµό των οµάδων σε κάθε βήµα. Αρχικά, τα αντικείµενα βρίσκονται σε µια µόνο οµάδα και σε κάθε επανάληψη γίνεται διαχωρισµός σε µικρότερες οµάδες ώσπου κάθε αντικείµενο να αποτελέσει διαφορετικό σύνολο ή µέχρι µια συνθήκη τερµατισµού. Βασικό µειονέκτηµα της µεθόδου αυτής είναι η αδυναµία ανάκλησης κάποιου υλοποιηµένου βήµατος. Οµαδοποίηση βασισµένη στην πυκνότητα (Density based clustering). Σύµφωνα µε την µέθοδο αυτή γειτονικά αντικείµενα ενός συνόλου δεδοµένων οργανώνονται σε οµάδες σύµφωνα µε κάποια κριτήρια πιθανότητας, σε αντίθεση µε τις παραδοσιακές µεθόδους που η δηµιουργία οµάδων στηρίζεται στην απόσταση µεταξύ των αντικειµένων. Βασική ιδέα είναι η αναζήτηση του µεγέθους µιας οµάδας µέχρι ω- σότου η πυκνότητα των γειτονικών στοιχείων ξεπεράσει κάποιο κατώφλι. Ο πιο γνωστός αλγόριθµος αυτής της κατηγορίας είναι ο DBScan και οι παραλλαγές του, o OPTICS και ο DENCLUE. Οµαδοποίηση βασισµένη σε πλέγµα (Grid based Clustering). Η µέθοδος αυτή εφαρµόζεται µόνο σε χωρικά δεδοµένα. Ποσοτικοποιούν το διάστηµα σε ένα περασµένο σύνολο κελιών που σχηµατίζουν ένα πλέγµα και εκτελούν όλες τις διαδικασίες σε κάθε κελί χωριστά περιορίζοντας έτσι τον χρόνο επεξεργασίας. Οµαδοποίηση υπό-χώρων (Subspace clustering). Αναζητά υποσύνολα αρχικών χώρων όπου προσφέρουν «καλύτερα» αποτελέσµατα οµαδοποίησης βάσει της πυκνότητας. Ο πιο γνωστός αλγόριθµος της κατηγορίας αυτής είναι ο CLIQUE, ο ο- -25-

34 Κεφάλαιο 2 ποίος ανακαλύπτει πυκνές περιοχές προχωρώντας από υπό-χώρους χαµηλότερης διάστασης σε υπό-χώρους υψηλότερης διάστασης Μέθοδοι Εξόρυξης Προτύπων Πρόβλεψης Για την δηµιουργία των προτύπων πρόβλεψης χρησιµοποιούνται οι µέθοδοι των εµπειρικών σχέσεων µεταξύ των µεταβλητών (regression) και η κατηγοριοποίηση (classification). Εµπειρική σχέση µεταβλητών (Regression) Αναφέρεται στην αναζήτηση µοντέλων πρόβλεψης για χαρακτηριστικά που επιδέχονται µόνο αριθµητικές τιµές. Η παλινδρόµηση είναι η βασική στατιστική µεθοδολογία πρόβλεψης αριθµητικών τιµών στην οποία στηρίζεται. Επιδιώκεται η µοντελοποίηση της σχέσης ανάµεσα σε µια ή περισσότερες ανεξάρτητες µεταβλητές (predictor variables) και σε µια εξαρτηµένη µεταβλητή (response variable). ύο βασικές µέθοδοι παλινδρό- µησης χρησιµοποιούνται: Γραµµική Παλινδρόµηση (Linear Regression) κατά την οποία η τιµή της εξαρτηµένης µεταβλητής µοντελοποιείται µε µια απλή γραµµική εξίσωση αναδεικνύοντας έτσι την γραµµική σχέση που υπάρχει ανάµεσα στα δεδοµένα εισόδου και στα δεδοµένα εξόδου. Μη Γραµµική Παλινδρόµηση (Non-Linear regression) όπου η µέθοδος µοντελοποίησης είναι µη γραµµική, έτσι ώστε να υπάρχει πιο ακριβής περιγραφή των δεδοµένων. Σε αυτή την κατηγορία χρησιµοποιούνται κατά κύριο λόγο τα νευρωνικά δίκτυα. Είναι συστήµατα επεξεργασίας δεδοµένων που αποτελούνται από νευρώνες συνδεδεµένους µεταξύ τους µε τρόπους παρόµοιους µε αυτούς των νευρώνων του ανθρώπινου εγκεφάλου. Προβλέπουν την τιµή µιας µεταβλητής και για πιο αξιόπιστα αποτελέσµατα είναι δυνατή η εκπαίδευση τους µε παλαιότερα δεδοµένα. Κατηγοριοποίηση (Classification) Αποτελεί την πιο δηµοφιλή µέθοδο εξόρυξης σε δεδοµένα. Κύριος σκοπός της είναι η αντιστοίχηση ενός στοιχείου σε ένα προκαθορισµένο σύνολο µη επικαλυπτόµενων -26-

35 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων κλάσεων. Στην κατηγοριοποίηση καθένα στοιχείο µπορεί να ανατεθεί αποκλειστικά και µόνο σε µια κλάση. Πρόκειται για µια διαδικασία δύο βηµάτων: Εκµάθηση (Learning): Στο στάδιο αυτό δηµιουργείται ένα µοντέλο µε την χρήση του συνόλου των δεδοµένων εκπαίδευσης που δηµιουργείται µε τυχαία δειγµατοληψία. Κατηγοριοποίηση (Classification): Πρώτη εργασία του σταδίου αυτού είναι η εκτίµηση της ακρίβειας του µοντέλου που προέκυψε. Για την αποφυγή της υ- πέρ-µοντελοποίησης χρησιµοποιείται για τον έλεγχο ένα σύνολο δεδοµένων α- ξιολόγησης διαφορετικό από το σύνολο των δεδοµένων εκπαίδευσης. Την αποδοχή του µοντέλου ακολουθεί η χρήση του για την κατηγοριοποίηση των πραγ- µατικών δεδοµένων. Μερικές από τις πιο γνωστές τεχνικές κατηγοριοποίησης είναι η µάθηση εννοιών, τα δένδρα ταξινόµησης ή απόφασης, η µάθηση κατά Bayes, η µάθηση κατά περίπτωση. Μάθηση εννοιών (Concept Learning). Στην τεχνική αυτή ένα υπολογιστικό σύστηµα τροφοδοτείται µε παραδείγµατα που ανήκουν ή δεν ανήκουν σε µια έννοια και έτσι δη- µιουργείται µια γενικευµένη περιγραφή της έννοιας αυτής έτσι ώστε νέες περιπτώσεις να αξιολογούνται. Ο κυριότερος αλγόριθµος υλοποίησης αυτής της τεχνικής είναι ο αλγόριθµος απαλοιφής υποψηφίων κατά τον οποίο γίνεται περιορισµός του χώρου αναζήτησης µέσω γενικεύσεων και εξειδικεύσεων για κάποιες έννοιες σύµφωνα µε τα δεδο- µένα εκπαίδευσης. Υπάρχουν δύο σύνολα που περιγράφουν τον χώρο αναζήτησης: το G όπου είναι το σύνολο των πιο γενικών υποψήφιων περιγραφών και το S που είναι το σύνολο των πιο εξειδικευµένων υποψηφίων περιγραφών. Η διαδικασία του αλγορίθµου αυτού συνίσταται στην συρρίκνωση του συνόλου G µέσω εξειδικεύσεων και επέκταση του συνόλου S µέσω γενικεύσεων ώσπου να υπάρχει ταύτιση των δύο συνόλων για την απόλυτη περιγραφή των δεδοµένων εκπαίδευσης. Βέβαια ανά πάσα στιγµή της διαδικασίας υπάρχει αποδεκτή περιγραφή λόγω σταδιακής χρήσης των δεδοµένων εκπαίδευσης. Μάθηση κατά περίπτωση (Instance based Learning). Πρόκειται για περίπτωση αναβλητικής µάθησης κατά την οποία η µάθηση αναβάλλεται ώσπου εµφανιστεί µια νέα περίπτωση. Μόλις συµβεί κάτι τέτοιο, εξετάζεται η σχέση της µε τα ήδη αποθηκευµένα -27-

36 Κεφάλαιο 2 δεδοµένα και ακολουθεί η κατηγοριοποίηση της. Ο πιο γνωστός αλγόριθµος υλοποίησης της τεχνικής αυτής είναι ο αλγόριθµος των κ-κοντινότερων γειτόνων (k nearest neighbors) στον οποίο τα διάφορα παραδείγµατα θεωρούνται ως σηµεία στον χώρο και για κάθε νέα περίπτωση υπολογίζεται η απόσταση της από τα σηµεία του συνόλου δεδοµένων εκπαίδευσης, ενώ κατηγοριοποιείται χρησιµοποιώντας την πλειοψηφία των κατηγοριών των κ- κοντινότερων γειτονικών παραδειγµάτων. Μάθηση κατά Bayes. Στην µάθηση κατά Bayes δύο από τις βασικές δραστηριότητες είναι η διαχείριση των αλγορίθµων πιθανότητας και η αξιολόγηση της απόδοσης άλλων αλγορίθµων που δεν διαχειρίζονται πιθανότητες. Στόχος είναι η κατηγοριοποίηση ενός δείγµατος δεδοµένων σε µια κατηγορία από ένα σύνολο γνωστών και δεδοµένων κατηγοριών, χρησιµοποιώντας ένα µοντέλο πιθανότητας που ορίζεται σύµφωνα µε την θεωρία Bayes. Κάθε παράδειγµα εκπαίδευσης µπορεί να αυξήσει ή να µειώσει την πιθανότητα ορθότητας µιας υπόθεσης. Βασικό µειονέκτηµα της µεθόδου αυτής είναι η απαίτηση γνώσης πολλών τιµών συζευγµένων ή µη συζευγµένων πιθανοτήτων που προκύπτουν από παλαιότερες µετρήσεις ή από εµπειρική σχέση, γεγονός που µειώνει την αξιοπιστία τους. Ο απλούστερος Bayesian κατηγοριοποιητής είναι γνωστός ως naive Bayesian κατηγοριοποιητής και βασίζεται στην υπόθεση της υπό συνθήκη ανεξαρτησίας κατηγορίας σύµφωνα µε την οποία η επίδραση ενός γνωρίσµατος σε µια δεδοµένη κατηγορία είναι ανεξάρτητη από τις τιµές άλλων γνωρισµάτων. Ένας άλλος κατηγοριοποιητής είναι ο Bayesian Belief Network που αποτελεί γραφικό µοντέλο το οποίο επιτρέπει την παρουσίαση των εξαρτήσεων µεταξύ υποσυνόλων των γνωρισµάτων. ένδρα ταξινόµησης ή απόφασης (Decision Trees). Πρόκειται για δενδροειδείς δοµές που περιγράφουν µε γραφικό τρόπο συσχετίσεις ανάµεσα σε δεδοµένα εκπαίδευσης τα οποία αποτελούν βάση για τον σχεδιασµό των δοµών και είναι γνωστά στο σύνολο τους κατά την έναρξη της διαδικασίας. Σε κάθε κόµβο του δένδρου ταξινόµησης πραγµατοποιείται έλεγχος ενός γνωρίσµατος και σε κάθε κλαδί που κατεβαίνει από τον κόµβο αντιστοιχεί µια από τις πιθανές τιµές του γνωρίσµατος. Κάθε φύλλο αντιστοιχεί σε µια από τις κατηγορίες που έχουν οριστεί. Σε περίπτωση κατηγοριοποίησης µιας νέας κατάστασης η διαδικασία έχει ως εξής: ξεκινώντας από την ρίζα του δένδρου και ελέγχο- -28-

37 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων ντας τα γνωρίσµατα που προσδιορίζονται από τον κόµβο αυτό, προσδιορίζονται όλοι οι εσωτερικοί κόµβοι που θα προσπελαστούν ώσπου να καταλήξει η διαδικασία σε ένα φύλλο. Το δείγµα ανήκει στην κατηγορία του τελικού κόµβου που ανήκει σε φύλλο του δένδρου. Τα δένδρα ταξινόµησης, τα οποία µπορούν να εκφραστούν και σαν ένα σύνολο κανόνων IF- THEN, είναι πολύ δηµοφιλή εξαιτίας της απλότητας υλοποίησης τους. Έχουν αναπτυχθεί πολλοί αλγόριθµοι για την υλοποίηση των δένδρων ταξινόµησης και σε περισσότερους από αυτούς υπάρχουν δύο φάσεις: Η φάση της οικοδόµησης (building phase) όπου µετά από αλλεπάλληλους διαχωρισµούς των δεδοµένων εκπαίδευσης δηµιουργείται το δένδρο ταξινόµησης που κατηγοριοποιεί κάθε στοιχείο του συνόλου. Η φάση της περικοπής (pruning phase) όπου οι κόµβοι περικόπτονται για µεγαλύτερη ακρίβεια και αποφυγή επικαλύψεων. Η διαφοροποίηση των αλγορίθµων έγκειται στην επιλογή κριτηρίων ελέγχου για την κατηγοριοποίηση του συνόλου δεδοµένων. Ο αλγόριθµος ID3 που είναι γνωστός και ως αλγόριθµος κατασκευής δένδρων απόφασης µε επαγωγή είναι αναδροµικός και τα βασικά βήµατα του είναι: Εύρεση της ανεξάρτητης µεταβλητής, η οποία αν χρησιµοποιηθεί ως κριτήριο διαχωρισµού θα οδηγήσει σε κόµβους κατά το δυνατόν διαφορετικούς σε σχέση µε την εξαρτηµένη µεταβλητή. ιαχωρισµός. Επανάληψη διαδικασίας µέχρι να µην είναι δυνατός παραπέρα διαχωρισµός. Το κριτήριο διαχωρισµού στηρίζεται σε µια στατιστική ιδιότητα το κέρδος της πληροφορίας (information gain) και στην εντροπία της πληροφορίας (entropy). Η εντροπία της πληροφορίας µετρά την ανοµοιογένεια του συνόλου δεδοµένων ως προς την εξαρτηµένη µεταβλητή. Το κέρδος της πληροφορίας µετρά την µείωση της εντροπίας αν χρησιµοποιηθεί ως παράµετρος διαχωρισµού η ανεξάρτητη µεταβλητή. Οι αλγόριθµοι C4.5 και C5.0 αποτελούν βελτιώσεις του αλγορίθµου ID3 και µπορούν να εφαρµοστούν σε προβλήµατα που τα χαρακτηριστικά έχουν συνεχείς τιµές. Ο αλγόριθµος CART (Classification and Regression Trees) δηµιουργεί δυαδικά δένδρα αναζήτησης και χρησιµοποιεί την εντροπία ως κριτήριο διαχωρισµού του συνόλου δεδοµένων. -29-

38 Κεφάλαιο 2 Ο αλγόριθµος CLS εξετάζει όλα τα δυνατά δένδρα αποφάσεων σε ένα συγκεκριµένο βάθος και επιλέγει ως κριτήριο ελέγχου αυτό που ελαχιστοποιεί το υπολογιστικό κόστος κατηγοριοποίησης ενός στοιχείου. Τέλος, ο αλγόριθµος SLIQ δηµιουργεί ένα δένδρο απόφασης µε µια µέθοδο η οποία λαµβάνει υπόψη της, κατά την διάρκεια εκτέλεσή της, µια λίστα προκατηγοριοποιηµένων γνωρισµάτων. 2.9 Προβλήµατα στην Ανακάλυψη Γνώσης Η διαδικασία της ανακάλυψης γνώσης στηρίζεται στην ύπαρξη δεδοµένων εισόδου που συνήθως προέρχονται από πολλές και ετερογενείς βάσεις δεδοµένων. Πολλά είναι τα προβλήµατα που προκύπτουν κατά την εξέλιξη της διαδικασίας αυτής και κυρίως προέρχονται από την δυναµική τους φύση, την ποιότητα και την επάρκεια των δεδοµένων που αυτές προσφέρουν. Περιορισµένη πληροφορία Οι βάσεις δεδοµένων δηµιουργούνται για σκοπούς διαφορετικούς από αυτούς της ανακάλυψης γνώσης. Έτσι, η διαδικασία αυτή γίνεται ολοένα και πιο δύσκολη εξαιτίας της απουσίας των κατάλληλων ιδιοτήτων και πεδίων, τα οποία µάλιστα δεν µπορούν να ε- ντοπιστούν σε τυχόν αναζήτηση από τους χρήστες. Για την αντιµετώπιση του προβλή- µατος αυτού υπάρχουν δύο τρόποι: ηµιουργία κανόνων περιγραφής των κατηγοριών για τις οποίες όλα τα δεδοµένα είναι γνωστά (deterministic rules), µε βασικό κίνδυνο την πιθανότητα µη ανακάλυψης σηµαντικής κρυµµένης γνώσης και Κατασκευή κανόνων κατηγοριοποίησης των αντικειµένων µε κάποια συνάρτηση πιθανότητας (probabilistic rules). Αραιά δεδοµένα Στην αναζήτηση γνώσης σε δεδοµένα, ο χώρος αναζήτησης προσδιορίζεται από την ένωση όλων των συνόλων που ορίζονται τα πεδία. Πολλές φορές είναι πιθανό να υπάρχουν εγγραφές που καλύπτουν µόνο ένα µικρό µέρος του χώρου αναζήτησης. Έτσι λοιπόν, η αναζήτηση γνώσης δεν µπορεί να ολοκληρωθεί µε επιτυχία οποιαδήποτε µέθοδος εξόρυξης σε δεδοµένα και αν εφαρµοστεί. Για παράδειγµα, κατά την οµαδοποίηση -30-

39 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων δεν µπορούν να προσδιοριστούν τα όρια µιας κατηγορίας/κλάσης µε την ύπαρξη µόνο εγγραφών που ανήκουν ή όχι στην κατηγορία. είγµατα Η ύπαρξη τεράστιου αριθµού εγγραφών σε µια βάση, αλλά και η απαίτηση σε πολλούς αλγορίθµους, για λόγους απόδοσης, ταυτόχρονης ύπαρξης των δεδοµένων σε πεπερασµένη όµως µνήµη, καθιστούν υποχρεωτική την λήψη δείγµατος από τα σύνολα των δεδοµένων και την εφαρµογή των τεχνικών εξόρυξης σε αυτό. Η λήψη δείγµατος από τα δεδοµένα για την εξαγωγή γνώσης χρήζει ιδιαίτερης προσοχής µε εφαρµογή στατιστικών µεθόδων, έτσι ώστε να υπάρχει ορθή αντιπροσώπευση της αρχικής βάσης δεδο- µένων. Θόρυβος Η ύπαρξη λαθών στις τιµές των χαρακτηριστικών ή στις πληροφορίες των κλάσεων, δηλαδή η ύπαρξη θορύβου στα δεδοµένα, αντιµετωπίζεται συχνά και µπορεί να προέλθει από λανθασµένες υποκειµενικές κρίσεις και µετρήσεις. Είναι φανερό, ότι ο περιορισµός του θορύβου είναι απαραίτητος µιας και η παρουσία του µπορεί να επηρεάσει την απόδοση της συνολικής διαδικασίας. Μερικές µόνο από τις πιο συνηθισµένες στατιστικές τεχνικές αποµάκρυνσης θορύβου από τα δεδοµένα είναι: Αντικατάσταση της τιµής µε θόρυβο. Παλινδρόµηση (Regression) δηλαδή προσαρµογή των δεδοµένων σε µια συνάρτηση. Συσταδοποίηση/Οµαδοποίηση (clustering). Οι ακραίες τιµές µπορούν να εντοπιστούν µε την οµαδοποίηση όπου οι παρόµοιες τιµές οργανώνονται σε οµάδες και οι τιµές που δεν εντοπίζονται σε κάποια από τις οµάδες θεωρούνται τιµές µε θόρυβο. Πεδία χωρίς τιµές Ένα άλλο πρόβληµα που αντιµετωπίζεται στην ανακάλυψη γνώσης είναι η ύπαρξη πεδίων χωρίς τιµές ή τιµών που ουσιαστικά τα καθιστούν κενά. Ορισµένες µέθοδοι αντι- µετώπισης του προβλήµατος αυτού είναι: -31-

40 Κεφάλαιο 2 Παράβλεψη εγγραφών που περιέχουν πεδία χωρίς τιµές. Είναι κατάλληλη για τις εγγραφές στις οποίες πολλά πεδία δεν περιέχουν τιµές µε ορατό όµως τον κίνδυνο απώλειας πολύτιµων δεδοµένων. Παράβλεψη µεταβλητών για τις οποίες πολλές εγγραφές δεδοµένων δεν έχουν τιµές, µε ορατό όµως τον κίνδυνο απόρριψης µεταβλητών σηµαντικών στην α- νακάλυψη γνώσης. Χειροκίνητη συµπλήρωση κενών πεδίων µε τον µέσο όρο των τιµών του συγκεκριµένου πεδίου. Χρήση στατιστικών µεθόδων για τον υπολογισµό της πιο πιθανής τιµής για τα κενά πεδία. Πρόσφατα δεδοµένα Καθώς οι βάσεις δεδοµένων είναι δυναµικές το περιεχόµενο και το µέγεθος τους µεταβάλλεται εφόσον νέα πληροφορία εισάγεται, τροποποιείται ή διαγράφεται. Κανόνες που έχουν εξαχθεί από προηγούµενη, µη ενηµερωµένη βάση είναι πολύ πιθανό να µην έ- χουν ισχύ για τα νέα δεδοµένα και να χρειάζονται προσαρµογή στις νέες συνθήκες µέσω κατάλληλων τεχνικών, όπου η νέα πληροφορία θα λαµβάνεται υπόψη χωρίς να είναι απαραίτητη η επανάληψη όλης της διαδικασίας. Μέγεθος βάσης δεδοµένων Συνήθως, η ανακάλυψη γνώσης εφαρµόζεται σε βάσεις δεδοµένων τεράστιου µεγέθους. Τα προβλήµατα που προκύπτουν σχετίζονται µε: Το πλήθος των εγγραφών. Για την αξιολόγηση και την πιστοποίηση της γνώσης που έχει προκύψει χρειάζονται κάποιες στατιστικές µετρήσεις οι οποίες προκύπτουν από τα δεδοµένα που έχουν συγκεντρωθεί. Συνεπώς, ο χρόνος υπολογισµού των µετρήσεων αυτών είναι ανάλογος του πλήθους των εγγραφών. Το πλήθος των πεδίων ανά εγγραφή έχει το πλεονέκτηµα της αποκάλυψης πολλών κρυµµένων συσχετίσεων για τα δεδοµένα, αλλά το µειονέκτηµα της αναγκαιότητας ελέγχου της εγκυρότητας και της ορθότητάς τους εδοµένα Εφαρµογής Ανακάλυψης Γνώσης Η Ανακάλυψη Γνώσης σε Βάσεις εδοµένων µπορεί να εφαρµοστεί σε πολλούς τύπους δεδοµένων και σε διάφορες δοµές αποθήκευσης τους. ιαφέρουν όµως οι αλγόριθµοι και οι τεχνικές εξόρυξης που χρησιµοποιούνται στους διάφορους τύπους δεδοµένων. -32-

41 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων Επίπεδα αρχεία (Flat files) Πρόκειται για την πιο συνηθισµένη πηγή δεδοµένων για τους αλγόριθµους εξόρυξης. Αποτελούν απλά αρχεία δεδοµένων σε δυαδική µορφή ή µορφή κειµένου µε γνωστή την δοµή τους στους αλγόριθµους που θα τα χρησιµοποιήσουν. Τα δεδοµένα µπορεί να προέρχονται από οπουδήποτε όπως συναλλαγές, επιστηµονικές µετρήσεις, χρονοσειρές κλπ Σχεσιακές βάσεις δεδοµένων (Relational Databases) Οι σχεσιακές βάσεις δεδοµένων αποτελούν τις πιο διαθέσιµες και πλούσιες σε πληροφορίες αποθήκες και πηγές δεδοµένων. Πρόκειται για µια συλλογή πινάκων που καθένας περιέχει ένα σύνολο χαρακτηριστικών (στήλες ή πεδία) και αποθηκεύουν µεγάλες συλλογές εγγραφών (γραµµές) καθεµιά από τις οποίες αντιπροσωπεύει ένα αντικείµενο ή µια σχέση ανάµεσα στα αντικείµενα και ορίζεται από ένα µοναδικό κλειδί ενώ περιγράφεται από ένα σύνολο τιµών των χαρακτηριστικών. Η γλώσσα υποβολής ερωτηµάτων SQL είναι αυτή που χρησιµοποιείται στις σχεσιακές βάσεις και επιτρέπει την ανάκτηση και διαχείριση των δεδοµένων µε κύριο σκοπό την βέλτιστη επεξεργασία τους. Η εφαρµογή µεθόδων και τεχνικών εξόρυξης σε δεδο- µένα έχει καλύτερα αποτελέσµατα για την ανακάλυψη γνώσης από αυτά των ερωτηµάτων SQL, καθώς οδηγεί στην αναζήτηση τάσεων, προτύπων και αποκλίσεων στα δεδο- µένα Αποθήκες Συγκεντρωτικών δεδοµένων (Data Warehouse) Η έννοια των Αποθηκών Συγκεντρωτικών εδοµένων (Data Warehouse) έκανε την εµφάνισή της στις αρχές της δεκαετίας του 80 αντιπροσωπεύοντας ένα σύνολο δεδοµένων που υποστήριζαν συστήµατα λήψης αποφάσεων. Συνήθως, οι µεγάλες εταιρείες αποτελούνται από µεγάλα τµήµατα και παραρτήµατα και στηρίζονται στην συλλογή λειτουργικών δεδοµένων που σχετίζονται µε τις ηµερήσιες δραστηριότητες τους. Ω- στόσο όµως, για την λήψη σηµαντικών αποφάσεων, για τον σχεδιασµό και την πρόβλεψη περισσότερα συγκεντρωτικά και ιστορικά δεδοµένα είναι απαραίτητα και αυτά είναι που προσφέρουν οι αποθήκες συγκεντρωτικών δεδοµένων. Πρόκειται για βάσεις πληροφοριών που προέρχονται από πολλές πηγές, αποθηκευ- µένες κάτω από ένα ενοποιηµένο σχήµα και τοποθετηµένες σε ένα µόνο χώρο, οι ο- ποίες αποτελούνται από διάφορα εργαλεία αναφορών, ερωτηµάτων και εξόρυξης γνώ- -33-

42 Κεφάλαιο 2 σης. Οι διαδικασίες της µορφοποίησης, εκκαθάρισης, ολοκλήρωσης των δεδοµένων προηγούνται της εισαγωγής τους στις αποθήκες. Για την διευκόλυνση της διαδικασίας λήψης απόφασης, τα δεδοµένα είναι οργανω- µένα σε θεµατικές ενότητες (χαρακτηριστικά) και επειδή η αποθήκευση τους γίνεται για την παροχή πληροφοριών ιστορικής διάστασης είναι κατά κανόνα περιληπτικά. Συνήθως, αναπαριστάνονται µε µια πολυδιάστατη δοµή βάσης δεδοµένων όπου κάθε διάσταση αντιπροσωπεύει µια έννοια/χαρακτηριστικό και κάθε κελί την τιµή κάποιου α- θροιστικού µεγέθους. Η περιοδική ανανέωση των δεδοµένων είναι πολύ σηµαντική. Τα δεδοµένα που υπάρχουν στις αποθήκες αυτές αφορούν σε θέµατα που επεκτείνονται κατά µήκος ενός οργανισµού. Συνήθως, δηµιουργούνται υποσύνολα των αποθηκών συγκεντρωτικών δεδοµένων, τα λεγόµενα πρατήρια δεδοµένων (data marts) που επικεντρώνονται στην συλλογή δεδοµένων που αφορούν σε ένα συγκεκριµένο µέρος της συνολικής πληροφορίας. Το µέγεθος τους είναι περιορισµένο και η απόδοση τους καλύτερη για την υποστήριξη εφαρµογών συγκεκριµένου ενδιαφέροντος. Εξαιτίας της δοµής και των προϋπολογισµένων περιληπτικών δεδοµένων που περιέχουν, οι αποθήκες συγκεντρωτικών δεδοµένων είναι κατάλληλες για γρήγορη και µε ανάδραση ανάλυση και υποβολή ερωτηµάτων σε διαφορετικό εννοιολογικό επίπεδο, διαδικασία γνωστή και ως Αναλυτική Επεξεργασία εδοµένων (On-line Analytical Processing) Βάσεις δεδοµένων συναλλαγών (Transactional Databases) Πρόκειται για ένα αρχείο εγγραφών που αναπαριστάνουν συναλλαγές, κάθε µια από τις οποίες περιλαµβάνει ένα αναγνωριστικό και µια λίστα στοιχείων. Σχετικοί πίνακες περιέχουν περιγραφικές πληροφορίες για καθένα στοιχείο της λίστας. Βασικές διαδικασίες εξόρυξης αποτελούν η ανάλυση «του καλαθιού αγοράς» και η εύρεση κανόνων συσχέτισης όπου εµφανίζουν συσχετίσεις µεταξύ στοιχείων Προηγµένα δεδοµένα Με την εξέλιξη της τεχνολογίας των βάσεων δεδοµένων και την ανάπτυξη νέων και πιο περίπλοκων τύπων δεδοµένων και εφαρµογών έγινε έκδηλη η ανάγκη της εφαρµογής νέων και πολύπλοκων αποθηκευτικών δοµών. Ορισµένες από αυτές που σχετίζονται µε την εξόρυξη γνώσης είναι: -34-

43 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων Χρονικές βάσεις δεδοµένων (Temporal Databases) Συνήθης πρακτική στις βάσεις δεδοµένων αποτελεί η αποθήκευση τιµών που αντιπροσωπεύουν την τιµή ενός πεδίου χαρακτηριστικού µια δεδοµένη χρονική στιγµή. Η αποθήκευση χρονικών δεδοµένων γίνεται σε µια ειδική κατηγορία βάσεων τις χρονικές βάσεις δεδοµένων (temporal databases) και τα δεδοµένα που διατηρούνται αναφέρονται σε πολλές χρονικές στιγµές και όχι σε ένα µόνο χρονικό σηµείο. Μερικά παραδείγµατα χρονικών δεδοµένων αποτελούν τα σήµατα ηλεκτρικής δραστηριότητας της καρδιάς που καταγράφονται σε ένα καρδιογράφηµα, τα εγκεφαλικά κύµατα που καταγράφονται σε ένα ηλεκτροεγκεφαλογράφηµα και αντιπροσωπεύουν ένα συνεχές σύνολο και πολλά άλλα βιοσήµατα. Η ανάλυση των δεδοµένων αυτών περιλαµβάνει πολλές προκλήσεις που σχετίζονται µε την ερµηνεία του χρόνου και µε το γεγονός ότι οι τύποι των ενηµερώσεων και των ερωτηµάτων στα δεδοµένα διαφέρουν από τους συνηθισµένους των σχεσιακών βάσεων δεδοµένων. Η εξόρυξη γνώσης από τα χρονικά δεδοµένα περιλαµβάνει πολλές από τις παραδοσιακές µεθόδους εξόρυξης, αλλά γίνονται πιο περίπλοκες εξαιτίας της φύσης και της πολυπλοκότητας των δεδοµένων. Χωρικές και Χωροχρονικές Βάσεις δεδοµένων (Spatial and Spatiotemporal Databases) Τα χωρικά δεδοµένα (spatial data) αποτελούν δεδοµένα που περιγράφουν αντικείµενα που είναι τοποθετηµένα σε κάποιο φυσικό χώρο, ενώ η αποθήκευσή τους γίνεται σε χωρικές βάσεις δεδοµένων (spatial databases), οι οποίες όµως µπορεί να περιέχουν και µη χωρικά δεδοµένα. Εξαιτίας της πολυπλοκότητας των δεδοµένων αυτών, η αποθήκευση τους γίνεται σε ειδικές δοµές δεδοµένων όπως για παράδειγµα αναπαράσταση των γεωγραφικών χαρτών σε ανύσµατα όπου δρόµοι, γέφυρες, κτήρια και λίµνες αναπαριστάνονται ως διαδοχικά σύνολα βασικών γεωµετρικών σχηµάτων όπως σηµεία, γραµµές, πολύγωνα κλπ. Η εφαρµογή των χωρικών βάσεων εκτείνεται από τα γεωγραφικά πληροφοριακά συστήµατα που αποθηκεύονται πληροφορίες για γεωγραφικές τοποθεσίες στην επιφάνεια της γης, σε βιοιατρικές εφαρµογές κλπ. Η εφαρµογή τεχνικών εξόρυξης είναι σηµαντική: ανακάλυψη σχέσεων ανάµεσα σε σύνολα δεδοµένων για την ανακάλυψη υποσυνόλων δεδοµένων µε χωρική αυτοσυσχέ- -35-

44 Κεφάλαιο 2 τιση, δηµιουργία προτύπων περιγραφής συγκεκριµένων χαρακτηριστικών, κατηγοριοποίηση για την δηµιουργία µοντέλων που βασίζονται σε κοινά χαρακτηριστικά χωρικών δεδοµένων είναι µόνο ορισµένες από αυτές τις τεχνικές που µπορούν να εφαρµοστούν σε πολλούς τοµείς όπως στα γεωγραφικά συστήµατα πληροφοριών, ιατρική, ροµποτική, γεωργία, επιστήµη του περιβάλλοντος, διαχείριση φυσικών πόρων κλπ. Μια ειδική κατηγορία αποτελούν και οι χωροχρονικές βάσεις δεδοµένων (spatiotemporal databases) που περιλαµβάνουν χωρικά δεδοµένα που µεταβάλλονται στον χρόνο. Βάσεις εδοµένων Κειµένου (Text Databases) Πρόκειται για βάσεις δεδοµένων που περιέχουν λεκτικές περιγραφές αντικειµένων. Η µορφή των περιγραφών αυτών δεν είναι απλές λέξεις κλειδιά, αλλά µακροσκελείς προτάσεις ή ακόµη και παράγραφοι που µπορεί περιγράφουν προειδοποιητικά µηνύµατα, εκθέσεις αναφορών, αναφορές λαθών κλπ. Ο συνδυασµός των τεχνικών εξόρυξης και αυτών της ανάκτησης πληροφοριών είναι απαραίτητος για την ανακάλυψη γνώσης από τέτοιου είδους βάσεις δεδοµένων. Βάσεις δεδοµένων Πολυµέσων (Multimedia Databases) Οι βάσεις αυτές περιέχουν δεδοµένα όπως βίντεο, εικόνες, ήχο και κείµενο ή ακόµη και συνδυασµούς αυτών. Μπορούν να χρησιµοποιηθούν σε εφαρµογές όπως συστήµατα φωνητικού ηλεκτρονικού ταχυδροµείου, παγκόσµιο ιστό, φωνητικά περιβάλλοντα διεπαφής που αναγνωρίζουν συγκεκριµένες εντολές κλπ. Ειδικές και µεγάλου µεγέθους αποθηκευτικές δοµές χρειάζονται για την υποστήριξη βάσεων τέτοιου τύπου. Παγκόσµιος Ιστός (World Wide Web) Ο Παγκόσµιος Ιστός αποτελεί την πιο ετερογενή και δυναµική πηγή διαθέσιµων δεδο- µένων καθώς οι τύποι αυτών ποικίλουν από απλά κείµενα, εικόνες, βίντεο, ήχο ως ε- φαρµογές. Η διασύνδεση των αντικειµένων αυτών είναι άµεση για την διευκόλυνση της αναζήτησης γνώσης. Η απουσία πραγµατικής δοµής στο διαδίκτυο κάνει πολύ δύσκολη την διαδικασία ανακάλυψης γνώσης. Ιδεατά, ο παγκόσµιος ιστός αποτελείται από τρία βασικά συστατικά: -36-

45 Ανακάλυψη Γνώσης σε Βάσεις εδοµένων Το περιεχόµενο που συνδυάζει όλες τις διαθέσιµες πληροφορίες και τα έγγραφα όλων των ιστοσελίδων. Την δοµή που περιλαµβάνει τους υπέρ-συνδέσµους και τις σχέσεις ανάµεσα στα έγγραφα και τον HTMLή XML κώδικα των ιστοσελίδων. Την χρήση που περιγράφει τον τρόπο και την χρονική στιγµή πρόσβασης των πηγών. Τεχνικές εξόρυξης σε δεδοµένα (web mining) µπορούν να εφαρµοστούν και στις τρεις παραπάνω δοµές και βοηθούν στην κατανόηση του τρόπου κατανοµής των πληροφοριών στον παγκόσµιο ιστό, χαρακτηρισµό και κατηγοριοποίηση των ιστοσελίδων, ανακάλυψη των συσχετίσεων και των σχέσεων ανάµεσα σε ιστοσελίδες, χρήστες, κοινότητες και βασισµένες στο διαδίκτυο δραστηριότητες. -37-

46

47 Εργαλεία Ανακάλυψης Γνώσης 3 Εργαλεία Ανακάλυψης Γνώσης Η ανάπτυξη της τεχνολογίας οδήγησε στην δηµιουργία και διατήρηση, από πολλές ε- ταιρείες και οργανισµούς, περίπλοκων συστηµάτων βάσεων δεδοµένων για συλλογή και διαχείριση των δεδοµένων τους. Το µέγεθος των βάσεων αυτών αυξάνεται προοδευτικά εξαιτίας της καταγραφής οποιαδήποτε πληροφορίας ή συναλλαγής. Πίσω από το τεράστιο αυτό όγκο δεδοµένων υπάρχουν µη προφανείς, αλλά χρήσιµες πληροφορίες σχετικά µε τα δεδοµένα, όπως για παράδειγµα τάσεις και πρότυπα, που µπορούν να συµβάλλουν στην βελτίωση της διαδικασία λήψης αποφάσεων. Η αδυναµία της ανθρώπινης φύσης για γρήγορη διαχείριση και εξαγωγή χρήσιµης γνώσης οδηγεί στην αυτο- µατοποίηση της όλης διαδικασίας µέσω της ανάπτυξης διαφόρων λογισµικών εξόρυξης και ανακάλυψης γνώσης σε βάσεις δεδοµένων, τα οποία έχουν την δυνατότητα ανάλυσης πρωτογενών δεδοµένων και παρουσίασης υψηλού επιπέδου πληροφοριών, µέσω της εφαρµογής πληθώρας µεθόδων και τεχνικών µηχανικής µάθησης. Η χρήση των λογισµικών αυτών, τα οποία µπορεί να είναι είτε αυτόνοµα εργαλεία εξόρυξης δεδοµένων (Data mining tools) τα οποία παρέχουν πληθώρα τεχνικών που µπορούν να εφαρµοστούν σε προβλήµατα οποιαδήποτε φύσης, είτε εφαρµογές εξόρυξης δεδοµένων (Data mining applications), δηλαδή εφαρµογές στις οποίες έχουν ενσωµατωθεί συγκεκριµένες µέθοδοι και τεχνικές εξόρυξης δεδοµένων για την αντιµετώπιση συγκεκριµένων προβληµάτων, έχει διεισδύσει στην καθηµερινή πρακτική µε ολοένα νέα προϊόντα. Στο παρόν κεφάλαιο περιγράφονται και συγκρίνονται οι δυνατότητες δύο βασικών εργαλείων ανακάλυψης γνώσης σε βάσεις δεδοµένων: της πλατφόρµας WEKA 3 που αναπτύχθηκε από το πανεπιστήµιο Waikato της Νέας Ζηλανδίας και της πλατφόρµα της Microsoft SQL Server 2005 Data Mining. 3.1 Το εργαλείο WEKA Ακολουθεί περιγραφή των βασικών χαρακτηριστικών και των δυνατοτήτων ανακάλυψης γνώσης σε βάσεις δεδοµένων που προσφέρει αυτή η πλατφόρµα. -39-

48 Κεφάλαιο Εισαγωγή Το WEKA αποτελεί ένα ολοκληρωµένο περιβάλλον που συνδυάζει τόσο ποικίλες τεχνικές και αλγορίθµους µηχανικής µάθησης µέσω ενός αλληλεπιδραστικού περιβάλλοντος, όσο και εργαλεία προ-επεξεργασίας και µετά-επεξεργασίας των δεδοµένων. Παρέχει υποστήριξη για την όλη διαδικασία της Ανακάλυψης Γνώσης από Βάσεις εδοµένων συµπεριλαµβανοµένου της προετοιµασίας και προ-επεξεργασίας των δεδο- µένων εισόδου, εφαρµογής µεθόδων και αλγορίθµων, οπτικοποίησης των δεδοµένων εισόδου και των αποτελεσµάτων µάθησης, στατιστικής αξιολόγησης των παραγόµενων προτύπων. Το WEKA αναπτύχθηκε από το Πανεπιστήµιο Waikato της Νέας Ζηλανδίας και το όνοµα του αντιπροσωπευτικό των αρχικών Waikato Environment for Knowledge Analysis. Αρχικός σκοπός, του χρηµατοδοτούµενου, από το 1993, από την κυβέρνηση έργου, ήταν η δηµιουργία µιας πλατφόρµας εφαρµογής µεθόδων και τεχνικών µηχανικής µάθησης, προσανατολισµένης σε µη ειδικούς του τοµέα αυτού, για την αντιµετώπιση προβληµάτων του τοµέα της γεωργίας. Στην αρχική έκδοση, η διεπαφή για τους χρήστες, σχεδιάστηκε µε το TK/ TCL µε πολλούς από τους αλγόριθµους και τα εργαλεία προ επεξεργασίας υλοποιηµένους σε άλλες γλώσσες προγραµµατισµού, όπως την C, C++, LISP. Το 1997 το εργαλείο WEKA (WEKA 3) σχεδιάστηκε από την αρχή, υλοποιήθηκε µε την αντικειµενοστραφή γλώσσα προγραµµατισµού Java και η χρήση του επεκτάθηκε σε πολλά και διαφορετικά πεδία εφαρµογής. Το λογισµικό αυτό είναι διαθέσιµο δωρεάν, υπό τους όρους του GNU General Public License, στον δικτυακό τόπο και είναι εκτελέσιµο σε περισσότερα των λειτουργικών συστηµάτων όπως Linux, Windows, Macintosh. Μερικές από τις δυνατότητες για την ανακάλυψη γνώσης σε βάσεις δεδοµένων που προσφέρει αυτή η ανοιχτού κώδικα βιβλιοθήκη λογισµικού, τόσο µέσω ενός γραφικού περιβάλλοντος όσο και µέσω command line περιβάλλοντος είναι: Εργαλεία εφαρµογής µεθόδων και αλγορίθµων µηχανικής µάθησης για τα ση- µαντικότερα προβλήµατα εξόρυξης γνώσης όπως ταξινόµηση, παλινδρόµηση, συσταδοποίηση, εύρεση κανόνων συσχέτισης, επιλογή χαρακτηριστικών. Εργαλεία εφαρµογής προ-επεξεργασίας δεδοµένων. Εργαλεία αξιολόγησης και σύγκρισης της απόδοσης διάφορων µεθόδων εξόρυξης σε ίδια δεδοµένα. -40-

49 Εργαλεία Ανακάλυψης Γνώσης Εργαλεία οπτικοποίησης των δεδοµένων εισόδου και εξόδου. Ανάπτυξη νέων µεθόδων και αλγορίθµων µηχανικής µάθησης οµή του WEKA Ξεκινώντας την πλατφόρµα εργασίας του WEKA, που στην παρούσα εργασία χρησι- µοποιείται η έκδοση , δίνεται η δυνατότητα επιλογής και χρήσης ενός εκτός τεσσάρων διεπαφών όπως φαίνονται και από την Εικόνα 3-1. Εικόνα 3-1 Επιλογή περιβάλλοντος διεπαφής CLI: Πρόκειται για ένα περιβάλλον πρόσβασης σε όλα τα εργαλεία της διαδικασίας α- νακάλυψης γνώσης της σχετικής πλατφόρµας στην πρωτογενή µορφή τους, δηλαδή σε κώδικα Java, µέσω µιας command-line διεπαφής. Explorer: Πρόκειται για το βασικό γραφικό περιβάλλον διεπαφής που χρησιµοποιείται σχεδόν αποκλειστικά από την πλειονότητα των χρηστών, µέσω του οποίου είναι δυνατή η εφαρµογή όλων των µεθόδων και αλγορίθµων µηχανικής µάθησης, επεξεργασίας και οπτικοποίησης των δεδοµένων εισόδου-εξόδου, σύγκρισης της απόδοσης διαφόρων τεχνικών. Knowledge Flow: Πρόκειται για ένα γραφικό περιβάλλον διεπαφής που υλοποιεί όλες τις δυνατότητες που προσφέρει ο Explorer µε την µόνη διαφορά της χρησιµοποίησης στοιχείων για την αναπαράσταση των πηγών δεδοµένων, των εργαλείων προεπεξεργασίας, των αλγορίθµων και των µεθόδων αξιολόγησης και οπτικοποίησης και της διασύνδεσης των στοιχείων αυτών για τον προσδιορισµό τη ροής των δεδοµένων. -41-

50 Κεφάλαιο 3 Experimenter: Πρόκειται για ένα γραφικό περιβάλλον εκτέλεσης πειραµάτων αξιολόγησης της απόδοσης διαφορετικών µεθόδων και τεχνικών εκµάθησης στα ίδια δεδοµένα, µε δυνατότητες µεταβολής των τιµών παραµέτρων και απεικόνισης στατιστικών στοιχείων ARFF Σχήµα Σε οποιαδήποτε εργασία ανακάλυψης γνώσης που υποστηρίζεται από το WEKA απαιτείται η συλλογή των δεδοµένων και η αποθήκευση τους σε µορφή αναγνωρίσιµη από την πλατφόρµα αυτή. Η µορφή αυτή είναι τα αρχεία ARFF που πρόκειται για ASCII αρχεία κειµένου που αποτελούνται από µια λίστα ανεξάρτητων µεταξύ τους εγγραφών που περιγράφουν όµως το ίδιο σύνολο χαρακτηριστικών. Κάθε αρχείο ARFF αποτελείται από δύο περιοχές: την περιοχή της Επικεφαλίδας (Header) και την περιοχή των Πληροφοριών εδοµένων (Data). Η περιοχή Επικεφαλίδας περιλαµβάνει δηλώσεις του ονόµατος της σχέσης που περιγράφεται από το αρχείο, του συνόλου των χαρακτηριστικών των εγγραφών και τους τύπος αυτών. Tο όνοµα της σχέσης προσδιορίζεται µέσω της relation <relation _name>, ενώ η δήλωση των χαρακτηριστικών και των τύπων τους µέσω της <attribute_name> <data type>. Οι βασικοί τύποι δεδοµένων που υποστηρίζονται είναι: nominal κατά το οποίο παρατίθεται και η λίστα των δυνατών τιµών ανά περίπτωση, numeric για την αναπαράσταση ακέραιων και πραγµατικών αριθµών, string για την αναπαράσταση αλφαριθµητικών τιµών και κειµένων, date που είναι ένα ειδικού τύπου αλφαριθµητικό για τον προσδιορισµό της µορφής αναπαράστασης της ηµεροµηνίας και της ώρας. Η προκαθορισµένη µορφή αποδέχεται το πρότυπο ISO-8601 κατά το οποίο αποδεκτή µορφή είναι YYY-MM-dd T H: mn:ss. Ένα παράδειγµα του τρόπου δήλωσης της περιοχής αυτής σε ένα αρχείο ARFF EPAGGELMA AGE FILO YPERTASI ETH_YPER IDDM_NIDDM ETH_ZAKX numeric -42-

51 Εργαλεία Ανακάλυψης Γνώσης Η περιοχή Πληροφοριών εδοµένων περιέχει την γραµµή δήλωσης των δεδοµένων, η οποία σηµατοδοτεί την έναρξη του συνόλου των δεδοµένων, µέσω της αλλά και όλο το σύνολο των δεδοµένων στα οποία θα εφαρµοστούν οι διαδικασίες ανακάλυψης γνώσης. Κάθε παράδειγµα του συνόλου δεδοµένων αντιστοιχεί σε µια γραµµή µε τα χαρακτηριστικά ταξινοµηµένα σύµφωνα µε την προκαθορισµένη σειρά και διαχωρισµένα µε κόµµα. Χαρακτηριστικά για τα οποία δεν υπάρχουν τιµές σε κάποια παραδείγµατα δηλώνονται µε το σύµβολο <?>. Ένα παράδειγµα του τρόπου δήλωσης της περιοχής αυτής σε ένα αρχείο ARFF % 5 instances 0,7,Α,0,0,NIDDM,8, 1,5,Α,1,8,NIDDM,16, 0,6,Α,0,0,NIDDM,4, 0,6,Α,1,1,NIDDM,3, 0,6,Γ,1,3,NIDDM,25 Πρέπει να σηµειωθεί ότι οι γραµµές που ξεκινούν µε <%> αποτελούν σχόλια, ενώ ιδιαίτερη προσοχή πρέπει να δίνεται κατά την δήλωση των µεταβλητών και την ανάθεση τιµών εξαιτίας της case sensitive ιδιότητας υνατότητες Ανακάλυψης Γνώσης Κύριο περιβάλλον εργασίας του WEKA αποτελεί ο Explorer λόγω της ευκολίας και της απλότητας στην χρήση του, αλλά και των πλείστων δυνατοτήτων ανακάλυψης γνώσης που προσφέρει. Οι ίδιες µάλιστα δυνατότητες παρέχονται και από τα υπόλοιπα τρία περιβάλλοντα όπως έχει ήδη αναφερθεί. Κρίθηκε σκόπιµη η περιγραφή των µεθόδων και των αλγορίθµων ανακάλυψης γνώσης που προσφέρει το WEKA µε ταυτόχρονη παρουσίαση µόνο της διεπαφής του Explorer. Μετά την επιλογή του Explorer από την αρχική φόρµα εµφανίζεται ένα παράθυρο εργασίας µε έξι καρτέλες καθεµιά από τις οποίες επιτρέπει την εφαρµογή διαφορετικών µεθόδων και τεχνικών ανακάλυψης γνώσης. Οι καρτέλες αυτές, που η ονοµασία τους µαρτυρεί το είδος της εργασίας που υλοποιούν, είναι: Preprocess: Επιλογή και προετοιµασία του συνόλου των δεδοµένων. Classify: Εφαρµογή και αξιολόγηση µεθόδων και αλγορίθµων κατηγοριοποίησης και παλινδρόµησης. -43-

52 Κεφάλαιο 3 Clusters: Εφαρµογή µεθόδων και τεχνικών συσταδοποίησης. Associate: Εφαρµογή και αξιολόγηση µεθόδων κανόνων συσχέτισης δεδοµένων. Select Attributes: Εφαρµογή αλγορίθµων επιλογής και αξιολόγησης των αλληλοεξαρτούµενων χαρακτηριστικών. Visualize: δυσδιάστατη γραφική απεικόνιση χαρακτηριστικών. Παράλληλα, πληροφορίες σχετικά µε την εξέλιξη των εργασιών και την κατάσταση της µνήµης του προγράµµατος, αλλά και πλήρη εικόνα για το είδος και τον χρόνο εργασιών παρέχονται από ένα πλαίσιο Status και ένα κουµπί Log αντίστοιχα, στοιχεία που βρίσκονται σταθερά στο κάτω µέρος του παραθύρου εργασίας του WEKA Explorer. Όλα τα παραπάνω φαίνονται και στην Εικόνα 3-2. Εικόνα 3-2 Επιλογή καρτέλας εργασίας Preprocess Απαραίτητη προϋπόθεση για κάθε δυνατότητα εξαγωγής χρήσιµης γνώσης που παρέχει η πλατφόρµα εργασίας WEKA, είναι η επιλογή και η κατάλληλη προετοιµασία του συνόλου των δεδοµένων που αποτελούν το αντικείµενο µελέτης. Από την καρτέλα αυτή, που είναι εξ ορισµού ενεργοποιηµένη και φαίνεται στην Εικόνα 3-3, γίνεται η φόρτωση αρχείων τύπου ARFF ή τύπου CSV, ή C.4.5 µέσω κατάλληλων προγραµµάτων µετατροπής τους. Υποστηρίζεται ακόµη η άµεση φόρτωση δεδοµένων τύπου ARFF από URL διευθύνσεις ή από βάσεις δεδοµένων που έχουν δυνατότητα διασύνδεσης µε ε- φαρµογές Java. -44-

53 Εργαλεία Ανακάλυψης Γνώσης Εικόνα 3-3 Επιλογή κα επεξεργασία δεδοµένων Πλήθος πληροφοριών εµφανίζονται σχετικά µε την βάση δεδοµένων, το πλήθος των παραδειγµάτων, τα χαρακτηριστικά και στατιστικά στοιχεία σχετικά µε αυτά όπως το όνοµα, τον τύπο, τον αριθµό κενών πεδίων, τον αριθµό διαφορετικών τιµών, τον αριθµό µοναδικών τιµών. Με την επιλογή ενός χαρακτηριστικού και ανάλογα µε τον τύπο εµφανίζονται πλήθος αναλυτικών στατιστικών στοιχείων και σχετικό ιστόγραµµα. Εικόνα 3-4 Επιλογή, Ρύθµιση παραµέτρων και Εφαρµογή φίλτρου διαγραφής -45-

54 Κεφάλαιο 3 Για την διευκόλυνση της διαδικασίας επεξεργασίας των δεδοµένων και ανακάλυψης γνώσης εφαρµόζονται φίλτρα (filters) µετασχηµατισµού των δεδοµένων, τα οποία υποστηρίζουν διάφορα κριτήρια για την επιλογή χαρακτηριστικών (attributes) ή περιπτώσεων (instances). Η επιλογή των φίλτρων γίνεται από δενδρικούς καταλόγους, µε δυνατότητα µεταβολής των παραµέτρων αυτών, η εφαρµογή τους γίνεται τόσο στο σύνολο των δεδοµένων εκπαίδευσης όσο και στο σύνολο των δεδοµένων ελέγχου, ενώ δυνατή είναι η διαγραµµατική απεικόνιση της µεταβολής που αυτά προκαλούν στο σύνολο των δεδοµένων. Οπτική αναπαράσταση των παραπάνω δυνατοτήτων φαίνονται στην Εικόνα 3-4. ύο µεγάλες κατηγορίες φίλτρων υποστηρίζονται: τα φίλτρα µε επίβλεψη (supervised filters) και τα φίλτρα χωρίς επίβλεψη (unsupervised filters) τα οποία κατ επέκταση διακρίνονται σε φίλτρα χαρακτηριστικών (attribute filters) και τα φίλτρα περιπτώσεων (instance filters). Αναλυτικά, σε αγγλική ορολογία, τα φίλτρα που υποστηρίζονται από το WEKA είναι : Φίλτρα χωρίς επίβλεψη o Φίλτρα χαρακτηριστικών: Add, AddCluster,AddNoise, ClusterMembership, Copy, Discretize, FirstOrder, MakeIndicator, MergeTwoValues, NominalToBinary, Normalize, NumericToBinary, NumericTransform, Obfuscate, PKIDiscretize, RandomProjection, Remove, RemoveType, RemoveUseless, ReplaceMissingValues,Standardize, StringToNominal, StringToWordVector, SwapValues, TimeSeriesDelta, TimesSeriesTranslate. o Φίλτρα Περιπτώσεων: NonSparseToSparse, Normalize Randomize, Re movefolds, RemoveMisclassified, RemovePercentage, RemoveRange, RemoveWithValues, SparseToNonSparse Φίλτρα Με Επίβλεψη o Φίλτρα χαρακτηριστικών: AttributeSelection, ClassOrder, Discretize, NominalToBinary o Φίλτρα Περιπτώσεων: Resample, SpreadSubsample, StratifiedRemoveFolds -46-

55 Εργαλεία Ανακάλυψης Γνώσης Classify Πολλές µέθοδοι και αλγόριθµοι κατηγοριοποίησης των δεδοµένων, αλλά και αξιολόγησης και γραφικής αναπαράστασης των αποτελεσµάτων τους παρέχονται από την καρτέλα αυτή. Η επιλογή των αλγορίθµων γίνεται από προκαθορισµένους δενδρικούς καταλόγους, οι οποίοι µπορούν να εµπλουτιστούν µε νέα στοιχεία γραµµένα από τους ίδιους τους χρήστες σύµφωνα µε τις ανάγκες τους, µε την επιπλέον ιδιότητα της µεταβολής παραµέτρων τους. Οι βασικές µέθοδοι και οι αντίστοιχοι αλγόριθµοι κατηγοριοποίησης που υποστηρίζονται από το WEKA, σε αγγλική ορολογία, ακολουθούν και µάλιστα φαίνονται στην Εικόνα 3-5: Bayesian Classifiers µε κύριους υλοποιηµένους αλγόριθµους τους AODE, BayesNet, ComplementNaiveBayes, NaiveBayes, NaiveBayesMultinomial, NaiveBayesSimple, NaiveBayesUpdateable Trees µε τους αλγόριθµους ADTree, DecisionStump, Id3, J48, LMT, M5P, NBTree, RandomForest, RandomTree, REPTree, UserClassifier Rules µε τους αλγόριθµους DecisionTable, JRip, M5Rules, Nnge, OneR, Part, Prism, Rids, ZeroR, Regression που υλοποιείται από τον φάκελο Functions ο οποίος περιέχει κατηγοριοποιητές που µπορούν να εκφραστούν ως µαθηµατικές συναρτήσεις,.οι πιο σηµαντικοί από αυτούς είναι: LeastMedSq, LinearRegression Logistic, PaceRegression, SimpleLinearRegression, SimpleLogistic, SMO, SMOreg, VotedPerceptron, Winnow Neural Network µε τον αλγόριθµο MultilayerPerceptron MetaLearning Classifiers που µετατρέπουν τους απλούς κατηγοριοποιητές σε πιο προηγµένους µε την προσθήκη στον βασικό κατηγοριοποιητή άλλων ιδιοτήτων ελέγχου της απόδοσης µε τους αλγορίθµους AdaBoostM1, AdditiveRegres sion, AttributeSelectedClassifie, Bagging, ClassificationViaRegression, Cost SensitiveClassifier, CVParameterSelection, FilteredClassifier, Grading, Logi Boost, MetaCost, MultiBoostAB, MultiClassClassifier, MultiScheme, Ordinal ClassClassifier, RacedIncrementalLogitBoost, RandomCommittee, Regression ByDiscretization, Stacking, StackingC, ThresholdSelector, Vote. Lazy/ Instance-based Classifiers µε αλγορίθµους τους IB1, IBk, KSta, LBR, LWL -47-

56 Κεφάλαιο 3 Εικόνα 3-5 Λίστα µεθόδων κατηγοριοποίησης Ο έλεγχος της απόδοσης τους µπορεί να πραγµατοποιηθεί στο σύνολο των δεδοµένων εκπαίδευσης µε ορατό τον κίνδυνο υπέρ-µοντελοποίησης, σε ένα νέο σύνολο δεδο- µένων, µε την τεχνική cross-validation ή σε ένα συγκεκριµένο ποσοστό από τα αρχικά δεδοµένα. Ωστόσο όµως, τα αποτελέσµατα της όλης διαδικασίας προκύπτουν από το σύνολο των δεδοµένων εκπαίδευσης και περιέχονται σε ένα αρχείο που δίνει πληροφορίες σχετικά µε τον υπό εκτέλεση αλγόριθµο και το σύνολο των δεδοµένων, µια απεικόνιση του µοντέλου κατηγοριοποίησης που προέκυψε, αναλυτικά και συγκεντρωτικά στατιστικά στοιχεία σχετικά µε την ακρίβεια πρόβλεψης των κλάσεων και έναν πίνακα παρουσίασης του αριθµού των σωστών και λαθών κατηγοριοποιήσεων ανά κλάση (confusion matrix). Μια περιγραφή των παραπάνω φαίνονται στην Εικόνα 3-6. Εικόνα 3-6 Επιλογή αλγορίθµου και µεθόδου ελέγχου -48-

57 Εργαλεία Ανακάλυψης Γνώσης Κάτι άλλο το οποίο αξίζει να σηµειωθεί είναι ότι είναι δυνατή η αποθήκευση, σε δυαδικό αρχείο, όλων των µοντέλων που προκύπτουν µε την χρήση οποιουδήποτε αλγορίθµου οποιασδήποτε µεθόδου ανακάλυψης γνώσης και η φόρτωση του οποιαδήποτε χρονική στιγµή, τόσο για παρουσίαση των αποτελεσµάτων όσο και για πρόβλεψη χρησιµοποιώντας ένα νέο σύνολο δεδοµένων αξιολόγησης. Παράλληλα, είναι δυνατή η γραφική απεικόνιση, για κάθε µοντέλο χωριστά, όλων των λαθών κατηγοριοποίησης και διαφόρων καµπύλων όπως της καµπύλης περιθωρίου, καµπύλης κόστους και κα- µπύλης ROC. Clustering Η διάταξη της καρτέλας αυτής που επιτρέπει την εφαρµογή ορισµένων εκ των πιο γνωστών αλγορίθµων συσταδοποίησης δεδοµένων είναι παρόµοια µε την καρτέλα Classify: επιλογή των αλγορίθµων από αναδυόµενες λίστες, ρύθµιση παραµέτρων ελέγχου της απόδοσης µε επιπλέον δυνατότητες αξιολόγησης του βαθµού ταύτισης των συστάδων µε προκαθορισµένες κλάσεις δεδοµένων, διαγραµµατική απεικόνιση των αποτελεσµάτων. Οι σηµαντικότεροι αλγόριθµοι συσταδοποίησης που υποστηρίζει το WEKA είναι οι EM Cluster, Cobweb FarthestFirst, MakeDensityBasedClustere, SimpleKMeans. Στην Εικόνα 3-7 φαίνεται η καρτέλα που επιτρέπει την διαχείριση της συσταδοποίησης. Εικόνα 3-7 Εφαρµογή αλγόριθµου συσταδοποίησης Associate Πρόκειται για µια απλούστερη επιλογή µε παρόµοιες όµως ιδιότητες µε τις δύο προηγούµενες καρτέλες πλην αυτής της αξιολόγησης της απόδοσης των αλγορίθµων. Οι αλγόριθµοι για την δηµιουργία κανόνων συσχέτισης για το σύνολο των χαρακτηριστικών -49-

58 Κεφάλαιο 3 που µπορεί κάποιος να υλοποιήσει είναι οι Apriori, PreductiveApriori, Tertius µε δυνατότητες µεταβολής των παραµέτρων αυτών. Παροµοίως, στην Εικόνα 3-8 φαίνεται η καρτέλα που επιτρέπει την διαχείριση των κανόνων συσχέτισης και οι δυνατότητες που αυτή προσφέρει. Εικόνα 3-8 Εφαρµογή αλγορίθµου κανόνων συσχέτισης Select Attributes Βασικό χαρακτηριστικό των περισσότερων βάσεων δεδοµένων είναι η διατήρηση µη χρήσιµων και όχι τόσο σχετικών µεταξύ τους χαρακτηριστικών, γεγονός που αποτελεί περιοριστικό παράγοντα της απόδοσης των αλγορίθµων ή οδηγεί σε λανθασµένες εκτι- µήσεις. Η επιλογή των πιο χρήσιµων και πιο σχετικών µεταξύ τους χαρακτηριστικών προς έλεγχο είναι συνήθης πρακτική. Η δυνατότητα αυτή είναι διαθέσιµη και στο WE- KA από την παρούσα καρτέλα. Τέσσερις είναι οι µέθοδοι αξιολόγησης των χαρακτηριστικών (CfsSubsetEval, ClassifierSubsetEval, ConsistencySubsetEval, WrapperSubsetEval) που συνδυάζονται µε επτά µεθόδους αναζήτησης καλύτερου συνδυασµού χαρακτηριστικών (BestFirst, ExhaustiveSearch, GeneticSearch, GreedyStepwises, RaceSearch, RandomSearch, Rank- Search). Η επιλογή των παραπάνω µπορεί να υλοποιηθεί είτε σε όλο το σύνολο των δεδοµένων είτε χρησιµοποιώντας τον έλεγχο cross-validation. Απαραίτητη προϋπόθεση η επιλογή ενός χαρακτηριστικού που αποτελεί την βάση προς αναζήτηση των ισχυρών συσχετίσεων. Στην Εικόνα 3-9 που ακολουθεί φαίνεται η καρτέλα και ο τρόπος επιλογής των κριτηρίων αξιολόγησης των χαρακτηριστικών. -50-

59 Εργαλεία Ανακάλυψης Γνώσης Εικόνα 3-9 Επιλογή χαρακτηριστικών Visualize Η διαγραµµατική απεικόνιση του αρχικού συνόλου δεδοµένων είναι πολλές φορές χρήσιµη στην διαδικασία ανακάλυψης γνώσης. Η δυνατότητα αυτή παρέχεται από την καρτέλα αυτή, στην οποία εµφανίζεται δυσδιάστατος πίνακας διαγραµµάτων για κάθε ζευγάρι τιµών, µε χρωµατική διάκριση των τιµών του χαρακτηριστικού που αποτελεί την υπό εξέταση κλάση ή σύµφωνα µε οποιοδήποτε χαρακτηριστικό επιλεχθεί, µε επιπλέον ιδιότητες µεταβολής του µεγέθους και των χρωµάτων των καµπύλων και δυνατότητα επιλογής συγκεκριµένου διαγράµµατος για λεπτοµερή ανάγνωση των ζευγών των τι- µών. Ο τρόπος απεικόνισης των δεδοµένων φαίνεται στην Εικόνα

60 Κεφάλαιο 3 Εικόνα 3-10 Οπτικοποίηση σχέσεων µεταξύ χαρακτηριστικών 3.2 Η πλατφόρµα SQL Server 2005 Ακολουθεί η περιγραφή των βασικών χαρακτηριστικών και των δυνατοτήτων που προσφέρει η πλατφόρµα του SQL Server Εισαγωγή Τα συστήµατα βάσεων δεδοµένων χρησιµοποιούνται ολοένα και περισσότερο από πολλούς οργανισµούς και σχεδιαστές. Ένα τέτοιο σύστηµα ο SQL Server 2005 κερδίζει ολοένα και µεγαλύτερο µερίδιο στην αγορά λογισµικού. Πρόκειται για ένα ολοκληρω- µένο περιβάλλον διαχείρισης και ανάλυσης επιχειρησιακών πληροφοριών που συµβάλει στην αποτελεσµατική και αξιόπιστη λειτουργία των οργανισµών και επιχειρήσεων που το χρησιµοποιούν. Η πλατφόρµα αυτή εργασίας, µέσω των εργαλείων που περιλαµβάνει, χρησιµοποιείται για πολλούς σκοπούς µε τους πιο σηµαντικούς: Εξαγωγή, Μετασχηµατισµό και Φόρτωση εδοµένων. Αποθήκες σχεσιακών δεδοµένων. Πολυδιάστατες βάσεις δεδοµένων OLTP και Ανακάλυψη /Εξόρυξη Γνώσης. Υπηρεσίες Ανάλυσης του SQL Server. Υπηρεσίες Αναφοράς. -52-

61 Εργαλεία Ανακάλυψης Γνώσης Η πλατφόρµα αυτή αναπτύχθηκε εξ αρχής ως ένα σχεσιακό σύστηµα βάσεων δεδοµένων µε αρχιτεκτονική πελάτη/διακοµιστή επιτρέποντας την ταυτόχρονη και κατανεµηµένη εργασία πολλαπλών χρηστών στο ίδιο σύστηµα, µε δυνατότητες χρονοπρογραµµατισµού των εργασιών, δυναµικής διαχείρισης της µνήµης µε απουσία περιορισµών στις διαθέσιµες λειτουργίες, που είναι συµβατή µόνο µε τα λειτουργικά συστήµατα της Microsoft. ιατίθεται σε τέσσερις διαφορετικές εκδόσεις Workgroup (Οµάδας Εργασίας), Standard (Βασική), Enterprise (Επιχειρηµατική) και Developer (Προγραµ- µατιστή), οι οποίες περιλαµβάνουν την εγκατάσταση του διακοµιστή και των σταθµών εργασίας και καλύπτουν διαφορετικές ανάγκες. Στην παρούσα εργασία χρησιµοποιήθηκε η έκδοση Standard που παρέχει ένα ολοκληρωµένο πακέτο υπηρεσιών για εκτεταµένες εργασίες πληροφοριών επιχειρήσεων µεσαίου και µεγάλου µεγέθους. Εφόσον είναι ένα σχεσιακό σύστηµα, βασικό εργαλείο του αποτελεί µιας ειδικής µορφή γλώσσα SQL, η Transact SQL,για τον ορισµό και την διαχείριση αντικειµένων µε δυνατότητα µαζικής αποθήκευσης εντολών SQL και αποστολής τους προς τον διακοµιστή, γεγονός που βελτιώνει την απόδοση του συστήµατος και παρέχει µεγαλύτερη ευελιξία στους διαχειριστές. Ένα ακόµη σηµαντικό χαρακτηριστικό του SQL Server είναι η ασφάλεια που προσφέρει για τις βάσεις δεδοµένων και τις διαδικασίες που σχετίζονται µε αυτές. Η προστασία από µη εξουσιοδοτηµένους χρήστες εξασφαλίζεται µέσω ενός συστήµατος πιστοποίησης είτε σε επίπεδο λειτουργικού συστήµατος (Πιστοποίηση Windows) είτε σε επίπεδο πλατφόρµας του SQL Server, µέσω κωδικού πρόσβασης. Το ίδιο επίπεδο ασφάλειας παρέχεται και σε επίπεδο των βάσεων δεδοµένων µέσω του καθορισµού ρόλων και δικαιωµάτων και την ανάθεση τους σε χρήστες. Υπάρχει ακόµη και η δυνατότητα παρακολούθησης και βελτίωσης της απόδοσης του συστήµατος µέσω µεταβολής διάφορων παραγόντων, όπως του λειτουργικό σύστη- µα, του συστήµατος βάσεων δεδοµένων, εφαρµογών βάσεων δεδοµένων ή του υλικού Υπηρεσίες Πλήθος διαφορετικών διακοµιστών, που προσφέρουν πολλές υπηρεσίες διαχείρισης του συστήµατος και των διαθέσιµων δεδοµένων, αποτελούν χρήσιµα εργαλεία της πλατφόρµας. Ορισµένοι διακοµιστές και οι υπηρεσίες που προσφέρουν είναι: Μηχανή Βάσεων εδοµένων (Database Engine). Αποτελεί την βασική υπηρεσία για την αποθήκευση, επεξεργασία και διαχείριση σχεσιακών βάσεων δεδοµένων και την δηµιουργία αποθηκών συγκεντρωτικών δεδοµένων. -53-

62 Κεφάλαιο 3 Υπηρεσίες Ανάλυσης (Microsoft SQL Server 2005 Analysis Services (SSAS)). Μέσω µιας Μηχανής Αναλυτικής Επεξεργασίας και µιας Μηχανής Εξόρυξης Γνώσης παρέχονται υπηρεσίες υποστήριξης σε πολυδιάστατες βάσεις δεδοµένων. Επιτρέπουν την δηµιουργία, διαχείριση και επεξεργασία πολυδιάστατων δοµών από δεδοµένα προερχόµενα από διάφορες πηγές. Παράλληλα, είναι δυνατή η δηµιουργία, οπτικοποίηση και εφαρµογή µοντέλων εξόρυξης γνώσης επιλέγοντας µέσα από ένα πλήθος διαθέσιµων αλγορίθµων. Μέσω του µοντέλου ενοποιηµένων διαστάσεων (UDM) συνδυάζουν λειτουργίες των σχεσιακών µοντέλων δεδοµένων και των µοντέλων δεδοµένων OLAP βελτιώνοντας έτσι την ταχύτητα εκτέλεσης όλων των εργασιών. Υπηρεσίες Ολοκλήρωσης (Microsoft SQL Server 2005 Integration Services (SSIS)). Παρέχουν ένα ολοκληρωµένο περιβάλλον εξαγωγής, φόρτωσης και µετασχηµατισµού δεδοµένων (ETL), το οποίο µπορεί να προσαρµοστεί στις απαιτήσεις. Οι παρεχόµενες υπηρεσίες χρησιµοποιούνται για την αντιγραφή και µετασχηµατισµό των δεδοµένων από οποιαδήποτε πηγή προέλευσης µέσω αρχιτεκτονικής OLE DB, ODBC. Υπηρεσίες Αναφοράς (Microsoft SQL Server 2005 Reporting Services (SSAS)). Οι υπηρεσίες εκθέσεων επιτρέπουν την δηµιουργία εκθέσεων πληροφοριών από δεδο- µένα που προέρχονται από πολλές σχεσιακές και µη πηγές δεδοµένων, που ελέγχονται και ενηµερώνονται κεντρικά. Κατάλληλα εργαλεία επιτρέπουν την απλή παρουσίασης τους, την ενσωµάτωση τους σε Web εφαρµογές ή εφαρµογές των Windows και την συνολική διαχείριση όλων των διαθέσιµων αναφορών και µοντέλων εκθέσεων. Υπηρεσίες Ενηµέρωσης (Microsoft SQL Server 2005 Notification Services (SSNS)). Οι υπηρεσίες ενηµέρωσης επιτρέπουν την δηµιουργία εφαρµογών για την άµεση ή προγραµµατισµένη ταυτόχρονη αποστολή ενηµερωτικών µηνυµάτων σε ενδιαφερό- µενους συνδροµητές, διαδικασία που αποτελεί συνήθης πρακτική πολλών επιχειρήσεων, οργανισµών και ιδρυµάτων. Αναζήτηση πλήρους κειµένου (Full-text Search). Η σχεδίαση ευέλικτων ευρετηρίων ερωτηµάτων βασισµένων σε λέξεις επιτρέπει γλωσσικές αναζητήσεις σε δεδοµένα ολόκληρων λέξεων ή εκφράσεων σε συµφωνία µε τους κανόνες κάθε γλώσσας, γεγονός που διευκολύνει την χρονοβόρα αναζήτηση δεδοµένων σε τεράστιες βάσεις. -54-

63 Εργαλεία Ανακάλυψης Γνώσης Υπηρεσίες Αντιγραφής (Microsoft SQL Server 2005 Replication Services (SSRS)). Οι υπηρεσίες αντιγραφής εξασφαλίζουν το συγχρονισµό και την συνοχή βάσεων δεδοµένων παρέχοντας ένα σύνολο τεχνολογιών για την αντιγραφή και κατανοµή των δεδοµένων σε διάφορες τοποθεσίες και σε συγκεκριµένους χρήστες OLE DB για Εξόρυξη Γνώσης Ακολουθώντας το πρότυπο OLE DB για Εξόρυξη Γνώσης που καθιερώθηκε από την Microsoft, ο SQL Server 2005 αποτελεί πολύτιµο εργαλείο της διαδικασίας ανακάλυψης γνώσης σε δεδοµένα, καθώς οι υπηρεσίες που διαθέτει µπορούν να υλοποιήσουν όλα τα στάδια της, ξεκινώντας από την προ-επεξεργασία και τροποποίηση των δεδοµένων, την δηµιουργία και διαχείριση µοντέλων εξόρυξης, τον έλεγχο της αξιοπιστίας και της απόδοσης τους και καταλήγοντας στην εφαρµογή και την ενηµέρωση τους. Συνδυάζοντας βασικές έννοιες των σχεσιακών βάσεων δεδοµένων και της γλώσσας SQL παρέχει ένα µηχανισµό για την πρόσβαση, συλλογή και εισαγωγή πολλαπλών τύπων δεδοµένων όπως σχεσιακών βάσεων, λογιστικών φύλλων, αρχείων κει- µένου, αποθηκών συγκεντρωτικών δεδοµένων. Βασική ιδέα της διαδικασίας Ανακάλυψης Γνώσης σε Βάσεις εδοµένων µέσω της χρήσης SQL Server είναι η δηµιουργία οµών Εξόρυξης (Mining Structure), οι ο- ποίες αποτελούν µια γενική περιγραφή των δεδοµένων και του τύπου τους, µε πρόσθετες λεπτοµέρειες σχετικά µε τον τρόπο µοντελοποίησης τους, και Μοντέλων Εξόρυξης (Data mining Models). Τα Μοντέλα Εξόρυξης, που µπορούν να θεωρηθούν ως σχεσιακοί πίνακες χαρακτηρίζουν τον ρόλο κάθε µεταβλητής, δηλαδή αν αποτελεί µεταβλητή εισόδου, κλειδί ή αυτή που θα αποτελέσει πρόβλεψη, συνδέονται µε ένα αλγόριθµο µε δυνατότητα µεταβολής των παραµέτρων, εκπαιδεύονται µε ένα σύνολο δεδοµένων εκπαίδευσης και αποθηκεύουν πρότυπα που προκύπτουν και τα οποία µπορεί να χρησιµοποιηθούν για απλή αναφορά ή για πρόβλεψη. Είναι φυσικό σε κάθε δοµή εξόρυξης να συµπεριλαµβάνονται πολλοί διαφορετικοί αλγόριθµοι, οι οποίοι όµως αναφέρονται στο ίδιο σύνολο δεδοµένων και χαρακτηριστικών που ορίστηκε στην οµή. Η υλοποίηση των παραπάνω µπορεί να γίνει χρησιµοποιώντας τα γραφικά περιβάλλοντα που προσφέρουν δύο από τα εργαλεία της πλατφόρµας αυτής ο SQL Server Management Studio και ο SQL Server Business Intelligence Development Studio. -55-

64 Κεφάλαιο SQL Server Management Studio Το ολοκληρωµένο γραφικό περιβάλλον του Microsoft Management Studio αποτελεί για τους διαχειριστές και χρήστες το βασικό εργαλείο πρόσβασης, διαχείρισης και διαµόρφωσης του συστήµατος και των υπηρεσιών που προσφέρει η πλατφόρµα. Οποιαδήποτε εργασία στο περιβάλλον αυτό προϋποθέτει την σύνδεση σε κάποιον διακοµιστή ο οποίος δηλώνεται κατά την εκκίνηση της εφαρµογής. Η επιφάνεια εργασίας αποτελείται από αρκετά παράθυρα αντικειµένων καθένα από τα οποία διαχειρίζεται τα διαφορετικά χαρακτηριστικά και λειτουργίες της εφαρµογής. Στην Εικόνα 3-11 φαίνεται η εικόνα αρχικοποίησης και τα τµήµατα της. Εικόνα 3-11 SQL Server Management Studio Το παράθυρο Register Services δίνει την δυνατότητα εύρεσης όλων των διαθέσιµων και εγκατεστηµένων διακοµιστών, αλλά επιτρέπει την προσθήκη νέων διακοµιστών, οµάδων διακοµιστών ή την διαγραφή κάποιων. Το παράθυρο Object Explorer παρουσιάζει µε µορφή δενδρικού καταλόγου και δίνει την δυνατότητα διαχείρισης των περιεχοµένων του διακοµιστή στον οποίο έχει πραγµατοποιηθεί σύνδεση (Database engine, Analysis Services κα) µε βασικές λειτουργίες την δηµιουργία και διαχείριση βάσεων δεδοµένων και πινάκων, αλλά και την διαχείριση των χαρακτηριστικών των διακοµιστών. -56-

65 Εργαλεία Ανακάλυψης Γνώσης Το παράθυρο Summary στο οποίο εµφανίζονται επεξεργαστές ερωτηµάτων µετά την επιλογή της αντίστοιχης εντολής, όπου δίνεται η δυνατότητα συγγραφής, εκτέλεσης και αποθήκευσης κώδικα Transact- SQL, αλλά και το αποτέλεσµα οποιασδήποτε ενέργειας πάνω σε ένα επιλεγµένο αντικείµενο των διαθέσιµων υπηρεσιών. Το παράθυρο Solution Explorer χρησιµοποιείται ως πλατφόρµα για την διαχείριση έργων ή λύσεων που περιέχουν αποκλειστικά κώδικα SQL ή MDX ή XML. Στην διαδικασία ανακάλυψης γνώσης το γραφικό αυτό περιβάλλον χρησιµοποιείται για την διαχείριση και επεξεργασία των µοντέλων που έχουν ήδη δηµιουργηθεί από το περιβάλλον Business Intelligence Development Studio. Οι σχετικές δραστηριότητες που µπορούν να υλοποιηθούν είναι αυτές της δηµιουργίας, ανάγνωσης, επεξεργασίας και διαγραφής των αντικειµένων µοντέλων εξόρυξης γνώσης (Data mining models), συγγραφής κώδικα και δηµιουργίας ερωτηµάτων πρόβλεψης Business Intelligence Development Studio Στον τοµέα της επιχειρηµατικής νοηµοσύνης, το εργαλείο Business Intelligence Development Studio, παρέχει µια πλατφόρµα σχεδίασης ολοκληρωµένων λύσεων εξόρυξης γνώσης σε βάσεις δεδοµένων συνδυάζοντας πολλές από τις υπηρεσίες που προσφέρει ο SQL Server, όπως Υπηρεσίες Ανάλυσης, Υπηρεσίες Ολοκλήρωσης και Υπηρεσίες Α- ναφοράς, µε επιπλέον τα στοιχεία του ελέγχου, ανάπτυξης και αποσφαλµάτωσης πηγαίου κώδικα. Εικόνα 3-12 Επιλογή Εργασίας -57-

66 Κεφάλαιο 3 Οποιαδήποτε διαδικασία δηµιουργίας µοντέλων εξόρυξης αποτελεί ξεχωριστή λύση (solution) και υλοποιείται από τις Υπηρεσίες Ανάλυσης µε την προσθήκη συµπληρω- µατικών έργων µετασχηµατισµού των δεδοµένων ή οπτικής απεικόνισης των αποτελεσµάτων. Στην Εικόνα 3-12 φαίνεται το πλαίσιο επιλογής του έργου που θα υλοποιηθεί. ηµιουργία Μοντέλων Εξόρυξης (Analysis Services) Το φιλικό γραφικό περιβάλλον του εργαλείου αυτού διευκολύνει την δηµιουργία µοντέλων εξόρυξης γνώσης. Η δοµή της επιφάνειας εργασίας είναι όµοια µε αυτή του Management Studio, όπως φαίνεται και στην Εικόνα 3-13, µε κύρια πλαίσια εργασίας το Solution Designer µε το οποίο γίνεται διαχείριση όλων των λύσεων και των έργων, το Designer Window µε το οποίο είναι ορατά, επεξεργάσιµα και διαχειρίσιµα όλα τα αντικείµενα της λύσης και των έργων. Εικόνα 3-13 Business Intelligence Studio Επιλέγοντας µεταξύ εργασίας άµεσης και συνεχούς σύνδεσης µε τον διακοµιστή (immediate mode) ή εργασίας στον τοπικό υπολογιστή και µεταφορά των αρχείων σε µορφή XML στον διακοµιστή η διαδικασία είναι όµοια: απαραίτητος είναι ο ορισµός της πηγής δεδοµένων (Data source) µέσω ενός αλφαριθµητικού που υποδηλώνει την προέλευση των δεδοµένων µε συµπληρωµατικές λεπτοµέρειες του τρόπου σύνδεσης. Ακολουθεί ο προσδιορισµός του Data Source View µε πληροφορίες σχετικά µε το υπο- -58-

67 Εργαλεία Ανακάλυψης Γνώσης σύνολο των πινάκων της πηγής δεδοµένων που συµπεριλαµβάνονται στην δηµιουργία των νέων µοντέλων εξόρυξης. Μάλιστα είναι δυνατή η απεικόνιση των πινάκων και των µεταξύ τους σχέσεων και η µεταβολή των ιδιοτήτων τους. Για την δηµιουργία των µοντέλων εξόρυξης διακρίνονται δύο στάδια: η δηµιουργία µιας δοµής µοντέλου (mining structure) που περιγράφει το σύνολο των χαρακτηριστικών που θα συµπεριλαµβάνονται στο µοντέλο και η δηµιουργία µοντέλων εξόρυξης (mining models) στα οποία εφαρµόζονται, στο σύνολο των δεδοµένων, οι αλγόριθµοι εξόρυξης γνώσης που υποστηρίζονται από την πλατφόρµα αυτή. Η υλοποίηση των παραπάνω αυτών βηµάτων γίνεται από έναν οδηγό το Data Mining Wizard. Στην Εικόνα 3-14 φαίνονται οι βασικές οθόνες του οδηγού. Εικόνα 3-14 a. Επιλογή αλγορίθµου και b. Επιλογή χαρακτηριστικών Την δηµιουργία των µοντέλων ακολουθούν οι διαδικασίες ανάγνωσης, επεξεργασίας και σύγκρισης των µοντέλων από το πλαίσιο εργασίας Data Mining Designer που όπως φαίνεται και στην Εικόνα 3-15 επιτρέπει την εκτέλεση διαφορετικών λειτουργιών µέσω πέντε διαφορετικών καρτελών. Συνοπτικά, η καρτέλα Mining Structure Editor επιτρέπει την προσθήκη ή την διαγραφή στηλών από τις δοµές εξόρυξης ή την µεταβολή των ιδιοτήτων τους. Η καρτέλα Mining Models επιτρέπει την εργασία και δηµιουργία πολλαπλών µοντέλων σε δοµές εξόρυξης επιλέγοντας αλγόριθµους και ρυθµίζοντας τις παραµέτρους τους. Την δηµιουργία των µοντέλων ακολουθεί η απεικόνισή τους µέσω κατάλληλων viewers, που είναι διαφορετικοί για κάθε αλγόριθµο και προσβάσιµοι από την καρτέλα Model Views. -59-

68 Κεφάλαιο 3 Εικόνα 3-15 Data Mining Designer Η εφαρµογή πλήθος µοντέλων εξόρυξης γνώσης στην ίδια δοµή κάνει επιτακτική την ανάγκη ελέγχου της απόδοσης των µοντέλων και της σύγκρισης τους για την εύρεση αυτού που περιγράφει και µοντελοποιεί καλύτερα το σύνολο των δεδοµένων. Η διαδικασία αυτή υλοποιείται µέσω της καρτέλας Mining Accuracy Chart στην οποία είναι δυνατή η διαγραµµατική απεικόνιση και σύγκριση των µοντέλων και η παρουσίαση ε- νός Πίνακα Ταξινόµησης µε το πλήθος των ορθών και λανθασµένων κατηγοριοποιήσεων. Τέλος, η καρτέλα Mining Model Prediction Builder δίνει στον διαχειριστή την δυνατότητα δηµιουργίας ερωτηµάτων και αποθήκευσης των αποτελεσµάτων µε διαδικασία παρόµοια µε αυτή της Access. Η παρουσίαση των αποτελεσµάτων από την εκτέλεση των ερωτηµάτων είναι δυνατή και από την χρήση των Υπηρεσιών Αναφοράς, οι ο- ποίες δηµιουργούν αναφορές που περιλαµβάνουν κείµενο και γραφικά Αλγόριθµοι Εξόρυξης Γνώσης του SQL Server Ο διακοµιστής Υπηρεσιών Ανάλυσης της πλατφόρµας SQL Server παρέχει πλήθος αλγορίθµων για την σχεδίαση µοντέλων εξόρυξης γνώσης και δίνει την δυνατότητα ενσω- µάτωσης αλγορίθµων που έχουν δηµιουργηθεί από ανεξάρτητες πηγές. Οι αλγόριθµοι αυτοί καλύπτουν όλες τις εργασίες εξόρυξης γνώσης σε βάσεις δεδοµένων και µπορούν να χρησιµοποιηθούν για µια ή περισσοτέρων εκ των εργασιών της κατηγοριοποίησης, παλινδρόµησης, συσταδοποίησης, κανόνων συσχέτισης και ανάλυσης ακολουθιών. Η επιλογή του σωστού αλγορίθµου για την επίλυση ενός προβλήµατος είναι µείζονος σηµασίας και προϋποθέτει γνώση του αντικειµένου και επαναλαµβανόµενες µετα- -60-

69 Εργαλεία Ανακάλυψης Γνώσης βολές των παραµέτρων των αλγορίθµων. Ακολουθεί περιγραφή των αλγορίθµων που περιέχονται στον SQL Server. Microsoft Decision Trees Algorithm Ο αλγόριθµος των ένδρων Απόφασης είναι αυτός που χρησιµοποιείται περισσότερο σε οποιαδήποτε διαδικασία ανακάλυψης γνώσης. Μπορεί να χρησιµοποιηθεί τόσο για την εργασία της κατηγοριοποίησης όσο και της παλινδρόµησης, τόσο σε διακριτά όσο και συνεχή χαρακτηριστικά. Πρόκειται για ένα υβριδικό αλγόριθµο που αναπτύχθηκε από την οµάδα της Microsoft, ο οποίος διαχωρίζει επαναληπτικά τα δεδοµένα σε υποσύνολα οµοιογενών χαρακτηριστικών ως προς την µεταβλητή πρόβλεψης. Η επιλογή του χαρακτηριστικού µε βάση το οποίο θα διαχωριστούν τα δεδοµένα βασίζεται σε δύο µεγέθη: την εντροπία και το Bayesian Score. Τα δένδρα που προκύπτουν µπορούν να εκφραστούν ως κανόνες και διαφέρουν ως προς τον αριθµό των κόµβων και το σχήµα τους ανάλογα µε τις ρυθµίσεις των παραµέτρων. Επειδή η φάση του κλαδέµατος δεν υποστηρίζεται από τον αλγόριθµο αυτό, το µέγεθος του δένδρου και η αποφυγής της υπέρ-µοντελοποίησης επιτυγχάνονται µε την ρύθµιση κατάλληλων παραµέτρων. Οι παράµετροι οι οποίες επηρεάζουν την επίδοση του αλγορίθµου και µπορούν να µεταβληθούν φαίνονται στον Πίνακας 3-1. Πίνακας 3-1Παράµετροι αλγορίθµου Decision Trees Παράµετρος Complexity_penalty Minimum_support Score_Method Split_Method Maximum_Input _Attribute Maximum_ Output _ Attribute Force Repressor Λειτουργία Ρυθµίζει το µέγεθος του δένδρου. Ελάχιστο µέγεθος κάθε κόµβου φύλλου. Τρόπος υπολογισµού του βαθµού διαχωρισµού των δένδρων: Bayesian Score, Εντροπία. Προσδιορίζει αν το δένδρο είναι δυαδικό ή όχι. Μεταβλητή κατώφλι για τον αριθµό των παραµέτρου εισόδου. Μεταβλητή κατώφλι για τον αριθµό των παραµέτρου εξόδου. Χαρακτηριστική παράµετρος των δένδρων παλινδρόµησης. Για την απεικόνιση των αποτελεσµάτων εφαρµογής του αλγορίθµου ο viewer περιλαµβάνει δύο διαφορετικές καρτέλες: Στην καρτέλα Dependency Net υπάρχει απεικόνιση των συσχετίσεων ανάµεσα στις µεταβλητές εισόδου και πρόβλεψης, ενώ στην καρτέλα Decision Tree απεικονίζονται τα δένδρα τα οποία έχουν προκύψει για κάθε µετα- -61-

70 Κεφάλαιο 3 βλητή πρόβλεψης µε πολλά εργαλεία αλλαγής του πλήθους των καταστάσεων των µεταβλητών, µεταβολής του χρώµατος των κόµβων ανάλογα µε την συχνότητα εµφάνισης κάποιον τιµών και εµφάνιση λεπτοµερειών σχετικά µε τα περιεχόµενα του κάθε κόµβου. Στην Εικόνα 3-16 φαίνονται οι δυνατότητες οπτικοποίησης του αλγόριθµου. Εικόνα 3-16 Decision Tree Viewer Microsoft Linear Regression Παραλλαγή του αλγορίθµου Decision Tress αποτελεί ο αλγόριθµος Microsoft Linear Regression Algorithm που χρησιµοποιείται για την ανακάλυψη συσχετίσεων µεταξύ συνεχών χαρακτηριστικών. Η διαφοροποίηση του έγκειται στο γεγονός της µη διάσπασης των δεδοµένων στους κόµβους µε αποτέλεσµα η φόρµουλα παλινδρόµησης να υ- πολογίζεται στο σύνολο των δεδοµένων επιτυγχάνοντας έτσι την γραµµική παλινδρό- µηση. Microsoft Clustering Algorithm Πρόκειται για έναν αλγόριθµο συσταδοποίησης για τον προσδιορισµό οµάδων ανάµεσα σε δεδοµένα µε κοινά χαρακτηριστικά. Βασική ιδέα του αλγορίθµου αυτού είναι ένας πρώτος προσδιορισµός οµάδων στοιχείων µε κοινά χαρακτηριστικά και συνεχή αναπροσαρµογή των οµάδων µε στόχο την καλύτερη περιγραφή των δεδοµένων ώσπου να γίνει ο βέλτιστος διαχωρισµός. -62-

71 Εργαλεία Ανακάλυψης Γνώσης ύο διαφορετικές µέθοδοι υποστηρίζονται για τον προσδιορισµό της ορθής κατανοµής των δεδοµένων στις συστάδες: η µέθοδος των Κ-µέσων που χρησιµοποιεί το µέτρο της απόστασης των σηµείων από το κέντρο των οµάδων µε αποτέλεσµα κάθε ση- µείο να ανήκει αποκλειστικά σε µια οµάδα. Η µέθοδος Expectation Maximization (EM) χρησιµοποιεί πιθανολογικό µέγεθος για τον προσδιορισµό της οµάδας που ανήκει κάθε στοιχείο µε αποτέλεσµα την ύπαρξη επικαλυπτόµενων οµάδων. Πρόκειται για το µόνο αλγόριθµο που προσφέρει ο SQL Server, στον οποίο δεν χρειάζεται ο προσδιορισµός της µεταβλητής πρόβλεψης καθώς όλες οι µεταβλητές χρησιµοποιούνται για τον προσδιορισµό των οµάδων, ο οποίος διαχειρίζεται και διακριτά χαρακτηριστικά. Οι σηµαντικότεροι παράµετροι που ρυθµίζουν την συµπεριφορά του αλγορίθµου φαίνονται στον Πίνακας 3-2. Πίνακας 3-2 Παράµετροι αλγόριθµου Clustering Παράµετρος Clustering_Methods Cluster_Count Minimum_Support Modeling_Cardinality Stopping Tolerance Sample Size Λειτουργία Μέθοδος προσδιορισµού της ιδιότητας µέλους συστάδων. Πλήθος οµάδων που θα δηµιουργηθούν. Έλεγχος και απόρριψη κενής οµάδας. Μέγιστο πλήθος υποψήφιων µοντέλων. Μέγιστο πλήθος αλλαγών για την συνέχιση ή ολοκλήρωση του µοντέλου. Αριθµός περιπτώσεων που χρησιµοποιούνται σε κάθε επανάληψη της διαδικασίας. Ο Viewer δίνει την δυνατότητα απεικόνισης, µε κάθε λεπτοµέρεια, των οµάδων και των χαρακτηριστικών που αυτές περιέχουν µέσα από τέσσερις διαφορετικές καρτέλες. Η καρτέλα Cluster Diagram απεικονίζει όλες τις οµάδες που έχουν προκύψει από το µοντέλο µε την ένταση του χρώµατος των συνδέσµων να απεικονίζει τον βαθµό της µεταξύ τους οµοιότητας. Η καρτέλα Cluster Profiles δίνει µια συνολική εικόνα της κατανοµής των χαρακτηριστικών στις οµάδες. Η καρτέλα Cluster Characteristics παρουσιάζει για κάθε επιλεγµένη οµάδα το σύνολο των χαρακτηριστικών ταξινοµηµένων µε φθίνουσα σειρά της πιθανότητας εµφάνισης στην οµάδα. Τέλος, µε την καρτέλα Cluster Discrimination επιτυγχάνεται σύγκριση µεταξύ δύο επιλεγµένων οµάδων. Στην Εικόνα 3-17 φαίνονται οι βασικές καρτέλες του Cluster viewer. -63-

72 Κεφάλαιο 3 Εικόνα 3-17 Cluster Viewer Microsoft Naïve Bayes Algorithm Αυτός ο αλγόριθµος κατηγοριοποίησης, που αποτελεί εφαρµογή του αλγορίθµου Bayes Rules, χρησιµοποιείται τόσο για την δηµιουργία προβλέψεων όσο και για λεπτοµερή εξερεύνηση των δεδοµένων και των χαρακτηριστικών τους µε προϋπόθεση την ύπαρξη διακριτών µεταβλητών. Με την προϋπόθεση ότι οι µεταβλητές είναι ανεξάρτητες µεταξύ τους υπολογίζει την υπό συνθήκη πιθανότητα ανάµεσα στις µεταβλητές εισόδου και αυτές που θα προβλεφτούν. Επειδή οι διαδικασίες αυτές είναι πολύ απλές, η υπολογιστή ισχύ είναι ανάλογη του γινοµένου του πλήθους των µεταβλητών εισόδου και πρόβλεψης. Οι σηµαντικότερες παράµετροι οι οποίες επηρεάζουν την απόδοση του αλγορίθµου φαίνονται στον Πίνακας 3-3. Πίνακας 3-3 Παράµετροι αλγορίθµου Naïve Bayes Παράµετρος Maximum_Imput_Values Maximum_Output_Values Minimum_Dependency_ Probability Maximun_States Λειτουργία Μέγιστος αριθµός µεταβλητών εισόδου για εκπαίδευση µοντέλου. Μέγιστος αριθµός µεταβλητών εξόδου για την εκπαίδευση του µοντέλου. Μέτρο του βαθµού πρόβλεψης µιας µεταβλητής εξόδου σε σχέση µε µια µεταβλητή εισόδου. Μέγιστος αριθµός καταστάσεων χαρακτηριστικών. -64-

73 Εργαλεία Ανακάλυψης Γνώσης Για την οπτική αναπαράσταση των δεδοµένων, ο viewer παρέχει τέσσερις διαφορετικές καρτέλες. Η καρτέλα Dependency Net παρουσιάζει τις εξαρτήσεις ανάµεσα στις µεταβλητές εισόδου και τις µεταβλητές πρόβλεψης. Η καρτέλα Attribute Profiles παρουσιάζει σε µορφή πίνακα τις σχέσεις ανάµεσα στις διάφορες καταστάσεις των µεταβλητών εισόδου και των διάφορων καταστάσεων της µεταβλητής πρόβλεψης. Η καρτέλα Attribute Characteristics επιτρέπει την παρουσίαση όλων των περιπτώσεων στις ο- ποίες εντοπίζεται µια συγκεκριµένη τιµή της µεταβλητής πρόβλεψης. Τέλος, η καρτέλα Attribute Discrimination επιτρέπει την σύγκριση µετάξυ δύο διαφορετικών τιµών µιας µεταβλητής. Στην Εικόνα 3-18 φαίνονται οι καρτέλες αυτές. Εικόνα 3-18 Bayes Viewer Microsoft Association Rules Ο αλγόριθµος δηµιουργίας κανόνων συσχέτισης που υλοποιήθηκε ανήκει στην κατηγορία του A priori αλγόριθµου µε κύρια χαρακτηριστικά την δηµιουργία συχνών συνόλων αντικειµένων (itemeset) και την δηµιουργία κανόνων. Οι παράµετροι οι οποίες µεταβαλλόµενες επηρεάζουν την επίδοση του αλγόριθµου φαίνονται στον Πίνακας

74 Κεφάλαιο 3 Πίνακας 3-4 Παράµετροι Αλγόριθµου Association Rules Παράµετρος Minimum_Support Maximum_Support Minimum_item_size Minimum_Item_Count Minimum_Probability Optimized_prediction _Count Λειτουργία Ελάχιστος αριθµός περιπτώσεων εµφάνισης ενός itemeset. Μέγιστος αριθµός περιπτώσεων εµφάνισης ενός itemeset. Ελάχιστος αριθµός χαρακτηριστικών ανά itemset. Μέγιστος αριθµός itemset που προκύπτουν. Ελάχιστη πιθανότητα αποδοχής ενός κανόνα. Πλήθος χαρακτηριστικών πρόβλεψης. O Viewer του αλγορίθµου αυτού δίνει την δυνατότητα προσδιορισµού των χαρακτηριστικών των itemset και τον προσδιορισµό των κανόνων για αυτά µέσω τριών καρτελών: Η καρτέλα Itemsets παρουσιάζει λίστα των συχνών συνόλων που έχουν προκύψει µε λεπτοµέρειες σχετικά µε το µέγεθος του κάθε συνόλου και την υποστήριξη του. Η καρτέλα Rules παρουσιάζει λίστα των αποδεκτών κανόνων µε λεπτοµέρειες σχετικά µε την σηµαντικότητα και την εµπιστοσύνη τους. Στην καρτέλα Dependency Net κάθε κόµβος αναπαριστάνει ένα στοιχείο και φαίνονται οι κανόνες που έχουν προκύψει. Στην εικόνα φαίνονται οι καρτέλες του Εικόνα Εικόνα 3-19 Association Rules Viewer -66-

75 Εργαλεία Ανακάλυψης Γνώσης Microsoft Neural Network Algorithm Ο αλγόριθµος αυτός χρησιµοποιείται για την δηµιουργία µοντέλων κατηγοριοποίησης και παλινδρόµησης, δηµιουργώντας ένα πολυεπίπεδο δίκτυο νευρώνων αποτελούµενο από κόµβους τριών επιπέδων. Η διαδικασία της πρόβλεψης συνίσταται στην επεξεργασία των τιµών των µεταβλητών εισόδου από τους κόµβους του κρυφού επιπέδου υπολογίζοντας το άθροισµα τους και την ενεργοποίηση των κόµβων εξόδου που απεικονίζουν τις τελικές τιµές των µεταβλητών πρόβλεψης, λαµβάνοντας πάντα υπόψη τα βάρη των µεταβλητών εισόδου που προσδιορίζουν την σηµαντικότητα τους για την τελική πρόβλεψη. Τόσο η πολυπλοκότητα όσο και ο έλεγχος της ορθότητας του αλγορίθµου υλοποιείται µέσω των παραµέτρων που φαίνονται στον Πίνακας 3-5. Πίνακας 3-5 Παράµετροι αλγορίθµου Neural Network Παράµετρος Hidden_node_ratio Hold_out_percentage Maximum_states Maximum_input_values Maximum_output_values Sample_Size Λειτουργία Πλήθος κρυφών κόµβων Ποσοστό δεδοµένων για έλεγχο ακριβείας Μέγιστος αριθµός καταστάσεων µεταβλητών Μέγιστος αριθµός µεταβλητών εισόδου Μέγιστος αριθµός µεταβλητών εξόδου Ποσοστό δεδοµένων για εκπαίδευση του µοντέλου Η συνάρτηση συνδυασµού βασίζεται στο άθροισµα των χαρακτηριστικών, ενώ η συνάρτηση ενεργοποίησης στην σιγµοειδή συνάρτηση. ιαφορετικός σε σχέση µε τους άλλους viewers εµφανίζεται αυτός του αλγορίθµου των Νευρωνικών δικτύων. Παρουσιάζει την επίδραση του ζεύγους χαρακτηριστικού/τιµής στην µεταβλητή πρόβλεψης. Στην Εικόνα 3-20 φαίνεται η δοµή του. Εικόνα 3-20 Neural Network Viewer -67-

76 Κεφάλαιο 3 Microsoft Logistic Regression Ο αλγόριθµος Microsoft Logistic Regression Algorithm αποτελεί παραλλαγή του αλγορίθµου των νευρωνικών δικτύων. Υλοποιείται µε τον ίδιο ακριβώς τρόπο µε την µόνη διαφορά της απουσίας του κρυφού επιπέδου γεγονός που τον ταυτίζει µε την λογιστική παλινδρόµηση. Αυτό υλοποιείται µε την ρύθµιση της παραµέτρου Hidden Node Ratio σε 0. Αν χρησιµοποιηθεί ο αλγόριθµος Neural Network για την δηµιουργία µοντέλων χωρίς κρυφό κόµβο, το αποτέλεσµα είναι όµοιο. 3.3 Σύγκριση Εργαλείων Παρουσιάζοντας αναλυτικά τα βασικά σηµεία των δύο διαφορετικών προγραµµάτων, του Weka και του SQL Server 2005, σχετικά µε την χρήση τους στην διαδικασία ανακάλυψης γνώσης σε βάσεις δεδοµένων προκύπτουν θετικά συµπεράσµατα σχετικά µε την χρησιµότητα τους. Πρόκειται για αξιόπιστα εργαλεία µε παρόµοιες δυνατότητες καθένα κατάλληλο όµως για διαφορετικούς σκοπούς. Το Weka, ως µια γνήσια ανοιχτού κώδικα βιβλιοθήκη αλγορίθµων, γραµµένη σε γλώσσα Java, αποτελεί ένα ακαδηµαϊκό/ερευνητικό έργο που σε σύγκριση µε τα υπόλοιπα εργαλεία εξόρυξης γνώσης παρέχει µια τεράστια ποικιλία αλγορίθµων για την εκτέλεση παρόµοιων εργασιών, µε δυνατότητες καλύτερης προσαρµογής στα δεδοµένα εξαιτίας του πλήθους και της ευκολίας διαχείρισης των παραµέτρων τους. Υποστηρίζει µάλιστα όλα τα στάδια της διαδικασίας ανακάλυψης γνώσης παρέχοντας κατάλληλα εργαλεία, γνωστά ως φίλτρα, για την προετοιµασία των δεδοµένων και τον µετασχηµατισµό τους. Τα στάδια αυτά πραγµατοποιούνται σε ένα αντίγραφο της βάσης δεδοµένων χωρίς όµως να υπάρχει δυνατότητα απευθείας εκτέλεσης ερωτηµάτων στην βάση για καθοδήγηση της όλης διαδικασίας. Βέβαια βασικό στοιχείο που περιορίζει τις δυνατότητες του Weka είναι η αδυναµία συγγραφής κώδικα SQL για την επεξεργασία των δεδοµένων, η οποία όµως αντισταθµίζεται µέσω ενός φίλτρου που επιτρέπει την συγγραφή εκφράσεων που περιέχουν χαρακτηριστικά του συνόλου των δεδοµένων. Για µια επιτυχηµένη διαδικασία χρειάζεται η άµεση καθοδήγηση ενός ειδικού στον τοµέα ανακάλυψης γνώσης και στο τοµέα ενδιαφέροντος µιας και το περιβάλλον δεν είναι έντονα αλληλεπιδραστικό. Σηµαντικό πλεονέκτηµα αποτελεί και η συµβατότητα του µε διάφορες πλατφόρµες λειτουργικού συστήµατος και η δυνατότητα εκτέλεσης του ως αυτόνοµης εφαρµογής. -68-

77 Εργαλεία Ανακάλυψης Γνώσης Βασικό στάδιο της δηµιουργίας µοντέλων αποτελεί και η αξιολόγηση τους. Το Weka παρέχει µια ποικιλία τέτοιων µεθόδων αξιολόγησης της ορθότητας και της ακρίβειάς τους. Ο έλεγχος µπορεί να γίνει στο σύνολο των δεδοµένων εκπαίδευσης του µοντέλου, σε ένα νέο σύνολο δεδοµένων ελέγχου ή µε την χρήση της στατιστικής µεθόδου crossvalidation. Ωστόσο όµως, µειονέκτηµα αποτελεί η αδυναµία απεικόνισης, στο ίδιο διάγραµµα, διαφόρων καµπύλων απόδοσης διαφορετικών µοντέλων για σύγκριση της ποιότητα τους το οποίο αντισταθµίζεται από την παρουσία του Πίνακα Λαθών (Confusion Matrix). Επιτυχηµένη είναι και η αντιµετώπιση κενών πεδίων καθώς είτε δεν λαµβάνονται υπόψη από τους περισσότερους αλγόριθµους είτε συµπληρώνονται µέσω κατάλληλου φίλτρου. Καθώς αποτελεί µια ανοιχτού κώδικα βιβλιοθήκη αλγορίθµων παρέχει την δυνατότητα δηµιουργίας αλγορίθµων κατηγοριοποίησης προσαρµοσµένων στις απαιτήσεις και στις ιδιαιτερότητες κάθε προβλήµατος µέσω της συγγραφής κώδικα java. Όλα τα χαρακτηριστικά σε µια συλλογή δεδοµένων δεν επηρεάζουν στον ίδιο βαθ- µό το χαρακτηριστικό/κλάση. Η αξιολόγηση και ο εντοπισµός σηµαντικών και σχετικών χαρακτηριστικών µε το χαρακτηριστικό/κλάση είναι ένα από τα βασικά πλεονεκτήµατα της πλατφόρµας αυτής που σε συνδυασµό µε την δυνατότητα οπτική αναπαράσταση της σχέσης µεταξύ των χαρακτηριστικών αυτών αποτελούν σηµαντικά εργαλεία για την κατανόηση των δεδοµένων και την δηµιουργία αξιόπιστων µοντέλων πρόβλεψης και περιγραφής. Βασικό όµως µειονέκτηµα του περιβάλλοντος αυτού είναι η ανάγκη µετατροπής των δεδοµένων και αποθήκευσης των αποτελεσµάτων σε ένα αρχείο συγκεκριµένης µορφής (ARFF) για να είναι δυνατή η παραπέρα επεξεργασία, µε περιορισµένες δυνατότητες υποστήριξης εισαγωγής δεδοµένων άλλων µορφών µέσω κατάλληλων προγραµµάτων και η άµεση ανάγνωση αρχείων τύπου ARFF από URL διευθύνσεις και βάσεων δεδοµένων που υποστηρίζουν την αρχιτεκτονική OLE DB αφού προηγηθούν κατάλληλες ρυθµίσεις κατά την εγκατάσταση του. Βέβαια, ένα ακόµη µειονέκτηµα είναι η αδυναµία της ταυτόχρονης διαχείρισης µεγάλου όγκου δεδοµένων λόγω πεπερασµένης µνήµης. Ο SQL Server αποτελεί ένα ολοκληρωµένο περιβάλλον αρχιτεκτονικής πελάτη/εξυπηρετητή, που µπορεί να φανεί πολύτιµο εργαλείο επιχειρηµατικής νοηµοσύνης. Αποτελεί ένα αλληλεπιδραστικό σχεσιακό σύστηµα βάσεων δεδοµένων, συµβατό µόνο µε λειτουργικά συστήµατα της Microsoft, που επιτρέπει την δηµιουργία και διαχείριση -69-

78 Κεφάλαιο 3 βάσεων δεδοµένων και αποθηκών συγκεντρωτικών δεδοµένων, την δηµιουργία σχετικών εφαρµογών, την ανάπτυξη µοντέλων εξόρυξης γνώσης και την ενσωµάτωσής τους σε υπάρχουσες ή νέες εφαρµογές, διαδικασίες που µπορούν να υλοποιηθούν άµεσα στην βάση δεδοµένων ή σε ένα αντίγραφο αυτής και που διευκολύνονται κατά πολύ από την έντονη αλληλεπίδραση που προσφέρει το σύστηµα. Μάλιστα πολύ σηµαντικό είναι και το εργαλείο που παρέχει για την οπτική αναπαράσταση των µοντέλων που έ- χουν προκύψει µε διάφορες µορφές αναπαράστασης ανάλογα µε τον αλγόριθµό υλοποίησης των µοντέλων. Το πλήθος των διαθέσιµων αλγορίθµων είναι πολύ περιορισµένο σε σχέση µε το πρόγραµµα Weka, µόνο που είναι πολύ µεγαλύτερο το µέγεθος των δεδοµένων που µπορεί να διαχειριστεί καθώς είναι κατάλληλο για την επεξεργασία βάσεων εκατοµµυρίων εγγραφών. Σηµαντικό πλεονέκτηµα αποτελεί και το γεγονός υποστήριξης της εισαγωγής, ενσωµάτωσης και επεξεργασίας διαφορετικών µορφών δεδοµένων, όπως αρχείων excel ή access, µέσω του προτύπου OLE DB, που υλοποιούνται µέσω ενός γραφικού περιβάλλοντος µε την δηµιουργία γραφικών διαγραµµάτων στα οποία συµπεριλαµβάνονται όλες οι διαδικασίες. Η εκτέλεση ερωτηµάτων SQL απευθείας στο σύνολο των δεδοµένων για καλύτερη διαχείριση, µετασχηµατισµό και ανάλυση των δεδοµένων ενισχύει ακόµη περισσότερων τις δυνατότητες της πλατφόρµας αυτής. Σηµαντική είναι και η δυνατότητα αξιολόγησης των µοντέλων µόνο όµως σε ένα ανεξάρτητο σύνολο δεδοµένων αξιολόγησης. Η διαδικασία αυτή όµως ενισχύεται από την δυνατότητα ταυτόχρονης διαγραµµατικής απεικόνισης καµπύλων απόδοσης διαφορετικών µοντέλων για την διευκόλυνση της διαδικασίας εντοπισµού του καλύτερου εξ αυτών. Τέλος, κοινό χαρακτηριστικό και των δύο εφαρµογών αποτελεί το γεγονός της ύ- παρξης κατάλληλων εργαλείων για την δηµιουργία πειραµάτων και της σύγκριση της απόδοσης διαφορετικών αλγορίθµων στο ίδιο σύνολο δεδοµένων. -70-

79 Ανακάλυψη Γνώσης σε Ιατρικά εδοµένα 4 Ανακάλυψη Γνώσης σε Ιατρικά εδοµένα Ο τοµέας της Υγείας, σε παγκόσµιο επίπεδο, έρχεται αντιµέτωπος µε πλήθος οργανωτικών, διαρθρωτικών και λειτουργικών αλλαγών που προέρχονται από την απαίτηση για παροχή ποιοτικότερων υπηρεσιών προς τους πολίτες αλλά και την αποδοτικότερη λειτουργία του όλου συστήµατος. Η εισαγωγή της πληροφορικής στον τοµέα αυτό, αν και ακόµη βρίσκεται σε νηπιακό στάδιο, λόγω περιορισµένης χρηµατοδότησης και απροθυµίας συνεργασίας ε- µπλεκοµένων, έχει συµβάλει σηµαντικά στην συλλογή δεδοµένων ασθενών που αφορούν σε αποτελέσµατα ιατρικών εξετάσεων, διαγνώσεις, φαρµακευτική αγωγή, ιατρικό ιστορικό, τα οποία όµως δεν προσφέρουν καµιά πρόσθετη γνώση και πληροφορία. Σε οργανισµούς παροχής υπηρεσιών ιατρικής περίθαλψης, συνήθης είναι και η τάση συλλογής δεδοµένων που αφορούν στην εύρυθµη λειτουργίας τους, τα οποία µάλιστα προέρχονται από διαφορετικές πηγές: χρεώσεις νοσηλειών και ιατρικών εξετάσεων, δαπάνες προµήθειας νοσοκοµειακού υλικού, δαπάνες µισθοδοσίας προσωπικού που αν αξιοποιηθούν σωστά προσφέρουν γνώση στρατηγικής σηµασίας. Η ικανότητα αλληλεπιδραστικής ανακάλυψης γνώσης στις παραπάνω περιπτώσεις είναι επιτακτική ανάγκη και παρουσιάζει αυξανόµενη ζήτηση. Σε πολλούς οργανισµούς κατάλληλα συστήµατα, σχεδιασµένα µε προσοχή για τον ευαίσθητο χώρο της υγείας, προσφέρουν πρόσθετη γνώση σε ειδικούς, η οποία τις περισσότερες φορές δεν είναι προφανής και η οποία µπορεί να αποτελέσει χρήσιµο εργαλείο στα χέρια ειδικών. Ακολουθεί εφαρµογή αλγορίθµων ανακάλυψης γνώσης σε πραγµατικά ιατρικά δεδοµένα ασθενών που πάσχουν από την νόσο του σακχαρώδους διαβήτη και η αξιολόγηση των αποτελεσµάτων. 4.1 Ανακάλυψη γνώσης και ιαβητικοί Ασθενείς Τα δεδοµένα προέρχονται από το Τακτικό Εξωτερικό Ιατρείο Ενήλικων ιαβητικών Ασθενών του Νοσοκοµείου Παπαγεωργίου. Όλοι οι ασθενείς που προσέρχονται στο ιατρείο αυτό πάσχουν από σακχαρώδη διαβήτη. ιατηρούνται στοιχεία τόσο για δηµο- -71-

80 Κεφάλαιο 4 γραφικές πληροφορίες των ασθενών και το ιατρικό ιστορικό τους σχετικά µε δείκτες κληρονοµικότητας, αλλά και µετρήσεις άλλων αιµατολογικών εξετάσεων σχετικών µε την ασθένεια του σακχαρώδους διαβήτη. Ο σακχαρώδης διαβήτης είναι µία από τις πιο συνηθισµένες και σοβαρές παθήσεις του ανθρώπου. Είναι η τρίτη σε σειρά αιτία θανάτου σε πολλές αναπτυγµένες χώρες, µε συχνότητα εµφάνισης που ξεπερνάει το 7% του πληθυσµού, ενώ σηµαντική είναι και η πρόκληση αναπηρίας κάθε είδους λόγω της δυσµενούς επίδρασης του στα αγγεία του σώµατος. Στη Ελλάδα 1,5 εκατοµµύριο άτοµα πάσχουν από την νόσο αυτή, εκ των ο- ποίων οι 500 χιλιάδες δε γνωρίζουν ότι αντιµετωπίζουν πρόβληµα. Η νόσος αυτή είναι γνωστή από την αρχαιότητα και το όνοµά της το οφείλει στον Έλληνα ιατρό Αρεταίο, ο οποίος µε τον όρο αυτό αναφέρεται σ' ένα από τα κυριότερα συµπτώµατα της νόσου, δηλαδή την πολυουρία (ο όρος " ιαβήτης" σηµαίνει πως το νερό, που ακατάπαυτα πίνει ο άρρωστος για να κατασιγάσει το έντονο αίσθηµα δίψας που έχει, "διαβαίνει", σαν µέσα από ένα σιφώνιο, αναλλοίωτο). Ο Thomas Willis προσθέτει το όνοµα "Σακχαρώδης" στο ιαβήτη (Diabetes Mellitus) για την περιγραφή της γλυκιάς γεύσης ούρων «σαν να είναι ποτισµένα µε µέλι ζάχαρη» σε ασθενείς. Για τον ορισµό του διαβήτη θα µπορούσαµε να πούµε ότι είναι ένα σύνδροµο που χαρακτηρίζεται από τη σχετική ή απόλυτη έλλειψη ινσουλίνης στον οργανισµό, µε αποτέλεσµα τη διαταραχή του µεταβολισµού των υδατανθράκων, των πρωτεϊνών και των λιπών και την αύξηση των επιπέδων γλυκόζης του αίµατος. Υπάρχουν δύο τύποι διαβήτη: Ο τύπος 1 παρουσιάζεται όταν το πάγκρεας δεν παράγει καθόλου ινσουλίνη. Πρόκειται για τον σπανιότερο από τους δύο τύπους (5-10% των διαβητικών) και συνήθως εµφανίζεται στην παιδική ηλικία. Στον διαβήτη τύπου 2 το πάγκρεας παράγει λιγότερη ινσουλίνη απ' όση χρειάζεται είτε η ινσουλίνη που παράγεται έχει µειωµένη δράση. Περίπου 90-95% των διαβητικών έχουν διαβήτη τύπου 2. O σκοπός κάθε θεραπευτικής αγωγής για τον διαβήτη - είτε πρόκειται για δίαιτα, είτε για δισκία είτε για ινσουλίνη- είναι να διατηρούνται τα επίπεδα της γλυκόζης στο αίµα όσο το δυνατόν πιο κοντά στα φυσιολογικά. Στην παρούσα διπλωµατική στόχος είναι να δηµιουργηθούν µοντέλα περιγραφής των δεδοµένων αλλά και πρόβλεψης της λήψης ινσουλίνης ή όχι από τους ασθενείς γιατί πρόκειται για µεταβλητή κατηγοριοποίησης των ασθενών που επηρεάζει τόσο τα χαρακτηριστικά τους όσο και την αντιµετώπιση του προβλήµατος τους, χρησιµοποιώντας δύο διαφορετικά εργαλεία και σύγκριση-αξιολόγηση των αποτελεσµάτων τους. -72-

81 Ανακάλυψη Γνώσης σε Ιατρικά εδοµένα Πρέπει να αναφέρουµε ότι το στάδιο αυτό της εύρεσης και συλλογής των δεδοµένων ήταν ένα από τα πιο δύσκολα στάδια εξαιτίας τριών βασικών προβληµάτων: εντοπίστηκε απροθυµία παροχής δεδοµένων από πολλά νοσοκοµεία λόγω του ιατρικού α- πορρήτου των ασθενών επειδή επρόκειτο για αυστηρά ιδιωτικές και ευαίσθητες πληροφορίες, εντοπίστηκε επίσης αδυναµία παροχής πληροφοριών, διότι η πλειοψηφία των ελληνικών δηµόσιων νοσοκοµείων δεν διατηρούν ηλεκτρονικό ιατρικό φάκελο ασθενών. Τέλος, οι περισσότερες βάσεις δεδοµένων που βρέθηκαν ήταν ακατάλληλες λόγω των πολλών κενών πεδίων εξαιτίας συµπλήρωσης από µη εξειδικευµένο προσωπικό µε αποτέλεσµα µη ποιοτικές πληροφορίες. 4.2 Περιγραφή εδοµένων Όπως έχει αναφερθεί τα δεδοµένα αναφερόταν σε δηµογραφικά στοιχεία ασθενών και ιατρικό ιστορικό τους από άποψη κληρονοµικότητας και σε µετρήσεις εργαστηριακών εξετάσεων σχετικών µε την ασθένεια του σακχαρώδους διαβήτη. Στην αρχική µορφή τα δεδοµένα που υπήρχαν σε ένα αρχείο excel είναι: CODE: Αύξων αριθµός εγγραφής που δεν µεταφέρει καµιά ουσιαστική πληροφορία απλά χρησιµοποιείται για την µοναδική αναγνώριση κάθε εγγραφής. EPAGGELMA: Πεδίο χαρακτήρων που περιγράφει αν ο ασθενής εργάζεται ή όχι. Μπορεί να πάρει δύο διακριτές τιµές: 1 αν ο ασθενής εργάζεται και 0 αν ο ασθενής δεν εργάζεται. AGE: Πεδίο αριθµητικού τύπου που δέχεται ακέραιες τιµές κα εκφράζει την η- λικία σε έτη του ασθενούς. FOREAS_ASFALISIS: Πεδίο χαρακτήρων που περιγράφει τον ασφαλιστικό φορέα των ασθενών. FILO: Πεδία χαρακτήρα που περιγράφει το φύλο του ασθενούς. έχεται δύο διακριτές τιµές Α: Άνδρας και Γ: Γυναίκα. YPERTASI: Πεδίο που περιγράφει την ύπαρξη ή όχι υπέρτασης στον ασθενή. έχεται δύο διακριτές τιµές: 1 αν ο ασθενής πάσχει από υπέρταση και 0 αν ο ασθενής δεν εµφανίζει υπέρταση. ETH_YPER: Αριθµητικό πεδίο που δέχεται µόνο ακέραιες τιµές και εκφράζει τον χρόνο σε έτη που ο ασθενής πάσχει από υπέρταση. IDDM_NIDDM: Insulin-dependent Diabetus Melitus - Non Insulin-dependent Diabetus Melitus: Πρόκειται για πεδίο χαρακτήρων που µπορεί να πάρει δύο δι- -73-

82 Κεφάλαιο 4 ακριτές τιµές: IDDM αν ο ασθενής είναι ινσουλοεξαρτώµενος διαβητικός και NIDDM αν δεν είναι ινσουλοεξαρτώµενος διαβητικός. Η σηµασία του πεδίου αυτού είναι πολύ µεγάλη, όπως έχει αναφερθεί, γιατί η λήψη ή όχι ινσουλίνης επηρεάζει την πορεία θεραπείας του ασθενούς. ETH_ZAKX: Πεδίο αριθµητικού τύπου που δέχεται µόνο ακέραιες τιµές και εκφράζει τον χρόνο σε έτη που πάσχει ο ασθενής από σακχαρώδη διαβήτη. DIAITA: Πεδίο χαρακτήρων που δέχεται τρεις διακριτές τιµές 1, 2, 3 που αντιστοιχούν στα λεκτικά: ΑΥΣΤΗΡΗ ΙΑΙΤΑ, ΚΑΛΗ ΙΑΤΑ, ΜΕΤΡΙΑ ΙΑΙΤΑ που δηλώνουν αντίστοιχα την ρύθµιση του διαιτολογίου του κάθε ασθενούς για την αντιµετώπιση του διαβήτη. PROINI_METR: Πεδίο αριθµητικού τύπου που δέχεται µόνο ακέραιες τιµές και εκφράζει πρωινή µέτρηση ώστε να ελεγχθεί αν και πόσες µονάδες ινσουλίνης πρέπει να πάρει ο ασθενής. APOG_METR: Πεδίο αριθµητικού τύπου που δέχεται µόνο ακέραιες τιµές και εκφράζει απογευµατινή µέτρηση ώστε να ελεγχθεί αν και πόσες µονάδες ινσουλίνης πρέπει να πάρει ο ασθενής. TARGET_METR: Πεδίο χαρακτήρων που δέχεται τρεις διακριτές τιµές <150, , >200. Εκφράζει την ρύθµιση του σακχαρώδους διαβήτη που επιχειρείται να επιτευχθεί µε βάσει τις µονάδες ινσουλίνης και της δίαιτας. DISD_DIAR: Πεδίο αριθµητικού τύπου που δέχεται µόνο ακέραιους αριθµούς που εκφράζει τον χρόνο σε έτη που ο ασθενής πάσχει από δισλιπιδαιµία. CHOL_METR: Πεδίο αριθµητικού τύπου που δέχεται µόνο ακέραιους αριθ- µούς που εκφράζει τιµές του δείκτη χοληστερίνης του ασθενούς. TG_METR: Πεδίο αριθµητικού τύπου που δέχεται µόνο ακέραιους αριθµούς που εκφράζει τιµές του δείκτη τριγλυκερίδιων του ασθενούς. HDL_METR: Πεδίο αριθµητικού τύπου που δέχεται µόνο ακέραιους αριθµούς που εκφράζει τιµές του δείκτη HDL του ασθενούς. BAROS: Πεδίο αριθµητικού τύπου που δέχεται µόνο ακέραιους αριθµούς που εκφράζει το βάρος σε κιλά του ασθενούς. YPSOS: Πεδίο αριθµητικού τύπου που δέχεται πραγµατικές τιµές και εκφράζει το ύψος του ασθενούς. BMI: πεδίο αριθµητικού τύπου που προκύπτει ως συνάρτηση από τα πεδία BAROS και YPSOS και ενηµερώνεται αυτόµατα µε πραγµατικούς αριθµούς. Εκφράζει τον είκτη Μάζας Σώµατος του ασθενούς. -74-

83 Ανακάλυψη Γνώσης σε Ιατρικά εδοµένα KLHR_DIA: Ιστορικό κληρονοµικότητας ιαβήτη του ασθενούς. έχεται δύο διακριτές τιµές: 1 αν ο ασθενής έχει ιστορικό οικογενειακής κληρονοµικότητας και 0 αν δεν έχει. KLHR_YPE: Ιστορικό κληρονοµικότητας Υπέρτασης του ασθενούς. έχεται δύο διακριτές τιµές: 1 αν ο ασθενής έχει ιστορικό οικογενειακής κληρονοµικότητας και 0 αν δεν έχει. KLHR_DIS: Ιστορικό κληρονοµικότητας ισλιπιδαιµίας του ασθενούς. έχεται δύο διακριτές τιµές: 1 αν ο ασθενής έχει ιστορικό οικογενειακής κληρονοµικότητας και 0 αν δεν έχει. KLHR_PAX: Ιστορικό κληρονοµικότητας Παχυσαρκίας του ασθενούς. έχεται δύο διακριτές τιµές: 1 αν ο ασθενής έχει ιστορικό οικογενειακής κληρονοµικότητας και 0 αν δεν έχει. KLHR_STE: Ιστορικό κληρονοµικότητας Στεφανιαίας Νόσου του ασθενούς. έχεται δύο διακριτες τιµές: 1 αν ο ασθενής έχει ιστορικό οικογενειακής κληρονοµικότητας και 0 αν δεν έχει. TSIG: Πεδίο χαρακτήρων που εκφράζει αν ο ασθενής είναι καπνιστής ή όχι. έχεται δύο διακριτές τιµές: 1 αν ο ασθενής είναι καπνιστής και 0 αν δεν είναι καπνιστής. 4.3 Μετασχηµατισµός εδοµένων Το στάδιο της συλλογής και επιλογής των δεδοµένων ακολουθείται από τα στάδια της προ-επεξεργασίας και µετασχηµατισµού των δεδοµένων όπου γίνεται προσπάθεια αντι- µετώπισης των διαφόρων προβληµάτων που έχουν σχέση µε την µορφή των δεδοµένων µε απώτερο σκοπό τον µετασχηµατισµό τους σε µορφές κατάλληλες προς επεξεργασία. Ορισµένες µόνο ενέργειες που υλοποιήθηκαν είναι η διαγραφή µεταβλητών που δεν µεταφέρουν καµιά ουσιαστική πληροφορία, η αντικατάσταση κάποιων µεταβλητών µε κάποια άλλη πιο αντιπροσωπευτική, η διακριτοποίηση συνεχών αριθµητικών τιµών και η αντικατάστασή τους µε κατηγορηµατικές. Πρέπει να σηµειωθεί ότι επειδή οι παραπάνω διαδικασίες είναι αρκετά περίπλοκες και τυχόν λάθη µπορεί να επηρεάσουν την ποιότητα και την ορθότητα των δεδοµένων προς ανάλυση, σε αυτό το στάδιο ζητήθηκε η συµβουλή των επιστηµόνων της υγείας. Οι µετασχηµατισµοί που υλοποιήθηκαν είναι: -75-

84 Κεφάλαιο 4 Το πεδίο CODE χρησιµοποιείται ως αύξων αριθµός κάθε εγγραφής χωρίς να µεταφέρει καµιά ουσιαστική πληροφορία για τον λόγω αυτό δεν θα ληφθεί καθόλου υπόψη και θα διαγραφεί. Το πεδίο FOREAS_ASFALISIS υποδηλώνει τον φορέα ασφάλισης των ασθενών. Το χαρακτηριστικό αυτό δεν συµβάλει στον χαρακτηρισµό των ασθενών ως ινσουλοεξαρτώµενου ή µη και φυσικά δεν απασχολεί τους ιατρούς στην α- ναζήτηση και άσκηση της ιατρικής γνώσης. Για τους προηγούµενους λόγους δεν λαµβάνεται εξαρχής υπόψη στην διαδικασία αναζήτηση γνώσης. Το πεδίο CHOL_METR που περιέχει συνεχείς τιµές των δεικτών χοληστερίνης του κάθε ασθενούς διακριτοποιείται σύµφωνα µε το παρακάτω Πίνακας 4-1. Πίνακας 4-1 Μετασχηµατισµός Πεδίου CHOL_METR ιακριτή τιµή Έννοια Συνεχείς τιµές 1 Φυσιολογική <200 2 Οριακή Παθολογική 240< Το πεδίο TG_METR περιέχει συνεχείς τιµές των δεικτών τριγλυκερίδιων του κάθε ασθενούς διακριτοποιείται σύµφωνα µε τον Πίνακας 4-2. Πίνακας 4-2 Μετασχηµατισµός Πεδίου TG_METR ιακριτή τιµή Έννοια Συνεχείς τιµές 1 Φυσιολογική Παθολογική >150 3 Οριακή <40 Το πεδίο HDL_METR περιέχει συνεχείς τιµές των δεικτών HDL χοληστερίνης του κάθε ασθενούς και διακριτοποιείται σύµφωνά µε τον Πίνακας 4-3. Πίνακας 4-3 Μετασχηµατισµός Πεδίου HDL_METR ιακριτή τιµή Έννοια Συνεχείς τιµές 1 Φυσιολογική Παθολογική <35 3 Υπέρ-φυσιολογική >70-76-

85 Ανακάλυψη Γνώσης σε Ιατρικά εδοµένα Το πεδίο BMI έχει προκύψει αυτόµατα από την εφαρµογή ως συνάρτηση του ύψους και του βάρους του ασθενούς. Για τον λόγο αυτό τα δύο προηγούµενα ε- πίπεδα µπορεί να µην ληφθούν υπόψη και να αντικαταστούν στην παραπέρα ανάλυση από το πεδίο BMI. Το BMI παίρνει συνεχείς τιµές διακριτοποιείται σύµφωνα µε τον παρακάτω Πίνακας 4-4. Πίνακας 4-4 Μετασχηµατισµός ΠεδίουBMI ιακριτή Τιµή Έννοια Συνεχείς τιµές 1 Λιποβαρής <20 2 Κανονικός Υπέρβαρος Παχύσαρκος Παθολογικά Παχύσαρκος 40<= Το πεδίο AGE περιέχει συνεχείς τιµές της ηλικίας των ασθενών. ιακριτοποιείται σύµφωνα µε τις υποδείξεις των ιατρών µε τον τρόπο που φαίνεται στον Πίνακας 4-5. Παρόλο που αρχικά είχε γίνει διαχωρισµός σε ίσα διαστήµατα ωστόσο όµως σε ορισµένες περιπτώσεις κρίθηκε αναγκαία η ενοποίηση δυο διαστη- µάτων (36-40 και 41-45, και 51-55) επειδή ο αριθµός των περιπτώσεων που ανήκουν σε αυτά ήταν πολύ µικρός και δηµιουργούσε προβλήµατα κατά την εκτέλεση των αλγορίθµων εξόρυξης. Πίνακας 4-5 Μετασχηµατισµός Πεδίου Ηλικίας ιακριτή τιµή Συνεχείς τιµές 1 <= < Πρέπει να σηµειώσουµε ότι οι παραπάνω µετασχηµατισµοί σε όλα τα χαρακτηριστικά δεν είναι απόλυτα δεσµευτικοί. Απλά έχουν προκύψει από τις συµβουλές των ιατρών και από τα διεθνή ιατρικά πρότυπα και συµβάσεις. Σε περίπτωση που κατά την εφαρµογή εξόρυξης γνώσης προκύψουν νέα δεδοµένα και απαιτήσεις για άλλου είδους διακριτοποιήσεις αυτές είναι δυνατό και αποδεκτό να υλοποιηθούν. -77-

86

87 Εφαρµογή Ανακάλυψης Γνώσης 5 Εφαρµογή Ανακάλυψης Γνώσης Σκοπός της παρούσας διπλωµατικής εργασίας είναι η παράθεση των πιο σηµαντικών αλγορίθµων και εργαλείων σχετικά µε την χρήση τους στην ανακάλυψη γνώσης και η σύγκριση των αποτελεσµάτων που βρέθηκαν. Από το πλήθος των αλγορίθµων και των δυνατοτήτων που προσφέρουν τα δύο εργαλεία αποφασίστηκε η παρουσίαση του τρόπου αναπαράστασης των δεδοµένων και των συσχετίσεων των χαρακτηριστικών για να υπάρχει πλήρης γνώσης του αντικειµένου και η εφαρµογή αντιπροσωπευτικών αλγορίθµων όλων των µεθόδων για τον χαρακτηρισµό ενός ασθενούς ως ινσουλοεξαρτώµενου ή µη ινσουλοεξαρτώµενου. Πιο συγκεκριµένα: Στο Weka εφαρµόστηκαν οι παρακάτω αλγόριθµοι: Κατηγοριοποίησης: Decision Tree: J48, ID3, Naïve Bayes, Decision Table, Neural Network. Συσταδοποίησης: K- means. Κανόνων Συσχέτισης: A priori. Στον SQL Server οι αλγόριθµοι: Κατηγοριοποίησης: Microsoft Decision Trees, Microsoft Naïve Bayes, Microsoft Neural Networks. Συσταδοποίησης: Microsoft Clustering Algorithm. Κανόνων Συσχέτισης: Microsoft Association Rules. 5.1 Σύνολα εδοµένων Το σύνολο των δεδοµένων που είχαµε προς επεξεργασία ήταν ένα αρχείο µορφής excel. Η φόρτωση του στον SQL Server, µε την χρήση του Management Studio, ήταν άµεση χωρίς την απαίτηση αλλαγής της µορφής του αρχείου εφόσον υποστηρίζεται η δυνατό- -79-

88 Κεφάλαιο 5 τητα εισαγωγής δεδοµένων διαφόρων µορφών µέσω της αρχιτεκτονικής OLE DB. Στο Weka, αυτή υλοποιήθηκε όχι άµεσα άλλα µετά από επεξεργασία, µετασχηµατισµός και διαχωρισµός των δεδοµένων σε δεδοµένα εκπαίδευσης και δεδοµένα αξιολόγησης που έγιναν στον SQL Server. Επιλέχθηκε αυτή η τακτική διότι ο SQL Server απλοποιεί τις διαδικασίες αυτές µε την δυνατότητα άµεσης εκτέλεσης κώδικα SQL στα δεδοµένα αλλά και των Υπηρεσιών Ολοκλήρωσης (Integration Services) και αποθήκευσης των αποτελεσµάτων πράγµα το οποίο δεν υποστηρίζεται από το Weka. Μάλιστα, τα νέα σύνολα δεδοµένων αποθηκεύτηκαν σε µορφή excel, µετασχηµατίστηκαν σε µορφή csv για να µπορούν να φορτωθούν στο Weka και αποθηκεύτηκαν εκεί σε αρχείο arff. Ο µετασχηµατισµός των χαρακτηριστικών υλοποιήθηκε µε την χρήση προτάσεων SQL οι οποίες παρατίθενται στο Παράρτηµα. Για να είναι δυνατός ο έλεγχος της αξιοπιστίας των µοντέλων που προκύπτουν είναι σηµαντική η ύπαρξη ενός συνόλου δεδοµένων αξιολόγησης που δεν θα συµµετείχαν καθόλου στην διαδικασία της δηµιουργίας αυτών. Παρόλο που το Weka υποστηρίζει και άλλους τρόπους αξιολόγησης των µοντέλων και των αλγορίθµων όπως για παράδειγµα την µέθοδο cross-validation που είναι συνήθης πρακτική σε περιπτώσεις όπου το αρχικό σύνολο των δεδοµένων δεν είναι πολύ µεγάλο πράγµα που συµβαίνει κι εδώ, αποφασίστηκε, για να είναι δυνατή η σύγκριση των αποτελεσµάτων των δύο εργαλείων σε κοινή βάση µε πιθανότητα βέβαια ποιοτικής υποβάθµισης των µοντέλων που θα προέκυπταν λόγω µικρότερο αριθµό δείγµατος, ο διαχωρισµός του συνόλου των δεδο- µένων σε δύο ανεξάρτητα σύνολα: το ένα θα αντιπροσωπεύει το σύνολο των δεδοµένων εκπαίδευσης (training set) και το άλλο το σύνολο των δεδοµένων αξιολόγησης (test set).το πρώτο σύνολο αποτελεί το 70% του αρχικού συνόλου δεδοµένων µε πλήθος εννιακοσίων σαράντα (940) εγγραφών και το δεύτερο το 30% του αρχικού συνόλου µε πλήθος τετρακοσίων (400) εγγραφών. Η διαδικασία αυτή υλοποιήθηκε µε το εργαλείο SQL Server Integration Services µε τον εξής τρόπο: ηµιουργήθηκε µια ροή δεδοµένων (Data Flow) που διάβαζε τα δεδο- µένα (OLEDB Source) και τα χώριζε µε την χρήση του εργαλείου Raw Sampling σε δεδοµένα εκπαίδευσης και αξιολόγησης και τα αποθήκευε σε πίνακες σε µια βάση δεδοµένων. Στην Εικόνα 5-1 που ακολουθεί, φαίνεται η υλοποίηση των παραπάνω. -80-

89 Εφαρµογή Ανακάλυψης Γνώσης Εικόνα 5-1 ιαχωρισµός δεδοµένων σε δεδοµένα εκπαίδευσης - αξιολόγησης Προέκυψαν λοιπόν δύο πίνακες ένας µε τα δεδοµένα εκπαίδευσης (train_patient) και ένας µε τα δεδοµένα αξιολόγησης (test_patient) χωρίς αυτό να σηµαίνει την διαγραφή του αρχικού πίνακα. Όλοι οι πίνακες βρίσκονται αποθηκευµένοι στο Database Engine υπηρεσία προσβάσιµη από το Management Studio. Το παραπάνω φαίνεται στην Εικόνα 5-2. Εικόνα 5-2 Database Engine - Πίνακες -81-

90 Κεφάλαιο 5 Ο µετασχηµατισµός των χαρακτηριστικών υλοποιήθηκε στο Analysis Services µε την διατήρηση των αρχικών δεδοµένων και την προσθήκη υπολογιζόµενων πεδίων που προκύπτουν µε την συγγραφή κώδικα SQL. Η διαδικασία αυτή φαίνεται στην Εικόνα 5-3. Εικόνα 5-3 Μετασχηµατισµός Χαρακτηριστικών Τα περιεχόµενα των δύο νέων µετασχηµατισµένων πινάκων αντιγράφηκαν και αποθηκεύτηκαν σε αρχείο excel µετασχηµατιστήκαν σε αρχείο csv για να είναι δυνατή η άµεση φόρτωσή τους από το Weka ή η αποθήκευση τους ως αρχείο arff µέρος του ο- ποίου παρατίθεται στο Παράρτηµα. 5.2 Αναζήτηση γνώσης µε την πλατφόρµα Weka Ακολουθεί η ανάλυση των δεδοµένων και η εύρεση µοντέλων µε την χρήση της πλατφόρµας Weka Εισαγωγή / Έλεγχος εδοµένων Γνώση Βασικός περιορισµός της πλατφόρµας αυτής αποτελεί η ύπαρξη συγκεκριµένης µορφής αρχείου δεδοµένων έτσι ώστε να είναι δυνατή η ανάγνωση του. Για τον λόγο αυτό τα δύο αρχεία excel που προέκυψαν από τον διαχωρισµό του αρχικού συνόλου δεδοµένων σε δεδοµένα εκπαίδευσης και αξιολόγησης, µετατράπηκαν σε αρχεία csv φορτώθηκαν -82-

91 Εφαρµογή Ανακάλυψης Γνώσης στην πλατφόρµα αυτή και αποθηκεύτηκαν σε µορφή arff. Τα δύο σύνολα δεδοµένων σε µορφή arff παρατίθενται στο Παράρτηµα. Η φόρτωση του αρχείου µε τα δεδοµένα εκπαίδευσης (train_patient) πραγµατοποιήθηκε στην καρτέλα Preprocess. Μέσω της καρτέλας αυτής δίνεται η δυνατότητα οπτικής απεικόνισης, ανάλυσης και εξαγωγής αρχικών συµπερασµάτων από τα διαθέσιµα δεδοµένα. Στο αριστερό τµήµα του παραθύρου που φαίνεται και στην Εικόνα 5-4, υ- πάρχουν πληροφορίες για το αρχείο, το µέγεθος του και το πλήθος των χαρακτηριστικών του. Στο δεξί τµήµα φαίνονται πληροφορίες σχετικά µε την επιλεγµένη µεταβλητή. Οι πληροφορίες αυτές αναφέρονται στο είδος της µεταβλητής (αριθµητική ή κατηγορη- µατική), το πλήθος των διαφορετικών τιµών, το ποσοστών των ελλιπών τιµών και κάποια στατιστικά µεγέθη. Σηµαντικό πλεονέκτηµα της πλατφόρµας αυτής, που την διαφοροποιεί από τις άλλες, είναι η απεικόνιση της κατανοµής µιας µεταβλητής σε σχέση µε την κατανοµή µιας άλλης µεταβλητής. Εικόνα 5-4 Φόρτωση αρχείου Τα πρώτα συµπεράσµατα που προκύπτουν από την παρατήρηση των δεδοµένων σχετικά µε την ασθένεια του σακχαρώδη διαβήτη είναι ότι υπάρχει περίπου ισοδύναµη κατανοµή του πληθυσµού που πάσχει από την νόσο ως προς το φύλο µε ελαφρά υπεροχή των γυναικών. Αυτό σηµαίνει ότι πρόκειται για ασθένεια το ίδιο πιθανή να συµβεί στα δύο φύλα, ενώ ο µεγαλύτερος αριθµός των γυναικών µπορεί να οφείλεται στην γενικότερη τάση των γυναικών να προσέχουν περισσότερο την υγεία τους. -83-

92 Κεφάλαιο 5 Σε σχέση µε την ηλικία, βλέπουµε ότι είναι µια ασθένεια που εκδηλώνεται σε όλες τις ηλικιακές οµάδες, αλλά η µεγαλύτερη συχνότητα εµφάνισης είναι συνήθως άτοµα που ανήκουν στην µέση και τρίτη ηλικία, δηλαδή σε άτοµα µεγαλύτερα της ηλικίας των σαράντα πέντε (>45). Μια άλλη σηµαντική παρατήρηση, η οποία επιβεβαιώνεται και από τους ιατρούς, είναι ότι η συντριπτική πλειοψηφία των ασθενών από σακχαρώδη διαβήτη πάσχει και από υπέρταση και εµφανίζει αριθµό τριγλυκεριδίων πέραν του φυσιολογικού. Ωστόσο όµως δεν παρατηρείται κάποια ισχυρή εξάρτηση της ύπαρξης διαβήτη σε σχέση µε την ύπαρξη ιστορικού κληρονοµικότητας για άλλες σχετικές παθήσεις όπως του διαβήτη, της υπέρτασης, της παχυσαρκίας και της στεφανιαίας νόσου. Κάτι το οποίο παρατηρήθηκε εξαρχής και αργότερα επιβεβαιώθηκε από τα µοντέλα που προέκυψαν είναι η ισχυρή εξάρτηση της λήψης ινσουλίνης µε την ηλικία του ασθενούς. Όπως φαίνεται και από την Εικόνα 5-5 η χρήση ινσουλίνης για την αντιµετώπιση του προβλήµατος παρατηρείται στις µικρότερες ηλικιακές οµάδες, δηλαδή σε ηλικίες κάτω των 45 και ιδιαίτερα κάτω των 35. Αυτό ισχύει στην πραγµατικότητα γιατί πρόκειται για την ύπαρξη του διαβήτη τύπου Ι, του ονοµαζόµενου νεανικού διαβήτη, όπου η χορήγηση ινσουλίνης είναι υποχρεωτική για την αντιµετώπιση του προβλήµατος. Η χορήγηση της ινσουλίνης συνήθως συνοδεύεται και από αυστηρή δίαιτα που πρέπει να ακολουθούν οι ασθενείς. Εικόνα 5-5 Χρήση Ινσουλίνης - Ηλικία -84-

93 Εφαρµογή Ανακάλυψης Γνώσης Η ταυτόχρονη απεικόνιση της σχέσης ενός χαρακτηριστικού µε όλα τα υπόλοιπα χαρακτηριστικά είναι δυνατή και πολύ σηµαντική. Στην Εικόνα 5-6 φαίνεται η απεικόνιση της σχέσης µεταξύ του χαρακτηριστικού IDDM_NIDDM µε τα υπόλοιπα. Εικόνα 5-6 Ταυτόχρονη αναπαράσταση µεταβλητών Μια άλλη σηµαντική δυνατότητα που προσφέρει αυτή η πλατφόρµα είναι η γραφική απεικόνιση του αρχικού συνόλου των δεδοµένων σε δυσδιάστατο πίνακα µε γραφικές αναπαραστάσεις των σχέσεων δυάδων χαρακτηριστικών µε τις κουκίδες να αναπαριστάνουν την κατανοµή της µεταβλητής που επιλέγουµε εµείς (συνήθως µεταβλητή - κλάση) µε τον τρόπο που φαίνεται στην Εικόνα 5-7. Είναι η δυνατή η επιλογή µιας σχέσης και εµφάνισης της σε µεγαλύτερο πλαίσιο για καλύτερη µελέτη. -85-

94 Κεφάλαιο 5 Εικόνα 5-7 Καρτέλα Visualize Στην προσπάθεια εξερεύνησης της σχέσης που υπάρχει ανάµεσα στην ύπαρξη υ- πέρτασης, στο µέγεθος του σακχαρώδη διαβήτη και την λήψη ινσουλίνης ή όχι χρησι- µοποιήθηκε η δυνατότητα αυτής της απεικόνισης. Σηµαντική είναι λοιπόν η σχέση που προκύπτει ανάµεσα στην ύπαρξη υπέρτασης και στο µέγεθος του διαβήτη που επιχειρείται να ελεγχθεί. Συνήθως οι ασθενείς οι ο- ποίοι έχουν υπέρταση εµφανίζουν παθολογικά ποσοστά διαβήτη (>200) χωρίς όµως αυτό να απαιτεί την λήψη ινσουλίνης για την αντιµετώπιση της νόσου. Αυτό φαίνεται και στην Εικόνα 5-8. Εικόνα 5-8 Visualize Υπέρταση - διαβήτη -86-

95 Εφαρµογή Ανακάλυψης Γνώσης Πρέπει να αναφέρουµε ότι παρόµοια συµπεράσµατα προέκυψαν και κατά την φόρτωση και ανάλυση του αρχείου µε τα δεδοµένα αξιολόγησης (δεν κρίνεται σκόπιµη η παράθεση των σχετικών εικόνων). Κάτι άλλο που προέκυψε από την µελέτη και ανάλυση των δεδοµένων είναι ότι στα χαρακτηριστικά PROINI_METR, APOG_METR και DISD_DIAR περίπου το 90% δεν υπάρχουν δεδοµένων. Συνεπώς για λόγους συνέπειας και αξιοπιστίας των αποτελεσµάτων θεωρήθηκε ορθότερη η διαγραφή των χαρακτηριστικών αυτών και η µη χρήση τους κατά την δηµιουργία των µοντέλων Αλγόριθµοι ένδρων Απόφασης (Decision Trees) Εφαρµόσαµε κάποιους από τους πιο γνωστούς αλγόριθµου κατηγοριοποίησης µε κύριο σκοπό την δηµιουργία µοντέλων πρόβλεψης για τον χαρακτηρισµό ενός ασθενούς ως ινσουλοεξαρτώµενου ή όχι. Αλγόριθµος J.48 Πρόκειται για την υλοποίηση του αλγορίθµου C4.5, ενός αλγορίθµου που προέκυψε από τον ID3,διαχειρίζεται κατηγορηµατικές και συνεχείς τιµές και υποστηρίζει το κλάδεµα του δένδρου που προκύπτει µετά την ολοκλήρωση του (postpruning). Χρησιµοποιώντας τις προκαθορισµένες παραµέτρους του αλγόριθµου (παράγοντας εµπιστοσύνης 0.25, 2 περιπτώσεις ανά φύλλο) προκύπτει το δένδρο της Εικόνα 5-9. Εικόνα 5-9 Αλγόριθµος J.48 - Default Values -87-

96 Κεφάλαιο 5 Το µέγεθος του δένδρου είναι 34 κόµβοι, οι 24 εκ των οποίων είναι κόµβοι φύλλα. Το δένδρο που προκύπτει από τον αλγόριθµο αυτό έρχεται να επιβεβαιώσει αυτό που είχε παρατηρηθεί εξαρχής: η ηλικία αποτελεί το βασικό χαρακτηριστικό κατηγοριοποίησης ενός ασθενούς ως ινσουλοεξαρτώµενου ή µη και µάλιστα οι µικρές ηλικιακές οµάδες. Το ποσοστό των σωστών κατηγοριοποιηµένων υποδειγµάτων του συνόλου α- ξιολόγησης είναι 93.75%, ενώ των λανθασµένων 6.25%. Στο κάτω µέρος του παραθύρου εµφανίζεται ο πίνακας λαθών (confusion matrix) που αποτελεί σηµαντικό εργαλείο για την αξιολόγηση των µοντέλων και την εκτίµηση του κόστους λανθασµένων κατηγοριοποιήσεων που θα χρησιµοποιηθεί και αργότερα για την συνολική αξιολόγηση των µοντέλων. Από τον πίνακα αυτό βλέπουµε ότι οι περισσότερες λανθασµένες κατηγοριοποιήσεις έγιναν για την κλάση IDDM, δηλαδή περισσότεροι είναι οι ασθενείς οι οποίοι αν και είναι ινσουλοεξαρτώµενοι κατηγοριοποιήθηκαν ως µη ινσουλοεξαρτώµενοι. Αυτό σύµφωνα µε τους ειδικούς δικαιολογείται γιατί χρειάζεται έλεγχος και άλλων παραµέτρων. Η µορφή του δένδρου που προέκυψε φαίνεται στην Εικόνα 5-10 Εικόνα 5-10 ένδρο Απόφασης Θέλοντας να βελτιώσουµε ακόµη περισσότερο το µοντέλο κατηγοριοποίησης που προέκυψε µεταβάλαµε κάποιες από τις παραµέτρους του αλγορίθµου. Έτσι λοιπόν υλοποιήθηκαν και άλλα µοντέλα. Παραθέτουµε τρία από αυτά που βελτίωσαν την απόδοση -88-

97 Εφαρµογή Ανακάλυψης Γνώσης του αλγόριθµου. Στο πρώτο πείραµα διατηρήσαµε σταθερό τον αριθµό τον περιπτώσεων ανά φύλλο και µεταβάλλαµε τον παράγοντα εµπιστοσύνης (confidence) που προσδιορίζει τον βαθµό του κλαδέµατος του δένδρου στην τιµή 0.10 ενισχύοντας έτσι το κλάδεµα. Τα αποτελέσµατα που φαίνονται και στην Εικόνα 5-11 είναι ένα σαφώς µικρότερο δένδρο µε ελαφρώς καλύτερα ποσοστά κατηγοριοποίησης. Εικόνα 5-11 a) ένδρο Απόφασης, - b) Ποσοστά Επιτυχία- Πίνακας Λαθών Στο δεύτερο πείραµα µεταβλήθηκε ο αριθµός των περιπτώσεων ανά φύλλο σε 10 και ο παράγοντας εµπιστοσύνης σε Τα αποτελέσµατα φαίνονται στην Εικόνα Εικόνα 5-12 a) ένδρο Απόφασης b) Πίνακας Λαθών -89-

98 Κεφάλαιο 5 Στο τρίτο πείραµα µεταβλήθηκε ο αριθµός των περιπτώσεων ανά φύλλο σε 10 και ο αριθµός του παράγοντα εµπιστοσύνης σε Το δένδρο που προέκυψε καθώς και τα στατιστικά µέτρα είναι ακριβώς τα ίδια µε το προηγούµενο γι αυτό και δεν αξιολογείται παραπέρα. Βέβαια από όλα τα µοντέλα κατηγοριοποίησης προκύπτει ισχυρή σχέση ανάµεσα στην ηλικία, τον δείκτη µάζας σώµατος και την µεταβλητή/κλάση. Η επιλογή του καλύτερου εξ αυτών θα γίνει στο τέλος του κεφαλαίου κατά την αξιολόγηση όλων των µοντέλων που έχουν προκύψει µε όλες τις µεθόδους που εφαρµόστηκαν και στις δύο πλατφόρµες. Κατά την πειραµατική εφαρµογή άλλων αλγορίθµων δηµιουργίας δένδρων απόφασης όπως πχ Decision Stump, NBTree, RepTree προέκυψαν δένδρα παρόµοια µε τα προηγούµενα γι αυτό και δεν παρατίθενται. Αλγόριθµος ID3 Ο αλγόριθµος ID3, που αποτελεί βάση του προηγούµενου αλγορίθµου, έχει βασική α- παίτηση την ύπαρξη µη συνεχών τιµών παρά µόνο κατηγορηµατικών. Στο σύνολο των δεδοµένων προς εκπαίδευση και αξιολόγηση υπήρχαν δύο χαρακτηριστικά µε συνεχείς τιµές. Για τον λόγο αυτό εκτελέστηκαν δύο διαφορετικά πειράµατα. Στο πρώτο πείραµα διαγράφηκαν τα χαρακτηριστικά αυτά µε την χρήση του φίλτρου Remove. Τα αποτελέσµατα, όχι και τόσο ικανοποιητικά φαίνονται στην παρακάτω Εικόνα Εικόνα 5-13 Αποτελέσµατα Id3 µε διαγραφή χαρακτηριστικών -90-

99 Εφαρµογή Ανακάλυψης Γνώσης Το δένδρο που προκύπτει είναι πολύ µεγάλο, λαµβάνει περισσότερα χαρακτηριστικά για την κατηγοριοποίηση των ασθενών σε σχέση µε τα δένδρα που προέκυψαν µε τον αλγόριθµο J.48 πράγµα που οδηγεί στο πρόβληµα της υπέρ-µοντελοποίησης όπως φαίνεται και από την απόδοση του µοντέλου για το σύνολο των δεδοµένων αξιολόγησης. Ωστόσο όµως κι εδώ πρώτο κριτήριο κατηγοριοποίησης αποτελεί η ηλικία του ασθενούς. Το δένδρο που έχει προκύψει φαίνεται στην Εικόνα Εικόνα 5-14 ένδρο ID3-91-

100 Κεφάλαιο 5 Στο δεύτερο πείραµα έγινε διακριτοποίηση των δύο συνεχών χαρακτηριστικών συµφωνά µε τον Πίνακας 5-1. Πίνακας 5-1 ιακριτοποίηση ΕTH_YPER και ETH_ZAKX ETH_YPER ETH_ZAKX ιακριτή Τιµή Συνεχείς τιµές ιακριτή Τιµή Συνεχείς τιµές <=5 1 <= > >20 Το µοντέλο κατηγοριοποίησης που προέκυψε δεν είναι και τόσο ικανοποιητικό ό- πως φαίνεται και από την Εικόνα 5-15, αλλά πάλι βασικό χαρακτηριστικό για την λήψη ή όχι ινσουλίνης είναι η ηλικία του ασθενούς. Εικόνα 5-15 Πίνακας Λαθών Id3 µε διακριτοποίηση χαρακτηριστικών Κανόνες Κατηγοριοποίησης (Classification Rules) Σε αντίθεση µε την κατασκευή των δένδρων ταξινόµησης όπου η τεχνική του διαίρει και βασίλευε δηµιουργεί τα µοντέλα, στην κατασκευή κανόνων αναζητούνται από το σύνολο των υποδειγµάτων οι κανόνες που περιγράφουν τις διαφορετικές τιµές της µε- -92-

101 Εφαρµογή Ανακάλυψης Γνώσης ταβλητής κλάσης. Ο πιο σηµαντικός αλγόριθµος κατασκευής κανόνων αποτελεί ο Decision Table. Βασικό πρόβληµα αποτελεί η επιλογή των χαρακτηριστικών για την δηµιουργία των κανόνων και αυτό λύνεται µε εσωτερική εκτέλεση της τεχνικής cross- validation. Από την εφαρµογή του παραπάνω αλγόριθµου στο σύνολο των δεδοµένων εκπαίδευσης προκύπτουν διακόσιοι είκοσι κανόνες (220), οι οποίοι χαρακτηρίζουν έναν α- σθενή ως ινσουλοεξαρτώµενου ή µη από έξι βασικά χαρακτηριστικά: την ηλικία, το φύλλο, τον δείκτη µάζα σώµατος του ασθενή και την ύπαρξη ή όχι ιστορικού κληρονο- µικότητας διαβήτη, υπέρτασης, και στεφανιαίας νόσου. Οι κανόνες αυτοί έρχονται να επιβεβαιώσουν αρχικές παρατηρήσεις: η χρήση ινσουλίνης είναι συνδεδεµένη µε γυναίκες και άνδρες που ανήκουν σε µικρές ηλικιακές οµάδες και έχουν υψηλό δείκτη µάζας σώµατος (>4). Μάλιστα σε πολύ µικρές ηλικίες (<35) εµφανίζεται και σε ασθενείς µε κανονικό σωµατικό βάρος, αλλά σηµαντικός είναι ο ρόλος της κληρονοµικότητας του διαβήτη. εν προκύπτει απόλυτη συσχέτιση των δεικτών κληρονοµικότητα άλλων ασθενειών µε την λήψη ινσουλίνης. Μερικοί από τους κανόνες φαίνεται την Εικόνα Εικόνα 5-16 Decision Table Η απόδοση του αλγορίθµου και ο πίνακας λαθών που φαίνονται στην Εικόνα 5-17 επιβεβαιώνουν το γεγονός της λανθασµένης κατηγοριοποίησης συνήθως των ινσουλοεξαρτώµενων ασθενών ως µη ινσουλοεξαρτώµενων. -93-

102 Κεφάλαιο 5 Εικόνα 5-17 Πίνακας Λαθών Decision Table Τα ίδια αποτελέσµατα προκύπτουν µε την υλοποίηση του αλγορίθµου PART. Εκτελέστηκε και ο αλγόριθµος One-R στον οποίο γίνεται κατηγοριοποίηση µε την επιλογή της πιο σηµαντικής µεταβλητής γεγονός που επιβεβαιώνει την σπουδαιότητα του παράγοντα της ηλικίας Naïve Bayes Από τον πλήθος των αλγορίθµων αυτής της κατηγορίας επιλέχθηκε η εφαρµογή του κλασσικού κατηγοριοποιητή Bayes κατά τον οποίο εκτιµάται η πιθανότητα µιας νέας περίπτωσης να ανήκει σε µια κλάση µε βάση µια εκ των προτέρων υπόθεση πιθανότητας να ανήκει στην κλάση. Θετικό του αλγορίθµου αυτού είναι η παράβλεψη ελλιπών τιµών κατά την κατηγοριοποίηση. Εφαρµόστηκαν τρια πειράµατα. Στο πρώτο χρησιµοποιήθηκαν οι προκαθορισµένες παράµετροι του αλγορίθµου. Ο Πίνακας Λαθών φαίνεται στην Εικόνα Στο δεύτερο πείραµα µεταβάλλοντας µια παράµετρο του αλγορίθµου πραγµατοποιήθηκε διακριτοποίηση των συνεχών τιµών. Στην Εικόνα 5-19 φαίνονται τα σαφώς πιο βελτιωµένα αποτελέσµατα. Όπως είναι ορατό, για κάθε τιµή της κλάσης δίνεται η εκ των προτέρων πιθανότητα που επιβεβαιώνει να ανήκει µια νέα περίπτωση στην κλάση αυτή και για κάθε ανεξάρτητο χαρακτηριστικό που ανήκει στην κλάση αυτή το πλήθος των υποδειγµάτων κάθε διαφορετικής τιµής του χαρακτηριστικού αυτού. Αυτό που υπολογίζεται είναι η πιθανότητα µια νέα περίπτωση να ανήκει στην µια ή στην άλλη κλάση µε συνδυάζοντας τις τιµές των γνωστών χαρακτηριστικών και η τελική κατάταξη της σε αυτή µε την µεγαλύτερη πιθανότητα. -94-

103 Εφαρµογή Ανακάλυψης Γνώσης Στο τρίτο πείραµα έγινε διακριτοποίηση των τιµών συνεχών χαρακτηριστικών σύµφωνα µε τον πίνακα 5.1 (σελίδα 92). Ο πίνακας λαθών του µοντέλου αυτού φαίνεται στην εικόνα Εικόνα 5-20 Εικόνα 5-18 Αποτελέσµατα απλού κατηγοριοποιητή Εικόνα 5-19 ιακριτοποίηση µεταβλητών - Naive Bayes Εικόνα 5-20 Πίνακας Λαθών πειράµατος 3-95-

104 Κεφάλαιο Νευρωνικά ίκτυα (Neural Networks) Η υλοποίηση των νευρωνικών δικτύων πραγµατοποιείται µε την συνάρτηση MultiLayer Percepton. Αποτελεί ένα νευρωνικό δίκτυο που χρησιµοποιεί την τεχνική back propagation για την εκπαίδευση του και την αλλαγή των βαρών και ως συνάρτηση ενεργοποίησης την σιγµοειδή συνάρτηση. Βασικό χαρακτηριστικό η δυνατότητα χρήσης και εκτέλεσης του αλγορίθµου µέσα από ένα γραφικό περιβάλλον στο οποίο ρυθµίζονται άµεσα και οι παράµετροι του αλγόριθµου και προσδιορίζεται η διακοπή ή η συνέχιση εκτέλεσής τους. Κατόπιν πολλών δοκιµών καλύτερες ήταν οι επιδόσεις του αλγόριθµου µε τις προκαθορισµένες παραµέτρους. Στο γραφικό περιβάλλον που φαίνεται στην Εικόνα 5-21 υπάρχουν όλα τα επίπεδα του δικτύου και οι νευρώνες, ο αριθµός των επαναλήψεων για την εκπαίδευση και τα λάθη στον υπολογισµό βαρών. Εικόνα 5-21 Νευρωνικό δίκτυο Ενώ τα αποτελέσµατα και ο πίνακας Λαθών φαίνεται στην Εικόνα Εικόνα 5-22 Πίνακα Λαθών -96-

105 Εφαρµογή Ανακάλυψης Γνώσης Συσταδοποίηση (Clustering) Θεωρήθηκε καλό για πιο ολοκληρωµένη µελέτη των δεδοµένων, η εφαρµογή αλγορίθ- µων άλλων µεθόδων πλην αυτής της κατηγοριοποίησης. Εφαρµόστηκε λοιπόν κάποιος αλγόριθµος συσταδοποίησης µε τον οποίο τα έως τότε µεµονωµένα και ανεξάρτητα µεταξύ τους υποδείγµατα να γίνουν µέλη κάποιας οµάδας/κλάσης. Εφαρµόστηκε ο κλασσικός αλγόριθµος Κ-µέσων µε τον οποίο κάθε υπόδειγµα αντιστοιχίζεται σε µια κλάση. Και στις δύο πλατφόρµες αποφασίστηκε η χρήση όλου του συνόλου των δεδοµένων (1340 εγγραφές) για καλύτερη ανάλυση των χαρακτηριστικών µιας και η µέθοδος αυτή δεν χρησιµοποιείται κατά βάση για πρόβλεψη. Αρχικά έγινε διαχωρισµός των δεδοµένων σε δύο οµάδες. Τα αποτελέσµατα που προέκυψαν, όπως φαίνονται και στην Εικόνα 5-23 είναι: Εικόνα Means Clustering Προέκυψαν δύο οµάδες: Η πρώτη οµάδα (cluster 0) είναι η µεγαλύτερη (68% του συνόλου των δεδοµένων) και όπως φαίνεται από τα cluster centroids αποτελείται από ά- τοµα (γυναίκες) που δεν εργάζονται, µεγάλης κυρίως ηλικίας όπου η τιµή του ζαχάρου τους είναι πολύ υψηλή (>200) µε παθολογικές τιµές χοληστερίνης και µε πρόβληµα υ- πέρτασης. Η δεύτερη οµάδα (cluster 1) αποτελείται από εργαζόµενα άτοµα (άνδρες) µέσης ηλικίας, µε ελεγχόµενες τιµές ζαχάρου ( ) που εξακολουθούν να έχουν παθολογικές τιµές χοληστερίνης. Τα συµπεράσµατα αυτά επιβεβαιώνουν πολλές από τις αρχικές παρατηρήσεις επί των δεδοµένων. Οι διαφοροποιήσεις των οµάδων σε σχέση µε το φύλο, το ζάχαρο και άλλες µετρήσεις φαίνονται στην Εικόνα

106 Κεφάλαιο 5 Εικόνα 5-24 a) Κατανοµή φύλου ζαχάρου b) Κατανοµή φύλου-ηλικίας Έπειτα εφαρµόστηκε ο ίδιος αλγόριθµος για την δηµιουργία πέντε οµάδων (το πλήθος προτάθηκε από την άλλη πλατφόρµα). Οι οµάδες Cluster 0 και Cluster 1, που είναι και οι πολυπληθέστερες όπως φαίνεται και στην Εικόνα 5-25 επιβεβαιώνουν τα αποτελέσµατα της προηγούµενης συσταδοποίησης. Εικόνα Means Clustering -98-

107 Εφαρµογή Ανακάλυψης Γνώσης Ακριβώς οι ίδιες οµάδες προκύπτουν σε περίπτωση που χρησιµοποιηθεί το σύνολο των δεδοµένων εκπαίδευσης για την δηµιουργία τους και έπειτα κατηγοριοποιηθούν στις οµάδες τα δεδοµένα του συνόλου αξιολόγησης. Σηµαντική είναι και η δυνατότητα δηµιουργίας οµάδων µε βάση το χαρακτηριστικό κλάση. Στην αρχική δηµιουργία των οµάδων το χαρακτηριστικό δεν λαµβάνεται υπόψη κι έπειτα στον έλεγχο σε κάθε οµάδα ανατίθεται η τιµή της κλάσης του χαρακτηριστικού που πλειοψηφεί. Συνεπώς έχοντας δύο οµάδες, η πρώτη χαρακτηρίζεται ως µη ινσουλοεξαρτώµενη και η δεύτερη ως ινσουλοεξαρτώµενη όπως φαίνεται και στην Εικόνα Εικόνα 5-26 Πρόβλεψη κλάσης -οµάδων Βέβαια όπως προκύπτει από τον Πίνακα Λαθών και αυτή η µέθοδος πρόβλεψης της κλάσης κατηγοριοποιεί λάθος κυρίως τους ινουλοεξαρτώµενους ασθενείς και το ποσοστά των λάθος κατηγοριοποιηµένων περιπτώσεων είναι πολύ µεγάλο, χαρακτηρίζοντας την έτσι ως ακατάλληλη για κατηγοριοποίηση Κανόνες Συσχέτισης (Association Rules) Η πλατφόρµα Weka δίνει την δυνατότητα επιλογής µεταξύ τριών αλγορίθµων για την δηµιουργία κανόνων συσχέτισης. Οι κανόνες που προκύπτουν αναφέρονται στο σύνολο των χαρακτηριστικών και όχι µόνο σε µια µεταβλητή κλάση. Συνεπώς είναι αδύνατη η αξιολόγηση τους, αλλά και η εύρεση αυτών που χαρακτηρίζουν ένα ασθενή ινσουλοεξαρτώµενο ή µη. -99-

108 Κεφάλαιο 5 Εφαρµόσαµε µόνο πειραµατικά τον A priori αλγόριθµο (γιατί µόνο αυτός υπάρχει στην άλλη πλατφόρµα), είτε χρησιµοποιώντας τις προκαθορισµένες παραµέτρους είτε µεταβάλλοντας την υποστήριξη και την εµπιστοσύνη. Αυτές αποτελούν τις βασικές ρυθµιστικές παραµέτρους του αλγορίθµου. Η υποστήριξη (support) εκφράζει την πιθανότητα να βρεθεί ένα itemset σε µια βάση, ενώ η εµπιστοσύνη την πιθανότητα να βρεθεί το Y σε ένα itemset που περιλάµβανε τα X 1. X n (X 1 X n Y). Απαίτηση του αλγορίθµου αυτού η ύπαρξη µη συνεχών τιµών στα χαρακτηριστικά. Για το λόγω αυτό έγινε διακριτοποίηση των συνεχών χαρακτηριστικών ETH_YPER, ETH_ZAKX µε τον ίδιο τρόπο που υλοποιήθηκε στον αλγόριθµο κατηγοριοποίησης ID3 (σελίδα 93). Το πλήθος των κανόνων που προέκυψε χρησιµοποιώντας τις προκαθορισµένες παραµέτρους όπου η τιµή της υποστήριξης ήταν πολύ µικρή (0.20) ήταν τεράστιο (>50000). Οι περισσότεροι εκ των κανόνων υλοποιούσαν στατιστική περιγραφή των χαρακτηριστικών και των τιµών τους. Γι αυτό απαραίτητη ήταν η συµβολή των ειδικών του τοµέα για την επιλογή των πιο χρήσιµων κανόνων. Θέλοντας να δηµιουργήσουµε ισχυρούς κανόνες αυξήσαµε πολύ την τιµή της υποστήριξης και της εµπιστοσύνης µεταβάλλοντας τις παραµέτρους lowerboundsupport=0.8 και minmetr=0.9 αντίστοιχα. Προέκυψαν εκατόν πενήντα εννέα (159) κανόνες που αναφέρονται στην σχέση µεταξύ των χαρακτηριστικών που προσδιορίζουν ιστορικό κληρονοµικότητας ασθενειών και τιµών δεικτών χοληστερίνης, τριγλυκεριδίων και HDL, οι οποίοι ισχύουν στην ιατρική πράξη αλλά δεν έχουν άµεση σχέση µε την λήψη ινσουλίνης. Αξιόλογοι είναι οι κανόνες 37,71,73,74,76 όπως φαίνεται και στην Εικόνα 5-27 που δηλώνουν ότι ασθενείς µε φυσιολογικές τιµές καλής χοληστερόλης δεν έχουν κληρονοµική δισλιπιδαιµία ούτε είναι κληρονοµικά παχύσαρκοι και δεν λαµβάνουν ινσουλίνη. Εικόνα 5-27 Κανόνες Συσχέτισης -100-

109 Εφαρµογή Ανακάλυψης Γνώσης Κάνοντας πιο ευέλικτο τον αλγόριθµο µειώσαµε τις προηγούµενες παραµέτρους θέτοντας lowerboundsupport=0.3 και minmetr=0.8. Οι κανόνες περίπου παρό- µοιοι µε αυτούς που βγήκαν σε προηγούµενα πειράµατα. Έτσι επιχειρήσαµε την εµφάνιση µόνο αυτών που περιέχουν τα χαρακτηριστικά: AGE, FILO, YPERTASI, IDDM _ NIDDM, TARGET_METR, CHOL_METR, HDL_METR, BMI,TG_METR. Από τους εκατόν είκοσι (120) κανόνες που προέκυψαν, ενδιαφέρον παρουσιάζουν οι κανόνες 1, 2, 10, 12, 37, 38,65,74, όπως φαίνονται και στην Εικόνα 5-28, που δηλώνουν ότι οι περισσότερες γυναίκες που έχουν σακχαρώδη διαβήτη και δεν είναι ινσουλοεξαρτώµενες έχουν και φυσιολογικές τιµές καλής χοληστερόλης αλλά παθολογικές τιµές τριγλυκεριδίων και χοληστερίνης που προέκυψε και από προηγούµενους αλγορίθµους και επιβεβαιώνει το γεγονός της µεγαλύτερης προσοχής των γυναικών σε θέµατα υγείας. Εικόνα 5-28 Κανόνες Συσχέτισης 5.3 Αναζήτηση γνώσης µε την πλατφόρµα SQL Server 2005 Ακολουθεί η ανάλυση των δεδοµένων και η εύρεση µοντέλων µε την χρήση της πλατφόρµας Microsoft SQL Server Να σηµειωθεί ότι για την παρουσίαση των αποτελεσµάτων των µοντέλων και την αξιολόγησή τους χρησιµοποιηθήκαν δύο δυνατότητες που προσφέρει η πλατφόρµα. Η πρώτη είναι το lift chart είναι η καµπύλη πρόβλεψης του ποσοστού επιτυχών προβλέψεων του αλγορίθµου σαν ποσοστό του συνολικού πληθυσµού και συγκρίνεται τόσο µε την ιδανική καµπύλη όσο και µε την καµπύλη τυχαίας επιλογής. Η δεύτερη είναι ο Πίνακας ταξινόµησης (classification matrix), ο γνωστός Πίνακας Λαθών (confusion matrix) που εµφανίζει το πλήθος των σωστών προβλέψεων του αλγορίθµου και το πλήθος των λανθασµένων ανά τιµή του χαρακτηριστικού πρόβλεψης

110 Κεφάλαιο Εισαγωγή / Έλεγχος εδοµένων Γνώση Θετικό χαρακτηριστικό της πλατφόρµας είναι η δυνατότητα φόρτωσης αρχείου δεδοµένων οποιασδήποτε µορφής µέσω της αρχιτεκτονικής OLE BD. Έτσι λοιπόν έγινε άµεση φόρτωση του αρχείου excel µε τα δεδοµένα στο Database Engine και η δηµιουργία δύο νέων πινάκων µε τον ένα να περιέχει το σύνολο των δεδοµένων εκπαίδευσης και τον άλλο τα δεδοµένα αξιολόγησης µε τον τρόπο που περιγράφηκε σε προηγούµενη ενότητα (5.1 σελίδα 79). Οποιοιδήποτε παραπέρα µετασχηµατισµοί στα δεδοµένα δεν υλοποιήθηκαν άµεσα στην βάση άλλα σε δύο όψεις (vtrain_patient, vtest_patient), µια για κάθε πίνακα που δηµιουργήθηκαν από το εργαλείο Analysis Services στο οποίο πραγµατοποιείται η διαδικασία της αναζήτησης γνώσης. Το ιδιαίτερα αλληλεπιδραστικό περιβάλλον της πλατφόρµας αυτής που επιτρέπει την συγγραφή κώδικα SQL, απλοποιεί κατά πολύ τις παραπάνω διαδικασίες σε αντίθεση µε την πλατφόρµα Weka που οποιαδήποτε αλλαγή περιορίζεται στις δυνατότητες που προσφέρουν τα φίλτρα ή η προ-επεξεργασία των δεδοµένων µε κάποια άλλη εφαρµογή πριν την εισαγωγή τους στην πλατφόρµα αυτή. Εικόνα 5-29 ιαγραµµατική Απεικόνιση Χαρακτηριστικών Η παραπέρα µελέτη και ανάλυση των δεδοµένων είναι δυνατή είτε µε την µορφή ενός πίνακα όπου φαίνονται συνολικά τα δεδοµένα, είτε µε µορφή διαγραµµάτων (ιστογράµµατα πίτες) όπου φαίνεται η κατανοµή των τιµών κάθε χαρακτηριστικού µεµονω- µένα. Τα ιστογράµµατα για το σύνολο των δεδοµένων εκπαίδευσης φαίνονται στην Εικόνα

111 Εφαρµογή Ανακάλυψης Γνώσης Από την εικόνα αυτή µπορούµε να εξάγουµε κάποια πρώτα συµπεράσµατα σχετικά µε το σύνολο των δεδοµένων και τα χαρακτηριστικά ενδιαφέροντος τα οποία είναι ίδια µε αυτά που αναφέρθηκαν σε προηγούµενη ενότητα. Σηµαντικότατη είναι η δυνατότητα που παρέχεται µέσα από τις καρτέλες Pivot Table, Pivot Chart για πιο λεπτοµερή ανάλυση των δεδοµένων που επιτρέπει την εξερεύνηση και την παρουσίαση των σχέσεων µεταξύ δύο ή και περισσότερων χαρακτηριστικών, µε την εφαρµογή διαφόρων αριθµητικών πράξεων σε αυτά. Επειδή αντικείµενο ενδιαφέροντος αποτελεί η κατανο- µή της λήψης ινσουλίνης ή µη στην παρακάτω Εικόνα 5-30 φαίνονται τα pivot charts µε την κατανοµή του χαρακτηριστικού IDDM_NIDDM σε κάθε χαρακτηριστικό. Εικόνα 5-30 Κατανοµή IDDM_NIDDM ανα χαρακτηριστικό Παράλληλα, είναι δυνατός και ο συνδυασµός περισσοτέρων εκ τω δύο χαρακτηριστικών. Στην Εικόνα 5-31 φαίνεται η κατανοµή του χαρακτηριστικού IDDM_NIDDM σε σχέση µε το φύλλο και τον δείκτη µάζας σώµατος και το πλήθος ανά τιµή χαρακτηριστικού

112 Κεφάλαιο 5 Εικόνα 5-31 a) Pivot Chart b) Pivot Table Microsoft Decision Trees Εφαρµόστηκε αλγόριθµος που χρησιµοποιεί ως µέθοδο διαχωρισµού το µέτρο της ε- ντροπίας κάνοντας αυστηρό κλάδεµα του δένδρου για την αποφυγή της υπέρ- µοντελοποίησης µέσω της ρύθµισης κατάλληλης παραµέτρου. Εφαρµόστηκαν τέσσερα πειράµατα: στα δύο πρώτα χρησιµοποιήθηκαν όλα τα χαρακτηριστικά του συνόλου εκπαίδευσης και µεταβλήθηκε το πλήθος των περιπτώσεων ανά κόµβο-φύλλο. Τα αποτελέσµατα ήταν πολύ διαφορετικά από αυτά της πλατφόρµας Weka και όχι απόλυτα ενθαρρυντικά αναδεικνύοντας έτσι την αδυναµία του αλγορίθµου που έγκειται στον α- µοιβαίο αποκλεισµό σηµαντικών χαρακτηριστικών. Το δίκτυο συσχετίσεων και το δένδρο που προέκυψε από τα δύο µοντέλα φαίνεται στις Εικόνα 5-32 και Εικόνα 5-33 α- ντίστοιχα. Εικόνα 5-32 ίκτυο Συσχετίσεων -104-

113 Εφαρµογή Ανακάλυψης Γνώσης Εικόνα 5-33 ένδρο Από τα παραπάνω είναι ορατό ότι τα ινσουλοεξαρτώµενα άτοµα είναι νεαρής ηλικίας, χωρίς κάποιο ιστορικό κληρονοµικότητας και οι τιµές του ζαχάρου κυµαίνονται σε µικρές ή φυσιολογικές τιµές. Στα επόµενα δύο πειράµατα λήφθηκαν υπόψη µόνο τα χαρακτηριστικά που προέκυψαν από τον αλγόριθµο της πλατφόρµας Weka. Τα αποτελέσµατα είναι σαφώς πιο βελτιωµένα ως προς την σωστή πρόβλεψη της κλάσης IDDM και προκύπτει ένα δένδρο που επιβεβαιώνει όσα είχαν προσδιοριστεί στην πλατφόρµα Weka. Το δίκτυο συσχετίσεων και το δένδρο φαίνονται την Εικόνα 5-34 και Εικόνα 5-35 αντίστοιχα. Εικόνα 5-34 ίκτυο Συσχετίσεων -105-

114 Κεφάλαιο 5 Εικόνα 5-35 ένδρο Τα αποτελέσµατα όλων των µοντέλων σε µορφή lift chart και πίνακα ταξινόµησης φαίνονται στις Εικόνα 5-36 και Εικόνα 5-37 αντίστοιχα. Εικόνα 5-36 a) Lift chart IDDM b) Lift chart -106-

115 Εφαρµογή Ανακάλυψης Γνώσης Εικόνα 5-37 Πίνακας Ταξινόµησης Microsoft Naive Bayes Πρόκειται για την υλοποίηση του κλασσικού κατηγοριοποιητή Bayes µε τον οποίο ε- κτιµάται η πιθανότητα µια νέα περίπτωση να ανήκει σε µια κλάση βάσει συσχετίσεων µε τις άλλες µεταβλητές. Ο αλγόριθµος είναι απλός, δεν υλοποιεί κάποια προηγµένη ανάλυση των δεδοµένων, αλλά χρησιµοποιείται για καλύτερη απεικόνιση των χαρακτηριστικών. Εφαρµόσαµε τρία πειράµατα. Στo πρώτο πείραµα αφαιρέσαµε τα χαρακτηριστικά ET_YPER, ETH_ZAKX επειδή ο αλγόριθµος δέχεται µόνο συνεχή χαρακτηριστικά. Στο δεύτερο πείραµα έγινε αυτόµατη διακριτοποίηση των χαρακτηριστικών αυτών από τον αλγόριθµο. Στο τρίτο πείραµα τα χαρακτηριστικά διαφοροποιήθηκαν σύµφωνα µε τον πίνακα 5.1 (σελίδα 92). Και στις τρεις περιπτώσεις τα χαρακτηριστικά που επηρεάζουν περισσότερο την κατηγοριοποίηση είναι ίδια µε την προσθήκη στην τρίτη περίπτωση του χαρακτηριστικού ETH_YPER1. Τα δίκτυα συσχετίσεων φαίνονται στην Εικόνα Εικόνα 5-38 a) ίκτυο συσχετίσεων πειραµάτων 1-2 b) ίκτυο συσχετίσεων πειράµατος 3. Το προφίλ των παραπάνω χαρακτηριστικών για κάθε κλάση του χαρακτηριστικού IDDM_NIDDM φαίνεται στην Εικόνα

116 Κεφάλαιο 5 Εικόνα 5-39 Προφίλ Χαρακτηριστικών Οι περιπτώσεις που εµφανίζονται οι τιµές του χαρακτηριστικού IDDM _ NIDDM και οι διαφορές στις τιµές των χαρακτηριστικών για κάθε κλάση της µεταβλητής πρόβλεψης φαίνονται στην Εικόνα 5-40 και Εικόνα 5-41 αντίστοιχα. Εικόνα 5-40 Χαρακτηριστικά κλάσης Εικόνα 5-41 ιαφορές κλάσεων -108-

117 Εφαρµογή Ανακάλυψης Γνώσης Από τις προηγούµενες εικόνες επιβεβαιώνεται το συµπέρασµα που έχει προκύψει και από προηγούµενους αλγόριθµους για την σηµαντικότητα της ηλικίας στον χαρακτηρισµό ενός ασθενούς ως ινσουλοεξαρτώµενου, άλλα και η άµεση σύνδεση της υ- πέρτασης µε την εµφάνιση του σακχαρώδη διαβήτη. Η απόδοση των µοντέλων στην πρόβλεψη της κλάσης IDDM είναι όµοια και στα τρία πειράµατα, µε την µόνη διαφορά το µεγαλύτερο πλήθος λανθασµένων κατηγοριοποιήσεων της κλάσης NIDDM στο δεύτερο µοντέλο. Το µεγαλύτερο πλήθος λάθος κατηγοριοποιήσεων κι εδώ είναι στην τιµή IDDM που κατηγοριοποιείται ως NIDDM ό- πως και στην πλατφόρµα Weka.Το ίδιο συµπέρασµα εξάγεται και µε την δηµιουργία µοντέλων µε την χρήση λιγότερων παραµέτρων. Τα αποτελέσµατα των τριών µοντέλων µε την µορφή lift chart και πίνακα ταξινό- µησης φαίνονται στην Εικόνα 5-42 και Εικόνα 5-43 αντίστοιχα. Εικόνα 5-42 a) Lift chart IDDM b) Lift chart Εικόνα 5-43 Πίνακας Ταξινόµησης -109-

118 Κεφάλαιο Microsoft Neural Network Ο αλγόριθµος εφαρµόστηκε µε τις καθορισµένες παραµέτρους της πλατφόρµας αρχικά σε όλα τα χαρακτηριστικά κι έπειτα διαγράφοντας τα χαρακτηριστικά CHOL, DIAITA, EPAGGGELMA, HDL, TG, TSIG, TARGET_METR, γιατί όπως αποδείχτηκε στην παραπέρα ανάλυση όχι µόνο δεν προσέφεραν τίποτα στην ανακάλυψη γνώσης αλλά αντίθετα µείωναν, όχι δραµατικά βέβαια, την απόδοση του µοντέλου στην πρόβλεψη των ινσουλοεξαρτώµενων ασθενών. Ο τρόπος απεικόνισης διαφέρει κατά πολύ από τους viewer άλλων αλγορίθµων καθώς δεν παρουσιάζεται διαγραµµατικά το νευρωνικό δίκτυο αλλά η επίδραση χαρακτηριστικού / τιµή στο χαρακτηριστικό πρόβλεψης. Έτσι στην Εικόνα 5-44, βλέπουµε ότι η λήψη ινσουλίνης επηρεάζεται κυρίως από µικρές τιµές ηλικίας και ύπαρξη ιστορικού οικογενειακής κληρονοµικότητας παχυσαρκίας. Εικόνα 5-44 Επίδραση χαρακτηριστικού / τιµής Τα αποτελέσµατα των µοντέλων σε µορφή πίνακα ταξινόµησης και lift chart φαίνονται στην Εικόνα 5-45 και Εικόνα 5-46 αντίστοιχα

119 Εφαρµογή Ανακάλυψης Γνώσης Εικόνα 5-45 Πίνακας Ταξινόµησης Εικόνα 5-46 a) Lift chart IDDM b) Lift chart Microsoft Association Rules Ο αλγόριθµος αυτός ανήκει στην οικογένεια των a priori αλγορίθµων και σε αντίθεση µε τον αντίστοιχο αλγόριθµο της πλατφόρµας Weka χρησιµοποιείται για την πρόβλεψη των τιµών ενός χαρακτηριστικού κλάση µε δυνατότητες αξιολόγησης της απόδοσης των αλγορίθµων. Εφαρµόστηκαν τέσσερα διαφορετικά πειράµατα. Στα δύο πρώτα χρησιµοποιήθηκαν όλα τα χαρακτηριστικά. Θελήσαµε όλοι οι κανόνες να έχουν ελάχιστη εµπιστοσύνη 0.6. και υποστήριξη 0.03 και 0.04 αντίστοιχα. Περαιτέρω διαφοροποιήσεις στις παραπάνω τιµές είχαν ακριβώς τα ίδια αποτελέσµατα. Στα άλλα πειράµατα διαγράφηκαν κάποια χαρακτηριστικά τα οποία µέσα από την διαδικασία της ανάλυσης φαίνεται ότι δεν επηρεάζουν σηµαντικά το χαρακτηριστικό κλάση. Σε όλες τις περιπτώσεις η απόδοση του αλγορίθµου δεν κρίνεται ικανοποιητική για την πρόβλεψη της κλάσης. Λεπτοµέρειες σχετικά µε τα itemset, το µέγεθος τους, το περιεχόµενό τους εµφανίζονται µέσα από την καρτέλα itemset που φαίνεται και στην Εικόνα

120 Κεφάλαιο 5 Εικόνα 5-47 Itemsets Οι κανόνες που προκύπτουν µε την σηµαντικότητα τους επιβεβαιώνουν, όπως φαίνεται και στην Εικόνα 5-48, προηγούµενα συµπεράσµατα για την σηµαντικότητα της ηλικίας στον προσδιορισµό ενός ασθενή ως ινσουλοεξαρτώµενου και την ελάχιστη επίδραση ιστορικού κληρονοµικότητας κάποιων ασθενειών. Εικόνα 5-48 Rules -112-

121 Εφαρµογή Ανακάλυψης Γνώσης Παράλληλα, στην Εικόνα 5-49 φαίνεται το δίκτυο συσχετίσεων των χαρακτηριστικών. Εικόνα 5-49 ίκτυο Συσχετίσεων Το lift chart και ο πίνακας ταξινόµησης που προκύπτει από την αξιολόγηση των µοντέλων φαίνονται στην Εικόνα 5-50 και Εικόνα 5-51 αντίστοιχα. Εικόνα 5-50 a) Lift chart IDDM b) Lift chart -113-

122 Κεφάλαιο 5 Εικόνα 5-51 Πίνακας Κατηγοριοποίησης Microsoft Clustering Algorithm Εφαρµόστηκε ο αλγόριθµος Κ-µέσων για την δηµιουργία οµάδων από το σύνολο των χαρακτηριστικών για καλύτερη κατανόηση των δεδοµένων, αλλά και η πρόβλεψη της τιµής του χαρακτηριστικού κλάση IDDM_NIDDM. Στην πρώτη περίπτωση, δηµιουργήθηκαν δύο µοντέλα που περιγράφουν τα δεδοµένα. Το πρώτο περιείχε δύο οµάδες και το δεύτερο πέντε. Χαρακτηριστικές απεικονίσεις των µοντέλων είναι το ιάγραµµα Οµάδων (cluster Diagram) που φαίνονται οι σχέσεις ανάµεσα στις οµάδες, το προφίλ των οµάδων (Cluster Profile) που φαίνονται αναλυτικά η κατανοµή των τιµών των χαρακτηριστικών ανά οµάδα. Στην Εικόνα 5-52 φαίνονται τα παραπάνω. Εικόνα 5-52 a) Cluster Diagram b) Cluster Profile -114-

123 Εφαρµογή Ανακάλυψης Γνώσης Σηµαντικά συµπεράσµατα προκύπτουν και για πιο πιθανά χαρακτηριστικά κάθε οµάδας αλλά και για τις πιο σηµαντικές διαφορές των οµάδων από τα χαρακτηριστικά οµάδων (Cluster Characteristics) και την διαφοροποίηση µεταξύ των οµάδων (Cluster Discrimination) που φαίνονται στην Εικόνα Εικόνα 5-53 a) Cluster Characteristics b)cluster Discrimination Και στην πλατφόρµα αυτή προκύπτουν παρόµοια συµπεράσµατα µε αυτή του Weka ως προς τα ποιοτικά χαρακτηριστικά των οµάδων αν και η πολυπληθέστερη οµάδα είναι αυτή που περιέχει τους άνδρες. Τα αποτελέσµατα επιβεβαιώνονται και από την διάκριση πέντε οµάδων. Έπειτα δηµιουργήθηκαν τρία µοντέλα για την πρόβλεψη της τιµής του χαρακτηριστικού IDDM_NIDDM. Τα αποτελέσµατα ήταν όµοια και αποθαρρυντικά ως προς την ικανότητα του αλγορίθµου πρόβλεψης της λήψης ινσουλίνης. Ο πίνακας κατηγοριοποιήσεων και ο Lift Chart και φαίνονται στις Εικόνα 5-54και Εικόνα 5-55 αντίστοιχα. Εικόνα 5-54 Πίνακας Κατηγοριοποιήσεων -115-

124 Κεφάλαιο 5 Εικόνα 5-55 a) Lift chart IDDM b) Lift chart 5.4 Αξιολόγηση Μοντέλων Μετά την παρουσίαση των αλγορίθµων και των µοντέλων κατηγοριοποίησης του χαρακτηριστικού- κλάση που προσδιορίζει αν ο ασθενής λαµβάνει ή όχι ινσουλίνη ακολουθεί η αξιολόγηση της απόδοσης των αλγορίθµων. Η πλατφόρµα Weka παρέχει αυτόµατα πολλά µέτρα αξιολόγησης της απόδοσης των µοντέλων τα οποία θα πρέπει να υπολογιστούν και για τα µοντέλα της πλατφόρµας SQL Server 2005 για να είναι δυνατή η σύγκριση. Τα µέτρα αυτά είναι: το Αληθινά Θετικό Ποσοστό TPR(True Positive Rate) ή αλλιώς Ευαισθησία (Sensitivity), το Ψεύτικα Θετικό Ποσοστό FPR (False Positive Rate), η Τιµή Θετικής Πρόβλεψης (Positive Predictive Value PPV) ή αλλιώς Ακρίβεια (Precision),το Γενικό Ποσοστό Επιτυχίας (Overall Success Rate) ή αλλιώς Ακρίβεια Accuracy ACC. Για τον υπολογισµό των παραπάνω παραµέτρων πρέπει να λάβουµε υπόψη µας ότι το χαρακτηριστικό πρόβλεψης έχει δύο κλάσεις: NIDDM, IDDM. Τα αποτελέσµατα της κατηγοριοποίησης µπορεί να είναι µια από τις ακόλουθες περιπτώσεις : Ο ασθενής είναι ινσουλοεξαρτώµενος και κατηγοριοποιείται στην αντίστοιχη σωστή κλάση (IDDM), δηλαδή η πραγµατική µε την προβλεπόµενη επιθυµητή κλάση να είναι ίδιες (TP). Ο ασθενής είναι µη ινσουλοεξαρτώµενος (NIDDM) και κατηγοριοποιείται στην αντίστοιχη σωστή κλάση, δηλαδή η πραγµατική µε την προβλεπόµενη κλάση να είναι ίδιες (TN)

125 Εφαρµογή Ανακάλυψης Γνώσης Ο ασθενής να είναι ινσουλοεξαρτώµενος (IDDM) και να κατηγοριοποιηθεί ως µη ινσουλοεξαρτώµενος, δηλαδή να υπάρχει διαφορά µεταξύ πραγµατικής και προβλεπόµενης κλάσης (FN). ο ασθενής να είναι µη ινσουλοεξαρτώµενος (NIDDM) και να κατηγοριοποιηθεί ως ινσουλοεξαρτώµενος (FP). Έτσι, ο Πίνακας Λαθών (confusion matrix) της πλατφόρµας Weka και ο Πίνακας Ταξινόµησης της πλατφόρµας SQL Server 2005 είναι αντίστοιχα Πίνακας 5-2 και Πίνακας 5-3. Πίνακας 5-2 Πίνακας Λαθών Weka Πρόβλεψη Κλάσης Πραγµατική Κλάση NIDDM IDDM NIDDM TN FP IDDM FN TP Πίνακας 5-3 Πίνακας Κατηγοριοποίησης Πραγµατική Κλάση Πρόβλεψη Κλάσης NIDDM IDDM NIDDM TN FN IDDM FP TP Σύµφωνα µε τους παραπάνω πίνακες τα κριτήρια αξιολόγησης υπολογίζονται µε τους παρακάτω τύπους: TPR= TP TP+ FN FP (1) FPR= FP+ TN (2) TP PPV= TP+ FP TP+ TN (3) ACC= TP+ FP+ FN+ TN (4) Στον Πίνακας 5-4 υπάρχουν, για καθένα από τα µοντέλα που εφαρµόσαµε στην πλατφόρµα Weka, οι τιµές των κριτηρίων

126 Κεφάλαιο 5 Πίνακας 5-4 Πίνακας Αξιολόγησης Μοντέλων Weka WEKA TPR FPR PPV ACC Decision Tree Exp1 (J.48) Exp2 (J.48) Exp3 (J.48) Exp4 (ID3) Exp5 (ID3) Decision Table Exp Naive Bayes Exp Exp Exp NeuralNetwork Exp Ως προς την απόδοση των µοντέλων παρατηρείται ότι αν ενδιαφερόµαστε για µια συνολικά καλύτερη λύση ως προς την πρόβλεψη του χαρακτηριστικού IDDM_NIDDM, θα ήταν προτιµότερη η επιλογή του αλγορίθµου Decision Tree του Exp3 (J.48, όλες οι µεταβλητές, 10 αριθµός περιπτώσεων για κόµβο φύλλο, 0,25 παράγοντας εµπιστοσύνης) γιατί έχει τις καλύτερες τιµές ως προς τα περισσότερες κριτήρια και σχετικά από τις υψηλότερες ως προς το κριτήριο TPR. Αν σηµαντική θεωρείται η σωστή πρόβλεψη της κλάσης IDDM τότε βάσει του κριτηρίου TPR προτιµότερος είναι ο αλγόριθµος Naive Bayes Exp7 που έχει την υψηλότερη τιµή TPR αλλά υπολείπεται στα άλλα κριτήρια. Στον Πίνακας 5-5 υπάρχουν, για καθένα από τα µοντέλα που εφαρµόσαµε στην πλατφόρµα SQL Server 2005, οι τιµές των κριτηρίων. Ως προς την απόδοση των µοντέλων παρατηρείται ότι αν ενδιαφερόµαστε για µια συνολικά καλύτερη λύση, αλλά και για την σωστή πρόβλεψη της κλάσης IDDM θα ή- ταν προτιµότερη η επιλογή του αλγορίθµου Naive Bayes Exp5 (αφαίρεση συνεχών χαρακτηριστικών) κι έπειτα του Decision Trees Exp4 (αφαίρεση µεταβλητών, 10 περιπτώσεις ανά κόµβο-φύλλο). Ορατή είναι η ακαταλληλότητα των µοντέλων Assocciation rules και Clustering για πρόβλεψη της κλάσης. Γενικά µπορούµε να πούµε πως και στις πλατφόρµες δεν υπάρχουν ουσιαστικές διαφορές ως προς την απόδοση των αλγο

127 Εφαρµογή Ανακάλυψης Γνώσης ρίθµων. Και στις δύο πλατφόρµες αποδοτικότεροι είναι οι ίδιοι αλγόριθµοι. Βέβαια στην πλατφόρµα Weka εκτελείται καλύτερα ο αλγόριθµος Decision Trees, ενώ στην πλατφόρµα SQL Server οι αλγόριθµοι Naïve Bayes και Neural Networks. Πίνακας 5-5 Πίνακας Αξιολόγησης Μοντέλων SQL Server 2005 SQL Server 2005 TPR FPR PPV ACC Decision Tree Exp Exp Exp Exp Naive Bayes Exp Exp Exp NeuralNetwork Exp Exp Association Rules Exp Exp Exp Exp Clustering Exp Exp Exp Ιδιαίτερα Στοιχεία Εργαλείων Παρακάτω αναφέρονται, για κάθε µια πλατφόρµα, κάποια στοιχεία που ενισχύουν ακό- µη περισσότερο την αξιόλογη απόδοσή τους Εκτέλεση πειραµάτων στην πλατφόρµα Weka Κλασσική χρήση της πλατφόρµας Weka, είναι η εφαρµογή πολλών µεθόδωναλγορίθµων σε ένα σύνολο δεδοµένων και η ανάλυση των αποτελεσµάτων. Ωστόσο όµως, µια πολύ σηµαντική ανάγκη που καλύπτεται από το εργαλείο Experiment της -119-

128 Κεφάλαιο 5 πλατφόρµας είναι η αξιολόγηση και η σύγκριση της επίδοσης διαφορετικών αλγορίθ- µων, είτε σε ένα µεµονωµένο σύνολο είτε σε πολλά διαφορετικά σύνολα µέσω της ε- κτέλεσης πειραµάτων τα οποία µπορούν να εκτελούνται τοπικά σε ένα υπολογιστή ή να γίνεται κατανοµή τους σε πολλούς συνδεδεµένους υπολογιστές σε περιπτώσεις τεράστιου όγκου δεδοµένων όπου απαιτείται µεγάλη υπολογιστή ισχύ και χρόνος. Η διαδικασία έχει ως εξής: Επιλογή τύπου αρχείου (csv ή arff) που θα γίνει η αποθήκευση των αποτελεσµάτων του πειράµατος. Συνήθως επιλέγεται η µορφή csv γιατί επιτρέπει την παρουσίαση των αποτελεσµάτων σε µορφή υπολογιστικού φύλλου. Προσδιορισµός του είδους του πειράµατος. Τρεις είναι οι δυνατές περιπτώσεις Cross validation, Percentage Split (Random), Percentage Split (Standard). Βασικό µειονέκτηµα η αδυναµία εκτέλεσης πειράµατος µε ξεχωριστά σύνολα δεδο- µένων εκπαίδευσης και δεδοµένων αξιολόγησης. Επιλογή συνόλων δεδοµένων. Επιλογή αλγορίθµων. Υπάρχει η δυνατότητα αποθήκευσης του πειράµατος αυτού και εκτέλεση του µε άλλες παραµέτρους όπως νέα σύνολα δεδοµένων. Εκτέλεση. Ανάλυση Αποτελεσµάτων. Μετά την εκτέλεση του πειράµατος δυνατή είναι η ανάλυση των αποτελεσµάτων µε απώτερο σκοπό την επιλογή της πιο αποδοτικής µεθόδου- αλγορίθµου. Μετά την επιλογή του αρχείου των αποτελεσµάτων είναι δυνατή η ρύθµιση διαφόρων παραµέτρων και η επιλογή του είδους της αξιολόγησης που θα γίνει στις µεθόδους ανάµεσα από τρεις επιλογές: σύγκριση στατιστικών αποτελεσµάτων των µεθόδων σε σχέση µε µια µέθοδο βάση και αξιολόγηση αν είναι καλύτερη σε σχέση µε αυτή, Summary όπου γίνεται σύγκριση κάθε µεθόδου µε όλες τις άλλες και εµφάνιση ενός πίνακα µε το πλήθος των συνόλων δεδοµένων που υπερέχει κάθε µέθοδος, Ranking που γίνεται ταξινόµηση των µεθόδων βάσει του πλήθους του συνόλου των δεδοµένων που υπερέχουν έναντι των άλλων. Έτσι λοιπόν, εφαρµόσαµε ένα αντίστοιχο πείραµα για όλο το σύνολο των δεδοµένων (1340 εγγραφές) µε τεχνική ελέγχου 10 cross validation 10 φορές, και αξιολόγηση των τριών καλύτερων αλγορίθµων (έναν από κάθε κατηγορία): J.48 µε 10 περιπτώ

129 Εφαρµογή Ανακάλυψης Γνώσης σεις ανά κόµβο φύλλο και 0.25 παράγοντα υποστήριξης, Naïve Bayes µε τις προκαθορισµένες παραµέτρους και Neural Network µε τις προκαθορισµένες παραµέτρους. Η δηµιουργία του πειράµατος φαίνεται στην Εικόνα 5-56: Εικόνα 5-56 ηµιουργία Πειράµατος Μέρος από τα αποτελέσµατα σε µορφή csv ( 100 εγγραφές για κάθε αλγόριθµο) και τα στατιστικά µεγέθη φαίνονται στην Εικόνα Εικόνα 5-57 Αποτελέσµατα σε µορφή csv -121-

130 Κεφάλαιο 5 Ενώ η ανάλυση των αποτελεσµάτων αξιολογώντας κάθε αλγόριθµο µε τον αλγόριθµο βάση J.48 και ελέγχοντας το ποσοστό σωστών προβλέψεων στην Εικόνα Εικόνα 5-58 Σύγκριση Αλγορίθµων Ενώ η ταξινόµηση των αλγορίθµων µε βάση της απόδοσή του φαίνεται στην Εικόνα Εικόνα 5-59 Ταξινόµηση Αλγορίθµων Τα συµπεράσµατα που προέκυψαν είναι παρόµοια µε αυτά που είχαµε εκτίµηση στην ενότητα 5.4 παρόλο που εκεί χρησιµοποιηθεί άλλη µέθοδος αξιολόγησης. (σύνολο δεδοµένων εκπαίδευσης σύνολο δεδοµένων ελέγχου). Όπως φαίνεται από τις πιο πά

131 Εφαρµογή Ανακάλυψης Γνώσης νω εικόνες οι αλγόριθµοι J.48 και Naïve Bayes είναι περίπου το ίδιο στατιστικά σηµαντικοί ως προς την σωστή πρόβλεψη των κλάσεων (µε ελαφρά υπεροχή του Decision Trees), ενώ ο αλγόριθµος Neural Network δεν κρίνεται κατάλληλος και είναι στατιστικά χειρότερος από τους άλλους δύο Ερωτήµατα Πρόβλεψης Μοντέλων του SQL Server 2005 Πλεονέκτηµα της πλατφόρµας αυτής που η αναφορά του θεωρήθηκε σηµαντική είναι η χρήση των µοντέλων που προέκυψαν για την πρόβλεψη χαρακτηριστικού/κλάση πραγ- µατικών δεδοµένων που είτε είναι καταχωρηµένα σε ένα πίνακα είτε µε πληκτρολόγηση νέων περιπτώσεων απευθείας σε ένα γραφικό περιβάλλον. Οι παραπάνω δυνατότητες είναι εφαρµόσιµες από το εργαλείο Prediction Query Builder προσβάσιµο από την καρτέλα Mining Model Prediction. Στην πρώτη περίπτωση χρειάζεται προσδιορισµός του µοντέλου που θα χρησιµοποιηθεί για την πρόβλεψη, επιλογή του αρχείου δεδοµένων στο οποίο θα πραγµατοποιηθεί η πρόβλεψη του χαρακτηριστικού/κλάση, λογική σύνδεση των αντίστοιχων πεδίων µε το µοντέλο και επιλογή των προς εµφάνιση πεδίων. Η διαδικασία αυτή µπορεί να γίνει είτε µε την χρήση ενός γραφικού περιβάλλοντος µε τρόπο όµοιο µε αυτό του σχεσιακούς συστήµατος της Access, είτε µε την συγγραφή κώδικα SQL. Τα ερωτήµατα αυτά και τα αποτελέσµατα τους µπορεί να αποθηκευτούν για µελλοντική χρήση. Έτσι επιλέγοντας την χρήση του µοντέλου Decision Trees 4 για πρόβλεψη, στην Εικόνα 5-60 φαίνεται η δυνατότητα αυτή Εικόνα 5-60 Πρόβλεψη συνόλου δεδοµένων -123-

132 Κεφάλαιο 5 Μέρος από τα αποτελέσµατα που προκύπτουν φαίνονται στην Εικόνα Εικόνα 5-61 Αποτελέσµατα Από την καρτέλα αυτή είναι δυνατή και η εκτέλεση ερωτηµάτων Singleton. Η διαφοροποίηση αυτών έγκειται στο ότι η πρόβλεψη του χαρακτηριστικού/κλάση δεν απαιτεί την ύπαρξη πίνακα δεδοµένων, αλλά η πρόβλεψη γίνεται σε δεδοµένα που εισάγονται µε την άµεση πληκτρολόγηση τους από τον χρήστη στο επιλεγµένο µοντέλο. Έτσι λοιπόν, στην παρακάτω 5-62 φαίνεται η εκτέλεση και το αποτέλεσµα των παραπάνω µε την χρήση του µοντέλου Decision Tree a) Singleton Ερώτηµα b) Αποτέλεσµα Συµπερασµατικά προκύπτει ότι οι δύο παραπάνω δυνατότητες είναι πολύ χρήσιµες για την άµεση πρόβλεψη του χαρακτηριστικού κλάση

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό, 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή 1. εδοµένα, Πληροφορίες και Υπολογιστές 2. Πώς φτάσαµε στους σηµερινούς υπολογιστές 3. Το υλικό ενός υπολογιστικού συστήµατος 4. Το λογισµικό ενός υπολογιστικού συστήµατος

Διαβάστε περισσότερα

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Αναζήτηση γνώσης σε Νοσοκομειακά Δεδομένα ΤΟΡΤΟΠΙΔΗΣ ΓΕΩΡΓΙΟΣ Μηχανικός Η/Υ & Πληροφορικής Επιβλέπων: ΒΛΑΧΑΒΑΣ Π. ΙΩΑΝΝΗΣ Καθηγητής Τμ. Πληροφορικής

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής Περιεχόµενα Κατηγορίες Π.Σ. ιαχείρισης Πράξεων ιοίκησης Υποστήριξης Αποφάσεων Έµπειρα Συστήµατα Ατόµων και Οµάδων Ο κύκλος ζωής Π.Σ. Ορισµός Φάσεις Χρήστες

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 9 ΕΛΕΓΧΟΣ ΙΑ ΙΚΑΣΙΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΤΩΝ ΣΧΕ ΙΩΝ ΡΑΣΗΣ

ΚΕΦΑΛΑΙΟ 9 ΕΛΕΓΧΟΣ ΙΑ ΙΚΑΣΙΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΤΩΝ ΣΧΕ ΙΩΝ ΡΑΣΗΣ 241 9 ΚΕΦΑΛΑΙΟ 9 ΕΛΕΓΧΟΣ ΙΑ ΙΚΑΣΙΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΤΩΝ ΣΧΕ ΙΩΝ ΡΑΣΗΣ Η επιτυχής υλοποίηση του επιχειρησιακού σχεδιασµού στη βάση των σχεδίων δράσης που έχουν αναπτυχθεί, προϋποθέτει την ύπαρξη αποτελεσµατικής

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ Βασικός τελικός στόχος κάθε επιστηµονικής τεχνολογικής εφαρµογής είναι: H γενική βελτίωση της ποιότητας του περιβάλλοντος Η βελτίωση της ποιότητας ζωής Τα µέσα µε τα

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) ρ. ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ xalkias@hua.gr Χ. Χαλκιάς - Εισαγωγή στα GIS 1 Ορισµοί ΓΠΣ Ένα γεωγραφικό πληροφοριακό σύστηµα Geographic Information

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (data mining)

Εξόρυξη Γνώσης από εδοµένα (data mining) Εξόρυξη νώσης από εδοµένα (data mining) Ε.Κ.Ε.Φ.Ε. ηµόκριτος Ινστ. Πληροφορικής και Τηλεπικοινωνιών εώργιος Παλιούρας Email: paliourg@iit.demokritos.gr WWW: http://www.iit.demokritos.gr/~paliourg Περιεχόµενα

Διαβάστε περισσότερα

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ Δομή Παρουσίασης

Διαβάστε περισσότερα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα

Βιοπληροφορική και Πολυµέσα. Ειρήνη Αυδίκου Αθήνα Βιοπληροφορική και Πολυµέσα Αθήνα 1.2.2009 ΠΕΡΙΕΧΟΜΕΝΑ 1. Πως σχετίζεται µε τα Πολυµέσα 2. Τι είναι η Βιοπληροφορική 3. Χρήσεις 4. Συµπεράσµατα 5. Βιβλιογραφία Βιοπληροφορική και Πολυµέσα 2 1. Τι είναι

Διαβάστε περισσότερα

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση

Κεφάλαιο 8. Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής. Τεχνητή Νοηµοσύνη - Β' Έκδοση Κεφάλαιο 8 Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Αναπαράσταση Γνώσης Σύνολο συντακτικών

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ Βασικές Έννοιες - εδοµένα { Νίκος, Μιχάλης, Μαρία, Θάλασσα, Αυτοκίνητο }, αριθµοί, π.χ. {1, 2, 3, 5, 78}, συµβολοσειρές (strings) π.χ. { Κώστας, 5621, ΤΡ 882, 6&5 #1, +

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS)

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS) Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών (Geographical Information Systems GIS) ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ, ΤΜΗΜΑ ΓΕΩΓΡΑΦΙΑΣ ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ Εισαγωγή στα GIS 1 Ορισµοί ΣΓΠ Ένα σύστηµα γεωγραφικών πληροφοριών

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Η έννοια πρόβληµα Ανάλυση προβλήµατος Με τον όρο πρόβληµα εννοούµε µια κατάσταση η οποία χρήζει αντιµετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή ούτε προφανής. Μερικά προβλήµατα είναι τα εξής:

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων Πληροφοριακά Συστήματα Διοίκησης Διοικητική Επιστήμη και Λήψη Αποφάσεων Η πολυπλοκότητα των αποφάσεων Αυξανόμενη πολυπλοκότητα λόγω: Ταχύτητας αλλαγών στο εξωτερικό περιβάλλον της επιχείρησης. Έντασης

Διαβάστε περισσότερα

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας 1. Εισαγωγή Σχολιασµός των εργασιών της 16 ης παράλληλης συνεδρίας µε θέµα «Σχεδίαση Περιβαλλόντων για ιδασκαλία Προγραµµατισµού» που πραγµατοποιήθηκε στο πλαίσιο του 4 ου Πανελλήνιου Συνεδρίου «ιδακτική

Διαβάστε περισσότερα

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Αναστάσιος Σκαρλατίδης 1,2 anskarl@iit.demokritos.gr επιβλέπων: Καθ. Βούρος Γ. 1 1 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Πανεπιστήµιο

Διαβάστε περισσότερα

Πρόταση για Ανασχηματισμό του Προγράμματος Προπτυχιακών Σπουδών της ΣΗΜΜΥ

Πρόταση για Ανασχηματισμό του Προγράμματος Προπτυχιακών Σπουδών της ΣΗΜΜΥ Πρόταση για Ανασχηματισμό του Προγράμματος Προπτυχιακών Σπουδών της ΣΗΜΜΥ Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών Περίληψη Τί προτείνουμε, πώς και γιατί με λίγα λόγια: 55 μαθήματα = 30 για ενιαίο

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο ρ. Η. Μαγκλογιάννης Πανεπιστήµιο Αιγαίου Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ Αθήνα 18/ 10/ 2001

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ Αθήνα 18/ 10/ 2001 ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ Αθήνα 18/ 10/ 2001 ΥΠ.ΕΣ...Α Αριθµ.Πρωτ. / ΙΑ Π/A1/22123 Γ.Γ. ΗΜΟΣΙΑΣ ΙΟΙΚΗΣΗΣ ΓΕΝ. /ΝΣΗ ΙΟΙΚΗΤΙΚΗΣ ΟΡΓΑΝΩΣΗΣ /ΝΣΗ ΑΠΛΟΥΣΤΕΥΣΗΣ ΙΑ ΙΚΑΣΙΩΝ ΚΑΙ ΠΑΡΑΓΩΓΙΚΟΤΗΤΑΣ ΤΜΗΜΑ ΜΕΘΟ ΩΝ ΕΡΓΑΣΙΩΝ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ιδάσκων:

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ ΕΝΟΤΗΤΑ 1.1 ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ ΔΙΔΑΚΤΙΚΟI ΣΤOΧΟΙ Στο τέλος της ενότητας αυτής πρέπει να μπορείτε: να επεξηγείτε τις έννοιες «βάση δεδομένων» και «σύστημα διαχείρισης βάσεων δεδομένων» να αναλύετε

Διαβάστε περισσότερα

Ανοικτά Ακαδηµα κά Μαθήµατα

Ανοικτά Ακαδηµα κά Μαθήµατα ΤΕΙ Ιονίων Νήσων Ανοικτά Ακαδηµα κά Μαθήµατα Ανάλυση Σχεδίαση Υλοποίηση Αξιολόγηση Ανάλυση: Πληροφορίες σχετικά µε τις ανάγκες της εκπαίδευσης Σχεδίαση: Καθορισµός χαρακτηριστικών του εκπαιδευτικού λογισµικού

Διαβάστε περισσότερα

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)»

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)» 6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)» Ένα µεγάλο µέρος του Προγράµµατος Σπουδών της Σχολής ΑΤΜ αφορά την εκπαίδευση σε ποικίλα αντικείµενα που άπτονται

Διαβάστε περισσότερα

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

Βάσεις Δεδομένων Ενότητα 1

Βάσεις Δεδομένων Ενότητα 1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 1: Εισαγωγή στις Ιωάννης Μανωλόπουλος, Καθηγητής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Τι είναι πληροφοριακό σύστημα

Τι είναι πληροφοριακό σύστημα Τι είναι πληροφοριακό σύστημα Ένας ορισμός είναι ότι ένα πληροφοριακό σύστημα είναι ένα σύνολο αλληλοσυνδεόμενων μερών που συνεργάζονται για τη συλλογή, επεξεργασία, αποθήκευση και διάχυση πληροφοριών

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ 1 Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται

Διαβάστε περισσότερα

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος 1 Βασίλειος Χρυσικόπουλος Καθηγητής Πληροφορική Δίκτυα Ασφάλεια Πληροφοριών Ερευνητικά Ενδιαφέροντα Ασφάλεια Δίκτυα Η/Υ http://di.ionio.gr/staff-2/faculty-staff/vassilischrissikopoulos/

Διαβάστε περισσότερα

Ηλεκτρονικό Εμπόριο. Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Ηλεκτρονικό Εμπόριο. Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Ηλεκτρονικό Εμπόριο Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Βάσεις δεδομένων και Microsoft Access

Βάσεις δεδομένων και Microsoft Access Περιεχόμενα Κεφάλαιο 1 Βάσεις δεδομένων και Microsoft Access... 7 Κεφάλαιο 2 Microsoft Access 2010... 16 Κεφάλαιο 3 Σχεδιασμός βάσης δεδομένων και δημιουργία πίνακα... 27 Κεφάλαιο 4 Προβολές πινάκων και

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Πίνακας περιεχοµένων

Πίνακας περιεχοµένων Πίνακας περιεχοµένων ΠΡΩΤΟ ΜΕΡΟΣ... 1 Κεφάλαιο 1 Εισαγωγή στα συστήµατα ρευµάτων δεδοµένων... 3 1.1 Εισαγωγή... 3 1.2 Η ανεπάρκεια των συµβατικών Σ Β... 4 1.3 Το µοντέλο ρεύµατος δεδοµένων... 7 1.4 Ερωτήµατα

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος ΑΛΓΟΡΙΘΜΟΙ Στο σηµείωµα αυτό αρχικά εξηγείται η έννοια αλγόριθµος και παραθέτονται τα σπουδαιότερα κριτήρια που πρέπει να πληρεί κάθε αλγόριθµος. Στη συνέχεια, η σπουδαιότητα των αλγορίθµων συνδυάζεται

Διαβάστε περισσότερα

ΑΡΘΡΟ «ΕΞΙ ΣΤΟΥΣ ΔΕΚΑ ΕΛΛΗΝΕΣ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΠΛΕΟΝ ΚΑΘΗΜΕΡΙΝΑ ΤΟ ΔΙΑΔΙΚΤΥΟ»

ΑΡΘΡΟ «ΕΞΙ ΣΤΟΥΣ ΔΕΚΑ ΕΛΛΗΝΕΣ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΠΛΕΟΝ ΚΑΘΗΜΕΡΙΝΑ ΤΟ ΔΙΑΔΙΚΤΥΟ» ΑΡΘΡΟ «ΕΞΙ ΣΤΟΥΣ ΔΕΚΑ ΕΛΛΗΝΕΣ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΠΛΕΟΝ ΚΑΘΗΜΕΡΙΝΑ ΤΟ ΔΙΑΔΙΚΤΥΟ» Ηλεκτρονικό Εμπόριο Ως Ηλεκτρονικό Εμπόριο ή ευρέως γνωστό ως e- commerce, είναι το εμπόριο παροχής αγαθών και υπηρεσιών που

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Medical Data Analysis EΙΡΗΝΗ

Διαβάστε περισσότερα

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Τεχνολογίες Υποστήριξης Λήψης Διοικητικών Αποφάσεων OLTP (On Line Transaction Processing) Επιχειρηματικές Εφαρμογές (Σχεσιακές

Διαβάστε περισσότερα

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ 1 ΕΙΣΑΓΩΓΗ Με την ολοένα και ταχύτερη ανάπτυξη των τεχνολογιών και των επικοινωνιών και ιδίως τη ραγδαία, τα τελευταία

Διαβάστε περισσότερα

Προσομοίωση Συστημάτων

Προσομοίωση Συστημάτων Προσομοίωση Συστημάτων Προσομοίωση και μοντέλα συστημάτων Άγγελος Ρούσκας Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Γενικός ορισμός συστήματος Ένα σύνολο στοιχείων/οντοτήτων που αλληλεπιδρούν μεταξύ

Διαβάστε περισσότερα

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση µεθόδων Συµπερασµού Γραµµατικών Κορφιάτης Γιώργος ιπλωµατική Εργασία Αντικείµενο Κατασκευή µοντέλου ικανού να περιγράψει την πλοήγηση

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme Επιλογή δείγματος Κατερίνα Δημάκη Αν. Καθηγήτρια Τμήμα Στατιστικής Οικονομικό Πανεπιστήμιο Αθηνών 1 Τρόποι Συλλογής Δεδομένων Απογραφική

Διαβάστε περισσότερα

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Μεταπτυχιακό Δίπλωμα Ειδίκευσης Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές Δρ. Κακαρόντζας Γεώργιος Επίκουρος Καθηγητής Τμ. Μηχανικών Πληροφορικής Τ.Ε. Μηχανική Λογισμικού για Διαδικτυακές

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Διαχείριση Πολιτισμικών Δεδομένων Ενότητα 6: Εισαγωγή στις Βάσεις Δεδομένων Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Πωλήσεις. Μπίτης Αθανάσιος 2017

Πωλήσεις. Μπίτης Αθανάσιος 2017 Πωλήσεις Μπίτης Αθανάσιος 2017 Τι είναι πώληση; Πώληση είναι η μεταξύ δύο προσώπων σύμβαση με την οποία ο ένας (πωλητής) αναλαμβάνει την υποχρέωση να μεταβιβάσει την κυριότητα και να παραδώσει, αντί συμφωνημένου

Διαβάστε περισσότερα

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) Των σπουδαστών Σκλαβενίτης Αργύρης (Α.Μ. 535) Στασινός

Διαβάστε περισσότερα

http://www.economics.edu.gr 7

http://www.economics.edu.gr 7 6 ΑΡΧΕΣ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ 1.3 Λειτουργίες της Επιχείρησης 1.3.1 Η αλυσίδα των Επιχειρησιακών Λειτουργιών Όπως κάθε οργανισµός, έτσι και η επιχείρηση, προκειµένου να ζήσει, ν ανταποκριθεί

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

1 Ανάλυση Προβλήματος

1 Ανάλυση Προβλήματος 1 Ανάλυση Προβλήματος 1.1 Η Έννοια Πρόβλημα Τι είναι δεδομένο; Δεδομένο είναι οτιδήποτε μπορεί να γίνει αντιληπτό από έναν τουλάχιστον παρατηρητή, με μία από τις πέντε αισθήσεις του. Τι είναι επεξεργασία

Διαβάστε περισσότερα

Συστήματα Πληροφοριών Διοίκησης

Συστήματα Πληροφοριών Διοίκησης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Συστήματα Πληροφοριών Διοίκησης Ενότητα 2: Γενική θεώρηση και κατάταξη συστημάτων πληροφοριών διοίκησης Διονύσιος Γιαννακόπουλος, Καθηγητής Τμήμα

Διαβάστε περισσότερα

Εισαγωγή στην Ιατρική Πληροφορική

Εισαγωγή στην Ιατρική Πληροφορική Εισαγωγή στην Ιατρική Πληροφορική ρ. Παναγιώτης. Μπαµίδης Λέκτορας Ιατρικής Πληροφορικής Θεµατικές ενότητες Ι.Π. Εισαγωγή Εννοιες πληροφορικών συστηµάτων υγείας Ηλεκτρονικός φάκελος ασθενούς Ηλεκτρονικός

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων Κεφάλαιο 11 Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων 11.1 Λήψη αποφάσεων και πληροφοριακά συστήματα Η επιχειρηματική αξία της βελτιωμένης λήψης αποφάσεων Είναι εφικτό να αποτιμηθεί σε κάποιον

Διαβάστε περισσότερα

Β Εξάµηνο Τίτλος Μαθήµατος Θ Φ Α.Π Ε Φ.E. Π.Μ Προαπαιτούµενα

Β Εξάµηνο Τίτλος Μαθήµατος Θ Φ Α.Π Ε Φ.E. Π.Μ Προαπαιτούµενα ΤΕΙ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε. ΣΥΝΟΠΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΑΝΑ ΕΞΑΜΗΝΟ Α Εξάµηνο Τίτλος Μαθήµατος Θ Φ Α.Π Ε Φ.Ε Π.Μ Προαπαιτούµενα Κ10 ΜΑΘΗΜΑΤΙΚΗ ΑΝΑΛΥΣΗ

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο

Διαβάστε περισσότερα

Μεθοδική Ανάπτυξη Δικτυακής Υποδομής. Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής

Μεθοδική Ανάπτυξη Δικτυακής Υποδομής. Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής Μεθοδική Ανάπτυξη Δικτυακής Υποδομής Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής 14-01-2006 1 Περιεχόμενα Η ανάγκη για μεθοδικό σχεδιασμό δικτύων Μία δομημένη

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θέµα Εργασίας: «Η έννοια της ποιότητας στις Υπηρεσίες Υγείας. Αξιολόγηση της ποιότητας των παρεχόµενων υπηρεσιών από τα ηµόσια Νοσοκοµεία στην Ελλάδα και προτάσεις για τη

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Διαχείριση Πολιτισμικών Δεδομένων Μάθημα 1 Εισαγωγή στις Βάσεις Δεδομένων Τζανέτος Πομόνης ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Συντήρησης Πολιτισμικής Κληρονομιάς Τι είναι οι Βάσεις

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Βάσεις Δεδομένων Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Στέργιος Παλαμάς, Υλικό Μαθήματος «Βάσεις Δεδομένων», 2015-2016 Κεφάλαιο 2: Περιβάλλον Βάσεων Δεδομένων Μοντέλα Δεδομένων 2.1

Διαβάστε περισσότερα

ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ...

ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ... ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ...1 1. Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ...3 Κατηγορίες των Γεωγραφικών εδοµένων...3 Γεωγραφικές οντότητες...3 ιαστάσεις

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ Ενότητα 7: Βάσεις Δεδομένων (Θεωρία) Πασχαλίδης Δημοσθένης Τμήμα Ιερατικών Σπουδών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Γεράσιµος Μαρκέτος Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) οµή παρουσίασης SQL Server 2005 Επιχειρηµατική

Διαβάστε περισσότερα

CRM. Σηµειώσεις για το σεµινάριο Αθανάσιος Ν. Σταµούλης. Customer Relationship Management

CRM. Σηµειώσεις για το σεµινάριο Αθανάσιος Ν. Σταµούλης. Customer Relationship Management CRM Σηµειώσεις για το σεµινάριο Αθανάσιος Ν. Σταµούλης Customer Relationship Management Το Customer Relationship Management ή Marketing είναι µια συνολική πελατοκεντρική προσέγγιση που επιτρέπει τον εντοπισµό,

Διαβάστε περισσότερα

Certified Data Base Designer (CDBD)

Certified Data Base Designer (CDBD) Certified Data Base Designer (CDBD) Εξεταστέα Ύλη (Syllabus) Πνευµατικά ικαιώµατα Το παρόν είναι πνευµατική ιδιοκτησία της ACTA Α.Ε. και προστατεύεται από την Ελληνική και Ευρωπαϊκή νοµοθεσία που αφορά

Διαβάστε περισσότερα

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ Αθανάσιος Γαγάτσης Τµήµα Επιστηµών της Αγωγής Πανεπιστήµιο Κύπρου Χρήστος Παντσίδης Παναγιώτης Σπύρου Πανεπιστήµιο

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΤΗΣ ΑΠΟΡΡΟΦΗΣΗΣ ΑΠΟΦΟΙΤΩΝ Α.Σ.ΠΑΙ.Τ.Ε.

ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΤΗΣ ΑΠΟΡΡΟΦΗΣΗΣ ΑΠΟΦΟΙΤΩΝ Α.Σ.ΠΑΙ.Τ.Ε. ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΤΗΣ ΑΠΟΡΡΟΦΗΣΗΣ ΑΠΟΦΟΙΤΩΝ Α.Σ.ΠΑΙ.Τ.Ε. ΜΕΛΕΤΗΤΙΚΗ ΟΜΑ Α Καραµητόπουλος Λεωνίδας Κώστογλου Βασίλης Τίγκας Οδυσσέας Τσιφετάκης Γεώργιος Χαρλαύτης Σπυρίδων ΕΠΙΣΤΗΜΟΝΙΚΟΣ

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε;

Όμως πώς θα ορίζαμε την έννοια πληροφορία; Πώς την αντιλαμβανόμαστε; 1.1 ΕΙΣΑΓΩΓΗ Η πληροφορία αποτελεί το βασικό εργαλείο άσκησης της ιατρικής επιστήμης. Η διάγνωση, η θεραπεία, η πρόληψη και η διοίκηση της υγείας βασίζονται στην απόκτηση, διαχείριση και επεξεργασία της

Διαβάστε περισσότερα

ΜΕΤΑΒΑΤΙΚΕΣ ΠΡΟΫΠΟΘΕΣΕΙΣ ΑΠΟΚΤΗΣΗΣ ΠΤΥΧΙΟΥ

ΜΕΤΑΒΑΤΙΚΕΣ ΠΡΟΫΠΟΘΕΣΕΙΣ ΑΠΟΚΤΗΣΗΣ ΠΤΥΧΙΟΥ ΜΕΤΑΒΑΤΙΚΕΣ ΠΡΟΫΠΟΘΕΣΕΙΣ ΑΠΟΚΤΗΣΗΣ ΠΤΥΧΙΟΥ Για τους φοιτητές που έχουν εισαχθεί στο Τµήµα από το Ακαδηµαϊκό Έτος 1999-2000 έως το Ακαδηµαϊκό Έτος 2003-2004 1 1. Εγγραφή και παρακολούθηση για τουλάχιστον

Διαβάστε περισσότερα

710 -Μάθηση - Απόδοση. Κινητικής Συμπεριφοράς: Προετοιμασία

710 -Μάθηση - Απόδοση. Κινητικής Συμπεριφοράς: Προετοιμασία 710 -Μάθηση - Απόδοση Διάλεξη 5η Ποιοτική αξιολόγηση της Κινητικής Συμπεριφοράς: Προετοιμασία Περιεχόμενο ενοτήτων Ποιοτική αξιολόγηση Ορισμός και στάδια που περιλαμβάνονται Περιεχόμενο: στοιχεία που τη

Διαβάστε περισσότερα

Created by : Market Research Team. Market Research Team

Created by : Market Research Team. Market Research Team Υπηρεσίες Έρευνας Αγοράς 2 0 0 9 Created by : Έρευνα Αγοράς Σήµερα που οι συνθήκες ανταγωνισµού στην αγορά γίνονται όλο και πιο απαιτητικές, οι επιχειρήσεις έχουν ολοένα και µεγαλύτερη ανάγκη για αξιοποίηση

Διαβάστε περισσότερα