Αναζήτηση Γνώσης σε Βάσεις Δεδομένων

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Αναζήτηση Γνώσης σε Βάσεις Δεδομένων"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΙΟΙΚΗΣΗ» Αναζήτηση Γνώσης σε Βάσεις Δεδομένων Εξόρυξη Δεδομένων από τραπεζικά στοιχεία με την χρήση του προγράμματος SPSS Clementine Διπλωματική Εργασία του Αμπατζίδη Σταύρου (ΑΕΜ:228 ) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας Καθηγητής Τμήματος Πληροφορικής Α.Π.Θ ΘΕΣΣΑΛΟΝΙΚΗ ΜΑΡΤΙΟΣ i-

2

3 Πρόλογος Η παρούσα μελέτη πραγματοποιήθηκε στα πλαίσια εκπόνησης της διπλωματικής εργασίας, με θέμα : «Αναζήτηση Γνώσης σε Βάσης Δεδομένων με την χρήση του προγράμματος SPSS Clementine» Η εργασία εκπονήθηκε κατά το Ακαδημαϊκό έτος στα πλαίσια του Διατμηματικού Μεταπτυχιακού Προγράμματος Σπουδών «Πληροφορική και Διοίκηση». Στη συγκεκριμένη εργασία επιχειρείται η εξόρυξη γνώσης από τη βάση δεδομένων ενός χρηματοπιστωτικού ιδρύματος με την χρήση του λογισμικού εξόρυξης δεδομένων Clementine της SPSS, χρησιμοποιώντας μοντέλα που προκύπτουν από διάφορους αλγόριθμους εξόρυξης δεδομένων. Σε αυτό το σημείο θα ήθελα να εκφράσω τις θερμές ευχαριστίες μου στον επιβλέποντα Καθηγητή του Τμήματος Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης κ. Ιωάννη Βλαχάβα για την εμπιστοσύνη που μου επέδειξε στην ανάθεση του θέματος, την πολύτιμη καθοδήγησή του κατά τη διάρκεια εκπόνησης της εργασίας, καθώς και για την ευκαιρία που μου έδωσε να ασχοληθώ με το συγκεκριμένο γνωστικό αντικείμενο. Ιδιαίτερα θα ήθελα να ευχαριστήσω τον διδάκτορα του τμήματος Πληροφορικής κ. Φώτη Κόκκορα για την απαράμμιλη και εποικοδομητική συνεργασία μας, την προσφορά των απαιτούμενων στοιχείων καθώς και τις πολύτιμές υποδείξεις του, παράγοντες οι οποίοι συντέλεσαν αποφασιστικά στην άρτια διεκπεραίωση της εργασίας. Αμπατζίδης Σταύρος Μάρτιος i-

4 -ii-

5 Περιεχόμενα ΠΡΟΛΟΓΟΣ...I ΠΕΡΙΕΧΟΜΕΝΑ...III 1 ΕΙΣΑΓΩΓΗ ΕΠΙΣΚΟΠΗΣΗ ΠΕΡΙΕΧΟΜΕΝΩΝ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΔΙΚΑΣΙΑ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΤΙ ΕΙΝΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Η ΔΙΑΔΙΚΑΣΙΑ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ (KDD) Μοντελοποίηση της διαδικασίας Ανακάλυψης Γνώσης Είσοδος και έξοδος συστήματος Εξόρυξης Δεδομένων Εμπόδια στην εφαρμογή και την αποδοτικότητα της διαδικασίας της Ανακάλυψης Γνώσης ΤΑΞΙΝΟΜΗΣΗ ΤΩΝ ΣΥΣΤΗΜΑΤΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΔΙΑΦΟΡΩΝ ΜΕΘΟΔΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Μέθοδοι Προτύπων Πληροφόρησης Μέθοδοι Προτύπων Πρόβλεψης SPSS CLEMENTINE ΕΡΓΑΛΕΙΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Προμηθευτές και λογισμικό Η SPSS με το Clementine κορυφαία σύμφωνα με τους χρήστες ΕΙΣΑΓΩΓΗ ΣΤΟ ΛΟΓΙΣΜΙΚΟ CLEMENTINE V ΓΡΑΦΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΗΣ CLEMENTINE ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ Κόμβοι εισόδου Κόμβοι διαχείρισης εγγραφών iii-

6 3.4.3 Κόμβοι διαχείρισης πεδίων Κόμβοι γραφημάτων Κόμβοι μοντελοποίησης Κόμβοι εξόδου ΠΑΡΑΔΕΙΓΜΑ ΕΦΑΡΜΟΓΗΣ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΤΡΑΠΕΖΙΚΑ ΔΕΔΟΜΕΝΑ ΠΕΡΙΓΡΑΦΗ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΟΡΙΟΘΕΤΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ Προετοιμασία δεδομένων ΕΠΙΛΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΚΑΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΕΠΙΛΟΓΗ ΒΕΛΤΙΣΤΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ (FEATURE SELECTION) ΝΕΥΡΩΝΙΚΟ ΔΙΚΤΥΟ (NEURAL NETWORK) ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ (DECISION TREES) Δέντρα Κατηγοριοποίησης και Οπισθοδρόμησης (Classification And Regression - CART Trees) C ΣΥΓΚΡΙΣΗ ΜΟΝΤΕΛΩΝ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ...80 ΒΙΒΛΙΟΓΡΑΦΙΑ iv-

7 1 Εισαγωγή Ζούμε στην εποχή της πληροφορικής επανάστασης, η οποία στηρίζεται στην αποτελεσματική συλλογή, διαχείριση και επεξεργασία πληροφοριών και αποτελεί κρίσιμο παράγοντα για την επιτυχία της επιστημονικής έρευνας, των επιχειρηματικών δράσεων και γενικότερα της κοινωνικής εξέλιξης. Η διαρκής συσσώρευση δεδομένων μέσω καταγραφής συναλλαγών, παρακολούθησης φαινομένων και συλλογής μετρήσεων είναι πλέον ευρύτατα διαδεδομένη. Η ικανότητα συλλογής και αποθήκευσης δεδομένων έχει προ πολλού ξεπεράσει την ικανότητα διαχείρισης και αξιοποίησής τους, με αποτέλεσμα συχνά να εγκαταλείπεται η πιθανότητα αξιοποίησης τους, είτε στα πλαίσια της επιστημονικής έρευνας, είτε στα πλαίσια των επιχειρηματικών δραστηριοτήτων. Προκύπτει, δηλαδή, ότι δεν υπάρχει αντίστοιχη βελτίωση της ικανότητας των ανθρώπων για κατανόηση και αξιοποίηση των αποθηκευμένων πληροφοριών. Οι τεχνικές εξόρυξης δεδομένων (data mining), αξιοποιούν μεθόδους και εργαλεία τα οποία παρέχονται από τις τεχνικές μηχανικής μάθησης (machine learning) και τα οποία αυτοµατοποιούν σύνθετες και χρονοβόρες διαδικασίες επαγωγής γνώσης από δεδομένα, έτσι ώστε να καθίσταται εφικτή η ανάλυση μεγάλου όγκου δεδομένων και να συνάγονται χρήσιμα συμπεράσματα. 1.1 Επισκόπηση Περιεχομένων Η εργασία, εκτός της Εισαγωγής που αποτελεί και το 1 ο Κεφάλαιο, περιλαμβάνει ακόμα τρία κεφάλαια. Το 2 ο Κεφάλαιο αναφέρεται στον επιστημονικό τομέα της εξόρυξης γνώσης. Παρουσιάζονται συγγενή με αυτή αντικείμενα και περιγράφονται οι κυριότερες τεχνικές ανακάλυψης γνώσης από βάσεις δεδομένων και οι σημαντικότεροι αλγόριθμοι εξόρυξης γνώσης. Πιο συγκεκριμένα, αναλύονται τεχνικές όπως δέντρα απόφασης, Bayesian κατηγοριοποίηση, μάθηση εννοιών, μάθηση κατά περίπτωση, νευρωνικά δίκτυα, κανόνες συσχέτισης, ομαδοποίηση, κτλ. -1-

8 Στο 3 ο Κεφάλαιο παρουσιάζεται το λογισμικό Clementine της SPSS που χρησιμοποιήθηκε για την επίλυση του προβλήματος της εργασίας. Περιγράφεται το γραφικό του κομμάτι (GUI) και η παρουσίαση εστιάζεται στο περιβάλλον του συστήματος, καθώς αυτό χρησιμοποιήθηκε κυρίως κατά την επίλυση του προβλήματος. Στο 4 ο Κεφάλαιο περιγράφονται τα δεδομένα της βάσης δεδομένων, αναλύονται τα χαρακτηριστικά των μεταβλητών και οριοθετείτε το πρόβλημα στο οποίο προσπαθούμε να δώσουμε λύση. Στο 5 ο Κεφάλαιο επιλέγονται οι αλγόριθμοι που χρησιμοποιούνται στην διαδικασία εξόρυξης δεδομένων και εμφανίζονται τα αποτελέσματα από τα μοντέλα που δημιουργούνται. Στο 6 ο και τελευταίο κομμάτι της εργασίας συνοψίζονται τα αποτελέσματα και δίνονται ενδεικτικές κατευθυντήριες γραμμές για μελλοντικές εργασίες. -2-

9 2 Ανακάλυψη Γνώσης Η ανεξέλεγκτη και αλματώδης ανάπτυξη της τεχνολογίας τις τελευταίες δεκαετίες μας έχει φέρει αντιμέτωπους με ένα δίλλημα το οποίο μέχρι πρότινος δεν υπήρχε, αποθήκευση ή διαγραφή; Η μείωση του κόστους των συμβατικών μέσων αποθήκευσης μας έδωσε την δυνατότητα να συλλέγουμε κάθε είδους πληροφορίας και δεδομένων, που βρίσκονται καθημερινά γύρω μας, δημιουργώντας έτσι τεράστιες Βάσης Δεδομένων. Τα ερωτήματα που δημιουργούνται είναι πολλά, με κυριότερο όμως ερώτημα, το πώς από αυτά τα δεδομένα μπορούμε να τα αξιοποιήσουμε και να δημιουργήσουμε νέα γνώση. 2.1 Μηχανική Μάθηση Η Μηχανική Μάθηση (Machine Learning), εμφανίστηκε στις αρχές της δεκαετίας του 1980 και αποτελεί έναν από τους βασικούς τομείς της Τεχνητής Νοημοσύνης. Η έννοια της Μηχανικής Μάθησης ταυτίζεται µε την απόκτηση γνώσης και εμπειρίας σε κάποιο τομέα. Κάθε νοήμων οντότητα μπορεί να μαθαίνει κι έτσι είτε να αποκτά επιπλέον γνώση είτε να βελτιώνει προηγούμενη γνώση. Αντίστοιχα, και ένα υπολογιστικό σύστημα μπορεί µε αυτόματο όμως τρόπο να μαθαίνει και να αποθηκεύει, σε καθορισμένη γλώσσα βέβαια, την γνώση αυτή για μελλοντική χρήση µε στόχο την βελτιστοποίηση της µέσω της επανάληψης.. Η Μηχανική Μάθηση αποτελεί ένα επιστημονικό πεδίο που μελετά την σχεδίαση υπολογιστικών προγραμμάτων ικανών να μαθαίνουν, δηλαδή ικανών να βελτιώνουν την απόδοση τους µέσω της αξιοποίησης προηγούμενης γνώσης και εμπειρίας. Η απόκτηση αυτής της γνώσης και εμπειρίας δεν προκύπτει έπειτα από την αλληλεπίδραση του συστήματος µε το περιβάλλον, αλλά από ένα σύνολο κωδικοποιημένων δεδομένων που προέκυψαν από δειγματοληψία στο σύνολο της βάσης δεδομένων και αποτελούν το σύνολο των δεδομένων εκπαίδευσης (training set). Ένας γενικός ορισμός για την Μηχανική Μάθηση είναι αυτός που δόθηκε από τον Mitchell το 1996: Ένα πρόγραμμα υπολογιστή λέμε ότι μαθαίνει από την εμπειρία Ε ως -3-

10 προς κάποια κλάση εργασιών Τ και μέτρο απόδοσης Ρ, αν η απόδοση του σε εργασίες από το Τ, όπως μετριέται από το Ρ, βελτιώνεται µέσω της εμπειρίας Ε. Η Μηχανική Μάθηση μπορεί να αναχθεί και σε πρόβλημα αναζήτησης. Δηλαδή, είναι η αναζήτηση σε ένα χώρο υποθέσεων εκείνης της υπόθεσης που ταιριάζει κατά τον καλύτερο τρόπο στα υπό εξέταση δεδομένα και σε προηγούμενη γνώση, µε κύριο στόχο την δημιουργία μοντέλων ή προτύπων από ένα σύνολο δεδομένων από ένα υπολογιστικό σύστημα. Η εξαγωγή πληροφορίας από τις βάσεις δεδομένων μπορεί να γίνει µε δυο συλλογιστικές τεχνικές: την παραγωγή (deduction), όπου η πληροφορία που συμπεραίνεται είναι λογικό επακόλουθο της πληροφορίας που είναι αποθηκευμένη στην βάση δεδομένων και την επαγωγή (induction), όπου έχει μεγαλύτερη αξία γιατί η πληροφορία είναι γενίκευση της πληροφορίας που βρίσκεται στην βάση δεδομένων. Η τελευταία, η επαγωγική μάθηση και κατ επέκταση η μηχανική μάθηση διακρίνεται σε: Μάθηση µε επίβλεψη (supervised learning) ή μάθηση µε παραδείγματα (learning from examples) στην οποία το σύστημα τροφοδοτείται µε διάφορα παραδείγματα αντικειμένων που ανήκουν σε μια κατηγορία. Το ίδιο το σύστημα καλείται να ανακαλύψει τις κοινές ιδιότητες των αντικειμένων αυτών. Έτσι, προκύπτουν κανόνες της μορφής: Εάν «Περιγραφή» τότε «Κλάση/Κατηγορία», που χρησιμοποιούνται ως κριτήρια κατηγοριοποίησης νέων αντικειμένων σε γνωστές κλάσεις. Μάθηση χωρίς επίβλεψη (unsupervised learning) ή μάθηση από παρατήρηση, όπου το σύστημα µόνο του, βασισμένο στις δικές του ιδιότητες καλείται να ανακαλύψει κλάσεις-κατηγορίες αντικειμένων. Αυτό που προκύπτει είναι πλήρεις περιγραφές όλων των κλάσεων-κατηγοριών που βρέθηκαν. 2.2 Εισαγωγή στη Διαδικασία Ανακάλυψης Γνώσης από Βάσεις Δεδομένων Είμαστε κατακλυσμένοι από σωρεία δεδομένων. Η ποσότητα πληροφορίας στη ζωή μας φαίνεται να αυξάνεται διαρκώς. Έχουμε φτάσει σε ένα σημείο που απλώς αποθηκεύουμε ότι βρεθεί στο δρόμο μας που μπορεί παλιότερα να είχαμε αγνοήσει. Τα φτηνά -4-

11 αποθηκευτικά μέσα έχουν συμβάλλει και αυτά στη συλλογή δεδομένων, που εν τέλει μπορεί να μην είναι και τόσο χρήσιμα για μας. Όσο ο όγκος των πληροφοριών γύρω μας αυξάνεται, τόσο μειώνονται εκείνοι που τις κατανοούν. Έτσι με τα σημερινά μέσα οι άνθρωποι προσπάθησαν να ανακαλύψουν επιστημονικούς τρόπους για να κατανοήσουν τις πληροφορίες γύρω τους καθώς και τι ενυπάρχει ή κρύβεται πίσω από αυτές. Μπορούμε να πούμε ότι προσπάθησαν να βρουν κάποια πρότυπα (patterns) στα δεδομένα. Τα πρότυπα γενικότερα ως τρόποι συμπεριφοράς υπάρχουν από τη στιγμή που ξεκίνησε η ζωή. Θα μπορούσαμε να υποθέσουμε ότι η ιδανική δουλειά για έναν επιστήμονα είναι να γνωρίσει και να κατανοήσει τα δεδομένα που υπάρχουν στο περιβάλλον του, να ανακαλύψει πρότυπα και κανόνες-νόμους που διέπουν τη λειτουργία του φυσικού κόσμου, και συνεπώς να τα ενσωματώσει όλα αυτά σε μία θεωρία. Στην ανακάλυψη γνώσης από βάσεις δεδομένων, τα δεδομένα είναι αποθηκευμένα σε κάποιο ηλεκτρονικό μέσο, συνήθως σε κάποια βάση δεδομένων και η εύρεση είναι κατά ένα μεγάλο ποσοστό πλήρως αυτοματοποιημένη. Αυτή η ιδέα μπορούμε να πούμε ότι δεν είναι πρόσφατη. Αρκετοί επιστήμονες από διαφορετικούς επιστημονικούς τομείς καιρό τώρα ήθελαν να επιτύχουν κάτι τέτοιο. Αυτό που είναι καινούργιο με την τεχνολογία Data Mining είναι η καταπληκτική αύξηση της πιθανότητας εύρεσης προτύπων γνώσης στα δεδομένα. Η ανακάλυψη γνώσης και η εξόρυξη δεδομένων είναι έ- νας επιστημονικός τομέας που περιλαμβάνει διάφορες αρχές, κυρίως εστιάζοντας στις μεθοδολογίες για εξαγωγή χρήσιμης γνώσης από τα δεδομένα. Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων (data warehouses) έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, της μηχανικής μάθησης (machine learning), της στατιστικής, καθώς επίσης και ως μία σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Οι δικτυακές εφαρμογές που διαχειρίζονται μεγάλες αποθήκες δεδομένων έχουν αρχίσει να κάνουν χρήση των διαφόρων τεχνικών εξόρυξης δεδομένων, με σκοπό τη βελτίωση της ποιότητας των παρερχομένων υπηρεσιών μέσω της μελέτης της συμπεριφοράς των πελατών και της εξαγωγής χρήσιμων συμπερασμάτων από αυτήν. Η τελευταία δεκαετία έχει επιφέρει μια αλματώδη αύξηση στην παραγωγή και συλλογή δεδομένων. Κάθε χρόνο παράγονται τεράστιοι όγκοι δεδομένων από εταιρίες και πανεπιστήμια τα οποία αποθηκεύονται σε μεγάλες βάσεις δεδομένων. Η πρόοδος στην τεχνολογία των βάσεων δεδομένων μας παρέχει νέες τεχνικές για την αποδοτική και αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Επίσης η δυνα- -5-

12 τότητα ανάλυσης και ερμηνείας του συνόλου των δεδομένων, και η εξαγωγή «χρήσιμης» γνώσης από αυτά έχει ξεπεράσει κάθε όριο και έχει δημιουργηθεί η ανάγκη για μία νέα γενιά εργαλείων και τεχνικών ικανών για ευφυή ανάλυση επί των βάσεων δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές (τεχνητή νοημοσύνη, στατιστική, αποθήκευση δεδομένων, έμπειρα συστήματα και τέλος τον τομέα της οπτικοποίησης δεδομένων) και δημιουργείται ένας νέος ερευνιτικός τομέας, γνωστός ως εξόρυξη δεδομένων και γνώσης. 2.3 Τι είναι Εξόρυξη Δεδομένων Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, των μηχανών γνώσης, της στατιστικής, καθώς επίσης και ως μια σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Λογικό είναι, λοιπόν, μέθοδοι παρόμοιες ή παραπλήσιες με την εξόρυξη δεδομένων να ταυτίζονται, λανθασμένα, με αυτήν. Ορισμένες από τις μεθόδους αυτές είναι: Η ανάλυση προτύπων δεδομένων (data/ pattern analysis) Η αρχαιολογία δεδομένων (data archeology) Η συγκομιδή πληροφοριών (information harvesting) Η ευφυΐα συστημάτων επιχειρήσεων (business intelligence). Ο όρος εξόρυξη δεδομένων προέρχεται από τις ομοιότητες που υπάρχουν μεταξύ της αναζήτησης σημαντικής πληροφορίας σε μια μεγάλη βάση δεδομένων και της εξόρυξης σε ένα όρος για κάποιο πολύτιμο μετάλλευμα. Και οι δύο διαδικασίες απαιτούν είτε την εξέταση με προσοχή μια τεράστιας ποσότητας υλικού είτε την ευφυή έρευνά της, προκειμένου να βρεθεί αξία. Η εξόρυξη δεδομένων είναι στενά συνδεδεμένη με την ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases KDD) και πολλές φορές οι ορισμοί των δύο αυτών διαδικασιών ταυτίζονται. Ωστόσο, η KDD αναφέρεται σε ολόκληρη τη διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων. Ένας γενικός ορισμός, που παρουσιάζει με περισσότερη σαφήνεια την έννοια της KDD δόθηκε από τους Fayyad, Piatetsky-Shapiro, & Smyth (1996), σύμφωνα με τον οποίο: -6-

13 Η ανακάλυψη γνώσης σε βάσεις δεδομένων είναι η ντετερμινιστική διαδικασία της αναγνώρισης προτύπων σχέσεων μέσα στα δεδομένα μιας βάσης, για τα οποία πρότυπα ισχύει ότι είναι καινούρια, έγκυρα, πιθανώς χρήσιμα και απόλυτα κατανοητά. Με τον όρο πρότυπο εννοούμε ένα μοντέλο το οποίο εφαρμόζεται στα δεδομένα, έτσι ώστε να τους προσδίδει ορισμένα κοινά χαρακτηριστικά. Το εξαγόμενο πρότυπο πρέπει να είναι έγκυρο, δηλαδή συνεπές σε νέα δεδομένα με κάποιον βαθμό βεβαιότητας και κατανοητό, ώστε να μπορεί να οδηγήσει ακόμη και τους μη ειδικούς σε χρήσιμα συμπεράσματα για τη λήψη αποφάσεων. Ο όρος διαδικασία συνεπάγεται ότι η ΚDD αποτελείται από πολλά βήματα, όπως η προ-επεξεργασία των δεδομένων, η έρευνα για πρότυπα και η αξιολόγηση ερμηνεία των αποτελεσμάτων. Η εξόρυξη δεδομένων είναι ένα από τα βήματα της KDD διαδικασίας, η οποία ενδιαφέρεται κυρίως για τις μεθοδολογίες και τις τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από τις μεγάλες αποθήκες δεδομένων. Για να διαφοροποιηθούμε μεταξύ της διαδικασίας και των εργαλείων θα χρησιμοποιήσουμε τον όρο, KDD, για να περιγράψουμε ολόκληρη τη διαδικασία ανάλυσης ε- νός συνόλου δεδομένων, και τον όρο, εξόρυξη δεδομένων, για να αναφερθούμε κυρίως στις μεθόδους και τις τεχνικές που χρησιμοποιούνται στη διαδικασία ανάλυσης. 2.4 Η Διαδικασία Ανακάλυψης Γνώσης Από Βάσεις Δεδομένων (KDD) Μοντελοποίηση της διαδικασίας Ανακάλυψης Γνώσης Για να γίνει η μετατροπή των δεδομένων χαμηλού επιπέδου (low level data) σε νέα, έ- γκυρη και αξιοποιήσιμη πληροφορία, θα πρέπει να ακολουθηθεί μια βηματική και επαναπροσδιοριζόμενη διαδικασία. Η ονομαζόμενη και ως μέθοδος μοντελοποίησης (modeling) που περιγράφει ουσιαστικά τις ενέργειες που απαιτούνται για να αναπτυχθεί ένα μοντέλο, ικανό να περιγράψει με πρότυπα το σύνολο των καταστάσεων ενός προβλήματος και εν συνεχεία να μπορεί να γενικεύει με ακρίβεια σε νέα ζητούμενα, εκμεταλλευόμενο την πρότερη γνώση που έχει αποκτήσει. Το πρώτο ακαδημαϊκό μοντέλο που αναφέρθηκε σε δημοσίευση ήταν τις αρχές της δεκαετίας του 90, το οποίο περιέγραψε τη διαδικασία Ανακάλυψης Γνώσης και Εξόρυξης Δεδομένων με εννέα βήματα (Fayyad et al. 1996). Αντίστοιχα, το πρώτο επιχει- -7-

14 ρησιακό μοντέλο προτυποποίησης της διαδικασίας αναπτύχθηκε το 1996, γνωστό ως CRISP-DM (Cross-Industry Standard Process for Data Mining), ως επιχειρησιακό project της Ευρωπαϊκής Ένωσης, και περιλάμβανε έξι βήματα. Από τότε μέχρι και τις μέρες μας πολλές νέες, αξιόλογες προτάσεις έχουν κάνει την εμφάνισή τους, ενώ παράλληλα τα δύο προαναφερθέντα πρότυπα εξακολουθούν να εξελίσσονται και να τυγχάνουν ευρείας αποδοχής από την επιστημονική και βιομηχανική κοινότητα. Αξίζει να σημειωθεί ότι είναι τα μόνα που υποστηρίζονται πλήρως με ανεπτυγμένα εργαλεία λογισμικού, όπως για παράδειγμα είναι το Clementine της εταιρίας SPSS Inc. Εικόνα 2.1:Απεικόνιση των βημάτων της διαδικασίας Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων, σύμφωνα με το πρώτο ακαδημαϊκό πρότυπο μοντελοποίησης Σύμφωνα με το πρώτο ακαδημαϊκό πρότυπο μοντελοποίησης της διαδικασίας Ανακάλυψης Γνώσης σε σύνολα δεδομένων (Εικόνα 2.1, Fayyad et al. 1996), η μεθοδολογία είναι επαναληπτική και αλληλεπιδραστική, καθώς σε πολλά σημεία ο χρήστης καλείται να λάβει αποφάσεις. Περιλαμβάνει εννέα βήματα τα οποία συνοψίζονται στη συνέχεια: 1. Εκμάθηση του πεδίου εφαρμογής (Learning the application domain), όπου περιλαμβάνει την κατανόηση πρότερης γνώσης και τον καθορισμό των στόχων της εφαρμογής. 2. Δημιουργία ενός συνόλου δεδομένων-στόχου (Creating a target dataset), με την επιλογή συγκεκριμένων στοιχείων και πληροφοριών, βάσει των οποίων θα γίνει η εξόρυξη γνώσης. 3. Καθαρισμός και Προ-επεξεργασία δεδομένων (Data cleaning and Preprocessing), όπου περιλαμβάνει ενέργειες όπως: ορισμός τύπων δεδομένων και πεδίων τιμών, απομάκρυνση θορύβου ή αποκλινόντων τιμών, χειρισμός ελλιπών δεδομένων, καθορισμός σχεσιακού σχήματος, υπολογισμός νέων μεταβλητών, κ.ά. 4. Μείωση δεδομένων (Data reduction), όπου πραγματοποιείται μετασχηματισμός και απομάκρυνση περιττών δεδομένων που δε συμβάλλουν στην αλυσίδα συσχετίσεων τους. 5. Επιλογή της μεθοδολογίας Εξόρυξης Δεδομένων(Choosing the function of data mining), όπου καθορίζεται ο σκοπός δημιουργίας του μοντέλου, που μπορεί να είναι είτε προβλεπτικός (ταξινόμηση, παλινδρόμηση) είτε περιγραφικός (ομαδοποίηση). 6. Επιλογή των αλγορίθμων Εξόρυξης Δεδομένων(Choosing the data mining algorithms), -8-

15 όπου καθορίζονται οι μέθοδοι και οι παράμετροι που θα χρησιμοποιηθούν για την αναζήτηση προτύπων στα δεδομένα. 7. Εξόρυξη Δεδομένων (Data Mining), όπου πραγματοποιείται η εφαρμογή των επιλεχθέντων παραμέτρων για την ανάπτυξη του μοντέλου πρόβλεψης ή περιγραφής των δεδομένων. 8. Ερμηνεία (Interpretation), όπου γίνεται η αποσαφήνιση και οπτικοποίηση των εξαγόμενων προτύπων, με σκοπό τη μετατροπή τους σε χρήσιμη πληροφορία για τον τελικό χρήστη. 9. Χρήση γνώσης που ανακαλύφθηκε (Using discovered knowledge), όπου μπορεί να περιλαμβάνει ενέργειες όπως: συγγραφή αναφορών για την απόδοση των εξαγχθέντων πληροφοριών και τροφοδότηση της γνώσης σε συστήματα ανάλυσης απόδοσης και στήριξης αποφάσεων. Σύμφωνα με το επιχειρησιακό μοντέλο ενεργειών για τη διαδικασία της Ανακάλυψης Γνώσης (Chapman et al. 2000), είναι σαφές ότι λόγω της ευελιξίας του μπορεί να προσαρμοστεί ανάλογα με τις ανάγκες οποιουδήποτε τομέα επιχειρηματικής δραστηριοποίησης. Η μεθοδολογία περιγράφεται γενικά με βάση τα ακόλουθα βήματα(εικόνα 2.2): 1. Κατανόηση του επιχειρησιακού πεδίου (Business Understanding): πλήρης καθορισμός του θέματος και του αντικείμενου που ερευνάται και ορισμός των στόχων της διαδικασίας εξόρυξης δεδομένων. 2. Κατανόηση δεδομένων (Data Understanding): συλλογή συνόλου δεδομένων που θα χρησιμοποιηθούν ως αρχική πληροφορία κατά την εφαρμογή του μηχανισμού Ανακάλυψης Γνώσης. Τα δεδομένα θα πρέπει να αντικατοπτρίζουν τη φύση του προβλήματος, να σχετίζονται άμεσα ή έμμεσα με αυτό και να είναι όσο το δυνατόν πιο ο- λοκληρωμένα. 3. Προετοιμασία δεδομένων (Data Preparation): επιλογή των κατάλληλων δεδομένων για ανάλυση, καθαρισμός και μετασχηματισμός των δεδομένων εισόδου (κανονικοποίηση), χειρισμός των ελλιπών δεδομένων, ώστε να εισαχθούν στα εργαλεία μοντελοποίησης (modeling tools). 4. Μοντελοποίηση (Modelling): επιλογή κατάλληλων τεχνικών και ρύθμιση επιθυμητών χαρακτηριστικών των αλγορίθμων, ώστε να επιφέρουν όσο το δυνατόν καλύτερα αποτελέσματα. Αν είναι αναγκαίο, πραγματοποιείται οπισθοδρόμηση στην προηγούμενη φάση της διαδικασίας (βήμα 3), ώστε να προσαρμοστούν τα δεδομένα στη μορφή που εξυπηρετούν καλύτερα τις επιλεγμένες τεχνικές μοντελοποίησης. -9-

16 Εικόνα 2.2: Κύκλος ζωής του επιχειρησιακού μοντέλου εξόρυξης γνώσης CRISP-DM. Η φορά του βέλους δείχνει τις σημαντικότερες και πιο συχνές εξαρτήσεις μεταξύ των φάσεων 5. Αξιολόγηση (Evaluation): οπτικοποίηση και ερμηνεία των νέων δεδομένων. Λεπτομερής αξιολόγηση μοντέλου, με βάση τα αρχικά πρότυπα που ετέθησαν (βήμα 1). Αναθεώρηση των βημάτων που εκτελέστηκαν, με κυριότερο σκοπό να καθοριστεί το όποιο ζήτημα δεν έχει εξεταστεί πλήρως και να επιβεβαιωθεί το αν επιτυγχάνονται οι επιθυμητοί στόχοι στο μέγιστο βαθμό. 6. Υιοθέτηση (Deployment): παρουσίαση, υποστήριξη και αποτελεσματική χρήση της νέας γνώσης που αποκτήθηκε μέσα από την όλη διαδικασία. Καθορισμός ωφελειών και στρατηγικών δράσης, ώστε να αποτραπεί η λανθασμένη αξιοποίηση των αποτελεσμάτων. Όπως διαφαίνεται και στην Εικόνα 2.3, η διαδικασία εφαρμογής των βημάτων είναι κυκλική (εξωτερικό βέλος). Η μεθοδολογία της Ανακάλυψη Γνώσης μπορεί να εφαρμοστεί πάλι από την αρχή, από τη στιγμή που έχει ήδη υιοθετηθεί μια προτεινόμενη λύση, καθώς τα νέα δεδομένα μπορούν να οδηγήσουν σε καταλληλότερες, πιο επικεντρωμένες απαιτήσεις Είσοδος και έξοδος συστήματος Εξόρυξης Δεδομένων Για την επιτυχημένη και αποδοτικότερη εφαρμογή τεχνικών Εξόρυξης Δεδομένων, δύο είναι τα σημαντικότερα στοιχεία: (1) η ακριβής διατύπωση του προβλήματος και των επιμέρους χαρακτηριστικών του, και (2) η επιλογή των σωστών δεδομένων που αντιπροσωπεύουν το πρόβλημα. Τα αρχικά δεδομένα θα χρησιμοποιηθούν ως είσοδος στο σύστημα Εξόρυξης Δεδομένων (Εικόνα 2.3). Ο ρόλος των δεδομένων εκπαίδευσης είναι σημαντικός, γιατί βάσει -10-

17 αυτών επιχειρείται να καθοριστεί εκ νέου ο βαθμός συσχέτισής τους, ώστε να μπορέσει ο τελικός χρήστης να εκμαιεύσει μια πιο χρήσιμη και ολοκληρωμένη πληροφορία. Εικόνα 2.3:Περιγραφή της διαδικασία εκπαίδευσης μοντέλου εξόρυξης δεδομένων. Τα δεδομένα εισόδου στο σύνολό τους είναι οι τιμές των γνωρισμάτων. Ως γνώρισμα (attribute) ορίζεται η ιδιότητα ή το χαρακτηριστικό ενός αντικειμένου. Μια συλλογή γνωρισμάτων περιγράφει ένα αντικείμενο ή αλλιώς μια εγγραφή (record) ή ένα παράδειγμα (example) ή μια παρατήρηση (observation) ή ένα στιγμιότυπο (instance). Οι τιμές των γνωρισμάτων είναι αριθμοί ή σύμβολα που αναθέτονται σε ένα γνώρισμα. Οι τιμές των γνωρισμάτων μπορεί να είναι συνεχείς (continuous) ή διακεκριμένες (discrete). Ορίζονται διαφορετικοί τύποι γνωρισμάτων, όπως: ονομαστικός (nominal), τακτικός (ordinal) ή αριθμητικός (numeric), διαστήματος (interval) και ποσοστού (ratio). Ενδεικτικά παραδείγματα τύπων των γνωρισμάτων είναι και τα ακόλουθα: χρώμα ματιών, φύλο (ονομαστικός τύπος) βαθμοί εξετάσεων (αριθμητικός) αριθμοί οδών, βαθμίδες (τακτικός) ημερομηνίες, θερμοκρασίες σε βαθμούς Κελσίου ή Fahrenheit (διάστημα) νομισματικές αξίες, μήκος (ποσοστό) Ένα σύνολο δεδομένων μπορεί να είναι υπό τη μορφή εγγραφών (καταχωρήσεις σε πίνακες), ή γράφων, ή ταξινομημένων πληροφοριών (χωρικά, χρονικά, ονομαστικά). Αναλόγως τη μέθοδο και τους αλγορίθμους που επιλέγονται για την εκπαίδευση των συστημάτων, το μοντέλο και η τελική αναπαράσταση της γνώσης μπορεί να έχει μια από τις ακόλουθες μορφές (Witten et al. 2005): -11-

18 Α. Πίνακες αποφάσεων (Decision Tables) Είναι ο πιο απλός τρόπος αναπαράστασης των αποτελεσμάτων, όπου ένας στοιχειώδης πίνακας, όμοιος με αυτόν των δεδομένων εισόδου, με επιλεγμένες τις μεταβλητές που συμπεριλήφθηκαν στη διαδικασία της εκπαίδευσης, περιγράφει αποδοτικά τα νέα δεδομένα. Ωστόσο πρέπει να γίνει εξ αρχής προσεκτική επιλογή των σωστών γνωρισμάτων και δεν θεωρείται αρκετά ευέλικτη μέθοδος. Β. Δέντρα αποφάσεων (Decision Trees) Κάθε κόμβος στο δέντρο αποφάσεων εμπλέκεται στον έλεγχο ενός συγκεκριμένου γνωρίσματος. Οι καταληκτικοί κόμβοι, ή αλλιώς τα φύλλα του δέντρου, μπορούν να ορίσουν τον τρόπο ταξινόμησης ή την πιθανότητα κατηγοριοποίησης ενός στιγμιότυπου στο πρόβλημα. Αν το γνώρισμα που ελέγχεται είναι ονομαστικό, ο αριθμός των παιδιών ενός κόμβου είναι ίσος με τις πιθανές τιμές της μεταβλητής που εξετάζεται, και ο έλεγχος σε κάθε κόμβο γίνεται μόνο μια φορά καθώς διασχίζεται προς τα κάτω το δέντρο. Στην περίπτωση που το γνώρισμα είναι αριθμητικό, τότε ένας κόμβος v-επιπέδου μπορεί να ελεγχθεί περισσότερες από μία φορές καθώς διασχίζεται το δέντρο, όπου σε αυτόν πραγματοποιείται σύγκριση μεγαλύτερου-μικρότερου από μια σταθερά (2-way split) ή σύγκριση ανισότητας/ ισότητας τιμών-διαστημάτων (3-way split). Γ. Δέντρα για αριθμητική πρόβλεψη (Trees for Numeric Prediction) Σε προβλήματα που ζητείται να γίνει πρόβλεψη αριθμητικών τιμών, μπορούν να χρησιμοποιηθούν τα λεγόμενα δέντρα παλινδρόμησης (regression trees), όπου οι καταληκτικοί κόμβοι (φύλλα) δεν περιέχουν ονομαστικές κλάσεις, αλλά έναν αριθμό που ισούται με το μέσο όρο όλων των τιμών των στιγμιότυπων τα οποία καταλήγουν στον κόμβο αυτό. Τα δέντρα παλινδρόμησης είναι αρκετά ικανοποιητικά σε ακρίβεια πρόβλεψης, τείνουν όμως να είναι δύσκολα στην ερμηνεία λόγω του μεγάλου μεγέθους τους. Για να παραχθεί ένα μικρότερο και πιο κατανοητό δέντρο, με κόστος όμως τη μείωση της ορθότητας στις προβλέψεις του, έχουν προταθεί τα δέντρα-μοντέλα (model trees), στα φύλλα των οποίων περιέχονται γραμμικές συναρτήσεις, οι λεγόμενες εξισώσεις παλινδρόμησης (regression equations). Δ. Κανόνες ταξινόμησης (Classification Rules) Οι κανόνες ταξινόμησης αποτελούνται από δύο μέρη: τις συνθήκες (pre-conditions) που ορίζουν το τμήμα της υπόθεσης ενός κανόνα, και τη λογική ακολουθία των συνθηκών (consequents) που ορίζουν το τμήμα της απόδοσης. Οι συνθήκες είναι είτε γενικές -12-

19 λογικές εκφράσεις (regular expressions) είτε απλές συνενώσεις λογικών προτάσεων (logical expressions). Οι συνθήκες του κανόνα εξετάζονται και οδηγούν στην κατηγοριοποίηση ενός στιγμιότυπου σε μία ή περισσότερες κλάσεις. Οι κανόνες προκύπτουν με τη βοήθεια δέντρων αποφάσεων, όπου για κάθε φύλλο του δέντρου δημιουργείται και ένας κανόνας. Στο τμήμα της υπόθεσης του κανόνα περιγράφεται η αντίστοιχη προϋπόθεση για κάθε κόμβο που συναντάται σε μια καθορισμένη διαδρομή ρίζας-φύλλου, ενώ στο τμήμα της απόδοσης δίνεται η κλάση που ορίζει το φύλλο ανά περίπτωση. Ε. Κανόνες συσχέτισης (Association Rules) Οι κανόνες αυτοί περιγράφουν συσχετίσεις που μπορούν να προβλέψουν την εμφάνιση μιας μεταβλητής με βάση την συνύπαρξη άλλων μεταβλητών. Διαφέρουν από τους κανόνες ταξινόμησης στο ότι μπορούν να προβλέψουν οποιαδήποτε μεταβλητή, όχι μόνο την κλάση. Ζ. Κανόνες με εξαιρέσεις (Rules with Exceptions) Πρόκειται για μια φυσική επέκταση των κανόνων ταξινόμησης, που επιτρέπει τη χρήση εξαιρέσεων (exceptions), με σκοπό την αύξηση της δυνατότητας κάλυψης ενός δοσμένου σετ δεδομένων από ένα σύνολο κανόνων, αποφεύγοντας έτσι τον επανασχεδιασμό τους. Η. Κανόνες με σχέσεις (Rules involving Relations) Οι κανόνες που ορίσαμε σε προηγούμενες κατηγορίες, περιέχουν στο τμήμα συνθήκης τη σύγκριση γνωρίσματος με μια σταθερή τιμή (ονομαστική ή αριθμητική). Αντιθέτως, οι κανόνες με σχέσεις μπορούν να συγκρίνουν τα ίδια τα γνωρίσματα μεταξύ τους, εφαρμόζοντας τελεστές ισότητας ή ανισότητας. Ονομάζονται σχεσιακοί (relational) γιατί εκφράζουν τη σχέση αλληλεξάρτηση ανάμεσα στα γνωρίσματα που εμπεριέχουν. Θ. Αναπαράσταση γνώσης με στιγμιότυπα (Instance-based representation) Η μέθοδος αυτή χρησιμοποιεί τα ίδια τα στιγμιότυπα (εγγραφές) του σετ εκπαίδευσης για να αναπαραστήσει τη γνώση που έχει αποκτήσει μέχρι εκείνη τη στιγμή. Με βάση την επαναληπτική μάθηση αποστήθισης (rote learning), το σύστημα απομνημονεύει τα αρχικά δεδομένα, συγκρίνει κάθε νέο στιγμιότυπο με τα ήδη υπάρχοντα, και χρησιμοποιώντας μετρικές απόστασης (πλησιέστερου γείτονα, Ευκλείδεια απόσταση κ.ά.) αντιστοιχίζει το νέο στιγμιότυπο με το στιγμιότυπο του σετ εκπαίδευσης με το οποίο φέρει -13-

20 τα περισσότερα κοινά γνωρίσματα. Στην ουσία, τα αποτελέσματα δεν περιγράφουν πραγματικά πρότυπα ή γνώση που έχει εξαχθεί από το εκπαιδευμένο μοντέλο, αλλά ο συνδυασμός εγγραφών και μετρικών βοηθά στο να τεμαχιστεί ο χώρος και να τεθούν τα όρια διαχωρισμού των κλάσεων μεταξύ τους. Ι. Ομαδοποίηση (Clustering) Με τη μέθοδο αυτή, τα δεδομένα ομαδοποιούνται σε σύνολα στιγμιότυπων με παρόμοια χαρακτηριστικά και τα αποτελέσματα απεικονίζονται σε διαγράμματα. Ανάλογα με τους αλγορίθμους ομαδοποίησης, οι ομάδες (clusters) αναπαριστώνται με βάση τους ακόλουθους τρόπους: απλός διαμερισμός του δυσδιάστατου χώρου σε διακριτά τμήματα διαγράμματα Venn, όπου σχηματίζονται επικαλυπτόμενες ομάδες διαχωρισμός των ομάδων βάσει πιθανοτήτων, αντιστοιχίζοντας σε κάθε στιγμιότυπο το βαθμό συμμετοχής του στην ομάδα την οποία ανήκει ιεραρχική δομή, όπου τα στοιχεία που περιέχονται στα κατώτερα επίπεδα των δενδρικών διαγραμμάτων είναι εμφανώς πιο πυκνά ομαδοποιημένα σε σύγκριση με ανώτερα στρώματα Εμπόδια στην εφαρμογή και την αποδοτικότητα της διαδικασίας της Ανακάλυψης Γνώσης Η πολυδιάστατη φύση των δεδομένων, καθώς και η ετερογένεια των χαρακτηριστικών τους, είναι παράγοντες που δυσχεραίνουν την ποιότητα των πληροφοριών και την αποδοτικότητα στη χρήση τους. Η πολυπλοκότητα σε συνδυασμό με την μη-οργανωμένη συλλογή τους οδηγεί πολλές φορές στην ύπαρξη καταγεγραμμένων χαρακτηριστικών που δε θεωρούνται αντιπροσωπευτικά του προβλήματος που εξετάζεται. Τα ελλιπή ή ακατάλληλα δεδομένα εκπαίδευσης δημιουργούν συνήθως λανθασμένα ή μη-αποδοτικά μοντέλα πρόβλεψης/ περιγραφής, ή οδηγούν στο φαινόμενο του over-fitting, της απομνημόνευσης δηλαδή των αρχικών δεδομένων και όχι της εξαγωγής ουσιαστικών συσχετίσεων από αυτά. Ενδεικτικό του πόσο σημαντική είναι η προ-επεξεργασία των δεδομένων στη συνολική προσπάθεια Ανακάλυψης Γνώσης, είναι το συμπέρασμα που προκύπτει από την αξιολόγηση των βασικότερων προτεινόμενων στη βιβλιογραφία μοντέλων προτυποποίησης της διαδικασίας (Εικόνα 2.4). Επισημαίνεται ότι παραπάνω από το 50% της σχετικής προσπάθειας του συνολικού έργου καταβάλλεται στην προετοιμασία των δεδομέ- -14-

21 νων (data preparation). Συνήθως, το στάδιο εφαρμογής των μεθόδων Εξόρυξης Δεδομένων καταναλώνει πολύ λιγότερο χρόνο συγκριτικά με τα υπόλοιπα βήματα της διαδικασίας, γεγονός που δικαιολογείται από το ότι χρησιμοποιούνται αυτόματες ή ημιαυτόματες μέθοδοι σε ήδη κατάλληλα επεξεργασμένα δεδομένα. Σημαντική είναι και η προσπάθεια που πρέπει να καταβληθεί στην κατανόηση του προβλήματος και των δεδομένων που το περιγράφουν, ώστε να αξιοποιηθούν πλήρως οι δυνατότητες που δίνονται μέσα από τις τεχνικές Εξόρυξης Δεδομένων.. Εικόνα 2.4: Γραφική αναπαράσταση της σχετικής προσπάθειας που καταβάλλεται για την περάτωση των επιμέρους βημάτων της διαδικασίας Ανακάλυψης Γνώσης, σύμφωνα με τρεις διαφορετικές εκτιμήσεις. Για να εμποδιστεί η ύπαρξη συνθηκών που καταδικάζουν την μετέπειτα απόδοση του μοντέλου, το σύνολο των δεδομένων υφίσταται σημαντική επεξεργασία πριν την εισαγωγή του στο σύστημα Εξόρυξης Δεδομένων. Τα προβλήματα που τυχόν εξαλείφονται με αυτό τον τρόπο είναι: Θόρυβος (noise) και αποκλίνουσες τιμές (outliers) - πρόκειται για μεταβολές των πρωτογενών τιμών και για αντικείμενα που τα χαρακτηριστικά τους αποκλίνουν κατά πολύ σε σχέση με τα υπόλοιπα αντικείμενα του δείγματος. Σε μερικές περιπτώσεις, οι αποκλίνουσες τιμές είναι καθοριστικές για την ακρίβεια του μοντέλου που δημιουργείται. Ελλιπείς τιμές (missing values) - η ύπαρξη τους μπορεί να οφείλεται είτε στον τρόπο με τον οποίο συλλέγονται τα δεδομένα, είτε στο ότι μερικά γνωρίσματα δεν είναι εφαρμόσιμα για συγκεκριμένα παραδείγματα. Το πρόβλημα αυτό μπορεί να αντιμετωπιστεί με διάφορους τρόπους, όπως αφαίρεση συγκεκριμένων εγγραφών, παράβλεψη ελλιπών τιμών κατά την ανάλυση των δεδομένων, ή ακόμη συμπλήρωση των κενών με πιθανές τιμές (σταθμισμένες ανάλογα την πιθανότητα εμφάνισης τους). -15-

22 Διπλό-εγγραφές (duplicate data) και λανθασμένες τιμές - σε ένα σύνολο δεδομένων μπορούν να προκύψουν εύκολα διπλοτιμές των ίδιων αντικειμένων, ειδικότερα στην περίπτωση της συγχώνευσης δεδομένων από ετερογενείς πηγές. Επίσης, λάθη κατά την μέτρηση ή την καταχώρηση τιμών, ενισχύουν την πιθανότητα ύπαρξης λανθασμένων τιμών στο συνολικό δείγμα. Το πρόβλημα αυτό μπορεί να αντιμετωπιστεί δημιουργώντας ένα γράφημα για κάθε μεταβλητή και εντοπίζοντας τις τιμές που αποκλίνουν από το σύνολο. Όταν η εύρεση τέτοιων τιμών θεωρείται δύσκολη, η βοήθεια ενός ειδικού που γνωρίζει τη φύση του προβλήματος που μελετάται, κρίνεται σημαντική. Οι αλγόριθμοι Εξόρυξης Δεδομένων είναι ένα σημαντικό εργαλείο για την εξαγωγής γνώσης από συλλογές δεδομένων, ωστόσο η αξιολόγηση και η χρήση των αποτελεσμάτων τους είναι ζήτημα ανθρωπίνων αποφάσεων και όχι μηχανικής μάθησης. Οι ανθρώπινοι παράγοντες, όπως η μη-εξειδίκευση και οι λάθος επιλογές, καθώς επίσης και το πρώιμο στάδιο στο οποίο βρίσκεται η ενσωμάτωση του επιστημονικού πεδίου στους περισσότερους επιχειρηματικούς κλάδους, είναι επιπλέον σημαντικοί λόγοι που τίθενται εμπόδιο στην αποδοτική εφαρμογή των τεχνικών Εξόρυξης Δεδομένων. Πέραν αυτών, ζητήματα παραβίασης της ιδιωτικότητας και της ασφαλείας προσωπικών δεδομένων έρχονται στην επιφάνεια από υ- πέρμαχους της προστασίας των πνευματικών δικαιωμάτων, επιζητώντας τη θέσπιση νομοθεσιών που θα καθορίζουν όρια για τους σκοπούς κατοχής, χρήσης και επεξεργασίας πληροφοριών. 2.5 Ταξινόμηση των Συστημάτων Εξόρυξης Δεδομένων Από την παραπάνω ανάλυση μπορεί να γίνει αντιληπτό ότι η εξόρυξη δεδομένων είναι μια διαδικασία πολύπλευρη και σύνθετη, μέρος μιας άλλης επαναληπτικής διαδικασίας, με σκοπό την εξαγωγή γνώσης και συμπερασμάτων. Επιπλέον, είναι ένας διεπιστημονικός τομέας που συνδυάζει τομείς όπως βάσεις δεδομένων, μηχανική μάθηση, στατιστική και ανάκτηση πληροφοριών. Εμπεριέχει, λοιπόν, τεχνολογίες αιχμής (Εικόνα 2.5) χωρίς να τις υποβαθμίζει, αλλά αντιθέτως τις συνδυάζει με διάφορους τρόπους. -16-

23 Εικόνα 2.5:Οι τεχνολογίες που πλαισιώνουν την Εξόρυξη Δεδομένων Ανάλογα με τον τρόπο με τον οποίο οι διάφορες τεχνολογίες συμμετέχουν στην ε- ξόρυξη δεδομένων, υλοποιούνται και διαφορετικά συστήματα εξόρυξης δεδομένων. Η κατηγοριοποίηση των συστημάτων εξόρυξης δεδομένων μπορεί να γίνει με βάση τα ακόλουθα κριτήρια : ü Σύμφωνα με το είδος της βάσης δεδομένων που χρησιμοποιείται: Όπως αναφέρθηκε προηγουμένως, είναι δυνατή η εξόρυξη δεδομένων από διάφορους τύπους αποθήκευσης πληροφορίας (π.χ. τα σχεσιακά δεδομένα, τα αντικειμενοστραφή συστήματα βάσεων δεδομένων, οι χωροχρονικές βάσεις δεδομένων, τα συστήματα βάσεων δεδομένων πολυμέσων κ.λπ.). Για παράδειγμα, ένα σύστημα που χρησιμοποιείται για την εξαγωγή γνώσης από αντικειμενοστραφείς βάσεις δεδομένων καλείται αντικειμενοστραφές σύστημα εξόρυξης δεδομένων. Επιπλέον, όλοι οι αλγόριθμοι εξόρυξης δεδομένων δεν είναι εφαρμόσιμοι σε όλους τους τύπους δεδομένων. ü Σύμφωνα με τον τύπο της γνώσης που εξάγεται: Από ένα σύστημα εξόρυξης δεδομένων μπορούν να προκύψουν είτε πρότυπα πληροφόρησης (informative patterns), όπου περιγράφουν συσχετίσεις μεταξύ των δεδομένων και προκύπτουν με μάθηση χωρίς επίβλεψη, είτε μοντέλα πρόβλεψης (predictive models), όπου προβλέπουν την τιμή μιας μεταβλητής και προκύπτουν με μάθηση με επίβλεψη. Στα πρότυπα πληροφόρησης περιλαμβάνονται οι κανόνες συσχέτισης (association rules), τα ακολουθιακά πρότυπα (sequential patterns) και οι ομάδες (clusters), ενώ στα μοντέλα πρόβλεψης ανήκουν οι κανόνες κατηγοριοποίησης (classification rules), τα δέντρα απόφασης (decision trees), η μάθηση κανόνων (concept learning), η μάθηση με βάση τα παραδείγματα, η μάθηση με βάση την θε- -17-

24 ωρία του Bayes κλπ. Παράλληλα, ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί ανάλογα με το επίπεδο γενίκευσης της εξορυγμένης γνώσης (γενική, πρώτου επιπέδου ή πολυεπίπεδη γνώση). ü Σύμφωνα με την τεχνική που θα χρησιμοποιηθεί: Οι τεχνικές μπορούν να περιγράφουν είτε από το βαθμό παρέμβασης του χρήστη (αυτόνομα συστήματα, συστήματα οδηγούμενα από ερωτήματα, διαλογικά συστήματα κ.λπ.) είτε από την μέθοδο ανάλυσης των δεδομένων (συστήματα γενικής εξόρυξης, εξόρυξης βασισμένης στα πρότυπα, OLAP, εξόρυξης βασισμένης στη στατιστική ή στα μαθηματικά, νευρωνικά δίκτυα, κ.λπ.). ü Σύμφωνα με το πεδίο εφαρμογής της εξόρυξης δεδομένων: Είναι δυνατή η ανάπτυξη συστημάτων εξόρυξης δεδομένων μόνο για συγκεκριμένου τύπου εφαρμογές, όπως για παράδειγμα οικονομικές, χρηματιστηριακές, γενετικές κ.λπ. 2.6 Περιγραφή των διαφόρων μεθόδων Εξόρυξης Δεδομένων Τα πρότυπα που προκύπτουν από μια διαδικασία εύρεσης γνώσης διακρίνονται σε πρότυπα πληροφόρησης και πρότυπα πρόβλεψης. Τα πρότυπα πληροφόρησης (informative patterns) περιγράφουν συσχετίσεις μεταξύ των δεδομένων τις οποίες ο ειδικός του τομέα δεν γνώριζε. Η αξία τους είναι δυσκολότερο να αξιολογηθεί καθώς εξαρτάται από το κατά πόσο προτείνουν κάποιες ενέργειες σε αυτόν και επίσης από το κατά πόσο οι ενέργειες αυτές είναι αποτελεσματικές. Σε αυτήν την κατηγορία ανήκουν οι κανόνες συσχέτισης (association rules) όπως επίσης και οι ομάδες-συστάδες (clusters) οι οποίες προκύπτουν από την KDD διαδικασία της ομαδοποίησης (clustering). Τα πρότυπα πρόβλεψης (predictive patterns) προβλέπουν την τιμή ενός πεδίου με βάση τις τιμές των άλλων πεδίων. Η αξία τους δεν κρίνεται μόνο από την ποιότητα της πρόβλεψης αλλά και από το ότι μπορούν να μεταφέρουν στον ειδικό του τομέα μια γενική εικόνα της σχέσης που χαρακτηρίζει τα πεδία που μελετά.. Τέτοιες διαδικασίες εύρεσης γνώσης είναι η κατηγοριοποίηση (classification) με κυριότερες υποπεριπτώσεις τα δένδρα κατηγοριοποίησης (classification trees) και τους απλούς κατηγοριοποιητές Bayes, καθώς και η διαδικασία εντοπισμού εμπειρικών σχέσεων σε μεταβλητές (regression). -18-

25 Στη συνέχεια θα περιγραφούν οι κυριότερες τεχνικές που υλοποιούν τα πρότυπα κάθε κατηγορίας, όπως αυτές αναφέρθηκαν παραπάνω Μέθοδοι Προτύπων Πληροφόρησης Ομαδοποίηση Η ομαδοποίηση-συσταδοποίηση (clustering) είναι η εργασία του καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο λιγότερο ετερογενών υποομάδων (clusters). Αυτό που διαφοροποιεί την ομαδοποίηση από την κατηγοριοποίηση είναι ότι η ομαδοποίηση δε βασίζεται σε προκαθορισμένες κλάσεις. Στην κατηγοριοποίηση, ο πληθυσμός διαιρείται σε κλάσεις αναθέτοντας κάθε στοιχείο ή εγγραφή σε µία προκαθορισμένη κλάση µε βάση ένα μοντέλο που αναπτύσσεται µέσω της εκπαίδευσης του µε παραδείγματα που έχουν κατηγοριοποιηθεί εκ των προτέρων. Οι εγγραφές ομαδοποιούνται σε σύνολα µε βάση την ομοιότητα που παρουσιάζουν μεταξύ τους,όπως φαίνεται για παράδειγμα στην Εικόνα 2.6. Ο ειδικός του τομέα θα καθορίσει την σημασία που θα έχει κάθε μια από τις ομάδες (clusters) που προκύπτουν. Εικόνα 2.6:Παράδειγμα ομαδοποίησης -Clustering Η ομαδοποίηση μπορεί να χρησιμοποιηθεί και σαν εισαγωγή σε κάποια άλλη μορφή Data Mining ή μοντελοποίησης. Για παράδειγμα, η ομαδοποίηση μπορεί να χρησιμοποιηθεί σαν πρώτο βήμα στην προσπάθεια μερισμού των ασθενών ενός νοσοκομείου. Αντί δηλαδή να προσπαθούμε να προσδιορίσουμε τι είδος φαρμακευτική αγωγή θα ταίριαζε καλύτερα σε κάθε ασθενή, μπορούμε να κατηγοριοποιήσουμε τους ασθενείς αρχικά σε ομάδες (clusters) ασθενών που παρουσιάζουν τις ίδιες αλλεργίες στα διάφορα -19-

26 φάρμακα και στην συνέχεια να προσδιορίσουμε το είδος της φαρμακευτικής αγωγής που ταιριάζει σε κάθε ομάδα. Κανόνες Συσχέτισης Στην περίπτωση αυτή συναντόνται σύνολα από αντικείμενα ή εγγραφές, κάθε ένα από τα οποία περιέχει έναν αριθμό από αντικείμενα τα οποία ανήκουν σε μία δεδομένη συλλογή. Μία συνάρτηση συσχέτισης είναι μία συνάρτηση που εφαρμόζεται σε ένα σύνολο εγγραφών η οποία επιστρέφει σχέσεις ή πρότυπα που υπάρχουν στην συλλογή αυτών των αντικειμένων. Τα πρότυπα αυτά μπορεί να εκφραστούν με κανόνες, των ο- ποίων η γενική μορφή είναι «Αν Χ τότε Υ». Η εξαγωγή των κανόνων γίνεται με την βοήθεια κάποιων αλγορίθμων, οι οποίοι α- ποδεικνύονται αρκετά αποδοτικοί. Έπειτα από την ανάλυση και εύρεση των κανόνων θα πρέπει να διαπιστωθεί κατά πόσο είναι έγκυροι και σημαντικοί για την εφαρμογή µας. Υπάρχουν δύο συντελεστές οι οποίοι αναφέρονται στην ποιότητα των ευρεθέντων συσχετίσεων της μορφής: Χ -> Υ: ü Ο παράγοντας υποστήριξης (support) είναι ο λόγος των εγγραφών που ικανοποιούν και το Χ και το Υ προς το σύνολο των εγγραφών. ü Ο παράγοντας εμπιστοσύνης (confidence) είναι ο λόγος των εγγραφών που ικανοποιούν και το Χ και το Υ προς τις εγγραφές που ικανοποιούν µόνο το Χ. Παράδειγμα συσχετίσεων φαίνεται στην Εικόνα 2.7 Εικόνα 2.7:Παράδειγμα συσχετίσεων Η μεγαλύτερη δυσκολία στην αναζήτηση κανόνων συσχέτισης είναι ο μεγάλος α- ριθμός τέτοιων κανόνων που θεωρητικά υπάρχουν σε μια βάση δεδομένων και η επιλο- -20-

27 γή εκείνων που έχουν πρακτική αξία. Αυτό συνήθως γίνεται θέτοντας κάποιο κάτω όριο στις τιμές των μεγεθών Εμπιστοσύνη και Υποστήριξη Μέθοδοι Προτύπων Πρόβλεψης Κατηγοριοποίηση Η κατηγοριοποίηση αποτελεί μία από τις βασικές τεχνικές εξόρυξης δεδομένων. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου (μη κατηγοριοποιημένου) το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Η διαδικασία της κατηγοριοποίησης χαρακτηρίζεται από ένα σαφή καθορισμό των κατηγοριών και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου αποτελείται από προκαθορισμένα παραδείγματα. Για το σκοπό αυτό χρησιμοποιούνται κυρίως δύο κατηγορίες τεχνικών. Η πρώτη χρησιμοποιεί Δέντρα Αποφάσεων και η δεύτερη Νευρωνικά Δίκτυα. Και οι δύο τρόποι κατηγοριοποίησης στηρίζονται στην ιδέα της εκπαίδευσης με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης (training set). Το υποσύνολο αυτό επιλέγεται σαν αντιπροσωπευτικό δείγμα του συνολικού όγκου δεδομένων. Με την εφαρμογή της διαδικασίας αυτής καθορίζονται τα πρότυπα κατηγοριοποίησης για τις κατηγορίες δεδομένων που δημιουργήθηκαν από το σύνολο εκπαίδευσης. Δέντρα Απόφασης Τα Δένδρα Απόφασης ή ταξινόμησης (decision trees) είναι διαγράμματα ροής με δενδρική δομή. Η ρίζα είναι η αρχή του δένδρου, οι εσωτερικοί κόμβοι υποδηλώνουν έναν έλεγχο σε ένα γνώρισμα, τα κλαδιά του δένδρου αναπαριστούν το αποτέλεσμα του ε- λέγχου και τα φύλλα δίνουν την κατανομή των κλάσεων ή αλλιώς την πρόβλεψη των κλάσεων. Στην κατηγορία αυτή εμπεριέχεται ο C4.5 (γνωστός και ως J48), ο πιο κλασικός αλγόριθμος για τη δημιουργία δένδρων ταξινόμησης, ο οποίος είναι η μετεξέλιξη του αλγορίθμου ID3 (Iterative Dichotomiser 3) που προτάθηκε από τον Ross Quinlan. Η μεθοδολογία των δένδρων απόφασης χωρίζεται σε δύο επιμέρους διαδικασίες: την κατασκευή του δένδρου και το «κλάδεμα» για τον περιορισμό του θορύβου ή των αποκλινουσών τιμών. Πρόκειται για άπληστο αλγόριθμο (greeedy algorithm) που αναζητά τοπικά βέλτιστες επιλογές για να μπορέσει να εντοπίσει το ολικό βέλτιστο. Εφαρμόζεται από πάνω προς τα κάτω (top-down), με επαναληπτική υλοποίηση της μεθόδου «διαίρει και βασίλευε» (divide and conquer). -21-

28 Πιο αναλυτικά, επιλέγεται ένα χαρακτηριστικό ως ο αρχικός κόμβος, δηλαδή ως η ρίζα του δένδρου. Δημιουργούνται τόσα κλαδιά όσες είναι και οι πιθανές τιμές του χαρακτηριστικού. Να σημειωθεί ότι οι τιμές των χαρακτηριστικών θα πρέπει να είναι κατηγορικές ή διακριτές. Ως αποτέλεσμα, το αρχικό σύνολο δεδομένων διασπάται σε υ- ποσύνολα, ένα για κάθε κόμβο που εκτείνεται από τη ρίζα. Η διαδικασία επαναλαμβάνεται για κάθε κόμβο, μόνο με τη χρήση των υποσυνόλων που ανήκουν σε αυτόν. Το δένδρο ολοκληρώνεται όταν όλα τα υποσύνολα ενός κόμβου ανήκουν στην ίδια κλάση ή όταν δεν υπάρχουν άλλα γνωρίσματα ή εναπομείναντα υποσύνολα για περαιτέρω διαχωρισμό. Ο βελτιωμένος αλγόριθμος C4.5 χειρίζεται τόσο κατηγορικά όσο και αριθμητικά χαρακτηριστικά, ελλιπείς τιμές και θορυβώδη δεδομένα χωρίς να επηρεάζεται η αποτελεσματικότητα του. Ως γνώρισμα διάσπασης των υποσυνόλων σε κάθε βήμα επιλέγεται αυτό που δημιουργεί περισσότερο ομοιογενή υποσύνολα και κατ επέκταση σχηματίζει το μικρότερο δένδρο απόφασης. Για το διαχωρισμό αυτό χρησιμοποιείται μια ευρετική ή στατιστική μετρική, όπως είναι το κέρδος πληροφορίας (information gain) ή ο δείκτης Gini (Gini index). Το κέρδος πληροφορίας, που υιοθετείται και στους αλγορίθμους ID3/C4.5, υποθέτει ότι όλα τα γνωρίσματα είναι κατηγορικά ή μπορούν να μετατραπούν σε διακριτά συνεχή διαστήματα τιμών. Το χαρακτηριστικό το οποίο επιλέγεται για τη διάσπαση του δένδρου είναι αυτό που σημειώνει το μεγαλύτερο κέρδος πληροφορίας. Το κέρδος πληροφορίας του γνωρίσματος a ενός συνόλου S εγγραφών υπολογίζεται από τον τύπο: Information Gain (S,a) =Entropy(S) E(a) Η εντροπία (entropy) είναι η ποσότητα της πληροφορίας που χρειάζεται για να αποφασιστεί αν ένα αυθαίρετο στιγμιότυπο του συνόλου S ανήκει στην κλάση C,. Αν λοιπόν υποθέσουμε ότι η κλάση λαμβάνει δύο τιμές, τις Ρ και Ν, και ότι το σύνολο S έχει ρ δείγματα που ταξινομούνται στην κλάση Ρ και η δείγματα που ταξινομούνται στην κλάση Ν, τότε υπολογίζουμε την εντροπία ως εξής: Entropy (S) = p p + n * log æ p ö 2 ç è p + n ø n p + n æ n ö * log 2 ç è p + n ø ή γενικά για k διαφορετικές κλάσεις : -22-

29 k p i i= 1 Entropy (S) = å *log pi p i = S i / S όπου, S το σύνολο των εγγραφών Si το σύνολο των γνωρισμάτων με κλάση C,, που ανήκουν στο S Pi η πιθανότητα το δείγμα να ανήκει στην κλάση C Αν υποθέσουμε, χρησιμοποιώντας το χαρακτηριστικό a, ότι το σύνολο S υποδιαιρείται στα σύνολα {S 1 S 2,..., S n }, τότε η αναμενόμενη πληροφορία που χρειάζεται για να κατηγοριοποιηθούν όλα τα υποσύνολα στα υποδένδρα υπολογίζεται ως: n E (a) =å i= 1 si s * Entropy (S i ) Ο δείκτης Gini χρησιμοποιείται σε αλγόριθμους όπως ο CART (Classification and Regression trees). Το χαρακτηριστικό με τη μικρότερη τιμή του δείκτη είναι αυτό που επιλέγεται για να γίνει ο διαχωρισμός του δένδρου σε επόμενα φύλλα. Ο δείκτης παίρνει τιμή 0 αν όλες οι εγγραφές του δείγματος ανήκουν σε μία μόνο κλάση, ενώ παίρνει τιμή 0.5 αν το δείγμα είναι ισοκατανεμημένο μεταξύ των υπαρχόντων κλάσεων. Αν ένα σύνολο δεδομένων Τ περιλαμβάνει εγγραφές με n κλάσεις, τότε ο δείκτης Gini (T) υπολογίζεται σύμφωνα με τον τύπο : n Gini (T) =1 - å[ ] 2 p( j / T ) όπου, η πιθανότητα p(j/t) είναι η σχετική συχνότητα εμφάνισης της κλάσης j για το σύνολο Τ, που δίνεται από τον τύπο: P (j/t) = j= 1 T i / T με T i,το σύνολο των γνωρισμάτων με κλάση C i, που ανήκουν στο σύνολο T. Αν το σύνολο δεδομένων T χωρίζεται σε k υποσύνολα {T 1 Τ 2,..., T k } τότε ο δείκτης Gini για τον κόμβο t δίνεται από τον τύπο: Gini (T; T 1, T 2,..T k ) = å k i= 1 Ti T * Gini (T i ) -23-

30 Γενικότερα, οι αλγόριθμοι δημιουργίας δένδρων απόφασης είναι κατανοητοί στην εφαρμογή τους και την αναπαράσταση πληροφοριών, ενώ εύκολα ανάγονται σε κανόνες απόφασης. Δεν απαιτούν προγενέστερες υποθέσεις για τη φύση και την κατανομή των δεδομένων. Μπορούν να χειριστούν σύνολα που περιέχουν και κατηγορικά και α- ριθμητικά γνωρίσματα, αλλά η μεταβλητή εξόδου μπορεί να περιγράφεται μόνο με διακριτές ονομαστικές τιμές. Θα πρέπει επίσης να σημειωθεί ότι σε εκπαίδευση που περιέχει αριθμητικά δεδομένα, τα δένδρα τείνουν να γίνονται ιδιαίτερα μεγάλα και πολύπλοκα. Τα δένδρα απόφασης συχνά αντιμετωπίζουν το πρόβλημα της υπέρ -προσαρμογής (over-fitting), με αποτέλεσμα να μειώνεται η ακρίβεια της πρόβλεψης. Υπάρχουν δύο προσεγγίσεις για την αποφυγή του φαινόμενου: η μέθοδος pre-pruning, κατά την οποία το δένδρο σταματά να αναπτύσσεται νωρίς, όταν ο διαχωρισμός ενός κόμβου που είναι να γίνει, οδηγεί στη μείωση της αποδοτικότητας του μοντέλου κάτω από ένα επιτρεπτό όριο (thresfold). η μέθοδος post-pruning, όπου αφαιρούνται κλαδιά ενός πλήρως ανεπτυγμένου δένδρου, δίδοντας μια αλληλουχία από «κλαδεμένα» υποδένδρα αποφάσεων. Έπειτα χρησιμοποιούνται νέα, άγνωστα δεδομένα για να εξευρεθεί το καλύτερο από αυτά σε ακρίβεια πρόβλεψης. Παράδειγμα για αυτή την μέθοδο είναι το δέντρο απόφασης για την καταλληλότητα του καιρού για τένις,όπως φαίνεται και στην Εικόνα 2.8 Εικόνα 2.8:Παράδειγμα Δέντρου Απόφασης -24-

31 Νευρωνικά Δίκτυα Νευρωνικά Δίκτυα ονομάζονται τα δίκτυα μη γραμμικών στοιχείων, διασυνδεδεμένων μέσω ρυθμιζόμενων βαρών. Μάλιστα τα μη γραμμικά στοιχεία δέχονται ως είσοδο το προσαρμοσμένο άθροισμα των εξόδων άλλων στοιχείων προσομοιάζοντας έτσι τη λειτουργία των βιολογικών νευρώνων. Τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ) παρέχουν εν γένει μια πρακτική μέθοδο για την πρόβλεψη συναρτήσεων, που έχουν ως πεδίο τιμών πραγματικές ή διακριτές τιμές, από ένα σύνολο παραδειγμάτων. Αλγόριθμοι, όπως ο Backpropagation, χρησιμοποιούνται για να ρυθμίσουν με λεπτομέρεια τις παραμέτρους του δικτύου, ώστε να επιτευχθεί η καλύτερη δυνατή προσαρμογή του ΤΝΔ στο συγκεκριμένο κάθε φορά πρόβλημα εφαρμογής, όπως αυτό καθορίζεται από τα δεδομένα εισόδου και εξόδου του δικτύου. Η διαδικασία εκπαίδευσης, ενός ΤΝΔ, δεν επηρεάζεται σημαντικά σε σύγκριση με άλλες μεθόδους από λάθη ή από ελλιπείς τιμές που τυχόν υπάρχουν στο σύνολο δεδομένων εκπαίδευσης. Η έμπνευση για τη μελέτη των ΤΝΔ προέκυψε από την παρατήρηση ότι τα βιολογικά συστήματα γνώσης έχουν οικοδομηθεί σε πολυσύνθετες δομές διασυνδεδεμένων φυσικών νευρώνων. Τα ΤΝΔ προσπάθησαν να αντιγράψουν αυτές τις δομές, συνδέοντας μια ομάδα απλών μονάδων (τεχνητών νευρώνων), η κάθε μια από τις οποίες δέχεται έναν αριθμό από εισόδους (συνήθως πραγματικούς αριθμούς) και οι οποίες μπορεί να είναι οι τιμές εξόδου άλλων μονάδων. Οι μονάδες αυτές παράγουν ως έξοδο μια πραγματική τιμή, η οποία μπορεί να αποτελέσει είσοδο σε κάποιους άλλους τεχνητούς νευρώνες. Η γενική δομή ενός νευρωνικού δικτύου φαίνεται στην Εικόνα 2.9 Εικόνα 2.9: Δομή Νευρωνικού Δικτύου Παραδείγματα επιτυχημένων εφαρμογών ΤΝΔ, μπορούν να αναφερθούν από δύο κυρίως περιοχές. Στην πρώτη περίπτωση οι ερευνητές έχουν ως στόχο τη χρησιμοποίη- -25-

32 ση των ΤΝΔ στη μελέτη μοντέλων αναπαράστασης βιολογικών διαδικασιών εκμάθησης π.χ. αναγνώριση ομιλίας ή αναγνώρισης γραφικού χαρακτήρα χειρόγραφων κειμένων. Στη δεύτερη περίπτωση στόχος είναι η δημιουργία υψηλής απόδοσης αλγορίθμων, ανεξάρτητα εάν οι αλγόριθμοι αυτοί αντιστοιχούν σε γνωστές βιολογικές διαδικασίες. Εμπειρική Σχέση Μεταβλητών Η εμπειρική σχέση μεταβλητών (regression) αφορά την αναζήτηση προτύπων πρόβλεψης, όπου το χαρακτηριστικό που προβλέπεται απαιτείται να έχει αριθμητική τιμή. Οι κυριότερες μέθοδοι που χρησιμοποιούνται είναι δύο: Η Γραμμική Παρεμβολή (Linear Regression), όπου το χαρακτηριστικό του ο- ποίου η τιμή πρέπει να προβλεφθεί μοντελοποιείται με μια απλή γραμμική εξίσωση των παραμέτρων εισόδου. Τα Νευρωνικά Δίκτυα (Neural Networks), όπου μετά την εκπαίδευσή τους με τα υπάρχοντα δεδομένα εισόδου / εξόδου είναι σε θέση να αποδώσουν μια νέα τιμή εξόδου σε νέα δεδομένα εισόδου. Τα νευρωνικά δίκτυα προτιμώνται σε σχέση με την γραμμική παρεμβολή λόγω του ότι έχουν την δυνατότητα να μοντελοποιούν μη γραμμικά δεδομένα χρησιμοποιώντας συναθροίσεις συναρτήσεων με βάρη. Εκτίμηση και Πρόβλεψη Σε αυτή την κατηγορία χρησιμοποιούνται δύο ειδών τεχνικές: η γραμμική (Linear) και η μη γραμμική παλινδρόμηση (Logistic). Στην πρώτη περίπτωση ο αλγόριθμος προσπαθεί να βρει μία γραμμή η οποία να προσεγγίζει με την μεγαλύτερη δυνατή πιθανότητα τις τιμές από ένα σύνολο σημείων του χώρου. Στην δεύτερη περίπτωση χρησιμοποιούνται κάποιοι μη γραμμικοί όροι για να μπορέσει το μοντέλο να πλησιάσει ακόμη περισσότερο το σύνολο των δεδομένων. Παρόλα αυτά όμως, δεν είναι σίγουρο ότι μία τέτοια προσέγγιση μπορεί να καλύψει όλο το σύνολο των δεδομένων με σχετική ασφάλεια. Η παλινδρόμηση αναφέρεται στην εκμάθηση μίας συνάρτησης η οποία αντιστοιχεί τα δεδομένα σε μία μεταβλητή πρόβλεψης (prediction variable) πραγματικής τιμής. Οι εφαρμογές της παλινδρόμησης είναι πάρα πολλές π.χ. εκτίμηση της πιθανότητας ένας ασθενής να έχει κάποια ασθένεια, δεδομένων των αποτελεσμάτων ενός συνόλου διαγνωστικών test και άλλα. -26-

33 Γενετικοί Αλγόριθμοι Οι γενετικοί αλγόριθμοι μαζί με τα νευρωνικά δίκτυα αποτελούν τους κυριότερους α- ντιπρόσωπους της αυτό-μάθησης. Η ονομασία τους προήλθε από τα χαρακτηριστικά που έχουν δανειστεί από την γενετική. Όπως και στην περίπτωση του DNA που ολόκληρη η αλυσίδα αποτελείται μόνο από τέσσερα δομικά στοιχεία, έτσι και οι γενετικοί αλγόριθμοι χρησιμοποιούν κωδικοποιήσεις με περιορισμένο αριθμό στοιχείων. Ένα ακόμα κοινό χαρακτηριστικό τους είναι ότι το τελικό αποτέλεσμα προκύπτει ύστερα από συνδυασμό των επιμέρους λύσεων στα διάφορα στάδια. Η φόρμα υλοποίηση ενός γενετικού αλγορίθμου για την επίλυση προβλημάτων είναι : 1) Επινόηση μίας κατάλληλης κωδικοποίησης του προβλήματος σε όρους συμβολοσειρών με περιορισμένο αλφάβητο. 2) Ανακάλυψη τρόπων σύμφωνα με τους οποίους πιθανές λύσεις μπορούν να συνδυαστούν προκειμένου να δοθεί καλύτερη λύση. Μια δημοφιλής λειτουργία είναι η αποκοπή της συμβολοσειράς «πατέρα» και «μητέρας», τροποποίησης τους και η συνένωση τους για τη δημιουργία του απόγονου. 3) Απομάκρυνση των κακών αποτελεσμάτων και αντικατάσταση τους με καλούς «απογόνους» τους. Η διαδικασία σταματά όταν δημιουργηθεί μια οικογένεια από καλά αποτελέσματα. Οι γενετικοί αλγόριθμοι συνήθως βρίσκουν μια ικανοποιητική λύση, εάν βέβαια αυτή υπάρχει. Ωστόσο, σε ειδικές περιοχές λειτουργιών αναζήτησης, οι γενετικοί αλγόριθμοι συχνά δεν είναι κατάλληλοι. -27-

34

35 3 SPSS Clementine Όπως αναφέρθηκε και στην αρχή του προηγούμενου κεφαλαίου, ο όγκος των δεδομένων που αποθηκεύουμε καθημερινά είναι τεράστιος κάτι το οποίο εμποδίζει την επεξεργασία τους από ανθρώπους,χωρίς την χρήση ειδικευμένων εργαλείων λογισμικού Εξόρυξης Δεδομένων. Έτσι εμφανίστηκαν εταιρίες παραγωγής λογισμικού οι οποίες αντιλαμβανόμενες την ανάγκη για γνώση και πληροφόρηση, έλεγχο και επεξεργασία, υλοποίησαν εργαλεία τα οποία καταφέρνουν να ενσωματώνουν πληθώρα τεχνικών και αλγορίθμων για την αναζήτηση και εξόρυξη γνώσης και κρυμμένης πληροφορίας από αυτές τις βάσεις δεδομένων. Η SPSS Inc αποτελεί μία από τις σημαντικότερες και ηγετικές εταιρίες στην παραγωγή λογισμικού Εξόρυξης Δεδομένων με το λογισμικό Clementine (προσφάτως μετονομάστηκε σε PASW Modeler).Το εργαλείο Data Mining Clementine είναι παγκόσμιος το κορυφαίο λογισμικό εξόρυξης δεδομένων καθώς θεωρείται από τα πλέον αξιόπιστα και λειτουργικά εργαλεία πρόβλεψης. Στην συνέχεια του κεφαλαίου θα αναφερθούμε διεξοδικά με τις λειτουργίες και τις δυνατότητες του λογισμικού Clementine v Εργαλεία Εξόρυξης Δεδομένων Προμηθευτές και λογισμικό Προτού προχωρήσουμε στην περεταίρω ανάπτυξη των λειτουργιών της εφαρμογής Clementine,ας δούμε συνοπτικά και άλλα εργαλεία λογισμικού εξόρυξης δεδομένων τα οποία προσφέρονται στην παγκόσμια αγορά. Η επιλογή της παρουσίασης των λογισμικών έγινε μέσα από την ιστοσελίδα της KDNuggets ( η οποία μας προσφέρει και κάποια πολύ ενδιαφέροντα polls σχετικά με την διάδοση της χρήσης τους. SAS Η SAS είναι μία από τους ο μεγαλύτερους προμηθευτές προϊόντων εξόρυξης γνώσης από άποψη μεριδίου αγοράς. Η SAS βρισκόταν στον τομέα της στατιστικής για δεκαετίες. Η βάση της SAS περιέχει ένα πολύ πλούσιο σύνολο στατιστικών λειτουργιών που -29-

36 μπορούν να χρησιμοποιηθούν για όλα τα είδη της ανάλυσης στοιχείων. Επίσης περιέχει μια ισχυρή γλώσσα επεξεργασίας. Ο SAS Enterprise Miner δημιουργήθηκε το Παρέχει στο χρήστη ένα γραφικό περιβάλλον ροής για δημιουργία μοντέλων και έχει ένα σύνολο δημοφιλών αλγορίθμων εξόρυξης δεδομένων, συμπεριλαμβανομένων αλγορίθμων κατασκευής δέντρων απόφασης, εκπαίδευσης νευρωνικών δικτύων, παλινδρόμησης, εύρεσης κανόνων συσχέτισης κ.τ.λ. Υποστηρίζει επίσης την εξόρυξη γνώσης σε κείμενα. ΙΒΜ Η ΙΒΜ έχει ένα ευφυές προϊόν αποκαλούμενο Intelligent Miner, που αναπτύχθηκε από ένα υποκατάστημά της στη Γερμανία Ο Intelligent Miner περιέχει ένα σύνολο αλγορίθμων και εργαλείων απεικόνισης. Ο Intelligent Miner εξάγει τα παραγόμενα πρότυπα σε γλώσσα PMML, που καθορίστηκε από την ομάδα εξόρυξης δεδομένων (DMG). Τα έγγραφα PMML είναι αρχεία μορφής XML που περιέχουν τις περιγραφές των προτύπων και τα στατιστικά του συνόλου δεδομένων εκπαίδευσης. Αυτά τα αρχεία μπορούν να φορτωθούν στη βάση δεδομένων για διεργασίες πρόβλεψης. Αξιοσημείωτο είναι το γεγονός ότι η IBM εξαγόρασε την SPSS Inc στα μέσα του καλοκαιριού του 2009 και οι εφαρμογές Data Mining που προσέφερε πλέον θα προσφέρονται μέσω της SPSS Inc και το εργαλείο PASW Modeler. Microsoft Η Microsoft ήταν ο πρώτος σημαντικός προμηθευτής βάσεων δεδομένων που συμπεριέλαβε τα χαρακτηριστικά γνωρίσματα εξόρυξης δεδομένων σε μια σχεσιακή βάση δεδομένων. Ο SQL Server 2000, που κυκλοφόρησε τον Σεπτεμβρίου του 2000, περιέχει δύο κατοχυρωμένους με δίπλωμα ευρεσιτεχνίας αλγορίθμους εξόρυξης δεδομένων: τον Microsoft Decision Trees και τον Microsoft Clustering. Εκτός από αυτούς τους αλγορίθμους, το σημαντικότερο χαρακτηριστικό γνώρισμα εξόρυξης δεδομένων είναι η ε- φαρμογή του DB OLE για την εξόρυξη δεδομένων από σχεσιακές βάσεις δεδομένων. Το DB OLE για την εξόρυξη δεδομένων είναι βιομηχανικό πρότυπο που καθορίζει μια γλώσσα εξόρυξης δεδομένων στην μορφή της SQL και ένα σύνολο σχημάτων που α- πευθύνεται στους υπεύθυνους για την ανάπτυξη βάσεων δεδομένων. Αυτό το API καθιστά πολύ εύκολη την ενσωμάτωση των μηχανισμών εξόρυξης δεδομένων στις εφαρμογές που αναπτύσσουν οι τελικοί χρήστες.τον Σεπτέμβριο του 2005 κυκλοφόρησε ο SQL Server 2005 και η πίο πρόσφατη έκδοση του είναι ο SQL Server

37 Oracle To λογισμικό πακέτο Oracle 9i που κυκλοφόρησε το 2000, περιέχει μερικούς αλγορίθμους εξόρυξης δεδομένων βασισμένους στην συσχέτιση και στους κατηγοριοποιειτές Bayes. Το νεότερο πακέτο Oracle 11g περιλαμβάνει πολλούς περισσότερους αλγορίθμους και εργαλεία εξόρυξης δεδομένων. Η Oracle ενσωμάτωσε επίσης την εξόρυξη δεδομένων με μορφή API γραμμένο σε Java. Agnoss Το Angoss Knowledge STUDIO είναι ένα εργαλείο εξόρυξης δεδομένων που περιλαμβάνει τη δυνατότητα της μοντελοποίησης δέντρων απόφασης, της ανάλυσης συστάδων και διάφορα άλλα μοντέλα πρόβλεψης. Αυτά επιτρέπουν στους χρήστες να αναλύσουν τα δεδομένα και τα μοντέλα από διάφορες οπτικές. Περιλαμβάνει ισχυρά εργαλεία α- πεικόνισης δεδομένων για να υποστηρίξει και να εξηγήσει τη γνώση που ανακαλύπτει. KXEN H KXEN είναι ένας προμηθευτής λογισμικού εξόρυξης δεδομένων που βρίσκεται στη Γαλλία. Έχει διάφορους αλγορίθμους εξόρυξης δεδομένων, συμπεριλαμβανομένου του SVM, της οπισθοδρόμηση, της κατάτμησης, των δένδρων απόφασης και άλλων. Παρέχει επίσης τις λύσεις εξόρυξης δεδομένων για τους κύβους OLAP ενώ ανέπτυξε και μία εφαρμογή που επιτρέπει στους χρήστες για να κάνουν εξόρυξη κατευθείαν σε ένα περιβάλλον Excel Η SPSS με το Clementine κορυφαία σύμφωνα με τους χρήστες Η ιστοσελίδα τη KDNuggets, στην οποία αναφερθήκαμε και προηγουμένως, διενεργεί κάθε χρόνο, τουλάχιστον τα τελευταία δύο-τρία χρόνια,για τα οποία έχουμε διαθέσιμα στοιχεία, μια δημοσκόπηση η οποία αναφέρεται στην δημοτικότητα των διαφόρων εργαλείων λογισμικού Data Mining που κυκλοφορούν στην διεθνή αγορά. H SPSS με την εφαρμογή Clementine φαίνεται να έρχεται πρώτη τα τελευταία δύο χρόνια στην προτίμηση των χρηστών σε ότι αφορά το λογισμικό Data Mining.(Εικόνα 3.1, Εικόνα 3.2). Στην δημοσκόπηση του 2008 υπήρξε μία σύγχυση μεταξύ των εφαρμογών της SPSS και του λογισμικού Clementine ως stand-alone εφαρμογή, κάτι το οποίο διορθώθηκε στην δημοσκόπηση του 2009.Αξίζει να σημειώσουμε ότι ως δεύτερο στη λίστα είναι το λογισμικό Rapid Miner το οποίο είναι ανοιχτού κώδικα και δεν είναι εμπορικό. -31-

38 Εικόνα 3.1 Poll 2009 Εικόνα 3.2 Poll

39 3.2 Εισαγωγή στο λογισμικό Clementine v11 Ιστορική αναδρομή Η Clementine αναπτύχθηκε αρχικά από την εταιρία Integral Solutions Ltd (ISL), η ο- ποία είχε την έδρα των γραφείων της στην Γαλλία, το 1989 από τον Dr. Alan Modgomery. Εξαρχής, ο στόχος ISL ήταν να χτιστεί ένα ενσωματωμένο περιβάλλον για τις διαδικασίες εξόρυξης δεδομένων που θα μπορούσε να χρησιμοποιηθεί και να γίνει κατανοητό από τους επιχειρηματίες, χωρίς να υπάρχει η ανάγκη να συμβουλευτούν τους ειδικούς της εξόρυξης δεδομένων. Η Clementine αρχικά παρουσιάστηκε ως ερευνητικό προϊόν το 1992, μέρος της οποίας χρηματοδοτήθηκε από το Βρετανικό τμήμα Εμπορίου και Βιομηχανίας, το τελικό προϊόν παρουσιάστηκε στην αγορά το Η SPSS Inc εξαγόρασε το 1998 την ISL και ενσωμάτωσε τo λογισμικό της Clementine στην γκάμα στατιστικών προϊόντων που ήδη κατείχε. Η Clementine ήταν το πρώτο λογισμικό το οποίο ενσωμάτωσε την μηχανική μάθηση και την εισήγαγε στα λογισμικά του Business Intelligence.Η ευκολία στην χρήση και το φιλικό User Interface καθιέρωσε την Clementine στην κορυφή της αγοράς λογισμικού εξόρυξης δεδομένων, θέση την οποία διατηρεί μέχρι και σήμερα. Πρόσφατα, στα μέσα του καλοκαιριού του 2009, η SPSS Inc εξαγοράστηκε από την IBM αυξάνοντας έτσι ακόμη περισσότερο το μερίδιο της στην αγορά λογισμικού Data Mining. Βασικά χαρακτηριστικά Το λογισμικό της Clementine ακολουθεί πλήρως το επιχειρησιακό μοντέλο προτυποποίησης της διαδικασίας εξόρυξης δεδομένων, το οποίο αναπτύχθηκε το 1996, γνωστό ως CRISP-DM (Cross-Industry Standard Process for Data Mining) το οποίο περιλαμβάνει τα εξής στάδια : 1. Κατανόηση του επιχειρησιακού πεδίου (Business Understanding): πλήρης καθορισμός του θέματος και του αντικείμενου που ερευνάται και ορισμός των στόχων της διαδικασίας εξόρυξης δεδομένων. 2. Κατανόηση δεδομένων (Data Understanding): συλλογή συνόλου δεδομένων που θα χρησιμοποιηθούν ως αρχική πληροφορία κατά την εφαρμογή του μηχανισμού Ανακάλυψης Γνώσης. Τα δεδομένα θα πρέπει να αντικατοπτρίζουν τη φύση του προβλήματος, να σχετίζονται άμεσα ή έμμεσα με αυτό και να είναι όσο το δυνατόν πιο ολοκληρωμένα. 3. Προετοιμασία δεδομένων (Data Preparation): επιλογή των κατάλληλων δεδομένων για ανάλυση, καθαρισμός και μετασχηματισμός των δεδομένων εισόδου (κανονικοποίηση), χειρισμός των ελλιπών δεδομένων, ώστε να εισαχθούν στα εργαλεία μοντελοποίησης (modeling tools). -33-

40 4. Μοντελοποίηση (Modelling): επιλογή κατάλληλων τεχνικών και ρύθμιση επιθυμητών χαρακτηριστικών των αλγορίθμων, ώστε να επιφέρουν όσο το δυνατόν καλύτερα αποτελέσματα. Αν είναι αναγκαίο, πραγματοποιείται οπισθοδρόμηση στην προηγούμενη φάση της διαδικασίας, ώστε να προσαρμοστούν τα δεδομένα στη μορφή που εξυπηρετούν καλύτερα τις επιλεγμένες τεχνικές μοντελοποίησης. 5. Αξιολόγηση (Evaluation): οπτικοποίηση και ερμηνεία των νέων δεδομένων. Λεπτομερής αξιολόγηση μοντέλου, με βάση τα αρχικά πρότυπα που ετέθησαν. Αναθεώρηση των βημάτων που εκτελέστηκαν, με κυριότερο σκοπό να καθοριστεί το όποιο ζήτημα δεν έχει εξεταστεί πλήρως και να επιβεβαιωθεί το αν επιτυγχάνονται οι επιθυμητοί στόχοι στο μέγιστο βαθμό. 6. Υιοθέτηση (Deployment): παρουσίαση, υποστήριξη και αποτελεσματική χρήση της νέας γνώσης που αποκτήθηκε μέσα από την όλη διαδικασία. Καθορισμός ωφελειών και στρατηγικών δράσης, ώστε να αποτραπεί η λανθασμένη αξιοποίηση των αποτελεσμάτων. Τα στάδια ανάπτυξης της εφαρμογής Clementine περιγράφονται ως ένας συνεχείς κύκλος διαδικασιών και ροής δεδομένων ( Εικόνα 3.3) και περιγράφονται ως στάδια : Εικόνα 3.3 Στάδια της διαδικασίας εφαρμογής της Clementine ü Συλλογή Δεδομένων : Καθορισμός του προβλήματος και επιλογή των δεδομένων. ü Πρόσβαση σε Δεδομένα : Κατανόηση των δεδομένων του προβλήματος. -34-

41 ü Διαχείριση και προετοιμασία Δεδομένων : Επιλογή των κατάλληλων δεδομένων και μετασχηματισμός τους (έλεγχος για ελλιπής τιμές, κανονικοποίηση) ü Ανάλυση Δεδομένων : Επιλογή των κατάλληλων τεχνικών εξόρυξης δεδομένων και αλγορίθμων για μοντελοποίηση του προβλήματος. ü Αναφορές : Ερμηνεία των νέων δεδομένων που δημιουργήθηκαν από την διαδικασία. ü Αξιοποίηση : Ενσωμάτωση της νέας γνώσης στο σύστημα. ü Σχεδιασμός : Ανατροφοδότηση και επανεκκίνηση του συστήματος με υιοθέτηση της νέας γνώσης που δημιουργήθηκε. Η Clementine περιλαμβάνει μια ευρεία γκάμα τεχνικών και μεθόδων μοντελοποίησης, μηχανικής μάθησης, τεχνητής νοημοσύνης και στατιστικής, οι οποίες μπορούν να κατηγοριοποιηθούν ανάλογα με τον τύπο προβλήματος που επιλύουν σε : Μοντέλα πρόβλεψης τα οποία περιλαμβάνουν τα δέντρα απόφασης, τα νευρωνικά δίκτυα, και τα στατιστικά πρότυπα. Μοντέλα ομαδοποίησης με τον προσδιορισμό ομάδων-προτύπων ανάλογα με την ομοιότητα των εγγραφών. Η ομαδοποίηση περιλαμβάνει τον αλγόριθμο Κ- μέσων, τον αλγόριθμο Kohonen και τον αλγόριθμο Two-Steps (Δύο Βημάτων). Μοντέλα κανόνων συσχέτισης τα οποία συσχετίζουν μία μεταβλητή με ένα σύνολο προκαθορισμένων μεταβλητών. Μοντέλα εύρεσης ακραίων τιμών (outliers) που δεν ταιριάζουν στα ήδη υπάρχοντα πρότυπα. Οι διαθέσιμες μέθοδοι είναι η μέθοδος της επιλογής χαρακτηριστικών γνωρισμάτων (feature selection) και η μέθοδος εύρεσης ανωμαλίας (anomaly detection). 3.3 Γραφικό περιβάλλον της Clementine Από τα βασικότερα πλεονεκτήματα της Clementine είναι το user interface που προσφέρει το πρόγραμμα και η ικανότητα αλληλεπίδρασης που δίνεται στον χρήστη μέσα στο περιβάλλον της. Το παραθυρικό περιβάλλον (Εικόνα 3.4) που χρησιμοποιεί δίνει μια αίσθηση οικειότητας στον τελικό χρήστη και κάνει πιο γρήγορη την εξοικείωση του με τα εργαλεία της εφαρμογής, αυτό αποτέλεσε άλλωστε και βασικό μέλημα της ομάδας σχεδίασης της Clementine, δηλαδή να μπορεί να χρησιμοποιηθεί από άτομα τα οποία δεν είναι ειδικοί στον τομέα του Data Mining. -35-

42 Εικόνα 3.4 Το περιβάλλον της Clementine Το κεντρικό παράθυρο της Clementine χωρίζεται σε τέσσερα επιμέρους κομμάτια. Το πρώτο κομμάτι το οποίο καταλαμβάνει και τον περισσότερο χώρο του παραθύρου ονομάζετε καμβάς (Canvas), δανειζόμενο το όνομα του από τον χώρο της ζωγραφικής, οπού εκεί μπορούμε και σχεδιάζουμε την ροή της διαδικασίας (Stream) πάνω στην ο- ποία εργαζόμαστε. Ο Canvas μας δίνει την δυνατότητα να επεξεργαζόμαστε και να σχεδιάζουμε παράλληλα πολλά Streams. Το Stream που φαίνεται παρακάτω ( Εικόνα 3.5) είναι η απλούστερη μορφή ροής δεδομένων που μπορούμε να δημιουργήσουμε, αλλά και η πιο ολοκληρωμένη. Σχεδιάζετε από κόμβους (Nodes), οι οποίοι αναπαριστούν, αρχικά την είσοδο των δεδομένων, τον διαχωρισμό τους, την επιλογή κάποιων δεδομένων με βάση συγκεκριμένα κριτήρια που ορίσαμε και τέλος την γραφική τους αναπαράσταση σε ένα πίνακα. -36-

43 Εικόνα 3.5 Ένα απλό Stream Ακριβώς κάτω από τον καμβά βρίσκονται επτά διαφορετικές παλέτες (palettes). Κάθε παλέτα περιέχει μια ομάδα από κόμβους (Nodes) της ίδιας λειτουργίας. Για παράδειγμα η παλέτα είσοδος (Source) περιέχει την ομάδα κόμβων τους οποίους χρησιμοποιούμε για να εισάγουμε δεδομένα στο μοντέλο μας. Τους κόμβους μπορούμε πολύ εύκολα να τους χρησιμοποιήσουμε στο σχεδιασμό, σύροντας τους από την αντίστοιχη παλέτα που βρίσκονται και ρίχνοντας τους στον καμβά (Drag and Drop). Πάνω και δεξιά στο παράθυρο βρίσκεται το πλαίσιο όπου βρίσκεται ουσιαστικά όλη η διαχείριση της εφαρμογής (Manager). Αποτελείται από τρία κομμάτια, Streams, Output και Models, που επιλέγοντας ένα από αυτά μας εμφανίζονται τα αντίστοιχα στοιχεία τους. Επιλέγοντας το κομμάτι Streams μπορούμε να διαχειριστούμε ένα Stream όπως για παράδειγμα να ανοίξουμε νέο Stream, να σώσουμε ένα ήδη υπάρχων ή ακόμα και να το μετονομάσουμε. Επιλέγοντας την ετικέτα Outputs μπορούμε να επιλέξουμε τον τρόπο με τον οποίο μπορούμε γραφικά να απεικονίσουμε τα δεδομένα. Τέλος η ετικέτα Models είναι η πιο σημαντική γιατί εκεί βρίσκονται τα αποτελέσματα της διαδικασίας μοντελοποίησης από την Clementine. Τα μοντέλα τα οποία έχουν δημιουργηθεί σε αυτό το κομμάτι μπορούν και αυτά να χρησιμοποιηθούν απευθείας στον καμβά. Κάτω και δεξιά στο πλαίσιο το οποίο καλείται Project, μπορούμε και βλέπουμε συνεχώς σε ποια φάση του έργου μας βρισκόμαστε και έτσι μπορούμε να οργανώσουμε καλύτερα την εργασία μας. Επίσης κάτω από το πλαίσιο palettes, υπάρχει το πλαίσιο που ονομάζεται Report Window οπού μας παρέχει πληροφορίες σχετικά με την πρόοδο διαφόρων διεργασιών, όπως για παράδειγμα την πρόοδο στην διαδικασία διαβάσματος των δεδομένων. Και τέλος το πλαίσιο Status Window που βρίσκεται δίπλα στο Report Window το οποίο μας παρέχει πληροφορίες σχετικά με τις λειτουργίες που εκτελούνται από μια συγκεκριμένη εφαρμογή. 3.4 Βασικές λειτουργίες Όπως αναφέραμε η Clementine διαθέτει εφτά παλέτες λειτουργιών, όπου σε κάθε μία βρίσκεται και μία ομάδα από κόμβους που εκτελούν παρόμοιες εργασίες. Παρακάτω παραθέτουμε τις ομάδες των κόμβων και την αντίστοιχη παλέτα στην οποία ανήκουν. -37-

44 3.4.1 Κόμβοι εισόδου Οι κόμβοι εισόδου (Source nodes) μας επιτρέπουν να εισάγουμε τα δεδομένα του προβλήματος που είναι υπό εξέταση και υποστηρίζουν διάφορες μορφές και τύπους δεδομένων, που μπορεί να προέρχονται από διάφορους τύπους προγραμμάτων. Database Node : Μας επιτρέπει να εισάγουμε δεδομένα από διαφορές Βάσεις Δεδομένων, όπως Microsoft SQL Server, DB2, Oracle και άλλες, χρησιμοποιώντας την τεχνολογία ODBC (Open Database Connectivity). Variable File Node : Χρησιμοποιώντας αυτόν το κόμβο μπορούμε να εισάγουμε αρχεία στα οποία υπάρχει προκαθορισμένος αριθμός πεδίων εγγραφών, όμως ο αριθμός των χαρακτήρων του κάθε πεδίου ποικίλη. Fixed File Node : Χρησιμοποιείται για την εισαγωγή αρχείων που δεν έχουν προκαθορισμένο αριθμό πεδίων, όμως έχουν σταθερό μήκος εγγραφών και οι εγγραφές ξεκινούν με τον ίδιο τρόπο. Χρησιμοποιείται κυρίως σε δεδομένα τα οποία παράγονται αυτόματα από κάποιο μηχάνημα. SPSS Import Node : Εισάγει δεδομένα τα οποία είναι αποθηκευμένα σε μορφή αρχείων που χρησιμοποιούνται από το στατιστικό πρόγραμμα SPSS (.sav). Dimensions Data Import Node : Εισάγει δεδομένα τα οποία έχουν προέλθει από το πρόγραμμα Dimensions Data της SPSS το οποίο χρησιμοποιείται για την διενέργεια ερευνών σε θέματα Marketing. SAS Import Node : Χρησιμοποιώντας αυτόν τον κόμβο μπορούμε να εισάγουμε δεδομένα που είναι αποθηκευμένα σε τύπους αρχείων που χρησιμοποιούνται από το πρόγραμμα της SAS. Excel Import Node : Μας επιτρέπει να εισάγουμε δεδομένα τα οποία προέρχονται από το πρόγραμμα Microsoft Excel. User Input Node : Με τον κόμβο αυτό μας δίνεται η δυνατότητα να εισάγουμε δεδομένα τα οποία δημιουργούμε εμείς. Χρησιμοποιείται κυρίως όταν θέλουμε να εισάγουμε δεδομένα για να ελέξουμε την ορθότητα ενός μοντέλου που δημιουργήσαμε (test dataset). Enterprise View Νode : Με τον κόμβο αυτό μέσω κάποιων σεναρίων (Scenario) μπορούμε να τροφοδοτούμε κατευθείαν το πρόγραμμα με δεδομένα του οργανισμού ή της επιχείρησης και να παρέχουμε και μια συνοπτική εικόνα στους χρήστες. -38-

45 3.4.2 Κόμβοι διαχείρισης εγγραφών Οι κόμβοι διαχείρισης εγγραφών (Record Operations Nodes) χρησιμοποιούνται για να παρέμβουμε και να τροποποιήσουμε κάποια από τα δεδομένα. Οι λειτουργίες που εκτελούν οι κόμβοι αυτοί είναι ιδιαιτέρως χρήσιμοι στο στάδιο της κατανόησης των δεδομένων (Data Understanding) και της προετοιμασίας των δεδομένων (Data Preparation), γιατί μας επιτρέπουν να προσαρμόσουμε τα δεδομένα στις ανάγκες του προβλήματος μας. Select Node : Με τον κόμβο αυτό μπορούμε να επιλέξουμε ή να αποκλείσουμε κάποια από τα δεδομένα μας, τα οποία ικανοποιούν μια συγκεκριμένη συνθήκη την οποία έχουμε ορίσει. Sample Node : Με τον κόμβο αυτό μπορούμε να χειριστούμε το μέγεθος των δεδομένων σύμφωνα με το πρότυπο που χρησιμοποιούμε. Για παράδειγμα χρησιμοποιώντας αυτόν τον κόμβο σε ένα Νευρωνικό Δίκτυο μπορούμε να παράγουμε τα δεδομένα εκπαίδευσης του. Balance Node : Χρησιμοποιείται όταν θέλουμε να γίνει έλεγχος για ανισσοροπίες μέσα στα δεδομένα μας, βάσει κάποιου παράγοντα που έχουμε θέσει, μειώνοντας τις αποκλίσεις των δεδομένων από την τιμή που ορίζουμε. Aggregate Node : Χρησιμοποιείται όταν θέλουμε να συνοψίσουμε κάποια σύνολα δεδομένων. Sort Node : Ο κόμβος αυτός μας είναι χρήσιμος όταν θέλουμε να ταξινομήσουμε τα δεδομένα μας είτε με αύξουσα σειρά είτε με φθίνουσα. Merge Node : Με την χρήση αυτού του του κόμβου μπορούμε να συγχωνέψουμε δεδομένα τα οποία προέρχονται από διαφορετικούς κόμβους εισόδου, κρατώντας όλα ή οποία πεδία έχουμε επιλέξει από τα αρχικά δεδομένα. Distinct Node : Με την χρήση του κόμβου αυτού μπορούμε να αποφύγουμε τις διπλοεγγραφές, είτε με διαγραφή είτε με προσπέλαση μόνο μια φορά της κάθε διπλοεγγραφής. Append Node : Ο κόμβος χρησιμοποιείται όταν θέλουμε να συνενώσουμε δεδομένα με παρόμοια δομή αλλά διαφορετικό περιεχόμενο Κόμβοι διαχείρισης πεδίων Οι κόμβοι διαχείρισης πεδίων των εγγραφών (Field Operations Nodes) είναι ιδιαίτερα χρήσιμοι στο στάδιο της προ-επεξεργασίας και του μετασχηματισμού των δεδομένων. -39-

46 Τους κόμβους διαχείρισης πεδίων τους χρησιμοποιούμε όταν θέλουμε να επιλέξουμε κάποια από τα πεδία εγγραφών, να παρέμβουμε και να τροποποιήσουμε κάποια πεδία, είτε ακόμη και να δημιουργήσουμε καινούρια πεδία, τα οποία βοηθάνε στον μετασχηματισμό των δεδομένων και την ανάλυση. Type Node : O κόμβος αυτός χρησιμοποιείται για να καθορίσουμε τα μεταδεδομένα και τις ιδιότητες των πεδίων των εγγραφών. Μπορούμε δηλαδή να καθορίσουμε των τύπο των δεδομένων των πεδίων (range, set, orderd set or flag), να καθορίσουμε προεπιλογές για την διαχείριση των ελλιπών τιμών ή των κενών εγγραφών και να καθορίσουμε τον ρόλο που έχει το πεδίο στην διαδικασία μοντελοποίησης Filter Node : Χρησιμοποιούμε τον κόμβο αυτό για να φιλτράρουμε τα δεδομένα μας, δηλαδή να απορρίψουμε δεδομένα που ενδεχομένως είναι μη σημαντικά, να μετονομάσουμε τα πεδία, αλλά και να εντοπίσουμε πιθανά ίδια πεδία μεταξύ δύο διαφορετικών συνόλων δεδομένων εισόδου. Derive Node : Ο κόμβος αυτός χρησιμοποιείται είτε την τροποποίηση των τιμών των πεδίων είτε για τη δημιουργία νέων πεδιών από ένα ή περισσότερα ήδη υπάρχοντα πεδία. Οι τύποι των πεδίων που μπορούν να δημιουργηθούν είναι : formoula, flag, set, stat, count και conditional. Filler Node : Ο κόμβος αυτός χρησιμοποιείται για την απαλοιφή των κενών ή ελλιπών εγγραφών, συμπληρώνοντας τις εγγραφές με προκαθορισμένες τιμές τις οποίες έχουμε ορίσει. Συνήθως ο κόμβος Filler χρησιμοποιείται μαζί με τον κόμβο Type. Anonymize Node : Ο κόμβος αυτός μετατρέπει τον τρόπο με τον οποίο εμφανίζονται τα ονόματα των πεδίων και οι τιμές τους στην συνέχεια τις ανάλυσης. Για παράδειγμα μπορεί να φανεί ιδιαίτερα χρήσιμος αυτός ο κόμβος σε περίπτωση που έχουμε ευαίσθητα προσωπικά δεδομένα, όπως ονόματα πελατών, και θέλουμε να δώσουμε το μοντέλο μας σε τρίτους για ανάλυση. Reclassify Node : Βασική λειτουργία του κόμβου αυτού είναι η ανακατηγοριοποίηση ή ανασυγκρότηση ομάδων με συγχώνευση των δεδομένων, βοηθώντας μας στο στάδιο της ανάλυσης. Binning Node : Ο κομβός αυτός δημιουργεί αυτόματα ενά νέο σύνολο πεδίων που προέρχονται από ένα ή περισσότερα πεδία με αριθμητικές εγγραφές. Παραδείγματος χάριν από ένα βαθμωτο πεδίο εγγραφών, όπως είναι το -40-

47 εισόδημα, μπορούμε να δημιουργήσουμε ένα νέο πεδίο με κατηγορικές τιμές, το οποίο θα περιέχει ομαδοποιημένες τις αποκλίσεις του εισοδήματος από το μέσο εισόδημα. SPSS Transform Νode : Ο κόμβος αυτός μετασχηματίζει κατευθείαν τον κώδικα εντολών μετασχηματισμού του στατιστικού πακέτου της SPSS και το μετατρέπει σε μορφή αναγνωρίσιμη από την Clementine. Partition Node : O κόμβος αυτός τμηματοποιεί τα δεδομένα δημιουργώντας πεδία με υποσύνολα δεδομένων τα οποία χρησιμοποιούνται είτε σαν σύνολα εκπαίδευσης, είτε ως σύνολα ελέγχου. Restructure Node : Ο κόμβος αυτός όταν χρησιμοποιείται όταν θέλουμε τις διακριτές τιμές ενός πεδίου να τις χωρίσουμε σε νέα ξεχωριστά πεδία. Για παράδειγμα το πεδίο Τύπος Πληρωμής έχει τρεις διακριτές τιμές ( Μετρητά, Πιστωτική κάρτα, Χρεωστική κάρτα), οι οποίες μπορούν να γίνουν τρία ξεχωριστά νέα πεδία. Transpose Node : Ο κόμβος αυτός μετατρέπει τα δεδομένα σε γραμμές και στήλες με μορφή πίνακα, αντιστρέφοντας τις στήλες με τις γραμμές, έτσι ώστε οι στήλες που ήταν τα πεδία των δεδομένων να γίνουν γραμμές και οι τιμές των πεδίων να γίνουν στήλες. Time Intervals Node : Ο κόμβος αυτός δημιουργεί χρονικές ετικέτες όταν εργαζόμαστε σε δεδομένα χρονολογικών σειρών, οπού τα διαστήματα μεταξύ των δεδομένων δεν είναι ομοιόμορφα κατανεμημένα. History Node : Ο κόμβος αυτός δημιουργεί πεδία που περιέχουν δεδομένα από προηγούμενες εγγραφές. Συνήθως τον κόμβο αυτό τον χρησιμοποιούμε όταν εργαζόμαστε σε χρονολογικές σειρές. Field Reorder Node : Ο κόμβος αυτός καθορίζει την σειρά με την οποία θα εμφανίζονται τα πεδία. Ο καθορισμός αυτός της σειράς εμφάνισης των πεδίων έχει επιπτώσεις και στην εμφάνιση των πινάκων και των λιστών που δημιουργούνται από τα πεδία. Ο κόμβος είναι πολύ χρήσιμος όταν εργαζόμαστε σε μεγάλης έκτασης δεδομένα, αναδεικνύοντας τα πιο σημαντικά πεδία στην ε- ρευνά μας. -41-

48 3.4.4 Κόμβοι γραφημάτων Αρκετές φορές καθόλη την διάρκεια της διαδικασίας Εξόρυξης Δεδομένων υπάρχει η ανάγκη να αναπαραστήσουμε τα δεδομένα με γραφήματα. Μέσω τον γραφημάτων μπορούμε πολλές φορές να κατανοήσουμε καλύτερα τα δεδομένα μας και να παρατηρήσουμε συσχετίσεις μεταξύ των εγγραφών οι οποίες αρχικά δεν είναι αντιληπτές. Plot Node : Με το γράφημα αυτό μπορούμε να εντοπίσουμε τις συσχετίσεις που μπορεί να υπάρχουν μεταξύ δύο αριθμητικών πεδίων. Multiplot Node : Το γράφημα αυτό το χρησιμοποιούμε για να εντοπίσουμε τις συσχετίσεις που υπάρχουν σε περισσότερα από δύο αριθμητικά δεδομένα σε σχέση με μια μεταβλητή, για παράδειγμα τον χρόνο. Distribution Node : Το γράφημα αυτό χρησιμοποιείται για να αναπαραστήσει την επίδραση των κατηγορικών μεταβλητών των δεδομένων. Μπορούμε να το χρησιμοποιήσουμε για να παρουσιάσουμε τις όποιες ανισσοροπίες υπάρχουν. Histogram Node : Αντίστοιχα με το παραπάνω γράφημα χρησιμοποιείται για να αναπαραστήσει τις ανισσοροπίες σε αριθμητικά δεδομένα. Collection Node : Το γράφημα αυτό μας παρουσιάζει την κατανομή των αριθμητικών δεδομένων ενός πεδίου σε σχέση με ένα άλλο. Ιδιαίτερα χρήσιμο όταν οι τιμές των μεταβλητών αλλάζουν με την πάροδο του χρόνου. Web Node : Το γράφημα αυτό αναπαριστά την ισχύ των συσχετίσεων μεταξύ δύο ή και περισσότερων κατηγορικών μεταβλητών πεδίων. Ένα παράδειγμα αναζήτησης συσχέτισης θα μπορούσε να ήταν μεταξύ της αγοράς ενός συνόλου αντικειμένων σε ένα ηλεκτρονικό κατάστημα, δηλαδή τι αγοράζεται μαζί με κάτι άλλο. Evaluation Node : Το γράφημα αυτό το χρησιμοποιούμε για να αξιολογίσουμε και να συγκρίνουμε τα αποτελέσματα από τα μοντέλα πρόβλεψης, παρουσιάζει δηλαδή πόσα καλές είναι οι τιμές πρόβλεψης σχετικά με τα αποτελέσματα. Ταξινομεί ις εγγραφές αναλόγα με την τιμή πρόβλεψης και την εμπιστοσύνη (Confidence) της πρόβλεψης. Χωρίζει τις εγγραφές σε δύο ίσα μέρη (Quantiles) ανάλογα με την τιμή του κριτηρίου που θέτουμε από την υψηλότερη προς τν χαμηλότερη. Κάθε γραμμή του γραφήματος αντιπροσωπεύει και ένα διαφορετικό μοντέλο, όταν χρησιμοποιούμε πολλαπλά μοντέλα στην ανάλυση. -42-

49 Time Plot Node : Το γράφημα παρουσιάζει τα σύνολα των δεδομένων χρονολογικών σειρών. Χρησιμοποιείται συνήθως μετά την χρήση του κόμβου Time Intervals, οπού έχει δημιουργηθεί το πεδίο Time Label που ονομάζει τον άξονα χ Κόμβοι μοντελοποίησης Η βασικότερη παλέτα της Clementine και ουσιαστικά η καρδιά όλου του προγράμματος βρίσκεται εδώ. Στην παλέτα αυτή βρίσκονται οι αλγόριθμοι και τα πρότυπα μοντελοποίησης που χρησιμοποιούμε για την ανάλυση, ανάλογα με την φύση του προβλήματος που έχουμε να αντιμετωπίσουμε. Binary Classification models Binary Classifier Νode : Ο κόμβος αυτός δημιουργεί και συγκρίνει διαφορετικά μοντέλα δυαδικής έκβασης (Ναι ή Όχι) επιτρέποντας μας να επιλέξουμε την καλύτερη προσέγγιση για την ανάλυση μας. Ο κόμβος παράγει ένα σύνολο προτύπων και τα ταξινομεί ανάλογα με τα κριτήρια που εμείς έ- χουμε θέσει (Εικόνα 3.6). Εικόνα 3.6 Αποτελέσματα κόμβου Binary Classifier -43-

50 Screening models Feature Selection Node : Ο κόμβος αυτός απεικονίζει τα πεδία των εκτιμητών που δεν μας είναι χρήσιμα στην διαδικασία της μοντελοποίησης ανάλογα με τα κριτήρια τα οποία έχουμε καθορίσει. Anomaly Detection Νode : Ο κόμβος αυτός χρησιμοποιείται για να εντοπίσει τυχόν ανωμαλίες και ακραίες τιμές στα δεδομένα. Χρήσιμο σε περίπτωση που δεν ξέρουμε τι ακριβώς ψάχνουμε. Decision List models Decision List node : Ο κόμβος αυτός προσδιορίζει τις υποομάδες ή τα τμήματα, τα οποία εμφανίζουν την μεγαλύτερη ή την μικρότερη πιθανότητα, ως δυαδικά ενδεχόμενα. Για παράδειγμα μπορούμε να χρησιμοποιήσουμε τον κόμβο αυτό, θέλοντας να δούμε πως θα ανταποκριθούν οι πελάτες μας σε μία ενδεχόμενη νέα διαφημιστική καμπανιά (θετικά ή αρνητικά). Decision Tree models Classification and Regression Tree Νode : Ο κόμβος αυτός παράγει ένα δέντρο απόφασης το οποίο είτε προβλέπει είτε ταξινομεί τις παρατηρήσεις. Η μέθοδος χρησιμοποιεί τον επαναλαμβανόμενο χωρισμό για να χωρίσει τα δεδομένα εκπαίδευσης σε τμήματα με την ελαχιστοποίηση της «ακαθαρσίας» σε κάθε βήμα, όπου ένας κόμβος θεωρείται «καθαρός» (pure) εάν 100% των περιπτώσεων στον κόμβο εμπίπτουν σε μια συγκεκριμένη κατηγορία. Η κάθε διάσπαση είναι πάντοτε δυαδική και οι τιμές των πεδίων στόχων και των εκτιμητών μπορούν να είναι είτε συνεχείς είτε κατηγορικές. QUEST Νode : Ο κόμβος αυτός παρέχει μια δυαδική μέθοδο ταξινόμησης για τα δέντρα απόφασης, με σκοπό να μειώσει το χρόνο επεξεργασίας που απαιτείται για τις μεγάλες αναλύσεις με χρήση του C&RT αλγορίθμου, μειώνοντας επίσης την τάση που βρέθηκε στις μεθόδους δέντρων ταξινόμησης να ευνοούν τους εκτιμητές που επιτρέπουν περισσότερες διασπάσεις. Όλες οι διασπάσεις και σε αυτή την μέθοδο είναι δυαδικές. CHAID Νode : Ο κόμβος αυτός δημιουργεί δέντρα απόφασης χρησιμοποιώντας την chi-square στατιστική μέθοδο για να προσδιορίσει τις βέλτιστες διασπάσεις. Αντίθετα από τους κόμβους C&RT και QUEST, ο κόμβος CHAID μπορεί να παραγάγει και μη δυαδικά δέντρα, σημαίνοντας ότι μερικές διασπάσεις έχουν περισσότερους από δύο κλάδους. Οι τιμές των πεδίων στό- -44-

51 χων και των εκτιμητών μπορούν να είναι είτε συνεχείς είτε κατηγορικές. Επίσης υπάρχει και ο αλγόριθμος εξαντλητικός CHAID (Exhaustive CHAID), που είναι μια τροποποίηση του απλού CHAID, ο οποίος πιο λεπτομερειακά εξαντλεί κάθε πιθανότητα που υπάρχει για διάσπαση, είναι όμως πιο αργός καθώς χρειάζεται περισσότερη ώρα για τους υπολογισμούς. C5.0 Node : Ο κόμβος αυτός παράγει δέντρα απόφασης ή σύνολα κανόνων συσχέτισης. Ως γνώρισμα διάσπασης των υποσυνόλων σε κάθε βήμα επιλέγεται αυτό που δημιουργεί περισσότερο ομοιογενή υποσύνολα και κατ επέκταση σχηματίζει το μικρότερο δένδρο απόφασης. Για το διαχωρισμό αυτό χρησιμοποιείται μια ευρετική ή στατιστική μετρική, όπως είναι το κέρδος πληροφορίας (information gain).οι τιμές του πεδίου στόχου πρέπει να είναι κατηγορικές και οι διασπάσεις μπορούν να είναι και μη δυαδικές. Neural Network models Neural Net Νode : Ο κόμβος αυτός χρησιμοποιεί ένα απλουστευμένο πρότυπο του τρόπου που λειτουργούν οι ανθρώπινες εγκεφαλικές διαδικασίες. Λειτουργεί με τη μίμηση ενός μεγάλου αριθμού διασυνδεμένων απλών μονάδων επεξεργασίας που μοιάζουν με τις αφηρημένες εκδόσεις των νευρώνων. Τα Νευρωνικά Δίκτυα είναι πολύ ισχυροί εκτιμητές οι οποίοι απαιτούν την ελάχιστη μαθηματική ή στατιστική γνώση για τα δεδομένα εκπαίδευσης και την εφαρμογή τους. Statistical models Linear regression Node : Με αυτή την στατιστική τεχνική μπορούμε να κάνουμε προβλέψεις ανάλογα με την απόσταση των δεδομένων από την ευθεία που σχηματίζεται και περνάει από την αρχή των αξόνων. Logistic regression Node : Είναι μία στατιστική τεχνική ανάλογη της προηγούμενης μόνο που οι τιμές των δεδομένων είναι κατηγορικές και όχι συνεχείς. Factor/PCA Node : Ο κόμβος αυτός μας παρέχει ισχυρές τεχνικές μείωσης της πολυπλοκότητας των δεδομένων μας. Η ανάλυση κύριων τμημάτων (Principal Component Analysis) βρίσκει τους γραμμικούς συνδυασμούς των τμημάτων των δεδομένων εισαγωγής, οπού η διαφορά είναι η μεγαλύτερη σε ολόκληρο το σύνολο τομέων, δηλαδή τα τμήματα είναι ορθογώνια (κάθετος) το ένα στο άλλο. Η ανάλυση παράγοντα (Factor Analysis) εντοπίζει τους παράγοντες που -45-

52 ελλοχεύουν και εξηγούν το πρότυπο των συσχετίσεων που υπάρχουν μέσα στα δεδομένα εισαγωγής. Οι δύο αυτές προσεγγίσεις έχουν σαν σκοπό να βρεθεί ένας μικρός αριθμός παραγόμενων τομέων που συνοψίζει αποτελεσματικά τις πληροφορίες που υπάρχουν στο αρχικό σύνολο τομέων. Generalized linear model Node : Ο κόμβος αυτός επεκτείνει το γενικό γραμμικό πρότυπο έτσι ώστε η εξαρτώμενη μεταβλητή να συσχετίζεται γραμμικά με τους παράγοντες και να υπάρχει συνδιακύμανση μέσω μιας προκαθορισμένης λειτουργίας συνδέσεων. Επιπλέον το πρότυπο επιτρέπει στην εξαρτώμενη μεταβλητή να μην ακολουθεί την κανονική κατανομή. Clustering models K-Means Node : Ο κόμβος αυτός συσταδοποιεί τα δεδομένα, χωρίζοντας τα σε ομάδες. Ο αριθμός των ομάδων που θα σχηματιστούν είναι προκαθορισμένος και αρχικά διαλέγονται Κ τυχαία σημεία ως κέντρα των ομάδων που δημιουργήθηκαν. Ο αλγόριθμος στην συνέχεια ορίζει ως κέντρο της ομάδας το σημείο της ομάδας που έχει την μικρότερη απόσταση από αυτό το σημείο. Έπειτα υ- πολογίζει το μέσο σημείο (Χm, Ym) και το ορίζει ως κέντρο. η διαδικασία ε- παναλαμβάνεται για προκαθορισμένο αριθμό βημάτων, ή μέχρι να μην υπάρχει αλλαγή στο διαχωρισμό των σημείων σε ομάδες. Two Step Node : Ο κόμβος αυτός συσταδοποιεί τα δεδομένα με την μέθοδο δύο περασμάτων. Στο πρώτο βήμα ομαδοποιεί τα ακατέργαστα δεδομένα σε ομάδες που είναι εύκολο να διαχειριστούν. Το δεύτερο βήμα χρησιμοποιεί μια ιεραρχική μέθοδο συγκέντρωσης για να συγχωνεύσει σταδιακά τα υποσύνολα που δημιουργήθηκαν στο προηγούμενο βήμα και να τα κατατάξει σε μεγαλύτερες συστάδες. Το βασικό πλεονέκτημα αυτής της μεθόδου είναι ότι μπορεί και υπολογίζει το βέλτιστο αριθμό συστάδων για τα δεδομένα εκπαίδευσης. Kohonen Node : Ο κόμβος αυτός παράγει ένα τύπο Νευρωνικού Δικτύου ο οποίος μπορεί να χρησιμοποιηθεί για συσταδοποίηση και χωρισμό των δεδομένων σε ομάδες. Το Νευρωνικό Δίκτυο, εφόσον έχει εκπαιδευτεί πλήρως από τα δεδομένα εκπαίδευσης, ομαδοποιεί τα δεδομένα και τα εμφανίζει δημιουργώντας ομάδες με παρόμοιους τύπους δεδομένων μαζί και εμφανίζει απομονωμένα τα δεδομένα που δεν μπορούν να ομαδοποιηθούν. Έτσι μπορούμε να παρατηρήσουμε στα δεδομένα τους ισχυρούς δεσμούς και να έχουμε -46-

53 μία καλή εικόνα για τον πλήθος των ομάδων στην μέθοδο της συσταδοποίησης. Association models Generalized Rule Induction (GRI) Νode : Ο κόμβος ανακαλύπτει τους κανόνες συσχέτισης που υπάρχουν μεταξύ των στοιχείων. Παραδείγματος χάριν, οι πελάτες που αγοράζουν ξυραφάκια και λοσιόν για μετά το ξύρισμα είναι επίσης πιθανό να αγοράσουν και κρέμα ξυρίσματος. Ο αλγόριθμος GRI εξάγει από τα δεδομένα τους κανόνες συσχέτισης που εμπεριέχουν το μεγαλύτερο κέρδος πληροφορίας (Information Gain), βασισμένος στην μεγαλύτερη υποστήριξη (support) και την μεγαλύτερη εμπιστοσύνη (confidence) των κανόνων που παράγονται. Apriori Node : Ο κόμβος αυτός, όπως και ο προηγούμενος, εξάγει κανόνες συσχέτισης από τα δεδομένα με το μεγαλύτερο κέρδος πληροφορίας. Επιπλέον ο αλγόριθμος Apriori διαθέτει πέντε διαφορετικούς τρόπους επιλογής κανόνων και είναι γρηγορότερος σε σχέση με τον GRI όταν εργαζόμαστε σε μεγάλα σύνολα δεδομένων. CARMA Node : Ο κόμβος αυτός εξάγει κανόνες συσχέτισης χωρίς όμως να χρειαστεί να ορίσουμε τα επίπεδα υποστήριξης και εμπιστοσύνης. Σε αντίθεση με τους δύο προηγούμενους αλγορίθμους, ο CARMA στην εξαγωγή κανόνων συσχέτισης δεν λαμβάνει υπόψη μόνο την υποστήριξη (support) του επόμενου κανόνα, αλλά και του προηγούμενου, δίνοντας μας έτσι κανόνες που μπορούν να χρησιμοποιηθούν ευρύτερα. Για παράδειγμα, η εύρεση ενός καταλόγου προϊόντων ή υπηρεσιών (προηγούμενα) εκ των οποίων προέρχεται το στοιχείο που θέλετε να προωθήσετε αυτήν την περίοδο διακοπών. Sequence Node : Ο κόμβος αυτός ανακαλύπτει κανόνες συσχέτισης σε ακολουθιακά ή χρονολογικά δεδομένα. Βασίζεται κυρίως στον αλγόριθμο εύρεσης κανόνων CARMA που χρησιμοποιεί την αποτελεσματική μέθοδο των δύο βημάτων για να βρεθούν τα ακολουθιακά πρότυπα. Time Series models Time Series Νode : Ο κόμβος αυτός υπολογίζει την ομαλή εκθετική μεταβολή του μεταβλητού ενσωματωμένου αυτόπαλίνδρομου μέσου όρου -47-

54 (Autoregressive Integrated Moving Average) και δημιουργεί μοντέλα πρόβλεψης για τα δεδομένα των χρονολογικών σειρών. Ο κόμβος αυτός πρέπει να χρησιμοποιείται πάντοτε πριν από τον κόμβο Time Intervals. Self-learning models Self-Learning Response Model (SLRM) Node : O κόμβος αυτός μας επιτρέπει να δημιουργήσουμε μοντέλα-πρότυπα, στα οποία η προσθήκη μιας νέας περίπτωσης ή μίας ομάδας νέων περιπτώσεων, θα μπορούν να χρησιμοποιηθούν για να γίνει κατευθείαν η επανεκτίμηση του μοντέλου-πρότυπου, χωρίς να πρέπει να επανεκπαιδευθεί το πρότυπο χρησιμοποιώντας όλα τα στοιχεία Κόμβοι εξόδου Οι κόμβοι εξόδου (Output Nodes) μας παρέχουν τα κατάλληλα μέσα που χρειαζόμαστε για να αντλήσουμε πληροφορίες από τα δεδομένα μας και τα μοντέλα που έχουμε δημιουργήσει. Επιπλέον μας δίνουν την δυνατότητα να εξάγουμε τα αποτελέσματα μας και σε τύπους αρχείων άλλων προγραμμάτων που συνδέονται με την διαδικασία Εξόρυξης Δεδομένων. Table Node : Ο κόμβος αυτός εμφανίζει τα δεδομένα μας με την μορφή πίνακα και μας δίνει την δυνατότητα αποθήκευσής τους ανά πάσα στιγμή με την μορφή αρχείου. Matrix Node : Ο κόμβος αυτός δημιουργεί ένα πίνακα, οπού μέσα σε αυτόν τον πίνακα εμφανίζονται οι διάφορες συσχετίσεις που υπάρχουν μεταξύ των πεδίων. Analysis Node : Ο κόμβος αυτός έχει την δυνατότητα να αξιολογεί την ικανότητα πρόβλεψης των προτύπων πρόβλεψης. Πραγματοποιεί διάφορες συγκρίσεις μεταξύ των τιμών που είχαν προβλεφθεί από το μοντέλο με τις πραγματικές τιμές. Data Audit node : Ο κόμβος αυτός μας παρέχει μια αρκετά λεπτομερειακή εικόνα των δεδομένων. Χρησιμοποιείται κυρίως στο στάδιο κατανόησης των δεδομένων και μας παρουσιάζει διάφορα συνοπτικά στατιστικά, όπως και ιστογράμματα και γραφήματα κατανομής των δεδομένων. Τα αποτελέσματα αναλύονται σ μήτρες που είναι πολύ εύκολο να διαβαστούν και μας βοηθάνε στο στάδιο προετοιμασίας των δεδομένων. -48-

55 Transform Node : Ο κόμβος αυτός μας επιτρέπει να επιλέξουμε και να δούμε τα αποτελέσματα των μετασχηματισμών των πεδίων, προτού όμως τα εφαρμόσουμε. Statistics Node : Ο κόμβος αυτός μας προσφέρει συνοπτικά τις βασικές στατιστικές πληροφορίες των αριθμητικών πεδίων. Υπολογίζει τα συνοπτικά στατιστικά στοιχεία ενός πεδίου ξεχωριστά, αλλά και σε σχέση ενός πεδίου με άλλα. Means Node : Βασική λειτουργία του κόμβου αυτού είναι ο έλεγχος για σημαντική διαφορά μεταξύ των μέσων ενός συνόλου ή ακόμη και ενός ζευγαριού δεδομένων. Report Node : Ο κόμβος αυτός παράγει αυτόματες αναφορές που περιέχουν ένα σταθερό-προκαθορισμένο κείμενο, αλλά και στοιχεία που προήλθαν από την ανάλυση των δεδομένων. Μπορούμε να επιλέξουμε τον τύπο της αναφοράς που δημιουργείται, ή ακόμη να δημιουργήσουμε μία δική μας μέσω της γλώσσας HTML. SPSS Output Node : Ο κόμβος αυτός μας επιτρέπει να χειριστούμε τα δεδομένα που έχουμε εισάγει στην Clementine μέσω ανάκλησης διαδικασιών από το στατιστικό πακέτο της SPSS. Database Export Node : O κόμβος αυτός εξάγει τα δεδομένα σε μία ODBC βάση δεδομένων. Flat File Node : Ο κόμβος αυτός εξάγει τα δεδομένα με την μορφή οριοθετημένου αρχείου κειμένου, κάτι το οποίο κάνει ευκολότερη την προσπέλαση του αρχείου αυτού από λογισμικά ανάλυσης άλλων εταιριών. SPSS Export Node : Ο κόμβος αυτός μας δίνει την δυνατότητα να εξάγουμε τα δεδομένα που επεξεργαστήκαμε στην Clementine σε μορφή αρχείων του στατιστικού προγράμματος της SPSS (.sav). SAS Export Node : Ο κόμβος αυτός μας δίνει την δυνατότητα να εξάγουμε τα δεδομένα που επεξεργαστήκαμε στην Clementine σε μορφή αρχείων του προγράμματος της SAS. Excel Export Node : Ο κόμβος αυτός μας δίνει την δυνατότητα να εξάγουμε τα δεδομένα που επεξεργαστήκαμε στην Clementine σε μορφή αρχείων του προγράμματος της Microsoft, Excel (.xls). -49-

56 3.5 Παράδειγμα εφαρμογής Παρακάτω παραθέτουμε ένα απλό παράδειγμα χρήσης της Clementine. Τα δεδομένα τα οποία χρησιμοποιούνται στο παράδειγμα προέρχονται από το σύνολο δεδομένων Iris. Το σύνολο αυτό είχε δημιουργηθεί στα μέσα τις δεκαετίας του 1930 από τον καθηγητή στατιστικής R.A Fisher για εκπαιδευτικούς λόγους. Το σύνολο δεδομένων περιέχει 150 εγγραφές, οι οποίες αναπαριστούν φυτά τα ο- ποία ανήκουν σε τρία είδη, με κάθε είδος να αποτελείται από 50 εγγραφές. Υπάρχουν τέσσερις κλάσεις που αντιστοιχούν στο είδος των φυτών και κάθε εγγραφή αποτελείται από τέσσερα χαρακτηριστικά των οποίων οι τιμές είναι αριθμητικές και μετρούνται σε εκατοστά : ü Μήκος σέπαλων (sepallen) ü Πλάτος σέπαλων (sepawid) ü Μήκος πέταλων (petallen) ü Πλάτος πέταλων (petalwid) Το ζητούμενο στο παράδειγμα που ακολουθεί είναι η πρόβλεψη του είδους του φυτό, ανάλογα με τις τιμές των χαρακτηριστικών του. Η μέθοδος η οποία χρησιμοποιείται για την κατηγοριοποίηση των εγγραφών είναι αυτή του αλγορίθμου C 5.0, ο οποίος α- ποτελεί την βελτιωμένη έκδοση του αλγόριθμου C 4.5. Εισαγωγή δεδομένων και απεικόνιση Αρχικά εισάγουμε τα δεδομένα μας στο πρόγραμμα της Clementine επιλέγοντας από την παλέτα Source τον κόμβο Variable File και σέρνοντας τον στο παράθυρο εργασίας (Canvas). Κάνουμε διπλό κλικ πάνω στον κόμβο και μας εμφανίζεται ένα νέο παράθυρο στο οποίο δίνουμε την διαδρομή στην οποία βρίσκονται τα δεδομένα μας, αφήνοντας τις προεπιλεγμένες παραμέτρους όπως είναι (Εικόνα 3.7). Εν συνεχεία από την παλέτα Output επιλέγουμε και μεταφέρουμε τον κόμβο Table στο παράθυρο εργασίας, έτσι ώστε να αναπαραστήσουμε τα δεδομένα μας σε μορφή πίνακα. Συνδέουμε τους δύο κόμβους και κάνοντας διπλό κλικ πάνω στον κόμβο Table μας εμφανίζεται ένα νέο παράθυρο. Επιλέγουμε execute (εκτέλεση) και μας εμφανίζεται ένας πίνακας με το σύνολο των δεδομένων μας (Εικόνα 3.8). -50-

57 Εικόνα 3.7 Παράθυρο εισαγωγής δεδομένων Εικόνα 3.8 Πίνακας δεδομένων Προετοιμασία δεδομένων Έπειτα από την εισαγωγή των δεδομένων προχωράμε στο στάδιο της προετοιμασίας των δεδομένων. Από την παλέτα Field επιλέγουμε και μεταφέρουμε στο παράθυρο εργασίας τον κόμβο Type. Κάνοντας διπλό κλικ πάνω στον κόμβο μας εμφανίζεται ένα παράθυρο στο οποίο καθορίζουμε τον τύπο των τιμών των χαρακτηριστικών και της κλάσης. Στην τελευταία στήλη (Direction) καθορίζουμε ως δεδομένα εισόδου στο μοντέλο όλα τα χαρακτηριστικά και αφήνουμε ως έξοδο την κλάση (Εικόνα 3.9). -51-

58 Εικόνα 3.9 Παράθυρο κόμβου Type Στην συνέχεια επιλέγουμε και μεταφέρουμε στο παράθυρο εργασίας τον κόμβο Filter από την παλέτα Field. Συνδέουμε τον κόμβο Filter με τον κόμβο Type. Με διπλό κλικ πάνω στον κόμβο μας εμφανίζεται ένα καινούριο παράθυρο στο οποίο επιλέγουμε να φιλτράρουμε το χαρακτηριστικό sepallen (Εικόνα 3.10). Εικόνα 3.10 Παράθυρο κόμβου Filter Δημιουργία δεδομένων εκπαίδευσης και μοντελοποίηση Το επόμενο βήμα της διαδικασίας είναι η δημιουργία των δεδομένων εκπαίδευσης του μοντέλου. Από την παλέτα Record επιλέγουμε και μεταφέρουμε στο παράθυρο εργασί- -52-

59 ας δύο κόμβους Sample. Συνδέουμε και τους δύο κόμβους με τον κόμβο Filter. Κάνοντας διπλό κλικ πάνω στον κόμβο μας εμφανίζεται ένα καινούριο παράθυρο, οπού στον ένα κόμβο επιλέγουμε την παράμετρο include sample με μέγεθος δείγματος 1 in 2 δημιουργώντας έτσι τα δεδομένα εκπαίδευσης και στον δεύτερο κόμβο επιλέγουμε την παράμετρο discard sample με μέγεθος δείγματος 1 in 2 δημιουργώντας έτσι τα δεδομένα ελέγχου (Εικόνα 3.11). Εικόνα 3.11 Παράθυρο κόμβου Sample Στο επόμενο βήμα επιλέγουμε από την παλέτα Modeling τον κόμβο του αλγόριθμου C 5.0 και τον μεταφέρουμε στο παράθυρο εργασίας. Συνδέουμε τον κόμβο C 5.0 με τον κόμβο τον δεδομένων εκπαίδευσης και με διπλό κλικ εμφανίζεται το παράθυρο διαλόγου του κόμβου. Επιλέγουμε execute (εκτέλεση) και το πρόγραμμα παράγει το μοντέλο του αλγορίθμου το οποίο μας εμφανίζεται στο πλαίσιο Manager (Εικόνα 3.12). Μεταφέρουμε το μοντέλο που δημιουργήθηκε στο παράθυρο εργασίας και το συνδέουμε με τον κόμβου ελέγχου των δεδομένων. Κάνοντας διπλό κλικ στο μοντέλο, εμφανίζεται ένα παράθυρο στο οποίο βλέπουμε τους κανόνες με τους οποίους ανάλογα με το πλάτος των πέταλων (petalwid) κατηγοριοποιούνται οι εγγραφές (Εικόνα 3.13). Τέλος από την παλέτα Output επιλέγουμε και μεταφέρουμε τον κόμβο Analysis στο παράθυρο εργασίας. Συνδέουμε τον κόμβο με το μοντέλο και με διπλό κλικ πάνω στον κόμβο εμφανίζεται το παράθυρο διαλόγου, οπού επιλέγουμε execute. Το νέο παράθυρο που εμφανίζεται βλέπουμε τα ποσοστά πρόβλεψης του μοντέλου που δημιουργήθηκε (Εικόνα 3.14). -53-

60 Εικόνα 3.12 Παράθυρο κόμβου C 5.0 Εικόνα 3.13 Παράθυρο κανόνων μοντέλου -54-

61 Εικόνα 3.14 Αποτελέσματα κόμβου Analysis -55-

62

63 4 Εξόρυξη γνώσης από τραπεζικά δεδομένα Το σύγχρονο οικονομικό τραπεζικό περιβάλλον απαιτεί καθημερινά την λήψη σύνθετων και πολύπλοκων αποφάσεων, που σαν κύριο σκοπό έχουν την αύξηση των κερδών από τις τραπεζικές συναλλαγές και παράλληλα την μείωση των κινδύνων απώλειας κεφαλαίων και του ρίσκου, από τις συναλλαγές αυτές. Τα εργαλεία εφαρμογών του Data Mining μπορούν και παρέχουν πολλές και αξιόπιστες πληροφορίες σε θέματα σχεδιασμού, πρόβλεψης και λήψης απόφασης. Το Clementine της SPSS αποτελεί ένα από τα κορυφαία λογισμικά Data Mining, το οποίο μπορεί να προσφέρει πολύτιμες πληροφορίες σε ένα τραπεζικό περιβάλλον, όπως για παράδειγμα την δανειοδότηση ή όχι ενός πελάτη με βάση στοιχεία παλιότερων συναλλαγών του με την τράπεζα, ή και μέσα από συγκεκριμένα προφίλ πελατών που έχουν δημιουργηθεί από το λογισμικό. Επίσης λειτουργεί και ως ένα σύγχρονο εργαλείου σχεδιασμού, καθώς δίνει την δυνατότητα να εντοπίσουμε τους καλούς πελάτες και να τους προσφέρουμε νέα τραπεζικά προϊόντα, που θα ανταποκρίνονται στις ανάγκες τους. Στο κεφάλαιο που ακολουθεί θα προσπαθήσουμε ανακαλύψουμε την γνώση που κρύβεται πίσω από τα στοιχεία των πελατών μίας βάσης δεδομένων ενός ομίλου τραπεζών του εξωτερικού. 4.1 Περιγραφή δεδομένων Η βάση δεδομένων αποτελείται από οχτώ πίνακες, όπου κάθε πίνακας περιέχει κάποια χαρακτηριστικά τα οποία προσδιορίζουν έναν λογαριασμό πελάτη. Ο κάθε λογαριασμός αποτελείται από στατικά και από δυναμικά χαρακτηριστικά. Στατικά χαρακτηριστικά περιέχονται στους πίνακες : account, client, disposition, permanent order, loan, credit card, demographic data, ενώ τα δυναμικά χαρακτηριστικά περιλαμβάνονται στον πίνακα transactions. Κάθε πελάτης μπορεί να διαχειριστεί ένα ή περισσότερους λογαριασμούς, αλλά και κάθε λογαριασμός μπορεί να διαχειρίζεται από ένα ή και περισσότερους πελάτες. Οι οντότητες client και account συσχετίζονται μεταξύ τους μέσω της σχέσης disposition. Οι οντότητες loan και credit card αντιπροσωπεύουν τις υπηρεσίες που παρέχει -57-

64 η τράπεζα στους πελάτες της. Κάθε λογαριασμός πελάτη μπορεί να εμπεριέχει μία ή και περισσότερες πιστωτικές κάρτες, όμως δεν μπορεί να υπάρχει πάνω από ένα δάνειο σε κάθε λογαριασμό. Η οντότητα demographic data περιέχει δημογραφικά στοιχεία των περιοχών από όπου προέρχονται οι πελάτες της τράπεζας, όπως για παράδειγμα τον μέσο όρο του μηνιαίου μισθού της περιοχής, τον πληθυσμό της περιοχής και τον βαθμό ανεργίας που υπήρχε στην συγκεκριμένη περιοχή τα προηγούμενα χρόνια. Τα δεδομένα υπήρχαν μέσα σε οχτώ αρχεία, με ονόματα αντίστοιχα με των πινάκων και ήταν αποθηκευμένα σε μορφή.asc. Για να μπορέσουμε να εισάγουμε τη βάση δεδομένων στο λογισμικό της Clementine, χρησιμοποιήσαμε το πρόγραμμα Access, του λογισμικού πακέτου της Microsoft Office 2003, και δημιουργήσαμε μια βάση δεδομένων σε μορφή.mdb, όπου ήταν αναγνωρίσιμη από την Clementine. Στην παρακάτω εικόνα απεικονίζεται η βάση που δημιουργήσαμε και οι συσχετίσεις μεταξύ των δεδομένων των πινάκων (Εικόνα 4.1). Εικόνα 4.1 Η βάση δεδομένων και οι σχέσεις μεταξύ των πινάκων 4.2 Περιγραφή βάσης δεδομένων Η βάση δεδομένων μας αποτελείται από οχτώ πίνακες που ουσιαστικά αποτελούν και τις συσχετίσεις των δεδομένων μεταξύ της οντότητας client και account. Στη συνέχεια θα περιγράψουμε τις σχέσεις αυτές και τα χαρακτηριστικά τα οποία περικλείει η κάθε μία σχέση ξεχωριστά. -58-

65 Πίνακας account Η σχέση που περιγράφεται στον πίνακα account αποτελείται από 4500 εγγραφές. Κάθε εγγραφή περιγράφει τα στατικά χαρακτηριστικά του λογαριασμού ενός πελάτη (Εικόνα 4.2). Εικόνα 4.2 Χαρακτηριστικά του πίνακα account Πίνακας client Η σχέση που περιγράφεται στον πίνακα client αποτελείται από 5369 εγγραφές. Κάθε εγγραφή περιγράφει τα χαρακτηριστικά ενός πελάτη της τράπεζας (Εικόνα 4.3). Εικόνα 4.3 Χαρακτηριστικά του πίνακα client Πίνακας disposition Η σχέση που περιγράφεται στον πίνακα disposition αποτελείται από 5369 εγγραφές. Κάθε εγγραφή του πίνακα, ουσιαστικά, συνδέει ένα πελάτη με ένα λογαριασμό, ή περισσότερους. Όπως αναφέραμε και παραπάνω ένα πελάτη μπορεί να διατηρεί ένα ή και περισσότερους λογαριασμούς και σε ένα λογαριασμό να έχουν δικαιώματα ένας τουλάχιστον, ή και περισσότεροι πελάτες (Εικόνα 4.4). -59-

66 Εικόνα 4.4 Χαρακτηριστικά του πίνακα disposition Πίνακας permanent order Η σχέση που περιγράφεται στον πίνακα permanent order αποτελείται από 6471 εγγραφές. Κάθε εγγραφή περιγράφει τον τρόπο εξόφλησης των οφειλών των πελατών προς την τράπεζα. Ο πίνακας αυτός χρησιμοποιείται μόνο για πελάτες που έχουν οφειλές προς την τράπεζα (Εικόνα 4.5). Εικόνα 4.5 Χαρακτηριστικά του πίνακα permanent order Πίνακας transactions Η σχέση που περιγράφεται στον πίνακα transactions αποτελείται από εγγραφές. Κάθε εγγραφή περιγράφει τα χαρακτηριστικά μίας και μόνο συναλλαγής, που πραγματοποιείται, από ένα συγκεκριμένο λογαριασμό (Εικόνα 4.6). -60-

67 Εικόνα 4.6 Χαρακτηριστικά του πίνακα transactions Πίνακας loan Η σχέση που περιγράφεται στον πίνακα loan αποτελείται από 682 εγγραφές. Κάθε εγγραφή περιγράφει τα χαρακτηριστικά στοιχεία ενός δανείου που εκδόθηκε από ένα συγκεκριμένο λογαριασμό. Όπως προαναφέραμε, από κάθε λογαριασμό υπάρχει η δυνατότητα να εκδοθεί μόνο ένα δάνειο (Εικόνα 4.7). Εικόνα 4.7 Χαρακτηριστικά του πίνακα loan -61-

68 Πίνακας credit card Η σχέση που περιγράφεται στον πίνακα credit card αποτελείται από 892 εγγραφές. Κάθε εγγραφή περιγράφει τα χαρακτηριστικά γνωρίσματα μίας πιστωτικής κάρτας που εκδόθηκε από ένα λογαριασμό. Όπως αναφέρθηκε και παραπάνω από ένα λογαριασμό υπάρχει η δυνατότητα να εκδοθούν μία ή και περισσότερες πιστωτικές κάρτες (Εικόνα 4.8). Εικόνα 4.8 Χαρακτηριστικά του πίνακα credit card Πίνακας demographic data Η σχέση που περιγράφεται στον πίνακα demographic data αποτελείται από 77 εγγραφές. Κάθε εγγραφή περιγράφει τα δημογραφικά χαρακτηριστικά μίας περιοχής από ό- που προέρχονται οι πελάτες της τράπεζας (Εικόνα 4.9). Εικόνα 4.9 Χαρακτηριστικά του πίνακα demographic data -62-

69 4.3 Οριοθέτηση του προβλήματος Τα σύγχρονα χρηματοπιστωτικά ιδρύματα, όπως οι τράπεζες, παρέχουν στο καταναλωτικό κοινό μία πληθώρα πιστωτικών και επενδυτικών αγαθών. Οι τράπεζες όμως σαν κερδοσκοπικοί οργανισμοί, που έχουν ως μόνο σκοπό το κέρδος και την περαιτέρω αύξηση της κερδοφορίας τους, θέλουν να μειώσουν τον κίνδυνο που ενέχει η παροχή δανείων, πιστωτικών καρτών και άλλων πιστωτικών αγαθών. Θέλοντας λοιπόν να μειώσουν το ρίσκο που αναλαμβάνουν από την στιγμή σύναψης του δανείου μέχρι την στιγμή της αποπληρωμής του, χρησιμοποιούν τα εργαλεία του Data Mining και συστήματα λήψης αποφάσεων, με σκοπό την ελαχιστοποίηση του κινδύνου. Στη βάση δεδομένων που δημιουργήθηκε από τραπεζικό οργανισμό από χώρα του εξωτερικού, πιο συγκεκριμένα της Τσεχίας, υπάρχουν οι συναλλαγές που διενεργήθηκαν μεταξύ των πελατών της τράπεζας και των υποκαταστημάτων της, σε χρονικό διάστημα έξι χρόνων. Στις συναλλαγές που καταγράφηκαν σε αυτό το χρονικό διάστημα περιλαμβάνονται μεταξύ άλλων και οι πληρωμές δανείων, πιστωτικών καρτών και άλλων οφειλών προς την τράπεζα, αλλά και απλές κινήσεις λογαριασμών. Στη βάση δεδομένων του οργανισμού υπάρχουν καταγεγραμμένοι 5369 πελάτες, από τους οποίους έχουν δημιουργηθεί 4500 λογαριασμοί και έχουν εκδοθεί 682 δάνεια. Υπενθυμίζετε ότι από κάθε λογαριασμό μπορεί να χορηγηθεί μόνο ένα δάνειο. Επίσης στην βάση υπάρχει και ο πίνακας με τις συναλλαγές αποπληρωμής οφειλών, οποίος όμως περιλαμβάνει και τις συναλλαγές αποπληρωμής οφειλών όχι μόνο προς τα δάνεια, άλλα και πιστωτικές κάρτες, overdraft και άλλες εισφορές Προετοιμασία δεδομένων Λόγω του μεγάλου όγκου δεδομένων και της μεγάλης υπολογιστικής δύναμης που χρειάζονταν για να χειριστούμε όλο το πλήθος των δεδομένων, περιορίσαμε τα δεδομένα μας στις 682 εγγραφές που αφορούσαν την λήψη δανείου. Με αυτό τον τρόπο επικεντρωνόμαστε μόνο στις περιπτώσεις που αφορούν την δανειοδότηση και έτσι θα έχουν όσο το δυνατών πιο ακριβή αποτελέσματα κατά την διαδικασία μοντελοποίησης και εξαγωγής συμπερασμάτων. Αρχικά συνδέσαμε, μέσω της μορφής ερωτήματος με την χρήση του λογισμικού Access 2003, τους πίνακες loan, account και demographic data, απομονώνοντας μόνο τις περιπτώσεις που κάποιος λογαριασμός ήταν συνδεδεμένος με κάποιο δάνειο. -63-

70 Έπειτα ελέγξαμε τους πίνακες για τυχόν κενά ή λάθη, όπως επίσης και για το ενδεχόμενο διπλών εγγραφών. Εν συνεχεία αναλύοντας των πίνακα loan παρατηρήσαμε ότι από τις 682 εγγραφές δανείων ο αριθμός των δανείων τα οποία έχουν αποπληρωθεί πλήρως χωρίς κανένα πρόβλημα, δηλαδή με την ένδειξη Α στο χαρακτηριστικό status του πίνακα, ανέρχονται σε 203. Τα δάνεια στα οποία η περίοδος αποπληρωμής έχει παρέλθει όμως έχουν παραμείνει ανεξόφλητα ανέρχονται σε 31 και φέρουν την ένδειξη Β στο χαρακτηριστικό status του πίνακα. Τα δάνεια τα οποία την εξεταζόμενη περίοδο ήταν ακόμη σε εξέλιξη και οι πελάτες προέβαιναν σε τακτικές πληρωμές, χωρίς καθυστερήσεις και άλλα προβλήματα, ανέρχονται σε 403 και φέρουν την ένδειξη C στο σχετικό χαρακτηριστικό. Ενώ τα δάνεια που βρίσκονται σε εξέλιξη, αλλά παρατηρούνται καθυστερήσεις και ληξιπρόθεσμες οφειλές, ανέρχονται σε 45 και φέρουν την ένδειξη D στο σχετικό χαρακτηριστικό. Περίπου δηλαδή το 11% των περιπτώσεων δανειοδότησης καταλήγουν στην δημιουργία χρέους έναντι της τράπεζας, ποσοστό το οποίο είναι αρκετά υ- ψηλό και αυξάνει πολύ το ρίσκο που αναλαμβάνει η τράπεζα. Στην συνέχεια της ανάλυσης θα αναφερόμαστε στους πελάτες με ένδειξη Α και C ως καλώς και στους πελάτες με ένδειξη Β και D ως κακώς, διαχωρίζοντας τους σε δύο μόνο κατηγορίες. Οι αλγόριθμοι οι οποίοι χρησιμοποιούνται για την εξόρυξη δεδομένων παρουσιάζουν μεγάλη ευαισθησία ως προς τον αριθμό των χαρακτηριστικών που δίνονται ως είσοδοι. Ένας πολύ μεγάλος αριθμός χαρακτηριστικών εισόδου απαιτούν μεγάλο μέρος της μνήμης και του επεξεργαστή, ενώ δεν είναι όλα τα χαρακτηριστικά της ίδιας σημασίας όσον αφορά την ακρίβεια και την βαρύτητά τους στο αποτέλεσμα της πρόβλεψης. Για το λόγο αυτό κάθε φορά πριν την εφαρμογή του αλγορίθμου εκπαίδευσης λαμβάνει χώρα ένας άλλος αλγόριθμος επιλογής χαρακτηριστικών γνωστός και ως Feature Selection ο οποίος επιλέγει ένα υποσύνολο των χαρακτηριστικών τα οποία έχουν την μεγαλύτερη βαρύτητα ως προς το τελικό αποτέλεσμα προκειμένου να μειώνεται ο χρόνος επεξεργασίας χωρίς σημαντικές απώλειες στην ακρίβεια του μοντέλου, κάτι το οποίο έχει αναφερθεί και νωρίτερα και ορίζεται από το πρότυπο CRISP-DM. Συνήθως χρησιμοποιούνται στατιστικές συναρτήσεις βασιζόμενες στην θεωρία του Bayes (Bayesian score ή entropy) οι οποίες υπολογίζουν την επίδραση κάθε χαρακτηριστικού εισόδου στην μεταβλητή εξόδου και στην συνέχεια επιλέγουν τα σημαντικότερα χαρακτηριστικά για την μοντελοποίηση. Ειδικά για την περίπτωση της Clementine, μετά την επιλογή -64-

71 δίνεται στον χρήστη μια λίστα με τα χαρακτηριστικά και το ποσοστό βαρύτητάς τους, ενώ αναφέρεται και ποια από αυτά είναι σημαντικά, μέτριας σημασίας ή ασήμαντα. -65-

72

73 5 Επιλογή αλγορίθμων και μοντελοποίηση Στο παρόν κεφάλαιο δίνονται όλα τα στάδια της διαδικασίας της εξόρυξης δεδομένων που αφορούν το κομμάτι της εκπαίδευσης του μοντέλου καθώς και των απαραίτητων βημάτων προ-επεξεργασίας. Όπως έχει αναφερθεί και στο προηγούμενο κεφάλαιο για το πρότυπο CRISP-DM το στάδιο της προ-επεξεργασίας είναι απαραίτητο προκειμένου το τελικό σύνολο δεδομένων που θα χρησιμοποιηθεί για την εκπαίδευση να είναι απαλλαγμένο από ακραίες τιμές και σφάλματα τα οποία θα επηρεάσουν αρνητικά την προβλεπτική ικανότητα του μοντέλου. 5.1 Επιλογή βέλτιστων χαρακτηριστικών (Feature selection) Όπως έχει αναφερθεί, πριν την μοντελοποίηση είναι αναγκαίο για λόγους αποδοτικότητας να γίνει η επιλογή των βέλτιστων χαρακτηριστικών (feature selection) που θα δοθούν στο μοντέλο ως είσοδοι. Για την περίπτωση της Clementine ακολουθεί το διάγραμμα του μοντέλου το οποίο κατασκευάστηκε για την επιλογή των βέλτιστων παραμέτρων καθώς και τα δέντρα απόφασης βάσει των οποίων θα συγκρίνουμε την αποτελεσματικότητα κάθε προσέγγισης: διατηρώντας όλα τα χαρακτηριστικά εισόδου ή κρατώντας μόνο τα πιο σημαντικά για την τελική πρόβλεψη. Για την διαδικασία feature selection χρειαζόμαστε ως είσοδο για το stream τις τιμές που προέκυψαν από την επεξεργασία των δεδομένων σε μορφή.mdb.. O αλγόριθμος που χρησιμοποιήθηκε ήταν ο Pearson s chi square, χωρίς περαιτέρω περιορισμούς στην στατιστική ανάλυση για την αποκοπή ή περιορισμό χαρακτηριστικών. Ο γράφος για feature selection είναι ο ακόλουθος (Εικόνα 5.1): -67-

74 Εικόνα 5.1 Ο γράφος feature selection Ο κόμβος Type καθορίζει ποια χαρακτηριστικά θα δοθούν στον κόμβο ο οποίος θα κάνει την επιλογή των στοιχείων. Οι δύο κόμβοι CHAID αναπαριστούν το δέντρο απόφασης για κάθε περίπτωση : διατηρώντας όλα τα χαρακτηριστικά εισόδου (ο κόμβος που ξεκινά άμεσα από τον κόμβο Type) και διατηρώντας στην ανάλυση μόνο τα σημαντικότερα χαρακτηριστικά. Το αποτέλεσμα της επιλογής των στοιχείων όπως προέκυψε για τα χαρακτηριστικά εισόδου ήταν ότι μόνο 6 χαρακτηριστικά εισόδου ήταν σημαντικά με ποσοστό σημασίας άνω του 99,5% και 2 χαρακτηριστικά εισόδου ήταν οριακά σημαντικά με ποσοστό σημασίας 99,47%. Τα 6 σημαντικότερα χαρακτηριστικά κατά φθίνουσα σειρά ήταν τα εξής : payments, duration, amount, Α11 (average salary), A13 (unemployment rate 96), A12 (unemployment rate 95).Τα τρία πρώτα χαρακτηριστικά προέρχονται από τον πίνακα loan, ενώ τα υπόλοιπα προέρχονται από τον πίνακα demographic data. Τα δύο χαρακτηριστικά εισόδου που ήταν οριακά σημαντικά είναι τα εξής : Α4 (no. of inhabitants) και Α14 (no. of entrepreneurs per 1000 inhabitants). Συγκρίνοντας τα δέντρα απόφασης για κάθε μια περίπτωση παρατηρούμε ότι το CHAID tree για την περίπτωση που έχουμε μόνο τα 6 καλύτερα χαρακτηριστικά για την διάγνωση έχει λιγότερους κόμβους από το αντίστοιχο δέντρο του συνόλου των χαρακτηριστικών. Κάτι τέτοιο σημαίνει ότι χρειάζονται λιγότερες αποφάσεις για την τελική πρόβλεψη. Όμως ο αριθμός των κόμβων δεν διαφέρει σημαντικά : 30 κόμβοι για το δέντρο απόφασης όταν έχουμε τις 6 καλύτερες παραμέτρους και 31 κόμβοι για το δέντρο απόφασης στην περίπτωση που κρατήσουμε όλες τις παραμέτρους εισόδου. Αυτό σημαίνει ότι πιθανότατα να μην πετύχουμε σημαντική βελτίωση στην απόδοση των υπολογισμών αν κρατήσουμε μόνο τα 6 καλύτερα χαρακτηριστικά. Προκειμένου όμως να έχουμε έ- -68-

75 ναν αντικειμενικό δείκτη για την σύγκριση κάθε μεθόδου ώστε να αποφασίσουμε για το πόσα χαρακτηριστικά θα κρατήσουμε εισάγεται μια τιμή από το ίδιο το λογισμικό η οποία ονομάζεται index και εκφράζει πόσες φορές περισσότερο σε σχέση με όλες τις μεταβλητές εισόδου είναι πιθανότερο να προβλέψουν το σωστό αποτέλεσμα οι μεταβλητές που αντιστοιχούν σε ένα μονοπάτι του δέντρου, ένα μεμονωμένο κόμβο ή ένα σύνολο κόμβων ανάλογα με το πώς θα επιλέξουμε να εμφανιστούν τα αποτελέσματα. Καλή απόδοση επιτυγχάνεται όταν τα ποσοστά αυτά ξεπερνούν το 100%. Στον παρακάτω πίνακα (Πίνακας 1) φαίνονται τα αποτελέσματα για την καλύτερη περίπτωση πρόβλεψης για κάθε δέντρο όσον αφορά το σύνολο των περιπτώσεων καλών πελατών και όσον αφορά το σύνολο περιπτώσεων των κακών πελατών. CHAID tree Κόμβοι Index Κατηγορία 6 καλύτερα χαρακτηριστικά 23,21,6,26 214,93% Καλός 19,17 180,4% Κακός Όλα τα χαρακτηριστικά 20,21,6,28 221,28% Καλός 29,18 179,53% Κακός Πίνακας 1 Αποτελέσματα των CHAID trees για τα 6 καλύτερα και για όλα τα σημαντικά χαρακτηριστικά (τιμή Index) Παρατηρούμε από τα παραπάνω ότι οι διαφορές στο κέρδος είναι αρκετά μικρές, επομένως από πλευράς κέρδους και απόδοσης στους υπολογισμούς μπορούμε να χρησιμοποιήσουμε μόνο τα 6 καλύτερα χαρακτηριστικά χωρίς σημαντικές απώλειες. Κάτι το οποίο αξίζει να σημειωθεί είναι ότι ενώ θα περιμέναμε γενικά τα ποσοστά να είναι μεγαλύτερα για την περίπτωση που χρησιμοποιούμε όλα τα χαρακτηριστικά, διαπιστώνουμε ότι η ικανότητα πρόβλεψης, όσον αφορά τις περιπτώσεις κακών πελατών, παρουσιάζεται ελάχιστα μεγαλύτερη στην περίπτωση που χρησιμοποιούμε μόνο τα 6 καλύτερα χαρακτηριστικά. Αυτό σημαίνει ότι οι παράγοντες οι οποίοι αποκλείστηκαν από την ανάλυση είχαν αρνητική επίδραση στην προβλεπτική ικανότητα του μοντέλου κατά ένα πολύ μικρό ποσοστό. Σε γενικές γραμμές το συμπέρασμα είναι ότι στην μοντελοποίηση που θα ακολουθήσει στην συνέχεια μπορούμε να απορρίψουμε τις λιγότερο επιθυμητές παραμέτρους από την εκπαίδευση κάθε μοντέλου χωρίς να έχουμε σημαντική απώλεια στην ικανότητα πρόβλεψης. Παρόλα αυτά θα δοκιμάσουμε και για τις δύο πε- -69-

76 ριπτώσεις την μοντελοποίηση για να μπορέσουμε να συγκρίνουμε την συνολική απόδοση για οποιαδήποτε επιλογή όσον αφορά τις μεταβλητές εισόδου. 5.2 Νευρωνικό Δίκτυο (Neural Network) Ο γράφος που χρησιμοποιούμε για την εκπαίδευση του νευρωνικού δικτύου είναι αυτό το οποίο φαίνεται στην εικόνα (Εικόνα 5.2). Παρατηρούμε ότι έχει ληφθεί υπόψη η διαδικασία της ανίχνευσης ακραίων τιμών (anomaly detection) και έχουν προστεθεί κατάλληλοι κόμβοι ώστε να ανιχνεύουν και να εξαιρούν από το τελικό σύνολο τις περιπτώσεις του συνόλου εκπαίδευσης που παρουσιάζουν ακραία συμπεριφορά. Εικόνα 5.2 Γράφος για anomaly detection, για εκπαίδευση του νευρωνικού δικτύου και για εξαγωγή των αποτελεσμάτων Αφού προηγηθεί η ανίχνευση ακραίων τιμών, δημιουργούνται δύο μονοπάτια καθένα από τα οποία αντιστοιχεί στην εκπαίδευση ενός νευρωνικού δικτύου, ένα κρατώντας όλα τα χαρακτηριστικά (εκτός) για είσοδο και ένα δεύτερο στο οποίο κρατούνται μόνο τα 6 καλύτερα χαρακτηριστικά. Ο καθορισμός των χαρακτηριστικών τα οποία θα δοθούν ως είσοδοι όπως και της μεταβλητής η οποία θα είναι αυτή που θα προβλεφθεί από το μοντέλο γίνεται μέσω των κόμβων Type. Αφού ολοκληρωθεί η ανίχνευση α- κραίων τιμών, το πλήθος των εγγραφών του συνόλου δεδομένων που απομένουν είναι συνολικά 668 από 682 που ήταν αρχικά. Το 90% των εγγραφών αυτών θα δοθεί για την εκπαίδευση του μοντέλου και το 10% θα χρησιμοποιηθεί για την εκτίμηση της ικανότη- -70-

77 τας διάγνωσής του. Η διαδικασία αυτή επαναλαμβάνεται 10 φορές συνολικά εναλλάσσοντας κυκλικά τις εγγραφές του συνόλου δεδομένων, αφού το έχουμε χωρίσει σε 10 ίσα μέρη καθένα από τα οποία αποτελείται από 67 εγγραφές. Η μέθοδος αυτή η οποία χρησιμοποιείται και για την εκτίμηση της προβλεπτικής ικανότητας του μοντέλου είναι γνωστή ως επικύρωση με διασταύρωση 10 διαμερίσεων (10 fold cross validation). Ο αλγόριθμος μοντελοποίησης παραμετροποιείται ώστε να προλαμβάνει την υπερβολική εκπαίδευση του συνόλου (overtraining), δηλαδή να μην χρησιμοποιεί όλο το αρχικό σύνολο για εκπαίδευση και τις ίδιες εικόνες για εκτίμηση διότι τότε το μοντέλο θα παρουσιάζει ένα πολύ μεγάλο ποσοστό επιτυχίας το οποίο όμως δεν θα είναι ρεαλιστικό. Αυτό οφείλεται στο γεγονός ότι τα δεδομένα με τα οποία τροφοδοτείται για εκτίμηση, σε κάθε περίπτωση ταυτίζονται με τα δεδομένα εκπαίδευσης τα οποία είναι γνωστά. Οι κόμβοι των πινάκων αποτελούν τους κόμβους εξόδου οι οποίοι χρησιμοποιήθηκαν για τον υπολογισμό των περιπτώσεων λανθασμένης πρόβλεψης και του ποσοστού επιτυχίας του μοντέλου με το οποίο εκφράζεται και η προβλεπτική του ικανότητα. Επίσης χρησιμοποιώντας τους τριγωνικούς κόμβους όπως φαίνεται στην Εικόνα 5.2 σχεδιάζονται οι γραφικές παραστάσεις της ιδανικής απόδοσης του μοντέλου έναντι αυτής της οποίας έχει επιτευχθεί. Τα ποσοστά επιτυχίας για κάθε περίπτωση εκπαίδευσης δίνονται στον Πίνακα 2 και ακολουθούν οι γραφικές παραστάσεις της απόδοσης. Με FPR (false positive rate ) και FNR (false negative rate) συμβολίζονται οι περιπτώσεις στις οποίες το αποτέλεσμα της πρόβλεψης ήταν λανθασμένο και προέβλεπε κακό ή καλό πελάτη αντίστοιχα. Ειδικότερα : FP FPR = N FNR = FN P TP TPR = P TN TNR = N Feature selection Ποσοστό επιτυχίας FPR FNR 6 καλύτερα χαρακτηριστικά 79,8% 22,2% 7,5% Όλα τα χαρακτηριστικά 80,7% 18,8% 16,8% Πίνακας 2 Αποτελέσματα ακρίβειας, FPR, FNR για τα 6 καλύτερα και για όλα τα χαρακτηριστικά στην περίπτωση του νευρωνικού δικτύου -71-

78 Εικόνα 5.3 Γραφικές παραστάσεις απόδοσης (κέρδους) για τα 6 καλύτερα και για όλα τα χαρακτηριστικά στην περίπτωση του νευρωνικού δικτύου. Από τα παραπάνω αποτελέσματα γίνεται εμφανές ότι το ποσοστό επιτυχίας ό- σον αφορά την προβλεπτική ικανότητα του μοντέλου, διαφέρει ελάχιστα (1% περίπου) μεταξύ των δύο περιπτώσεων επιλογής των χαρακτηριστικών εισόδου. Όπως ήταν αναμενόμενο, έχουμε ελαφρώς καλύτερα αποτελέσματα στην περίπτωση της εκπαίδευσης με όλα τα σημαντικά χαρακτηριστικά σε σχέση με την περίπτωση για τα 6 καλύτερα χαρακτηριστικά. Επίσης, τα ποσοστά σφάλματος στις περιπτώσεις FP, FN διαφέρουν για κάθε ένα μοντέλο και ειδικά για την περίπτωση των FN παρατηρούνται χαμηλότερα σε σχέση με την περίπτωση των FP και στα δύο μοντέλα, ενώ το μοντέλο με όλα τα χαρακτηριστικά εισόδου παρουσιάζει καλύτερη ικανότητα (λιγότερα σφάλματα) στην πρόβλεψη περιπτώσεων κακών πελατών. Στις γραφικές παραστάσεις η μπλε γραμμή συμβολίζει την ιδανική καμπύλη απόδοσης (κέρδους) και η κόκκινη συμβολίζει την απόδοση η οποία επιτεύχθηκε με το μοντέλο μας. Από τις γραφικές παραστάσεις προκύπτει ότι η απόδοση αποκλίνει αρκετά από την επιθυμητή και είναι σχεδόν η ίδια για τις δύο επιλογές με μικρή αυξητική τάση κατά διαστήματα για την περίπτωση που διατηρούνται όλες οι παράμετροι για την εκπαίδευση. 5.3 Δέντρα Απόφασης (Decision Trees) Δένδρα Ταξινόμησης και Παρεμβολής (Classification And Regression - CART Trees) Για την εκπαίδευση του μοντέλου με χρήση των δέντρων απόφασης χρησιμοποιούμε ένα αντίστοιχο γράφο όπως φαίνεται στην εικόνα (Εικόνα 5.4) με αυτό της προηγούμενης περίπτωσης στο οποίο εφαρμόζουμε και πάλι anomaly detection η οποία δίνει τα -72-

79 ίδια αποτελέσματα όπως ήταν αναμενόμενο αφού η βάση δεδομένων που δίνεται ως είσοδος στον γράφο είναι η ίδια. Εκτός από τον πίνακα των ποσοστών επιτυχίας και τις γραφικές παραστάσεις της απόδοσης για κάθε περίπτωση, έχει ενδιαφέρον να εξετάσουμε και τα δέντρα απόφασης τα οποία προκύπτουν. Εικόνα 5.4 : Γράφος για anomaly detection και εκπαίδευση του μοντέλου με τον αλγόριθμο για CART tree (δέντρο απόφασης) Ο αλγόριθμος εκπαίδευσης έχει παραμετροποιηθεί να εκτελεί νέα επανάληψη όταν η μεταβολή στην ακεραιότητα είναι τουλάχιστον 0,003, στοιχείο που τον καθιστά ι- διαίτερα ευαίσθητο και επομένως αναμένεται και μεγάλος αριθμός επαναλήψεων μέχρι να εκπαιδευτεί το μοντέλο ή να κατασκευαστεί το δέντρο απόφασης. Αν η παράμετρος αυτή πάρει μεγαλύτερες τιμές, το δέντρο το οποίο προκύπτει σε κάθε επανάληψη έχει λιγότερους διαχωρισμούς για κάθε απόφαση, αφού πλέον μικρές βελτιώσεις δεν λαμβάνονται υπόψη. Στην περίπτωση αυτή, τα αποτελέσματα του 10 fold cross validation ήταν σταθερά. Τα αποτελέσματα τα οποία προέκυψαν και αφορούν το ποσοστό επιτυχίας του αλγορίθμου και την απόδοσή του για κάθε περίπτωση, παρουσιάζονται στον Πίνακας 3και την Εικόνα

80 Feature selection Ποσοστό επιτυχίας FPR FNR 6 καλύτερα χαρακτηριστικά 79,8% 26,0% 15,6% Όλα τα χαρακτηριστικά 79,9% 17,2% 22,3% Πίνακας 3 Ακρίβεια και ποσοστά FPR, FNR για τα 6 καλύτερα και για όλα τα χαρακτηριστικά στην περίπτωση του CART tree Εικόνα 5.5 Γραφικές παραστάσεις απόδοσης για τα 6 καλύτερα και για όλα τα χαρακτηριστικά στην περίπτωση του CART tree Από τον πίνακα των ποσοστών γίνεται άμεσα εμφανές ότι και στις δύο περιπτώσεις επιλογής παραμέτρων η ικανότητα εκτίμησης του μοντέλου είναι η ίδια. Ειδικά για την περίπτωση των FP μεγαλύτερο σφάλμα στην διάγνωση παρουσιάζει το μοντέλο που έχει εκπαιδευτεί με τα 6 καλύτερα χαρακτηριστικά, ενώ όσον αφορά τα FN αποτελέσματα το ποσοστό σφάλματος είναι μεγαλύτερο για το μοντέλο το οποίο λαμβάνει υ- πόψη μόνο τα 6 καλύτερα χαρακτηριστικά και αυτή η διαφορά είναι σημαντική σε σχέση με το άλλο μοντέλο ενώ ανέρχεται σε 7% περίπου. Αυτή η παρατήρηση θα χρησιμοποιηθεί για την τελική εκτίμηση της καταλληλότητας κάθε μοντέλου. Συγκρίνοντας μεταξύ τους τις γραφικές παραστάσεις της απόδοσης, παρατηρούμε ότι αποκλίνουν και οι δύο από την ιδανική (όχι σημαντικά όμως), ενώ από την μεταξύ τους σύγκριση προκύπτει ότι καλύτερη συμπεριφορά παρουσιάζει αυτή η οποία αντιστοιχεί στο μοντέλο το οποίο λαμβάνει υπόψη μόνο τα 6 καλύτερα χαρακτηριστικά. Για να συγκρίνουμε τα αποτελέσματα των δέντρων απόφασης, εξετάζουμε τις τιμές του δείκτη Index, όπως και στην περίπτωση της feature selection (Πίνακας 4). -74-

81 CART tree Κόμβοι Index Κατηγορία 6 καλύτερα χαρακτηριστικά ,13% Καλός 26,4 172,19% Κακός Όλα τα χαρακτηριστικά ,13% Καλός 4 170,58% Κακός Πίνακας 4 Τιμές της παραμέτρου Index για τις δύο περιπτώσεις χαρακτηριστικών εισόδου στο μοντέλο CART tree Όπως προέκυψε και από τις γραφικές παραστάσεις της απόδοσης, τα υψηλότερα ποσοστά για την προβλεπτική ικανότητα σε κάθε περίπτωση είναι ακριβώς ίσα όσον αφορά τις καλοήθεις περιπτώσεις και διαφέρουν κατά 1% περίπου υπέρ του μοντέλου το οποίο χρησιμοποιεί τις 6 καλύτερες παραμέτρους όσον αφορά την πρόβλεψη περιπτώσεων κακών πελατών. Επίσης, το μοντέλο παρουσιάζει μεγαλύτερη ικανότητα πρόβλεψης όσον αφορά τις περιπτώσεις καλών πελατών. Επομένως, βάσει όλων των παραπάνω εφόσον χρησιμοποιηθεί CART tree καλύτερα αποτελέσματα πρόβλεψης θα προκύψουν εάν χρησιμοποιηθούν μόνο τα 6 καλύτερα χαρακτηριστικά C5.0 Ο αλγόριθμος αυτός κατασκευάζει είτε ένα σύνολο επαγωγικών κανόνων (rule induction) βάσει των οποίων εξάγεται η τελική πρόβλεψη-διάγνωση, είτε ένα δέντρο απόφασης το οποίο είναι ισοδύναμο με τους κανόνες απόφασης. Σε αυτή την περίπτωση μοντελοποίησης η διαδικασία απόφασης γίνεται απόλυτα εμφανής αφού δίνονται ακριβώς οι παράμετροι και οι αντίστοιχες τιμές στις οποίες κάθε φορά θα πρέπει να βασιζόμαστε για την τελική πρόβλεψη υπό την μορφή if then else. Ο γράφος τον οποίο κατασκευάζουμε για την μοντελοποίηση ακολουθεί την ίδια λογική με τα προηγούμενα, αλλά σε αυτή την περίπτωση μπορούμε να δώσουμε παραμέτρους στον αλγόριθμο ώστε να κατασκευάσει είτε το δέντρο απόφασης είτε το σύνολο κανόνων. Στο δέντρο απόφασης το οποίο παράγεται δεν μπορεί να οριστεί η τιμή του δείκτη index όπως για το CART tree αλλά μόνο το ποσοστό εμπιστοσύνης για κάθε παράμετρο και τις τιμές της στο κάθε υποδέντρο στο οποίο παρουσιάζεται, δηλαδή ανάλογα με την σειρά την οποία εξετάζεται. Για την εκτίμηση της ακρίβειας του μοντέλου έχουμε επιλέξει στον αλγόριθμο εκπαίδευσης να ακολουθηθεί η μέθοδος επικύρωσης με διασταύρωση 10 διαμερίσεων (10 fold cross validation). Στην Εικόνα 5.6 που ακολουθεί δίνονται το stream το οποίο κατασκευάστηκε, στον Πίνακας 5 δίνονται οι συγκριτικοί πίνακες για κάθε -75-

82 ένα από τα μοντέλα ανάλογα με την επιλογή των παραμέτρων που χρησιμοποιούνται ως είσοδοι και στην Εικόνα 5.7 απεικονίζονται οι γραφικές παραστάσεις των αποδόσεων των μοντέλων. Εικόνα 5.6 Γράφος για anomaly detection και για την εκπαίδευση του μοντέλου με τον αλγόριθμο C5.0 Feature selection Ποσοστό επιτυχίας FPR FNR 6 καλύτερα χαρακτηριστικά 83,7% 27,1% 7,8% Όλα τα χαρακτηριστικά 86,9% 21,2% 6,6% Πίνακας 5 Αποτελέσματα ακρίβειας και FPR, FNR για το μοντέλο C

83 Εικόνα 5.7 Γραφικές παραστάσεις κέρδους για τα 6 καλύτερα και για όλα τα χαρακτηριστικά στην περίπτωση του μοντέλου C5.0 Βάσει των παραπάνω, προκύπτει ότι σε γενικές γραμμές το ποσοστό επιτυχούς διάγνωσης του μοντέλου C5.0 είναι ικανοποιητικά υψηλό με μικρή διαφορά να παρατηρείται αυτή τη φορά ανάμεσα στο μοντέλο το οποίο λαμβάνει υπόψη μόνο τις 6 καλύτερες παραμέτρους και σε αυτό που συνυπολογίζει όλες. Το τελευταίο υπερέχει όσον αφορά την ακρίβεια κατά 4% περίπου, ενώ παρουσιάζει και το χαμηλότερο ποσοστό λανθασμένων αποτελεσμάτων FP, NP. Κάτι ακόμη το οποίο αξίζει να σημειωθεί είναι ότι στην μοντελοποίηση με C5.0 παρατηρούνται σημαντικά μεγαλύτερα ποσοστά λανθασμένης διάγνωσης περιπτώσεων καλών πελατών ως κακών πελατών (FP) σε σχέση με τα αποτελέσματα για FN. Οι γραφικές παραστάσεις δείχνουν να συγκλίνουν προς την μορφή της ιδανικής απόδοσης αλλά παρουσιάζουν διαφορά μεταξύ τους με την γραφική παράσταση στην περίπτωση που διατηρούνται όλα τα χαρακτηριστικά να έχει την καλύτερη απόδοση και να προσεγγίζει περισσότερο την ιδανική καμπύλη χωρίς να παρουσιάζει απότομη πτώση. Συγκρίνοντας τα δέντρα απόφασης τα οποία προέκυψαν παρατηρούμε ότι όπως ήταν αναμενόμενο το δέντρο στο οποίο λαμβάνονται υπόψη όλα τα χαρακτηριστικά παρουσιάζει πολύ μεγαλύτερη πολυπλοκότητα ως προς τον αριθμό των κόμβων και το βάθος του, κάτι το οποίο δικαιολογεί άμεσα και την σημαντικά μεγαλύτερη ικανότητά του ως προς την πρόβλεψη. 5.4 Σύγκριση μοντέλων και συμπεράσματα Συνοπτικά παραθέτουμε στον παρακάτω πίνακα για αντιπαραβολή τα αποτελέσματα της μοντελοποίησης τα οποία προέκυψαν και έχουν ήδη αναφερθεί στις προηγούμενες παραγράφους. -77-

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη.

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. 4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. Η μετατροπή μιας εντολής επανάληψης σε μία άλλη ή στις άλλες δύο εντολές επανάληψης, αποτελεί ένα θέμα που αρκετές φορές έχει εξεταστεί σε πανελλαδικό

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική Θεσσαλονίκη, Σεπτέμβριος 2013 Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ. Στατιστική????? Κάθε μέρα ερχόμαστε σε επαφή 24/02/2018

ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ. Στατιστική????? Κάθε μέρα ερχόμαστε σε επαφή 24/02/2018 ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ Αντώνης Κ. Τραυλός (B.A., M.A., Ph.D.) Καθηγητής ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ Σχολή Επιστημών Ανθρώπινης Κίνησης και Ποιότητας Ζωής Τμήμα Οργάνωσης και Διαχείρισης Αθλητισμού Στατιστική?????

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Διαχείριση Πολιτισμικών Δεδομένων Ενότητα 6: Εισαγωγή στις Βάσεις Δεδομένων Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και

Διαβάστε περισσότερα

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 2. Η έννοια του προβλήματος 2 2. Η έννοια του προβλήματος 2.1 Το πρόβλημα στην επιστήμη των Η/Υ 2.2 Κατηγορίες προβλημάτων

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Αναζήτηση γνώσης σε Νοσοκομειακά Δεδομένα ΤΟΡΤΟΠΙΔΗΣ ΓΕΩΡΓΙΟΣ Μηχανικός Η/Υ & Πληροφορικής Επιβλέπων: ΒΛΑΧΑΒΑΣ Π. ΙΩΑΝΝΗΣ Καθηγητής Τμ. Πληροφορικής

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

Γεώργιος Φίλιππας 23/8/2015

Γεώργιος Φίλιππας 23/8/2015 MACROWEB Προβλήματα Γεώργιος Φίλιππας 23/8/2015 Παραδείγματα Προβλημάτων. Πως ορίζεται η έννοια πρόβλημα; Από ποιους παράγοντες εξαρτάται η κατανόηση ενός προβλήματος; Τι εννοούμε λέγοντας χώρο ενός προβλήματος;

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2 (ΨΥΧ-122) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: lzabetak@dpem.tuc.gr Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ 28210 37323 Διάλεξη 2 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ

Διαβάστε περισσότερα

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

Εφαρμοσμένη Βελτιστοποίηση

Εφαρμοσμένη Βελτιστοποίηση Εφαρμοσμένη Βελτιστοποίηση Ενότητα 1: Το πρόβλημα της βελτιστοποίησης Καθηγητής Αντώνιος Αλεξανδρίδης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σημείωμα Αδειοδότησης Το

Διαβάστε περισσότερα

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο Εισαγωγικές Έννοιες ημήτρης Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Η Έρευνα Μάρκετινγκ ως εργαλείο ανάπτυξης νέων προϊόντων ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ.

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Συστήματα Πληροφοριών Διοίκησης

Συστήματα Πληροφοριών Διοίκησης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Συστήματα Πληροφοριών Διοίκησης Ενότητα 2: Γενική θεώρηση και κατάταξη συστημάτων πληροφοριών διοίκησης Διονύσιος Γιαννακόπουλος, Καθηγητής Τμήμα

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΙΑΤΡΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005 ΠΑΠΑΔΟΠΟΥΛΟΣ ΘΩΜΑΣ

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Εισαγωγή στη Στατιστική

Εισαγωγή στη Στατιστική Εισαγωγή στη Στατιστική Μετεκπαιδευτικό Σεμινάριο στην ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΑΠΟΚΑΤΑΣΤΑΣΗ ΨΥΧΟΚΟΙΝΩΝΙΚΕΣ ΘΕΡΑΠΕΥΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ Δημήτρης Φουσκάκης, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud Το Oracle Analytics Cloud αποτελεί ένα ολοκληρωμένο σύνολο δυνατοτήτων που περιλαμβάνει έτοιμο περιεχόμενο, εξειδικευμένα

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μάθημα 10: Ανάπτυξη ΠΣ Μαρίνος Θεμιστοκλέους Email: mthemist@unipi.gr Ανδρούτσου 150 Γραφείο 206 Τηλ. 210 414 2723 Ώρες Γραφείου: Δευτέρα 11-12 πμ Ενδεικτικά Περιεχόμενα Εργασίας

Διαβάστε περισσότερα

1 Ανάλυση Προβλήματος

1 Ανάλυση Προβλήματος 1 Ανάλυση Προβλήματος 1.1 Η Έννοια Πρόβλημα Τι είναι δεδομένο; Δεδομένο είναι οτιδήποτε μπορεί να γίνει αντιληπτό από έναν τουλάχιστον παρατηρητή, με μία από τις πέντε αισθήσεις του. Τι είναι επεξεργασία

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Σχολιασμός ερευνητικής πρότασης

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Σχολιασμός ερευνητικής πρότασης Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Σχολιασμός ερευνητικής πρότασης Αναστασία Χριστοδούλου, Dr. Γεώργιος Δαμασκηνίδης Τμήμα Ιταλικής Γλώσσας & Φιλολογίας Θεσσαλονίκη, 2015 Ιδιότητες

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Περιγραφή Προβλημάτων

Περιγραφή Προβλημάτων Τεχνητή Νοημοσύνη 02 Περιγραφή Προβλημάτων Φώτης Κόκκορας Τμ.Τεχν/γίας Πληροφορικής & Τηλ/νιών - ΤΕΙ Λάρισας Παραδείγματα Προβλημάτων κύβοι (blocks) Τρεις κύβοι βρίσκονται σε τυχαία διάταξη πάνω στο τραπέζι

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Υπολογιστικό Πρόβληµα

Υπολογιστικό Πρόβληµα Υπολογιστικό Πρόβληµα Μετασχηµατισµός δεδοµένων εισόδου σε δεδοµένα εξόδου. Δοµή δεδοµένων εισόδου (έγκυρο στιγµιότυπο). Δοµή και ιδιότητες δεδοµένων εξόδου (απάντηση ή λύση). Τυπικά: διµελής σχέση στις

Διαβάστε περισσότερα

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων Παράδειγμα Μας δίνονται τα παρακάτω δεδομένα που αντιπροσωπεύουν τις τιμές πίεσης σε ατμόσφαιρες

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 02 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 2016-2017 1 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ (Descriptive)

Διαβάστε περισσότερα

Δομές Δεδομένων & Αλγόριθμοι

Δομές Δεδομένων & Αλγόριθμοι Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν

Διαβάστε περισσότερα

Τι είναι πληροφοριακό σύστημα

Τι είναι πληροφοριακό σύστημα Τι είναι πληροφοριακό σύστημα Ένας ορισμός είναι ότι ένα πληροφοριακό σύστημα είναι ένα σύνολο αλληλοσυνδεόμενων μερών που συνεργάζονται για τη συλλογή, επεξεργασία, αποθήκευση και διάχυση πληροφοριών

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Αναπαράσταση Γνώσης Η περιγραφή ενός προβλήματος σε συνδυασμό με τους τελετές

Διαβάστε περισσότερα

Δομές Δεδομένων. Ενότητα 1 - Εισαγωγή. Χρήστος Γκουμόπουλος. Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων

Δομές Δεδομένων. Ενότητα 1 - Εισαγωγή. Χρήστος Γκουμόπουλος. Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Δομές Δεδομένων Ενότητα 1 - Εισαγωγή Χρήστος Γκουμόπουλος Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Αντικείμενο μαθήματος Δομές Δεδομένων (ΔΔ): Στην επιστήμη υπολογιστών

Διαβάστε περισσότερα

Περιεχόμενο του μαθήματος

Περιεχόμενο του μαθήματος ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Απαιτήσεις Λογισμικού Περιπτώσεις χρήσης Δρ Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου Εαρινό Εξάμηνο 2012-2013 1 Περιεχόμενο του μαθήματος

Διαβάστε περισσότερα

Μέθοδος : έρευνα και πειραματισμός

Μέθοδος : έρευνα και πειραματισμός 1 Ο ΓΥΜΝΑΣΙΟ ΠΕΥΚΩΝ Γ ΓΥΜΝΑΣΙΟΥ ΜΑΘΗΜΑ : ΤΕΧΝΟΛΟΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΟΣ : Τρασανίδης Γεώργιος, διπλ. Ηλεκ/γος Μηχανικός Μsc ΠΕ12 05 Μέθοδος : έρευνα και πειραματισμός Στόχος της Τεχνολογίας στην Γ Γυμνασίου

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Εισαγωγή στη Σχεδίαση Λογισμικού

Εισαγωγή στη Σχεδίαση Λογισμικού Εισαγωγή στη Σχεδίαση Λογισμικού περιεχόμενα παρουσίασης Τι είναι η σχεδίαση λογισμικού Έννοιες σχεδίασης Δραστηριότητες σχεδίασης Σχεδίαση και υποδείγματα ανάπτυξης λογισμικού σχεδίαση Η σχεδίαση του

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος Η έννοια πρόβληµα Ανάλυση προβλήµατος Με τον όρο πρόβληµα εννοούµε µια κατάσταση η οποία χρήζει αντιµετώπισης, απαιτεί λύση, η δε λύση της δεν είναι γνωστή ούτε προφανής. Μερικά προβλήµατα είναι τα εξής:

Διαβάστε περισσότερα

ΜΕ - 9900 ΕΠΕΑΕΚ: ΑΝΑΜΟΡΦΩΣΗ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΤΟΥ ΤΕΦΑΑ ΠΘ ΑΥΤΕΠΙΣΤΑΣΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΦΥΣΙΚΗΣ ΑΓΩΓΗΣ & ΑΘΛΗΤΙΣΜΟΥ

ΜΕ - 9900 ΕΠΕΑΕΚ: ΑΝΑΜΟΡΦΩΣΗ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΤΟΥ ΤΕΦΑΑ ΠΘ ΑΥΤΕΠΙΣΤΑΣΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΦΥΣΙΚΗΣ ΑΓΩΓΗΣ & ΑΘΛΗΤΙΣΜΟΥ ΕΠΕΑΕΚ: ΑΝΑΜΟΡΦΩΣΗ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΤΟΥ ΤΕΦΑΑ ΠΘ ΑΥΤΕΠΙΣΤΑΣΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΦΥΣΙΚΗΣ ΑΓΩΓΗΣ & ΑΘΛΗΤΙΣΜΟΥ ΜΕ9900 ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Έρευνα και Συγγραφή Λέκτορας Διάλεξη

Διαβάστε περισσότερα

ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ

ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΠΡΟΔΙΑΓΡΑΦΕΣ - ΟΔΗΓΙΕΣ ΔΙΑΜΟΡΦΩΣΗΣ ΘΕΜΑΤΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ Μαθηματικά (Άλγεβρα - Γεωμετρία) Α ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ και Α, Β ΤΑΞΕΙΣ ΕΣΠΕΡΙΝΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ Α ΤΑΞΗ ΗΜΕΡΗΣΙΟΥ και Α ΤΑΞΗ ΕΣΠΕΡΙΝΟΥ ΕΠΑΛ ΚΕΝΤΡΙΚΗ

Διαβάστε περισσότερα

ΒΕΛΤΙΣΤΟΣ ΣΧΕΔΙΑΣΜΟΣ ΤΩΝ ΚΑΤΑΣΚΕΥΩΝ. Δρ. Πολ. Μηχ. Κόκκινος Οδυσσέας

ΒΕΛΤΙΣΤΟΣ ΣΧΕΔΙΑΣΜΟΣ ΤΩΝ ΚΑΤΑΣΚΕΥΩΝ. Δρ. Πολ. Μηχ. Κόκκινος Οδυσσέας ΒΕΛΤΙΣΤΟΣ ΣΧΕΔΙΑΣΜΟΣ ΤΩΝ ΚΑΤΑΣΚΕΥΩΝ Δρ. Πολ. Μηχ. Κόκκινος Οδυσσέας Σχεδιασμός αντικειμένων, διεργασιών, δραστηριοτήτων (π.χ. τεχνικά έργα, έπιπλα, σκεύη κτλ) ΠΡΟΚΑΤΑΡΚΤΙΚΗ ΜΕΛΕΤΗ (conceptual design) ΠΡΟΜΕΛΕΤΗ

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ ΔΙΑΔΙΚΑΣΙΕΣ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ Διδάσκων: Γ. Χαραλαμπίδης,

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) 1 Προέλευση και ιστορία της Επιχειρησιακής Έρευνας Αλλαγές στις επιχειρήσεις Τέλος του 19ου αιώνα: βιομηχανική

Διαβάστε περισσότερα

Σύστημα. Αντώνης Μαϊργιώτης

Σύστημα. Αντώνης Μαϊργιώτης Σύστημα Αντώνης Μαϊργιώτης Σε ένα οργανισμό υπάρχουν προβλήματα για λύση Η διεύθυνση του οργανισμού αναθέτει τη λύση στους κατάλληλους ανθρώπους Οι πιο κατάλληλοι άνθρωποι είναι αυτοί που θέλουν τις κατάλληλες

Διαβάστε περισσότερα

Αξιοποίηση της επαγωγικής συλλογιστικής στο πλαίσιο της διερευνητικής και ανακαλυπτικής μάθησης

Αξιοποίηση της επαγωγικής συλλογιστικής στο πλαίσιο της διερευνητικής και ανακαλυπτικής μάθησης Επιμορφωτικό Εργαστήριο Διδακτικής των Μαθηματικών Του Δημήτρη Ντρίζου Σχολικού Συμβούλου Μαθηματικών Τρικάλων και Καρδίτσας Αξιοποίηση της επαγωγικής συλλογιστικής στο πλαίσιο της διερευνητικής και ανακαλυπτικής

Διαβάστε περισσότερα

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ. ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ. Στατιστική με το SPSS Ως επιστήμονες, χρειαζόμαστε τη Στατιστική για 2 κυρίους λόγους: 1. Για

Διαβάστε περισσότερα

8 Τεχνικός Εφαρμογών Πληροφορικής με Πολυμέσα

8 Τεχνικός Εφαρμογών Πληροφορικής με Πολυμέσα Περιεχόμενα Πρόλογος... 9 Κεφάλαιο 1: Δομή και λειτουργία του υπολογιστή... 11 Κεφάλαιο 2: Χρήση Λ.Σ. DOS και Windows... 19 Κεφάλαιο 3: Δίκτυα Υπολογιστών και Επικοινωνίας... 27 Κεφάλαιο 4: Unix... 37

Διαβάστε περισσότερα

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ Δομή παρουσίασης Εισαγωγή Βασικές Έννοιες Σχετικές μελέτες Εφαρμογή Δεδομένων Συμπεράσματα Εισαγωγή Μελέτη και προσαρμογή των διάφορων

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες

Διαβάστε περισσότερα

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (# 252) Ε ΕΞΑΜΗΝΟ 9 η ΕΙΣΗΓΗΣΗ ΣΗΜΕΙΩΣΕΙΣ ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΛΙΓΗ ΘΕΩΡΙΑ Στην προηγούμενη διάλεξη μάθαμε ότι υπάρχουν διάφορες μορφές έρευνας

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Μαθησιακές δραστηριότητες με υπολογιστή

Μαθησιακές δραστηριότητες με υπολογιστή ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Μαθησιακές δραστηριότητες με υπολογιστή Κατευθυντήριες γραμμές σχεδίασης μαθησιακών δραστηριοτήτων Διδάσκων: Καθηγητής Αναστάσιος Α. Μικρόπουλος Άδειες

Διαβάστε περισσότερα