ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Transcript

1 ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Θέμα: Ανάπτυξη Μοντέλων για την Πρόβλεψη Πιθανής Αποτυχίας Αποπληρωμής Δανείου Βασιλείου Ευφροσύνη(Α.Μ. 489) Δελήμπασης Γεώργιος(Α.Μ. 402) Κωνσταντινίδου Παρασκευή(Α.Μ. 393) Επιβλέποντες Καθηγητές : Γεωργούλας Γεώργιος Κατσής Χρήστος ΛΕΥΚΑΔΑ 2011

2

3 Ευχαριστίες, Θα θέλαμε να εκφράσουμε τις θερμές μας ευχαριστίες στους καθηγητές κ. Γεώργιο Γεωργούλα και κ. Χρήστο Κατσή για την εμπιστοσύνη που μας έδειξαν, για τη συστηματική καθοδήγηση και την άμεση ανταπόκριση σε όλη τη διάρκεια της πτυχιακής εργασίας. Ευχαριστούμε τις οικογένειες μας για τη συμπαράσταση που μας πρόσφεραν καθ όλη τη διάρκεια των σπουδών μας.

4 ΠΕΡΙΛΗΨΗ Ο όγκος των δεδομένων που φυλάσσονται στα αρχεία και στις βάσεις δεδομένων αυξάνεται με έναν εκπληκτικό ρυθμό. Την ίδια στιγμή, οι χρήστες αυτών των δεδομένων επιζητούν από αυτά πιο εξειδικευμένες πληροφορίες. Η εξόρυξη δεδομένων καλείται να δώσει λύση σε τέτοιου είδους προβλήματα που μέχρι τώρα οι παραδοσιακές βάσεις δεδομένων αδυνατούσαν. Η εξόρυξη δεδομένων χωρίζεται στα προβλεπτικά και περιγραφικά μοντέλα, τα οποία περιλαμβάνουν κάποιες τεχνικές. H κατηγοριοποίηση (classification) είναι η πιο γνωστή τεχνική της εξόρυξης δεδομένων. Οι πιο διαδεδομένες μέθοδοι κατηγοριοποίησης είναι τα δέντρα αποφάσεων (decision trees), τα νευρωνικά δίκτυα (neural networks), η Bayesian κατηγοριοποίηση, ο k-κοντινότερος γείτονας (Knn) και η λογιστική παλινδρόμηση (logistic regression). Οι αλγόριθμοι που αντιστοιχούν σε αυτές τις μεθόδους είναι: ο J.48, το RBFNetwork, ο Naïve Bayes, ο Knn και ο Logistic. Επίσης, αναφέρονται τα πλεονεκτήματα και μειονεκτήματα τους. Η υλοποίηση όλων των παραπάνω μεθόδων και αλγορίθμων γίνεται μέσω της πλατφόρμας λογισμικού WEKA (Waikato Environment for Knowledge Analysis). Κύριο ζητούμενο είναι η ανάπτυξη μοντέλων για την πρόβλεψη πιθανής αποτυχίας αποπληρωμής ενός δανείου. Το data set περιέχει στοιχεία για τις υποθήκες που έχουν εγκριθεί από ασφαλιστές της τράπεζας. Από τα συμπεράσματα που προκύπτουν από το πειραματικό μέρος της εργασίας είναι εύκολα κατανοητό ποια μέθοδος είναι ικανή να δώσει την καλύτερη λύση στο συγκεκριμένο πρόβλημα. i

5 Περιεχόμενα ΠΕΡΙΛΗΨΗ i ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ Θεωρητικό υπόβαθρο Βήματα προς την εξέλιξη του τομέα της Εξόρυξης Δεδομένων Πεδίο εφαρμογής τεχνικών Εξόρυξης Δεδομένων Παράμετροι και εργαλεία Εξόρυξης Δεδομένων Παράγοντες επιτυχίας της Εξόρυξης Δεδομένων Το μέλλον... 9 Βιβλιογραφία ΚΕΦΑΛΑΙΟ 2: ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ Βασικές Εργασίες εξόρυξης γνώσης από δεδομένα Κατηγοριοποίηση Παλινδρόμηση Ανάλυση Χρονοσειρών Πρόβλεψη Συσταδοποίηση Παρουσίαση συνόψεων Κανόνες Συσχέτισης Ανακάλυψη Ακολουθιών Η Εξόρυξη ως στάδιο της ανακάλυψης γνώσης σε βάσεις δεδομένων Η Ανάπτυξη της Εξόρυξης γνώσης από δεδομένα Θέματα Εξόρυξης Γνώσης από δεδομένα Βιβλιογραφία ΚΕΦΑΛΑΙΟ 3: ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ Κατηγοριοποίηση Απόδοση της κατηγοριοποίησης Μέθοδοι κατηγοριοποίησης Δέντρα Αποφάσεων Ο ταξινομητής J Πλεονεκτήματα και μειονεκτήματα Bayesian Κατηγοριοποίηση Ο ταξινομητής Naïve Bayes Πλεονεκτήματα και μειονεκτήματα ii

6 3.3.3 Νευρωνικά δίκτυα Ο ταξινομητής RBFNetwork Πλεονεκτήματα και μειονεκτήματα Κ- Πλησιέστεροι γείτονες Πλεονεκτήματα και μειονεκτήματα Λογιστική παλινδρόμηση Πλεονεκτήματα Βιβλιογραφία ΚΕΦΑΛΑΙΟ 4: ΤΟ ΠΕΡΙΒΑΛΛΟΝ WEKA Τι είναι το Weka Εγκατάσταση του Weka Γραφικές διεπαφές Δομή αρχείων Το περιβάλλον Explorer Η Καρτέλα Preprocess Η Καρτέλα Classify Επιλογή ταξινομητή (Classifier) Μέθοδοι εκτίμησης ταξινομητή (Test Options) Αποτελέσματα εξόδου ταξινομητή (Classifier output) Η καρτέλα Clusters Η καρτέλα Associate Η καρτέλα Select Attributes Η καρτέλα Visualize Βιβλιογραφία ΚΕΦΑΛΑΙΟ 5: ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ Εισαγωγή Περιγραφή του Συνόλου Δεδομένων (dataset) Ανάλυση αποτελεσμάτων Ο ταξινομητής J Ο ταξινομητής J.48 με resample Ο ταξινομητής J.48 με resample Ο ταξινομητής J.48 με resample Ο ταξινομητής Naïve Bayes Ο ταξινομητής Logistic Ο ταξινομητής Knn Ο ταξινομητής Knn με resample Ο ταξινομητής Knn με resample iii

7 Ο ταξινομητής Knn με resample Ο ταξινομητής RBFNetwork Ο ταξινομητής RBFNetwork με resample Ο ταξινομητής RBFNetwork με resample Ο ταξινομητής RBFNetwork με resample Γενικά συγκεντρωτικά αποτελέσματα ΚΕΦΑΛΑΙΟ 6: ΣΥΜΠΕΡΑΣΜΑΤΑ iv

8 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ 1.1 Θεωρητικό υπόβαθρο Η σύγκλιση της πληροφορικής και των επικοινωνιών έχει δημιουργήσει μια κοινωνία η οποία τρέφεται με πληροφορίες. Όμως, οι περισσότερες από τις πληροφορίες είναι σε ακατέργαστη μορφή: τα δεδομένα. Εάν τα στοιχεία χαρακτηρίζονται ως καταγεγραμμένα γεγονότα, τότε οι πληροφορίες είναι το σύνολο των μοντέλων ή προσδοκιών, που διέπουν τα δεδομένα. Υπάρχει μια τεράστια ποσότητα πληροφοριών κλειδωμένη σε βάσεις δεδομένων, πληροφορίες που είναι δυνητικά σημαντικές αλλά δεν έχουν ακόμη ανακαλυφθεί ή αρθρωθεί.(witten and Eibe, 2005) Ο όγκος των δεδομένων διπλασιάζεται κάθε χρόνο με έναν εκπληκτικό ρυθμό, αλλά η χρήσιμη πληροφορία δείχνει να μειώνεται. Την ίδια στιγμή, οι χρήστες αυτών των δεδομένων επιζητούν από αυτά πιο εξειδικευμένες πληροφορίες. Η πρόκληση που αντιμετωπίζουν σήμερα οι περισσότερες εταιρείες είναι όχι πώς να συλλέξουν και να αποθηκεύσουν επαρκείς όγκους πληροφοριών, αλλά πώς να βγάλουν συμπεράσματα που να έχουν νόημα και σημασία από αυτές τις μάζες στοιχείων. Η απάντηση στην πρόκληση αυτή δίδεται από την Εξόρυξη Δεδομένων ( Η περιοχή της εξόρυξης γνώσης από δεδομένα γνώρισε ανάπτυξη την τελευταία δεκαετία για να αντιμετωπίσει αυτό το πρόβλημα. Έχει πια γίνει όχι μόνο μια σημαντική ερευνητική περιοχή, αλλά επίσης μια περιοχή με αρκετό αντίκτυπο στον πραγματικό κόσμο. Ο όρος εξόρυξη γνώσης από δεδομένα (data mining) αναφέρεται στην εφαρμογή τεχνικών μηχανικής μάθησης (machine learning) σε μεγάλο όγκο δεδομένων για την ανακάλυψη γνώσης (knowledge discovery) από τα δεδομένα αυτά. Συχνά ορίζεται σαν η εύρεση πληροφοριών που είναι κρυμμένες σε μια βάση δεδομένων. Εναλλακτικά, η εξόρυξη γνώση από δεδομένα ονομάστηκε εξερευνητική ανάλυση δεδομένων, ανακάλυψη καθοδηγούμενη από δεδομένα και συμπερασματική μάθηση. Η εξόρυξη δεδομένων παίρνει το όνομά της από τις ομοιότητες που έχει η αναζήτηση πολύτιμων επιχειρηματικών πληροφοριών σε μια μεγάλη βάση δεδομένων με την εξόρυξη πολύτιμων ορυκτών από μια ορεινή μάζα. Η εξόρυξη δεδομένων, η εξαγωγή των κρυμμένων προβλεπτικών πληροφοριών από μεγάλες βάσεις 1

9 δεδομένων, αποτελεί ισχυρή τεχνολογία με πολύ μεγάλες δυνατότητες να βοηθήσει τις εταιρείες να επικεντρωθούν στις πιο σημαντικές πληροφορίες που περιέχονται στις βάσεις δεδομένων τους ( Οι παραδοσιακές ερωτήσεις σε βάσεις δεδομένων (Εικόνα 1.1), έχουν πρόσβαση σε μία βάση δεδομένων χρησιμοποιώντας μία καλά ορισμένη ερώτηση, η οποία εκφράζεται σε μια γλώσσα όπως είναι η SQL. Το αποτέλεσμα της ερώτησης αποτελείται από δεδομένα που προέρχονται από τις βάσεις δεδομένων και που ικανοποιούν την ερώτηση. Η έξοδος είναι συνήθως ένα υποσύνολο της βάσης των δεδομένων, αλλά μπορεί επίσης να είναι και μία εξαγόμενη όψη ή να περιέχει συναθροίσεις. Η προσπέλαση σε μία βάση δεδομένων, μέσω της εξόρυξης γνώσης από δεδομένα, διαφέρει από την παραδοσιακή προσπέλαση σε πολλά σημεία: Ερώτηση: Η ερώτηση ίσως να μην είναι καλά σχηματισμένη ή να μην είναι με ακρίβεια ορισμένη. Εκείνος ο οποίος εξορύσσει τα δεδομένα, ίσως να μην είναι καν απόλυτα σίγουρος για αυτό που θέλει να βρει. Δεδομένα: Τα δεδομένα που προσπελαύνονται αποτελούν συνήθως μία διαφορετική έκδοση από εκείνα της αρχικής (επιχειρησιακής) βάσης δεδομένων. Τα δεδομένα έχουν καθαριστεί και τροποποιηθεί για να υποστηρίζουν καλύτερα τη διαδικασία της εξόρυξης. Έξοδος: Η έξοδος μιας ερώτησης γνώσης από δεδομένα πιθανώς να μην αποτελεί ένα υποσύνολο της βάσης των δεδομένων. Αντί για αυτό, μπορεί να είναι η έξοδος από κάποιες αναλύσεις των περιεχομένων της βάσης δεδομένων. (Dunhum 2004) SQL Αποτελέσματα ΣΔΒΔ ΒΔ Εικόνα 1.1: Προσπέλαση σε βάση δεδομένων 1.2 Βήματα προς την εξέλιξη του τομέα της Εξόρυξης Δεδομένων Η ιδέα της Εξόρυξης Δεδομένων γεννήθηκε λόγω της συσσώρευσης πλήθους πληροφοριών και αρχείων σε τεράστιες βάσεις δεδομένων που διατηρούσαν εταιρείες και υπηρεσίες. Ενισχύθηκε με την βελτίωση στην πρόσβαση των πληροφοριών και 2

10 την ανάπτυξη τεχνολογιών που ευνοούσαν την πλοήγηση στα δεδομένα σε πραγματικό χρόνο. Με δεδομένη την κατάσταση, ήταν επιτακτική η ανάγκη για αξιοποίηση του τεράστιου όγκου πληροφοριών, ώστε να ερμηνευτούν οι συλλογές δεδομένων και να δοθούν νέες διαστάσεις στις ήδη υπάρχουσες οντότητες. Η ανάπτυξη του επιστημονικού τομέα της Ανακάλυψης Γνώσης ευνοήθηκε μέσα από ένα σύνολο προϋπαρχόντων καταστάσεων (εικόνα 1.2), όπως: Τις συλλογές δεδομένων πάσης φύσεως που αφθονούν, ενώ μόνο ένα μικρό ποσοστό της τάξης του 5-10% των συλλεγόμενων δεδομένων τυγχάνει ανάλυσης Την ανάγκη πρόσβασης των εταιριών σε αξιόπιστα και έγκαιρα δεδομένα για κοινό στο οποίο απευθύνονται Τη διαθεσιμότητα και την ευκολία πρόσβασης σε πλήθος πληροφοριών μέσω του Internet ή των εσωτερικών δικτύων Την αυξημένη ανταγωνιστικότητα μεταξύ των επιχειρήσεων για την απόκτηση ολοένα και μεγαλύτερου μεριδίου αγοράς Την αύξηση τόσο της διαθέσιμης υπολογιστικής ισχύος, όσο και της αποθηκευτικής χωρητικότητας. Ο πυρήνας των στοιχείων πάνω στα οποία στηρίχθηκε η ιδέα της Εξόρυξης Δεδομένων, δημιουργήθηκε μέσα από ερευνητικές διαδικασίες πολλών ετών σε τομείς όπως η στατιστική, η τεχνητή νοημοσύνη και η μηχανική μάθηση. Στις μέρες μας, η ωρίμανση αυτών των επιστημονικών πεδίων σε συνδυασμό με την τεχνολογική ανάπτυξη, οδηγεί στη δημιουργία αποτελεσματικότερων και ουσιαστικότερων Συστημάτων Διαχείρισης Δεδομένων. Εικόνα 1.2: Διαχρονική εξέλιξη της επιστήμης της Εξόρυξης Δεδομένων 3

11 Το πρόβλημα είναι κάθε άλλο παρά καινούργιο, ωστόσο σήμερα η επιτυχία στην ανάπτυξη και την αποδοχή του επιστημονικού πεδίου οφείλεται στη σύγκλιση τριών στοιχείων: 1. Στην αυξανόμενη υπολογιστική ισχύ, 2. Στη βελτιωμένη συλλογή και διαχείριση δεδομένων, 3. Στις ανεπτυγμένες στατιστικές μεθόδους και αλγορίθμους μηχανικής μάθησης. Με βάση τα παραπάνω, διευκολύνεται η κατηγοριοποίηση και η ευελιξία στη συλλογή δεδομένων ηλεκτρονικής μορφής, η αυτοματοποιημένη αναζήτηση γνώσης και η δυνατότητα εκροής ισχυρών προτύπων μέσα από αξιόπιστες προβλέψεις. ( Ωστόσο, έχει ενδιαφέρον να σκεφτούμε τα διαφορετικά προβλήματα εξόρυξης γνώσης από δεδομένα και πως αυτά μπορούν να ειδωθούν από διαφορετικές σκοπιές ανάλογα με την οπτική γωνία και το επιστημονικό υπόβαθρο του ερευνητή ή του σχεδιαστή. Συχνά, λόγω διαφορετικού επιστημονικού υπόβαθρου, μπορούμε να βρούμε τα ίδια προβλήματα(ίσως ακόμα και τις ίδιες λύσεις) να περιγράφονται με διαφορετικό τρόπο. Υπάρχουν τουλάχιστον δυο θέματα που χαρακτηρίζουν μια προσέγγιση εξέτασης των εννοιών της εξόρυξης γνώσης από τη σκοπιά των βάσεων δεδομένων: η αποτελεσματικότητα και η κλιμάκωση. Όλες οι λύσεις των προβλημάτων πρέπει να είναι ικανές να εφαρμόζονται στις βάσεις δεδομένων του πραγματικού κόσμου. Όσον αφορά στην αποτελεσματικότητα, ενδιαφερόμαστε για τους αλγόριθμους και τις δομές δεδομένων που χρησιμοποιούνται. Πολλοί αλγόριθμοι εξόρυξης γνώσης που έχουν προταθεί μπορούν να δουλέψουν καλά σε μια στατική βάση δεδομένων, αλλά είναι ιδιαίτερα αναποτελεσματικοί όταν γίνονται αλλαγές στη βάση δεδομένων. Αυτό που έχει μεγαλύτερη σημασία είναι το πώς αποδίδουν οι αλγόριθμοι σε πολύ μεγάλες βάσεις δεδομένων παρά για το πώς λειτουργούν σε απλοϊκά προβλήματα. (Dunhum, 2004) 1.3 Πεδίο εφαρμογής τεχνικών Εξόρυξης Δεδομένων Οι τεχνικές Εξόρυξης Δεδομένων καλύπτουν ένα ευρύ πεδίο εφαρμογών, τόσο σε επιχειρησιακό όσο και σε ακαδημαϊκό επίπεδο. Η μεθοδολογία δείχνει να 4

12 είναι κατάλληλη και να υιοθετείται από επιχειρήσεις που συντηρούν μεγάλες βάσεις δεδομένων, με σκοπό να βελτιώσουν και να μπορέσουν να διαχειριστούν στοχευμένα τη σχέση τους με τους πελάτες. Δεδομένης λοιπόν της ύπαρξης βάσεων δεδομένων ικανού μεγέθους και ποιότητας, οι τεχνικές Εξόρυξης Δεδομένων προσδίδουν νέες σημαντικές επιχειρησιακές δυνατότητες. Πρακτικά, οι τεχνικές εξόρυξης γνώσης έχουν υιοθετηθεί με επιτυχία για τα παρακάτω επιχειρησιακά ζητούμενα: Απευθείας Μάρκετινγκ μέσω Ηλεκτρονικού Ταχυδρομείου (Direct Mail Marketing), μέθοδος που δίνει τη δυνατότητα άμεσης επικοινωνίας, στοχευμένης και προσωποποιημένης προσέγγισης του πελάτη. Προσωποποιημένη παρουσίαση δικτυακών τόπων (Website Personalization) και προσαρμοσμένη παροχή υπηρεσιών διαδικτύου, με βάση τις προτιμήσεις του χρήστη. Ανάλυση του «καλαθιού αγοράς» (Market Basket Analysis), με σκοπό την αναζήτηση και εξεύρεση αλληλοεξαρτώμενων σχέσεων μεταξύ ενεργειών των καταναλωτών. Ανίχνευση απάτης στη χρήση πιστωτικών καρτών (Credit Card Fraud Detection). Βιοπληροφορική (Bioinformatics), με σκοπό την αναζήτηση και διάγνωση κρίσιμων προβλημάτων σε επίπεδο γενετικού υλικού. Πρόβλεψη εκτάκτων καταστάσεων (Prediction of Emergency), όπως μόλυνση της ατμόσφαιρας, σεισμοί και άλλων έκτακτων συνθηκών, μέσω της γνώσης και των αλληλεξαρτήσεων που προσφέρουν δεδομένα και μετρήσεις του παρελθόντος. ( ΠΑΡΑΔΕΙΓΜΑ 1.1 Οι εταιρείες πιστωτικών καρτών πρέπει να καθορίζουν, εάν θα εγκρίνουν αγορές μέσω πιστωτικών καρτών. Ας υποθέσουμε ότι με βάση το αγοραστικό ιστορικό ενός πελάτη, κάθε αγορά τοποθετείται σε μια από τις τέσσερις κατηγορίες: 1. Να εγκριθεί 2. Να ζητηθούν επιπλέον στοιχεία ταυτότητας πριν από την έγκριση 3. Να μην εγκριθεί και 5

13 4. Να μην εγκριθεί και να ενημερωθεί η αστυνομία. Οι λειτουργίες της εξόρυξης γνώσης από δεδομένα εξυπηρετούν δυο σκοπούς. Κατά πρώτον, τα δεδομένα του ιστορικού των πελατών πρέπει να εξεταστούν για να καθοριστεί πως ταιριάζουν στις τέσσερις κατηγορίες. Κατά δεύτερον, το πρόβλημα είναι πως θα εφαρμοστεί αυτό το μοντέλο σε κάθε μία από τις νέες αγορές. Εάν και μπορεί να θεωρηθεί ότι το δεύτερο μέρος είναι πραγματικά μια απλή ερώτηση Βάσης Δεδομένων, το πρώτο μέρος δεν μπορεί να θεωρηθεί σαν τέτοια. (Dunhum, 2004) Η εξόρυξη γνώσης από δεδομένα περιλαμβάνει πολλούς διαφορετικούς αλγόριθμους για να εκπληρωθούν διαφορετικές εργασίες. Όλοι αυτοί οι αλγόριθμοι επιχειρούν να ταιριάξουν ένα μοντέλο στα δεδομένα. Οι αλγόριθμοι εξετάζουν τα δεδομένα και καθορίζουν ένα μοντέλο που να είναι το πλησιέστερο στα χαρακτηριστικά των δεδομένων που εξετάζονται. Οι αλγόριθμοι εξόρυξης γνώσης μπορεί να θεωρηθεί ότι αποτελούνται από τρία μέρη: i. Μοντέλο: ο σκοπός του αλγόριθμου είναι να ταιριάζει το μοντέλο στα δεδομένα. ii. iii. Προτίμηση: πρέπει να χρησιμοποιούνται κάποια κριτήρια για να ταιριάξει ένα μοντέλο έναντι ενός άλλου. Αναζήτηση: όλοι οι αλγόριθμοι απαιτούν μια τεχνική για να κάνουν αναζήτηση στα δεδομένα. Στο παράδειγμα 1.1 τα δεδομένα μοντελοποιούνται με το διαχωρισμό τους σε τέσσερις κατηγορίες. Η αναζήτηση προϋποθέτει την εξέταση των δεδομένων που είναι σχετικά με προηγούμενες αγορές μέσω πιστωτικής κάρτας και των αποτελεσμάτων της εξέτασης, για να καθορίσει τα κριτήρια που πρέπει να χρησιμοποιηθούν, ώστε να οριστεί η δομή της κατηγορίας. Προτίμηση δίνεται στα κριτήρια εκείνα που φαίνεται να ταιριάζουν καλύτερα στα δεδομένα. Για παράδειγμα, πιθανώς θα θέλαμε να εγκρίνουμε μια αγορά με πιστωτική κάρτα μικρού χρηματικού ποσού, όταν η πιστωτική κάρτα ανήκει σε έναν τακτικό πελάτη. Αντιστρόφως, δε θα θέλαμε να εγκρίνουμε τη χρήση μιας πιστωτικής κάρτας για οποιαδήποτε αγορά σε περίπτωση που η κάρτα φέρεται ως κλεμμένη. Η διαδικασία αναζήτησης απαιτεί να 6

14 είναι κατάλληλα ορισμένα τα κριτήρια που χρειάζονται, για να ταιριάξουν τα δεδομένα στις κατηγορίες. (Dunhum, 2004) 1.4 Παράμετροι και εργαλεία Εξόρυξης Δεδομένων Η εξόρυξη δεδομένων διεξάγεται επί δεδομένων που παρουσιάζονται σε μορφή ποσοτική, κειμενική ή μορφή πολυμέσων. Οι εφαρμογές της εξόρυξης δεδομένων χρησιμοποιούν διάφορες παραμέτρους για να εξετάσουν τα δεδομένα. Αυτές περιλαμβάνουν τη διασύνδεση (association: σχήματα σύμφωνα με τα οποία ένα συμβάν διασυνδέεται με άλλο συμβάν, όπως η αγορά στυλογράφου και η αγορά χαρτιού), η αλληλουχία ή ανάλυση οδού (sequence or path analysis: σχήματα όπου το ένα συμβάν οδηγεί σε άλλο συμβάν, όπως η γέννηση ενός βρέφους και η αγορά σπαργάνων), η ταξινόμηση (classification: αναγνώριση νέων σχημάτων, όπως οι συμπτώσεις μεταξύ αγορών κολλητικής ταινίας σωληνώσεων και πλαστικών φύλλων), η συσταδοποίηση (clustering: η ανεύρεση και οπτική καταγραφή ομάδων προηγουμένως αγνώστων στοιχείων, όπως η γεωγραφική θέση και οι προτιμήσεις συγκεκριμένης μάρκας προϊόντων) και η πρόβλεψη (forecasting: η ανακάλυψη σχημάτων από τα οποία είναι δυνατόν να γίνουν λογικές προβλέψεις σχετικά με μελλοντικές δραστηριότητες, όπως π.χ. ότι οι άνθρωποι που γίνονται μέλη αθλητικών σωματείων μπορεί να ασχοληθούν με τη σωματική άσκηση). ( Τα εργαλεία εξόρυξης δεδομένων αναγνωρίζουν εντός των δεδομένων τάσεις και κατευθύνσεις που ξεπερνούν την απλή ανάλυση. Με τη χρήση περίπλοκων αλγορίθμων οι χρήστες έχουν τη δυνατότητα να αναγνωρίζουν τα χαρακτηριστικάκλειδιά των επιχειρηματικών διαδικασιών και να στοχοθετούν τις αναδυόμενες ευκαιρίες. Οι αναλύσεις που προσφέρονται από την εξόρυξη δεδομένων πάνε πέρα από τις αναλύσεις προηγούμενων συμβάντων (στατιστική ανάλυση). Τα εργαλεία εξόρυξης δεδομένων είναι δυνατόν να απαντήσουν σε επιχειρηματικές ερωτήσεις, πράγμα που, παραδοσιακά, ήταν τόσο χρονοβόρο ώστε να μην είναι δυνατόν να απαντηθούν με την αναζήτηση κρυμμένων σχημάτων σε βάσεις δεδομένων και την ανεύρεση προβλεπτικών πληροφοριών που μπορεί να διέφυγαν της προσοχής των ειδικών. Όταν τα εργαλεία εξόρυξης δεδομένων εφαρμόζονται σε συστήματα παράλληλης επεξεργασίας υψηλής απόδοσης, είναι σε θέση να αναλύσουν τεράστιες 7

15 βάσεις δεδομένων μέσα σε λίγα λεπτά. Η ταχύτερη επεξεργασία δίνει στους χρήστες τη δυνατότητα να πειραματιστούν αυτομάτως με περισσότερα πρότυπα, ώστε να κατανοήσουν σύνθετα δεδομένα. Η υψηλή ταχύτητα καθιστά πρακτική την ανάλυση τεράστιων όγκων δεδομένων από τους χρήστες και, με τη σειρά τους, οι μεγαλύτερες βάσεις δεδομένων οδηγούν σε βελτιωμένες προβλέψεις. ( Η εξόρυξη δεδομένων αποτελεί εργαλείο και όχι μαγική, γυάλινη σφαίρα. Αναλύει τη βάση δεδομένων και φωτίζει ενδιαφέροντα σχήματα. Τα κύρια κλειδιά της επιτυχίας στην εξόρυξη δεδομένων είναι η ακριβής διατύπωση του προβλήματος που προσπαθούμε να λύσουμε, η χρήση των σωστών δεδομένων για να λύσουμε το πρόβλημα και η κατανόηση της εμπλεκόμενης επιχειρηματικής διαδικασίας. Επιπλέον, τα σχήματα που αποκαλύπτονται μέσω της εξόρυξης δεδομένων πρέπει να επαληθευθούν στον πραγματικό κόσμο. ( 1.5 Παράγοντες επιτυχίας της Εξόρυξης Δεδομένων Οι παράγοντες επιτυχίας στην εξόρυξη δεδομένων είναι δυο: Ο πρώτος είναι η ακριβής διατύπωση του προβλήματος που προσπαθούμε να λύσουμε. Μια επικεντρωμένη πρόταση έχει συνήθως τα καλύτερα αποτελέσματα. Ο δεύτερος παράγοντας-κλειδί είναι τα ορθά δεδομένα. Αφού επιλέξουμε τα δεδομένα που έχουμε στη διάθεσή μας ή, ίσως, αγοράσουμε εξωτερικά δεδομένα, μπορεί να χρειαστεί να τα μετασχηματίσουμε και να τα συνδυάσουμε με σημαντικούς τρόπους. Η εξόρυξη δεδομένων δεν παρέχει αυτομάτως λύσεις χωρίς καθοδήγηση. Εκτός αυτού, αν και ένα καλό εργαλείο εξόρυξης δεδομένων μας προστατεύει από περίπλοκες στατιστικές τεχνικές, είναι απαραίτητο να κατανοούμε τον τρόπο λειτουργίας των εργαλείων που επιλέγουμε και των αλγορίθμων επί των οποίων βασίζονται. Όπως και με όλες τις τεχνικές διαχείρισης γνώσης, η χρήση τόσο των ορθών δεδομένων (ρητή γνώση) όσο και η καλή τεχνογνωσία που αφορά την επιχειρηματική λειτουργία (άρρητη γνώση) έχουν μεγάλη σημασία. Μεγάλος είναι ο αριθμός εταιρειών που έχουν αναπτύξει επιτυχείς εφαρμογές εξόρυξης δεδομένων. Ενώ οι πρώτοι που υιοθέτησαν την τεχνολογία αυτή τείνουν να ανήκουν σε βιομηχανίες πληροφοριών, όπως οι χρηματοοικονομικές υπηρεσίες και το μάρκετινγκ άμεσης ταχυδρόμησης, η τεχνολογία είναι εφαρμόσιμη σε οποιαδήποτε 8

16 εταιρεία αναζητά να χρησιμοποιήσει αποδοτικά μια μεγάλη αποθήκη δεδομένων ώστε να διαχειριστεί με καλύτερο τρόπο τις πελατειακές της σχέσεις. ( 1.6 Το μέλλον Σήμερα, η εξόρυξη γνώσης από δεδομένα είναι κάτι παραπάνω από ένα σύνολο από εργαλεία τα οποία μπορούν να χρησιμοποιηθούν για να ανακαλύψουν κρυμμένες πληροφορίες από τις βάσεις δεδομένων. Παρά την ύπαρξη πολλών εργαλείων που βοηθούν σε αυτή τη διαδικασία, δεν υπάρχει ένα μοντέλο ή μία προσέγγιση που να τα περιλαμβάνει όλα. Σύντομα στα επόμενα χρόνια, θα υπάρξουν όχι μόνο περισσότεροι αλγόριθμοι με καλύτερες διεπαφές, αλλά θα γίνουν και βήματα για την ανάπτυξη ενός μοντέλου εξόρυξης γνώσης από δεδομένα που θα τα περιέχει όλα. Αν και δε θα μοιάζει με το σχεσιακό μοντέλο, πιθανότατα θα περιέχει παρόμοια στοιχεία: αλγόριθμους, μοντέλο δεδομένων και μέτρα αξιολόγησης. Τα σημερινά εργαλεία της εξόρυξης γνώσης από δεδομένα απαιτούν υψηλή ανθρώπινη αλληλεπίδραση όχι μόνο για να οριστεί η απαίτηση αλλά επίσης και για να ερμηνευτούν τα αποτελέσματα. Καθώς τα εργαλεία γίνονται καλύτερα και πιο ολοκληρωμένα, αυτή η εκτεταμένη ανθρώπινη αλληλεπίδραση πιθανότατα θα μειωθεί. Οι εφαρμογές της εξόρυξης γνώσης από δεδομένα είναι διαφορετικών ειδών, με αποτέλεσμα να είναι επιθυμητή η δημιουργία ενός ολοκληρωμένου μοντέλου εξόρυξης γνώσης. Σημαντική ανάπτυξη θα ήταν η δημιουργία μιας εξειδικευμένης «γλώσσας ερωτήσεων» η οποία θα περιλαμβάνει τις παραδοσιακές SQL συναρτήσεις όπως επίσης και πιο πολύπλοκες ερωτήσεις σαν και αυτές που υπάρχουν στις εφαρμογές άμεσης αναλυτικής επεξεργασίας (Online Analytical Processing - OLAP) και της εξόρυξης γνώσης από δεδομένα. (Dunhum, 2004) 9

17 Βιβλιογραφία 1. Witten, Ian H. and Eibe Frank (2005). Data Mining. Practical Machine Learning Tools and Techniques. Elsevier Inc. USA 2. Dunham, Margaret H. (2004). Data Mining. Εισαγωγικά και Προηγμένα Θέματα Εξόρυξης Γνώσης Από Δεδομένα. Εκδόσεις Νέων Τεχνολογιών. Αθήνα 3. Ρήγα Μαρίνα (2008). Διπλωματική Εργασία. Ανάπτυξη και Αξιολόγηση Μοντέλων Εξόρυξης Δεδομένων Για Την Πρόβλεψη Της Ποιότητας Της Ατμόσφαιρας Στην Αττική. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης. Θεσσαλονίκη Internet

18 ΚΕΦΑΛΑΙΟ 2: ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ Η Εξόρυξη γνώσης από δεδομένα χωρίζεται στα Προβλεπτικά μοντέλα και τα Περιγραφικά μοντέλα τα οποία περιέχουν υποκατηγορίες (εικόνα 2.1). Εικόνα 2.1: Μοντέλα και εργασίες στην εξόρυξη γνώσης από δεδομένα Ένα προβλεπτικό μοντέλο (predictive model) κάνει μια πρόβλεψη για τις τιμές των δεδομένων, χρησιμοποιώντας γνωστά αποτελέσματα που έχει βρει από άλλα δεδομένα. Η μοντελοποίηση πρόβλεψης μπορεί να γίνει με βάση τη χρήση ιστορικών δεδομένων. Πχ. Η χρήση μιας πιστωτικής κάρτας μπορεί να μη γίνει δεκτή, όχι λόγω του πιστωτικού ιστορικού του πελάτη αλλά λόγω του ότι η τωρινή αγορά είναι σχετική με προηγούμενες αγορές οι οποίες διαδοχικά βρεθήκαν να έγιναν με κλεμμένες κάρτες. Ένα περιγραφικό μοντέλο (descriptive model) αναγνωρίζει πρότυπα ή συσχετίσεις στα δεδομένα. Αντίθετα από το προβλεπτικό, το περιγραφικό μοντέλο λειτούργει σαν ένα μέσο που ερευνά τις ιδιότητες των δεδομένων που εξέρχονται, όχι να προβλέπει νέες ιδιότητες. Η συσταδοποίηση, η παρουσίαση συνόψεων, οι κανόνες συσχετίσεων και η ανακάλυψη ακολουθιών θεωρούνται συνήθως σας περιγραφικές εργασίες από τη φύση τους.(dunham,2004) 2.1 Βασικές Εργασίες εξόρυξης γνώσης από δεδομένα Στις επόμενες παραγράφους αναφέρονται εν συντομία μερικές από τις λειτουργιές της εξόρυξης γνώσης. Ο χρήστης ακολουθεί τα βασικά σημεία των 11

19 εργασιών, βέβαια αυτή η καταγραφή δεν είναι πλήρης απλά προσπαθεί να είναι αρκετά επεξηγηματική. Αυτές οι μεμονωμένες εργασίες μπορούν να συνδυαστούν για να πάρουμε πιο εξειδικευμένες εφαρμογές της εξόρυξης γνώσης από δεδομένα Κατηγοριοποίηση Κατηγοριοποίηση δεδομένων ονομάζεται η διαδικασία υπαγωγής των εγγραφών μιας βάσης δεδομένων σε ένα πεπερασμένο και προκαθορισμένο σύνολο κατηγοριών. Στην ορολογία της εξόρυξης δεδομένων, η κατηγορία αναφέρεται ως κλάση (class). Κάθε εγγραφή ανήκει συνήθως σε μια μόνο κλάση και αποτελείτε από δύο μέρη: Τις ιδιότητες εγγραφής, γνωστές και ως γνωρίσματα πρόβλεψης (predictor attributes) και την κλάση εγγραφής. Η διαδικασία κατηγοριοποίησης λαμβάνει ως είσοδο ένα σύνολο δεδομένων, εκ των προτέρων κατηγοριοποιημένο. Αυτό σημαίνει ότι οι τιμές των κλάσεων των εγγράφων του είναι γνωστές. Στη συνέχεια εκτελεί έναν αλγόριθμο κατηγοριοποίησης (classification algorithm) για την κατασκευή του λεγόμενου μοντέλου πρόβλεψης (prediction model) ή μοντέλου κατηγοριοποίησης (classification model). (Ψαρουδάκης, 2008) Παλινδρόμηση Η παλινδρόμηση (regression) χρησιμοποιείται για να απεικονιστεί ένα στοιχειώδες δεδομένο σε μια πραγματική μεταβλητή πρόβλεψης. Η παλινδρόμηση περιλαμβάνει την εκμάθηση της συνάρτησης που κάνει αυτή την απεικόνιση. Η παλινδρόμηση προϋποθέτει ότι τα σχετικά δεδομένα ταιριάζουν με μερικά γνωστά είδη συνάρτησης (π.χ. γραμμική, λογαριθμική κλπ.) και μετά καθορίζει την καλύτερη συνάρτηση αυτού του είδους που μοντελοποιεί τα δεδομένα που έχουν δοθεί. Ένα είδος ανάλυσης σφάλματος χρησιμοποιείται για να καθορίσει ποια συνάρτηση είναι «η καλύτερη». (Στύλιος, 2006) Ανάλυση Χρονοσειρών Με την ανάλυση χρονολογικών σειρών ή χρονοσειρών (time series analysis), μελετάται η τιμή ενός γνωρίσματος καθώς μεταβάλλεται στο χρόνο. Οι τιμές 12

20 συνήθως λαμβάνονται σε ίσα χρονικά διαστήματα (ημερήσια, εβδομαδιαία, ωριαία, κοκ.). Για να παρασταθούν οπτικά οι χρονοσειρές χρησιμοποιείται ένα διάγραμμα χρονοσειρών. Υπάρχουν τρεις βασικές λειτουργιές που πραγματοποιούνται στην ανάλυση χρονοσειρών. Στη μια περίπτωση, χρησιμοποιούνται μονάδες μέτρησης απόστασης για να καθορίσουν την ομοιότητα ανάμεσα σε διαφορετικές χρονοσειρές. Στη δεύτερη περίπτωση, εξετάζεται η δομή της χρονοσειράς για να καθορίσει (και ίσως κατηγοριοποιήσει) τη συμπεριφορά της. Μια τρίτη εφαρμογή θα μπορούσε να είναι η χρήση διαγραμμάτων χρονοσειρών για την πρόβλεψη μελλοντικών τιμών. (Στύλιος, 2006) Πρόβλεψη Πολλές από τις πρακτικές εφαρμογές εξόρυξης γνώσης μπορούν να θεωρηθούν σαν πρόβλεψη μελλοντικών καταστάσεων με γνώση προηγούμενων και των σημερινών δεδομένων. Η πρόβλεψη (prediction) μπορεί να θεωρηθεί σαν ένα είδος κατηγοριοποίησης. Η διαφορά είναι ότι ως πρόβλεψη θεωρείται περισσότερο το να δίνεται τιμή σε μια μελλοντική κατάσταση παρά σε μια τρέχουσα. Εδώ αναφέρεται ένα είδος εφαρμογής παρά μια προσέγγιση μοντελοποίησης. Οι εφαρμογές πρόβλεψης περιλαμβάνουν πρόγνωση πλημμύρων, αναγνώριση ομιλίας, μηχανική μάθηση και αναγνώριση προτύπου. (Στύλιος, 2006) Συσταδοποίηση Η Συσταδοποίηση (clustering) είναι παρόμοια με την κατηγοριοποίηση εκτός από το ότι οι συστάδες ομάδες δεδομένων δεν είναι προκαθορισμένες αλλά ορίζονται κυρίως από τα ίδια τα δεδομένα. Η Συσταδοποίηση αναφέρεται εναλλακτικά και σαν μη εποπτευόμενη μάθηση ή τμηματοποίηση. Μπορεί να θεωρηθεί σαν μια διαμέριση ή τμηματοποίηση των δεδομένων σε ομάδες που μπορεί να είναι ή να μην είναι διακριτές μεταξύ τους. Η Συσταδοποίηση συνήθως επιτυγχάνεται με τον καθορισμό της ομοιότητας, ως προς προκαθορισμένα γνωρίσματα ανάμεσα στα δεδομένα. Τα πιο σχετικά δεδομένα ομαδοποιούνται στις ίδιες ομάδες. Αν οι ομάδες δεν είναι προκαθορισμένες 13

21 χρειάζεται ένας ειδικός του πεδίου για να ερμηνεύσει τη σημασία των συστάδων που δημιουργούνται. Μια ειδική κατηγορία συσταδοποίησης ονομάζεται κατάτμηση (segmentation). Με την κατάτμηση, μια βάση δεδομένων χωρίζεται σε διακριτές ομάδες παρόμοιων εγγράφων που ονομάζονται τμήματα (segments). Η κατάτμηση θεωρείται σαν ένας ειδικός τύπος συσταδοποίησης που εφαρμόζεται στην ίδια βάση δεδομένων. (Στύλιος, 2006) Παρουσίαση συνόψεων Η παρουσίαση συνόψεων (summarization) απεικονίζει τα δεδομένα σε υποσύνολα τους με συνοδευτικές απλές περιγραφές. Ονομάζεται επίσης και χαρακτηρισμός (characterization) ή γενίκευση (generalization). Εξάγει ή παράγει αντιπροσωπευτικές πληροφορίες σχετικά με τις βάσεις δεδομένων. Αυτό γίνεται ανακτώντας τμήματα από δεδομένα. Εναλλακτικά, μπορούν να εξαχθούν από τα δεδομένα συνοπτικές πληροφορίες, γενικότερα η παρουσίαση συνόψεων χαρακτηρίζει τα περιεχόμενα της βάσης δεδομένων. (Στύλιος, 2006) Κανόνες Συσχέτισης Η ανάλυση συνδέσμων (link analysis) ή συσχέτιση (association), αναφέρεται στη διαδικασία εκείνη της εξόρυξης γνώσης που αποκαλύπτει συσχετίσεις μεταξύ των δεδομένων. Ένας κανόνας συσχέτισης είναι ένα μοντέλο που αναγνωρίζει ειδικούς τύπους μεταξύ δεδομένων. Αυτές οι συσχετίσεις συχνά χρησιμοποιούνται στις λιανικές πωλήσεις για να αναγνωριστούν προϊόντα που συχνά αγοράζονται μαζί. Η χρήση των κανόνων συσχετίσεων για τις όποιες αποφάσεις πρέπει να γίνεται πολύ προσεκτικά επειδή υπάρχει ο κίνδυνος αυτές οι συσχετίσεις να είναι τυχαίες. Οι συσχετίσεις αυτές μπορεί να μην αντιπροσωπεύουν καμία έμφυτη σχέση ανάμεσα στα δεδομένα. Ούτε υπάρχει καμία εγγύηση ότι αυτή η συσχέτιση θα εμφανίζεται στο μέλλον. Ωστόσο, οι κανόνες συσχετίσεων μπορούν να χρησιμοποιηθούν για να βοηθήσουν τη διοίκηση των καταστημάτων λιανικής 14

22 πώλησης στην αποτελεσματική διαφήμιση, στο μάρκετινγκ και στον έλεγχο της αποθήκης. (Στύλιος, 2006) Ανακάλυψη Ακολουθιών Η ακολουθιακή ανάλυση (sequential analysis) ή αλλιώς ανακάλυψη ακολουθιών (sequence discovery) χρησιμοποιείται για να καθοριστούν σειριακά πρότυπα στα δεδομένα. Αυτά τα πρότυπα βασίζονται σε μια χρονική ακολουθία ενεργειών. Αυτά τα πρότυπα είναι παρόμοια με τις συσχετίσεις στο ότι συσχετίζονται τα δεδομένα που εξάγονται, με τη διαφορά ότι η συσχέτισή τους αυτή βασίζεται στο χρόνο. Αντίθετα με την ανάλυση καλαθιού αγορών, που προϋποθέτει ο χρήστης να γνωρίζει ποια προϊόντα αγοραστήκαν ταυτόχρονα, στην ανακάλυψη ακολουθιών τα προϊόντα αγοράζονται με κάποια σειρά κατά τη διάρκεια μιας περιόδου. (Στύλιος, 2006) 2.2 Η Εξόρυξη ως στάδιο της ανακάλυψης γνώσης σε βάσεις δεδομένων Οι όροι ανακάλυψη γνώσης σε βάσεις δεδομένων (Κnowledge Discovery in Databases KDD) και εξόρυξης γνώσης από δεδομένα (data mining) συχνά χρησιμοποιούνται εναλλακτικά για την ίδια έννοια. Στην πραγματικότητα, έχουν δοθεί πολλές διαφορετικές ονομασίες σε αυτή τη διαδικασία ανακάλυψης χρήσιμων προτύπων από τα δεδομένα: εξαγωγή γνώσης, ανακάλυψη πληροφοριών, εξερευνητική ανάλυση δεδομένων, συγκομιδή πληροφοριών, μη επιβλεπόμενη αναγνώριση προτύπου. Στα τελευταία χρόνια, ο όρος KDD έχει χρησιμοποιηθεί για να εκφράσει μια διαδικασία που αποτελείται από πολλά βήματα, ένα από τα οποία είναι η εξόρυξη γνώσης από δεδομένα. (Dunhum, 2004) Οι ορισμοί του KDD και του Data Mining είναι αντίστοιχα οι: a) Η ανακάλυψη γνώσης σε βάσεις δεδομένων (KDD) είναι η διαδικασία εύρεσης χρήσιμων πληροφοριών και προτύπων στα δεδομένα. (Fayyad et al ) b) Η εξόρυξη γνώσης από δεδομένα είναι η χρήση αλγορίθμων για την εξαγωγή των πληροφοριών και προτύπων που παράγονται με τη διαδικασία KDD. 15

23 ( Fayyad et al ) Η KDD είναι μια διαδικασία που περιλαμβάνει πολλά διαφορετικά βήματα. Η είσοδος σε αυτή τη διαδικασία είναι τα δεδομένα, και οι χρήσιμες πληροφορίες που επιθυμούν οι χρήστες είναι η έξοδος. Όμως, ο αντικειμενικός σκοπός δεν είναι από την αρχή ξεκάθαρος. Η διαδικασία από μόνη της είναι διαδραστική και συνήθως απαιτείται πολύς χρόνος για την ολοκλήρωσή της. Για να διασφαλιστεί η χρησιμότητα και η ακρίβεια των αποτελεσμάτων αυτής της διαδικασίας, συνήθως χρειάζεται η συνεργασία ειδικών του πεδίου εφαρμογής με ειδικούς της διαδικασίας KDD καθ' όλη τη διάρκεια της διαδικασίας αυτής. Η KDD διαδικασία αποτελείται από τα επόμενα 5 βήματα (εικόνα 2.2) : 1. Επιλογή: Τα δεδομένα που χρειάζονται για τη διαδικασία της ανακάλυψης γνώσης μπορούν να προέλθουν από πολλές διαφορετικές και ετερογενείς πηγές δεδομένων. Σε αυτό το πρώτο βήμα συλλέγονται δεδομένα από διάφορες βάσεις δεδομένων, αρχεία και μη ηλεκτρονικές πηγές. 2. Προεπεξεργασία: Τα δεδομένα που πρόκειται να χρησιμοποιηθούν κατά τη διαδικασία, ίσως να είναι λανθασμένα ή ελλιπή. Ίσως υπάρχουν ανώμαλα δεδομένα από πολλαπλές πηγές που περιλαμβάνουν διαφορετικούς τύπους δεδομένων και διαφορετικές μονάδες μέτρησης. Σε αυτό το βήμα μπορούν να πραγματοποιηθούν πολλές και διαφορετικές δραστηριότητες. Τα λανθασμένα δεδομένα μπορεί να διορθωθούν ή να αφαιρεθούν, ενώ τα ελλιπή δεδομένα πρέπει να συλλεχθούν ή να εκτιμηθούν συχνά χρησιμοποιώντας εργαλεία εξόρυξης γνώσης από δεδομένα. 3. Μετασχηματισμός: Τα δεδομένα που προέρχονται από διαφορετικές πηγές χρειάζεται να μετατραπούν σε ένα κοινό σχήμα για την περαιτέρω επεξεργασία τους. Μερικά δεδομένα ίσως απαιτείται να κωδικοποιηθούν ή να μετασχηματιστούν σε πιο χρήσιμα σχήματα. Μπορεί να μειωθούν τα δεδομένα για να ελαττωθεί ο αριθμός των πιθανών τιμών των δεδομένων που θα ληφθούν υπόψη. 4. Εξόρυξη γνώσης από δεδομένα: Με βάση το είδος της εξόρυξης που είναι να εκτελεστεί, σε αυτό το βήμα εφαρμόζονται αλγόριθμοι στα τροποποιημένα δεδομένα για να προκύψουν τα επιθυμητά αποτελέσματα. 5. Ερμηνεία / Αξιολόγηση : Είναι πολύ σημαντικό το πώς θα παρουσιαστούν στους χρήστες τα αποτελέσματα της εξόρυξης γνώσης, επειδή η χρησιμότητα ή μη των αποτελεσμάτων μπορεί να εξαρτάται ακριβώς από αυτήν την 16

24 παρουσίαση. Σε αυτό το τελευταίο βήμα χρησιμοποιούνται διάφορες στρατηγικές οπτικοποίησης και γραφικές διεπαφές χρήστη (GUI). (Fayyad et al ) Εικόνα 2.2: Η διαδικασία KDD Για να προετοιμαστούν τα δεδομένα για εξόρυξη γνώσης και να παραχθούν αποτελέσματα με περισσότερο νόημα χρησιμοποιούνται τεχνικές μετασχηματισμού. Για να διευκολυνθεί η χρήση αυτών των τεχνικών που απαιτούν ειδικούς τύπους κατανομής δεδομένων μπορεί να τροποποιηθεί η πραγματική κατανομή των δεδομένων. Μπορούν να συνδυαστούν τιμές γνωρισμάτων για να δώσουν νέες τιμές, μειώνοντας έτσι την πολυπλοκότητα των δεδομένων. Ο χρήστης μπορεί να χειριστεί ευκολότερα τις τιμές των γνωρισμάτων διαμερίζοντας τις σε διαστήματα και χρησιμοποιώντας αυτά τα διακριτά διαστήματα τιμών. Μερικές τιμές δεδομένων μπορούν και να αφαιρεθούν. Οι ακραίες τιμές, που εμφανίζονται σπάνια, μπορούν να αφαιρεθούν. Αν εφαρμοστεί μια μεταβλητή στις τιμές μπορούν να τροποποιηθούν τα δεδομένα. Μια συνηθισμένη συνάρτηση μετασχηματισμού είναι η χρήση του λογάριθμου της τιμής παρά της ίδιας της τιμής. Αυτές οι τεχνικές κάνουν τη διαδικασία της εξόρυξης γνώσης από δεδομένα ευκολότερη με τη μείωση των διαστάσεων πλήθους των γνωρισμάτων ή τη μείωση της μεταβλητότητας των τιμών των δεδομένων. Η αφαίρεση των ακραίων τιμών μπορεί πραγματικά να βελτιώσει την ποιότητα των αποτελεσμάτων. Όμως, η τροποποίηση δεδομένων πρέπει να γίνει με προσοχή, όπως με προσοχή πρέπει να γίνουν και όλα τα άλλα βήματα της διαδικασίας KDD. Εάν η τροποποίηση γίνει με λανθασμένο τρόπο τότε θα αλλάξουν ριζικά τα δεδομένα και τα αποτελέσματα από την εξόρυξη γνώσης από δεδομένα θα είναι ανακριβή. (Στύλιος, 2006) 17

25 2.3 Η Ανάπτυξη της Εξόρυξης γνώσης από δεδομένα Η σημερινή εξέλιξη στις λειτουργίες και στα προϊόντα της εξόρυξης γνώσης από δεδομένα είναι αποτέλεσμα πολλών χρόνων επιρροής από πολλούς επιστημονικούς κλάδους, όπως είναι οι βάσεις δεδομένων, η ανάκτηση πληροφοριών, η στατιστική, οι αλγόριθμοι και η μηχανική μάθηση (Εικόνα 2.3). Εικόνα 2.3: Ιστορική άποψη της εξόρυξης γνώσης από δεδομένα Μια άλλη περιοχή της πληροφορικής, που επηρέασε σημαντικά τη διαδικασία KDD είναι η περιοχή των πολυμέσων και των γραφικών. Ένας βασικός στόχος είναι να μπορέσει να δοθεί μια περιγραφή με νόημα στα αποτελέσματα της διαδικασίας KDD. Επειδή προκύπτουν συχνά πολλά διαφορετικά αποτελέσματα, είναι πολύπλοκο πρόβλημα να δοθεί μια τέτοια περιγραφή. Οι τεχνικές οπτικοποίησης συχνά περιλαμβάνουν εξειδικευμένα πολυμέσα και γραφικές παρουσιάσεις. Επιπλέον, οι τεχνικές εξόρυξης γνώσεις από δεδομένα μπορούν να εφαρμοστούν σε εφαρμογές πολυμέσων. Αντίθετα, μια μεγάλη τάση στην περιοχή των βάσεων δεδομένων θέλει να συνδυάζονται τα αποτελέσματα από αυτούς τους, διαφορετικούς κατά τα φαινόμενα, επιστημονικούς κλάδους σε μια ενοποιημένη προσέγγιση με βάση τα δεδομένα ή τους αλγορίθμους. Αν και η εξέλιξη αυτή βρίσκεται σε νηπιακό στάδιο, ο τελικός της στόχος είναι να δημιουργήσει μια σφαιρική εικόνα της περιοχής η οποία θα διευκολύνει την ολοκλήρωση, των διάφορων τύπων των εφαρμογών σε υπάρχοντα πεδία για το χρήστη. Οι εξελίξεις στις περιοχές της Τεχνητής Νοημοσύνης, της Ανάκτησης Πληροφοριών, των Βάσεων Δεδομένων και της Στατιστικής κυριαρχούν στη 18

26 σύγχρονη εικόνα της εξόρυξης γνώσης από δεδομένα. Αυτές οι διαφορετικές επιρροές από το παρελθόν, οι οποίες οδήγησαν στην ανάπτυξη της περιοχής της εξόρυξης γνώσης από δεδομένα, συντέλεσαν στη δημιουργία διαφορετικών απόψεων για το τι είναι στην πραγματικότητα οι λειτουργίες της εξόρυξης γνώσης: Η επαγωγή χρησιμοποιείται για να οδηγηθεί ο χρήστης από μια πολύ εξειδικευμένη γνώση σε πιο γενικές πληροφορίες. Αυτό το είδος της τεχνικής συχνά υπάρχει στις εφαρμογές της τεχνητής νοημοσύνης. Επειδή ο πρωταρχικός αντικειμενικός στόχος της εξόρυξης γνώσης από δεδομένα είναι να περιγράψει μερικά χαρακτηριστικά ενός συνόλου δεδομένων από ένα γενικό μοντέλο, αυτή η προσέγγιση μπορεί να θεωρηθεί σαν ένα είδος συμπίεσης. Εδώ, τα λεπτομερή δεδομένα της βάσης δεδομένων «αφαιρούνται» και συμπιέζονται σε μια μικρότερη περιγραφή των χαρακτηριστικών των δεδομένων που βρίσκονται στο μοντέλο. Η διαδικασία της εξόρυξης γνώσης από δεδομένα μπορεί να θεωρηθεί από μόνη της σαν ένας τύπος διαδικασίας υποβολής ερωτήσεων στη σχετική βάση δεδομένων. Η έρευνα στην εξόρυξη γνώσης από δεδομένα τείνει προς την κατεύθυνση εκείνη όπου αναζητείται ο τρόπος ορισμού μιας ερώτησης εξόρυξης γνώσης και το κατά πόσο μπορεί να αναπτυχθεί μια γλώσσα ερωτήσεων (SQL) που να περιλαμβάνει τόσους πολλούς διαφορετικούς τύπους επερωτήσεων εξόρυξης γνώσης. Η περιγραφή μιας μεγάλης βάσης δεδομένων μπορεί να θεωρηθεί σαν να χρησιμοποιείται προσέγγιση προκειμένου να αποκαλυφθούν κρυμμένες πληροφορίες σχετικές με τα δεδομένα. Όταν υπάρχουν μεγάλες βάσεις δεδομένων, η επίδραση του μεγέθους και η ικανότητα ανάπτυξης ενός αφηρημένου μοντέλου μπορούν να θεωρηθούν σαν ένας τύπος προβλήματος αναζήτησης. (Dunham, 2004) 2.4 Θέματα Εξόρυξης Γνώσης από δεδομένα Υπάρχουν πολλά σημαντικά θέματα αλληλεπίδρασης που σχετίζονται με την εξόρυξη γνώσης από δεδομένα: 1. Ανθρώπινη αλληλεπίδραση: Αφού τα προβλήματα της εξόρυξης γνώσης από δεδομένα συνήθως δεν ορίζονται με ακρίβεια, μπορεί να είναι αναγκαία μια αλληλεπίδραση μεταξύ ειδικών του πεδίου εφαρμογής με τους ειδικούς της 19

27 συγκεκριμένης τεχνικής εξόρυξης γνώσης. Οι δεύτεροι χρησιμοποιούνται προκειμένου να μορφοποιήσουν τις ερωτήσεις και να βοηθήσουν στην ερμηνεία των αποτελεσμάτων. Οι πρώτοι είναι απαραίτητοι για να ταχτοποιήσουν τα δεδομένα εκπαίδευσης και να ορίσουν τα επιθυμητά αποτελέσματα. 2. Υπερπροσαρμογή: Όταν προκύπτει ένα μοντέλο που συσχετίζεται με μια δεδομένη κατάσταση μιας βάσης δεδομένων, είναι επιθυμητό αυτό το μοντέλο να ταιριάζει επίσης και σε μελλοντικές καταστάσεις της βάσης δεδομένων. Η υπερπροσαρμογή (over fitting) εμφανίζεται όταν το μοντέλο δεν ταιριάζει σε μελλοντικές καταστάσεις. Αυτό μπορεί να συμβαίνει εξαιτίας υποθέσεων που γίνονται για τα δεδομένα ή απλά μπορεί να συμβαίνει εξαιτίας του μικρού μεγέθους των δεδομένων εκπαίδευσης. 3. Ακραίες τιμές: Υπάρχουν συχνά πολλές καταχωρίσεις δεδομένων που δεν ταιριάζουν σωστά στο μοντέλο που έχει αναπτυχτεί. Αυτό συμβαίνει συχνά στις πολύ μεγάλες βάσεις δεδομένων. Εάν το μοντέλο που θα δημιουργηθεί περιλαμβάνει αυτές τις ακραίες τιμές (outliers) τότε ίσως να μην συμπεριφέρεται σωστά για τα μη ακραία δεδομένα. 4. Ερμηνεία των αποτελεσμάτων: Με τα σημερινά δεδομένα, τα αποτελέσματα από την εξόρυξη γνώσης πρέπει να ερμηνεύονται από ειδικούς του πεδίου, αλλιώς θα είναι χωρίς νόημα για το μέσο χρήστη. 5. Οπτικοποίηση των αποτελεσμάτων: Η οπτικοποίηση των αποτελεσμάτων των αλγορίθμων εξόρυξης γνώσης είναι χρήσιμοι για να κατανοήσει ο χρήστης ευκολότερα τα αποτελέσματα αυτά. 6. Μεγάλα σύνολα δεδομένων: τα ογκώδη σύνολα δεδομένων δημιουργούν προβλήματα όταν εφαρμόζονται αλγόριθμοι εξόρυξης γνώσης που έχουν σχεδιαστεί για μικρά σύνολα δεδομένων. Πολλές εφαρμογές μοντελοποίησης αυξάνονται εκθετικά στον αριθμό των δεδομένων και γι αυτό τον λόγο οι εφαρμογές αυτές είναι αναποτελεσματικές στα μεγαλύτερα σύνολα δεδομένων. Αποτελεσματικά εργαλεία για να αντιμετωπιστεί το πρόβλημα της κλιμάκωσης είναι η δειγματοληψία και ο παραλληλισμός. 7. Υψηλές διαστάσεις: Το σχήμα μιας συμβατικής βάσης δεδομένων μπορεί να αποτελείται από πολλά διαφορετικά γνωρίσματα. Το πρόβλημα εδώ είναι ότι ίσως δεν χρειάζονται όλα τα γνωρίσματα για να λυθεί ένα συγκεκριμένο 20

28 πρόβλημα εξόρυξης γνώσης. Στην πράξη, αν χρησιμοποιήσουμε κάποια γνωρίσματα μπορεί να εμποδίσουμε τη σωστή ολοκλήρωση μιας εργασίας. Η χρήση άλλων γνωρισμάτων μπορεί απλά να αυξήσει τη συνολική πολυπλοκότητα και να μειώσει την απόδοση ενός αλγορίθμου. Αυτό το πρόβλημα μερικές φορές αναφέρεται σαν η κατάρα των υψηλών διαστάσεων (dimensionality curse), εννοώντας ότι υπάρχουν πολλά γνωρίσματα (διαστάσεις) που εμπλέκονται και είναι δύσκολο να καθοριστεί ποια γνωρίσματα πρέπει να χρησιμοποιηθούν. Μια λύση στο πρόβλημα των υψηλών διαστάσεων είναι να μειωθούν τα γνωρίσματα, κάτι που αναφέρεται ως μείωση των υψηλών διαστάσεων (dimensionality reduction). Όμως, δεν είναι πάντα εύκολο να προσδιοριστούν τα γνωρίσματα που δεν χρειάζονται. 8. Δεδομένα πολυμέσων: Οι περισσότεροι από τους αλγορίθμους που έχουν προταθεί κατά καιρούς στοχεύουν στα παραδοσιακά είδη δεδομένων (αριθμητικά, χαρακτήρες, κείμενο, κλπ). Η χρήση των δεδομένων πολυμέσων, σαν κι αυτά που βρίσκουμε στις γεωγραφικές βάσεις δεδομένων, περιπλέκει ή καθιστά κατάλληλους πολλούς από τους αλγορίθμους αυτούς. 9. Ελλιπή δεδομένα: Κατά τη διάρκεια της φάσης της προεπεξεργασίας στη διαδικασία κεφαλαίου KDD, τα δεδομένα που λείπουν μπορούν να συμπληρωθούν με κατ εκτίμηση τιμές. Αυτή η προσέγγιση, καθώς και άλλες προσεγγίσεις που αντιμετωπίζουν το πρόβλημα των ελλιπών δεδομένων, ενδεχομένως οδηγούν σε λανθασμένα αποτελέσματα κατά την εξόρυξη γνώσης από δεδομένα. 10. Άσχετα δεδομένα: Μερικά γνωρίσματα στη βάση δεδομένων ίσως να μην έχουν ενδιαφέρον όσον αφορά στη συγκεκριμένη εργασία εξόρυξης γνώσης που πραγματοποιείται. 11. Δεδομένα με θόρυβο: Μερικές τιμές των γνωρισμάτων μπορεί να είναι άκυρες ή λανθασμένες. Αυτές οι τιμές συνήθως διορθώνονται πριν λειτουργήσει η εφαρμογή της εξόρυξης γνώσης από δεδομένα. 12. Δεδομένα που αλλάζουν: Οι βάσεις δεδομένων δεν μπορεί να θεωρηθούν ότι είναι στατικές. Όμως, οι περισσότεροι αλγόριθμοι εξόρυξης γνώσης υποθέτουν ότι η βάση δεδομένων είναι στατική. Αυτό απαιτεί ο αλγόριθμος να ξανατρέχει από την αρχή κάθε φορά που αλλάζει η βάση δεδομένων. 21

29 13. Ολοκλήρωση: Η διαδικασία KDD σήμερα δεν αποτελεί μέρος των συνηθισμένων εργασιών επεξεργασίας των δεδομένων. Οι απαιτήσεις της KDD μπορεί να αντιμετωπίζονται σαν ιδιαίτερες, ασυνήθιστες, ή σαν απαιτήσεις της «μιας φόρας». Οι απαιτήσεις αυτές γίνονται άρα αναποτελεσματικές και όχι αρκετά γενικές για να χρησιμοποιούνται σε συνεχή βάση. Ένας επιθυμητός στόχος είναι η ενσωμάτωση των λειτουργιών της εξόρυξης γνώσης σε παραδοσιακά συστήματα διαχείρισης βάσεων δεδομένων. 14. Εφαρμογή: Αποτελεί πρόκληση το να προσδιοριστεί η ενδεικνυόμενη χρήση για μια πληροφορία που προήλθε από τη λειτουργία της εξόρυξης γνώσης. Η αποτελεσματική ερμηνεία των αποτελεσμάτων θεωρείται μερικές φορές, από τα στελέχη μιας επιχείρησης, πιο δύσκολο έργο από το τρέξιμο ενός αλγορίθμου. Επειδή τα δεδομένα είναι πληροφορίες που δεν ήταν γνωστές στο παρελθόν, οι τεχνικές των επιχειρήσεων πρέπει να τροποποιηθούν για να καθορίσουν τον τρόπο με τον οποίο θα χρησιμοποιήσουν τις κρυμμένες πληροφορίες. (Στύλιος 2006) 22

30 Βιβλιογραφία 1. Dunham, Margaret H. (2004). Data Mining. Εισαγωγικά και Προηγμένα Θέματα Εξόρυξης Γνώσης Από Δεδομένα. Εκδόσεις Νέων Τεχνολογιών. Αθήνα 2. Usama Fayyad, Gregory Piatensky-Shapiro, and Padhraid Smyth. (1996) Knowledge discovery and data mining: Towards a unifying framework. Proceedings of the International Conference on Knowledge Discovery and Data Mining. 3. Usama Fayyad, Gregory Piatensky-Shapiro, and Padhraid Smyth.( 1996) The kdd process for extracting useful knowledge from volumes of data. Journal of the ACM. 4. Usama Fayyad, Gregory Piatensky-Shapiro, and Padhraid Smyth. (1996) From data mining to knowledge discovery: An overview. In Usama Fayyad, Gregory Piatensky-Shapiro, and Padhraid Smyth. And Ramasamy Uthurusamy, eds., Advances in Knowledge Discovery and Data Mining. 5. Στύλιος, Γεώργιος (2006). Σημειώσεις μάθημα: Ανάκτηση Πληροφοριών. Τμήμα Εφαρμογών Πληροφορικής στη Διοίκηση και την Οικονομία. Λευκάδα. 6. Ψαρουδάκης, Ιωάννης Ε. (2008). Διπλωματική Εργασία. Ανάπτυξη και Αξιολόγηση Γενετικών Αλγορίθμων Ανακάλυψης Κανόνων για την Κατηγοριοποίηση Δεδομένων. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης. Θεσσαλονίκης 23

31 ΚΕΦΑΛΑΙΟ 3: ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ Στο κεφάλαιο αυτό γίνεται μια εισαγωγή στο ζήτημα της κατηγοριοποίησης (classification), το οποίο εμφανίζεται σε πολλά ερευνητικά πεδία της πληροφορικής. Αρχικά, παρουσιάζονται κάποια εισαγωγικά θέματα γύρω από την έννοια της κατηγοριοποίησης, ενώ στην συνέχεια παρουσιάζονται κάποια από τους γνωστούς αλγόριθμους που χρησιμοποιούνται για την επίλυση τέτοιου είδους προβλημάτων. Τέτοιοι αλγόριθμοι είναι τα Δέντρα Αποφάσεων, η μέθοδος Bayes και τα νευρωνικά δίκτυα, η λογιστική παλινδρόμηση και η μέθοδος των k-κοντινότερων γειτόνων, τα οποία θα αναλυθούν στην συνέχεια του 3 ου κεφαλαίου. 3.1 Κατηγοριοποίηση Η κατηγοριοποίηση (classification) απεικονίζει τα δεδομένα σε προκαθορισμένες ομάδες ή κατηγορίες κλάσεις (classes). Η κατηγοριοποίηση δεδομένων (data classification) αποτελεί μία από τις βασικές εργασίες (tasks) εξόρυξης δεδομένων. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου (μη κατηγοριοποιημένο) το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν αναπαριστάνονται γενικά από τις εγγραφές της βάσης δεδομένων και η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες. Η κατηγοριοποίηση (εικόνα 3.1) είναι μια διαδικασία, η οποία αρχικά χρειάζεται ένα σύνολο δεδομένων εκπαίδευσης (training data set) για να μπορέσει να αναγνωρίσει τα ιδιαίτερα χαρακτηριστικά κάθε κλάσης και στη συνέχεια να κατηγοριοποιήσει τα νέα αντικείμενα με βάση τις τιμές τους στα χαρακτηριστικά αυτά. Τα προβλήματα κατηγοριοποίησης έχουν ως είσοδο ένα σύνολο δεδομένων που περιγράφουν το αντικείμενο και χρησιμοποιώντας κάποια κοινή μορφή αναπαράστασης γνώσης παράγουν ως έξοδο την κατηγορία στην οποία αυτό ανήκει. (Μαντάς, 2010) 24

32 Εικόνα 3.1: Διαδικασία κατηγοριοποίησης Το πρόβλημα της κατηγοριοποίησης διατυπώνεται όπως δείχνεται στον ορισμό: Δεδομένης μίας βάσης δεδομένων D = { t 1, t 2,., t n } πλειάδων (στοιχείων, εγγράφων) και ένα σύνολο από κατηγορίες C = { C 1, C 2,, C n }, το πρόβλημα της κατηγοριοποίησης είναι να ορίσουμε μια απεικόνιση f: D C όπου κάθε t i εκχωρείται σε μια κατηγορία. Μια κατηγορία ή κλάση, C j, περιέχει ακριβώς αυτές τις πλειάδες όπου έχουν απεικονιστεί σε αυτή, δηλαδή C j = { t i \ f (t i ) = C i, I i n και t i D }. Ο ορισμός θεωρεί την κατηγοριοποίηση σαν μια απεικόνιση από την βάση δεδομένων στο σύνολο των κατηγοριών. Οι κατηγορίες είναι προκαθορισμένες δεν είναι επικαλυπτόμενες και διαμερίζουν ολόκληρη την βάση δεδομένων. Κάθε πλειάδα της βάσης δεδομένων εκχωρείται σε ακριβώς μία κατηγορία. Συγκεκριμένα, το πρόβλημα συνήθως πραγματοποιείται σε δύο φάσεις: Αρχικά, ο χρήστης δημιουργεί ένα συγκεκριμένο μοντέλο από την αξιολόγηση των δεδομένων εκπαίδευσης. Αυτό το βήμα έχει σαν είσοδο τα δεδομένα εκπαίδευσης, συμπεριλαμβανομένης της ορισμένης κατηγοριοποίησης για κάθε πλειάδα, και σαν έξοδο ένα ορισμό του μοντέλου που αναπτύχθηκε. Το μοντέλο που δημιουργήθηκε κατηγοριοποιεί τα δεδομένα εκπαίδευσης όσο το δυνατόν με μεγαλύτερη ακρίβεια. Έπειτα, στο δεύτερο βήμα ο χρήστης εφαρμόζει το μοντέλο που αναπτύχθηκε αρχικά κατηγοριοποιώντας τις πλειάδες της υπό εξέταση βάσης δεδομένων. 25

33 Εάν και το δεύτερο βήμα στην πραγματικότητα εκτελεί την κατηγοριοποίηση, η περισσότερη έρευνα έχει γίνει για το αρχικό βήμα. Το δεύτερο βήμα είναι συχνά εύκολο στην υλοποίηση. (Dunham, 2004) 3.2 Απόδοση της κατηγοριοποίησης Υπάρχουν αρκετοί αλγόριθμοι κατηγοριοποίησης. Η ερώτηση που γεννιέται τώρα σχετίζεται με το ποιος είναι ο καλύτερος αλγόριθμος κατηγοριοποίησης; Η επίδοση των αλγορίθμων εξετάζεται με την εκτίμηση της ακρίβειας (accuracy) της κατηγοριοποίησης, δηλαδή την ικανότητα του μοντέλου να προβλέπει την κατηγορία μιας νέας περίπτωσης. Η εκτίμηση της ακρίβειας είναι ένα πολύ σημαντικό ζήτημα στο χώρο της κατηγοριοποίησης αφού κάτι τέτοιο δείχνει το πόσο καλά ανταποκρίνεται ο αλγόριθμος για δεδομένα με τα οποία δεν έχει εκπαιδευτεί. Η εκτίμηση της ακρίβειας είναι επίσης θεμιτή αφού επιτρέπει την σύγκριση των διαφόρων αλγορίθμων κατηγοριοποίησης. Αν και η ακρίβεια είναι το πιο σημαντικό μέτρο αποτίμησης της απόδοσης του αλγορίθμου κατηγοριοποίησης που χρησιμοποιείται, υπάρχουν και άλλα μέτρα σύγκρισης: Ταχύτητα: Κόστος υπολογισμού (συμπεριλαμβανομένου την παραγωγή και τη χρήση του μοντέλου) Rebustness: Σωστή πρόβλεψη με ελλιπή δεδομένα ή δεδομένα με θόρυβο Scalability: Αποδοτική κατασκευή του μοντέλου δοθέντος μεγάλη ποσότητα δεδομένων (μπορεί να εκτιμηθεί μετρώντας τις λειτουργίες I/O που απαιτεί ο αλγόριθμος) Interpretability: Επίπεδο κατανόησης και γνώση που παρέχεται από το μοντέλο. (Μπορεί να εκτιμηθεί μετρώντας το πόσο πολύπλοκο είναι το μοντέλο π.χ. αριθμός κόμβων στα δένδρα απόφασης, αριθμός επιπέδων στα νευρωνικά δίκτυα κ.α.) Όμως το σημαντικότερο μέτρο μέτρησης της απόδοσης, όπως προαναφέρθηκε, είναι η ακρίβεια στη πρόβλεψη της κλάσης. Το μέτρο αυτό είναι το πιο σημαντικό, ωστόσο δε θα πρέπει να υπολογίζεται ανεξάρτητα από τα υπόλοιπα μέτρα. Για παράδειγμα, δεν έχει νόημα να υπάρχει ένας αλγόριθμος κατηγοριοποίησης που δίνει αποτελέσματα με πολύ υψηλή ακρίβεια μετά από πολύ χρόνο. Ίσως να ήταν καλύτερη επιλογή να υπάρχει ένας αλγόριθμος 26

34 κατηγοριοποίησης που να δίνει αποτελέσματα με λίγο χαμηλότερη ακρίβεια από τον καλύτερο (ως προς την ακρίβεια) αλγόριθμο κατηγοριοποίησης αλλά πιο σύντομα. Η ακρίβεια της κατηγοριοποίησης συνήθως υπολογίζεται με τον καθορισμό του ποσοστού των πλειάδων που τοποθετούνται στην σωστή κατηγορία. Υπάρχουν τρεις τρόποι που επιτρέπουν την εκτίμηση της ακρίβειας του αλγορίθμου κατηγοριοποίησης: Μπορεί να χρησιμοποιηθεί ένα σύνολο δεδομένων αρχικά για να εκπαιδευτεί ο αλγόριθμος και στην συνέχεια να χρησιμοποιηθεί το ίδιο σύνολο δεδομένων για να εκτιμηθεί η ακρίβεια του αλγορίθμου. Μια τέτοια επιλογή θα οδηγούσε σε μια πολύ αισιόδοξη εκτίμηση της ακρίβειας αφού ο αλγόριθμος εκπαιδεύεται αλλά και δοκιμάζεται με το ίδιο σύνολο δεδομένων. Άλλος ένας τρόπος εκτίμησης της ακρίβειας ενός αλγορίθμου κατηγοριοποίησης είναι η μέθοδο της κατακράτησης (holdout method). Χρησιμοποιώντας αυτή την μέθοδο, το σύνολο δεδομένων χωρίζεται με τυχαίο τρόπο σε δυο ανεξάρτητα σύνολα δεδομένων. Το πρώτο ονομάζεται σύνολο δεδομένων εκπαίδευσης και χρησιμοποιείται για την εκπαίδευση του αλγορίθμου κατηγοριοποίησης και το δεύτερο ονομάζεται σύνολο δεδομένων δοκιμής που χρησιμοποιείται για την δοκιμή του αλγορίθμου και την εκτίμηση της ακρίβειας. Στις περισσότερες περιπτώσεις, χρησιμοποιείται τα 2/3 του συνόλου δεδομένων σαν σύνολο εκπαίδευσης και το υπόλοιπο 1/3 σαν σύνολο δοκιμής. Μια παραλλαγή αυτής της μεθόδου είναι γνωστή με το όνομα random subsampling. Η παραλλαγή αυτή εκτελεί την μέθοδο της κατακράτησης κ φορές. Η τελική εκτίμηση της ακρίβειας είναι μέσος όρος των εκτιμήσεων ακρίβειας των επαναλήψεων. Ένας λίγο πιο σύνθετος τρόπος εκτίμησης της απόδοσης είναι ο k-fold cross validation. Σύμφωνα με αυτόν, το αρχικό σύνολο δεδομένων αρχικά χωρίζεται σε k υποσύνολα ή folds, S1,S2,,Sk κάθε ένα από τα οποία είναι ίδιου μεγέθους.. Η εκπαίδευση και η δοκιμή εκτελείται k φορές. Στην i επανάληψη, το υποσύνολο Si παίζει τον ρόλο το συνόλου δοκιμής, ενώ τα υπόλοιπα k-1 υποσύνολα χρησιμοποιούνται για την εκπαίδευση του αλγορίθμου. Αυτό σημαίνει ότι στην πρώτη επανάληψη, το S1 λειτουργεί σαν σύνολο δοκιμής ενώ τα {S2,S3,,Sk} σαν σύνολο εκπαίδευσης. Αντίστοιχα στην δεύτερη επανάληψη, το S2 λειτουργεί σαν σύνολο δοκιμής, ενώ τα {S1,S3,,Sk} σαν σύνολο εκπαίδευσης. Η ακρίβεια υπολογίζεται διαιρώντας το συνολικό 27

35 αριθμό τον σωστών κατηγοριοποιήσεων με τον αριθμό των πλειάδων του αρχικού συνόλου δεδομένων. Όπως γίνεται εύκολα κατανοητό, αυτή η προσέγγιση απαιτεί k φορές περισσότερο χρόνο από την μέθοδο της κατακράτησης. (Ουγίαρογλου, 2006) 3.3 Μέθοδοι κατηγοριοποίησης Οι πιο διαδεδομένες μέθοδοι της εξόρυξης δεδομένων σε προβλήματα κατηγοριοποίησης είναι τα δέντρα αποφάσεων (decision trees), η Bayesian κατηγοριοποίηση, τα νευρωνικά δίκτυα (neural networks), η εύρεση k-πλησιέστερων γειτόνων (k-nearest neighbor) και η λογιστική παλινδρόμηση (logistic regression) Δέντρα Αποφάσεων Τα δένδρα απόφασης (decision trees) είναι διαγράμματα ροής με δενδρική δομή (εικόνα 3.2). Η ρίζα είναι η αρχή του δένδρου, οι εσωτερικοί κόμβοι υποδηλώνουν έναν έλεγχο σε ένα γνώρισμα, τα κλαδιά του δένδρου αναπαριστούν το αποτέλεσμα του ελέγχου και τα φύλλα δίνουν την κατανομή των κλάσεων ή αλλιώς την πρόβλεψη των κλάσεων. Είναι μια ευρέως χρησιμοποιούμενη μέθοδος κατά την οποία επιχειρείται η προσέγγιση μιας άγνωστης διακριτής συνάρτησης στόχου, ακολουθώντας την τεχνική του «διαίρει και βασίλευε». Ο χώρος του προβλήματος κατατέμνεται σε περιοχές από στιγμιότυπα που φέρουν την ίδια τιμή ως προς κάποιο χαρακτηριστικό, μια διαδικασία που επαναλαμβάνεται αναδρομικά, αναπαριστώντας με τον τρόπο αυτό το παραγόμενο μοντέλο ως δέντρο απόφασης. Οι εσωτερικοί κόμβοι ενός τέτοιου δέντρου αντιστοιχούν στη σύγκριση της τιμής ενός χαρακτηριστικού κάποιου στιγμιότυπου με μια σταθερά. Τα φύλλα του δέντρου αντιπροσωπεύουν την απόφαση του μοντέλου για την ταξινόμηση του εν λόγω στιγμιότυπου, η οποία μπορεί να έχει την μορφή της κλάσης στην οποία αυτό ανήκει, ενός συνόλου κλάσεων, ή ακόμα και μιας πιθανοτικής κατανομής επί του συνόλου των κλάσεων στις οποίες θα μπορούσε να αποδοθεί. Βάσει της παραπάνω αναπαράστασης, ένα άγνωστο στιγμιότυπο ακολουθεί τη διαδρομή από τη ρίζα προς κάποιο φύλλο του δέντρου, καθοδηγούμενο από το αποτέλεσμα των ελέγχων που διεξάγονται στους εσωτερικούς κόμβους από τους οποίους πέρασε. (Βασιλόπουλος, 2010) 28

36 Εικόνα 3.2: Δέντρο απόφασης Ένα δέντρο απόφασης συσχετίζεται με το D (βάση δεδομένων) και έχει τις ακόλουθες ιδιότητες: Κάθε εσωτερικός κόμβος παίρνει το όνομα του από ένα γνώρισμα, Α i Κάθε τόξο παίρνει το όνομα του από ένα κατηγόρημα το οποίο μπορεί να εφαρμοστεί στο γνώρισμα που συνδέεται με τον πατέρα κόμβο. Κάθε φύλλο έχει ως όνομα μια κατηγορία C j. Με βάση τον ορισμό της κατηγοριοποίησης, το δέντρο απόφασης που έχει δημιουργηθεί αναπαριστά τη λογική που απαιτείται για να εκτελέσουμε την απεικόνιση. Έτσι το δέντρο απόφασης έμμεσα ορίζει την απεικόνιση. (Dunham, 2004) Ο ταξινομητής J48 Η στρατηγική που ακολουθεί ο J48 για την κατασκευή ενός δέντρου μπορεί αναδρομικά να εκφραστεί ως εξής: Αρχικά επιλέγεται το καλύτερο χαρακτηριστικό για να χρησιμοποιηθεί ως ρίζα του δέντρου. Για κάθε διαφορετική τιμή του δημιουργείται ένας απόγονος του κόμβου-ρίζας, στον οποίο αντιστοιχούνται όλα τα στιγμιότυπα του σώματος εκπαίδευσης που φέρουν την συγκεκριμένη τιμή του χαρακτηριστικού αυτού. Η όλη διαδικασία επαναλαμβάνεται αναδρομικά, για κάθε 29

37 απόγονο του αρχικού κόμβου, περιορίζοντας το εξεταζόμενο υποσύνολο εκπαίδευσης στα στιγμιότυπα που έχουν αντιστοιχηθεί σε αυτό τον κόμβο. Ο τερματισμός της επέρχεται με την εκπλήρωση μιας εκ των δύο συνθηκών: Όλα τα στιγμιότυπα του τρέχοντος κόμβου ανήκουν στην ίδια κλάση, ή Όλα τα χαρακτηριστικά έχουν χρησιμοποιηθεί. Ιδιαίτερη βαρύτητα στην κατασκευή ενός δέντρου απόφασης, και κατ επέκταση στη μετέπειτα απόδοσή του, φέρει η επιλογή του κατάλληλου χαρακτηριστικού που θα πρέπει να χρησιμοποιηθεί σε κάθε κόμβο, με σκοπό να εξασφαλίσει την αποτελεσματικότερη διαίρεση του χώρου του προβλήματος σε περιοχές Πλεονεκτήματα και μειονεκτήματα Υπάρχουν πολλά πλεονεκτήματα από τη χρήση των δέντρων αποφάσεων για την κατηγοριοποίηση. Τα δέντρα αποφάσεων είναι εύκολα στη χρήση και αποτελεσματικά. Αποδίδουν καλά για μεγάλες βάσεις δεδομένων επειδή το μέγεθος του δένδρου είναι ανεξάρτητο από το μέγεθος της βάσης δεδομένων. Κάθε πλειάδα της βάσης δεδομένων πρέπει να φιλτραριστεί μέσα από το δέντρο. Αυτό παίρνει χρόνο ανάλογο με το ύψος του δένδρου, το οποίο είναι συγκεκριμένο. Μπορούν να κατασκευαστούν δένδρα για δεδομένα με πολλά γνωρίσματα. Υπάρχουν όμως και μειονεκτήματα για τους αλγόριθμους των δέντρων αποφάσεων. Αρχικά, δεν χειρίζονται εύκολα συνεχή δεδομένα. Αυτά τα πεδία των γνωρισμάτων θα πρέπει να χωριστούν σε κατηγορίες για να μπορέσει ο χρήστης να τα χειριστεί. Η προσέγγιση που χρησιμοποιείται είναι ότι ο χώρος του πεδίου διαιρείται σε ορθογώνιες περιοχές. Βέβαια, δεν είναι όλα τα προβλήματα κατηγοριοποίησης αυτού του τύπου. Ο χειρισμός που γίνεται στα ελλιπή δεδομένα είναι δύσκολος γιατί δεν μπορούν να βρεθούν οι σωστές διακλαδώσεις του δένδρου για να ακολουθήσουν. Επειδή το δέντρο απόφασης δημιουργείται από τα δεδομένα της εκπαίδευσης, μπορεί να εμφανιστεί υπερπροσαρμογή. Αυτό θα μπορούσε να το προσπεραστεί με τη φάση της περικοπής του δέντρου. Τελικά, οι συσχετίσεις μεταξύ των γνωρισμάτων της βάσης δεδομένων αγνοούνται από τη διαδικασία του δέντρου απόφασης. (Στύλιος, 2006) 30

38 3.3.2 Bayesian Κατηγοριοποίηση Οι ταξινομητές της κατηγορίας αυτής στηρίζονται στο θεώρημα του Bayes από τη θεωρία πιθανοτήτων, το οποίο σχετίζει την υπό συνθήκη πιθανότητα (conditional probability) ενός γεγονότος με την άνευ-συνθήκης πιθανότητα (marginal probability) ενός δεύτερου τυχαίου γεγονότος. Χρησιμοποιείται για να υπολογίσει τις εκ των υστέρων πιθανότητες (posterior probabilities), δεδομένων των παρατηρήσεων. Γενικά, τα δίκτυα Bayes αναπαριστούν την υπό συνθήκη κατανομή μιας κλάσης. Η εκμάθηση ενός δικτύου Bayes ορίζεται ως διαδικασία δύο επιπέδων: πρώτα γίνεται η εκμάθηση της δομής του δικτύου και έπειτα γίνεται η εκμάθηση των πινάκων πιθανοτήτων για τη δομή αυτή. (Ρήγα, 2008) Θεωρώντας ότι η συνεισφορά όλων των γνωρισμάτων είναι ανεξάρτητη και ότι κάθε ένα συνεισφέρει εξίσου στο πρόβλημα της κατηγοριοποίησης, μία απλή μέθοδος κατηγοριοποίησης έχει προταθεί η οποία καλείται απλοϊκή κατηγοριοποίησης κατά Bayes και βασίζεται στον κανόνα του Bayes για την υπό συνθήκη πιθανότητα. Αναλύοντας τη συνεισφορά κάθε ενός «ανεξάρτητου» γνωρίσματος, καθορίζεται μία υπό συνθήκη πιθανότητα. Η κατηγοριοποίηση γίνεται με το συνδυασμό της συνέπειας που θα έχουν διαφορετικά γνωρίσματα στην πρόβλεψη που γίνεται. Η προσέγγιση ονομάζεται «απλοϊκή» επειδή θεωρεί ανεξαρτησία μεταξύ των τιμών των διαφόρων γνωρισμάτων. Δεδομένης μίας τιμής για ένα δεδομένο x i η πιθανότητα ότι μία σχετική πλειάδα, t i, ανήκει στην κατηγορία C j περιγράφεται από P(C j \ x i ). Δεδομένα εκπαίδευσης μπορούν να χρησιμοποιηθούν για να καθορίσουν τις P(x i ), P(x i \C j ), P(C j ). Από αυτές τις τιμές το θεώρημα του Bayes μας επιτρέπει να εκτιμήσουμε την εκ των υστέρων πιθανότητα P(C j \ x i ) και στη συνέχεια την P(C j \ t i ). Δοθέντος ενός συνόλου εκπαίδευσης, ο απλοϊκός αλγόριθμος Bayes αρχικά εκτιμά την εκ των προτέρων πιθανότητα P(C j ) για κάθε κατηγορία μετρώντας πόσο συχνά κάθε κατηγορία εμφανίζεται στα δεδομένα εκπαίδευσης. Για κάθε γνώρισμα, x i μπορεί να μετρηθεί ο αριθμός των εμφανίσεων κάθε τιμής του γνωρίσματος x i για να καθορίσει την P(x i ). Παρόμοια η πιθανότητα P(x i \C j ), μπορεί να εκτιμηθεί μετρώντας πόσο συχνά κάθε τιμή εμφανίζεται στην κατηγορία στα δεδομένα εκπαίδευσης. Κοιτάμε όλες τις τιμές των γνωρισμάτων. Μία πλειάδα στα δεδομένα εκπαίδευσης μπορεί να έχει πολλά διαφορετικά γνωρίσματα, κάθε ένα με πολλές τιμές. Αυτό 31

39 πρέπει να γίνει για όλα τα γνωρίσματα και για όλες τις τιμές γνωρισμάτων. Στην συνέχεια χρησιμοποιούνται αυτές οι πιθανότητες που έχουν παραχθεί με αυτόν τον τρόπο όταν πρέπει να κατηγοριοποιηθεί μία νέα πλειάδα. Αυτός είναι ο λόγος γιατί η «απλοϊκή» κατηγοριοποίηση κατά Bayes μπορεί να θεωρηθεί σαν ένας αλγόριθμος που μπορεί να χρησιμοποιηθεί και για την περιγραφή και για την πρόβλεψη των δεδομένων. Οι πιθανότητες είναι περιγραφικές και στη συνέχεια χρησιμοποιούνται για να προβλέψουν τη συμμετοχή σε μία κατηγορία για την υπό μελέτη πλειάδα. (Στύλιος, 2006) Ο ταξινομητής Naïve Bayes O Naïve Bayes είναι ένας απλός πιθανοτικός ταξινομητής με βάση την εφαρμογή του «θεωρήματος Bayes» με αφελή ανεξαρτησία στις υποθέσεις. Για την ακρίβεια η υποκειμενική πιθανότητα είναι ανεξάρτητη του μοντέλου των χαρακτηριστικών. Ένας αφελής ταξινομητής Bayes υποθέτει ότι η παρουσία (ή απουσία) ενός ιδιαίτερου χαρακτηριστικού της κατηγορίας είναι άσχετη με την παρουσία (ή απουσία) οποιουδήποτε άλλου χαρακτηριστικού. Ανάλογα με την ακριβή φύση του μοντέλου πιθανοτήτων, ο αφελής ταξινομητής Bayes μπορεί να εκπαιδευτεί πολύ αποτελεσματικά σε ένα επιβλεπόμενης μάθησης σύστημα. Σε πολλές πρακτικές εφαρμογές, η παράμετρος εκτίμησης για τα αφελή μοντέλα Bayes χρησιμοποιεί τη μέθοδο της μέγιστης πιθανοφάνειας Πλεονεκτήματα και μειονεκτήματα Η προσέγγιση της απλής κατηγοριοποίησης κατά Bayes έχει αρκετά πλεονεκτήματα. Πρώτον, είναι πολύ εύκολο να χρησιμοποιηθεί. Δεύτερον, αντίθετα με άλλες τεχνικές κατηγοριοποίησης χρειάζεται μόνο ένα πέρασμα των δεδομένων εκπαίδευσης. Επίσης, η προσέγγιση αυτή μπορεί εύκολα να χειριστεί ελλιπή δεδομένα, απλά παραλείποντας τις αντίστοιχες πιθανότητες. Σε περιπτώσεις όπου υπάρχουν απλές συσχετίσεις στα δεδομένα, η τεχνική συνήθως δίνει καλά αποτελέσματα κατηγοριοποίησης σε σύντομο χρονικό διάστημα. Από την άλλη πλευρά, υπάρχουν πολλές περιπτώσεις όπου ο αλγόριθμος κατηγοριοποίησης κατά Bayes δεν δίνει καλά αποτελέσματα. Πρώτον, σπάνιες είναι οι περιπτώσεις όπου τα χαρακτηριστικά δεν είναι ανεξάρτητα. Μια προσέγγιση είναι 32

40 να αγνοηθούν τα χαρακτηριστικά τα οποία εξαρτώνται από άλλα. Επιπρόσθετα, η τεχνική αυτή δεν μπορεί να χειριστεί συνεχή δεδομένα. Το μειονέκτημα αυτό λύνεται με το να χωριστούν τα συνεχή χαρακτηριστικά σε διαστήματα, ωστόσο αυτό δεν είναι κάτι απλό και ο τρόπος με το οποίον θα γίνει είναι πολύ πιθανό να επηρεάσει τα αποτελέσματα. (Ουγιάρογλου, 2006) Νευρωνικά δίκτυα Ένα νευρωνικό δίκτυο (neural network-nn) είναι στην ουσία ένα σύστημα επεξεργασίας πληροφορίας το οποίο αποτελείται από ένα γράφο που αναπαριστά το σύστημα επεξεργασίας, όπως επίσης και διάφορους αλγόριθμους οι οποίοι προσπελαύνουν αυτό το γράφο. Όπως και με τον ανθρώπινο εγκέφαλο, το νευρωνικό δίκτυο αποτελείται από πολλά διασυνδεδεμένα στοιχεία επεξεργασίας. Το νευρωνικό δίκτυο στη συνέχεια δομείται σαν ένας κατευθυνόμενος γράφος με πολλούς κόμβους (στοιχεία επεξεργασίας) και τόξα (συνδέσμους) μεταξύ αυτών. Οι κόμβοι στο γράφο είναι σαν ανεξάρτητοι νευρώνες, ενώ τα τόξα είναι οι σύνδεσμοί τους. Κάθε στοιχείο επεξεργασίας λειτουργεί ανεξάρτητα από τα άλλα και χρησιμοποιεί μόνο τοπικά δεδομένα, είσοδος και έξοδος στον κόμβο, που καθοδηγούν την επεξεργασία του. Αυτή η ιδιότητα διευκολύνει τη χρήση των νευρωνικών δικτύων σε ένα κατανεμημένο και παράλληλο περιβάλλον. Η προσέγγιση των νευρωνικών δικτύων, όπως αυτή των δένδρων αποφάσεων, απαιτεί να χτιστεί μία γραφική δομή για να αναπαριστά το μοντέλο και μετά να εφαρμοστεί αυτή η δομή που εφαρμόζεται στα δεδομένα. Το νευρωνικό δίκτυο μπορεί να θεωρηθεί σαν ένας κατευθυνόμενος γράφος με πηγή (είσοδος), καταβόθρα (έξοδος) και εσωτερικούς (κρυμμένους) κόμβους. Οι κόμβοι της εισόδου υπάρχουν στο στρώμα εισόδου, ενώ οι κόμβοι της εξόδου υπάρχουν στο στρώμα εξόδου. Οι κρυμμένοι κόμβοι υπάρχουν σε ένα ή περισσότερα κρυμμένα στρώματα. Τα τεχνητά νευρωνικά δίκτυα, μιμούμενα τα νευρωνικά δίκτυα του ανθρωπίνου σώματος, έχουν τη δυνατότητα, μέσω εκπαίδευσης, να μάθουν να αναγνωρίζουν και να ταξινομούν σωστά δείγματα που τους παρέχονται στην είσοδο. Μερικά από τα βασικά χαρακτηριστικά των νευρωνικών δικτύων είναι τα εξής: i. Μάθηση: Τα νευρωνικά δίκτυα δεν είναι ρυθμισμένα να αντιμετωπίζουν ένα συγκεκριμένο πρόβλημα. Μαθαίνουν να αντιμετωπίζουν το εκάστοτε πρόβλημα από τα δεδομένα του και τις εξόδους που αντιστοιχούν σ αυτά. 33

41 ii. iii. iv. Αυτοοργάνωση: Αφού δοθούν τα απαραίτητα δεδομένα στην είσοδο των νευρωνικών δικτύων, αυτά είναι ρυθμισμένα ώστε να παίρνουν τις εξόδους τους και να τις οδηγούν εκ νέου στην είσοδο, και με τις απαραίτητες ρυθμίσεις να επιτευχθούν τελικά οι επιθυμητές έξοδοι. Το γεγονός ότι οδηγούν τις εξόδους τους στην είσοδο και δε χρειάζονται συνεχή τροφοδότηση δεδομένων από τον χρήστη, υποδηλώνει αυτοοργάνωση. Γενίκευση: Παρ όλο που, κατά τη διάρκεια της εκπαίδευσης, το νευρωνικό δίκτυο βλέπει κάποια συγκεκριμένα δείγματα που του παρέχονται για να μάθει, τελικά είναι δυνατόν να αντιμετωπίσει με επιτυχία και άλλα δείγματα παραπλήσια με αυτά της εκπαίδευσης, μπορεί δηλαδή να κάνει γενίκευση. Ευρωστία: Τα νευρωνικά δίκτυα είναι δυνατόν να λειτουργήσουν σωστά ακόμα και αν κάποια από τα στοιχεία τους υποστούν βλάβη, ή για κάποιο λόγο παρεκκλίνουν από την ορθή λειτουργία τους. Αντέχουν δηλαδή σε μεριές καταστροφές. (Γιαννόγλου, 2005) Ο ταξινομητής RBFNetwork Η μέθοδος του ταξινομητή ακτινικών συναρτήσεων βάσης (Radial Basis Function - RBF) είναι γενική και αποτελεσματική ακόμα και σε προβλήματα με μικρά σύνολα εκπαίδευσης και πολλές διαστάσεις, χωρίς αυτό να σημαίνει ότι υστερεί σε ποιότητα αποτελεσμάτων όταν πρόκειται για απλούστερα προβλήματα. Πριν από την εκπαίδευση του δικτύου και για να είναι αυτή πιο αποδοτική, εφαρμόζεται μια τεχνική συγκέντρωσης ομοειδών δειγμάτων (clustering), δηλαδή μια προταξινόμηση. (Γιαννόγλου, 2005) Από πλευράς δικτύου, το νευρωνικό δίκτυο RBF (εικόνα 3.3) θεωρείται ως μια απεικόνιση από τον γενικά πολυδιάστατο χώρο των δεδομένων εισόδου (δείγματα), στο χώρο εξόδου (κλάσεις). Κάθε δείγμα εισόδου παρουσιάζεται ως ένα πραγματικό διάνυσμα και κάθε κλάση αντιπροσωπεύεται από έναν κατάλληλο κωδικό. Έτσι ορίζεται: Ο αριθμός των εισόδων να είναι ίσος με αυτόν των χαρακτηριστικών (δηλαδή τη διάσταση των δεδομένων εισόδου). Ο αριθμός των εξόδων να είναι ίσος με αυτόν των κλάσεων 34

42 Εικόνα 3.3: Νευρωνικό δίκτυο RBF Πλεονεκτήματα και μειονεκτήματα Υπάρχουν πολλά πλεονεκτήματα για τη χρήση των νευρωνικών δικτύων στην κατηγοριοποίηση. Τα ΝΝ είναι ισχυρά εξαιτίας της χρήσης των βαρών. Είναι ικανά να βελτιώνουν την απόδοση τους με την μάθηση, όπου αυτό μπορεί να συνεχιστεί ακόμα και με την εφαρμογή του συνόλου εκπαίδευσης. Η χρήση τους μπορεί να παραλληλοποιηθεί για καλύτερη απόδοση. Εφόσον έχει εφαρμοστεί το κατάλληλο σύνολο εκπαίδευσης, υπάρχει χαμηλό σφάλμα και επομένως υψηλός βαθμός ακριβείας. Τα ΝΝ είναι περισσότερο εύρωστα από τα δέντρα αποφάσεων σε περιβάλλον που υπάρχει θόρυβος. Από την άλλη πλευρά τα νευρωνικά δίκτυα έχουν αρκετά μειονεκτήματα. Τα ΝΝ είναι δύσκολα στην κατανόηση. Μη ειδικοί χρήστες μπορεί να έχουν δυσκολία στο να καταλάβουν πώς δουλεύουν τα ΝΝ. Είναι δύσκολο να εξηγηθούν σε σχέση με άλλους ταξινομητές. Η δημιουργία κανόνων από τα ΝΝ δεν είναι εύκολη υπόθεση. Οι τιμές των γνωρισμάτων εισόδου πρέπει να είναι αριθμητικές. Η φάση της μάθησης μπορεί να αποτύχει, να συγκλίνει. Τα νευρωνικά δίκτυα μπορεί να είναι αρκετά ακριβά στη χρήση τους. (Στύλιος, 2006) Κ- Πλησιέστεροι γείτονες Μια πολύ γνωστή και ευρεία χρησιμοποιούμενη τεχνική κατηγοριοποίησης που βασίζεται στη χρήση μέτρων βασισμένων στην απόσταση είναι αυτή των Κ - πλησιέστερων γειτόνων (K-nearest neighbors KNN). Η τεχνική ΚΝΝ προϋποθέτει 35

43 ότι το σύνολο εκπαίδευσης δεν περιλαμβάνει μόνο τα δεδομένα αλλά επίσης και την επιθυμητή κατηγοριοποίηση για κάθε στοιχείο. Αυτό έχει σαν αποτέλεσμα τα δεδομένα εκπαίδευσης να αποτελούν το μοντέλο κατηγοριοποίησης. Όταν πρόκειται να γίνει μια κατηγοριοποίηση για ένα νέο στοιχείο, πρέπει να καθοριστεί η απόσταση του από κάθε στοιχείο του συνόλου εκπαίδευσης. Μόνο οι Κ κοντινότερες εκχωρήσεις στο σύνολο εκπαίδευσης λαμβάνονται υπόψη στη συνέχεια. Το νέο στοιχείο τοποθετείται στην κατηγορία που περιέχει τα περισσότερα στοιχεία από το σύνολο των Ê κοντινότερων στοιχείων. Η εικόνα 3.4 παρουσιάζει την διαδικασία που χρησιμοποιείται από τον αλγόριθμο ΚΝΝ και φαίνονται τα σημεία του συνόλου εκπαίδευσης. Παρουσιάζονται τα τρία κοντινότερα στοιχεία στο σύνολο εκπαίδευσης. Το t θα τοποθετηθεί στην κατηγορία στην οποία ανήκουν τα περισσότερα από αυτά τα Ê στοιχεία. (Dunham, 2004) Εικόνα 3.4: Κατηγοριοποίηση με χρήση ΚΝΝ Πλεονεκτήματα και μειονεκτήματα Η μέθοδος των Κ-πλησιέστερων γειτόνων έχει αρκετά πλεονεκτήματα. Καταρχήν, είναι απλή στη χρήση και στην υλοποίηση. Είναι ανθεκτική στα θορυβώδη δεδομένα εκπαίδευσης, ειδικά αν το αντίστροφο τετράγωνο της σταθμισμένης απόστασης χρησιμοποιείται ως μέτρο απόστασης. Επίσης, είναι πιο αποτελεσματική εάν ο αριθμός των δεδομένων εκπαίδευσης (δειγμάτων) είναι μεγάλος. 36

44 Από την άλλη υπάρχουν και σημαντικά μειονεκτήματα της μεθόδου. Το υπολογιστικό κόστος είναι πολύ υψηλό, διότι πρέπει να υπολογιστεί η απόσταση από κάθε παράδειγμα ερώτησης για όλα τα δείγματα εκπαίδευσης. Επιπλέον, υπάρχει μεγάλη απαίτηση σε αποθηκευτικό χώρο. Το χαμηλό ποσοστό ακρίβειας σε πολυδιάστατα σύνολα δεδομένων είναι ένα ακόμα μειονέκτημα. Η ανάγκη να καθοριστεί η τιμή της παραμέτρου Κ, ο αριθμός των πλησιέστερων γειτόνων. Τέλος, δεν είναι γνωστό ποια χαρακτηριστικά είναι καλύτερα να χρησιμοποιηθούν ώστε να παραχθούν τα καλύτερα αποτελέσματα. (Parvin, 2008) Λογιστική παλινδρόμηση Η λογιστική παλινδρόμηση (Logistic Regression) είναι μια γενίκευση της γραμμικής παλινδρόμησης. Χρησιμοποιείται κυρίως για την πρόβλεψη δυαδικών μεταβλητών (με τιμές όπως ναι/όχι ή 0/1) και περιστασιακά multi-class μεταβλητές. Επειδή η μεταβλητή απόκρισης είναι διακριτική, δεν μπορεί να μοντελοποιηθεί άμεσα με γραμμική παλινδρόμηση. Επομένως, αντί να προβλεφθεί κατά πόσο το ίδιο το συμβάν (μεταβλητή απόκρισης) θα εμφανιστεί, χτίζεται το μοντέλο για να προβλέψει τον λογάριθμο της απόδοσης της εμφάνισης της.( Λόγος της απόδοσης : πιθανότητα ενός συμβάντος που συμβαίνει πιθανότητα ενός συμβάντος που δεν συμβαίνει Η λογιστική παλινδρόμηση είναι χρήσιμη σε καταστάσεις στις οποίες επιθυμούμε την πρόβλεψη της ύπαρξης ή της απουσίας ενός χαρακτηριστικού ή ενός συμβάντος. Η πρόβλεψη αυτή βασίζεται στην κατασκευή ενός γραμμικού μοντέλου και συγκεκριμένα στον προσδιορισμό των τιμών που παίρνουν οι συντελεστές ενός συνόλου (set) ανεξάρτητων μεταβλητών που χρησιμοποιούνται ως μεταβλητές πρόβλεψης (predictor variables). Εκτός από την πρόβλεψη ένα μοντέλο λογιστικής παλινδρόμησης δίνει τη δυνατότητα να εκτιμηθεί η επίδραση κάθε ανεξάρτητης μεταβλητής στη διαμόρφωση των τιμών της εξαρτημένης μεταβλητής. Στη λογιστική παλινδρόμηση, σε αντίθεση με την πολλαπλή παλινδρόμηση (multiple regression) είναι δυνατό να χρησιμοποιηθούν ως εξαρτημένες μεταβλητές 37

45 εκτός από αναλογικές αριθμητικές μεταβλητές (ratio scale) και κατηγορικές μεταβλητές (nominal scale). ( Πλεονεκτήματα Ένα βασικό πλεονέκτημα από τη χρήση της λογιστικής παλινδρόμησης, σε σχέση με άλλες μεθόδους στατιστικής ανάλυσης, είναι ότι δεν απαιτείται η ικανοποίηση υποθέσεων για τις κατανομές τιμών των ανεξαρτήτων μεταβλητών. Πλεονέκτημα επίσης είναι το ότι οι συντελεστές παλινδρόμησης μπορούν να εκφραστούν με όρους σχετικών κινδύνων (relative risks) και λόγων πιθανοτήτων (odds ratio). ( 38

46 Βιβλιογραφία 1. Dunham, Margaret H. (2004). Data Mining. Εισαγωγικά και Προηγμένα Θέματα Εξόρυξης Γνώσης Από Δεδομένα. Εκδόσεις Νέων Τεχνολογιών. Αθήνα 2. Hamid Parvin, Hosein Alizadeh and Behrouz Minaei-Bidgoli. (2008). Proceedings of the World Congress on Engineering and Computer Science. MKNN: Modified K-Nearest Neighbor. San Francisco. USA. 3. Γιάννογλου, Βασίλειος (2006). Διπλωματική Εργασία. Ταξινόμηση Με Radial Basis Function. Νευρωνικά Δίκτυα. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης. Θεσσαλονίκη 4. Μαντάς, Νικόλαος Σ. (2010). Διπλωματική Εργασία. Εφαρμογή Τεχνικών Εξόρυξης Σε Δεδομένα Παγκόσμιου Ιστού. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης. Θεσσαλονίκη 5. Ουγιάρογλου, Στέφανος (2006). Διπλωματική Εργασία. Κατηγοριοποίηση Με Βάση Δυναμικό Αριθμό Κοντινότερων Γειτόνων. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης. Θεσσαλονίκη 6. Ρήγα Μαρίνα (2008). Διπλωματική Εργασία. Ανάπτυξη και Αξιολόγηση Μοντέλων Εξόρυξης Δεδομένων Για Την Πρόβλεψη Της Ποιότητας Της Ατμόσφαιρας Στην Αττική. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης. Θεσσαλονίκη 7. Στύλιος, Γεώργιος (2006). Σημειώσεις μάθημα: Ανάκτηση Πληροφοριών. Τμήμα Εφαρμογών Πληροφορικής στη Διοίκηση και την Οικονομία. Λευκάδα. Internet Ηttp:// 39

47 ΚΕΦΑΛΑΙΟ 4: ΤΟ ΠΕΡΙΒΑΛΛΟΝ WEKA Στο κεφάλαιο που ακολουθεί, γίνεται μια περιγραφή του weka. Θα μελετηθεί τι είναι το weka, ποιο είναι το περιβάλλον του, ποια είναι η μορφή που πρέπει να έχει ένα αρχείο ώστε να μπορέσει να γίνει η ανάλυση των δεδομένων. Εν συνεχεία, θα δοθεί μια πρώτη εικόνα σχετικά με το weka για να κατανοηθούν ευκολότερα όσα θα αναφερθούν στο πρακτικό μέρος για το οποίο θα γίνει διεξοδική αναφορά στο πέμπτο κεφάλαιο της πτυχιακής εργασίας. 4.1 Τι είναι το Weka Η Weka Workbench (εικόνα 4.1) είναι μια συλλογή από αλγόριθμους μηχανικής μάθησης και επεξεργασίας δεδομένων για εξόρυξη γνώσης. Το Weka αναπτύχθηκε στο Πανεπιστήμιο του Waikato στη Νέα Ζηλανδία, και την ονομασία την πήρε από το Waikato περιβάλλον για την ανάλυση γνώσης (Waikato Environment for Knowledge Analysis). Εκτός από το πανεπιστήμιο, το Weka προφέρεται με ομοιοκαταληξία Μέκκα, είναι ένα πουλί με περίεργο χαρακτήρα που μπορεί να βρεθεί μόνο στα νησιά της Νέας Ζηλανδίας. Το σύστημα είναι γραμμένο σε Java και διανέμεται σύμφωνα με τους όρους της GNU (General Public License). Εκτείνεται σχεδόν σε οποιαδήποτε πλατφόρμα και έχει δοκιμαστεί σε Linux, Windows και Macintosh λειτουργικά συστήματα, ακόμα και σε προσωπικό ψηφιακό βοηθό. Εικόνα 4.1: Λογότυπο του WEKA 40

48 4.1.1 Εγκατάσταση του Weka Για την εγκατάσταση του Weka απαιτείται η εγκατάσταση της έκδοσης και άνω, της γλώσσας προγραμματισμού Java, και η εγκατάσταση της έκδοσης και άνω της πλατφόρμας Weka. Το software είναι διαθέσιμο για εγκατάσταση από την ιστοσελίδα: Γραφικές διεπαφές Όταν φορτωθεί το Weka η επιλογή μπορεί να γίνει μεταξύ τεσσάρων διαφορετικών διεπαφών χρηστών (εικόνα 4.2): Tο περιβάλλον γραμμής εντολών (Simple CLI): Δίνεται η δυνατότητα απευθείας εκτέλεσης των εντολών του Weka, μέσα από περιβάλλον γραμμής εντολών. Tον εξερευνητή (Explorer): Δίνεται ένα γραφικό περιβάλλον για επεξεργασία των δεδομένων με το Weka. Τον πειραματιστή (Experimenter): Πρόκειται για ένα περιβάλλον εκτέλεσης πειραμάτων και στατιστικών συγκρίσεων ανάμεσα στους διάφορους αλγόριθμους μάθησης. Την γνώση της ροής (Knowledge Flow): Το περιβάλλον ροής γνώσης δίνει τη δυνατότητα προσομοίωσης ενός συστήματος λήψης απόφασης, προσθέτοντας τα διάφορα τμήματά του (dataset, filter, classifier, evaluator) έναένα και αξιολόγησής του σε σχέση με άλλα συστήματα. (Κομνηνού, 2010) Εικόνα 4.2: Διεπαφές χρηστών 41

49 4.3 Δομή αρχείων Τα σύνολα δεδομένων που μπορεί να επεξεργαστεί το πρόγραμμα Weka πρέπει να έχουν συγκεκριμένη μορφή. Συγκεκριμένα, πρέπει να δίνονται σε απλή μορφή κειμένου (plain text) με μία ορισμένη δομή. Τα αρχεία αυτά συνήθως έχουν προέκταση.arff (Attribute Relation File Format). Τα αρχεία ARFF αποτελούνται από δύο διακριτές περιοχές. Το πρώτο τμήμα είναι η Επικεφαλίδα (Header) και το δεύτερο τα δεδομένα (Data). Το τμήμα Header ενός ARFF αρχείου περιλαμβάνει το όνομα της σχέσης, δηλαδή του συνόλου δεδομένων (relation) και μία λίστα με τα ονόματα και τους τύπους των χαρακτηριστικών (attributes). Η πρώτη γραμμή σε ένα ARFF αρχείο είναι αυτή που περιλαμβάνει τη δήλωση της σχέσης. Το όνομα της σχέσης μπορεί να είναι αλφαριθμητικό και σε περίπτωση που περιέχει κενά πρέπει να περικλείεται σε εισαγωγικά. Στη συνέχεια, ακολουθεί δήλωση των ιδιοτήτων. Η σειρά με την οποία δηλώνονται οι ιδιότητες καθορίζει τη θέση που έχουν οι τιμές της ιδιότητας στο τμήμα των δεδομένων. Επίσης, στο τμήμα Header μπορούν να υπάρχουν και σχόλια. Τα σχόλια είναι οι γραμμές που ξεκινούν με το σύμβολο %. Στο τμήμα Data περιγράφονται τα δεδομένα. Κάθε στιγμιότυπο καταλαμβάνει μία γραμμή και το τέλος του κάθε στιγμιότυπου δηλώνεται με το χαρακτήρα αλλαγής γραμμής. (Κομνηνού, 2010) Στην εικόνα 4.3 φαίνεται η δομή ενός τέτοιου αρχείου. % ARFF file for the MortgageDefaulters data Bo_Age Ln_Orig attrorig_ltv_ratio_pct Credit_score First_home Tot_mthly_debt_exp Tot_mthly_incm orig_apprd_val_amt pur_prc_amt DTI_Ratio numeric 42

50 @attribute State {FL,TN,OH,NV,NC,SC,LA,MS,SD,AK,WV,ND,ME,VT,NH,RI,GA,MT, AL,CT,KY,HI,NE,IL,IN,NJ,CA,MA,MI,OR,PA,IA,DE,NY,AZ,UT,TX,WA,CO, WI,MN, Median_state_inc UPB>Appraisal OUTCOME % % 15 instances % 32,148000,100,759,N,0,4246,204872,148000,0,non-default,FL,40.171,0 40,168701,100,765,N,595,3200,118933,118933, ,non-default,FL,40.171,1 34,111000,100,691,N,1299,4150,130000,111000, ,nondefault,TN,38.55,0 26,115500,98,665,N,969,2957,210000,115500, ,non-default,OH,44.16,0 42,96000,100,788,N,1072,6270,136000,96000, ,non-default,NV,46.984,0 26,86000,100,757,N,0,6940,127855,86000,0,non-default,NC,39,0 53,136000,100,661,N,1252,5644,152000,136000, ,nondefault,SC,39.326,0 44,101900,100,788,N,1161,5200,190000,101900, ,nondefault,NJ,56.772,0 30,106500,100,708,N,0,6675,170000,106500,0,non-default,CA,49.894,0 49,161050,97,661,N,1114,5200,128000,128000, ,nondefault,MA,52.354,1 27,65000,100,743,N,1063,6307,127677,65000, ,non-default,MI,44.476,0 30,163800,100,693,N,1066,4500,140000,140000, ,nondefault,TN,38.55,1 Εικόνα 4.3: Δομή αρχείου Η δήλωση του συνόλου δεδομένων γίνεται με το ακολουθεί η λέξη relation και το όνομα της βάσης MortgageDefaulters 43

51 Μετά από αυτή τη γραμμή ακολουθεί η δήλωση όλων των χαρακτηριστικών που περιγράφουν το συγκεκριμένο σύνολο παραδειγμάτων. Η δήλωση γίνεται ως <datatype> Όπου <attribute-name> είναι το όνομα του χαρακτηριστικού και το οποίο πρέπει να ξεκινά με γράμμα. Σε περίπτωση που ένα χαρακτηριστικό περιγράφεται με δύο ή περισσότερες λέξεις που χωρίζονται με κενό τότε θα πρέπει όλες αυτές να περικλείονται σε εισαγωγικά ( ). Το όρισμα <datatype> καθορίζει τον τύπο του χαρακτηριστικού. Το Weka υποστηρίζει 4 διαφορετικούς τύπους: Αριθμητικός τύπος δεδομένων (numeric): Τα αριθμητικά χαρακτηριστικά μπορεί να είναι είτε πραγματικοί είτε ακέραιοι αριθμοί. Στο παράδειγμα μας τέτοια χαρακτηριστικά είναι η ηλικία του δανειολήπτη (Bo_Age), η αξία του δανείου (Ln_Orig), ο λόγος του δανείου για την αρχική τιμή αγοράς (attrorig_ltv_ratio_pct), τα αποτελέσματα πιστωτικών καρτών δανειολήπτη ( Credit_score), η συνολική μηνιαία οφειλή εξόδων δανειολήπτη (Tot_mthly_debt_exp), τα συνολικά μηνιαία έσοδα δανειολήπτη (Tot_mthly_incm), η εκτίμηση της αξίας του σπιτιού στην αρχή (orig_apprd_val_amt), η τιμή αγοράς σπιτιού (pur_prc_amt), το χρέος δανειολήπτη προς τα έσοδα (DTI_Ratio) και ο μέσος όρος εσόδων νοικοκυριού ανά πολιτεία ( Median_state_inc). Κατηγορικός τύπος δεδομένων (nominal): Πρόκειται για χαρακτηριστικά που παίρνουν κατηγορικές τιμές, οι οποίες παρατίθενται σαν λίστα στη δήλωση των ιδιοτήτων. Στο παράδειγμα μας τέτοια χαρακτηριστικά είναι η πρώτη κατοικία (First_home), τρέχουσα κατάσταση του δανείου (Outcome),η πολιτεία στην οποία βρίσκεται το σπίτι (State), το ποσό του δανείου (UPB>Appraisal). Για το χαρακτηριστικό First_home, Outcome, State και UPB>Appraisal οι πιθανές τιμές First_home {yes, OUTCOME {non-default, State {FL,TN,OH,NV,NC,SC,LA,MS,SD,AK, WV, ND, ME, VT, NH,RI,GA,MT,AL,CT,KY,HI,NE,IL,IN,NJ,CA,MA,MI, OR,PA,IA,DE, NY, AZ,UT,TX,WA,CO,WI,MN,MO,VA,KS,DC,NM,MD,ID,WY,OK,AR} 44

52 @attribute UPB>Appraisal {0,1} Αλφαριθμητικός τύπος δεδομένων (string): Πρόκειται για χαρακτηριστικά των οποίων οι τιμές μπορεί να είναι οποιοδήποτε τμήμα κειμένου. Αυτός ο τύπος είναι ιδιαίτερα χρήσιμος σε εφαρμογές LCC string Τύπος δεδομένων ημερομηνίας (date): Οι τιμές των χαρακτηριστικών αυτών είναι ημερομηνίες και με το προαιρετικό date-format καθορίζεται η μορφή με την οποία θα εμφανίζονται οι <name> date Όπου <name> είναι το όνομα του χαρακτηριστικού και <date> είναι η ημερομηνία σύμφωνα με το παρακάτω format "yyyy-mm-dd't'hh:mm:ss" (ISO-8601). Π.χ Τ11:50:25 Οι λέξεις κλειδιά numeric, string και date μπορούν να γραφούν είτε με κεφαλαία είτε με πεζά (case insensitive). (Γεωργούλας, 2006) 4.4 Το περιβάλλον Explorer Στο περιβάλλον Explorer του Weka (εικόνα 4.4), ανοίγοντας ένα αρχείο, μπορεί να γίνει κάποια προεπεξεργασία (preprocess) στα δεδομένα εάν κρίνεται αναγκαίο, να εφαρμοστεί κάποιος αλγόριθμος μάθησης και στη συνέχεια να ελεγχθεί η απόδοσή του. Μπορούν να χρησιμοποιηθούν αλγόριθμοι ταξινόμησης, ομαδοποίησης, δημιουργίας κανόνων συσχέτισης ή επιλογής χαρακτηριστικών. Εικόνα 4.4: Explore Βασική οθόνη 45

53 Ανοίγοντας το πρόγραμμα δίνεται η δυνατότητα να επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να εφαρμοστούν τεχνικές που αφορούν: Preprocess: Επιλογή και τροποποίηση δεδομένων που χρησιμοποιούνται. Classify: Σχήματα εκπαίδευσης και ελέγχου που κατηγοριοποιούν ή εκτελούν παλινδρόμηση. Cluster: Δημιουργούνται συστάδες για δεδομένα. Associate: Δημιουργούνται κανόνες συσχέτισης για τα δεδομένα. Select Attributes: Επιλογή των πιο σχετικών χαρακτηριστικών των δεδομένων. Visualize: Προβολή ενός διαδραστικού 2Δ διαγράμματος των δεδομένων. Σε όλες τις καρτέλες στο κάτω μέρος του παραθύρου εμφανίζεται το πεδίο Status και δείχνει την κατάσταση που επικρατεί την εκάστοτε στιγμή. Με δεξί κλικ του ποντικιού σε εκείνο το σημείο, υπάρχει η δυνατότητα να λάβει ο χρήστης πληροφορίες για την μνήμη του λογισμικού, καθώς και να δοθεί εντολή ώστε να καθοριστούν κομμάτια μνήμης που χρησιμοποιούνται κάπου αλλού, ενώ δεν είναι απαραίτητο. Έτσι το πρόγραμμα εκτελείται ταχύτερα. Φυσικά, αυτές οι διεργασίες εκτελούνται στο παρασκήνιο. Σε όλες τις καρτέλες υπάρχει επίσης το κουμπί Log. Επιλέγοντας το κουμπί ανοίγει ένα ξεχωριστό παράθυρο που περιέχει πληροφορίες κειμένου. Κάθε γραμμή του κειμένου αναφέρεται σε διαφορετική χρονική περίοδο που γράφτηκαν σχόλια μέσα στο αρχείο. Όσο υπάρχει κίνηση στο πρόγραμμα, το log αρχείο κρατάει εγγραφές για το τι συμβαίνει Η Καρτέλα Preprocess Ξεκινώντας το WEKA και «φορτώνοντας» το αρχείο MortgageDefaulters.arff, στην οθόνη θα εμφανιστεί το παρακάτω παράθυρο (εικόνα 4.5): 46

54 Εικόνα 4.5: Η καρτέλα preprocess Στο παράθυρο αυτό στο μέσο και αριστερά, στον πίνακα Current relation, αναγράφεται ότι το συγκεκριμένο dataset περιλαμβάνει το όνομα του αρχείου (Relation), περιπτώσεις (Instances) και κάθε περίπτωση απαρτίζεται από 14 χαρακτηριστικά (Attributes). Το τελευταίο χαρακτηριστικό (OUTCOME) είναι επιλεγμένο και στο κάτω δεξιό μέρος αναγράφεται ότι δεν έχει ελλιπείς καταχωρήσεις (missing: 0), πρόκειται για ένα χαρακτηριστικό το οποίο έχει ονομαστικές τιμές (default, non-default) οι οποίες εμφανίζονται 402 και φορές αντίστοιχα. Στο κουμπί Open File γίνεται η επιλογή αρχείου όπως και η επιλογή του επιθυμητού συνόλου δεδομένων. Μόλις ανοίξει το αρχείο εμφανίζεται το όνομα του, ο αριθμός των δεδομένων, όπως επίσης ο αριθμός και τα ονόματα των χαρακτηριστικών του. Μάλιστα, επιλέγοντας κάποιο χαρακτηριστικό, στο δεξί τμήμα του παραθύρου εμφανίζονται οι τιμές που αυτό μπορεί να πάρει. Η κάθε τιμή ακολουθείται και από έναν αριθμό που δηλώνει σε πόσα από τα στιγμιότυπα του συνόλου παρατηρήθηκε. Αφού φορτωθούν τα δεδομένα, το τμήμα Filter του παραθύρου προσφέρει διάφορα εργαλεία για την προ-επεξεργασία των δεδομένων, γνωστά ως «φίλτρα» (filters). Μετά την επιλογή του φίλτρου, και τον ορισμό των χαρακτηριστικών που θα συμπεριληφθούν στην προεπεξεργασία γίνεται η ενεργοποίηση του φίλτρο πατώντας το κουμπί Apply. Για αυτό το λόγο ο χρήστης θα πρέπει αρχικά να παρατηρήσει τα δεδομένα. Το ιστόγραμμα απεικονίζει πώς κατανέμονται οι περιπτώσεις στις δύο κατηγορίες OUTCOME{default, non-default}. Στο συγκεκριμένο παράδειγμα το χαρακτηριστικό OUTCOME έχει επιλεγεί ως αυτό το οποίο «δείχνει» σε ποια κατηγορία ανήκει η περίπτωση. Συνήθως πρόκειται (χωρίς να είναι δεσμευτικό) για 47

55 το τελευταίο χαρακτηριστικό που καταχωρούμε και το οποίο δείχνει την κατηγορία στην οποία ανήκει η περίπτωση για προβλήματα κατηγοριοποίησης (classification) ή πρόκειται για την τιμή της παραμέτρου που μας ενδιαφέρει για προβλήματα παλινδρόμησης (regression). Διαφορετικά ιστογράμματα και συσχετίσεις εμφανίζονται επιλέγοντας κάποιο άλλο χαρακτηριστικό από την αναδιπλούμενη λίστα ακριβώς πάνω από το ιστόγραμμα δίπλα από το κουμπί Visualize all (επιλέγοντας δηλαδή να κατηγοριοποιηθεί με βάση κάποιο άλλο χαρακτηριστικό). Χαρακτηριστικά μπορούν να διαγραφούν, επιλέγοντας τα και πατώντας το κουμπί Remove. Με το κουμπί All επιλέγονται όλα τα χαρακτηριστικά, με το κουμπί None «από-επιλέγονται» όλα τα χαρακτηριστικά και με το κουμπί Invert απόεπιλέγονται τα ήδη επιλεγμένα και επιλέγονται τα υπόλοιπα. Με το κουμπί Undo αναιρείται μία ενέργεια. Τέλος με το κουμπί Edit εμφανίζεται το dataset και μπορεί ο χρήστης να επέμβει και να αλλάξει συγκεκριμένα παραδείγματα και χαρακτηριστικά. (Γεωργούλας, 2006) Η Καρτέλα Classify Στην καρτέλα Classify (εικόνα 4.6), δίνεται η δυνατότητα εκπαίδευσης ενός αλγορίθμου μηχανικής μάθησης (ταξινομητής) με βάση τα δεδομένα και η χρησιμοποίηση τους στη συνέχεια για την ταξινόμηση και άλλων δειγμάτων. Εικόνα 4.6: Η καρτέλα Classify 48

56 Επιλογή ταξινομητή (Classifier) Επιλέγοντας Classifier εμφανίζεται ένα μενού ταξινομητών από το οποίο ο χρήστης έχει την δυνατότητα να επιλέξει τον αλγόριθμο που θέλει να εφαρμόσει στα δεδομένα του και την ρύθμιση των παραμέτρων του ταξινομητή. Κάποιοι ταξινομητές εφαρμόζονται μόνο για πρόβλεψη ονομαστικών κατηγοριών (nominal attributes), κάποιοι μόνο για πρόβλεψη αριθμητικών κατηγοριών (numeric attributes) και κάποιοι και για τις δύο κατηγορίες Μέθοδοι εκτίμησης ταξινομητή (Test Options) Τα αποτελέσματα του επιλεγμένου ταξινομητή μπορούν να ελεγχθούν με διάφορους τρόπους, ανάλογα με το τι θα επιλέξει ο χρήστης στο τμήμα Test Options, δηλαδή ανάλογα με το ποια τεχνική θα χρησιμοποιηθεί για την εκπαίδευση του μοντέλου. Οι δυνατότητες που δίνονται είναι οι ακόλουθες: Με χρήση συνόλου εκπαίδευσης (Use training set): Εδώ η απόδοση του ταξινομητή ελέγχεται όσον αφορά στο πόσο καλά προβλέπει την κατηγορία των δεδομένων εκπαίδευσης. Με χρήση συνόλου δοκιμής (Supplied test set): Εδώ η απόδοση του ταξινομητή ελέγχεται όσον αφορά στο πόσο καλά προβλέπει την κατηγορία νέων περιπτώσεων (διαφορετικών από αυτά στα οποία εκπαιδεύτηκε). Οι περιπτώσεις αυτές βρίσκονται στο αρχείο που καθορίζουμε μέσα από την επιλογή SET, το οποίο ονομάζεται σύνολο δοκιμής (test set). Mε τη χρήση της διασταύρωσης (Cross-validation): Σύμφωνα με τη μέθοδο αυτή, τα δεδομένα χωρίζονται σε k υποσύνολα ίσου μεγέθους (folds) και κάθε υποσύνολο χρησιμοποιείται για εκπαίδευση, ενώ τα υπόλοιπα για δοκιμή, εκ περιτροπής. Το τελικό ποσοστό σφάλματος είναι ο μέσος όρος των k ποσοστών. Η μέθοδος ονομάζεται k-fold cross-validation και η πιο διαδεδομένη τιμή για το k είναι το 10, καθώς έχει αποδειχθεί ότι είναι το καλύτερο για μια ακριβέστερη εκτίμηση. Mε το ποσοστό διαχωρισμού (Percentage split): Εδώ η απόδοση του ταξινομητή ελέγχεται όσον αφορά στο πόσο καλά προβλέπει την κατηγορία για ένα συγκεκριμένο ποσοστό περιπτώσεων του αρχικού συνόλου, που παρακρατείται για έλεγχο. Το ποσοστό αυτό καθορίζεται από το χρήστη. 49

57 Πρόκειται για τη διαδικασία της παρακράτησης (hold-out procedure), που χρησιμοποιείται συνήθως όταν τα δεδομένα είναι περιορισμένα. (Κομνηνού, 2010) Αποτελέσματα εξόδου ταξινομητή (Classifier output) Κατόπιν, επιλέγεται το χαρακτηριστικό πρόβλεψης και πατάμε Start. Τα αποτελέσματα παρουσιάζονται στο παράθυρο εξόδου ταξινομητή (Classifier output), τα οποία περιλαμβάνουν τις παρακάτω πληροφορίες (εικόνα 4.7): Πληροφορίες εκτέλεσης (Run information): Εμφανίζονται τα στοιχεία που αφορούν στον αλγόριθμο μάθησης και στις επιλογές του, στη μέθοδο ελέγχου του αλγορίθμου, καθώς και στο αρχείο εκπαίδευσης που χρησιμοποιήθηκε (αριθμός δεδομένων, αριθμός χαρακτηριστικών κλπ.). Μοντέλο ταξινομητή (Classifier model full training set): Παρουσιάζει το μοντέλο ταξινομητή που δημιουργήθηκε από τα δεδομένα εκπαίδευσης. Περίληψη (Summary): Πρόκειται για μια λίστα στατιστικών στοιχείων για την ακρίβεια πρόβλεψης του αλγορίθμου, με βάση τη μέθοδο ελέγχου που επιλέχθηκε. Λεπτομερής ακρίβεια για κάθε κατηγορία (Detailed Accuracy by Class): Η ακρίβεια του ταξινομητή για την πρόβλεψη της κάθε κατηγορίας. Πίνακας σύγχυσης (Confusion Matrix): Πρόκειται για έναν πίνακα που δείχνει πόσες περιπτώσεις αποδόθηκαν σε κάθε κατηγορία. Σε κάθε κελί του πίνακα υπάρχει ένας αριθμός περιπτώσεων που η πραγματική του κλάση είναι η γραμμή στην οποία βρίσκεται και η κατηγορία στην οποία αποδόθηκε από τον αλγόριθμο είναι η στήλη του. = = =Run information= = = Υπάρχει μια λίστα από πληροφορίες σχετικά με τις επιλογές που έχουμε κάνει σε προηγούμενα βήματα. = = =Classifier model (full training set)= = = Μια περιγραφή του μοντέλου που χρησιμοποιήθηκε για την κατηγοριοποίηση των δεδομένων σε όλο το πλήθος των δεδομένων εκπαίδευσης. = = =Evaluation on test split= = = = = =Summary= = = 50

58 Περιέχει τη ζητούμενη πληροφορία. Μια λίστα από στατιστική επεξεργασία και την εγκυρότητα του μοντέλου, που κρίνεται από το ποσοστό των δεδομένων ελέγχου που κατηγοριοποιήθηκαν σωστά με βάση την πρόβλεψη. = = =Detailed Accuracy By Class= = = Πιο λεπτομερείς περιγραφή της πρόβλεψης. = = =Confusion Matrix= = = Παρουσιάζει πόσες περιπτώσεις έχουν κατηγοριοποιηθεί σε κάθε κλάση. Εικόνα 4.7: Αποτελέσματα εξόδου ταξινομητή Η καρτέλα Clusters Η καρτέλα Clusters (εικόνα 4.8) αναφέρεται στην ομαδοποίηση. Χαρακτηριστικοί είναι οι αλγόριθμοι k-means, EM, Cobweb, X-means και FarthestFirst. Σε κάθε περίπτωση, μπορεί να γίνει η αναπαράσταση των αποτελεσμάτων με γραφικό τρόπο. Εικόνα 4.8: Η καρτέλα Clusters Η καρτέλα Associate Η καρτέλα Associate (εικόνα 4.9) προσφέρεται για την δημιουργία κανόνων συσχέτισης. Οι συσχετίσεις εντοπίζονται μεταξύ ομάδων ιδιοτήτων οι οποίες έχουν συγκεκριμένο βαθμό υποστήριξης και εμπιστοσύνης. 51

59 Εικόνα 4.9: Η καρτέλα Associate Η καρτέλα Select Attributes Στην καρτέλα Select Attributes (εικόνα 4.10) εντοπίζονται οι περισσότερο σχετικές ιδιότητες από τα δεδομένα. Για να γίνει αυτό χρησιμοποιείται μια μέθοδος αναζήτησης, όπως best-first, forward selection, random, exhaustive, genetic algorithm και ranking και στην συνέχεια μια μέθοδος αξιολόγησης, όπως correlation-based, wrapper, information gain και chi-squared. Εικόνα 4.10: Η καρτέλα Select Attributes Η καρτέλα Visualize Η τελευταία καρτέλα, η Visualize (εικόνα 4.11), παρουσιάζει έναν πίνακα πλοκών διασποράς, όπου οι μεμονωμένες πλοκές διασποράς μπορούν να επιλεχτούν 52

60 και να διευρυνθούν, και να αναλυθούν περαιτέρω χρησιμοποιώντας διάφορες εφαρμογές χειρισμού. Επιλέγοντας ένα σύνολο δεδομένων (αρχείο.arff), εμφανίζονται γραφικά τα δεδομένα για καθένα από τα γνωρίσματα ξεχωριστά καθώς και στατιστικές πληροφορίες για αυτά. Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση στην οποία ταξινομούνται, τα δεδομένα που ανήκουν στην ίδια κλάση εμφανίζονται με το ίδιο χρώμα (το weka θεωρεί ότι η τελευταία στήλη περιέχει την πληροφορία για την κατηγορία στην οποία ανήκουν τα δεδομένα) Εικόνα 4.11: Η καρτέλα Visualize 53

61 Βιβλιογραφία 1. Γεωργούλας, Γεώργιος (2006). Σημειώσεις από το μάθημα: Εξόρυξης Δεδομένων (Εργαστήριο). Τμήμα Εφαρμογών Πληροφορικής στη Διοίκηση και την Οικονομία. Λευκάδα. 2. Κομνηνού, Μυρσίνη (2010). Διπλωματική Εργασία. Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Πρόβλεψη της Κατανάλωσης σε Ηλεκτρικά Δίκτυα Χαμηλής Τάσης. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης. Θεσσαλονίκη. 3. Τροχίδου, Ιωάννα (2008). Μεταπτυχιακή Εργασία. Ανάλυση Δεδομένων Πιστωτικών Καρτών με Τεχνικές Κατηγοριοποίησης. Πανεπιστήμιο Μακεδονίας. Θεσσαλονίκη. Internet

62 ΚΕΦΑΛΑΙΟ 5: ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ 5.1 Εισαγωγή Η παρούσα εργασία ασχολείται με την δυνατότητα ανάπτυξης ενός συστήματος για την αυτόματη αξιολόγηση αιτήσεων λήψης δανείων. Η ανάπτυξη στηρίζεται σε μια Βάση Δεδομένων στην οποία διατηρούνται στοιχεία για κάθε πελάτη και με βάση αυτών των στοιχείων μέσω της χρήσεως αλγορίθμων εξόρυξης δεδομένων οι οποίοι υλοποιούνται στο πρόγραμμα WEKA, εξετάζεται αν μπορεί να διαπιστωθεί αν ένας πελάτης μπορεί να ξεχρεώσει ένα δάνειο ή όχι. Η αξιοποίηση τέτοιων δεδομένων είναι σημαντική και θα πρέπει να γίνεται με πολλή προσοχή, διότι σε κάθε λανθασμένη υπόδειξη συνεπάγεται σημαντικό κόστος για την τράπεζα. Σε περίπτωση λανθασμένης υπόδειξης για κάποιο πελάτη, η τράπεζα βρίσκεται αντιμέτωπη με σημαντικό κόστος. Αν ένας «κακός» πελάτης χαρακτηριστεί ως «καλός» τότε η τράπεζα κινδυνεύει με απώλεια αποπληρωμής λόγω χρεοκοπίας του πελάτη. Από την άλλη, αν ένας «καλός» πελάτης χαρακτηριστεί ως «κακός» τότε η περαιτέρω εξακρίβωση των χαρακτηριστικών του αποτελεί μια κοστοβόρα διαδικασία για την τράπεζα και επιπλέον είναι πιθανό το ενδεχόμενο διακοπής της συνεργασίας με έναν αξιόπιστο πελάτη. Για την ανάλυση των δεδομένων του προβλήματος και την εξαγωγή συμπερασμάτων χρησιμοποιήθηκαν τα Δέντρα Απόφασης, τα Νευρωνικά Δίκτυα ακτινικών συναρτήσεων βάσης (Radial Basis Function, RBF), η λογιστική παλινδρόμηση, ο αδαής κανόνας του Bayes και ο αλγόριθμος του K πλησιέστερων γειτόνων (nearest neighbors - Knn). 5.2 Περιγραφή του Συνόλου Δεδομένων (dataset) Το σύνολο δεδομένων περιέχει πληροφορίες για ανθρώπους που έχουν πάρει δάνειο (MortgageDefaulters). Ο κάθε πελάτης έχει 13 χαρακτηριστικά εισόδου και ένα χαρακτηριστικό εξόδου. Τα χαρακτηριστικά αυτά περιέχονται στον παρακάτω πίνακα 5.1 και στην εικόνα 5.1 το αποτέλεσμα από το «φόρτωμα» του αρχείου στο WEKA. 55

63 Πίνακας 5.1: Χαρακτηριστικά Εισόδου - Εξόδου Χαρακτηριστικά εισόδου Χαρακτηριστικό Περιγραφή Πιθανές τιμές Bo_Age Ηλικία δανειολήπτη Ln_Orig Αξία του δανείου Orig_LTV_Ratio_Pct Λόγος του δανείου για την αρχική τιμή αγοράς Credit_score Αποτελέσματα πιστωτικών καρτών δανειολήπτη First_home Πρώτη φορά αγοραστής Yes, no σπιτιού? Tot_mthly_debt_exp Συνολική μηνιαία οφειλή εξόδων δανειολήπτη Tot_mthly_incm Συνολικά μηνιαία έσοδα δανειολήπτη orig_apprd_val_amt Εκτίμηση της αξίας του σπιτιού στην αρχή pur_prc_amt Τιμή αγοράς σπιτιού DTI Ratio Χρέος δανειολήπτη προς τα 0 3, έσοδα Πολιτεία της Αμερικής στην NY, IL, WA, NJ, more State οποία είναι βρίσκεται το σπίτι Μέσος όρος εσόδων Median_state_inc νοικοκυριού ανά πολιτεία Ποσό δανείου(ln_orig) > 0-no, 1=yes UPB>Appraisal εκτίμηση (orig_apprd_val_amt) Χαρακτηριστικό εξόδου Δύο εκδοχές της τρέχουσας OUTCOME κατάστασης του δανείου Default, non-default 56

64 Εικόνα 5.3: Χαρακτηριστικά Εισόδου Εξόδου στο Weka 5.3 Ανάλυση αποτελεσμάτων Οι μέθοδοι που χρησιμοποιήθηκαν, υλοποιήθηκαν στο Weka και είναι οι - J.48, Naïve Bayes, Logistic, RBFNetwork και Knn. Η απόδοση των αλγορίθμων αυτών εξαρτάται από κάποιες παραμέτρους που πρέπει να τεθούν από το χρήστη. Στην παρούσα πτυχιακή προσπαθήσαμε να βρούμε το καλύτερο σύνολο παραμέτρων για το συγκεκριμένο πρόβλημα. Για το J.48 η παράμετρος που μεταβάλαμε είναι το confidencefactor και οι τιμές που του δώσαμε είναι: 0.5, 0.10, 0.15, 0.20, 0.25, 0.30, 0.35 και 0.4, και το οποίο καθορίζει πόσο θα «κλαδευτεί» το δέντρο (μικρότερες τιμές αντιστοιχούν σε περισσότερο κλάδεμα και ως συνέπεια σε πιο «απλές» διαχωριστικές υπερεπιφάνειες). Για το Naïve Bayes και το logistic χρησιμοποιήσαμε τις προεπιλεγμένες παραμέτρους. Για το knn δοκιμάσαμε τις τιμές 1,3,5,7,9 για το πλήθος k των κοντινότερων γειτόνων. Τέλος για το RBFNetwork πειραματιστήκαμε με τις τιμές 0.1, 0.3, 0,5, 1 για την παράμετρο minstddev (καθορίζει το εύρος των πυρήνων μεγαλύτερες τιμές αντιστοιχούν σε πιο ομαλές διαχωριστικές επιφάνειες και μεγαλύτερη αλληλοεπικάλυψη) και για την τις τιμές 2, 5, 10, 20, 30,50 (καθορισμός του πλήθους των πυρήνων). Επιπλέον, επειδή υπάρχει ανισοκατανομή των παραδειγμάτων χρησιμοποιήσαμε μία μέθοδο προεπεξεργασίας (φίλτρο) για να βελτιώσουμε την απόδοση και να αντιμετωπίσουμε το πρόβλημα της ανισοκατανομής. Το φίλτρο που χρησιμοποιήσαμε είναι το resample (από την καρτέλα preprocess), το οποίο πραγματοποιεί αναδειγματοληψία των παραδειγμάτων. Στο πεδίο biatouniformclass του resample δοκιμάσαμε τις τιμές 0.0, 0.5 και 1.0 (με 0 να αντιστοιχεί στις αρχικές 57

Δείτε περισσότερα