Ταξινόμηση ανεπιθύμητης αλληλογραφίας εφαρμόζοντας στατιστικές τεχνικές ταξινόμησης με την γλώσσα προγραμματισμού R

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Λόκας Μάριος Α.Ε.Μ 1669 Ταξινόμηση ανεπιθύμητης αλληλογραφίας εφαρμόζοντας στατιστικές τεχνικές ταξινόμησης με την γλώσσα προγραμματισμού R Spam mail classification with statistical classification methods using R programming language Επιβλέπων: Ελευθέριος Αγγελής Αναπληρωτής Καθηγητής

2 2

3 Ευχαριστίες Η διπλωματική αυτή εργασία αναπτύχθηκε με την βοήθεια και υποστήριξη πολλών ατόμων, και αποτέλεσε σημαντική εμπειρία για εμένα δίνοντας μου την ευκαιρία να ασχοληθώ με ένα σημαντικό και ενδιαφέρον θέμα της καθημερινότητας και να αποκομίσω σημαντικές γνώσεις για την πορεία μου στον επιστημονικό κλάδο της Πληροφορικής. Ένα μεγάλο ευχαριστώ αξίζει στον επιβλέποντα καθηγητή της εργασίας, κ. Αγγελή για τη ευκαιρία που μου έδωσε, και στην υποψήφια διδάκτωρ κ. Μακρίνα Βιόλα Κωστή για την πολύτιμη βοήθεια και καθοδήγηση που μου πρόσφερε για την ανάπτυξη της εργασίας αυτής. Μέσω της συνεργασίας μου με την κ. Κωστή μπόρεσα να επιτύχω στην δημιουργία και ολοκλήρωση της διπλωματικής εργασίας μου και γι αυτό την ευχαριστώ θερμά. Επίσης, θέλω να ευχαριστήσω τους φίλους και συναδέλφους μου, για την ασταμάτητη υποστήριξη τους που είχα κατά την διάρκεια ανάπτυξης του έργου. Τέλος, πρέπει να ευχαριστήσω την οικογένεια μου, για την εμπιστοσύνη και βοήθεια που μου παρείχαν κατά την διάρκεια των σπουδών μου. Χωρίς αυτούς δεν θα τα κατάφερνα. Λόκας Μάριος Ιούνιος 2012 Θεσσαλονίκη 3

4 4

5 ΠΕΡΙΛΗΨΗ Η επικοινωνία μέσω του διαδικτύου με την χρήση ηλεκτρονικής αλληλογραφίας παράλληλα με την διευκόλυνση που προσφέρει γέννησε και την έννοια ανεπιθύμητων και ενοχλητικών μηνυμάτων, φαινόμενο που με την σειρά του πυροδότησε μια μεγάλη και σημαντική προσπάθεια για την άμυνα των θυρίδων ενάντια σε αυτό. Ένας από τους πιο αποτελεσματικούς τρόπους αντιμετώπισης αυτού του φαινομένου στηρίζεται στην έννοια της στατιστικής κατηγοριοποίησης (Statistical Classification), σύμφωνα με την οποία αναπτύσσονται συστήματα αναγνώρισης κακόβουλων μηνυμάτων βασισμένα σε στατιστικές τεχνικές και αλγορίθμους μηχανικής μάθησης. Το πρώτο κεφάλαιο αυτής της εργασίας κάνει μια εισαγωγή στο φαινόμενο της ανεπιθύμητης αλληλογραφίας και εξηγεί ορισμένες βασικές έννοιες της Statistical Classification. Στο δεύτερο κεφάλαιο θα μελετηθούν οι τεχνικές σύμφωνα με τις οποίες αναπτύσσονται τέτοια συστήματα κατηγοριοποίησης. Η εργασία αυτή έχει σαν ουσιαστικό σκοπό να αναδείξει ένα καλό μοντέλο κατηγοριοποίησης μέσω πειραμάτων πάνω σε δεδομένα που αντιπροσωπεύουν μια ρεαλιστική κατάσταση μιας γεμάτης ηλεκτρονικής θυρίδας, Το τρίτο κεφάλαιο περιγράφει όλα τα πειράματα που έγιναν πάνω σε τέσσερα διαφορετικά μοντέλα κατηγοριοποίησης, τα αποτελέσματα και τις σκέψεις μας γι αυτά, και τις τελικές αποφάσεις που πήραμε για το επικρατέστερο μοντέλο. Τελικά αποδεικνύουμε ότι μπορούμε να αποκτήσουμε ένα καλό σύστημα κατηγοριοποίησης με αυτές τις μεθόδους, όμως για να περάσουμε στο επόμενο επίπεδο αξιοπιστίας απαιτείται εκτενέστερη ενασχόληση με διαφορετικές καταστάσεις και δεδομένα. 5

6 6

7 ABSTRACT Communicating throughout the internet using electronic mail ( ), along with the privileges it provides, has given birth to the notion of unsolicited and annoying messages, a phenomenon that has created an important wave of research in hopes of guarding addresses against it. One of the most effective ways of dealing with this phenomenon is based on the field of Statistical Classification, according to witch detection systems are developed based on statistical techniques and machine learning algorithms. The first chapter of this thesis introduces the reader to the phenomenon of unsolicited e- mail and gives explanation on the basics of Statistical Classification. During the second chapter, we discuss the techniques, according to which those detection systems are developed. This thesis s original goal is to highlight a good classification model through experiments on data that represent a realistic situation of a full of messages account. The third chapter describes all the experiments we did using four different classification models, our results and thoughts, and our final decisions on which is the best classification model. Finally, we prove that we can develop a good classification-detection system using these models, but to have results that are more reliable a more thorough research is required, on different situations and data. 7

8 Περιεχόμενα ΠΕΡΙΛΗΨΗ... 5 ABSTRACT... 7 ΚΕΦΑΛΑΙΟ 1: ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΕΙΣΑΓΩΓΗ ΤΙ ΕΙΝΑΙ ΚΑΙ ΠΟΥ ΒΑΣΙΖΕΤΑΙ Η ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΑΠΟ ΤΟΝ ΥΠΟΛΟΓΙΣΤΗ Δυαδική κατηγοριοποίηση Κατηγοριοποίηση πολλών κλάσεων ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΓΙΑ ΤΑΞΙΝΟΜΗΣΗ ΑΝΕΠΙΘΥΜΗΤΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΚΕΦΑΛΑΙΟ 2: ΠΕΡΙΓΡΑΦΗ ΑΛΓΟΡΙΘΜΩΝ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΕΙΣΑΓΩΓΗ ΜΗΧΑΝΙΚΉ ΜΆΘΗΣΗ Επιτηρούμενη μάθηση Μη επιτηρούμενη μάθηση Ενισχυτική μάθηση ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Feature Vector και Feature Space Training και Test sets Boosting Overfitting Curse of dimensionality ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ Naive Bayes Δένδρα απόφασης Τεχνητά νευρωνικά δίκτυα AdaBoost Co-training Support Vector Machines K-nearest neighbors Linear Discriminant Analysis Logistic Regression ΥΠΟΒΟΗΘΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ ΕΛΕΓΧΟΥ Cross Validation Bootstrap Aggregating Precision, Recall και άλλα μέτρα ελέγχου ακρίβειας Γραφικές παραστάσεις ΚΕΦΑΛΑΙΟ 3: ΕΦΑΡΜΟΓΗ ΤΩΝ ΑΛΓΟΡΙΘΜΩΝ ΕΙΣΑΓΩΓΗ Η ΓΛΩΣΣΑ R ΑΝΑΛΥΣΗ ΤΟΥ DATASET ΕΦΑΡΜΟΓΗ ΤΩΝ ΑΛΓΟΡΙΘΜΙΚΩΝ ΤΕΧΝΙΚΩΝ ΜΕ ΤΗΝ R Εφαρμογή των k-nearest neighbors Εφαρμογή των Support Vector Machines Εφαρμογή Linear Discriminant Analysis Εφαρμογή Logistic Regression ΣΥΓΚΡΙΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΚΕΦΑΛΑΙΟ 4: ΤΕΛΙΚΑ ΣΥΜΠΕΡΑΣΜΑΤΑ

9 ΠΑΡΑΡΤΗΜΑ Α Α.1 ΔΗΜΙΟΥΡΓΊΑ DATA FRAMES ΑΠΌ ΤΑ ΔΕΔΟΜΈΝΑ A.2 ΜΟΝΤΈΛΟ K-NN A.3 ΜΟΝΤΈΛΟ SVM A.4 ΜΟΝΤΈΛΟ LDA A.5 ΜΟΝΤΈΛΟ LOGISTIC REGRESSION A.6 ΥΠΟΛΟΓΙΣΜΌΣ ΜΈΤΡΩΝ ΑΠΌ ΠΊΝΑΚΑ ΕΝΔΕΧΟΜΈΝΩΝ ΑΝΑΦΟΡΈΣ Εικόνες Εικόνα 1.1 Κατηγοριοποίηση σε πολλές κλάσεις μέσω ενός δένδρου. Πηγή: (Aly,2005) Εικόνα 2.1. Παράδειγμα overfitting σε χώρο 2 διαστάσεων Εικόνα 2.2. Η νέα παρατήρηση θεωρείτε πιο πιθανό να ανήκει στην κλάση "Άνδρες", επειδή υπάρχουν περισσότερα instances ανδρών «κοντά» στην περιοχή της Εικόνα 2.3. Ένα δένδρο απόφασης για την απόφαση εισαγωγής πτυχιακών σε ένα μεταπτυχιακό τμήμα σπουδών Εικόνα 2.4. Παράδειγμα ADTree για την κατηγοριοποίηση mail. Πηγή: 39 Εικόνα 2.5. Αναπαράσταση ενός multilayer perceptron. Πηγή: (Tretyakov, 2004) Εικόνα 2.6. Γραφική αναπαράσταση του υπερ-επιπέδου διαχωρισμού στον δισδιάστατο χώρο Εικόνα 2.7. Η παρατήρηση στην λάθος μεριά επηρέασε το διαχωριστικό επίπεδο. Η κλίση είναι διαφορετική από την εικόνα Εικόνα 2.8. Μη γραμμικά διαχωριζόμενα δεδομένα Εικόνα 2.9. Τα δεδομένα είναι πλέον γραμμικά διαχωριζόμενα Εικόνα 2.10 Το πρόβλημα της κατηγοριοποίησης ανδρών και γυναικών με τον αλγόριθμο k-nn.. 56 Εικόνα 2.11 Η νέα παρατήρηση κατηγοριοποιείται σωστά με k=5, αλλά για k=13 η κατηγοριοποίηση είναι λάθος Εικόνα 3.1 Το γραφικό περιβάλλον της R Εικόνα 3.2 Ένα δείγμα τον δυνατοτήτων σχεδιασμού γράφων της R Εικόνα 3.3. Γραφικές παραστάσεις των Accuracy, F-score, Recall-Precision και Recall-Specificity του radial kernel Εικόνα 3.4. Γραφικές παραστάσεις των Accuracy, F-score, Recall-Precision και Recall-Specificity της LDA Εικόνα 3.5. Γραφικές παραστάσεις για την LR με όλο το dataset Εικόνα 3.6. Γραφικές παραστάσεις για την εκτίμηση του μοντέλου στο 2 ο μισό dataset Πίνακες Πίνακας 2.1. Τα στοιχεία ενός instance για ένα ADTree Πίνακας 3.1. Τιμές μέτρων εκτίμησης για k-nearest neighbors με όμοια training και test sets Πίνακας 3.2. Τιμές μέτρων εκτίμησης για k-nearest neighbors με leave-one-out cross validation Πίνακας 3.3. Μέτρα ακρίβειας του μοντέλου SVM για διαφορετικούς kernels με 200-fold cross validation Πίνακας 3.4. Τα εξαγόμενα αποτελέσματα της binary_eval για test set ίσο με το μισό του dataset Πίνακας 3.5. Εφαρμογή LDA με leave-one-out cross validation για training set μισό του πρωτότυπου Πίνακας 3.6. Μετρήσεις του μοντέλου στο 2 ο μισό dataset Πίνακας 3.7. LDA με leave-one-out cross validation Πίνακας 3.8. LR με όλο το dataset

10 Πίνακας 3.9. Αποτελέσματα κατηγοριοποίησης LR με το 1 ο μισό dataset Πίνακας Τα εξαγόμενα αποτελέσματα της binary_eval για LR Πίνακας Τελική σύγκριση των μοντέλων κατηγοριοποίησης

11 ΚΕΦΑΛΑΙΟ 1: ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ 1.1 ΕΙΣΑΓΩΓΗ Είναι κοινώς αποδεκτό ότι το ηλεκτρονικό ταχυδρομείο έλυσε πολλά προβλήματα επικοινωνίας από απόσταση. Καθημερινά, εκατομμύρια μηνύματα ανταλλάσσονται μεταξύ εκατοντάδων υπηρεσιών ηλεκτρονικών ταχυδρομείων, έχοντας μετατρέψει την άμεση επικοινωνία από απόσταση αναγκαίο και αναπόσπαστο κομμάτι της κοινωνίας. Η κατοχή ηλεκτρονικής θυρίδας έχει γίνει τόσο χρήσιμη για ένα άτομο όσο και το τηλέφωνο. Πρέπει να ληφθεί υπ όψιν όμως ότι το είναι έμμεση επικοινωνία δεν έχει την αμεσότητα π.χ. του τηλεφώνου. Ακούγοντας την φωνή κάποιου μπορείς να είσαι σίγουρος μέχρι κάποιο βαθμό για το άτομο που μιλάς και τον σκοπό του τηλεφωνήματος. Αντίθετα, το είναι γραπτό κείμενο, και είναι δύσκολο να αναγνωριστεί με σιγουριά αν γράφτηκε αποκλειστικά από έναν άνθρωπο ή από κάποιο αυτοματοποιημένο πρόγραμμα υπολογιστή. Λόγω του χαμηλού κόστους της δημιουργίας ενός μηνύματος, διάφορα άτομα ξεκίνησαν να εκμεταλλεύονται το ως έναν νέο τρόπο διαφήμισης. Έτσι, μέσα στα εκατομμύρια μηνύματα που στέλνονται καθημερινά ένα σημαντικό ποσοστό αποτελείται από διαφημιστικά τα οποία επί το πλείστον τείνουν να ενοχλούν τους παραλήπτες παρά να τους ωφελούν ή να τους ενημερώνουν. Σιγά-σιγά αυτή η χρήση των έγινε γνωστή σε πολλές εταιρίες στον πλανήτη οι οποίες δεν δίστασαν να εκμεταλλευτούν τον νέο τρόπο διαφήμισης προς όφελός τους. Επιπλέον, εκτός από διαφήμιση ένα άλλο ποσοστό αυτών των μηνυμάτων αποσκοπεί σε παράνομες πράξεις, όπως να υποκλέψει προσωπικά στοιχεία (κωδικούς πρόσβασης σε λογαριασμούς, στοιχεία σύνδεσης σε ιστοχώρους κ.α.) υποσχόμενα συμμετοχή σε διαγωνισμούς, δώρα, ταξίδια κ.λπ. Οποιοσδήποτε κατέχει ηλεκτρονική θυρίδα κάποια στιγμή έλαβε κάποιο μήνυμα με «περίεργο» περιεχόμενο από άγνωστο αποστολέα. Τις περισσότερες φορές το μήνυμα αυτό αναγνωρίστηκε αυτόματα ως ανεπιθύμητο από την υπηρεσία, εξαιτίας της προόδου που έχει γίνει στο τομέα της κατηγοριοποίησης . Από το μικρό ποσοστό που ίσως το μήνυμα να μην θεωρήθηκε ανεπιθύμητο, ένα ακόμη πιο μικρό μέρος διαβάστηκε χωρίς να φέρει υποψίες για το πώς και γιατί έφτασε στην θυρίδα. Επειδή μάλλον δεν 11

12 έχουν όλοι την ίδια εξοικείωση με το Internet, αυτό το μικρό μέρος μπορεί να πέτυχε τον σκοπό του, δηλαδή να περάσει διαφημιστικά μηνύματα ή ακόμη χειρότερα να προκαλέσει το άτομο να υποβάλει προσωπικά στοιχεία. Η κατηγοριοποίηση βέβαια δεν έχει εφαρμογή μόνο στην αναγνώριση αλληλογραφίας. Ο D.J. Hand (D.J Hand,1981) αναφέρει πολλές εφαρμογές μεθόδων κατηγοριοποίησης: Αναγνώριση της εθνικότητας του ιδιοκτήτη ενός αρχαίου κρανίου, μια από τις πρώτες προσπάθειες κατηγοριοποίησης. Εκτίμηση της απόδοσης καλλιεργειών και αναγνώριση πιθανών επιβλαβών ασθενειών από φωτογραφίες τραβηγμένες από μεγάλο υψόμετρο. Στην ιατρική, για την απόφαση του πιο κατάλληλου τύπου εγχείρησης σε άτομα που πάσχουν από καρκίνο του μαστού, για την πρόβλεψη ισχαιμικών ασθενειών, για την πρόβλεψη υποτροπιάζουσας φυματίωσης κ.α. Στην αναγνώριση ομιλίας, στην οποία τα υποκείμενα που είναι προς κατηγοριοποίησης είναι ηχητικές κυματομορφές. Σε μελέτες πάνω σε ανθρώπους για την έγκαιρη αναγνώριση διαταραγμένων προσωπικοτήτων ή ψυχικών ασθενειών. Κάθε παράδειγμα εφαρμογής δείχνει όλο και περισσότερο το πόσο σημαντικό είναι στις μέρες μας να έχουμε σωστές αναγνωρίσεις. Μολονότι αυτές οι αναγνωρίσεις γίνονταν σχεδόν πάντα από τους ειδικούς, ο κλάδος της τεχνητής νοημοσύνης που ονομάζεται μηχανική μάθηση μπορεί να επιτρέψει στους υπολογιστές να κάνουν τις ίδιες ενέργειες, ίσως και πιο ακριβέστερα, χωρίς την ανάγκη για πολύχρονη εξειδίκευση από μεμονωμένα άτομα ή ομάδες. Σε αυτήν την πτυχιακή εργασία θα εξεταστεί πώς μπορούν να χρησιμοποιηθούν αλγοριθμικές τεχνικές μηχανικής μάθησης, αλλά και τεχνικές στατιστικής ανάλυσης, για την κατηγοριοποίηση ηλεκτρονικών μηνυμάτων. Οι τεχνικές αυτές θα αναλυθούν, θα εφαρμοστούν σε ένα σώμα δεδομένων (corpus) που αντιπροσωπεύει μηνύματα και τα αποτελέσματα θα συγκριθούν και θα σχολιαστούν. Σκοπός μας θα είναι να ανακαλύψουμε την πιο αποτελεσματική τεχνική κατηγοριοποίησης με βάση τα αποτελέσματα. Οι εφαρμογές των μεθόδων και η εξαγωγή των αποτελεσμάτων θα γίνουν με την γλώσσα προγραμματισμού R. 12

13 1.2 Τι είναι και που βασίζεται η κατηγοριοποίηση Η πράξη της κατηγοριοποίησης και της διάκρισης είναι από τις πιο συχνές ενέργειες του εγκεφάλου και πολλές φορές μπορεί να γίνεται ασυναίσθητα. Για παράδειγμα, όταν επιλέγουμε φαγητό σε κάποιο εστιατόριο, κατηγοριοποιούμε τις πιθανές μερίδες σε τάξεις αναλόγως την επιθυμία μας, και διακρίνουμε την καταλληλότερη σκεπτόμενοι τους διαφορετικούς παράγοντες, όπως χρηματικό κόστος, διαθεσιμότητα, χρόνο παρασκευής κ.α. Αυτά αποτελούν τα χαρακτηριστικά (attributes) της κάθε πιθανής επιλογής και σύμφωνα με αυτά γίνεται η διάκριση. Το παράδειγμα αυτό περιγράφει μια απλούστατη εφαρμογή της κατηγοριοποίησης. Μια πιο σύνθετη εφαρμογή θα ήταν ο χαρακτηρισμός ενός μαθητή ως άριστου, καλού ή μέτριου. Σε αυτήν την περίπτωση τα χαρακτηριστικά που έχουμε να λάβουμε υπ όψιν είναι πολύ περισσότερα (βαθμολογίες γραπτών και προφορικών για το κάθε μάθημα, διαγωγή). Αυτή η ενέργεια μπορεί να περιγράφεται σε κείμενα ως δύσκολη και πολύπλοκη για να γίνει από τον υπολογιστή, όμως στην πραγματικότητα ο ανθρώπινος νους μπορεί να την πράξει χωρίς ιδιαίτερη προσπάθεια. Είναι δυνατόν να παρακολουθήσουμε μερικά μαθήματα μιας τάξης και να έχουμε αμέσως μια καλή προσέγγιση του επιπέδου του κάθε μαθητή. Ο ουσιαστικός σκοπός όμως είναι να εκμεταλλευτούμε τις δυνατότητες του υπολογιστή για να πετύχουμε πιο ακριβής ταξινόμηση. Επομένως, η φαινομενικά εύκολη πράξη που γίνεται μέσα στον εγκέφαλο πρέπει να μεταφραστεί σε μορφή κατανοητή από τον υπολογιστή. Για να γίνει αυτό, πρέπει να του δώσουμε κάποιο είδος κανόνων απόφασης, σύμφωνα με τους οποίους θα εξάγει τα αποτελέσματα του. 1.3 Κατηγοριοποίηση από τον υπολογιστή Ο υπολογιστής δεν μπορεί να κατηγοριοποιήσει μια παρατήρηση ή ένα αντικείμενο με τον τρόπο που το κάνει ο άνθρωπος. Ο χαρακτηρισμός ενός μαθητή ως καλού στα Μαθηματικά δεν σημαίνει κάτι όταν προσπαθεί να χρησιμοποιηθεί από κάποιο μηχάνημα. Όμως το να πεις ότι ο βαθμός του είναι π.χ. 8 στα 10 δίνει μια πρώτη εντύπωση για το επίπεδο του. Άρα είναι πιο βολικό να αναπαραστήσουμε τους μαθητές ή γενικότερα τα αντικείμενα ως ακολουθίες τιμών, που η κάθε μια θα δείχνει τον βαθμό σε 13

14 κάποιο χαρακτηριστικό (μάθημα) του. Έτσι μπορούμε να δώσουμε στον υπολογιστή διανύσματα (vectors) που θα παριστάνουν την πληροφορία σε μορφή εύκολα κατανοητή και προσπελάσιμη. Σε όλες τις πειραματικές εφαρμογές τεχνικών κατηγοριοποίησης χρησιμοποιούνται διάφορα τέτοια σώματα, δηλαδή ακολουθίες διανυσμάτων αυτής της μορφής. Χρησιμοποιώντας αυτά τα σώματα, κάποιος αλγόριθμος μπορεί να εκπαιδευτεί έτσι ώστε να κάνει προβλέψεις μέσω κάποιον κανόνων για αντικείμενα έξω από το σώμα εκπαίδευσης (training set). Η διαδικασία εξαγωγής των κανόνων ονομάζεται διάκριση (discrimination) (D.J. Hand,1981) ενώ κατηγοριοποίηση (classification) είναι η διαδικασία με την οποία μια απόφαση παίρνεται, σύμφωνα με την οποία ένα συγκεκριμένο instance ανήκει σε ή θυμίζει μια μεγαλύτερη ομάδα ή κλάση (Klecka, 1980). Με την πάροδο των χρόνων οι δύο αυτοί όροι απέκτησαν ταυτόσημη σημασία, συνοψίζοντας όλες τις ενέργειες που γίνονται για την αναγνώριση της ταυτότητας μιας παρατήρησης (instance). Ένα μεγάλο μέρος των τεχνικών που χρησιμοποιούνται για κατηγοριοποίηση λειτουργεί με τον εξής τρόπο: ένα instance αναπαριστάται ως ένα σημείο σε έναν πολυδιάστατο χώρο. Ύστερα μπορούμε να χειριστούμε τα σημεία μας με διάφορους τρόπους, για παράδειγμα να ελέγξουμε τον χώρο «κοντά» στο σημείο για άλλα instances και να αποφασίσουμε με βάση την κλάση αυτών (k-nearest neighbors, naïve Bayes). Οι διαστάσεις του χώρου εξαρτώνται από το πλήθος των χαρακτηριστικών, για παράδειγμα αν ένας μαθητής εξετάζεται σε 3 μαθήματα, η αναπαράσταση του είναι ένα σημείο στον τρισδιάστατο χώρο. Ο πολυδιάστατος χώρος είναι μια θεωρητική έννοια καθώς δεν είναι δυνατόν για τον ανθρώπινο νου να συλλάβει περισσότερο από τέσσερις το πολύ διαστάσεις. Για παράδειγμα, αν είχαμε κάποιο instance με 6 χαρακτηριστικά, ο χώρος που αναπαριστάται αυτό είναι 6 διαστάσεων. Γενικά, για k χαρακτηριστικά έχουμε k διαστάσεις, οι οποίες εξερευνούνται μόνο σε θεωρητικό επίπεδο. Ας θεωρήσουμε ότι ο μαθητής κατηγοριοποιείται είτε καλός είτε κακός. Έτσι, έχουμε δύο κλάσεις για να διακρίνουμε τα instances μας. Ένα πρόβλημα κατηγοριοποίησης που έχει να διακρίνει ανάμεσα σε δύο κλάσεις λέγεται δυαδικό, και αποτελεί την απλούστερη μορφή κατηγοριοποίησης. Η κατηγοριοποίηση μπορεί να πάρει όμως και άλλη μορφή όταν πρόκειται να ταξινομήσουμε ανάμεσα σε περισσότερες των δύο κλάσεις. Είναι εύκολα κατανοητό ότι 14

15 όσες περισσότερες κλάσεις πρέπει να διακρίνουμε, τόσο πιο δύσκολη γίνεται όλη η διαδικασία και αυτό αντικατοπτρίζεται στο ποσό δεδομένων που πρέπει να χρησιμοποιήσουμε, στους αλγορίθμους που επιτρεπόμαστε να εφαρμόσουμε (καθώς δεν είναι όλοι οι αλγόριθμοι κατάλληλοι για κατηγοριοποίηση πολλών κλάσεων) αλλά και στα πειράματα, στις παραδοχές που θα γίνουν κ.λπ Δυαδική κατηγοριοποίηση Γενικά, μια πράξη κατηγοριοποίησης ονομάζεται δυαδική (binary) όταν οι κλάσεις που διακρίνονται είναι δύο. Παράδειγμα δυαδικής κατηγοριοποίησης είναι η κατηγοριοποίηση των σε υγιή και κακόβουλα, ο χαρακτηρισμός μια καρκινικής μάζας ως καλοήθης ή κακοήθης (Wu et al., 2003), το παράδειγμα της κατηγοριοποίησης μιας πράξης τρομοκρατικής ομηρίας όσον αφορά την ακεραιότητα των ομήρων (Hand,1981) κ.λπ. Από την άλλη μεριά, έχουμε την κατηγοριοποίηση πολλών κλάσεων (multiclass) όταν οι πιθανές ταξινομήσεις είναι παραπάνω των 2. Για παράδειγμα, η διάγνωση του τύπου καρκίνου ενός ασθενή μέσω έλεγχου καρκινικών μορίων και ιστού (Ramaswamy et al., 2001) αποτελεί πρόβλημα κατηγοριοποίησης πολλών κλάσεων Κατηγοριοποίηση πολλών κλάσεων Η κατηγοριοποίηση πολλών κλάσεων (multiclass) συχνά απαιτεί τροποποίηση του αλγόριθμου που χρησιμοποιείται. Οι αλγόριθμοι στη συνέχεια θα περιγραφούν όπως είναι σχεδιασμένοι για την απλούστερη μορφή κατηγοριοποίησης, δηλαδή να αντιμετωπίζουν δυαδικά προβλήματα, καθώς και το κύριο μέλημα μας είναι η μελέτη δυαδικής κατηγοριοποίησης. Βέβαια, η ταξινόμηση πολλών κλάσεων δεν είναι πρόβλημα που αντιμετωπίζεται με πολύπλοκες μετατροπές. Για παράδειγμα, χρησιμοποιώντας ένα δένδρο δυαδικής κατηγοριοποίησης (decision tree classifier) μπορούμε να κατασκευάσουμε πολλά δένδρα, όπου το καθένα που θα ελέγχει μια συγκεκριμένη κλάση εναντίων μιας άλλης (one-versus-all) ή επαναλαμβάνοντας την ίδια πράξη για όλες τις κλάσεις (all-versus-all). Γενικότερα, είναι δυνατόν να έχουμε k κατηγοριοποιητές για την one-versus-all προσέγγιση και k(k 1) 2 για την all-versus-all προσέγγιση (Aly, 2005). Ο 15

16 κάθε κατηγοριοποιητής μπορεί επίσης να χρησιμοποιεί ελαφρώς αλλαγμένα δεδομένα με σκοπό την καλύτερη γενίκευση σε άγνωστα δεδομένα. Αυτή η τεχνική, η οποία αποκαλείται bootstrap aggregating, θα εξηγηθεί σε επόμενο κεφάλαιο καθώς αποτελεί έναν αποτελεσματικό τρόπο αύξησης της ακρίβειας ενός αλγορίθμου κατηγοριοποίησης. Μια άλλη προσέγγιση στην κατηγοριοποίηση πολλών κλάσεων μπορεί να χρησιμοποιεί τα δένδρα δυαδικής κατηγοριοποίησης ενώνοντας τα και κατασκευάζοντας μια ιεραρχική διαμέριση των κλάσεων. Αν για παράδειγμα ένα δένδρο κατασκευαστεί με τέτοιο τρόπο ώστε στους αρχικούς κόμβους να γίνεται μια πιο γενική διάκριση των δεδομένων και στην συνέχεια καθώς το δένδρο βαθαίνει η κατηγοριοποίηση να γίνεται σε πιο συγκεκριμένα χαρακτηριστικά, το δένδρο μπορεί πλέον να πράξει κατηγοριοποίηση πολλών κλάσεων. Ασφαλώς εδώ ο κάθε κόμβος αποτελεί ένα δυαδικό ταξινομητή από μόνο του. Η διαφορά αυτής της ιεραρχικής κατηγοριοποίησης (hierarchical classification) από τις προηγούμενες προσεγγίσεις multiclass classification είναι όχι στον όγκο συναρτήσεων κατηγοριοποίησης που θα δημιουργηθούν αλλά στην απλοποίηση της διαδικασίας, κατασκευάζοντας ένα ενιαίο σύστημα. Η επόμενη εικόνα περιγράφει ένα τέτοιο δένδρο κατηγοριοποίησης. 16

17 Εικόνα 1.1 Κατηγοριοποίηση σε πολλές κλάσεις μέσω ενός δένδρου. Πηγή: (Aly,2005) 1.4 Κατηγοριοποίηση για ταξινόμηση ανεπιθύμητης αλληλογραφίας Όπως αναφέρθηκε και σε προηγούμενη ενότητα, η άκρατη χρήση του για διαφημιστικούς και δόλιους σκοπούς δημιούργησε την ανάγκη για διάκριση του spam (ανεπιθύμητου) μηνύματος από το ham (ή non-spam, δηλ. υγιές). Με την κατάλληλη εμπειρία ένα άτομο εύκολα θα αναγνώριζε ένα spam και θα το αγνοούσε ή θα το διέγραφε. Σε μια ρεαλιστική κατάσταση όμως δεν είναι δυνατόν να χρησιμοποιούμε την εμπειρία κάποιου διαρκώς, καθώς ο όγκος δεδομένων για κατηγοριοποίηση είναι πολύ μεγάλος. Από αυτήν την εμπειρία πηγάζει και ένα σημαντικό πλεονέκτημα για την διάκριση των e- mail. Τέτοιου είδους γράφονται με συγκεκριμένο τρόπο. Η χρήση λέξεων όπως «δώρο», «κερδίστε», «τηλεφωνήστε», υπονοούν αμέσως κάποιο μήνυμα που δεν έχει σταλθεί από γνωστό αποστολέα. Ο τρόπος γραφής διαφημιστικών έχει παρατηρηθεί και έτσι αναλύοντας κάποιο εισερχόμενο μήνυμα και μετρώντας τις 17

18 συχνότητες εμφάνισης συγκεκριμένων λέξεων του μπορούμε να το περάσουμε από ένα εκπαιδευμένο σε παρόμοιες καταστάσεις πρόγραμμα για την αναγνώριση του. Το spam στην πρώιμη του μορφή ήταν εύκολο να αντιμετωπιστεί. Χρησιμοποιώντας black lists (μαύρες λίστες) που διανέμονταν ελεύθερα και φιλτράρισμα λέξεων του μηνύματος το μεγαλύτερο μέρος των spam mail αναγνωρίζονταν και αποφεύγονταν. Στις μέρες μας όμως το φαινόμενο των spam έχει εξελιχθεί. Οι κακόβουλοι αποστολείς βρίσκουν συνέχεια τρόπους να παραβιάζουν τις νεότερες τεχνικές αναγνώρισης. Σήμερα, οι πιο συχνοί τρόποι αποφυγής spam και phising μηνυμάτων είναι οι εξής (MX Logic, 2004): black and white address lists (μαύρες και λευκές λίστες διευθύνσεων): Για κάθε domain του διαδικτύου οι διαχειριστές μπορούν να καθορίσουν διευθύνσεις από τις οποίες τα mail θα μπλοκάρονται ή θα γίνονται αποδεκτά αυτόματα. Επίσης, οι πιο ενημερωμένες λίστες διανέμονται και σε άλλα domains. Heuristic techniques (ευριστικές τεχνικές): τεχνικές με κανόνες που προσαρμόζονται συνεχώς καθώς νέα spam μηνύματα αντιμετωπίζονται. Αυτές οι τεχνικές λειτουργούν συνήθως ελέγχοντας συχνές λέξεις που εμφανίζονται σε spam mail. Statistical Classification (στατιστική κατηγοριοποίηση): Η τεχνική στην οποία αναφερόμαστε σε αυτήν την εργασία.. Η κατηγοριοποίηση γίνεται με βάση ένα χρησιμοποιούμενο corpus και ένα κρίνεται με βάση του πόσο τα χαρακτηριστικά του «έμοιαζαν» στα μέσα στο σώμα. Η πιο κοινή μηχανή στατιστικής κατηγοριοποίησης βασίζεται στον naïve Bayes και ονομάζεται Bayesian filtering. challenge - response (πρόκληση - απάντηση): μέθοδος που χρησιμοποιεί μια white list η οποία σιγά-σιγά προσθέτει επιτρεπόμενες διευθύνσεις, οι οποίες επιβεβαιώνονται από τους χρήστες. Ύστερα από μια αποστολή μηνύματος, επιστρέφεται μια απάντηση η οποία ζητάει επιβεβαίωση ότι ο αποστολέας είναι άνθρωπος και όχι κάποια μηχανή μαζικής αυτόματης αποστολής, συνήθως ζητώντας την συμπλήρωση κάποιου μικρού quiz. Μόλις γίνει η επιβεβαίωση η διεύθυνση αυτή προσθέτεται στην white list. 18

19 μέθοδος Honey pots: διοχετεύοντας στο Internet ψεύτικες διευθύνσεις, μια εταιρία μπορεί να αποκτήσει πολλές διευθύνσεις κακόβουλων αποστολέων τις οποίες ύστερα μπορεί να διανέμει σαν μαύρες λίστες. reputation analysis (ανάλυση φήμης): εποπτεύονται οι διευθύνσεις IP ενός δικτύου και το ποσοστό ανεπιθύμητων μηνυμάτων που στέλνει η κάθε μια. Αν μια ξεπεράσει κάποια τιμή κατωφλίου spam μηνυμάτων χαρακτηρίζεται σαν πηγή ανεπιθύμητων μηνυμάτων και αυτόματα παρεμποδίζεται από το υπόλοιπο δίκτυο. sender authentication (επιβεβαίωση αποστολέα): όλα τα αξιόπιστα domains εξάγουν μια λίστα με τις διευθύνσεις IP τους. Επειδή πολλά spam μηνύματα κατασκευάζονται έτσι ώστε να φαίνεται ότι προέρχονται από κάποιο τέτοιο domain, ελέγχονται και οι διευθύνσεις IP του κάθε αποστολέα για να βρεθεί αντιστοιχία μεταξύ domain και IP. Το μήνυμα απορρίπτεται αν δεν υπάρχει σχέση domain - IP. Το 2ο κεφάλαιο πραγματεύεται αλγορίθμους μηχανικής μάθησης και στατιστικά μοντέλα και την εφαρμογή αυτών σε περιπτώσεις κατηγοριοποίησης. Λόγω του ότι είναι αρκετές αυτές οι μέθοδοι θα εξηγηθούν οι πιο γνωστές. Θα αναλυθούν τα προτερήματα και μειονεκτήματα του καθενός και θα αναφέρουμε περιπτώσεις όπου έχει εφαρμοστεί η καθεμία και τα αποτελέσματα τους. 19

20 ΚΕΦΑΛΑΙΟ 2: ΠΕΡΙΓΡΑΦΗ ΑΛΓΟΡΙΘΜΩΝ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ 2.1 Εισαγωγή Η έννοια του αλγορίθμου είναι μια από τις πιο βασικές στον κλάδο της πληροφορικής. Αυτή η ακολουθία πεπερασμένων εντολών, που γίνεται με σκοπό την επίλυση ενός προβλήματος μπορεί να πάρει πολλές μορφές, αναλόγως την γλώσσα προγραμματισμού που χρησιμοποιείται, και την μορφή του προβλήματος. Για παράδειγμα, η εφαρμογή των Support Vector Machines σε κατηγοριοποίηση διαφορετικού σώματος είναι πιθανό να χρειάζεται μετατροπές για να λειτουργήσει αποτελεσματικά, λόγω μερικών βασικών χαρακτηριστικών της συγκεκριμένης περίπτωσης. Ένα άλλο παράδειγμα αποτελεί ο αλγόριθμος k-nn, ο οποίος έχει γνωρίσει αρκετές παραλλαγές, με κάθε μια να επιλύει προβλήματα της προηγουμένης. Γενικότερα όμως, η χρήση κάποιου αλγορίθμου έχει καθορισμένα γενικά βήματα σε όλες τις εφαρμογές. Σκοπός μας δεν είναι να αναλύσουμε και να εξηγήσουμε όλες τις διαφορετικές παραλλαγές του κάθε αλγόριθμου, αλλά να εξηγήσουμε την βασική ιδέα και βήματα του καθενός. Η χρήση αλγορίθμων μηχανικής μάθησης και στατιστικής ανάλυσης στην κατηγοριοποίηση έχει πολλά πλεονεκτήματα. Ο μεγάλος όγκος δεδομένων αντιμετωπίζεται με την ικανότητα που έχουν οι αλγόριθμοι και τα προγράμματα για επανάληψη εντολών. Το πρόβλημα του τεράστιου hyperplane (υπερ επιπέδου) λόγω των πολλών χαρακτηριστικών ενός σώματος είναι επίσης κάτι που μπορεί να λυθεί μέσω προγραμμάτων. 2.2 Μηχανική Μάθηση Η μηχανική μάθηση μελετάει το πώς μπορεί ένας υπολογιστής να «μάθει», δηλαδή να χρησιμοποιεί προσαρμόσιμα προγράμματα τα οποία αναλύουν δεδομένα και αναπτύσσουν συμπεριφορά για κάποιου είδους πρόβλημα. Για τον κλάδο της κατηγοριοποίησης θέλουμε αυτά τα προγράμματα να κατηγοριοποιούν δεδομένα σε κλάσεις σύμφωνα με τα χαρακτηριστικά τους, έχοντας μελετήσει προηγουμένως 20

21 παρόμοια δεδομένα. Εκμεταλλευόμενοι την δυνατότητα ανάκλησης μεγάλου όγκου δεδομένων που έχουν οι υπολογιστές, σε αντίθεση με τους ανθρώπους, είναι δυνατόν να δημιουργηθούν έξυπνες αυτοματοποιημένες λειτουργίες για την αντιμετώπιση ενός σημαντικού αριθμού των προβλημάτων κατηγοριοποίησης-ταξινόμησης-διάκρισης της σχετιζόμενης με την τεχνολογία καθημερινότητας μας, ή ακόμη και πιο περίπλοκες διαδικασίες που σχετίζονται με την τεχνητή νοημοσύνη. Αναφέραμε προηγουμένως ότι κάποιος αλγόριθμος μηχανικής μάθησης θα χρησιμοποιήσει ένα σετ εκπαίδευσης (training set) για να εξάγει τους κατάλληλους κανόνες. Αναλόγως την μορφή και την χρήση του σετ αυτού διακρίνουμε τρείς κύριες κατηγορίες αλγορίθμων μηχανικής μάθησης, τους αλγορίθμους επιτηρούμενης μάθησης (supervised learning), τους αλγορίθμους μη επιτηρούμενης μάθησης (unsupervised learning) και τους αλγορίθμους ενισχυτικής μάθησης (reinforcement learning) Επιτηρούμενη μάθηση Η τυπική χρήση του training set και η πιο αποτελεσματική από άποψη σωστής κατηγοριοποίησης (αναφέρεται και ως induction ή inference). Σύμφωνα με αυτήν την τεχνική, ο αλγόριθμος προσπαθεί να μάθει από ένα training set το οποίο έχει ήδη ταμπέλες κλάσης για κάθε instance. Αυτό σημαίνει ότι κάθε φορά που θα χρησιμοποιήσει ο αλγόριθμος κάποιο instance, γνωρίζει ήδη την κλάση του μέσω ενός ονομαστικού (nominal) χαρακτηριστικού, ή όπως στο corpus που θα χρησιμοποιήσουμε με κάποιο διακριτό attribute που έχει τιμές 0 ή 1 αντίστοιχα για κάθε κλάση. Αυτή η γνώση μπορεί να χρησιμοποιηθεί π.χ. για να καταλάβει ο αλγόριθμος τις ομοιότητες μεταξύ παρατηρήσεων της ίδιας κλάσης, για να παρατηρηθεί η αποτελεσματικότητα του αλγορίθμου ή των επιμέρους εργαλείων κατηγοριοποίησης του (Breiman, 1994). Γενικά είναι πολύ χρήσιμο να γνωρίζουμε την κλάση των παρατηρήσεων του training set. Οι αλγόριθμοι επιτηρούμενης μάθησης αδυνατούν να δουλέψουν αν δεν γνωρίζουμε την κλάση έστω κάποιου μέρους των παρατηρήσεων, αν όχι όλων. Αν και αυτό είναι αρκετά βολικό, πολλές φορές πρέπει να λάβουμε υπ όψιν και το κόστος της απόκτησης τέτοιου σετ. Ίσως να χρειαστεί κάποιο εξειδικευμένο άτομο το οποίο θα πρέπει να κατηγοριοποιήσει τις παρατηρήσεις, το οποίο μεταφράζεται σε χρηματικό κόστος. 21

22 Υπάρχουν διάφορες γενικευμένες διαφοροποιήσεις της επιτηρούμενης μάθησης. Συγκεκριμένα: ημι-επιτηρούμενη μάθηση (semi supervised learning): σε αυτήν την περίπτωση κάποιο μέρος του σετ, συνήθως μικρό, είναι ήδη κατηγοριοποιημένο και το υπόλοιπο είναι χωρίς ταμπέλες. Με αυτόν τον τρόπο μειώνεται το κόστος απόκτησης πλήρως κατηγοριοποιημένου σετ και σε ορισμένες περιπτώσεις έχει αποδειχθεί ότι αυξάνεται και η αποτελεσματικότητα της διαδικασίας μάθησης. Μια υποτυπώδης εφαρμογή ημι-επιτηρούμενου αλγορίθμου πραγματοποιήθηκε από τον Avrim Blum για κατηγοριοποίηση ιστοσελίδων (Blum et al., 1998). ενεργός μάθηση (active learning): Σε συνδυασμό με την κλασική επιτηρούμενη μάθηση, όπου το σετ χρησιμοποιείται για την αυτόματη εκπαίδευση του αλγορίθμου, ο αλγόριθμος κάνει ερωτήσεις προς τον χρήστη για επιπλέον παρατηρήσεις με σκοπό την αύξηση της ακρίβειας. Οι παρατηρήσεις που ζητούνται να ονομαστούν μπορεί να μην χρησιμοποιήθηκαν στην αρχική εκπαίδευση, ή αν χρησιμοποιήθηκαν να επιλέγονται με βάση κάποιο κριτήριο, για παράδειγμα αν η προβλεπόμενη πιθανότητα να ανήκουν σε μια κλάση ήταν κοντά στο 1, όπου k ο αριθμός των παρατηρούμενων κλάσεων (DeBarr et al., k 2009). πρόβλεψη δομής (structured prediction): σε περίπτωση που η επιθυμητή πρόβλεψη είναι μιας πιο πολύπλοκης μορφής, όπως π.χ. ένα δένδρο ή ένας γράφος, η μέθοδος επιτηρούμενης μάθησης πρέπει να τροποποιηθεί κατάλληλα. προβλήματα κατάταξης (learning-to-rank): σε αυτήν την περίπτωση ο σκοπός είναι η κατάταξη του εισερχόμενου σετ δεδομένων και επίσης πρέπει να γίνουν οι κατάλληλες παραδοχές-τροποποιήσεις Μη επιτηρούμενη μάθηση Η δεύτερη γενική κατηγορία που διακρίνουμε αναλόγως την χρήση του training set είναι η μη επιτηρούμενη μάθηση. Εδώ μιλάμε για έναν αρκετά διαφορετικό τρόπο εφαρμογής: όλο το σετ αποτελείται από instances χωρίς καμία ταμπέλα. Ο λόγος που εφαρμόζουμε 22

23 έναν αλγόριθμο μηχανικής μάθησης σε τέτοιο σετ είναι να εντοπιστεί κάποιο είδος κρυμμένων σχέσεων και δομής που μπορεί να φανερώνουν τα δεδομένα. Θα μπορούσαμε π.χ. να χρησιμοποιήσουμε μια μέθοδο μη επιτηρούμενης μάθησης για να αναλύσουμε κείμενο, με σκοπό να εντοπιστούν οι διάφορες σημασίες μιας λέξης μελετώντας το πώς χρησιμοποιούνται (Hofman, 2001), χωρίς την χρήση εργαλείων όπως κάποιο εννοιολογική βάση δεδομένων. Γενικά όμως, μη επιτηρούμενη μάθηση δεν χρησιμοποιείται σε προβλήματα εύρεσης ιδανικού αλγορίθμου κατηγοριοποίησης Ενισχυτική μάθηση Η ενισχυτική μάθηση διαφέρει από τις 2 προηγούμενες μεθόδους καθώς εδώ δεν μιλάμε για μάθηση μέσω κάποιου training set. Αντιθέτως, ο αλγόριθμος σε αυτήν την περίπτωση ενεργεί σε ένα περιβάλλον χωρίς κάποια γνώση γι αυτό, και αποκτάει ανάδραση (feedback) γι αυτό μέσω αξιολόγησης των ενεργειών του (εφαρμογή τεχνητής νοημοσύνης). Αυτή ή μέθοδος θυμίζει περισσότερο τρόπους εκπαίδευσης ζωντανών πλασμάτων που εφαρμόζονται από παλαιότερα χρόνια. Κάνοντας τυχαίες ενέργειες, ο αλγόριθμος συλλέγει πληροφορία για τις πιο σωστές, έτσι ώστε σιγά-σιγά να προτιμάει ενέργειες για τις οποίες είχε βαθμολογηθεί θετικά στο παρελθόν. Επίσης πρέπει να είναι σε θέση να ανακαλύπτει νέου είδους ενέργειες έτσι ώστε να μεγιστοποιήσει την μάθηση του. Γενικά, εξερευνώντας νέες ενέργειες, και αξιολογώντας την κατάσταση του συνεχώς αποσκοπεί στο να παράγει συναρτήσεις επιλογής ενεργειών με την μέγιστη δυνατή ικανότητα. Παραδείγματα ενισχυτικής μάθησης υπάρχουν σε πολλές εφαρμογές της τεχνητής νοημοσύνης, όπως στην ρομποτική, σε προβλήματα δρομολόγησης και σχεδιασμού, σε παίγνια κ.λπ. 2.3 Βασικές έννοιες Ενώ θα περιγράφονται οι αλγόριθμοι, θα χρησιμοποιούνται πολλές ορολογίες της αγγλικής σχετικές με την μηχανική μάθηση και την κατηγοριοποίηση. Σε αυτήν την ενότητα σκοπεύουμε να εξηγήσουμε έννοιες, προβλήματα και τεχνικές που θα είναι χρήσιμες για την κατανόηση της εργασίας. Αυτό το πλαίσιο ορολογιών περιέχει 23

24 ταυτόχρονα πλεονεκτήματα και μειονεκτήματα ορισμένων αλγορίθμων. Θα συζητήσουμε επίσης τρόπους αποφυγής, λόγους εμφάνισης και άλλα Feature Vector και Feature Space Το διάνυσμα χαρακτηριστικών (feature vector) είναι ένα είδος αναπαράστασης των δεδομένων μας. Έχουμε αναφέρει σε προηγούμενο κεφάλαιο ότι μια παρατήρηση κατέχει έναν αριθμό χαρακτηριστικών που την αντιπροσωπεύουν, για παράδειγμα ο μαθητής-αντικείμενο διαθέτει μια ακολουθία τιμών που παριστάνει τους βαθμούς του στα σχολικά μαθήματα. Ο υπολογιστής, για να επεξεργαστεί αυτήν την πληροφορία και λόγω του μεγάλου συνήθως αριθμού παρατηρήσεων, αναπαριστά την κάθε παρατήρηση σαν ένα σημείο στον χώρο που ορίζουν τα χαρακτηριστικά (feature space) του οποίου η θέση εξαρτάται από τις τιμές αυτών των χαρακτηριστικών. Όπως είναι γνωστό, κάθε σημείο μπορεί να αναπαρασταθεί από ένα διάνυσμα από το κεντρικό σημείο 0 μέχρι το άκρο που ορίζουν οι τιμές στους άξονες. Έτσι, ένα σημείο στον τρισδιάστατο χώρο είναι μια παρατήρηση με τιμές σε 3 χαρακτηριστικά, μήκος, πλάτος και ύψος. Η ίδια έννοια χρησιμοποιείται και στην μηχανική μάθηση, με την διαφορά ότι ο αναφερόμενος χώρος συγκροτείται κάθε φορά από το θεματικό πλαίσιο. Οπότε, αν το θεματικό πλαίσιο μας είναι οι μαθητές ενός σχολείου, ο χώρος μας κατασκευάζεται από k διαστάσεις, όσες και τα μαθήματα, και τα σημεία ή διανύσματα χαρακτηριστικών είναι οι μαθητές. Με αυτήν την αναπαράσταση μπορεί πλέον να χρησιμοποιηθεί γνώση από την γεωμετρία και τα μαθηματικά για να ελεγχθούν διάφορα μέτρα, όπως αποστάσεις μεταξύ των παρατηρήσεων, σημεία συγκρότησης, διασπορά, κέντρα αναπαράστασης κλάσεων (centroids) και άλλα Training και Test sets Οι παρατηρήσεις που χρησιμοποιούνται από τους αλγορίθμους συχνά οργανώνονται σε ομάδες για την χρήση τους. Η οργάνωση αυτή γίνεται για την χρήση τους από κάποιο πρόγραμμα με σκοπό την εκπαίδευση του στο αντίστοιχο πρόβλημα. Τότε λέμε ότι χρησιμοποιούμε το σώμα δεδομένων ως σετ εκπαίδευσης (training set). Οι αλγόριθμοι εξετάζουν τις παρατηρήσεις του training set με σκοπό την ανακάλυψη κάποιον σχέσεων 24

25 μεταξύ της κλάσης και των χαρακτηριστικών. Για παράδειγμα, θα δούμε αργότερα στην περιγραφή του corpus ότι για ένα , εύκολα συμπερένουμε ότι η παρουσία πολλών συγκεκριμένων λέξεων το χαρακτηρίζει αυτόματα ως πολύ πιθανό να ανήκει στην κλάση spam. Είναι σημαντικό επίσης να γνωρίζουμε την κλάση που ανήκουν οι παρατηρήσεις μέσα στο training set, για να εκπαιδεύσουμε αποτελεσματικά των αλγόριθμο (supervised learning). Μόλις ο αλγόριθμος εκπαιδευτεί με το training set είναι σχεδόν έτοιμος για χρήση. Πρέπει όμως να μελετήσουμε την ακρίβεια του αλγορίθμου. Οι πρώτοι ερευνητές στην αναγνώριση προτύπων δοκίμασαν να ελέγξουν την ακρίβεια χρησιμοποιώντας το ίδιο set με το οποίο εκπαίδευσαν τον αλγόριθμο, μόνο και μόνο για να ανακαλύψουν ότι τα αποτελέσματα ήταν πολύ αισιόδοξα - οι ίδιο αλγόριθμοι όταν εφαρμόστηκαν σε άλλα set έδειξαν να υστερούν σε ακρίβεια (Hand, 1981). Έτσι δημιουργήθηκε η ιδέα του ότι τα μοντέλα κατηγοριοποίησης πρέπει να γενικεύουν αποτελεσματικά, δηλαδή να εφαρμόζονται σε άλλα δεδομένα χωρίς ιδιαίτερη διαφορά στην ακρίβεια. Για να μετριέται η πραγματική ακρίβεια του συστήματος καθιερώθηκε η χρήση test set, δηλαδή σωμάτων με παρατηρήσεις που πάλι γνωρίζουμε την κλάση τους, αλλά δεν χρησιμοποιήθηκαν για εκπαίδευση. Πλέον μπορούμε να υπολογίσουμε το πραγματικό σφάλμα του αλγορίθμου σε αντίθεση με το πολύ αισιόδοξο του training set. Το πιο σημαντικό χαρακτηριστικό των δεδομένων του test set είναι να μην είναι παρόντα στην διαδικασία εκπαίδευσης. Θα δούμε πιο μετά μια τεχνική η οποία χωρίζει όλα τα αρχικά δεδομένα σε διαφορετικά μέρη για εκπαίδευση και διαφορετικά για έλεγχο, έτσι ώστε να μην υπάρχει ομοιότητα μεταξύ των training και test set Boosting Μια άλλη τεχνική που θα παρατηρήσουμε να χρησιμοποιείται συχνά λέγεται ενίσχυση (boosting). Έχοντας προταθεί από τον Michael Kearns (Michael Kearns, 1988), η τεχνική εκμεταλλεύεται την δύναμη που έχουν πολλοί, όπως έχει καθιερωθεί να αποκαλούνται, ασθενείς κατηγοριοποιητές (weak learners), όταν χρησιμοποιηθούν σαν σύνολο. Ένας weak learner είναι μια συνάρτηση-μέθοδος-αλγόριθμος κατηγοριοποίησης ο οποίος πετυχαίνει ακρίβεια λίγο καλύτερη από έναν που θα ταξινομούσε τυχαία τις παρατηρήσεις. Ένας τέτοιος αλγόριθμος έχει μεγάλο σφάλμα, όμως αν χρησιμοποιηθεί 25

26 μαζί με πολλούς άλλους παρόμοιους κατηγοριοποιητές μπορούν να πετύχουν αυξημένη ακρίβεια στα αποτελέσματα. Η έννοια του weak learner δεν έχει βέβαια πάντα την ίδια σημασία. Με τον ίδιο τρόπο μπορούμε να θεωρήσουμε ως weak learner ένα σύστημα το οποίο χρησιμοποιεί λιγότερη πληροφορία από το τυπικό ή γενικά είναι πιο απλό στην υλοποίηση. Αυτό δεν σημαίνει απαραίτητα ότι η ακρίβεια του είναι μικρή, δηλαδή γίνεται να συγχωνευτούν δύο συστήματα με 80% ακρίβεια για να αποκτήσουν λίγο πιο μεγάλη σαν ένα. Η τεχνική του boosting έχει και αυτή παραμέτρους που πρέπει να ληφθούν υπ όψιν, όπως ο αριθμός επιμέρους συστημάτων κατηγοριοποίησης, το στυλ εκπαίδευσης του καθενός και κυριότερα, στην περίπτωση του AdaBoost (Nicholas, 2003), τα βάρη (weights) της κάθε μονάδας, δηλαδή την επίδραση του κάθε συστήματος στην επιλογή κλάσης. Στην συνέχεια θα περιγράψουμε μερικά κοινά προβλήματα που αντιμετωπίζουν οι αλγόριθμοι επιτηρούμενης μάθησης. Τα προβλήματα δεν αντιμετωπίζονται σε όλους τους αλγορίθμους αλλά κάθε φορά τουλάχιστον ένα εμφανίζεται Overfitting Ένα συχνό πρόβλημα που μπορεί να αντιμετωπιστεί σχεδόν σε κάθε μέθοδο είναι η υπερμοντελοποίηση (overfitting) των δεδομένων εκπαίδευσης. Το πρόβλημα του overfitting πηγάζει από την προηγούμενη αναφορά που έγινε πάνω στα πολύ αισιόδοξα αποτελέσματα των αλγορίθμων στο training set. Είναι συνώνυμο να πούμε ότι το μοντέλο πρόβλεψης που έχουμε αναπτύξει είναι κατάλληλο για να ταξινομήσει μόνο τα δεδομένα που του έχουμε δώσει, και παρουσιάζει μεγάλο σφάλμα σε άγνωστα δεδομένα. Συνήθως αντιμετωπίζεται όταν τα δεδομένα μας έχουν πολλά χαρακτηριστικά και λίγες παρατηρήσεις και έτσι δεν μπορούν εύκολα να παρατηρηθούν οι διαφορές ανάμεσα στα instances των διαφόρων κλάσεων. Ο αλγόριθμος θα μάθει να κατηγοριοποιεί τα δεδομένα τέλεια, όμως στην ουσία αυτό που κάνει είναι να τα αποστηθίζει, και σαν αποτέλεσμα δεν θα μπορεί να γενικεύσει, όπως λέμε, καλά σε άγνωστα δεδομένα. Στην επόμενη εικόνα φαίνονται δύο μοντέλα κατηγοριοποίησης, από τα οποία το δεύτερο υπερμοντελοποιεί τα δεδομένα. Αν θεωρήσουμε ότι η μπλε γραμμή είναι το όριο απόφασης (decision boundary), το οποίο όταν ξεπεραστεί από κάποιο αντικείμενο αλλάζει η κλάση του, βλέπουμε ότι μόνο μια μικρή περιοχή του feature space περιέχει 26

27 την μία κλάση, και το υπόλοιπο θεωρητικά τεράστιο κομμάτι χώρου λανθασμένα αποδίδεται στην άλλη κλάση. Εικόνα 2.1. Παράδειγμα overfitting σε χώρο 2 διαστάσεων Υπάρχει ένας αριθμός τεχνικών για την αντιμετώπιση του overfitting στην εκπαίδευση. Παραδείγματα αποτελούν ο αλγόριθμος cross validation, η αποκοπή κλαδιών (pruning) στα δένδρα απόφασης, η μέθοδος regularization, το γρήγορο σταμάτημα (early stopping) στα τεχνητά νευρωνικά δίκτυα και άλλα Curse of dimensionality Ο όρος curse of dimensionality επινοήθηκε από τον Richard Bellman. Ως curse of dimensionality αναφέρουμε διάφορα προβλήματα που προκύπτουν κατά την εφαρμογή στατιστικής κατηγοριοποίησης σε δεδομένα με μεγάλο αριθμό χαρακτηριστικών. Όπως έχουμε πει, όσο μεγαλύτερος ο αριθμός των χαρακτηριστικών του σώματος τόσο περισσότερες είναι οι διαστάσεις του χώρου που πρέπει να μελετηθεί. Επειδή καθώς αυξάνονται οι διαστάσεις ο χώρος στον οποίο θα αναπαρασταθούν οι παρατηρήσεις μεγαλώνει με μεγάλο ρυθμό, αυτές τελικά καταλήγουν να είναι διασκορπισμένες αραιά 27

28 (sparse) στον χώρο. Επειδή αραιές παρατηρήσεις οδηγούν συχνά σε προβλήματα overfitting ο αριθμός των παρατηρήσεων που χρειάζονται για εκπαίδευση αυξάνεται εκθετικά με τις διαστάσεις (το λεγόμενο φαινόμενο Hughes). Σαν curse of dimensionality επίσης χαρακτηρίζεται και το φαινόμενο της συνδυαστικής έκρηξης (combinatorial explosion) όπου ο αριθμός πιθανών ζευγαριών που μπορούν να δημιουργηθούν από δεδομένα αυξάνεται με τεράστιους ρυθμούς καθώς αυξάνονται τα δεδομένα. Για την αντιμετώπιση αυτού του προβλήματος υπάρχουν μερικές τεχνικές όπως η Principal Component Analysis (Gomez et al., 2012), που είναι ένας τρόπος για ελάττωση των διαστάσεων, η επιλογή χαρακτηριστικών (feature selection) που κρατάει τα χαρακτηριστικά αναλόγως το κέρδος πληροφορίας (information gain) του καθενός, η ελάττωση διαστάσεων μέσω ενός τρόπου μείωσης των διαστάσεων (dimensionality reduction) και άλλες. 2.4 Αλγόριθμοι κατηγοριοποίησης Στην συνέχεια θα περιγραφούν μερικοί από τους πιο γνωστούς αλγορίθμους κατηγοριοποίησης. Συγκεκριμένα, θα εξηγήσουμε και θα σχολιάσουμε: Διάφορες προϋποθέσεις εφαρμογής αν υπάρχουν. Τα βασικά βήματα για την εφαρμογή τους. Την ποιότητα των αποτελεσμάτων και τις καταλληλότερες εφαρμογές του καθενός. Προηγούμενες εφαρμογές και τομείς στους οποίους εφαρμόστηκαν Naive Bayes Ένας από τους πιο ευρέως διαδεδομένους αλγορίθμους κατηγοριοποίησης είναι αυτός που βασίζεται στο γνωστό κανόνα της θεωρίας των πιθανοτήτων και ονομάζεται naïve (αφελής) Bayes. Η λέξη αφελής αναφέρεται στο ότι ο αλγόριθμος υποθέτει ανεξαρτησία μεταξύ των χαρακτηριστικών που μπορεί να έχουν οι παρατηρήσεις, κάτι που στην πράξη τις περισσότερες φορές δεν είναι εφικτό. Ανεξάρτητα όμως από την πιθανώς 28

29 λανθασμένη υπόθεση έχει παρατηρηθεί ότι σαν αλγόριθμος κατηγοριοποίησης έχει πολύ καλά αποτελέσματα, μερικές φορές ξεπερνώντας και πιο περίπλοκους αλγορίθμους. Για να αντιληφθούμε την λειτουργία του αλγορίθμου, θα πρέπει να φανταστούμε τις παρατηρήσεις σαν σημεία στον χώρο, ο οποίος έχει όσες διαστάσεις όσα και τα χαρακτηριστικά των παρατηρήσεων. Αν π.χ. οι παρατηρήσεις μας είναι 100 διαφορετικά άτομα και τα χαρακτηριστικά που γνωρίζουμε είναι ύψος και βάρος, τα άτομα θα αναπαριστούνται σαν σημεία σε ένα επίπεδο που θα έχει στον ένα άξονα το βάρος και στον άλλο το ύψος. Αν από αυτά τα 100 άτομα γνωρίζουμε ότι 60 είναι γυναίκες και 40 άνδρες, μπορούμε να κάνουμε μια αδύναμη υπόθεση ότι μια νέα παρατήρηση έχει μεγαλύτερη πιθανότητα να είναι γυναίκα παρά άνδρας. Αυτή η πιθανότητα λέγεται εκ των προτέρων πιθανότητα (prior probability) μιας κλάσης και είναι ένα από τα μέτρα που χρειαζόμαστε τον αλγόριθμο. Η εκ των προτέρων πιθανότητα υπολογίζεται από τον τύπο: Εκ των προτέρων πιθανότητα = αριθμός παρατηρήσεων κλάσης συνολικό αριθμό παρατηρήσεων Στο συγκεκριμένο παράδειγμα η εκ των προτέρων πιθανότητα για την κλάση «γυναίκες» είναι και για την κλάση «άνδρες» Έστω τώρα ότι έχουμε μια νέα παρατήρηση την οποία θέλουμε να κατηγοριοποιήσουμε με βάση το φύλο. Ο αλγόριθμος λειτουργεί ως εξής: έχοντας προβάλει την νέα παρατήρηση στον χώρο, θεωρείται ότι είναι πιο πιθανό να ανήκει στην κλάση με τις περισσότερες παρατηρήσεις κοντά σε αυτήν, δηλαδή στην περιοχή τριγύρω από αυτήν στο επίπεδο. Αυτό το μέτρο ονομάζεται πιθανότητα κλάσης (likelihood of class) και είναι το δεύτερο μέτρο που χρειάζεται ο αλγόριθμος. 29

30 Εικόνα 2.2. Η νέα παρατήρηση θεωρείτε πιο πιθανό να ανήκει στην κλάση "Άνδρες", επειδή υπάρχουν περισσότερα instances ανδρών «κοντά» στην περιοχή της Ο τύπος της πιθανότητας κλάσης είναι ο εξής: Πιθανότητα κλάσης = αριθμός παρατηρήσεων κλάσης στην περιοχή συνολικός αριθμός παρατηρήσεων κλάσης Αν υποθέσουμε ότι στην περιοχή κοντά στην νέα παρατήρηση μας υπάρχουν 6 παραδείγματα της κλάσης «άνδρας» και 2 της κλάσης «γυναίκα» οι πιθανότητες κλάσης είναι 6 40 και 2 60 αντίστοιχα. Αφού βρεθεί και το δεύτερο μέτρο, ο αλγόριθμος υπολογίζει για κάθε κλάση την τελική πιθανότητα (posterior probability of membership) σύμφωνα με την οποία θα λάβει απόφαση για την νέα παρατήρηση, πολλαπλασιάζοντας τις δύο προηγούμενες πιθανότητες για κάθε κλάση και κρατώντας σαν τελική απόφαση την κλάση με την 30

31 μεγαλύτερη πιθανότητα. Επομένως, οι τελικές τιμές πιθανότητες στο παράδειγμα μας είναι: Τελική πιθανότητα κλάσης «άνδρας» = 40 6 = Τελική πιθανότητα κλάσης «γυναίκα» = 60 2 = Σύμφωνα με αυτά τα αποτελέσματα το νέο παράδειγμα θα κατηγοριοποιούταν ως άνδρας. Μια επέκταση του αλγορίθμου είναι ο τυχαίος naïve Bayes (random naïve Bayes), ο οποίος διαθέτει χαρακτηριστικά από τον αλγόριθμο τυχαίων δασών(random forests), που θα εξηγηθεί σε επόμενη ενότητα. Ένα καλό παράδειγμα εφαρμογής του naïve Bayes για κατηγοριοποίηση ηλεκτρονικών μηνυμάτων είναι το (Awad et al., 2011). Εδώ ο συγγραφέας κατατάσσει τα μηνύματα σύμφωνα με την συχνότητα ύπαρξης ενός χαρακτηριστικού που έχει παρατηρηθεί σε άλλα μηνύματα για τα οποία γνωρίζει την κλάση τους. Θεωρώντας ένα χαρακτηριστικό T, το οποίο αναπαριστά την συχνότητα ύπαρξης μιας λέξης, υπολογίζεται η πιθανότητα να είναι το μήνυμα που το περιέχει ενοχλητικό με βάση αυτό το χαρακτηριστικό μόνο, με τον τύπο: Sprior ( T ) st ( ) = st ( ) + ht ( ) όπου s(t),h(t) οι συχνότητες εμφάνισης του χαρακτηριστικού σε προηγούμενα μηνύματα spam ή ham αντίστοιχα. Υπολογίζοντας αυτήν την τιμή για κάθε χαρακτηριστικό του μηνύματος και παίρνοντας ύστερα το συνολικό γινόμενο τους έχουμε ένα μέγεθος μέτρησης της πιθανότητας ενοχλητικού μηνύματος. Αντίστοιχα για κάθε χαρακτηριστικό υπολογίζεται η πιθανότητα για κανονικό μήνυμα, πάλι μόνο για το συγκεκριμένο χαρακτηριστικό, ως το συμπληρωματικό κλάσμα της παραπάνω τιμής: H ( T) = 1 S ( T) prior prior 31

32 και στην συνέχεια το αντίστοιχο γινόμενο N i= 1 H ( T), όπου Ν ο συνολικός αριθμός χαρακτηριστικών. Η τελική εκτίμηση για την κλάση του μηνύματος γίνεται βάση του πια τιμή είναι μεγαλύτερη. Στην τελική εκτίμηση επίδοσης στο ίδιο άρθρο παρατηρείται ότι ο naive Bayes έχει την καλύτερη ακρίβεια ανάμεσα σε 6 αλγορίθμους που χρησιμοποιήθηκαν σε ένα σώμα μηνυμάτων για κατηγοριοποίηση, κάτι που όπως είπαμε και πριν έχει παρατηρηθεί και σε άλλες εφαρμογές του αλγορίθμου, και αποδίδεται στις υποθέσεις ανεξαρτησίας των χαρακτηριστικών που πραγματοποιεί. Άλλη μια εφαρμογή του naïve Bayes έγινε στο (Youn et al., 2006), μαζί με άλλους 3ς αλγορίθμους. Στο συγκεκριμένο άρθρο χρησιμοποιήθηκε σώμα 4500 μηνυμάτων με 55 χαρακτηριστικά συνολικά για κάθε μήνυμα. Σε 11 διαφορετικές δοκιμές, 5 με τον μέγιστο αριθμό χαρακτηριστικών και σταδιακά μεγαλύτερο σώμα και 6 με τον μέγιστο αριθμό παρατηρήσεων στο σώμα και σταδιακά περισσότερα χαρακτηριστικά, πέτυχε από τις καλύτερες ακρίβειες κατηγοριοποίησης, δείχνοντας μάλιστα και ελαφριά ανεξαρτησία των αποτελεσμάτων από τον πληθυσμό χαρακτηριστικών-παρατηρήσεων, αφού η ακρίβεια του κυμαίνονταν από ελάχιστη ακρίβεια 92% σε μέγιστη 98%. i Δένδρα απόφασης Το δένδρο απόφασης αποτελεί ένα από τα πιο γνωστά γραφικά εργαλεία στον κλάδο της πληροφορικής. Ένα δένδρο απόφασης αποτελεί ένα γράφο που θυμίζει ανεστραμμένο δένδρο. Ξεκινώντας από πάνω προς τα κάτω, το δένδρο χωρίζεται σε k υποδένδρα αναλόγως την τιμή ενός χαρακτηριστικού. Το ίδιο επαναλαμβάνεται για τα k υποδένδρα, με διαφορετικό χαρακτηριστικό να χρησιμοποιείται σε κάθε διάσπαση του δένδρου. Π.χ. αν το χαρακτηριστικό είναι διακριτό και παίρνει τρείς διαφορετικές τιμές, το δένδρο διαχωρίζεται σε τρία υποδένδρα αναλόγως την τιμή αυτού του χαρακτηριστικού. Ας σημειωθεί όμως ότι μπορεί ένα χαρακτηριστικό να διασπάσει το δένδρο δύο φορές σε κάποιο σημείο του, εφόσον αυτό το χαρακτηριστικό δεν χρησιμοποιήθηκε σε κάποιο πρόγονο σύνδεσμο. Τα φύλλα του δένδρου είναι η τελική απόφαση που παίρνεται για κάποιο παράδειγμα που διασχίζει το δένδρο (π.χ. στην περίπτωση αυτής της εργασίας αν 32

33 το μήνυμα είναι επιθυμητό ή όχι). Επίσης, δύο υποδένδρα μπορεί να μην έχουν το ίδιο μήκος, δηλαδή μπορεί να εξάγεται απόφαση για την κλάση που ανήκει μια παρατήρηση ύστερα από την εξέταση όλων ή ενός μόνο χαρακτηριστικού. Όμως, το συνολικό βάθος του δένδρου περιορίζεται από τον αριθμό χαρακτηριστικών που χρησιμοποιήθηκαν για την κατασκευή του. Το δένδρο απόφασης είναι ένα απλό εργαλείο που χρησιμοποιείται σε πολλούς κλάδους της πληροφορικής. Απόρροια αυτού είναι και η χρήση του ως εργαλείο κατηγοριοποίησης, με την μέθοδο μάθησης με δένδρο απόφασης (decision tree learning). Η απόφαση που εξάγει το δένδρο δεν είναι πάντα όμως ονομαστική. Μπορεί για παράδειγμα ένα δένδρο να χρησιμοποιείται για να προβλέψει τα κέρδη μιας εταιρίας με βάση τον προϋπολογισμό, τον αριθμό των εργατών, τους μισθούς κ.α. Σε αυτήν την περίπτωση το δένδρο ονομάζεται Regression tree. Αν το δένδρο καταλήγει σε ονομαστική κατηγοριοποίηση, για παράδειγμα αν αποφασίζει τον τύπο του καρκίνου με βάση τα συμπτώματα σε έναν ασθενή ή αν προβλέπει το αν θα βρέξει ή όχι με βάση κλιματικές παραμέτρους, τότε λέγεται Classification tree. Στην επόμενη εικόνα βλέπουμε ένα παράδειγμα ενός δένδρου κατηγοριοποίησης για την απόφαση εισαγωγής σε ένα μεταπτυχιακό πρόγραμμα σπουδών. Στο αριστερό υποδένδρο το χαρακτηριστικό "No. of recommendation letters δεν έχει κλαδί γιατί δεν οδηγεί σε διαφορετική κατηγοριοποίηση. Στην πραγματικότητα κατά την κατασκευή του δένδρου το κλαδί αφαιρέθηκε για την μείωση του μεγέθους του δένδρου. Αυτή η τεχνική, που αποκαλείται αποκοπή (pruning), χρησιμοποιείται συχνά για να απλοποιήσει τα δένδρα απόφασης, για εξοικονόμηση πόρων και άλλα. Ενώ στο παράδειγμα μας δεν φαίνεται να έχει ιδιαίτερη επιρροή π.χ. στον χρόνο διάσχισης, σε πραγματικά προβλήματα όπου ο αριθμός κλαδιών αυξάνεται με μεγάλους ρυθμούς μπορεί να μειώσει σημαντικά τους χρόνους εξαγωγής αποτελέσματος. 33

34 Εικόνα 2.3. Ένα δένδρο απόφασης για την απόφαση εισαγωγής πτυχιακών σε ένα μεταπτυχιακό τμήμα σπουδών. 34

35 Συχνά, τα δένδρα απόφασης συνοδεύονται από την τεχνική boosting, και καταλήγουν στην μέθοδο που ονομάζεται Boosted Decision Trees, ή και Boosted Decision Stumps, όταν πρόκειται για δένδρα που αποφασίζουν με ένα χαρακτηριστικό, δηλαδή υπάρχει ένας κόμβος γονέας και δύο κόμβοι παιδιά. Αυτές οι δύο μέθοδοι αποτελούν απλές τεχνικές που ακολουθούν πλήρως τον αλγόριθμο boosting χωρίς να έχουν ιδιαίτερες τροποποιήσεις. Όμως, έδωσαν το έναυσμα για την δημιουργία ποιο περίπλοκων αλγορίθμων, όπως τα τυχαία δάση, που θα δούμε στην συνέχεια. Για την κατασκευή του δένδρου, πρέπει και να οριστεί η σειρά με την οποία θα χρησιμοποιήσουμε τα χαρακτηριστικά σε κάθε κόμβο. Όπως αναφέρεται και στο (Bhaya et al., 2004), στην περίπτωση που τα χαρακτηριστικά έχουν διακριτές τιμές, η πιο διαδεδομένη τεχνική είναι βασισμένη στην Θεωρία Πληροφορίας και στην εντροπία, δηλαδή στην ποσότητα πληροφορίας που κατέχει το κάθε χαρακτηριστικό. Ενώ αυτή η τεχνική βολεύει καθώς η εντροπία μπορεί να υπολογιστεί από τύπο που χρησιμοποιεί πιθανότητες, στην περίπτωση των χαρακτηριστικών με συνεχείς τιμές αυτό δεν είναι δυνατόν. Εξαιτίας αυτού, πρέπει να αποφασιστεί κάποιο σημείο διαχωρισμού ή κατώφλι για τα πεδία των χαρακτηριστικών, χρησιμοποιώντας μερικές ευριστικές τεχνικές όπως προτείνονται στο (Bhaya et al., 2004): Διαχωρίζοντας τα πεδία στην μέση, έχουμε μια απλή τεχνική η οποία όμως έχει αποδειχθεί ότι δεν λειτουργεί καθόλου καλά. Χωρίζοντας σε υποδιαστήματα τα πεδία και μετρώντας το απόλυτο σφάλμα γίνεται να βρεθεί ένα καλό σημείο διαχωρισμού. Για τις δύο κλάσεις των χαρακτηριστικών μας, spam και non-spam, μετριέται ο μέσος όρος του κάθε χαρακτηριστικού, και ύστερα ο μέσος όρος όλων των μέσων όρων. Αυτή η τεχνική εντοπίζει συνήθως ένα καλό σημείο αλλά όχι το ιδανικό. Η μέθοδος που μετράει την εντροπία είναι πολύ δύσκολο να λειτουργήσει λόγω του ότι σε συνεχές πεδίο δεν μπορεί να υπολογιστεί για κάθε πιθανό σημείο. Είναι όμως εφικτό να επιλεχθούν τα σημεία για τα οποία, το καθένα έχει κάθε φορά διαφορετικό αριθμό παρατηρήσεων αριστερά και δεξιά του από το προηγούμενο που επιλέχθηκε, καταλήγοντας σε μικρότερο αριθμό πιθανών 35

36 θέσεων. Επίσης, γνωρίζοντας ότι η θέση με την μεγαλύτερη εντροπία βρίσκεται μεταξύ σημείων που θα άνηκαν σε διαφορετική κλάση, γίνεται να μειωθεί ακόμη περισσότερο ο αριθμός των πιθανών θέσεων. Για παράδειγμα, αν το χαρακτηριστικό word_freq_address του σώματος αυτής της μελέτης είχε για μια παρατήρηση τιμή 30 και για μία άλλη 40, και οι παρατηρήσεις γνωρίζαμε ότι ήταν spam και non-spam αντίστοιχα θα μπορούσαμε να πούμε με σιγουριά ότι το ιδανικό σημείο διαχωρισμού δεν βρίσκεται ανάμεσα στο [30,40]. Στην συνέχεια θα περιγράψουμε τους τέσσερις πιο γνωστούς αλγορίθμους που λειτουργούν με την κατασκευή δένδρου ή δένδρων απόφασης. ID3 (Iterative Dichotomiser 3) Ένας απλός αλγόριθμος που χρησιμοποιεί ένα δένδρο απόφασης για κατηγοριοποίηση. Προτάθηκε από τον John Ross Quinlan, ο οποίος ασχολήθηκε και κατασκεύασε και άλλες δύο παραλλαγές αυτού του αλγορίθμου. Ο τρόπος κατασκευής του δένδρου απόφασης από τον ID3 είναι αυτός που περιγράφηκε παραπάνω, δηλαδή: Έλεγχος της εντροπίας όλων των χαρακτηριστικών. Διαχωρισμός στον αρχικό κόμβο με βάση το χαρακτηριστικό με την ελάχιστη εντροπία. Επανάληψη του 2 ου βήματος για κάθε υποδένδρο. Όταν ολοκληρωθεί το δυαδικό δένδρο, μια νέα instance διέρχεται από αυτό με τρόπο που θυμίζει την αναζήτηση hill climbing, ως ότου φτάσει σε ένα τερματικό κόμβο. Συνήθως αποτελεί καλή λύση κατηγοριοποίησης γιατί χρησιμοποιεί όλα τα χαρακτηριστικά του training set, και πάντα συγκλίνει σε κάποια απάντηση. Έχει όμως και ορισμένες αδυναμίες. Συγκεκριμένα, έχει αποδειχθεί ότι μπορεί να υπερμοντελοποιήσει το training set χωρίς pruning. Επίσης, δεν μπορεί να χρησιμοποιηθεί σε δεδομένα με χαρακτηριστικά συνεχών τιμών χωρίς κάποια τροποποίηση ως προς τον τρόπο διαχωρισμού σε κάθε κόμβο (π.χ. κατώφλι). Λόγω των αδυναμιών του, ο Quinlan επινόησε μια εξελιγμένη έκδοση του που ονομάζεται C4.5. C4.5 36

37 Ο αλγόριθμος C4.5 αποτελεί εξέλιξη του προηγούμενου. Όμως, η ουσιαστική διαφορά τους είναι ο τρόπος με τον οποίο διαλέγονται τα χαρακτηριστικά σε κάθε κόμβο. Ενώ ο ID3 χρησιμοποιούσε την εντροπία του χαρακτηριστικού, o C4.5 χρησιμοποιεί το κέρδος πληροφορίας (information gain). Το μέτρο αυτό υπολογίζεται μετρώντας την διαφορά της υπό συνθήκης εντροπίας από την βασική εντροπία. Αυτό το μέγεθος γενικά έχει ένα σημαντικό πρόβλημα καθώς μετράει πληροφορία βασισμένη πλήρως σε διαφορετικές τιμές που μπορεί να πάρει ένα χαρακτηριστικό. Χαρακτηριστικό παράδειγμα αυτού είναι η διαχώριση βάση ενός χαρακτηριστικού που έχει διαφορετική τιμή για κάθε instance, όπως ο αριθμός ταυτότητας ή ο κωδικός πιστωτικής κάρτας. Σύμφωνα με το κέρδος πληροφορίας αυτό το χαρακτηριστικό θα είχε το μεγαλύτερο ποσοστό πληροφορίας και θα χρησιμοποιούνταν πρώτο στην κατασκευή δένδρου, καταλήγοντας σε δένδρο που κατηγοριοποιεί με βάση τιμές που δεν έχουν ιδιαίτερο νόημα. Το πρόβλημα αυτό λύνεται πολλαπλασιάζοντας το κέρδος πληροφορίας με την εντροπία παραδειγμάτων που σχετίζονται με το συγκεκριμένο χαρακτηριστικό, ισορροπώντας έτσι το υπολογιζόμενο μέτρο για τέτοιου είδους μεταβλητές. Παράλληλα με την διόρθωση στο μέτρο απόφασης, ο C4.5 υποστηρίζει και pruning. Σε προσπάθεια να μετριάσει το μέγεθος των δένδρων, αποκόπτει κλαδιά τα οποία δεν έχουν λόγο ύπαρξης μέσα στο δένδρο, π.χ. 2 διπλανά υποδένδρα καταλήγουν πάντα σε φύλλα της ίδιας κλάσης. Ο C4.5 έχει εφαρμοστεί επιτυχώς και σε κατηγοριοποίηση spam mail χρησιμοποιώντας το πρόγραμμα ανοιχτού κώδικα J48 από τον Youn (Youn et al., 2007). Η τυπική του ακρίβεια κυμαίνεται από 95% μέχρι 98%, δείχνοντας άνοδο καθώς χρησιμοποιούνται περισσότερα instances και χαρακτηριστικά. Η καλύτερη ακρίβεια όμως πετυχαίνεται νωρίς στα πειράματα των Youn και McLeod (σε πειράματα όπου είχε μετριαστεί το ποσό δεδομένων και ο αριθμός χαρακτηριστικών) και ύστερα περιορίζεται σε μικρές διακυμάνσεις μεταξύ του 97% και 98%. Στην μελέτη αποδείχθηκε τελικά ότι ο J48 (C4.5) ξεπερνά κατά λίγο τον NB, και κατά πολύ τους Support Vector Machines και Artificial Neural Networks. 37

38 Alternating Decision Trees (Εναλλασσόμενα δένδρα απόφασης) Ένας πιο γενικευμένος αλγόριθμος που χρησιμοποιεί δένδρα απόφασης, η μέθοδος alternating decision trees (ADTrees) κατασκευάζει δένδρα τα οποία δεν καταλήγουν σε φύλλα τελικής κατηγοριοποίησης, αλλά σε τιμές που αντιπροσωπεύουν βάρη. Επινοήθηκε από τους Yoav Freund και Llew Mason (Freund et al., 1999), η μέθοδος αυτή θυμίζει αλγορίθμους που χρησιμοποιούν boosting (Sharma et al., 2001), για παράδειγμα αποδίδει βάρη και στα δεδομένα εκπαίδευσης όπως κάνει και ο αλγόριθμος Adaboost. Η διαφορά τους από τα απλά και boosted δένδρα κατηγοριοποίησης είναι το ότι λύνουν το πρόβλημα της έλλειψης συσχέτισης δύο παρόμοιων χαρακτηριστικών των παρατηρήσεων. Για να γίνει αυτό σε κάθε επανάληψη του αλγορίθμου, κατά την διάρκεια κατασκευής των κόμβων, απαιτείται να υπάρχει συσχέτιση μεταξύ του χαρακτηριστικού του κόμβου με του χαρακτηριστικού του γονεϊκού κόμβου του. Έτσι το δένδρο αποκτά δομή και λαμβάνει υπ όψιν σημαντικές σχέσεις μεταξύ των χαρακτηριστικών. Δεύτερο σημαντικό χαρακτηριστικό του είναι το ότι οι κόμβοι και τα φύλλα του μπορεί να είναι και τύπου πρόβλεψης (prediction nodes), όπου ο κόμβος περιέχει μια τιμή βάρους, εκτός από κόμβους απόφασης (decision nodes). Για να καταλάβουμε σε τι ωφελεί αυτό πρέπει να εξηγήσουμε τον τρόπο με τον οποίο λαμβάνει μια απόφαση. Σε αντίθεση με τα τυπικά δένδρα, που διασχίζονται με μέθοδο hill climbing, εδώ ακολουθούνται ταυτόχρονα όλα τα μονοπάτια για τα οποία ισχύουν οι υποθέσεις των κόμβων απόφασης. Μόλις επισκεφτεί και ο τελευταίος κόμβος ή φύλλο που ισχύει, αθροίζονται οι τιμές όλων των κόμβων πρόβλεψης που ισχύουν, και αναλόγως κάποιο κατώφλι απόφασης εξάγεται αποτέλεσμα. 38

39 Εικόνα 2.4. Παράδειγμα ADTree για την κατηγοριοποίηση mail. Πηγή: Η παραπάνω εικόνα δείχνει μια μορφή δένδρου τύπου ADTree. Ο πρώτος κόμβος δείχνει μια αυθαίρετη αρχική τιμή πρόβλεψης που προσθέτεται πάντα στο τελικό, π.χ. για να δείξει ότι η πιθανότητα spam είναι ελαφρά μικρότερη από την πιθανότητα ham. Το υπόλοιπο δένδρο εναλλάσσεται μεταξύ κόμβων απόφασης και πρόβλεψης. Εδώ, αρνητικές τιμές υπονοούν μικρότερη πιθανότητα spam και αντίστροφα. Έστω ότι του δίνουμε το instance που περιγράφεται στον παρακάτω πίνακα: Όνομα χαρακτηριστικού Τιμή char_freq_bang word_freq_hp char_freq_dollar 0.03 word_freq_george capital_run_length_longest 6.4 word_freq_remove

40 Πίνακας 2.1. Τα στοιχεία ενός instance για ένα ADTree Διασχίζοντας το δένδρο και προσθέτοντας όλους τους κόμβους πρόβλεψης που ισχύουν, η τελική τιμή απόφασης είναι < 0, οπότε το δένδρο κατηγοριοποιεί το instance ως ham. Επίσης να σημειώσουμε ότι ο κόμβος απόφασης 6 δεν επισκέφτηκε, επομένως δεν προστέθηκε η τιμή κανενός από τα δύο παιδιά του. Μια εφαρμογή του ADTree για spam classification έγινε στο (Sharma et al., 2011) πάνω στο σώμα που θα χρησιμοποιήσουμε και εμείς σε επόμενο κεφάλαιο. Σε σύγκριση με τον C4.5 και με κατηγοριοποίηση δένδρων απόφασης υστερεί σε ακρίβεια, δείχνοντας τα ίδια αποτελέσματα με τον απλοϊκό ID3 (μόλις 91% σωστές κατηγοριοποιήσεις). Σε άλλες εφαρμογές όμως, όπως στην πρόβλεψη ηλεκτρονικού «βανδαλισμού» στο Wikipedia (Adler et al., 2010) τα alternating decision trees ήταν ο αλγόριθμος που εκτός από την καλύτερη ακρίβεια είχε και τα πιο κατανοητά και απλά μοντέλα κατηγοριοποίησης, και ταυτόχρονα τα πιο εύκολο να συμπεριληφθούν σε διαδικτυακά APIs (application programming interfaces). Η σημαντική διαφορά σε 2 διαφορετικές εφαρμογές των ADTrees αρχίζει να υποδεικνύει το πόσο περισσότερο εξαρτώμενα είναι τα αποτελέσματα από την κατάσταση και τον τύπο εφαρμογής παρά από τον ίδιο τον αλγόριθμο. Τυχαία Δάση Μια από τις πιο αποτελεσματικές μεθόδους είναι τα τυχαία δάση (random forests). Πρώτα προτεινόμενη από τον Tin Kam Ho το 1995 και ύστερα ανεπτυγμένη και ονομασμένη από τους Leo Breiman και Adele Cutler, η μέθοδος αυτή ανήκει στην κατηγορία των μεθόδων που χρησιμοποιούν μια κλασική μέθοδο κατηγοριοποίησης πολλές φορές προκειμένου να ενισχύσουν την αποτελεσματικότητα της συνολικής μεθόδου. Οι ασθενείς (weak), όπως αποκαλούνται, επιμέρους κατηγοριοποιητές μπορεί να είναι οποιοδήποτε εργαλείο ή μέθοδος κατηγοριοποίησης, όπως π.χ. στην περίπτωση μας είναι δένδρα απόφασης. Τα τυχαία δάση, όπως όλες οι μέθοδοι που χρησιμοποιούν κάποιο τύπο boosting, λειτουργούν με παρόμοιο τρόπο: αφού κατασκευαστούν με κάποιο τρόπο οι επιμέρους ασθενείς κατηγοριοποιητές, ο κάθε ένας ψηφίζει για την κλάση που ανήκει η παρατήρηση προς κατηγοριοποίηση. Η κλάση που επικρατεί είναι 40

41 αυτήν που παίρνει τους περισσότερους ψήφους. Ενώ ο κάθε κατηγοριοποιητής από μόνος του έχει ανακριβή συνήθως αποτελέσματα και χαμηλή αξιοπιστία, σαν σύνολο πετυχαίνουν από τις πιο ακριβείς κατηγοριοποιήσεις ανάμεσα σε όλες τις μεθόδους. Είναι εύκολα κατανοητό ότι η ονομασία «δάση» προέρχεται από το γεγονός της κατασκευής πολλών «δένδρων» απόφασης. Στην συνέχεια θα δούμε γιατί αποκαλούνται και «τυχαία». Το κάθε δένδρο που κατασκευάζεται δεν μοιάζει όμως τόσο πολύ σε ένα προσεγμένο δένδρο απόφασης, όπως συζητήθηκε στην προηγούμενη παράγραφο. Τότε αναφέραμε ότι αναζητούνται τα χαρακτηριστικά που φέρουν την μεγαλύτερη ποσότητα πληροφορίας για να χρησιμοποιηθούν στους αρχικούς κόμβους του δένδρου. Στην περίπτωση των τυχαίων δασών, αρχικά επιλέγεται ένα τυχαίο μικρό υπόδειγμα όλων των χαρακτηριστικών της βάσης, και στην συνέχεια χρησιμοποιούνται τυχαία σε κάθε κόμβο μέχρι να κατασκευαστεί το δένδρο. Ύστερα επιλέγεται ένα τυχαίο δείγμα παρατηρήσεων από την βάση για training, και το υπόλοιπο χρησιμοποιείται για να εκτιμήσει το σφάλμα του δένδρου. Η μέθοδος επαναλαμβάνεται για τον αριθμό των δένδρων που έχουμε καθορίσει. Να σημειωθεί επίσης ότι τα δένδρα δεν υποβάλλονται σε αποκοπή κόμβων, και μεγαλώνουν όσο είναι δυνατόν. Οι δημιουργοί των RF αναφέρουν ότι το πόσο καλός είναι ένας κατηγοριοποιητής τυχαίων δασών στηρίζεται σε δύο πράγματα: στην επιρροή του κάθε δένδρου και στην συσχέτιση που μπορεί να έχουν δύο δένδρα μεταξύ τους. Η ικανότητα του κάθε δένδρου έχει να κάνει με το συνολικό σφάλμα του, δηλαδή ένα δένδρο με χαμηλό σφάλμα έχει περισσότερη δύναμη και επηρεάζει θετικά τον ρυθμό σφάλματος του δάσους. Η συσχέτιση έχει να κάνει με το πόσο μοιάζουν δύο δένδρα, δηλαδή αν χρησιμοποιούν κοινά χαρακτηριστικά στην κατασκευή τους, και είναι ανάλογη του ρυθμού σφάλματος. Ο αριθμός χαρακτηριστικών που θα επιλεγούν για κάθε δένδρο επηρεάζει τους παραπάνω παράγοντες. Λιγότερα χαρακτηριστικά σημαίνει λιγότερο συσχετισμένα δένδρα, αλλά μεγαλύτερο συνολικό σφάλμα και αντιστρόφως. Μπορεί να ευρεθεί ένα πεδίο για τον αριθμό αυτό, το οποίο αν τηρείται ο αλγόριθμος έχει το μικρότερο δυνατό σφάλμα. Ενώ τα τυχαία δάση έχουν πολλά προτερήματα, όπως υψηλή ακρίβεια, καλή αξιοπιστία σε μεγάλες βάσεις και θεώρηση όλων των χαρακτηριστικών τους (DeBarr et al., 2009), 41

42 φαίνεται ότι είναι ευάλωτα σε overfitting σε συγκεκριμένες βάσεις, αντίθετα με το ότι δηλώνουν οι δημιουργοί της μεθόδου. Επίσης, ένα άλλο αρνητικό σημείο τους είναι το γεγονός ότι δεν μπορούν να δημιουργηθούν ίδια δάση, εξαιτίας του τυχαίου τρόπου με τον οποίο δημιουργούνται, που σημαίνει ότι «ικανότερα» δένδρα δεν μπορούν να επαναληφθούν για καλύτερη ακρίβεια. Στο (DeBarr et al., 2009) τα τυχαία δένδρα είχαν τα καλύτερα αποτελέσματα ανάμεσα σε Naïve Bayes, k-nearest neighbors και support vector machines, κυρίως λόγω του συνδυασμού τους με clustering για την επιλογή ιδανικού training set και της μεθόδου active learning. Επίσης, στο (Abu-Nimeh et al., 2007) ελέγχεται το σφάλμα της μεθόδου και αποδεικνύεται ότι για συγκεκριμένο αριθμό δένδρων και ισάξιο σφάλμα λανθασμένης θετικής αρνητικής πρόβλεψης, παρουσιάζει τον μικρότερο ρυθμό σφαλμάτων. Αυτό σημαίνει ότι εφόσον ρυθμιστούν κατάλληλα όλες οι παράμετροι που έχουν τα τυχαία δάση, φαίνεται να ανήκουν στις μεθόδους κατηγοριοποίησης με το μικρότερο σφάλμα Τεχνητά νευρωνικά δίκτυα Μια μεγάλη κλάση αλγορίθμων τεχνητής νοημοσύνης αποτελούν τα τεχνητά νευρωνικά δίκτυα (artificial neural networks, ANN). Ονομάζονται έτσι επειδή μιμούνται στην ουσία τον τρόπο λειτουργίας του εγκεφάλου. Το κύριο χαρακτηριστικό τους είναι ότι, όπως και οι τεχνικές boosting, αποτελούνται από μικρότερα κομμάτια ή διαφορετικά από πολλούς weak learners. Ως weak learner στα ANN θεωρούμε το perceptron. Perceptron Ένα perceptron είναι μια απλή συνάρτηση 1 ου βαθμού, δηλαδή f(x) = ax + b. Η συνάρτηση όμως αυτή αλλάζει κατά την διάρκεια εκπαίδευσης του νευρώνα, έως ώστε να μπορεί να πάρει θετικές τιμές για περιπτώσεις της μιας τάξης και αρνητικές τιμές για της άλλης. Οι παράμετροι a, b αλλάζουν συνέχεια κατά την εκπαίδευση με τον εξής τρόπο: επιλέγοντας κάποιες τιμές από τα δεδομένα εκπαίδευσης, έστω c, d αποσκοπούμε στην λάθος κατηγοριοποίηση τους από τον τρέχοντα κανόνα, δηλαδή πρέπει a c + b >0, ενώ d<0 ή αντίστροφα. Ύστερα, οι παράμετροι a, b ενημερώνονται σύμφωνα με αυτές 42

43 τις τιμές, άρα a 1 = a 0 + c d και b 1 = b 0 + c. Η διαδικασία επαναλαμβάνεται έως ότου η συνάρτηση πετύχει σωστή κατηγοριοποίηση του ζευγαριού c, d. Τότε θεωρούμε ότι ο νευρώνας έχει εκπαιδευτεί πλήρως και θα ταξινομήσει όλες τις παρατηρήσεις. Το perceptron όμως είναι ένας γραμμικός κατηγοριοποιητής (linear classifier). Αυτό σημαίνει ότι προσπαθεί να χωρίσει όλο το επίπεδο που ορίζουν τα χαρακτηριστικά σε 2 κομμάτια με μια ίσια γραμμή, όπου το ένα θα έχει τις παρατηρήσεις της μιας κλάσης και το άλλο της δεύτερης κλάσης. Εφόσον αυτό είναι δυνατόν θα μπορέσει να βρει το επίπεδο διαχωρισμού του χώρου. Διαφορετικά όμως, θα αναγκαστεί να καταλήξει σε διαχωρισμό με μερικές παρατηρήσεις σε λάθος ημι-επίπεδο. Το perceptron είναι μια απλή μορφή classifier και είναι δυνατόν να χρησιμοποιηθεί μαζικά για την δημιουργία ενός πιο ισχυρού συστήματος κατηγοριοποίησης. Perceptron πολλαπλού επιπέδου (Multilayer Perceptron) Εδώ η ιδέα είναι η χρήση πολλών perceptrons σε σειρά, έτσι ώστε η έξοδος του ενός να είναι είσοδος στον άλλο και ούτω καθεξής. Το κύριο perceptron αποτελείται από το επίπεδο εισαγωγής (input layer), το επίπεδο εξόδου (output layer) και τα κρυφά επίπεδα (hidden layers). Εικόνα 2.5. Αναπαράσταση ενός multilayer perceptron. Πηγή: (Tretyakov, 2004) 43

44 Η εικόνα 4 περιγράφει την νοητή αναπαράσταση ενός perceptron πολλών επιπέδων. Ο τρόπος εκπαίδευσης είναι σχεδόν ίδιος με του απλού νευρώνα, μόνο που σε αυτήν την περίπτωση οι συναρτήσεις των νευρώνων σαν σύνολο πρέπει να συγκλίνουν ή τουλάχιστον να έχουν κάποιο μικρό σφάλμα. Δηλαδή, η παράμετροι a i,b i, όπου i ο αριθμός του κάθε perceptron, πρέπει να είναι τέτοιοι έτσι ώστε το σφάλμα του δικτύου να είναι σχετικά μικρό. Για τον υπολογισμό της εξόδου του κάθε νευρώνα επίσης πρέπει να χρησιμοποιηθεί και μια συνάρτηση ομαλής αλλαγής της κλίσης για ενεργοποίηση 1 (activation) των νευρώνων (π.χ. η σιγμοειδής ). Υπάρχει μια ενδεικτική μέθοδος ax 1 + e για την εκπαίδευση πολλαπλών επιπέδων perceptron, για την ανάθεση βαρών στους νευρώνες και για την ελαχιστοποίηση του σφάλματος που ονομάζεται error backpropagation (Bohte et al., 2001). Να σημειωθεί επίσης ότι σε αντίθεση με το απλό perceptron, το multilayer perceptron δεν χωρίζει τα δεδομένα με ένα ίσιο διαχωριστικό επίπεδο. Ο συνδυασμός των γραμμικών κατηγοριοποιητών που κάνει εξάγει έναν διαχωρισμό που χωρίζει το επίπεδο με μια τεθλασμένη γραμμή. Τέλος, το perceptron πολλών επιπέδων είναι μια μέθοδος κατηγοριοποίησης, της οποίας η ακρίβεια εξαρτάται από πολλές παραμέτρους. Ο αριθμός των χρησιμοποιούμενων νευρώνων, το ποσοστό νευρώνων στα κρυφά επίπεδα αλλά και στα επίπεδα εισαγωγής και εξόδου και τέλος η μέθοδος ελαχιστοποίησης σφάλματος που χρησιμοποιείται επηρεάζουν την ακρίβεια με τέτοιο τρόπο ώστε δύο παρόμοια δίκτυα μπορεί να έχουν πολύ διαφορετικά αποτελέσματα. Σημαντικό για τους γραμμικούς και μη γραμμικούς κατηγοριοποιητές είναι η γνώση για την συμπεριφορά του training set. Αν αυτό αποτελείται από δεδομένα τα οποία είναι δυνατόν να διαχωριστούν γραμμικά ένα απλό perceptron συμφέρει περισσότερο από ένα μεγάλο και πολύπλοκο δίκτυο. Στη περίπτωση που τα δεδομένα επικαλύπτωνται στον χώρο, μια μη γραμμική διαμέριση θα πετύχει σεβαστή ακρίβεια ενώ μια γραμμική θα αποτύχει. Και τα δύο είδη τεχνητών νευρωνικών δικτύων έχουν χρησιμοποιηθεί για κατηγοριοποίηση spam. Το απλό perceptron χρησιμοποιήθηκε από τον Tretyakov (Tretyakov, 2004) με εξαιρετικά αποτελέσματα σε βασική εφαρμογή (98% ακρίβεια, 44

45 απόκλιση από πραγματικές τιμές spam και ham της τάξεως του 1.5%), ξεπερνώντας ακόμη και τον αλγόριθμο SVM, ο οποίος στην ουσία κάνει ότι και το perceptron αλλά πιο έξυπνα. Όπως αναφέραμε και προηγουμένως, αυτό οφείλεται στα δεδομένα και στο αν είναι γραμμικά διαχωριζόμενα, που στην προκειμένη περίπτωση αυτό πράγματι ίσχυε. Μια εφαρμογή multilayer perceptron έγινε από τους C. Eichenberger, N. Fankhauser (Eichenberger et al., 2003) με σχετικά λίγα δεδομένα για εκπαίδευση και έλεγχο. Με 200 περιπτώσεις, 100 spam και 100 ham, ένα κρυφό επίπεδο και θεωρώντας σοβαρότερη την λανθασμένη κατηγοριοποίηση ham ως spam (με την χρησιμοποίηση κάποιου παράγοντα διόρθωσης) τα αποτελέσματα έδειξαν καλή ακρίβεια, με 90% να αναγνωρίζονται σωστά ως spam και 98.67% σωστά ως ham. Ο συγγραφέας επίσης αναφέρει ότι τα νευρωνικά δίκτυα είναι πιο αποτελεσματικά όταν το test set αποτελείται από γραμμένα σε διαφορετική γλώσσα από αυτά του training set. Ωστόσο τα training και test sets ήταν μικρά και η εφαρμογή έχει περισσότερη αξία ως ένα τυπικό παράδειγμα χρήσης κάποιου ιδιώτη για την ηλεκτρονική θυρίδα του. Άλλη μια εφαρμογή των multilayer perceptrons έγινε από τον Vinther (Vinther, 2002). Εδώ τα training και test sets ήταν μεγαλύτερα: 354 instances με 168 ham και 186 spam εκπαίδευσαν συνολικά 421 επιμέρους νευρώνες. Χρησιμοποιώντας 400 από αυτούς στο επίπεδο εισαγωγής, 20 στο κρυφό και έναν στην έξοδο το δίκτυο κατηγοριοποίησε όλο το training set σωστά (100% ακρίβεια), ενώ σε ένα test set των 542 instances (204 ham, 337 spam) η ακρίβεια μειώθηκε στο 94% AdaBoost Ο αλγόριθμος Adaptive Boosting ή AdaBoost είναι ένας γενικός αλγόριθμος από τους Yoan Freund και Robert Schapire, ικανός να χρησιμοποιηθεί με άλλους αλγορίθμους μηχανικής μάθησης για κατηγοριοποίηση (Nicholas, 2003). Ο αλγόριθμος που χρησιμοποιείται μπορεί να είναι οποιοσδήποτε, από C4.5 δένδρα μέχρι και support vector machines Είναι μια τεχνική boosting και ακολουθεί τον ίδιο τρόπο εφαρμογής: πολλοί κατηγοριοποιητές με σημαντικό σφάλμα χρησιμοποιούνται μαζί για την επίτευξη καλύτερης συνολικής ακρίβειας. Η ουσιαστική διαφορά που έχει από μια τυπική εφαρμογή boosting είναι η απόδοση βαρών στα δεδομένα κατά την εκπαίδευση. 45

46 Συγκεκριμένα, σε κάθε βήμα προσθέτεται και ένας weak learner, τα δεδομένα εκπαίδευσης εφαρμόζονται σε αυτούς και τους αποδίδονται βάρη αναλόγως με το αν η κατηγοριοποίηση που έγινε πάνω τους ήταν σωστή ή όχι. Τα βάρη ανανεώνονται κατά την διάρκεια της εκπαίδευσης σε κάθε βήμα, αποδίδοντας μεγαλύτερες τιμές σε instances που δεν έχουν κατηγοριοποιηθεί σωστά και μικρότερες στα υπόλοιπα. Έτσι στο επόμενο βήμα θα δοθεί περισσότερη βάση στην σωστή κατηγοριοποίηση κάποιου instance που δυσκολεύει τους weak learners παρά στις εύκολες περιπτώσεις. Έχουν παρατηρηθεί περιπτώσεις όπου υστερεί σε ακρίβεια, κυρίως λόγω outlier παρατηρήσεων, όμως είναι μία από τις τεχνικές που δεν τείνουν να υπερμοντελοποιούν τα δεδομένα Co-training Έως τώρα οι αλγόριθμοι που περιγράφαμε κάνανε χρήση training set με έτοιμα κατηγοριοποιημένα δεδομένα. Ο αλγόριθμος που προτάθηκε από τους Blum και Mitchell (Blum et al., 1998) για κατηγοριοποίηση αντιθέτως ανήκει στην κατηγορία αυτών που εκπαιδεύονται με στυλ ημι-επιτηρούμενης μάθησης. Η μέθοδος συνδυαστικής εκπαίδευσης (co-training) δημιουργήθηκε με σκοπό να εκμεταλλευτεί όσο περισσότερο γίνεται ένα μικρό training set χωρίς να θυσιάζει σε ακρίβεια. Η μέθοδος λειτουργεί ως εξής: αρχικά χρειάζεται το σύνολο των χαρακτηριστικών να χωριστεί σε δύο κατηγορίες, με όσο μεγαλύτερη ανεξαρτησία μεταξύ των χαρακτηριστικών τους. Οι δύο αυτές όψεις του training set πρέπει να επαρκούν για κατηγοριοποίηση από μόνες τους, δηλαδή ένας αλγόριθμος εκπαιδευμένος με αυτό τον περιορισμένο αριθμό χαρακτηριστικών πρέπει να έχει σχετικά καλή ακρίβεια. Για παράδειγμα, η μια όψη μπορεί να είναι η πληροφορίες θέματος και αποστολέα για ένα mail, ενώ η δεύτερη να είναι οι συχνότητες εμφάνισης λέξεων στο μήνυμα. Στην συνέχεια εκπαιδεύονται δύο κατηγοριοποιητές, χρησιμοποιώντας ο καθένας την μια από τις δύο όψεις του set. Ο αλγόριθμος που χρησιμοποιείται μπορεί να είναι οποιοσδήποτε, αν και έχει αποδειχθεί ότι ορισμένοι όπως ο NB καταλήγουν σε χειρότερα αποτελέσματα από όταν χρησιμοποιηθούν μόνοι τους (Kiritchenko et al., 2001). Μόλις τελειώσει η διαδικασία εκπαίδευσης, οι κατηγοριοποιητές προσπαθούν να ταξινομήσουν τα άγνωστα δεδομένα, χωρισμένα με αυθαίρετο τρόπο και κρατάνε από αυτά τα παραδείγματα για τα οποία είναι περισσότερο σίγουροι ότι βρήκαν την σωστή κλάση τους και τα προσθέτουν ο ένας στο σύνολο 46

47 δεδομένων του άλλου ως δεδομένα γνωστής πλέον ταμπέλας. Στην συνέχεια η διαδικασία επαναλαμβάνεται όσες φορές έχει οριστεί. Με αυτόν τον τρόπο οι δύο κατηγοριοποιητές και αποκτούν περισσότερα δεδομένα εκπαίδευσης, αυξάνοντας συνεχώς την ακρίβεια τους, και μπορούν να καταλάβουν καλύτερα τις σχέσεις μεταξύ των δύο ανεξάρτητων όψεων του training set. Τα πλεονεκτήματα του αλγορίθμου είναι προφανή. Καταρχάς έχουμε αναφέρει και στο προηγούμενο κεφάλαιο ότι τα δεδομένα με γνωστές κλάσεις είναι δύσκολο και απαιτούνται χρηματικοί πόροι για να αποκτηθούν. Η τεχνική δηλαδή δεν κερδίζει μόνο σε ακρίβεια αλλά και εξοικονομεί πόρους. Η πρώτη εφαρμογή του έγινε σε ιστοσελίδες με σκοπό την εντόπιση των σελίδων που περιείχαν πληροφορίες για μαθήματα πληροφορικής από ένα μεγάλο σώμα σελίδων πανεπιστημίου (Blum et al., 1998). Η τεχνική εκτός από την αύξηση στην ακρίβεια κατά 6% αποδείχθηκε ότι στηρίζεται περισσότερο στις προϋποθέσεις που πρέπει να πληρούν οι δύο όψεις παρά στον αλγόριθμο. Όμως υπάρχουν φορές όπου ο αλγόριθμος είναι απλά ακατάλληλος για cotraining (Kiritchenko et al., 2001). Η μέθοδος αυτή έχει εξεταστεί και στον τομέα της κατηγοριοποίησης . Οι Kiritchenko και Matwin (Kiritchenko et al., 2001) απέδειξαν ότι τα απογοητευτικά αποτελέσματα του NB με co-training αποδίδονταν στην αδυναμία του NB να αντιμετωπίσει αραιά training sets. Αντίθετα, ο SVM έδειξε σημαντική αύξηση. Ένα θέμα του co-training που θίχτηκε είναι το κατά πόσο η χρήση δύο όψεων είναι σημαντική, και αν αρκεί μια όψη των χαρακτηριστικών η οποία χωρίζεται τυχαία σε δύο μέρη (Chan et al., 2004). Αποδείχθηκε τελικά ότι αυτή η προσέγγιση έχει τα ίδια και μερικές φορές καλύτερα αποτελέσματα, αλλά και πάλι είναι εξαρτώμενη από τα χαρακτηριστικά του training set. Οι ίδιοι συγγραφείς εφάρμοσαν co-training με τέσσερις διαφορετικούς αλγόριθμους σε προβλήματα κατηγοριοποίησης ιστοσελίδων και mail filtering, συγκεκριμένα με τυχαία δάση, NB, SVM και δένδρα απόφασης, συγκρίνοντας τα αποτελέσματα τους με την τυπική εφαρμογή επιτηρούμενης μάθησης του καθενός. Εκεί δόθηκε περισσότερο βάση στο πόσο καλύτερα λειτουργεί ο αλγόριθμος με co-training παρά με supervised learning, εμφανίζοντας μικρές διαφορές ανάμεσα στα δύο για τους NB (κυρίως λόγω feature selection) και SVMs. 47

48 2.4.6 Support Vector Machines Οι διανυσματικές μηχανές υποβοήθησης (Support Vector Machines, SVM) είναι μια τεχνική από τις πιο παλιές στον τομέα της στατιστικής και μηχανικής μάθησης. Η ιδέα των SVM προτάθηκε αρχικά από τον Vladimir Vapnik το 1963, και πολύ αργότερα, το 1995, πήρε την μορφή με την οποία καθιερώθηκε μέχρι σήμερα (Cortes et al., 1995). Τα SVMs αποτελούν ένα γραμμικό μοντέλο κατηγοριοποίησης, που ο κύριος σκοπός του είναι να βρει ένα επίπεδο διαχωρισμού ανάμεσα στα δεδομένα, εφόσον αυτό είναι δυνατόν από την μορφή τους, δηλαδή να είναι γραμμικά διαχωριζόμενα (linearly separable). Η δεύτερη έκδοση της μεθόδου το 1995 ήρθε να λύσει το πρόβλημα της γραμμικής διαχώρισης των δεδομένων εκπαίδευσης, χρησιμοποιώντας τις μεθόδους απαλού περιθωρίου (soft margin) και συνάρτησης πυρήνα (kernel function). Ο αλγόριθμος SVM έχει εφαρμοστεί σε πολλά πεδία, όπως για την απόκτηση ανάδραση σχετικότητας (relevance feedback) σε προβλήματα εντοπισμού εικόνων (Tong et al., 2001) ή για κατηγοριοποίηση κειμένου στο internet, π.χ. filtering, εντοπισμός σχετικών ειδήσεων, οργάνωση αρχειακής βάσεων δεδομένων (Joachims, 1999; Tong et al., 2001) και άλλα. Για να κατανοήσουμε το πώς δουλεύει ένα μοντέλο SVM, πρέπει να αναλύσουμε τέσσερις βασικές έννοιες του. Separating Hyperplane Έχουμε αναφέρει προηγουμένως την έννοια ενός διαχωριστικού επιπέδου. Εδώ η έννοια είναι η ίδια, λίγο πιο γενικευμένη: για k διαστάσεις, όσες και τα χαρακτηριστικά που διαθέτουμε, ένα διαχωριστικό υπερ επίπεδο (separating hyperplane) είναι ένα επίπεδο διαστάσεων k-1 το οποίο τοποθετείται στο διάστημα μεταξύ των παρατηρήσεων διαφορετικών κλάσεων, και θεωρείται ότι σε κάθε πλευρά του υπάρχουν instances που ανήκουν σε διαφορετικές κλάσεις. Το separating hyperplane είναι ικανό να διαχωρίσει μόνο μεταξύ των στοιχείων δύο κλάσεων, κατάλληλο δηλαδή μόνο για binary classification. Για παράδειγμα, αν είχαμε ένα χαρακτηριστικό τότε ο χώρος μας είναι μια ευθεία γραμμή, αν είχαμε δύο τότε ο χώρος είναι ευθεία γραμμή και ούτω καθεξής. 48

49 Max Margin Hyperplane Η έννοια του υπερ-επιπέδου που μεγιστοποιεί τον μέσο όρο απόστασης (max margin hyperplane) πηγάζει από τον επιθυμητό στόχο της καλής γενίκευσης των αλγορίθμων κατηγοριοποίησης σε άγνωστα δεδομένα. Όταν έχουμε να αντιμετωπίσουμε χώρο πολλών διαστάσεων, εύκολα γίνεται αντιληπτό το ότι υπάρχουν πολλά separating hyperplanes που διαχωρίζουν τον χώρο και τα δεδομένα σε δύο κομμάτια. Το ερώτημα είναι πιο από αυτά είναι το πιο κατάλληλο για την επίτευξη του μικρότερου δυνατού σφάλματος κατηγοριοποίησης. Έτσι, η μέθοδος SVM λαμβάνει υπ όψιν τις αποστάσεις του separating hyperplane από τις κοντινότερες παρατηρήσεις των δύο διαφορετικών κλάσεων (support vectors), και επιλέγετε αυτό που ισορροπεί τις αποστάσεις και των δύο. Στην παρακάτω εικόνα φαίνεται γραφικά ο διαχωρισμός του επιπέδου από τα SVMs. 49

50 Εικόνα 2.6. Γραφική αναπαράσταση του υπερ-επιπέδου διαχωρισμού στον δισδιάστατο χώρο. Η μπλε γραμμή δείχνει μια ιδανική θέση για το separating hyperplane στην συγκεκριμένη περίπτωση. Η καφέ γραμμή αντιπροσωπεύει την θέση του max margin hyperplane. Μετρώντας την απόσταση από τις κοντινότερες instances, το separating hyperplane αλλάζει κλίση έως ότου βρεθεί η ιδανική θέση. Soft Margin Ενώ ως τώρα μιλούσαμε για γραμμικά διαχωριζόμενα δεδομένα, όπως στην παραπάνω εικόνα, αρκετές φορές τα δεδομένα δεν μπορούν να χωριστούν τόσο ξεκάθαρα. Αυτό που συμβαίνει συχνά είναι ότι στις διαχωριζόμενες περιοχές ενδεχομένως να υπάρχουν instances της άλλης κλάσης. Αυτό το σφάλμα δεν παρουσιάζεται λόγω κάποιας ανωμαλίας στα δεδομένα. Για παράδειγμα, υπάρχουν περιπτώσεις που μια ασθένεια προσβάλει τα ίδια σημεία του σώματος, άρα εδώ θα είχε σχεδόν τα ίδια χαρακτηριστικά. Στα προβλήματα spam κατηγοριοποίησης, ένα έξυπνα σχεδιασμένο mail μπορεί να φαίνεται τόσο προσωπικό που να ξεγελάσει το σύστημα κατηγοριοποίησης. Επομένως, χρειάζεται μια τροποποίηση ώστε να αντιμετωπίζονται τέτοιες καταστάσεις 50

51 Εικόνα 2.7. Η παρατήρηση στην λάθος μεριά επηρέασε το διαχωριστικό επίπεδο. Η κλίση είναι διαφορετική από την εικόνα 4. Στην παραπάνω εικόνα βλέπουμε γραφικά το πρόβλημα. Για να προσαρμόσουμε το separating hyperplane, ώστε να αντιμετωπίζονται τέτοιες καταστάσεις, επιτρέπουμε στα δεδομένα εκπαίδευσης να παραβιάσουν το διαχωριστικό επίπεδο για να προσαρμόζεται ανάλογα ο αλγόριθμος. Παρατηρούμε ότι η κλίση του separating hyperplane έχει αλλάξει, γέρνοντας προς την μεριά του σημείου που το παραβίασε. Ενώ αυτό είναι βολικό και δεν αλλάζει το τελικό αποτέλεσμα (οι υπόλοιπες παρατηρήσεις ακόμη βρίσκονται στις σωστές μεριές) πρέπει να υπάρχει και μια ανοχή στο πόσες παρατηρήσεις επιτρέπεται να συμπεριφέρονται έτσι. Επομένως η χρήση του soft margin συνοδεύεται από παραμέτρους ρύθμισης της συμπεριφοράς του από τον χρήστη. Ο λόγος που αφήνεται αυτό στον χρήστη είναι ότι δεν υπάρχει κάποιος γνωστός αριθμός τον ανώμαλων περιπτώσεων που θα αντιμετωπιστούν στα δεδομένα. Όμως η χρήση του soft 51

52 margin αποτέλεσε μια από τις καλύτερες ιδέες για την αύξηση της ακρίβειας γραμμικών κατηγοριοποιητών. Kernel Function Αναφέραμε ότι η μορφή που έχει σήμερα ο SVM δημιουργήθηκε πολύ αργότερα. Αυτό που άλλαξε είναι η δυνατότητα του να χειρίζεται δεδομένα που δεν είναι γραμμικά διαχωριζόμενα. Για παράδειγμα, ας σκεφτούμε το εξής πρόβλημα: έχουμε να διαχωρίσουμε δεδομένα ενός χαρακτηριστικού με ένα k-1 διαστάσεων επίπεδο, δηλαδή ένα σημείο. Εικόνα 2.8. Μη γραμμικά διαχωριζόμενα δεδομένα Εδώ δεν υπάρχει σημείο που να διαχωρίζει τα δεδομένα σε δύο επίπεδα χωρίς να παρουσιάζει σοβαρό σφάλμα. Μπορούμε όμως να προσθέσουμε μια επιπλέον διάσταση χρησιμοποιώντας μια συνάρτηση πυρήνα (kernel function), και το αποτέλεσμα θα ήταν κάπως έτσι: 52

53 Εικόνα 2.9. Τα δεδομένα είναι πλέον γραμμικά διαχωριζόμενα Στο παράδειγμα της εικόνας 7, βλέπουμε ότι η kernel function πρόβαλε τα δεδομένα σε δισδιάστατο χώρο, όπου πλέον είναι γραμμικά διαχωριζόμενα. Με αυτόν τον τρόπο είναι δυνατόν να χωρίσουμε με γραμμικό τρόπο στοιχεία πολλών διαστάσεων, εφόσον χρησιμοποιήσουμε την κατάλληλη kernel function. Όμως, αν επιστρέψουμε στις αρχικές διαστάσεις θα παρατηρήσουμε ότι το separating hyperplane έχει πλέον μετατραπεί σε μια τεθλασμένη γραμμή. Έτσι τα SVM με χρήση kernel functions κάνουν πλέον μη γραμμική κατηγοριοποίηση. Παρατηρούμε τους ακόλουθους τύπους kernel function: Γραμμική Ομογενής πολυωνυμική Μη ομογενής πολυωνυμική Γκαουσιανή (Gaussian Radial Basis Function) 53

54 Υπερβολικής εφαπτόμενης γραμμής Σιγμοειδής Άλλα δύο εξίσου σημαντικά πλεονεκτήματα των kernels (Noble, 2006), είναι πρώτον το ότι η συνάρτηση αντικαθιστά όλες τα εσωτερικά γινόμενα που γίνονται κατά την εκπαίδευση, και έτσι μπορεί να επεξεργαστεί δεδομένα που δεν είναι απαραίτητα διανύσματα, και δεύτερον η δυνατότητα να συνδυάσουμε δύο συναρτήσεις παρόμοιων δεδομένων σε μία για ταυτόχρονη κατηγοριοποίηση και των δύο. Η χρήση kernel function έχει αποδειχθεί πολύ βολική. Παρόλα αυτά, εγκυμονεί κινδύνους π.χ. καθιστά το μοντέλο ευάλωτο σε overfitting. Ενώ η προβολή σε περισσότερες διαστάσεις είναι βολική, όπως υποβάλει ο νόμος του curse of dimensionality όσο αυξάνονται οι διαστάσεις, ο αριθμός των δεδομένων εκπαίδευσης μεγαλώνει εκθετικά. Μια kernel function που προβάλει τα δεδομένα σε πολλές διαστάσεις μπορεί να καταλήξει σε υπερβολική εξειδίκευση, όπως το παράδειγμα της εικόνας 2.9. Όπως αναφέρεται από τον Noble (Noble, 2006) είναι δύσκολο να βρούμε την ιδανική kernel function για κάθε περίπτωση. Ο καλύτερος τρόπος είναι να ελέγξουμε όλες και να κρατήσουμε αυτήν με τον λιγότερο βαθμό υπερβολικής εκπαίδευσης και περιττών διαστάσεων. Αυτές οι τέσσερις βασικές έννοιες περιγράφουν το πώς λειτουργούν τυπικά οι SVM. Τα δεδομένα μας προβάλλονται στον feature space και ο αλγόριθμος προσπαθεί να βρει ένα ιδανικό (optimal) separating hyperplane μεγιστοποιώντας την απόσταση από τις κοντινές παρατηρήσεις. Η παράμετρος soft margin ρυθμίζει περαιτέρω την θέση του, αναλόγως την τιμή ανοχής και σε περίπτωση που τα δεδομένα δεν είναι γραμμικώς διαχωριζόμενα, χρησιμοποιείται μια συνάρτηση kernel για την προβολή σε χώρο περισσοτέρων διαστάσεων. Επεκτάσεις των SVM έχουν δημιουργηθεί για καταστάσεις κατηγοριοποίησης πολλών κλάσεων, για ημι-επιτηρούμενη μάθηση και για structured prediction. Συγκεκριμένα, οι SVM για κατηγοριοποίηση πολλών κλάσεων (multiclass SVMs) δημιουργούν πολλούς δυαδικούς κατηγοριοποιητές είτε με one-versus-all ή all-versus-all προσέγγιση. Ημιεπιτηρούμενη μάθηση επιτυγχάνεται με τις λεγόμενες transductive SVM (Vapnik,1998), 54

55 και έχει εφαρμοστεί με επιτυχία σε περιπτώσεις κατηγοριοποίησης κειμένου (Joachims, 1999). Ο αλγόριθμος Structured SVM είναι η αντίστοιχη τροποποίηση των SVM για προβλήματα πρόβλεψης δομής. Μια άλλη διαφορετική μορφή των SVM αποτελεί ο αλγόριθμος διανυσματικών μηχανών σχετικότητας (Relevance Vector Machine, RVM) (Tipping, 2001). Σε αντίθεση με τον SVM, ο RVM κατηγοριοποιεί με χρήση πιθανοτήτων χρησιμοποιώντας μια προσέγγιση expectation-maximization για την εκτίμηση των μέγιστων πιθανοτήτων κατηγοριοποίησης. Ο δημοφιλής αλγόριθμος SVM έχει εφαρμοστεί πολλές φορές για spam filtering. Οι Drucker και Vapnik (Drucker et al., 1999) εφάρμοσαν SVM πάνω σε δυο σώματα δεδομένων, το ένα με 1000 και το άλλο με πάνω από 7000 χαρακτηριστικά. Συγκρίνοντας τους με τον αλγόριθμο Rocchio, με boosted decision trees και με το πρόγραμμα RIPPER, έδειξαν την σαφή ανωτερότητα των SVM σε μεγάλο feature space. Επίσης, οι SVM είχαν το μικρότερο σφάλμα μαζί με τα boosted trees, και δείχθηκε ότι για τους δύο αυτούς συγκεκριμένους αλγορίθμους μια μέθοδος μείωσης των διαστάσεων (dimensionality reduction) θα ήταν περιττή καθώς η απόδοση των SVM δεν επηρεάστηκε σημαντικά στην εφαρμογή σε αυτά τα δύο σώματα, ενώ για boosting με C4.5 δένδρα αντιμετωπίζετε αυτόματα το φαινόμενο τον πολλών διαστάσεων λόγω των ιδιοτήτων του αλγορίθμου C4.5. Άλλη εφαρμογή των SVM σε filtering έγινε από τους Kolcz και Alspector (Kolcz et al., 2001) οι οποίοι κατάφεραν να προσαρμόσουν τον αλγόριθμο έτσι ώστε να λαμβάνεται υπ όψιν το κόστος λανθασμένης κατηγοριοποίησης χωρίς απόκλιση στην ακρίβεια. Μια σημαντική εφαρμογή έγινε πάνω σε κατηγοριοποίηση κειμένου (text classification) από τους Tong και Koller (Tong et al., 2000), οι οποίοι στην χρήση των SVM με active learning πρότειναν τρείς διαφορετικές νέες εξελίξεις. Αυτές οι παραλλαγές έδειξαν σημαντική αύξηση στα αποτελέσματα από την κλασική παθητική εκπαίδευση και διέφεραν μεταξύ τους σε θέματα υπολογιστικής ταχύτητας, ακρίβειας και κόστους ερωτήσεων για active learning. 55

56 2.4.7 K-nearest neighbors Ένας από τους πιο απλούς σε εφαρμογή αλγορίθμους είναι η μέθοδος που κατηγοριοποιεί παραδείγματα αναλόγως τις γειτονικές παρατηρήσεις της, και ονομάζεται μέθοδος k-κοντινότερων γειτόνων (k-nearest neighbors, k-nn). Όπως και στους περισσότερους αλγορίθμους, πρόκειται για μέθοδο επιβλεπόμενης μάθησης, με την βασική διαφορά όμως ότι δεν υπάρχει μια ουσιαστική περίοδος κατά την οποία ο αλγόριθμος εκπαιδεύεται. Το training set απλά αποθηκεύεται και η κατηγοριοποίηση, η εξαγωγή κανόνων και η εύρεση ενός decision boundary γίνεται κατά την εφαρμογή του αλγορίθμου. Η λειτουργία της μεθόδου έχει ως εξής: Τα training instances κρατιούνται στην μνήμη. Ένα νέο instance προβάλλεται στο επίπεδο. Οι k κοντινότερες instances ψηφίζουν για την κλάση της νέας. Αποφασίζεται ότι το αποτέλεσμα είναι η κλάση με τις περισσότερες ψήφους. Εικόνα 2.10 Το πρόβλημα της κατηγοριοποίησης ανδρών και γυναικών με τον αλγόριθμο k-nn 56

57 Ένα παράδειγμα k-nn φαίνεται στην εικόνα Η ψήφος τον κοντινότερων παρατηρήσεων είναι η κλάση που ανήκουν οι ίδιες. Η λογική του αλγορίθμου στηρίζεται στο ότι μια παρατήρηση για την οποία οι 9 στις 10 παρατηρήσεις είναι της κλάσης «Α» είναι πιο πιθανό να ανήκει σε αυτήν παρά στην κλάση «Β». Ο k-nn μπορεί να χρησιμοποιηθεί και για παλινδρόμηση (regression) εκτός από κατηγοριοποίηση, δηλαδή στην περίπτωση που δεν υπάρχουν διακριτές κλάσεις αλλά συνεχείς τιμές. Σε αυτήν την περίπτωση συλλέγονται οι τιμές απόφασης των k κοντινότερων γειτόνων και υπολογίζεται ο μέσος όρος τους, ο οποίος είναι και το αποτέλεσμα που αποδίδεται στο νέο instance. Επίσης, είναι σωστό να αποδοθούν βάρη ανάλογα με την απόσταση στους γείτονες, για καλύτερη ακρίβεια στα αποτελέσματα. Γενικά, οι παράμετροι που χρειάζονται ρύθμιση σε μια εφαρμογή k-nn είναι λίγοι. Αρχικά πρέπει να καθοριστεί ο αριθμός των k γειτόνων που θα ληφθούν υπ όψιν. Μικρός αριθμός γειτόνων μπορεί να έχει μεγάλο σφάλμα, ενώ μεγάλος αριθμός θα δίνει πλεονέκτημα στην κλάση με τις περισσότερες παρατηρήσεις στο training set. Γενικά δεν υπάρχει κάποιος συγκεκριμένος κανόνας για την επιλογή του k. Θεωρητικά, όσο μεγαλύτερος ο αριθμός του k τόσο καλύτερη κατηγοριοποίηση πετυχαίνουμε, αλλά αυτό προϋποθέτει δείγμα εκπαίδευσης με μεγάλο αριθμό παρατηρήσεων που να τείνει στο άπειρο. Επειδή τα δείγματα είναι περιορισμένα, εμφανίζεται η ανάγκη επιλογής του ιδανικού για κάθε δείγμα αριθμού γειτόνων ο οποίος θα αποφεύγει θορυβώδεις (noisy) όρια απόφασης λόγω λίγων γειτόνων και δεν θα υπερμοντελοποιεί τα δεδομένα λόγω πολλών. Ένας τρόπος εύρεσης κάποιου υποτυπώδες αριθμού k θα ήταν η χρήση crossvalidation ή bootstrapping (Hall et al., 2004). Σε προβλήματα δυαδικής κατηγοριοποίησης μια καλή ιδέα είναι να επιλέγεται περιττός αριθμός γειτόνων, για να αποφεύγονται οι ισοπαλίες στις ψήφους. 57

58 Εικόνα 2.11 Η νέα παρατήρηση κατηγοριοποιείται σωστά με k=5, αλλά για k=13 η κατηγοριοποίηση είναι λάθος. Στην συνέχεια πρέπει να καθοριστεί ο τρόπος επιλογής των κοντινότερων γειτόνων. Στο δισδιάστατο επίπεδο είναι εύκολο να τους βρούμε μετρώντας την Ευκλείδεια απόσταση όλων από το νέο instance. Όμως, σε περισσοτέρων διαστάσεων επίπεδο, μερικές διαστάσεις μπορεί να έχουν περισσότερη επιρροή στη απόσταση δύο παραδειγμάτων, ενώ η Ευκλείδεια απόσταση θεωρεί ότι όλες έχουν την ίδια επιρροή. Μια προτεινόμενη μέτρηση της απόστασης στην εφαρμογή κατηγοριοποίησης σε κείμενο που δεν αντιμετωπίζει αυτό το πρόβλημα είναι η απόσταση Hamming, η οποία μετράει πόσες διαφορετικές τιμές στις μεταβλητές έχουν τα παραδείγματα και αποδίδει αυτό σαν απόσταση μεταξύ τους. Εναλλακτικά έχουν προταθεί άλλες μέθοδοι, όπως η Neighborhood Component Analysis (Goldberger et al., 2005) που κάνει χρήση της απόστασης Mahalanobis για να υπολογίσει τις μεταξύ των παραδειγμάτων αποστάσεις, ή μια παραλλαγή του k-nn που λέγεται μέθοδος μέγιστου περιθωρίου κοντινότερων γειτόνων (Large Margin Nearest Neighbors, LMNN) (Weinberger et al., 2005). Αυτές οι 58

59 μέθοδοι έδειξαν σημαντική αύξηση της ακρίβειας του k-nn αναδεικνύοντας την σημαντικότητα επιλογής καλής μετρικής. Ο k-nn έχει γνωρίσει πολλές παραλλαγές από την πρώτη εμφάνιση για κατηγοριοποίηση του το 1967 από τους Cover και Hart. Ο Hart την επόμενη χρονιά πρότεινε μια μέθοδο για την σμίκρυνση του training set, την μέθοδο k-συμπυκνωμένων κοντινότερων γειτόνων (k-condensed nearest neighbors, k-cnn). Η μέθοδος αυτή αποσκοπεί στην εύρεση ενός υποσυνόλου του training set που να αρκεί για κατηγοριοποίηση, δηλαδή να το «συμπυκνώσει». Υπολογίζεται ένα decision boundary το οποίο θυμίζει το πώς λειτουργούν τα SVM, με τα ακόλουθα βήματα: Αρχικοποίηση του υποσυνόλου με ένα τυχαίο παράδειγμα ή ομάδα παραδειγμάτων. Κατηγοριοποίηση όλων των υπόλοιπων παραδειγμάτων με βάση του ότι υπάρχει στο υποσύνολο. Από τις λανθασμένες κατηγοριοποιήσεις διαλέγεται μια τυχαία, συνήθως κοντά στο όριο απόφασης, και προσθέτεται στο υποσύνολο. Το 2 ο βήμα επαναλαμβάνεται έως ότου να μην υπάρχουν λάθος κατηγοριοποιήσεις. Έτσι συγκροτείται ένα μικρότερο δείγμα των παρατηρήσεων με το οποίο μπορεί να γίνει εξίσου καλή κατηγοριοποίηση, τουλάχιστον στα δεδομένα εκπαίδευσης. Ενώ με αυτό τον τρόπο εξοικονομούμε σε ταχύτητα, δεν είναι σίγουρο ότι θα πάρουμε ιδανικό αντιπροσωπευτικό σύνολο καθώς η πρώτη τυχαία παρατήρηση ή ομάδα που θα διαλεχτεί θα καταστεί περιττή επειδή δεν θα βρίσκεται κοντά στο όριο (Almeida et al., 2002). Επίσης, ο αλγόριθμος δουλεύει καλύτερα όταν τα δεδομένα είναι διαχωριζόμενα, είτε γραμμικά είτε μη γραμμικά (σε μεγαλύτερο feature space). Αυτό συμβαίνει γιατί η πρωταρχική μορφή του αλγορίθμου είχε λίγη ευαισθησία σε μακρινές παρατηρήσεις (outliers), λόγω της ύπαρξης πολλών παρατηρήσεων, ενώ ο k-cnn μεταφέρει την σημασία πολλών σε λιγότερα σημεία, αυξάνοντας τον παράγοντα ευαισθησίας. Γι αυτό, συνιστάται πολλές φορές να χρησιμοποιείται μια άλλη μορφή του k-nn μαζί με τον k- CNN που ονομάζεται μέθοδος επεξεργασμένων συμπυκνωμένων κοντινότερων γειτόνων (edited condensed Nearest Neighbor, ECNN) (Hart,1978). 59

60 Η μέθοδος αυτή προσπαθεί να ελαττώσει περαιτέρω τον αριθμό των παραδειγμάτων εκπαίδευσης, με μια μορφή προ-επεξεργασίας (preprocessing) των δεδομένων (Hand et al., 1978). Ουσιαστικότερα αποτελεί μια μέθοδο αντιμετώπισης του προβλήματος την προηγούμενης έκδοσης, δηλαδή την ευαισθησία σε outlier παρατηρήσεις. Επιπλέον, προσαρμόζει καλύτερα τα όρια απόφασης μεταξύ των κλάσεων και αφαιρεί παρατηρήσεις που προσθέτουν θόρυβο στα δεδομένα. Η μέθοδος αυτή χρησιμοποιεί δύο συναρτήσεις πυκνότητας πιθανότητας (probability density functions, pdfs), μια για κάθε κλάση. Αν οι δύο συναρτήσεις είναι οι f και g αντίστοιχα για τις δύο κλάσεις, τότε για μια νέα παρατήρηση c, αν ισχύει f(c) > g(c) τότε αυτή ανήκει κατά πάσα πιθανότητα στην πρώτη κλάση. Αν όμως τώρα η παρατήρηση c ανήκει στην πραγματικότητα στην δεύτερη κλάση, και ισχύει η παραπάνω σχέση των pdfs, τότε αμέσως καταλαβαίνουμε ότι αυτή η παρατήρηση βρίσκεται περικυκλωμένη από παρατηρήσεις άλλης κλάσης, και ότι κατά πάσα πιθανότητα θα προκαλέσει σφάλματα στην κατηγοριοποίηση, π.χ. αν θέσουμε k=1 τότε σε μια περιοχή κοντά της υπάρχει μεγάλη πιθανότητα λάθος κατηγοριοποίησης. Επομένως, γίνεται μια μετατροπή του training set για να αποφευχθούν τέτοιες παρατηρήσεις, με τα εξής βήματα: Υπολογισμός όλων των pdfs για όλες τις παρατηρήσεις του training set Έλεγχος όλων των παρατηρήσεων και αφαίρεση αυτών για τις οποίες ισχύει ένας από τους 2 παρακάτω κανόνες: Το c ανήκει στην 1 η κλάση και ισχύει f(c) < g(c) Το c ανήκει στην 2 η κλάση και ισχύει g(c) < f(c) Με αυτόν τον τρόπο αφαιρούνται όλες οι παρατηρήσεις οι οποίες μπορούν να προκαλέσουν σφάλματα. Η μέθοδος αυτή όμως δεν αφαιρεί instances με λίγη σημασία, π.χ. instances σε βαριά κατοικημένες περιοχές με κοινή κλάση, γι αυτό χρησιμοποιείται καλύτερα σε συνδυασμό με τον k-cnn. Έκτος του k-cnn και ECNN, ο Gates (Gates,1972) πρότεινε και άλλη μια μορφή του k- NN η οποία μειώνει ακόμη περισσότερο το training set, την μέθοδο μειωμένων κοντινότερων γειτόνων (k-reduced Nearest Neighbor, k-rnn). Εφαρμόζοντας τον μετά τον k-cnn, ο k-rnn αρχικά αφαιρεί το πρώτο δείγμα ή ομάδα δειγμάτων που προστέθηκε στο υποσύνολο που κατασκεύασε ο k-cnn, καθώς έχουμε πει ότι κρίνεται 60

61 συνήθως περιττό. Ύστερα, γίνεται κατηγοριοποίηση όλων των παρατηρήσεων του training set, και αν κατηγοριοποιηθούν όλες σωστά, ο αλγόριθμος συνεχίζει αφαιρώντας το επόμενο στοιχείο του υποσυνόλου και επαναλαμβάνοντας την διαδικασία. Αν τώρα προκύψουν λάθος κατηγοριοποιήσεις, το στοιχείο που αφαιρέθηκε επιστρέφει στο υποσύνολο και επιλέγεται κάποιο άλλο για έλεγχο. Αυτή η μέθοδος μπορεί να είναι υπολογιστικά βαριά, αλλά σε συνδυασμό με τον k-cnn κάνει μια καλή εκτίμηση των πιο αντιπροσωπευτικών παρατηρήσεων του training set. Η μέθοδος k-nn έχει δοκιμαστεί σε spam filtering σε πολλές μελέτες. Από τον Ανδρουτσόπουλο προτάθηκε μια memory-based τεχνική (Ανδρουτσόπουλος et al., 2000) παρόμοια του k-νν για κατηγοριοποίηση spam με το λογισμικό TiMBL (Daelemans et al, 1999). Αργότερα, οι Zhang, Yao και Zhung (Zhand et al., 2004) μελέτησαν και απέδειξαν το ότι ο k-nn υστερεί σε ακρίβεια απέναντι σε άλλους αλγορίθμους (SVM, AdaBoost, NB). Μια ενδιαφέρουσα δουλεία σε spam filtering έγινε από τους Blanzieri και Bryl (Blanzieri et al., 2007), οι οποίοι χρησιμοποίησαν ένα συνδυασμό του k-nn και του SVM, τον λεγόμενο SVM Nearest Neighbor (Blanzieri & Melgani, 2006). Αυτός ο αλγόριθμος κατηγοριοποιεί μια νέα παρατήρηση δημιουργώντας έναν τοπικό SVM από τους κοντινότερους γείτονες της. Τα αποτελέσματα του έδειξαν αυξημένη ακρίβεια έναντι των SVM και k-nn όταν χρησιμοποιήθηκαν μόνοι τους, και ιδιαίτερα έναντι του SVM σε μικρότερο αριθμό διαστάσεων. Συνολικά, ο k-nn αποτελεί έναν έξυπνο τρόπο κατηγοριοποίησης. Μερικά σημαντικά πλεονεκτήματα του είναι: Απλή εφαρμογή χωρίς δυσκολία στην λειτουργία του. Μπορεί να εφαρμοστεί σε δεδομένα οποιασδήποτε κατανομής. Εφόσον επαρκεί ο αριθμός των training instances, μπορεί να επιτευχθεί καλή κατηγοριοποίηση. Έχει όμως και σημαντικά μειονεκτήματα, τα οποία στοχεύουν να βελτιώσουν οι διάφορες μορφές του, δηλαδή: Απαίτηση αποθηκευτικού χώρου για την διατήρηση όλων των training instances. 61

62 Ο υπολογισμός όλων των κοντινότερων αποστάσεων χρειάζεται χρόνο και υπολογιστική ισχύς για να γίνει. Εμφανίζει ευαισθησία σε δεδομένα με πολλά χαρακτηριστικά, λόγω των πολλών διαστάσεων που καλείται να λάβει υπ όψιν στην μέτρηση της απόστασης. Η επιλογή του ιδανικού k είναι ένα θέμα που ακόμη μελετάται. Ορισμένες φορές το μέγεθος του training set που χρειάζεται για να επιτευχθεί καλή ακρίβεια αυξάνεται δραματικά Linear Discriminant Analysis Η γραμμική ανάλυση διακρίσεων (Linear Discriminant Analysis-LDA) αποτελεί μια μέθοδο στατιστικού μοντέλου που βρίσκει εφαρμογή σε πολλούς κλάδους. Υπάρχουν εφαρμογές της στην στατιστική, στην αναγνώριση προτύπων και στην μηχανική μάθηση. Ο όρος ανάλυση διακρίσεων αναφέρεται σε πολλές στατιστικές ενέργειες. Η LDA μπορεί να εφαρμοστεί για διερεύνηση, δηλαδή για μετάφραση των διαφορών των κλάσεων, αλλά και για κατηγοριοποίηση. Ως μέθοδος κατηγοριοποίησης ανήκει στους γραμμικούς κατηγοριοποιητές, κυρίως λόγω του ότι προσπαθεί να κατηγοριοποιήσει κατασκευάζοντας ένα γραμμικό συνδυασμό των χαρακτηριστικών, δηλαδή με μια συνάρτηση κατάταξης (discriminating function). Αυτή η συνάρτηση θέλουμε να μπορεί να κατηγοριοποιεί τα δεδομένα μας με τον καλύτερο δυνατό τρόπο. Η LDA σήμερα κατέχει μια διαφορετική μορφή από αυτήν με την οποία δημιουργήθηκε πρώτα (Fisher, 1936) με κύριες διαφορές τις βασικές υποθέσεις που κάνει. Η LDA στηρίζεται στην υπόθεση ότι τα αντικείμενα των κλάσεων είναι κανονικά κατανεμημένα μέσα στο training set, και ότι οι δύο κλάσεις έχουν την ίδια διακύμανση, ενώ η Fisher s Discriminant Function θεωρεί μόνο ότι οι δύο κλάσεις έχουν ίσους πίνακες διασπορώνσυνδιασπορών. Η LDA όπως είπαμε εξάγει έναν γραμμικό συνδυασμό των χαρακτηριστικών των παρατηρήσεων. Αμέσως έρχεται στην επιφάνεια το θέμα της σημασίας του κάθε χαρακτηριστικού στην κατηγοριοποίηση. Γνωρίζουμε π.χ. ότι ένα άτομο είναι πιο πιθανό να είναι άνδρας αν έχει κοντά μαλλιά και νούμερο παπούτσι μεγαλύτερο του 42. Έτσι 62

63 πρέπει να ληφθούν υπ όψιν αυτές οι σχέσεις μέσα στην κατασκευή της συνάρτησης, αποδίδοντας του κατάλληλους συντελεστές στις μεταβλητές των χαρακτηριστικών. Επομένως, διαθέτοντας 1,2,,n χαρακτηριστικά x η discriminating function έχει την ακόλουθη μορφή: f n= u 0 + u1 x 1+ u2 x un xn, όπου τα u είναι οι συντελεστές του κάθε χαρακτηριστικού. Για μια παρατήρηση, η συνάρτηση κατάταξης παίρνει σαν τιμές τα χαρακτηριστικά της και εξάγει μια τιμή, η οποία χαρακτηρίζει την κλάση που ανήκει η παρατήρηση. Με την χρήση κατωφλίου, μπορεί να κατηγοριοποιήσει τις παρατηρήσεις σε δύο κλάσεις. Για multiclass classification, απαιτείται μια από τις μεθόδους που χρησιμοποιούνται συχνά, όπως η allversus-all προσέγγιση. Λόγω της ιδιότητας της LDA ως γραμμικού κατηγοριοποιητή, καταλαβαίνουμε ότι δεν θα είναι κατάλληλη για διάκριση δεδομένων που δεν είναι επαρκώς γραμμικά διαχωριζόμενα. Ωστόσο, η χρήση κάποιας kernel function, όπως στην περίπτωση των SVM, μπορεί να καταστήσει την LDA ικανή να χειριστεί και τέτοια δεδομένα. Σε πιο θεωρητικό επίπεδο, η LDA προσπαθεί να κατατάξει μελετώντας τις διακυμάνσεις των δεδομένων της κάθε κλάσης, και μεγιστοποιώντας τον λόγο της μεταξύ των κλάσεων διακύμανσης (between class variance) προς την εντός των κλάσεων διακύμανση (within class variance), για κάθε κλάση (Balakrisshnama et al., 1998). Μεγιστοποιώντας αυτόν τον λόγο πετυχαίνουμε την μεγαλύτερη δυνατή διαχωριστικότητα (separability). Η LDA δοκιμάσθηκε από τον Gomez (Gomez et al., 2010) για filtering, με αρκετά καλά αποτελέσματα. Στην ίδια δουλεία όμως συστήθηκε και η χρήση μιας μορφοποίησης της LDA για filtering, που λέγεται μεροληπτική ανάλυση διακρίσεων (Biased Discriminant Analysis, BDA) (Pillo, 1979), η οποία έδειξε σημαντική αύξηση στα αποτελέσματα. Ενώ η τυπική LDA μπορεί να αυξομειώσει τις διαστάσεις που έχει να αντιμετωπίσει με κάποια μορφή feature selection ή kernel function, η BDA κατασκευάζει ένα πίνακα W i j διαστάσεων, όπου i είναι ο αριθμός τον χαρακτηριστικών των αντικειμένων και j είναι οι διαστάσεις που θέλουμε να έχουμε. Τα νέα instances υπολογίζονται από τον τύπο: 63

64 t = x W Τα χαρακτηριστικά x είναι 1 i διαστάσεων, και ο πίνακας i j. Το αποτέλεσμα του πολλαπλασιασμού θα είναι τα νέα χαρακτηριστικά t, με διαστάσεις 1 j. Τα δεδομένα έχουν πλέον προβληθεί σε νέο feature space. Επίσης, θέλουμε ο πίνακας να συγκεντρώνει όσο το δυνατόν περισσότερο τα instances μιας κλάσης κοντά, ενώ παράλληλα να σπρώχνει τα instances της άλλης μακριά, για να πετυχαίνεται μέγιστη διαχωριστικότητα. Σε τέσσερα διαφορετικά σώματα, με πολύ μεγάλο αριθμό χαρακτηριστικών (κοντά στα 2000), η LDA με feature selection είχε σχετικά καλή ακρίβεια, όμως η BDA κυριάρχησε σχεδόν σε κάθε πείραμα Logistic Regression Η Λογιστική παλινδρόμηση (Logistic Regression, LR) είναι ένας τύπος Ανάλυσης Παλινδρόμησης (Regression Analysis, RA) που χρησιμοποιείται σε περιπτώσεις όπου, αντίθετα με τις μεθόδους RA, το αποτέλεσμα είναι διακριτό, με την μορφή μιας κατηγορικής μεταβλητής που παίρνει τιμές από ένα διακριτό σύνολο. Στην περίπτωση της δυαδικής κατηγοριοποίησης το σύνολο αυτό αποτελείται από δύο πιθανά αποτελέσματα. Ο λόγος που η LR είναι ικανή να πραγματοποιήσει δυαδική κατηγοριοποίηση είναι η χρήση μιας λογαριθμικής συνάρτησης (logit function) με την οποία οι εισερχόμενες μεταβλητές, που μπορεί να έχουν συνεχείς τιμές σε όλο το σύνολο αριθμών, μετατρέπονται σε τιμές στο πεδίο [0,1], αποδίδοντας τιμές πάνω του 0.5 στην μια κλάση και κάτω του 0.5 στην άλλη. Η LR υπολογίζει τις πιθανότητες της κάθε κλάσης χρησιμοποιώντας αρχικά μια γραμμική συνάρτηση πρόβλεψης, όπως η LDA. Αυτή η γραμμική συνάρτηση είναι ένας γραμμικός συνδυασμός όλων των χαρακτηριστικών των παραδειγμάτων πολλαπλασιασμένα με τους κατάλληλους συντελεστές. Επομένως, αν έχουμε τα χαρακτηριστικά x1,2,..,n τότε η συνάρτηση είναι: f( x) = β + β x + β x

65 όπου τα β είναι οι συντελεστές των χαρακτηριστικών (ανεξάρτητες μεταβλητές). Τώρα θέλουμε να εξισώσουμε την f(x) με τον λογάριθμο του μέτρου της απόδοσης (odds), επομένως έχουμε: ln(odds) = f(x) p Η απόδοση σχετίζεται με την σχετική πιθανότητα και ορίζεται ως 1 p με p να είναι η πιθανότητα (εξαρτημένη μεταβλητή) η παρατήρηση να ανήκει στην κλάση 1. Θεωρώντας τα δύο μέλη της προηγούμενης εξίσωσης ως δυνάμεις του e, έχουμε πλέον την σχέση: odds = e f ( x) Για να εμφανιστεί η πιθανότητα διαιρούμε με το (1 + odds) και εμφανίζεται πλέον ο τύπος που εξάγει την πιθανότητα: p = e 1+ e f ( x) f ( x) Ο τύπος αυτός, ανεξάρτητα από την τιμή της f(x), επιστρέφει μια τιμή ανάμεσα στο [0,1]. Η f(x) είπαμε ότι αποτελεί γραμμικό συνδυασμό των χαρακτηριστικών. Οι συντελεστές αρχικά όμως είναι τυχαίοι αριθμοί και δεν αντιπροσωπεύουν τα πραγματικά βάρη που πρέπει να έχει το κάθε χαρακτηριστικό. Χρησιμοποιώντας την τεχνική της εκτίμησης μέγιστης πιθανότητας (Maximum Likelihood Estimation) οι συντελεστές ανανεώνονται έως ότου φτάσουν σε κάποιο ιδανικό επίπεδο. Έτσι λοιπόν συνοψίζεται η λειτουργία του αλγορίθμου κατηγοριοποίησης LR. Στα χαρακτηριστικά εφαρμόζεται μια μορφή γραμμικής παλινδρόμησης (Linear Regression) και ύστερα μέσω της σιγμοειδής logit function εξάγεται αποτέλεσμα κατηγοριοποίησης. Για κάθε νέα παρατήρηση τα χαρακτηριστικά ρυθμίζουν την f(x) και το αποτέλεσμα, αναλόγως αν είναι πάνω ή κάτω του 0.5 αποδίδεται σε μια από τις δύο κλάσεις. Οι ομοιότητες της LR με την LDA είναι αρκετές. Γενικά θεωρείται ότι η LR είναι καλύτερη, όχι λόγω διαφοράς αποτελεσμάτων αλλά λόγω του ότι δεν κάνει τις υποθέσεις της LDA και εξάγει λογικές τιμές πιθανότητας. Ωστόσο η LDA θεωρείτε πιο κατάλληλη για προβλήματα πολλών κλάσεων. Η LR είναι επίσης ικανή να αντιμετωπίσει προβλήματα πολλών κλάσεων (Multinomial Logistic Regression) με την εισαγωγή 65

66 επιπλέον εξαρτημένων μεταβλητών για τις οποίες ισχύει το ότι όποια κατέχει τιμή 1 είναι και η κλάση που ανήκει το παράδειγμα. Ένα μοντέλο LR μπορεί να ενισχυθεί περεταίρω χρησιμοποιώντας τις υποθέσεις ανεξαρτησίας μεταβλητών του αλγορίθμου NB για να πετύχει ακόμη καλύτερα αποτελέσματα (Chang et al., 2008). Η μέθοδος χωριζόμενης Λογιστικής Παλινδρόμησης (Partitioned Logistic Regression- PLR) υλοποιεί αυτήν την ιδέα, κατασκευάζοντας πολλά μοντέλα LR και εκπαιδεύοντας το καθένα με διαφορετικά κομμάτια του feature space, αλλά τα ίδια instances. Έχει δειχθεί ότι αυτή η μέθοδος ξεπερνάει κατά πολύ και τις δύο μεθόδους που συνδυάζει σε ακρίβεια κατηγοριοποίησης. Όσον αφορά την LR, σε μια σύγκριση με τον δημοφιλή NB δείχθηκε ότι ασυμπτωτικά μπορεί να έχει καλύτερα αποτελέσματα. Ακόμη σημαντικότερη παρατήρηση είναι ότι γενικά τα μοντέλα διάκρισης (discriminative) όπως η LR και η LDA δεν είναι τα ιδανικά για κάθε περίπτωση, αλλά υπάρχει κάποιο σημείο στο μέγεθος των δεδομένων εκπαίδευσης πέρα από το οποίο ξεπερνάν τα γενετικά μοντέλα (π.χ. μοντέλο NB) (Ng et al., 2001) (Mitchel, 2005). 2.5 Υποβοηθητικές μέθοδοι και τεχνικές ελέγχου Όπως είδαμε στην προηγουμένως, ο k-nn χρειάζεται μερικές τεχνικές υποβοήθησης για να λύσει τα πρόβλημα που εμφανίζονται στις εφαρμογές του. Επίσης είδαμε στα perceptron πολλαπλών επιπέδων ότι τα βάρη της κάθε μονάδας και η εκπαίδευση τους μπορεί να γίνει με έναν αλγόριθμο που ονομάζεται back propagation. Η εφαρμογή των αλγοριθμικών τεχνικών τις περισσότερες φορές συνοδεύεται από τέτοιες μεθόδους με σκοπό την επίλυση των κυρίων προβλημάτων που παρουσιάζουν. Ταυτόχρονα, για την μετάφραση των αποτελεσμάτων τους χρησιμοποιούνται διάφορες τεχνικές ελέγχου. Σε αυτήν την ενότητα θα περιγράψουμε αυτές τις μεθόδους και θα αναδείξουμε την σημασία τους στην μελέτη αλγορίθμων κατηγοριοποίησης Cross Validation Μια διαδικασία ελέγχου που έχει δείξει πολύ καλά αποτελέσματα στην εφαρμογή της σε μελέτες κατηγοριοποίησης και διάκρισης είναι η μέθοδος Jackknifing, ή με την πιο 66

67 γνωστή ονομασία της, Cross Validation. Αυτή η τεχνική χρησιμοποιείται για να ελέγξει την πιο σημαντική ιδιότητα που θέλουμε να υπάρχει στις μεθόδους μας, δηλαδή την γενίκευση σε άγνωστα δεδομένα. Η εφαρμογή CV μαζί με τον αλγόριθμο κατάταξης γίνεται ως εξής: ρυθμίζοντας την παράμετρο CV, έστω k, η διαδικασία της εκπαίδευσης του αλγορίθμου πραγματοποιείται χωρίζοντας το training set σε k μέρη και χρησιμοποιώντας ένα από αυτά κάθε φορά ως test set, και τα υπόλοιπα για εκπαίδευση. Η διαδικασία επαναλαμβάνεται έως ότου όλα τα k μέρη χρησιμοποιηθούν μια φορά ως test set. Τέλος, τα αποτελέσματα από τις k εφαρμογές συνδυάζονται ή παίρνουμε τον μέσο όρο τους για την πρόβλεψη των αποτελεσμάτων του μοντέλου μας. Η ρύθμιση αυτής της παραμέτρου μπορεί να μας δώσει γενικά διαφορετικά αποτελέσματα. Αναλόγως τότε το k, υπάρχουν μερικοί συχνοί τύποι εφαρμογής CV: Η τυπική χρήση CV όπου το training set σπάει σε k μέρη, με πιο κοινή τιμή k το 10 (ten-fold cross validation). Για τιμή k=2 (2-fold cross validation), έχουμε μια πιο απλή μορφή CV, με πλεονέκτημα ότι και τα δύο σετ είναι μεγάλα. Θέτοντας k ίσο με τον αριθμό τον instances, έχουμε την λεγόμενη leave-oneout CV. Εδώ σε κάθε επανάληψη το μοντέλο ελέγχεται σε μια μόνο παρατήρηση και εκπαιδεύεται σε όλες τις υπόλοιπες. Αυτή η μέθοδος απαιτεί μεγάλο χρόνο εκτέλεσης και καθίσταται απαγορευτική σε μεγάλα training sets. Έχει όμως δειχθεί ότι είναι ο ιδανικότερος τρόπος ελέγχου της γενίκευσης του μοντέλου για ορισμένες μεθόδους, όπως ο k-nn και η LDA. Επιπλέον, μπορούμε να θεωρήσουμε κάθε φορά τυχαίο δείγμα εκπαίδευσης και ελέγχου, εφαρμόζοντας μια μορφή τυχαίας CV. Έτσι τα μεγέθη των σετ δεν βασίζονται στον τιμή του k, αλλά χάνουμε σε γενίκευση, καθώς μπορεί κάποια δεδομένα ή να μην χρησιμοποιηθούν ποτέ σε κανένα από τα δύο σετ ή να εμφανιστούν πολλές φορές. Να σημειώσουμε επίσης ότι η μέθοδος CV μπορεί να εφαρμοστεί και σε περιπτώσεις όπου θέλουμε να μειώσουμε τις διαστάσεις του προβλήματος (dimensionality reduction). Συγκρίνοντας τις αποδόσεις του μοντέλου με επαναλήψεις CV μπορεί να αναδεχθεί κάποιο υποσύνολο αυτών το οποίο είναι αρκετά αντιπροσωπευτικό του πρωταρχικού. 67

68 Η μέθοδος CV είναι εξαιρετικά αποτελεσματική στην σύγκριση διαφορετικών μεθόδων. Επιτρέπει σε όλα τα δεδομένα να χρησιμοποιηθούν για training και testing. Επίσης, ο κίνδυνος των πολύ αισιόδοξων αποτελεσμάτων λόγω του training set αποφεύγεται, και πλέον είναι δυνατόν να συγκριθούν πιο αποτελεσματικά οι διάφορες τεχνικές κατηγοριοποίησης. Γι αυτούς τους λόγους θα χρησιμοποιηθεί CV όπου είναι εφικτό στις εφαρμογές που θα γίνουν στο 3 ο κεφάλαιο αυτής της εργασίας Bootstrap Aggregating Η μέθοδος bootstrap aggregating ή bagging αποτελεί μια τεχνική αύξησης της ακρίβειας ενός μοντέλου κατηγοριοποίησης ή παλινδρόμησης. Προτάθηκε για χρήση σε προβλήματα κατηγοριοποίησης από τον Leo Breiman (Breiman, 1996). Η μέθοδος θυμίζει αρκετά τον τρόπο χρήσης της τεχνικής boosting, αλλά διαφέρει αρκετά στις υποθέσεις που κάνει και στην αποτελεσματικότητα που προσδίδει σε κάθε αλγόριθμο. Η μέθοδος λειτουργεί ως εξής: από το αρχικό σετ Ν παρατηρήσεων, κατασκευάζονται j νέα training sets (bootstrap samples) διαλέγοντας τυχαία παρατηρήσεις από το αρχικό, το καθένα με m παρατηρήσεις, όπου m<n. Οι παρατηρήσεις δεν αφαιρούνται από το αρχικό σετ, και σαν αποτέλεσμα τα j νέα training sets μπορεί να έχουν περισσότερα του ενός αντίγραφα παρατηρήσεων ή και κανένα. Στην συνέχεια κατασκευάζονται j μοντέλα τα οποία εκπαιδεύονται με το κάθε σετ και χρησιμοποιούνται μαζί για την εξαγωγή αποτελέσματος (π.χ. ψηφίζουν για την κλάση). Αμέσως φαίνεται η ομοιότητα με την μέθοδο boosting. Όμως η παρουσία των αντιγράφων θέτει το θέμα κατά πόσο οι βεβιασμένοι (biased) πλέον επιμέρους κατηγοριοποιητές είναι αποτελεσματικοί. Μια εκτίμηση δείχνει ότι το ποσοστό των αντιγράφων σε κάθε δείγμα bootstrap είναι κοντά στο 1, επομένως το ίδιο ποσοστό έχει 3 παραληφθεί από το δείγμα. Ενώ οι υποθέσεις της μεθόδου είναι γενικά αυθαίρετες και υπονοούν ότι θα γίνουν σημαντικά λάθη, τα αποτελέσματα έχουν δείξει ότι μπορεί να επιτευχθεί σημαντική μείωση του σφάλματος ορισμένων αλγορίθμων (Breiman, 1996). O Leo Breiman απέδειξε ότι η τεχνική θα προκαλέσει μείωση του σφάλματος εφόσον ο αλγόριθμος που χρησιμοποιείται είναι ασταθής (Breiman, 1996). Ο ίδιος σε διαφορετικό 68

69 χρόνο (Breiman, 1994) μελέτησε την σταθερότητα των πιο γνωστών αλγορίθμων και απέδειξε ότι τεχνικές όπως τα νευρωνικά δίκτυα και τα δένδρα απόφασης αποτελούν ασταθείς μεθόδους, ενώ ο k-nn είναι αρκετά ευσταθής και δεν συνδυάζεται αποτελεσματικά με bagging. Επίσης, τέθηκε το θέμα του αριθμού επιμέρους σετ που θα χρησιμοποιηθούν. Δείχθηκε ότι σε περιπτώσεις κατηγοριοποίησης είναι προτιμότερο να χρησιμοποιηθούν περισσότερα σετ ενώ όταν εξάγονται συνεχείς τιμές σαν αποτελέσματα χρειάζονται λιγότερα. Όμως, όπως και στην μέθοδο boosting, υπάρχει κάποιο όριο πέρα από το οποίο επιπλέον πρόσθετες μονάδες χειροτερεύουν τα αποτελέσματα αντί να τα βελτιώνουν. Όσον αφορά το μέγεθος των επιμέρους σετ, απώλεια 1 3 στα δεδομένα του κάθε σετ δεν έδειξε να έχει σοβαρές επιπτώσεις στα αποτελέσματα. Όταν τέθηκε από τον Breiman η παραλλαγή του bagging για μέγεθος για τα σετ διπλάσιο του αρχικού, έτσι ώστε να μην παραληφθεί σημαντικός αριθμός των instances, δεν παρατηρήθηκε διαφορά από πριν. Ο Quinlan (Quinlan, 2006) μελέτησε τα οφέλη των μεθόδων boosting και bagging και κατέληξε στο ότι, αν και οι δύο μέθοδοι αυξάνουν σημαντικά τις ακρίβειες των αλγορίθμων, κατηγοριοποίηση με boosting είναι γενικά πιο αποτελεσματική στα περισσότερα σετ δεδομένων Precision, Recall και άλλα μέτρα ελέγχου ακρίβειας Έως τώρα μιλούσαμε για ακρίβεια κατηγοριοποιητών και ρυθμούς σφαλμάτων στις περιγραφές των αποτελεσμάτων. Σε αυτήν την ενότητα θα εξηγήσουμε τα μέτρα με τα οποία ελέγχουμε την ποιότητα μιας κατηγοριοποίησης. Ύστερα από μελέτη μεθόδων κατηγοριοποίησης, κάποιος μπορεί να θεωρήσει ως το πιο σημαντικό αποτέλεσμα την συνολική ακρίβεια (accuracy) του μοντέλου κατηγοριοποίησης. Στην πραγματικότητα μας ενδιαφέρουν και άλλα αποτελέσματα του μοντέλου. Στην συνέχεια περιγράφουμε τα μέτρα τα οποία χρησιμοποιούνται. Αν θεωρήσουμε την περίπτωση της δυαδικής κατηγοριοποίησης, τότε έχουμε δύο ειδών δεδομένα: τα θετικά (positive) τα οποία κατέχουν το χαρακτηριστικό που ζητάμε, και τα αρνητικά (negative) από τα οποία το χαρακτηριστικό λείπει. Για τα παραδείγματα μας εδώ θα θεωρήσουμε ότι η έλλειψη του 69

70 αρνητικού φαινομένου (spam mail, εκδήλωση ασθένειας) είναι το επιθυμητό χαρακτηριστικό. Με αυτά δεδομένα, ένα μοντέλο μας επιστρέφει τα ακόλουθα: Επιτυχείς θετική πρόβλεψη (true positive prediction-τp): Το μοντέλο προέβλεψε σωστά έναν αριθμό positive instances ως ότι κατέχουν το χαρακτηριστικό που ζητήσαμε. Για παράδειγμα, έγινε σωστή πρόβλεψη της μη ύπαρξης ασθένειας σε ένα άτομο ή ένα mail που δεν είναι κακόβουλο πέρασε το φίλτρο spam. Επιτυχείς αρνητική πρόβλεψη (true negative prediction-tn): Ο αριθμός των παραδειγμάτων που δεν κατέχουν το χαρακτηριστικό, και επιβεβαιώθηκαν ως τέτοια από το μοντέλο. Παράδειγμα αυτού είναι τα μηνύματα spam που απορρίφτηκαν από το φίλτρο. Ανεπιτυχείς αρνητική πρόβλεψη (false negative prediction-fn): Το παράδειγμα εδώ κατηγοριοποιήθηκε ανεπιτυχώς, δηλαδή ότι δεν κατείχε το χαρακτηριστικό ενώ στην πραγματικότητα το είχε. Για παράδειγμα, το μήνυμα θεωρήθηκε κακόβουλο ενώ ήταν επιθυμητό ή υποτέθηκε ασθένεια ενώ το άτομο ήταν υγιές. Να σημειώσουμε ότι στις λανθασμένες προβλέψεις το πόσο σημαντικό είναι το λάθος καθορίζεται από το εκάστοτε πρόβλημα. Για έναν ασθενή η υγεία είναι σημαντική ακόμη και αν το λάθος του ιατρού αποκαλύπτεται αργότερα. Στην περίπτωση των η απόρριψη ενός προσωπικού μηνύματος μπορεί να αποβεί μοιραία για κάποια δουλεία και μπορεί ακόμη να μην διαγνωστεί το λάθος έγκαιρα ή και ποτέ. Γι αυτό θεωρούμε στο πρόβλημα του filtering ότι false negatives είναι πιο σημαντικά και έχουν μεγαλύτερο κόστος misclassification (Kolcz et al., 2001). Ανεπιτυχείς θετική πρόβλεψη (false positive prediction-fp): Εδώ το μοντέλο μας λανθασμένα αναγνώρισε το χαρακτηριστικό ενώ δεν υπήρχε. Πάλι αντιμετωπίζουμε το θέμα με βάση το κόστος misclassification, καθώς ένα spam που θα περάσει το φίλτρο δεν έχει τόση σημασία όσο το να διαγνωστεί ένα άτομο ως υγιές ενώ δεν είναι. 70

71 Στην εργασία αυτήν θα θεωρηθεί σαφώς λιγότερο σημαντικό το κόστος false positive από το κόστος false negative. Ακρίβεια θετικής πρόβλεψης (precision): Στην ανάκτηση πληροφορίας ο όρος precision αναφέρεται στον αριθμό των σωστά προβλεπόμενων positive παρατηρήσεων προς όλες τις παρατηρήσεις που θεωρήθηκαν σαν positive στα αποτελέσματα. Στην περίπτωση κατηγοριοποίησης το μέτρο υπολογίζεται απ τον τύπο: True Positive Precision = True Positive + False Positive ή Tp Pr = Tp + Fp Πραγματικό ποσοστό θετικών (True positive rate or Recall or Sensitivity): Το μέτρο recall μετράει το ποσοστό από τις προβλεπόμενες positive παρατηρήσεις που είναι πραγματικές positive, δηλαδή: True Positive Recall = True Positive + False Negative ή Tp Rec = Tp + Fn Πραγματικό ποσοστό αρνητικών (True Negative Rate or Specificity): Αυτό το μέτρο μετράει το ποσοστό των πραγματικών negative παρατηρήσεων που χαρακτηρίστηκαν ως negative: True Negative Specificity = True Negative + False Positive ή Tn Sp = Tn + Fp Συνολική ακρίβεια (Accuracy): Η συνολική ακρίβεια του μοντέλου υπολογίζεται ως ο λόγος των σωστά προβλεπόμενων παρατηρήσεων προς όλες τις παρατηρήσεις. Άρα έχουμε για το μέτρο accuracy τον τύπο: Accuracy = True Positive + True Negative ή All Instances Tp +Tn Acc = Tp + Fp + Tn + Fn 71

72 F-measure ή F-score: Το μέτρο F-score αποτελεί τον αρμονικό μέσο των Precision και Recall (ή και των Specificity και Recall) με τιμές ανάμεσα σε 0 και 1 (1 για την τέλεια ακρίβεια και 0 για την χειρότερη). Ο τύπος του F-score είναι ο εξής: 2 F -score = (1+β ) β Precision Recall 2 (β Precision) + Recall όπου η παράμετρος β ορίζει τι θεωρούμε πιο σημαντικό στις μετρήσεις από τα Precision, Recall. Εφόσον θεωρηθούν εξίσου σημαντικά, το β ισούται με 1 και βρίσκουμε το F1 -score. Σε άλλες περιπτώσεις μπορεί να είναι προτιμότερο να θεωρήσουμε άλλα F- scores, όπως τα F2 -score ή F 0.5-score, τα οποία δίνουν περισσότερο βάρος στα μέτρα Precision και Recall αντίστοιχα. Συντελεστής Συσχέτισης Mathews (Mathews correlation coefficient, MCC): Ένας άλλος τρόπος μέτρησης που συνιστάται για αξιολόγηση δυαδικής κατηγοριοποίησης, το μέτρο MCC προτάθηκε το 1975 από τον Mathews (Mathews et al., 1975). Θεωρείται γενικά από τους καλύτερους τρόπους αναπαράστασης του πίνακα ενδεχομένων. Ο τύπος του είναι ο ακόλουθος: MCC = (Tp Tn) - (Fp Fn) (Tp + Fp) (Tp + Fn) (Tn + Fp) (Tn +Fn) όπου τα Tp, Tn, Fp, Fn είναι οι τιμές στα κελία του πίνακα ενδεχομένων. Οι τιμές του MCC κυμαίνονται από -1 ως 1, με 1 να δείχνει τέλεια κατηγοριοποίηση, 0 τυχαία και -1 πλήρως λανθασμένη Γραφικές παραστάσεις Εκτός από τα αριθμητικά μέτρα ακρίβειας, η ποιότητα ενός μοντέλου κατηγοριοποίησης μπορεί να εκτιμηθεί και με την χρήση γραφικών παραστάσεων. Η πιο κοινή γραφική παράσταση είναι ο σχεδιασμός της καμπύλης ROC (Receiver Operating Characteristic curve). Θα εξηγήσουμε επίσης τις γραφικές παραστάσεις με τις οποίες θα λάβουμε αποφάσεις στο επόμενο κεφάλαιο: 72

73 Καμπύλη ROC Αυτή η γραφική παράσταση αντιπροσωπεύει τις αλλαγές μεταξύ της τιμής Recall και Specificity για διαφορετικές τιμές κατωφλίου. Πιο συγκεκριμένα, η καμπύλη αποτελεί μια ακολουθία σημείων, όπου το κάθε ένα αντιστοιχεί σε διαφορετικό πίνακα ενδεχομένων υπολογισμένων έχοντας στο νου διαφορετικό κατώφλι για τις τιμές απόφασης που μας δίνει το μοντέλο. Το κάθε σημείο αναπαρίσταται σε ένα δισδιάστατο επίπεδο, όπου οι άξονες αντιπροσωπεύουν τις τιμές Recall και 1 μείον την τιμή Specificity. Μια τυπική καμπύλη ROC ξεκινάει από το σημείο [0,0] και ανεβαίνει έως ότου φτάσει το σημείο [1,1]. Εκτιμάμε την ποιότητα του μοντέλου αναλόγως το πόσο πλησιάζει η καμπύλη στην πάνω αριστερή γωνία, η οποία αντιπροσωπεύει την τέλεια κατηγοριοποίηση (100% Recall, Specificity). Αντίστοιχα, μπορούμε να αναπαραστήσουμε τα σημεία σε επίπεδο Recall versus Specificity, και σε αυτή την περίπτωση το ιδανικό σημείο θα είναι η πάνω δεξιά γωνία. Υπολογίζοντας αυτήν την γραφική παράσταση μας επιτρέπει να εκτιμήσουμε το πόσο καλά κατηγοριοποιεί το μοντέλο, αλλά και να υπολογίσουμε ένα άλλο μέτρο εκτίμησης, που ονομάζεται περιοχή κάτω από την καμπύλη ROC (Area under ROC curve, AUC). Το μέτρο αυτό εκτιμάει την πιθανότητα που έχει το μοντέλο να αποδώσει τιμή απόφασης μεγαλύτερη σε μια τυχαία positive παρατήρηση, από μια τυχαία negative παρατήρηση. Παίρνει τιμές από 0 έως 1, με το 1 να αντιπροσωπεύει ένα τέλειο τεστ και το 0 ένα τελείως λάθος. Γενικά τιμές από 0.5 και κάτω θεωρούνται αυτόματα αποτυχία του μοντέλου. Ένας κατηγοριοποιητής με σκορ AUC πάνω από 0.9 θεωρείται ένα καλό μοντέλο διάκρισης. Accuracy (ή F-measure) αναλόγως τιμή αποκοπής Μια απλή εκτίμηση του μέτρου Accuracy (ή F-measure) αναλόγως τις διάφορες τιμές αποκοπής. Βρίσκοντας και την ιδανική τιμή αποκοπής, εντοπίζουμε και την μέγιστη ακρίβεια που μπορεί να πετύχει το μοντέλο κατηγοριοποίησης. 73

74 ΚΕΦΑΛΑΙΟ 3: ΕΦΑΡΜΟΓΗ ΤΩΝ ΑΛΓΟΡΙΘΜΩΝ 3.1 Εισαγωγή Σε αυτό το κεφάλαιο θα μελετήσουμε 4ς αλγορίθμους που περιγράφηκαν στο προηγούμενο, ειδικότερα τους knn, SVM, LDA και LR. Συγκεκριμένα, θα περιγράψουμε τα δεδομένα εκπαίδευσης μας και τα χαρακτηριστικά τους, ύστερα με την χρήση της γλώσσας R και των πακέτων της θα εφαρμόσουμε τους αλγορίθμους πάνω στα δεδομένα και θα σχολιάσουμε τα αποτελέσματα. Χρησιμοποιώντας τα μέτρα απόφασης που περιγράφηκαν στο Κεφάλαιο 2 καλούμαστε να εντοπίσουμε τον αλγόριθμο με τα καλύτερα αποτελέσματα από τους τέσσερις πάνω σε θέματα κατηγοριοποίησης spam Η γλώσσα R Η R αποτελεί ένα από τα πιο διαδεδομένα εργαλεία της στατιστικής και της ανάλυσης δεδομένων. Δημιουργήθηκε από τους Ross Ihaka και Robert Gentleman το 1993 και συνεχίζει να εξελίσσεται ως αντικείμενο της R Development Core Team. Εκτός από τις στατιστικές λειτουργίες που προσφέρει, έχει δυνατότητες διαχείρισης πινάκων και σχεδιασμού γράφων που συναγωνίζονται διάσημα εργαλεία όπως το Matlab ή το Octave. Το περιβάλλον είναι αρκετά απλό και ο χρόνος εξοικείωσης που απαιτείται για τυπική χρήση μικρός. Το όνομα προήλθε από τον προκάτοχο της, την γλώσσα S, με την οποία και αναπτύχθηκε, και από τα αρχικά των ονομάτων των δημιουργών. Όλες οι ενέργειες στην R γίνονται μέσω μιας ακολουθίας εντολών ή με ανάπτυξη μπλοκ κώδικα (scripts). Επίσης, έχουν αναπτυχθεί και διάφορα γραφικά περιβάλλοντα που απλοποιούν την συγγραφή κώδικα (Rattle, R Commander και άλλα). Οι πιο χρήσιμες λειτουργίες της γίνονται με την χρήση πακέτων συναρτήσεων που αναπτύσσονται συνεχώς από διάφορες συνεισφερόμενες ομάδες. Υπάρχουν πακέτα για πολλές λειτουργίες της στατιστικής, για κατηγοριοποίηση και για σχεδιασμό γράφων. Τα πακέτα της R αποδείχθηκαν πολύ 74

75 χρήσιμα στους ελέγχους που έγιναν στα δεδομένα μας σχεδόν κάθε εφαρμογή αλγορίθμου ολοκληρώθηκε σε μερικές σειρές κώδικα. Τυπικά η R χρησιμοποιείται για διάφορα έργα όπως κλασικά στατιστικά τεστ, ομαδοποιήσεις clustering, ανάλυση χρονοσειρών και άλλα. Είναι εύκολο να γίνει σύνδεση μεταξύ της R και άλλων γλωσσών προγραμματισμού (υποστηρίζεται η σύνδεση κώδικα C,C++, Fortran, Java). Γενικότερα, η R αποτελεί ένα δυνατό και προσαρμοζόμενο εργαλείο προγραμματισμού. Είναι πρόγραμμα ανοιχτού κώδικα, και μέρος του GNU Project. Εικόνα 3.1 Το γραφικό περιβάλλον της R 75

76 Εικόνα 3.2 Ένα δείγμα τον δυνατοτήτων σχεδιασμού γράφων της R 3.3 Ανάλυση του Dataset Το dataset που θα χρησιμοποιήσουμε συγκροτήθηκε από τους Mark Hopkins, Erik Reeber, George Forman, και Jaap Suermondt (Hewlett-Packard Labs) το Αποτελείται από 4601 mail instances με 58 attributes για το καθένα. Τα mails προήλθαν από τον προσωπικό λογαριασμό του George Forman. Το ποσοστό spam στο dataset είναι 39.4%, δηλαδή 1813 mails έχουν προελεγχθεί ως κακόβουλα. Αντίστοιχα 2788 mails είναι προσωπικά, με ποσοστό 60.6%. Τα χαρακτηριστικά τους είναι τα εξής: 76

Δείτε περισσότερα