ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΜΕ ΜΗΧΑΝΕΣ ΔΙΑΝΥΣΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ ΣΟΦΙΑ Α. ΠΑΠΑΠΟΣΤΟΛΟΥ ΕΠΙΒΛΕΠΩΝ: ΤΣΑΚΛΙΔΗΣ ΓΕΩΡΓΙΟΣ ΚΑΘΗΓΗΤΗΣ Α.Π.Θ ΘΕΣΣΑΛΟΝΙΚΗ, 2017
ΚΕΦΑΛΑΙΟ 1-ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ... 8 1.1 ΕΙΣΑΓΩΓΗ 8 1.2ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΑΠΟ ΤΑ ΔΕΔΟΜΕΝΑ (KDD) 8 1.2.1 Στάδια KDD διαδικασίας... 9 1.2.2 Εξόρυξη δεδομένων (Data mnng)... 11 1.3 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 13 1.3.1 Είδη μηχανικής μάθησης... 13 1.4 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ (CLASSIFICAION) 14 1.4.1 Υπερπροσαρμογή μοντέλου (overfttng)... 16 1.4.2 Υποπροσαρμογή μοντέλου (underfttng)... 16 ΚΕΦΑΛΑΙΟ 2- ΜΗΧΑΝΕΣ ΔΙΑΝΥΣΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ... 17 2.1 ΠΕΡΙΓΡΑΦΗ ΑΛΓΟΡΙΘΜΟΥ 17 2.2 ΕΦΑΡΜΟΓΕΣ ΜΗΧΑΝΩΝ ΔΙΑΝΥΣΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ 18 2.3 ΘΕΜΕΛΙΩΔΕΙΣ ΈΝΝΟΙΕΣ 19 2.3 ΕΜΠΕΙΡΙΚΟ ΡΙΣΚΟ(EMPIRICAL RISK) 25 2.4 VC ΔΙΑΣΤΑΣΗ 27 2.4 ΓΡΑΜΜΙΚΑ ΔΙΑΧΩΡΙΣΙΜΑ ΔΕΔΟΜΕΝΑ (HARD MARGIN SVM) 29 2.4.1 Μέγιστο περιθώριο... 30 2.4.2 Προσδιορισμός βέλτιστου υπερεπιπέδου... 32 ΚΕΦΑΛΑΙΟ 3-ΜΗ ΓΡΑΜΜΙΚΑ ΔΙΑΧΩΡΙΣΙΜΑ ΔΕΔΟΜΕΝΑ... 35 3.1 SVMS ΧΑΛΑΡΟΥ ΠΕΡΙΘΩΡΙΟΥ (SOF MARGIN SVM) 35 3.2 ΜΗ ΓΡΑΜΜΙΚΕΣ ΜΗΧΑΝΕΣ ΔΙΑΝΥΣΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ 41 3.2.1 Το τέχνασμα του πυρήνα... 42 3.2.2 Συνθήκες Mercer... 43 3.2.3 Συναρτήσεις Πυρήνα (Kernel Functons)... 44 3.3 ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΚΑΙ ΜΕΙΟΝΕΚΤΗΜΑΤΑ SVMS 48 ΚΕΦΑΛΑΙΟ 4-ΒΕΛΤΙΩΜΕΝΗ ΑΠΟΔΟΣΗ SVMS... 50 4.1 ΕΙΣΑΓΩΓΗ 50 4.2 ΜΕΘΟΔΟΙ ΕΠΙΛΟΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ 50 4.2.1 Wrappers (μέθοδοι περιτυλιγμάτων)... 50 4.2.2 Flters (Μέθοδοι φίλτρων)... 51 4.3.3 Εmbedded μέθοδοι... 51 4.3 ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΑΠΟ ΔΥΟ ΚΛΑΣΕΙΣ ΜΕ SVMS 53 4.3.1 Μέθοδος one-aganst-all... 53 2
4.3.2 Μέθοδος one-aganst-one... 54 4.3.3 DDAGSVM μέθοδος... 55 4.3.4 Επιλογή μεθόδου πολλαπλής κατηγοριοποίησης... 56 ΚΕΦΑΛΑΙΟ 5-ΈΛΕΓΧΟΣ ΚΑΤΑΛΛΗΛΟΤΗΤΑΣ ΜΟΝΤΕΛΟΥ... 57 5.1 ΤΕΧΝΙΚΕΣ CROSS VALIDAION 57 5.2 ΠΙΝΑΚΑΣ ΣΥΓΧΥΣΗΣ (CONFUSION MARIX) 61 5.2.1 Κριτήρια απόδοσης μοντέλου... 63 5.3 ROC ΓΡΑΦΗΜΑΤΑ 65 5.4 AUC-ΠΕΡΙΟΧΗ ΚΑΤΩ ΑΠΟ ΤΗ ROC ΚΑΜΠΥΛΗ 68 ΚΕΦΑΛΑΙΟ 6-ΕΦΑΡΜΟΓΕΣ... 71 6.1 ΕΙΣΑΓΩΓΗ... 71 6.2 ΕΦΑΡΜΟΓΗ 1 71 10-fold cross valdaton μέθοδος... 79 Συνδυασμός των bnary classfers... 80 6.3 ΕΦΑΡΜΟΓΗ 2 82 ΒΙΒΛΙΟΓΡΑΦΙΑ 88 3
Περιεχόμενα Εικόνων Εικόνα 1. H εξόρυξη δεδομένων ως τομή της Στατιστικής, της Μηχανικής Μάθησης και των Βάσεων Δεδομένων... 9 Εικόνα 2. Η διαδικασία ανακάλυψης γνώσης από τα δεδομένα και τα κυριότερα στάδιά της... 11 Εικόνα 3.Το σύνολο στην δεξιά πλευρά της εικόνας είναι κυρτό, ενώ το διπλανό του είναι μη κυρτό εφόσον υπάρχει ευθύγραμμο τμήμα που δεν περιέχεται εξ' ολοκλήρου μέσα στο σύνολο... 20 Εικόνα 4. Παράδειγμα κυρτής συνάρτησης... 20 Εικόνα 5. Βέλτιστο υπερεπίπεδο διαχωρισμού... 29 Εικόνα 6. Παρουσίαση υπερεπιπέδων και support vectors... 30 Εικόνα 7. Βοηθητικά διανύσματα για τον υπολογισμό περιθωρίου... 31 Εικόνα 8. Αριστερά: ταξινομητής αυστηρού περιθωρίου. Δεξιά: ταξινομητής χαλαρού περιθωρίου.... 35 Εικόνα 9. Μεταβλητές χαλαρότητας ενός soft margn γραμμικού SVM.... 36 Εικόνα 10. Επιρροή τιμής C στο περιθώριο και τα λάθη ταξινόμησης.... 38 Εικόνα 11. Μεταφορά δεδομένων από τον χώρο εισόδου στον χώρο χαρακτηριστικών μέσω της απεικόνισης Φ.... 42 Εικόνα 12. Διαχωριστική ικανότητα γραμμικού και πολυωνυμικού πυρήνα που εφαρμόζονται στο ίδιο σύνολο δεδομένων... 45 Εικόνα 13. Απεικόνιση εφαρμογής γραμμικού και πολυωνυμικών πυρήνων δευτέρου και πέμπτου βαθμού.... 45 Εικόνα 14.Εφαρμογή συνάρτησης RBF σε μη γραμμικά δεδομένα... 46 Εικόνα 15 Εφαρμογή RBF πυρήνα για διαφορετικές τιμές του γ... 47 Εικόνα 16. Κάθε κόμβος αποφασίζει τον επόμενο κόμβο στον οποίο θα κατευθυνθεί η παρατήρηση μέχρι να παρθεί η απόφαση κατηγοριοποίησης και να καταλήξει σε κάποιο από τα 4 φύλλα.... 56 Εικόνα 17.Στην αριστερή εικόνα φαίνεται η κατηγοριοποίηση δεδομένων εκπαίδευσης. Στην δεξιά εικόνα το ίδιο μοντέλο όταν εφαρμόζεται σε άγνωστα δεδομένα δεν προσφέρει το ίδιο καλές προβλέψεις. Πρόκειται για υπερπροσαρμογή.... 58 Εικόνα 18. Στην αριστερή εικόνα στο ίδιο σύνολο εκπαίδευσης δημιουργείται ένα λιγότερο ακριβές μοντέλο το οποίο δίνει καλύτερα αποτελέσματα στην ταξινόμηση των άγνωστων παρατηρήσεων.... 58 Εικόνα 19. Πίνακας Σύγχυσης (Confuson Matrx)... 61 Εικόνα 20.Πίνακας σύγχυσης στην κατηγοριοποίηση ασθενών ανάλογα με το αν πάσχουν ή όχι από κάποια ασθένεια Α.... 63 Εικόνα 21.ROC γράφημα δυαδικών ταξινομητών... 65 Εικόνα 22. Δεξιά: ο πίνακας στοιχείων που χρησιμοποιήθηκαν με την πραγματική τιμή κλάσης και το αντίστοιχο σκορ. Αριστερά: Το γράφημα δείχνει τη ROC καμπύλη και σε σημείο αναγράφεται το κατώφλι που το παράγει.... 68 Εικόνα 23. Περιοχή κάτω από δύο ROC καμπύλες των ταξινομητών Α και Β.... 69 Εικόνα 24. Σύγκριση δυαδικού και scorng ταξινομητή με σταθερή τιμή-κατώφλι... 69 4
ΠΕΡΙΛΗΨΗ Στην παρούσα διπλωματική εργασία παρουσιάζεται μία σχετικά πρόσφατη μέθοδος κατηγοριοποίησης, οι Μηχανές Διανυσμάτων Υποστήριξης (SVMs). Οι SVM αλγόριθμοι προέρχονται από τον κλάδο της Μηχανικής Μάθησης και έχουν κερδίσει το ενδιαφέρον λόγω των ιδιοτήτων και της απόδοσης τους. Στο πρώτο κεφάλαιο, γίνεται μία εισαγωγή στη Διαδικασία Εξόρυξης γνώσης από τα δεδομένα και στα στάδια της, στα είδη Μηχανικής Μάθησης και στην περιγραφή κατηγοριοποίησης δεδομένων. Στο δεύτερο και τρίτο κεφάλαιο ορίζονται θεμελιώδεις έννοιες των Μηχανών Διανυσμάτων Υποστήριξης, όπως το μέγιστο περιθώριο, η VC διάσταση, η επίλυση προβλήματος βελτιστοποίησης, το τέχνασμα του πυρήνα και οι συνθήκες Mercer. Επίσης, περιγράφεται αναλυτικά η λειτουργία της μεθόδου σε γραμμικά και μη γραμμικά διαχωρίσιμα σύνολα δεδομένων, ενώ στο τέλος παρουσιάζεται μία σύνοψη των πλεονεκτημάτων και μειονεκτημάτων του αλγορίθμου. Στο τέταρτο κεφάλαιο αναφέρονται τρόποι βελτίωσης της απόδοσης των SVMs μέσω της επιλογής των κυριότερων χαρακτηριστικών που περιγράφουν τα δεδομένα με εφαρμογή τριών διαφορετικών τεχνικών. Στο πέμπτο κεφάλαιο αναλύονται τρόποι υλοποίησης του ελέγχου καταλληλότητας του μοντέλου όπως η σταυροειδής επικύρωση, ο πίνακας σύγχυσης και τα μέτρα απόδοσης που παράγει, τα ROC γραφήματα και η τιμή AUC. Τέλος, με τη χρήση του υπολογιστικού πακέτου MALAB παρουσιάζεται η εφαρμογή SVM μοντέλων σε δύο σύνολα δεδομένων, δύο και τριών κλάσεων. Στόχος της εφαρμογής είναι η επιλογή του SVM μοντέλου που κατηγοριοποιεί τα δεδομένα με την μεγαλύτερη απόδοση. 5
ABSRAC he objectve of ths master thess s to present a relatvely recent method of classfcaton, Support Vector Machnes (SVMs). SVM algorthms orgnate from the feld of Machne Learnng and have ganed the attenton because of ther propertes and ther great effcency. he frst chapter s an ntroducton to the Knowledge Dscovery n Databases (KDD) and ts stages, to the knds of Machne Learnng and the descrpton of data classfcaton. he second and thrd chapter descrbe fundamental notons of SVMs, such as the maxmum margn, the VC dmenson, optmzaton problem solvng, the kernel trck and Mercer s condtons. Furthermore, the applcaton of ths method n separable and non-separable databases analytcally and fnally a summarzaton of the advantages and dsadvantages of ths algorthm s descrbed. In the fourth chapter, three methods of mprovng the SVMs effcency through the feature selecton are ndcated. he ffth chapter analyzes the ways of realzaton of model valdaton, such as cross valdaton, confuson matrx and relatve measures of accuracy, ROC graphs and AUC. Fnally, matlab software has been used to present two examples of SVMs applcaton. he data of these sets are classfcated n three and two classes respectvely. he am of the applcatons s the selecton of the SVM model that classfes data more effcently. 6
Ευχαριστίες Θα ήθελα να ευχαριστήσω θερμά τον επιβλέποντα καθηγητή μου, κ. Τσακλίδη Γεώργιο, για την εμπιστοσύνη, την βοήθεια και την υπομονή του κατά την διάρκεια εκπόνησης αυτής της διπλωματικής εργασίας καθώς και τους υπόλοιπους καθηγητές του Μεταπτυχιακού προγράμματος για τις γνώσεις που μου μετέφεραν. Επίσης, με το κλείσιμο του κύκλου των ευχαριστιών, θέλω να ευχαριστήσω την οικογένειά μου και τους φίλους μου για την διαρκή στήριξη και συμπαράστασή τους κατά τη διάρκεια του κύκλου σπουδών μου. 7
Κεφάλαιο 1-Εισαγωγικές έννοιες 1.1 Εισαγωγή Με την συνεχή εξέλιξη της τεχνολογίας και την αλματώδη πρόοδο των επιστημών δημιουργείται καθημερινά η ανάγκη διαχείρισης και ανάλυσης δεδομένων τεράστιου όγκου και πολυπλοκότητας. Το πρόβλημα αυτό καλούνται να αντιμετωπίσουν ποικίλοι επιστημονικοί κλάδοι όπως αυτός της Οικονομίας, της Ιατρικής, της Πληροφορικής, της Βιοχημείας και πολλοί άλλοι. Τα τελευταία χρόνια, η συμβολή του κλάδου της τεχνητής νοημοσύνης (artfcal ntellgence) και της μηχανικής μάθησης (machne learnng) που αποτελεί παρακλάδι της, είναι καθοριστική. Πρόκειται για υπολογιστικά συστήματα που βασίζονται σε αλγοριθμικές μεθόδους και προσπαθούν να προσομοιώσουν την λειτουργία του ανθρώπινου εγκεφάλου. 1.2Ανακάλυψη γνώσης από τα δεδομένα (KDD) Η εξόρυξη γνώσης (Knowledge Dscovery n Database -KDD) είναι μία υπολογιστική διαδικασία επεξεργασίας και ανάλυσης τεραστίου όγκου δεδομένων με σκοπό την εξαγωγή ερμηνεύσιμων και χρήσιμων πληροφοριών. Η εξόρυξη δεδομένων αντλεί το όνομά της από τον παραλληλισμό μεταξύ της έρευνας για πολύτιμη πληροφορία σε μεγάλες βάσεις δεδομένων και την εξόρυξη πολύτιμων υλικών από τεράστιους όγκους πετρωμάτων. Και οι δύο διαδικασίες απαιτούν κοσκίνισμα μεγάλης ποσότητας υλικού ώστε στη συνέχεια με έξυπνο και σχολαστικό τρόπο να ανακαλυφθεί η πηγή που συγκεντρώνει το ενδιαφέρον [2]. Τα εργαλεία εξόρυξης έχουν την δυνατότητα να προβλέπουν συμπεριφορές,να ανακαλύπτουν κρυμμένα μοτίβα/ πρότυπα (patterns) και μελλοντικές τάσεις. Σαν αποτέλεσμα, δίνεται η δυνατότητα στις επιχειρήσεις και στους διάφορους επιστημονικούς κλάδους να πάρουν δυναμικές αποφάσεις που βασίζονται στη γνώση, η απόκτηση της οποίας αποτελούσε παλιότερα μία χρονοβόρα και συχνά ανέφικτη διαδικασία. H τεχνική που χρησιμοποιείται για την επίτευξη όσων αναφέρθηκαν ονομάζεται μοντελοποίηση και αναφέρεται στην κατασκευή ενός μοντέλου (ένα σύνολο μαθηματικών σχέσεων) που περιγράφει επαρκώς τις παρατηρήσεις των βάσεων δεδομένων [2]. Συχνά στη βιβλιογραφία η εξόρυξη δεδομένων αναφέρεται και ως ανακάλυψη γνώσης από τα δεδομένα (Knowledge Dscovery n Database -KDD). Οι δύο έννοιες όμως δεν είναι ταυτόσημες,όπως θα φανεί παρακάτω, καθώς η εξόρυξη δεδομένων είναι ένα από τα στάδια της KDD [3]. Η ανακάλυψη γνώσης από τα δεδομένα αποτελεί τομή διαφόρων επιστημονικών πεδίων όπως φαίνεται στην εικόνα που ακολουθεί [4]: 8
Εικόνα 1. H εξόρυξη δεδομένων ως τομή της Στατιστικής, της Μηχανικής Μάθησης και των Βάσεων Δεδομένων 1.2.1 Στάδια KDD διαδικασίας Στη συνέχεια, θα γίνει μία πλήρης περιγραφή των βασικών σταδίων της διαδικασίας Ανακάλυψης Γνώσης από τα Δεδομένα ώστε να γίνει πλήρως κατανοητή [2]. Κατανόηση προβλήματος Το πρώτο πράγμα που πρέπει να γίνει πριν από την έναρξη της διαδικασίας για την επεξεργασία των δεδομένων είναι η κατανόηση του πεδίου εφαρμογής, η ανασκόπηση προηγούμενης γνώσης και η αναγνώριση του τελικού στόχου.[3] Διαφορετικοί χρήστες μπορεί να ενδιαφέρονται για την εξαγωγή διαφόρων ειδών πληροφορίας ενώ επεξεργάζονται το ίδιο σύνολο δεδομένων. Επίσης, η εκ των προτέρων γνώση μπορεί αν χρησιμοποιηθεί για να καθοδηγήσει την διαδικασία της ανακάλυψης, να κάνει γρηγορότερη την εξαγωγή προτύπων και να κρίνει με μεγαλύτερη ευκολία την σημαντικότητα της συμπυκνωμένης πληροφορίας που προσφέρεται. Επιλογή δεδομένων Στο επόμενο στάδιο κρίνεται αναγκαία η δημιουργία ενός συνόλου δεδομένων το οποίο ονομάζεται σύνολο στόχος (target data set). Για τις βάσεις δεδομένων που περιέχουν τεράστιο πλήθος δεδομένων θα πρέπει με τη χρήση μεθόδων δειγματοληψίας να επιλεγεί ένα υποσύνολό τους ή ένα υποσύνολο των μεταβλητών τους στο οποία θα εστιάσει η διαδικασία. Το σημείο αυτό αποτελεί ένα πολύ βασικό στάδιο καθώς το επιλεγμένο σύνολο θα πρέπει να περιέχει μεγάλη ποσότητα πληροφορίας ενώ ταυτόχρονα να έχει όσο το δυνατόν μικρότερο αριθμό στοιχείων. 9
Προεπεξεργασία δεδομένων Ακολουθεί ο καθαρισμός και η προεπεξεργασία του συνόλου στόχου (target data set). Τα δεδομένα που επιλέχθηκαν είναι πιθανόν να αντανακλούν θόρυβο ή να παρουσιάζουν ελλείψεις. Σε μία τέτοια περίπτωση πρέπει να εφαρμοστούν μέθοδοι καθαρισμού διότι υπάρχει ο κίνδυνος να προκληθεί σύγχυση στη διαδικασία και το μοντέλο γνώσης που θα κατασκευαστεί να παρουσιάζει υπερπροσαρμογή (overfttng). Μετασχηματισμός δεδομένων Κάποιες φορές κρίνεται σκόπιμος ο μετασχηματισμός των δεδομένων σε χώρους άλλης διάστασης ή ακόμη και η μείωση του αριθμού τους. Η απόφαση αυτή λαμβάνεται με βάση το στόχο της ανάλυσης. Αντιστοίχιση στόχου- διαδικασίας εξόρυξης Εδώ θα πρέπει ο χρήστης να ταιριάξει τον στόχο της KDD διαδικασίας με κάποια από τις μεθόδους εξόρυξης δεδομένων, όπως η κατηγοριοποίηση, η παλινδρόμηση και άλλες (όλες οι μέθοδοι εξόρυξης δεδομένων θα αναλυθούν στη συνέχεια). Εξόρυξη δεδομένων Κατά την εξόρυξη δεδομένων υλοποιείται η διερευνητική ανάλυση και η επιλογή του μοντέλου. Πιο συγκεκριμένα, επιλέγεται ο αλγόριθμος που θα χρησιμοποιηθεί για την αναζήτηση προτύπων και λαμβάνεται η απόφαση για την επιλογή των παραμέτρων ανάλογα με τη φύση των δεδομένων (για παράδειγμα εξαρτάται από το αν τα δεδομένα είναι κατηγορικά ή διανύσματα πραγματικών αριθμών). Επίσης, η επιλογή αυτή εξαρτάται και από τις προτεραιότητες του χρήστη, αν δηλαδή ενδιαφέρεται περισσότερο για την κατασκευή ενός κατανοητού μοντέλου ή ενός μοντέλου μεγαλύτερης πολυπλοκότητας με καλύτερη ικανότητα πρόβλεψης. Αξιολόγηση Το μοντέλο που εξάγεται από τα προηγούμενα βήματα πρέπει να ελεγχθεί και αυτό γίνεται μέσω της διαδικασίας επικύρωσης (valdaton). Στο στάδιο αυτό γίνεται αντιληπτό κατά πόσο τα πρότυπα είναι ορθά ή εάν υπάρχει ακόμη θόρυβος που «παραπλανεί» το μοντέλο και οδηγεί σε λανθασμένη πληροφορία. Στο σημείο αυτό θα πρέπει να τονιστεί πως στην KDD διαδικασία υπάρχει διαδραστικότητα με τον χρήστη. Αυτό σημαίνει πως αν τα 10
αποτελέσματα δεν είναι ικανοποιητικά, η διαδικασία μπορεί να κάνει επανάληψη κάποιων σταδίων με τη δημιουργία βρόχων. Παρουσίαση γνώσης Η παρουσίαση της εξαγόμενης γνώσης πρέπει να γίνει έτσι ώστε να είναι κατανοητή και άμεσα αξιοποιήσιμη από τον χρήστη. Αυτό επιτυγχάνεται με τις γραφικές αναπαραστάσεις, τους συγκεντρωτικούς πίνακες και άλλες μορφές που εκφράζουν το σύνολο της πληροφορίας που ανακαλύφθηκε. Η περιγραφή της διαδικασίας ανακάλυψης γνώσης από τα δεδομένα (KDD) συνοψίζεται στην εικόνα που ακολουθεί. Εικόνα 2. Η διαδικασία ανακάλυψης γνώσης από τα δεδομένα και τα κυριότερα στάδιά της 1.2.2 Εξόρυξη δεδομένων (Data mnng) Οι βασικές μέθοδοι στο στάδιο της εξόρυξης δεδομένων είναι δύο και η καθεμία περιλαμβάνει συγκεκριμένα είδη αλγορίθμων. Μία συνοπτική αναφορά τους είναι η εξής: Περιγραφικές Μέθοδοι (Descrptve methods) Πρόκειται για μεθόδους που στοχεύουν στην εύρεση προτύπων ώστε να δοθεί μία συμπαγής περιγραφή των δεδομένων και των ιδιοτήτων τους. Τα βασικά είδη περιγραφικών μεθόδων είναι: 11
. Συσταδοποίηση ή Ομαδοποίηση (Clusterng) Για τα δοθέντα στοιχεία του συνόλου στόχου οι αλγόριθμοι συσταδοποίησης στοχεύουν στην εύρεση ομοιοτήτων μεταξύ του ώστε να δημιουργηθούν ομάδες / συστάδες (clusters) με κοινά χαρακτηριστικά. Να σημειωθεί πως κατά την ομαδοποίηση δεν υπάρχει εκ των προτέρων γνώση για την ύπαρξη και τον αριθμό των κλάσεων.. Κανόνες συσχέτισης Στόχος αυτών των μεθόδων είναι η εύρεση κανόνων που εκφράζουν την εξάρτηση κάποιων μεταβλητών του συνόλου δεδομένων ως προς κάποιες άλλες. Για παράδειγμα, σε ένα σούπερ μάρκετ, η εύρεση κανόνων συσχέτισης στις αγοραστικές συνήθειες των πελατών, δίνει τη δυνατότητα στην επιχείρηση να εφαρμόσει αντίστοιχες προσφορές και να αυξήσει τα έσοδά της.. Σύνοψη (Summarzaton) Αποτελείται από μεθόδους που στοχεύουν σε μία σύντομη αναπαράσταση των βασικών χαρακτηριστικών των δεδομένων. Ένα απλό παράδειγμα είναι η δημιουργία πινάκων που περιλαμβάνουν μέσες τιμές και τυπικές αποκλίσεις όλων των πεδίων. Μέθοδοι Πρόβλεψης (Predctve methods) Οι προβλεπτικές μέθοδοι αποσκοπούν στην πρόβλεψη μελλοντικών ή άγνωστων τιμών. Οι κυριότερες λειτουργίες τους είναι: v. Παλινδρόμηση Είναι μία τεχνική μοντελοποίησης με στόχο τον προσδιορισμό μίας συνάρτησης που αναπαριστά τα δεδομένα με το μικρότερο δυνατό λάθος, έτσι ώστε να υπάρχει η δυνατότητα εκχώρησης ενός νέου δεδομένου σε μία πραγματική τιμή πρόβλεψης [3]. Είναι ευρέως χρησιμοποιούμενη μέθοδος με τεράστια ποικιλία εφαρμογών. Για παράδειγμα, πρόβλημα παλινδρόμησης αποτελεί η εκτίμηση της πιθανότητας επιβίωσης ενός ασθενή με βάση τα γνωστά αποτελέσματα διαφόρων διαγνωστικών τεστ ή η πρόβλεψη της καταναλωτικής συμπεριφοράς προς ένα καινούργιο προϊόν ως συνάρτηση της διαφημιστικής του προώθησης. v. Κατηγοριοποίηση Αυτή η διαδικασία θα αναλυθεί εκτενέστερα στη συνέχεια καθώς αποτελεί το κύριο μέρος της εργασίας. 12
v. Ανίχνευση ανωμαλιών (Anomaly detecton ) 1.3 Μηχανική μάθηση Η κατηγορία αυτών των διαδικασιών επικεντρώνονται στην ανακάλυψη σημαντικών αλλαγών στα δεδομένα συγκριτικά με προηγούμενες ή λογικές τιμές τους [3]. Πιο αναλυτικά, με την εφαρμογή ελέγχων αναζητούνται όχι μόνο οι ακραίες τιμές (outlers) αλλά και η ερμηνεία της αιτίας που τις προκάλεσε. Η προσπάθεια εύρεσής του αν αυτές οφείλονται σε θόρυβο ή σε πραγματικά μη προσδοκώμενη συμπεριφορά γίνεται διατηρώντας τα ποσοστά λανθασμένης προειδοποίησης σε χαμηλό επίπεδο. Χαρακτηριστικό παράδειγμα εφαρμογής αυτών των μεθόδων είναι ο προσδιορισμός απάτης πιστωτικών καρτών των τραπεζών. Η εισαγωγή της μηχανικής μάθησης έγινε το 1959 από τον Arthur Samuel ο οποίος την όρισε ως εξής: "Μηχανική μάθηση είναι το πεδίο μελέτης που δίνει στους υπολογιστές την δυνατότητα να μαθαίνουν χωρίς να έχουν προγραμματιστεί". Τα επόμενα χρόνια ακολούθησαν διάφοροι άλλοι ορισμοί καθώς ο κλάδος αυτός κέρδιζε όλο και περισσότερο έδαφος σε διάφορους επιστημονικούς τομείς. Η μηχανική μάθηση (machne learnng) είναι ένας κλάδος της τεχνητής νοημοσύνης που αποτελείται από αλγοριθμικές μεθόδους οι οποίες δεν είναι ρητά προγραμματισμένες αλλά έχουν την ικανότητα να εκπαιδεύονται και να μαθαίνουν από τα ίδια τα δεδομένα. Είναι στενά συνδεδεμένη με τον κλάδο της στατιστικής καθώς η ανάλυση δεδομένων στηρίζεται στη δημιουργία κατάλληλων μαθηματικών μοντέλων. Το μεγάλο της πλεονέκτημα είναι ότι η ανάλυση των δεδομένων δεν εξαρτάται πλέον αποκλειστικά από την ικανότητα του προγραμματιστή να λαμβάνει υπόψη όλες τις πιθανές καταστάσεις σε κάποιο πρόβλημα, αλλά δίνει τη δυνατότητα συνεχούς βελτίωσης μέσω αυτοματοποιημένων διαδικασιών. 1.3.1 Είδη μηχανικής μάθησης Οι βασικές κατηγορίες των αλγορίθμων μηχανικής μάθησης είναι οι εξής: Επιτηρούμενη μάθηση (supervsed learnng): Ένας αλγόριθμος επιτηρούμενης μάθησης έχει ως στόχο να ανακαλύψει τη συνάρτηση που περιγράφει ένα σύνολο γνωστών δεδομένων ώστε να χρησιμοποιήσει το εξαγόμενο μοντέλο σε μελλοντικές και άγνωστες προς τον αλγόριθμο παρατηρήσεις. Η επιτηρούμενη μάθηση καλείται να αντιμετωπίσει προβλήματα ταξινόμησης ή κατηγοριοποίησης (classfcaton) και παλινδρόμησης (regresson). 13
Μία από τις δημοφιλέστερες μεθόδους στην κατηγορία αυτή είναι οι μηχανές διανυσμάτων υποστήριξης (support vector machnes) που θα αποτελέσουν το κύριο μέρος της διπλωματικής εργασίας. Μη επιτηρούμενη μάθηση (unsupervsed learnng ): Ένας αλγόριθμος μη επιτηρούμενης μάθησης καλείται να βρει στατιστικές ιδιότητες των δεδομένων χωρίς να βασίζεται σε προηγούμενη γνώση. Πιο συγκεκριμένα, στόχος του μοντέλου είναι να δημιουργήσει πρότυπα και συσχετίσεις χωρίς να είναι ήδη γνωστή η ύπαρξή τους. Ενισχυτική μάθηση (Renforcement Learnng): Αποτελείται από ένα σύνολο μεθόδων που «μαθαίνουν» μέσω της αλληλεπίδρασης με το περιβάλλον δράσης τους χωρίς να υπάρχει καμία ανάμειξη εξωτερικού παράγοντα. Κάθε φορά που το σύστημα αλληλεπιδρά,ανάλογα με την κίνηση που έχει κάνει, το περιβάλλον το ανταμείβει ή το τιμωρεί προσδίδοντάς του αντίστοιχα μία αριθμητική τιμή. Στόχος της μεθόδου είναι η επίτευξη τέτοιων ενεργειών σε κάθε βήμα της που θα του αποδώσουν την μέγιστη ανταμοιβή. Βρίσκουν εφαρμογές στην εκμάθηση παιχνιδιών (όπως το σκάκι) και στη ρομποτική κίνηση. 1.4 Κατηγοριοποίηση (classfcaton) Κατηγοριοποίηση ή ταξινόμηση είναι η διαδικασία αντιστοίχισης ενός αντικειμένου σε δύο οι περισσότερες προκαθορισμένες κλάσεις (κατηγορίες). Πιο συγκεκριμένα, η μέθοδος αυτή στοχεύει στην εύρεση μιας απεικόνισης f (target functon), δηλαδή ενός μοντέλου, που απεικονίζει το διάνυσμα των χαρακτηριστικών ενός στοιχείου σε μία κλάση με ετικέτα y, ώστε να είναι δυνατή η κατηγοριοποίηση μελλοντικών δεδομένων. Η σχηματική αναπαράσταση της παραπάνω διαδικασίας είναι η εξής: ΕΙΣΟΔΟΣ Σύνολο αντικειμένων (x) Μοντέλο Ταξινόμησης ΕΞΟΔΟΣ Ετικέτα κλάσης (y) 14
Ενδεικτικά αναφέρονται κάποια παραδείγματα κατηγοριοποίησης: διαχωρισμός των emals σε spam ή όχι με βάση την επικεφαλίδα τους ή το περιεχόμενό τους. Κατηγοριοποίηση συναλλαγών με πιστωτικές κάρτες ως νόμιμες ή προϊόν απάτης. Ταξινόμηση καταναλωτών ως προς τις αγοραστικές τους προτιμήσεις Κατηγοριοποίηση ειδήσεων ως οικονομικές, πολιτικές, αθλητικές, μετεωρολογικές κλπ. Κατηγοριοποίηση γεωγραφικών τμημάτων σε επιρρεπείς ή όχι σε σεισμικές δονήσεις. Η κατηγοριοποίηση δεδομένων ουσιαστικά πραγματοποιείται σε τρία βασικά στάδια: Κατασκευή μοντέλου-εκμάθηση: Αρχικά εισάγεται ένα σύνολο αντικειμένων, τα οποία πρόκειται να αναλυθούν ώστε να ανακαλυφθούν οι σχέσεις που συνδέουν την εξαρτημένη μεταβλητή με τις ανεξάρτητες. Τα αντικείμενα αυτά ονομάζονται δεδομένα εκπαίδευσης (tranng data) και η κλάση στην οποία ανήκουν είναι γνωστή. Από την ανάλυση των δεδομένων εκπαίδευσης προκύπτει το ζητούμενο μοντέλο κατηγοριοποίησής τους. Πρέπει, όμως, να τονιστεί ότι η επιλογή το συνόλου εκπαίδευσης είναι πολύ σημαντική καθώς η μέθοδος κατηγοριοποίησης που θα δημιουργηθεί θα στηρίζεται στις σχέσεις που βρέθηκαν στα συγκεκριμένα αντικείμενα με αποτέλεσμα μία λάθος επιλογή αυτού του συνόλου να οδηγήσει σε μεροληπτικό μοντέλο. Έλεγχος μοντέλου: Αφού δημιουργηθεί το μοντέλο, πριν τη χρήση του, κρίνεται αναγκαίος ο έλεγχος καταλληλόλητας του, δηλαδή κατά πόσο είναι ικανό να ταξινομήσει σωστά μία παρατήρηση. Η διαδικασία αυτή ονομάζεται επικύρωση του μοντέλου (valdaton) και περιγράφεται στη συνέχεια. Στον αλγόριθμο κατηγοριοποίησης εισάγεται ένα νέο σύνολο στοιχείων, τα δοκιμαστικά δεδομένα (test set) των οποίων η κλάση είναι γνωστή και πρέπει να είναι διαφορετικά από το σύνολο εκπαίδευσης. Η μέθοδος στηριζόμενη στις σχέσεις των ανεξάρτητων μεταβλητών των νέων παρατηρήσεων προβλέπει την κατηγορία στην οποία ανήκει η καθεμιά και στη συνέχεια συγκρίνοντας την προβλεπόμενη με την πραγματική τιμή της κλάσης τους υπολογίζεται η ακρίβεια του μοντέλου. Εφαρμογή μοντέλου: Εφόσον το μοντέλο κατηγοριοποίησης περάσει από τα δύο προηγούμενα στάδια και κριθεί αξιόπιστο, μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση μελλοντικών δειγμάτων δεδομένων. Ένα νέο στοιχείο εισάγεται στο μοντέλο και ανάλογα με τις τιμές των χαρακτηριστικών του εξάγεται η τιμή της κλάσης στην οποία προβλέπεται ότι ανήκει. 15
1.4.1 Υπερπροσαρμογή μοντέλου (overfttng) Όπως έχει ήδη αναφερθεί παραπάνω είναι πολύ σημαντικό ο έλεγχος καταλληλότητας ενός μοντέλου να βασιστεί σε δεδομένα που δεν έχουν πάρει μέρος στην εκπαίδευσή του. Μία τέτοια παράβλεψη μπορεί να οδηγήσει σε ένα μοντέλο που έχει υπερπροσαρμοστεί στα δεδομένα εκπαίδευσης. Με τον όρο αυτό ορίζεται το φαινόμενο όπου η κατασκευή του μοντέλου αντί να βασιστεί στην εύρεση σχέσεων μεταξύ των ανεξάρτητων μεταβλητών που έχουν γενικότερη ισχύ, αρκείται σε ένα είδος απομνημόνευσης των χαρακτηριστικών των περιπτώσεων που αποτέλεσαν το σύνολο εκπαίδευσης. Ένα μοντέλο τέτοιου είδους, είναι πιθανό να ενσωματώσει τον θόρυβο των δεδομένων ή λόγω της μεγάλης πολυπλοκότητάς του να αδυνατεί να πραγματοποιήσει σωστές προβλέψεις σε νέα δεδομένα παρόλο που υπάρχει η ένδειξη υψηλού βαθμού ακρίβειας [14]. 1.4.2 Υποπροσαρμογή μοντέλου (underfttng) Η υποπροσαρμογή ενός μοντέλου είναι το αντίστροφο πρόβλημα του overfttng. Σε μία τέτοια περίπτωση το μοντέλο που έχει προκύψει από την εκπαίδευση είναι υπερβολικά απλό και δεν έχει τη δυνατότητα να εκχωρήσει βασικές σχέσεις που υπάρχουν στο σύνολο των δεδομένων εκπαίδευσης, έχοντας ως αποτέλεσμα την απόδοση προβλέψεων χαμηλής ακρίβειας. 16
Κεφάλαιο 2- Μηχανές διανυσμάτων υποστήριξης 2.1 Περιγραφή αλγορίθμου Οι μηχανές διανυσμάτων υποστήριξης (SVMs) είναι μία ομάδα αλγορίθμων επιτηρούμενης μάθησης που αρχικά χρησιμοποιήθηκαν για την κατηγοριοποίηση ενώ αργότερα εφαρμόστηκαν και σε προβλήματα παλινδρόμησης. Αναπτύχθηκαν για πρώτη φορά από τον Vapnk και τους συνεργάτες τους στο A& Bell Labs το 1992[9]. Απέσπασαν γρήγορα το ενδιαφέρον καθώς παρουσίασαν μεγάλη ικανότητα γενίκευσης σε σχέση με άλλες παραδοσιακές μεθόδους ταξινόμησης. Η βασική ιδέα της κατασκευής τους στηρίζεται στην αρχή ελαχιστοποίησης του κατασκευαστικού ρίσκου (SRM) που έχει αποδειχθεί πως υπερτερεί έναντι της παραδοσιακής ελαχιστοποίησης του εμπειρικού ρίσκου (ERM) στην οποία στηρίζονται τα νευρωνικά δίκτυα. Η κατηγοριοποίηση των δεδομένων στηρίζεται στην εύρεση ενός βέλτιστου υπερεπιπέδου που διαχωρίζει τα δεδομένα δημιουργώντας το μέγιστο περιθώριο. Στην περίπτωση που ο γραμμικός διαχωρισμός είναι αδύνατος, γίνεται χρήση κατάλληλων απεικονίσεων που μεταφέρουν το σύνολο των δεδομένων σε μεγαλύτερη διάσταση ώστε να επιτευχθεί τελικά ο διαχωρισμός τους. H ικανότητα γενίκευσης της χρήσης των SVM σε μη γραμμικά δεδομένα στηρίζεται στο τέχνασμα του πυρήνα (kernel trck). Κάθε μηχανή διανυσμάτων υποστήριξης είναι ένας δυαδικός ταξινομητής, έχει δηλαδή τη δυνατότητα κατηγοριοποίησης σε δύο κλάσεις. Εάν οι κλάσεις είναι περισσότερες, τότε κρίνεται απαραίτητη η χρήση περισσότερων μηχανών διανυσμάτων υποστήριξης και η εφαρμογή διάφορων τεχνικών που θα αναλυθούν. Θεωρούμε ένα σύνολο δεδομένων ( x, y ) με 1,2..., l y 1, +1, ώστε, όπου x p R και y 1, εάν η παρατήρηση x ανήκει στην πρώτη κλάση, 1,..., l 1, εάν η παρατήρηση x ανήκει στην δεύτερη κλάση Στόχος είναι η εύρεση ενός ταξινομητή γενικής μορφής y f x, a >0, y 1 a : παράμετροι της συνάρτησης έτσι ώστε f x, a. <0, y 1, όπου 17
2.2 Εφαρμογές Μηχανών Διανυσμάτων Υποστήριξης Οι μηχανές διανυσμάτων υποστήριξης έχουν εφαρμογές σε διάφορους τομείς. Ενδεικτικά αναφέρονται οι εξής: Αναγνώριση προτύπων Οι μηχανές διανυσμάτων υποστήριξης χρησιμοποιούνται ευρέως στην αναγνώριση εικόνας, ήχου,κειμένου και γραφικού χαρακτήρα. Ενδεικτικά θα αναφερθεί η αναγνώριση προσώπων. Η εικόνα ενός προσώπου το οποίο και θα πρέπει θα αναγνωρισθεί μεταξύ διαφόρων άλλων μιας βάσης δεδομένων, αρχικά ψηφιοποιείται σε n n pxels δημιουργώντας έτσι ένα διάνυσμα 2 n x R. Ο αλγόριθμος SVM με βάση τα αντίστοιχα διανύσματα που είναι ήδη καταχωρημένα ταξινομεί την άγνωστη εικόνα και την αντιστοιχίζει σε κάποια από τις γνωστές. Βιοπληροφορική Αρχικά να αναφερθεί πως Βιοπληροφορική είναι ο κλάδος που επεξεργάζεται δεδομένα μοριακής βιολογίας όπως DNA και RNA ακολουθίες. Στον κλάδο αυτό οι μηχανές διανυσμάτων υποστήριξης έχουν χρησιμοποιηθεί για να ταξινομήσουν γονιδιακές ακολουθίες όπως για παράδειγμα σε καρκινικές ή μη καρκινικές [7]. Ιατρική διάγνωση Στην περίπτωση αυτή κάθε ασθενής χαρακτηρίζεται από τα συμπτώματά του. Το διάνυσμα των συμπτωμάτων του με τη βοήθεια των μηχανών διανυσμάτων υποστήριξης μπορεί να κατηγοριοποιηθεί σε μία από τις ασθένειες που υπάρχουν σε κάποια βάση δεδομένων, τα συμπτώματα των οποίων είναι γνωστά. Χρηματοοικονομικά Μία τράπεζα προκειμένου να αποφασίσει θετικά ή αρνητικά για την χορήγηση ενός δανείου πρέπει αρχικά να συλλέξει πληροφορίες που περιγράφουν επαρκώς τον πελάτη. Τέτοια χαρακτηριστικά είναι για παράδειγμα το εισόδημά του, η ηλικία του, η λήψη άλλων δανείων στο παρελθόν, η έγκαιρη ή μη έγκαιρη αποπληρωμή τους, η περιουσιακή και οικογενειακή του κατάσταση. Όλα τα παραπάνω στοιχεία είναι οι συνιστώσες ενός πολυδιάστατου διανύσματος που αποτελεί την ταυτότητα του πελάτη για την τράπεζα. Με βάση τα αντίστοιχα στοιχεία προηγούμενων δανειοληπτών και με τη χρήση μιας μηχανής διανυσμάτων υποστήριξης οι πελάτες μπορούν να κατηγοριοποιηθούν σε δύο κατηγορίες: σε φερέγγυους και αφερέγγυους. 18
Με τον τρόπο αυτό κάθε νέος πελάτης μπορεί να ταξινομηθεί σε μία από τις παραπάνω κατηγορίες ώστε να παρθεί η τελική απόφαση από το χρηματοοικονομικό τμήμα της τράπεζας για το αν θα χορηγηθεί ή όχι το δάνειο. Οι παραπάνω εφαρμογές δεν περιορίζουν τη χρήση των μηχανών διανυσμάτων υποστήριξης στα συγκεκριμένα επιστημονικά πεδία. Αποτελούν μόνο ένα μικρό δείγμα που κάνει αντιληπτή την μεγάλη χρησιμότητα και ποικιλομορφία εφαρμογών τους. 2.3 Θεμελιώδεις Έννοιες Εσωτερικό γινόμενο διανυσμάτων Έστω n x, y R με x= x,..., x, y= y,..., y 1 n 1 και 1,..., n, x, y R Το εσωτερικό τους γινόμενο ορίζεται ως το άθροισμα των γινομένων των αντίστοιχων συντεταγμένων: x y n x y. 1 Συχνά χρησιμοποιείται ο συμβολισμός xy,. Ευκλείδια νόρμα n n. Η Ευκλείδια νόρμα ( στάθμη ή μέτρο ) ενός διανύσματος εσωτερικό γινόμενο και είναι η συνάρτηση : x n R ορίζεται με βάση το 1/2 2 2 2 ή ισοδύναμα 1 2... x x x x x x x n Ορισμός κυρτού συνόλου (convex set) n Ένα υποσύνολο S του R είναι κυρτό, εάν για οποιαδήποτε x, y S και για κάθε 0,1 ισχύει ότι: ax 1 a y S. Το διάνυσμα 1 κυρτός συνδυασμός των xy., z ax a y ονομάζεται Πιο απλά, ένα σύνολο λέγεται κυρτό εάν για οποιαδήποτε δύο σημεία του xy,, όλα τα σημεία του ευθύγραμμου τμήματος xy ανήκουν μέσα στο σύνολο. Εάν υπάρχουν ζεύγη σημείων ώστε το αντίστοιχο ευθύγραμμο τμήμα τους να μην βρίσκεται εξ ολοκλήρου μέσα στο σύνολο, το σύνολο λέγεται μη κυρτό [5]. Στην παρακάτω 19
εικόνα, όπως είναι φανερό από τον ορισμό, παριστάνεται ένα κυρτό και ένα μη κυρτό σύνολο. Εικόνα 3.Το σύνολο στην δεξιά πλευρά της εικόνας είναι κυρτό, ενώ το διπλανό του είναι μη κυρτό εφόσον υπάρχει ευθύγραμμο τμήμα που δεν περιέχεται εξ' ολοκλήρου μέσα στο σύνολο. Ορισμός κυρτής συνάρτησης (convex functon) n Έστω υποσύνολο S του R, κυρτό και μη κενό. Κάθε συνάρτηση f : S R είναι κυρτή (στο S ) εάν για οποιαδήποτε x, y S και για κάθε 0,1 ισχύει ότι: 1 1 f ax a y af x a f y. Η σχηματική αναπαράσταση του παραπάνω ορισμού φαίνεται στο επόμενο σχήμα. Εικόνα 4. Παράδειγμα κυρτής συνάρτησης 20
Ορισμός αυστηρά κυρτής συνάρτησης ( strctly convex functon) Έστω υποσύνολο S του n R, κυρτό και μη κενό. Κάθε συνάρτηση f : S R είναι αυστηρά κυρτή (στο S ) εάν για οποιαδήποτε x, y S με x y και για κάθε 0,1 ισχύει ότι: Βελτιστοποίηση 1 1 f ax a y af x a f y. Όταν πρέπει να επιλυθεί ένα πρόβλημα βελτιστοποίησης συχνά καταφεύγουμε στον υπολογισμό του αντίστοιχου δυικού προβλήματος [5][20]. Το δυικό πρόβλημα επιτρέπει την εφαρμογή νέων τεχνικών που αναπτύσσονται ώστε να επιλυθεί το αρχικό πρόβλημα. Στην περίπτωση των Μηχανών Διανυσμάτων Υποστήριξης (SVM) η τεχνική που χρησιμοποιείται είναι η βελτιστοποίηση του δυικού προβλήματος με τη χρήση πολλαπλασιαστών Lagrange. Παρακάτω θα γίνει αναφορά της μεθόδου αυτής, ώστε να γίνει πλήρως κατανοητή η χρήση της στα πλαίσια λειτουργίας των SVM. Έστω το εξής πρόβλημα βελτιστοποίησης: mn x f x με περιορισμούς g x 0 και 1, 2,..., l x R p Απαραίτητη προϋπόθεση είναι η f να είναι κυρτή (convex) και οι g περιορισμοί να είναι γραμμικοί ως προς x. Κατασκευάζουμε το πρόβλημα βελτιστοποίησης Lagrange που στηρίζεται στο πρωταρχικό πρόβλημα (prmal problem): max mn L x, a a με L x, a f x a g x x l και 0 Η L x, a ονομάζεται συνάρτηση Lagrange ή Λαγκρανζιανή και αποτελείται από δύο τμήματα: 1 Από την αρχική αντικειμενική συνάρτηση f x Από έναν γραμμικό συνδυασμό των l περιορισμών g x Παρατηρείται, ότι κάθε περιορισμός είναι πολλαπλασιασμένος με το αντίστοιχο a, τα οποία είναι μη αρνητικές σταθερές που ονομάζονται πολλαπλασιαστές Lagrange. 21
Είναι προφανές πως το νέο πρόβλημα βελτιστοποίησης καλείται να βρεί τις τιμές που βελτιστοποιούν δύο συναρτήσεις προς την αντίθετη κατεύθυνση. Πιο συγκεκριμένα, σταθεροποιώντας το διάνυσμα x, το δυικό πρόβλημα ανάγεται σε ένα πρόβλημα μεγιστοποίησης της Λαγκρανζιανής ως προς α, ενώ αν σταθεροποιηθεί η τιμή του διανύσματος α το πρόβλημα ανάγεται σε ελαχιστοποίηση της Λαγκρανζιανής ως προς x. Είναι αντιληπτό πως λύση του δυικού προβλήματος είναι ένα διάνυσμα 0 της δυικής μεταβλητής και ένα διάνυσμα x 0 της αρχικής μεταβλητής του προβλήματος. Με βάση την αρχική υπόθεση κυρτότητας της περιορισμών g f x και γραμμικότητας των x, θα υπάρχει μοναδικό στάσιμο σημείο το οποίο αποτελεί μία λύση. Αφού η L ελαχιστοποιείται ως προς x η μερική της παράγωγος στο συγκεκριμένο σημείο θα μηδενίζεται: L 0 x Υποθέτουμε ότι στο στάσιμο σημείο η τιμή του διανύσματος x είναι x 0. Τότε L ax, 0 0. Το x 0 αποτελεί τη βέλτιστη λύση της L ως προς x. Γίνεται η υπόθεση x ότι 0 και x 0 είναι μία λύση του προβλήματος Langrage. Τότε, για να είναι το συγκεκριμένο ζεύγος λύσεων ταυτόχρονα λύσεις και του αρχικού προβλήματος (prmal) θα πρέπει να ικανοποιούνται κάποιες συνθήκες. Για 0, x0 λύσεις του Lagrange dual θα ισχύει ότι: max mn L x, a L x, a f x a g x a x 0 0 0 0 0 1 H λύση x 0 είναι λύση της αρχικής αντικειμενικής συνάρτησης αν και μόνο αν ισχύουν οι ακόλουθες συνθήκες οι οποίες ονομάζονται συνθήκες Karush Kuhn ucker (KKcondtons) και είναι οι εξής: L a 0, x 0 0 (statonarty) (2.1) x a g 0 (complementary slackness) (2.2) g 0 x0 x με 1, 2,..., l 0 0 (p rmal feasblty) (2.3) a 0 (du al feasblt y ) (2.4) Παρατηρώντας τις παραπάνω συνθήκες θα γίνει μία σύντομη αναφορά σχετικά με το τι εκφράζουν και το τι ικανοποιούν. Η συνθήκη (2.3) ικανοποιεί τους περιορισμούς l 22
του αρχικού προβλήματος (prmal problem) βελτιστοποίησης ενώ η συνθήκη (2.4) ικανοποιεί τους περιορισμούς του δυικού προβλήματος. Από τη συνθήκη (2.1) εξασφαλίζεται ότι το διάνυσμα x 0 αποτελεί στάσιμο σημείο ενώ η συνθήκη (2.2) εκφράζει πως όταν ο -οστός περιορισμός g πολλαπλασιάζεται με τον αντίστοιχο πολλαπλασιαστή Lagrange στην βέλτιστη τιμή x 0,μηδενίζεται. Η αναγκαιότητα της συγκεκριμένης συνθήκης είναι εμφανής καθώς είναι αυτή που μηδενίζει το δεξί τμήμα της ποσότητας L x, a και οδηγεί στην ισότητα των f x και, 0 0 0 L x a. Η χρήση της μεθόδου των πολλαπλασιαστών σε κυρτή συνάρτηση κόστους δίνει ένα σημαντικό πλεονέκτημα. Δεδομένου ότι η λύση x 0 είναι η βέλτιστη λύση, καθιστά ικανή την απλοποίηση του προβλήματος βελτιστοποίησης αναδιατυπώνοντάς το ως εξής: 0 0 max f a ' a υπό τους περιορισμούς a 0 f a L a, x και 1,2,..., l ' με 0 Η συνάρτηση f ' a ονομάζεται δυική Lagrange (Lagrange dual) και στόχος είναι η εύρεση του βέλτιστου ως προς το α (δυική μεταβλητή). Το συμπέρασμα που εξάγεται λαμβάνοντας υπόψη όλα τα παραπάνω είναι ότι το πρωτεύον πρόβλημα λύνεται με χρήση του δυικού το προβλήματος του: Παράδειγμα ' ' max f a f a0 L a0, x0 f x0 a Θεωρούμε το κυρτό πρόβλημα βελτιστοποίησης 1 mn f x mn x 2 2 g x x με τον γραμμικό περιορισμό 3 0 Για την εύρεση της τιμής x που ελαχιστοποιεί την αντικειμενική συνάρτηση f(x) και ταυτόχρονα είναι εντός της εφικτής περιοχής που ορίζουν οι περιορισμοί, θα χρησιμοποιηθούν πολλαπλασιαστές Lagrange. Ορίζεται η Λαγκρανζιανή συνάρτηση ως εξής:, ( ) L a x f x ag x 1 2 2 x a x Λόγω κυρτότητας της αντικειμενικής συνάρτησης υπάρχει ένα μοναδικό στάσιμο σημείο για το οποίο ισχύει ότι: 3 23
L a, x 0 0 x 0 a 0 x 0 a x Πλέον η μεταβλητή x δεν περιέχεται στη συνάρτηση άρα το πρόβλημα βελτιστοποίησης, επαναδιατυπώνεται μεγιστοποιώντας την ποσότητα, ' f a L a x0 και παίρνει την μορφή: Η συνάρτηση f ' ' max f a με a 0 a 1 2 2 max a 3 a με a 0 a a έχει ένα μοναδικό ελάχιστο, η τιμή του οποίου υπολογίζεται με την εύρεση και τον μηδενισμό της παραγώγου της Άρα, x0 a0 3 f ' a a 0 0 0 ' f ως προς α: 0 a 3 0 a 3 Η λύση του αρχικού προβλήματος (prmal problem) και του δυικού (dual) είναι ταυτόσημες καθώς ικανοποιούνται οι K συνθήκες. Να σημειωθεί,επίσης, πως εάν χρησιμοποιηθεί η κλασική μέθοδος εύρεσης του ελαχίστου : f 0 x 0 x Το x=0 δεν αποτελεί μέρος της εφικτής περιοχής λύσεων καθώς δεν ικανοποιείται ο περιορισμός. 24
2.3 ΕΜΠΕΙΡΙΚΟ ΡΙΣΚΟ(EMPIRICAL RISK) Υποθέτουμε ότι δίνεται ένα σύνολο l παρατηρήσεων οι οποίες αποτελούν το σύνολο εκπαίδευσης. Κάθε παρατήρηση παριστάνεται με ένα ζεύγος x, y, =1,...l και n x R και y 1, 1 Γίνεται επίσης η υπόθεση πως το σύνολο των δεδομένων εκπαίδευσης προέρχονται από μία άγνωστη από κοινού συνάρτηση κατανομής (dstrbuton functon) P( x, y ) και τα δεδομένα είναι d (ndependently and dentcally dstrbuted). Έστω ότι έχουμε μία μηχανή (machne) με στόχο την εκμάθηση της απεικόνισης x y. Στην πραγματικότητα η μηχανή εκμάθησης ορίζεται από ένα σύνολο δυνατών απεικονίσεων x f ( x, ), όπου α οι παράμετροι απεικόνισης οι οποίες είναι ντετερμινιστικές, δηλαδή για μία δεδομένη παρατήρηση x και συγκεκριμένη επιλογή παραμέτρων α, η απεικόνιση f( x, ) θα οδηγεί πάντα στην ίδια τιμή εξόδου +1 ή -1 ανάλογα με την κλάση στην οποία ταξινομείται. Η επιλογή των παραμέτρων α γίνεται από την εκπαίδευση της μεθόδου, για αυτό και κάθε τέτοια μέθοδος ονομάζεται μηχανή μάθησης (learnng machne)[8][15][16]. Η εκτίμηση του test error για μία μηχανή εκπαίδευσης δίνεται από τον τύπο 1 R y f ( x, a ) dp x, y (2.5) 2 Η ποσότητα R ονομάζεται αναμενόμενο ή πραγματικό ρίσκο και εκφράζει την απόκλιση της προβλεπόμενης ταξινόμησης f ( x, a ) από την πραγματική y για νέα, άγνωστα δεδομένα εισόδου. Ορίζεται επίσης το εμπειρικό ρίσκο (emprcal rsk) και συμβολίζεται ως Remp a ως η μέση τιμή του ρυθμού λαθών στο σύνολο των παρατηρήσεων που χρησιμοποιήθηκαν στην εκπαίδευση. Το εμπειρικό ρίσκο εκφράζεται από τη σχέση: l 1 R a y f ( x, a ) (2.6) emp 2l 1 Να σημειωθεί ότι στον ορισμό του εμπειρικού ρίσκου δεν εμφανίζεται καμία κατανομή πιθανότητας. Για μία συγκεκριμένη επιλογή συνόλου εκπαίδευσης και παραμέτρων α, το 1 2 Remp a είναι ένας σταθερός αριθμός. Η ποσότητα y f ( x, a ) ονομάζεται απώλεια (loss) και παίρνει μόνο τις τιμές 0 και 1 (ισούται με 0 όταν η προβλεπόμενη τιμή κλάσης είναι ίδια με την πραγματική τιμή της και 1 στην περίπτωση λανθασμένης πρόβλεψης). Σύμφωνα με τον Vapnk που πρώτος είχε 25
την ιδέα κατασκευής ενός φράγματος για την ικανότητα γενίκευσης και το ρίσκο, επιλέγεται ένας μη αρνητικός αριθμός με 0 1. Έτσι, για τις απώλειες που παίρνουν τις τιμές αυτές, με πιθανότητα 1 ισχύει η παρακάτω ανισότητα που εισάγει ένα άνω φράγμα στo R(a): log 2 l / h 1log / 4 h R( ) Remp a (2.7) l Στην παραπάνω σχέση ο αριθμός h είναι μη αρνητικός ακέραιος και ονομάζεται VCδιάσταση ή VC-χωρητικότητα. Το δεξί τμήμα της σχέσης (2.7) ονομάζεται όριο ρίσκου (bound rsk) καθώς θέτει στο αναμενόμενο ρίσκο ένα άνω φράγμα με log 2 l / h 1log / 4 h πιθανότητα 1-η ενώ η ποσότητα ονομάζεται VCl confdence,διότι εξαρτάται από την διάσταση των Vapnk-Chervonenks. Παρατηρώντας τη σχέση (2.7 ) είναι φανερό ότι: Δεν εξαρτάται από την P(x,y) η οποία είναι άγνωστη και μόνο βασίζεται στην υπόθεση των d δεδομένων των συνόλων εκπαίδευσης και επικύρωσης. Η ακριβής τιμή του R(α) δεν είναι δυνατόν να υπολογιστεί αναλυτικά. Εάν η VC- διάσταση h είναι γνωστή ή μπορεί να εκτιμηθεί, τότε γίνεται εφικτός ο υπολογισμός του δεύτερου μέλους της ανισότητας. Το πλεονέκτημα που δημιουργείται είναι πως εφαρμόζοντας διαφορετικές μηχανές εκμάθησης σε συγκεκριμένο σύνολο δεδομένων δίνεται η δυνατότητα επιλογής εκείνης της οικογένειας συναρτήσεων f ( x, a ) για την οποία ελαχιστοποιείται το άνω φράγμα του πραγματικού ρίσκου. Να σημειωθεί πως η τιμή του αριθμού πρέπει να είναι επαρκώς μικρή ώστε το άνω φράγμα να ισχύει με μεγάλη πιθανότητα (Burges,1998). Η μέθοδος αυτή σύμφωνα με την οποία επιλέγεται η καταλληλότερη μηχανή εκμάθησης στο υπάρχον σύνολο παρατηρήσεων αποτελεί την ιδέα ελαχιστοποίησης του κατασκευαστικού ρίσκου (structural rsk mnmzaton- SRM). Η θεωρία ελαχιστοποίησης κατασκευαστικού ρίσκου (SRM) είναι μεγάλης σημασίας καθώς πάνω σε αυτή στηρίζεται η λειτουργία διαφόρων μηχανών εκμάθησης όπως των Μηχανών διανυσμάτων Υποστήριξης, οι οποίες είναι αλγόριθμοι, που όπως θα περιγραφεί στη συνέχεια στοχεύουν στην εύρεση ενός υπερεπιπέδου που μεγιστοποιεί την απόσταση των κλάσεων. 26
2.4 VC Διάσταση Για τον ορισμό και την επεξήγηση της dstance) θα χρησιμοποιηθούν οι συναρτήσεις VC διάστασης (Vapnk-Chervonenks f x, a οι οποίες όπως έχει ήδη αναφερθεί, για κάποια επιλογή παραμέτρων, κατηγοριοποιούν τα δεδομένα σε δύο κλάσεις με ετικέτες +1 και -1. Η VC διάσταση είναι μία ιδιότητα ενός συνόλου ή μιας οικογένειας συναρτήσεων f και μπορεί να οριστεί για πλήθος τάξεων συναρτήσεων. Υποθέτουμε ότι δίνεται ένα σύνολο l σημείων τα οποία μπορούν να κατηγοριοποιηθούν με όλους τους δυνατούς τρόπους για τις διάφορες τιμές των ετικετών τους. Οι δυνατοί τρόποι κατηγοριοποίησης είναι στο σύνολό τους 2 l. Εάν μία συνάρτηση από την οικογένεια συναρτήσεων f είναι ικανή να διαχωρίσει σωστά ένα υποσύνολο των l σημείων, τότε τα σημεία αυτά λέμε ότι σαρώνονται από αυτές τις συναρτήσεις. Η χωρητικότητα ή VC διάσταση ορίζεται ως το μέγιστο πλήθος των στοιχείων εκπαίδευσης που μπορούν να σαρωθούν από την f. Να σημειωθεί πως αν η VC διάσταση είναι h, τότε υπάρχουν h στοιχεία τα οποία μπορούν να σαρωθούν χωρίς αυτό να γενικεύεται για οποιοδήποτε υποσόνολο h στοιχείων του συνόλου. n Όταν το σύνολο δεδομένων προέρχονται από τον χώρο R η VC διάσταση των υπερεπιπέδων είναι hn 1. Αυτό αποδεικνύεται επιλέγοντας n 1 σημεία και θεωρώντας ένα από αυτά ως σημείο αναφοράς. Τα διανύσματα θέσεως των n σημείων που έχουν απομείνει είναι γραμμικώς ανεξάρτητα, πράγμα που δεν ισχύει εάν επιλεγούν n 2 ή περισσότερα σημεία. Για περισσότερες λεπτομέρειες στην απόδειξη γίνεται παραπομπή στην αντίστοιχη βιβλιογραφία.[8] Για την πλήρη κατανόηση της VC διάστασης παρατίθεται ένα παράδειγμα. Παράδειγμα Γίνεται η υπόθεση πως τα δεδομένα προέρχονται από τον χώρο 2 R και έστω f το σύνολο των προσανατολισμένων ευθειών, έτσι ώστε για κάποια δεδομένη ευθεία όλα τα σημεία από την μία πλευρά να αποδίδονται στην κλάση +1 και όλα τα υπόλοιπα αντίστοιχα στην κλάση -1. Ο όρος προσανατολισμένη ευθεία είναι βοηθητικός και αναφέρεται σε ένα βέλος που υποδεικνύει την πλευρά με τα στοιχεία 2 3 ετικέτας +1. Τρία σημεία του R μπορούν να διαχωριστούν με 2 8 πιθανούς τρόπους. Όπως φαίνεται στο παρακάτω σχήμα ο διαχωρισμός τους από μία ευθεία είναι εφικτός σε κάθε δυνατό συνδυασμό τους. 27
Στη συνέχεια, θα ελεγχθεί εάν η ιδιότητα αυτή ισχύει και για 4 σημεία του 2 R,τα 4 οποία μπορούν να κατηγοριοποιηθούν με 2 16 δυνατούς συνδυασμούς. Όπως φαίνεται στην παρακάτω εικόνα ο διαχωρισμός τους από μία ευθεία είναι εφικτός σε 14 από τις 16 περιπτώσεις. Είναι φανερό πως για την οικογένεια των προσανατολισμένων ευθειών στον διάσταση είναι h 3. 2 R η VC 28
2.4 Γραμμικά διαχωρίσιμα δεδομένα (Hard Margn SVM) Αρχικά, για την κατανόηση λειτουργίας των SVM γίνεται η υπόθεση πως το σύνολο των δεδομένων διαχωρίσιμο. D x, y / x R p, y 1, 1, 1,..., l είναι γραμμικά Ανάλογα με το χώρο στον οποίο βρίσκονται οι παρατηρήσεις, διαχωρίζονται: από ένα σημείο στον μονοδιάστατο χώρο από μία ευθεία γραμμή στο δισδιάστατο χώρο, από ένα επίπεδο στον τρισδιάστατο από ένα υπερεπίπεδο (hyperplane) ενώ σε μεγαλύτερες διαστάσεις Παρατηρώντας την παρακάτω εικόνα του δισδιάστατου χώρου δεδομένων, είναι φανερό πως το δείγμα εκπαίδευσης είναι δυνατόν να διαχωριστεί από διάφορες ευθείες. Η ευθεία που πετυχαίνει την ασφαλέστερη κατηγοριοποίηση είναι αυτή που απέχει περισσότερο από τα στοιχεία των δύο κλάσεων (μπλε γραμμή). Άρα, το πρόβλημα που πρέπει να αντιμετωπιστεί είναι η εύρεση της ευθείας ή του υπερεπιπέδου γενικότερα που πετυχαίνει τον βέλτιστο διαχωρισμό. Εικόνα 5. Βέλτιστο υπερεπίπεδο διαχωρισμού Μία τέτοια υπερεπιφάνεια απόφασης περιγράφεται από την εξίσωση w x b 0 (2.8) όπου w w,..., 1, w2 wl x x x x το διάνυσμα βαρών που είναι κάθετο στο υπερεπίπεδο, 1, 2,..., l το διάνυσμα εισόδου και b το κατώφλι. 29
2.4.1 Μέγιστο περιθώριο Αρχικά, ορίζουμε τα υπερεπίπεδα Η 1 και Η 2 αντίστοιχα έτσι ώστε: H1 : w x b 1 H2 : w x b 1 Άρα όπως φαίνεται και στο επόμενο σχήμα ισχύει: w x b 1 όταν y 1 w x b 1 όταν y 1 Το υπερεπίπεδο Η 0 είναι το ενδιάμεσο υπερεπίπεδο των Η 1 και Η 2 για το οποίο ισχύει: : H 0 0 w x b. Εικόνα 6. Παρουσίαση υπερεπιπέδων και support vectors Τα στοιχεία που ανήκουν στα Η 1 και Η 2 και είναι τα ακραία σημεία της κάθε κλάσης ονομάζονται διανύσματα υποστήριξης (support vectors). Στο σημείο αυτό πρέπει να επισημανθεί ότι τα διανύσματα υποστήριξης είναι παρατηρήσεις ύψιστης αξίας για την λειτουργία του αλγορίθμου καθώς αφενός ταξινομούνται δυσκολότερα από τα υπόλοιπα και αφετέρου εάν πραγματοποιηθεί αλλαγή θέσης σε κάποιο από αυτά τότε αλλάζει και η θέση του βέλτιστου υπερεπιπέδου άρα και η ταξινόμηση των νέων παρατηρήσεων. Για να βρεθεί το βέλτιστο υπερεπίπεδο, πρέπει πρώτα να υπολογιστεί το περιθώριο (margn) μεταξύ των διανυσμάτων υποστήριξης των δύο κλάσεων, δηλαδή μεταξύ των υπερεπιπέδων Η 1 και Η 2, το οποίο στη συνέχεια θα πρέπει να μεγιστοποιηθεί. Ορίζεται ως x 0 : ένα διάνυσμα το οποίο ανήκει στο υπερεπίπεδο Η 2 30
m: η κάθετη απόσταση του x 0 από το Η 1, άρα και η απόσταση των Η 1 και Η 2 (margn) w u :μοναδιαίο κάθετο διάνυσμα στο Η 2 w Άρα, για w k mu m θα ισχύει ότι k m και k H1. Στη συνέχεια, w ξεκινώντας από το x 0 και προσθέτοντας το k φτάνουμε στο z0 x0 k το οποίο βρίσκεται στο υπερεπίπεδο Η 1 Εικόνα 7. Βοηθητικά διανύσματα για τον υπολογισμό περιθωρίου Επομένως: w z b 1 w x k b 1 0 0 w w w w x0 m b 1 w x0 m b 1 w w w x m w b 1 w x b 1 m w 0 0 2 1 1 m w m w Άρα η συνολική απόσταση των υπερεπιπέδων Η 1 και Η 2 ισούται με ονομάζεται περιθώριο [30]. 2 w και 31
2.4.2 Προσδιορισμός βέλτιστου υπερεπιπέδου Εφόσον το βέλτιστο υπερεπίπεδο (optmal hyperplane) προσδιορίζεται από το μέγιστο περιθώριο, προκύπτει ένα πρόβλημα βελτιστοποίησης [7][8][9][15]: max wb, 2 w υπό τους περιορισμούς w x b 1 εάν y 1 w x b 1 εάν y 1 w υπό τον περιορισμό y w x b 1 mn wb, 2 με 1, 2,..., l Για μεγαλύτερη ευκολία στην προγραμματιστική υλοποίηση του προβλήματος, η ποσότητα w θα αντικατασταθεί με w 2 1 2 w υπό τον περιορισμό y w x b 1 mn wb, 2 1 mn w w 2 2 y w x b (2.9) υπό τον περιορισμό 1 0 με 1, 2,..., l. Το παραπάνω πρόβλημα αποτελεί ένα τετραγωνικό πρόβλημα βελτιστοποίησης με κυρτή αντικειμενική συνάρτηση το οποίο υπόκειται σε γραμμικούς περιορισμούς. Η επίλυση του παραπάνω προβλήματος, όπως έχει ήδη αναφερθεί, υλοποιείται με τη χρήση πολλαπλασιαστών Langrage. Υπάρχουν δύο λόγοι για να χρησιμοποιηθεί η τεχνική αυτή. Πρώτον, οι περιορισμοί του προβλήματος θα αντικατασταθούν από περιορισμούς που αναφέρονται στους πολλαπλασιαστές Lagrange και είναι πιο διαχειρίσιμοι. Δεύτερων, στην επαναδιατύπωση του προβλήματος τα δεδομένα εκπαίδευσης εμφανίζονται με τη μορφή εσωτερικών γινομένων μεταξύ των διανυσμάτων. Η συγκεκριμένη ιδιότητα είναι πολύ σημαντική καθώς αποτελεί τη βάση για τη γενίκευση της μεθόδου στη μη γραμμική περίπτωση. Ορίζεται η συνάρτηση Langrage του αρχικού προβλήματος (ο δείκτης p εκφράζει πως η Λαγκρανζιανή συνάρτηση αναφέρεται στο prmal problem): 2 l w L a y w x b 1, με a 0, 1,2,..., l P 2 1 2 l l w L a y w x b a, με a 0, 1,2,..., l (2.10) P 2 1 1 32
Ακολουθεί η εύρεση των μερικών παραγώγων ως προς w και b : LP w LP b w l 1 l 1 ay a y x, 1, 2,..., l Θέτουμε τις μερικές παραγώγους ίσες με το 0: l l L P 0 w a yx 0 w a yx (2.11) w 1 1 l l LP 0 a y 0 a y 0 (2.12) b 1 1 Η Λαγκρανζιανή εξίσωση (2.10) του αρχικού προβλήματος αντικαθιστώντας της (2.11) και (2.12) παίρνει τη δυική της μορφή (ο δείκτης D εκφράζει πως η συνάρτηση αναφέρεται στο dual problem): l l l l l l 1 L a y x a y x a y x a y x a y b a l l l l l l 1 L a a y y x x a a y y x x b a y a D j j j j j j 2 1 j1 1 j1 1 1 D j j j j j j 2 1 j1 1 j1 1 1 1 L a a a y y x x l l l D j j j 1 2 1 j1 (2.13) Οι συναρτήσεις L P και L D βασίζονται στην ίδια αντικειμενική συνάρτηση αλλά με διαφορετικούς περιορισμούς. Έτσι, η λύση του προβλήματος βελτιστοποίησης προκύπτει από την ελαχιστοποίηση της L P ή ισοδύναμα από τη μεγιστοποίηση της L D Να σημειωθεί, επίσης, πως στην περίπτωση που η μεταβλητή b είναι μηδενική, ο περιορισμός (2.12) δεν υπάρχει και το ζητούμενο υπερεπίπεδο περιέχει την αρχή των αξόνων. Εξ ορισμού της συνάρτησης L D σε κάθε παρατήρηση του συνόλου εκπαίδευσης αντιστοιχεί ένας πολλαπλασιαστής Lagrange. Τα δεδομένα για τα οποία ισχύει 0 είναι τα διανύσματα υποστήριξης ενώ για όλα τα υπόλοιπα στοιχεία του συνόλου που βρίσκονται δεξιά του Η 1 ή αριστερά του Η 2 ισχύει ότι 0. 33
Με βάση την παραπάνω παρατήρηση, εάν αλλάξει η θέση κάποιων ή όλων των δεδομένων εκπαίδευσης που δεν είναι διανύσματα υποστήριξης (και εφόσον δεν μεταφερθούν στο χώρο μεταξύ των υπερεπιπέδων Η 1 και Η 2 ) όσες φορές και να επαναληφθεί η εκπαίδευση της μεθόδου το αποτέλεσμα εύρεσης του βέλτιστου υπερεπιπέδου θα είναι ακριβώς το ίδιο. Ενώ ο υπολογισμός του βέλτιστου διανύσματος βαρών w δίνεται από την εξίσωση (2.11) για τις τιμές των πολλαπλασιαστών Lagrange που προκύπτουν από την επίλυση του τετραγωνικού προβλήματος, η εύρεση της βέλτιστης τιμής για το κατώφλι b δεν είναι τόσο προφανής. Οι ΚΚΤ συνθήκες (Karush-Kuhn-ucker condtons)του αρχικού προβλήματος διαμορφώνονται ως εξής: w k L b L w a y x 0, k 1,2,..., d (2.14) P k k 1 P 1 y ( w x b) 1 0 l l a y 0 (2.15) (2.16) a 0 1,2,..., l (2.17) a y( w x b) 1 0 (2.18) Εφόσον το πρόβλημα των SVM είναι ένα κυρτό πρόβλημα βελτιστοποίησης οι ΚΤΤ συνθήκες είναι ικανές αναγκαίες ώστε οι τιμές w, b, a να είναι βέλτιστες λύσεις που σημαίνει πως η εύρεση βέλτιστων τιμών των παραπάνω παραμέτρων μπορεί να στηριχτεί ισοδύναμα σε αυτές. Για το λόγο αυτό, ο προσδιορισμός της βέλτιστης τιμής του b είναι αρκετά εύκολος με τη χρήση της εξίσωσης (2.18) και επιλέγοντας κάποιο για το οποίο 0 ή για «ασφαλέστερο» αποτέλεσμα υπολογίζεται ως ο μέσος όρος των τιμών που προκύπτουν για όλα τα για τα οποία 0. 34
Κεφάλαιο 3-Μη γραμμικά διαχωρίσιμα δεδομένα Στην προηγούμενη περίπτωση (hard margn SVM) του τέλειου γραμμικού διαχωρισμού, οι περιορισμοί του προβλήματος βελτιστοποίησης εξασφάλιζαν τη σωστή κατηγοριοποίηση όλων των παρατηρήσεων. Στην πράξη,όμως, αυτό είναι σπάνια εφικτό [6][8][9]. 3.1 SVMs χαλαρού περιθωρίου (Soft margn SVM) Σε πολλές εφαρμογές τα αντικείμενα δεν είναι γραμμικώς διαχωρίσιμα ή ακόμη και αν είναι, συχνά προτιμάται η επιλογή ενός μεγαλύτερου περιθωρίου επιτρέποντας σε κάποιες παρατηρήσεις να βρίσκονται μέσα σε αυτό ή ακόμη και να ταξινομηθούν λανθασμένα [6]. Μία τέτοια περίπτωση παρουσιάζεται στην παρακάτω εικόνα. Στο ίδιο σύνολο δεδομένων που ανήκουν σε δύο κλάσεις, στην αριστερή εικόνα εφαρμόζεται ένας ταξινομητής μικρού περιθωρίου που δεν κάνει λάθη ενώ στη δεξιά εικόνα ο κατηγοριοποιητής ταξινομεί λάθος ένα στοιχείο αλλά δημιουργεί μεγαλύτερο περιθώριο. Τέτοια μοντέλα SVM που επιτρέπουν λάθη προκειμένου να μεγιστοποιηθεί το περιθώριο ονομάζονται SVMs χαλαρού περιθωρίου (soft margn SVMs). Εικόνα 8. Αριστερά: ταξινομητής αυστηρού περιθωρίου. Δεξιά: ταξινομητής χαλαρού περιθωρίου. Για την περιγραφή ενός κατάλληλου μοντέλου ορίστηκαν κάποιες νέες μη αρνητικές μεταβλητές 0, 1, 2,..., l οι οποίες ονομάστηκαν μεταβλητές χαλαρότητας (slack varables) [8][9]. Για οποιοδήποτε δεδομένο x του συνόλου εκπαίδευσης, η αντίστοιχη τιμή του θα είναι: 0, εάν το x έχει ταξινομηθεί στη σωστή κλάση 0 1, εάν το x βρίσκεται εντός του περιθωρίου αλλά στην πλευρά της κλάσης στην οποία ανήκει 35
1, εάν το x είναι λάθος ταξινομημένο. Με βάση τον ορισμό των μεταβλητών χαλαρότητας η ποσότητα αποτελεί ένα άνω φράγμα για τον αριθμό των λάθος ταξινομημένων παρατηρήσεων. Για το λόγο αυτό, στο πρόβλημα μεγιστοποίησης του περιθωρίου ή ισοδύναμα στην 1 2 ελαχιστοποίηση της ποσότητας w θα συμμετέχει και ο όρος C 2 ο οποίος προσδίδει ένα είδος ποινής για τα λάθος ταξινομημένα δεδομένα (msclassfed errors) αλλά και για αυτά που παραβιάζουν το περιθώριο (margn errors). k Εικόνα 9. Μεταβλητές χαλαρότητας ενός soft margn γραμμικού SVM. Το πρόβλημα βελτιστοποίησης τώρα είναι το εξής: 1 mn wb, 2 k 2 w C (3.1) υπό τους περιορισμούς: w x b 1 όταν y 1 w x b 1 όταν y 1 0 1, 2,..., l (3.2) 36
Η μελέτη του παραπάνω προβλήματος θα γίνει επιλέγοντας την τιμή k=1 ώστε το πρόβλημα εκτός από την ιδιότητα της κυρτότητας, θα αποτελεί ένα τετραγωνικό πρόβλημα. Αναδιατυπώνεται δηλαδή ως εξής: 1 mn wb, 2 2 w C (3.3) υπό τους περιορισμούς: 1 y w x b 0 1,2,..., l (3.4) Η σταθερά C είναι θετικός αριθμός και ονομάζεται trade off παράμετρος. Εκφράζει την εξισορρόπηση σημαντικότητας μεταξύ της μεγιστοποίησης του περιθωρίου και της ελαχιστοποίησης των λάθος ταξινομήσεων. Έτσι, αφού το σφάλμα είναι ανάλογο με το C και τις μεταβλητές χαλαρότητας, όσο υψηλότερη είναι η τιμή του C, τόσο περισσότερο θα τιμωρηθούν τα λάθος ταξινομημένα σημεία και τα σημεία στο εσωτερικό του περιθωρίου. Προκύπτει δηλαδή ότι: Αν C 0 τότε σημαίνει ότι αγνοούνται οι μεταβλητές χαλαρότητας Αν C τότε προσδίδεται μεγάλη ποινή στις λάθος ταξινομήσεις και το μοντέλο ισοδυναμεί με τον hard margn SVM. Η τιμή της C είναι επιλογή του χρήστη και γίνεται μετά την αξιολόγηση διάφορων δοκιμών μέσω της διαδικασίας επικύρωσης. Η μέθοδος soft margn SVM περιγράφηκε πρώτη φορά από τους Cortes και Vapnk [1]. H επιρροή της τιμής του C στον SVM ταξινομητή φαίνεται στην παρακάτω εικόνα [21]. Όταν η παράμετρος C έχει μικρή τιμή οδηγεί σε μεγαλύτερο περιθώριο και επιτρέπει ταυτόχρονα περισσότερα λάθη στη ταξινόμηση. Οι λεπτές γραμμές υποδηλώνουν το περιθώριο ενώ η πιο έντονη παραστάνει το όριο απόφασης. Επίσης όσο πιο έντονα είναι σκιασμένος ο χώρος του γραφήματος, τόσο μικρότερες είναι οι τιμές της συνάρτησης απόφασης 37
Εικόνα 10. Επιρροή τιμής C στο περιθώριο και τα λάθη ταξινόμησης. Η Λαγκρανζιανή συνάρτηση του πρωτεύοντος προβλήματος σε ένα πρόβλημα χαλαρού περιθωρίου είναι η εξής: 2 w L C a y w x b l l l 1, (3.5) P 2 1 1 1 όπου 0 και 0 είναι οι πολλαπλασιαστές Lagrange που αναφέρονται στους περιορισμούς αντίστοιχα. 1 y w x b 0 Από την εύρεση και τον μηδενισμό των μερικών παραγώγων ως προς τις βέλτιστες τιμές wb,, προκύπτουν οι παρακάτω ισότητες, οι οποίες μαζί με τις ανισωτικές σχέσεις και δύο τελευταίες συμπληρωματικές συνθήκες αποτελούν τις ΚΤΤ συνθήκες του prmal προβλήματος [8]: 38
LP w l 0 w a y x 0 w a y x (3.6) 1 1 l LP b l 0 ay 0 (3.7) 1 LP 0 C a 0 C a (3.8) y w x b 1 0 (3.9) 0 (3.10) a 0 (3.11) 0 (3.12) a y w x b 1 0 (3.13) 0 (3.14) Ισοδύναμα η βέλτιστη λύση μπορεί να προκύψει από την μεγιστοποίηση της συνάρτησης Lagrange του δυικού προβλήματος: l l l l l l 1 LD j j j j j j 2 a y x a y x C a y a y x x a y b 1 j1 1 1 j1 1 l + a 1 1 1 l 1 L a a y y x x C a a y y x x b l l l l l D j j j j j j 2 1 j1 1 1 j1 l a 1 1 1 L a a a y y x x l l l D j j j 1 2 1 j1 l l a y 1 1 l a 39
Τελικά το δυικό πρόβλημα βελτιστοποίησης έχει τη μορφή: Maxmze 1 L a a a y y x x l l l D j j j 1 2 1 j1 (3.15) με περιορισμούς: 0 C 1,2,..., l (3.16) l 1 ay 0 Η λύση του προβλήματος όπως και στην hard margn περίπτωση δίνεται από τη σχέση N S w a yx, με N S : ο αριθμός των support vectors 1 ενώ η τιμή b υπολογίζεται ακριβώς με τον ίδιο τρόπο. Η μόνη διαφορά μεταξύ του hard margn και soft margn SVM είναι ότι στην δεύτερη περίπτωση οι πολλαπλασιαστές Lagrange a είναι άνω φραγμένοι από την trade off παράμετρο C. 40
3.2 Μη γραμμικές Μηχανές Διανυσμάτων Υποστήριξης Οι Μηχανές Διανυσμάτων Υποστήριξης που έχουν ήδη περιγραφεί, καλύπτουν μόνο τις περιπτώσεις στις οποίες τα δεδομένα εκπαίδευσης είναι δυνατόν να διαχωριστούν γραμμικά από ένα βέλτιστο υπερεπίπεδο χωρίς λάθη (hard margn case) ή ίσως με κάποια λάθος ταξινομημένα δεδομένα (soft margn case). Στη συνέχεια θα γίνει μία εκτενής αναφορά για την γενίκευση της λειτουργίας μιας Μηχανής Διανυσμάτων Υποστήριξης ώστε να υπάρχει η δυνατότητα κατηγοριοποίησης σε σύνολα δεδομένων που δεν είναι γραμμικώς διαχωρίσιμα. H γενίκευση στηρίζεται στο γεγονός ότι στο πρόβλημα βελτιστοποίησης τα δεδομένα εκπαίδευσης «συμμετέχουν» μόνο με τη μορφή εσωτερικών γινομένων. p Αρχικά οι παρατηρήσεις του tranng set x R, 1, 2,..., l θα πρέπει να μετασχηματιστούν σε διανύσματα ενός άλλου Ευκλείδιου χώρου Η μεγαλύτερης διάστασης (πιθανόν να είναι άπειρης διάστασης) χρησιμοποιώντας μία απεικόνιση Φ P με : R H. O χώρος Η συχνά αναφέρεται στη βιβλιογραφία και ως Hlbert space που σημαίνει πως είναι ένας διανυσματικός χώρος στον οποίο ορίζεται η πράξη του εσωτερικού γινομένου διανυσμάτων. Ο αρχικός χώρος διάστασης των δεδομένων ονομάζεται χώρος εισόδου ενώ ο χώρος των μετασχηματισμών τους αντίστοιχα ονομάζεται χώρος χαρακτηριστικών και τα στοιχεία του είναι της μορφής 1 2 x x, x,..., x, 1,2,..., l. Στόχος της αλλαγής διάστασης είναι η εύρεση ενός βέλτιστου υπερεπιπέδου στον Η που να μπορεί να κατηγοριοποιήσει τα διανύσματα που προέκυψαν. Αφού πραγματοποιηθεί ο μετασχηματισμός των αρχικών δεδομένων εισόδου, ο αλγόριθμος εκπαίδευσης θα βασίζεται πλέον στα νέα διανύσματα μέσω των εσωτερικών γινομένων τους στον χώρο Η, τα οποία και πάλι θα εμφανίζονται στις συναρτήσεις με τη μορφή x xj. 41
Εικόνα 11. Μεταφορά δεδομένων από τον χώρο εισόδου στον χώρο χαρακτηριστικών μέσω της απεικόνισης Φ. Γίνεται η υπόθεση πως στο νέο χώρο που έχουν μετασχηματιστεί τα δεδομένα εκπαίδευσης, είναι γραμμικά διαχωρίσιμα. Τότε, το πρόβλημα βελτιστοποίησης για την εύρεση του βέλτιστου υπερεπιπέδου παίρνει τη μορφή που περιγράφηκε στην προηγούμενη ενότητα. Πιο συγκεκριμένα, η Λαγκρανζιανή συνάρτηση του δυικού προβλήματος θα είναι: 1 L a a a y y ( x ) ( x ) l l l D j j j 1 2 1 j1 (3.17) ενώ η βέλτιστη τιμή του διανύσματος βαρών w θα δίνεται όμοια από την εξίσωση: N S w a y( x ), με N S : ο αριθμός των support vectors (3.18) 1 Η συνάρτηση απόφασης gx ( ) που θα χρησιμοποιηθεί για κατηγοριοποίηση νέων δεδομένων παρατηρείται ότι βασίζεται στο εσωτερικό γινόμενο x xj είναι η εξής: g( x) w ( x) b N S 1 και g( x) a y ( x ) ( x) b (3.19) 3.2.1 Το τέχνασμα του πυρήνα Το πρόβλημα γίνεται ακόμα πιο απλό εάν βρεθεί μία συνάρτηση Κ τέτοια ώστε, j j K x x x x.οι συναρτήσεις αυτής της μορφής ονομάζονται συναρτήσεις πυρήνα (kernel functons) και το μεγάλο πλεονέκτημα είναι ότι η χρήση 42
μιας συνάρτησης Κ στα δεδομένα εκπαίδευσης δεν προϋποθέτει τον αναλυτικό υπολογισμό της απεικόνισης Φ. Για καλύτερη κατανόηση παρατίθεται ένα παράδειγμα: Γίνεται η υπόθεση πως το σύνολο εκπαίδευσης ανήκει στον χώρο διανύσματα της μορφής, 2 j j 1 2 2 R, είναι δηλαδή x x, x με 1,2,..., l και επιλέγεται ο πυρήνας K x x x x. Πρέπει να βρεθεί ένας χώρος Η και μία απεικόνιση Φ έτσι ώστε x x x x 2. Μία επιλογή θα μπορούσε να είναι για j j 1 1 2 2 R 3 και Φ:R 2 R 3 με Φ x x 2, 2 x x, x 2, άρα για οποιαδήποτε διανύσματα xy, του χώρου εισόδου θα ισχύει: 2 2 2 2 x y x1, 2 x1x2, x2 y1, 2 y1 y2, y2 x y 2x x y y x y = 2 2 2 2 1 1 1 2 1 2 2 2 x y x y 1 1 2 2 x y 2 2 Θα πρέπει να επισημανθεί πως ούτε η απεικόνιση Φ ούτε ο χώρος Η είναι οι μοναδικές επιλογές που οδηγούν τα δεδομένα στον πυρήνα Κ. Θα μπορούσαν ισοδύναμα να επιλεγούν 1 R και Φ:R R με Φ x x x, 2 x x, x x 2 ή 1 2 1 2 1 2 3 2 3 2 2 2 2 1 1 2 1 2 2 R και Φ:R R με Φ x x, x x, x x, x ώστε 4 2 4 2 2, 2 K x y x y x y. 3.2.2 Συνθήκες Mercer Για την ύπαρξη ενός χώρου Η και μίας απεικόνισης Φ για κάποια συνάρτηση πυρήνα Κ θα πρέπει να ικανοποιούνται κάποιες συνθήκες, οι οποίες διατυπώνονται στο θεώρημα Mercer: Κάθε συμμετρικός πίνακας xx, ' αναπτυχθεί σε σειρά:, ορισμένος για x, x ' b μπορεί να 43
, 1, ' ' K x x x x όπου 0 για κάθε. Η επέκταση είναι έγκυρη και συγκλίνει απόλυτα και ομοιόμορφα αν και μόνο αν για κάθε για το οποίο ισχύει b 2 xdx με α,b:σταθερές ολοκλήρωσης, ισχύει η συνθήκη Oι αριθμοί 0 bb a K x, x' x x' dxdx ' 0 ονομάζονται ιδιοτιμές (egenvalues) ενώ οι συναρτήσεις x ονομάζονται ιδιοσυναρτήσεις (egenfunctons). Να σημειωθεί ότι το γεγονός πως το ότι οι ιδιοτιμές είναι θετικές σημαίνει πως ο πυρήνας K x, x ' είναι θετικά ορισμένος. Σε κάποιες περιπτώσεις,δεν είναι εύκολο να γίνει έλεγχος της συνθήκης Mercer για κάθε. Επίσης, το θεώρημα Mercer παρόλο που μπορεί να καθορίσει αν ένας πυρήνας είναι εσωτερικό γινόμενο, δεν μπορεί να δώσει καμία πληροφορία για την απεικόνιση φ. 3.2.3 Συναρτήσεις Πυρήνα (Kernel Functons) Οι βασικότερες και πιο διαδεδομένης χρήσης συναρτήσεις πυρήνα που χρησιμοποιούνται για την αντιμετώπιση προβλημάτων μη γραμμικότητας σε πραγματικά δεδομένα είναι οι εξής [21][8][1]: Γραμμικός Πυρήνας K x, x x x j j Η γραμμική συνάρτηση πυρήνα είναι κατάλληλη μόνο για γραμμικώς διαχωρίσιμα δεδομένα. Πολυωνυμικός Πυρήνας Η μορφή του πολυωνυμικού πυρήνα είναι: 44
, 1 d j x x j ή K x, x j x x j K x x όπου d: o βαθμός της συνάρτησης o οποίος επιλέγεται από τον χρήστη. Για d 2 ονομάζεται τετραγωνικός πυρήνας. Ένα παράδειγμα σύγκρισης στην εφαρμογή πολυωνυμικού και γραμμικού πυρήνα φαίνεται στην παρακάτω εικόνα. Η διακεκομμένη γραμμή παριστάνει έναν γραμμικό ταξινομητή που ταξινομεί λάθος τα σκιασμένα τετράγωνα και κύκλους των δύο κλάσεων αντίστοιχα. Η εφαρμογή πολυωνυμικού πυρήνα αυξάνει κατακόρυφα την απόδοση καθώς κατηγοριοποιεί σωστά τα δεδομένα της εικόνας. d Εικόνα 12. Διαχωριστική ικανότητα γραμμικού και πολυωνυμικού πυρήνα που εφαρμόζονται στο ίδιο σύνολο δεδομένων. Όσο αυξάνεται ο βαθμός του πολυωνύμου τόσο πιο ευέλικτη γίνεται η συνάρτηση απόφασης. Η ιδιότητα αυτή φαίνεται ξεκάθαρα στα παρακάτω γραφήματα. Εικόνα 13. Απεικόνιση εφαρμογής γραμμικού και πολυωνυμικών πυρήνων δευτέρου και πέμπτου βαθμού. 45
Πυρήνας ακτινικής Βάσης-Γκαουσιανός πυρήνας(radal Bass Functon (RBF)/Gaussan Kernel) O πυρήνας ακτινικής βάσης συναντάται στην βιβλιογραφία με την παρακάτω μορφή: 2 j j K x, x exp x x, γ>0 Η θετική παράμετρος γ (της γενικής μορφής) ελέγχει την ακτίνα της Γκαουσιανής συνάρτησης και επιλέγεται από τον χρήστη. Η επιλογή της γίνεται μετά από δοκιμές ώστε να επιλεγεί η τιμή που δίνει την καλύτερη απόδοση κατά τη διαδικασία cross- valdaton. Εικόνα 14.Εφαρμογή συνάρτησης RBF σε μη γραμμικά δεδομένα Ο πιο γνωστός πυρήνας RBF είναι ο Γκαουσιανός πυρήνας : K x, x j exp x x j 2 2 H επιλογή της παραμέτρου γίνεται με τον ίδιο τρόπο. Θα αναφερθούν κάποιες ειδικές περιπτώσεις που αφορούν τη συμπεριφορά του μοντέλου για κάποιες επιλογές των σ και C: 2 Για σταθερή επιλογή της παραμέτρου C όταν το παίρνει μεγάλες τιμές, ο SVM ταξινομητής τείνει να γίνει γραμμικός. 2 Για μεγάλες τιμές της παραμέτρου C και μικρές τιμές του υπάρχει ο κίνδυνος της υπερπροσαρμογής (overfttng) που καθιστά το μοντέλο ιδιαίτερα ευαίσθητο στο θόρυβο. Στις εικόνες που ακολουθούν φαίνεται πως επηρεάζεται η συνάρτηση απόφασης από την επιλογή της τιμής του γ όταν η trade-off παράμετρος C έχει σταθεροποιηθεί. Όπως αναφέρθηκε και παραπάνω, φαίνεται πως για μικρές τιμές του γ η συνάρτηση 2 46
απόφασης τείνει προς την γραμμική ενώ όσο η τιμή του αυξάνεται, τόσο μεγαλώνει και η «ελαστικότητα» της [21]. Για μεγάλες τιμές του γ, υπάρχει ο κίνδυνος της υπερπροσαρμογής (overfttng). Εικόνα 15 Εφαρμογή RBF πυρήνα για διαφορετικές τιμές του γ Σιγμοειδής Πυρήνας (Sgmod Kernel), j tanh j K x x ax x r O σιγμοειδής πυρήνας ή πυρήνας υπερβολικής εφαπτομένης, αν και χρησιμοποιείται κυρίως στα νευρωνικά δίκτυα συχνά δίνει αξιόλογα αποτελέσματα και στην εφαρμογή Μηχανών Διανυσμάτων Υποστήριξης (SVMs). Αναφέρθηκε για πρώτη φορά από τον Vapnk (1995) αλλά θα πρέπει να σημειωθεί ότι ικανοποιεί τις συνθήκες Mercer για συγκεκριμένο εύρος τιμών των παραμέτρων α,r. 47
3.3 Πλεονεκτήματα και μειονεκτήματα SVMs Όπως κάθε μέθοδος που χρησιμοποιείται στην επεξεργασία και ανάλυση δεδομένων με στόχο την εξαγωγή νέας και χρήσιμης πληροφορίας, έτσι και η εφαρμογή των Μηχανών Διανυσμάτων Υποστήριξης συνοδεύεται από τα πλεονεκτήματα και τα μειονεκτήματά της. Στη συνέχεια, θα γίνει μία συγκεντρωτική αναφορά των σημαντικότερων εξ αυτών προκειμένου να σχηματιστεί μία σφαιρική εικόνα για την καταλληλόλητα επιλογής και τα δυνατά σημεία της μεθόδου. Πλεονεκτήματα Αποτελούν μία διαδικασία που είναι σταθερά εδραιωμένη από μαθηματικής άποψης και η λειτουργία της είναι ξεκάθαρα ερμηνεύσιμη βήμα προς βήμα [9]. Δεν είναι επιρρεπής στην υπερπροσαρμογή του αλγορίθμου σε συγκεκριμένο σύνολο δεδομένων σε σχέση με άλλες μεθόδους (overfttng) [13]. Οι Μηχανές Διανυσμάτων Υποστήριξης αποτελούν μία ανθεκτική μέθοδο έναντι της ύπαρξης θορύβου στα δεδομένα. Στηρίζεται στην επίλυση ενός προβλήματος κυρτού τετραγωνικού προγραμματισμού. Το σημαντικό πλεονέκτημα ως προς αυτή την ιδιότητα των SVMs είναι ότι το πρόβλημα βελτιστοποίησης,λόγω κυρτότητας, παρουσιάζει ολικό ελάχιστο δίνοντας μοναδική βέλτιστη επιλογή, κάτι που δεν συμβαίνει σε άλλες μεθόδους όπως τα Νευρωνικά Δίκτυα που μπορούν να παγιδευτούν σε τοπικά ελάχιστα [8]. Παρουσιάζουν σημαντική ικανότητα γενίκευσης σε μη γραμμικά διαχωρίσιμα δεδομένα ενσωματώνοντας το τέχνασμα του πυρήνα (kernel trck). Με την εφαρμογή συναρτήσεων πυρήνα είναι δυνατή η παραγωγή μη γραμμικών μοντέλων που οδηγούν σε γραμμικότητα σε χώρους μεγαλύτερων διαστάσεων. Το πλήθος των παραμέτρων που πρέπει να ρυθμιστούν στα SVMs είναι μικρότερο συγκριτικά με αρκετές αντίστοιχες μεθοδολογίες. Για την κατάταξη ενός νέου στοιχείου σε μία κλάση, η διαδικασία ταξινόμησης στηρίζεται μόνο στην ομοιότητα του άγνωστου προς τον αλγόριθμο στοιχείου και των σημαντικότερων στοιχείων της κάθε κλάσης που είναι τα διανύσματα υποστήριξης (support vectors). Έτσι ο αλγόριθμος απαλλάσσεται από την σύγκριση μία παρατήρησης με όλα τα γνωστά δεδομένα μειώνοντας το υπολογιστικό του κόστος. 48
Μειονεκτήματα Η ενσωμάτωση νέας γνώσης δεν είναι δυνατή. Πιο συγκεκριμένα, όταν μία Μηχανή Διανυσμάτων Υποστήριξης εκπαιδεύεται σε κάποιο tranng set, η προσθήκη κάποιων παρατηρήσεων στο σύνολο εκπαίδευσης δεν δίνει τη δυνατότητα αναπροσαρμογής του αλγορίθμου που έχει ήδη κατασκευαστεί. Η κατασκευή του μοντέλου θα πρέπει να γίνει από την αρχή με την εκπαίδευση του να βασίζεται στο νέο σύνολο δεδομένων εκπαίδευσης. Η εκπαίδευση ενός SVM σε κάποια προβλήματα είναι χρονοβόρα [8]. Δεν είναι άμεση και εύκολη η κατανόηση των εξαγόμενων βαρών που αφορούν τις συναρτήσεις απόφασης. Παρ όλα αυτά λόγω της δυνατότητας γραφικής αναπαράστασης των αποτελεσμάτων το πρόβλημα αυτό έως ένα βαθμό ξεπερνιέται [13]. 49
Κεφάλαιο 4-Βελτιωμένη απόδοση SVMs 4.1 Εισαγωγή Σε πολλές περιπτώσεις προβλημάτων κατηγοριοποίησης τα διαθέσιμα δεδομένα είναι μεγάλης διάστασης πράγμα που δυσκολεύει σημαντικά την επεξεργασία τους. Ο μεγάλος αριθμός χαρακτηριστικών μπορεί να δημιουργήσει διάφορα προβλήματα στην ποιότητα κατηγοριοποίησης, καθώς κάποια από αυτά μπορεί να περιέχουν άσχετη με το πρόβλημα πληροφορία ή πληροφορία που περιέχεται ήδη σε άλλα χαρακτηριστικά. Με στόχο την βελτιωμένη επίδοση των ταξινομητών, γίνεται χρήση κατάλληλων μεθόδων. 4.2 Μέθοδοι επιλογής χαρακτηριστικών Οι μέθοδοι επιλογής χαρακτηριστικών αναφέρονται στην επιλογή του υποσυνόλου των πιο χρήσιμων χαρακτηριστικών που είναι απαραίτητα για την καλύτερη δυνατή ταξινόμηση των δεδομένων. Η διαδικασία αυτή κρίνεται απαραίτητη όταν ο αριθμός των χαρακτηριστικών που περιγράφει κάθε δεδομένο είναι πολύ μεγάλος σε σχέση με το πλήθος στοιχείων του δείγματος ή σε περιπτώσεις τεράστιου όγκου δεδομένων που καθιστούν την ανάλυσή τους εξαιρετικά δύσκολη ή και ανέφικτη [27]. Με τη μείωση της διάστασης από την αφαίρεση περιττών χαρακτηριστικών, προκύπτουν σημαντικά οφέλη, όπως: η μεγαλύτερη ανθεκτικότητα στο πρόβλημα της υπερεκπαίδευσης η μείωση του υπολογιστικού κόστους υλοποίησης τη διαδικασίας μικρότερες απαιτήσεις σε αποθηκευτικό χώρο ευκολότερη ερμηνεία απόκτηση διαισθητικής ικανότητας του αναλυτή για το πρόβλημα. Οι πιο διαδεδομένες μέθοδοι για την επιλογή χαρακτηριστικών σε προβλήματα κατηγοριοποίησης είναι οι wrapper, flters και οι embedded μέθοδοι [26] και παρουσιάζονται τη συνέχεια. 4.2.1 Wrappers (μέθοδοι περιτυλιγμάτων) Η κατηγορία των wrapper μεθόδων περιλαμβάνει όλους τους αλγορίθμους που επιλέγουν ένα υποσύνολο του συνόλου χαρακτηριστικών στο οποίο εφαρμόζεται η μέθοδος μάθησης και στη συνέχεια γίνεται η αξιολόγησή του μέσω του ποσοστού προβλεπτικής ικανότητας. Οι διασημότερες και πιο εύχρηστες τεχνικές εφαρμογής wrapper είναι η προς τα εμπρός επιλογή (forward selecton), η προς τα πίσω απόρριψη (backward elmnaton), η αναζήτηση «πρώτα το καλύτερο» (best frst search) και οι γενετικοί αλγόριθμοι. 50
Οι τεχνικές wrapper μπορούν να χρησιμοποιηθούν χωρίς να υπάρχει περιορισμός στην επιλογή του μοντέλου κατηγοριοποίησης διότι δεν επηρεάζονται από τον τρόπο λειτουργίας του. Η ιδιότητα αυτή, ενώ αποτελεί πλεονέκτημα ως προς την ποικιλία εφαρμογών τους, ταυτόχρονα αποτελεί αδύναμο σημείο των μεθόδων καθώς η εξάρτηση των αποτελεσμάτων πρόβλεψης από τα ιδιαίτερα χαρακτηριστικά του ταξινομητή καθιστά ανέφικτη τη γενίκευσή του. Επίσης, αν και οι wrapper μέθοδοι παρουσιάζουν συνήθως καλύτερα αποτελέσματα από άλλες μεθόδους, έχουν μεγάλο υπολογιστικό κόστος. Αυτό συμβαίνει επειδή ο έλεγχος των υποψήφιων υποσυνόλων χαρακτηριστικών απαιτέι κάθε φορά την εκπαίδευση και την εφαρμογή του κατηγοριοποιητή ώστε να γίνει η μέτρηση της απόδοσής του. 4.2.2 Flters (Μέθοδοι φίλτρων) Στις μεθόδους φίλτρων ανήκουν οι αλγοριθμικές διαδικασίες αξιολόγησης των χαρακτηριστικών του συνόλου δεδομένων που δεν βασίζονται και δεν επηρεάζονται από το είδος του ταξινομητή που θα εφαρμοστεί. Οι εφαρμογές φίλτρων αξιολογούν τα χαρακτηριστικά πριν το στάδιο μάθησης του μοντέλου και έχουν ως στόχο την εκτίμηση της ποιότητας κάποιων υποσυνόλων τους. Τα συναφή χαρακτηριστικά, δηλαδή αυτά που κρίνεται πως οι τιμές τους ή ο συνδυασμός τιμών του έχουν άμεση σύνδεση με την επιλογή της κλάσης, εντοπίζονται εφαρμόζοντας στατιστικά κριτήρια όπως οι συντελεστές συσχέτισης του Pearson, εσωτερικά μέτρα απόστασης και μέτρα θεωρητικών πληροφοριών όπως η αμοιβαία πληροφορία που μπορεί να ανιχνεύσει και μη γραμμική εξάρτηση των χαρακτηριστικών. Οι μέθοδοι flters έχουν σχετικά μικρότερο υπολογιστικό κόστος από της μεθόδους περιτυλίγματος (wrapper), όμως επιστρέφουν μεγάλο αριθμό χαρακτηριστικών και στερούνται ικανότητας διαχείρισης δεδομένων με θόρυβο. 4.3.3 Εmbedded μέθοδοι Η κατηγορία αυτών των μεθόδων έχει κατασκευαστεί για την επιλογή χαρακτηριστικών όταν στα δεδομένα εφαρμόζεται συγκεκριμένη μορφή κατηγοριοποιητή. Η επιλογή τους βασίζεται σε μία συνάρτηση κόστους που αναφέρεται στην φάση εκπαίδευσης του μοντέλου. Τέτοιοι τύποι μεθόδων, όπως ο SVM-RFE (Recursve Feature Elmnaton-Αναδρομική Κατάργηση Χαρακτηριστικών), έχουν σχεδιαστεί ειδικά για τους SVM κατηγοριοποιητές. Ακολουθεί μία σύντομη περιγραφή της μεθόδου. Υπό την προϋπόθεση ότι χρησιμοποιείται ο γραμμικός πυρήνας και η συνάρτηση απόφασης που ταξινομεί κάθε παρατήρηση είναι f x w x b, 51
o SVM ταξινομητής εκπαιδεύεται αρχικά σε όλα τα χαρακτηριστικά των δεδομένων. Από την διαδικασία εκπαίδευσης και μέσω της επίλυσης του προβλήματος βελτιστοποίησης που αναλύθηκε σε προηγούμενο κεφάλαιο, υπολογίζονται οι τιμές των w και b. o χαρακτηριστικό που αντιστοιχεί στην συνιστώσα του w με την μικρότερη απόλυτη τιμή, θεωρείται ως το πιο «αδύναμο» χαρακτηριστικό και διαγράφεται. Η διαδικασία εκπαίδευσης επαναλαμβάνεται βασισμένη στο νέο σύνολο χαρακτηριστικών. Η βασική ιδέα στην οποία στηρίζεται η μέθοδος αυτή είναι η απόρριψη χαρακτηριστικών που επιφέρουν τη μικρότερη μείωση του περιθωρίου. Στην περίπτωση μη γραμμικών συναρτήσεων πυρήνα η διαγραφή χαρακτηριστικών απαιτεί υπολογισμούς μεγαλύτερης πολυπλοκότητας. Συγκριτικά με τις μεθόδους περιτυλίγματος (wrapper), οι embedded μέθοδοι παρουσιάζουν συνήθως μικρότερο υπολογιστικό κόστος καθώς η απαλοιφή ενός χαρακτηριστικού απαιτεί μία μόνο εκπαίδευση. Να σημειωθεί πως τα πειραματικά αποτελέσματα που προκύπτουν από την εκτεταμένη ανάλυση δεδομένων έχουν αποδείξει πως δεν υπάρχει κάποια ιδανική μέθοδος που να αποδίδει το ίδιο καλά σε όλα τα σύνολα δεδομένων. Κυρίως στα πραγματικά προβλήματα η εύρεση του κατάλληλου κριτηρίου για την επιλογή των «σημαντικών» χαρακτηριστικών είναι μία δύσκολη και κάποιες φορές ανέφικτη διαδικασία με αποτέλεσμα ο ερευνητής να ακολουθεί μία συμβιβαστική οδό μεταξύ της προβλεπτικής ικανότητας και του υπολογιστικού κόστους. 52
4.3 Ταξινόμηση σε περισσότερες από δύο κλάσεις με SVMs Αρχικά οι Μηχανές Διανυσμάτων Υποστήριξης κατασκευάστηκαν για την επίλυση προβλημάτων κατηγοριοποίησης σε δύο κλάσεις. Λόγω του περιορισμένου φάσματος τέτοιων προβλημάτων στα πραγματικά δεδομένα, έγινε δημιουργήθηκαν παραλλαγές και επεκτάσεις της μεθόδου ώστε να καταστεί ικανή η ταξινόμηση σε περισσότερες από δύο κατηγορίες. Στη συνέχεια, θα αναφερθούν κάποιες από τις πιο γνωστές μεθόδους πολλαπλής κατηγοριοποίησης που αναπτύχθηκαν και χρησιμοποιούνται ευρέως [10][11][12]. 4.3.1 Μέθοδος one-aganst-all Μία από τις πρώτες τέτοιες μεθόδους που χρησιμοποιήθηκαν είναι η oneaganst-all ή one aganst the rest (ένας εναντίον όλων). Στην περίπτωση αυτή, η ταξινόμηση των δεδομένων σε k κλάσεις, με k 2, επιτυγχάνεται με την κατασκευή k δυαδικών Μηχανών Διανυσμάτων Υποστήριξης. Η n-οστή ΜΔΥ,με n 1, 2,..., k,εκπαιδεύεται θεωρώντας πως όλα τα στοιχεία του συνόλου που ανήκουν στην συγκεκριμένη κλάση έχουν ετικέτα +1 (θετικά δεδομένα) ενώ τα στοιχεία των υπολοίπων k-1 κλάσεων έχουν ετικέτα -1 (αρνητικά δεδομένα). Υποθέτοντας πως το σύνολο εκπαίδευσης αποτελείται από l στοιχεία ( x, y ) με 1,2..., l, όπου x p R και y 1,2,..., k, η n-οστή Μηχανή Διανυσμάτων Υποστήριξης καλείται να λύσει το πρόβλημα βελτιστοποίησης το οποί επαναδιατυπώνεται ως εξής: με περιορισμούς: 1 mn w n, b n, n 2 l n n n 1 w w C n n n w x b 1 εάν y n n n n w x b 1 εάν y n 0 n 1,2,..., l Όπως φαίνεται στην διατύπωση του προβλήματος τα αρχικά δεδομένα εκπαίδευσης έχουν μετασχηματιστεί σε κάποιο χώρο μεγαλύτερης διάστασης μέσω της απεικόνισης ώστε να ξεπεραστεί πιθανό πρόβλημα μη γραμμικότητας στο χώρο εισόδου. 53
Από την επίλυσή του, προκύπτουν k σε πλήθος συναρτήσεις απόφασης που είναι της μορφής: 1 1 k,..., w x b w x b Κάθε άγνωστη προς τον αλγόριθμο παρατήρηση που πρέπει κατηγοριοποιηθεί τελικά αντιστοιχίζεται στην κλάση για την οποία η αντίστοιχη συνάρτηση απόφασης λαμβάνει την μεγαλύτερη τιμή[10]. Άρα, το κριτήριο απόφασης είναι : 4.3.2 Μέθοδος one-aganst-one n Κλάση του x arg max n w x b. n1,2,..., k k H δεύτερη μέθοδος που χρησιμοποιείται για πολλαπλή κατηγοριοποίηση ονομάζεται one-aganst-one (ένας εναντίον όλων). Στην περίπτωση αυτή η k k1 κατηγοριοποίηση γίνεται με την κατασκευή Mηχανών Διανυσμάτων 2 Υποστήριξης, ώστε ο κάθε δυαδικός ταξινομητής να εκπαιδεύεται στα δεδομένα των δύο κλάσεων. Γίνεται η υπόθεση πως οι παρατηρήσεις του tranng set που χρησιμοποιούνται για την δημιουργία ενός SVM ανήκουν στην -οστή και j- οστή κλάση και είναι πλήθους t. ο πρόβλημα εύρεσης βέλτιστων παραμέτρων του συγκεκριμένου ταξινομητή θα είναι της παρακάτω μορφής: w mn, j, j, j, b, 1 2, j, j, j t w w C με περιορισμούς: w x b 1 εάν y, j t, j, j, j t t t w x b 1 εάν y j, j, j, j t t t 0 k k1 Εφόσον κατασκευαστούν οι δυαδικοί ταξινομητές για όλους τους ανά δύο 2 δυνατούς συνδυασμούς των k κλάσεων, η απόφαση κατηγοριοποίησης μίας νέας παρατήρησης x που εισέρχεται στον αλγόριθμο γίνεται ως εξής:, j, j, j f x w x b υποδείξει Εάν το πρόσημο της συνάρτησης απόφασης πως η παρατήρηση x ανήκει στην κλάση, τότε η συγκεκριμένη κλάση κερδίζει μία 54
«ψήφο» έναντι της κλάσης j. Η διαδικασία αυτή επαναλαμβάνεται όλους τους ταξινομητές που έχουν δημιουργηθεί[10]. Τελικά, το στοιχείο x αντιστοιχίζεται στην κλάση που έχει λάβει τις περισσότερες ψήφους. Σε περίπτωση που επέλθει ισοβαθμία σε δύο κλάσεις, κάτι που δεν αποτελεί συχνό φαινόμενο, ίσως είναι καλύτερα να επιλεγεί μία άλλη στρατηγική κατάταξης. Να σημειωθεί πως για την επίλυση ενός προβλήματος πολλαπλής κατηγοριοποίησης k κλάσεων με τη χρήση SVMs θα πρέπει να επιλυθούν τετραγωνικού προγραμματισμού. k k1 2 προβλήματα 4.3.3 DDAGSVM μέθοδος Η τελευταία μέθοδος στην οποία θα γίνει μία σύντομη αναφορά ονομάζεται κατευθυνόμενος άκυκλος γράφος απόφασης των SVM (Decson Drected Acyclc Graph Support Vector Machnes) και για λόγους συντομογραφίας συμβολίζεται ως DDAGSVM. H DDAGSVM μέθοδος, όπως και η one aganst one, στο στάδιο εκπαίδευσης k k1 κατασκευάζει δυαδικούς ταξινομητές για κάθε ζεύγος των -j κλάσεων [12]. 2 Η διαφορά τους έγκειται στον τρόπο απόφασης για την τελική κατηγοριοποίηση. Ο k k1 γράφος είναι άκυκλος, έχει μία ρίζα ενώ χρησιμοποιεί συνολικά 2 εσωτερικούς κόμβους και k φύλλα το καθένα από τα οποία αντιπροσωπεύει μία κλάση. Κάθε στοιχείο ελέγχου, ξεκινώντας από τον κόμβο της ρίζας, η συνάρτηση απόφασης ανάλογα με την τιμή εξόδου της, υποδεικνύει εάν η παρατήρηση θα κινηθεί δεξιά ή αριστερά για να εισέλθει στον επόμενο κόμβο [11]. Ακολουθώντας συγκεκριμένο μονοπάτι το στοιχείο εισόδου x καταλήγει στο τελικό φύλλο το οποίο παριστάνει και την προβλεπόμενη κλάση. Μία σχηματική αναπαράσταση της DDAGSVM μεθόδου για την κατηγοριοποίηση σε 4 κλάσεις φαίνεται στο παρακάτω σχήμα [12]. 55
Εικόνα 16. Κάθε κόμβος αποφασίζει τον επόμενο κόμβο στον οποίο θα κατευθυνθεί η παρατήρηση μέχρι να παρθεί η απόφαση κατηγοριοποίησης και να καταλήξει σε κάποιο από τα 4 φύλλα. 4.3.4 Επιλογή μεθόδου πολλαπλής κατηγοριοποίησης Στην ερώτηση ποια από τις παραπάνω μεθόδους είναι καταλληλότερη δεν υπάρχει σαφής απάντηση. Η ικανότητα της κάθε μεθόδου εξαρτάται από τη φύση του προβλήματος, τον αριθμό των κλάσεων, το μέγεθος του συνόλου εκπαίδευσης και από διάφορους άλλους παράγοντες. Ενδεικτικά αναφέρεται πως στην περίπτωση που το σύνολο εκπαίδευσης αποτελείται από μεγάλο πλήθος δεδομένων, ο χρόνος εκπαίδευσης αποτελεί πρόβλημα και η στρατηγική one aganst one συνήθως είναι καταλληλότερη. Όταν η κατηγοριοποίηση των παρατηρήσεων αφορά μικρό πλήθος κλάσεων η μέθοδος one aganst all παρουσιάζει μεγαλύτερη ακρίβεια ενώ σε περίπτωση πολλών κλάσεων με μικρό αριθμό δεδομένων ανά κλάση η ίδια μέθοδος συχνά παρουσιάζει προβλήματα [11]. Ένα πλεονέκτημα που παρουσιάζει ο DDAGSVM, είναι ότι η γενίκευσή του έχει θεωρητικό υπόβαθρο κάτι που δεν ισχύει για τις άλλες μεθόδους [12]. Οι παραπάνω αναφορές βασίζονται σε πειραματικά συμπεράσματα και δεν αποτελούν κανόνα επιλογής καθώς όπως έχει ήδη αναφερθεί η συμπεριφορά τους μπορεί να παρουσιάσει μεγάλες αποκλίσεις κατά την εφαρμογή τους σε διάφορα προβλήματα. 56
Κεφάλαιο 5-Έλεγχος καταλληλότητας Μοντέλου Στα προηγούμενα κεφάλαια αναλύθηκε η δημιουργία μοντέλων SVM χρησιμοποιώντας διαφορετικές συναρτήσεις πυρήνα, προϋποθέτοντας ταυτόχρονα και την επιλογή των μεταβλητών τους που δίνουν τα καλύτερα δυνατά αποτελέσματα. Εφόσον όμως η εφαρμογή των κατηγοριοποιητών γίνεται σε κάποιο ή κάποια από τα υποσύνολα δεδομένων που είναι διαθέσιμα, είναι απαραίτητη η αξιολόγηση του κάθε μοντέλου. Πιο συγκεκριμένα, πρέπει ο χρήστης να κρίνει εάν ο κάθε κατηγοριοποιητής μπορεί να πραγματοποιήσει ικανοποιητικό ποσοστό σωστών προβλέψεων σε δεδομένα που δεν συμμετείχαν στην εκπαίδευσή του και η κλάση τους είναι άγνωστη προς αυτόν. Το βαθύτερο νόημα αυτού του ελέγχου είναι να αναγνωριστεί εάν το μοντέλο που κατασκευάστηκε ενσωματώνει εξειδικευμένους κανόνες που χαρακτηρίζουν τα δεδομένα εκπαίδευσης ή αν περιέχει γενικευμένους κανόνες που αφορούν όλα τα δεδομένα, γνωστά και άγνωστα. Στη συνέχεια, θα αναλυθούν κάποιες μέθοδοι που χρησιμοποιούνται ευρέως για την αναπαράσταση και εξαγωγή δεικτών που αντικατοπτρίζουν την καταλληλότητα των αλγορίθμων που κατασκευάστηκαν και καθορίζουν την απόφαση για περαιτέρω χρήση ή απόρριψη του μοντέλου. Τέτοιες τεχνικές είναι η κατασκευή και ερμηνεία του πίνακα σύγχυσης (Confuson Matrx), τα ROC γραφήματα και η διαδικασία της Σταυροειδούς Επικύρωσης (Cross Valdaton) με τις παραλλαγές της. Επίσης να τονιστεί πως όσα θα αναφερθούν στη συνέχεια στηρίζονται στην υπόθεση πως τα εξεταζόμενα μοντέλα κατηγοριοποίησης είναι δυαδικά, στοχεύουν δηλαδή στην αντιστοίχιση σε δύο μόνο κλάσεις +1 και -1. Τα δεδομένα που ανήκουν στην κλάση με ετικέτα +1 στο εξής θα ονομάζονται θετικά παραδείγματα ενώ αυτά που στην κλάση με ετικέτα -1 θα χαρακτηρίζονται ως αρνητικά. 5.1 Τεχνικές Cross valdaton Οι παράμετροι που χρησιμοποιούνται σε κάθε μοντέλο Μηχανών Διανυσμάτων Υποστήριξης δεν είναι εκ των προτέρων γνωστές. Για παράδειγμα, εάν επιλεγεί ένας RBF πυρήνας τότε θα πρέπει να δοθεί στον αλγόριθμο συγκεκριμένη τιμή για τις παραμέτρους C και γ, έχοντας ως στόχο την όσο το δυνατόν πιο έγκυρη πρόβλεψη της κλάσης άγνωστων δεδομένων. Να διευκρινιστεί πως η επίτευξη μεγάλης ακρίβειας του μοντέλου στο σύνολο εκπαίδευσης ίσως είναι παραπλανητική και εκφράζει υπερπροσαρμογή των δεδομένων [23]. 57
Ένα τέτοιο παράδειγμα παρουσιάζεται στην παρακάτω εικόνα. Εικόνα 17.Στην αριστερή εικόνα φαίνεται η κατηγοριοποίηση δεδομένων εκπαίδευσης. Στην δεξιά εικόνα το ίδιο μοντέλο όταν εφαρμόζεται σε άγνωστα δεδομένα δεν προσφέρει το ίδιο καλές προβλέψεις. Πρόκειται για υπερπροσαρμογή. Εικόνα 18. Στην αριστερή εικόνα στο ίδιο σύνολο εκπαίδευσης δημιουργείται ένα λιγότερο ακριβές μοντέλο το οποίο δίνει καλύτερα αποτελέσματα στην ταξινόμηση των άγνωστων παρατηρήσεων. Μία από τις μεθόδους που χρησιμοποιείται ευρέως για τον προσδιορισμό της προβλεπτικής ικανότητας σε άγνωστες παρατηρήσεις είναι η διασταυρωμένη επικύρωση (cross valdaton). Στη συνέχεια θα περιγραφούν οι πιο σημαντικές τεχνικές cross valdaton, όπως ο διαχωρισμός του συνόλου δεδομένων σε σύνολο εκπαίδευσης και επικύρωσης (holdout μέθοδος), η k-fold, η leave-one-out και η τεχνική bootstrap [24]. 58
Holdout μέθοδος Στη holdout μέθοδο το σύνολο δεδομένων D διασπάται σε δύο υποσύνολα, ξένα μεταξύ τους, το σύνολο εκπαίδευσης (tranng set) και το σύνολο επικύρωσης (holdout set ή test set). Αφού το μοντέλο εκπαιδευτεί στα δεδομένα που περιλαμβάνει το πρώτο σύνολο, στη συνέχεια εφαρμόζεται στα δεδομένα επικύρωσης ώστε να γίνει τελικά η σύγκριση της προβλεπόμενης τιμής με την πραγματική τιμή κλάσης των δεδομένων. Η συνηθέστερη επιλογή των δεδομένων που απαρτίζουν τα δύο σύνολα γίνεται ώστε τα 2/3 περίπου του γενικού συνόλου να χρησιμοποιούνται στο στάδιο εκπαίδευσης και το υπόλοιπο 1/3 για την επικύρωση της ικανότητας πρόβλεψης. Η μέθοδος αυτή, για πιο αξιόπιστα αποτελέσματα, χρησιμοποιείται και με μία παραλλαγή κατά την οποία γίνονται αρκετές επαναλήψεις της holdout μεθόδου επιλέγοντας τα δείγματα εκπαίδευσης και επικύρωσης με τυχαία δειγματοληψία. Η τελευταία τεχνική αναφέρεται και ως μέθοδος τυχαίας υποδειγματοληψίας (random subsamplng). Η ακρίβεια του μοντέλου προσδιορίζεται ως το ποσοστό των ορθών προβλέψεων. K-fold cross valdaton Στην k-fold μέθοδο, το σύνολο D των δεδομένων χωρίζεται σε k υποσύνολα D1, D2,..., D k ίσου συνήθως μεγέθους. Στη συνέχεια, τα k-1 από αυτά χρησιμοποιούνται για την εκπαίδευση του μοντέλου ενώ αυτό που επέμεινε συμμετέχει στη φάση επικύρωσης. Η διαδικασία επικύρωσης του αλγορίθμου ολοκληρώνεται αφού γίνουν k επαναλήψεις, ώστε όλα τα δεδομένα να έχουν λάβει μέρος τόσο στην εκπαίδευση όσο και στον έλεγχο της ικανότητας του μοντέλου. Η τελική επίδοση του μοντέλου υπολογίζεται ως η μέση επίδοση των k επαναλήψεων. Η επιλογή της τιμής του k εξαρτάται από τα δεδομένα. Σε μεγάλα σύνολα δεδομένων ακόμη και η τιμή k=3 μπορεί να είναι επαρκής. Όταν όμως τα αντικείμενα προς ανάλυση χαρακτηρίζονται από σποραδικότητα, είναι προτιμότερο να επιλεγεί μεγάλη τιμή του k ή και η leave one-out μέθοδος προκειμένου να συμμετέχουν περισσότερες παρατηρήσεις στην εκπαίδευση του αλγορίθμου. Η 10-fold cross valdaton θεωρείται πως πειραματικά δίνει ικανοποιητικά αποτελέσματα αν και πραγματοποιεί σχετικά μικρό αριθμό επαναλήψεων [25]. Leave-one-out Cross Valdaton (LOOCV) Στην τεχνική αυτή, όπως γίνεται φανερό και από το όνομά της, εάν το σύνολο των δεδομένων προς ανάλυση αποτελείται από n δεδομένα, το μοντέλο 59
χρησιμοποιεί ένα δεδομένο για την επικύρωση του μοντέλου ενώ τα υπόλοιπα n-1 στοιχεία αποτελούν το tranng set. H διαδικασία αυτή επαναλαμβάνεται μέχρι όλα τα αντικείμενα του συνόλου να χρησιμοποιηθούν για επικύρωση και στο τέλος λαμβάνεται το αποτέλεσμα των ορθών επαναλήψεων. Η leave-one-out μέθοδος συμπίπτει με την k-fold τεχνική για k=n. Παρ όλο που συνήθως δίνει πολύ καλά αποτελέσματα, η χρήση της περιορίζεται από το μειονέκτημα μεγάλου κόστους υπολογιστικής ισχύος λόγω του μεγάλου αριθμού επαναλήψεων που προϋποθέτει η περάτωση του σταδίου επικύρωσης. Μέθοδος Bootstrap H μέθοδος bootstrap αποτελεί μία εναλλακτική τεχνική για διασταυρωμένη επικύρωση. Στηρίζεται και αυτή στην δημιουργία επιμέρους συνόλων. Η βασική διαφορά έγκειται στο γεγονός πως η συγκρότηση των συνόλων γίνεται με δειγματοληψία με επανατοποθέτηση. Εφόσον κάθε στοιχείο που επιλέγεται επιστρέφει πίσω στο συνολικό δείγμα, είναι φανερό πως κάθε παρατήρηση είναι πιθανόν να συμμετέχει περισσότερες από μία φορές στο ίδιο set. Για ένα σύνολο Ν αντικειμένων επιλέγονται Ν αντικείμενα με επανατοποθέτηση για να συμμετέχουν στην εκπαίδευση του μοντέλου ενώ το στο αρχικό σύνολο πραγματοποιείται η φάση της επικύρωσης.nα σημειωθεί πως η πιθανότητα να επιλεγεί μία παρατήρηση είναι 1/Ν και αντίστοιχη πιθανότητα να μην επιλεγεί είναι 1-1/Ν. Αυτό σημαίνει πως εφόσον κάθε δεδομένο δεν επιλέγεται μετά από Ν λήψεις, με πιθανότητα 1 1 1 e 0,368, το σύνολο εκπαίδευσης περιέχει περίπου το 63.2% των παρατηρήσεων του συνόλου. Η μέθοδος bootstrap ενδείκνυται σε περιπτώσεις μικρών συνόλων δεδομένων και όπως και όλες οι προηγούμενες μέθοδοι μπορεί να επαναληφθεί πολλές φορές και να ληφθεί τελικά η μέση τιμή της εκτιμώμενης επιτυχίας του μοντέλου [25]. 60
5.2 Πίνακας Σύγχυσης (Confuson Matrx) Γίνεται η υπόθεση πως ένα σύνολο δεδομένων x, y, y 1, 1 κατηγοριοποιείται σε δύο κλάσεις μέσω μίας συνάρτησης απόφασης f (δυαδικός κατηγοριοποιητής). Η τιμή που εξάγεται από την συνάρτηση f θα συμβολιστεί ως y και παίρνει τις τιμές +1 ή -1 ανάλογα με την κλάση στην οποία αντιστοιχίζεται κάθε παρατήρηση. Συγκρίνοντας την πραγματική και την προβλεπόμενη τιμή υπάρχουν τέσσερις δυνατές περιπτώσεις ως προς τη σχέση των δύο τιμών δημιουργώντας κάποια σφάλματα. Η πληροφορία αυτή μπορεί να συγκεντρωθεί σε έναν 2 2 πίνακα ο οποίος ονομάζεται Πίνακας Σύγχυσης (Confuson Matrx). Οι γραμμές του πίνακα παριστάνουν τις πραγματικές τιμές για την κλάση των παρατηρήσεων ενώ οι στήλες του αντιπροσωπεύουν τις αντίστοιχες προβλεπόμενες τιμές. Η μορφή του παρουσιάζεται στην παρακάτω εικόνα. Εικόνα 19. Πίνακας Σύγχυσης (Confuson Matrx) Διευκρινίζεται ότι: P (rue Postve): ο αριθμός των παρατηρήσεων που ταξινομήθηκαν στην θετική κλάση ( y 1 ) και η πραγματική τους ετικέτα είναι +1 (Αληθής θετική ταξινόμηση) FN (False Negatve): ο αριθμός των παρατηρήσεων που ταξινομήθηκαν στην αρνητική κλάση ( 1 y ) και η πραγματική τους ετικέτα είναι +1 (Ψευδής αρνητική ταξινόμηση) 61
FP (False Postve): παριστάνει τον αριθμό των παρατηρήσεων που ταξινομήθηκαν στην θετική κλάση ( y 1) και η πραγματική τους ετικέτα είναι -1 (Ψευδής θετική ταξινόμηση) N (rue Negatve): παριστάνει τον αριθμό των παρατηρήσεων που ταξινομήθηκαν στην αρνητική κλάση ( y 1) και η πραγματική τους ετικέτα είναι -1 (Αληθής αρνητική ταξινόμηση) Παρατηρώντας τον πίνακα σύγχυσης είναι φανερό πως στην σκιασμένη διαγώνιό του περιέχει το σύνολο των σωστών ταξινομήσεων ενώ στην άλλη διαγώνιο προσμετρούνται τα λάθη κατηγοριοποίησης (σύγχυση) μεταξύ των δύο κλάσεων, τα οποία σε περίπτωση τέλειας ταξινόμησης έχουν μηδενικό άθροισμα. Το πρώτο πράγμα που μπορεί να υπολογιστεί από τον πίνακα σύγχυσης είναι ο ρυθμός σφάλματος του μοντέλου (error rate): FP FN err P FP N FN Ακόμη και για μικρές τιμές του ρυθμού σφάλματος, τα λάθη ταξινόμησης μπορεί να έχουν διαφορετική βαρύτητα ανάλογα με τη φύση του προβλήματος ή το πλήθος δεδομένων που αντιστοιχούν σε κάθε κλάση μπορεί να διαφέρει πολύ. Σε τέτοιες περιπτώσεις το ποσοστό ακρίβειας δεν δίνει επαρκή πληροφορία για την ικανότητα του μοντέλου. Θα δοθεί ένα τέτοιο παράδειγμα: Στον κλάδο της ιατρικής, ένας γιατρός υποβάλλει τους ασθενής του σε κάποια διαγνωστικά τεστ ώστε τελικά να αποφανθεί αν πάσχει από μία ασθένεια Α. Θεωρώντας πως τα συμπτώματα του ασθενή αποτελούν μία παρατήρηση, θα πρέπει να κατηγοριοποιηθεί σε μία από τις δύο κλάσεις: Θετική κλάση (Postve): πάσχει από την ασθένεια Α Αρνητική κλάση (Negatve): δεν πάσχει από την ασθένεια Α Ο πίνακας σύγχυσης θα είναι της μορφής: 62
Εικόνα 20.Πίνακας σύγχυσης στην κατηγοριοποίηση ασθενών ανάλογα με το αν πάσχουν ή όχι από κάποια ασθένεια Α. Σε ένα τέτοιο πρόβλημα κατηγοριοποίησης τα λάθη που ίσως προκύψουν είναι δύο ειδών. Ο ασθενής μπορεί να διαγνωστεί ψευδώς ότι πάσχει από την ασθένεια Α (False Postve)ή μπορεί να διαγνωστεί ότι δεν πάσχει από την ασθένεια ενώ στην πραγματικότητα πάσχει (False Negatve). Είναι φανερό πως μία λάθος ταξινόμηση της δεύτερης μορφής έχει μεγαλύτερη βαρύτητα καθώς ο ασθενής δεν θα υποβληθεί στην κατάλληλη θεραπεία και μπορεί ακόμη να χάσει και τη ζωή του. 5.2.1 Κριτήρια απόδοσης μοντέλου Λόγω της αναγκαιότητας ύπαρξης περισσότερων πληροφοριών σχετικά με τα σφάλματα του μοντέλου, ορίζονται κάποια επιπλέον μέτρα που βοηθούν στον χαρακτηρισμό τους [22]. Τα σημαντικότερα από αυτά είναι τα εξής: 1. Ευαισθησία (senstvty) ή ανάκληση (recall) Η ευαισθησία(senstvty) ή rue Postve Rate (PR) που συναντάται στην βιβλιογραφία και ως ht rate ή recall εκφράζει το ποσοστό των σωστά ταξινομημένων θετικών παρατηρήσεων ως προς το σύνολο των θετικών στοιχείων και δίνεται από τον τύπο: P senctvty PR P FN (=Recall) 2. Ιδιαιτερότητα (Specfcty ) Η specfcty εκφράζει το ποσοστό των αρνητικών παραδειγμάτων που έχουν κατηγοριοποιηθεί σωστά από τον αλγόριθμο. 63
N specfcty NR N FN Για τιμές πολύ κοντά στη μονάδα σημαίνει ότι ο κατηγοριοποιητής έχει την ικανότητα να ταξινομεί με επιτυχία τις αρνητικές παρατηρήσεις. 3. Ακρίβεια Η ακρίβεια του μοντέλου μετριέται με τον υπολογισμό των παρακάτω μέτρων: P N accuracy ρυθμός σωστών προβλέψεων P N FP FN και precson P : εκφράζει πόσα από τα δεδομένα που έχουν P FP ταξινομηθεί ως θετικά ανήκουν στην πραγματικότητα στην θετική κλάση Να σημειωθεί πως το μέτρο accuracy μπορεί να λαμβάνει υψηλή τιμή προσδίδοντας μεγάλη ακρίβεια στο μοντέλο χωρίς αυτό να ισχύει στην πραγματικότητα. Υποθέτουμε πως η ταξινόμηση των δεδομένων γίνεται μεταξύ δύο κλάσεων με μεγάλη διαφορά στο πλήθος στοιχείων της καθεμιάς. Θετική κλάση: Αρνητική κλάση: 9900 στοιχεία 100 στοιχεία Εάν ο κατηγοριοποιητής ταξινομεί όλα τα στοιχεία του συνόλου στην θετική κλάση, η ακρίβεια του μοντέλου θα είναι 99%. Παρ όλη την πλήρη ανικανότητα του μοντέλου να ταξινομήσει σωστά τα αρνητικά δεδομένα, η υψηλή ακρίβεια μπορεί να παραπλανήσει και να οδηγήσει στην εσφαλμένη αποδοχή και εφαρμογή του μοντέλου. Επίσης, συγκρίνοντας τα μέτρα της ευαισθησίας και της ακρίβειας μπορεί να υπάρχει απόκλιση στις τιμές τους. Για να γίνει εφικτός ο συνδυασμός της πληροφορίας που δίνουν και τα δύο μέτρα ορίζεται ο αρμονικός μέσος F 1 που υπολογίζεται από τον τύπο: F 1 2P 2 2P FP FN 1 1 senctvty precson Μεγάλες τιμές του F 1 υποδεικνύουν ικανοποιητικό μοντέλο. 64
5.3 ROC Γραφήματα Τα γραφήματα ROC (Recever Operatng Characterstcs) χρησιμοποιήθηκαν για πρώτη φορά το 1950 προκειμένου να περιγράψουν την ικανότητα ενός δέκτη να διαχωρίσει σήματα ραντάρ που περιείχαν πληροφορία από τον θόρυβο. Στη συνέχεια, κατέκτησαν γρήγορα έδαφος στον τομέα της ανάλυσης ιατρικών συνόλων δεδομένων με στόχο την αξιολόγηση διαγνωστικών δοκιμασιών. Τα τελευταία 15 περίπου χρόνια αποτελούν ένα εύχρηστο εργαλείο στο πεδίο της μηχανικής μάθησης καθώς προσφέρουν τη δυνατότητα ανάλυσης και οπτικοποίησης χαρακτηριστικών των αλγορίθμων [28][29][33]. Στην περίπτωση κατηγοριοποίησης δεδομένων από έναν δυαδικό ταξινομητή, το ROC γράφημα κατασκευάζεται στον δυσδιάστατο χώρο, όπου ο οριζόντιος άξονας εκφράζει το FPR (1-specfcty) ενώ ο κατακόρυφος παριστάνει την ευαισθησία (senstvty ή PR). Ποιοτικά, αποτελεί μία γραφική παράσταση της πιθανότητας σωστής ταξινόμησης των θετικών δεδομένων ως προς τον ρυθμό της λάθος ταξινόμησης των θετικών δεδομένων στην αρνητική κλάση. Κάθε αλγόριθμος διακριτής ταξινόμησης παριστάνει ένα σημείο (FPR, PR ) στο μοναδιαίο τετράγωνο [0,1]x[0,1]. Εικόνα 21.ROC γράφημα δυαδικών ταξινομητών 65
Σημεία γραφήματος ROC με ιδιαίτερο ενδιαφέρον: o σημείο (0,1) αντιπροσωπεύει έναν ταξινομητή με το ποσοστό των ορθών θετικών προβλέψεων να είναι 100% και το ποσοστό των ψευδώς θετικών προβλέψεων να είναι μηδενικό. Ένας τέτοιος ταξινομητής, κατηγοριοποιεί σωστά όλα τα δεδομένα και η περίπτωση αυτή ονομάζεται τέλεια ταξινόμηση (perfect classfcaton). Στην παραπάνω εικόνα το σημείο D παριστάνει έναν τέλειο ταξινομητή. Το σημείο (0,0) εκφράζει την περίπτωση κατηγοριοποιητή που δεν προβλέπει ποτέ θετικές ταξινομήσεις. Αντίθετη συμπεριφορά παρουσιάζουν ταξινομητές που αντιστοιχούν στο (1,1) καθώς προβλέπουν πως όλα τα δεδομένα προέρχονται από τη θετική κλάση. Ταξινομητές που αναπαρίστανται στην αριστερή γωνία και κοντά στον οριζόντιο άξονα του ROC γραφήματος αποκαλούνται «συντηρητικοί» διότι πραγματοποιούν θετικές ταξινομήσεις μόνο υπό την ύπαρξη ισχυρών ενδείξεων. Αυτή τους η συμπεριφορά έχει ως αποτέλεσμα χαμηλά ποσοστά ψευδώς θετικών ταξινομήσεων αλλά ταυτόχρονα υλοποιούν και μικρό ποσοστό ορθών θετικών προβλέψεων. Σημεία που βρίσκονται στην πάνω δεξιά περιοχή του τετραγώνου αντιστοιχούν σε πιο «φιλελεύθερους» ταξινομητές. Τέτοια μοντέλα κατηγοριοποίησης κάνουν θετικές προβλέψεις έχοντας ασθενέστερες ενδείξεις με συνέπεια την σωστή ταξινόμηση σχεδόν όλων των θετικών δεδομένων αλλά συχνά και την επίτευξη υψηλών ποσοστών ψευδών θετικών προβλέψεων. Η διαγώνιος που ενώνει τα σημεία (0,0) και (1,1) στο χώρο του γραφήματος εκφράζει την στρατηγική των τυχαίων ταξινομήσεων. Για παράδειγμα ένας ταξινομητής που μαντεύει τυχαία πως τις μισές φορές οι παρατηρήσεις ανήκουν στην θετική κλάση, αναμένεται να γίνουν σωστά οι μισές θετικές και οι μισές αρνητικές ταξινομήσεις. Το σημείο που αντιστοιχεί στον τυχαίο κατηγοριοποιητή είναι το (0.5, 0.5 ). Στην περίπτωση που μαντεύει το 90% των φορών παρατηρήσεις της θετικής κλάσης, αναμένεται αντίστοιχα πως το 90% των θετικών προβλέψεων είναι σωστές αλλά ταυτόχρονα στο 90% ανέρχεται και το ποσοστό των ψευδώς θετικών προβλέψεων. Ο συγκεκριμένος ταξινομητής παριστάνεται με το σημείο (0.9, 0.9). Με βάση τις παραπάνω παρατηρήσεις γίνεται αντιληπτό πως ένας τυχαίος κατηγοριοποιητής παράγει ένα ROC σημείο που κινείται πάνω στη διαγώνιο y=x ανάλογα με τη συχνότητα που μαντεύει τη θετική κλάση και προκειμένου να ξεφύγει από αυτή θα πρέπει να εκμεταλλευτεί και άλλες πληροφορίες των δεδομένων [22]. Ο κατηγοριοποιητής που αντιστοιχεί στο σημείο C της παραπάνω εικόνας είναι σχεδόν τυχαίος. Γενικότερα, οι ταξινομητές που βρίσκονται κάτω από την διαγώνιο είναι χειρότεροι από αυτούς που βρίσκονται στο τρίγωνο που σχηματίζεται πάνω από την διαγώνιο, 66
ενώ στις πιο ιδανικές περιπτώσεις ο κατηγοριοποιητής αναπαρίσταται στην βορειοδυτική γωνία του τετραγώνου. Παρ όλα αυτά, ακόμη και στην περίπτωση που ο ταξινομητής είναι χειρότερος του τυχαίου, παίρνοντας την άρνηση του, δηλαδή αντιστρέφοντας τις αποφάσεις κατηγοριοποίησης για κάθε παρατήρηση, οι ορθές θετικές προβλέψεις γίνονται ψευδώς θετικές και οι ψευδώς θετικές γίνονται αληθώς θετικές. Με την τεχνική αυτή, ένας αρχικά ακατάλληλος κατηγοριοποιητής καταφέρνει να μεταφερθεί στο άνω τρίγωνο του ROC γραφήματος, υποδεικνύοντας πως σε κάποιες περιπτώσεις ακόμη και ταξινομητές που βρίσκονται κάνω από τη διαγώνιο μπορεί να περιέχουν μεγάλη ποσότητα πληροφορίας η οποία δεν έχει αξιοποιηθεί με τον κατάλληλο τρόπο. Παράδειγμα τέτοιου μοντέλου αποτελεί ο κατηγοριοποιητής B ο οποίος με αντιστροφή αποφάσεων μεταφέρεται στο σημείο Α [22]. Κάποιοι ταξινομητές είναι σχεδιασμένοι ώστε να παράγουν μία τιμή απόφασης Y ή N (Yes: το δεδομένο ταξινομείται στην θετική κλάση- No: το δεδομένο δεν ταξινομείται στην θετική κλάση ) επιστρέφοντας έναν μοναδικό πίνακα σύγχυσης που αντιστοιχεί σε ένα ROC σημείο. Υπάρχουν όμως και κατηγοριοποιητές (όπως ένα νευρωνικό δίκτυο) που έχουν σαν έξοδο ένα σκορ ή μία πιθανότητα για κάθε στοιχείο που αποτελεί μέρος μιας κλάσης. Οι τιμές αυτές μπορεί να είναι αυστηρά πιθανότητες αλλά μπορεί να αποτελούν απλά μία τιμή (score) ώστε όταν αυξάνεται να υποδεικνύει μεγαλύτερη πιθανότητα. Στους scorng κατηγοριοποιητές με την θεώρηση μία τιμής- κατώφλι (threshold) μπορεί να παραχθεί ένας διακριτός δυαδικός ταξινομητής, έτσι ώστε εάν η έξοδος του μοντέλου είναι μία τιμή μεγαλύτερη ή ίση από το κατώφλι, ο κατηγοριοποιητής παράγει τιμή Y, αλλιώς N. Για κάθε επιλογή της τιμής αυτής παράγεται ένα σημείο στον χώρο ROC. Θεωρητικά, κάθε ROC γράφημα που δημιουργείται από άπειρο σύνολο στοιχείων παράγει μία καμπύλη η οποία τείνει να προσεγγίσει την πραγματική καμπύλη όσο τα δεδομένα πλησιάζουν στο άπειρο. Μία ελκυστική ιδιότητα των ROC καμπυλών είναι ότι παρουσιάζουν «αναισθησία» ως προς το ποσοστό θετικών και αρνητικών στοιχείων που λαμβάνονται. Παράδειγμα Η εικόνα που ακολουθεί παρουσιάζει ένα παράδειγμα ενός ROC που αφορά ένα test set 20 στοιχείων από τα οποία τα 10 είναι της θετικής κλάσης και τα υπόλοιπα 10 της αρνητικής [22]. Στον πίνακα δίπλα από τον ROC χώρο περιγράφεται η κλάση και το αντίστοιχο σκορ του κάθε στοιχείου. Όταν η τιμή-κατώφλι πλησιάζει στο + το σημείο που παράγεται είναι το (0,0).Μειώνοντας την τιμή του σε 0.9 το πρώτο στοιχείο της θετικής κλάσης ταξινομείται ως θετικό και το ROC σημείο που προκύπτει είναι το (0,0.1). Μειώνοντας συνεχώς την τιμή του, τα παραγόμενα σημεία κατευθύνονται προς τα πάνω και δεξιά ενώ όταν το κατώφλι γίνει μικρότερο από 0.1 το ROC σημείο είναι το (1,1). 67
Εικόνα 22. Δεξιά: ο πίνακας στοιχείων που χρησιμοποιήθηκαν με την πραγματική τιμή κλάσης και το αντίστοιχο σκορ. Αριστερά: Το γράφημα δείχνει τη ROC καμπύλη και σε σημείο αναγράφεται το κατώφλι που το παράγει. 5.4 AUC-περιοχή κάτω από τη ROC καμπύλη H ROC καμπύλη αποτελεί μία δυσδιάστατη απεικόνιση για την απόδοση ενός κατηγοριοποιητή. Προκειμένου να γίνει η σύγκριση διάφορων ταξινομητών πιο εύχρηστη θεωρείται η μετατροπή της ROC απόδοσης σε μία μοναδική αριθμητική τιμή η οποία θα αντιπροσωπεύει την αναμενόμενη απόδοση. Mία μέθοδος ευρείας χρήσης είναι ο υπολογισμός του εμβαδού που περικλείεται κάτω από την ROC καμπύλη. Στην βιβλιογραφία το μέτρο αυτό αναφέρεται ως AUC (Area Under ROC Curve). Η τιμή AUC κυμαίνεται από 0 εώς 1 καθώς αποτελεί μέρος του μοναδιαίου τετραγώνου. Επειδή η τυχαία κατάταξη που προσδιορίζεται από τη διαγώνιο που ενώνει τα σημεία (0,0) και (1,1) αντιστοιχεί σε τιμή AUC ίση με 0.5, κάθε ρεαλιστικός κατηγοριοποιητής θα πρέπει να αντιστοιχεί σε AUC μεγαλύτερη αυτής.μία σημαντική στατιστική ιδιότητα του μέτρου AUC είναι ότι εκφράζει την πιθανότητα ο κατηγοριοποιητής να ταξινομεί ένα τυχαία επιλεγμένο θετικό στοιχείο υψηλότερα από ένα τυχαία επιλεγμένο αρνητικό στοιχείο. Να αναφερθεί επίσης πως η τιμή AUC ισοδυναμεί με το test βαθμίδων του Wlcoxon ενώ ταυτόχρονα είναι συνδεδεμένο με τον δείκτη Gn. Ο δείκτης Gn είναι διπλάσιος από το εμβαδόν που χωρίου που βρίσκεται μεταξύ της διαγωνίου και της ROC καμπύλης, δηλαδή Gn+1=2 x AUC.[28] Στη συνέχεια παρουσιάζεται ένα γράφημα που απεικονίζει τις ROC καμπύλες δύο ταξινομητών Α και Β και την περιοχή κάτω από αυτές. Είναι φανερό πως ο ταξινομητής Β έχει καλύτερη απόδοση λόγω της μεγαλύτερης έκτασής του. 68
Εικόνα 23. Περιοχή κάτω από δύο ROC καμπύλες των ταξινομητών Α και Β. Για οποιονδήποτε δυαδικό ταξινομητή, επειδή αντιστοιχεί σε ένα μοναδικό σημείο του ROC γραφήματος, η τιμή AUC υπολογίζεται ως το εμβαδόν που του χωρίου που βρίσκεται από την καμπύλη που ορίζεται από τα ευθύγραμμα τμήματα που συνδέουν το ROC σημείο με το (0,0) και (1,1). Εικόνα 24. Σύγκριση δυαδικού και scorng ταξινομητή με σταθερή τιμήκατώφλι Στην παραπάνω εικόνα ο δυαδικός ταξινομητής Α και ο scorng ταξινομητής Β.Για συγκεκριμένη τιμή-κατώφλι ο Α παρουσιάζουν την ίδια μέση απόδοση με τον Β, ενώ για τιμές μεγαλύτερες από αυτή ο Α φαίνεται να συμπεριφέρεται καλύτερα. Ο υπολογισμός της τιμής AUC είναι σχετικά εύκολος καθώς μπορούν να χρησιμοποιηθούν αλγόριθμοι όπως αυτός που αντί να συλλέγει ROC σηµεία, πραγματοποιεί διαδοχική πρόσθεση τραπεζοειδών στην Περιοχή. Για λεπτομέρειες σχετικά με τους αλγορίθμους αυτούς προτείνεται η αντίστοιχη βιβλιογραφία [22]. 69
Σε περιπτώσεις ταξινόμησης σε περισσότερες κλάσεις, αν και η πολυπλοκότητα των υπολογισμών αυξάνεται αρκετά είναι η δυνατή η γενίκευση του μέτρου AUC όπως έχει οριστεί και στη δυαδική περίπτωση [28].Η κατανόηση της διαδικασίας αυτής απαιτεί λεπτομερή περιγραφή και ξεφεύγει από το αντικείμενο της διπλωματικής εργασίας. 70
Κεφάλαιο 6-Εφαρμογές 6.1 Εισαγωγή Τα σύνολα δεδομένων που θα χρησιμοποιηθούν στις εφαρμογές για κατηγοριοποίηση με Μηχανές Διανυσμάτων Υποστήριξης (SVMs) προέρχονται από τον διαδικτυακό ιστότοπο Machne Learnng Repostory που περιέχει μεγάλο αριθμό βάσεων δεδομένων που είναι κατάλληλες για κατηγοριοποίηση, ομαδοποίηση, παλινδρόμηση και κάθε είδους ανάλυση ανάλογα με τη φύση των δεδομένων.[34] Οι αλγόριθμοι SVM εφαρμόστηκαν σε δύο βάσεις την ΙRIS Data Set και την Breast Cancer Wsconsn (Orgnal) Data Set (όπου από εδώ και στο εξής θα ονομάζονται βάση Α και Β αντίστοιχα). Ο κώδικας γράφτηκε σε MALAB (έκδοση R2015a). Τα κύρια αρχεία είναι τα rs.m και wsconsn.m τα οποία διαβάζουν τα αρχεία των δεδομένων και εφαρμόζουν τους SVM αλγορίθμους. Είναι επίσης ενδιαφέρον το γεγονός ότι για τη βάση Β θα εφαρμοστούν μέθοδοι δυαδικής κατηγοριοποίησης αφού το πλήθος των κλάσεων είναι 2, ενώ στη βάση Α θα εφαρμοστούν μέθοδοι κατηγοριοποίησης πολλαπλών κλάσεων. Οι βάσεις αυτές χρησιμοποιούνται σε μεθόδους αναγνώρισης προτύπων δηλαδή σε προβλήματα όπου δίνονται οι ιδιότητες των φυτών ή τα χαρακτηριστικά των καρκινικών όγκων και οι αντίστοιχες μέθοδοι εκτιμούν το είδος του φυτού ή το αν ο όγκος είναι καλοήθης ή κακοήθης αντίστοιχα για τις βάσεις Α και Β. 6.2 Εφαρμογή 1 Αρχικά, θα γίνει κατηγοριοποίηση στο Irs Data Set. Πρόκειται για ένα σύνολο που αποτελεί ένα από τα διασημότερα σύνολα δεδομένων για την αναγνώριση προτύπων. Απαρτίζεται από 150 εγγραφές οι οποίες αντιστοιχούν σε τρία είδη φυτών. Κάθε παρατήρηση χαρακτηρίζεται από 5 μεταβλητές, οι τέσσερις εκ των οποίων αφορούν τα μορφολογικά χαρακτηριστικά του φυτού ενώ η τελευταία είναι η μεταβλητή απόκρισης και προσδιορίζει την κλάση στην οποία ανήκει η παρατήρηση. Σε κάθε κατηγορία αντιστοιχούν 50 παρατηρήσεις που σημαίνει πως τα δεδομένα είναι ισόποσα κατανεμημένα στις τρεις κλάσεις (33.33%) και δεν υπάρχουν mssng values. ΠΕΡΙΓΡΑΦΗ ΜΕΤΑΒΛΗΤΩΝ ΣΥΝΟΛΟΥ ΔΕΔΟΜΕΝΩΝ 1 : μήκος σέπαλου (sepal length) 2 : πλάτος σέπαλου (sepal wdth) 3 : μήκος πέταλου (petal length) 4 : πλάτος πέταλου (petal wdth) 71
ΜΕΤΑΒΛΗΤΗ ΑΠΟΚΡΙΣΗΣ : κατηγορία φυτού Irs Setosa Irs Verscolor Irs Vrgnca Στόχος είναι η ταξινόμηση κάθε παρατήρησης στην κλάση από την οποία προέρχεται με τη χρήση SVMs. Αφού διαβαστεί το αρχείο δεδομένων, γίνεται ένα διάγραμμα διασποράς για να οπτικοποιήσουμε τα δεδομένα. σε 6 διδιάστατα γραφήματα απεικονίζοντας τα δείγματα για κάθε δυνατό ζεύγος ιδιοτήτων (όλοι οι συνδυασμοί 4 αντικειμένων ανά 2) Τα διαγράμματα διασποράς για τη βάση Α απεικονίζονται στο παρακάτω σχήμα: Σχήμα 1. Διαγράμματα διασποράς για τη βάση Α Το διάγραμμα διασποράς δίνει κάποιες πληροφορίες σχετικά με τα δεδομένα. Για παράδειγμα από το κάτω δεξιά διάγραμμα (μήκους-πλάτους πετάλου) μπορούμε να συμπεράνουμε ότι η κλάση rs-setosa μπορεί εύκολα να ξεχωριστεί από τις άλλες δύο απλά από το μήκος του πετάλου αφού για την rs-setosa αυτό είναι από 1 έως 1.9 εκατοστά ενώ για τις άλλες δύο (rs-verscolor και rs-vrnca) κυμαίνονται στα διαστήματα 3 έως 5.1 εκατοστά και 4.5 έως 6.9 εκατοστά αντίστοιχα. Από τα διαγράμματα διασποράς μπορούμε επίσης να συμπεράνουμε ότι οι δύο τελευταίες κλάσεις δεν μπορούν να διαχωριστούν συνεπώς η κατηγοριοποίηση δεν θα είναι σωστή για όλες τις παρατηρήσεις. Στη συνέχεια δημιουργήθηκαν τέσσερα είδη μοντέλων μηχανών διανυσμάτων υποστήριξης, γραμμικό, RBF, πολυωνυμικό και σιγμοειδές. Πιο συγκεκριμένα, 72
διατηρώντας σταθερή την τιμή της trade-off παραμέτρου, C=1, τα μοντέλα που χρησιμοποιήθηκαν είναι: Γραμμικό Γκαουσιανό (RBF) με γ=1 και γ=2 Πολυωνυμικό τάξης 3 και 2 Σιγμοειδές για α=1, 0.5 και 0.25 Αρχικά, χρησιμοποιήθηκε η μέθοδος one-aganst all όπου κάθε κλάση Κ διαχωρίζεται από τις υπόλοιπες Κ j, j, με έναν δυαδικό ταξινομητή θεωρώντας ότι έχουμε δύο κλάσεις την Κ και την ένωση των υπολοίπων Κ j, j. Στα επόμενα σχήματα παραθέτουμε τις κατηγοριοποιήσεις που προέκυψαν από την εφαρμογή των παραπάνω μοντέλων. Στα παρακάτω σχήματα δεν γίνεται διαχωρισμός σε δεδομένα εκπαίδευσης (tranng data) και δοκιμαστικά δεδομένα (test data). Οι κατηγοριοποιήσεις προέκυψαν από την εφαρμογή των μοντέλων σε όλα τα δεδομένα και αξιολογήθηκαν σε αυτά. Πειράματα με τη χρήση tranng και test δεδομένων θα παρουσιαστούν στην επόμενη ενότητα. Έτσι, στο σχήμα 2 απεικονίζεται η κατηγοριοποίηση μετά την εφαρμογή του γραμμικού μοντέλου. Στην one-aganst all έχουμε Κ ταξινομητές (όσο και το πλήθος των κλάσεων) τα αποτελέσματα των οποίων απεικονίζονται στα 3 γραφήματα. Έτσι στο παραπάνω γράφημα, βλέπουμε το αποτέλεσμα του διαχωρισμού της πρώτης κλάσης (rs-setosa) από τις άλλες δύο. Παρατηρούμε ότι και τα 150 δείγματα ταξινομήθηκαν σωστά χωρίς λάθη. Θα μπορούσαμε να αναμένουμε κάτι τέτοιο από τα διαγράμματα διασποράς του απεικονίζονται στο Σχήμα 1. Να σημειώσουμε επίσης ότι τα δεδομένα τα χωρίζουμε σε 4 κατηγορίες: true postve: είναι τα δεδομένα που ανήκουν στη κλάση που θέλουμε να διαχωρίσουμε τα οποία κατηγοριοποιήθηκαν σωστά true negatve: είναι τα δεδομένα που δεν ανήκουν στη κλάση που θέλουμε να διαχωρίσουμε τα οποία κατηγοριοποιήθηκαν σωστά false negatve: είναι τα δεδομένα που ανήκουν στη κλάση που θέλουμε να διαχωρίσουμε τα οποία κατηγοριοποιήθηκαν λανθασμένα false postve: είναι τα δεδομένα που ανήκουν στη κλάση που θέλουμε να διαχωρίσουμε τα οποία κατηγοριοποιήθηκαν λανθασμένα 73
Σχήμα 2. Κατηγοριοποίηση μετά την εφαρμογή του γραμμικού μοντέλου Το γραμμικό μοντέλο δεν διαχωρίζει επιτυχώς όλα τα δεδομένα της δεύτερης κλάσης από τις υπόλοιπες δύο εμφανίζοντας και των δυο ειδών λάθη (false postve/false negatve). Το ίδιο συμβαίνει και στη 3 η κλάση με μικρότερα όμως λάθη. Τα περισσότερα λάθη εμφανίστηκαν στον διαχωρισμό της δεύτερης κλάσης επειδή, όπως φαίνεται και από τα διαγράμματα διασποράς του απεικονίζονται στο Σχήμα 1, η 2 η κλάση εμφανίζεται να βρίσκεται ανάμεσα στις άλλες δύο οπότε είναι πιο δύσκολο να διαχωριστεί γραμμικά. Παρακάτω παρουσιάζονται οι κατηγοριοποιήσεις που προέκυψαν και για τα υπόλοιπα μοντέλα. 74
Σχήμα 3 Σχήμα 4 75
Σχήμα 5 Σχήμα 6 76
Σχήμα 7 Σχήμα 8 77
Σχήμα 9 Τα μέτρα αξιολόγησης που θα χρησιμοποιηθούν είναι η ακρίβεια (Precson P), η ανάκληση (Recall R) και το F-measure τα οποία δίνονται από τους εξής τύπους: P = P / (P + FP) R = P / (P + FN) Fmeasure = 2 RP / (R+P) H ακρίβεια μας δίνει το ποσοστό των επιτυχών προβλέψεων των δεδομένων της κλάσης ως προς το πλήθος των προβλέψεων. Η ανάκληση δίνει το ποσοστό των επιτυχών προβλέψεων των δεδομένων της κλάσης ως προς το πλήθος των δεδομένων της κλάσης. Τέλος, το Fmeasure συνδυάζει τα δύο παραπάνω σε ένα μέτρο αξιολόγησης. Στον παρακάτω πίνακα εμφανίζονται το πλήθος των P, N, FP, FN, το PRE, REC και Fmeasure ανά ταξινομητή αλλά και συνολικά ανά μέθοδο (τρεις τελευταίες στήλες). 78
Πίνακας 1 Παρατηρούμε ότι το καλύτερο Fmeasure εμφανίζεται στο Polynomal μοντέλο. 10-fold cross valdaton μέθοδος Στα παραπάνω αποτελέσματα έγινε εκπαίδευση και έλεγχος στα ίδια δεδομένα με συνέπεια τα πιθανά προβλήματα υπερπροσαρμογής των δεδομένων όπως αναλυτικά εξηγείται στην ενότητα 5.1. Γι αυτό το λόγο χρησιμοποιήθηκε η 10-fold cross valdaton μέθοδος η οποία έδωσε τα παρακάτω αποτελέσματα. Πρέπει να τονιστεί εδώ ότι, επειδή η διαδικασία 10-fold cross valdaton επιλέγει τυχαία υποσύνολα εκπαίδευσης και ελέγχου, επανάληψη του πειράματος θα επιτρέψει ελαφρώς διαφορετικά αποτελέσματα (λόγω της τυχαιότητας επιλογής των υποσυνόλων). Εδώ παρατηρούμε ότι το μικρότερο λάθος εμφανίζεται στο μοντέλο RBF2. Λάθος κατηγοριοποίησης Κλάση 1 Κλάση 2 Κλάση 3 Lnear 0 0.2800 0.0400 RBF 0 0.0400 0.0533 RBF2 0 0.0267 0.0400 Polynomal 0 0.0733 0.0600 Polynomal2 0 0.0400 0.0533 Sgmod1 0 0.2667 0.2667 Sgmod2 0.0067 0.1867 0.1733 Sgmod3 0 0.0533 0.0533 79
Πίνακας 2 Συνδυασμός των bnary classfers Στον παραπάνω πίνακα αξιολογούνται οι δυαδικοί ταξινομητές (bnary classfers). Στο πρόβλημά μας όμως υπάρχουν 3 κλάσεις οπότε πρέπει να συνδυαστούν τα αποτελέσματα του κάθε classfer ώστε να προκύπτει μία μοναδική πρόβλεψη. Έτσι, για κάθε είσοδο, υπολογίζουμε την απόστασή του από την υπερεπιφάνεια απόφασης και για τους 3 bnary classfers και επιλέγουμε την απόφαση του classfer, για τον οποίο η απόφαση μεγιστοποιείται. Για παράδειγμα, στο επάνω γράφημα του παρακάτω σχήματος απεικονίζεται η απόσταση και για τους τρεις classfers για τη γραμμική μέθοδο. Υπενθυμίζουμε ότι ο classfer ελέγχει αν το δείγμα ανήκει στη κλάση ή όχι. Θετική τιμή της απόστασης υποδηλώνει ότι ανήκει στη κλάση ενώ αρνητική ότι δεν ανήκει. Το κάτω γράφημα δείχνει τη κλάση με τη μεγαλύτερη τιμή της απόστασης. Σχήμα 10 80