Εξόρυξη Δεδομένων Κατηγοριοποίηση

Εξόρυξη Δεδομένων Κατηγοριοποίηση 1

2 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες Μηχανές Διανυσμάτων Υποστήριξης Αποτίμηση και Επιλογή Μοντέλου Τεχνικές βελτίωσης της ακρίβειας κατηγοριοποίησης Άλλα θέματα κατηγοριοποίησης Σύνοψη

Επιβλεπόμενη Μάθηση Επιβλεπόμενη Μάθηση(Κατηγοριοποίηση) Επίβλεψη: Τα δεδομένα εκπαίδευσης (παρατηρήσεις, μετρήσεις, κ.α.) συνοδεύονται από ετικέτες που δείχνουν την κλάση τους Τα νέα δεδομένα κατηγοριοποιούνται βάση του μοντέλου το οποίο δημιουργείται από τα δεδομένα εκπαίδευσης Δεδομένα εκπαίδευσης με ετικέτα κλάσης: 3 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no 31 40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no 31 40 low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes 31 40 medium no excellent yes 31 40 high yes fair yes >40 medium no excellent no Εγγραφές Εκπαίδευσης Εγγραφές Ελέγχου Μοντέλο Μάθησης Μοντέλο Πρόβλεψης Θετικό Αρνητικό

4 Μη- Επιβλεπόμενη Μάθηση Μη επιβλεπόμενη μάθηση (συσταδοποίηση) Οι ετικέτες κλάσης του συνόλου εκπαίδευσης είναι άγνωστες Δεδομένου ενός συνόλου μετρήσεων, παρατηρήσεων, κτλ., στόχος είναι η εύρεση κλάσεων ή συστάδων των δεδομένων

5 Κατηγοριοποίηση και Πρόβλεψη Κατηγοριοποίηση Προβλέπει κατηγορικές ετικέτες κλάσης Κατασκευάζει ένα μοντέλο χρησιμοποιώντας τα δεδομένα εκπαίδευσης και τις ετικέτες κλάσης του προς κατηγοριοποίηση χαρακτηριστικού και με βάση αυτά κατηγοριοποιεί τα νέα δεδομένα Αριθμητική Πρόβλεψη Μοντελοποιεί συνεχείς συναρτήσεις, π.χ. προβλέπει άγνωστες ή ελλιπείς τιμές Τυπικές Εφαρμογές Πιστοληπτική απόφαση Ιατρική διάγνωση Ανίχνευση απάτης: εάν μια συναλλαγή είναι δόλια Κατηγοριοποίηση διαδικτυακών σελίδων

6 Κατηγοριοποίηση Η κατηγοριοποίηση (classification) αφορά το γενικό πρόβλημα της ανάθεσης (τοποθέτησης) ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) με βάση τα χαρακτηριστικά του. Παραδείγματα: Πρόβλεψη αν τα υπό εξέταση κύτταρα εντάσσονται στην κατηγορία κακοήθη (καρκινικά) ή στην κατηγορία καλοήθη (μη καρκινικά). Κατηγοριοποίηση επιχειρήσεων σε βιώσιμες ή επικίνδυνες για χρεωκοπία Κατηγοριοποίηση εισερχόμενων emails σε spam ή όχι. Κατηγοριοποίηση ειδήσεων σε πολιτικές, αθλητικές, κοινωνικές, οικονομικές, κλπ

Κατηγοριοποίηση Δίδεται ένα σύνολο εγγραφών δεδομένων (σύνολο εκπαίδευσης - training set) Κάθε εγγραφή έχει ένα σύνολο από γνωρίσματα, ένα από αυτά είναι η κλάση (κατηγορία) στην οποία ανήκει η εγγραφή (δεδομένα με καθορισμένη κλάση) Η τιμή (ετικέτα) της κλάσης είναι διακριτή τιμή Εύρεση ενός μοντέλου για το γνώρισμα της κλάσης ως συνάρτηση της τιμής των άλλων γνωρισμάτων Στόχος: Το μοντέλο να μπορεί να αναθέτει σε εγγραφές, για τις οποίες δεν είναι γνωστή η κλάση στην οποία ανήκουν, μια κλάση με την μεγαλύτερη δυνατή ακρίβεια Κατάλληλη κυρίως για: Δυαδικές κατηγορίες ή κατηγορίες για τις οποίες δεν υπάρχει διάταξη Μη ιεραρχικές κατηγορίες Κατηγοριοποίηση: Μια διαδικασία σε δυο βήματα 7

8 10 10 Γενική Προσέγγιση Κατηγοριοποίησης Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Test Set Induction Deduction Learning algorithm Learn Model Apply Model Model

9 Κατασκευή Μοντέλου Το σύνολο δεδομένων εισόδου χωρίζεται σε: Σύνολο εκπαίδευσης (training set) Χρησιμοποιείται για την κατασκευή του μοντέλου Το γνώρισμα της κλάσης κάθε εγγραφής είναι γνωστό. Σύνολο ελέγχου (test set) Χρησιμοποιείται για την επικύρωση του μοντέλου Χαρακτηρίζει την ακρίβεια του μοντέλου Το σύνολο ελέγχου είναι ανεξάρτητο από το σύνολο εκπαίδευσης

10 Αξιολόγηση, Έλεγχος και Εφαρμογή του Μοντέλου Αξιολόγηση και Έλεγχος Μοντέλου (μέσω του συνόλου ελέγχου) Έλεγχος: Εκτίμηση της ακρίβειας του μοντέλου Η γνωστή κλάση του δείγματος ελέγχου συγκρίνεται με το αποτέλεσμα της κατηγοριοποίησης που προκύπτει από το μοντέλο Ακρίβεια (accuracy): το ποσοστό των δειγμάτων ελέγχου που κατηγοριοποιήθηκαν ορθά από το μοντέλο Το σύνολο ελέγχου πρέπει να είναι ανεξάρτητο από το σύνολο εκπαίδευσης για αποφυγή overfitting Εφαρμογή Μοντέλου: Αν η ακρίβεια είναι αποδεκτή, το μοντέλο μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση νέων δεδομένων

Προεπεξεργασία Δεδομένων 11 Ενοποίηση δεδομένων (Data integration) Ενοποίηση πολλαπλών βάσεων δεδομένων, κύβων δεδομένων ή αρχείων, απαλοιφή πλεονασμού Καθαρισμός δεδομένων Μείωση του θορύβου και διαχείριση των τιμών που λείπουν (πχ. τις αγνοούμε ή τις αντικαθιστούμε με ειδικές τιμές) απομάκρυνση των outliers, διόρθωση ασυνεπειών, απαλοιφή πλεονασμού Μείωση δεδομένων Μείωση διαστάσεων Ανάλυση συσχετίσεων (επιλογή χαρακτηριστικών) Απομάκρυνση των μη-σχετικών ή πλεοναζόντων χαρακτηριστικών Μείωση πληθικότητας, συμπίεση δεδομένων Μετασχηματισμός δεδομένων Γενίκευση ή/και κανονικοποίηση των δεδομένων Διακριτοποίηση δεδομένων - Αριθμητικά γνωρίσματα σε κατηγορικά {low, medium, high} Κανονικοποίηση αριθμητικών δεδομένων στο [0,1)

Τεχνικές Κατηγοριοποίησης Για την κατηγοριοποίηση, χρησιμοποιούνται τεχνικές όπως: Δέντρα Αποφάσεων (Decision Trees) Κανόνες (Rule-based Methods) Νευρωνικά Δίκτυα (Neural Networks) K-Πλησιέστερων Γειτόνων (k-nearest Neighbors, k-nn) Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) Bayesian Μέθοδοι Σε όλες τις τεχνικές κατηγοριοποίησης ενυπάρχει η ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης) Τα δεδομένα εκπαίδευσης αναλύονται από τον αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν το μοντέλο κατηγοριοποίησης Η κατηγορία (κλάση) των δειγμάτων εκπαίδευσης είναι γνωστή και για αυτό η κατηγοριοποίηση ανήκει στην κατηγορία της «εποπτευόμενης μάθησης» 12

14 Δένδρο Απόφασης

15 Δένδρο Αποφάσης Γνωρίσματα- κλάση Δέντρο Απόφασης Decision tree

16 Παράδειγμα Δένδρου Απόφασης

Αλγόριθμος για Επαγωγή Δένδρου Απόφασης Βασικός αλγόριθμος (ένας άπληστος αλγόριθμος) Το δέντρο κατασκευάζεται επαναληπτικά από πάνω προς τα κάτω με ένα τρόπο διαίρει και βασίλευε Στην αρχή, όλα τα παραδείγματα εκπαίδευσης βρίσκονται στη ρίζα Τα χαρακτηριστικά είναι κατηγορικά (εάν είναι συνεχή τότε διακριτοποιούνται από πριν) Τα παραδείγματα διαχωρίζονται επαναληπτικά με βάση επιλεγμένα χαρακτηριστικά Τα χαρακτηριστικά ελέγχου επιλέγονται επί τη βάσει ενός ευρετικού ή στατιστικού μέτρου (π.χ. κέρδος πληροφορίας) Συνθήκες τερματισμού διαχωρισμού Όλα τα δείγματα για ένα δεδομένο κόμβο ανήκουν στην ίδια ομάδα-κλάση Δεν υπάρχουν άλλα χαρακτηριστικά για περαιτέρω διαχωρισμό. Δεν υπάρχουν άλλα δείγματα 17

18 Αλγόριθμος για Επαγωγή Δένδρου Απόφασης Κατασκευή του δέντρου (συνοπτικά): 1. Ξεκινάμε με ένα κόμβο που περιέχει όλες τις εγγραφές 2. Διασπάμε τον κόμβο (μοίρασμα των εγγραφών) με βάση μια συνθήκη-διαχωρισμού ενός γνωρίσματος 3. Αναδρομική κλήση του βήματος 2 σε κάθε κόμβο (recursive partitioning algorithm) έως ότου οι εγγραφές ενός τελικού κόμβου (φύλλο-leaf) να ανήκουν σε μία μόνο κλάση 4. Αφού κατασκευαστεί το δέντρο, γίνονται κάποιες βελτιστοποιήσεις (π.χ. κλάδεμα δένδρου για αντιμετώπιση υπερπροσαρμογής Το βασικό θέμα είναι Ποιο γνώρισμα-συνθήκη διαχωρισμού θα χρησιμοποιήσουμε για τη διάσπαση των εγγραφών κάθε κόμβου

19 Δένδρο Απόφασης Πως αναπαρίσταται ένα δένδρο απόφασης; Κάθε εσωτερικός κόμβος ονοματίζεται με το όνομα ενός χαρακτηριστικού Κάθε κλαδί/σύνδεση ονοματίζεται με ένα κατηγόρημα που μπορεί να εφαρμοστεί στο χαρακτηριστικό που αποτελεί το όνομα του κόμβου - γονέα Κάθε φύλλο ονοματίζεται με το όνομα μιας κλάσης Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα

20 Δένδρο Απόφασης: Έννοιες Άπληστη (greedy) στρατηγική: Στόχος είναι να βρεθεί μια εφικτή λύση η οποία θα ελαχιστοποιεί ή θα μεγιστοποιεί μια δεδομένη αντικειμενική συνάρτηση. Ένας άπληστος αλγόριθμος κάνει την τοπικά βέλτιστη επιλογή με την ελπίδα ότι αυτή η επιλογή θα τον οδηγήσει στην ολικά βέλτιστη λύση. Διαίρει και βασίλευε (divide-and-conquer) προσέγγιση: Με τη τεχνική αυτή το πρόβλημα χωρίζεται σε μικρότερου μεγέθους υπο-προβλήματα με τέτοιο τρόπο ώστε από τις λύσεις των υπο-προβλημάτων να μπορεί να κατασκευασθεί η λύση του αρχικού προβλήματος.

21 Κατηγοριοποίηση: Κατασκευή Μοντέλου Δεδομένα Εκπαίδευσης Αλγόριθμος Κατηγοριοποίησης ΟΝΟΜΑ ΒΑΘΜΟΣ ΕΤΗ ΜΟΝΙΜΟΣ Mike Assistant Prof 3 no Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes Dave Assistant Prof 6 no Anne Associate Prof 3 no Κατηγοριοποιητής (Μοντέλο) IF ΒΑΘΜΟΣ = professor OR ΕΤΗ > 6 THEN ΜΟΝΙΜΟΣ = yes

Εφαρμογή Μοντέλου για Πρόβλεψη Κατηγοριοποιητής Δεδομένα Εκπαίδευσης Άγνωστα δεδομένα 22 ΟΝΟΜΑ ΒΑΘΜΟΣ ΕΤΗ ΜΟΝΙΜΟΣ Tom Assistant Prof 2 no Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes (Jeff, Professor, 4) ΜΟΝΙΜΟΣ;

23 Επαγωγή Δένδρου Απόφασης: Παράδειγμα Δημιουργία Δένδρου Απόφασης: Από πάνω προς τα κάτω, αναδρομική, διαίρει και βασίλευε διαδικασία no age? <=30 overcas 31..40 >40 student? yes Buy excellent credit rating? fair Not-buy Buy Not-buy Buy Δεδομένα εκπαίδευσης: Ποιος αγοράζει Η/Υ age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no 31 40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no 31 40 low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes 31 40 medium no excellent yes 31 40 high yes fair yes >40 medium no excellent no

24 10 Παράδειγμα Δένδρου Απόφασης ID Home Owner Marital Status Annual Income Defaulted Borrower Γνωρίσματα Διαχωρισμού 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Yes NO NO Home Owner Income No Single, Divorced MarSt < 80K > 80K YES Married NO Δεδομένα Εκπαίδευσης Μοντέλο: Δένδρο Απόφασης

25 10 Άλλο Ένα Παράδειγμα Δένδρου Απόφασης ID Home Owner Marital Status Annual Income 1 Yes Single 125K No 2 No Married 100K No Defaulted Borrower Married NO MarSt Yes Single, Divorced Home Owner No 3 No Single 70K No NO Income 4 Yes Married 120K No < 80K > 80K 5 No Divorced 95K Yes 6 No Married 60K No NO YES 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Μπορεί να υπάρχουν περισσότερα από ένα δένδρα απόφασης που ταιριάζουν στα δεδομένα!

26 10 Εφαρμογή Μοντέλου στα Δεδομένα Ελέγχου Start from the root of tree. Δεδομένα Ελέγχου Home Owner Marital Status Annual Income Defaulted Borrower Yes Home Owner No No Married 80K? NO Single, Divorced MarSt Married Income < 80K > 80K NO NO YES

27 10 Εφαρμογή Μοντέλου στα Δεδομένα Ελέγχου Δεδομένα Ελέγχου Home Owner Marital Status Annual Income Defaulted Borrower Yes Home Owner No No Married 80K? NO Single, Divorced MarSt Married Income < 80K > 80K NO NO YES

31 10 Εφαρμογή Μοντέλου στα Δεδομένα Ελέγχου Δεδομένα Ελέγχου Home Owner Marital Status Annual Income Defaulted Borrower Yes Home Owner No No Married 80K? NO Single, Divorced MarSt Married Εκχώρηση κλάσης No Income NO < 80K > 80K NO YES

Προβλήματα Σχεδιασμού Δένδρων Απόφασης Πώς πρέπει να χωριστούν τα δεδομένα εκπαίδευσης; Μέθοδος προσδιορισμού της συνθήκης ελέγχου ανάλογα με τους τύπους χαρακτηριστικών Μέτρο για την αξιολόγηση της καλής κατάστασης μιας συνθήκης ελέγχου Πώς πρέπει να σταματήσει η διαδικασία διαίρεσης; Διακοπή της διαίρεσης εάν όλες οι εγγραφές ανήκουν στην ίδια κλάση ή έχουν ίδιες τιμές χαρακτηριστικών Πρόωρος τερματισμός 32

Επαγωγή Δένδρου Απόφασης Ο αριθμός των πιθανών Δέντρων Απόφασης είναι εκθετικός. Πολλοί αλγόριθμοι για την επαγωγή του δέντρου απόφασης ακολουθούν μια άπληστη στρατηγική: για να κτίσουν το δέντρο απόφασης παίρνουν μια σειρά από τοπικά βέλτιστες αποφάσεις Αλγόριθμοι Αλγόριθμος του Hunt (από τους πρώτους) CART ID3, C4.5 SLIQ, SPRINT 33

34 10 Γενική Δομή Αλγορίθμου του Hunt Έστω D t το σύνολο των εγγραφών εκπαίδευσης στον κόμβο t Γενική Διαδικασία: Αν το D t περιλαμβάνει εγγραφές που ανήκουν στην ίδια κλάση y t, τότε η t είναι ένας κόμβος-φύλλο που σηματοδοτείτε ως y t Αν το D t περιλαμβάνει εγγραφές που ανήκουν σε περισσότερες από μια κλάσεις, χρησιμοποίησε ένα έλεγχο γνωρισμάτων ώστε να χωρίσεις τα δεδομένα σε μικρότερα υποσύνολα. Αναδρομικά εφάρμοσε τη διαδικασία σε κάθε υποσύνολο. ID Home Owner Marital Status? Annual Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes D t Defaulted Borrower

35 10 Αλγόριθμος του Hunt Defaulted = No Yes Defaulted = No (3,0) Single, Divorced (7,3) (a) Home Owner Defaulted = Yes (c) No Marital Status Married Defaulted = No (1,3) (3,0) Yes Defaulted = No Yes Defaulted = No Home Owner (b) Home Owner Single, Divorced Annual Income (d) No Defaulted = No (3,0) (4,3) (3,0) No Marital Status < 80K >= 80K Defaulted = No Defaulted = Yes (1,0) (0,3) Married Defaulted = No (3,0) ID Home Owner Marital Status Annual Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Defaulted Borrower

Μέθοδοι Έκφρασης Συνθηκών Ελέγχου Εξαρτάται από τον τύπο των γνωρισμάτων Δυαδικά (Binary) Ονομαστικά (Nominal) Διάταξης (Ordinal) Συνεχή (Continuous) Εξαρτάται από τον αριθμό των τρόπων διαίρεσης Δυαδική διαίρεση Πολλαπλή διαίρεση 36

37 Συνθήκες Ελέγχου για Ονομαστικά Γνωρίσματα Πολλαπλή διαίρεση (Multi-way split): Χρήση τόσων διαιρέσεων όσες οι διακριτές τιμές. Marital Status Δυαδική διαίρεση (Binary split): Διαίρεση τιμών σε δύο υποσύνολα Single Divorced Married Marital Status Marital Status Marital Status OR OR {Married} {Single, Divorced} {Single} {Married, Divorced} {Single, Married} {Divorced}

Συνθήκες Ελέγχου για Γνωρίσματα Διάταξης Πολλαπλή διαίρεση (Multi-way split): Shirt Size Χρήση τόσων διαιρέσεων όσες οι διακριτές τιμές. Δυαδική διαίρεση (Binary split): Διαίρεση τιμών σε δύο υποσύνολα Small Medium Large Extra Large Διατήρηση της διάταξης στις τιμές των γνωρισμάτων Shirt Size Shirt Size {Small, Medium} {Large, Extra Large} {Small} {Medium, Large, Extra Large} Shirt Size Αυτή η ομαδοποίηση παραβιάζει τη διάταξη 38 {Small, Large} {Medium, Extra Large}

39 Συνθήκες Ελέγχου για Συνεχή Γνωρίσματα Annual Income > 80K? Annual Income? < 10K > 80K Yes No [10K,25K) [25K,50K) [50K,80K) (i) Binary split (ii) Multi-way split

Διαχωρισμός Βασισμένος σε Συνεχή Χαρακτηριστικά Διακριτοποίηση (Discretization) για να σχηματίσουν ένα κατηγορικό γνώρισμα διάταξης Οι κλίμακες μπορούν να βρεθούν με bucketing ίσων διαστημάτων, bucketing ίσων συχνοτήτων (εκατοστημόρια) ή ομαδοποίηση Στατική διακριτοποίηση μια φορά στην αρχή Δυναμική επανάληψη σε κάθε κόμβο Δυαδική Απόφαση (Binary Decision): (A < v) or (A v) εξέταση όλων των πιθανών διαχωρισμών και εύρεση του καλύτερου Απαιτεί περισσότερους υπολογισμούς 40

41 Πως Προσδιορίζεται ο Καλύτερος Διαχωρισμός Πριν τον Διαχωρισμό: 10 εγγραφές της κλάσης 0, 10 εγγραφές της κλάσης 1 Gender Car Type Customer ID Yes No Family Luxury c 1 c 10 c 20 Sports c 11 C0: 6 C1: 4 C0: 4 C1: 6 C0: 1 C1: 3 C0: 8 C1: 0 C0: 1 C1: 7 C0: 1 C1: 0... C0: 1 C1: 0 C0: 0 C1: 1... C0: 0 C1: 1 Ποιος έλεγχος είναι ο καλύτερος;

Πως Προσδιορίζεται ο Καλύτερος Διαχωρισμός Άπληστη προσέγγιση: Κόμβοι με καθαρότερη (purer) κατανομή κλάσεων είναι προτιμητέοι Χρειάζεται ένα μέτρο για τη μη-καθαρότητα (impurity) του κόμβου: C0: 5 C1: 5 C0: 9 C1: 1 Υψηλός Βαθμός μη-καθαρότητας Χαμηλός Βαθμός μη-καθαρότητας 42

43 Μέτρα Μη-Καθαρότητας Κόμβου Δείκτης Gini GINI ( t) = 1 j [ p( j t)] 2 Εντροπία (Entropy) Entropy ( t) = p( j t)log p( j t) j Σφάλμα μη-ορθής κατηγοριοποίησης Error( t) = 1 max P( i t) i

44 Εύρεση του Καλύτερου Διαχωρισμού 1. Υπολογισμός του μέτρου μη-καθαρότητας (P) πριν τον διαχωρισμό 2. Υπολογισμός του μέτρου μη-καθαρότητας (M) μετά τον διαχωρισμό 1. Υπολογισμός του μέτρου μη-καθαρότητας για κάθε κόμβο-απογόνων 2. M η σταθμισμένη μη-καθαρότητα των απογόνων 3. Επιλογή του γνωρίσματος που παράγει το υψηλότερο κέρδος Gain = P M ή ισοδύναμα, το χαμηλότερο μέτρο μη-καθαρότητας μετά τη διαίρεση (M)

Εύρεση του Καλύτερου Διαχωρισμού Πριν τον Διαχωρισμό: C0 C1 N00 N01 P A? B? Yes No Yes No Node N1 Node N2 Node N3 Node N4 C0 N10 C0 N20 C0 N30 C0 N40 C1 N11 C1 N21 C1 N31 C1 N41 M11 M12 M21 M22 M1 Gain = P M1 vs P M2 M2 45

46 Από την Εντροπία στο Κέρδος Πληροφορίας Εντροπία (Entropy) Μέτρο αβεβαιότητας συσχετισμένο με ένα τυχαίο αριθμό Υπολογισμός: Για διακριτή τυχαία μεταβλητή Y με m τιμές {y 1, y 2,, y m } Ερμηνεία Υψηλή Εντροπία Υψηλή αβεβαιότητα Χαμηλή Εντροπία Χαμηλή αβεβαιότητα

47 Κέρδος Πληροφορίας: Μέτρο Επιλογής Γνωρισμάτων Επιλογή του χαρακτηριστικού με το υψηλότερο κέρδος πληροφορίας (χρησιμοποιείται στον τυπικό αλγόριθμο επαγωγής δέντρων απόφασης: ID3 / C4.5) Έστω p i η πιθανότητα μια τυχαία εγγραφή στο D να ανήκει στην κλάση C i, εκτιμάται από C i, D / D Αναμενόμενη πληροφορία (εντροπία) που χρειάζεται για την ταξινόμηση της εγγραφής στο D: Info( D) = p i log2( p m i= 1 Πληροφορία που χρειάζεται (μετά τη χρήση του A για τη διαμέριση του D σε v τμήματα) για την ταξινόμηση του D: Info A v Dj ( D) = Info( D D j= 1 i ) j ) Κέρδος Πληροφορίας από τη διαμέριση βάσει του γνωρίσματος A Gain(A) = Info(D) Info A (D)

Επιλογή Γνωρίσματος με το Κέρδος Πληροφορίας 48 Κλάση P: buys_computer = yes Κλάση N: buys_computer = no 9 9 5 5 Info D) = I(9,5) = log ( ) log ( ) 14 14 14 14 age p i n i I(p i, n i ) <=30 2 3 0.971 31 40 4 0 0 >40 3 2 0.971 ( 2 2 = 0.940 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no 31 40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no 31 40 low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes 31 40 medium no excellent yes 31 40 high yes fair yes >40 medium no excellent no 5 I 14 (2,3) Info age ( D) = σημαίνει age <=30 έχει 5 από τις 14 εγγραφές, με 2 yes και 3 no. Οπότε + 5 14 5 14 I(2,3) + I(3,2) = 4 14 0.694 I(4,0) Gain( age) = Info( D) Info ( D) = 0.246 age Παρόμοια, Gain( income) = 0.029 Gain( student) = 0.151 Gain( credit _ rating ) = 0.048

49 Δείκτης Gini Για ένα σύνολο δεδομένων T, που περιέχει παραδείγματα από n κλάσεις, ο δείκτης gini, gini(t), ορίζεται ως n gini( T) = 1 p 2 j j= 1 όπου p j είναι η σχετική συχνότητα της κλάσης j στο T. Για ένα σύνολο δεδομένων T, που αποτελείται από δύο υποσύνολα T 1 και T 2 με μέγεθος N 1 και N 2 αντίστοιχα, ο δείκτης gini των διαχωρισμένων δεδομένων ορίζεται ως ( ) N1 ( ) N 2 gini split T = gini T1 + gini( T 2) N N Το γνώρισμα που παρέχει το ελάχιστο gini split (T) επιλέγεται για τον διαχωρισμό του κόμβου (απαιτείται η απαρίθμηση όλων των πιθανών σημείων διαχωρισμού για κάθε γνώρισμα)

50 Υπολογισμός Δείκτη Gini Παράδειγμα: D έχει 9 εγγραφές για buys_computer = yes και 5 για no Ας υποθέσουμε ότι γνώρισμα income διαιρεί το D σε 10 στο D 1 : {low, medium} και 4 στο D 2 gini income low,medium D = 10 = 10 14 1 7 10 2 3 10 2 14 gini D 1 + 4 14 gini D 2 + 4 14 1 2 4 2 2 4 Gini {low,high} είναι 0.458; Gini {medium,high} είναι 0.450 gini( D) = 1 9 14 2 5 14 2 = 0.459 2 = 0.443 = Gini income high D Έτσι, επιλέγεται η διαίρεση στο {low,medium} (και {high}) αφού έχει τον χαμηλότερο δείκτη Gini

51 Αναλογία Κέρδους: Βελτιωμένο Μέτρο Επιλογής Γνωρισμάτων Το κέρδος πληροφορίας είναι μεροληπτικό για χαρακτηριστικά με μεγάλο αριθμό τιμών Αναλογία κέρδους (Gain ratio): Ξεπερνά το πρόβλημα (ως κανονικοποίηση του κέρδους πληροφορίας) GainRatio(A) = Gain(A)/SplitInfo(A) Το γνώρισμα με το μεγαλύτερο λόγο κέρδους επιλέγεται ως το γνώρισμα διαίρεσης Η αναλογία κέρδους χρησιμοποιείται στο δημοφιλή αλγόριθμο C4.5 (διάδοχο του ID3) Παράδειγμα SplitInfo SplitInfo income D = 4 14 log 2 4 14 6 14 log 2 GainRatio(income) = 0.029/1.557 = 0.019 A v Dj ( D) = log2 D 6 14 4 14 log 2 D ( j j= 1 D ) 4 14 = 1.557

52 Σύγκριση Μέτρων Επιλογής Γνωρισμάτων Τα τρία μέτρα, γενικά, επιστρέφουν καλά αποτελέσματα αλλά Κέρδος Πληροφορίας (Information gain): μεροληπτική προς γνωρίσματα με πολλές τιμές Αναλογία Κέρδους (Gain ratio): τείνει να προτιμά τις μη ισορροπημένες διαιρέσεις στις οποίες μια υποδιαίρεση είναι πολύ μικρότερη από τις άλλες Δείκτης Gini: μεροληπτικός προς γνωρίσματα με πολλές τιμές έχει δυσκολία όταν # κλάσεων είναι μεγάλος τείνει να ευνοεί ελέγχους που οδηγούν σε διαιρέσεις ίσου μεγέθους και καθαρότητα και στις δύο υποδιαίρεσεις

53 Εκτίμηση του Λάθους Αφού κατασκευαστεί ένα μοντέλο, θα θέλαμε να αξιολογήσουμε/εκτιμήσουμε την ποιότητα του/την ακρίβεια της κατηγοριοποίησης που πετυχαίνει Ως λάθος (σφάλμα) μετράμε τις εγγραφές που το μοντέλο τοποθετεί σε λάθος κλάση Έχουμε δύο είδη σφαλμάτων Εκπαίδευσης (training): Είναι τα λάθη κατηγοριοποίησης στα δεδομένα του συνόλου εκπαίδευσης (ποσοστό δεδομένων εκπαίδευσης που κατηγοριοποιούνται σε λάθος κλάση). Γενίκευσης (generalization): Είναι τα αναμενόμενα λάθη κατηγοριοποίησης του μοντέλου σε άγνωστα δεδομένα.

54 Υπερπροσαρμογή Το φαινόμενο της υπερπροσαρμογής (overfitting) αποδίδεται στο υπερβολικό ταίριασμα του μοντέλου με τα δεδομένα εκπαίδευσης. Μπορεί ένα μοντέλο που ταιριάζει πολύ καλά με τα δεδομένα εκπαίδευσης να έχει μεγαλύτερο λάθος γενίκευσης από ένα μοντέλο που ταιριάζει λιγότερο καλά στα δεδομένα εκπαίδευσης. Η υπερπροσαρμογή έχει ως αποτέλεσμα μοντέλα (δέντρα απόφασης) που είναι πιο περίπλοκα από όσο χρειάζεται. Τα λάθη εκπαίδευσης δεν αποτελούν πια μια καλή εκτίμηση για τη συμπεριφορά του δέντρου σε άγνωστα δεδομένα. Νέοι μέθοδοι για την εκτίμηση του λάθους.

55 Υπερπροσαρμογή

Υπερπροσαρμογή και Κλάδεμα Δέντρων Υπερπροσαρμογή Πάρα πολλά κλαδιά (δέντρου), μερικά μπορεί να αντιστοιχούν σε ανωμαλίες που οφείλονται σε θόρυβο ή σε ακραίες τιμές Χαμηλή ακρίβεια για άγνωστα παραδείγματα Δύο προσεγγίσεις για αποφυγή της υπερπροσαρμογής Προ-κλάδεμα (pre-pruning): Διακοπή της κατασκευής του δέντρου νωρίς. Δεν διαχωρίζει ένα κόμβο, αν αυτό έχει ως αποτέλεσμα το μέτρο προσαρμογής να βρίσκεται κάτω από ένα κατώφλι Δυσκολία να επιλέξουμε το κατάλληλο κατώφλι Μετα-κλάδεμα (post-pruning): Διαγραφή κλαδιών από ένα πλήρως αναπτυγμένο δέντρο. Δίνει μια σειρά από σταδιακά κλαδευόμενα δέντρα Χρησιμοποιείται ένα σύνολο δεδομένων διαφορετικών από τα δεδομένα εκπαίδευσης ώστε να αποφασιστεί ποιο είναι το «καλύτερα κλαδεμένο δέντρο» 56

57 Προ-κλάδεμα (Κανόνας Έγκαιρης Διακοπής) Ο αλγόριθμος σταματά πριν σχηματιστεί ένα πλήρες δέντρο, μέσω της μη επέκτασης ενός κόμβου στις ακόλουθες περιπτώσεις (συνθήκες τερματισμού): Όταν όλες οι εγγραφές ανήκουν στην ίδια κλάση Όταν όλες οι τιμές των γνωρισμάτων είναι οι ίδιες Περιοριστικές συνθήκες: Διακοπή όταν ο αριθμός των εγγραφών είναι μικρότερος από κάποιο προκαθορισμένο κατώφλι Διακοπή όταν η επέκταση ενός κόμβου δεν βελτιώνει την καθαρότητα (π.χ., Gini ή information gain) ή το λάθος γενίκευσης είναι μεγαλύτερο από κάποιο κατώφλι. Γρήγορος τερματισμός μια και ο αλγόριθμος σταματά πριν σχηματιστεί ένα πλήρες δέντρο.

Μετα-κλάδεμα (Post-pruning) Tο δέντρο αναπτύσσεται πλήρως Οι κόμβοι ψαλιδίζονται (trim) από πάνω προς τα κάτω (bottom-up) Αν το σφάλμα γενίκευσης μειώνεται με το ψαλίδισμα, τότε γίνεται αντικατάσταση του υπο-δέντρου με: ένα φύλλο - οι ετικέτες κλάσεις του φύλλου καθορίζονται από την πλειοψηφία των κλάσεων των εγγραφών του υπο-δέντρου (subtree replacement) ένα από τα κλαδιά του (branch), αυτό που χρησιμοποιείται συχνότερα (subtree raising) 58

Πλεονεκτήματα Δένδρων Αποφάσεων 59 Μη παραμετρική προσέγγιση: Δε στηρίζεται σε υπόθεση εκ των προτέρων γνώσης σχετικά με τον τύπο της κατανομής πιθανότητας που ικανοποιεί η κλάση ή τα άλλα γνωρίσματα Εύκολη κατανόηση, ερμηνεία και γραφική απεικόνιση των κανόνων (ιδιαίτερα τα μικρά δέντρα) Μπορούν να αναλυθούν τόσο μεταβλητές λόγου όσο και ονομαστικές Εξαιρετικά γρήγορη ταξινόμηση άγνωστων εγγραφών Εξαιρετικά ανθεκτικός στο θόρυβο (ειδικά όταν χρησιμοποιούνται μέθοδοι αποφυγής υπερπροσαρμογής) Μπορεί εύκολα να χειριστεί περιττά ή άσχετα γνωρίσματα (εκτός αν τα γνωρίσματα αλληλεπιδρούν) Είναι φτηνή (inexpensive) η κατασκευή του. Αποδοτική κατασκευή ακόμα και στην περίπτωση πολύ μεγάλου συνόλου δεδομένων Η ακρίβεια τους συγκρίσιμη με άλλες τεχνικές για μικρά σύνολα δεδομένων

60 Μειονεκτήματα Δένδρων Αποφάσεων Περιορίζονται σε μία μεταβλητή στόχο η οποία πρέπει να είναι ονομαστική Δέντρα αποφάσεων στηριζόμενα σε αριθμητικά δεδομένα (μεταβλητές λόγου) μπορεί να είναι ιδιαιτέρως πολύπλοκα. Ο χώρος των πιθανών δέντρων αποφάσεων είναι εκθετικά μεγάλος. Οι άπληστες προσεγγίσεις είναι συχνά ανίκανες να βρουν το καλύτερο δέντρο. Πραγματοποιούν διαίρεση του χώρου των δεδομένων σε υποσύνολα μόνο με «ευθείες γραμμές» για το εύρος τιμών ενός γνωρίσματος (απλά όρια απόφασης) Εμφανίζουν το πρόβλημα της υπερπροσαρμογής (overfitting) Για δεδομένα που περιλαμβάνουν κατηγορικές μεταβλητές με διαφορετικό αριθμό επιπέδων, το κέρδος πληροφοριας (information gain) στα δέντρα αποφάσεων είναι προκατειλημμένο υπέρ των χαρακτηριστικών με περισσότερα επίπεδα Δεν λαμβάνει υπόψη τις αλληλεπιδράσεις μεταξύ χαρακτηριστικών

62 Μπεϋζιανή Κατηγοριοποίηση Στατιστικός κατηγοριοποιητής Πραγματοποιεί πιθανοτική πρόβλεψη (δηλ. προβλέπει τις πιθανότητες συμμετοχής στην κλάση) Βασισμένος στο Θεώρημα του Bayes Επίδοση Ένας απλός Bayesian κατηγοριοποιητής, ο αφελής κατηγοριοποιητής Bayes, έχει συγκρίσιμη απόδοση με άλλες μεθόδους Μεταξύ των πλέον πρακτικών μεθόδων για συγκεκριμένους τύπους προβλημάτων μάθησης Σταδιακή λειτουργία Κάθε παράδειγμα εκπαίδευσης μπορεί σταδιακά να αυξήσει / μειώσει την πιθανότητα ότι μια υπόθεση είναι σωστή Η προηγούμενη γνώση μπορεί να συνδυαστεί με τα παρατηρούμενα δεδομένα Θεωρητικό πρότυπο Ακόμα και όταν οι Μπεϋζιανές μέθοδοι είναι υπολογιστικά απαιτητικές, μπορούν να παράσχουν ένα σταθερό επίπεδο βέλτιστης λήψης αποφάσεων συγκρίσιμο με άλλες μεθόδους

63 Θεώρημα Bayes (Μπεϋζιανό Θεώρημα) Δεδομένου ενός σύνολο εκπαίδευσης D, η δεσμευμένη πιθανότητα (ή εκ των υστέρων πιθανότητα) της υπόθεσης Η, P(Η D) ακολουθεί το θεώρημα του Bayes: Υπόθεση H: Π.χ. Η εγγραφή εκπαίδευσης να ανήκει σε μια κλάση C P(Η D): Η πιθανότητα η εγγραφή εκπαίδευσης D να ανήκει σε μια κλάση C, όταν γνωρίζουμε τις πιθανότητες των χαρακτηριστικών τις εγγραφής D P Η : η σχετική συχνότητα των δειγμάτων της κλάσης C Μεγιστοποίηση της πιθανότητας P(D Η) Η P(D) είναι σταθερή για κάθε κλάση Άρα μεγιστοποίηση της P(D Η)P(Η) Πρακτικές δυσκολίες Απαιτείται αρχική γνώση πολλών πιθανοτήτων, οι οποίες μπορεί να μην είναι διαθέσιμες Σημαντικό υπολογιστικό κόστος P(Η D) = P(D Η)P(Η) P(D)

Αφελής Κατηγοριοποιητής Bayes: Αφελής Υπόθεση Απλοποιημένη υπόθεση τα χαρακτηριστικά είναι υπό-συνθήκη ανεξάρτητα p C i X = ς k p x k C i ) = p x 1 C i ) p x 2 C i ) p x n C i ) όπου X είναι απλά δείγματα, x k είναι η τιμή του χαρακτηριστικού k στο δείγμα και C i είναι η i-οστή κλάση Απλοποιεί το μοντέλο και μειώνει σημαντικά το υπολογιστικό κόστος, υπολογίζοντας μόνο την κατανομή κλάσης, όσον αφορά τα χαρακτηριστικά και καθιστώντας τον υπολογισμό δυνατό Συγκρίσιμη απόδοση και βέλτιστοι κατηγοριοποιητές όταν ικανοποιείται σπάνια ικανοποιείται στην πράξη, καθώς τα χαρακτηριστικά συχνά συσχετίζονται 64

65 Αφελής Κατηγοριοποιητής Bayes Κατηγορικά χαρακτηριστικά Αν το χαρακτηριστικό x k είναι κατηγορικό, p(x k = v k C i ) είναι ο αριθμός των εγγραφών στην κλάση C i με x k = v k, δια του C i, D (ο αριθμός των εγγραφών της κλάσης C i στο D) p X C i = ς k p x k C i ) = p x 1 C i ) p x 2 C i ) p x n C i ) Συνεχή χαρακτηριστικά Αν το χαρακτηριστικό x k είναι συνεχές, p(x k = v k C i ) συνήθως υπολογίζεται βάσει της κατανομής Gauss με μέσο όρο μ και τυπική απόκλιση σ p x k = v k C i = N x k μ Ci, σ Ci = 1 2πσ Ci e x μ Ci 2 2σ 2

Play-tennis παράδειγμα: Υπολογισμός P(x i C) 66 Outlook Temperature Humidity Windy Class sunny hot high false N sunny hot high true N overcast hot high false P rain mild high false P rain cool normal false P rain cool normal true N overcast cool normal true P sunny mild high false N sunny cool normal false P rain mild normal false P sunny mild normal true P overcast mild high true P overcast hot normal false P rain mild high true N P(p) = 9/14 P(n) = 5/14 Ένα άγνωστο δείγμα X = <rain, hot, high, false> P(X p) P(p) = P(rain p) P(hot p) P(high p) P(false p) P(p) = 3/9 2/9 3/9 6/9 9/14 = 0.010582 P(X n) P(n) = P(rain n) P(hot n) P(high n) P(false n) P(n) = 2/5 2/5 4/5 2/5 5/14 = 0.018286 Το X κατηγοριοποιείται στην κλάση n (don t play) outlook P(sunny p) = 2/9 P(sunny n) = 3/5 P(overcast p) = 4/9 P(overcast n) = 0 P(rain p) = 3/9 P(rain n) = 2/5 temperature P(hot p) = 2/9 P(hot n) = 2/5 P(mild p) = 4/9 P(mild n) = 2/5 P(cool p) = 3/9 P(cool n) = 1/5 humidity P(high p) = 3/9 P(high n) = 4/5 P(normal p) = 6/9 P(normal n) = 1/5 windy P(true p) = 3/9 P(true n) = 3/5 P(false p) = 6/9 P(false n) = 2/5

Αφελής Κατηγοριοποιητής Bayes: Παράδειγμα 67 P(C i ): P(buys_computer = yes ) = 9/14 = 0.643 P(buys_computer = no ) = 5/14= 0.357 Υπολογισμός P(X C i ) για κάθε κλάση P(age = <=30 buys_computer = yes ) = 2/9 = 0.222 P(age = <= 30 buys_computer = no ) = 3/5 = 0.6 P(income = medium buys_computer = yes ) = 4/9 = 0.444 P(income = medium buys_computer = no ) = 2/5 = 0.4 P(student = yes buys_computer = yes) = 6/9 = 0.667 P(student = yes buys_computer = no ) = 1/5 = 0.2 P(credit_rating = fair buys_computer = yes ) = 6/9 = 0.667 P(credit_rating = fair buys_computer = no ) = 2/5 = 0.4 X = (age <= 30, income = medium, student = yes, credit_rating = fair) P(X C i ) : P(X buys_computer = yes ) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044 P(X buys_computer = no ) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 P(X C i )*P(C i ) : P(X buys_computer = yes ) * P(buys_computer = yes ) = 0.028 P(X buys_computer = no ) * P(buys_computer = no ) = 0.007 Οπότε, το X ανήκει στην κλάση ( buys_computer = yes ) age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no 31 40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no 31 40 low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes 31 40 medium no excellent yes 31 40 high yes fair yes >40 medium no excellent no

Αφελής Κατηγοριοποιητής Bayes: Πλεονεκτήματα - Μειονεκτήματα Πλεονεκτήματα Εύκολη υλοποίηση Δίνει καλά αποτελέσματα στις περισσότερες περιπτώσεις Μειονεκτήματα Υπόθεση: ανεξαρτησία των γνωρισμάτων, συνεπώς απώλεια ακρίβειας Πρακτικά υπάρχουν εξαρτήσεις μεταξύ των μεταβλητών Π.χ., Ασθενείς: Προφίλ: ηλικία, οικογενειακό ιστορικό, κλπ. Συμπτώματα: πυρετός, βήχας, κλπ. Ασθένεια: καρκίνος του πνεύμονα, διαβήτης, κλπ. Οι εξαρτήσεις μεταξύ αυτών δεν μπορούν να μοντελοποιηθούν Απαιτεί κάθε υπο-συνθήκη πιθανότητα να είναι μη-μηδενική, διαφορετικά η πιθανότητα πρόβλεψης θα είναι μηδέν p X C i = ς k p x k C i ) = p x 1 C i ) p x 2 C i ) p x n C i ) 68

70 Αλγόριθμος των k-πλησιέστερων Γειτόνων (k-νν) Η τεχνική των κοντινότερων γειτόνων (Nearest Neighbor (NN)) είναι μια απλή προσέγγιση του προβλήματος της κατηγοριοποίησης. Μια νέα εγγραφεί κατηγοριοποιείται στην κλάση στην οποία ανήκει η πλειοψηφία των k εγγραφών που βρίσκονται πιο κοντά του (κανόνας k-nn) Ο αριθμός k πρέπει να είναι: μεγάλος ώστε να ελαχιστοποιηθεί η πιθανότητα λανθασμένης κατηγοριοποίησης μικρό (σε σχέση με τον αριθμό των δειγμάτων) έτσι ώστε τα σημεία να είναι αρκετά κοντά στην άγνωστη εγγραφή για να δώσουν μια ακριβή εκτίμηση της πραγματικής κατηγορίας Παράδειγμα με k=3

Αλγόριθμος των k-πλησιέστερων Γειτόνων Για την κατηγοριοποίηση ενός νέου στοιχείου x, Μεταξύ των n διανυσμάτων εκπαίδευσης, προσδιορίζουμε τους k πλησιέστερους γείτονες του, ανεξάρτητα από την κλάση στην οποία ανήκουν συνήθως όταν έχουμε δύο κλάσεις το k επιλέγεται να είναι περιττός αριθμός Προσδιορίζουμε πόσα από δείγματα (έστω k i ) ανήκουν στην κλάση i, Ταξινομούμε το x στην κλάση με το μεγαλύτερο πλήθος k i δειγμάτων Για την εφαρμογή του αλγορίθμου, χρειάζεται εκ των προτέρων να γνωρίζουμε τη τιμή του k τη μετρική απόστασης 71

72 Χαρακτηριστικά του αλγορίθμου k-nn Ο αλγόριθμος k-nn για συνεχείς συναρτήσεις στόχου Υπολογίζει τις μέσες τιμές των k πλησιέστερων γειτόνων Σταθμισμένη απόσταση για τον πλησιέστερο γείτονα: παραλλαγή αλγορίθμου Σταθμίζει την συνεισφορά καθενός από τους k γείτονες ανάλογα με την απόσταση τους από το σημείο-ερώτημα x q w 1 Αναθέτει μεγαλύτερο βάρος στους πλέον κοντινούς γείτονες d ( xq, x i ) 2 Ομοίως, για συνεχείς συναρτήσεις στόχου Ανθεκτικός σε θορυβώδη δεδομένα βρίσκοντας τη μέση τιμή των k-πλησιέστερων γειτόνων Κατάρα των διαστάσεων: η απόσταση μεταξύ γειτόνων μπορεί να κυριαρχείται από μη σχετικά χαρακτηριστικά Περιορισμός των λιγότερο σχετικών χαρακτηριστικών

73 Εφαρμογές αναζήτησης k-nn Αναγνώριση προτύπων Διάγνωση υποστηριζόμενη από Η/Υ: υποστήριξη των γιατρών στην αναγνώριση ευρημάτων Οπτική αναγνώριση χαρακτήρων Θεωρεία κωδικοποίησης Αποκωδικοποίηση σημάτων Βάσεις δεδομένων που είναι context based Ανάκτηση δεδομένων Ηλεκτρονικό εμπόριο Συναφής διαφήμιση Βιοπληροφορική Ταξινόμηση βιολογικών ακολουθιών σε ομάδες Ορθογραφικός έλεγχος Σε εφαρμογές όπως το Microsoft Word Ανίχνευση λογοκλοπής Ανίχνευση αντιγραφής, ομοιότητας κειμένων

Αξιολόγηση Μεθόδων Κατηγοριοποίησης Ακρίβεια πρόβλεψης (predictive accuracy) Ταχύτητα (speed) Χρόνος κατασκευής του μοντέλου Χρόνος εφαρμογής του μοντέλου Ανθεκτικότητα (robustness) Διαχείριση θορύβου και τιμών που λείπουν Κλιμάκωση (scalability) Αποδοτικότητα σε βάσεις δεδομένων αποθηκευμένες στο δίσκο Ευκρίνεια (interpretability) Πόσο κατανοητό είναι το μοντέλο και τι νέα πληροφορία προσφέρει Ποιότητα (quality) Πχ. μέγεθος του δέντρου απόφασης 80

81 Αξιολόγηση και Επιλογή Μοντέλου Μέτρα Αξιολόγησης Πώς μπορούμε να μετρήσουμε την ακρίβεια του μοντέλου; Ποια άλλα μέτρα μπορούν να ληφθούν υπόψη; Χρήση συνόλου ελέγχου (με γνωστές κλάσεις) αντί του συνόλου εκπαίδευσης για την αξιολόγηση της ακρίβειας Μέθοδοι Εκτίμησης της ακρίβειας των κατηγοριοποιητών Μέθοδος Holdout Διασταυρωμένη επικύρωση (Cross-validation) Μέθοδος Bootstrap Σύγκριση κατηγοριοποιητών Καμπύλες ROC

82 Μέτρα Αξιολόγησης Κατηγοριοποιητών Πίνακας Σύγχυσης (Confusion Matrix) Πραγματική κλάση \ Προβλεπόμενη κλάση C 1 C 1 C 1 True Positives (TP) False Negatives (FN) C 1 False Positives (FP) True Negatives (TN) Σε ένα πίνακα σύγχυσης, το f i,j δείχνει τον αριθμό εγγραφών της κλάσης i που κατηγοριοποιήθηκαν στην κλάση j TP (true positive) f 11, FN (false negative) f 10, FP (false positive) f 01, TN (true negative) f 00 Παράδειγμα Πίνακα Σύγχυσης: Actual class\predicted class buy_computer = yes buy_computer = no Total buy_computer = yes 6954 46 7000 buy_computer = no 412 2588 3000 Total 7366 2634 10000

83 Μέτρα Εκτίμησης Ακρίβεια - Accuracy Accuracy = f 11 + f f 11 00 + + f f 00 01 + f 10 = TP + TN TP + TN + FP + FN Ρυθμός σφάλματος Error rate = f 11 + f f 01 00 + + f f 10 01 + f 10 Ευαισθησία (true positive rate ή sensitivity): Το ποσοστό των θετικών παραδειγμάτων που κατηγοριοποιούνται σωστά TP TPR = TP + FN Ιδιαιτερότητα (true negative rate ή specificity): Το ποσοστό των αρνητικών παραδειγμάτων που κατηγοριοποιούνται σωστά TN TNR = TN + FP

84 Μέτρα Εκτίμησης False positive rate: Το ποσοστό των αρνητικών παραδειγμάτων που κατηγοριοποιούνται λάθος (δηλαδή, ως θετικά) FPR = FP TN + FP False negative rate: Το ποσοστό των θετικών παραδειγμάτων που κατηγοριοποιούνται λάθος (δηλαδή, ως αρνητικά) FNR = FN TP + FN Ευστοχία (Precision): Πόσα από τα παραδείγματα που το μοντέλο έχει κατηγοριοποιήσει ως θετικά είναι πραγματικά θετικά. Όσο πιο μεγάλη η ακρίβεια, τόσο μικρότερος o αριθμός των FP p = TP TP + FP Ανάκληση (Recall): Πόσα από τα θετικά παραδείγματα κατάφερε ο κατηγοριοποιητής να βρει. Όσο πιο μεγάλη η ανάκληση, τόσο λιγότερα θετικά παραδείγματα έχουν κατηγοριοποιηθεί λάθος (=TPR) TP r = TP + FN

85 Μέτρο Εκτίμησης F-score Το μέτρο F μπορεί να ερμηνευθεί ως ένας σταθμισμένος μέσος όρος της ευστοχίας (precision) και της ανάκλησης (recall) Το μέτρο F έχει ως μέγιστη (καλύτερη) τιμή το 1 και ελάχιστη (χειρότερη) 0 Το κλασσικό μέτρο F ή ισορροπημένο μέτρο F (F score) είναι ο αρμονικός μέσος ευστοχίας και ανάκλησης F_score = 2 (precision recall) precision + recall

86 Διαφορά μεταξύ Ακρίβειας και Ευστοχίας Ακρίβεια (Accuracy) είναι το πόσο κοντά βρίσκεται η μέτρηση στην πραγματικότητα Ευστοχία (Precision) είναι το πόσο κοντά βρίσκεται μια μέτρηση σε μια άλλη μέτρηση Χαμηλή ευστοχία σημαίνει αβεβαιότητα

87 Μέτρα Εκτίμησης Κατηγοριοποιητών: Παράδειγμα Πίνακας σύγχυσης Actual Class\Predicted class cancer = yes cancer = no Total Recognition(%) cancer = yes 90 210 300 30.00 (sensitivity) cancer = no 140 9560 9700 98.56 (specificity) Total 230 9770 10000 96.50 (accuracy) Ευαισθησία (Sensitivity) = TP/P = 90/300 = 30% Ιδιαιτερότητα (Specificity) = TN/N = 9560/9700 = 98.56% Ακρίβεια (Accuracy) = (TP + TN)/All = (90+9560)/10000 = 96.50% Ρυθμός σφάλματος (Error rate) = (FP + FN)/All = (140 + 210)/10000 = 3.50% Ευστοχία (Precision) = TP/(TP + FP) = 90/(90 + 140) = 90/230 = 39.13% Ανάκληση (Recall) = TP/ (TP + FN) = 90/(90 + 210) = 90/300 = 30.00% F1 = 2 P R /(P + R) = 2 39.13% 30.00%/(39.13% + 30%) = 33.96%

88 Παράδειγμα υπολογισμού μετρικών ακρίβειας Έχοντας ως δεδομένα τα ακόλουθα αποτελέσματα ενός αλγορίθμου κατηγοριοποίησης, υπολογίστε τις μετρικές TPrate FPrate Precision Recall F-measure === Confusion Matrix === a b c d e f g <-- classified as 41 0 0 0 0 0 0 a 0 20 0 0 0 0 0 b 0 0 3 1 0 1 0 c 0 0 0 13 0 0 0 d 0 0 1 0 3 0 0 e 0 0 0 0 0 5 3 f 0 0 0 0 0 2 8 g

89 Μέτρηση Σφάλματος Κατηγοριοποιητή Μέτρηση ακρίβειας Κατηγοριοποιητή: πόσο απέχει η τιμή πρόβλεψης από την πραγματική τιμή Συνάρτηση Απώλειας (Loss function): το σφάλμα μεταξύ πραγματικής τιμής y i και τιμής πρόβλεψης y i Απόλυτο λάθος: y i y i Τετραγωνικό λάθος: (y i y i ) 2 Σφάλμα ελέγχου (γενίκευση σφάλματος): η μέση απώλεια στο σύνολο ελέγχου Μέσο απόλυτο σφάλμα (Mean absolute error): Μέσο τετραγωνικό σφάλμα (Mean squared error): Σχετικό απόλυτο σφάλμα (Relative absolute error): Σχετικό τετραγωνικό σφάλμα (Relative squared error): d y y d i i i = 1 ' d y y d i i i = 1 2 ') ( = = d i i d i i i y y y y 1 1 ' = = d i i d i i i y y y y 1 2 1 2 ) ( ') (

90 Μέθοδοι Αποτίμησης Μοντέλου- Μέθοδος Holdout Τα δεδομένα χωρίζονται τυχαία σε δύο ανεξάρτητα σύνολα: Σύνολο εκπαίδευσης (2/3) Σύνολο Ελέγχου (1/3) Λιγότερες εγγραφές για εκπαίδευση Το μοντέλο εξαρτάται από τη σύνθεση των συνόλων εκπαίδευσης και ελέγχου όσο μικρότερο το σύνολο εκπαίδευσης, τόσο μεγαλύτερη η διακύμανση του μοντέλου Όσο μεγαλύτερο το σύνολο εκπαίδευσης, τόσο λιγότερο αξιόπιστη η πιστότητα του μοντέλου που υπολογίζεται με το σύνολο ελέγχου ευρύ διάστημα εμπιστοσύνης (λιγότερο αξιόπιστη εκτίμηση της ακρίβειας) Τα σύνολα ελέγχου και εκπαίδευσης δεν είναι ανεξάρτητα μεταξύ τους (υποσύνολα του ίδιου συνόλου - πχ μια κλάση που έχει πολλά δείγματα στο ένα, θα έχει λίγα στο άλλο και το ανάποδο)

91 Μέθοδοι Αποτίμησης Μοντέλου Τυχαία δειγματοληψία (Random Subsampling): μια παραλλαγή της holdout Επανάληψη της μεθόδου για τη βελτίωσή της έστω k επαναλήψεις, παίρνουμε το μέσο όρο της ακρίβειας acc sub = 1 k k i= 1 acci Πάλι αφαιρούμε δεδομένα από το σύνολο εκπαίδευσης Ένα ακόμα πρόβλημα είναι ότι μια εγγραφή μπορεί να χρησιμοποιείται (επιλέγεται) ως εγγραφή εκπαίδευσης πιο συχνά από κάποια άλλη

92 Μέθοδοι Αποτίμησης Μοντέλου Διασταυρωμένη επικύρωση (Cross validation) Διαμοίραση των δεδομένων σε k ίσα υποσύνολα (συνήθως k = 10) Κατασκευή του μοντέλου αφήνοντας κάθε φορά ένα υποσύνολο ως σύνολο ελέγχου και χρησιμοποιώντας όλα τα υπόλοιπα ως σύνολα εκπαίδευσης Επανάληψη k φορές 2-fold (δύο ίσα υποσύνολα, το ένα μια φορά για έλεγχο το άλλο για εκπαίδευση και μετά ανάποδα) Μέθοδος leave-one-out Αν k = N, (Ν ο αριθμός των εγγραφών) σύνολο ελέγχου μόνο μια εγγραφή Κάθε εγγραφή χρησιμοποιείται τον ίδιο αριθμό φορών στην εκπαίδευση και ακριβώς μια φορά για έλεγχο μεγαλύτερο δυνατό σύνολο εκπαίδευσης σύνολα ελέγχου αμοιβαία αποκλειόμενα (καλύπτουν όλο το σύνολο) υπολογιστικά ακριβή υψηλή διακύμανση του μέτρου

93 Μέθοδοι Αποτίμησης Μοντέλου Αυτοδυναμία (Bootstrap) Αποδίδει καλά για μικρά σύνολα δεδομένων Δειγματοληπτεί τις εγγραφές εκπαίδευσης ομοιόμορφα με αντικατάσταση Κάθε φορά που επιλέγεται μία εγγραφή, μπορεί με την ίδια πιθανότητα να επιλεχθεί πάλι και να επανεισαχθεί στο σύνολο εκπαίδευσης Αρκετές μέθοδοι αυτοδυναμίας. Μια δημοφιλής είναι η.632 bootstrap: Ένα σύνολο d εγγραφών δειγματοληπτείται d φορές, με αντικατάσταση, καταλήγοντας σε ένα σύνολο εκπαίδευσης d δειγμάτων. Οι πλειάδες δεδομένων που δεν συμμετέχουν στο σύνολο εκπαίδευσης, σχηματίζουν το σύνολο ελέγχου. Περίπου 63.2% των αρχικών δεδομένων θα καταλήξουν στο bootstrap, και το υπόλοιπο 36.8% θα σχηματίσει το σύνολο ελέγχου (αφού (1 1/d) d e -1 = 0.368) Επανάληψη της δειγματοληψίας k φορές Συνολική ακρίβεια του μοντέλου: k acc( M ) = (0.632 acc( M i ) test _ set + 0.368 acc( M i ) train _ i= 1 set )

94 Αποτίμηση Μοντέλου Μετά την ολοκλήρωση της διαδικασίας αποτίμησης του μοντέλου χρησιμοποιούνται όλα τα δεδομένα για τη δημιουργία του τελικού μοντέλου Γενικά, όσο πιο μεγάλο είναι το σύνολο δεδομένων εκπαίδευσης τόσο πιο καλός είναι ο κατηγοριοποιητής Όσο πιο μεγάλο είναι το σύνολο δεδομένων ελέγχου τόσο πιο ακριβής είναι εκτίμηση του σφάλματος κατηγοριοποίησης

95 Αποτίμηση - Επιλογή Μοντέλου: Καμπύλες ROC Καμπύλη χαρακτηριστικών λειτουργίας δέκτη-roc (Receiver Operating Characteristics Curve) Οπτική σύγκριση μοντέλων κατηγοριοποίησης Δείχνει την αντιστάθμιση μεταξύ του TPR (στον άξονα των y) και του FPR (στον άξονα των x) Το εμβαδό της περιοχής κάτω από την καμπύλη ROC (AUC: Area Under Curve) είναι ένα μέτρο της ακρίβειας του μοντέλου Για τη δημιουργία της καμπύλης οι εγγραφές ελέγχου κατατάσσονται σε φθίνουσα σειρά: αυτές που είναι πιθανότερο να ανήκουν στη θετική κατηγορία εμφανίζονται στην κορυφή της λίστας Όσο πιο κοντά στη διαγώνια γραμμή (δηλαδή όσο πιο κοντά είναι το εμβαδό στο 0,5), τόσο λιγότερο ακριβές είναι το μοντέλο

96 Καμπύλη ROC Ο κάθετος άξονας αναπαριστά τον TPR (ευαισθησία) O οριζόντιος άξονας αναπαριστά τον FPR (1- ευαισθησία) Το εμβαδό της περιοχής κάτω από την καμπύλη ROC (AUC) είναι ένα μέτρο της ακρίβειας του μοντέλου Όσο πιο κοντά στη διαγώνια γραμμή (δηλαδή όσο πιο κοντά είναι το εμβαδό στο 0,5), τόσο λιγότερο ακριβές είναι το μοντέλο. Το εμβαδό της περιοχής κάτω από την καμπύλη, για ένα μοντέλο με τέλεια ακρίβεια, θα είναι 1

97 Παράδειγμα κατασκευής ROC καμπύλης Υποθέτουμε ότι υπάρχουν 2 κλάσεις για τα δεδομένα diseased ( positive, P) και healthy ( negative, N). Δεδομένα 20 παρατηρήσεις εκ των οποίων 10 είναι Ν και 10 είναι P οι 10 Ν παρατηρήσεις έχουν τιμές N = {0.3,0.4,0.5,0.5,0.5,0.6,0.7,0.7,0.8,0.9}; οι 10 P παρατηρήσεις έχουν τιμές P = {0.5,0.6,0.6,0.8,0.9,0.9,0.9,1.0,1.2,1.4} Αλγόριθμος κατηγοριοποίησης Για δεδομένο όριο (threshold), t, ο κατηγοριοποιητής τοποθετεί μια παρατήρηση στο P αν είναι μεγαλύτερη από t Κατασκευή ROC καμπύλης Για τη δημιουργία της ROC καμπύλης, το όριο t παίρνει αρχικά μια μεγάλη τιμή (π.χ. 1.4), η οποία σταδιακά μειώνεται Για κάθε τιμή μεγαλύτερη ή ίση του 1.4, οι παρατηρήσεις τοποθετούνται στην κλάση N, οπότε καμία παρατήρηση του P δεν τοποθετείται στο P (tp = 0.0) και όλες οι παρατηρήσεις του N τοποθετούνται στο N (fp = 0.0) Μετακινώντας το όριο στο 1.2, μια τιμή από το P τοποθετείται στο P (tp = 0.1) ενώ όλες οι τιμές του N τοποθετούνται στο N (fp = 0.0) Συνεχίζοντας με αυτόν τον τρόπο δημιουργείται η καμπύλη ROC

Μέθοδοι Συνένωσης: Αυξάνοντας την ακρίβεια Μέθοδοι συνένωσης Χρήση ενός συνδυασμού από μοντέλα με σκοπό την αύξηση της ακρίβειας Συνδυασμός μια σειράς από k εκπαιδευμένα μοντέλα, M 1, M 2,, M k, για την δημιουργία ενός βελτιωμένου μοντέλου M* Συνήθεις μέθοδοι συνένωσης Συνάθροιση (Bagging): εκπαιδεύει παράλληλα κάθε μοντέλο, χρησιμοποιώντας ένα υποσύνολο του συνόλου εκπαίδευσης Ενίσχυση (Boosting): εκπαιδεύει διαδοχικά κάθε μοντέλο δίνοντας έμφαση στις εγγραφές που δεν κατάφερε να κατηγοριοποιήσει σωστά ο προηγούμενος κατηγοριοποιητής Random Forest: Μια παραλλαγή της συνάθροισης για δένδρα αποφάσεων 99

100 Συνάθροιση (Bagging) Αναλογία: Διάγνωση βασισμένη στην πλειοψηφούσα άποψη πολλών γιατρών Εκπαίδευση Δεδομένου ενός συνόλου D με d πλειάδες, σε κάθε επανάληψη i, ένα σύνολο εκπαίδευσης D i με d πλειάδες δειγματοληπτείται με αντικατάσταση από το D (π.χ., bootstrap) Ένα μοντέλο κατηγοριοποιητή M i εκπαιδεύεται για κάθε σύνολο D i Κατηγοριοποίηση: κατηγοριοποίησε ένα άγνωστο δείγμα X Κάθε κατηγοριοποιητής M i επιστρέφει την κλάση πρόβλεψης Ο κατηγοριοποιητής συνάθροισης M* μετρά τις ψήφους και αναθέτει στο X την πλειοψηφούσα κλάση Πρόβλεψη: μπορεί να εφαρμοστεί για την πρόβλεψη συνεχών τιμών, λαμβάνοντας την μέση τιμή κάθε πρόβλεψης για μια συγκεκριμένη πλειάδα ελέγχου Ακρίβεια Συχνά αρκετά καλύτερη από έναν κατηγοριοποιητή που παράγεται από το D Για θορυβώδη δεδομένα: όχι σημαντικά χειρότερος, ωστόσο περισσότερο ανθεκτικός Αποδεικνύεται ότι παρουσιάζει καλύτερη ακρίβεια στην πρόβλεψη

101 Ενίσχυση (Boosting) Αναλογία: Συμβουλεύσου διάφορους γιατρούς και αποφάσισε χρησιμοποιώντας ένα συνδυασμό σταθμισμένων διαγνώσεων, το κάθε βάρος σχετίζεται με την ακρίβεια των προηγούμενων διαγνώσεων Πως δουλεύει η ενίσχυση; Ανατίθενται βάρη σε κάθε εγγραφή εκπαίδευσης Μια σειρά k κατηγοριοποιητών εκπαιδεύονται επαναληπτικά Αφού εκπαιδευτεί ένας κατηγοριοποιητής M i, τα βάρη ανανεώνονται για να επιτρέψουν στον επόμενο κατηγοριοποιητή, M i+1, να δώσει περισσότερη προσοχή στις εγγραφές εκπαίδευσης που δεν κατηγοριοποιήθηκαν σωστά από τον M i Ο τελικός M* συνδυάζει τις ψήφους κάθε επιμέρους κατηγοριοποιητή, όπου το βάρος κάθε κατηγοριοποιητή είναι συνάρτηση της ακρίβειάς του Ο αλγόριθμος ενίσχυσης μπορεί να επεκταθεί για την πρόβλεψη συνεχών τιμών Συγκρίνοντας με τον αλγόριθμο συνάθροισης: η ενίσχυση τείνει να πετυχαίνει μεγαλύτερη ακρίβεια, αλλά υπάρχει ο κίνδυνος υπερπροσαρμογής του μοντέλου σε δεδομένα που δεν κατηγοριοποιήθηκαν σωστά

102 Random Forest: Βασικές Έννοιες Random Forest Μια παραλλαγή της συνάθροισης για δένδρα αποφάσεων Συνάθροιση δεδομένων Χρησιμοποιεί ένα υποσύνολο δεδομένων εκπαίδευσης με δειγματοληψία με αντικατάσταση για κάθε δέντρο Συνάθροιση χαρακτηριστικών Σε κάθε κόμβο χρησιμοποιείται μια τυχαία επιλογή χαρακτηριστικών ως υποψήφιων και γίνεται διαχωρισμός με βάση το καλύτερο χαρακτηριστικό Σε σύγκριση με τη συνάθροιση, αυξάνει την ποικιλομορφία μεταξύ των δημιουργούμενων δέντρων Κατά την κατηγοριοποίηση, κάθε δέντρο ψηφίζει και επιλέγεται η πιο δημοφιλής κλάση

103 Random Forest Δύο μέθοδοι για τη δημιουργία του Random Forest: Forest-RI (random input selection): Randomly select, at each node, F attributes as candidates for the split at the node. The CART methodology is used to grow the trees to maximum size Forest-RC (random linear combinations): Creates new attributes (or features) that are a linear combination of the existing attributes (reduces the correlation between individual classifiers) Δεν είναι ευαίσθητος στον αριθμό των χαρακτηριστικών που επιλέγονται για εξέταση σε κάθε διάσπαση και ταχύτερος από τον bagging ή τον boosting

Σύνοψη 109 Κατηγοριοποίηση Κατασκευή μοντέλου από ένα σύνολο δεδομένων εκπαίδευσης Έλεγχος μοντέλου από ένα σύνολο δεδομένων ελέγχου Κατηγοριοποιητές Επαγωγή δέντρου απόφασης Αφελής κατηγοριοποιητής Bays, Κατηγοριοποιητές k-πλησιέστερων γειτόνων Μετρικές αξιολόγησης Ακρίβεια, ευαισθησία, εξειδίκευση, ανάκληση, μέτρηση F Μέθοδοι αποτίμησης μοντέλων Διασταυρωμένη επικύρωση, μέθοδος Holdout, μέθοδος αυτοδυναμίας Καμπύλη ROC Μέθοδοι βελτίωσης ακρίβειας μοντέλων Ενίσχυση, συνάθροιση, random forests Καμία μέθοδος δεν έχει βρεθεί να υπερτερεί των υπολοίπων για όλα τα σύνολα δεδομένων Παράγοντες που επηρεάζουν την ποιότητα ενός μοντέλου: ακρίβεια, χρόνος εκπαίδευσης, ανθεκτικότητα, δυνατότητα κλιμάκωσης