Data Miig Classificati: Alterative Techiques Lecture Ntes fr Chapter 5
Classificati Prblem Πρόβλημα μάθησης με επίβλεψη (Supervised learig) Δεδομένα του συνόλου εκπαίδευσης X N, y 1 αποτελούμενα από ζεύγη σημείων σε ένα χώρο ( R) και ετικέτας ή πρόβλεψης y. Στόχος να φτιάξουμε μία συνάρτηση f() που να προβλέπει την κατηγορία y των σημείων.
Rule-based Classifiers Classify recrds by usig a cllecti f if the rules Rule set : R={r 1 r 2 r K }, όπου r i ένας κανόνας ταξινόμησης Rule r i : if (cditi) i the y i Cditi είναι οι προϋποθέσεις ή το αίτιο y είναι το αποτέλεσμα του κανόνα (class label) Cditi = ( 1 p. U 1 ) ( 2 p. U 2 ) ( k p. U k ) όπου p. είναι λογικοί τελεστές (lgical peratrs)
Applicati f Rule-Based Classifier Ένας κανόνας r καλύπτει (cvers) μια εγγραφή αν το αίτιο (συνθήκες) του r ταιριάζει με τα χαρακτηριστικά του. Τότε λέμε ότι ο κανόνας ενεργοποιείται ή πυροδοτείται (fired) π.χ. R1: (Give Birth = ) (Ca Fly = yes) Birds R2: (Give Birth = ) (Live i Water = yes) Fishes R3: (Give Birth = yes) (Bld Type = warm) Mammals R4: (Give Birth = ) (Ca Fly = ) Reptiles R5: (Live i Water = smetimes) Amphibias Name Bld Type Give Birth Ca Fly Live i Water Class hawk warm yes? grizzly bear warm yes? The rule R1 cvers a hawk => Bird The rule R3 cvers the grizzly bear => Mammal
10 Rule Cverage ad Accuracy Cverage f a rule r: Το ποσοστό των εγγραφών του συνόλου που καλύπτονται ή πυροδοτούνται από τον r. Accuracy f a rule: Το ποσοστό των εγγραφών που πυροδοτούν τον κανόνα r και είναι της ίδιας κατηγορίας με το y(r). Tid Refud Marital Status Taable Icme Class 1 Yes Sigle 125K N 2 N Married 100K N 3 N Sigle 70K N 4 Yes Married 120K N 5 N Divrced 95K Yes 6 N Married 60K N 7 Yes Divrced 220K N 8 N Sigle 85K Yes 9 N Married 75K N 10 N Sigle 90K Yes (Status=Sigle) N Cverage = 40%, Accuracy = 50%
Rule Cverage ad Accuracy Cverage f a rule r: Cverage Accuracy f a rule: r A D D : size f iput dataset A : # pits cver r A y : # pits cver r ad satisfy class y Accuracy r A A y
Hw des Rule-based Classifier Wrk? Rule Set: r1: (Give Birth = ) (Ca Fly = yes) Birds r2: (Give Birth = ) (Live i Water = yes) Fishes r3: (Give Birth = yes) (Bld Type = warm) Mammals r4: (Give Birth = ) (Ca Fly = ) Reptiles r5: (Live i Water = smetimes) Amphibias Name Bld Type Give Birth Ca Fly Live i Water Class lemur warm yes? turtle cld smetimes? dgfish shark cld yes yes? A lemur triggers rule r3, s it is classified as a mammal A turtle triggers bth r4 ad r5 A dgfish shark triggers e f the rules
Characteristics f Rule-Based Classifier Mutually eclusive rules (αλληλοαποκλειόμενοι) Classifier ctais mutually eclusive rules if the rules are idepedet f each ther Δηλ. κάθε εγγραφή καλύπτεται από το πολύ έναν κανόνα. Ehaustive rules (εξαντλητικοί) Ένα σύνολο κανόνων έχει εξαντλητική κάλυψη αν ένας κανόνας για κάθε δυνατό συνδυασμό χαρακτηριστικών. Δηλ. κάθε εγγραφή καλύπτεται από τουλάχιστον έναν κανόνα.
Απλοποίηση κανόνων (Rule Simplificati) Rules are lger mutually eclusive A recrd may trigger mre tha e rule Sluti? Ordered rule set Urdered rule set use vtig schemes Rules are lger ehaustive A recrd may t trigger ay rules Sluti? Use a default class
Ordered Rules: Διατάσσουμε τους κανόνες που καλύπτουν μια εγγραφή με βάση ένα μέτρο αξιολόγησης (δίνοντας προτεραιότητα), π.χ. Cverage Accuracy Ttal descripti legth Απόφαση ταξινόμησης για ένα άγνωστο σημείο: Ταξινόμηση στη κατηγορία του κανόνα με το μεγαλύτερο σκορ μεταξύ αυτών που πυροδοτούνται. (rdered rules) Ταξινόμηση στην πλειοψηφούσα κατηγορία μεταξύ των κανόνων που πυροδοτούνται ή χρήση κάποιου vtig scheme. Αν δεν υπάρχει κανόνας που ταιριάζει, τότε ταξινόμηση στην default class.
Κατασκευή κανόνων ταξινόμησης Direct Methds fr Rule Etracti: Etract rules directly frm data e.g.: RIPPER, CN2, Hlte s 1R Idirect Methds fr Rule Etracti: Etract rules frm ther classificati mdels (e.g. decisi trees, eural etwrks, etc). e.g: C4.5rules
[1]. Direct Methd: Sequetial Cverig Etract directly frm data Greedy methd: Ο αλγόριθμος παράγει κανόνες («λαίμαργα») για κάθε κατηγορία επαναληπτικά χρησιμοποιώντας την διαδικασία Lear-Oe-Rule Επιλογή κατηγορίας χρησιμοποιώντας κριτήρια όπως: Ελάχιστη συχνότητα της κατηγορίας στο σύνολο εκπαίδευσης Κόστος εσφαλμένης ταξινόμησης
Lear-Oe-Rule prcedure: Κατασκευή του βέλτιστου αριθμός κανόνων για την κατηγορία y που καλύπτει το τρέχον σύνολο εκπαίδευσης. Ένας κανόνας θεωρείται «αποδεκτός» αν καλύπτει τα περισσότερα δείγματα της ίδιας κατηγορίας (psitive eamples) του συνόλου εκπαίδευσης και όσο το δυνατόν λιγότερο από υπόλοιπα δείγματα που δεν ανήκουν στην ίδια κατηγορία (egative eamples).
Eample f Sequetial Cverig (i) Origial Data (ii) Step 1
Eample f Sequetial Cverig R1 R1 R2 (iii) Step 2 (iv) Step 3
Rule Grwig Strategy Δημιουργούμε αρχικά έναν κανόνα και σταδιακά τον αυξάνουμε έως ότου ισχύει κάποιο κριτήριο. 2 στρατηγικές Geeral-t-specific (tp-dw) Αρχικά κανόνας με κενό cditi r: { } -> y (geeral rule) Επαναληπτικά προσθέτουμε τιμές χαρακτηριστικών μέχρι να μην βελτιώνεται ποιοτικά ο κανόνας (δηλ. πιο specific) Specific-t-geeral (bttm-up) Αρχικά επιλέγουμε τυχαία ένα «θετικό» δείγμα φτιάχνοντας έναν ειδικό κανόνα που το καλύπτει. Επαναληπτικά διαγράφουμε ένα χαρακτηριστικό για να καλύπτει περισσότερα «θετικά» δείγματα (δηλ. πιο γενικός). Τερματισμός όταν καλύπτει και «αρνητικά» δείγματα
Rule Grwig Strategy (συν.) παραδείγματα { } Yes: 3 N: 4 Refud=N, Status=Sigle, Icme=85K (Class=Yes) Refud=N, Status=Sigle, Icme=90K (Class=Yes) Refud= N Yes: 3 N: 4 Status = Sigle Yes: 2 N: 1 Status = Divrced Yes: 1 N: 0 Status = Married Yes: 0 N: 3... Icme > 80K Yes: 3 N: 1 Refud=N, Status = Sigle (Class = Yes) (a) Geeral-t-specific (b) Specific-t-geeral
Rule evaluati metrics (Μέτρα αξιολόγησης κανόνων) Metrics: Accuracy Laplace c 1 c k Ποσοστό σωστά ταξινομημένων δειγμάτων από τον κανόνα. Μειονέκτημα: δεν λαμβάνει υπόψιν του την κάλυψη. Η Laplace είναι η M-estimate για p=1/k Αν δεν καλύπτει κανένα δείγμα, τότε Laplace = 1/k M-estimate = p Αν μεγάλη κάλυψη ( c >>), τότε Laplace = M-estimate c / M-estimate kp c k : Number f istaces f cvered by rule c : Number f psitive istaces k : Number f classes p : Prir prbability f psitive class
FOIL κέρδος πληροφορίας (ifrmati gai) f, f 0 0 Έστω οι συχνότητες κάλυψης των θετικών και αρνητικών δειγμάτων αντίστοιχα Μεταβάλλοντας το αίτιο του κανόνα αλλοιώνονται οι συχνότητες, έστω f 1, f 1 Τότε, FOIL ifrmati gai = lg f f1 2 f Προτιμούμε κανόνες με μεγάλο supprt αλλά και accuracy 1 0 f1 f0 f f 1 0
O Αλγόριθμος κατασκευής κανόνων RIPPER Γραμμικός ως προς τον αριθμό των δειγμάτων εκπαίδευσης. Αρχικά διατάσσουμε τις κατηγορίες κατά αύξουσα ανάλογα με την συχνότητά τους στο σύνολο εκπαίδευσης. *** γιατί ;;; Για κάθε μία από τις υπάρχουσες κατηγορίες: Θεωρούμε τα δείγματα της κατηγορίας «θετικά» και των υπολοίπων «αρνητικά». Εφαρμόζουμε την μέθοδο sequetial cverig για να κατασκευάσουμε κανόνες που χωρίζουν θετικά από αρνητικά παραδείγματα.
Ο Αλγόριθμος RIPPER (συν.) Rule Grwig: Ο RIPPER εφαρμόζει την στρατηγική geeral-tspecific για την δημιουργία ενός κανόνα, ενώ ως μέτρο αξιολόγησης το FOIL ifrmati gai. Stp whe rule lger cvers egative eamples Υπάρχει η δυνατότητα για pruig του κανόνα διαγράφοντας χαρακτηριστικά. Αφού παραχθεί ο κανόνας, τότε διαγράφουμε όλα τα δείγματα (θετικά ή αρνητικά) που καλύπτονται από τον κανόνα και τοποθετείται στην λίστα των εξαγόμενων κανόνων.
[2]. Idirect Methds κατασκευής κανόνων P Q N Yes R Rule Set N Yes N - + + Yes Q N Yes - + r1: (P=N,Q=N) ==> - r2: (P=N,Q=Yes) ==> + r3: (P=Yes,R=N) ==> + r4: (P=Yes,R=Yes,Q=N) ==> - r5: (P=Yes,R=Yes,Q=Yes) ==> + Κατασκευή κανόνων από δέντρα απόφασης (decisi trees) Κάθε μονοπάτι του δέντρου από τη ρίζα έως τα φύλλα εκφράζει ένα κανόνα ταξινόμησης Οι συνθήκες είναι πάνω στους κόμβους (χαρακτηριστικά) και ακμές (τιμές), ενώ η κατηγορία βρίσκεται στο φύλλο του δέντρου.
Frm Decisi Trees T Rules Classificati Rules Yes NO Refud {Sigle, Divrced} Taable Icme N Marital Status < 80K > 80K {Married} NO (Refud=Yes) ==> N (Refud=N, Marital Status={Sigle,Divrced}, Taable Icme<80K) ==> N (Refud=N, Marital Status={Sigle,Divrced}, Taable Icme>80K) ==> Yes (Refud=N, Marital Status={Married}) ==> N NO YES Rules are mutually eclusive ad ehaustive Rule set ctais as much ifrmati as the tree
Idirect Methd: C4.5rules Συχνά οι κανόνες που παράγονται είναι πολύπλοκοι χωρίς ερμηνευτική ή γενικευτική ικανότητα. Απαιτείται διαδικασία απλοποίησης (simplificati) Pruig: Δοκιμάζουμε να βγάζουμε χαρακτηριστικά από τις συνθήκες του κανόνα, Ελέγχουμε αν βελτιώνεται η απόδοση του κανόνα, π.χ. ελαττώνεται το σφάλμα ταξινόμησης Κρατάμε την μορφή του κανόνα με την βέλτιστη απόδοση. Παράλληλα, μετά το pruig, ελέγχουμε για τυχόν αντίγραφα μεταξύ των κανόνων του συνόλου.
Eample Name Give Birth Lay Eggs Ca Fly Live i Water Have Legs Class huma yes yes mammals pyth yes reptiles salm yes yes fishes whale yes yes mammals frg yes smetimes yes amphibias kmd yes yes reptiles bat yes yes yes mammals pige yes yes yes birds cat yes yes mammals lepard shark yes yes fishes turtle yes smetimes yes reptiles pegui yes smetimes yes birds prcupie yes yes mammals eel yes yes fishes salamader yes smetimes yes amphibias gila mster yes yes reptiles platypus yes yes mammals wl yes yes yes birds dlphi yes yes mammals eagle yes yes yes birds
C4.5 versus C4.5rules versus RIPPER Give Birth? C4.5rules: (Give Birth=N, Ca Fly=Yes) Birds Yes N (Give Birth=N, Live i Water=Yes) Fishes (Give Birth=Yes) Mammals Mammals Live I Water? (Give Birth=N, Ca Fly=N, Live i Water=N) Reptiles ( ) Amphibias Yes N RIPPER: (Live i Water=Yes) Fishes Smetimes (Have Legs=N) Reptiles Fishes Amphibias Ca Fly? (Give Birth=N, Ca Fly=N, Live I Water=N) Reptiles (Ca Fly=Yes,Give Birth=N) Birds Yes N () Mammals Birds Reptiles
Advatages f Rule-Based Classifiers Προσφέρουν ερμηνευτική ικανότητα. Ευκολία στην κατασκευή. Γρήγορη απόφαση σε άγνωστα δείγματα. Απόδοση συγκρίσιμη με αυτή των δέντρων αποφάσεων. Επιτρέπουν την ανισορροπία κατηγορίας μεταξύ των δειγμάτων
Nearest Neighbr Classifiers (Ταξινομητές του κοντινότερου γείτονα ) Η απλούστερη μέθοδος ταξινόμησης. Έστω σύνολο εκπαίδευσης d X N, y, R, y 1,2,, K 1 Κανόνας ταξινόμησης: * «Ένα άγνωστης κατηγορίας σημείο ταξινομείται στην κατηγορία του κοντινότερου γείτονα»
Nearest Neighbr Classifier 1NN Διαδικασία ταξινόμησης 1. Βρίσκουμε τον κοντινότερο γείτονα (ή περισσότερο όμοιο) m 1,, N * : mi d, * 2. Η κατηγορία του είναι η ίδια με αυτή του κοντινότερου γείτονα m * y y m
Επέκταση k-nn Βρίσκουμε τους k κοντινότερους γείτονες Η κατηγορία του άγνωστου σημείου είναι η πλειοψηφούσα μεταξύ των k γειτόνων. Παρατήρηση: Συνήθως το k επιλέγεται περιττός αριθμός ώστε να μην υπάρξει πρόβλημα ισοβαθμίας. * Ερώτημα: Ποιο είναι το κατάλληλο k ;
k=3 γείτονες Ταξινομητής k-nn
Ταξινομητής k-nn k=1 k=2 k=3
k-nn Classifier Πλεονεκτήματα Ευκολία στη χρήση. Μη - παραμετρική μέθοδος. Απουσία «εκπαίδευσης». Κατάλληλη για πολύπλοκα δεδομένα. Δεν χάνεται πληροφορία! (όλη είναι διαθέσιμη) Ποικίλες εφαρμογές: ανάκτηση πληροφορίας εικόνας, σήματος, vide. Μειονεκτήματα Πλήθος δεδομένων (N) πρέπει να είναι αρκετά μεγάλο (υψηλό κόστος) Απαιτείται μεγάλος αποθηκευτικός χώρος Πολυπλοκότητα για srt ως προς την απόσταση Εμφανίζει τοπικότητα στη λύση και όχι καθολικότητα Βέλτιστη τιμή του k ;
Παρατηρήσεις Κατασκευή σφαιρικών επιφανειών απόφασης
1-earest eighbr 2 + 1
1-earest eighbr 2 + 1
3-earest eighbr 2 + 1
5-earest eighbr 2 + 1
7-earest eighbr 2 + 1
Γεωμετρικές επιφάνειες απόφασης : Διαγράμματα Vri
Ταξινομητής k-nn Επιφάνειες απόφασης από Vri διαγράμματα
Liear classifiers (Γραμμικοί ταξινομητές) Έστω πρόβλημα ταξινόμησης σε 2 κατηγορίες (Κ=2), ετικέτες Ω 1 και Ω 2 (biary classificati) Κατασκευή συνάρτησης f(;w) για να αποφασίσουμε την κατηγορία ενός δείγματος w είναι οι παράμετροι της μεθόδου-συνάρτησης Κανόνας απόφασης: if f else if f ; w 0 the ; w 0 the 2 1
Πρόβλημα δυαδικής ταξινόμησης (biary classificati) Γραμμική περίπτωση Μη γραμμική περίπτωση
Το γραμμικό μοντέλο (Liear mdel) Υποθέτουμε ότι f d T, w w w w w 0 j1 j j 0 όπου w w,, w 0 1 w d το διάνυσμα των βαρών πόλωση (bias) ο σταθερός όρος Ορίζει μία γραμμική διαχωριστική επιφάνεια μεταξύ των 2 κατηγοριών
Η διαχωριστική επιφάνεια σε 3D δεδομένα
Στη περίπτωση όπου οι δυαδικές κατηγορίες έχουν τιμές y {+1,-1}, τότε: if y 1 w T w 0 0 else if y 1 w T w 0 0 Εναλλακτικά: X y w T w 0 0
Γεωμετρική ερμηνεία του γραμμικού μοντέλου Έστω 2 σημεία { A, B } πάνω στην διαχωριστική επιφάνεια. Τότε ισχύει: f f T w w 0 A 0 A T w w 0 B 0 B Αφαιρώντας κατά μέλη παίρνουμε: w T 0 A B
w A B T w0 w 0
0 0 w w T w d r 2 2 2 2 1 0 2 d T w w w w w w f r 2 0 w w d
Η παράμετρος w (γραμμικοί συντελεστές) είναι η παράμετρος που ορίζει τον προσανατολισμό της διαχωριστικής επιφάνειας, και Η παράμετρος w 0 (bias) είναι η παράμετρος που ορίζει την θέση της διαχωριστικής επιφάνειας
Πρόβλημα: εύρεση καταλληλότητας του γραμμικού μοντέλου Σύνολο εκπαίδευσης όπου X, y N 1 R d και 1, 1 y Εκτίμηση των παραμέτρων {w, w 0 } του γραμμικού μοντέλου, έτσι ώστε: y w T w 0 0
[1]. Ο αλγόριθμος Perceptr (Rseblatt 1958) Το Perceptr criteri: Αν το πρότυπο ταξινομείται σωστά (δηλ. y T w w 0 0 ) τότε καμία ενέργεια. 0 T Αν το πρότυπο ταξινομείται λάθος ( y w w 0 ) τότε η ποσότητα T y w w 0 εκφράζει την συνεισφορά της λάθος εκτίμησης.
Το Perceptr criteri: Συνάρτηση καταλληλότητας (ελαχιστοποίησης): w y w T w E 0 M όπου M T : y w w0 0 το σύνολο των λάθος ταξινομημένων προτύπων
Ο αλγόριθμος Perceptr Αρχικοποίηση των παραμέτρων {w, w 0 } Επαναληπτικά 1. Τυχαία επιλογή ενός σημείου του συνόλου εκπαίδευσης y T w w 0 0 T w w 0 0 2. If (crrect classificati) g t 1 y 3. If (wrg classificati) the update weights w w ew ld ew ld w 0 y Μέχρι σύγκλιση ή μέγιστο αριθμό επαναλήψεων 0 w y
Παρατήρηση: Σε κάθε βήμα επανάληψης το σφάλμα ενός λάθος ταξινομημένου σημείου μειώνεται. Γιατί;;; Ο αλγόριθμος Perceptr (συν.) y y y ew T ld w ~ y w T w ld ~ y y ~ ld T T ld w ~ y 2~ ~ y w Παρόλ αυτά δεν εξασφαλίζεται η μείωση του συνολικού σφάλματος σε κάθε επανάληψη! >0 y T ~ ~ T T ~
Perceptr cvergeece therem (Rseblatt 1962) «Αν υπάρχει μοναδική λύση, τότε με βεβαιότητα ο αλγόριθμος Perceptr θα βρει την λύση. Αν δεν υπάρχει γραμμική διαχωρισημότητα, τότε δεν είναι βέβαιο ότι ο αλγόριθμος θα βρει την βέλτιστη λύση»
f y class +1 class -1 f(,w) = sig(w T + w 0 ) Οποιαδήποτε από τις επιφάνειες είναι λύση του Perceptr...ποια είναι η καλύτερη?
Perceptr cvergeece therem (Rseblatt 1962):