Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών Μέτρα απόστασης 20
Κβάντωση Κβάντωση: ο μετασχηματισμός μίας συνεχούς ιδιότητας σε διακριτή ιακριτοποίηση (discretization) υαδική μετατροπή: Η ειδική περίπτωση του μετασχηματισμού συνεχούς ιδιότητας δό σε δυαδική (binarization). Χρήσεις, λόγοι; Απαιτήσεις Αλγορίθμων Απόδοση/Αποτελεσματικότητα μοντέλων 21
Αλγόριθμοι Κβάντωσης Υπολόγισε το μέγεθος, n, του διακριτού πεδίου Π.χ., χρησιμοποιώνατς τον τύπος Sturges: n=log 2 (M+1), Μ: πλήθος διαφορετικών τιμών Ταξινόμησε τις τιμές της συνεχούς μεταβλητής. ιαχώρισε τις τιμές αυτές σε n διακριτά διαστήματα, με καθορισμό n-1 σημείων διαχωρισμού. Αντιστοίχησε ένα-προς-ένα κάθε διάστημα με μία εκ των n τιμών του διακριτού πεδίου. 22
Ισο-ευρής διαχωρισμός ιαστήματα ίσου εύρους Κάθε διάστημα δεν αντιπροσωπεύεται από ισοδύναμο αριθμό σημείων Πρόβλημα στις ανομοιόμορφες (skewed) κατανομές 23
Εύρος ιαστημάτων Έχοντας ορίσει το n, n το εύρος W είναι: X max X min W = n X max X Εναλλακτικός ορισμός του n: n = W με W = 3.5( Q 3 Q ) 3 1 3. 5, W = 3 M σ M min 24
Ισο-υψής διαχωρισμός Μεταβλητό εύρος των διαστημάτων Σταθερός αριθμός σημείων σε κάθε διάστημα Κάθε διάστημα αντιπροσωπεύεται από ισοδύναμο αριθμό σημείων 25
Επιβλεπόμενη κβάντωση β μ η β η Λαμβάνεται υπόψιν η πληροφορία της κλάσης όπου ανήκει άθ έ (k λά δ ή ) κάθε αντικέιμενο (k κλάσεις, n διαστήματα) i j i k j i j i i m m m m e =, 2 1, log i n i i j i e M m e m m = = 1 i i M =1 26
Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών Μέτρα απόστασης 27
Μείωση μεγέθους μγ Σ1 Σ2 Σ3 Σ4 Σ5 δειγματοληψία Αρχικά δεδομένα Σ1 Σ2 Σ3 Σ4 Σ5 Σ 1 Σ 2 Σ1 Σ4 ιδιοδιανύσματα επιλογή χαρακτηριστικών 28
ειγματοληψία Χρησιμοποιείται για επιλογή δεδομένων τόσο στην προεπεξεργασία όσο στην τελική ανάλυση. Στη στατιστική, προτιμάται όταν το κόστος απόκτησης ολόκληρου του συνόλου δεδομένων είναι πολύ υψηλό ή χρονοβόρο. Στην Ε, προτιμάται όταν το κόστος επεξεργασίας ολόκληρου του συνόλου δεδομένων είναι πολύ υψηλό ή χρονοβόρο. Κλιμακούμενοι αλγόριθμοι έχουν μικρότερη ανάγκη από δειγματοληψία Η χρησιμοποίηση δείγματος δεν οδηγεί σε διαφορετικά αποτελέσματα σε σχέση με τη χρησιμοποίηση όλων των δεδομένων ΑΡΚΕΙ το δείγμα να είναι αντιπροσωπευτικό ηλ. να έχει τις ίδιες ιδιότητες (απο αυτές που μας ενδιαφέρουν) με το σύνολο 29
Τύποι ειγματοληψίας Απλή τυχαία δειγματοληψία Με επανατοποθέτηση Χωρίς επανατοποθέτηση Στρωματοποιημένη δειγματοληψία 30
Απλή τυχαία δειγματοληψία Μέγεθος δείγματος? ιατήρηση μέσης τιμής, κλπ. Ακρίβεια κατηγοριοποίησης Παράπλευρο όφελος: απαλοιφή outliers ιάστημα εμπιστοσύνης (με χρήση κεντρικού οριακού θεωρήματος) Για μέση τιμή δείγματος να απέχει από τη μέση τιμή του αρχικού πληθυσμου μ το πολύ δ, υπολογίζω μέγεθος δείγματος ως εξής: P( X μ δ ) = α n z σ 2 z a δ 2 Z α : κανονικοποιημένη τιμή της κανονικής κατανομής που αντιστοιχεί στην τιμή α. 31
Υπενθύμιση για κανονική κατανομή μ= 0 και σ=1 στην προηγούμενη διαφάνεια α Ζ α 32
Μέγεθος είγματος με Βάση την Ακρίβεια Παράδειγμα με το IRIS σύνολο δεδομένων Τα μεγάλα δείγματα δεν σημαίνουν καλύτερα αποτελέσματα λόγω γ του overfiting Αλλά μικρά δείγματα μπορούν να χάσουν πληροφορία συνδιασποράς! 33
Στρωματοποιημένη η δειγματοληψία ιαφορετικά μεγέθη μεταξύ των ομάδων η τυχαία δειγματοληψία παράγει δείγμα στο οποίο δεν αντιπροσωπεύονται ικανοποιητικά όλες οι ομάδες Στρωματοποιημένη δειγματοληψία εφαρμόζουμε μ τυχαία δειγματοληψία σε κάθε ομάδα ξχ ξεχωριστά [ 34
Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών Μέτρα απόστασης 35
Μείωση στηλών Η «κατάρα της διαστασιμότητας» Με μείωση αριθμού διαστάσεων: απαλοιφή εξαρτήσεων άσχετων χαρακτηριστικών δυνατότητα προβολής (για <= 3 διαστάσεις) Καλύτερα,, πιο κατανοητά και γρηγορότερα ρ ρ αποτελέσματα 2 βασικές μέθοδοι 1. ημιουργία νέων χαρακτηριστικών Ανάλυση Πρωταρχικών Συνιστωσών Principal Component Analysis (PCA) 2. Επιλογή χαρακτηριστικών Φιλτράρισμα Μαύρο κουτί 36
Μείωση διαστάσεων Dimensions = 120 160 206 10 40 80 37
Παράδειγμα PCA Χ1 Χ2 2.5 2.4 0.5 0.7 2.2 2.9 1.9 2.2 3.1 3.0 23 2.3 27 2.7 2 1.6 1 1.1 1.5 1.6 1.1 0.9 Το ζητούμενο είναι να πάμε από 2 σε 1 διάσταση Ακολουθούμε μία διαδικασία 5 βημάτων 38
Βήμα 1: αφαίρεση μέσης τιμής 39
Βήμα 2: πίνακας συνδιασποράς C = E[( X X )( X X i, j i i j j )] C = διασπορά 0.6166 0.6154 0.6154 0.7166 7166 Πόσο μεταβάλλονται μαζί τα Χ1,Χ2 40
Βήμα 3: ιδιοδιανύσματα - ιδιοτιμές μς Cu = λu μεγαλύτερη εναπομένουσα διασπορά 2 λύσεις στην εξίσωση u1= [-0.7352,0.6779] T λ1= 0.0491 u2= [0.6779, 0.7352] T λ2= 1.2840 Κατεύθυνση με τη μεγαλύτερη διασπορά 41
Βήμα 4: επιλογή νέων ιδιοτήτων 1. ιάταξη ιδιοδιανυσμάτων βάσει ιδιοτιμών. 2. Τα αντικείμενα περιγράφονται ως γραμμικός συνδυασμός των ιδιοδιανυσμάτων, που ονομάζονται κύριες συνιστώσες. U = [ u, u ] U 2 ( x 1, x 2 ) 1 ( x 1, x 2 ) U C = 1.284 0 0 0.0491 Οι νέες διαστάσεις είναι ασυσχέτιστες 42
Βήμα 5: μείωση διαστάσεων U ( x 1 U Επιλέγουμε τα πρώτα k ιδιοδιανύσματα = [ u, u,..., u,..., u ',..., 1 = [ u x n ) 2 1, u 2 ( x k,..., u 1,..., k x ] n n ] ) U ' k = 1 (+) k = 2 (o) 43
Παράδειγμα: Iris 150 λουλούδια 4 διαστάσεις (μήκος/πλάτος σέπαλου/πετάλου) 3 κλάσεις (Setosa, Versicolor, Virginica) Πως επιλέγουμε σε πόσες διαστάσεις θα γίνει η προβολή; 44
Επιλογή χαρακτηριστικών Τα ιδιοδιανύσματα δεν αντιστοιχούν στις αρχικές διαστάσεις Αν πρέπει να επιλέξουμε μεταξύ των αρχικών διαστάσεων; Φλ Φιλτράρισμα: Επιλέγουμε ανεξάρτητα του αλγορίθμου που θα εφαρμοσθεί στη συνέχεια Μαύρο κουτί: Χρησιμοποιούμε τον αλγόριθμο σαν μαύρο κουτί, για την εύρεση του καταλληλότερου υποσυνόλου διαστάσεων 45
Φιλτράρισμα ρ 3 πρώτα βήματα όπως και στο PCA Στο παράδειγμα IRIS: Επιλέγουμε τα δύο πρώτα ιδιοδιανύσματα u1 = (0.3614, -0.0845, 0.8567, 0.3583) T u2 = (-0.6566, -0.7302, 0.1734, 0.0755) 0755) T Παίρνουμε το άθροισμα u1 + u2 =(-0.2952, -0.8147, 1.0300, 0.4338) T Η τρίτη και η τέταρτη θέση έχουν τη μεγαλύτερη τιμή Ένδειξη ότι η τρίτη και η τέταρτη ρηιδιότητα(μήκος - πλάτος πετάλου PL, PW) είναι οι καταλληλότερες για επιλογή 46
Παράδειγμα 47
Μαύρο κουτί 48
Μέτρα ομοιότητας/απόστασης ης Ιδιότητες μέτρων ομοιότητας Ανακλαστική s ( x, y) = 1 x = y Συμμετρική s ( x, y) = s( y, x) ΑΠΟΣΤΑΣΗ=ΜΟΝΟΤΟΝΑ_ΦΘΗΝΟΥΣΑ(ΟΜΟΙΟΤΗΤΑ) ( ) Ιδιότητες μετρικού απόστασης Θετικότητα d ( x, y ) 0 Ανακλαστικη d ( x, y) = 0 x = y Συμμετρικη d ( x, y ) = d ( y, x ) Τριγωνική ανισότητα d ( x, y) d ( x, z) + d ( z, y) 49
Μέτρα και Μετρικά: Τριγωνική ργ ανισότητα d ( x, y ) = 1, αν διαφέρουν και σε χρώμα και σε σχήμα 0, αλλιώς d(α, Γ) = 1, d(α, Β) = d(β, Γ) = 0 d(α, Γ) ) > d(α, Β) ) + d(β, Γ) ) 50
Απόσταση Minkowski Γενίκευση ευκλίδειας απόστασης όλα τα μέτρα είναι μετρικά n d( x, y) = r i=11 x i y i r r=1: Manhattan/block απόσταση r=2: Ευκλίδεια απόσταση r=άπειρο: υπέρτατη απόσταση d( x, y) = max( x i yi ) 51
Παράδειγμα 52
Ομοιότητα cos s ( x, x y x y y ) = x y = x y i i x = xi 2 Σύνοψη χαρακτηριστικών: Προτιμάται όταν το μέγεθος δεν παίζει ρόλο. Ανοχή-ανθεκτικότητα σε αραιά διανύσματα. Παραβιάζει όμως την ανακλαστική ιδιότητα! Αντίστοιχη είναι και η συσχέτιση Pearson. 53
Συσχέτιση Pearson corr X, Y = C X, Y σ X σ Y 54
Απόσταση Mahalanobis Τα σημεία είναι κατανεμημένα σε σχήμα έλλειψης αντί για κύκλου! d( x, y) = ( x y) C 1 ( x y) T 0.9167 0.6667 C = 0.6667 0.6667 d( p3, p2) = 1.5 = 1.2247 d p, p ) 2 ( 3 1 = (με Ευκλείδεια το p1 είναι πιο κοντά στο p3 από ότι το p2) 55
Απόσταση για δυαδικά δεδομένα s( x, y) = f 01 + f11 + f + f f 10 f f 00 11 + f 00 11 s ( x, y ) = (Jaccard) f 01 + 10 + f 11 56