Ζητήματα ηήμ με τα δεδομένα

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Στατιστικοί πίνακες. Δημιουργία κλάσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Kruskal-Wallis H

HMY 795: Αναγνώριση Προτύπων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

Βιοστατιστική ΒΙΟ-309

Ευφυής Προγραμματισμός

Στατιστική, Άσκηση 2. (Κανονική κατανομή)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών

7. ΕΠΕΞΕΡΓΑΣΊΑ ΣΗΜΆΤΩΝ

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Βιοστατιστική ΒΙΟ-309

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Διαστήματα εμπιστοσύνης, εκτίμηση ακρίβειας μέσης τιμής

Βιοστατιστική ΒΙΟ-309

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Παραδείγματα Ιδιοτιμές Ιδιοδιανύσματα

Συμπίεση Δεδομένων

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Στατιστική Ι. Ενότητα 8: Επαγωγική Στατιστική. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Αναγνώριση Προτύπων Ι

Στατιστική Επιχειρήσεων Ι

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

Κατανομή συνάρτησης τυχαίας μεταβλητής Y=g(X) Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ13 ( 1 )

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση 8/6/2017 Διδάσκων: Ι. Λυχναρόπουλος

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Έλεγχος υποθέσεων ΚΛΑΣΙΚΟΙ ΈΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ. Ημέσητιμήενόςπληθυσμούείναιίσημε δοθείσα γνωστή τιμή. Έλεγχος για τις μέσες τιμές δύο πληθυσμών.

Διαστήματα Εμπιστοσύνης

E[ (x- ) ]= trace[(x-x)(x- ) ]

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Επισκόπηση ύλης Πιθανοτήτων: Μέρος ΙΙ. M. Kούτρας

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

1 x-μ - 2 σ. e σ 2π. f(x) =

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Η ΚΑΝΟΝΙΚΗ ΜΟΡΦΗ JORDAN

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Αναλυτική Στατιστική

Διάστημα εμπιστοσύνης της μέσης τιμής

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

HMY 795: Αναγνώριση Προτύπων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Απαραμετρική Στατιστική. Το βαθμονομικό κριτήριο του Wilcoxon, για ζευγαρωτες παρατηρήσεις Ο βαθμονομικός συντελεστής συσχέτισης του Spearman

Το Κεντρικό Οριακό Θεώρημα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Κεφάλαιο 2: Θεωρία Απόφασης του Bayes 2.1 Εισαγωγή

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

X = = 81 9 = 9

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

Θεωρία Δυαδικότητας ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ. Η παρουσίαση προετοιμάστηκε από τον Ν.Α. Παναγιώτου. Επιχειρησιακή Έρευνα

Ψηφιακή Επεξεργασία Εικόνας. Σ. Φωτόπουλος ΨΕΕ

ΧΑΡΑΚΤΗΡΙΣΤΙΚΟ ΠΟΛΥΩΝΥΜΟ ΠΙΝΑΚΑ: Έστω Α ένας n nπίνακας επί ενός σώματος F. Για χ στο F, ορίζεται το πολυώνυμο ( ως προς χ ) : h ( x) = det( A- xi ).

Α.Τ.Ε.Ι. ΜΑΚΕΔΟΝΙΑΣ Τμήμα πληροφορικής και επικοινωνιών. Συμπίεση ψηφιακών εικόνων με ανάλυση κύριων συνιστωσών και χρήση νευρωνικού δικτύου.

EukleÐdeiec emfuteôseic: ˆnw frˆgmata

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

Συμπίεση Δεδομένων

ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ

Αναγνώριση Προτύπων Ι

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

z = c 1 x 1 + c 2 x c n x n

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος

h(x, y) = card ({ 1 i n : x i y i

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

ΚΕΦΑΛΑΙΟ 4ο ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΑΠΟ ΣΥΝΕΧΕΙΣ ΚΑΙ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ

Λυμένες ασκήσεις στροφορμής

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

Στατιστική Συμπερασματολογία

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 4ο

ΠΛΗ 12- Σχέση ισοδυναμίας, γραμμικά συστήματα και απαλοιφή Gauss

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Αριθμητική Ανάλυση και Εφαρμογές

Transcript:

Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών Μέτρα απόστασης 20

Κβάντωση Κβάντωση: ο μετασχηματισμός μίας συνεχούς ιδιότητας σε διακριτή ιακριτοποίηση (discretization) υαδική μετατροπή: Η ειδική περίπτωση του μετασχηματισμού συνεχούς ιδιότητας δό σε δυαδική (binarization). Χρήσεις, λόγοι; Απαιτήσεις Αλγορίθμων Απόδοση/Αποτελεσματικότητα μοντέλων 21

Αλγόριθμοι Κβάντωσης Υπολόγισε το μέγεθος, n, του διακριτού πεδίου Π.χ., χρησιμοποιώνατς τον τύπος Sturges: n=log 2 (M+1), Μ: πλήθος διαφορετικών τιμών Ταξινόμησε τις τιμές της συνεχούς μεταβλητής. ιαχώρισε τις τιμές αυτές σε n διακριτά διαστήματα, με καθορισμό n-1 σημείων διαχωρισμού. Αντιστοίχησε ένα-προς-ένα κάθε διάστημα με μία εκ των n τιμών του διακριτού πεδίου. 22

Ισο-ευρής διαχωρισμός ιαστήματα ίσου εύρους Κάθε διάστημα δεν αντιπροσωπεύεται από ισοδύναμο αριθμό σημείων Πρόβλημα στις ανομοιόμορφες (skewed) κατανομές 23

Εύρος ιαστημάτων Έχοντας ορίσει το n, n το εύρος W είναι: X max X min W = n X max X Εναλλακτικός ορισμός του n: n = W με W = 3.5( Q 3 Q ) 3 1 3. 5, W = 3 M σ M min 24

Ισο-υψής διαχωρισμός Μεταβλητό εύρος των διαστημάτων Σταθερός αριθμός σημείων σε κάθε διάστημα Κάθε διάστημα αντιπροσωπεύεται από ισοδύναμο αριθμό σημείων 25

Επιβλεπόμενη κβάντωση β μ η β η Λαμβάνεται υπόψιν η πληροφορία της κλάσης όπου ανήκει άθ έ (k λά δ ή ) κάθε αντικέιμενο (k κλάσεις, n διαστήματα) i j i k j i j i i m m m m e =, 2 1, log i n i i j i e M m e m m = = 1 i i M =1 26

Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών Μέτρα απόστασης 27

Μείωση μεγέθους μγ Σ1 Σ2 Σ3 Σ4 Σ5 δειγματοληψία Αρχικά δεδομένα Σ1 Σ2 Σ3 Σ4 Σ5 Σ 1 Σ 2 Σ1 Σ4 ιδιοδιανύσματα επιλογή χαρακτηριστικών 28

ειγματοληψία Χρησιμοποιείται για επιλογή δεδομένων τόσο στην προεπεξεργασία όσο στην τελική ανάλυση. Στη στατιστική, προτιμάται όταν το κόστος απόκτησης ολόκληρου του συνόλου δεδομένων είναι πολύ υψηλό ή χρονοβόρο. Στην Ε, προτιμάται όταν το κόστος επεξεργασίας ολόκληρου του συνόλου δεδομένων είναι πολύ υψηλό ή χρονοβόρο. Κλιμακούμενοι αλγόριθμοι έχουν μικρότερη ανάγκη από δειγματοληψία Η χρησιμοποίηση δείγματος δεν οδηγεί σε διαφορετικά αποτελέσματα σε σχέση με τη χρησιμοποίηση όλων των δεδομένων ΑΡΚΕΙ το δείγμα να είναι αντιπροσωπευτικό ηλ. να έχει τις ίδιες ιδιότητες (απο αυτές που μας ενδιαφέρουν) με το σύνολο 29

Τύποι ειγματοληψίας Απλή τυχαία δειγματοληψία Με επανατοποθέτηση Χωρίς επανατοποθέτηση Στρωματοποιημένη δειγματοληψία 30

Απλή τυχαία δειγματοληψία Μέγεθος δείγματος? ιατήρηση μέσης τιμής, κλπ. Ακρίβεια κατηγοριοποίησης Παράπλευρο όφελος: απαλοιφή outliers ιάστημα εμπιστοσύνης (με χρήση κεντρικού οριακού θεωρήματος) Για μέση τιμή δείγματος να απέχει από τη μέση τιμή του αρχικού πληθυσμου μ το πολύ δ, υπολογίζω μέγεθος δείγματος ως εξής: P( X μ δ ) = α n z σ 2 z a δ 2 Z α : κανονικοποιημένη τιμή της κανονικής κατανομής που αντιστοιχεί στην τιμή α. 31

Υπενθύμιση για κανονική κατανομή μ= 0 και σ=1 στην προηγούμενη διαφάνεια α Ζ α 32

Μέγεθος είγματος με Βάση την Ακρίβεια Παράδειγμα με το IRIS σύνολο δεδομένων Τα μεγάλα δείγματα δεν σημαίνουν καλύτερα αποτελέσματα λόγω γ του overfiting Αλλά μικρά δείγματα μπορούν να χάσουν πληροφορία συνδιασποράς! 33

Στρωματοποιημένη η δειγματοληψία ιαφορετικά μεγέθη μεταξύ των ομάδων η τυχαία δειγματοληψία παράγει δείγμα στο οποίο δεν αντιπροσωπεύονται ικανοποιητικά όλες οι ομάδες Στρωματοποιημένη δειγματοληψία εφαρμόζουμε μ τυχαία δειγματοληψία σε κάθε ομάδα ξχ ξεχωριστά [ 34

Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών Μέτρα απόστασης 35

Μείωση στηλών Η «κατάρα της διαστασιμότητας» Με μείωση αριθμού διαστάσεων: απαλοιφή εξαρτήσεων άσχετων χαρακτηριστικών δυνατότητα προβολής (για <= 3 διαστάσεις) Καλύτερα,, πιο κατανοητά και γρηγορότερα ρ ρ αποτελέσματα 2 βασικές μέθοδοι 1. ημιουργία νέων χαρακτηριστικών Ανάλυση Πρωταρχικών Συνιστωσών Principal Component Analysis (PCA) 2. Επιλογή χαρακτηριστικών Φιλτράρισμα Μαύρο κουτί 36

Μείωση διαστάσεων Dimensions = 120 160 206 10 40 80 37

Παράδειγμα PCA Χ1 Χ2 2.5 2.4 0.5 0.7 2.2 2.9 1.9 2.2 3.1 3.0 23 2.3 27 2.7 2 1.6 1 1.1 1.5 1.6 1.1 0.9 Το ζητούμενο είναι να πάμε από 2 σε 1 διάσταση Ακολουθούμε μία διαδικασία 5 βημάτων 38

Βήμα 1: αφαίρεση μέσης τιμής 39

Βήμα 2: πίνακας συνδιασποράς C = E[( X X )( X X i, j i i j j )] C = διασπορά 0.6166 0.6154 0.6154 0.7166 7166 Πόσο μεταβάλλονται μαζί τα Χ1,Χ2 40

Βήμα 3: ιδιοδιανύσματα - ιδιοτιμές μς Cu = λu μεγαλύτερη εναπομένουσα διασπορά 2 λύσεις στην εξίσωση u1= [-0.7352,0.6779] T λ1= 0.0491 u2= [0.6779, 0.7352] T λ2= 1.2840 Κατεύθυνση με τη μεγαλύτερη διασπορά 41

Βήμα 4: επιλογή νέων ιδιοτήτων 1. ιάταξη ιδιοδιανυσμάτων βάσει ιδιοτιμών. 2. Τα αντικείμενα περιγράφονται ως γραμμικός συνδυασμός των ιδιοδιανυσμάτων, που ονομάζονται κύριες συνιστώσες. U = [ u, u ] U 2 ( x 1, x 2 ) 1 ( x 1, x 2 ) U C = 1.284 0 0 0.0491 Οι νέες διαστάσεις είναι ασυσχέτιστες 42

Βήμα 5: μείωση διαστάσεων U ( x 1 U Επιλέγουμε τα πρώτα k ιδιοδιανύσματα = [ u, u,..., u,..., u ',..., 1 = [ u x n ) 2 1, u 2 ( x k,..., u 1,..., k x ] n n ] ) U ' k = 1 (+) k = 2 (o) 43

Παράδειγμα: Iris 150 λουλούδια 4 διαστάσεις (μήκος/πλάτος σέπαλου/πετάλου) 3 κλάσεις (Setosa, Versicolor, Virginica) Πως επιλέγουμε σε πόσες διαστάσεις θα γίνει η προβολή; 44

Επιλογή χαρακτηριστικών Τα ιδιοδιανύσματα δεν αντιστοιχούν στις αρχικές διαστάσεις Αν πρέπει να επιλέξουμε μεταξύ των αρχικών διαστάσεων; Φλ Φιλτράρισμα: Επιλέγουμε ανεξάρτητα του αλγορίθμου που θα εφαρμοσθεί στη συνέχεια Μαύρο κουτί: Χρησιμοποιούμε τον αλγόριθμο σαν μαύρο κουτί, για την εύρεση του καταλληλότερου υποσυνόλου διαστάσεων 45

Φιλτράρισμα ρ 3 πρώτα βήματα όπως και στο PCA Στο παράδειγμα IRIS: Επιλέγουμε τα δύο πρώτα ιδιοδιανύσματα u1 = (0.3614, -0.0845, 0.8567, 0.3583) T u2 = (-0.6566, -0.7302, 0.1734, 0.0755) 0755) T Παίρνουμε το άθροισμα u1 + u2 =(-0.2952, -0.8147, 1.0300, 0.4338) T Η τρίτη και η τέταρτη θέση έχουν τη μεγαλύτερη τιμή Ένδειξη ότι η τρίτη και η τέταρτη ρηιδιότητα(μήκος - πλάτος πετάλου PL, PW) είναι οι καταλληλότερες για επιλογή 46

Παράδειγμα 47

Μαύρο κουτί 48

Μέτρα ομοιότητας/απόστασης ης Ιδιότητες μέτρων ομοιότητας Ανακλαστική s ( x, y) = 1 x = y Συμμετρική s ( x, y) = s( y, x) ΑΠΟΣΤΑΣΗ=ΜΟΝΟΤΟΝΑ_ΦΘΗΝΟΥΣΑ(ΟΜΟΙΟΤΗΤΑ) ( ) Ιδιότητες μετρικού απόστασης Θετικότητα d ( x, y ) 0 Ανακλαστικη d ( x, y) = 0 x = y Συμμετρικη d ( x, y ) = d ( y, x ) Τριγωνική ανισότητα d ( x, y) d ( x, z) + d ( z, y) 49

Μέτρα και Μετρικά: Τριγωνική ργ ανισότητα d ( x, y ) = 1, αν διαφέρουν και σε χρώμα και σε σχήμα 0, αλλιώς d(α, Γ) = 1, d(α, Β) = d(β, Γ) = 0 d(α, Γ) ) > d(α, Β) ) + d(β, Γ) ) 50

Απόσταση Minkowski Γενίκευση ευκλίδειας απόστασης όλα τα μέτρα είναι μετρικά n d( x, y) = r i=11 x i y i r r=1: Manhattan/block απόσταση r=2: Ευκλίδεια απόσταση r=άπειρο: υπέρτατη απόσταση d( x, y) = max( x i yi ) 51

Παράδειγμα 52

Ομοιότητα cos s ( x, x y x y y ) = x y = x y i i x = xi 2 Σύνοψη χαρακτηριστικών: Προτιμάται όταν το μέγεθος δεν παίζει ρόλο. Ανοχή-ανθεκτικότητα σε αραιά διανύσματα. Παραβιάζει όμως την ανακλαστική ιδιότητα! Αντίστοιχη είναι και η συσχέτιση Pearson. 53

Συσχέτιση Pearson corr X, Y = C X, Y σ X σ Y 54

Απόσταση Mahalanobis Τα σημεία είναι κατανεμημένα σε σχήμα έλλειψης αντί για κύκλου! d( x, y) = ( x y) C 1 ( x y) T 0.9167 0.6667 C = 0.6667 0.6667 d( p3, p2) = 1.5 = 1.2247 d p, p ) 2 ( 3 1 = (με Ευκλείδεια το p1 είναι πιο κοντά στο p3 από ότι το p2) 55

Απόσταση για δυαδικά δεδομένα s( x, y) = f 01 + f11 + f + f f 10 f f 00 11 + f 00 11 s ( x, y ) = (Jaccard) f 01 + 10 + f 11 56