ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ.
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Με τον όρο, αναγωγή χαρακτηριστικών διανυσμάτων, εννοούμε το πρόβλημα της ελάττωσης της διάστασης του χαρακτηριστικού διανύσματος, εάν αυτό είναι δυνατόν, έτσι ώστε να επιλέξουμε τις πιο σημαντικές συνιστώσες αυτού, χωρίς να χάσουμε- όσο το δυνατόντην ικανότητα σωστής κατηγοριοποίησης Αποτελέσματα Η επιλογή των συνιστωσών που «μεταφέρουν» την μέγιστη πληροφορία έχει σαν αποτέλεσμα ότι ο ταξινομητής που προκύπτει έχει μεγάλη αξιοπιστία, δηλαδή: οι κλάσεις έχουν μεγάλη απόσταση μεταξύ τους ενώ η διασπορά μέσα σε κάθε κλάση είναι μικρή Ελάττωση του όγκου των υπολογισμών (compleity)
Πότε και γιατί είναι δυνατή η αναγωγή; Η συσχέτιση μεταξύ των συνιστωσών έχει σαν αποτέλεσμα ότι ο συνυπολογισμός τους δεν δίνει περισσότερη ικανότητα στον ταξινομητή Η ελάττωση του λόγου N / l δίνει αυξημένη δυνατότητα γενίκευσης του ταξινομητή Μεγάλος λόγος N / l συνεπάγεται αυξημένη δυνατότητα προσδιορισμού της τελικής ικανότητας του ταξινομητή
Προκαταρκτικό στάδιο Στην πράξη πολλές φορές υιοθετείται μία κανονικοποίηση και αδιαστατοποίηση των συνιστωσών k 2 k ik 1 N ik N i1 1 N 1 k ik k Προκειμένου να υπάρχει ίδιος αριθμός δεδομένων για κάθε συνιστώσα, εφαρμόζονται τεχνικές συμπλήρωσης δεδομένων., π.χ. συμπληρώνουμε με την αντίστοιχη μέση τιμή N i1 ( ik k ) 2
Έλεγχος Υπόθεσης Ένα πρώτο βήμα για την επιλογή των κατάλληλων συνιστωσών είναι ο έλεγχος για την «απόσταση» των αντίστοιχων μέσων τιμών κάθε συνιστώσας στις αντίστοιχες κλάσεις Αυτό μπορεί να γίνει με την γνωστή μέθοδο από την στατιστική, τον έλεγχο υπόθεσης, δηλαδή, H H 1 0 :Οι :Οι τιμές τιμές της συνιστώσας διαφέρουνσημαντικά της συνιστώσας δεν διαφέρουνσημαντικά
Έλεγχος Διασποράς Πρόβλημα Η επιλογή των συνιστωσών μόνο με το κριτήριο του μέσου μπορεί να μην είναι αρκετή: Πράγματι, μπορεί οι μέσοι να διαφέρουν αρκετά αλλά η διασπορά να είναι μεγάλη με αποτέλεσμα να παρατηρείτε αλληλοεπικάλυψη μεταξύ των Κλάσεων Λύση Έλεγχος αλληλοεπικάλυψης χωριστά για κάθε συνιστώσα, π.χ. διαγράμματα αλληλεπικαλύψεις
Μέτρα Διαχωρισμού Πρόβλημα Μέχρι τώρα η επιλογή των συνιστωσών παρουσιάσθηκε με την μελέτη των ατομικών τους χαρακτηριστικών. Για μια πληρέστερη μελέτη θα πρέπει κανείς να ελέγξει την ικανότητα ταξινόμησης ενός συγκεκριμένου χαρακτηριστικού διανύσματος συνυπολογίζοντας όλες τις συνιστώσες του. Αυτή η μέθοδος έχει το πλεονέκτημα ότι μπορεί να προσδιορίσει τυχόν αλληλεξαρτήσεις μεταξύ των συνιστωσών
ναγωγή Χαρακτηριστικών Διανυσμάτων Μέτρα Διαχωρισμού Λύση Κατασκευάζουμε μέτρα διαχωρισμού συναρτήσει όλων των συνιστωσών του χαρακτηριστικού διανύσματος Παράδειγμα d M i1 M j1 P( )P( ) d i j ij d ij p( ) p ( ) i p( ) p( ) ln d i j j
Τελική αναγωγή Πρόβλημα Με βάση τα προαναφερθέντα μέτρα διαχωρισμού πως επιλέγω τη βέλτιστη ομάδα συνιστωσών του αρχικού χαρακτηριστικού διανύσματος; Λύση Κατασκευάζουμε όλους τους πιθανούς συνδυασμούς και υπολογίζω τα αντίστοιχα μέτρα m l m! l!( m l )! Είναι π.χ.15504 για m 20 και l Εναλλακτικές Λύσεις Προσπάθεια ελαχιστοποίησης του υπολογιστικού φόρτου 5
Εξαγωγή χαρακτηριστικών Πρόβλημα Πως από ένα σύνολο προτύπων εκμάθησης (π.χ. σήματα ομιλίας ) μπορώ να βρω / εξάγω κατάλληλα χαρακτηριστικά διανύσματα; Λύση Χρήση γραμμικών μετασχηματισμών για την εξάλειψη επαναλαμβανόμενης «πληροφορίας» Παραδείγματα Μετασχηματισμός Fourier Μετασχηματισμοί Wavelet Άλλοι μετασχηματισμοί
Τέλος Ενότητας