(Introduction to Feature Selection)



Σχετικά έγγραφα
Επιλογή χαρακτηριστικών

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Αναγνώριση Προτύπων Ι

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Διακριτικές Συναρτήσεις

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΜΕΘΟΔΟΙ ΑΕΡΟΔΥΝΑΜΙΚΗΣ

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών

substructure similarity search using features in graph databases

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Ευφυής Προγραμματισμός

HMY 795: Αναγνώριση Προτύπων

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Χαρακτηρισµός Νεοπλασµάτων στη Μαστογραφία από το Σχήµα της Παρυφής µε χρήση Νευρωνικών ικτύων

Συλλογιστική εξαγωγής συμπερασμάτων από συγκεκριμένες υποθέσεις δοθείσα μεθοδολογία διαδικασία της σκέψης, πρέπει να «συλλογιστεί» υπόθεση/παραγωγή

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή. Ονοματεπώνυμο: Αργυρώ Ιωάννου. Επιβλέπων καθηγητής: Δρ. Αντρέας Χαραλάμπους

ΜΟΝΤΕΛΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Proforma F. Flood-CBA#2 Training Seminars. Περίπτωση Μελέτης Ποταμός Έ βρος, Κοινότητα Λαβάρων

ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

Ανάπτυξη του Τεχνικού Κειμένου Η Αρχική Σύνταξη

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΑΓΧΟΣ ΚΑΙ ΚΑΤΑΘΛΙΨΗ ΣΕ ΓΥΝΑΙΚΕΣ ΜΕ ΚΑΡΚΙΝΟΥ ΤΟΥ ΜΑΣΤΟΥ ΜΕΤΑ ΑΠΟ ΜΑΣΤΕΚΤΟΜΗ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΠΤΥΧΙΑΚΗ/ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

Αλγόριθμοι Αναζήτησης. (AeppAcademy.com)

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2

Bayesian Discriminant Feature Selection

Quick algorithm f or computing core attribute

Βελτιστοποίηση κατανομής πόρων συντήρησης οδοστρωμάτων Πανεπιστήμιο Πατρών - Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών

HMY 795: Αναγνώριση Προτύπων

ΒΕΛΤΙΣΤΕΣ ΙΑ ΡΟΜΕΣ ΣΕ ΙΚΤΥΑ ΜΕΤΑΒΛΗΤΟΥ ΚΟΣΤΟΥΣ

Proforma B. Flood-CBA#2 Training Seminars. Περίπτωση Μελέτης Ποταμός Έ βρος, Κοινότητα Λαβάρων

Research on Economics and Management

Ανάκτηση Πληροφορίας

Nov Journal of Zhengzhou University Engineering Science Vol. 36 No FCM. A doi /j. issn

Τυπικά θέματα εξετάσεων. ΠΡΟΣΟΧΗ: Οι ερωτήσεις που παρατίθενται ΔΕΝ καλύπτουν την πλήρη ύλη του μαθήματος και παρέχονται απλά ενδεικτικά

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΚΑΤΑΛΟΓΟΣ ΕΚΠΑΙΔΕΥΣΗΣ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Διδάσκουσα: Χάλκου Χαρά,

ΠΕΡΙΕΧΟΜΕΝΑ. Μάρκετινγκ Αθλητικών Τουριστικών Προορισμών 1

ιατρικά απεικονιστικά συστήματα

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

On line αλγόριθμοι δρομολόγησης για στοχαστικά δίκτυα σε πραγματικό χρόνο

Δέντρα Απόφασης (Decision(

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΚΒΑΝΤΙΚΟΙ ΥΠΟΛΟΓΙΣΤΕΣ

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Proforma C. Flood-CBA#2 Training Seminars. Περίπτωση Μελέτης Ποταμός Έ βρος, Κοινότητα Λαβάρων

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή Η ΚΑΤΑΘΛΙΨΗ ΩΣ ΠΑΡΑΓΟΝΤΑΣ ΚΙΝΔΥΝΟΥ ΓΙΑ ΑΠΟΠΕΙΡΑ ΑΥΤΟΚΤΟΝΙΑΣ

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΘΕΜΑ»

Υπερπροσαρμογή (Overfitting) (1)

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΔΙΕΡΕΥΝΗΣΗ ΤΟΥ ΚΛΙΜΑΤΟΣ ΑΣΦΑΛΕΙΑΣ ΤΩΝ ΑΣΘΕΝΩΝ ΣΤΟ ΝΟΣΟΚΟΜΕΙΟ

, -.

Ο νοσηλευτικός ρόλος στην πρόληψη του μελανώματος

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Η Επίδραση των Events στην Απόδοση των Μετοχών

Ημερίδα διάχυσης αποτελεσμάτων έργου Ιωάννινα, 14/10/2015

ER-Tree (Extended R*-Tree)

Επιλογή Χαρακτηριστικών για Προβλήµατα Ταξινόµησης

Χρηματοοικονομική Ανάπτυξη, Θεσμοί και

ΕΥΘΑΛΙΑ ΚΑΜΠΟΥΡΟΠΟΥΛΟΥ

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ

No. 7 Modular Machine Tool & Automatic Manufacturing Technique. Jul TH166 TG659 A

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ

Μια από τις σημαντικότερες δυσκολίες που συναντά ο φυσικός στη διάρκεια ενός πειράματος, είναι τα σφάλματα.

Σχολή Διοίκησης και Οικονομίας. Μεταπτυχιακή διατριβή

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

Στοιχεία εισηγητή Ημερομηνία: 10/10/2017

ΠΑΡΑΜΕΤΡΟΙ ΕΠΗΡΕΑΣΜΟΥ ΤΗΣ ΑΝΑΓΝΩΣΗΣ- ΑΠΟΚΩΔΙΚΟΠΟΙΗΣΗΣ ΤΗΣ BRAILLE ΑΠΟ ΑΤΟΜΑ ΜΕ ΤΥΦΛΩΣΗ

Οδηγίες Εγγραφής στις Εξετάσεις για Ανεξάρτητους Υποψηφίους

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Numerical Analysis FMN011

HIV HIV HIV HIV AIDS 3 :.1 /-,**1 +332

[1] DNA ATM [2] c 2013 Information Processing Society of Japan. Gait motion descriptors. Osaka University 2. Drexel University a)

Α Ν Α Λ Τ Η Α Λ Γ Ο Ρ Ι Θ Μ Ω Ν Κ Ε Υ Α Λ Α Ι Ο 5. Πως υπολογίζεται ο χρόνος εκτέλεσης ενός αλγορίθμου;

Study of In-vehicle Sound Field Creation by Simultaneous Equation Method

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Ανάκτηση Πληροφορίας

ΑΓΓΛΙΚΑ Ι. Ενότητα 7α: Impact of the Internet on Economic Education. Ζωή Κανταρίδου Τμήμα Εφαρμοσμένης Πληροφορικής

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

Ευφυές Σύστημα Ανάλυσης Εικόνων Μικροσκοπίου για την Ανίχνευση Παθολογικών Κυττάρων σε Εικόνες Τεστ ΠΑΠ

Transcript:

Introduction to Feature Selection! Page 1 Mάριος Μπίκος Μάθημα: Αναγνώριση Προτύπων Ημερομηνία:03/01/2013 Tμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Η/Υ Πανεπιστήμιο Πατρών E ΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ 1. Εισαγωγή (Introduction to Feature Selection) Η προεπεξεργασία δεδομένων είναι ένα αναπόσπαστο τμήμα της αποτελεσματικής ανάλυσης δεδομένων.προετοιμάζει τα δεδομένα για την εκμάθηση μηχανής και την εξόρυξη δεδομένων, που στόχο έχουν να μετατρέψουν τις πληροφορίες αυτές σε επιχειρηματική ευφυΐα ή γνώση. ΈΈνα από τα μεγαλύτερα προβλήματα που σχετίζονται με την αναγνώριση προτύπων είναι η αποκαλούμενη κατάρα της διαστασιμότητας.ο αριθμός των χαρακτηριστικών που βρίσκονταν στη διάθεση του σχεδιαστή ενός συστήματος ταξινόμησης το 1997 δεν ξεπερνούσε τα 40 χαρακτηριστικά.ωστόσο σήμερα η κατάσταση έχει αλλάξει δραματικά αφού έχουν επικρατήσει νέοι τύποι δεδομένων και οι περισσότερες ερευνητικές εργασίες και τεχνικές ασχολούνται με τομείς που περιλαμβάνουν εκατοντάδες έως δεκάδες χιλιάδες χαρακτηριστικά. Χαρακτηριστικό παράδειγμα αποτελεί η επιλογή γονιδίων από μικροσυστοιχίες γονιδίων(dna Chip).Στο πρόβλημα αυτό, οι μεταβλητές είναι συντελεστές έκφρασης γονιδίου που δείχνουν την αφθονία του mrna σε ένα δείγμα (π.χ. βιοψία ιστού), για έναν αριθμό ασθενών. Στόχος είναι να διαχωριστούν υγιείς ασθενείς από ασθενείς με καρκίνο, με βάση το «προφίλ» γονιδιακής έκφρασης τους. Συνήθως λιγότερα από 100 παραδείγματα (ασθενείς) είναι διαθέσιμα συνολικά για την εκπαίδευση και τη δοκιμή. ΌΌμως, ο αριθμός των μεταβλητών(χαρακτηριστικών) στα πρωτογενή δεδομένα κυμαίνεται από 6.000 έως 60.000.Αλλά και στην καθημερινή μας ζωή χρησιμοποιούμε την επιλογή χαρακτηριστικών για να ταξινομήσουμε αντικείμενα όπως ανθρώπους και αμάξια.οι άνθρωποι έχουν χέρια, κάτι που λείπει από τα αμάξια.επιλέγοντας,λοιπόν, το κατάλληλο υποσύνολο χαρακτηριστικών μπορούμε να κάνουμε την κατάλληλη ταξινόμηση σε κατηγορίες. Η βασική ιδέα της επιλογής χαρακτηριστικών(feature selection) είναι ότι για να σχεδιάσουμε ένα σύστημα ταξινόμησης, επιλέγουμε πρώτα ένα υποσύνολο χαρακτηριστικών στο οποίο θα δοθεί έμφαση, αντί να χρησιμοποιήσουμε όλα τα διαθέσιμα χαρακτηριστικά, αποκλείοντας όσα είναι περιττά ή άσχετα.η επιλογή χαρακτηριστικών είναι αναγκαία σε ορισμένες περιπτώσεις, όπως όταν η διαδικασία επίτευξης των χαρακτηριστικών είναι ακριβή, όταν θέλουμε να εξάγουμε κανόνες με νόημα και όταν τα αρχικά χαρακτηριστικά δεν είναι μετρήσιμα μεγέθη. Υπάρχουν, ωστόσο, περισσότεροι από ένας λόγοι για να μειωθεί ο αριθμός των χαρακτηριστικών σε ένα επαρκές ελάχιστο.έένας από αυτούς είναι προφανώς η υπολογιστική πολυπλοκότητα. Επιπλέον, διευκολύνεται η οπτικοποίηση και η κατανόηση των δεδομένων, ενώ μειώνεται η ποσότητα των δεδομένων που απαιτούνται για την

Introduction to Feature Selection! Page 2 εκμάθηση και τη βελτίωση της προγνωστικής ακρίβειας των αλγορίθμων.έέτσι καταπολεμάται η κατάρα της διαστασιμότητας με σκοπό να βελτιωθούν οι επιδόσεις πρόβλεψης. Για να κάνουμε αυτό το είδος ταξινόμησης με βάση τα χαρακτηριστικά, θα πρέπει να καταλάβουμε ποια χαρακτηριστικά κάνουν καλή πρόβλεψη της κατηγορίας, ανάμεσα στις κατηγορίες εκείνες που προσπαθούμε να διακρίνουμε. Για παράδειγμα, οι τροχοί διακρίνουν τους ανθρώπους από τα αυτοκίνητα, αλλά όχι τα αυτοκίνητα από τα τρένα. Αυτοί είναι δύο διαφορετικοί στόχοι ταξινόμησης. Ανάλογα με το πρόβλημα ταξινόμησης που αντιμετωπίζουμε, διαφορετικά χαρακτηριστικά ή σύνολα χαρακτηριστικών μπορεί να είναι σημαντικά, και επιβάλλλεται να γνωρίζουμε τη διαδικασία ώστε να φτάσουμε στη γνώση του ποια από αυτά είναι τελικά απαραίτητα. Σε διάφορες ερευνητικές εργασίες, ένα απλό παράδειγμα αποδεικνύει ότι για ένα πεπερασμένο αριθμό συνόλου εκπαίδευσης Ν, με την αύξηση του αριθμού των χαρακτηριστικών βελτιώνεται αρχικά η απόδοση, αλλά μετά από μια κρίσιμη τιμή, περαιτέρω αύξηση του αριθμού των χαρακτηριστικών οδηγεί σε αύξηση της πιθανότητας σφάλματος.αυτό το φαινόμενο είναι επίσης γνωστό ως το φαινόμενο κορύφωσης(peaking phenomenon).αυτό επιβεβαιώνει τα όσα είπαμε και στην εισαγωγή, ότι δηλαδή δεν είναι πάντα σωστό να υποθέτουμε ότι όσο μεγαλώνει ο αριθμός των χαρακτηριστικών τόσο καλύτερο ταξινομητή θα έχουμε. Σχήμα 1. Peaking Phenomenon-N πρότυπα, l χαρακτηριστικά 2 Επιλογή υποσυνόλου χαρακτηριστικών Η διαδικασία επιλογής ενός υποσυνόλου χαρακτηριστικών προκειμένου να μειώσουμε τον αριθμό των χαρακτηριστικών και να πετύχουμε την βέλτιστη ταξινόμηση περιλαμβάνει 2 φάσεις: I. Ελάττωση του αριθμού των χαρακτηριστικών, με την απόρριψη εκείνων που φέρουν την λιγότερη πληροφορία, χρησιμοποιώντας τις Βαθμωτές τεχνικές επιλογής χαρακτηριστικών. II. Εξέταση των χαρακτηριστικών που έμειναν σε συνδυασμούς προκειμένου να πετύχουμε τον καλύτερο συνδυασμό χαρακτηριστικών, δηλαδή το βέλτιστο υποσύνολο χαρακτηριστικών.

Introduction to Feature Selection! Page 3 Ι)ΈΈνας τρόπος να μειωθεί λοιπόν ο αριθμός των χαρακτηριστικών γρήγορα και απλά είναι να εξεταστεί το καθένα ξεχωριστά και να υπάρξει μία ιεράρχηση από το σημαντικότερο προς το λιγότερο σημαντικό για την ταξινόμηση.για παράδειγμα αν σε ένα σύστημα ταξινόμησης έχουμε λεμόνια και μπανάνες, προφανώς το μήκος του φρούτου θα βρίσκεται πιο ψηλά στην ιεραρχία από το χρώμα του φρούτου το οποίο δεν μπορεί να διακρίνει τα φρούτα. 2.1 Βαθμωτές τεχνικές επιλογής χαρακτηριστικών Αρχικά,λοιπόν,εξετάζουμε πόση πληροφορία μεταφέρει κάθε χαρακτηριστικό.η διαδικασία αυτή μας βοηθά να απορρίψουμε εύκολα "κακές" επιλογές και κρατάμε τις πιο εξελιγμένες τεχνικές, οι οποίες θα εξεταστούν στη συνέχεια. Τρεις είναι οι κυριότερες βαθμωτές τεχνικές επιλογής χαρακτηριστικών: I)ΈΈλεγχος υποθέσεων: t-test Η βασική ιδέα στο t-test είναι να ελέγξουμε αν η μέση τιμή του χαρακτηριστικού για κάθε κλάση διαφέρει σημαντικά η μία από την άλλη.πρόκειται για μία δημοφιλή επιλογή όταν τα δεδομένα ακολουθούν την κανονική κατανομή. Στόχος είναι να ελεγχθεί ποια από τις παρακάτω 2 υποθέσεις ισχύει: Η1: Το χαρακτηριστικό έχει διαφορετική μέση τιμή σε κάθε κλάση Η0: Το χαρακτηριστικό έχει την ίδια μέση τιμή σε κάθε κλάση Εάν ισχύει το H0(μηδενική υπόθεση) τότε απορρίπτεται το χαρακτηριστικό, διότι είναι δύσκολο με βάση αυτό να διακρίνουμε τα δεδομένα σε κατηγορίες.αντιθέτως αν ισχύει το H1(εναλλακτική υπόθεση) οι τιμές του χαρακτηριστικού διαφέρουν σημαντικά ανάμεσα στις κατηγορίες και μπορούν να διακριθούν ευκολότερα.έέτσι το χαρακτηριστικό επιλέγεται. II)H καμπύλη Receiver Operating Characteristic(ROC) Εάν στην προηγούμενη μέθοδο, οι αντίστοιχες μέσες τιμές βρίσκονται κοντά, η πληροφορία μπορεί να μην είναι επαρκής για να εγγυηθούμε καλές ιδιότητες ταξινόμησης.η τεχνική ROC μας δίνει πληροφορίες σχετικά με την επικάλυψη ανάμεσα στις κατηγορίες αφού ποσοτικοποιεί μία περιοχή που ορίζουν 2 καμπύλες και ονομάζεται AUC(Area Under the receiver operating Curve). Σχήμα 2. Αριστερά 2 σ.π.π και δεξιά η καμπύλη ROC

Introduction to Feature Selection! Page 4 III) Λόγος Διάκρισης Fisher Για την ποσοτικοποίηση της διακριτικής ικανότητας ενός χαρακτηριστικού χρησιμοποιείται και ο λόγος διάκρισης Fisher(FDR).Ο λόγος αυτός είναι ανεξάρτητος της κατανομής που ακολουθεί η κλάση και ορίζεται ως: Feature Selection: An Ever Evolving Frontier in Data Mining and proteomics, and networks in social computing and system biology. Researchers are realizing Τα παραπάνω that in order κριτήρια to achieveδεν successful λαμβάνουν data mining, υπόψην feature τους selection τις συσχετίσεις is an indispensable ανάμεσα στα component χαρακτηριστικά (Liu and Motoda, και δεν 1998; αξιοποιούν Guyon and τον Elissee συντελεστή, 2003; Liu ετεροσυσχέτισης and Motoda, 2007). μεταξύ It τους.στην is βαθμωτή a process of επιλογή selectingχαρακτηριστικών, a subset of originalχρειάζεται features according αφού επιλέξουμε to certain criteria, κάποιο andκριτήριο,να γίνει anιεράρχηση important and των frequently χαρακτηριστικών used technique σε φθίνουσα in data mining σειρά for και dimension να υπολογιστεί reduction. η It ετεροσυσχέτιση reduces the number of features, removes irrelevant, redundant, or noisy features, and brings του πρώτου στην ιεραρχία με όλα τα υπόλοιπα.αυτή η ετεροσυσχέτιση μπορεί να about palpable e ects for applications: speeding up a data mining algorithm, improving learning επηρεάσει accuracy, σημαντικά and leading την toιεράρχηση better model των comprehensibility. χαρακτηριστικών. Various studies show that some features can be removed without performance deterioration (Ng, 2004; Donoho, 2006). 3.Διαδικασία Feature selection επιλογής has been Χαρακτηριστικών an active field of research for decades in data mining, and has been widely applied to many fields such as genomic analysis (Inza et al., 2004), text Στην mining προηγούμενη (Forman, 2003), ενότητα image retrieval είδαμε πώς (Gonzalez μπορούμε and Woods, να ταξινομήσουμε 1993; Swets and Weng, τα χαρακτηριστικά με 1995), βάση intrusion την διακριτική detection (Lee ικανότητα et al., 2000), του to κάθε nameχαρακτηριστικού a few. As new applications ανάμεσα emerge στις inκλάσεις.ωστόσο recent είναι years, ιδιαίτερα many challenges χρήσιμο arise να επιλέγουμε requiring novel υποσύνολα theories and συνδυασμών methods addressing χαρακτηριστικών(δηλ. highdimensional διανύσματα and complex χαρακτηριστικών) data. Feature για selection να πετύχουμε for data of ultrahigh ακόμα καλύτερη dimensionality διακριτική (Fan et ικανότητα.επειδή al., 2009), steam data (Glocer η ιδέα et να al., εξετάσουμε 2005), multi-task όλους data του (Liu δυνατούς et al., 2009; συνδυασμούς G. Obozinski έχει and Jordan, 2006), and multi-source data (Zhao et al., 2008, 2010a) are among emerging απαγορευτική υπολογιστική πολυπλοκότητα(np-hard), επιλέγουμε διαφορετικές μεθόδους. research topics of pressing needs. Feature Selection phase I NO Feature Subset Generation Evaluation Stop Criterion Training Data Yes Test Data Test Learning Model Training Learning Model Best Subset ACC Model Fitting/Performance Evaluation phase II Figure 1: A unified view of a feature selection process Σχήμα 3. Η διαδικασία επιλογής χαρακτηριστικών Το Figure Σχήμα 1 presents 2 παρουσιάζει a unified view μια ενιαία for a feature άποψη selection για μια process. διαδικασία A typical επιλογής feature selection Μία process τυπική contains διαδικασία two phases: επιλογής feature χαρακτηριστικών selection, and model περιλαμβάνει fitting and performance δύο φάσεις: την επιλογή χαρακτηριστικών. evaluation. The feature selection phase contains three steps: (1) generating a candidate set χαρακτηριστικών και την τοποθέτηση του μοντέλου με αξιολόγηση των επιδόσεων. containing a subset of the original features via certain research strategies; (2) evaluating the candidate set and estimating the utility of the features in the candidate set. Based on the evaluation, some features in the candidate set may be discarded or added to the selected feature set according to their relevance; and (3) determining whether the current 5

Introduction to Feature Selection! Page 5 Απαρτίζεται από 3 βήματα: (1) Δημιουργία ενός υποψήφιου σετ που περιέχει ένα υποσύνολο από τα αρχικά χαρακτηριστικά μέσω ορισμένων στρατηγικών έρευνας(βλ. προηγούμενες ενότητες) (2) Αξιολόγηση του υποψήφιου συνόλου και εκτίμηση της χρησιμότητας των χαρακτηριστικών στο σύνολο αυτό. Με βάση την αξιολόγηση, ορισμένα χαρακτηριστικά στο υποψήφιο σύνολο μπορεί να απορριφθούν ή να προστεθούν στο επιλεγμένο σύνολο χαρακτηριστικών. (3) Να καθοριστεί εάν το τρέχον σύνολο των επιλεγμένων χαρακτηριστικών είναι αρκετά καλό με τη χρήση ορισμένων κριτηρίων διακοπής. Αν είναι, ένας αλγόριθμος επιλογής χαρακτηριστικών θα επιστρέψει το σύνολο των επιλεγμένων χαρακτηριστικών, διαφορετικά, θα επαναλαμβάνεται μέχρι να ικανοποιηθεί το κριτήριο διακοπής. Ανάλογα με το πώς και πότε αξιολογείται η χρησιμότητα των επιλεγμένων χαρακτηριστικών, μπορούν να υιοθετηθούν διαφορετικές στρατηγικές που χωρίζονται σε 3 κατηγορίες: Filter,Wrapper και embedded μοντέλα. Filter Οι αλγόριθμοι του filter model παρέχουν γρήγορη εκτέλεση,αφού δεν περιλαμβάνουν επαναλήψεις και δεν βασίζονται σε ένα συγκεκριμένο ταξινομητή (classifier).έέχουν απλή κατασκευή, η οποία χρησιμοποιεί συνήθως μια απλή στρατηγική αναζήτησης και ένα κριτήριο αξιολόγησης χαρακτηριστικών σχεδιάζεται με βάση ένα συγκεκριμένο κριτήριο.στην μέθοδο αυτή ουσιαστικά για κάθε συνδυασμό χαρακτηριστικών επιλέγουμε κάποιο κριτήριο(π.χ Bhattacharrya distance,divergence,scatter Matrices) και επιλέγουμε το καλύτερο διάνυσμα συνδυασμού χαρακτηριστικών.αξίζει να σημειωθεί ότι η κατάταξη των χαρακτηριστικών της προηγούμενης ενότητας είναι μία μέθοδος φίλτρου. Wrapper Η μεθοδολογία περιτυλίγματος προσφέρει τρόπο να επιλυθεί το πρόβλημα επιλογής χαρακτηριστικών ανεξάρτητα από την μηχανή εκμάθησης που έχουμε επιλέξει.για κάθε συνδυασμό διανυσμάτων χαρακτηριστικών η εκτιμάται η πιθανότητα λανθασμένης ταξινόμησης και επιλέγουμε με βάση το μικρότερο σφάλμα.έέχουμε αργή εκτέλεση λόγω των επαναλήψεων και τον επανεκπαιδεύσεων που απαιτούνται καθώς και έλλειψη γενικότητας ως προς τη μέθοδο αναγνώρισης, ωστόσο η μηχανή εκμάθησης μπορεί να θεωρηθεί μαύρο κουτί (black box) πράγμα που καθιστά την μέθοδο ιδανική και μπορούμε να την χρησιμοποιήσουμε οπουδήποτε. Embedded Οι αλγόριθμοι του ενσωματωμένου μοντέλου(embedded model) ενσωματώνουν την επιλογή χαρακτηριστικών ως μέρος του μοντέλου διαδικασίας τοποθέτησης/εκπαίδευσης, και η χρησιμότητα των χαρακτηριστικών λαμβάνεται με βάση την βελτιστοποίηση της συνάρτησης του μοντέλου μάθησης.η μέθοδος αυτή δεν διαχωρίζει τα δεδομένα εκπαίδευσης σε σύνολο δεδομένων εκπαίδευσης και σε σύνολο δεδομένων επαλήθευσης.έέτσι φτάνει γρηγορότερα στη λύση.

Filters,Wrappers, and Embedded methods Introduction to Feature Selection! Page 6 All features Filter Feature subset Predictor hods All features Multiple Feature subsets Predictor inf.ethz.ch rich.ibm.com ethods All features Wrapper Embedded method Feature subset Predictor Σχήμα 4. Οι μέθοδοι Filter,Wrapper & Embedded Τόσο για τη μέθοδο φίλτρου όσο και την μέθοδο περιτυλίγματος έχουν προταθεί ορισμένες στρατηγικές, κάποιες από τις οποίες είναι βέλτιστες και υποβέλτιστες, τις οποίες όμως θα αναφέρουμε ονομαστικά αφού η περαιτέρω ανάλυση τους αφορά ένα άλλο μεγάλο ερευνητικό πεδίο αλγορίθμων. Οι υποβέλτιστες τεχνικές αναζήτησης περιλαμβάνουν την σειριακή αναζήτηση προς τα εμπρός, την σειριακή αναζήτηση προς τα πίσω και την μέθοδο κινητής αναζήτησης. Στην Sequential Forward Selection(SFS), οι μεταβλητές ενσωματώνονται σταδιακά σε όλο και μεγαλύτερα υποσύνολα, ενώ στο Sequential Backward Selection(SBS) αρχικά έχουμε ένα σύνολο όλων των μεταβλητών και σταδιακά εξαλείφονται αυτές που δεν μας ενδιαφέρουν.όόλα αυτά ανάλογα με το κριτήριο που επιλέγουμε να ελέγξουμε.στην μέθοδο κινητής αναζήτησης(floating Search) έχουμε τη δυνατότητα να επανεξετάσουμε ένα αντικείμενο,ακόμα και αν έχει προστεθεί ή αφαιρεθεί,σε αντίθεση με τις προηγούμενες μεθόδους, καταπολεμώντας έτσι το αποκαλούμενο nesting effect. Wrappers Οι βέλτιστες τεχνικές αναζήτησης χρησιμοποιούνται όταν έχουμε μονοτονικό κριτήριο διάκρισης(όσο περισσότερα Methods: χαρακτηριστικά τόσο μεγαλύτερη η τιμή του κριτηρίου). ture subset Criterion: Measure feature subset 4. Επίλογος usefulness s (individual Search: Search the space of all feature Κλείνοντας, καταλήγουμε sets of features) subsets στο συμπέρασμα ότι υπάρχουν πολλές καλές τεχνικές επιλογής χαρακτηριστικών.εντούτοις ο τομέας του Feature Selection είναι ακόμα σε πρώιμο στάδιο Assessment: Use cross-validation sts και ενδείκνυται για έρευνα.ο αυξανόμενος αριθμός δεδομένων θα αυξήσει την ζήτηση για την ανάπτυξη του συγκεκριμένου Results: τομέα της επιλογής χαρακτηριστικών. ΊΊσως μάλιστα ο τομέας αυτός να είναι η μόνη λογική επιλογή προκειμένου να καταπολεμηθεί σε μεγάλο βαθμό η κατάρα της διαστασιμότητας. Can in principle find the most useful overfitting features, but eful features Φαίνεται λοιπόν ότι η επιλογή Are prone χαρακτηριστικών to overfitting μπορεί να αυξήσει επιτυχώς την απόδοση ενός αλγόριθμου εκμάθησης στον τομέα της αναγνώρισης προτύπων, ενώ παραμένει και θα συνεχίσει να είναι ένα ενεργό πεδίο που διαρκώς θα εξελίσσεται για να απαντά σε νέες προκλήσεις.

Introduction to Feature Selection! Page 7 ΒΙΒΙΛΙΟΓΡΑΦΙΑ S.Theodoridis,K.Koutroumbas, Pattern Recognition,Elsevier,(2009) Isabelle Guyon, Andre Elisseeff, An Introduction to Variable and Feature Selection, Journal of Machine Learning Research 3 (2003) H. Liu and L. Yu, Toward Integrating Feature Selection Algorithms for Classification and Clustering, IEEE Trans. Knowledge and Data Eng., vol. 17, no. 4, (2005) Luis Carlos Molina, Lluis Belanche, Angela Nebot. Feature Selection Algorithms: A Survey and Experimental Evaluation, Universitat Politecnica de Catalunya Edward R. Dougherty. Feature-Selection Overfitting with Small-Sample Classifier Design, Texas A&M University (2005) Huan Liu, Hiroshi Motoda, Rudy Setiono, Zheng Zhao. Feature Selection: An Ever Evolving Frontier in Data Mining, JMLR: Workshop and Conference Proceedings 10: 4-13 The Fourth Workshop on Feature Selection in Data Mining(2010) YongSeog Kim, Feature Selection in Supervised and Unsupervised Learning via evolutionary search,university of Iowa(2001) TingYao Wu. Feature Selection in speech and speaker recognition,(2009) Luis Talavera, An evaluation of filter and wrapper methods for feature selection in categorical clustering S.Theodoridis,A.Pikrakis,K.Koutroumbas,D.Cavouras. Introduction to Pattern Recognition using Matlab,Elsevier (2010) http://en.wikipedia.org/wiki/feature_selection http://www.cs.manchester.ac.uk/pgt/comp61011/materials/slides/featureselection.pdf