Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr
Επιβλεπόμενοι Μη Επιβλεπόμενοι
Ομάδα Κατηγορία
Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών Τιμών
όλες οι τιμές πρέπει να ανήκουν στο [0,1] Η κανονικοποίηση πρέπει να γίνεται στο δοσμένο data set Πριν γίνει ο διαχωρισμός σε train και test set
Μεγάλος όγκος των βιολογικών δεδομένων Η ανάλυση απαιτεί μεγάλο υπολογιστικό κόστος Η εξόρυξη γνώσης ιδιαίτερα χρονοβόρα εφαρμογή αλγορίθμων μείωσης διαστατικότητας δεδομένων PCA : μη επιβλεπόμενος αλγόριθμος διατηρεί το μεγαλύτερο μέρος της διακύμανσης των δεδομένων
Δοσμένο data set 70% train set 30% test set Ο διαχωρισμός έγινε με τυχαίο τρόπο Train set : για εκπαίδευση αλγορίθμων μηχανικής μάθησης Test set : για έλεγχο εγκυρότητας των παραγόμενων κανόνων
Κλάση 1 (πρόβλεψη) Όχι Κλάση 1 (πρόβλεψη) True Positive False Negative Κλάση 1 False Positive True Negative Όχι Κλάση 1
Accuracy: είναι το ποσοστό των δειγμάτων ελέγχου που κατηγοριοποιήθηκαν ορθά από το μοντέλο. accuracy = (TP + TN) / (TP + TN + FP + FN) Specificity: είναι το ποσοστό των αρνητικών δειγμάτων που κατηγοριοποιήθηκαν ορθά από το μοντέλο. specificity = TN / (TN + FP) Sensitivity: είναι το ποσοστό των θετικών δειγμάτων που κατηγοριοποιήθηκαν ορθά από το μοντέλο. sensitivity = TP / (TP + FN)
Μηχανική Μάθηση
Ένα έμπειρο σύστημα είναι ένα υπολογιστικό σύστημα που προσομοιώνει την διαδικασία λήψης αποφάσεων από έναν εμπειρογνώμονα (άνθρωπο) Η λειτουργία τους βασίζεται πάνω σε γνώση και δεδομένα και όχι στην συμβατική διαδικασία επίλυσης προβλημάτων
Εργαλείο Μηχανικής Μάθησης Εξόρυξη δεδομένων Χρησιμότητα: Προεπεξεργασία δεδομένων Δημιουργία μοντέλων Απεικόνιση αρχικών δεδομένων/αποτελεσμάτων
στο περιβάλλον του weka επιλέγω Explorer open file φορτώνω το train.arff Classify, choose και επιλέγω τον αλγόριθμο J48 με reduced Error Pruning True Use training set start
δεξί κλίκ στην result list επιλέγω visualize tree
επιλέγω supplied test set φορτώνω το test.arff start
Το πρόβλημα κατηγοριοποίησης προκαθορισμένο σύνολο κατηγοριών Είσοδος : ένα σύνολο δεδομένων που περιγράφουν το «αντικείμενο» Έξοδος : η κατηγορία που αυτό ανήκει
σύνολο μεθόδων εκμάθησης για προβλήματα ταξινόμησης για γραμμικά & μη γραμμικά δεδομένα box constraint soft margin hyperplane μέγιστο περιθώριο
προκαθορισμένο σύνολο κατηγοριών Είσοδος : ένα σύνολο δεδομένων που περιγράφουν το «αντικείμενο» Έξοδος : η ομάδα που αυτό ανήκει
Eίσοδος το πλήθος των ομάδων k Eλαχιστοποίηση των αποστάσεων όλων των προτύπων κάθε ομάδας από το κεντροειδές της Eπαναληπτικός αλγόριθμος Ο αλγόριθμος τερματίζει όταν δεν θα συμβεί καμία μεταβολή στα clusters μέσα σε μια επανάληψη
ΤΝΔ: Συστήματα επεξεργασίας δεδομένων Αποτελούνται από τεχνητούς νευρώνες οργανωμένους σε δομές, όπως του ανθρώπινου εγκεφάλου Οργάνωση Νευρώνων: Input Layers Hidden Layers Output Layers
εμπνευσμένοι από την Δαρβινική θεωρεία της εξέλιξης των ειδών Αναζήτηση στο χώρο των υποψήφιων λύσεων Εύρεση αποδεκτών λύσεων προβλημάτων κατάλληλοι για την επίλυση βελτιστοποίησης Βελτιστοποίηση της συνάρτησης καταλληλότητας
κριτήριο αξιολόγησης των υποψηφίων λύσεων Είσοδος: μία υποψήφια λύση Έξοδος: ένας αριθμός που υποδηλώνει το βαθμό καταλληλότητας της λύσης Πρέπει: Συνεχής Μονότονη Στην παρούσα εργασία : η fitness function βαθμολογεί αρνητικά κάθε περίπτωση που είναι τύπου n και δεν είναι τοποθετημένη στη n-οστή κλάση
Ακρίβεια Υπολογιστικό κόστος
[1] Τεχνητή Νοημοσύνη, Βλαχάλας Ιωάννης, Κεφάλας Πέτρος, Βασιλειάδης Νικόλαος, Κόκκορας Φώτης, Σακελλαρίου Ηλίας. Γ Έκδοση. Εκδοτική Β. Γκιούρδας. [2]MATLAB 6 for Engineers, 3 rd Ediotion, Adrian Biran & Moshe Breiner. Εκδοσεις Τζιόλας 2003 [3]Pattern Classification, 2 nd Edition, Richard O. Duda, Peter E. Hart, David G. Stork. Wiley Interscience 2000 [4] Αναγνώριση Προτύπων, Ευάγγελος Δερματάς. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Πανεπιστήμιο Πατρών 2006