Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση Επαλήθευση Εκτίµηση Επίδοσης Θέµατα που θα παρουσιαστούν: Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines) Πολυεπίπεδα Perceptron ίκτυα RBF Πρόγραµµα Ηλεκτρονικού Υπολογιστή Weka Αξιοποίηση δεδοµένων Εξερεύνηση δυνατοτήτων ανάπτυξης µηχανών µάθησης Συγκριτική ανάλυση 1
Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines-SVM) Εισαγωγή Οι Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines-SVM) αποτελούν µία σύγχρονη αποτελεσµατική προσέγγιση της επίλυσης ζητηµάτων κατηγοριοποίησης. Με κατάλληλες διαφοροποιήσεις και επεκτάσεις της βασικής µεθοδολογίας κατηγοριοποίησης σε δύο κλάσεις µπορούν να επιλυθούν προβλήµατα περισσότερων κλάσεων, παλινδρόµησης (regression) και αναγνώρισης προτύπων. Η µεθοδολογία προέκυψε από τη βαθύτερη ανάλυση της στατιστικής θεωρίας µάθησης (statistical learning theory) 2
Βασικά χαρακτηριστικά Τα SVM χαρακτηρίζεται ως µηχανή µάθησης (learning machines) συνεπώς χαρακτηρίζεται από τα ακόλουθα στάδια: Εκπαίδευση: Στη φάση αυτή γίνονται οι υπολογισµοί των παραµέτρων του µοντέλου µάθησης µε χρήση κατάλληλου συνόλου δεδοµένων µάθησης. οκιµή: Το µοντέλο παραµέτρων (support vectors) που υπολογίστηκε δοκιµάζεται για τη δυνατότητα επιτυχηµένης εκτίµησης αποτελέσµατος σε ένα σετ δεδοµένων που δεν έχει εκπαιδευθεί. Εκτίµηση επίδοσης: Υπολογίζονται κατάλληλοι δείκτες επίδοσης του µοντέλου, κυρίως του ποσοστού σφάλµατος, µε στόχο την διερεύνηση της δυνατότητας γενίκευσης του µοντέλου. Γραµµικό µοντέλο SVM 1-3 Ζήτηµα: Εύρεση του ζεύγους των υπερεπιπέδων που µεγιστοποιεί την απόσταση : η κοντινότερη απόσταση του Η µε θετικά ή αρνητικά χαρακτηριζόµενα σηµεία Εισάγοντας πολλαπλασιαστές Lagrange, αρκεί η ελαχιστοποίηση ως προς w και bµε περιορισµό το µηδενισµό των παραγώγων ως προς τα α: Απόσταση των Η1 και Η2 3
Γραµµικό µοντέλο SVM 2-3 Ισοδύναµα το πρόβληµα µπορεί να διατυπωθεί ως τη µεγιστοποίηση της συνάρτησης L ως προς w και bµε περιορισµό τον µηδενισµό των παραγώγων ως προς w και b Επιλύοντας το παραπάνω πρόβληµα και υπολογίζοντας τα α i και bµε «εκπαίδευση» συγκεκριµένου σετ δεδοµένων, για οποιοδήποτε νέο δεδοµένο Χ * µπορεί να γίνει κατηγοριοποίηση µε ένα απλό υπολογισµό της παράστασης Τα σηµεία κοντύτερα στο υπερεπίπεδο που διαχωρίζει τα στοιχεία µε α>0 είναι τα support vectors (a, b, c, d, e στο σχήµα) Γραµµικό µοντέλο SVM 3-3 Το ζήτηµα ελαχιστοποίησης µε πολλαπλασιαστές Lagrange πληροί τις συνθήκες Karush-Kuhn- Tucker (KKT), από όπου υπολογίζεται το b έχοντας υπολογίσει το w. 4
Μη γραµµικό µοντέλο SVM Εάν η επιφάνεια που διαχωρίζει τα δεδοµένα δεν είναι γραµµική, µπορεί να γίνει ένας µετασχηµατισµός σε ένα άλλο «χώρο» όπου τα µετασχηµατισµένα δεδοµένα να διαχωρίζονται γραµµικά. Εάν Φ χαρακτηρίζεται ο µετασχηµατισµός τότε η συνάρτηση Lagrange γίνεται: Χρησιµοποιώντας κατάλληλες συναρτήσεις «πυρήνα» Συνηθέστερες συναρτήσεις πυρήνα: Λειτουργία της µηχανής Μάθησης SVM Επιλύοντας το προηγούµενο πρόβληµα βελτιστοποίησης, υπολογίζονται οι µη µηδενικοί συντελεστές α αντίστοιχοι σε ένα υποσύνολο των διανυσµάτων του συνόλου µάθησης. Ο γραµµικός τους συνδυασµός σχηµατίζει την παράµετρο w: Με βάση τις συνθήκες ΚΚΤ υπολογίζεται η παράµετρος b µέσω της σχέσης: Τελικά, η εκτίµηση εάν το διάνυσµα Χ ανήκει στο υποσύνολο χαρακτηρισµένο µε y=+1 ή y=-1 εξαρτάται από το πρόσηµο της ακόλουθης παράστασης: 5
είκτες επίδοσης µοντέλου TP: true positive classified cases TN: true negative classified cases FP: false positive classified cases (SVM labels it as positive while it is negative) FN: false negative classified cases (SVM labels it as negative while it is positive) οκιµήκαι επαλήθευση του µοντέλου Ο υπολογισµός των δεικτών επίδοσης µε χρήση διανυσµάτων που περιλήφθησαν στο σύνολο εκπαίδευσης δεν οδηγεί σε αντικειµενική αξιολόγηση του µοντέλου. ύο είναι οι ευρύτερα εφαρµοζόµενες πρακτικές Τυχαία διαδικασία χωρισµού των δεδοµένων σε διακριτά σύνολα εκπαίδευσης και δοκιµής (train and test sets) N-fold cross validation (10-fold 5-fold 20-fold κλπ): το σύνολο των δεδοµένων χωρίζεται µε τυχαίο τρόπο σε Ν ισάριθµα υποσύνολα από τα οποία τα Ν-1 χρησιµοποιούνται για εκπαίδευση ενώ αυτό που αποµένει χρησιµοποιείται ως σύνολο δοκιµής. Η διαδικασία επαναλαµβάνεται Ν φορές και ως δείκτες επίδοσης λαµβάνονται οι αντίστοιχοι µέσοι όροι. Leave-one-out 6
Multilayer Perceptron Απλό µοντέλο νευρώνα Απλό µοντέλο νευρώνα, µε δυαδική συνάρτηση εξόδου µε 1 όταν η είσοδος είναι θετική και 0 σε άλλη περίπτωση. Ουσιαστικά, ο νευρώνας εκπαιδεύεται µε κατάλληλά βάρη ώστε να διαχωρίζει ένα σετ δεδοµένων σε δύο σύνολα. 7
Αρχιτεκτονική perceptron Με την υιοθέτηση περισσότερων νευρώνων στο µοντέλο έχουµε την δηµιουργία του perceptron, όπου το κάθε βάρος είναι ένδειξη της σχέσης που υπάρχει µεταξύ της αντίστοιχης εισόδου και εξόδου. Multilayer perceptron Με την υιοθέτηση περισσότερων επιπέδων perceptron στο µοντέλο έχουµε την δηµιουργία του multilayer perceptron. 8
Εκπαίδευση νευρωνικών δικτύων Ως εκπαίδευση µάθηση των νευρωνικών δικτύων θεωρούνται οι αλγόριθµοι διαµόρφωσης των τιµών στις παραµέτρους των µοντέλων µηχανών µάθησης Οι µέθοδοι µάθησης διακρίνονται σε: Κατευθυνόµενη µάθηση (supervised learning), όπου υπάρχει ένα σύνολο µάθησης µε δεδοµένες εισόδους και αντίστοιχες εξόδους. Οι επαναληπτικές διαδικασίες εκπαίδευσης βελτιώνουν τις τιµές των παραµέτρων έτσι ώστε να επαληθεύεται το σύνολο µάθησης. Μη κατευθυνόµενη µάθηση (unsupervised learning), όπου οι παράµετροι καθορίζονται από τις τιµές των εισόδων, δηµιουργώντας οµάδες (clusters) των δεδοµένων. Αλγόριθµος Backpropagation Ο αλγόριθµος παρουσιάστηκε πρώτη φορά από τον Paul Werbos το 1974 και αφορά την κατευθυνόµενη εκπαίδευση νευρωνικών δικτύων εµπρόσθιας τροφοδότησης (feed forward neural networks). Η γενική ιδέα του αλγορίθµου είναι η διαδοχική τροφοδότηση των δεδοµένων εισόδου σε ένα αρχικό προτεινόµενο νευρωνικό δίκτυο, ο υπολογισµός του σφάλµατος σε κάθε νευρώνα και η διόρθωση των παραµέτρων ανάλογα µε το σφάλµα και το µέγεθος της τιµής του βάρους κάθε νευρώνα επαναληπτικά. Η διαδικασία ολοκληρώνεται ικανοποιώντας ένα κριτήριο ελάχιστου σφάλµατος, Η αδυναµία της µεθόδου είναι η σηµαντική πιθανότητα εγκλωβισµού σε τοπικό ελάχιστο κατά τη φάση ελαχιστοποίησης του σφάλµατος. 9
ίκτυο RBF RBF Νευρώνας Ένας RBF νευρώνας χαρακτηρίζεται από τη συνάρτηση µεταφοράς (συνήθως γκαουσιανή) όπου λαµβάνει µέγιστη τιµή όταν το w ταυτίζεται µε p. Συνεπώς λειτουργεί ως ανιχνευτής κατά πόσο το διάνυσµα p είναι κοντά στο διάνυσµα w. 10
ίκτυο RBF Συνήθως περιλαµβάνει δύο επίπεδα, ένα που χαρακτηρίζεται από RBF νευρώνες και ένα δεύτερο γραµµικό επίπεδο. Το πρώτο επίπεδο έχει γκαουσιανή συνάρτηση ενώ το δεύτερο επίπεδο είναι παρόµοιο µε το multilayer perceptron γραµµικός συνδυασµός των παραµέτρων εισόδου. Στο πρώτο επίπεδο ο υπολογισµός των παραµέτρων γίνεται µε k-means clustering, ενώ στο δεύτερο µε µία κλασσική µέθοδο γραµµικής παλινδρόµησης µε δεδοµένες τις εισόδους από το προηγούµενο επίπεδο. Πρόγραµµα Weka Εφαρµογή στο εργαστήριο 11