5. Μέθοδοι αναγνώρισης εκπαίδευση χωρίς επόπτη

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "5. Μέθοδοι αναγνώρισης εκπαίδευση χωρίς επόπτη"

Transcript

1 5. Μέθοδοι αναγνώρισης εκπαίδευση χωρίς επόπτη Tο πρόβληµα του προσδιορισµού των συγκεντρώσεων των προτύπων, όταν δεν είναι γνωστό το πλήθος τους και η ταυτότητα των προτύπων, είναι δύσκολο και για την λύση του προτείνονται ενδιαφέρουσες αλλά και πολύπλοκες τεχνικές. Η µέτρηση πολλών χαρακτηριστικών και η ποικιλία των προτύπων είναι βασικοί παράγοντες που επιτείνουν την δυσκολία του προβλήµατος. Ακολούθως θα παρουσιάσουµε τρεις µεθόδους εκπαίδευσης χωρίς επόπτη. Οι δύο πρώτες είναι απλές διαδικασίες που µπορούν να δροµολογηθούν για την επίλυση απλών προβληµάτων µικρού µεγέθους δεδοµένων. Η τρίτη είναι µία ισχυρή µέθοδος που βασίζεται στην λειτουργία ενός νευρωνικού δικτύου. Η δεύτερη και τρίτη µέθοδος δίνουν την δυνατότητα εποπτείας σε πολυδιάστατους χώρους που η αναπαράστασή τους σε ένα σύστηµα αξόνων είναι ανέφικτη. 5.. Προσδιορισµός των συγκεντρώσεων µε την µέθοδο MAXIMIN Πρόκειται για µία µέθοδο προσδιορισµού του πλήθους και του περιεχοµένου των συγκεντρώσεων των προτύπων, επονοµαζόµενη µέθοδος MAXIMIN και βασίζεται στην χρήση των αποστάσεων µεταξύ των προτύπων. Η µέθοδος έχει ως εξής: Θεωρούµε Κ (Κ Ν) το πλήθος των προτύπων Π κ, κ=,,κ, του συνόλου εκπαίδευσης S και x κ τον πίνακα του προτύπου Π κ. Θεωρούµε τον µετρητή κλάσεων t (t N) µε αρχική τιµή ένα (t = ). Βήµα ο : Επιλέγουµε ένα τυχαίο πρότυπο ορίζουµε την πρώτη κλάση ω t =ω. Π = Π (τ t =,,Κ) και µε αυτό τt τ Αναγνώριση Προτύπων-Νευρωνικά ίκτυα 5- Τµήµα Πληροφορικής & Επικοινωνιών

2 Βήµα 2 ο : ηµιουργούµε το σύνολο D των αποστάσεων των προτύπων του S από το Π τ (5..) D { x x / Π S} = τ κ κ Βρίσκουµε το πρότυπο Π τ 2 (τ 2 =,,Κ) που απέχει την µέγιστη απόσταση Μ από το Π τ. (5..2) max(d ) τ 2 = κ (5..3) = x x = max(d ) D τ τ2 Βήµα 3 ο : Αυξάνουµε το t κατά ένα και ορίζουµε την κλάση ω t µε στοιχείο το, τ t Π ω { Π } t =. τ t Βήµα 4 ο : Ταξινοµούµε κάθε Π κ S στις τάξεις ω i, I=,,t µε το κριτήριο της ελάχιστης απόστασης. ηµιουργούµε τα σύνολα D i των αποστάσεων των προτύπων κάθε κλάσης ω i από το πρότυπο που όρισε την κλάση. (5..4) D = { x x / Π ω, i,...,k} i τi κ κ i = Βρίσκουµε την µέγιστη απόσταση Μ t µεταξύ όλων των αποστάσεων των D i και το αντίστοιχο πρότυπο Π κ το οποίο ονοµάζουµε. Π τ t + t (5..5) τ t max Di κ + = U i= Π τi (5..6) M = max U t t D i i= Βήµα 5 ο : Αν Μ t / Μ t+ ρ <<, όπου ρ θετικός προκαθορισµένος αριθµός σηµαντικά µικρότερος της µονάδας, η διαδικασία σταµατάει και το πλήθος των οµάδων είναι ο αριθµός t. Αλλιώς συνεχίζεται επαναληπτικά από το βήµα 3. Αναγνώριση Προτύπων-Νευρωνικά ίκτυα 5-2 Τµήµα Πληροφορικής & Επικοινωνιών

3 ΠΑΡΑ ΕΙΓΜΑ ΓΙΑ ΤΗΝ ΜΕΘΟ Ο MAXIMIN ίνονται οι παρακάτω πίνακες προτύπων: (5..7) x = [0, 8] T, x 2 = [9, 7] T, x 3 = [, 0] T, x 4 = [2, 8] T, x 5 = [4, ] T, x 6 = [8, 9] T Στο ρ δίνεται ι τιµή 0.4 (ρ=0.4) προς χάριν του παραδείγµατος διότι στις πραγµατικές εφαρµογές χρησιµοποιείται µικρότερη τιµή. Για απλούστευση της διαδικασίας υπολογίζουµε όλες τις αποστάσεις (π.χ. Ευκλείδειες) d κλ, κ,λ {,2,3,4,5,6,} µεταξύ των προτύπων. εδοµένου ότι d κλ = d λκ και d κκ =0 πρέπει να υπολογίσουµε για πλήθος προτύπων Κ = 6, Κ(Κ-)/2=5 αποστάσεις. Οι τιµές των αποστάσεων δίνονται από τον Πίν. 5.-: d 3= 85 d 4= d 2= 2 = d 5= 85 d 6= 5 [ (0-9) 2 +(8-7) 2 ] /2 64 d 23= 73 d 24= d 25= 6 d 26= 5 50 d 34= 5 d 35= 90 d 36= 50 d 45= 53 d 46= 37 d 56= 80 Πίνακας 5.- Το πλήθος προτύπων Κ=6 και ο µετρητής συγκεντρώσεων t=. Επιλέγουµε τυχαία το πρότυπο Π 4, άρα τ =4 και ω ={Π 4 }. = { d, d, d, d, d, d } { 64, 50, 5, 0, 53, 37} D = Μ = max ( D ) = 64 = 8, άρα τ 2 =. t = 2, ω 2 = {Π }. Αναγνώριση Προτύπων-Νευρωνικά ίκτυα 5-3 Τµήµα Πληροφορικής & Επικοινωνιών

4 Όλα τα πρότυπα ταξινοµούνται στις κλάσεις ω, ω 2 µε βάση το κριτήριο της ελάχιστης απόστασης από τα Π 4 και Π. Για διευκόλυνση δηµιουργούµε τον ακόλουθο πίνακα. Π 2 Π 3 Π 5 Π 6 Π 4 ω Π ω Π 2 ω 2 Π 3 ω Π 5 ω Π 6 ω 2 Πίνακας 5.-2 Άρα ω ={Π 3, Π 4, Π 5 }, ω 2 ={Π, Π 2, Π 6 } ({ d, d } { d, d }) = max{ 5, 53, 2, 5, } = 53 = d τ 5 M 2 = max U = M 2 /M = 53 / 64 > p και συνεχίζουµε από το βήµα 3. t = 3, ω = { Π } = { Π } 3 τ3 5 Τα πρότυπα ταξινοµούνται στις κλάσεις ω, ω 2, ω 3 όπως φαίνεται στον ακόλουθο πίνακα. Π 2 Π 3 Π 6 Π 4 ω Π ω Π 5 ω Π 2 ω 2 Π 3 ω Π 6 ω 2 Πίνακας 5.-3 Οι κλάσεις διαµορφώνονται ως εξής: ω ={Π 3, Π 4 }, ω 2 ={Π, Π 2, Π 6 }, ω 3 ={Π 5 }. Αναγνώριση Προτύπων-Νευρωνικά ίκτυα 5-4 Τµήµα Πληροφορικής & Επικοινωνιών

5 M 3 άρα τ ({ d } U { d,d } ) = max( { 5, 2, 5} ) = max U 4 43 = 3 ή = 5 = d 43 = d 6 Μ 3 /Μ 2 = 5 / 53 =0.307<ρ συνθήκη που οδηγεί στον τερµατισµό της διαδικασίας και στο αποτέλεσµα των τριών κλάσεων ω, ω 2,ω 3. Στο Σχ απεικονίζονται τα άκρα των ανυσµάτων των προτύπων, ο οπτικός προσδιορισµός των συγκεντρώσεων συµφωνεί µε τα αποτελέσµατα της διαδικασίας. x 3 + x 4 + x 6 + x 2 + x + x 5 + Σχήµα Απεικόνιση αλυσίδας Η απεικόνιση αλυσίδας (chain map) είναι µία µέθοδος που παρέχει την εποπτεία της κατανοµής των προτύπων σε πολυδιάστατους χώρους και µπορεί να χρησιµοποιηθεί για την εύρεση του πλήθους και του περιεχοµένου των συγκεντρώσεων τους. Σύµφωνα µε αυτήν δηµιουργούµε µία κατανοµή της απόστασης κάθε προτύπου µε το γειτονικότερό του. Συγκεκριµένα διατρέχουµε όλα τα πρότυπα ξεκινώντας από κάποιο τυχαίο µεταβαίνοντας στο γειτονικότερό του εξαιρουµένου του προηγουµένου του. Θεωρούµε έναν δείκτη i, i Ν, που αριθµεί τις µεταβάσεις από πρότυπο σε πρότυπο αυξανόµενος κατά ένα ξεκινώντας µε αρχική τιµή την µονάδα που αντιστοιχεί στην απόσταση του αρχικού τυχαίου προτύπου µε το γειτονικότερό του. ηµιουργούµε την ακολουθία α i των αποστάσεων των προτύπων. Οι κορυφές Αναγνώριση Προτύπων-Νευρωνικά ίκτυα 5-5 Τµήµα Πληροφορικής & Επικοινωνιών

6 της κατανοµής που περιγράφει η ακολουθία α i, διαχωρίζουν το σύνολο των προτύπων σε υποσύνολα που καθορίζουν τις συγκεντρώσεις τους. ΠΑΡΑ ΕΙΓΜΑ Έστω τα πρότυπα x = [0, 8] T, x 2 = [9, 7] T, x 3 = [, 0] T, x 4 = [2, 8] T, x 5 = [4, ] T, x 6 = [8, 9] T που χρησιµοποιήσαµε και στο παράδειγµα της µεθόδου MAXIMIN. Επιλέγουµε τυχαία το πρότυπο Π 4 και θέτουµε i=. Υπολογίζουµε τις αποστάσεις των υπολοίπων προτύπων (δίνονται στον Πίν. ) και υπολογίζουµε την µικρότερή τους. min{d 4, d 42, d 43, d 45, d 46 } = min{ 64, 50, 5, 53, 37 }= 5 = α άρα γειρονικότερο του Π 4 είναι το πρότυπο Π 3. Υπολογίζουµε τις αποστάσεις των προτύπων πλην του Π 4, από το Π 3 και βρίσκουµε την µικρότερή τους min{ d 3, d 32, d 35, d 36 } = { 85, 73, 90, 50 } = 50 = α 2 και µεταβαίνουµε στο Π 6. min{d 6, d 62, d 65 } = { 5, 5, 32 } = 5 = α 3 και µεταβαίνουµε στο Π 2. min{d 2, d 25 } = { 2, 6 } = 2 = α 4 και µεταβαίνουµε στο Π. d 5 = 85 = α 5. d 54 = 90 = α 6. Οι τιµές της ακολουθίας α i, i=,...,6 φαίνονται στο Σχ Αναγνώριση Προτύπων-Νευρωνικά ίκτυα 5-6 Τµήµα Πληροφορικής & Επικοινωνιών

7 Οι υψηλές τιµές ορίζουν τις οµάδες χαµηλών τιµών α) d 43, β) d 62, d 2. Από την πρώτη συµπαιρένεται ότι ω ={Π 3, Π 4 }, από τήν δεύτερη ω 2 ={Π 6, Π 2, Π }. Το αποµένον Π 5 ω d 43 d 36 d 62 d 2 d 5 d 54 Σχήµα 5.2- Αναγνώριση Προτύπων-Νευρωνικά ίκτυα 5-7 Τµήµα Πληροφορικής & Επικοινωνιών