ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΟΜΑ Α ΑΣΚΗΣΕΩΝ ΑΣΚΗΣΗ Στην εικόνα παρακάτω φαίνεται ένα νευρωνικό δίκτυο 2 επιπέδων µη-αναδροµικό το οποίο εκπαιδεύεται µε τη µέθοδο της ανάστροφης διάδοσης λάθους. Έστω ότι το τρέχον παράδειγµα εκπαίδευσης είναι το [.0 0.9 0.9] για το οποίο η έξοδος πρέπει να είναι [0. 0.9 0.]. Έστω ότι η έξοδος από τον νευρώνα B είναι 0.6 ενώ από τον νευρώνα C είναι 0.8. Θεωρούµε ότι όλοι οι νευρώνες λειτουργούν µε τη σιγµοειδή συνάρτηση ενεργοποίησης. α Υπολογείστε την έξοδο του δικτύου. β Υπολογείστε το σφάλµα για κάθε νευρώνα εξόδου. γ Υπολογείστε τα σφάλµατα των νευρώνων του κρυφού επιπέδου. δ Υπολογείστε τις µεταβολές των βαρών για τα βάρη που συνδέουν την είσοδο Α µε τους νευρώνες B και C. Θεωρείστε ότι ο ρυθµός µάθησης είναι d0.25. B -0.3 0.9 D -0.8-0.3 C.2-0.6-0. 0.4 E F ίνονται οι παρακάτω τύποι: Σιγµοειδής συνάρτηση ενεργ οποίησης: Φ S S e Μεταβολή βάρους από τον νευρώνα στον νευρώνα : w -d δ α όπου δ α -o για τους νευρώνες εξόδου α η τρέχουσα έξοδος και o η επιθυµητή έξοδος του νευρώνα. Επιµερισµός σφάλµατος στους κρυφούς νευρώνες: δ Φ' S δ w Παράγωγος της σιγµοειδούς συνάρτησης ενεργοποίησης: Φ ' S Φ S [ Φ S ] ΠΡΟΣΟΧΗ: Κάποια από τα δεδοµένα που σας δίνονται ίσως να µην χρειάζονται για την απάντηση των ερωτηµάτων. Εφόσον γνωρίζουµε τις εξόδους των νευρώνων B και C µπορούµε να υπολογίσουµε πρώτα τις συνολικές εισόδους των νευρώνων D E και F S D S E και S F αντίστοιχα και στη συνέχεια τις
εξόδους αυτών των νευρώνων α D α E και α F αντίστοιχα µε χρήση της σιγµοειδούς συνάρτησης ενεργοποίησης. Είναι: S D 0.6*-0.30.8*0.90.54 S E 0.6*-0.60.8*-0.-0.44 S F 0.6*0.40.8*.2.2 α D ΦS D /e -0.54 0.638 α E ΦS E /e 0.44 0.397 α D ΦS D /e -.2 0.7685 β Τα προσαρµοσµένα σφάλµατα εξόδου είναι: δ D Φ *S D *α D -o D ΦS D *- ΦS D *α D -o D 0.638*-0.638*0.638-0.0.237 δ E Φ *S E *α E -o E ΦS E *- ΦS E *α E -o E 0.397*-0.397*0.397-0.9-0.2 δ F Φ *S F *α F -o F ΦS F *- ΦS F *α F -o F 0.7685*-0.7685*0.7685-0.0.89 γ Τα σφάλµατα των νευρώνων του κρυφού επιπέδου δ B και δ C υπολογίζονται από τη σχέση: δ Φ' S δ w. Έχουµε: Φ S B ΦS B *[- ΦS B ]0.6*0.40.24 Φ S C ΦS C *[- ΦS C ]0.8*0.20.6 Στη συνέχεια έχουµε: δ Β Φ S B *[w BD *δ D w BE *δ E w BF *δ F ]0.24*[-0.3*0.237-0.6*-0.20.4*0.89]0.099 δ C Φ S C *[w CD *δ D w CE *δ E w CF *δ F ]0.6*[0.9*0.237-0.*-0.2.2*0.89]0.0426 δ Τέλος τα βάρη που συνδέουν την είσοδο Α µε τους νευρώνες Β και C δηλαδή τα βάρη w B και w C αντίστοιχα αλλάζουν ως εξής: w B -d*δ Β *α Α -0.25*0.099*0.9-0.0045 w C -d*δ C *α Α -0.25*0.0426*0.9-0.0096 Παρατήρηση: Τα δεδοµένα που δεν χρειάστηκαν στην άσκηση είναι οι τιµές των βαρών w B -0.8 και w C -0.3 καθώς και οι τιµές του τρέχοντος παραδείγµατος εισόδου για τις άλλες δύο εισόδους του δικτύου.
ΑΣΚΗΣΗ 2 α Περιγράψτε τις διαφορές στην εκπαίδευση µε τη µέθοδο της οπισδοδιάδοσης λάθους των δικτύων Elma σε σχέση µε τα µη-αναδροµικά δίκτυα. β Πώς θα µπορούσε να προσοµοιωθεί η λειτουργία ενός δικτύου Elma µε χρήση µη-αναδροµικού δικτύου και στοιχείων καθυστέρησης; α Στο δίκτυο Elma τα παραδείγµατα της εκπαίδευσης πρέπει να παρουσιάζονται πάντα µε την ίδια σειρά. Επίσης επειδή αγνοείται η συνεισφορά στο τρέχον σφάλµα από τις εσφαλµένες εισόδους των αναδροµικών συνδέσεων απαιτούνται περισσότερες εποχές εκπαίδευσης από ότι στα αντίστοιχα µη-αναδροµικά δίκτυα. β Έστω ένα δίκτυο Elma το οποίο χρησιµοποιείται για να αναγνωρίσει πρότυπα σε ακολουθίες εισόδων µε µήκος µέχρι Ν διαδοχικές εισόδους. Το δίκτυο Elma θα είχε µία είσοδο ενώ δεν υπάρχει κάποιος κανόνας για το πόσες αναδροµικές συνδέσεις θα είχε. Σίγουρα θα είχε αρκετούς νευρώνες στο κρυφό επίπεδο ενώ το πλήθος των νευρώνων στην έξοδο εξαρτάται από τις διαφορετικές κατηγορίες στις οποίες θέλουµε να κατατάξουµε τις διάφορες ακολουθίες εισόδου. Παρόµοια αποτελέσµατα µπορούµε να επιτύχουµε µε ένα µη-αναδροµικό δίκτυο το οποίο θα είχε Ν εισόδους από τις οποίες η πρώτη θα ήταν κανονική είσοδος η δεύτερη θα περνούσε µέσα από ένα στοιχείο καθυστέρησης η τρίτη θα περνούσε µέσα από δύο στοιχεία καθυστέρησης και η τελευταία θα περνούσε µέσα από Ν- στοιχεία καθυστέρησης. Έτσι στην είσοδο του δικτύου αυτού κάθε χρονική στιγµή θα εφαρµόζονταν η τρέχουσα και οι Ν- προηγούµενες τιµές του σήµατος εισόδου. Το µη-αναδροµικό δίκτυο που περιγράφηκε λειτουργεί καλά για ανίχνευση προτύπων µήκους µέχρι Ν. Η διαφορά του όµως από ένα δίκτυο Elma είναι ότι στο µη-αναδροµικό δίκτυο µε στοιχεία καθυστέρησης θα πρέπει να γνωρίζουµε εκ των προτέρων το µέγιστο µήκος των προτύπων εισόδου που προσπαθούµε να ανιχνεύσουµε κάτι που δεν απαιτείται στα δίκτυα Elma. ΑΣΚΗΣΗ 3 Έστω ένα ανταγωνιστικό δίκτυο ενός επιπέδου µε τρεις εισόδους και δύο νευρώνες. Έστω ότι τα βάρη εισόδου των δύο νευρώνων Α και Β είναι τα εξής: w Α [0.6-4.0 7.0] w Β [0. -.0 2.2] Έστω ότι κατά την εκπαίδευση του δικτύου παρουσιάζεται στην είσοδό του το διάνυσµα: x [0.2 -.4 2.3] Υπολογείστε τις αλλαγές των βαρών στις εισόδους των δύο νευρώνων θεωρώντας ότι ο ρυθµός µάθησης είναι d0.2. ίνεται η ακόλουθη σχέση: w d x -w Πρώτα ελέγχουµε ποιο από τα δύο διανύσµατα βαρών είναι πλησιέστερα στο τρέχον διάνυσµα εισόδου χρησιµοποιώντας την ευκλείδια απόσταση. w -x 0.6-0.2 2-4.4 2 7-2.3 2 0.5 5.386 w B -x 0.-0.2 2 -.4 2 2.2-2.3 2 0.5 0.4243 Άρα νικητής είναι ο νευρώνας Β του οποίου και τα βάρη εισόδου θα αλλάξουν ώστε να πλησιάσουν στις τιµές του τρέχοντος διανύσµατος εισόδου. Τα νέα βάρη εισόδου για τον νευρώνα Β είναι τα εξής: w B-EW w B d*x-w B [0. -.0 2.2]0.2* [0.2-0. -.4 2.3-2.2] [0.2 -.08 2.22] Τα βάρη εισόδου του νευρώνα Α δεν αλλάζουν. ΑΣΚΗΣΗ 4
Περιγράψτε δύο εναλλακτικές αναπαραστάσεις για την επίλυση του προβλήµατος του σάκου µε γενετικούς αλγορίθµους. Η πιο απλή αναπαράσταση για το πρόβληµα είναι η χρήση ενός διανύσµατος µήκους Ν όσα δηλαδή και τα αντικείµενα µε στοιχεία µηδενικά και άσσους: <x x 2... x >. Οι άσσοι δηλώνουν τη συµπερίληψη των αντίστοιχων αντικειµένων στο σάκο ενώ τα µηδενικά τη µη-συµπερίληψη. Ένα χρωµόσωµα είναι έγκυρο εάν ισχύει: Η αξία ενός τέτοιου χρωµοσώµατος είναι: P x x V < C x P όπου P η αξία του αντικειµένου. Η πρώτη προσέγγιση είναι η χρήση αρνητικής βαθµολόγησης ealtes για τα χρωµοσώµατα εκείνα των οποίων ο συνολικός όγκος υπερβαίνει τη χωρητικότητα του σάκου: eval x x P Pe x όπου η τιµή της συνάρτησης Pex εξαρτάται από το µέγεθος της παραβίασης: 0 αν x V < C Pe x Pe x V C αλλιώς Η δεύτερη προσέγγιση είναι η διόρθωση των µη-έγκυρων χρωµοσωµάτων. Κάτι τέτοιο µπορεί να γίνει µε την τυχαία µετατροπή των άσσων σε µηδενικά µέχρι το χρωµόσωµα να µην παραβιάζει τον περιορισµό του όγκου του σάκου. ΑΣΚΗΣΗ 5 Περιγράψτε τη µέθοδο επιλογής χαρακτηριστικών στους κόµβους ενός δένδρου απόφασης µε θετικά και αρνητικά παραδείγµατα. Για έναν κόµβο µε θετικά και αρνητικά παραδείγµατα εκπαίδευσης συµβολείστε µε: την πληροφορία που χρειάζεται για να κατατάξουµε ένα νέο παράδειγµα σε µία από τις δύο κατηγορίες. Το κριτήριο µε το οποίο επιλέγουµε το χαρακτηριστικό που θα ελέξουµε στον τρέχοντα κόµβο έχει να κάνει µε το πόση πληροφορία αποµένει να µαζέψουµε µετά από έναν έλεγχο. Έστω ότι ελέγχουµε ένα χαρακτηριστικό το οποίο χωρίζει το σύνολο παραδειγµάτων του κόµβου Ε σε υποσύνολα E E 2... E m όπου m οι διαφορετικές τιµές του Α. Έστω τα θετικά και αρνητικά παραδείγµατα για κάθε µια από τις δυνατές απαντήσεις στο χαρακτηριστικό Α. Κάθε ένας από τους κόµβους παιδιά του τρέχοντος κόµβου θα χρειάζεται πληροφορία:
Επιλέγοντας λοιπόν το χαρακτηριστικό Α για έλεγχο γνωρίζουµε ότι uα καταλήξουµε σε έναν από τους κόµβους-παιδιά του τρέχοντος κόµβου. Η πιθανότητα να πάµε σε κάθε έναν από τους κόµβους παιδιά για τις διάφορες τιµές του Α είναι: Άρα η αναµενόµενη πληροφορία που θα µας λείπει µετά τον έλεγχο στο Α είναι: m Remader Το αναµενόµενο κέρδος σε πληροφορία µετά τον έλεγχο στο χαρακτηριστικό Α ισούται µε την πληροφορία που µας έλειπε πριν τον έλεγχο µείον την αναµενόµενη πληροφορία που θα µας λείπει µετά τον έλεγχο: Remader Ga Τελικά επιλέγουµε για έλεγχο το χαρακτηριστικό εκείνο που έχει τη µικρότερη αναµενόµενη τιµή στην υπολειπόµενη πληροφορία ή ισοδύναµα το µεγαλύτερο αναµενόµενο κέρδος.