Εκπαίδευση Τεχνητών Νευρωνικών ικτύων, µε την χρήση Εξελικτικών Αλγορίθµων, σε σειριακά και κατανεµηµένα συστήµατα.

Transcript

1 Εκπαίδευση Τεχνητών Νευρωνικών ικτύων, µε την χρήση Εξελικτικών Αλγορίθµων, σε σειριακά και κατανεµηµένα συστήµατα. Μιχαήλ Γ. Επιτροπάκης ιπλωµατική Εργασία Πανεπιστήµιο Πατρών Σχολή Θετικών Επιστηµών Τµήµα Μαθηµατικών Πάτρα Επιβλέπων: Καθηγητής Μιχαήλ Ν. Βραχάτης (Μάιος 2008)

2 i

3 ii Στο δάσκαλό µου και στην οικογένεια µου, για τη στήριξη και την υποµονή τους.

4 Ευχαριστίες Η παρούσα διπλωµατική εργασία δεν ϑα µπορούσε ολοκληρωθεί χωρίς τη ϐοήθεια και την συµπαράσταση πολλών ανθρώπων. Αισθάνοµαι πρωτίστως την ανάγκη να ευχαριστήσω ϑερµά τον άσκαλό µου, καθηγητή κ. Μ.Ν. Βραχάτη στον οποίο οφείλεται κατά ένα πολύ µεγάλο ϐαθµό η υλοποίηση της παρούσας εργασίας. Η ουσιαστική καθοδήγησή του στο ξεπέρασµα των ποικίλων δυσκολιών που συνάντησα κατά τη διάρκεια της έρευνας, οι πολύτιµες συµβουλές και υποδείξεις του, και η ηθική του συµπαράσταση µε ϐοήθησαν τα µέγιστα. Ευχαριστώ επίσης και τα άλλα δύο µέλη της Τριµελούς Συµβουλευτικής Επιτροπής µου, τους καθηγητές κ.κ. Π. Αλεβίζο και Φ. Αλεβίζο, των οποίων η ϐοήθεια ήταν επίσης καθοριστική. Κατά τη διάρκεια της εκπόνησης της διπλωµατικής εργασίας είχα τη χαρά και την τιµή να συνεργαστώ µε τον επίκουρο καθηγητή του Πανεπιστηµίου Στερεάς Ελλάδας και ϕίλο κ. Β.Π. Πλαγιανάκο, τον οποίο και ευχαριστώ ιδιαιτέρως καθώς µε ϐοήθησε σηµαντικά µε τις γνώσεις και την εµπειρία του και γι αυτό ϑεωρώ τη συµβολή του ανεκτίµητη. Ακόµα, ϑα ήθελα να ευχαριστήσω ϑερµά τους ϕίλους µου και εξαίρετους επιστήµονες ρ.. Τασουλή, λέκτορα του Πανεπιστηµίου London Imperial College της Μεγάλης Βρετανίας, καθώς και τον ρ. Ν.Γ. Παυλίδη για την απεριόριστη ϐοήθεια που µου προσέφεραν, τον ενθουσιασµό τους και την ϕιλία τους. Τέλος, αισθάνοµαι την υποχρέωση να ευχαριστήσω τους ϕίλους και συµφοιτητές µου για την υποµονή και την αµέριστη συµπαράσταση τους. Μιχαήλ Γ. Επιτροπάκης Πάτρα, 2008.

5 iv

6 Περιεχόµενα Ευχαριστίες iii 1 Εισαγωγή 1 2 Τεχνητά Νευρωνικά ίκτυα Εισαγωγή Μοντέλα Νευρώνων Τύποι Συναρτήσεων Ενεργοποίησης Αρχιτεκτονικές Τεχνητών Νευρωνικών ικτύων Feedforward ίκτυα Ενός Επιπέδου (Single Layer Feedforward networks) Feedforward ίκτυα Πολλαπλών Επιπέδων (Multilayer Feedforward Networks) Αναδροµικά Τεχνητά Νευρωνικά ίκτυα (Recurrent Neural Networks (ΡΝΝ» ιαδικασίες Μάθησης-Εκπαίδευσης Μάθηση µε διόρθωση σφάλµατος (Error Correction Learning) Μάθηση µε επίβλεψη (Supervised Learning) Μάθηση χωρίς επίβλεψη (Unsupervised Learning) Πολυεπίπεδα Εµπρόσθιας Τροφοδότησης ΤΝ ή Multilayer Perceptrons (MLP) Ο αλγόριθµος Back Propagation Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα Σίγµα Πι Τεχνητά Νευρωνικά ίκτυα Functional link networks (FLNs) Τεχνητά Νευρωνικά ίκτυα εύτερης-τάξης ( ΤΤΝ ) (Second Order Neural Networks SONNs) Product Unit Neural Networks (PUNN) Πι Σίγµα Τεχνητά Νευρωνικά ίκτυα (ΠΣΤΝ ) Αρχιτεκτονική ικτύου Nonlinear Mapping Capability of Analog and Binary PSNs Συσχετισµός µε άλλα ΥΤΤΝ Αλγόριθµοι εκπαίδευσης ιαφοροεξελικτικοί Αλγόριθµοι Εξελικτικοί Αλγόριθµοι ιαφοροεξελικτικός Αλγόριθµος Μια Επισκόπηση των Ε Η διαδικασία της Μετάλλαξης

7 vi Καθολικές-Ολικές Μεταλλάξεις (Universal Global Mutations) Τελεστές Μετάλλαξης Η διαδικασία της Επιλογής Η διαδικασία του Επανασυνδιασµού Παράλληλοι Εξελικτικοί Αλγόριθµοι Παράλληλοι Εξελικτικοί Αλγόριθµοι Ιστορικά στοιχεία για την πορεία των ΠΕΑ Μοντέλα νησιών Εργαλεία για Παραλληλισµό Εξελικτικών Αλγορίθµων Το πρότυπο Message Passing Interface Μέτρηση επιτάχυνσης στους ΠΕΑ Κατανεµηµένοι ιαφοροεξελικτικοί Αλγόριθµοι Πειραµατικά Αποτελέσµατα Σειριακές Υλοποιήσεις Το πρόβληµα οµαδοποίησης και αναγνώρισης αριθµητικών ψη- ϕίων (NumFont) Το πρόβληµα γενίκευσης MONK Το πρόβληµα οµαδοποίησης και αναγνώρισης αριθµητικών ψη- ϕίων µε πένα (PenDigits) Το πρόβληµα κατηγοριοποίησης σηµάτων Sonar Παράλληλες και Κατανεµηµένες Υλοποιήσεις Βιβλιογραφία 73

8 Κατάλογος Σχηµάτων 2.1 Μη-γραµµικό Μοντέλο νευρώνα Αποτέλεσµα της εισαγωγής της µεροληψίας στον τεχνητό νευρώνα Συνάρτηση ενεργοποίησης µε κατώφλι Piecewise Linear Function Σιγµοειδής συνάρτηση ενεργοποίησης Εµπρόσθιας τροφοδότησης τεχνητό νευρωνικό δίκτυο πολλαπλών επιπέδων µε ένα κρυφό επίπεδο και τοπολογία Αναδροµικό ΤΝ µε ένα µόνο επίπεδο Αναδροµικό ΤΝ µε κρυφούς νευρώνες Εκπαίδευση µε Επίβλεψη Αρχιτεκτονική MLP δικτύου Η διαδικασία Back Propagation Σίγµα Πι Τεχνητό Νευρωνικό ίκτυο Functional Link Τεχνητό Νευρωνικό ίκτυο Τεχνητά Νευρωνικά ίκτυα Πολλαπλασιαστικών Μονάδων Τεχνητά Νευρωνικά ίκτυα Πολλαπλασιαστικών Μονάδων Πι Σίγµα Τεχνητό Νευρωνικό ίκτυο ιάγραµµα τις οικογένειας του Εξελικτικού Υπολογισµού (ΕΥ) Γραφική αναπαράσταση του τελεστή µετάλλαξης DE/rand/1/bin Κατανοµή σηµείων των Ε που περικλείουν µία ελλειψοειδής αντικει- µενική συνάρτηση Παρουσίαση της ϐέλτιστης µετάλλαξης του ελλειψοειδούς ίσης πιθανότητας για την τοποθέτηση ενός απόγονου πάνω στις ισουψείς της ελλειψοειδής αντικειµενικής συνάρτησης Σχήµα επιλογής των Ε Η στροφή των συντεταγµένων αλλάζει την τοποθεσία των υποψήφιων ατόµων-παιδιών που δηµιουργούνται από τον διακριτό επανασυνδιασµό. Ενώ ο γραµµικός συνδιασµός των x i,g και x r3,g παραµένει αναλλοίωτος Γραφική αναπαράσταση του τελεστή µετάλλαξης DE/current to rand/ ιάφορα µοντέλα των ΠΕΑ : (a) master slave υλοποίηση ενός ενιαίου πληθυσµού, (b) Μοντέλο νησιών, πολλών πληθυσµών coarse grained αλγόριθµοι, (c) κυψελοειδής ΕΑ, (d,e,f) υβριδικές µορφές ΠΕΑ συνδυάζοντας τις προηγούµενες τρείς κατηγορίες Μοντέλα νησιών Κωδικοποίηση του αριθµού έξι

9 viii 6.2 Επιτάχυνση των εκπαιδευµένων ΠΣΤΝ από τους DDE 1 και DDE 2, για τα MONK και Sonar προβλήµατα

10 Κατάλογος Πινάκων 4.1 Ψευδοκώδικας κλασικού Εξελικτικού Αλγορίθµου Πειραµατικά αποτελέσµατα από το N-bit πρόβληµα ελέγχου ισοτιµίας Κωδικοποίηση του αριθµού έξι Αποτελέσµατα γενίκευσης για το NumFont πρόβληµα Αποτελέσµατα γενίκευσης για τα MONK προβλήµατα Αποτελέσµατα γενίκευσης για το PenDigits πρόβληµα Αποτελέσµατα γενίκευσης για το Sonar πρόβληµα Αποτελέσµατα γενίκευσης για το MONK1 πρόβληµα Αποτελέσµατα γενίκευσης για το MONK2 πρόβληµα Αποτελέσµατα γενίκευσης για το MONK3 πρόβληµα Αποτελέσµατα γενίκευσης για το Sonar πρόβληµα

11 x

12 Κατάλογος Συντοµεύσεων Συντόµογραφια Περιγραφή Σελίδα Η/Ψ Ηλεκτρονικός Υπολογιστής 3 BP Back Propagation 15 CNF Conjunctive Normal Form 69 CPU Central Process Unit 54 DE Differential Evolution 1, 36 EC Evolutionary Computation 35 EP Evolutionary Programming 36 ES Evolutionary Strategies 36 FLNs Functional link networks 24 GA Genetic Algorithms 36 GP Genetic Programming 36 HDE Hyperplane Determination from Examples 25 Algorithm HONNs High Order Neural Networks 1, 21 HPU Υψηλής τάξης υπολογιστικές µονάδες 22 MLP Multilayer Perceptrons 9, 15 MPI Message Passing Interface 60 MSE Mean Square Error 66 PEA Parallel Evolutionary Algorithms 52 PSN Pi Sigma Network 28 PSO Particle Swarm Intelligence 36 PUNN Product Unit Neural Networks 26 RNN Recurrent Neural Network 10 RPNs Ridge Polynomial Networks 30 SONN Second Order Neural Networks 25 WAN Wide Area Network 60 ceas cellular EAs 52 deas distributed Evolutionary Algorithms 52 ΑΝ Αθροιστικός Νευρώνας 26 ΑΝΣ Αλγόριθµος Νοηµοσύνης Σµηνών 36 ΑΠΣΤΝ Αναλογικά Πι Σίγµα Τεχνητά Νευρωνικά ίκτυα 28 ΑΣ Αντικειµενική Συνάρτηση 36 ΑΤΝ Αναδροµικό Τεχνητό Νευρωνικό ίκτυο 10 ΓΑ Γενετικοί Αλγόριθµοι 36 ΓΠ Γενετικός Προγραµµατισµός 36 Ε ιαφοροεξελικτικός Αλγόριθµος 1, 36 ΠΣΤΝ υαδικό Πι Σίγµα Τεχνητό Νευρωνικό ίκτυο 28 ΤΤΝ Τεχνητά Νευρωνικά ίκτυα εύτερης-τάξης 25

13 xii Συντόµογραφια Περιγραφή Σελίδα ΕΑ Εξελικτικός Αλγόριθµος 35 ΕΠ Εξελικτικός Προγραµµατισµός 36 ΕΣ Εξελικτικές Στρατηγικές 36 ΕΥ Εξελικτικός Υπολογισµός 35 Κ Ε Κατανεµηµένοι ιαφοροεξελικτικοί Αλγόριθ- 63 µοι ΜΤΣ Μέσο τετραγωνικό σφάλµα 66 ΠΕΑ Παράλληλοι Εξελικτικοί Αλγόριθµοι 51, 52 ΠΜΤΝ Τεχνητά Νευρωνικά ίκτυα Πολλαπλασιαστικών 26 Μονάδων ΠΝ Πολλαπλασιαστικοί Νευρώνες 26 ΠΣΤΝ Πι Σίγµα Τεχνητά Νευρωνικά ίκτυα 21, 28 ΣΠΤΝ Σίγµα Πι Τεχνητά Νευρωνικά ίκτυα 22 ΤΝ Τεχνητά Νευρωνικά ίκτυα 3, 21 ΥΤΤΝ Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα 1, 21 κεα κατανεµηµένοι Εξελικτικοί Αλγόριθµοι 52 κυψεα κυψελοειδές Εξελικτικοί Αλγόριθµοι 52

14 Κ Ε Φ Α Λ Α Ι Ο 1 Εισαγωγή Η παρούσα διπλωµατική εργασία ασχολείται µε την µελέτη και την εκπαίδευση ειδικών µορφών Τεχνητών Νευρωνικών ικτύων (ΤΝ ) µε µεθόδους Ολικής Βελτιστοποίησης και τις εφαρµογές αυτών, σε σειριακά και κατανεµηµένα συστήµατα. Πιο συγκεκριµένα, ϑα µελετήσουµε την κλάση των Υψηλής Τάξης Τεχνητών Νευ- ϱωνικών ικτύων (ΥΤΤΝ ) High Order Neural Networks (HONNs), και πιο ειδικά ϑα ασχοληθούµε µε τα Πι Σίγµα ίκτυα (ΠΣΤΝ ), τα οποία έχουν πρώτο παρουσιάσει οι Shin και Ghosh [104,106]. Παρόλο που τα ΠΣΤΝ έχουν λιγότερα ϐάρη και υπολογιστικούς κόµβους (νευρώνες) από τα ΥΤΤΝ, καταφέρνουν εµµέσως να ενσωµατώνουν πολλές από τις ικανότητες τους. Τα ΠΣΤΝ έχουν επιδείξει τις δυνατότητές τους και έχουν εφαρµοστεί σε δύσκολα πραγµατικά προβλήµατα στα οποία τα κλασικά δίκτυα εµπρόσθιας τροφοδότησης αντιµετωπίζουν αρκετές δυσκολίες, τέτοια προβλήµατα συµπεριλαµβάνουν την εύρεση ϱιζών µονοδιάστατων πολυωνύ- µων [57], καθώς επίσης και την παραγωντοποίηση πολυωνύµων [91]. Σκοπός της διπλωµατικής εργασίας είναι η εκπαίδευσή των ΠΣΤΝ και η µελέτη των ικανοτήτων τους µε την εφαρµογή τους σε διάφορα πολύ γνωστά χαρακτηριστικά προβλήµατα εκπαίδευσης νευρωνικών δικτύων. Επιπρόσθετα, για την εκπαίδευση των ΠΣΤΝ χρησιµοποιήσαµε µικρά ακέ- ϱαια ϐάρη και για συναρτήσεις ενεργοποίησης, συναρτήσεις κατώφλια. Οι κύριοι αλγόριθµοι εκπαίδευσης που χρησιµοποιήσαµε και προτείνουµε, ϐρίσκονται στην κλάση των αλγορίθµων Ολικής Βελτιστοποίησης, και ονοµάζονται Εξελικτικοί Αλγόριθµοι. Πιο συγκεκριµένα χρησιµοποιήσαµε, ιαφοροεξελικτικούς Αλγόριθµους ( Ε) [95, 118] για τις σειριακές υλοποιήσεις καθώς και τον Κατανεµηµένο ιαφο- ϱοεξελικτικό Αλγόριθµο [122] για τις παράλληλες και κατανεµηµένες υλοποιήσεις. Οι ιαφοροεξελικτικοί Αλγόριθµοι έχουν αποδειχτεί ότι είναι ικανοί και αποτελεσµατικοί αλγόριθµοι ϐελτιστοποίησης επιλύοντας πολυάριθµα δύσκολα προβλήµατα πραγµατικού κόσµου [94, 95, 117, 122, 123]. Ο παράλληλος και Κατανεµηµένος ιαφοροεξελικτικός Αλγόριθµος (Κ Ε) έχει σχεδιαστεί έτσι ώστε να εκµεταλλεύεται το γεγονός ότι τα ακέραια ϐάρη και οι µεροληψίες χρειάζονται για αποθήκευση λιγότερη δυαδική πληροφορία, καθώς επίσης η αριθµητική και οι αριθµητικές πράξεις που χρησιµοποιούν είναι ευκολότερο στο να υπολογιστούν και να υλοποιηθούν σε υλικό (hardware). Αξίζει να σηµειωθεί ότι, οι υλοποιήσεις των ΠΣΤΝ, µε ακέραια ϐάρη και συναρτήσεις ενεργοποίησης κατώφλια, σε υλικό µπορούν να εκπαιδευτούν καθώς τα δεδοµένα εισόδου αλλάζουν (εκπαίδευση σε υλικό (on chip training». Εάν το δίκτυο έχει εκπαιδευτεί σε ένα περιορισµένο χώρο ϐαρών, τότε οι τιµές των ϐαρών που έχουν ϐρεθεί είναι µικρές και µε αυτόν τον τρόπο απαιτείτε λιγότερη µνήµη για την αποθήκευσή τους. Αντιθέτως, η διαδικασία εκπαίδευσης ενώς δικτύου είναι πιο αποδοτική και αποτελεσµατική εάν κατά την εκπαίδευση χρησιµοποιούνται

15 2 Εισαγωγή µεγάλες τιµες για τα ϐάρη. Κατά συνέπεια, όπως είναι κατανοητό σε ένα δεδοµένο πρόβληµα πρέπει να ληφθεί υπόψη η ανταλλαγή µεταξύ τις αποτελεσµατικότητας και τις κατανάλωσης µνήµης. Η παρουσίαση των επιµέρους ϑεµάτων και αποτελεσµάτων της διπλωµατικής εργασίας οργανώνεται ως εξής: Στο Κεφάλαιο 1 παρέχουµε τους ϐασικούς ορισµούς και περιγράφουµε τη δοµή και τη λειτουργία των ΤΝ. Στη συνέχεια, παρουσιάζουµε τις γενικές διαδικασίες µάθησης, αναφέρουµε µερικά από τα πλεονεκτήµατα της χρήσης των ΤΝ και περιγράφουµε τις ϐασικές κατηγορίες µεθόδων εκπαίδευσης. Το Κεφάλαιο 2 αφιερώνεται στην περιγραφή της ειδικής κατηγορίας ΤΝ, τα Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα (ΥΤΤΝ ). Εδώ, περιγράφουµε τα κύρια χαρακτηριστικά και τα πλεονεκτήµατα των ΥΤΤΝ και παρουσιάζουµε τις κύριες µορφές αυτών. Στην συνέχεια δίνουµε έµφαση στην µορφή Πι Σίγµα ΤΝ, όπου είναι και το αντικείµενο έρευνας αυτής της διπλωµατικής εργασίας, παρουσιάζοντας την δοµή της, τα χαρακτηριστικά της, τα πλεονεκτήµατα της σε σχέση µε τις άλλες µορφές των ΥΤΤΝ και κάποιες επεκτάσεις αυτών για µελλοντική µελέτη. Στο τέλος του κεφαλαίου παρουσιάζονται οι µέχρι τώρα γνωστοί αλγόριθµοι εκπαίδευσης τους. Στο Κεφάλαιο 3 περιγράφουµε µεθόδους ολικής ϐελτιστοποίησης όπως οι Εξελικτικοί Αλγόριθµοι και πιο συγκεκριµένα τους ιαφοροεξελικτικούς Αλγόριθµους ( Ε). Το κεφάλαιο αυτό ξεκινάει µε µία εισαγωγή στα κύρια χαρακτηριστικά των Εξελικτικών Αλγορίθµων, ενώ στην συνέχεια γίνεται µία αναλυτική περιγραφή των Ε. Παρουσιάζονται, η γενική αλγοριθµική διαδικασία των Ε και οι κύριες διαδικασίες που τον αποτελούν όπως η µετάλλαξη, ο επανασυνδιασµός και η διαδικασία της επιλογής. Στο επόµενο κεφάλαιο παρουσιάζουµε τους Παράλληλους Εξελικτικούς Αλγόριθ- µους (ΠΕΑ). ίνουµε τις κύριες κατηγορίες αυτών των µεθόδων, τα χαρακτηριστικά τους καθώς και µία µικρή ιστορική αναδροµή για αυτούς. Στην συνέχεια εξετάζουµε αναλυτικά την κατηγορία «Μοντέλα Νησιών» και τις ιδιότητες της. Μελετάµε την ε- ϕαρµογή τους σε παράλληλα και κατανεµηµένα συστήµατα, και δίνουµε µία µικρή περιγραφή των εργαλείων µε την εφαρµογή των οποίων µπορούν να υλοποιηθούν. Μετά, περιγράφουµε τον σωστό τρόπο µέτρησης της επιτάχυνσης για τους ΠΕΑ όπως έχει προταθεί εως τώρα στην ϐιβλιογραφία. Τέλος παρουσιάζουµε την προτεινόµενη τροποποίηση των Ε για την εκπαίδευση των ΠΣΤΝ µε ακέραια ϐάρη περιορισµένων δυαδικών ψηφίων, και την χρησιµοποίηση ως συναρτήσεων ενεργοποίησης συναρτήσεις «κατώφλια». Η προτεινόµενη µέθοδος είναι ικανή να λειτουργήσει αποδοτικά σε παράλληλα και κατανεµηµένα συστήµατα. Η παρουσίαση της διπλωµατικής εργασίας ολοκληρώνεται µε το Κεφάλαιο 6. Το Κεφάλαιο 6 περιέχει τα πειραµατικά αποτελέσµατα των Ε και των Κ Ε σε πολύ γνωστά και ευρέως χρησιµοποιηµένα χαρακτηριστικά προβλήµατα πραγµατικού κόσµου και παρουσιάζονται συνοπτικά τα γενικά συµπεράσµατα της διπλωµατικής εργασίας.

16 Κ Ε Φ Α Λ Α Ι Ο 2 Τεχνητά Νευρωνικά ίκτυα 2.1 Εισαγωγή Ηιδέα των Τεχνητών Νευρωνικών ικτύων (ΤΝ ) έχει προέλθει από τον τρόπο λειτουργίας των ϐιολογικών νευρωνικών δικτύων του ανθρώπινου εγκεφάλου. Από την στιγµή που διαπιστώθηκε ότι ο ανθρώπινος εγκέφαλος λειτουργεί εντελώς διαφορετικά από τον τρόπο που λειτουργούν οι Ηλεκτρονικοί Υπολογιστές (Η/Ψ) για να κάνουν υπολογισµούς, ξεκίνησε η προσπάθεια προσοµοίωσης των µεθόδων µάθησης και λειτουργίας του από τους Η/Υ. Η προσπάθεια για την κατανόηση του εγκεφάλου, αρχικά οφείλεται στην πρωτοποριακή εργασία του Ramon y Cajal το 1911, που εισήγαγε την ιδέα των νευρώνων ως τα δοµικά χαρακτηριστικά του ανθρώπινου εγκεφάλου. Συνήθως, οι νευρώνες είναι πέντε µε έξι τάξεις πιο αργοί από τις λογικές πύλες που κατασκευάζονται από σιλικόνη. Σε ένα chip σιλικόνης συµβαίνουν γεγονότα της τάξης του nanosecond (10 9 s), αντιθέτως τα γεγονότα στους ϐιολογικούς νευρώνες συµβαίνουν στην τάξη των millisecond (10 3 s). Εντούτοις ο εγκέφαλος, αναπληρώνει την σχετικά αργή ταχύτητα επεξεργασίας που έχουν οι νευρώνες του µε την ύπαρξη ενός εξαιρετικά µεγάλου αριθµού νευρώνων (νευρικών κυττάρων) µε πάρα πολλές συνδέσεις µεταξύ τους. Υπολογίζεται ότι στον ανθρώπινο εγκεφαλικό ϕλοιό πρέπει να υπάρχουν περί τα 10 δισεκατοµµύρια νευρώνες και 60 τρισεκατοµµύρια συνάψεις [69]. Ο ανθρώπινος εγκέφαλος είναι ένας ιδιαίτερα πολύπλοκος, µη γραµµικός και παράλληλος ηλεκτρονικός υπολογιστής (σύστηµα επεξεργασίας πληροφοριών). Εχει την ικανότητα να οργανώνει τους νευρώνες µε τέτοιο τρόπο ώστε να κάνει συγκεκριµένους υπολογισµούς, όπως για παράδειγµα την αναγνώριση προτύπων (pattern recognition), την αντίληψη (perception) και την κίνηση, πολύ πιο γρήγορα από τον γρηγορότερο ηλεκτρονικό υπολογιστή που υπάρχει. Για παράδειγµα ας ϑεωρήσου- µε την ανθρώπινη όραση, η οποία είναι µια εργασία επεξεργασίας πληροφοριών. Ο λειτουργικός ϱόλος του οπτικού συστήµατος είναι να παρέχει µια αναπαράσταση του περιβάλλοντος γύρω µας και κυρίως να παρέχει τις απαιτούµενες πληροφορίες έτσι ώστε να µπορούµε να αλληλεπιδρούµε µε αυτό. Πιο συγκεκριµένα, ο ανθρώπινος εγκέφαλος έχει την ικανότητα να πραγµατοποιεί εργασίες αναγνώρισης, π.χ. να αναγνωρίζει ένα γνώριµο πρόσωπο σε µια άγνωστη σκηνή, σε περίπου 100 µε 200 ms, ενώ ένας ηλεκτρονικός υπολογιστής µπορεί να χρειάζεται µέρες για να το πραγµατοποιήσει. Ενα άλλο χαρακτηριστικό του ανθρώπινου εγκεφάλου είναι η πλαστικότητα, η ικανότητα δηλαδή του νευρικού συστήµατος να προσαρµόζεται στο περιβάλλον. Στον εγκέφαλο ενός ενήλικου ανθρώπου, η πλαστικότητα εκφράζεται µε δύο τρόπους: 1. µε την δηµιουργία νέων συνάψεων µεταξύ των νευρώνων και

17 4 Τεχνητά Νευρωνικά ίκτυα 2. µε την τροποποίηση των ήδη υπαρχόντων. Οπως στον ανθρώπινο εγκέφαλο, έτσι και στα ΤΝ η πλαστικότητα είναι απαραίτητη για την λειτουργία των νευρώνων σαν αυτόνοµες µονάδες επεξεργασίας πληροφοριών. Στη γενική του µορφή, ένα νευρωνικό δύκτιο είναι µια µηχανή που έχει σχεδιαστεί για να µοντελοποιεί τον τρόπο µε τον οποίο ο εγκέφαλος εκτελεί µια συγκεκριµένη εργασία. Το δίκτυο συνήθως υλοποιείται µε την χρήση ηλεκτρονικών εξαρτηµάτων ή προσοµοιώνεται µε τη χρήση λογισµικού σε έναν ηλεκτρονικό υπολογιστή. Πα- ϱακάτω δίνεται ο ορισµός ενός ΤΝ που έχει προταθεί στην εργασία [7] από τους Aleksander και Morton το Ενα Τεχνητό Νευρωνικό ίκτυο είναι ένας παράλληλος και κατανεµηµένος επεξεργαστής που έχει κατασκευαστεί από απλές µονάδες επεξεργασίας (νευρώνες), που έχει µια ϕυσική κλίση στο να αποθηκεύει εµπειρική γνώση και έχει την ικανότητα να την χρησιµοποιήσει. Οµοιάζει τον αν- ϑρώπινο εγκέφαλο µε δύο τρόπους: 1. Η γνώση λαµβάνεται στο δίκτυο από το περιβάλλον µέσω µιας διαδικασίας εκπαίδευσης 2. Η αποθήκευση της γνώσης γίνεται µέσω των ϐαρών που υπάρχουν στις διασυνδέσεις µεταξύ των νευρώνων και ονοµάζονται ϐάρη. Η διαδικασία που χρησιµοποιείται για την εκπαίδευση ενός ΤΝ καλείται αλγό- ϱιθµος εκπαίδευσης, και ο σκοπός της είναι να µεταβάλει τα ϐάρη των διασυνδέσεων του δικτύου έτσι ώστε το δίκτυο να παράγει την επιθυµητή έξοδο. Εκτός από την µεταβολή των ϐαρών ενός ΤΝ, το δίκτυο έχει την δυνατότητα να µεταβάλει και την τοπολογία του, όπως συµβαίνει στους νευρώνες του ανθρώπινου εγκεφάλου. δηλαδή, κάποιοι από τους νευρώνες σταµατούν να λειτουργούν και πεθαίνουν ενώ κάποιοι άλλοι δηµιουργούν νέες συνδέσεις. 2.2 Μοντέλα Νευρώνων Ενας νευρώνας είναι µια µονάδα επεξεργασίας πληροφοριών ϐασική για την λειτουργία του ΤΝ. Στο σχήµα 2.1 ϕαίνεται ένα µοντέλο νευρώνα, το οποίο αποτελεί το ϐασικό στοιχείο για την σχεδίαση ενός ΤΝ. Σε ένα µοντέλο νευρώνα µπορούµε να αναγνωρίσουµε τρία ϐασικά στοιχεία: 1. Ενα σύνολο από συνάψεις (διασυνδέσεις), η κάθε µια από τις οποίες χαρακτηρίζεται από κάποιο ϐάρος. Συγκεκριµένα, ένα σήµα x j στην είσοδο µιας σύναψης j που είναι συνδεδεµένη µε τον νευρώνα k πολλαπλασιάζεται µε το ϐάρος της σύναψης w kj. Οι υποδείκτες του w έχουν την εξής σηµασία. Ο πρώτος υποδείκτης αναφέρεται στον εν λόγω νευρώνα και ο δεύτερος στην είσοδο της σύναψης όπου αναφέρεται το ϐάρος. Το ϐάρος w kj είναι ϑετικό όταν η σχετική σύναψη διεγείρει τον νευρώνα και αρνητικό όταν η σύναψη είναι ανασταλτική. 2. Εναν αθροιστή που αθροίζει τα εισερχόµενα σήµατα στον νευρώνα και έχουν πολλαπλασιαστεί µε το ϐάρος της αντίστοιχης σύναψης από την οποία εισήλ- ϑαν. Οι διαδικασίες που περιγράφονται εδώ αποτελούν ένα γραµµικό συνδιαστή.

18 2.2 Μοντέλα Νευρώνων 5 3. Μια συνάρτηση ενεργοποίησης για τον περιορισµό του µεγέθους της εξόδου ενός νευρώνα. Συνήθως το κανονικοποιηµένο εύρος της εξόδου ενός νευρώνα είναι το κλειστό σύνολο [0,1] ή [-1,1]. x 1 W k1 b k Bias Output x 2 W k2 Σ u k Φ( ) y k x m W km Summing Function Activation Function Synaptics Weights Σχήµα 2.1: Μη-γραµµικό Μοντέλο νευρώνα Το µοντέλο του νευρώνα που παρουσιάζεται στο σχήµα 2.1 περιλαµβάνει επίσης και ένα εξωτερικό ϐάρος β k. Το ϐάρος β k έχει ως αποτέλεσµα την αύξηση ή την µείωση της τιµής που δίνει σαν είσοδο το δίκτυο στην συνάρτηση ενεργοποίησης ανάλογα µε το αν είναι αρνητικό ή ϑετικό. Το ϐάρος αυτό ονοµάζεται µεροληψία (bias). Με µαθηµατικούς όρους, µπορούµε να περιγράψουµε έναν νευρώνα k από το παρακάτω Ϲεύγος εξισώσεων: m u k = w kj x j και j=1 y k = φ(u k β k ) όπου x 1, x 2,...,x m είναι τα εισερχόµενα σήµατα, w k1, w k2,...,w km είναι τα ϐάρη των συνάψεων του νευρώνα k, u k είναι η έξοδος του γραµµικού συνδιαστή, φ( ) είναι η συνάρτηση ενεργοποίησης και y k είναι το σήµα που δίνει σαν έξοδο ο νευρώνας k. Η χρήση της µεροληψίας β k στο µοντέλο του σχήµατος 2.1 έχει ως αποτέλεσµα την εφαρµογή ενός µετασχηµατισµού της εξόδου u k µε τον γραµµικό συνδιαστή όπως ϕαίνεται από την παρακάτω εξίσωση: v k = u k θ k Συγκεκριµένα, µε ϐάση το αν η µεροληψία β k είναι ϑετική ή αρνητική, η σχέση µεταξύ της δυνατότητας ενεργοποίησης v k του νευρώνα k και της εξόδου του γραµµικού συνδιαστή u k τροποποιείται όπως ϕαίνεται στο σχήµα 2.2. Σηµειώνεται ότι µε την εφαρµογή του µετασχηµατισµού αυτού η γραφική παράσταση του v k ως προς το u k δεν περνά πλέον από την αρχή των αξόνων. Η µεροληψία β k είναι µια εξωτερική παράµετρος του τεχνητού νευρώνα k. Μπο- ϱούµε να το εντάξουµε στις εξισώσεις που περιγράφουν τον νευρώνα όπως πιο πάνω, ή να τις γράψουµε ως εξής: m v k = w kj x j και j=0 y k = φ(v k )

19 6 Τεχνητά Νευρωνικά ίκτυα Bias β k > 0 v k β k = 0 β k < 0 0 u k Σχήµα 2.2: Αποτέλεσµα της εισαγωγής της µεροληψίας στον τεχνητό νευρώνα. Στην νέα εξίσωση του v k έχουµε προσθέσει µια νέα σύναψη που έχει σαν είσοδο και ϐάρος x 0 = +1 w k0 = β k Με αυτό τον τρόπο δηµιουργείται ένα νέο µοντέλο για τον νευρώνα. Σε αυτή την περίπτωση ο τρόπος που η µεροληψία επηρεάζει τον νευρώνα περιγράφεται από δύο πράγµατα: (1) προστίθεται ένα νέο σήµα εισόδου που έχει σταθερά την τιµή +1, (2) προστίθεται ένα νέο ϐάρος σύναψης που ισούται µε το β k Τύποι Συναρτήσεων Ενεργοποίησης Η συνάρτηση ενεργοποίησης, που συµβολίζεται µε φ( ), ορίζει την έξοδο του νευρώνα σε σχέση µε την δυνατότητα ενεργοποίησης στην είσοδό του. Υπάρχουν τρείς ϐασικοί τύποι συναρτήσεων ενεργοποίησης: 1. Η συνάρτηση κατώφλι (Threshold function). Για αυτό το είδος συνάρτησης ενεργοποίησης που περιγράφεται στο σχήµα 2.3 έχουµε { 1, αν u 0 φ(u) = 0, αν u 0 αντίστοιχα, η έξοδος του νευρώνα k µε την χρήση µιας τέτοιας συνάρτησης εκφράζεται σαν { 1, αν uk 0 y k = 0, αν u k 0

20 2.2 Μοντέλα Νευρώνων 7 όπου u k είναι η δυνατότητα ενεργοποίησης του νευρώνα. ηλαδή u k = m w kj x j β k j=1 Ενας νευρώνας που χρησιµοποιεί τέτοιου είδους συνάρτηση ενεργοποίησης ακολουθεί το µοντέλο των McCulloch Pitts. Σε αυτό το µοντέλο η έξοδος του νευρώνα παίρνει την τιµή 1 αν η ολική δυνατότητα ενεργοποίησης του νευρώνα είναι µη αρνητική διαφορετικά παίρνει την τιµή Piecewise Linear Function. Για αυτό το είδος συνάρτησης ενεργοποίησης που ϕαίνεται στο σχήµα 2.4 έχουµε 1, αν u 1 2 φ( ) = u, αν 1 > u > , αν u 1 2 όπου ο παράγοντας ενίσχυσης (amplification factor) µέσα στην γραµµική πε- ϱιοχή της συνάρτησης ϑεωρείται µονάδα. Το είδος αυτών των συναρτήσεων µπορεί να ϑεωρηθεί µια προσέγγιση σε µη γραµµικό ενισχυτή. Οι δυο περιπτώσεις παρακάτω είναι ειδικές µορφές της Piecewise Linear Function: Ενας γραµµικός συνδιαστής χρησιµοποιείται όταν η γραµµικότητα της περιοχής ενεργοποίησης διατηρείται χωρίς να υπάρχουν κορεσµοί Η Piecewise Linear Function µετατρέπεται σε συνάρτηση κατώφλι αν ο παράγοντας ενίσχυσης της γραµµικής περιοχής γίνει απείρως µεγάλος. 3. Σιγµοειδής συνάρτηση ενεργοποίησης. Η σιγµοειδής συνάρτηση είναι η πιο ευρέως χρησιµοποιούµενη συνάρτηση ενεργοποίηση για την κατασκευή ΤΝ. Ορίζεται ως µια γνησίως αύξουσα συνάρτηση που είναι οµαλή και ασυµπτωτική. Ενα παράδειγµα σιγµοειδούς συνάρτησης είναι η παρακάτω συνάρτηση: φ(u) = exp( αu) όπου α είναι η παράµετρος κλίσης της σιγµοειδούς συνάρτησης. Με µεταβολή του α µπορούµε να µεταβάλουµε την κλίση της σιγµοειδούς όπως ϕαίνεται στο σχήµα 2.5. Συγκεκριµένα η κλίση της σιγµοειδούς στην αρχή των αξόνων ισούται µε α. Στο όριο, καθώς το α τείνει προς το άπειρο, η σιγµοειδής 4 συνάρτηση µετατρέπεται σε συνάρτηση κατώφλι. Αντίθετα µε την συνάρτηση κατώφλι που παίρνει τιµές 0 ή 1, η σιγµοειδής συνάρτηση µπορεί να πάρει όλες τις τιµές από το [0,1]. Επίσης η σιγµοειδής συνάρτηση είναι διαφορίσιµη ενώ η συνάρτηση κατώφλι δεν είναι. Μέχρι τώρα οι συναρτήσεις που αναφέρθηκαν παίρνουν τιµές από το 0 ως το +1, κάποιες ϕορές όµως είναι επιθυµητό η συνάρτηση ενεργοποίησης να παίρνει τιµές από το -1 ως το +1. Σε αυτή την περίπτωση η συνάρτηση ενεργοποίησης παίρνει µια αντισυµµετρική µορφή ως προς την αρχή των αξόνων. Συγκεκριµένα η συνάρτηση

21 8 Τεχνητά Νευρωνικά ίκτυα y 0.5 K2 K x K0.5 Σχήµα 2.3: Συνάρτηση ενεργοποίησης µε κατώφλι y 0.5 K2 K x K0.5 Σχήµα 2.4: Piecewise Linear Function y K8 K6 K4 K x K0.2 K0.4 Σχήµα 2.5: Σιγµοειδής συνάρτηση ενεργοποίησης.

22 2.3 Αρχιτεκτονικές Τεχνητών Νευρωνικών ικτύων 9 κατώφλι γίνεται 1, αν u > 0 φ( ) = 0, αν u = 0 1, αν u < 0 ενώ για την σιγµοειδή συνάρτηση µπορούµε να πάρουµε την υπερβολική εφαπτοµένη που δίνεται από: φ(u) = tanh(u) 2.3 Αρχιτεκτονικές Τεχνητών Νευρωνικών ικτύων Ο τρόπος µε τον οποίο οι νευρώνες ενός ΤΝ είναι δοµηµένοι είναι στενά συνδεδεµένος µε τον αλγόριθµο εκπαίδευσης που χρησιµοποιείται για το δίκτυο. Γενικά υπάρχουν τρείς ϐασικές διαφορετικές κλάσεις αρχιτεκτονικών δικτύου Feedforward ίκτυα Ενός Επιπέδου (Single Layer Feedforward networks) Στα νευρωνικά δίκτυα οι νευρώνες του δικτύου οργανώνονται σε διάφορα επίπεδα. Η πιο απλή µορφή νευρωνικού δικτύου µε επίπεδα είναι ένα νευρωνικό δίκτυο µε ένα επίπεδο. Στην περίπτωση αυτή έχουµε ένα επίπεδο µε κόµβους εισόδου που προβάλλονται σε ένα επίπεδο εξόδου µε νευρώνες (όπου γίνονται οι υπολογισµοί), ενώ το αντίθετο δεν ισχύει, δεν µπορούµε δηλαδή να πάµε από τους νευρώνες εξόδου στους κόµβους εισόδου. Σε αυτή την περίπτωση, το δίκτυο είναι ένα αυστηρά εµπρόσθιας τροφοδότησης (feedforward) δίκτυο και καλείται Feedforward ίκτυο Ε- νός Επιπέδου. Με τον όρο ένα επίπεδο εννοούµε το επίπεδο εξόδου που περιέχει και τους νευρώνες όπου γίνονται οι υπολογισµοί. Σηµειώνεται ότι δεν υπολογίζεται το επίπεδο εισόδου µε τους κόµβους εισόδου γιατί σε αυτό δεν γίνονται καθόλου υπολογισµοί Feedforward ίκτυα Πολλαπλών Επιπέδων (Multilayer Feedforward Networks) Η δεύτερη κλάση εµπρόσθιας τροφοδότησης νευρωνικών δικτύων διαφέρει από την πρώτη στην ύπαρξη ενός ή περισσοτέρων κρυφών επιπέδων, των οποίων οι νευ- ϱώνες καλούνται κρυφοί νευρώνες. Η λειτουργία των κρυφών νευρώνων είναι να παρεµβάλλονται µεταξύ των κόµβων εισόδου και των νευρώνων εξόδου του δικτύου. Με την προσθήκη ενός ή περισσότερων κρυφών επιπέδων, το δίκτυο έχει την δυνατότητα να προσεγγίζει συναρτήσεις µεγαλύτερης πολυπλοκότητας. Οι κόµβοι εισόδου στο επίπεδο εισόδου του δικτύου παρέχουν τα στοιχεία των προτύπων εισόδου, µε την µορφή διανυσµάτων, που γίνονται είσοδοι στους νευρώνες του δεύτερου επιπέδου, δηλαδή του πρώτου κρυφού επιπέδου. Τα σήµατα εξόδου των νευρώνων του δεύτερου κρυφού επιπέδου, γίνονται σήµατα εισόδου στο τρίτο επίπεδο και συνεχίζεται κατά αυτό τον τρόπο η ϱοή των σηµάτων µεταξύ των επιπέδων του δικτύου µέχρι να ϕτάσουν στο επίπεδο εξόδου. Συνήθως, οι νευρώνες σε κάθε επίπεδο του δικτύου, παίρνουν σαν είσοδο, τα σήµατα εξόδου από τους νευρώνες του προηγούµενου επιπέδου µόνο. Το σύνολο των σηµάτων εξόδου στο επίπεδο εξόδου (τελευταίο επίπεδο του δικτύου), αποτελεί και την απάντηση του δικτύου για

23 10 Τεχνητά Νευρωνικά ίκτυα τα δεδοµένα που εισάγονται στους κόµβους εισόδου. Στο σχήµα 2.6 ϕαίνεται ένα εµπρόσθιας τροφοδότησης τεχνητό νευρωνικό δίκτυο πολλαπλών επιπέδων µε ένα κρυφό επίπεδο. Για συντοµία το δίκτυο του σχήµατος αναφέρεται και σαν δίκτυο αφού έχει 3 κόµβους εισόδου, 1 νευρώνες στο κρυφό επίπεδο και 2 νευρώνες στο επίπεδο εξόδου. Γενικά ένα δίκτυο µε m κόµβους εισόδου, h 1 νευρώνες στο πρώτο κρυφό επίπεδο, h 2 νευρώνες στο δεύτερο κρυφό επίπεδο, κ.λπ. h n νευρώνες στο n-οστό κρυφό επίπεδο και q νευρώνες στο επίπεδο εξόδου, αναφέρεται σαν ένα m h 1 h 2... h n q δίκτυο. Adjustable weights Output Layer x 1 Input Patterns x i x n Input Layer Adjustable weights Hidden Layer Σχήµα 2.6: Εµπρόσθιας τροφοδότησης τεχνητό νευρωνικό δίκτυο πολλαπλών επιπέδων µε ένα κρυφό επίπεδο και τοπολογία Το νευρωνικό δίκτυο του σχήµατος 2.6 λέγεται ότι είναι πλήρως διασυνδεδεµένο (fully connected), µε την έννοια ότι κάθε κόµβος σε κάθε επίπεδο του δικτύου είναι συνδεδεµένος µε κάθε κόµβο του επόµενου επιπέδου του δικτύου. Στην περίπτωση που κάποιες από τις συνδέσεις δεν υπάρχουν τότε λέµε ότι το δίκτυο είναι µερικώς διασυνδεδεµένο (partially connected) Αναδροµικά Τεχνητά Νευρωνικά ίκτυα (Recurrent Neural Networks (ΡΝΝ» Ενα Αναδροµικό Τεχνητό Νευρωνικό ίκτυο (ΑΤΝ ) διαφέρει από ένα Feedforward δίκτυο στο γεγονός ότι περιέχει έναν τουλάχιστον ϐρόγχο ανατροφοδότησης. Αυτό σηµαίνει ότι σε έναν τουλάχιστον νευρώνα, το σήµα εξόδου του επηρεάζει το σήµα που έρχεται στην είσοδο του νευρώνα. Για παράδειγµα, ένα ΑΤΝ µπορεί να α- ποτελείται από ένα µόνο επίπεδο νευρώνων όπου κάθε νευρώνας επιστρέφει το σήµα εξόδου του σαν σήµα εισόδου σε όλους τους άλλους νευρώνες του επιπέδου (ϐλέπε σχήµα 2.7). Στο σχήµα αυτό δεν υπάρχουν κρυφοί νευρώνες ούτε ϐρόχοι όπου έ- νας νευρώνας να επιστρέφει το σήµα εξόδου του σαν είσοδο στον εαυτό του. Ακόµα, στο σχήµα 2.8 παρουσιάζεται µια άλλη κλάση αναδροµικών νευρωνικών δικτύων που έχουν κρυφούς νευρώνες. Οι αναδροµικές συνδέσεις που ϕαίνονται στο σχήµα, ξεκινάνε τόσο από τους κρυφούς νευρώνες όσο και από τους νευρώνες εξόδου. Η ύπαρξη

24 2.4 ιαδικασίες Μάθησης-Εκπαίδευσης 11 αυτή των ϐρόγχων όπως ϕαίνονται στα σχήµατα 2.7 και 2.8 επηρεάζουν σηµαντικά τις επίδοσεις και την ικανότητα εκπαίδευσης του δικτύου. Επίσης, οι αναδροµικοί ϐρόχοι περιλαµβάνουν και την χρήση στοιχείων καθυστέρησης (στο σχήµα συµβολίζονται µε z 1 ) έχοντας σαν αποτέλεσµα το δίκτυο να αποκτήσει µια δυναµική µη γραµµική συµπεριφορά. Σχήµα 2.7: Αναδροµικό ΤΝ µε ένα µόνο επίπεδο 2.4 ιαδικασίες Μάθησης-Εκπαίδευσης Η πιο σηµαντική ιδιότητα των ΤΝ είναι η ικανότητά τους να µαθαίνουν από το περιβάλλον τους και να ϐελτιώνουν την απόδοση τους µέσω της διαδικασίας µάθησης. Η ϐελτίωση αυτή γίνεται στην διάρκεια του χρόνου µε κάποιο προκαθορισµένο µέτρο. Ενα ΤΝ µαθαίνει από το περιβάλλον του µέσω µιας επαναληπτικής διαδικασίας προσαρµογών των ϐαρών στις συνάψεις του δικτύου και στα κατώφλια του. Στην ιδανική περίπτωση, µετά από κάθε επανάληψη της διαδικασίας µάθησης το ΤΝ αποκτά περισσότερη γνώση για το περιβάλλον του. Υπάρχουν πάρα πολλές δραστηριότητες που σχετίζονται µε την έννοια της µάθησης έτσι είναι αρκετά δύσκολο να δοθεί ένας ακριβής ορισµός για την µάθηση [79]. Επιπλέον, ο ορισµός της µάθησης είναι ϑέµα οπτικής γωνίας και µπορεί να την δει κάποιος διαφορετικά από τους άλλους [83]. Στην συγκεκριµένη περίπτωση, ο ορισµός δίνεται από τους Mendel και McClaren [77]. Ορίζουµε την διαδικασία µάθησης στο πλαίσιο των τεχνητών νευρωνικών δικτύων ως: Μάθηση είναι η διαδικασία µε την οποία οι ελεύθερες παράµετροι ενός ΤΝ προσαρµόζονται µέσω µιας συνεχούς διαδικασίας λήψης ερεθισµάτων από το περιβάλλον στο οποίο είναι ενσωµατωµένο το ΤΝ. Ο τύπος της

25 12 Τεχνητά Νευρωνικά ίκτυα Σχήµα 2.8: Αναδροµικό ΤΝ µε κρυφούς νευρώνες µάθησης καθορίζεται από τον τρόπο µε τον οποίο γίνονται οι αλλαγές στις παραµέτρους. Ο ορισµός αυτός της διαδικασίας µάθησης, συνεπάγεται την παρακάτω σειρά γεγονότων: 1. Το ΤΝ διεγείρεται από το περιβάλλον. 2. Το ΤΝ µεταβάλει τις τιµές των ελεύθερων παραµέτρων του ως αποτέλεσµα του ερεθισµάτων που δέχεται από το περιβάλλον. 3. Το ΤΝ αντιδρά µε διαφορετικό τρόπο στο περιβάλλον, λόγω των αλλαγών που επήλθαν στην εσωτερική του δοµή. Για την εκπαίδευση των ΤΝ, δηλαδή για τον τρόπο µε τον οποίο ϑα µεταβάλλονται οι ελεύθερες παράµετροι του, έτσι ώστε να επιτυγχάνεται η σωστή έξοδος για το ΤΝ ανάλογα µε τα δεδοµένα που εισέρχονται σε αυτό χρησιµοποιούνται οι αλγόριθµοι εκπαίδευσης. Αλγόριθµο εκπαίδευση, καλείται ένα προκαθορισµένο σύνολο από κανόνες που χρησιµοποιούνται για την επίλυση ενός προβλήµατος εκµάθησης. εν υπάρχει ένας µοναδικός αλγόριθµος εκπαίδευσης κατάλληλος για όλες τις περιπτώσεις. Αντίθετα υπάρχει ένα σύνολο αλγορίθµων που χρησιµοποιούνται κατά περίπτωση ανάλογα µε τα πλεονεκτήµατα και τα µειονεκτήµατα τους και το είδος του προβλήµατος εκπαίδευσης. Το ϐασικό σηµείο στο οποίο διαφέρουν οι αλγόριθµοι εκπαίδευσης είναι ο τρόπος µε τον οποίο προσαρµόζουν τα ϐάρη w kj των συνάψεων τους.

26 2.4 ιαδικασίες Μάθησης-Εκπαίδευσης Μάθηση µε διόρθωση σφάλµατος (Error Correction Learning) Για να παρουσιάσουµε τον πρώτο κανόνα µάθησης, ας ϑεωρήσουµε έναν νευρώνα k, οποίος ϐρίσκεται στο επίπεδο εξόδου ενώς ΤΝ, και έστω ότι ϐρισκόµαστε στην χρονική στιγµή n. d k (n) είναι η επιθυµητή απάντηση ή απάντηση στόχος (target response) για τον νευρώνα k την χρονική στιγµή n. Εστω ότι η αντίστοιχη πραγµατική απάντηση του νευρώνα k παριστάνεται µε y k (n). Η απάντηση y k (n) προκαλείται από πρότυπο εισόδου, έστω x(n), που εισάγεται στο επίπεδο εισόδου του ΤΝ, του οποίου στοιχείο είναι ο νευρώνας k. Το πρότυπο x(n) και η επιθυµητή απάντηση d k (n) για τον νευρώνα k αποτελούν ένα συγκεκριµένο παράδειγµα για το ΤΝ την χρονική στιγµή n. Γίνεται η υπόθεση ότι αυτό το παράδειγµα καθώς και όλα τα άλλα παραδείγµατα που δίνονται στο δίκτυο, παράγονται από ένα πιθανοτικό περιβάλλον αλλά χωρίς να είναι γνωστή η κατανοµή που έχουν τα στοιχεία του. Στην πράξη, συνήθως, η πραγµατική απάντηση y k (n) του νευρώνα k είναι δια- ϕορετική από την απάντηση στόχο d k (n). Ετσι µπορούµε να ορίσουµε ένα σήµα σφάλµατος ως την διαφορά µεταξύ της επιθυµητής απάντησης d k (n) και της πραγ- µατικής απάντησης y k (n) του νευρώνα, όπως ϕαίνεται στην παρακάτω εξίσωση: e k (n) = d k (n) y k (n). Ο τελικός στόχος της εκπαίδευσης µε διόρθωση σφάλµατος είναι η ελαχιστοποίηση µιας συνάρτησης κόστους που ϐασίζεται στο σφάλµα e k (n), έτσι ώστε η πραγ- µατική απάντηση κάθε νευρώνα στο δίκτυο να πλησιάζει την επιθυµητή απάντηση για τον νευρώνα κατά µια στατιστική έννοια. Ενα κριτήριο που χρησιµοποιείται συχνά σαν συνάρτηση κόστους είναι το κριτήριο του µέσου τετραγωνικού σφάλµατος, που ορίζεται σαν η µέση τετραγωνική τιµή του αθροίσµατος του τετραγώνου των σφαλµάτων: [ ] 1 J = E e 2 k 2 (n) το οποίο είναι το άθροισµα των σφαλµάτων των νευρώνων εξόδου του ΤΝ. Η ελαχιστοποίηση της J ως προς τις παραµέτρους του δικτύου οδηγεί στην µέθοδο gradient descent (ϐλέπε [49] και [133]). Στην πράξη δεν είναι δυνατόν να ϐρεθεί η ακριβής λύση του προβλήµατος ϐελτιστοποίησης µε αυτή την µέθοδο και εποµένως περιορι- Ϲόµαστε στην εύρεση µιας προσεγγιστικής λύσης. Συγκεκριµένα, χρησιµοποιούµε την στιγµιαία τιµή του αθροίσµατος των τετραγωνικών σφαλµάτων ως κριτήριο: E(n) = 1 e 2 2 k(n) Σε αυτή την περίπτωση το δίκτυο ϐελτιστοποιείται ελαχιστοποιώντας την E(n) ως προς τα ϐάρη των συνάψεων του δικτύου. Ετσι, σύµφωνα µε τον κανόνα εκπαίδευσης µε διόρθωση σφάλµατος, η προσαρµογή w kj (n) που γίνεται στο ϐάρος w kj την χρονική στιγµή n δίνεται από τον παρακάτω τύπο [131]: w kj (n) = ηe k (n)x j (n) όπου η είναι µια ϑετική σταθερά που καθορίζει το ϱυθµό εκπαίδευσης. Από την k k

27 14 Τεχνητά Νευρωνικά ίκτυα εξίσωση αυτή ϐλέπουµε ότι η προσαρµογή που γίνεται στα ϐάρη είναι ανάλογη µε το σφάλµα και το σήµα εισόδου της σύναψης που είναι το σήµα εξόδου του προσυναπτικού νευρώνα. Γενικά η εκπαίδευση µε διόρθωση σφάλµατος αποτελεί ένα σύστηµα κλειστού ϐρόγχου. Ως εκ τούτου ϑα πρέπει η τιµή του ϱυθµού εκπαίδευσης η να επιλέγεται έτσι ώστε να εξασφαλίζεται η σταθερότητα της διαδικασίας. Η σηµασία της τιµής του ϱυθµό εκπαίδευσης είναι µεγάλη γιατί δεν επηρεάζει µόνο τον ϱυθµό σύγκλισης της εκπαίδευσης αλλά και την ίδια την σύγκλιση της διαδικασίας. Αν το η είναι αρκετά µικρό η διαδικασία εκπαίδευσης προχωράει οµαλά αλλά είναι χρονοβόρα και το σύστηµα αργεί να συγκλίνει σε µια σταθερή λύση. Από την άλλη πλευρά, αν το η επιλεγεί µεγάλο, ο ϱυθµός της εκπαίδευσης ϑα επιταχύνεται αλλά τότε η διαδικασία εκπαίδευσης µπορεί να αποκλίνει και το σύστηµα να γίνει ασταθές. Λόγω αυτού, έχουν προταθεί µέθοδοι που αλλάζουν κατάλληλα την τιµή του ϱυθµού εκπαίδευσης έτσι ώστε η διαδικασία µάθησης να συγκλίνει στο επιθυµητό στόχο [70 73, 93, 127, 128] Μάθηση µε επίβλεψη (Supervised Learning) Στην µάθηση µε επίβλεψη είναι απαραίτητη η παρουσία ενός εξωτερικού, ως προς το δίκτυο, παράγοντα που µπορούµε να ονοµάσουµε δάσκαλο. Στο σχήµα 2.9 παρουσιάζεται το πως επιδρά ο δάσκαλος στο δίκτυο και το περιβάλλον κατά την διαδικασία µάθησης. Ο δάσκαλος έχει την απαραίτητη γνώση για το περιβάλλον, που πρακτικά είναι ένα σύνολο από παραδείγµατα εισόδου και την αντίστοιχη επι- ϑυµητή έξοδο. Το ΤΝ δεν έχει καµία γνώση για το περιβάλλον. Αν υποθέσουµε ότι παρουσιάζουµε στον δάσκαλο και το δίκτυο ένα πρότυπο από το περιβάλλον, τότε λόγω της προηγούµενης γνώσης του δασκάλου για το περιβάλλον, ϑα είναι σε ϑέση να παρέχει στο δίκτυο την επιθυµητή απάντηση-έξοδο. Στη συνέχεια οι παράµετροι του δικτύου προσαρµόζονται ανάλογα µε το πρότυπο που χρησιµοποιείται για την εκπαίδευση και το σφάλµα του δικτύου (δηλαδή την διαφορά µεταξύ της επιθυµητής εξόδου και της εξόδου που στην πράξη δίνει το δίκτυο). Η προσαρµογή αυτών των παραµέτρων, γίνεται επαναληπτικά, ϐήµα προς ϐήµα µε στόχο το δίκτυο να µπορεί να προσοµοιώσει τον δάσκαλο. Αν αυτό γίνει εφικτό, τότε µπορούµε να επιτρέψουµε στο δίκτυο να αλληλεπιδράσει µε το περιβάλλον χωρίς την παρουσία του δασκάλου. Μια µορφή µάθησης µε επίβλεψη είναι και η µάθηση µε διόρθωση σφάλµατος. Η µάθηση µε επίβλεψη είναι ένα σύστηµα κλειστού ϐρόγχου στο οποίο δεν περιλαµ- ϐάνεται το περιβάλλον µέσα στο οποίο λειτουργεί το δίκτυο. Σαν µέτρο απόδοσης για το σύστηµα µπορούµε να ϑεωρήσουµε ένα είδος µέσου τετραγωνικού σφάλµατος (π.χ. την µέση τιµή του αθροίσµατος των τετραγωνικών σφαλµάτων) που ορίζεται σαν συνάρτηση των ελεύθερων παραµέτρων του συστήµατος. Αυτή η συνάρτηση µπορεί να παρασταθεί σαν µια πολυδιάστατη επιφάνεια σφάλµατος που σαν συντεταγµένες έχει τις ελεύθερες παραµέτρους του συστήµατος. Κάθε λειτουργία του συστήµατος υπό την επίβλεψη του δασκάλου αναπαριστάνεται σαν ένα σηµείο στην επιφάνεια σφάλµατος. Για να ϐελτιώνεται η απόδοση του συστήµατος στη διάρκεια του χρόνου ϑα πρέπει το σηµείο αυτό να έχει καθοδική πορεία προς κάποιο ελάχιστο, τοπικό ή ολικό, της επιφάνειας σφάλµατος. Ενα σύστηµα που µαθαίνει µε επίβλεψη, έχει την δυνατότητα να µετακινεί το σηµείο αυτό προς ένα ελάχιστο µε την χρήση κάποιας πληροφορίας που έχει για την κλίση (gradient) της επιφάνειας σφάλµατος που αντιστοιχεί στην συµπεριφορά του συστήµατος την συγκεκριµένη χρονική στιγµή. Η κλίση της επιφάνειας σφάλµατος σε οποιοδήποτε σηµείο είναι ένα διάνυσµα που έ-

28 2.5 Πολυεπίπεδα Εµπρόσθιας Τροφοδότησης ΤΝ ή Multilayer Perceptrons (MLP) 15 Σχήµα 2.9: Εκπαίδευση µε Επίβλεψη. χει κατεύθυνση προς την πιο απότοµη κάθοδο (Steepest descent). Στην πράξη, όταν πρόκειται για µάθηση µε επίβλεψη από παραδείγµατα το σύστηµα χρησιµοποιεί µια στιγµιαία προσέγγιση του διανύσµατος κλίσης. Ο ποιο γνωστός αλγόριθµος µάθησης µε επίβλεψη είναι η Back Propagation (BP) [50] Μάθηση χωρίς επίβλεψη (Unsupervised Learning) Στην περίπτωση της µάθησης χωρίς επίβλεψη ή αλλιώς µάθησης µε αυτο-οργάνωση (Self organization) δεν υπάρχει κάποιος εξωτερικός παράγοντας που επιβλέπει την διαδικασία µάθησης. Αυτό σηµαίνει ότι δεν υπάρχουν παραδείγµατα της συνάρτησης που πρέπει να µάθει το δίκτυο. Υπάρχει όµως ένα µέτρο, ανεξάρτητο από το εκάστοτε έργο που πρέπει να ϕέρει εις πέρας το ΤΝ, που µετράει την ποιότητα της αναπαράστασης που πρέπει να µάθει το δίκτυο. Οι ελεύθερες παράµετροι του δικτύου ϐελτιστοποιούνται ως προς αυτό το µέτρο. Οταν το δίκτυο µάθει τις στατιστικές ιδιότητες των προτύπων που του δίνονται σαν είσοδος, αναπτύσσει την ικανότητα να δηµιουργεί εσωτερικές αναπαραστάσεις για την κωδικοποίηση των χα- ϱακτηριστικών των προτύπων. Αποκτά δηλαδή την ικανότητα να δηµιουργεί νέες κλάσεις αυτόµατα [10]. Για την µάθηση χωρίς επίβλεψη µπορεί να χρησιµοποιηθεί ένας κανόνας ανταγωνιστικής µάθησης. Για παράδειγµα ένα ΤΝ µε δύο επίπεδα, ένα επίπεδο εισόδου και ένα επίπεδο του οποίου οι νευρώνες ϑα ανταγωνίζονται για το ποιός ϑα ενεργοποιηθεί ανάλογα µε τα χαρακτηριστικά του κάθε προτύπου που δίνεται σαν είσοδος στο ΤΝ. 2.5 Πολυεπίπεδα Εµπρόσθιας Τροφοδότησης ΤΝ ή Multilayer Perceptrons (MLP) Ενα MLP δίκτυο αποτελείται από ένα σύνολο κόµβων εισόδου που αποτελούν το επίπεδο εισόδου, ένα ή περισσότερα κρυφά επίπεδα που αποτελούνται από νευρώνες που εκτελούν υπολογισµούς και ένα επίπεδο εξόδου που αποτελείται επίσης από

29 16 Τεχνητά Νευρωνικά ίκτυα νευρώνες που εκτελούν υπολογισµούς. Το σήµα εισόδου (πρότυπο εισόδου) κινείται µέσα στο δίκτυο προς τα µπροστά, δηλαδή από το ένα επίπεδο στο επόµενό του. Τα MLP συνήθως εκπαιδεύονται µε κανόνες µάθησης µε επίβλεψη. Ενας αλγό- ϱιθµος που χρησιµοποιείται πολύ συχνά για τον σκοπό αυτό είναι γνωστός ως αλγόριθµος Back Propagation (BP) και ϐασίζεται στον κανόνα µάθησης µε διόρθωση σφάλµατος. Ο αλγόριθµος αυτός µπορεί να ϑεωρηθεί σαν γενίκευση του αλγορίθµου Ελάχιστων Μέσων Τετραγώνων (Least Mean Square Algorithm). Ενα MLP έχει τρία σαφή χαρακτηριστικά: 1. Το µοντέλο κάθε νευρώνα στο δίκτυο περιλαµβάνει µία µη-γραµµική συνάρτηση ενεργοποίησης στην έξοδό του. Το σηµαντικό σηµείο το οποίο πρέπει να παρατηρηθεί είναι ότι η µη γραµµικότητα αυτή είναι οµαλή (smooth), δηλαδή παντού διαφορίσιµη. Μια κοινός χρησιµοποιούµενη µορφή µη γραµµικότητας που ικανοποιεί αυτή την απαίτηση είναι η σιγµοειδής συνάρτηση ή λογιστική συνάρτηση και ορίζεται ως: y i = exp ( u j ) όπου u j είναι η δραστηριότητα ενεργοποίησης του νευρώνα j και y j είναι η έξοδος του νευρώνα. Η παρουσία της µη-γραµµικότητας είναι αρκετά σηµαντική διότι σε διαφορετική περίπτωση η σχέση εισόδου-εξόδου του δικτύου ϑα µειωνόταν σε αυτή του ενός επιπέδου perceptron [50]. Επιπλεόν, η χρήση της συνάρτησης αυτής έχει το πλεονέκτηµα ότι προσοµοιάζει την ϐιολογική ϕάση ανάσχεσης (refractory phase) στους πραγµατικούς νευρώνες. 2. Το δίκτυο περιλαµβάνει ένα ή περισσότερα επίπεδα µε κρυφούς νευρώνες που δεν αποτελούν µέρος είτε της εισόδου, είτε της εξόδου του δικτύου. Οι κρυφοί νευρώνες επιτρέπουν στο δίκτυο να µαθαίνει και να εκτελεί περίπλοκες εργασίες, εξάγοντας προοδευτικά τα χαρακτηριστικά εκείνα των προτύπων εισόδου που έχουν την µεγαλύτερη σηµασία για την σωστή απάντηση του δικτύου. 3. Το δίκτυο παρουσιάζει υψηλό ϐαθµό συνδεσιµότητας που καθορίζεται από τις συνάψεις µεταξύ των νευρώνων του δικτύου. Μια αλλαγή στην συνδεσιµότητα του δικτύου απαιτεί µια αλλαγή στον πληθυσµό των συνδέσεων των συνάψεων ή στα ϐάρη τους. Στο σχήµα 2.10 ϕαίνεται η αρχιτεκτονική ενός MLP δικτύου που έχει δύο κρυφά επίπεδα και είναι πλήρως διασυνδεδεµένο. Πλήρως διασυνδεδεµένο καλείται ένα δίκτυο του οποίου κάθε νευρώνας/κόµβος είναι συνδεδεµένος µε όλους τους νευρώνες/κόµβους του προηγούµενου επιπέδου. Σε αυτής της µορφής τα δίκτυα το σήµα µεταδίδεται προοδευτικά από αριστερά προς τα δεξιά και από επίπεδο σε επίπεδο. Στο δίκτυο µεταδίδονται δύο ειδών σήµατα [89]: 1. Σήµατα συναρτήσεων (Function signals). Ενα σήµα συνάρτησης είναι ένα σήµα εισόδου (ερέθισµα) που ξεκινάει από τους κόµβους εισόδου του δικτύου, διαδίδεται προς τα µπροστά, από νευρώνα σε νευρώνα, και καταλήγει στους νευρώνες εξόδου του δικτύου. Σε κάθε νευρώνα του δικτύου από όπου περνάει το σήµα υπολογίζεται σαν συνάρτηση όλων των εισερχόµενων σηµάτων και των αντίστοιχων ϐαρών των συνάψεων που καταλήγουν στο συγκεκριµένο νευρώνα.

30 2.5 Πολυεπίπεδα Εµπρόσθιας Τροφοδότησης ΤΝ ή Multilayer Perceptrons (MLP) 17 x 1 Adjustable weights Adjustable weights Input Patterns x i x n Output Layer Input Layer Hidden Layers Σχήµα 2.10: Αρχιτεκτονική MLP δικτύου. 2. Σήµατα σφάλµατος (Error signals). Ενα σήµα σφάλµατος, ξεκινάει από τους νευρώνες εξόδου του δικτύου και διαδίδεται προς τα πίσω από επίπεδο σε επίπεδο. Σε κάθε νευρώνα το σήµα αυτό υπολογίζεται από µια συνάρτηση που εξαρτάται από το σφάλµα. Οι νευρώνες που ϐρίσκονται στο επίπεδο εξόδου του ΤΝ, καλούνται νευρώνες εξόδου. Οι κόµβοι που ϐρίσκονται στο επίπεδο του ΤΝ από το οποίο ξεκινάει το σήµα ονοµάζονται κόµβοι εισόδου. Ολοι οι άλλοι νευρώνες που ϐρίσκονται στα υπόλοιπα, ενδιάµεσα, επίπεδα του δικτύου λέγονται κρυφοί νευρώνες και τα επίπεδα κρυφά επίπεδα. Κάθε κρυφός νευρώνας και κάθε νευρώνας εξόδου ενός MLP έχει σχεδιαστεί για να εκτελεί δύο υπολογισµούς: 1. Υπολογίζει το σήµα συνάρτησης που εµφανίζεται στην έξοδο του νευρώνα και εκφράζεται σαν µια συνεχής µη γραµµική συνάρτηση των σηµάτων που εισέρχονται στον νευρώνα και των αντίστοιχων ϐαρών των συνάψεων που σχετίζονται µε τον νευρώνα. 2. Υπολογίζει µια στιγµιαία προσέγγιση του διανύσµατος κλίσης (δηλαδή τις κλίσεις της επιφάνειας σφάλµατος ως προς τα ϐάρη που σχετίζονται µε τις συνάψεις που εισέρχονται στον νευρώνα), κατά την προς τα πίσω διάδοση του σήµατος στο δίκτυο Ο αλγόριθµος Back Propagation Στο σχήµα 2.10 παρουσιάστηκε η αρχιτεκτονική ενός MLP. Η αντίστοιχη αρχιτεκτονική για την εκπαίδευση του δικτύου µε τον αλγόριθµο Back Propagation παρουσιάζεται στο σχήµα 2.11 και περιλαµβάνει τόσο την προς τα εµπρός ϕάση της εκπαίδευσης όσο και την προς τα πίσω. Το MLP που ϕαίνεται στο πάνω κοµµάτι του σχήµατος αντιστοιχεί στην προς τα εµπρός ϕάση της διαδικασίας. Οι συµβολισµοί

31 18 Τεχνητά Νευρωνικά ίκτυα Σχήµα 2.11: Η διαδικασία Back Propagation. που χρησιµοποιούνται στο πάνω κοµµάτι του σχήµατος έχουν ως εξής: w (l) = διάνυσµα ϐαρών των συνάψεων ενός νευρώνα στο επίπεδο l β (l) = κατώφλι ενός νευρώνα στο επίπεδο l u (l) = διάνυσµα εσωτερικής δραστηριότητας των νευρώνων στο επίπεδο l y (l) = διάνυσµα σηµάτων συναρτήσεων των νευρώνων στου επίπεδο l Ο δείκτης l κάθε επιπέδου ξεκινάει από το επίπεδο εισόδου (l = 0) µέχρι το δίκτυο εξόδου (l = L). Στο σχήµα 2.11 έχουµε L = 3 και καλούµε το L ϐάθος του δικτύου. Το κάτω κοµµάτι του σχήµατος 2.11 παρουσιάζει την προς τα πίσω ϕάση που ανα- ϕέρεται σαν δίκτυο ευαισθησίας και υπολογίζει τις τοπικές κλίσεις στον αλγόριθµο BP. Οι συµβολισµοί του κάτω τµήµατος του σχήµατος έχουν ως εξής: δ (l) = διάνυσµα τοπικών κλίσεων των νευρώνων στο επίπεδο l e = διάνυσµα σφάλµατος που έχει ως στοιχεία τα e 1, e 2,..., e q Η διαδικασία που ακολουθεί ο αλγόριθµος Back Propagation για να εκπαιδεύσει το δίκτυο έχει τα παρακάτω ϐήµατα: 1. Βήµα: Αρχικοποίηση. Ανάθεσε σε όλα τα ϐάρη των συνάψεων και τα κατώφλια των νευρώνων του δικτύου µικρούς τυχαίους αριθµούς από την οµοιόµορφη κατανοµή. 2. Βήµα: Είσοδος των προτύπων για εκπαίδευση. ώσε στο δίκτυο για µια επανάληψη τα πρότυπα για την εκπαίδευση. Για κάθε πρότυπο του σύνολο εκτέλεσε

32 2.5 Πολυεπίπεδα Εµπρόσθιας Τροφοδότησης ΤΝ ή Multilayer Perceptrons (MLP) 19 την παρακάτω αλληλουχία προς τα εµπρός και προς τα πίσω ενεργειών που περιγράφονται στο Βήµα: 3 και Βήµα: 4 αντίστοιχα. 3. Βήµα: Προς τα εµπρός υπολογισµοί. Εστω ότι ένα πρότυπο για εκπαίδευση συµβολίζεται µε [x(n), d(n)], όπου x(n) είναι το διάνυσµα του προτύπου που εισάγεται στο δίκτυο από το επίπεδο εισόδου και d(n) είναι η επιθυµητή απάντηση από το δίκτυο που δίνεται στους νευρώνες εξόδου του δικτύου. Υπολόγισε τις δυνατότητες ενεργοποίησης και τα σήµατα των συναρτήσεων των νευρώνων προχωρώντας προς τα εµπρός στο δίκτυο από επίπεδο σε επίπεδο. Η εσωτερική δραστηριότητα u (l) j (n) για τον νευρώνα j που ϐρίσκεται στο επίπεδο l του δικτύου δίνεται από m u (l) j (n) = w (l) (n) i=0 j (n)y(l 1) i όπου y (l 1) i (n) είναι το σήµα συνάρτησης του νευρώνα i στο προηγούµενο ε- πίπεδο l 1 στην n-οστή επανάληψη και w (l) j (n) είναι το ϐάρος της σύναψης που συνδέει τον νευρώνα j του επιπέδου l µε τον νευρώνα i του επιπέδου l 1. Για i = 0 έχουµε y (l 1) 0 (n) = 1 και w (l) 0 (n) = βj l(n), όπου βl j (n) είναι η µεροληψία του νευρώνα j που ϐρίσκεται στο επίπεδο l. Ετσι µε ϐάση τη σιγµοειδή συνάρτηση που χρησιµοποιήσαµε πιο πριν το σήµα συνάρτησης του νευρώνα j του επιπέδου l ϑα δίνεται από τον τύπο: j (n) = 1 ( 1 + exp y (l) u (l) j (n) ) αν ο νευρώνας j ϐρίσκεται στο πρώτο κρυφό επίπεδο δηλαδή l = 1, ϑέσε y (0) j (n) = x j (n) όπου x j (n) είναι το j-οστό στοιχείο του διανύσµατος του προτύπου εισόδου (n). Ενώ, αν ο νευρώνας j ϐρίσκεται στο επίπεδο εξόδου, δηλαδή l = L, ϑέσε y (L) j (n) = o j (n) όπου o j (n) είναι η έξοδος του δικτύου για τον νευρώνα j. Στη συνέχεια υπολόγισε το σήµα σφάλµατος e j (n) = d j (n) o j (n) Με d j (n) συµβολίζεται το j-οστό στοιχείο του διανύσµατος της επιθυµητής α- πάντησης για το δίκτυο d(n). 4. Βήµα: Προς τα πίσω υπολογισµοί. Υπολόγισε τις τοπικές κλίσεις δ του δικτύου

33 20 Τεχνητά Νευρωνικά ίκτυα προχωρώντας προς τα πίσω από επίπεδο σε επίπεδο ως εξής: δj L (n) = e L j (n)o j (n)[1 o j (n)] για τον νευρώνα j στο επίπεδο εξόδου L δ l j (n) = y(l) j (n)[1 y(l) j (n)] k δl+1 k (n)w l+1 kj (n) για τον νευρώνα j στο κρυφό επίπεδο L Στη συνέχεια, προσάρµοσε τα ϐάρη των συνάψεων του δικτύου στο επίπεδο l σύµφωνα µε τον γενικευµένο κανόνα το δ: wji(n l + 1) = wji(n) l + α [ wji(n) l wji(n l 1) ] + ηδj(n)y l (l 1) i (n) 5. Βήµα: Επανάληψη. Επανέλαβε τους υπολογισµούς παρουσιάζοντας νέα πρότυπα εκπαίδευσης στο δίκτυο για κάθε επανάληψη µέχρις ώσπου οι ελεύθερες παράµετροι του δικτύου σταθεροποιηθούν και η συνάρτηση σφάλµατος για ό- λο το σύνολο προτύπων εκπαίδευσης αποκτήσει την ελάχιστη τιµή της ή µια πολύ µικρή αποδεκτή τιµή. Η σειρά που ϑα τροφοδοτούνται τα πρότυπα στο δίκτυο σε κάθε εποχή ϑα πρέπει να µεταβάλλεται τυχαία.

34 Κ Ε Φ Α Λ Α Ι Ο 3 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα Τα Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα (ΥΤΤΝ ) είναι δίκτυα τα οποία χρησιµοποιούν υψηλής τάξης συνδυασµούς των εισόδων τους. Ο στόχος αυτού του κεφαλαίου είναι η παρουσίαση των Πι Σίγµα Τεχνητών Νευρωνικών ικτύων (ΠΣΤΝ ) τα οποία ανήκουν στην κατηγορία των ΥΤΤΝ. Σε αυτό το πλαίσιο παρακάτω παρουσιάζονται οι γενικές κατηγορίες των ΥΤΤΝ, και ιδιαίτερα τα ΠΣΤΝ, η προσαρµογή της µεθόδου Back propagation στα ΠΣΤΝ και κάποιες ενδιαφέρουσες επεκτάσεις για µελλοντική ερευνητική εργασία. 3.1 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα Τα Υψηλής Τάξης Νευρωνικά ίκτυα (ΥΤΤΝ ) (High Order Neural Networks (HONNs)) επεκτείνουν τις ικανότητες των κλασσικών Τεχνητών Νευρωνικών ικτύων (ΤΝ ) συµπεριλαµβάνοντας νευρώνες εισόδου που παρέχουν στο νευρωνικό δίκτυο µια πληρέστερη κατανόηση των δεδοµένων εισόδου και των σχέσεών τους. Βασικά, οι είσοδοι µετασχηµατίζονται έτσι ώστε το δίκτυο δεν πρέπει να µάθει απαραίτητα τις πιο ϐασικές µαθηµατικές συναρτήσεις, όπως την συνάρτηση του τετραγώνου, του κύβου, του συνηµιτόνου. Η συµπερίληψη τέτοιων συναρτήσεων ενισχύει την κατανόηση του δικτύου σε δεδοµένο πρόβληµα και έχει αποδειχθεί ότι επιταχύνει την διαδικασία της εκπαίδευσης σε µερικές εφαρµογές. Εντούτοις, στην πράξη χρησιµοποιούνται µόνο δεύτερης τάξης δίκτυα. Το κύριο µειονέκτηµα των ΥΤΤΝ είναι ότι ο απαραίτητος αριθµός ϐαρών αυξάνεται εκθετικά καθώς αυξάνονται οι διαστάσεις τον δεδοµένων εισόδου. Γνωρίζουµε ότι τα δίκτυα ενός επιπέδου µπορούν να προσεγγίσουν µία οποιαδήποτε µετρήσιµη συνάρτηση από έναν πεπερασµένης διάστασης χώρο σε έναν άλλο, µε µία δεδοµένη ακρίβεια, χρησιµοποιώντας τον αναγκαίο αριθµό κρυφών νευρώνων [56]. Πιο συγκεκριµένα, τα ΤΝ χρησιµοποιώντας τον αλγόριθµο εκπαίδευσης backpropagation µπορούν εύκολα να εφαρµοστούν και να επιλύσουν αρκετά προ- ϐλήµατα, όπως προσέγγιση συναρτήσεων, αναγνώριση προτύπων, πρόβλεψη χρονοσειρών και άλλα. Οµως η ταχύτητα εκπαίδευσης των πολυστρωµατικών δικτύων είναι αρκετά πιο αργή από αυτή των δικτύων µε ένα κρυφό επίπεδο, λόγο της ανάγκης από τον αλγόριθµο εκπαίδευσης backpropagation για εύρεση του σφάλµατος σε κάθε νευρώνα σε όλα τα επίπεδα του δικτύου. Σε µία διαφορετική κατεύθυνση, µπορούν να χρησιµοποιηθούν υψηλής τάξης συσχετίσεις των δεδοµένων εισόδου έτσι ώστε να κατασκευαστούν νευρωνικά δίκτυα υψηλής τάξης, χρησιµοποιώντας µόνο ένα κρυφό επίπεδο [37]. Το ϐασικό στοιχείο τέτοιων δικτύων είναι οι υψηλής τάξης υπολογιστικές µονάδες (HPU), δηλαδή

35 22 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα νευρώνες που η έξοδός τους δίνετε από τύπους της παρακάτω µορφής [37,75,96]: y = σ(w 0 + w j x j + w jk x j x k + w jkl x j x k x l + ), j j,k(j k) j,k,l(j k l) όπου σ( ) είναι µία κατάλληλη συνάρτηση ενεργοποίησης, όπως η σιγµοειδής ή η υπερβολική εφαπτοµένη, x j είναι το j-οστό στοιχείο του διανύσµατος εισόδου x, w jkl είναι ένα µεταβαλλόµενο ϐάρος από το γινόµενο των στοιχείων εισόδου x j, x k, x l, στον νευρώνα εξόδου, και w 0 είναι ένα µεταβαλλόµενο κατώφλι. Ενα HPU δίκτυο ενός επιπέδου αποτελείται από µία ή περισσότερες HPU µονάδες οι οποίες έχουν τις ίδιες εισόδους. Τάξη ενός HPU δικτύου είναι η υψηλότερη τάξη των HPU υπολογιστικών µονάδων που το αποτελούν. Ετσι ένα HPU δίκτυο k-τάξης είναι µία µη-γραµµική συνάρτηση που αποτελείτε από πολυώνυµα το πολύ k-τάξης. Εφόσον αυτά τα δίκτυα δεν έχουν πολλά κρυφά επίπεδα µπορούν να χρησιµοποιηθούν γρήγορα σχήµατα εκπαίδευσης όπως Hebian και perceptron κανόνες εκπαίδευσης [37]. Επιπροσθέτως, οι υψηλής τάξης συσχετίσεις των εισόδων τους, τους επιτρέπει να µάθουν πιο εύκολα και γρήγορα γεωµετρικά ανεξάρτητες ιδιότητες [37]. υστυχώς, ο αριθµός των ϐαρών που απαιτούνται για να προσαρµοστούν όλες οι υψηλής-τάξης συσχετίσεις αυξάνεται εκθετικά µε τον αριθµό των εισόδων του δικτύου, N. Ετσι, ένα HPU δίκτυο K τάξης µε µία µονάδα εξόδου χρειάζεται συνολικά: K ( ) ( ) N + i 1 N + K = i K i=0 ϐάρη εάν ϑέλουµε να συµπεριλάβουµε όλα τα στοιχεία µε τάξη µέχρι K [80]. Ακόµα, ο αριθµός των επιπρόσθετων διασυνδέσεων που απαιτούνται για να αυξηθεί η τάξη από K σε K + 1 αυξάνεται ϱαγδαία καθώς αυξάνεται το K. Συνεπώς, στην πράξη χρησιµοποιούνται µόνο δίκτυα δεύτερης τάξης. Αυτή η µείωση της τάξης των δικτύων έχει ως άµεση συνέπεια την µείωση της ικανότητας των δικτύων να µάθουν, και την µείωση της εφαρµογής τους σε πραγµατικά προβλήµατα. Παρακάτω παρουσιάζονται οι κυριότερες κατηγορίες των ΥΤΤΝ, και γίνετε µία εκτεταµένη αναφορά στα Πι Σίγµα Τεχνητά Νευρωνικά ίκτυα Σίγµα Πι Τεχνητά Νευρωνικά ίκτυα Το ιδιαίτερο χαρακτηριστικό των Σίγµα Πι Τεχνητών Νευρωνικών ικτύων (ΣΠΤΝ ) είναι ότι υπάρχουν πολλαπλασιαστικοί νευρώνες στο µεσαίο επίπεδο που υπολογί- Ϲουν το γινόµενο των εισόδων τους []. Στα ΣΠΤΝ υπάρχουν ϐάρη µόνο στις διασυνδέσεις των νευρώνων µεταξύ του µεσαίου επιπέδου και του επιπέδου εξόδου, Οι διασυνδέσεις των πολλαπλασιαστικών νευρώνων στα ΣΠΤΝ επιτρέπουν να µην πυ- ϱοδοτηθεί κάποιος νευρώνας. ηλαδή, εάν µία είσοδος παίρνει την τιµή µηδέν, τότε όλες οι άλλες είσοδοι αυτού του νευρώνα δεν µπορούν να επηρεάσουν το αποτέλεσµα στην έξοδο του. Αντιθέτως, εάν µία είσοδος σε έναν πολλαπλασιαστικό νευρώνα δύο εισόδων έχει την τιµή ένα τότε τροφοδοτείται στην έξοδο όλη η πληροφορία από την άλλο νευρώνα. Με αυτόν τον τρόπο µία πολυωνυµική συνάρτηση των εισόδων παρουσιάζεται σαν είσοδος στις συναρτήσεις ενεργοποίησης των νευρώνων του εξωτερικού

36 3.1 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα 23 επιπέδου, δηλαδή η τιµή του νευρώνα εξόδου O k µας δίνεται από: ( N ) O k = f w qk z qk q όπου f είναι η συνάρτηση ενεργοποίησης, w qk τα ϐάρη των διασυνδέσεων, z q1, z q2,..., z qn είναι οι N είσοδοι ενός πολλαπλασιαστικού νευρώνα, και ο υποδείκτης q καθο- ϱίζει τον πολλαπλασιαστικό νευρώνα από τον οποίο λαµβάνεται το γινόµενο στον αθροιστικό νευρώνα εξόδου k. Από το αποτέλεσµα της παραπάνω εξόδου είναι κατανοητό ότι η αρχιτεκτονική των ΣΠΤΝ δηµιουργεί πολυωνυµικές εκφράσεις υψηλής τάξης των εισόδων του δικτύου. k=1 Σχήµα 3.1: Σίγµα Πι Τεχνητό Νευρωνικό ίκτυο. Στο σχήµα 3.1 παρουσιάζεται ένα ΣΠΤΝ δύο εισόδων, όπου στο µεσαίο επίπεδο υπάρχουν πολλαπλασιαστικοί νευρώνες, ενώ στο εξωτερικό επίπεδο υπάρχουν αθροιστικοί νευρώνες. Ετσι εάν για παράδειγµα έχουµε, y 2 = z 1 z 2 και y 1 = z 1, όπου y j είναι η έξοδος του κρυφού νευρώνα Y j. Το ϐάρος που είναι µεταξύ του κρυφού νευρώνα Y j και της εξόδου O k συµβολίζεται ως w kj. Στα ΣΠΤΝ παράγονται στους νευρώνες εξόδου, πολυωνυµικές συνάρτησεις των εισόδων του δικτύου. Για παράδειγµα, το αποτέλεσµα της εξόδου στο σχήµα 3.1 είναι: O 1 = f(w 11 y 1 + w 12 y 2 + w 13 y 3 ) = f(w 11 z 1 + w 12 z 1 z 2 + w 13 z 3 ) Παρόλο που οι όροι της εξόδου περιέχουν γινόµενα των εισόδων του δικτύου, δεν περιέχουν δυνάµεις των εισόδων µε τάξη µεγαλύτερη από ένα. Ετσι µπορούµε να ονοµάσουµε τους όρους αυτών των εκφράσεων ώς multi linear. Οι κόµβοι µε multilinear εκφράσεις καλούνται επίσης κόµβοι υψηλής τάξης, αφού η ενεργοποίηση τους εξαρτάται από όρους των οποίων η πολλαπλασιαστική τάξη είναι µεγαλύτερη από ένα. Το πρόβληµα των Σίγµα Πι νευρώνων είναι ότι ο αριθµός των όρων τους, και εποµένως τα ϐάρη τους, αυξάνονται πολύ γρήγορα καθώς αυξάνονται οι είσοδοι τους, και συνεπώς γίνονται υπερβολικά πολλοί για την χρησιµοποίηση τους σε αρκετές περιπτώσεις [23,37].

37 24 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα Κατά συνέπεια ένα µειονέκτηµα αυτού του τύπου αρχιτεκτονικής είναι ότι µπο- ϱούµε να οδηγηθούµε σε έναν εκρηκτικά µεγάλο αριθµό ϐαρών εάν δεν γίνει προσεκτική χρήση κατά την εφαρµογή τους σε πραγµατικού κόσµου προβλήµατα [37]. Εχουν γίνει αρκετές ερευνητικές προσπάθειες για την καταπολέµηση αυτού του ϕαινοµένου, και κατά κύριο λόγο για να ϐρεθεί µία αρκετά καλή και αποδοτική αρχιτεκτονική, χρησιµοποιείτε εκ τον προτέρων πληροφορία από το εξεταζόµενο πρόβληµα. Στις περισσότερες περιπτώσεις δεν χρειάζονται όλοι οι νευρώνες για να ϐρεθεί µία ι- κανοποιητική λύση αλλά µόνο µερικοί (νευρώνες που δηµιουργούν τους αναγκαίους υψηλής τάξης όρους) [37]. Η πιο κοινή προσέγγιση που να καθορίσει την καλύτερη αρχιτεκτονική του δικτύου, είναι να δηµιουργηθεί ένας µηχανισµός που να προσθέτει δυναµικά και επαυξητικά υπολογιστικούς κόµβους (πολλαπλασιαστικούς) στην δοµή του δικτύου. Συνεπώς, σε αυτήν την προσέγγιση επιλέγεται ένα αρχικό δίκτυο που αποτελείται από µερικούς υπολογιστικούς κόµβους και µόλις το δίκτυο δεν µπορεί να µειώσει το σφάλµα των εξόδων του (λόγω της λανθασµένης ή µη ικανής αρχιτεκτονικής) προστίθενται νέοι κόµβοι στο δίκτυο. Αυτή η διαδικασία µπορεί να επαναλαµβάνεται εως ότου το αντίστοιχο επίπεδο σφάλµατος ή ακρίβειας είναι το επιθυµητό Functional link networks (FLNs) Μία άλλη µεγάλη κατηγορία ΥΤΤΝ είναι τα Functional Link Networks (FLNs). Το κύριο χαρακτηριστικό τους είναι ότι παράγουν υψηλής τάξης συναρτήσεις των δεδοµένων εισόδων τους [87, 88]. Τα FLNs είναι συνήθως δίκτυα ενός κρυµµένου επιπέδου που είναι σε ϑέσει να µάθουν κλάσεις µη-γραµµικώς διαχωρίσιµων συναρτήσεων, αυξάνοντας την διάσταση του χώρου εισόδων, δηλαδή, χρησιµοποιώντας µηγραµµικούς συνδυασµους των εισόδων του δικτύου. Στα FLNs, το διάνυσµα εισόδου αυξάνεται µε µια κατάλληλα ενισχυµένη αναπαράσταση των δεδοµένων εισόδου, έτσι µε αυτόν τον τρόπο αυξάνεται τεχνητά η διάσταση του χώρου εισόδου [35,58,87,88]. Κατά την διαδικασία εκπαίδευσης χρησιµοποιούνται τα επαυξηµένα δεδοµένα εισόδου, όπως και στα αναδραστικά τεχνητά νευρωνικά δίκτυα. Η ϐασική αρχή που διέπει αυτού του είδους των ΤΝ, είναι ότι οι είσοδοι του ΤΝ µετασχηµατίζονται µε έναν καλά κατανοητό µαθηµατικό τρόπο έτσι ώστε το δίκτυο δεν χρειάζεται να µάθει τις ϐασικές µαθηµατικές συναρτήσεις, όπως το ηµίτονο, το συνηµίτονο, πολυωνυµικές εκφράσεις, κτλ. Στο Σχήµα 3.2 απεικονίζεται ένα τυπικό FLN, µε I εισόδους που συµβολίζονται ως z 1, z 2,...,z I, η µεροληψία του κρυφού επιπέδου συµβολίζεται ως z I+1 και οι M επαυξηµένες είσοδοι ως h 1, h 2,...,h M. Η διάσταση του χώρου εισόδου των FLNs µπορεί να αυξηθεί µε δύο τρόπους [87] 1. Με εσωτερικό γινόµενο ή πολλαπλασιαστικό τρόπο, δηλαδή ως δεδοµένα εισόδου να τοποθετηθούν είτε το εσωτερικό γινόµενο των εισόδων είτε το απλό γινόµενο των εισόδων. Παραδείγµατος χάριν, για ένα δίκτυο µε τρείς εισόδους z 1, z 2 και z 3, το εσωτερικό γινόµενό τους είναι: z 1 z 2, z 1 z 3, z 2 z 3, έτσι προστίθενται όροι δεύτερης τάξης στο δίκτυο. Ακόµα µπορούν να προστεθούν όροι τρίτης τάξης χρησιµοποιώντας το γινόµενο των εισόδων z 1 z 2 z 3 και ούτω καθεξής. 2. Με συναρτησιακές επεκτάσεις των εισόδων του, δηλαδή χρησιµοποιώντας µα- ϑηµατικές συναρτήσεις για τον µετασχηµατισµό των δεδοµένων εισόδου, όπως sin, cos, log κ.α..

38 3.1 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα 25 Σχήµα 3.2: Functional Link Τεχνητό Νευρωνικό ίκτυο. Μελετώντας τα ιδιαίτερα χαρακτηριστικά των FLNs είναι κατανοητό ότι, ο αριθµός των όρων που παράγονται, χρησιµοποιώντας τις προηγούµενες µεθόδους, αυξάνεται γρήγορα καθώς αυξάνεται η διάσταση των δεδοµένων εισόδου. Ακόµα, στα FLNs δεν προστίθεται κάποια πληροφορία, µόνο ενισχύεται η αναπαράσταση των δεδοµένων εισόδου. Επιπροσθέτως, λόγω της ιδιαίτερης αναπαράστασης των δεδοµένων εισόδου τα FLNs δεν χρειάζεται να µάθουν αρκετούς όρους υψηλής τάξης µε άµεσο αποτέλεσµα να µειώνεται ο χρόνος εκπαίδευσης τους. Στην εργασία [64] διαπιστώθηκε ότι οι συναρτησιακές µέθοδοι που περιγράφηκαν παραπάνω, δεν αυξάνουν µόνο τον ϱυθ- µό µάθησης, αλλά διευκολύνει και του αλγόριθµους εκπαίδευσης [64]. Τέλος, λόγω της ιδιαίτερης ϕύσης των FLNs, σε ορισµένες εφαρµογές κατάφεραν να ξεπεράσουν την απόδοση των ΕΤΤΝ [35] Τεχνητά Νευρωνικά ίκτυα εύτερης-τάξης ( ΤΤΝ ) (Second Order Neural Networks SONNs) Η επόµενη κύρια κατηγορία ΥΤΤΝ είναι τα Τεχνητά Νευρωνικά ίκτυα εύτερης- Τάξης ΤΤΝ [78]. Η δοµή και τα κύρια χαρακτηριστικά των ΤΤΝ εµπνεύστηκαν από έναν άπληστο (greedy) κατασκευαστικό αλγόριθµο νευρωνικών δικτύων ονοµα- Ϲόµενο ως Hyperplane Determination from Examples (HDE). Αυτά τα δίκτυα είναι µία διακριτή προσέγγιση για ϐελτιστοποίηση νευρωνικών δικτύων και είναι κατάλληλα για παράλληλες και κατανεµηµένες υλοποιήσεις [28]. Ο στόχος των ΤΤΝ είναι να υπερνικήσουν το πρόβληµα των τοπικών ελαχίστων των HDE, χρησιµοποιώντας στο κρυφό επίπεδο νευρώνες µε δυνατότητες υψηλής αναπαράστασης. Η δυνατότητα υψηλής αναπαράστασης επιτεύχθηκε χρησιµοποιώντας νευρώνες, που εκµεταλλεύ-

39 26 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα ονταν τις εισόδους τους µε ειδικές αναπαραστάσεις της ακόλουθης µορφής: f( z ) = I i=1 w (1) i z i (3.1) f( z ) = f( z ) = I i=1 I i=1 w (1) i z i + w (1) i z i + I i=1 I i=1 I 1 w (2) i z i z i + w (2) i z i z i (3.2) I i=1 j=i+1 w (3) ij z iz j (3.3) όπου f είναι η συνάρτηση ενεργοποίησης, z είναι το διάνυσµα εισόδου του δικτύου, w (1) i, w (2) i είναι τα ϐάρη που είναι συνδεδεµένα µε την i-οστή τιµή εισόδου z i, ενώ w (3) ij είναι το ϐάρος που συσχετίζεται µε το γινόµενο της i-οστής και j-οστής τιµής εισόδου z i,z j αντίστοιχα. Γενικά µπορούµε να πούµε ότι τα τεχνητά νευρωνικά δίκτυα πρώτης τάξης αποτελούνται από νευρώνες που δίνουν αναπαραστάσεις της εισόδους τους σύµφωνα µε την συνάρτηση (3.1), ενώ δίκτυα τα οποία αποτελούνται από νευρώνες που δίνουν αναπαραστάσεις της εισόδους τους σύµφωνα και µε τις τρείς συναρτήσεις (3.1), (3.2), (3.3) ονοµάζονται δεύτερης τάξης Product Unit Neural Networks (PUNN) Τα Τεχνητά Νευρωνικά ίκτυα Πολλαπλασιαστικών Μονάδων (ΠΜΤΝ ) αρχικά παρουσιάστηκαν από τους Durbin και Rumelhart [23], και στην συνέχεια µελετήθηκαν από τους Janson και Frenzel [61], Leerink και λοιπούς [67], και Adiel Ismail [59] Αρχικά οι Durbin και Rumelhart πρότειναν δύο τύπους δικτύων µε Πολλαπλασιαστικούς Νευρώνες (ΠΝ) [23]. Στον πρώτο τύπο (Σχήµα 3.3) δικτύων κάθε Αθροιστικός Νευρώνας (ΑΝ) συνδέεται άµεσα µε τις εισόδους του δικτύου, και µε την οµάδα των ΠΝ του δικτύου. Στον δεύτερο τύπο δικτύου (Σχήµα 3.4) αποτελείται από διαφορετικά επίπεδα πολλαπλασιαστικών και αθροιστικών νευρώνων, µε το δίκτυο να τελειώνει στο επίπεδο εξόδου µε αθροιστικούς νευρώνες. Οι πολλαπλασιαστικοί νευρώνες υπολογίζουν το σήµα εισόδου του δικτύου ως: net yj = I i=1 z u ji i + z I+1 u j,i+1 αντί ως I+1 net yj = z i u ji Ενα ΠΜΤΝ µπορεί αυτόµατα να µάθει όρους υψηλής τάξης που απαιτούνται από το δίκτυο. Μπορούν να µάθουν πολυώνυµα της µορφής: i=1 f(z) = a 0 + a 1 z 1 + a 2 z a n z n (3.4) και µια οποιαδήποτε συνάρτηση που µπορεί να αναπαρασταθεί ως πολυώνυµο. Μπορεί να δειχτεί ότι κάθε συνάρτηση µπορεί να αναπαρασταθεί από ένα πολυώνυ- µο τάξης n, το οποίο είναι µία σειρά Fourier του z [59]. Παρόλο αυτά, το πρόβληµα

40 3.2 Πι Σίγµα Τεχνητά Νευρωνικά ίκτυα (ΠΣΤΝ ) 27 Σχήµα 3.3: Τεχνητά Νευρωνικά ίκτυα Πολλαπλασιαστικών Μονάδων. Σχήµα 3.4: Τεχνητά Νευρωνικά ίκτυα Πολλαπλασιαστικών Μονάδων. που υπάρχει, είναι να καθοριστεί πια ϑα είναι η τιµή του n για να προσεγγιστεί µία συγκεκριµένη συνάρτηση από µία σειρά Fourier. Τα ΠΜΤΝ είναι πιο γενικά από τα ΣΠΤΝ (περισσότερες πληροφορίες στην εργασία [23]). Η πιο συνηθισµένη αρχιτεκτονική των ΠΜΤΝ αποτελείται από το επίπεδο εισόδου, ένα κρυφό επίπεδο από πολλαπλασιαστικούς νευρώνες και τέλος ένα επίπεδο από αθροιστικούς νευρώνες. Ε- νώ, για όλο το δίκτυο χρησιµοποιούνται γραµµικές συναρτήσεις ενεργοποίησης [59]. 3.2 Πι Σίγµα Τεχνητά Νευρωνικά ίκτυα (ΠΣΤΝ ) Σε αυτή την εργασία ϑα µελετηθεί η κλάση των ΥΤΤΝ που καλείται Πι Σίγµα Τεχνητά Νευρωνικά ίκτυα (ΠΣΤΝ ). Ο όρος Πι Σίγµα προέρχεται από το γεγονός ότι τα δίκτυα αυτά χρησιµοποιούν γινόµενα αθροισµάτων των στοιχείων εισόδων τους, αντί να χρησιµοποιούν αθροίσµατα γινοµένων των στοιχείων εισόδων τους όπως τα HPU δίκτυα ή Σίγµα Πι δίκτυα. Ο κύριος στόχος είναι η δηµιουργία συστηµατικών

41 28 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα µεθόδων που να εκµεταλλεύονται τον γρήγορο ϱυθµό µάθησης των ΥΤΤΝ ενός επιπέδου, τις ικανότητες µάθησης υψηλής τάξης συσχετίσεις των εισόδων του δικτύου, και ταυτόχρονα να αποφύγουν την µεγάλη αύξηση των αριθµών των ϐαρών και των νευρώνων του δικτύου συγκρίνοντάς τα, µε τα ΥΤΤΝ. Ενα Πι Σίγµα Τεχνητό Νευρωνικό ίκτυο (ΠΣΤΝ ) (Pi Sigma Network (PSN)) χρησιµοποιεί, ως νευρώνες εξόδου, πολλαπλασιαστικούς νευρώνες (αντί για αθροιστικούς), έτσι ώστε να µπορεί έµµεσα να ενσωµατώσει µερικές από τις ικανότητες των ΥΤΤΝ, χρησιµοποιώντας λιγότερα ϐάρη και νευρώνες. Πιο συγκεκριµένα, ένα ΠΣΤΝ είναι ένα πολυστρωµατικό εµπρόσθιας τροφοδότησης δίκτυο το οποίο πα- ϱάγει γινόµενα αθροισµάτων των νευρώνων εισόδου. Αποτελείται από ένα στρώµα εισόδου, ένα µοναδικό κρυµµένο στρώµα (ή το µεσαίο στρώµα) που αποτελείτε από αθροιστικούς νευρώνες, καθώς και ένα στρώµα εξόδου που αποτελείτε από πολλαπλασιαστικούς νευρώνες. Τα ϐάρη που συνδέουν τους νευρώνες εισόδου µε τους νευρώνες του µεσαίου στρώµατος µπορούν να αλλάξουν κατά τη διάρκεια της διαδικασίας εκπαίδευσης από έναν αλγόριθµο εκπαίδευσης, ενώ εκείνα που συνδέουν τους νευρώνες του µεσαίου στρώµατος µε τους πολλαπλασιαστικούς νευρώνες εξόδου παραµένουν σταθερά. Για αυτόν τον λόγο το µεσαίο στρώµα δεν είναι πραγµατικά έ- να κρυµµένο στρώµα ενώ έχει αποδειχτεί ότι η διαδικασία εκπαίδευσης απλοποιείται και επιταχύνεται [36,104,106]. Υπάρχουν δύο είδη ΠΣΤΝ, τα αναλογικά (ΑΠΣΤΝ ) και τα δυαδικά ( ΠΣΤΝ ). Και οι δύο µορφές έχουν χρησιµοποιηθεί για την επίλυση πραγµατικών προβληµάτων [34, 105, 107], ενώ έχει αποδειχτεί ότι τα ΠΣΤΝ µπορούν να αναπαραστήσουν οποιαδήποτε Boolean συνάρτηση [107], έτσι µπορεί να υποθεί ότι είναι κατάλληλα για την χρησιµοποίηση τους σε αυτά τα προβλήµατα χρησιµοποιώντας ακέραια ϐάρη Αρχιτεκτονική ικτύου Στο Σχήµα 3.5 παρουσιάζεται ένα ΠΣΤΝ µε µία µονάδα εξόδου. Αυτό το δίκτυο είναι ένα πλήρες διασυνδεδεµένο εµπρόσθιας τροφοδότησης τεχνητό νευρωνικό δίκτυο µε δύο επίπεδα, το κρυφό επίπεδο και το επίπεδο εξόδου. Πιο συγκεκριµένα: Εστω ότι ένα δεδοµένο εισόδου x = (1, x 1, x 2,...,x N ), αναπαρήσταται σαν ένα (N + 1)-διάστατο διάνυσµα, όπου 1 είναι η τιµή της εισόδου στον νευρώνα µεροληψίας και x k, k = 1, 2,..., N το k-οστό στοιχείο του διανύσµατος εισόδου. Κάθε νευρώνας στο µεσαίο στρώµα υπολογίζει το άθροισµα των γινοµένων κάθε στοιχείου του διανύσµατος εισόδου µε το αντίστοιχο ϐάρος του. Ετσι, η τιµή της εξόδου του j-οστού νευρώνα στο µεσαίο στρώµα δίδετε από το παρακάτω άθροισµα: h j = w j x = N w kj x k + w 0j, (3.5) k=1 όπου j = 1, 2,..., K και w 0j υποδηλώνει την µεροληψία. Οι νευρώνες εξόδου υπολογίζουν το γινόµενο των προαναφερθέντων αθροισµάτων και η τελική υπολογιζόµενη τιµή δίνετε ως είσοδος σε µία συνάρτηση ενεργοποίησης. Ετσι, ένας νευρώνας εξόδου επιστρέφει: ( K ) y = σ (net) = σ h j, (3.6) όπου σ( ) συµβολίζει την συνάρτηση ενεργοποίησης. Τα ΠΣΤΝ µπορούν να δια- j=1

42 3.2 Πι Σίγµα Τεχνητά Νευρωνικά ίκτυα (ΠΣΤΝ ) 29 Adjustable weights x 1 h 1 Σ x i Σ h i Π y x N Input Layer Σ hk Fixed weights Σχήµα 3.5: Πι Σίγµα Τεχνητό Νευρωνικό ίκτυο. χειριστούν και συνεχείς αλλά και δυαδικές τιµές στις εισόδους/εξόδους του δικτύου χρησιµοποιώντας κατάλληλες συναρτήσεις ενεργοποίησης τους νευρώνες τους. Ετσι, η αναλογική εκδοχή ενός ΠΣΤΝ µπορεί να χρησιµοποιήσει ως συναρτήσεις ενεργοποίησης είτε την λογιστική συνάρτηση είτε την υπερβολική εφαπτοµένη σ(x) = 1 1 e λx, σ(x) = tanh(x), είτε οποιαδήποτε κατάλληλη για το πρόβληµα συνάρτηση. Ενώ η δυαδική εκδοχή των ΠΣΤΝ χρησιµοποιεί ως συνάρτηση ενεργοποίησης την συνάρτηση κατωφλίου: { 1 εάν x > 0; σ(x) = 1 εάν x 0. Ο αριθµός των νευρώνων στο µεσαίο στρώµα καθορίζει την τάξη ενός ΠΣΤΝ. Αυτός ο τύπος δικτύων είναι ϐασισµένος στην ιδέα ότι η εισαγωγή µίας υπολογιστικής µονάδας K τάξης µπορεί να αναπαρασταθεί από ένα γινόµενο K γραµµικών συνδυασµών των στοιχείων της εισόδου του. Αν υποθέσουµε ότι (N +1) ϐάρη συνδέονται µε κάθε αθροιστικό νευρώνα, τότε υπάρχουν συνολικά (N + 1)K ϐάρη και µεροληψίες για κάθε πολλαπλασιαστικό νευρώνα (νευρώνα εξόδου). Εάν σε ένα πρόβληµα απαιτούνται πολλές έξοδοι (παραδείγµατος χάριν, σε ένα πρόβληµα ταξινόµησης), τότε για κάθε µία έξοδο απαιτείται ένα ανεξάρτητο στρώµα µε αθροιστικούς νευρώνες. Κατά συνέπεια, για ένα M-διάστατο διάνυσµα εξόδου y, χρειαζόµαστε συνολικά M i=1 (N + 1)K i διασυνδέσεις µε ϐάρη που οι τιµές τους µπορεί να αλλάζουν κατά την διαδικασία εκπαίδευσης. Αυτό µας επιτρέπει να έχουµε µεγάλη ευελιξία, δεδοµένου ότι το στρώµα εξόδου έµµεσα ενσωµατώνει µερικές από τις ικανότητες των

43 30 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα ΥΤΤΝ χρησιµοποιώντας έναν µικρότερο αριθµό ϐαρών και νευρώνων. Παρόλο που τα ΤΝ και τα ΥΤΤΝ µπορούν να εξοµοιωθούν µέσω λογισµικού, σε πραγµατικές εφαρµογές απαιτείται η υλοποίηση τους σε υλικού, διότι είναι α- παραίτητη η ταχύτατη εκτέλεσή τους [95]. Από την εκ ϕύσεως παράλληλη δοµή που έχουν τα ΤΝ καθώς και τα ΥΤΤΝ µπορούν εύκολα να υλοποιηθούν σε πα- ϱάλληλα είτε κατανεµηµένα συστήµατα. Στην επόµενη παράγραφο παρουσιάζουµε τους παράλληλους και κατανεµηµένους ΕΑ που ϑα χρησιµοποιήσουµε σε αυτή την εργασία Nonlinear Mapping Capability of Analog and Binary PSNs Το πολυωνυµικό δίκτυο που ορίζεται στην εργασία [21] είναι ένα HPU δίκτυο µε µία γραµµική συνάρτηση ενεργοποίησης σ(x) = x. Αυτό το δίκτυο έχει σκοπό να προσεγγίσει µία άγνωστη συνάρτηση χρησιµοποιώντας µία truncated Volterra series expansion είτε µία πολυωνυµική επέκταση Gabor Kolmogorov [68]. Από το ϑεώρηµα προσέγγισης Stone Weierstrass [100] προκύπτει ότι τέτοιας µορφής δίκτυα µπορούν να προσεγγίσουν µία οποιαδήποτε συνεχής συνάρτηση που ορίζεται σε ένα συµπαγές σύνολο (compact set) [21]. Αυτή η ικανότητα είναι δυνατή λόγο της ύπαρξης ενός µεγάλου αριθµού βαθµών ελευθερίας, κάθε ϐάρος αντιστοιχεί σε έναν ϐαθµό ελευθερίας. Οµως, για να επιτευχθεί αυτή η ικανότητα προσέγγισης, ο αριθµός των ϐαρών που απαιτούνται, µπορεί να είναι άπειρος. Χρησιµοποιώντας τις εξισώσεις ( 3.5) και ( 3.6) ϑέλουµε να επεκτείνουµε το αποτέλεσµα της εξόδου του δικτύου και να το εκφράσουµε ως ένα άθροισµα της µορ- ϕής [35]: net = K P N 1 j=1 i j i N =0 K i 1 K i 2 =0 i 1 =0 α i1,i 2,,i N x i 1 1 x i 2 2 x i N N (3.7) Με αυτόν τον τρόπο, όταν έχουν χρησιµοποιηθεί K αθροιστικοί νευρώνες, το ΠΣΤΝ εφαρµόζει την συνάρτηση ενεργοποίησης του σε ένα K-τάξης πολυώνυµο. Αξίζει να παρατηρηθεί ότι το άθροισµα των εκθετών i j είναι K. Αυτό όµως δεν ση- µαίνει ότι µπορούν να χρησιµοποιηθούν µόνο όροι K τάξης, εφόσον όταν έχουµε µία παραπάνω είσοδο (την µεροληψία) µε σταθερή τιµή εισόδου το 1, τότε υπάρχουν και όροι µικρότερης τάξης. Αυτό το πολυώνυµο K-τάξης δεν έχει όλους τους ϐαθ- µούς ελευθερίας έτσι όπως συµβαίνει σε ένα K-τάξης HPU, αφού οι συντελεστές της εξίσωσης 3.7 αποτελούνται από αθροίσµατα και γινόµενα των w kj και έτσι δεν είναι ανεξάρτητα. Η εξίσωση 3.7 παρέχει µία περιορισµένη προσέγγιση των truncated Volterra series expansion. Ενώ αυτή η περιορισµένη ϕύση των συντελεστών της εξίσωσης 3.7 είναι κατά ένα µέρος υπεύθυνη για την οικονοµική και αποδοτική ϕύση των ΠΣΤΝ, υποδεικνύει ότι τα ΠΣΤΝ δεν µπορούν να προσεγγίσουν ικανοποιητικά όλες τις συνεχής συναρτήσεις πολλών µεταβλητών που µπορούν να οριστούν σε ένα συµπαγές σύνολο. Παρόλα αυτά χρησιµοποιώντας την ϑεωρία των ridge πολυωνυµικών συναρτήσεων µπορεί να δειχτεί ότι όλες οι συνεχής συναρτήσεις σε ένα συµπαγές σύνολο µπορούν να προσεγγιστούν, χρησιµοποιώντας απλά αθροίζοντας τις εξόδους ΠΣΤΝ διαφο- ϱετικών τάξεων. Αυτά τα παραγόµενα δίκτυα είναι µία γενίκευση των ΠΣΤΝ και ονοµάζονται Ridge Polynomial Networks (RPNs). Για περισσότερες λεπτοµέρειές µπορούν να ϐρεθούν στις εργασίες [35,108,109]

44 3.2 Πι Σίγµα Τεχνητά Νευρωνικά ίκτυα (ΠΣΤΝ ) Συσχετισµός µε άλλα ΥΤΤΝ ίκτυα εµπρόσθιας τροφοδότησης µε πολλαπλασιαστικές µονάδες και στατικές αρχιτεκτονικές Αυτή η κατηγορία περιλαµβάνει αρκετά µοντέλα στη ϑεωρία των τεχνιτών νευρωνικών δικτύων και των συστηµάτων, τα οποία σχετίζονται στενά µε τα HPU δίκτυα. Ενα τέτοιο µοντέλο είναι το sigma pi unit [75] (ϐλέπε 3.1.1), το οποίο πρωτοχρησι- µοποιήθηκε σε ένα συνδετικό πλαίσιο εργασίας από τους Feldman και Ballard [27]. Σε αυτό το µοντέλο, αξιοποιήθηκαν τα αθροίσµατα των γινοµένων των επιλεγµένων στοιχείων εισόδου. Ετσι αυτές οι µονάδες είναι µια ιδιαίτερη περίπτωση των HPUs. Ωστόσο, µιας και αυτό το µοντέλο δεν επιτρέπει όρους όπως x k i, k > 1, ένα απλό στρώµα των sigma pi µονάδων δεν είναι ικανό να προσεγγίσει κάποιες συναρτήσεις ικανοποιητικά [21]. Για να υπολογίσουν τα µειονεκτήµατα των sigma pi µονάδων, οι Durbin και Rumelhart [23] πρότειναν την χρήση των πολλαπλασιαστικών µονάδων, καθεµιά από τις οποίες ϑα µπορούσαν να προσεγγίσουν έναν απλό όρο υψηλότερης τάξης, για παράδειγµα η έξοδος της j-ιοστής πολλαπλασιαστικής µονάδας που δίνεται από: z j = N i=1 x p ji i. Η καινοτοµία άπτεται στο γεγονός ότι τα εξαγόµενα p ji ϑα µπορούσαν επίσης να προσαρµοστούν χρησιµοποιώντας gradient descent, και δεν ήταν περιορισµένα σε ακέραιες τιµές. Οι συγγραφείς οραµατίστηκαν ότι οι πολλαπλασιαστικές µονάδες ϑα ανακατεύονται µε αθροιστικές µονάδες για να δηµιουργήσουν αθροίσµατα ϐαρών αυθαιρέτων γινοµένων, και έτσι επικεντρώθηκαν σε δίκτυα µε ένα κρυφό στρώµα πολλαπλασιαστικών µονάδων, µε την έξοδο y να δίνεται από τον τύπο y = j w j z j. Τα δίκτυα που προκύπτουν είναι αποτελεσµατικά για προβλήµατα στα οποία µια κατάλληλη συνάρτηση να µπορεί εύκολα να εκφραστεί σε µια µορφή αθροίσµατος γινοµένων (πραγµατικής τιµής). Για παράδειγµα, εάν κάθε στοιχείο εισόδου είναι ±1, η ισοτιµία (παριτψ) λαµβάνεται απλώς εξετάζοντας εάν το γινόµενο όλων των στοιχείων εισόδου είναι ±1 ή όχι. Οπως είναι αναµενόµενο, οι πολλαπλασιαστικές µονάδες είναι αποτελεσµατικές για ισοτιµίες και συµµετρικά προβλήµατα. Η επιτυχία των δικτύων πολλαπλασιαστικών µονάδων σε προβλήµατα συνεχό- µενων τιµών εξαρτάται από το εάν ο αριθµός των επιλεγµένων πολλαπλασιαστικών µονάδων είναι κατάλληλος ή όχι. Ο αριθµός αυτός ίσως έχει να κάνει λίγο µε την τάξη της συνάρτησης. Επίσης, ένα δίκτυο ϐασισµένο στον παραπάνω τύπο επιβραδύνεται λόγω της backpropagation του σφάλµατος. Σε αντίθεση, για τα ΠΣΤΝ, κάποιος χρειάζεται να διαλέξει µια κατάλληλα τάξη προσέγγισης, K, ϑεωρώντας την εκτιµώµενη πολυπλοκότητα συνάρτησης, το σύνολο δεδοµένων και το πόσο ϑόρυβος εµφανίζεται. Εάν µια καλή εκτίµηση του K είναι δύσκολο να ληφθεί, ένα επαυξητικό σχέδιο µάθησης είναι διαθέσιµο για τα RPNs στα οποία ΠΣΤΝ αυξανόµενης τάξης προστίθενται διαδοχικά κατά τη διάρκεια της εκπαίδευσης ωσότου να επιτευχθεί ένα επιθυµητό επίπεδο εκτέλεσης [108]. Άλλες προσεγγίσεις που προσπαθούν να διατηρήσουν την ισχυρή διαχωριστική

45 32 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα ικανότητα των ΥΤΤΝ καθώς µειώνουν τον αριθµό των όρων υψηλότερης τάξης πε- ϱιλαµβάνουν τη χρήση κρυφών επιπέδων µε HPUs [75]. Ξανά, η χρήση πολλών στρωµάτων µπορεί να οδηγήσει σε ένα µικρότερο αριθµό ϐαρών και υπολογιστικών µονάδων, αλλά τυπικά διακυβεύονται. τόσο η ταχύτητα εκµάθησης όσο και η στα- ϑερότητα τους. Το FLN δίκτυο έχει επίσης προταθεί για την παραγωγή υψηλότερης τάξης συναρτήσεων των στοιχείων εισόδου [87] (ϐλέπε 3.1.2). Ενα FLN δίκτυο υπολογίζει µια άγνωστη συνάρτηση ως i w iφ i (x), όπου φ i (x) είναι τα στοιχεία εισόδου, γινόµενα των στοιχείων εισόδου, ή άλλες κατάλληλες συναρτήσεις όπως οι συνηµιτονοειδείς συναρτήσεις. Αυτή η προσέγγιση είναι ουσιαστικά γραµµική παλινδρόµηση, µε τα φ i (x) να λειτουργούν ως οι ϐασικές συναρτήσεις, και έχει µελετηθεί πολύ καλά σε αρκετούς επιστηµονικούς κλάδους. Στην εργασία [87], λαµβάνονται άριστα αποτελέσµατα για το 3-parity πρόβληµα επιλέγοντας x 1, x 2, x 3, x 1 x 2, x 1 x 3, x 2 x 3 και x 1 x 2 x 3 ως τις ϐασικές συναρτήσεις. Σαφώς, µία εκ των προτέρων γνώση έχει χρησι- µοποιηθεί για την επιλογή µιας τέτοιας ϐέλτιστης ϐάσης. Σε ένα άλλο παράδειγµα προσέγγισης µιας συνηµιτονοειδής επιφάνειας, η ϐάση που χρησιµοποιήθηκε ήταν x, sin(πx), cos(πx), και δεν χρησιµοποιήθηκε ούτε ένα πολυώνυµο υψηλότερης τάξης. Είναι σίγουρο ότι αυτή η ϐάση δε ϑα λειτουργούσε καλά για το πρόβληµα ισοτιµίας. Κατά συνέπεια ένα FLN δίκτυο δεν απαντά στο Ϲήτηµα κλειδί του πως να καθοριστεί µια κατάλληλη ϐάση για αυθαίρετες συναρτήσεις. Οπως αναφέρθηκε προηγουµένως, το Ϲήτηµα όταν χρησιµοποιούνται ΠΣΤΝ είναι η επιλογή µιας κατάλληλης τάξης, το οποίο είναι πολύ απλούστερο. Από τη στιγµή που η τάξη έχει επιλεγεί, το πρόβληµα ανάγεται σε ένα παραµετρικού υπολογισµού. Επαυξητική Πολυωνυµική Προσέγγιση Μια εναλλακτική στις παραµετρικές προσεγγίσεις, είναι να χρησιµοποιηθούν τεχνικές επαύξησης στις οποίες ο αριθµός των ελεύθερων παραµέτρων αυξάνεται σταδιακά, εάν χρειαστεί. Ο Ivakhnenko έχει προτείνει έναν πολυωνυµικό αλγόριθµο προσέγγισης, που ονοµάζεται the group method of data handling algorithm, για σύνθετα µη γραµµικά συστήµατα [60]. Αυτός ο αλγόριθµος είναι ϐασικά ένας επαυξητικός αλγόριθµος για την κατασκευή µιας προσέγγισης του αγνώστου συστήµατος ξεκινώντας από απλά πολυώνυµα και προχωρώντας σε όλο και περισσότερο σύνθετες πολυωνυµικές εκφράσεις. Η λειτουργία του µπορεί να εκφραστεί, µε την επαυξητική κατασκευή ενός εµπρόσθιας τροφοδότησης δικτύου στο οποίο η έξοδος κάθε κόµ- ϐου να είναι το γινόµενο δύο µεταβλητών, των οποίων οι παράµετροι λαµβάνονται µε παλινδρόµηση. Ξεκινώντας µε τους κόµβους εισόδου, οι κόµβοι προκύπτουν στο επόµενο στρώµα συνδυάζοντας ανά δύο τις εισόδους του προηγούµενου στρώµατος. Η δύναµη της µεθόδου προέρχεται από τη χρήσης απλών µικρής διάστασης συναρτήσεων, και την ικανότητα του αλγορίθµου να αποκόπτει τους λίγα υποσχόµενους κόµβους. Ενα ευρετικό που υπολογίζει, µέσο των ελάχιστων µέσων τετραγώνων, πόσο κοντά είναι η συνάρτηση περιγράφει τα δεδοµένα εκπαίδευσης, χρησιµοποιείται για να τερµατίσει και να αξιολογήσει τον αλγόριθµο. υστυχώς αυτή η προσέγγιση συχνά οδηγεί σε µη ϐέλτιστες δοµές λόγω της ευρηστικής της ϕύσης Αλγόριθµοι εκπαίδευσης Σε αυτή την παράγραφο ϑα παρουσιάσουµε τους κλασικούς αλγόριθµους εκπαίδευσης που έχουν χρησιµοποιηθεί µέχρι τώρα για την εκπαίδευση των ΠΣΤΝ [35]. Οι κλασικοί αλγόριθµοι εκπαίδευσης των Πι Σίγµα ΤΝ ϐασίζονται στον κλασικό

46 3.2 Πι Σίγµα Τεχνητά Νευρωνικά ίκτυα (ΠΣΤΝ ) 33 αλγόριθµο εκπαίδευσης των ΤΝ gradient descent. Εφόσον η συνάρτηση ενεργοποίησης των ΑΠΣΤΝ είναι µία παραγωγίσιµη µη-γραµµική συνάρτηση, ενώ αυτή των ΠΣΤΝ δεν είναι παραγωγίσιµη, χρειάζεται να χρησιµοποιηθούν διαφορετικές αντικειµενικές συναρτήσεις σφάλµατος έτσι ώστε να µπορεί να εφαρµοστεί η gradient descent και στις δύο περιπτώσεις. Για τα αναλογικά ΠΣΤΝ χρησιµοποιείται το µέσο τετραγωνικό σφάλµα ως εξής: υ 2 = L υp 2 = 1 L p L (t p y p ) 2, (3.8) p=1 όπου ο εκθέτης p υποδηλώνει το p-οστό πρότυπο εισόδου, t p την επιθυµητή τιµή εξόδου για το p-οστό πρότυπο εισόδου, y p = σ( j hp j ), και το άθροισµα γίνεται για όλα τα L πρότυπα εκπαίδευσης. Ανάλογα για τα δυαδικά ΠΣΤΝ έχουµε: υ 2 = L υp 2 = 1 L p L (t p net p ) 2, (3.9) p=1 όπου το net p = j hp j όπως προηγουµένως. Παρατηρήστε ότι η συνάρτηση σφάλµατος των ΠΣΤΝ είναι τύπου Adaline [130, 132] η οποία προσπαθεί να ελαχιστοποιήσει την διαφορά µεταξύ της επιθυµητής τιµής t και της εξόδου net (δηλαδή πριν την συνάρτηση ενεργοποίησης). Από εδώ και πέρα ϑα αναφέρουµε τον αλγόριθµο εκπαίδευσης της εξίσωσης 3.8 ώς ΤΥΠΟΥ Ι ενώ τον αλγόριθµο εκπαίδευσης της εξίσωσης 3.9 ώς ΤΥΠΟΥ ΙΙ. Στα κλασικά ΤΝ, όλα τα ϐάρη αλλάζουν σε κάθε ϐήµα εκπαίδευσης. Οµως για τα ΠΣΤΝ ένα τέτοιο σχήµα µπορεί να οδηγήσει σε προβλήµατα αστάθειας και µησύγκλησης, εάν ο ϐαθµός µάθησης δεν είναι αρκετά µικρός. Αυτό οφείλεται στους όρους υψηλής τάξης που παράγονται στην πολλαπλασιαστική έξοδο του δικτύου, οι οποίοι µπορεί να µην είναι στην κατεύθυνση της πιο απότοµης κλήσης. Αντί να αλλάζονται όλα τα ϐάρη ταυτόχρονα σε κάθε ϐήµα επιλέγεται και αλλάζεται ένα συγκεκριµένο σύνολο ϐαρών. Ετσι έχουν προταθεί οι δύο παρακάτω προσεγγίσεις ως µέθοδοι για την κατάλληλη επιλογή του συνόλου ϐαρών [105,107]. Τυχαίος κανόνας: Σε κάθε ϐήµα επιλέγουµε τυχαία έναν αθροιστικό νευρώνα και αλλάζουµε µόνο τα N + 1 ϐάρη που είναι συσχετισµένα µε τις εισόδους του. Ασύγχρονος κανόνας: Σε κάθε ϐήµα, όλα τα K σύνολα ϐαρών αλλάζονται αλλά µε ασύγχρονο τρόπο. ηλαδή επιλέγετε ένα σύνολο ϐαρών w j = (w 0j, w 1j,, w Nj ) (που αντιστοιχεί στον j-οστό αθροιστικό νευρώνα) και αλλάζονται οι τι- µές τους σύµφωνα µε τον αλγόριθµο εκµάθησης. Μετά για το ίδιο πρότυπο υπολογίζεται ξανά η τιµή της εξόδου για το τροποποιηµένο δίκτυο και χρησι- µοποιήται το νέο σφάλµα για την αλλαγή ενός άλλου συνόλου ϐαρών. Για κάθε πρότυπο εισόδου, εφαρµόζεται αυτή η λειτουργία K ϕορές έτσι όλα τα σύνολα ϐαρών τροποποιούνται σε ένα ϐήµα του αλγορίθµου. Μετά από την επιλογή του συνόλου ϐαρών, για οποιονδήποτε από τους παραπάνω κανόνες, εφαρµόζεται ένα αλγόριθµος εκπαίδευσης τύπου LMS [50,130,132]. Εδώ το στιγµιαίο µέσο τετραγωνικό σφάλµα για το p-οστό πρότυπο εισόδου υ 2 p χρησιµοποιήται ως µία προσέγγιση του πραγµατικού µέσου τετραγωνικού σφάλµατος. Ετσι

47 34 Υψηλής Τάξης Τεχνητά Νευρωνικά ίκτυα εφαρµόζοντας την gradient descent σε ένα επιλεγµένο σύνολο ϐαρών w l µπορούµε να πάρουµε ότι: w kl υ2 p w kl, k = 0, 1,, N. Για τους αλγόριθµους ΤΥΠΟΥ Ι η παραπάνω εξίσωση οδηγεί του ακόλουθου κανόνα αλλαγής ϐαρών (αλγόριθµο εκπαίδευσης): w l = η (t p y p ) (y p ) ( j l h p j ) xp, όπου (y p ) είναι η πρώτη παράγωγος της µη-γραµµικής συνάρτησης ενεργοποίησης σ( ), για παράδειγµα, όταν έχουµε σιγµοειδής συνάρτηση ισχύει: (y p ) = σ ( ) = (1 σ( )) σ( ), ενώ αν έχουµε υπερβολική εφαπτοµένη ισχύει ότι: (y p ) = σ ( ) = 1 σ 2 ( ), x p είναι το p-οστό πρότυπο εισόδου και τέλος η είναι ο ϱυθµός µάθησης του αλγορίθµου. Παρόµοια, για αλγόριθµους ΤΥΠΟΥ ΙΙ έχουµε: w l = η (t p net p ) ( j l h p j ) xp, όπου net p = K j=1 hp j. Τα υπόλοιπα σύνολα ϐαρών που δεν έχουν επιλεχθεί παραµένουν τα ίδια. Οι παραπάνω µέθοδοι µπορούν εύκολα να επεκταθούν για δίκτυα πολλαπλών εξόδων αφού κάθε έξοδος έχει τους δικούς της αθροιστικούς νευρώνες. Για την ανάλυση σύγκλησης των παραπάνω αλγορίθµων ο αναγνώστης µπορεί να αναφερθεί στην εργασία [35].

48 Κ Ε Φ Α Λ Α Ι Ο 4 ιαφοροεξελικτικοί Αλγόριθµοι 4.1 Εξελικτικοί Αλγόριθµοι Στον Πίνακα 4.1 παρουσιάζεται ο σκελετός ενώς κλασικού Εξελικτικού Αλγορίθµου (ΕΑ) σε ψευδογλώσσα. Ενας ΕΑ είναι µία επαναληπτική διαδικασία που εξελίσσει νέους πληθυσµούς ατόµων P(G) από τους παλιούς (G = 0, G = 1, G = 2,...). Κάθε άτοµο µέσα στον πληθυσµό αναπαριστά µία είτε πραγµατική είτε δυαδική εκδοχή κάποιας υποψήφιας λύσης. Ακόµα µία συνάρτηση αξιολόγησης αναθέτει µία τιµή ικανότητας σε κάθε άτοµο η οποία δείχνει το πόσο ικανό είναι αυτό το άτοµο για να λύσει το συγκεκριµένο πρόβληµα. Ο κλασικός αλγόριθµος για να υπολογίσει µία ολόκληρη γενιά µε νέα άτοµα, εφαρµόζει σε έναν αρχικά τυχαίο πληθυσµό κάποιους στοχαστικούς τελεστές, όπως της διασταύρωσης, της µετάλλαξης και τον τελεστή της επιλογής. Γενικά ϑα µπορούσαµε να πούµε ότι, σε έναν ΕΑ εφαρµόζουµε τελεστές παραλλαγής στον τρέχων πληθυσµό P(G) και δη- µιουργούµε έναν προσωρινά νέο πληθυσµό P (G). Αξιολογούµε τα άτοµα του P (G) και στην συνέχεια µε τον τελεστή της επιλογής δηµιουργούµε τον νέο µας πληθυσµό P(G + 1) που αποτελείτε είτε από άτοµα του P(G), είτε από άτοµα του P (G). Το κριτήριο τερµατισµού του αλγορίθµου ορίζεται συνήθως είτε από ένα µέγιστο αριθ- µό γενεών είτε από το αν ϑα ϐρεθεί κάποιο άτοµο του οποίου η τιµή ικανότητας πλησιάζει τον στόχο του προβλήµατος µε κάποια δεδοµένη ακρίβεια. Εξελικτικός Αλγόριθµος G := 0; Αρχικοποίησε και αξιολόγησε [P(G)]; while not stop_condition do P (G) := παραλλαγή [P(G)] Αξιολόγησε [P (G)]; P(G + 1) := επέλεξε [P (G), P(G)] G := G + 1; End while Πίνακας 4.1: Ψευδοκώδικας κλασικού Εξελικτικού Αλγορίθµου. Συχνά, οι τοµείς του εξελικτικού υπολογισµού (ΕΥ) (Evolutionary Computation (EC) ), των νευρωνικών δικτύων, της ασαφής λογικής, χαρακτηρίζονται ως τεχνικές που επιλύουν προβλήµατα χρησιµοποιώντας αριθµητικές αναπαραστάσεις της υπάρχουσας γνώσης, ενώ στην κλασική τεχνική νοηµοσύνη, χρησιµοποιούν συµβολικές αναπαραστάσεις. Αντίθετα από τους κλασικούς αλγόριθµους, είναι ανεκτικοί σε ανακρίβειες, σε αβεβαιότητα και στην µερική αλήθεια. Αυτά τα χαρακτηριστικά

49 36 ιαφοροεξελικτικοί Αλγόριθµοι τους γνωρίσµατα, τους κάνουν πιο ανθεκτικούς από τις κλασικές προσεγγίσεις και, κατά συνέπεια, πιο ευπροσάρµοστους. Αυτός ο ευρύτερος ερευνητικός τοµέας είναι γνωστός ως soft computing, και περιλαµβάνει και άλλες τεχνικές όπως τα πιθανοτικά δίκτυα και τα rough sets (περισσότερες πληροφορίες µπορούν να ϐρεθούν στην εργασία [124]). Το Σχήµα 4.1 περιγράφει την δοµή που διαχωρίζεται ο ΕΥ και παρουσιάζονται οι πιο γνωστοί ΕΑ, όπως: οι Γενετικοί Αλγόριθµοι (ΓΑ)(Genetic Algorithms (GA)) [38,54], οι Εξελικτικές Στρατηγικές (ΕΣ)(Evolutionary Strategies (ES)) [47,99], ο Εξελικτικός Προγραµµατισµός (ΕΠ)(Evolutionary Programming (EP)) [29, 30], ο Γενετικός Προγραµµατισµός (ΓΠ)(Genetic Programming (GP)) [65], οι ιαφοροεξελικτικοί Αλγόριθµοι ( Ε)(Differential Evolution (DE)) [118], και οι Αλγόριθµοι Νοηµοσύνης Σµηνών (ΑΝΣ)(Particle Swarm Intelligence (PSO)) [63]. Σχήµα 4.1: ιάγραµµα τις οικογένειας του Εξελικτικού Υπολογισµού (ΕΥ). 4.2 ιαφοροεξελικτικός Αλγόριθµος Οι ιαφοροεξελικτικοί Αλγόριθµοι ( Ε) είναι απλοί και συγχρόνως πολύ δυνατοί αλγόριθµοι που χρησιµοποιούν και εξελίσουν έναν πληθυσµό από υποψήφιες λύσεις έτσι ώστε να µπορέσουν να ϐρουν το ολικό ελάχιστο της υπό-εξέταση συνάρτησης (αντικειµενικής συνάρτησης (ΑΣ) ). Αντίθετα µε τις ΕΣ που ϐασίζονται στην έξοδο µιας προκαθορισµένης πιθανότητας κατανοµής, οι Ε εκτελούν τη διαδικασία

50 4.3 Μια Επισκόπηση των Ε 37 της µετάλλαξης µε τις διαφορές τυχαίων Ϲευγαριών από άτοµα που ανήκουν στον πληθυσµό x r1 x r2. Προφανώς, η κατανοµή αυτών των διανυσµάτων διαφορών καθορίζεται από την κατανοµή των ίδιων των ατόµων του πληθυσµού. Τα πλεονεκτή- µατα που παρουσιάζει η εφαρµογή των Ε σε προβλήµατα ολικής ϐελτιστοποίησης συνοψίζονται παρακάτω: Γρήγοροι, απλοί, εύκολοι για χρήση και τροποποιήσεις, Αποτελεσµατικοί, µε ιδιαίτερες ικανότητες για ολική ϐελτιστοποίηση, Εγγενής παράλληλη διαδικασία, Η ακρίβειά τους περιορίζεται από την ακρίβεια των αριθµών κινητής υποδιαστολής, Αποδοτικοί, χρησιµοποιώντας µόνο O(n) διαδικασίες, χωρίς να υπολογίζουν διαδικασίες ταξινόµησης ή πολλαπλασιασµού µητρώων, Χρησιµοποιούν αυτο-αναφερόµενες µεταλλάξεις και δεν χρειάζεται να προκα- ϑοριστεί κάποια συγκεκριµένη κατανοµή, Μπορούν εύκολα και αποδοτικά να εφαρµοστούν σε ακέραια, διακριτά και µικτής ϐελτιστοποίησης προβλήµατα. εν απαιτούν η αντικειµενική συνάρτηση να είναι παραγωγίσιµη, Λειτουργούν σε επίπεδες επιφάνειες, Λειτουργούν σε προβλήµατα µε ϑόρυβο και µε αντικειµενικές συναρτήσεις που µεταβάλλονται δυναµικά µε το χρόνο, Μπορούν να παρέχουν πολλές λύσεις σε ένα µόνο τρέξιµο. Μπορούν να παρέχουν εξελικτικές λύσεις για παιχνίδια και προσοµοιώσεις, Τέλος, είναι αποτελεσµατικοί σε προβλήµατα µη γραµµικού προγραµµατισµού µε περιορισµούς, και σε συνεργασία µε συναρτήσεις πέναλτι. 4.3 Μια Επισκόπηση των Ε Οι Ε είναι τυπικοί Εξελικτικοί Αλγόριθµοι όπως αυτόν που περιγράψαµε πα- ϱαπάνω στον Πίνακα 4.1. Ενας Ε δηµιουργεί ένα τυχαίο κατανεµηµένο αρχικό πληθυσµό P G=0 από NP D-διάστατα διανύσµατα x i,j,g : P G = {x 1,G, x 2,G,...,x i,g,...,x NP,G } x i,g = x j,i,g x i,j,g=0 = x (lo) j + rand j [0, 1](x (hi) j x (lo) j ) i = 1, 2,..., NP, NP 4, j = 1, 2,..., D Ο όρος rand j [0, 1] αναπαριστά µια οµοιόµορφη κατανεµηµένη τυχαία µεταβλητή η οποία παίρνει τιµές στο διάστηµα ανάµεσα στο µηδέν και στο ένα. Ο υποδείκτης

51 38 ιαφοροεξελικτικοί Αλγόριθµοι j υποδεικνύει ότι µια καινούρια τυχαία τιµή ϑα δηµιουργηθεί για κάθε τιµή του j. Αν ο υποδείκτης είναι ο i, τότε η τυχαία τιµή δηµιουργείται µια µόνο ϕορά για κάθε διάνυσµα. Οι υπερδείκτες hi και lo δηλώνουν το άνω και κάτω αρχικό ϕράγµα των παραµέτρων αντίστοιχα. Μετά την αρχικοποίηση, ο πληθυσµός υποβάλλεται σε επαναλαµβανόµενες γενιές, G = 1, 2,..., G max όπου σε κάθε γενιά εκτελούνται οι διαδικασίες της µετάλλαξης, του επανασυνδιασµού, και της επιλογής. Οι Ε εφαρµόζουν την διαδικασία της µετάλλαξης αλλά και του επανασυνδιασµού για τη δηµιουργία ενός «παιδιού» ή ενός δοκιµαστικού (trial) διανύσµατος u j,i,g+1 για κάθε «πατέρα» διάνυσµα x j,i,g όπως ϕαίνεται από τις παρακάτω εξισώσεις: Επέλεξε τυχαία r 1, r 2, r 3 {1, 2,..., NP }, (µε τον περιορισµό r 1 r 2 r 3 i) j rand = int(rand i [0, 1]D) + 1 for (j = 1; j <= D; j = j + 1) { if (rand j [0, 1] < CRorj = j rand ) { u j,i,g+1 = v j,i,g+1 = x j,r3,g + F(x j,r1,g x j,r2,g) } else { u j,i,g+1 = x j,i,g } //endif } //endfor Οι δείκτες r 1, r 2 και r 3 είναι τυχαία επιλεγµένοι δείκτες από τον πληθυσµό που διαφέρουν µεταξύ τους και από το δείκτη i, που αναφέρεται στο άτοµο το τρέχων «πατέρα» (Αυτός ο τελεστής µετάλλαξης ονοµάζεται DE/rand/1/bin. Βλέπε Σχή- µα 4.3). Εποµένως, το µέγεθος του πληθυσµού, NR ϑα πρέπει να είναι µεγαλύτερο του 3. Οι µεταβλητές F και CR είναι µεταβλητές που η τιµή τους καθορίζεται από το χρήστη. Επειδή αναπαριστά µια πιθανότητα, η µεταβλητή CR κυµαίνεται από το 0 εως το 1, ενώ η παράµετρος F είναι ένας διαβαθµιζόµενος παράγοντας που τυπικά παίρνει τιµές στο διάστηµα (0, 1+). Σύµφωνα µε τα παραπάνω παρατηρείται ότι όταν η τυχαία τιµή rand j [0, 1] είναι µικρότερη της παραµέτρου CR ή j = j rand, η παράµετρος του διανύσµατος παιδιού είναι ένας γραµµικός συνδυασµός των τρίων τυχαία επιλεγµένων διανυσµάτων, διαφορετικά η παράµετρος του διανύσµατος παιδιού κληρονοµείται απευθείας από τον πατέρα του. Η συνθήκη ότι j = j rand συµπεριλαµβάνεται µε σκοπό να διασφαλίσει ότι τα διανύσµατα παιδιά που προκύπτουν ϑα διαφέρουν από τους γονείς τους τουλάχιστο κατά µια παράµετρο. Στο επόµενο ϐήµα, κάθε υποψήφιο παιδί αξιολογείται από την αντικειµενική συνάρτηση και το κόστος του συγκρίνεται µε αυτό του πατέρα του. Εάν το κόστος του παιδιού είναι µικρότερο ή ίσο από αυτό του πατέρα του, τότε στην επόµενη γενιά του πληθυσµού αντικαθιστά τον πατέρα του. ιαφορετικά, (εάν το κόστος του παιδιού είναι µεγαλύτερο από αυτό του πατέρα του), ϑα διατηρηθεί το διάνυσµα του πατέρα του. Η απλή αυτή διαδικασία µπορεί να περιγραφεί από την παρακάτω εξίσωση: { ui,g+1 εάν f( u x i,g+1 = i,g+1 ) f( x i, G) διαφορετικά x i,g

52 4.3 Μια Επισκόπηση των Ε 39 Σχήµα 4.2: Γραφική αναπαράσταση του τελεστή µετάλλαξης DE/rand/1/bin. Εφόσον επιλεγούν τα άτοµα για την επόµενη γενιά, η διαδικασία εξέλιξης του Ε επαναλαµβάνεται µέχρι είτε να λυθεί το προς εξέταση πρόβληµα, µε το να συγκλίνουν όλα τα διανύσµατα είτε να µη παρουσιάζεται καµιά ϐελτίωση στον πληθυσµό µετά από έναν µεγάλο αριθµό γενιών. Παρακάτω, παρουσιάζεται µία συµπυκνωµένη αλγοριθµική µορφή του Ε. Πιο συγκεκριµένα, σε αυτή την µορφή δίδεται ένας διαφορετικός τρόπος για την πα- ϱουσίαση του Ε, στον οποίο παρουσιάζονται λεπτοµέρειές για τις δοµές ϱοής του αλγορίθµου, καθώς και κάποιες εκτιµήσεις των παραµέτρων του Ε. Είσοδος:,G max,np 4,F (0, 1+), CR [0, 1] µε αρχικά όρια: x lo, x hi Αρχικοποίησε: i NP j D : x j,i,g=0 = x (lo) j +rand j [0, 1](x (hi) j x (lo) j ), i = {1, 2,..., NP }, j = {1, 2,..., D}, G = 0, rand j [0, 1] [0, 1] Οσο ισχύει: G < G max Για κάθε i NP Μετάλλαξε και επανασυνδίασε επέλεξε τυχαία r 1, r 2, r 3 {1, 2,..., NP }, (µε τον περιορισµό r 1 r 2 r 3 i) j rand {1, 2,..., D} τυχαία επιλεγµένα για κάθε i j D u j,i,g+1 = x j,r3,g + F(x j,r1,g x j,r2,g) εάν (rand j [0, 1] < CR ή j = j rand ) x j,i,g διαφορετικά

53 40 ιαφοροεξελικτικοί Αλγόριθµοι Επέλεξε: { ui,g+1 εάν f( u x i,g+1 = i,g+1 ) f( x i, G) διαφορετικά //Τέλος Για κάθε G = G + 1 //Τέλος Οσο x i,g Παρακάτω ακολουθεί µία εκτενέστερη περιγραφή των ϐασικών διαδικασιών των Ε. 4.4 Η διαδικασία της Μετάλλαξης Στην πράξη της µετάλλαξης, οι Ε µεταλλάσουν ένα άτοµο του πληθυσµού προσθέτοντας σε αυτό κάποια ϐεβαρηµένη (weighted) διαφορά από ένα τυχαία επιλεγ- µένο Ϲεύγος ατόµων (διανυσµατικές πράξεις). r 1, r 2 {1, 2,..., NP }, επιλεγµένα τυχαία µε τον περιορισµό r 1 r 2 i u i,g+1 = x i,g + k m ( x r1,g x r2,g ) Η πιθανότητα r 1 = r 2 µπορεί να εξαλειφθεί µε ασφάλεια, εφόσον καµιά µετάλλαξη δε µπορεί να συµβεί µε αυτό το συνδυασµό από δείκτες. Επίσης, οι περιπτώσεις r 1 = i και r 2 = i δεν περιλαµβάνονται γιατί ϑα µετέτρεπαν την παραπάνω εξίσωση σε µια διαδικασία διασταύρωσης (crossover procedure). Πράγµατι, το σχήµα µετάλλαξης που χρησιµοποιούν οι Ε συχνά ϑεωρείται σαν µια πράξη αριθµητικής διασταύρωσης η οποία µπορεί να περιγραφεί από την παρακάτω εξίσωση r 3 {1, 2,..., NP }, επιλεγµένα τυχαία µε τον περιορισµό u i,g+1 = x i,g + k q (x r3,g x i,g ) r 3 i Η διαφορά των δυο εξισώσεων είναι ότι η δεύτερη εξίσωση είναι γενικά ένας γραµµικός συνδυασµός δυο διανυσµάτων, ενώ η πρώτη εξίσωση είναι µια ειδική πε- ϱίπτωση ενός γραµµικού συνδυασµού τριών διανυσµάτων. Και στις δύο περιπτώσεις παράγονται νέα διανύσµατα τα οποία είναι γραµµικοί συνδυασµοί από διανύσµατα που ήδη υπάρχουν στον πληθυσµό. Ετσι, οι Ε είναι αλγόριθµοι σύµφωνοι µε τους ΕΑ για προβλήµατα ϐελτιστοποίησης µε πραγµατικούς αριθµούς, καθώς και η διαδικασία µετάλλαξης και η διαδικασία επανασυνδιασµού είναι απλές λειτουργίες οι οποίες τυχαία δειγµατολογούν γραµµικούς συνδυασµούς των υποψήφιων λύσεων του προβλήµατος. Παρόλη την οµοιότητα που µπορούν να παρουσιάζουν οι διαδικασίες που ορίστηκαν από τις δυο παραπάνω εξισώσεις, η αναζήτηση που εκτελούν στο χώρο των διανυσµάτων ατόµων του πληθυσµού τους γίνεται µε αρκετά διαφορετικό τρόπο. Για παράδειγµα, η εξίσωση που περιγράφει την αριθµητική διασταύρωση παρέχει τη δυνατότητα στο διάνυσµα x i,g να γίνει περισσότερο όµοιο µε ένα άλλο διάνυσµα που ανήκει στον πληθυσµό. Συγκεκριµένα, η ειδική περίπτωση όπου k q = 1, µετατρέπει την εξίσωση της αριθµητικής διασταύρωσης σε µια λειτουργία αντικατάστασης που

54 4.4 Η διαδικασία της Μετάλλαξης 41 επιχειρεί την αντικατάσταση του x i,g από το διάνυσµα x r3,g. Για άλλες τιµές του k q, η αναζήτηση για ένα νέο διάνυσµα x i,g γίνεται σε σηµεία κατά µήκος ενός από τους NR 1 άξονες που ενώνουν το διάνυσµα x i,g µε κάθε άλλο διάνυσµα του πληθυσµού. Ο τυχαία επιλεγµένος δείκτης r 3 καθορίζει την κατεύθυνση στην οποία ϑα γίνει η αναζήτηση, ενώ η τιµή του k q ϑα καθορίσει ποιό σηµείο στον επιλεγµένο άξονα ϑα ε- ξεταστεί. Επιπλέον, όταν προστίθεται στο διάνυσµα x i,g το γινόµενο k q ( x r3,g x i,g ) το διάνυσµα u i,g µετακινείται προς ή µακριά από το διάνυσµα x r3,g. Ετσι, κάθε τιµή της σταθεράς k q διαφορετική του µηδενός εισάγει µία µεροληψία (bias) στην διαδικασία αναζήτησης µετακινώντας κάθε διάνυσµα είτε πιο κοντά (0 < k q 1), είτε πιο µακριά (k q < 0, k q > 1) από τα άλλα άτοµα του πληθυσµού. Αντίθετα µε την εξίσωση που περιγράφει την αριθµητική διασταύρωση, η εξίσωση που περιγράφει τη διαδικασία µετάλλαξης για τους Ε, δεν έχει καµιά αναφορά στο x i,g. Στη ϑέση του υπάρχει ένα δεύτερο, τυχαία επιλεγµένο, διάνυσµα από τον πληθυσµό, η εισαγωγή του οποίου επεκτείνει τον αριθµό των αξόνων αναζήτησης σε (NR 1)(NR 2)/2. Επιπλέον, εφόσον η τυχαία δειγµατοληψία διασφαλίζει ότι κάθε διαφορά ( x r1,g x r2,g ), εµφανίζεται τόσο συχνά όσο κι η αντίθετη διαφορά της ( x r2,g x r1,g ), η εξίσωση που περιγράφει τη µετάλλαξη που εκτελούν οι Ε, δη- µιουργεί µια κατανοµή που εγγυάται να εµφανίσει µέση τιµή ίση µε 0. Συνεπώς, µια τιµή σταθεράς k m διαβαθµίζει το µέγεθος των ϐηµάτων αλλά δεν µεροληπτεί υπέρ της αναζήτησης όπως κάνει η σταθερά k q στην εξίσωση της αριθµητικής διασταύρωσης. Επιπρόσθετα δεν υπάρχει κάποια τιµή της σταθεράς k m που ϑα µετατρέψει την εξίσωση σε λειτουργία αντικατάστασης κι έτσι δεν επηρεάζεται αρνητικά η ποικιλο- µορφία ανάµεσα στα άτοµα του πληθυσµού. Στους Ε, ο παράγοντας διαβάθµισης k m κρατείται σταθερός κατά τη διάρκεια της ϐελτιστοποίησης και παραδοσιακά συµβολίζεται ως η σταθερά F, και είναι µία από τις τυπικές παραµέτρους των Ε. Οι τιµές του F που έχουν αποδειχτεί αποδοτικές µέχρι τώρα στην πράξη ϐρίσκονται στο διάστηµα (0, 1]. Αν συγκρίνει κανείς τις εξισώσεις της µετάλλαξης των Ε, µε αυτή των ΕΣ τότε παρατηρεί ότι το γινόµενο F ( x r1,g x r2,g ) παίζει τον ίδιο ϱόλο στους Ε, µε αυτόν του γινοµένου σ i,g+1 N j (0, 1) στους ΕΣ. Οµως οι Ε δεν χρησιµοποιούν µια προκαθορισµένη κατανοµή πιθανότητας όπως οι ΕΣ, αλλά η κατανοµή των διανυσµάτων διαφορών αυτο-διαβαθµίζεται αυτόµατα. Γι αυτό ενώ το διάνυσµα σ i,g+1 πρέπει να προσαρµοστεί στην απόλυτη διαβάθµιση (absolute scale) των µεταλλάξεων, η παράµετρος F χρειάζεται µόνο να µετατρέψει το σχετικό τους µέγεθος. Για να κατανοηθεί καλύτερα η διαδικασία µε την οποία οι Ε διαβαθµίζουν τα µεγέθη των ϐηµάτων της µετάλλαξης ϑα παρουσιαστεί το παράδειγµα µιας αντικειµενικής συνάρτησης που είναι σε ελλειψοειδής µορφή. Στο Σχήµα 4.4 παρουσιάζονται τα άτοµα του πληθυσµού σαν µια κατανοµή σηµείων τα οποία περικλείουν την έλλειψη. Στην πράξη, όλα τα άτοµα του πληθυσµού δεν ϐρίσκονται στην ίδια γραµµή του επιπέδου (ισουψείς), αλλά αντίθετα κατανέµονται σε µια επίπεδη γραµµή που αναπαριστά το µέσο κόστος τους. Η δέσµη των διανυσµάτων κάτω από την έλλειψη στο Σχήµα 4.4, είναι το πραγµατικό σύνολο των διανυσµάτων διαφορών που παράγει η κατανοµή των ατόµων που ϐρίσκονται στην εικόνα. Άµεσα, ϕαίνεται ότι η κατανοµή των διανυσµάτων διαφορών είναι από µόνη της ελλειπτική και µοντελοποιεί την ιδεατή κατανοµή µετάλλαξης τόσο καλά όσο και τα δείγµατα του πληθυσµού µοντελοποιούν την έλλειψη. Σε κάθε διάσταση, υπάρχουν µεταλλάξεις διαφόρων µεγεθών, αλλά σε κάθε περίπτωση παρουσιάζουν µια κλίµακα που είναι συγκρίσιµη µε το διάστηµα ϐελτίωσης της κάθε παραµέτρου.

55 42 ιαφοροεξελικτικοί Αλγόριθµοι Σχήµα 4.3: Κατανοµή σηµείων των Ε που περικλείουν µία ελλειψοειδής αντικειµενική συνάρτηση. Επιπρόσθετα, δεν είναι µόνο το σχήµα µετάλλαξης των Ε ικανό για τη δυναµική διαβάθµιση του µεγέθους των ϐηµάτων ενός ατόµου, αλλά είναι επίσης ανεπηρέαστο στις επιδράσεις από την περιστροφή του συστήµατος συντεταγµένων. Παρόλο που η περιστροφή, µετασχηµατίζει τις συντεταγµένες των διανυσµάτων, δεν αλλάζει τις σχετικές τους ϑέσεις που έχουν το ένα άτοµο προς ένα άλλο ή σε σχέση µε τις ισουψείς της εξεταζόµενης συνάρτησης κόστους. Κατά τα συνέπεια, ακόµα και µετά από µία περιστροφή, τα διανύσµατα των ατόµων του πληθυσµού ϑα ϐρίσκονται οµαδοποιη- µένα γύρω από µια επίπεδη γραµµή. Σαν αποτέλεσµα, η κατανοµή της µετάλλαξης που παράγεται από Ϲευγάρια διανυσµάτων ατόµων ϑα έχει πάντα την ίδια κατεύθυνση στις επίπεδες γραµµές και αυτό είναι µια απαραίτητη συνθήκη για την ϐέλτιστη µετάλλαξη. Είναι επίσης κατανοητό γιατί η παράµετρος F είναι η ίδια για όλες τις παραµέτρους, εφόσον η αλλαγή του παράγοντα διαβάθµισης για κάθε παράµετρο ϑα περίστρεφε αυθαίρετα το διάνυσµα διαφοράς και ϑα κατάστρεφε την συσχέτιση που υπάρχει σε αυτό από την αντικειµενική επιφάνεια (fitness landscape) Καθολικές-Ολικές Μεταλλάξεις (Universal Global Mutations) Σε µια ΕΣ, κάθε διάνυσµα χρησιµοποιεί το δικό του πίνακα στρατηγικής για να διαβαθµίσει και να συσχετίσει την έξοδο από µια πολυδιάστατη κατανοµή (multivariate distribution). Ετσι, κάθε πίνακας συσχέτισης τείνει να απεικονίσει µόνο τοπική πλη- ϱοφορία για τη γειτονιά του διανύσµατος στο οποίο έχει ανατεθεί. Αντίθετα, οι Ε µεταλλάσουν όλα τα άτοµα µε την ίδια καθολική κατανοµή (universal distribution). Εξαιτίας της ελλειψοειδής συµµετρίας, υπάρχει µικρή διαφορά µεταξύ της ϐέλτιστης µετάλλαξης των ελλειψοειδών µιας ΕΣ και της καθολικής κατανοµής των Ε, όπως ϕαίνεται και στα σχήµατα και 4.4. Σε αυτήν την ειδική περίπτωση, όλοι οι πίνακες στρατηγικής ϑα πρέπει να είναι ίδιοι για όλα τα σηµεία στην ίδια επίπεδη γραµµή και να δηµιουργούν όµοια ελλειψοειδή µε ίση πιθανότητα για την τοπο-

56 4.4 Η διαδικασία της Μετάλλαξης 43 ϑέτηση ενός ατόµου-παιδιού που όλοι ϑα µοιράζονται την ίδια κατεύθυνση όπως οι κυρίαρχοι άξονες της έλλειψης [102]. Σχήµα 4.4: Παρουσίαση της ϐέλτιστης µετάλλαξης του ελλειψοειδούς ίσης πιθανότητας για την τοποθέτηση ενός απόγονου πάνω στις ισουψείς της ελλειψοειδής αντικειµενικής συνάρτησης. Η διαφορά ανάµεσα στις δυο προσεγγίσεις γίνεται καλύτερα κατανοητή εάν µια δεύτερη έλλειψη, (µε διαφορετική κατεύθυνση και εκκεντρικότητα) προστεθεί στην αντικειµενική επιφάνεια (fitness landscape). Η ύπαρξη µιας έλλειψης δεν µετα- ϐάλλει τους πίνακες συσχέτισης για τα άτοµα που προσαρµόζονται στην άλλη έλλειψη και το αντίθετο. Σε κάθε περιοχή σύγκλησης (basin of attraction), η ΕΣ ϑα συνεχίσει να παρέχει σε κάθε άτοµο τοπικά ϐέλτιστες µεταλλάξεις οι οποίες είναι αυτο-προσαρµόσιµες στο τοπικό περιβάλλον κάθε ατόµου. Οµως, ενώ η τοπική αυτο-προσαρµογή εξασφαλίζει γρήγορη τοπική ϐελτίωση, δεν συµπεριλαµβάνει ολική πληροφορία. Η κατάσταση στους Ε είναι αρκετά διαφορετική, αφού όλα τα άτοµα µεταλλάσσονται από την ίδια κατανοµή. Αν τα άτοµα του πληθυσµού ϐρίσκονται και στις δυο ελλείψεις, τότε η καθολική κατανοµή των Ε ϑα περιέχει ένα µείγµα των διανυσµάτων µετάλλαξης. Μεταλλάξεις που δηµιουργούνται από ένα Ϲευγάρι ατόµων που ανήκουν σε µια έλλειψη δεν ϑα είναι απαραίτητα αποδοτικά όταν προστεθούν σε ένα άτοµο που ϐρίσκεται στην άλλη έλλειψη και το αντίθετο. Η συχνότητα µε την οποία τέτοια ακατάλληλα Ϲευγάρια διανυσµάτων επιλέγονται για να ϕτιάξουν µια διαφορά εξαρτάται από το σχήµα των ελλειψοειδών και από το πως είναι κατανεµηµένα τα

57 44 ιαφοροεξελικτικοί Αλγόριθµοι άτοµα του πληθυσµού στις δυο ελλείψεις. Υπάρχει ένα ϕυσιολογικό ϐάρος έτσι ώ- στε τα Ϲευγάρια µετάλλαξης που επιλέγονται να περιλαµβάνουν άτοµα που ανήκουν στην έλλειψη που περιέχει τα περισσότερα άτοµα του πληθυσµού. Εδώ, δεν γίνεται καµία αναφορά για το αν αυτή η καθολική κατανοµή ή η ϐεβαρηµένη κατανοµή που δηµιουργείται είναι ϐέλτιστη, αλλά παρατηρείται ότι αυτή η κατανοµή έχει λειτουργήσει πολύ καλά στην πράξη (περισσότερες πληροφορίες µπορούν να ϐρεθούν στα [20,97]). Επιπρόσθετα µε τα δυο σύνολα των τοπικά συσχετιζόµενων διανυσµάτων µετάλλαξης, η καθολική κατανοµή των Ε περιλαµβάνει επίσης διαφορές των οποίων τα άτοµα προέρχονται από διαφορετικές ελλείψεις. Η συµπερίληψη αυτών των µεγάλης διαβάθµισης µεταλλάξεων παρέχει στους Ε µε αυτό που µπορεί να ϑεωρηθεί ως καθολικά συσχετιζόµενες µεταλλάξεις. Αντίθετα, τα απλά ελλειψοειδή ίσης πιθανότητας, για την τοποθέτηση ενός παιδιού που έχει δηµιουργηθεί από µια ΕΣ, (δηλαδή η δέσµη των διανυσµάτων µετάλλαξης που δηµιουργεί ένας Ε), παρόλο που είναι σχετικά αραιή, είναι ικανή να εκφράσει µία πολύ µεγαλύτερης πολυπλοκότητας από αυτή τη συµµετρία που µπορεί µια απλή ελλειψοειδή µετάλλαξης να εκφράσει. Η πρόσθεση αυτών των µεγάλης κλίµακας, µεταλλάξεων ανάµεσα σε δύο ελλειψοειδή είναι αυτό που δίνει στους Ε, την ιδιαίτερη αποτελεσµατικότητα τους σαν ολικούς ϐελτιστοποιητές Τελεστές Μετάλλαξης Σε αυτή την παράγραφο ϑα παρουσιάσουµε τους πιο γνωστούς τελεστές µετάλλαξης που υπάρχουν στην ϐιβλιογραφία [26, 90, 118]. Πιο συγκεκριµένα, για κάθε άτοµο x i G, i = 1,...,NP, όπου το G δηλώνει την τρέχων γενιά, το µεταλλαγµένο ά- τοµο vm,g+1 i δηµιουργείται σύµφωνα µε ένα από τα παρακάτω σχήµατα µετάλλαξης: v i G+1 = x best G v i G+1 = xr1 G + F(xr2 v i G+1 = xi G + F(xbest G v i G+1 = xbest G + F(x r1 G x r2 G ), (4.1) ), (4.2) G xr3 G xi G ) + F(xr1 + F(xr1 G xr2 G ) + F(xr3 G xr2 G G xr4 G ), (4.3) ), (4.4) v i G+1 = x r1 G + F(x r2 G x r3 G ) + F(x r4 G x r5 G ), (4.5) όπου x best G είναι το καλύτερο άτοµο των προηγούµενων γενεών, r 1, r 2, r 3, r 4, r 5 {1, 2,..., i 1, i + 1,...,NP }, είναι τυχαίοι ακέραιοι αριθµοί αµοιβαία διαφορετικοί και όχι ίσοι µε το τρέχον δείκτη i, και F είναι η σταθερά µετάλλαξης. Προσπαθώντας να αιτιολογήσουµε την µορφή των παραπάνω διαφορετικών τελεστών µετάλλαξης, παρατηρούµε ότι η Εξίσωση (4.2) είναι παρόµοια µε τον τελεστή διασταύρωσης (crossover operator) που χρησιµοποιούν κάποιοι ΓΑ, καθώς η Εξίσωση (4.1) µπορεί να παραχθεί από την Εξίσωση (4.2), αντικαθιστώντας το καλύτερο άτοµο των προηγούµενων γενεών, x best G, µε το τυχαία διαλεγµένο άτοµο xr1 G. Οι Εξισώσεις. (4.3), (4.4) και (4.5) είναι τροποποιήσεις δηµιουργηµένες από τον συνδυασµό των Εξισώσεων (4.1) και (4.2). Είναι ϕανερό ότι µπορούν να δηµιουργηθούν και άλλοι νέοι τελεστές µετάλλαξης χρησιµοποιώντας τους παραπάνω ως ϐασικά στοιχεία για την παραγωγή τους [25, 26,90].

58 4.5 Η διαδικασία της Επιλογής Η διαδικασία της Επιλογής Η διαδικασία της επιλογής ή σχήµα επιλογής, είναι ένα κριτήριο το οποίο κα- ϑορίζει τα κριτήρια µε τα οποία τα νεο-δηµιουργηµένα διανύσµατα ϑα συµπεριλη- ϕθούν στον πληθυσµό της επόµενης γενιάς. Για παράδειγµα η επιλογή µε τουρνουά (tournament selection) καθορίζει τη συµµετοχή των ατόµων για την επόµενη γενιά κρατώντας µια σειρά από ανταγωνισµούς µεταξύ τυχαία επιλεγµένων Ϲευγαριών. Τυπικά, τα ανταγωνιστικά Ϲευγάρια επιλέγονται µε κάποια πιθανότητα από το συνδυασµό πατέρα-παιδιού και τα διανύσµατα µε το µεγαλύτερο σκορ είναι οι νικητές και αυτοί που ϑα συνεχίσουν στην επόµενη γενιά. Εναλλακτικά, οι ΕΣ χρησιµοποιούν ένα ντετερµινιστικό σχήµα επιλογής όπου µόνο τα καλύτερα µέλη από τον πληθυσµό, που δηµιουργείται από τα άτοµα πατέρες και παιδιά, ϑα συνεχίσουν στον επόµενο πληθυσµό. Αξίζει να σηµειωθεί ότι, στην ϐιβλιογραφία υπάρχουν αρκετά διαφορετικά σχήµατα επιλογής και παραλλαγές των δύο παραπάνω σχηµάτων [9]. Ενα µειονέκτηµα και των δύο παραπάνω σχηµάτων (τουρνουά, ντετερµινιστικό) είναι το υπολογιστικό κόστος που απαιτεί η ταξινόµηση του πληθυσµού κατά την εφαρ- µογή τους. Σχήµα 4.5: Σχήµα επιλογής των Ε. Αντίθετα, το κριτήριο επιλογής των Ε για την επιλογή ατόµων είναι ιδιαίτερα απλό (Βλέπε Σχήµα 4.5). Αν το δοκιµαστικό άτοµο ή παιδί u i,g+1 δεν είναι ίσο ή δεν ϐελτιώνει το άτοµο του πατέρα του x i,g, τότε το άτοµο x i,g ϑα παραµείνει στον πληθυσµό και για την επόµενη τουλάχιστον γενιά και δεν ϑα αντικατασταθεί από κάποιο άλλο άτοµο. Επιτρέποντας το διάνυσµα u i,g+1 να αντικαταστήσει το διάνυσµα x i,g στην περίπτωση που και τα δύο έχουν το ίδιο κόστος επιτρέπει τα άτοµα να κινούνται κατά µήκος των επίπεδων γραµµών τους. Εύκολα συµπεραίνει κανείς ότι υιοθετώντας το σχήµα επιλογής των Ε, το κόστος του κάθε ατόµου αλλά και το συνολικό κόστος του πληθυσµού ποτέ δεν ανεβαίνει, παρουσιάζοντας έτσι µια συνεχόµενα µονότονη συµπεριφορά, ή ελιτιστική συµπεριφορά. Γενικά τα σχήµατα επιλογής που ακολουθούνται στους ΕΑ, π.χ. στις ΕΣ, µπορούν να επηρεάσουν την ολική συµπεριφορά αυτών των αλγορίθµων. Για παράδειγµα, αν υπάρχει κάποιο άτοµο το οποίο δεν έχει καλή απόδοση, τότε αυτό µπορεί να αντικατασταθεί από κάποιο άλλο µε το οποίο δεν έχει κάποια σχέση (ως προς την

59 46 ιαφοροεξελικτικοί Αλγόριθµοι ϑέση του) και το γεγονός αυτό µπορεί να οδηγήσει όλα τα άτοµα του πληθυσµού σε µια συγκεκριµένη περιοχή του χώρου αναζήτησης που ϑα αντιστοιχεί σε ένα τοπικό ϐέλτιστο κι όχι στο ολικό. Αντίθετα, στο σχήµα επιλογής που ακολουθούν οι Ε, απαιτεί από το κάθε άτοµο να γίνεται καλύτερο και οι λειτουργίες µετάλλαξης κι επανασυνδιασµού είναι υπεύθυνες για την ολική αναζήτηση του χώρου. 4.6 Η διαδικασία του Επανασυνδιασµού Κατά κύριο λόγο, η διαδικασία της µετάλλαξης είναι υπεύθυνη για να διατη- ϱηθεί ένας πληθυσµός συµπαγής και για την καλή αναζήτηση των περιοχών του εξεταζόµενου προβλήµατος. Ο επανασυνδιασµός ή η διασταύρωση είναι µια συµπληρωµατική διαδικασία που ενισχύει προηγούµενες διαδικασίες δηµιουργώντας διανύσµατα παιδιά από τις παραµέτρους υπαρχόντων διανυσµάτων. Υπάρχει µια σηµαντική διαµάχη για την δύναµη της διαδικασίας του επανασυνδιασµού και υ- πάρχουν ενδείξεις ότι ο οµοιόµορφος επανασυνδιασµός δε µπορεί να µειώσει την υπολογιστική πολυπλοκότητα O(D ln D) που παρουσιάζουν οι γενετικοί αλγόριθµοι όταν εφαρµόζονται σε διαχωρίσιµες συναρτήσεις [81]. Παρόλα, αυτά ο επανασυνδιασµός µπορεί να παρέχει µία σηµαντική επιτάχυνση (speed up), και γι αυτό από πρακτικής άποψης αξίζει να µελετηθεί και να εφαρµοστεί. Οι πρώτες εκδόσεις των Ε, χρησιµοποιούν µια ειδική, µη οµοιόµορφη διακριτή διαδικασία επανασύνδεσης όπου οι παράµετροι του δοκιµαστικού διανύσµατος u i,g+1 που ϐασίζεται στο διάνυσµα x i,g λαµβάνονται είτε από το ίδιο το διάνυσµα πατέρα x i,g, είτε από το διάνυσµα v i,g+1 που προκύπτει από τη διαδικασία µετάλλαξης. Για τον προσδιορισµό της συχνότητας µε την οποία το διάνυσµα παιδί ϑα παίρνει ως στοιχεία του στοιχεία είτε από τον πατέρα του x i,g είτε από το διάνυσµα v i,g+1 έχουν χρησιµοποιηθεί δύο διαδικασίες η διωνυµικής και εκθετικής ϕύσεως διαδικασίες (binomial and exponential). Και οι δυο διαδικασίες χρησιµοποιούν µια σταθερά CR, η οποία συνήθως παραµένει σταθερή κατά την εκτέλεση του αλγο- ϱίθµου. Σύµφωνα µε τη διωνυµική διαδικασία, το διάνυσµα παίρνει παραµέτρους u i,g+1 από το διάνυσµα v i,g+1 εφόσον rand j [0, 1) < CR ενώ διαφορετικά παίρνει την παράµετρο από το διάνυσµα πατέρα x i,g. Αντίθετα, όταν χρησιµοποιείται η εκθετική διαδικασία το νέο διάνυσµα παίρνει παραµέτρους από το διάνυσµα x i,g µέχρι την πρώτη ϕορά που ϑα ισχύσει rand j [0, 1) < CR οπότε από εκείνο το σηµείο, οι υπόλοιπες παράµετροι λαµβάνονται από το διάνυσµα v i,g+1. Για να διασφαλιστεί ότι τα διανύσµατα παιδί και πατέρας διαφέρουν τουλάχιστον κατά µια παράµετρο, το διάνυσµα παιδί παίρνει πρώτα µια παράµετρο από το διάνυσµα v i,g+1. Και οι δυο παραπάνω διαδικασίες, είναι αποδοτικές και η δοκιµή τους στο κάθε πρόβληµα ϑα δείξει ποια από τις δυο είναι η καταλληλότερη για το πρόβληµα. Επειδή όµως, η διωνυµική κατανοµή έχει την ικανότητα να ψάχνει όλες τις γωνίες του υπερκύβου που σχηµατίζεται από τα διανύσµατα x i,g και v i,g+1 είναι η πρώτη υποψήφια µέθοδος για την επιλογή. Για ενδιάµεσες τιµές της σταθεράς CR, η διωνυµική µέθοδος εισάγει περισσότερες παραµέτρους στο διάνυσµα παιδί από ότι εισάγει η εκθετική µέθοδος για την ίδια τιµή της σταθεράς CR. Εποµένως, είναι αναγκαίο να δηλώνεται και η µέθοδος επανασυνδιασµού που χρησιµοποιείται για την επίλυση κάποιου προβλήµατος. Παρακάτω παρουσιάζονται οι συµβολισµοί των διαφορετικών σχηµάτων που δηλώνουν πως ακριβώς λειτουργούν οι Ε όταν χρησιµοποιηθούν σε ένα συγκεκριµένο

60 4.6 Η διαδικασία του Επανασυνδιασµού 47 πρόβληµα. Ο συµβολισµός DE/rand/1/bin δηλώνει ότι χρησιµοποιείται ένας Ε που επιλέγει τυχαία άτοµα του πληθυσµού του για να σχηµατιστεί ένα Ϲευγάρι δια- ϕοράς στην διαδικασία της µετάλλαξης ενώ για την διαδικασία του επανασυνδιασµού χρησιµοποιείται η διωνυµική µέθοδο (ϐλέπε Εξίσωση 4.2). Ο συµβολισµός DE/best/2/exp δηλώνει ότι χρησιµοποιείται η εκθετική διαδικασία για την διαδικασία του επανασυνδιασµού, ενώ στη διαδικασία µετάλλαξης συµµετέχει το καλύτερο άτοµο του πληθυσµού και χρησιµοποιούνται δύο διαφορές διανυσµάτων (ϐλέπε Εξίσωση 4.5). Σχήµα 4.6: Η στροφή των συντεταγµένων αλλάζει την τοποθεσία των υποψήφιων ατόµωνπαιδιών που δηµιουργούνται από τον διακριτό επανασυνδιασµό. Ενώ ο γραµµικός συνδιασµός των x i,g και x r3,g παραµένει αναλλοίωτος. Το σχήµα του διακριτού επανασυνδιασµού που χρησιµοποιήθηκε στις πρώτες εκδόσεις των Ε, απλά αντιγράφει τις παραµέτρους των παιδιών απευθείας από τους δωρητές τους. Για να είναι οι παράµετροι των παιδιών γενικοί γραµµικοί συνδυασµοί από παραµέτρους άλλων διανυσµάτων, χρειάζεται µια λειτουργία σαν την αριθµητική διασταύρωση. Μεγαλώνοντας την εµβέλεια της διασταύρωσης να συµπεριλαµβάνει την αριθµητική διασταύρωση, εφοδιάζεται ο επανασυνδιασµός µε την ικανότητα να εξερευνήσει το χώρο ανάµεσα και πέρα τις γωνίες του υπερκύβου στον οποίο πε- ϱιορίζεται µια αναζήτηση οδηγηµένη από τον διακριτό επανασυνδιασµό. Ακόµα, η αριθµητική διασταύρωση επιτρέπει τους Ε να ψάξουν κατά µήκος των αξόνων που ορίζονται από τα Ϲευγάρια των ατόµων που αποκλείονται από την εξίσωση µετάλλαξης. Ο διακριτός επανασυνδιασµός των παραµέτρων δυο διανυσµάτων παράγει διανύσµατα παιδιά που ϐρίσκονται στις γωνίες ενός D-διάστατου υπερκύβου. Στην περίπτωση α) του Σχήµατος 4.6 παρουσιάζεται ένα διδιάστατο παράδειγµα στο οποίο ο υπερκύβος είναι ένα τετράγωνο που ορίζεται από τα διανύσµατα x i,g και x r3,g. Οι δυο γωνίες του τετραγώνου που αποµένουν είναι τα υποψήφια διανύσµατα παιδιά, κάθενα από τα οποία κληρονοµεί µια συντεταγµένη από καθένα από τα διανύσµατα που ορίζουν το τετράγωνο. Η περιστροφή, όµως, µετασχηµατίζει τις συντεταγµένες και των δυο διανυσµάτων και έτσι αλλάζει το προβαλλόµενο σχήµα του υπερκύβου, όπως ϕαίνεται στην ϐ) περίπτωση του Σχήµατος 4.6. Οι δυο µόνο γωνίες του υπερκύβου που παραµένουν αµετάβλητες κατά τη διάρκεια της περιστροφής είναι αυτές

61 48 ιαφοροεξελικτικοί Αλγόριθµοι που τις κατέχουν τα διανύσµατα που ορίζουν τον υπερκύβο. Η τοποθεσία όλων των άλλων γωνιών εξαρτάται από την κατεύθυνση του συστήµατος συντεταγµένων. Σχήµα 4.7: Γραφική αναπαράσταση του τελεστή µετάλλαξης DE/current to rand/1. Ο διακριτός επανασυνδιασµός δεν είναι µια διαδικασία που δεν επηρεάζεται από την περιστροφή επειδή διαφορετικές παράµετροι µπορούν να κληρονοµηθούν από διαφορετικά διανύσµατα. Για να µπορέσει ένα διάνυσµα παιδί να είναι αµετάβλητο κατά την περιστροφή ϑα πρέπει όλες οι παράµετροι του να προέρχονται από το ίδιο σηµείο του χώρου των ατόµων διανυσµάτων. Στον αλγόριθµο DE/rand/1/bin αυτό µπορεί να γίνει όταν CR = 1. Αυτός ο περιορισµός ϑα µπορούσε να ξεπεραστεί µε τη αντικατάσταση της χρήσης του διακριτού επανασυνδιασµού µε τη χρήση της αριθ- µητικής διασταύρωσης. Ο αλγόριθµος που προκύπτει DE/current to rand/1, παράγει διανύσµατα που είναι αµετάβλητα κατά τις περιστροφές και είναι γραµµικοί συνδυασµοί του τρέχοντος διανύσµατος x j,i,g και ενός τυχαίου διανύσµατος δωρητή x j,r3,g. Η απλή περιγραφή των όσων αναφέρθηκαν δίνεται από την παρακάτω εξίσωση και από το Σχήµα 4.6. r 1, r 2, r 3 {1, 2,..., NP }, επιλεγµένα τυχαία µε τον περιορισµό r 1 r 2 r 3 i u i,g+1 = x i,g + K ( x r3,g x i,g ) + F ( x r1,g x r2,g) Οπου K σταθερά η οποία είναι και αυτή µια αποτελεσµατική µεταβλητή ελέγχου της διαδικασίας ϐελτιστοποίησης και παίρνει τιµές στο διάστηµα [0, 1].

62 Κ Ε Φ Α Λ Α Ι Ο 5 Παράλληλοι Εξελικτικοί Αλγόριθµοι 5.1 Παράλληλοι Εξελικτικοί Αλγόριθµοι Οι εξελικτικοί αλγόριθµοι (ΕΑ) είναι µέθοδοι ϐελτιστοποίησης που τα χαρακτηριστικά και η δοµή τους εµπνέονται από την ϕύση. Οµοίως, οι παράλληλες και κατανεµηµένες υλοποιήσεις τους εµπνέονται από το σχηµατισµό κατάλληλων ϑέσεων niches. Ο σχηµατισµός αυτών των κατάλληλων ϑέσεων είναι ένα κοινό ϐιολογικό ϕαινόµενο [9]. Οι κατάλληλες ϑέσεις ϑα µπορούσαν να ϐοηθήσουν στη διαφοροποίηση των ειδών µε την επιβολή κάποιων περιορισµών αναπαραγωγής. Πολλά ϕυσικά περιβάλλοντα µπορούν να οδηγήσουν στο σχηµατισµό κατάλληλων ϑέσεων. Παραδείγµατος χάριν, τα µακρινά νησιά, τα ψηλά ϐουνά και οι αποµονωµένες κοιλάδες, περιορίζουν τα είδη προς αναπαραγωγή και εποµένως την διαδικασία εξέλιξης τους. Αν και η ποικιλοµορφία τους τείνει να είναι χαµηλή σε κάθε υποσύνολο πληθυσµού (υποπληθυσµό), η γενική ποικιλοµορφία των πληθυσµών διατηρείται µέσω της αποµόνωσης τους. Εντούτοις, περιστασιακά ένα άτοµο µπορεί να δραπετεύσει και να ϕθάσει σε κοντινές κατάλληλες ϑέσεις, αυξάνοντας την ποικιλοµορφία των πληθυσµών τους [9]. Η εκτέλεση της ϐασικής διαδικασίας αναπαραγωγής ενός ΕΑ σε µη-τετριµµένα προβλήµατα, χρησιµοποιώντας είτε έναν µεγάλο αριθµό ατόµων είτε µεγάλους πλη- ϑυσµούς, απαιτεί την κατανάλωση πολλών υπολογιστικών πόρων. Πράγµατι, αν και πολλές οικογένειες ΕΑ, όπως οι ΓΑ ή οι ΕΣ, χρησιµοποιούν είτε δυαδικές είτε πραγ- µατικές τιµές, υπάρχουν οικογένειες ΕΑ, όπως ο ΓΠ ή ο ΕΠ, που χρησιµοποιούν ως άτοµα, περίπλοκες εσωτερικές δοµές δεδοµένων (όπως δέντρα), για την καλύτερη και πιο ευφυή αναπαράσταση της ϕύσης του προβλήµατος. Γενικά, ο υπολογισµός της ικανότητας των ατόµων του πληθυσµού µε σκοπό την αξιολόγηση τους ως πιθανά καλές λύσεις, είναι συχνά η πιο δαπανηρή λειτουργία, ως προς το υπολογιστικό κόστος. Συνεπώς, πρέπει να µελετηθεί µία πληθώρα αλγοριθµικών Ϲητηµάτων για να σχεδιαστεί ένας αποδοτικός ΕΑ. Αυτά τα Ϲητήµατα συνήθως αποτελούνται από τον καθορισµό νέων τελεστών, υβριδικών αλγορίθµων και παράλληλων µοντέλων. Στην συνέχεια ϑα ασχοληθούµε µε την δηµιουργία και την χρησιµοποίηση παράλληλων µοντέλων για ΕΑ. Σε αυτόν τον τοµέα, υπάρχει ένας µεγάλος αριθµός υλοποιήσεων και αλγορίθµων, αν και δεν αφιερωθεί µεγάλη προσπάθεια στον αλγοριθµικό σχεδιασµό τους. Οι πρώτες προσπάθειες ξεκίνησαν από το ευρωπαϊκό πρόγραµµα PARAGENA [116], ενώ στην εργασία [6] µπορεί να ϐρεθεί από καθαρά προγραµµατιστικής πλευράς µία υλοποίηση των ΠΕΑ. Αλλά η αποδοτικότητα και ο σχεδιασµός δεν είναι τα µόνα σηµαντικά Ϲητήµατα στους ΠΕΑ [48]. Καταρχήν, οι ΕΑ είναι από την ϕύση τους παραλληλίσηµοι, δεδο- µένου ότι οι περισσότερες διαδικασίες παραλλαγής (τελεστές παραλλαγής) µπορούν

63 50 Παράλληλοι Εξελικτικοί Αλγόριθµοι εύκολα να υλοποιηθούν παράλληλα. Ετσι, η χρησιµοποίηση ενός ΠΕΑ οδηγεί συχνά όχι µόνο σε έναν γρηγορότερο αλγόριθµο, αλλά και σε µια αριθµητικά ανώτερη απόδοση. Εντούτοις, µία αληθινά ενδιαφέρουσα παρατήρηση είναι ότι η χρήση ε- νός δοµηµένου πληθυσµού, δηλαδή µιας χωρικής κατανοµής των ατόµων, είτε υπό µορφή συνόλου νησιών [121] είτε σε ένα πλέγµα [74,86], µπορεί να είναι υπεύθυνη για τέτοιου είδους χαρακτηριστικά και αποδόσεις. Κατά συνέπεια, πολλοί ερευνητές δεν χρησιµοποιούν καθόλου παράλληλες µηχανές για να τρέξουν µοντέλα µε δοµη- µένους πληθυσµούς και ακόµα παίρνουν καλύτερα αποτελέσµατα σε σχέση µε τους σειριακούς κλασικούς ΕΑ [39]. Στις κλασσικές εργασίες µε ΠΕΑ (π.χ. σε PGAs [17]), ϑεωρήτε ότι τα µοντέλα εκτελούνται κατευθείαν σε παράλληλο υλικό, κατά συνέπεια δεν κάνουν κανένα διαχωρισµό µεταξύ του µοντέλου και της υλοποίησης του. Εντούτοις, µόλις σχεδιαστεί ένα µοντέλο δοµηµένου πληθυσµού, µπορεί να εφαρµοστεί σε οποιονδήποτε επεξεργαστική ή οποιαδήποτε παράλληλη µηχανή. Η ιδέα της διαφοροποίησης του µοντέλου από την υλοποίησης του δηµιουργεί πολλά ερωτήµατα. Κατ αρχάς, ο- ποιοσδήποτε ΕΑ µπορεί εκτελεστεί παράλληλα, αν και δεν είναι πάντα εφικτή η υψηλή αποδοτικότητα του [11]. εύτερον, αναλύοντας τους ΠΕΑ δίνετε η ανάγκη να χρησιµοποιηθεί για δοκιµές ένα σύνολο από πολύπλοκα και ετερογενής προβληµάτων [129]. Τρίτον, πρέπει να δοθεί ιδιαίτερη προσοχή στην επιλογή και την ϕύση των προβληµάτων προς εξέταση. Τέλος, τίθενται κάποια ανοιχτά ερωτήµατα σχετικά µε την ϕυσική, την αριθµητική και την παράλληλη εκτέλεση των µοντέλων. Ακό- µα, πρέπει να παρατηρήσουµε ότι υπάρχουν κάποιες πρόσθετες παράµετροι στους ΠΕΑ οι οποίες καθορίζουν την καλύτερη αναζήτηση, και κατά συνέπεια, χρειάζεται περαιτέρω έρευνα για την κατανόηση της σηµασίας τους. Υπάρχουν αρκετές εργασίες για αναφορά σχετικά µε τους ΠΕΑ και την πορεία τους στον χρόνο [1, 4, 5, 14, 17]. Ακόµα, υπάρχουν πολλές παράλληλες και κατανε- µηµένες υλοποιήσεις Εξελικτικών αλγορίθµων, που ϐασίζονται στον ϐιολογικό σχη- µατισµό των κατάλληλων ϑέσεων [4, 14, 15, 41, 46, 114]. Οι ποιο γνωστές κατηγορίες είναι [4, 14, 114]: Ενός πληθυσµού master slave αλγόριθµοι Ενός πληθυσµού fine grained αλγόριθµοι Πολλών πληθυσµών coarse grained αλγόριθµοι Ιεραρχικοί παράλληλοι αλγόριθµοι (υβριδικές προσεγγίσεις) Στην ϐιβλιογραφία των Παράλληλων Εξελικτικών Αλγόριθµοι (ΠΕΑ), Η κατηγορία του Ενός πληθυσµού fine grained αλγόριθµοι ονοµάζεται επίσης και κυψελοειδές ΕΑ (κυψεα) (cellular EAs (ceas), ενώ η κατηγορία Πολλών πληθυσµών coarsegrained αλγόριθµοι είναι γνωστή σαν µοντέλο νησιών (ΜΝ) ή κατανεµηµένοι ΕΑ (κεα) (distributed EAs(dEAs))(ϐλέπε Σχήµα 5.1). Αυτές οι δύο προσεγγίσεις είναι οι δηµοφιλέστερες µεταξύ των ερευνητών που ασχολούνται µε ΠΕΑ και ϕαίνονται να παρέχουν µια καλύτερη δειγµατοληψία στο διαστήµα αναζήτησης του εξεταζόµενου προβλήµατος. Επιπλέον, ϐελτιώνουν την αριθµητική ποιότητα των λύσεων καθώς και επιταχύνουν τον χρόνο εκτέλεσης του ϐασικού σειριακού αλγορίθµου [4, 9, 14, 114]. Σε µία master slave εφαρµογή υπάρχει ένας ενιαίος πληθυσµός (η διαδικασία της επιλογής πραγµατοποιείται συνολικά στον πληθυσµό και οποιοδήποτε άτοµο µπορεί ενδεχοµένως να Ϲευγαρώσει µε οποιοδήποτε άλλο), αλλά η αξιολόγηση της

64 5.1 Παράλληλοι Εξελικτικοί Αλγόριθµοι 51 Σχήµα 5.1: ιάφορα µοντέλα των ΠΕΑ : (a) master slave υλοποίηση ενός ενιαίου πληθυσµού, (b) Μοντέλο νησιών, πολλών πληθυσµών coarse grained αλγόριθµοι, (c) κυψελοειδής ΕΑ, (d,e,f) υβριδικές µορφές ΠΕΑ συνδυάζοντας τις προηγούµενες τρείς κατηγορίες. ικανότητας του κάθε ατόµου πραγµατοποιείτε παράλληλα ανάµεσα σε πολλούς επεξεργαστές. Αυτή η προσέγγιση δεν έχει επιπτώσεις στη συµπεριφορά του ΕΑ, καθώς η εκτέλεση είναι ίδια µε ϐασικό σειριακό ΕΑ. Σύµφωνα µε το µοντέλο των κυψελοειδών ΕΑ κάθε άτοµο ανατίθεται σε έναν ε- πεξεργαστή και η διαδικασία της επιλογής και της αναπαραγωγής περιορίζονται σε µια µικρή τοπική γειτονιά. Η επικάλυψη της γειτονιάς επιτρέπει κάποια αλληλεπίδραση µεταξύ όλων των ατόµων και επιτρέπει µια οµαλή διάχυση των καλών λύσεων σε ολόκληρο τον πληθυσµό. Πρέπει να σηµειώσουµε ότι κάποιος ϑα µπορούσε να χρησιµοποιήσει µια παράλληλη πολυεπεξεργαστική µηχανή για να τρέξει κυψεα και κεα και να πάρει ακόµα καλύτερα αποτελέσµατα απ ο,τι µε ένα σειριακό ενιαίου πληθυσµού ΕΑ. Η κύρια διαφορά µεταξύ κυψεα και κεα είναι ο διαχωρισµός των ατόµων σε ξεχωριστούς υποπληθυσµούς (νησιά). Σε ϐιολογικούς όρους, οι κεα αντιστοιχούν σε ξεχωριστούς ηµι-αποµονωµένους πληθυσµούς στους οποίους η εξέλιξη πραγµατοποιείται ανεξάρτητα. Οι κεα είναι πιο εξελιγµένοι δεδοµένου ότι περιστασιακά ανταλλάσσουν άτοµα µεταξύ των υποπληθυσµών τους, αξιοποιώντας τον τελεστή µετανάστευσης. Ο τελεστής µετανάστευσης καθορίζει την τοπολογία, το ποσοστό µετανάστευσης, το διάστηµα µετανάστευσης, και τη µεταναστευτική πολιτική [14, 15, 111, 112]. Την τοπολογία µετανάστευσης καθορίζουν οι διασυνδέσεις µεταξύ των νησιών. Το ποσοστό µετανάστευσης είναι ο αριθµός ατόµων που ανταλλάσσεται κατά τη διάρκεια της µετανάστευσης. Το διάστηµα µετανάστευσης είναι ο αριθµός των γενεών µεταξύ δύο διαδοχικών µεταναστεύσεων, ενώ η µεταναστευτική πολιτική καθορίζει ποια άτοµα ϑα µεταναστεύσουν καθώς και τον τρόπο ενσωµάτωσης τους στον υποψήφιο προς µετανάστευση υποπληθυσµό. Το ποσοστό µετανάστευσης και το διάστηµα µετανάστευσης είναι οι δύο πιο σηµαντικές παράµετροι, διότι ελέγχουν τις ποσοτικές πτυχές του τελεστή µετανάστευσης [4, 14]. Στην περίπτωση όπου το γενετικό υλικό, καθώς επίσης και οι τελεστές επιλογής και αναπαραγωγής (recombination), είναι οι ίδιοι για όλα τα άτοµα και για όλους τους υποπληθυσµούς ενός κεα, τότε τον καλούµε οµοιόµορφο κεα αλγόριθµο. Αφ ετέρου, όταν διαφορετικοί υποπληθυσµοί εξελίσσονται µε διαφορετικές παραµέτρους και/ή µε διαφορετικές αναπαραστάσεις των ατόµων τους, τότε ο αλγόριθµος που προκύπτει καλείται ανοµοιόµορφος κε- Α [3,120]. Από αυτό το σηµείο και για την υπόλοιπη εργασία ϑα ασχοληθούµε µόνο µε τους οµοιόµορφους κεα αλγόριθµους. Οι ιεραρχικοί παράλληλοι αλγόριθµοι συνδυάζουν τουλάχιστον δύο διαφορετικές µεθόδους παραλληλισµού ΕΑ για να σχηµατίσουν έναν υβριδικό αλγόριθµο.

65 52 Παράλληλοι Εξελικτικοί Αλγόριθµοι Στο πιο υψηλό επίπεδο υπάρχει ένας πολυ-πληθυσµιακός ΕΑ αλγόριθµος, ενώ στα χαµηλότερα επίπεδα µπορεί να χρησιµοποιηθεί ένα οποιοδήποτε είδος παράλληλης υλοποίησης ΕΑ. Συµπερασµατικά, η χρήση µίας είτε παράλληλης είτε κατανεµηµένης υλοποίησης ενός ΕΑ έχει πολλά πλεονεκτήµατα [3], όπως: 1. την εύρεση εναλλακτικών λύσεων του ίδιου προβλήµατος 2. την παράλληλη αναζήτηση από πολλά διαφορετικά σηµεία στον χώρο 3. την εύκολη διαδικασία παραλληλισµού 4. την αποδοτικότερη αναζήτηση, ακόµα και χωρίς την ύπαρξη παράλληλου υλικού 5. την υψηλότερη αποδοτικότητα από τους σειριακούς ΕΑ 6. την επιτάχυνση της διαδικασίας λόγω της χρήσης πολλαπλών µονάδων επεξεργασίας (CPU). Για την εύρεση περισσότερων πληροφοριών σχετικά µε παράλληλες υλοποιήσεις εξελικτικών αλγορίθµων (ΠΕΑ), λογισµικό και την πρόοδο της ϑεωρίας, ο αναγνώστης µπορεί να αναφερθεί στις ακόλουθες εργασίες [3, 5, 14] και τα ακόλουθα ϐιβλία [15, 84,134]. Παρακάτω ακολουθεί µία µικρή ιστορική αναδροµή µε αναφορές στις πιο σηµαντικές εργασίες για τους ΠΕΑ. Στην συνέχεια παρουσιάζονται αναλυτικά τα µοντέλα νησιών τα χαρακτηριστικά και οι ιδιότητές τους. Ακολουθεί µία σύντοµη αναφορά στα διαθέσιµα εργαλεία για την υλοποίηση των ΠΕΑ καθώς και µία µικρή περιγρα- ϕή του προτύπου MPI το οποίο και χρησιµοποιείται για τις παράλληλες υλοποιήσεις αυτής της εργασίας. Στην επόµενη παράγραφο περιγράφεται ο σωστός τρόπος µέτρησης της αποδοτικότητας και της επιτάχυνσης των ΠΕΑ. Τέλος, παρουσιάζεται η κατανεµηµένη εκδοχή των ιαφοροεξελικτικών Αλγορίθµων για την εκπαίδευση των ΠΣΤΝ η οποία και χρησιµοποιείται στα πειράµατα αυτής της εργασίας. 5.2 Ιστορικά στοιχεία για την πορεία των ΠΕΑ Η παράλληλη και κατανεµηµένη ϕύση των ΕΑ δεν µπορούσε να ξεφύγει από την προσοχή των πρώτων ερευνητών του χώρου. Ο Holland [55] έκανε κάποια ϐήµατα προς τον καθορισµό µίας παράλληλης υπολογιστικής αρχιτεκτονικής µε στόχο την καλύτερη χρησιµοποίηση της σε µελλοντικά σχέδια. Στην πραγµατικότητα, οι πρώτες ιδέες για τη χρησιµοποίηση πολλαπλών ανταγωνιστικών υποπληθυσµών µπορούν να ϐρεθούν στην εργασία του Bossert [12] ο οποίος πρότεινε αυτή την διαδικασία µε άµεσο στόχο να ϐελτιώσει την ποικιλοµορφία των υποπληθυσµών και την απο- ϕυγή υποπληθυσµών σε στάσιµη κατάσταση. Παρόλο, που οι κύριες ιδέες είχαν κατανοηθεί από την επιστηµονική κοινότητα, η τεχνολογία των παράλληλων και κατανεµηµένων υπολογιστικών συστηµάτων ήταν σε αρχικό στάδιο στην δεκαετία του Εποµένως, ήταν δύσκολο να δηµιουργηθούν πρακτικές εφαρµογές και να γίνουν οι απαραίτητες προσοµοιώσεις. Ο τοµέας έπρεπε να περιµένει µέχρι τις αρχές της δεκαετίας του 80 όπου άρχισαν να εµφανίζονται κατάλληλες παράλληλες υπολογιστικές µηχανές και να παρουσιάζονται οι πρώτες πρακτικές εφαρµογές και

66 5.3 Μοντέλα νησιών 53 προσοµοιώσεις. Ο Grefenstette [43] ήταν ο πρώτος που εξέτασε το 1981 µία πληθώρα Ϲητηµάτων πάνω σε παράλληλες υλοποιήσεις γενετικών αλγορίθµων. Ο Grosso [44] έκανε µία άλλη προσπάθεια εισάγοντας τον παραλληλισµό χρησιµοποιώντας µοντέλα πληθυσµών µε χωρικές διατάξεις. Τον Grosso ακολούθησαν σχεδόν παράλληλα κάποιες µελέτες από τους Cohoon, Tanese, Pettey και Leuze, Gorges Schleuter και Mühlenbein, και Manderick και Spiessens. Οι Tanese [120] και Cohoon [18] ε- ϕάρµοσαν την πρωτοπόρα (για την εποχή τους) τεχνική, να ϐάλουν υποπληθυσµούς στους κόµβους µίας παράλληλης αρχιτεκτονικής σε σχήµα υπερ-κύβου. Ο Rudolph [101], το 1991, εφάρµοσε µία από τα πρώτα κατανεµηµένα µοντέλα σε ΕΣ, ενώ ο Duncan [22] ήταν ένας από τους κύριους σταθµούς στον τοµέα µε την εφαρµογή παράλληλων υλοποιήσεων σε ΕΠ. Τέλος, αξιοαναφερθέντες είναι και οι Pettey και Leuze [92], διότι ήταν οι πρώτοι που προσπάθησαν να αναλύσουν τα µοντέλα πολλών πληθυσµών σε ΓΑ, και την δυναµική τους ϑεωρητικά. Ολες αυτές οι µελέτες αναφέρονται σε µοντέλα που ονοµάζονται ως coarse grain µοντέλα ή µοντέλα νησιών. Άλλο ένα σχετικό µοντέλο µε χωρικά χαρακτηριστικά παρουσιάστηκε στην εργασία [40] από τους Gorges και Schleuter. Τέτοιου είδους µοντέλα καλούνται είτε κυψελοειδή, είτε fine grained µοντέλα, και είναι ϐασισµένα στην χωρική κατανοµή των πληθυσµών στην οποία όλες οι γενετικές λειτουργίες και αλληλεπιδράσεις πραγµατοποιούνται µόνο σε µικρές γειτονιές γύρο από τα άτοµα. Ακόµα µία εργασία σε αυτά τα µοντέλα µπορεί να ϐρεθεί από τους Manderick και Spiessen στην εργασία [74]. 5.3 Μοντέλα νησιών Τα µοντέλα νησιών (Βλέπε Σχήµα 5.2) αποτελούνται από έναν αριθµό ανεξάρτητων νησιών, όπου το καθένα εκτελεί ταυτόχρονα διάφορους ΕΑ και έχει την ιδιότητα να µπορεί να ανταλλάξει γενετικό υλικό µε κάποιο από τα άλλο νησιά έτσι ώστε να υπολογιστούν καλύτερες ποιοτικά και ποιό σταθερές λύσεις. Ενας από τους στόχους αυτού του µοντέλου είναι να καθυστερήσει την ολική σύγκλιση, ειδικά όταν υπάρχουν ετερογενής ΕΑ µε διαφορετικούς τελεστές αναπαραγωγής, ή όταν υπάρχουν διαφορετικές αρχιτεκτονικές µηχανηµάτων στα οποία εκτελούνται. Οι ΕΑ των νησιών µπορούν να είναι είτε ετερογενείς είτε οµοιογενείς, ανάλογα µε το εάν οι τελεστές αναπαραγωγής είναι ίδιοι ή όχι. Παρακάτω, τον όρο νησί ϑα τον χρησιµοποιούµε ως έναν γενικό όρο, που µπορεί να υποδηλώνει είτε τον συσχετιζόµενο µε αυτόν ΕΑ, είτε τον πληθυσµό του, είτε το µηχάνηµα στο οποίο εκτελείτε.. Η ανταλλαγή του γενετικού υλικού µεταξύ των ΕΑ καλείται διαδικασία µετανάστευσης, και µπορεί να είναι είτε σύγχρονη είτε ασύγχρονη. Η µετανάστευση πραγµατοποιείται στο τέλος κάθε γενεάς µετά από τη ϕάση αναπαραγωγής. Η διαδικασία µετανάστευσης ϐασίζεται σε µια πολιτική η οποία ορίζεται σύµφωνα µε τις ακόλουθες παραµέτρους: το κριτήριο απόφασης µετανάστευσης, η τοπολογία µετανάστευσης, ο αριθµός µεταναστών, η πολιτική επιλογής των µεταναστών,

67 54 Παράλληλοι Εξελικτικοί Αλγόριθµοι Σχήµα 5.2: Μοντέλα νησιών και η πολιτική αντικατάστασης/ενσωµάτωσης. Ο σχεδιασµός αυτού του µοντέλου είναι γενικός και ϑα µπορούσε ολοκληρωτικά να υλοποιηθεί µέσα σε µια πλατφόρµα λογισµικού για τον σχεδιασµό παράλληλων ΕΑ. Ο χρήστης µιας τέτοιας πλατφόρµας χρειάζεται να δηλώσει µόνο τις απαραίτητες τιµές των διαφορετικών παραµέτρων του µοντέλου. Κριτήριο απόφασης µετανάστευσης: Η µετανάστευση των ατόµων µεταξύ των νησιών µπορεί να αποφασιστεί είτε µε έναν τυφλό (περιοδικό ή πιθανοτικό) τρόπο είτε σύµφωνα µε ένα ευφυές κριτήριο. Η περιοδική µετανάστευση εµφανίζεται σε κάθε νησί µετά από έναν σταθερό αριθµό γενεών (συχνότητα µετανάστευσης). Η πιθανοτική µετανάστευση συνίσταται στην εκτέλεση µιας µετανάστευσης σε κάθε γενεά µε µία πιθανότητα την οποία µπορεί να ορίσει ο χρήστης. Αντιθέτως, µε την χρησιµοποίηση ενός ευφυϊούς κριτηρίου µεταναστεύσεις υπάρχει µία καθοδήγηση για την ϐελτίωση της ποιότητας του αντίστοιχου πληθυσµού. Σε αυτή την περίπτωση πρέπει να παρασχεθεί ένα κατώτατο όριο ϐελτίωσης, και εάν η ϐελτίωση µεταξύ δύο διαδοχικών γενεών είναι κατωτέρη από το όριο τότε πραγµατοποιείται η διαδικασία της µετανάστευσης, διαφορετικά όχι. Ο ορισµός ή η επιλογή των διαφορετικών παραµέτρων που συσχετίζονται µε το τυφλό ή ευφυές κριτήριο απόφασης για µετανάστευση (συχνότητα/πιθανότητα µετανάστευσης και το κατώτατο όριο ϐελτίωσης) είναι ιδιαίτερα κρίσιµη σε ένα υπολογιστικό πλέγµα grid. Αυτό ισχύει, λόγω της ετε- ϱογενής ϕύσης του υπολογιστικού πλέγµατος και γιάυτό οι παράµετροι πρέπει να προσδιοριστούν σε κάθε νησί ανάλογα µε τις δυνατότητες του υπολογιστικού συστήµατος που ϕιλοξενεί το τρέχων νησί. Τοπολογία µετανάστευσης: Η τοπολογία µετανάστευσης υποδεικνύει τον γείτονα/ες κάθε νησιού σχετικά µε την µετανάστευση των ατόµων του, δηλαδή είτε το νησί ως στόχος για µετανάστευση είτε το νησί ως πηγή από την οποία πρόκειται να µεταναστεύσει ένα άτοµο. Υπάρχει µία πληθώρα εργασιών [11, 18, 115] οι οποίες µελετούν τον αντίκτυπο της τοπολογίας των νησιών ως προς την ποιότητα των αποτελεσµάτων που προσφέρουν οι διαφορετικές τοπολογίες. Οι περισσότερες από αυτές καταλήγουν στο συµπέρασµα ότι οι

68 5.3 Μοντέλα νησιών 55 κυκλικές τοπολογίες παράγουν καλύτερα αποτελέσµατα. Συνήθως χρησιµοποιούνται τοπολογίες είτε σε σχήµα δακτυλιδιού (κυκλικές) είτε σε σχήµα υπερκύβου. Σε ένα πραγµατικό υπολογιστικό πλέγµα (computational grid) είναι αρκετά δύσκολο να διατηρηθούν αποδοτικά τέτοιες τοπολογίες, λόγω της πιθανής εξαφάνισης κάποιου υπολογιστικού κόµβου, και έτσι χρειάζεται να γίνει µία δυναµική επανασυγκρότηση της τοπολογίας. Αυτές οι επανασυγκρότησεις είναι δαπανηρές και κάνουν την διαδικασία µετανάστευσης µη αποδοτική. Στις εργασίες [11, 76], έχουν µελετηθεί συνεργασίες ΕΑ χωρίς να υπάρχει κάποια συγκεκριµένη τοπολογία, δηλαδή το νησί για τα άτοµα που ϑα µεταναστεύσουν επιλέγετε τυχαία. Τα πειραµατικά αποτελέσµατα δείχνουν ότι τέτοιου είδους τοπολογίες επιτρέπουν σηµαντικές ϐελτιώσεις στην σταθερότητα της υλοποίησης και στην ποιότητα των λύσεων. Ετσι η τυχαία τοπολογία είναι προτεινόµενη σε υπολογιστικά πλέγµατα. Αριθµός µεταναστών: Ο αριθµός µεταναστών µπορεί να εκφραστεί είτε ως µία σταθερά είτε ως ένας µεταβλητός αριθµός ατόµων, είτε ως κάποιο ποσοστό των ατόµων από τον τρέχων πληθυσµό. Η επιλογή της τιµής αυτής της παραµέτρου είναι αρκετά κρίσιµη, διότι εάν είναι πολύ χαµηλή η διαδικασία µετανάστευσης ϑα είναι λιγότερο αποδοτική δεδοµένου ότι τα νησιά ϑα έχουν την τάση να εξελιχθούν ανεξάρτητα από τους γείτονές τους. Αντιθέτως, εάν ο αριθµός των µεταναστών είναι υψηλός το κόστος επικοινωνίας ϑα είναι υπερβολικό ιδιαίτερα σε ένα υπολογιστικό πλέγµα, και Οι ΕΑ πιθανώς να συγκλίνουν στις ίδιες λύσεις. Πολιτική επιλογής µεταναστών: Η πολιτική επιλογής µεταναστών δείχνει για κάθε νησί τα άτοµα που µεταναστεύονται, είτε µε έναν ελιτιστικό είτε µε έναν πιθανοτικό τρόπο. Η πιθανοτική ή τυχαία πολιτική δεν εγγυάται ότι τα καλύτερα άτοµα ϑα επιλεχτούν, αλλά το σχετικό υπολογιστικό κόστος της είναι χαµηλότερο από της ελιτιστικής πολιτικής. Αντιθέτως, η ελιτιστική στρατηγική (µέθοδος ϱουλέτας, µέθοδος τάξης, µέθοδος συναγωνισµού ή οµοιόµορφης δειγµατοληψία) επιτρέπει την επιλογή των καλύτερων ατόµων. Πολιτική αντικατάστασης/ενσωµάτωσης: Συµµετρικά µε την πολιτική ε- πιλογής µεταναστών, η πολιτική αντικατάστασης/ενσωµάτωσης των µεταναστών δείχνει µε έναν τυχαίο ή ελιτιστικό τρόπο πως τα άτοµα στον τοπικό πλη- ϑυσµό ϑα αντικατασταθούν µε αυτά που έρχονται από την διαδικασία µετανάστευσης. Υπάρχουν αρκετές διαφορετικές στρατηγικές, παραδείγµατος χάριν, τα νεοφερµένα άτοµα αντικαθιστούν άτοµα που επιλέγονται τυχαία από τον τοπικό πληθυσµό. Μια άλλη στρατηγική είναι να ταξινοµηθούν τα άτοµα του τοπικού πληθυσµού και τα νεοφερµένα να αντικαταστήσουν τα χειρότερα σε κατάταξη άτοµα. Η υλοποίηση του µοντέλου των νησιών µπορεί να πραγµατοποιηθεί µε έναν είτε ασύγχρονο είτε σύγχρονο τρόπο. Ο ασύγχρονος τρόπος συνδέει κάθε ΕΑ µε ένα κριτήριο απόφασης για µετανάστευση που ελέγχεται στο τέλος κάθε γενεάς. Εάν το κριτήριο ικανοποιείται ο ΕΑ καλείται να στείλει τα άτοµα που ϑέλει για µετανάστευση. Η αποδοχή των ατόµων που έχουν µεταναστευτεί γίνεται από τον υπολογιστή στόχο µε µία ακαθόριστη καθυστέρηση. Η λήψη και ενσωµάτωση στον υποπληθυσµό ϑα πραγµατοποιηθεί στις επόµενες επαναλήψεις. Παρόλα αυτά, όταν έχουµε είτε

69 56 Παράλληλοι Εξελικτικοί Αλγόριθµοι ετερογενές υλικό και λογισµικό στους υπολογιστικούς κόµβους, είτε καθυστερήσεις στις επικοινωνίες, είτε κάποια περίεργη τοπολογία (πλέγµα), τότε κάθε νησί µπορεί να ϐρίσκεται σε διαφορετικό στάδιο εξέλιξης οδηγώντας το µοντέλο σε καταστάσεις µη-αποτελεσµατικότητας ή/και υπερβολικά γρήγορης σύγκλισης. Πιο συγκεκριµένα, η άφιξη µη καλών ατόµων σε ένα πληθυσµό που ϐρίσκεται σε ένα προχωρηµένο στάδιο εξέλιξης, δεν ϑα συνεισφέρει στην εξέλιξη του αλγορίθµου και πολύ πιθανόν στην επόµενη γενεά να ϕύγει από τον πληθυσµό, έτσι δεν ϑα υπάρχει αποτελεσµατικότητα στο µοντέλο. Αντιθέτως, όταν έχουν µεταναστεύσει πολλές καλές λύσεις σε ένα νησί τότε αυτό ϑα συγκλίνει πολύ γρήγορα σε µία λύση που πιθανόν να µην είναι ϐέλτιστη. Από µία άλλη άποψη, δεδοµένου ότι το µοντέλο είναι από την ϕύση του ασύγχρονο έτσι οι µεταναστεύσεις µπορούν να πραγµατοποιηθούν χωρίς να σταµατάει ο αλγόριθµος σε αυτό το σηµείο (non blocking message passing), είναι αρκετά δεκτικό στα σφάλµατα (fault tolerant), µπορεί να λειτουργήσεις αρκετά αποδοτικά έστω και αν χαθεί κάποιο µέρος τον µηνυµάτων που µεταναστεύονται [4,9,84]. Στο σύγχρονο τρόπο, ο ΕΑ εκτελεί µια λειτουργία συγχρονισµού στο τέλος κάθε επανάληψης µε την ανταλλαγή µερικών από τα άτοµα του. Σε ένα υπολογιστικό πλέγµα, µία τέτοια λειτουργία εγγυάται ότι ο ΕΑ είναι στο ίδιο στάδιο εξέλιξης, και αποτρέπει έτσι την µη αποτελεσµατικότητα του και την υπερβολικά γρήγορη σύγκληση µε την συσσώρευση πολλών καλών ατόµων σε ένα νησί. Εντούτοις, λόγω της συχνής ετερογενής ϕύσεως των µονάδων επεξεργασίας που µπορεί να λαµβάνουν µέρος σε ένα πείραµα ο σύγχρονος τρόπος είναι λιγότερο αποδοτικός στο επίπεδο του καταναλώµενου υπολογιστικού χρόνου. Πράγµατι, η διαδικασία εξέλιξης συχνά µένει στάσιµη στις πιο ισχυρές υπολογιστικές µηχανές περιµένοντας τις λιγότερο ισχυρές για να ολοκληρώσουν τον υπολογισµό τους. Αφ ενός, το σύγχρονο µοντέλο νησιών δεν είναι ανεκτικό στα σφάλµατα δεδοµένου ότι περιµένοντας ένα νησί να ϕτάσει στο σηµείο συγχρονισµού υπονοείται η παύση όλων των άλλων υπολογιστικών κόµβων του µοντέλου. Ετσι είναι κατανοητό ότι το σύγχρονο µοντέλο είναι συνολικά πιο σύνθετο και λιγότερο αποδοτικό στην εφαρµογή του σε ένα υπολογιστικό πλέγµα. Αξίζει να σηµειωθεί ότι η µνήµη του µοντέλου νησιών που απαιτείται για το µηχανισµό συγχρονισµού (checkpointing mechanism) αποτελείται από τη µνήµη του κάθε ένα από τους ΕΑ και από τα άτοµα που µεταναστεύουν. Κάποιος πρέπει να σηµειώσει ότι σε έναν ασύγχρονο τρόπο τέτοια µνήµη δεν είναι κρίσιµη δεδοµένου ότι οι ΕΑ είναι στοχαστικές διαδικασίες. 5.4 Εργαλεία για Παραλληλισµό Εξελικτικών Αλγο- ϱίθµων Σε αυτή την παράγραφο ϑα αναφέρουµε µερικά δηµοφιλή εργαλεία επικοινωνίας που µπορούν να χρησιµοποιηθούν για να υλοποιηθεί ένας ΠΕΑ. Σχεδόν ό- λες οι εργαλειοθήκες των ΠΕΑ εφαρµόζονται µε τη χρήση του µοντέλου διάδοσης- µηνυµάτων επικοινωνίας, µιας και αυτό παρέχει κέρδος από την ϕυσική δοµή των πολυ-επεξεργαστικών συστηµάτων που έχουν κατανεµηµένη µνήµη, και είναι τα πιο συνηθισµένα υπολογιστικά συστήµατα που υπάρχουν στα Πανεπιστήµια και στα ερευνητικά ινστιτούτα. Στο µοντέλο διάδοσης-µηνυµάτων (message passing), οι διεργασίες, είτε όταν ϐρίσκονται στα ίδια είτε όταν ϐρίσκονται σε διαφορετικά υπολογιστικά συστήµατα, επικοινωνούν στέλνοντας µηνύµατα ο ένας στον άλλον δια µέσου ενός επικοινωνια-

70 5.4 Εργαλεία για Παραλληλισµό Εξελικτικών Αλγορίθµων 57 κού ϕορέα, όπως ένα κλασικό τοπικό δίκτυο ή ένα ειδικής χρήσεων δίκτυο. Οι δύο πιο ϐασικές αρχές είναι οι ϱουτίνες αποστολής και λήψης δεδοµένων. Πιο συγκεκριµένα, στην απλούστερη του µορφή, η διαδικασία αποστολής καθορίζει ένα τοπικό buffer δεδοµένων ο οποίος πρόκειται να µεταδοθεί, και έναν ταυτοποιητή για την διαδικασία λήψης, που συνήθως ϐρίσκεται σε ένα µία διαφορετική διεύθυνση από αυτήν της διαδικασίας αποστολής. Η διαδικασία λήψης συνήθως καθορίζει, την διαδικασία αποστολής και έναν τοπικό buffer δεδοµένων στον οποίο ϑα αποθηκευτούν τα εισερχόµενα δεδοµένα. Τέλος, µία ολοκληρωµένη διαδικασία αποστολής/λήψης πραγµατοποιεί µία αντιγραφή από µνήµη σε µνήµη και εφαρµόζει έναν τελεστή συγχρονισµού των διεργασιών που µετέχουν στην αποστολή και λήψη. Τα πιο ϐασικά εργαλεία για την υλοποίηση παράλληλων εφαρµογών αποτελούνται από: Sockets [19], Parallel Virtual Machine (PVM) [119], Message Passing Interface (MPI) [31], Java Remote Method Invocation (Java RMI) [62], COBRA [126], Globus [32], OpenMP [16,85]. Παρακάτω, δίνεται µία µικρή περιγραφή του προτύπου MPI που χρησιµοποιήται σε αυτή την εργασία. Μολονότι υπάρχει ένας αριθµός εφαρµογών από PVM και Sockets για τους ΠΕ- Α, οι µελλοντικές τάσεις ϑα διαπραγµατεύονται µε το ιαδίκτυο ως µια δεξαµενή υπολογιστικών πόρων. Λόγο αυτού προκύπτουν πολλά προβλήµατα όταν ένας ΠΕΑ πρέπει να εφαρµοστεί σε ετερογενείς υπολογιστές ενός WAN δικτύου µε διαφορετικά λειτουργικά συστήµατα. Μερικές από τις απαιτήσεις αυτές είναι οι εξής: διαφανείς ανταλλαγές δεδοµένων στο ιαδίκτυο (χςρίς κρυπτογράφηση), εκτέλεση από απόσταση και ιχνηλάτηση (tracing), Ϲητήµατα ασφάλειας (firewalls,proxies,κλπ) που σχετίζονται µε την πρόσβαση, την επικοινωνία δεδοµένων, και την εκτέλεση των διαδικασιών, µετανάστευση διεργασιών ανάµεσα σε συστοιχίες υπολογιστών (clusters) για εφαρµογές ΠΕΑ, οι οποίες είναι πολύ χρονοβόρες (όπως σε προβλήµατα πραγ- µατικού κόσµου), αυτόµατη προσαρµογή στη δυναµική συµπεριφορά των δικτύων και των υπολογιστών που εµπλέκονται στην εκτέλεση των ΠΕΑ, ανεκτικότητα (tolerance) στα σφάλµατα.

71 58 Παράλληλοι Εξελικτικοί Αλγόριθµοι Ολες αυτές οι απαιτήσεις οδηγούν στη χρήση των Java, MPI, και ίσως µελλοντικά του Globus. Παρά τα πλεονεκτήµατα της Java όπως είναι η εκτέλεση της σε πολύπλατφόρµες, εύκολη επικοινωνία, η ταχύτητα εκτέλεσης της για επιστηµονικούς υπολογισµούς ϑα µπορούσε να είναι ένα µειονέκτηµα για κάποιες εφαρµογές µε ΠΕΑ. Μερικά συστήµατα που λαµβάνουν υπόψη τους τις παραπάνω προϋποθέσεις µπορούν να ϐρεθούν στην εργασία [4]. Πιστεύουµε ότι το MPI είναι υπό τις παρούσες συνθήκες η καλύτερη επιλογή για την εφαρµογή µεγάλης-κλίµακας και γενικού-σκοπού ΠΕΑ, λόγω των παροντικών και µελλοντικών τους πλεονεκτηµάτων. Για παράδειγµα, στην περίπτωση που το Globus κυριαρχήσει τον µετα-υπολογιστικό τοµέα, το ΜΠΙ µπορεί να συνδεθεί και να εκµεταλλευτεί άµεσα τις δυνατότητες του. Παρόλα αυτά, άσχετα µε το ϐαθµό πολυπλοκότητας του κάθε εργαλείου, ένας χρήστης ενδεχοµένως να έχει διαφορετικές ανάγκες, έτσι πολλοί χρήστες µπορούν επίσης να επωφεληθούν από τη χρήση και των άλλων τεχνολογιών που έχουν προαναφερθεί Το πρότυπο Message Passing Interface Το Message Passing Interface (MPI) είναι ένα πρότυπο που διευκολύνει την ανάπτυξη παράλληλων και κατανεµηµένων ϐιβλιοθηκών και εφαρµογών. Μία υλοποίηση αυτού του, ουσιαστικά είναι µία ϐιβλιοθήκη ϱουτίνων για διάδοση-µηνυµάτων (message passing) σε υπολογιστικές µονάδες που είναι διασυνδεδεµένες µεταξύ τους µέσο ενός δικτύου [31]. Το MPI πρώτο δηµιουργήθηκε και ορίστηκε στα µέσα της δεκαετίας του 1990 από µία µεγάλη οµάδα ανθρώπων από τον ακαδηµαϊκό, τον κυβερνητικό και τον επιχειρησιακό τοµέα (ϐλέπε MPI Forum [31]). Η διεπαφή (interface) του ενσωµατώνει την εµπειρία ανθρώπων µε προηγούµενα συστήµατα διάδοσης-µηνυµάτων όπως το PVM [119]. Καθώς ο στόχος της οµάδας ήταν να δη- µιουργήσουν µία ϐιβλιοθήκη η οποία ϑα ήταν αποδοτική για πληθώρα διαφορετικών πολυ-επεξεργαστικών συστηµάτων. Το MPI εκ των πραγµάτων, έχει γίνει πρότυπο, και υπάρχει διαθέσιµο σε ένα µεγάλο πλήθος από διαφορετικές υλοποιήσεις ανοιχτού κώδικα, όπως το MPICH, LAM/MPI, και το Open MPI. Καθένα από τα οποία είτε δίνει έµφαση σε διαφορετικές διαστάσεις των υψηλής-επίδοσης υπολογισµών (ηιγη-περφορµανςε ςοµπυτινγ), είτε σκοπεύουν να λύσουν ένα συγκεκριµένο ερευνητικό πρόβληµα, και όλες οι παραπάνω διαφορετικές ϐιβλιοθήκες είναι σύµφωνες µε το πρότυπο MPI. Σε αυτή την εργασία χρησιµοποιήθηκε η ϐιβλιοθήκη Open MPI. Η Open MPI είναι ανοιχτού κώδικα και υψηλής ποιότητας ϐιβλιοθήκη του MPI προτύπου, η οποία παρουσιάζει υψηλής τάξης επιδώσεις [33]. Οι συναρτήσεις του MPI προτύπου υποστηρίζουν επικοινωνία µεταξύ διεργασιών, οµαδική επικοινωνία, δηµιουργία και διαχείριση των οµαδικών επικοινωνιών και ά- µεση αλληλεπίδραση µε το περιβάλλον. Ακόµα, στο προσεχής µέλλον ϑα διατίθενται προς χρήση υλικό συναρτήσεων για επικοινωνίες σε µεγάλης κλίµακας δίκτυα (WAN Wide Area Networks) Οι υλοποιήσεις που χρησιµοποιούν το πρότυπο MPI, µπορούν να εφαρµοστούν και σε παράλληλα συστήµατα πολυεπεξεργασίας, αλλά και σε κατανεµηµένα συστήµατα διασυνδεδεµένα µέσο κάποιου δικτύου. Συνεπώς, το MPI πρότυπο µπορεί να ενσωµατωθεί σε όλες τις υλοποιήσεις παράλληλων εξελικτικών αλγορίθµων.

72 5.5 Μέτρηση επιτάχυνσης στους ΠΕΑ Μέτρηση επιτάχυνσης στους ΠΕΑ Υπολογίζοντας την επιτάχυνση ενός παράλληλου αλγόριθµου είναι ένας ευρέως αποδεκτός τρόπος µέτρησης της αποδοτικότητας του. Μολονότι η επιτάχυνση είναι πολύ κοινή στον τοµέα των ντετερµινιστικών παράλληλων αλγορίθµων, έχει υιοθετη- ϑεί στον τοµέα των ΠΕΑ µε διαφορετικούς τρόπους, όχι σε όλους αυτούς µε καθαρό νόηµα. Σε αυτό το τµήµα ϑα παρουσιάσουµε την επιτάχυνση, ϑα εξηγήσουµε το νόηµα της και τις ποικίλες εφαρµογές της στην µέτρηση της αποδοτικότητας ενός ΠΕΑ που µας δίνεται. Ο στόχος µας είναι να αποτιµήσουµε και να συζητήσουµε τις υπάρχουσες εργασίες που το περιεχόµενό τους σχετίζεται µε την µελέτη της επιτάχυνσης στα ΠΕΑ. Ας ξεκινήσουµε αναφερόµενοι στον κλασικό της ορισµό. Ο πολύ γνωστός ορισµός της επιτάχυνσης (ϐλ. [2]) σχετίζει τη (χειρότερη) εκτέλεση της καλύτερης σειριακής εκδοχής T 1 µε τη (χειρότερη) εκτέλεση µίας παράλληλης εκδοχής (παραλλελ) του αλγορίθµου που αποτιµάται στους επεξεργαστές T m. S m = T 1 T m. Με αυτό τον ορισµό µπορούµε να την διαχωρίσουµε ανάµεσα σε: υπο-γραµµική επιτάχυνση, γραµµική επιτάχυνση, υπερ-γραµµική επιτάχυνση, Η πρώτη τροποποίηση την οποία ϑα χρειαστούµε να εισάγουµε στον καθιερωµένο ορισµό της επιτάχυνσης είναι να ϑεωρήσουµε τους µέσους χρόνους της αναλογίας. Ο λόγος είναι ότι οι ΕΑ είναι στοχαστικοί αλγόριθµοι, όπου µία µοναδική εκτέλεση δεν είναι στατιστικά σηµαντική. Αυτό σηµαίνει ότι πρέπει να υπολογίσουµε το µέσο όρο ενός αριθµού στατιστικά ανεξάρτητων εκτελέσεων µε σκοπό να έχουµε αντιπροσωπευτικές τιµές. S m = T 1 T m. Ακόµα και µε τη χρήση µέσων τιµών, ο Κλασικός ορισµός παραµένει ασαφής στον τοµέα των ΕΑ, εφόσον ϑεωρεί δεδοµένο ότι υπάρχει γνώση του καλύτερου αλγόριθµου για την επίλυση του προβλήµατος. Θα το ονοµάσουµε ισχυρό ορισµό της επιτάχυνσης. Κάποια πρακτικά προβλήµατα προκύπτουν από αυτό τον ορισµό. Πρώτα από όλα είναι δύσκολο αν όχι ακατόρθωτο να αποφασιστεί αν ο σειριακός ΕΑ είναι ο καλύτερος αλγόριθµος, αφού πολλές ϕορές είναι ο µοναδικός υπάρχων αλγόριθµος, ο οποίος δοκιµάζεται για το πρόβληµα. Σε δεύτερο επίπεδο, στην α- νάλυση των ΕΑ είναι σύνηθες να µελετάται ένα µεγάλο τµήµα προβληµάτων. Ενας ισχυρός ορισµός απαιτεί από τον ερευνητή να έχει γνώση του πιο γρήγορου αλγό- ϱιθµου που λύνει όποια από τα προβλήµατα εντοπίζονται. Αυτό το σενάριο δεν είναι συχνά ϱεαλιστικό. Αυτοί οι λόγοι έχουν συχνά οδηγήσει του ερευνητές να µετρούν την επιτάχυνση συγκρίνοντας τους δικούς τους σειριακούς και παράλληλους αλγορίθµους. ϑα ορίσουµε ένα αδύναµο ορισµό της επιτάχυνσης. Στο ϐαθµό που είναι δυνατό να υ- πάρχει ένας διαφορετικός αλγόριθµος (πιθανόν όχι ένας ΕΑ) που λύνει το πρόβληµα

73 60 Παράλληλοι Εξελικτικοί Αλγόριθµοι γρηγορότερα µε σειριακό τρόπο. Αυτός ο ορισµός ϑα µας επιτρέψει να συγκρίνουµε τον ΠΕΑ µας µε το γνωστό σειριακό ΕΑ, και γι αυτό να µελετάται η επιτάχυνση χωρίς να εµπλακούν µη-εα στην ανάλυση. Το αµέσως επόµενο σηµαντικό Ϲήτηµα που σχετίζεται µε ένα αδύναµο ορισµό είναι το κριτήριο τερµατισµού. Η επιτάχυνση µπορεί να µελετηθεί ϑέτοντας ένα προκαθορισµένο καθολικό αριθµό επαναλήψεων τόσο στους σειριακούς όσο και στους ΠΕΑ. Γενικά δεν προτιµούµε αυτό τον τύπο µέτρησης, εφόσον συγκρίνει δύο αλγόριθµους, οι οποίοι εξετάζουν λύσεις διαφορετικής ποιότητας, καθώς σπάει την καθιερωµένη άποψη της λύσης του ίδιου προβλήµατος µε την ίδια ακρίβεια µηχανής. Αυτό το κριτήριο τερµατισµού µπορεί να είναι χρήσιµο και σε κάποιες άλλες καταστάσεις όπου π.χ. η ίδια προσπάθεια (π.χ. ίδιος αριθµός επαναλήψεων) εντοπίζεται σε διαφορετικούς αλγόριθµους για να συγκρίνουν το τελικό τους σφάλµα, µα όχι όταν η επιτάχυνση πρόκειται να µετρηθεί. Σηµαντικές εργασίες σε αυτό τον τοµέα όπως η [48] και η [13] εκφράζουν τους ίδιους προβληµατισµούς που έχουµε υποδείξει. Γι αυτό χρειαζόµαστε ένα δίκαιο και ουσιώδες κριτήριο τερµατισµού. Ο προφανής υποψήφιος είναι να σταµατήσει την σύγκριση των αλγορίθµων όταν µία λύση της ίδιας ποιότητας έχει ϐρεθεί, συνήθως µία ϐέλτιστη λύση. Το ονοµάζουµε αυτό τύπο ενός αδύναµου ορθόδοξου ορισµού. Ας προχωρήσουµε στην ϐαθύτερη κατανόηση του ορθόδοξου αδύναµου ορισµού. Ενας σηµαντικός προβληµατισµός είναι το πως έχει αναπτυχθεί ένας σειριακός ΕΑ. Ακολουθώντας τη παραδοσιακή ϑεωρία ότι ένας σειριακός ΕΑ είναι ένας σειριακός ΕΑ ενός πληθυσµού, ϑα συγκρίνουµε αυτόν µε έναν, κεα δηλαδή ένα µοντέλο έ- στω d νησιών, µε την προϋπόθεση ότι καθένα από αυτά ϑα τρέχει σε διαφορετικούς επεξεργαστές. Ο αλγόριθµος που τρέχει σε κάθε επεξεργαστή είναι ένας κλασικός ΕΑ αλγόριθµος ενός πληθυσµός, ενώ το µοντέλο των νησιών είναι µία κατανεµηµένη διαδικασία µε d επεξεργαστές έχοντας µία διαδικασία µετανάστευσης µεταξύ αυτών, έτσι η αλγοριθµική συµπεριφορά του µοντέλου νησιών είναι αρκετά διαφορετική από αυτή του σειριακού ΕΑ. Αυτό πολλές ϕορές µπορεί να προκαλέσει ένα διαφορετικό αποτέλεσµα στην αριθµητική προσπάθεια που απαιτείται για να εντοπιστεί η λύση, και έτσι µπορούν να προκληθούν πολλοί διαφορετικοί χρόνοι αναζήτησης (σε γενικές γραµµές υπάρχει γρηγορότερη αναζήτηση στις κατανεµηµένες εκδόσεις). Πράγµατι, µπορούµε να οδηγηθούµε σε υπερ-γραµµικές επιταχύνσεις µεγάλου µεγέθους, αφού ένας κεα που τρέχει d παράλληλα νησιά µπορεί να εντοπίσει µία λύση d ϕορές πιο γρήγορα από έναν σειριακό ΕΑ [6]. Αυτή η επιτάχυνση όµως δεν είναι πάντα εφικτή όπως δείχνει ο Punch σε κάποια προβλήµατα µε παράλληλο γενετικό προγραµµατισµό [98]. Ετσι, για να έχουµε έναν ουσιαστικό ορισµό για τους ΠΕΑ πρέπει να µελετούµε ακριβώς τον ίδιο αλγόριθµο (για παράδειγµα τον κεα µε d νησιά) και µετά να αλλαχθεί µόνο ο αριθµός των επεξεργαστών από το 1 µέχρι το d, έτσι ώστε να µετρηθεί η επιτάχυνση του (ορθόδοξος αδύναµος ορισµός). Σε κάθε περίπτωση η µέτρηση της επιτάχυνσης πρέπει να είναι όσο πιο κοντά γίνεται στον κλασικό ορισµό της επιτάχυνσης. Επιπρόσθετα, πρέπει να αναφέρουµε ένα προφανές αποτέλεσµα, πιο συγκεκρι- µένα το να προσθέτουµε περισσότερους επεξεργαστές δεν είναι πάντοτε αποτελεσµατικό για κάθε παράλληλο σύστηµα. Μόνο ορισµένα µοντέλα είναι πιο αποδοτικά µε αυξανόµενο αριθµών επεξεργαστών [11,45,110]. Τώρα παρουσιάζουµε ένα εντυπωσιακό στοιχείο. Πολλοί συγγραφείς έχουν α-

74 5.6 Κατανεµηµένοι ιαφοροεξελικτικοί Αλγόριθµοι 61 ναλύσει ΠΕΑ ϐάσει διαφορετικών κριτηρίων και πολλοί από αυτούς καθώς χρησι- µοποιούσαν παράλληλες µηχανές είχαν υπερ-γραµµική επιτάχυνση [8, 11, 45, 110]. Εχοντας συζητήσει εναλλακτικές µεθόδους για να µετρήσουµε την επιτάχυνση πρέπει να κάνουµε ακόµα µία ερώτηση. Είναι δυνατό να έχουµε υπερ-γραµµική επιτάχυνση στους ΠΕΑ Η απάντηση σε αυτή την ερώτηση είναι ναι. Σε συντοµία τα αίτια για υπερ-γραµµική επιτάχυνση είναι (ϐλέπε [3] για περισσότερες λεπτοµέρειες): υπάρχουν περισσότερες πιθανότητες για να ϐρούµε το ϐέλτιστο χρησιµοποιώντας περισσότερους επεξεργαστές, λόγω της πολυδιάστατης ευρετικής ϕύσης των ΠΕΑ, διαχωρίζοντας τον µεγάλο καθολικό πληθυσµό σε µικρότερους υποπληθυσµούς, έτσι ώστε να µπορούν να αποθηκευτούν στην λανθάνουσα µνήµη των κατανεµηµένων ή παράλληλων επεξεργαστών, παρέχονται γρηγορότεροι αλγό- ϱιθµοι συγκριτικά µε το αν ϑα χρησιµοποιούσαµε συστήµατα µε κοινή ϐασικά µνήµη, Οι τελεστές των ΠΕΑ επεξεργάζονται πολύ µικρότερες δοµές παράλληλα και όχι σειριακά, έτσι υπάρχει µια επιπρόσθετη πηγή επιτάχυνσης. 5.6 Κατανεµηµένοι ιαφοροεξελικτικοί Αλγόριθµοι Οπως είδαµε προηγουµένως οι ιαφοροεξελικτικοί Αλγόριθµοι είναι µέθοδοι ϐελτιστοποίησης που µπορούν να εφαρµοστούν µε µεγάλη επιτυχία σε αρκετά προβλή- µατα του πραγµατικού κόσµου [94,95]. Οι Ε όπως και οι ΕΑ έχουν αρκετές δυνατότητες και ιδιαίτερα χαρακτηριστικά, ένα από αυτά είναι η εκ ϕύσεως τους παράλληλη δοµή. Οι Κατανεµηµένοι ιαφοροεξελικτικοί Αλγόριθµοι (Κ Ε) ουσιαστικά είναι η εφαρµογή των σειριακών Ε σε ένα κατανεµηµένο µοντέλο νησιών [122]. Σε αυτή την παράγραφο περιγράφεται η µορφή των Κ Ε για την εκπαίδευση των ΥΤΤΝ. Πιο συγκεκριµένα, σε κάθε επεξεργαστή ανατίθεται ένας υποπληθυσµός από υ- ποψήφιες λύσεις. Σύµφωνα µε το µοντέλο των νησιών, οι υποπληθυσµοί εξελίσσονται ανεξάρτητα και παράλληλα ενώ συχνά εφαρµόζεται στους υποπληθυσµούς η διαδικασία της µετανάστευσης για να επιτραπεί η συνεργασία µεταξύ τους, µε στόχο την γρηγορότερη εύρεση ποιοτικών λύσεων του προς εξέταση προβλήµατος. Κατά την διαδικασία της µετανάστευσης, επιλέγεται το καλύτερο άτοµο που έχει δηµιουργη- ϑεί µέχρι την τρέχουσα γενεά για να µεταναστεύσει. Η διαδικασία αυτή ελέγχεται από µία σταθερά η οποία ονοµάζεται σταθερά µετανάστευσης και συµβολίζεται ως ϕ. Μία καλή επιλογή για την σταθερά µετανάστευσης είναι αυτή η τιµή που επιτρέπει κάθε υποπληθυσµό να εξελιχτεί για µερικές γενιές πριν εφαρµοστεί η διαδικασία της µετανάστευσης. Υπάρχει µία κρίσιµη τιµή αυτής της σταθεράς κάτω από την οποία η επιδώσεις των Κ Ε επιβαρύνονται από την αποµόνωση των υποπληθυσµών, ενώ πάνω από αυτή την τιµή οι υποπληθυσµοί είναι ικανοί να ϐρουν λύσεις ίδιας ποιότητας σε σχέση µε τις σειριακές υλοποιήσεις των Ε. Μία εκτεταµένη περιγραφή των Κ Ε καθώς και αναλυτικά ερευνητικά αποτελέσµατα πάνω σε δύσκολα προβλήµατα ϐελτιστοποίησης µπορούν να ϐρεθούν στις εργασίες [95,122]. Η τροποποιηµένη εκδοχή του Κ Ε διατηρεί έναν πληθυσµό από υποψήφιες α- κέραιες λύσεις, τα άτοµα, για την εξερεύνηση του χώρου αναζήτησης. Ο πληθυσµός των ατόµων αρχικοποιείται τυχαία στον χώρο ϐελτιστοποίησης του προβλήµατος. Σε

75 62 Παράλληλοι Εξελικτικοί Αλγόριθµοι κάθε επανάληψη, η οποία ονοµάζεται γενιά, παράγονται νέα άτοµα µε τον συνδυασµό τυχαία επιλεγµένων ατόµων του τρέχον πληθυσµού. Οπως και στους σειριακούς Ε, αρχίζοντας µε έναν πληθυσµό από ΝΠ ακέραια διανύσµατα, wg i, i = 1,...,ΝP, όπου το G υποδεικνύει την τρέχων γενιά, κάθε διάνυσµα υφίσταται την διαδικασία την µετάλλαξης και δηµιουργεί το µεταλλαγµένο διάνυσµα, u i G+1. Το µεταλλαγµένο διάνυσµα µπορεί να δηµιουργηθεί σύµφωνα µε µία από τις παρακάτω εξισώσεις: u i G+1 = wg best 1 u i G+1 = w r 1 G + F(wr 2 G wr 2 G G wr 3 G ), (5.1) ), (5.2) όπου wg best υποδηλώνει το καλύτερο άτοµο της τρέχων γενιάς και F > 0 είναι µία πραγµατική παράµετρος, που ονοµάζεται σταθερά µετάλλαξης. Επιπρόσθετα, r 1, r 2, r 3 {1, 2,..., i 1, i + 1,...,NP } είναι τυχαίοι ακέραιοι αριθµοί αµοιβαία διαφορετικοί και διαφορετικοί από τον τρέχον δείκτη i. Προφανώς, ο τελεστής µετάλλαξης παράγει διανύσµατα µε πραγµατικές τιµές. Εφόσον, σε κάθε γενιά, ο σκοπός µας είναι να διατηρήσουµε πληθυσµούς µε ακέραιες τιµές, κάθε στοιχείο του µεταλλαγµένου διανύσµατος στρογγυλοποιείται στον πλησιέστερο ακέραιο αριθµό. Επιπλέον, εάν το µεταλλαγµένο διάνυσµα δεν είναι µέσα στον υπερκύβο [ 32, 32] N, υπολογίζουµε το διάνυσµα u i g+1 χρησιµοποιώντας τον παρακάτω τύπο: u i G+1 = sign(ui G+1 ) ( u i G+1 mod 32 ). Κατά την διαδικασία του επανασυνδιασµού για κάθε στοιχείο j του ακέραιου διανύσµατος µετάλλαξης, u i G+1, παράγεται ένας τυχαίος πραγµατικός αριθµός, r, στο διάστηµα [0, 1] και συγκρίνεται µε την σταθερά επανασυνδιασµού, Ρ. Εάν ισχύει r ΣR τότε επιλέγουµε ως το j-οστό στοιχείο του δοκιµαστικού διανύσµατος, την τιµή vg+1 i, δηλαδή το αντίστοιχο στοιχείο του διανύσµατος µετάλλαξης, ui G+1. ιαφορετικά, επιλέγουµε το j-οστό στοιχείο του διανύσµατος στόχου, wg i. Αξίζει να σηµειωθεί ότι το αποτέλεσµα αυτής της διαδικασίας είναι επίσης 6 bit ακέραια διανύσµατα. Στην συγκεκριµένη υλοποίηση των Κ Ε χρησιµοποιήθηκε για την επικοινωνία των υποπληθυσµών το πρότυπο MPI.

76 Κ Ε Φ Α Λ Α Ι Ο 6 Πειραµατικά Αποτελέσµατα Σε αυτή την εργασία, χρησιµοποιήθηκαν και εφαρµόστηκαν οι Ε, Κ Ε για την εκπαίδευση των ΥΤΤΝ µε ακέραια ϐάρη και κατώφλια ως συναρτήσεις ενεργοποίησης, σε σειριακά και κατανεµηµένα συστήµατα. Στην συνέχεια, παρουσιάζουµε πειραµατικά αποτελέσµατα για τα παρακάτω πολύ γνωστά και χρησιµοποιηµένα χαρακτηριστικά προβλήµατα για εκπαίδευση νευρωνικών δικτύων: 1. N-bit πρόβληµα ελέγχου ισοτιµίας [53,103], 2. το πρόβληµα οµαδοποίησης και αναγνώρισης αριθµητικών ψηφίων (Num Font) [71], 3. τα πρόβληµα γενίκευσης MONK (MONK1, MONK2, και MONK3) [125], 4. το πρόβληµα οµαδοποίησης και αναγνώρισης αριθµητικών ψηφίων µε πένα (PenDigits) [82], και 5. το πρόβληµα κατηγοριοποίησης σηµάτων Sonar [42]. Για όλα τα προβλήµατα εκπαίδευσης, χρησιµοποιήσαµε τις παρακάτω σταθερές τιµές F = 0.5 και CR = 0.7 για την σταθερά µετάλλαξης και επανασυνδιασµού του αλγόριθµου Ε αντίστοιχα. Ακόµα χρησιµοποιήθηκαν δύο στρατηγικές µετάλλαξης (Εξισώσεις 4.1 και 4.2). Σύµφωνα µε την µελέτη που έχει γίνει στην εργασία [123] η πρώτη στρατηγική µετάλλαξης κάνει καλύτερη αναζήτηση εις ϐάθος (exploitation) του χώρου αναζήτησης στο προς εξέταση πρόβληµα, ενώ η δεύτερη κάνει καλύτερη γενική αναζήτηση (exploration). Οσον αφορά την αρχιτεκτονική των δικτύων και ειδικότερα τον αριθµό των νευ- ϱώνων στο κρυφό επίπεδο, προσπαθήσαµε να ελαχιστοποιήσουµε τους ϐαθµούς ε- λευθερίας του ΥΤΤΝΝ. Για τον λόγο αυτό, χρησιµοποιήθηκε η απλούστερη δυνατή τοπολογία των δικτύων, έτσι ώστε να είναι ικανά να λύσουν το κάθε πρόβληµα. Παρακάτω παρουσιάζονται τα πειραµατικά αποτελέσµατα από τον κλασικό Ε (σειριακή υλοποίηση του Ε), από τον Κ Ε (κατανεµηµένη υλοποίηση του Ε). Για όλα τα πειράµατα υλοποιήθηκαν και χρησιµοποιήθηκαν συναρτήσεις ενεργοποίησης κατώφλια και όλοι οι ακέραιοι αριθµοί περιορίστηκαν στα 6-bits. 6.1 Σειριακές Υλοποιήσεις Η πρώτη οµάδα των πειραµάτων αποτελείτε από τα N-bit προβλήµατα ελέγχου ισοτιµίας. Αυτή η κατηγορία χαρακτηριστικών προβληµάτων είναι πολύ γνωστή και

77 64 Πειραµατικά Αποτελέσµατα διαδεδοµένη και είναι κατάλληλη για τον έλεγχο µη-γραµµικών απεικονίσεων κα- ϑώς και για τον έλεγχο της ικανότητας αποµνηµόνευσης των νευρωνικών δικτύων. Παρόλο που τα προβλήµατα αυτά µπορούν να οριστούν εύκολα είναι πολύ δύσκολη η επίλυση τους διότι έχουν ένα µεγάλο πλήθος τοπικών ελαχίστων καθώς και είναι πολύ ευαίσθητα ως προς την αρχικοποίηση των ϐαρών του νευρωνικού δικτύου. Κάθε N-bit πρόβληµα αποτελείτε από 2 N πρότυπα εισόδου µε N διαστάσεις σε κάθε πρότυπο. Για τις διαδικασίες εκπαίδευσης και ελέγχου χρησιµοποιήθηκαν όλα τα πρότυπα του κάθε προβλήµατος. Για κάθε N-bit πρόβληµα χρησιµοποιήσαµε ένα N ϐαθµού Πι Σίγµα δίκτυο (δίκτυο µε N νευρώνες στο µεσαίο επίπεδο). Για κάθε πρόβληµα και για κάθε στρατηγική µετάλλαξης χρησιµοποιήσαµε 10 άτοµα σε κάθε πληθυσµό και εκτελέσαµε 1000 ανεξάρτητα τρεξίµατα. Το κριτήριο τερµατισµού που εφαρµόστηκε στον αλγόριθµο εκπαίδευσης ήταν η ελαχιστοποίηση του µέσου τετραγωνικού σφάλµατος (ΜΤΣ) και η ελάχιστη αναγκαία τιµή του ήταν διαφορετική για κάθε πρόβληµα (0.05, 0.025, 0.125, και αντίστοιχα), σύµ- ϕωνα µε τα πειράµατα που πραγµατοποιήθηκαν στην [36]. Αξίζει να παρατηρηθεί ότι στην παρούσα εργασία τα ΠΣΤΝ εκπαιδεύτηκαν µε συναρτήσεις ενεργοποίησεις κατώφλια. Ο πίνακας 6.1 δείχνει τα πειραµατικά αποτελέσµατα για τα προβλήµατα ελέγχου ισοτιµίας. Στον πίνακα παρουσιάζονται στατιστικά στοιχεία για τα ανεξάρτητα τρεξί- µατα τα οποία συνέκλιναν σε λύση. Πιο συγκεκριµένα: Min δηλώνει των ελάχιστο αριθµό των γενεών (επαναλήψεων) που έφτασαν σε λύση, Mean δηλώνει την µέση τιµή, Max τον µέγιστο αριθµό και St.D. την τυπική απόκλιση. Ολα τα εκπαιδευ- µένα δίκτυα έδωσαν τέλειες (100%) ικανότητες γενίκευσης για όλα τα προβλήµατα. Τα αποτελέσµατα των ΠΣΤΝ, µε κατώφλια ως συναρτήσεις ενεργοποίησης, που πα- ϱουσιάζονται παρακάτω είναι είτε ισάξια είτε καλύτερα από τα αποτελέσµατα των ΠΣΤΝ που εκπαιδεύτηκαν χρησιµοποιώντας τον κλασικό αλγόριθµο Back Propagation (BP) [36]. Ακόµα ένα πλεονέκτηµα της προτεινόµενης µεθόδου είναι ότι δεν χρειάζεται κανένας υπολογισµός παραγώγων και δεν πραγµατοποιούνται προς τα πίσω περάσµατα στο νευρωνικό δίκτυο. Πίνακας 6.1: Πειραµατικά αποτελέσµατα από το N-bit πρόβληµα ελέγχου ισοτιµίας. N-bit Αρχιτεκτονική Στρατηγική ΜΤΣ Γενεές Ισοτιµία ικτύου Μετάλλαξης Min Max Mean St.D DE DE DE DE DE DE DE DE Παρακάτω παραθέτονται τα πειραµατικά αποτελέσµατα της σειριακής υλοποίησης του Ε στα προβλήµατα: 1. το πρόβληµα οµαδοποίησης και αναγνώρισης αριθµητικών ψηφίων (NumFont) 2. τα πρόβληµα γενίκευσης MONK (MONK1, MONK2, και MONK3)

78 6.1 Σειριακές Υλοποιήσεις το πρόβληµα οµαδοποίησης και αναγνώρισης αριθµητικών ψηφίων µε πένα (PenDigits) 4. το πρόβληµα κατηγοριοποίησης σηµάτων Sonar Για την παρουσίαση των αποτελεσµάτων χρησιµοποιούµε την παρακάτω σηµειογραφία στους πίνακες που ακολουθούν: Min υποδεικνύει την ελάχιστη ικανότητα γενίκευσης των εκπαιδευµένων δικτύων, Max είναι η µέγιστη ικανότητα γενίκευσης, Mean υποδεικνύει την µέση ικανότητα γενίκευσης, ενώ St.D. υποδεικνύει την τυπική απόκλιση της ικανότητας γενίκευσης. Σε όλες τις περιπτώσεις η µέση επίδοση των αποτελεσµάτων που παρουσιάζονται εξετάστηκαν και ελέγχθηκαν µε το γνωστό στατιστικό τεστ ελέγχου υποθέσεων t test (ο αναγνώστης µπορεί να αναφερθεί στο [66]), χρησιµοποιώντας τα στατιστικά πακέτα λογισµικού SPSS 15 και R Project. Αξίζει να σηµειωθεί ότι τα ΠΣΤΝ που έχουν εκπαιδευτεί για τα MONK1, MONK2, MONK3, και Sonar έχουν µόνο µία µονάδα εξόδου (πολλαπλασιαστικό νευρώνα), α- ϕού όλα τα πρότυπα των προβληµάτων ανήκουν σε µία από τις δύο διαθέσιµες κλάσεις. Αντιθέτως, τα δίκτυα που έχουν εκπαιδευτεί για τα προβλήµατα οµαδοποίησης NumFont και PenDigits, διαθέτουν δέκα µονάδες εξόδου (µία για κάθε ψηφίο). Η υλοποίηση ενός ΠΣΤΝ µε πολλαπλές εξόδους ισοδυναµεί µε την κατασκευή Πι Σίγµα δικτύων που ϑα έχουν κοινές εισόδους, διαφορετικά µεσαία επίπεδα (έτσι, και διαφορετικά ϐάρη για εκπαίδευση) µε έναν πολλαπλασιαστικό νευρώνα για έξοδο. Κατ αυτόν τον τρόπο το ΠΣΤΝ ϑα εκπαιδευτεί έτσι ώστε να µπορεί να διακρίνει τα πρότυπα κάθε κλάσης, του αντίστοιχου προβλήµατος προς εξέταση Το πρόβληµα οµαδοποίησης και αναγνώρισης αριθµητικών ψηφίων (NumFont) Ο σκοπός αυτού του προβλήµατος είναι το νευρωνικό δίκτυο να εκπαιδευτεί για να αναγνωρίζει εκτυπωµένους αριθµούς από το µηδέν µέχρι και το εννέα (στην κλασική Helvetica γραµµατοσειρά) [71, 71, 113]. Κάθε αριθµός ορίζεται από ένα 8 8 µητρώο. Στον Πίνακα καθώς και στο σχήµα ϕαίνεται η κωδικοποίηση του αριθµού έξι. Μετά την εκπαίδευση, τα ΠΣΤΝ εξετάστηκαν για τις δυνατότητες γενίκευσης τους, χρησιµοποιώντας την Helvetica γραµµατοσειρά σε πλάγια µορφή. Σηµείωσε ότι, τα πρότυπα δοκιµής της γραµµατοσειράς σε πλάγια µορφή έχουν 6 µε 14 bits αναστρεµένα σε σχέση µε τα πρότυπα εκπαίδευσης. Ακόµα πρέπει να αναφερθεί ότι για την αξιολόγηση των προτύπων δοκιµής και για την εύρεση της µέσης γενίκευσης, χρησιµοποιήθηκε ο κανόνας του µέγιστου (max rule). Σχήµα 6.1: Κωδικοποίηση του αριθµού έξι.

Δείτε περισσότερα