ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Καραγιώργου Σοφία
Εισαγωγή Προσομοιώνει βιολογικές διεργασίες (π.χ. λειτουργία του εγκεφάλου, διαδικασία εξέλιξης) Νευρωνικά δίκτυα (neural networks): Βασίζονται στο βιολογικό πρότυπο των νευρώνων (neurons) στον ανθρώπινο εγκέφαλο Δεν αναπαριστούν ρητά τη γνώση Δεν χρησιμοποιούν ρητά αλγόριθμους αναζήτησης
Βιολογικός Νευρώνας Η δομική μονάδα του ανθρώπινου εγκεφάλου είναι ο νευρώνας Σώμα (πυρήνας) Δενδρίτες (είσοδοι) Άξονας (έξοδος) Συνάψεις (κενά στους δενδρίτες, επιβραδύνουν ή επιταχύνουν την ροή ηλεκτρικών φορτίων προς το σώμα του νευρώνα
Βιολογικός Νευρώνας Η ικανότητα μνήμης και μάθησης του εγκεφάλου οφείλεται στην ικανότητα των συνάψεων να μεταβάλλουν την αγωγιμότητά τους Τα ηλεκτρικά σήματα που εισέρχονται στον νευρώνα μέσω των δενδριτών συνδυάζονται Αν το αποτέλεσμα υπερβαίνει την τιμή κάποιου κατωφλίου, το σήμα διαδίδεται μέσω του άξονα
Φυσικά νευρωνικά δίκτυα Εγκέφαλος νεογέννητου 100 δισεκατομμύρια νευρώνες ο καθένας συνδέεται με περίπου 1000 άλλους περίπου 100 τρισεκατομμύρια συνάψεις Χρόνος απόκρισης της τάξεως των msec Ωστόσο, ο εγκέφαλος είναι σε θέση να λαμβάνει πολύπλοκες αποφάσεις πολύ γρήγορα Η υπολογιστική ικανότητα και η πληροφορία είναι διαμοιρασμένες σε όλο τον όγκο Παράλληλο και κατανεμημένο υπολογιστικό σύστημα Η αντιγραφή είναι δυνατή σε περιορισμένη κλίμακα
Μοντέλο τεχνητού νευρώνα
Τεχνητός νευρώνας Υπολογιστικό μοντέλο, τα μέρη του οποίου σχετίζονται άμεσα με έναν βιολογικό νευρώνα. Σήματα εισόδου x0, x1,, xn που αντιστοιχούν σε συνεχείς μεταβλητές Τιμές βάρους wi για το κάθε σήμα εισόδου (θετική ή αρνητική τιμή, ρόλος αντίστοιχος της σύναψης) Σώμα χωρισμένο σε δύο μέρη: Αθροιστης (sum): προσθέτει τα επηρεασμένα από τα βάρη σήματα εισόδου και παράγει την ποσότητα S Συνάρτηση ενεργοποίησης ή κατωφλίου (activation / threshold function): μη γραμμικό φίλτρο που διαμορφώνει την τιμή εξόδου y σε συνάρτηση της ποσότητας S.
Νευρώνες και υπερεπίπεδα Ένας τεχνητός νευρώνας με n εισόδους ορίζει ένα υπερεπίπεδο στον Ν-διάστατο χώρο, το οποίο τον διαχωρίζει σε δύο περιοχές Οι τιμές των βαρών στις εισόδους του νευρώνα καθορίζουν τη θέση του υπερεπιπέδου Χωρίς την πόλωση, το υπερεπίπεδο θα έπρεπε υποχρεωτικά να περνάει από την αρχή των αξόνων
Συνάρτηση ενεργοποίησης Βηματική (step) συνάρτηση: δίνει στην έξοδο αποτέλεσμα (συνήθως 1) μόνο αν η τιμή που υπολογίζει ο αθροιστής είναι μεγαλύτερη από την τιμή κατωφλίου Τ Συνάρτηση προσήμου (sign): δίνει στην έξοδο αρνητική ή θετική πληροφορία αν η τιμή που υπολογίζει ο αθροιστής είναι μικρότερη ή μεγαλύτερη από μία τιμή κατωφλίου Τ Σιγμοειδής (sigma) συνάρτηση:
Τεχνητά Νευρωνικά Δίκτυα Συστήματα επεξεργασίας δεδομένων που αποτελούνται από ένα πλήθος τεχνητών νευρώνων οργανωμένων σε δομές παρόμοιες με αυτές του ανθρώπινου εγκεφάλου Οργάνωση σε σειρά από επίπεδα ή στρώματα (layers) Επίπεδο εισόδου Ενδιάμεσα / κρυφά επίπεδα Επίπεδο εξόδου Σημειογραφία: 3-4-2
Συνδέσεις νευρώνων - Χαρακτηριστικά Οι νευρώνες των διαφόρων στρωμάτων μπορεί να είναι Πλήρως συνδεδεμένοι (fully connected): ο καθένας συνδέεται με όλους τους υπόλοιπους νευρώνες Μερικώς συνδεδεμένοι (partially connected) Κατηγορίες Τεχνητών Νευρωνικών Δικτύων: Με πρόσθια τροφοδότηση (feedforward) Με ανατροφοδότηση (feedback / recurrent)
Μάθηση και Ανάκληση Μάθηση (learning) ή εκπαίδευση (training) είναι η διαδικασία της τροποποίησης της τιμής των βαρών του δικτύου, ώστε δοθέντος ενός συγκεκριμένου διανύσματος εισόδου, να παράγεται ένα συγκεκριμένο διάνυσμα εξόδου Ανάκληση (recall) είναι η διαδικασία υπολογισμού ενός διανύσματος εξόδου για συγκεκριμένο διάνυσμα εισόδου και τιμές βαρών
Είδη μάθησης Μάθηση υπό επίβλεψη (supervised learning) Στο δίκτυο δίνονται ζευγάρια εισόδου επιθυμητής εξόδου Το δίκτυο αρχικά για κάθε είσοδο παράγει μια έξοδο που διαφέρει από την επιθυμητή (error) Αναπροσαρμογή των βαρών σύμφωνα με κάποιο αλγόριθμο Βαθμολογημένη μάθηση (graded learning) Η έξοδος χαρακτηρίζεται ως καλή ή κακή με βάση μια αριθμητική κλίματα Τα βάρη αναπροσαρμόζονται Μάθηση χωρίς επίβλεψη (unsupervised learning) Το δίκτυο αυτο-οργανώνεται με βάση τα διανύσματα εισόδου Η οργάνωση γίνεται έτσι ώστε σε συγκεκριμένο σύνολο εισόδων να αντιδρά ισχυρά ένας συγκεκριμένος νευρώνας (κατηγοριοποίηση)
Αλγόριθμοι μάθησης υπό επίβλεψη Κανόνας Δέλτα (Delta rule) Η διαφορά μεταξύ πραγματικής και επιθυμητής εξόδου ελαχιστοποιείται μέσω της διαδικασίας ελαχίστων τετραγώνων Ανάστροφη μετάδοση λάθους (back propagation) Η μεταβολή των βαρών βασιζεται στον υπολογισμό της συνεισφοράς κάθε βάρους στο συνολικό σφάλμα Ανταγωνιστική μάθηση (competitive learning) Οι τεχνητοί νευρώνες ανταγωνίζονται μεταξύ τους και αυτός με τη μεγαλύτερη απόκριση στην είσοδο τροποποιεί τα βάρη του Τυχαία μάθηση (random learning) Οι μεταβολές στα βάρη εισάγονται τυχαία και υιοθετούνται ή απορρίπτονται με βάση το αποτέλεσμα
Προσαρμογή (fitting) Ατελής μάθηση, το νευρωνικό δίκτυο δεν είναι αρκετά πολύπλοκο Το νευρωνικό δίκτυο είναι παραπάνω πολύπλοκο από όσο χρειάζεται, μοντελοποιείται και ο θόρυβος Τουλάχιστον 30πλάσια δεδομένα εκπαίδευσης από τον αριθμό των βαρών
Δεδομένα εκπαίδευσης Κύκλοι εκπαίδευσης: εποχές (epochs) Μάθηση δέσμης (batch learning): τα βάρη αναπροσαρμόζονται στο τέλος του κάθε κύκλου Επαυξητική μάθηση (incremental learning): τα βάρη αναπροσαρμόζονται μετά από κάθε διάνυσμα εκπαίδευσης Συνδυασμός των δύο Τερματισμός της εκπαίδευσης όταν το κριτήριο ελέγχου ποιότητας του δικτύου φτάσει σε κάποια επιθυμητή τιμή Μέσο σφάλμα συνόλου εκπαίδευσης Μεταβολή του μέσου σφάλματος του συνόλου εκπαίδευσης
Χαρακτηριστικά Νευρωνικών δικτύων Η ικανότητα των δικτύων να μαθαίνουν μέσω παραδειγμάτων (learn by example) Οργανώνουν την πληροφορία εισόδου Αποτελούν ένα μοντέλο που αναπαριστά τη σχέση των δεδομένων εισόδου και εξόδου Η δυνατότητα θεώρησής τους ως κατανεμημένη μνήμη (distributed memory) και ως μνήμη συσχέτισης (associative memory) Η πληροφορία κατανέμεται σε όλα τα βάρη της συνδεσμολογίας Η πληροφορία αποθηκεύεται συσχετίζοντας τα αποθηκευμένα δεδομένα μεταξύ τους Η ανάκληση γίνεται με βάση το περιεχόμενο και όχι τη διεύθυνση
Χαρακτηριστικά Νευρωνικών δικτύων Η μεγάλη ανοχή σε σφάλματα (fault tolerance) Ανεκτικά σε μικρές αλλαγές στην είσοδο Ανεκτικά σε δομικά σφάλματα (καταστροφή νευρώνων ή συνδέσεων) Το μέγεθος του σφάλματος είναι ανάλογο του ποσοστού των κατεστραμμένων συνδέσεων Η ικανότητα για αναγνώριση προτύπων (pattern recognition) Δεν επηρεάζονται από ελλιπή δεδομένα Ανεκτικά στον θόρυβο
Νευρωνικά Δίκτυα Πρόσθιας Τροφοδότησης Επίπεδο εισόδου, επίπεδο εξόδου Προαιρετικά ένα ή περισσότερα κρυφά επίπεδα Μάθηση με επίβλεψη Τοπολογία Δεν υπάρχει κανόνας Έχουν προταθεί αλγόριθμοι που δημιουργούν τοπολογία βάσει των εισόδων και των επιθυμητών εξόδων
Κρυφά Επίπεδα Ο αριθμός των νευρώνων στα κρυφά επίπεδα σχετίζεται με πολύπλοκο τρόπο με τον αριθμό νευρώνων στα επίπεδα εισόδου / εξόδου τον αριθμό των διανυσμάτων εκπαίδευσης και τον θόρυβο σε αυτά την πολυπλοκότητα της συνάρτησης ή της κατηγοριοποίησης που πρέπει να μάθει το δίκτυο τις συναρτήσεις ενεργοποίησης τον αλγόριθμο εκπαίδευσης Για προβλήματα κατηγοριοποίησης, ο αριθμός των νευρώνων στα κρυφά επίπεδα δεν πρέπει να υπερβαίνει τον αριθμό των διανυσμάτων εκπαίδευσης (αποφυγή απομνημόνευσης)
Perceptron Η πιο απλή τοπολογία δικτύου με απλή τροφοδότηση Ένας νευρώνας Βηματική συνάρτηση Μάθηση με επίβλεψη Αλγόριθμος μεταβολής βαρών (d ρυθμός μάθησης): Μέχρι να ικανοποιηθεί η συνθήκη τερματισμού της εκπαίδευσης επανέλαβε: Για κάθε ζευγάρι εισόδου x και επιθυμητής εξόδου t από το σύνολο της εκπαίδευσης Υπολόγισε την έξοδο y Εάν y=t τότε δε γίνεται καμιά μεταβολή στα βάρη Εάν y t τότε μετέβαλε τα βάρη των ενεργών γραμμών εισόδου (αυτά με σήμα 0) κατά την ποσότητα Δw=d(t-y)x, έτσι ώστε το y να πλησιάσει το t
Γραμμική Διαχωρισιμότητα Ένα perceptron με n γραμμές εισόδου μπορεί να θεωρηθεί ότι αναπαριστά ένα υπερεπίπεδο n-1 διαστάσεων που διαχωρίζει τα διανύσματα εισόδου σε δύο ομάδες, ανάλογα με την έξοδο Γραμμικώς διαχωρίσιμα προβλήματα (linearly separable) Τα μη γραμμικώς διαχωρίσιμα προβλήματα απαιτούν την χρήση ενδιάμεσων κρυφών επιπέδων
Γραμμική Διαχωρισιμότητα Τα ΤΝΔ με κρυφά επίπεδα έχουν καλύτερη διαχωρισιμότητα επειδή ο χώρος τιμών εισόδου οριοθετείται με πιο πολύπλοκο τρόπο εξαιτίας της πολυπλοκότητας των συνδέσεων
Κανόνας Δέλτα Γενίκευση του αλγορίθμου εκπαίδευσης του perceptron Ελαχιστοποίηση του μέσου τετραγωνικού σφάλματος των διανυσμάτων εκπαίδευσης Δεν εφαρμόζεται σε δίκτυα με κρυφά επίπεδα Μέσο τετραγωνικό σφάλμα Ε στο στοιχειώδες perceptron για p διανύσματα εκπαίδευσης tk: επιθυμητή έξοδος inputk: σήμα εισόδου του νευρώνα (χωρίς συνάρτηση ενεργοποίησης) Συνολικό σήμα εισόδου για διάνυσμα εκπαίδευσης p:
Κανόνας Δέλτα Ο κανόνας Δέλτα ακολουθεί την αρνητική κλίση της επιφάνειας σφάλματος, με κατεύθυνση προς το ελάχιστό της Η μεταβολή της τιμής του βάρους wi εξαιτίας της εκπαίδευσης με ένα μόνο από τα διανύσματα εκπαίδευσης δίνεται από τη σχέση: όπου input είναι το συνολικό σήμα εισόδου του νευρώνα, t είναι η επιθυμητή έξοδος, wi(old) και wi(new) η παλιά και η νέα τιμή του βάρους, xi η επιμέρους είσοδος i της οποίας το βάρος αναπροσαρμόζεται και d μια σταθερά που ρυθμίζει το ρυθμό μεταβολής των βαρών (ρυθμός μάθησης)
Κανόνας Δέλτα Γεωμετρική αναπαράσταση κανόνα Δέλτα για στοιχειώδες perceptron με 2 εισόδους Κανόνας της επικλινούς καθόδου (gradient descent rule) Δεν εφαρμόζεται σε δίκτυα με κρυφά επίπεδα Αναπτύχθηκε η μέθοδος ανάστροφης μετάδοσης λάθους
Ανάστροφη μετάδοση λάθους Η αναπροσαρμογή των βαρών γίνεται από το επίπεδο εξόδου προς το επίπεδο εισόδου Ανάστροφο πέρασμα (backward pass) ή ανάστροφη μετάδοση (back propagation) Διαδικασία βελτιστοποίησης επικλινούς καθόδου που ελαχιστοποιεί το μέσο τετραγωνικό σφάλμα Ε μεταξύ της εξόδου του δικτύου και της επιθυμητής εξόδου για p διανύσματα εκπαίδευσης
Ανάστροφη μετάδοση λάθους Βασίζεται στον γενικευμένο κανόνα Δέλτα Καθορισμός του ποσοστού του συνολικού σφάλματος που αντιστοιχεί σε κάθε νευρώνα, ακόμη και αυτών που ανήκουν σε κρυφά επίπεδα
Ανάστροφη μετάδοση λάθους Προβλήματα Τοπικά ελάχιστα Network paralysis: ένα ή περισσότερα βάρη έχουν σταθερές υψηλές απόλυτες τιμές και δεν τροποποιούνται σημαντικά σε κάθε διόρθωση Σχόλια Τα διανύσματα εκπαίδευσης δεν πρέπει να μεταβάλλονται γιατί δεν επέρχεται σύγκλιση Ο έλεγχος απόδοσης γίνεται με πρότυπα αξιολόγησης (validation data)
Μνήμες συσχέτισης Συστήματα μνήμης που ορίζουν απεικονίσεις μεταξύ 2 αναπαραστάσεων Χ και Υ έτσι ώστε όταν δοθεί η μια να μπορεί να ανακληθεί η άλλη Ανάλογα με τις διαφορές εισόδου και εξόδου διακρίνουμε: Αυτοσυσχετιζόμενες μνήμες (auto-associative memories) Ετεροσυσχετιζόμενες μνήμες (hetero-associative memories) Ανάλογα με το αν η έξοδός του μπορεί να είναι προΐόν παρεμβολής διακρίνουμε: Με δυνατότητα παρεμβολής (interpolative associative memories) Προσαυξητική μνήμη συσχέτισης (accretive associative memories) Τύποι που συνιστούν μνήμες συσχέτισης: Γραμμικοί συσχετιστές Δίκτυα Hopfield Μνήμες συσχέτισης διπλής κατεύθυνσης
Νευρωνικά δίκτυα με ανταγωνισμό Οι νευρώνες πρέπει να είναι σε θέση να επηρεάσουν θετικά, ουδέτερα ή ακόμη και αρνητικά τους υπόλοιπους νευρώνες του δικτύου Ποιος νευρώνας θα ανταποκριθεί περισσότερο; Απλούστερη περίπτωση: ο νευρώνας με τη μεγαλύτερη έξοδο παράγει τα τελικά αποτελέσματα Μοντελοποίηση ανταγωνισμού Παράπλευρη καταστολή ή ενίσχυση (lateral inhibition ή excitation) Ανταγωνισμός πόρων (resource competition) Βιολογικά αποδεκτό μοντελοποιεί και το βιολογικό φαινόμενο της εξασθένισης (self decay)
Εφαρμογές Νευρωνικών δικτύων Δημοφιλή σε προβλήματα που περιέχουν μη προβλέψιμες λειτουργίες και τα οποία δεν είναι πλήρως κατανοητά Κατηγοριοποίηση Ιατρική, άμυνα, γεωργία, οικονομία/επιχειρήσεις Αναγνώριση Τράπεζες, πληροφορική/τηλεπικοινωνίες Αποτίμηση Άμυνα, ασφάλεια, μηχανολογία Πρόβλεψη Οικονομία/επιχειρήσεις, γεωργία, μετεωρολογία