Τεχνητή Νοημοσύνη 19η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1
Οι διαφάνειες αυτές βασίζονται σε ύλη των βιβλίων: Artificia Inteigence A Modern Approach των S. Russe και P. Norvig, 2η έκδοση, Prentice Ha, 2003, Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας Εκδοτική, 2006, Machine Learning του T. Mitche, McGraw-Hi, 1997. Τα περισσότερα σχήματα των διαφανειών προέρχονται από τα παραπάνω βιβλία και διαλέξεις. 2
Νευρωνικά δίκτυα. Τι θα ακούσετε σήμερα Φυσικά και τεχνητά νευρωνικά δίκτυα. Perceptron. Γραμμική διαχωρισιμότητα. Νευρωνικά δίκτυα απλής τροφοδότησης πολλαπλών επιπέδων. Αλγόριθμος ανάστροφης μετάδοσης (back-propagation). 3
Φυσικά νευρωνικά δίκτυα Νευρώνας: κύτταρο του εγκεφάλου. Σώμα: το κυρίως μέρος, που περιέχει τον πυρήνα. Δενδρίτες: λαμβάνουν σήματα από άλλους νευρώνες. Άξονας: παρέχει κοινή έξοδο προς πολλούς άλλους νευρώνες. Συνήθως ~1 cm μήκος (100 φορές η διάμετρος του σώματος). Σύναψη: μέσω ηλεκτροχημικών μηχανισμών μεταβάλλεται η αγωγιμότητά της. Νευρωνικό δίκτυο: δίκτυο συνδεδεμένων νευρώνων. 4
Φυσικά νευρωνικά δίκτυα Εγκέφαλος νεογέννητου ανθρώπου: Δισεκατομμύρια νευρώνες, καθένας συνδεδεμένος με χιλιάδες άλλους νευρώνες. Τρισεκατομμύρια συνάψεις. Ικανότητα μάθησης: Θεωρείται ότι οφείλεται εν μέρει στην ικανότητα προσαρμογής της αγωγιμότητας των συνάψεων. Χρόνος απόκρισης. Χρόνος απόκρισης νευρώνων: ~ msec (αργοί σε σχέση με τρανζίστορ). Όμως συχνά οι άνθρωποι λαμβάνουν πολύπλοκες αποφάσεις πιο γρήγορα από ό,τι οι υπολογιστές (π.χ. κατανόηση φυσικής γλώσσας, αναγνώριση προσώπων). Πολύ περισσότερες συνάψεις, ίσως και περισσότερο παράλληλη επεξεργασία. 5
Τεχνητά νευρωνικά δίκτυα Τεχνητός νευρώνας: Είσοδοι: πραγματικές τιμές. Βάρη εισόδων: πραγματικές τιμές (χονδρικά συνάψεις). Σώμα: υπολογίζει το ζυγισμένο άθροισμα των εισόδων, κατόπιν εφαρμόζει τη συνάρτηση ενεργοποίησης στο ζυγισμένο άθροισμα. Origina image from the book of Vahavas et a. w 1 x 2 x2 x n w 2 w n S = w i x i i soma Φ(S) output 6
+1 0 Συναρτήσεις ενεργοποίησης Φ(S) Φ(S) Φ(S) Φ(S) Φ(S) Φ(S) Κατώφλι threshod T step function +1 +1 SS SS SS 1-1 threshod T Κατώφλι T sign function +1 0 aα 1 aα 2 α 1 a> 1 >a α 2 α) Βηματικήσυνάρτηση β) Συνάρτησηπροσήμου γ) Σιγμοειδήςσυνάρτηση ( S) sigmoid (ogistic function) 1 1 e as Η σιγμοειδής συνάρτηση έχει, μεταξύ άλλων, το πλεονέκτημα ότι είναι παντού παραγωγίσιμη. Top images from the book of Vahavas et a. Bottom image from http://datascience.stackexchange.com/questions/5706/ Rectified Linear Unit (ReLU) 7
Perceptron Μόνο ένας νευρώνας, με συνάρτηση ενεργοποίησης προσήμου. Ισοδύναμα, με βηματική (step) συνάρτηση ενεργοποίησης. Το Perceptron μπορεί να γενικευθεί (έγινε αργότερα), ώστε να χρησιμοποιεί σιγμοειδή ή άλλη συνάρτηση ενεργοποίησης. Μπορούμε να χρησιμοποιήσουμε πολλαπλά Perceptrons (π.χ. ένα x 2 x2 x n για την αναγνώριση κάθε Φ(S) γράμματος). w 1 w 2 w n +1 0 S Κατώφλι T +1-1 Φ(S) S threshod T Κατώφλι T α) Βηματικήσυνάρτηση β) Συνάρτησηπροσήμου S = w i x i i soma Φ(S) +1 1 Φ(S) output S Origina images from the book of Vahavas et a. 8
Λογικές συναρτήσεις με Perceptron αληθές: 1, ψευδές: -1 x 2 w 1 = 10.5 w 2 = 10.5 Βηματική προσήμου Τ= Τ = 1.5 0.8 AND x 2 w 1 = 0.5 1 w 1 1 = 0.5 Βηματική προσήμου Τ Τ= = 0.5 0.3 OR w = -1 Βηματική προσήμου Τ= Τ -0.5 = 0 NOT Δεν μπορούν να αναπαρασταθούν όλες οι λογικές συναρτήσεις με μόνο ένα Perceptron. Π.χ. XOR. 9
Υλοποίηση XOR με δύο επίπεδα x 2 x 2 w 1 = 0.5 1 w 2 = 10.5 w 1 w = = 10.5 w 2 = 10.5 Βηματική προσήμου Τ= Τ = 1.5 0.8 AND ουσιαστικά AND (NOT x 2 ) Βηματική προσήμου Τ= Τ = 1.5 0.8 ουσιαστικά AND (NOT ) AND x 2 x 2 αληθές: 1, ψευδές: -1 w 1 = 0.5 1 w 1 1 = 0.5 Βηματική προσήμου Τ Τ= = 0.5 0.3 OR Κάθε λογική συνάρτηση μπορεί να υλοποιηθεί με δίκτυο Perceptrons δύο επιπέδων. 10
Το σκεφτόμαστε πια συνήθως ως αλγόριθμο, αλλά ήταν μηχάνημα! Από την παρουσίαση «Mutiayer Neura Networks» του L. Bottou στο Deep Learning Summer Schoo 2015 (βλ. http://videoectures.net/deepearning2015_montrea/).
ΤΝΔ πολλαπλών επιπέδων w 14 4 Κρυφό Επίπεδο w 48 1 w 15 w 24 w 34 w 49 8 y 8 w 25 5 w 58 w 59 x 2 2 w 35 w 68 w 16 w 26 6 w 69 w 36 9 y 9 x 3 3 w 27 w 17 w 78 w 79 w 37 Επίπεδο Εισόδου 7 Επίπεδο Εξόδου 12
ΤΝΔ πολλών επιπέδων Νευρώνες εισόδου: δεν εκτελούν ουσιαστικά υπολογισμούς. Συνήθως μόνο μία είσοδος στον καθένα, μοναδιαίο βάρος, Φ(S) = S. Χρήσιμοι αν θέλουμε να προσθέσουμε μια σταθερά στην κάθε είσοδο ή να πολλαπλασιάσουμε την είσοδο με κάποιο βάρος (ή πίνακα). Επίπεδο εξόδου και ενδιάμεσα («κρυφά») επίπεδα. ΤΝΔ με απλή τροφοδότηση (feed-forward networks): Οι είσοδοι ενός νευρώνα δεν μπορούν να προέρχονται από νευρώνες του ίδιου ή επόμενου επιπέδου. Θα περιοριστούμε σε αυτό το είδος. ΤΝΔ με ανατροφοδότηση (recurrent networks): Είσοδοι και από νευρώνες του ίδιου ή επόμενου επιπέδου. Η έξοδος εξαρτάται και από την προηγούμενη κατάσταση του δικτύου. Χρησιμοποιούνται (πάλι) τελευταία πολύ σε ΤΝΔ που επεξεργάζονται ακολουθίες (π.χ. ακολουθίες λέξεων κειμένων). Έχουν μελετηθεί και ως μοντέλα βραχυχρόνιας μνήμης. 13
Μάθηση με ΤΝΔ y x 2 y = Φ(w 3,5 x 3,5 + w 4,5 x 4,5 ) = Φ(w 3,5 Φ(w 1,3 + w 2,3 x 2 ) + w 4,5 Φ(w 1,4 + w 2,4 x 2 )) Μεταβάλλοντας τα βάρη μαθαίνουμε διαφορετική συνάρτηση. Ποιες συναρτήσεις μπορούμε να μάθουμε; Εξαρτάται από τον αριθμό των επιπέδων, τη συνδεσμολογία, τους νευρώνες ανά επίπεδο. 14
Επιβλεπόμενη μάθηση: Μάθηση με ΤΝΔ Εκπαίδευση: παρέχονται είσοδοι και οι επιθυμητές αποκρίσεις. Τα βάρη προσαρμόζονται, ώστε να παράγονται οι επιθυμητές αποκρίσεις. Χρήση: παρέχονται είσοδοι. Χρησιμοποιούμε τα βάρη που προέκυψαν από την εκπαίδευση και εμπιστευόμαστε τις αποκρίσεις. Κατάταξη σε δύο κατηγορίες: συνήθως ένας νευρώνας εξόδου. Αν η έξοδός του ξεπερνά ένα κατώφλι, κατατάσσουμε στη μία κατηγορία, διαφορετικά στην άλλη. Με περισσότερες κατηγορίες: συνήθως ένας νευρώνας εξόδου για κάθε κατηγορία. (Μία περίπτωση μπορεί να ανήκει σε πολλές κατηγορίες.) Μάθηση συνεχούς συνάρτησης (πρόβλημα παλινδρόμησης): συνήθως ένας ή περισσότεροι νευρώνες εξόδου (π.χ. στροφή, επιτάχυνση αυτοκινήτου). Μη επιβλεπόμενη μάθηση: Π.χ. ΤΝΔ μπορούν να χρησιμοποιηθούν και για την αυτόματη ομαδοποίηση (custering) διανυσμάτων εισόδου. 15
Αλγόριθμος εκπαίδευσης Perceptron 1. Ξεκίνα με τυχαία βάρη. 2. Θέσε i 1 και s 0. 3. Έστω η επιθυμητή απόκριση για το i-στό παράδειγμα () i και η τρέχουσα απόκριση για το παράδειγμα αυτό. o t () i s s E ( w) 4. Θέσε, με: 5. Ενημέρωσε τα βάρη: i w E ( w) 1 2 [ t o ] ( i) ( i) 2 i ( i) ( i) ( i) ( ) w w t o x 6. Αν υπάρχει (i+1)-στό παράδειγμα, θέσε ii1 και πήγαινε στο βήμα 3. 7. Αν s και δεν υπερβήκαμε το μέγιστο αριθμό επαναλήψεων («εποχών»), πήγαινε στο βήμα 2. Το η είναι θετική μικρή σταθερά (π.χ. 0,1).
Ενημέρωση βαρών Perceptron w w ( t o ) x ( i) ( i) ( i) Αν t o = 0, καμία αλλαγή. Αν t > ο, τότε η. (t o) > 0: Αν x > 0, το βάρος της εισόδου αυξάνεται. Αν x < 0, το βάρος της εισόδου μειώνεται. Αυξάνουμε τα w των θετικών x. Μειώνουμε τα w των αρνητικών x. Αν t < ο, τότε η. (t o) < 0: Αν x > 0, το βάρος της εισόδου μειώνεται. Αν x < 0, το βάρος της εισόδου αυξάνεται. Μειώνουμε τα w των θετικών x. Αυξάνουμε τα w των αρνητικών x. o w x ( i) ( i) Αυξάνεται το: () i wx Αυξάνεται (ή μένει ίση) η έξοδος, γιατί η Φ είναι (όχι γνησίως) αύξουσα. Μειώνεται το: (όχι γνησίως) αύξουσα. 17 () i wx Μειώνεται (ή μένει ίση) η έξοδος, γιατί η Φ είναι
Γραμμική διαχωρισιμότητα Ο αλγόριθμος του Perceptron συγκλίνει, αν τα παραδείγματα εκπαίδευσης είναι γραμμικά διαχωρίσιμα (και το η είναι αρκετά μικρό). Υπάρχουν βελτιώσεις που εξασφαλίζουν ότι συγκλίνει πάντα, αλλά σε προσεγγιστική λύση. Γραμμικά διαχωρίσιμα παραδείγματα σημαίνει: Στην περίπτωση δύο ιδιοτήτων (, x 2 ), να υπάρχει ευθεία που να διαχωρίζει τα αρνητικά από τα θετικά παραδείγματα. Γενικότερα στην περίπτωση m ιδιοτήτων, να υπάρχει ένα υπερ-επίπεδο που να διαχωρίζει τα αρνητικά από τα θετικά παραδείγματα. 18
Γραμμική διαχωρισιμότητα x 2 x 2? 1 + + 1-1 -1 1 AND XOR Το Perceptron (όπως και ένας ταξινομητής λογιστικής παλινδρόμησης) μπορεί να μάθει μόνο γραμμικά διαχωρίσιμες συναρτήσεις (άσκηση μελέτης). Για μη γραμμικά διαχωρίσιμες, χρειαζόμαστε ΤΝΔ με κρυφά επίπεδα. Χοντρικά: Με 1 κρυφό επίπεδο μπορούμε να μάθουμε οποιαδήποτε (φραγμένη) συνεχή συνάρτηση. Με 2 κρυφά επίπεδα μπορούμε να μάθουμε οποιαδήποτε συνάρτηση. (Χρησιμοποιώντας σιγμοειδείς συναρτήσεις στα κρυφά επίπεδα και Φ(S) = S στο επίπεδο εξόδου και στις δύο περιπτώσεις.) Μπορεί, όμως, να χρειαστεί μεγάλος αριθμός νευρώνων στα κρυφά επίπεδα. Δύσκολο να προσδιοριστεί πόσους ακριβώς νευρώνες χρειαζόμαστε. -1-1 1 + 19
Perceptron με σιγμοειδή ή άλλη Φ Γενικότερα, αν χρησιμοποιούμε συνάρτηση ενεργοποίησης Φ αντί για βηματική/προσήμου: w w '( w x ) ( t w x ) x ( i) ( i) ( i) ( i) 1 1 e Για ( S), '( S) ( S) (1 ( S)). S i Και αφού o βαρών γίνεται: w x ( ) ( i), ο κανόνας ενημέρωσης των ( i) ( i) ( i) ( i) ( i) w w o (1 o ) ( t o ) x 20
Πώς προκύπτει ο κανόνας ενημέρωσης; Μέτρο σφάλματος στο τρέχον παράδειγμα εκπαίδευσης: 1 ( i) ( i) 2 1 ( i) ( i) 2 Ei( w) ( t o ) ( t wx ) 2 2 Ξεκινώ με τυχαία βάρη. Μετράω Η κλίση E ( w) είναι ένα w 1 σφάλμα Ei ( w) στο τρέχον παράδειγμα εκπαίδευσης με τα τρέχοντα βάρη w. Προς τα πού να μεταβάλω τα βάρη; i διάνυσμα που δείχνει προς την κατεύθυνση μεταβολής των βαρών που οδηγεί στη μεγαλύτερη αύξηση του Ε i. Το Ei ( w) δείχνει προς την μεγαλύτερη μείωση του Ε i. E ( w) i Για κάθε παράδειγμα, έχουμε διαφορετική υπερεπιφάνεια E i. Πηγή εικόνας: http://en.wikipedia.org/wiki/gradient_descent w 0 Τροποποιούμε τα w i κατά η προς την κατεύθυνση που προκαλεί τη μεγαλύτερη μείωση του E i : w w E ( w) Στοχαστική κατάβαση κλίσης. i
Κανόνας ενημέρωσης βαρών Perceptron με Φ 1 1 Ei( w) ( t o ) ( t w x ) 2 2 E ( w) E ( w) E ( w) Ei ( w),...,,, w w w i i i 1 ( ( i) ( i) t w ) x Ei ( t w x ) ( t o ) ' w x x w ( i) ( i) ( i) ( i) ( i) ( i) w 1 ( i) ( i) ( i) ( i) ( i) Άρα: Ei ( w) ( t o ) ' w x x,..., x n ( i) ( i) ( i) ( i) ( t o ) '( w x ) x Κανόνας ενημέρωσης βαρών: w w E ( w) w ( t o ) '( w x ) x Οπότε: i w w ( t o ) '( w x ) x n ( i) ( i) 2 ( i) ( i) 2 1 n ( i) ( i) ( i) ( i) ( i) ( i) ( i) ( i) 22
Αλγόριθμος ανάστροφης μετάδοσης (back-propagation) Χρησιμοποιείται για την εκπαίδευση ΤΝΔ απλής τροφοδότησης με πολλαπλά επίπεδα. Εδώ παρατίθεται ο αλγόριθμος για την περίπτωση όπου υπάρχει μόνο ένα κρυφό επίπεδο. Γενικεύεται εύκολα για περισσότερα κρυφά επίπεδα. Θεωρούμε εδώ ότι έχουμε σιγμοειδείς συναρτήσεις ενεργοποίησης (με α = 1) και μέσο τετραγωνικό σφάλμα. Συμβολισμός: Aπόκριση του ΤΝΔ σε ένα παράδειγμα: <o 1, o 2, > Βάρος σύνδεσης από νευρώνα i σε νευρώνα j: w ij Είσοδος από το νευρώνα i στο νευρώνα j: x ij 23
Αλγόριθμος ανάστροφης μετάδοσης w 14 4 Κρυφό Επίπεδο w 48 1 w 15 w 24 w 34 w 49 8 yo 8 8 w 25 υπολογισμός αποκρίσεων 5 w 58 w 59 x 2 2 w 35 w 68 w 36 w 16 w 26 υπολογισμός σφαλμάτων 6 w 69 9 yo 99 x 3 3 w 27 w 17 w 78 w 79 w 37 Επίπεδο Εισόδου 7 Επίπεδο Εξόδου 24
Αλγόριθμος ανάστροφης μετάδοσης Αρχικοποίησε όλα τα βάρη σε μικρές τυχαίες τιμές (π.χ. μεταξύ 0,05 και 0,05). Όσο δεν ικανοποιείται η συνθήκη τερματισμού: Νέα εποχή: Για κάθε παράδειγμα εκπαίδευσης: Υπολόγισε την απόκριση <o 1, o 2, > του δικτύου. Για κάθε νευρώνα j του επιπέδου εξόδου: Για κάθε νευρώνα j του κρυφού επιπέδου: Για κάθε βάρος w ij : o (1 o ) ( t o ) j j j j j o (1 o ) w j j j jk k k w w x ij ij j ij Οι τύποι προκύπτουν με υπολογισμούς (παραγώγιση) αντίστοιχους εκείνων του Perceptron (βλ. άσκηση μελέτης). 25
Ανάστροφη μετάδοση: περισσότερα Συνθήκη τερματισμού: υπερβήκαμε ένα μέγιστο αριθμό εποχών (συχνά χιλιάδες) ή το συνολικό σφάλμα της εποχής υπολογισμένο στα παραδείγματα εκπαίδευσης βρίσκεται εντός επιθυμητών ορίων ή το συνολικό σφάλμα εποχής υπολογισμένο σε (διαφορετικά) παραδείγματα επικύρωσης είναι εντός επιθυμητών ορίων ή έχει αρχίσει πλέον να ανεβαίνει (λόγω υπερ-εφαρμογής). Δεν εγγυάται ότι θα βρει τη βέλτιστη λύση: Ουσιαστικά αλγόριθμος αναρρίχησης λόφων. Κίνδυνος εγκλωβισμού σε τοπικό μέγιστο. Για να αποφύγουμε τα τοπικά μέγιστα, εκπαιδεύουμε π.χ. πολλές φορές με διαφορετικά αρχικά βάρη. Επιλέγουμε τα καλύτερα τελικά βάρη, αξιολογώντας σε δεδομένα επικύρωσης (όχι στα δεδομένα αξιολόγησης!). 26
Πιο συμπαγής συμβολισμός Διάνυσμα εισόδου (π.χ. ενδείξεις αισθητήρων αυτοκινήτου) x 2 x 3 w 3,k x m w 1,1 w 2,1 w m,k n 1 w m,1 w m,3 n 2 n 3 n k m Φ s 1 = Φ w i,1 x i i=1 m Φ s 2 = Φ w i,2 x i i=1 m Φ s 3 = Φ w i,3 x i i=1 m Φ s k = Φ w i,k x i i=1 27
Πιο συμπαγής συμβολισμός w 1,1 w 2,1 n 1 w m,1 Φ s 1 s 1 s 2 s 3 s k = w 1,1 + w 2,1 x 2 + + w m,1 x m w 1,2 + w 2,2 x 2 + + w m,2 x m w 1,3 + w 2,3 x 2 + + w m,3 x m w 1,k + w 2,k x 2 + + w m,k x m x 2 x 3 w 3,k x m w m,k n 2 n 3 w m,3 n k Φ s 2 Φ s 3 Φ s k s 1 s 2 s 3 s k = Ԧs = W Ԧx Ԧo = w 1,1 w 2,1 w m,1 w 1,2 w 2,2 w m,2 w 1,3 w 2,3 w m,3 w 1,k w 2,k w m,k ο 1 ο 2 ο 3 ο k = Φ(s 1 ) Φ(s 2 ) Φ(s 3 ) Φ(s κ ) x 2 x 3 x m Μαθαίνουμε τον W με ανάστροφη μετάδοση. = Φ Ԧs = Φ W Ԧx 28
Πιο συμπαγής συμβολισμός n 1,1 o 1,1 x 2 n 1,2 o 1,2 x 3 n 1,3 o 1,3 x m W (1) n 1,k1 o 1,k1 Ԧo (1) = ο 1,1 ο 1,2 = Φ Ԧs (1) = Φ W (1) Ԧx ο 1,k1 29
Πιο συμπαγής συμβολισμός n 1,1 n 2,1 o 2,1 x 2 n 1,2 n 2,2 o 2,2 x 3 n 1,3 n 2,3 o 2,3 Μαθαίνουμε τους W (1), W (2) με ανάστροφη μετάδοση. x m W (1) n 1,k1 W (2) n 2,k2 o 2,k2 Ԧo (1) = ο 1,1 ο 1,2 = Φ Ԧs (1) = Φ W (1) Ԧx ο 1,k1 Ԧo (2) = ο 2,1 ο 2,2 = Φ Ԧs (2) = Φ W (2) Ԧo (1) ο 2,k2 30
Παράδειγμα παλινδρόμησης (regression) Διάνυσμα εισόδου (π.χ. ενδείξεις αισθητήρων αυτοκινήτου) Σωστές έξοδοι (π.χ. γωνία τιμονιού, γκάζι) n 1,1 n 2,1 o 2,1 1 t 1 x 2 n 1,2 n 2,2 o 2,2 2 t 2 x 3 n 1,3 n 2,3 o 2,3 3 t 3 x m W (1) Ԧo (1) = tanh W (1) Ԧx Ԧo (2) = W (2) Ԧo (1) n 1,k1 W (2) Μέσο τετραγωνικό σφάλμα για το τρέχον διάνυσμα εισόδου o n 2,k2 2,k2 = 1 2 2 j=1 j=1 t k2 k2 k 2 2 j = 1 k 2 2 o 2,j t j 31
Παράδειγμα παλινδρόμησης πιο συμπαγής συμβολισμός Διάνυσμα εισόδου (π.χ. ενδείξεις αισθητήρων αυτοκινήτου) Σωστές έξοδοι (π.χ. γωνία τιμονιού, γκάζι) Ԧx W (1) tanh Ԧo (1) W (2) id Ԧo (2) SqErr Ԧt Ԧo (1) = tanh W (1) Ԧx Ԧo (2) = W (2) Ԧo (1) Μαθαίνουμε τους πίνακες W (1), W (2) με ανάστροφη μετάδοση. 32
Russe & Norvig: ενότητα 20.5. Βιβλιογραφία Οι υπολογισμοί των κανόνων ενημέρωσης βαρών της ανάστροφης μετάδοσης (και η σχετική άσκηση μελέτης) είναι εκτός ύλης, αλλά πολύ σημαντικοί για όσους ενδιαφέρονται ιδιαίτερα για την ΤΝ. Όσοι ενδιαφέρονται μπορούν να διαβάσουν προαιρετικά και τις υπόλοιπες ενότητες του κεφαλαίου 20 (εξαιρώντας τα περί δικτύων Bayes), καθώς και το κεφάλαιο 21 (ενισχυτική μάθηση). Βλαχάβας κ.ά: κεφάλαιο 19 ως και ενότητα 19.4.3 Όσοι ενδιαφέρονται μπορούν να διαβάσουν προαιρετικά και τις υπόλοιπες ενότητες του κεφαλαίου 19, καθώς και το κεφάλαιο 20. Τα τελευταία χρόνια τα ΤΝΔ με πολλά επίπεδα (Deep NNs) έχουν επιδείξει εξαιρετικά αποτελέσματα σε πολλές εφαρμογές. Αναγνώριση εικόνων, φωνής κλπ. Συχνά απαιτούνται GPUs ή/και custers και πολύ μεγάλα σύνολα δεδομένων. Βλ. http://videoectures.net/deepearning2016_montrea/