ΠΛΗ 405 Τεχνητή Νοηµοσύνη ιδάσκων Μιχαήλ Γ. Λαγουδάκης Ε ίκουρος Καθηγητής Τοµέας Πληροφορικής Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης
Το µάθηµα Στόχοι αντιµετώπιση δύσκολων πρακτικών προβληµάτων τεχνικές και εργαλεία µε ευρεία εφαρµογή γνωριµία µε ένα χώρο που εξελίσσεται από τη δεκαετία του 50 περισσότερο αριθµητικές, λιγότερο λογικές µέθοδοι Οφέλη εµπειρία µε ευριστικούς αλγορίθµους για δύσκολα προβλήµατα εκτίµηση δυσκολίας τεχνητής νοηµοσύνης προετοιµασία για διπλωµατικές, µεταπτυχιακά ενδιαφέρουσα και ανοικτή ερευνητική περιοχή
Σύγγραµµα Τεχνητή Νοηµοσύνη: Μια σύγχρονη ροσέγγιση Stuart Russell και Peter Norvig Εκδόσεις Κλειδάριθµος 2004 Συµ ληρωµατικό Υλικό ιαφάνειες, άρθρα
ιδακτέα Ύλη Ι Ιστορική αναδροµή θεµελίωση και φιλοσοφία της Τεχνητής Νοηµοσύνης συσχετιζόµενες επιστήµες και επιρροές Πράκτορες δοµή και αλληλεπίδραση µε το περιβάλλον µετρικές απόδοσης, αυτονοµία, µάθηση Αναζήτηση επίλυση προβληµάτων µε αναζήτηση στο χώρο καταστάσεων τεχνικές απληροφόρητης αναζήτησης
ιδακτέα Ύλη ΙΙ Πληροφορηµένη Αναζήτηση ευριστικές συναρτήσεις και ευριστική αναζήτηση τοπική αναζήτηση (αναρρίχηση, προσοµοίωση ανόπτησης) παράλληλη αναζήτηση (γενετικοί αλγόριθµοι) Ικανο οίηση Περιορισµών αναζήτηση µε υπαναχώρηση και τοπική αναζήτηση Αναζήτηση υ ό αντι αλότητα βασική θεωρία παιγνίων και βέλτιστες στρατηγικές αναζήτηση minimax, expectminimax, κλάδεµα α-β ευριστικές συναρτήσεις αξιολόγησης
ιδακτέα Ύλη ΙΙΙ Λογική προτασιακή λογική και λογική πρώτης τάξης συλλογιστική και συµπερασµός λογικός προγραµµατισµός και αναπαράσταση γνώσης Σχεδιασµός εύρεση πλάνου ενεργειών για την επίτευξη κάποιου στόχου αναπαράσταση προβληµάτων σχεδιασµού και αλγόριθµοι Πολυ ρακτορικά συστήµατα πολυπρακτορικός σχεδιασµός
ιαδικαστικά Προα αιτούµενα µαθηµατικά: συνδυαστική, λογική, θεωρία γράφων αλγόριθµοι: σχεδιασµός, ανάλυση, υλοποίηση διαδικαστικός προγραµµατισµός (C, C++, Java) Εργασίες δύο σειρές γραπτών ασκήσεων (µε λίγο προγραµµατισµό) µία εργασία προγραµµατισµού παίκτες για το παιχνίδι Othello / Reversi πληροφορηµένη ευριστική αναζήτηση και κλάδεµα α-β ο κεντρικός server και ο σκελετός του κώδικα είναι διαθέσιµα τουρνουά Othello µε όλους τους παίκτες
Βαθµολόγηση Θεωρία (50%) τελική γραπτή εξέταση υποχρεωτική τουλάχιστον 5/10 Εργασίες (50%) γραπτές ασκήσεις (20%) εργασία προγραµµατισµού (30%) προαιρετικές (θεωρητικά) Ε αναλη τικές εξετάσεις αναπλήρωση της τελικής εξέτασης µόνο
Ερωτήσεις; Καλό Ξεκίνηµα
Σήµερα Ορισµοί της Τεχνητής Νοηµοσύνης (ΤΝ) κριτήρια νοηµοσύνης Καταβολές συνεισφορά άλλων επιστηµών στην ΤΝ Ιστορική αναδροµή 1956 σήµερα Πράκτορες χαρακτηριστικά στοιχεία και είδη πρακτόρων Περιβάλλοντα χαρακτηρισµοί και ιδιότητες
Τεχνητή Νοηµοσύνη
Ορισµός της ΤΝ άνθρωπος ορθολογισµός σκέψη δράση Να σκέφτεται ανθρώπινα Να ενεργεί ανθρώπινα Να σκέφτεται ορθολογικά Να ενεργεί ορθολογικά
Ανθρώ ινη Σκέψη Γνωστική (νευρο)ε ιστήµη - cognitive (neuro)science ψυχολογία της επεξεργασίας της πληροφορίας στον εγκέφαλο νόηση: ακολουθία βηµάτων συλλογισµού σε κέντρα λειτουργιών ακριβής θεωρία της ανθρώπινης νόησης Ε ίκυρωση ψυχολογικά πειράµατα σε ανθρώπους ερµηνεία πειραµάτων σε άνθρωπους (top-down) εντοπισµός περιοχών του εγκεφάλου (bottom-up) GPS (General Problem Solver) Newell and Simon, 1961
Ανθρώ ινη ράση Προσοµοίωση ανθρώ ινης συµ εριφοράς ανεξάρτητα από εσωτερική λειτουργία έµφαση στο αποτέλεσµα, όχι στις µεθόδους παράδειγµα: πρόοδος στην αεροναυπηγική Turing Test (1950) δοκιµασία διάκρισης που περικλείει πολλές περιοχές της ΤΝ
Ορθολογική Σκέψη Κανόνες της σκέψης Αριστοτέλειοι συλλογισµοί («ο Σωκράτης είναι θνητός») θεωρία της λογικής, αξιώµατα, συµπερασµός, αποδείξεις Λογικιστική ΤΝ αναπαράσταση µε προτάσεις λογικής λογικός συµπερασµός = σκέψη όλα τα προβλήµατα µπορούν να λυθούν εάν αναπαρασταθούν Εµ όδια ανεπάρκεια αναπαράστασης για άτυπη και αβέβαιη γνώση ανεπάρκεια υπολογιστικών πόρων για τυπικά προβλήµατα
Ορθολογική ράση Πράκτορας πράκτορας (agent) = αυτός που πράττει ορθολογικός πράκτορας (rational agent) επιδίωξη του καλύτερου (αναµενόµενου) αποτελέσµατος αντικειµενικός ορισµός του «καλύτερου» ορθολογικός συµπερασµός: χρήσιµος, αλλά όχι το παν δεν προϋποθέτει σκέψη (αντανακλαστικές ενέργειες) έµφαση στη συµπεριφορά, όχι στη διαδικασία
Ποιος ορισµός είναι καλύτερος; άνθρωπος ορθολογισµός σκέψη δράση Να σκέφτεται ανθρώπινα Να ενεργεί ανθρώπινα Να σκέφτεται ορθολογικά Να ενεργεί ορθολογικά
Καταβολές
Φιλοσοφία (428.Χ. σήµερα) Υ άρχουν τυ ικοί κανόνες για εξαγωγή συµ ερασµάτων; Αριστοτέλης: ακριβές σύνολο νόµων για ορθολογική νόηση Πώς ροκύ τει η νόηση α ό τον εγκέφαλο; υλισµός (materialism): η νόηση υπόκειται στους φυσικούς νόµους δυϊσµός (dualism): µέρος της νόησης είναι εκτός του φυσικού κόσµου Α ό ού ροέρχεται η γνώση; εµπειρικισµός, λογικός θετικισµός, θεωρία της επιβεβαίωσης Πώς η γνώση οδηγεί σε δράση; λογική σύνδεση µεταξύ στόχων και γνώσης αποτελεσµάτων των ενεργειών Αριστοτέλης: πρώτος αλγόριθµος σχεδιασµού µε οπισθοχώρηση!
Μαθηµατικά (800 µ.χ. σήµερα) Ποιοι οι τυ ικοί κανόνες για εξαγωγή συµ ερασµάτων; λογική (logic) George Boole (1847) λογική πρώτης τάξης (first-order logic) Gottlob Frege (1879) Τι µ ορεί να υ ολογιστεί και τι όχι; θεώρηµα µη πληρότητας (incompleteness) Godel (1931) αλγόριθµοι, θεωρία υπολογισµού, επιλυσιµότητα Turing (1936) NP-πληρότητα (NP-completeness) Cook (1971), Karp (1972) Πώς συλλογιζόµαστε µε ασαφείς ληροφορίες; θεωρία πιθανοτήτων Cardano, Fermat, Pascal, Bernoulli, Laplace ο κανόνας Bayes (Bayes rule) Thomas Bayes (1702-1761)
Οικονοµικά (1776 σήµερα) Πώς α οφασίζουµε για µεγιστο οίηση α ολαβών; η έννοια της χρησιµότητας (utility) θεωρία αποφάσεων (decision theory) = πιθανότητες+χρησιµότητα Πώς α οφασίζουµε όταν υ άρχει ανταγωνισµός; θεωρία παιγνίων (game theory) Πώς α οφασίζουµε µε ροο τική µελλοντικής α ολαβής; επιχειρησιακή έρευνα (operations research) Μαρκωβιανές διεργασίες απόφασης (MDP) Bellman (1957)
Νευροε ιστήµες (1861 σήµερα) Πώς ε εξεργάζεται ο εγκέφαλος τις ληροφορίες; µια συλλογή νευρώνων που οδηγεί στη νόηση;
Νευροε ιστήµες (1861 σήµερα) Υπολογιστικές µονάδες Αποθηκευτικές µονάδες Υπολογιστής 1 CPU, 10 8 πύλες 10 10 bit RAM 10 11 bit δίσκου Ανθρώπινος εγκέφαλος 10 11 νευρώνες 10 11 νευρώνες 10 14 συνάψεις Χρόνος κύκλου Εύρος ζώνης Ενηµερώσεις µνήµης/sec 10 9 sec 10 10 bit/sec 10 9 10 3 sec 10 14 bit/sec 10 14 ο υπολογιστής είναι 1.000.000 πιο γρήγορος από τον εγκέφαλο ο εγκέφαλος παράγει 100.000 περισσότερο, λόγω παραλληλισµού υπάρχει διαφορά και στην κατανάλωση ισχύος
Ψυχολογία (1879 σήµερα) Πώς σκέφτονται και ενεργούν άνθρω οι και ζώα; πειραµατική ψυχολογία: ενδοσκόπηση οργανισµού συµπεριφορισµός (behaviorism): µόνο είσοδος έξοδος γνωστική ψυχολογία (cognitive psychology) πρώτες µορφές πράκτορα γνωστική επιστήµη (cognitive science) ψυχολογία + υπολογιστικά µοντέλα
Τεχνολογία Υ ολογιστών (1940-σήµερα) Πώς κατασκευάζουµε ένα α οδοτικό υ ολογιστή; ΤΝ = νοηµοσύνη + τεχνούργηµα ραγδαία εξέλιξη των λειτουργικών υπολογιστών αµοιβαία σχέση CS και ΑΙ χρονοµερισµός αλληλεπιδραστικοί ερµηνευτές συµβολικός προγραµµατισµός συναρτησιακός προγραµµατισµός
Θεωρία Ελέγχου (1948 σήµερα) Πώς µ ορούν τα τεχνουργήµατα να αυτοελέγχονται; υδραυλικό ρολόι µε ρυθµιστή (Κτισήβιος ο Αλεξανδρινός, 250π.Χ.) θεωρία ελέγχου και κυβερνητική Weiner (1894-1964) στοχαστικός βέλτιστος έλεγχος (stochastic optimal control) µεγιστοποίηση αντικειµενικής συνάρτησης (objective function) διαφορά ΤΝ και θεωρίας ελέγχου; ΤΝ: διακριτά συστήµατα ΘΕ: συνεχή συστήµατα
Γλωσσολογία (1957 σήµερα) Πώς σχετίζεται η γλώσσα µε τη σκέψη; συµπεριφορική µάθηση της γλώσσας Skinner (1957) συντακτικά µοντέλα γλωσσών Chomsky (1950) υπολογιστική γλωσσολογία (computational linguistics) επεξεργασία φυσικής γλώσσας (natural language processing)
Ιστορική Αναδροµή
Ιστορική Αναδροµή 1943-1955 1956 1952-1969 1966-1973 1969-1979 1980-σήµερα 1986-σήµερα 1987-σήµερα 1995-σήµερα Η κυοφορία της ΤΝ Η γέννηση της ΤΝ Πρώιµος ενθουσιασµός και µεγάλες προσδοκίες Μια δόση ρεαλισµού Συστήµατα βασισµένα σε γνώση Η ΤΝ γίνεται βιοµηχανία Η επιστροφή των νευρωνικών δικτύων Η ΤΝ γίνεται επιστήµη Η εµφάνιση των ευφυών πρακτόρων
Ιστορία της ΤΝ (1) 1943-1955: Η κυοφορία της ΤΝ 1943: τεχνητά νευρωνικά δίκτυα (McCulloch και Pitts) 1949: µέθοδος µάθησης νευρωνικών συνάψεων (Hebb) 1950: Computing Machinery and Intelligence (Turing) 1951: πρώτος νευρωνικός υπολογιστής (Minsky και Edmonds) 1956: Η γέννηση της ΤΝ δίµηνη συνάντηση εργασίας στο Dartmouth College το πρόγραµµα Logic Theorist (Newell και Simon) εµφάνιση του όρου «Τεχνητή Νοηµοσύνη» (McCarthy) η ΤΝ µελετάται ως ξεχωριστό επιστηµονικό πεδίο
Ιστορία της ΤΝ (2) 1952-1969: Πρώιµος ενθουσιασµός και ροσδοκίες 1952: πρόγραµµα για «ντάµα» που µαθαίνει (Samuel) 1958: η γλώσσα Lisp, Advice Taker (McCarthy) 1959: Geometry Theorem Prover (Gelernter) 1959: εργαστήριο ΤΝ στο MIT (Minsky και McCarthy) 1961: General Problem Solver (Newell και Simon) 1960: νευρωνικά δίκτυα Adalines (Widrow) 1962: νευρωνικά δίκτυα Perceptrons (Rosenblatt) 1963: εργαστήριο ΤΝ στο Stanford University (McCarthy) 1963: µικρόκοσµοι (microworlds) 1969: το ροµπότ Shakey στο Stanford
Ιστορία της ΤΝ (3) 1966-1973: Μια δόση ρεαλισµού φτωχά αποτελέσµατα, curse of dimensionality 1966: παύεται η χρηµατοδότηση αυτόµατης µετάφρασης στις ΗΠΑ παράδειγµα: «το µεν πνεύµα πρόθυµο, η δε σαρξ ασθενής» 1969: απόρριψη των perceptrons (Minsky και Papert) 1973: παύεται η χρηµατοδότηση έρευνας ΤΝ στη Μ. Βρετανία 1969-1979: Συστήµατα βασισµένα σε γνώση 1969: εύρεση µοριακής δοµής DENDRAL (Βuchanan et al.) 1970: διάγνωση µολύνσεων του αίµατος MYCIN (Stanford) 1970: η γλώσσα Prolog 1975: πλαίσια (frames) ως µέθοδος αναπαράστασης γνώσης
Ιστορία της ΤΝ (4) 1980-σήµερα: Η ΤΝ γίνεται βιοµηχανία 1982: έµπειρο σύστηµα R1 για πωλήσεις DEC (McDermott) 40 εγκατεστηµένα συστήµατα εξοικονόµηση $40.000.000 το χρόνο (1986) 1981: πρόγραµµα «Πέµπτη Γενιά» (Ιαπωνία) ακολούθησαν οι «απαντήσεις» από ΗΠΑ (MCC) και Μ. Βρετανία IKBS: Intelligence Knowledge-Based Systems τέλος 1980: ο χειµώνας της ΤΝ 1986-σήµερα: Η ε ιστροφή των νευρωνικών δικτύων 1982: νευρωνικά δίκτυα και στατιστική µηχανική (Hopfield) 1986: Backpropagation (1969), Parallel Distributed Processing
Ιστορία της ΤΝ (5) 1987-σήµερα: Η ΤΝ γίνεται ε ιστήµη επανάσταση στο περιεχόµενο και στη µεθοδολογία τα επιτεύγµατα στηρίζονται σε αυστηρές θεωρίες αποδοχή µόνο µετά από απόδειξη ή αυστηρό πειραµατισµό άρση της αποµόνωσης και συνεργασία µε άλλα πεδία κρυφά µοντέλα Markov (hidden Markov models) εξόρυξη δεδοµένων (data mining) δίκτυα Bayes (Bayesian networks) µηχανική µάθηση (machine learning) 1995-σήµερα: Η εµφάνιση των ευφυών ρακτόρων ενοποίηση όλων των επιµέρους τοµέων
Ε ιτεύγµατα της ΤΝ Σχεδιασµός: Remote Agent δηµιουργία πλάνων στα οχήµατα της NASA Παιχνίδια: Deep Blue Το 1997 νικήθηκε ο παγκόσµιος πρωταθλητής Ροµ οτική: Stanley αυτόµατη οδήγηση 211 χλµ µέσα σε έρηµο σε 7 ώρες Ε ίλυση σταυρολέξων: Proverb αυτόµατη επίλυση σταυρολέξων µε φυσική περιγραφή Ιατρική ιάγνωση διάφορα έµπειρα συστήµατα (γνώση+πιθανότητες)
Πράκτορες και Περιβάλλοντα
Πράκτορας και Περιβάλλον
Πράκτορας Πράκτορας (agent) έχει αισθητήρες (sensors) και ε ενεργητές (actuators) αντιλαµβάνεται το εριβάλλον µέσω των αισθητήρων επεµβαίνει στο εριβάλλον µέσω των ε ενεργητών ανθρώ ινοι (human) πράκτορες αισθητήρες: µάτια, αυτιά, µύτη,... επενεργητές: χέρια, πόδια, στόµα,... ροµ οτικοί (robotic) πράκτορες αισθητήρες: κάµερες, ανιχνευτές υπέρυθρων,... επενεργητές: κινητήρες, βραχίονες, ρόδες,... λογισµικοί (software) πράκτορες αισθητήρες: πληκτρολόγιο, αρχεία, πακέτα δικτύου,... επενεργητές: εκτύπωση στην οθόνη, εγγραφή στο δίσκο,...
Πράκτορας Αντιλήψεις (percepts) η πληροφορία από τους αισθητήρες σε κάθε χρονική στιγµή Ενέργειες (actions) η εκδήλωση των επενεργητών σε κάθε χρονική στιγµή Ακολουθία αντιλήψεων (percept sequence) πλήρες ιστορικό αντιλήψεων χρονικά ταξινοµηµένο Συνάρτηση ράκτορα (agent function) απεικόνιση από ακολουθίες αντιλήψεων σε ενέργειες εξωτερικός προσδιορισµός: πίνακας εσωτερική υλοποίηση: πρόγραµµα
Ένας Α λός Πράκτορας Αντιλήψεις ωµάτιο (Α/Β), Σκόνη (ναι/όχι) Ενέργειες Αριστερά, εξιά, Αναρρόφηση Ακολουθία αντιλήψεων [Α, Καθαρό] [Α, Σκονισµένο] [Β, Καθαρό] [Β, Σκονισµένο] [Α, Καθαρό], [Α, Καθαρό] [Α, Καθαρό], [Β, Σκονισµένο]... Ενέργεια εξιά Αναρρόφηση Αριστερά Αναρρόφηση εξιά Αναρρόφηση... Program Vacuum_Cleaner... if (σκόνη) then αναρρόφηση if (Α) then δεξιά if (Β) then αριστερά...
Ορθολογικοί Πράκτορες Μέτρο α όδοσης (performance measure) αντικειµενικός ορισµός επιτυχούς συµπεριφοράς του πράκτορα αρχή σχεδιασµού: τι θέλουµε να κάνει, όχι ώς θα το κάνει Ορθολογικός ράκτορας (rational agent) επιλέγει ενέργειες που µεγιστοποιούν το µέτρο απόδοσης χρησιµοποιεί την ακολουθία αντιλήψεων και την έµφυτη γνώση Ορθολογικότητα δε σηµαίνει παντογνωσία ή τελειότητα µεγιστοποίηση της αναµενόµενης απόδοσης
Αυτόνοµοι Πράκτορες Υ ολογισµός συνάρτησης ράκτορα ενσωµατωµένες προεπιλεγµένες ενέργειες (έµφυτη γνώση) επιλογή επόµενης ενέργειας µε βάση τις αντιλήψεις (απόφαση) τροποποίηση και βελτίωση της συνάρτησης (µάθηση) Αυτονοµία σταδιακή αποδέσµευση από την αρχική (έµφυτη) γνώση ικανότητα απόφασης και µάθησης τελική συµπεριφορά ανεξάρτητη από αρχική γνώση θεωρητικά, ένας πλήρως αυτόνοµος πράκτορας αρκεί
Περιβάλλον Εργασιών Περιβάλλον εργασιών (task environment) Περιβάλλον=Πρόβληµα, Πράκτορας=Λύση Περιγραφή PEAS Performance measure, Environment, Actuators, Sensors Πράκτορας για Internet Shopping Μέτρο α όδοσης Περιβάλλον Ε ενεργητές Αισθητήρες τιµή www αναζήτηση σελίδες HTML ποιότητα e-shops επιλογή συνδέσµου κωδικοί προϊόντων καταλληλότητα comparison stores συµπλήρωση φόρµας τιµές αποδοτικότητα εταιρίες µεταφορών εκτύπωση αποδείξεων τρόποι πληρωµής
Ιδιότητες Περιβάλλοντος Παρατηρησιµότητα πλήρως παρατηρήσιµο (fully observable) µερικώς παρατηρήσιµο (partially observable) Προβλεψιµότητα αιτιοκρατικό (deterministic) στοχαστικό (stochastic) στρατηγικό (strategic) Εξάρτηση επεισοδιακό (episodic) ακολουθιακό (sequential)
Ιδιότητες Περιβάλλοντος Μεταβλητότητα στατικό (static) δυναµικό (dynamic) ηµιδυναµικό (semi dynamic) Περιγραφή διακριτό (discrete) συνεχές (continuous) Πλήθος µονοπρακτορικό (single-agent) πολυπρακτορικό (multi-agent) ανταγωνιστικό (competitive) ή συνεργατικό (cooperative)
Περιβάλλοντα ύσκολα εριβάλλοντα µερικώς παρατηρήσιµα στοχαστικά ακολουθιακά δυναµικά συνεχή πολυπρακτορικά Εύκολα εριβάλλοντα πλήρως παρατηρήσιµα αιτιοκρατικά επεισοδιακά στατικά διακριτά µονοπρακτορικά
Παραδείγµατα Περιβαλλόντων Σταυρόλεξο Πλήρως Αιτιοκρατικό Ακολουθιακό Στατικό ιακριτό Ένας Σκάκι µε χρονόµετρο Πλήρως Στρατηγικό Ακολουθιακό Ηµι ιακριτό Πολλοί Πόκερ Μερικώς Στοχαστικό Ακολουθιακό Στατικό ιακριτό Πολλοί Τάβλι Πλήρως Στοχαστικό Ακολουθιακό Στατικό ιακριτό Πολλοί Οδήγηση ταξί Μερικώς Στοχαστικό Ακολουθιακό υναµικό Συνεχές Πολλοί Ιατρική διάγνωση Μερικώς Στοχαστικό Ακολουθιακό υναµικό Συνεχές Ένας Ανάλυση εικόνων Πλήρως Αιτιοκρατικό Επεισοδιακό Ηµι Συνεχές Ένας Ροµ ότ διαλογής εξαρτηµάτων Μερικώς Στοχαστικό Επεισοδιακό υναµικό Συνεχές Ένας Ελεγκτής διυλιστηρίου Μερικώς Στοχαστικό Ακολουθιακό υναµικό Συνεχές Ένας Αλληλε ιδραστικός εκ αιδευτής Αγγλικής Μερικώς Στοχαστικό Ακολουθιακό υναµικό ιακριτό Πολλοί
Υλο οίηση Πρακτόρων Υλο οίηση ράκτορα πίνακας ή πρόγραµµα; πρόγραµµα: υπολογίζει τη συνάρτηση πράκτορα αρχιτεκτονική: εκτελεί το πρόγραµµα πράκτορα πράκτορας = αρχιτεκτονική + πρόγραµµα Είδη ρογραµµάτων ρακτόρων απλοί αντανακλαστικοί (simple reflex) πράκτορες αντανακλαστικοί πράκτορες βασισµένοι σε µοντέλο (model-based) πράκτορες βασισµένοι σε στόχο (goal-based) πράκτορες βασισµένοι σε χρησιµότητα (utility-based)
Α λοί Αντανακλαστικοί Πράκτορες
Αντανακλαστικοί Πράκτορες µε Μοντέλο
Πράκτορες βασισµένοι σε Στόχους
Πράκτορες βασισµένοι σε Χρησιµότητα
Μάθηση Πράκτορες ου µαθαίνουν προσχεδιασµένο πρόγραµµα = χρονοβόρα διαδικασία δυνατότητα µάθησης = αυτόµατη σχεδίαση προγράµµατος και τα 4 είδη πρακτόρων µπορούν να ενισχυθούν µε µάθηση Ενσωµάτωση µάθησης στοιχείο εκτέλεσης (performance element): ένα από τα 4 είδη στοιχείο µάθησης (learning element): υπεύθυνο για βελτιώσεις κριτική (critic): κρίση ως προς ένα σταθερό πρότυπο απόδοσης γεννήτρια προβληµάτων (problem generator): νέες εµπειρίες
Πράκτορες ου µαθαίνουν
Σύγγραµµα Ενότητα 1.1-1.5, 2.1-2.5 Μελέτη