ΠΛΗ 405 Τεχνητή Νοηµοσύνη Ιστορική Αναδροµή Πράκτορες και Περιβάλλοντα Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης
Ε ανάληψη άνθρωπος ορθολογισµός σκέψη δράση Να σκέφτεται ανθρώ ινα Να ενεργεί ανθρώ ινα Να σκέφτεται ορθολογικά Να ενεργεί ορθολογικά
Σήµερα Καταβολές συνεισφορά άλλων επιστηµών στην ΤΝ Ιστορική αναδροµή 1956 σήµερα Πράκτορες χαρακτηριστικά στοιχεία και είδη πρακτόρων Περιβάλλοντα χαρακτηρισµοί και ιδιότητες
Φιλοσοφία (428.Χ. σήµερα) Υ άρχουν τυ ικοί κανόνες για εξαγωγή συµ ερασµάτων; Αριστοτέλης: ακριβές σύνολο νόµων για ορθολογική νόηση Πώς ροκύ τει η νόηση α ό τον εγκέφαλο; υλισµός (materialism): η νόηση υπόκειται στους φυσικούς νόµους δυϊσµός (dualism): µέρος της νόησης είναι εκτός του φυσικού κόσµου Α ό ού ροέρχεται η γνώση; εµπειρικισµός, λογικός θετικισµός, θεωρία της επιβεβαίωσης Πώς η γνώση οδηγεί σε δράση; λογική σύνδεση µεταξύ στόχων και γνώσης αποτελεσµάτων των ενεργειών Αριστοτέλης: πρώτος αλγόριθµος σχεδιασµού µε οπισθοχώρηση!
Μαθηµατικά (800 µ.χ. σήµερα) Ποιοι οι τυ ικοί κανόνες για εξαγωγή συµ ερασµάτων; λογική (logic) George Boole (1847) λογική πρώτης τάξης (first-order logic) Gottlob Frege (1879) Τι µ ορεί να υ ολογιστεί και τι όχι; θεώρηµα µη πληρότητας (incompleteness) Godel (1931) αλγόριθµοι, θεωρία υπολογισµού, επιλυσιµότητα Turing (1936) NP-πληρότητα (NP-completeness) Cook (1971), Karp (1972) Πώς συλλογιζόµαστε µε ασαφείς ληροφορίες; θεωρία πιθανοτήτων Cardano, Fermat, Pascal, Bernoulli, Laplace ο κανόνας Bayes (Bayes rule) Thomas Bayes (1702-1761)
Οικονοµικά (1776 σήµερα) Πώς α οφασίζουµε για µεγιστο οίηση α ολαβών; η έννοια της χρησιµότητας (utility) θεωρία αποφάσεων (decision theory) = πιθανότητες+χρησιµότητα Πώς α οφασίζουµε όταν υ άρχει ανταγωνισµός; θεωρία παιγνίων (game theory) Πώς α οφασίζουµε µε ροο τική µελλοντικής α ολαβής; επιχειρησιακή έρευνα (operations research) Μαρκωβιανές διεργασίες απόφασης (MDP) Bellman (1957)
Νευροε ιστήµες (1861 σήµερα) Πώς ε εξεργάζεται ο εγκέφαλος τις ληροφορίες; µια συλλογή νευρώνων που οδηγεί στη νόηση;
Νευροε ιστήµες (1861 σήµερα) Υπολογιστικές µονάδες Αποθηκευτικές µονάδες Υπολογιστής 1 CPU, 10 8 πύλες 10 10 bit RAM 10 11 bit δίσκου Ανθρώπινος εγκέφαλος 10 11 νευρώνες 10 11 νευρώνες 10 14 συνάψεις Χρόνος κύκλου Εύρος ζώνης Ενηµερώσεις µνήµης/sec 10 9 sec 10 10 bit/sec 10 9 10 3 sec 10 14 bit/sec 10 14 ο υπολογιστής είναι 1.000.000 πιο γρήγορος από τον εγκέφαλο ο εγκέφαλος παράγει 100.000 περισσότερο, λόγω παραλληλισµού υπάρχει διαφορά και στην κατανάλωση ισχύος
Ψυχολογία (1879 σήµερα) Πώς σκέφτονται και ενεργούν άνθρω οι και ζώα; πειραµατική ψυχολογία: ενδοσκόπηση οργανισµού συµπεριφορισµός (behaviorism): µόνο είσοδος έξοδος γνωστική ψυχολογία (cognitive psychology) πρώτες µορφές πράκτορα γνωστική επιστήµη (cognitive science) ψυχολογία + υπολογιστικά µοντέλα
Τεχνολογία Υ ολογιστών (1940-σήµερα) Πώς κατασκευάζουµε ένα α οδοτικό υ ολογιστή; ΤΝ = νοηµοσύνη + τεχνούργηµα ραγδαία εξέλιξη των λειτουργικών υπολογιστών αµοιβαία σχέση CS και ΑΙ χρονοµερισµός αλληλεπιδραστικοί ερµηνευτές συµβολικός προγραµµατισµός συναρτησιακός προγραµµατισµός
Θεωρία Ελέγχου (1948 σήµερα) Πώς µ ορούν τα τεχνουργήµατα να αυτοελέγχονται; υδραυλικό ρολόι µε ρυθµιστή (Κτισήβιος ο Αλεξανδρινός, 250π.Χ.) θεωρία ελέγχου και κυβερνητική Weiner (1894-1964) στοχαστικός βέλτιστος έλεγχος (stochastic optimal control) µεγιστοποίηση αντικειµενικής συνάρτησης (objective function) διαφορά ΤΝ και θεωρίας ελέγχου; ΤΝ: διακριτά συστήµατα ΘΕ: συνεχή συστήµατα
Γλωσσολογία (1957 σήµερα) Πώς σχετίζεται η γλώσσα µε τη σκέψη; συµπεριφορική µάθηση της γλώσσας Skinner (1957) συντακτικά µοντέλα γλωσσών Chomsky (1950) υπολογιστική γλωσσολογία (computational linguistics) επεξεργασία φυσικής γλώσσας (natural language processing)
Ιστορική Αναδροµή 1943-1955 1956 1952-1969 1966-1973 1969-1979 1980-σήµερα 1986-σήµερα 1987-σήµερα 1995-σήµερα Η κυοφορία της ΤΝ Η γέννηση της ΤΝ Πρώιµος ενθουσιασµός και µεγάλες ροσδοκίες Μια δόση ρεαλισµού Συστήµατα βασισµένα σε γνώση Η ΤΝ γίνεται βιοµηχανία Η ε ιστροφή των νευρωνικών δικτύων Η ΤΝ γίνεται ε ιστήµη Η εµφάνιση των ευφυών ρακτόρων
Ιστορία της ΤΝ (1) 1943-1955: Η κυοφορία της ΤΝ 1943: τεχνητοί νευρωνικά δίκτυα (McCulloch και Pitts) 1949: µέθοδος µάθησης νευρωνικών συνάψεων (Hebb) 1950: Computing Machinery and Intelligence (Turing) 1951: πρώτος νευρωνικός υπολογιστής (Minsky και Edmonds) 1956: Η γέννηση της ΤΝ δίµηνη συνάντηση εργασίας στο Dartmouth College το πρόγραµµα Logic Theorist (Newell και Simon) εµφάνιση του όρου «Τεχνητή Νοηµοσύνη» (McCarthy) η ΤΝ µελετάται ως ξεχωριστό επιστηµονικό πεδίο
Ιστορία της ΤΝ (2) 1952-1969: Πρώιµος ενθουσιασµός και ροσδοκίες 1952: πρόγραµµα για «ντάµα» που µαθαίνει (Samuel) 1958: η γλώσσα Lisp, Advice Taker (McCarthy) 1959: Geometry Theorem Prover (Gelernter) 1959: εργαστήριο ΤΝ στο MIT (Minsky και McCarthy) 1961: General Problem Solver (Newell και Simon) 1960: νευρωνικά δίκτυα Adalines (Widrow) 1962: νευρωνικά δίκτυα Perceptrons (Rosenblatt) 1963: εργαστήριο ΤΝ στο Stanford University (McCarthy) 1963: µικρόκοσµοι (microworlds) 1969: το ροµπότ Shakey στο Stanford
Ιστορία της ΤΝ (3) 1966-1973: Μια δόση ρεαλισµού φτωχά αποτελέσµατα, curse of dimensionality 1966: παύεται η χρηµατοδότηση αυτόµατης µετάφρασης στις ΗΠΑ παράδειγµα: «το µεν πνεύµα πρόθυµο, η δε σαρξ ασθενής» 1969: απόρριψη των perceptrons (Minsky και Papert) 1973: παύεται η χρηµατοδότηση έρευνας ΤΝ στη Μ. Βρετανία 1969-1979: Συστήµατα βασισµένα σε γνώση 1969: εύρεση µοριακής δοµής DENDRAL (Βuchanan et al.) 1970: διάγνωση µολύνσεων του αίµατος MYCIN (Stanford) 1970: η γλώσσα Prolog 1975: πλαίσια (frames) ως µέθοδος αναπαράστασης γνώσης
Ιστορία της ΤΝ (4) 1980-σήµερα: Η ΤΝ γίνεται βιοµηχανία 1982: έµπειρο σύστηµα R1 για πωλήσεις DEC (McDermott) 40 εγκατεστηµένα συστήµατα εξοικονόµηση $40.000.000 το χρόνο (1986) 1981: πρόγραµµα «Πέµπτη Γενιά» (Ιαπωνία) ακολούθησαν οι «απαντήσεις» από ΗΠΑ (MCC) και Μ. Βρετανία IKBS: Intelligence Knowledge-Based Systems τέλος 1980: ο χειµώνας της ΤΝ 1986-σήµερα: Η ε ιστροφή των νευρωνικών δικτύων 1982: νευρωνικά δίκτυα και στατιστική µηχανική (Hopfield) 1986: Backpropagation (1969), Parallel Distributed Processing
Ιστορία της ΤΝ (5) 1987-σήµερα: Η ΤΝ γίνεται ε ιστήµη επανάσταση στο περιεχόµενο και στη µεθοδολογία τα επιτεύγµατα στηρίζονται σε αυστηρές θεωρίες αποδοχή µόνο µετά από απόδειξη ή αυστηρό πειραµατισµό άρση της αποµόνωσης και συνεργασία µε άλλα πεδία κρυφά µοντέλα Markov (hidden Markov models) εξόρυξη δεδοµένων (data mining) δίκτυα Bayes (Bayesian networks) µηχανική µάθηση (machine learning) 1995-σήµερα: Η εµφάνιση των ευφυών ρακτόρων ενοποίηση όλων των επιµέρους τοµέων
Πράκτορας και Περιβάλλον
Πράκτορας Πράκτορας (agent) έχει αισθητήρες (sensors) και ε ενεργητές (actuators) αντιλαµβάνεται το εριβάλλον µέσω των αισθητήρων επεµβαίνει στο εριβάλλον µέσω των ε ενεργητών ανθρώ ινοι (human) πράκτορες αισθητήρες: µάτια, αυτιά, µύτη,... επενεργητές: χέρια, πόδια, στόµα,... ροµ οτικοί (robotic) πράκτορες αισθητήρες: κάµερες, ανιχνευτές υπέρυθρων,... επενεργητές: κινητήρες, βραχίονες, ρόδες,... λογισµικοί (software) πράκτορες αισθητήρες: πληκτρολόγιο, αρχεία, πακέτα δικτύου,... επενεργητές: εκτύπωση στην οθόνη, εγγραφή στο δίσκο,...
Πράκτορας Αντιλήψεις (percepts) η πληροφορία από τους αισθητήρες σε κάθε χρονική στιγµή Ενέργειες (actions) η εκδήλωση των επενεργητών σε κάθε χρονική στιγµή Ακολουθία αντιλήψεων (percept sequence) πλήρες ιστορικό αντιλήψεων χρονικά ταξινοµηµένο Συνάρτηση ράκτορα (agent function) απεικόνιση από ακολουθίες αντιλήψεων σε ενέργειες εξωτερικός προσδιορισµός: πίνακας εσωτερική υλοποίηση: πρόγραµµα
Ένας Α λός Πράκτορας Αντιλήψεις ωµάτιο (Α/Β), Σκόνη (ναι/όχι) Ενέργειες Αριστερά, εξιά, Αναρρόφηση Ακολουθία αντιλήψεων [Α, Καθαρό] [Α, Σκονισµένο] [Β, Καθαρό] [Β, Σκονισµένο] [Α, Καθαρό], [Α, Καθαρό] [Α, Καθαρό], [Β, Σκονισµένο]... Ενέργεια εξιά Αναρρόφηση Αριστερά Αναρρόφηση εξιά Αναρρόφηση... Program Vacuum_Cleaner... if (σκόνη) then αναρρόφηση if (Α) then δεξιά if (Β) then αριστερά...
Ορθολογικοί Πράκτορες Μέτρο α όδοσης (performance measure) αντικειµενικός ορισµός επιτυχούς συµπεριφοράς του πράκτορα αρχή σχεδιασµού: τι θέλουµε να κάνει, όχι ώς θα το κάνει Ορθολογικός ράκτορας (rational agent) επιλέγει ενέργειες που µεγιστοποιούν το µέτρο απόδοσης χρησιµοποιεί την ακολουθία αντιλήψεων και την έµφυτη γνώση Ορθολογικότητα δε σηµαίνει παντογνωσία ή τελειότητα µεγιστοποίηση της αναµενόµενης απόδοσης
Αυτόνοµοι Πράκτορες Υ ολογισµός συνάρτησης ράκτορα ενσωµατωµένες προεπιλεγµένες ενέργειες (έµφυτη γνώση) επιλογή επόµενης ενέργειας µε βάση τις αντιλήψεις (απόφαση) τροποποίηση και βελτίωση της συνάρτησης (µάθηση) Αυτονοµία σταδιακή αποδέσµευση από την αρχική (έµφυτη) γνώση ικανότητα απόφασης και µάθησης τελική συµπεριφορά ανεξάρτητη από αρχική γνώση θεωρητικά, ένας πλήρως αυτόνοµος πράκτορας αρκεί
Περιβάλλον Εργασιών Περιβάλλον εργασιών (task environment) Περιβάλλον=Πρόβληµα, Πράκτορας=Λύση Περιγραφή PEAS Performance measure, Environment, Actuators, Sensors Πράκτορας για Internet Shopping Μέτρο α όδοσης Περιβάλλον Ε ενεργητές Αισθητήρες τιµή www αναζήτηση σελίδες HTML ποιότητα e-shops επιλογή συνδέσµου κωδικοί προϊόντων καταλληλότητα comparison stores συµπλήρωση φόρµας τιµές αποδοτικότητα εταιρίες µεταφορών εκτύπωση αποδείξεων τρόποι πληρωµής
Ιδιότητες Περιβάλλοντος Παρατηρησιµότητα πλήρως παρατηρήσιµο (fully observable) µερικώς παρατηρήσιµο (partially observable) Προβλεψιµότητα αιτιοκρατικό (deterministic) στοχαστικό (stochastic) στρατηγικό (strategic) Εξάρτηση επεισοδιακό (episodic) ακολουθιακό (sequential)
Ιδιότητες Περιβάλλοντος Μεταβλητότητα στατικό (static) δυναµικό (dynamic) ηµιδυναµικό (semi dynamic) Περιγραφή διακριτό (discrete) συνεχές (continuous) Πλήθος µονοπρακτορικό (single-agent) πολυπρακτορικό (multi-agent) ανταγωνιστικό (competitive) ή συνεργατικό (cooperative)
Περιβάλλοντα ύσκολα εριβάλλοντα µερικώς παρατηρήσιµα στοχαστικά ακολουθιακά δυναµικά συνεχή πολυπρακτορικά Εύκολα εριβάλλοντα πλήρως παρατηρήσιµα αιτιοκρατικά επεισοδιακά στατικά διακριτά µονοπρακτορικά
Παραδείγµατα Περιβαλλόντων Σταυρόλεξο Πλήρως Αιτιοκρατικό Ακολουθιακό Στατικό ιακριτό Ένας Σκάκι µε χρονόµετρο Πλήρως Στρατηγικό Ακολουθιακό Ηµι ιακριτό Πολλοί Πόκερ Μερικώς Στοχαστικό Ακολουθιακό Στατικό ιακριτό Πολλοί Τάβλι Πλήρως Στοχαστικό Ακολουθιακό Στατικό ιακριτό Πολλοί Οδήγηση ταξί Μερικώς Στοχαστικό Ακολουθιακό υναµικό Συνεχές Πολλοί Ιατρική διάγνωση Μερικώς Στοχαστικό Ακολουθιακό υναµικό Συνεχές Ένας Ανάλυση εικόνων Πλήρως Αιτιοκρατικό Επεισοδιακό Ηµι Συνεχές Ένας Ροµ ότ διαλογής εξαρτηµάτων Μερικώς Στοχαστικό Επεισοδιακό υναµικό Συνεχές Ένας Ελεγκτής διυλιστηρίου Μερικώς Στοχαστικό Ακολουθιακό υναµικό Συνεχές Ένας Αλληλε ιδραστικός εκ αιδευτής Αγγλικής Μερικώς Στοχαστικό Ακολουθιακό υναµικό ιακριτό Πολλοί
Υλο οίηση Πρακτόρων Υλο οίηση ράκτορα πίνακας ή πρόγραµµα; πρόγραµµα: υπολογίζει τη συνάρτηση πράκτορα αρχιτεκτονική: εκτελεί το πρόγραµµα πράκτορα πράκτορας = αρχιτεκτονική + πρόγραµµα Είδη ρογραµµάτων ρακτόρων απλοί αντανακλαστικοί (simple reflex) πράκτορες αντανακλαστικοί πράκτορες βασισµένοι σε µοντέλο (model-based) πράκτορες βασισµένοι σε στόχο (goal-based) πράκτορες βασισµένοι σε χρησιµότητα (utility-based)
Α λοί Αντανακλαστικοί Πράκτορες
Αντανακλαστικοί Πράκτορες µε Μοντέλο
Πράκτορες βασισµένοι σε Στόχους
Πράκτορες βασισµένοι σε Χρησιµότητα
Μάθηση Πράκτορες ου µαθαίνουν προσχεδιασµένο πρόγραµµα = χρονοβόρα διαδικασία δυνατότητα µάθησης = αυτόµατη σχεδίαση προγράµµατος και τα 4 είδη πρακτόρων µπορούν να ενισχυθούν µε µάθηση Ενσωµάτωση µάθησης στοιχείο εκτέλεσης (performance element): ένα από τα 4 είδη στοιχείο µάθησης (learning element): υπεύθυνο για βελτιώσεις κριτική (critic): κρίση ως προς ένα σταθερό πρότυπο απόδοσης γεννήτρια προβληµάτων (problem generator): νέες εµπειρίες
Πράκτορες ου µαθαίνουν
Σύγγραµµα Ενότητα 1.2-1.3, 2.1-2.5 Μελέτη