ΠΛΗ 405 Τεχνητή Νοηµοσύνη Αναζήτηση µε Αντι αλότητα Adversarial Search Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης
Ε ανάληψη Προβλήµατα ικανο οίησης εριορισµών ορισµός και χαρακτηριστικά Ε ίλυση ροβληµάτων ικανο οίησης εριορισµών αναζήτηση µε υπαναχώρηση τοπική αναζήτηση οµή ροβληµάτων ανεξάρτητα υποπροβλήµατα δένδρα περιορισµών αφαίρεση µεταβλητών αποσύνθεση δένδρου
Παιχνίδια παιχνίδια ως αναζήτηση Βέλτιστες στρατηγικές στρατηγική minimax Βελτιώσεις κλάδεµα α-β Σήµερα
Παιχνίδια Games
Παιχνίδια ανταγωνιστικά πολυπρακτορικά περιβάλλοντα όπου οι στόχοι των πρακτόρων είναι αλληλοσυγκρουόµενοι Θεωρία αιγνίων (game theory) µαθηµατική θεωρία, κλάδος των οικονοµικών κάθε πράκτορας έχει «σηµαντική» επίδραση στους άλλους Γιατί τα µελετάµε; καλές επίδοσεις = δείγµα ευφυίας δύσκολο, ενδιαφέρον, διασκεδαστικό, µακρόχρονο πρόβληµα Συνηθέστερα αιχνίδια στην ΤΝ αιτιοκρατικά (deterministic), δύο παικτών, εκ περιτροπής (turn-taking), µηδενικού αθροίσµατος (zero-sum), µε τέλεια πληροφόρηση (perfect information)
Τύ οι Παιχνιδιών Τύ οι Παιχνιδιών Τέλεια Πληροφόρηση (perfect information) Ατελής Πληροφόρηση (imperfect information) Αιτιοκρατικά (deterministic) Σκάκι Ντάµα Othello Πέτρα-Χαρτί-Ψαλίδι Ναυµαχία Stratego Mastermind Minesweeper Τυχαία (chance) Τάβλι Monopoly Γκρινιάρης Tetris Poker Αγωνία Scrabble 21, 31
Παιχνίδια και Τεχνητή Νοηµοσύνη Ιστορία πρώτες υπολογιστικοί τρόποι παιξίµατος (Babbage, 1846) πρώτες βέλτιστες στρατηγικές (Zermelo, 1912; Von Neumann, 1944) πρώτο πρόγραµµα για σκάκι (Turing, 1951) πρώτη χρήση µηχανικής µάθησης για βελτίωση (Samuel, 1952-57) Σήµερα σκάκι: Deep Blue νίκη επί Garry Kasparov το 1997 ντάµα: Chinook παγκόσµιος πρωταθλητής τάβλι: TD-gammon νικητής υπολογιστικής ολυµπιάδας 1989 Othello: Logistello νίκη 6-0 επί του παγκόσµιου πρωταθλητή Εξαίρεση: Go, ο υπολογιστής δεν µπορεί να νικήσει τον µέσο άθρωπο
Παιχνίδια και Αναζήτηση Αναζήτηση δεν υπάρχει αντίπαλος αντιµετώπιση: (ευριστική) µέθοδος για την εύρεση στόχου ζητούµενο: εύρεση βέλτιστου στόχου χωρίς χρονικό περιορισµό αξιολόγηση: κόστος από την αρχική κατάσταση έως το στόχο Παιχνίδια υπάρχει αντίπαλος (απρόβλεπτος) αντιµετώπιση: στρατηγική µια ενέργεια για κάθε αντίπαλη ενέργεια ζητούµενο: εύρεση καλύτερης λύσης µέσα σε χρονικά όρια αξιολόγηση: ποιότητα τρέχουσας κατάστασης ως προς το στόχο
Παιχνίδια ως Αναζήτηση Γενικοί κανόνες 2 παίκτες: MAXimizer και MINimizer (o ΜΑΧ παίζει πρώτος) παίζουν εναλλάξ µέχρι το τέλος (νικητής και ηττηµένος) Αναζήτηση κατάσταση: διάταξη του αβακίου και παίκτης που έχει σειρά διαδοχή: ζεύγη (νόµιµη κίνηση, επόµενη κατάσταση) τερµατική κατάσταση: τερµατισµός του παιχνιδιού απολαβή: αριθµητική αξιολόγηση τερµατικών καταστάσεων Ανα αράσταση δένδρο παιχνιδιού (game tree) µε εναλλαγή κινήσεων (παικτών)
ένδρο Παιχνιδιού
Βέλτιστες Στρατηγικές Optimal Strategies
Στρατηγική Minimax MINIMAX-VALUE(n)= mins successors(n)minimax-value(s) maxs successors(n)minimax-value(s) UTILITY(n) If nis a max terminal node επίλεξε την κίνηση που µεγιστοποιεί την minimax τιµή (ΜΑΧ) Στρατηγική περιπτωσιακή (contingent) για κάθε δυνατή κίνηση του αντιπάλου Minimax επίλεξε την κίνηση που ελαχιστοποιεί την minimax τιµή (ΜΙΝ) Υ όθεση ο αντίπαλος είναι αλάνθαστος, παίζει πάντα την βέλτιστη κίνηση
Παράδειγµα: Στρατηγική Minimax
Αλγόριθµος Υ ολογισµού Minimax
Χαρακτηριστικά Αλγορίθµου Minimax Υ ολογισµός χωρική πλήρης µέθοδος (σε πεπερασµένα O(bm)ή O(m) δένδρα) βέλτιστη µέθοδος (ως προς την χειρότερη περίπτωση) Πολυ λοκότητα b νόµιµες κινήσες ανά στρώση (ply), m στρώσεις πολυπλοκότητα: O(bm) χρονική πολυπλοκότητα: Ποιότητα συντηρητική στρατηγική πρακτικά ανεπαρκής [b 35, m 100 για το σκάκι]
Παιχνίδια Πολλών Παικτών αντί για µεµονωµένες minimax τιµές, έχουµε διανύσµατα τιµών όλοι οι παίκτες είναι MAXimizers! µπορεί να προκύψουν συµµαχίες µεταξύ παικτών
Κλάδεµα α-β α-β pruning
Κλάδεµα άλφα-βήτα (α-β pruning) Πρόβληµα εκθετικός αριθµός καταστάσεων εκθετικός χρόνος Ερώτηµα υπολογισµός minimax χωρίς επίσκεψη όλων των κόµβων; ναι, κλάδεµα κόµβων που δεν επηρεάζουν την τελική απόφαση Ορισµοί α: τιµή της καλύτερης επιλογής (µεγαλύτερη τιµή) που έχει βρεθεί οπουδήποτε κατά µήκος της διαδροµής του ΜΑΧ β: τιµή της καλύτερης επιλογής (µικρότερη τιµή) που έχει βρεθεί οπουδήποτε κατά µήκος της διαδροµής του ΜΙΝ οι κόµβοι µε τιµές εκτός του διαστήµατος [α,β] κλαδεύονται
Παράδειγµα: Κλάδεµα άλφα-βήτα
nκαι αν στον ο παίκτης mκόµβοι του δένδρου Λογική γονέα έχει του καλύτερη κόµβου επιλογή m: Κλαδέµατος n α-β τότε ο σε θα παίκτης ο οποιοδήποτε nµπορεί προτιµήσει δεν θα να φθάσει την αποκοπεί επιλογήm ποτέ πάνω στον από τον nn Λογική
Αλγόριθµος Κλαδέµατος α-β
Παράδειγµα: Β 8Α Κλάδεµα α-β (3 στρώσεις) LEM NFO PG C Q RHS TI D MAX 3 8 7 1 U 8VJ8 W10XK MIN 2 3 8 5 7 6 0 1 5 2 8 410 YMAX 2 3 1 5
Β 7Α Ε ίδραση της Σειράς Εξέτασης ιαδόχων E F G H CΜΑΧ I J K DL ΜΙΝ 1 2 3 4 5Α 6 7 8 M Β 9 MΜΙΝ D ΜΑΧ L K J CI 6 H G F3 9 8 7 6 5 4 3 2 E1 1 4 7 7 7
Μείωση Πολυ λοκότητας Χρονική ολυ λοκότητα από Ο(bm) σε Ο(bm/2) : µέγιστη δυνατή µείωση ουσιαστικά, επιτρέπει την εξερεύνηση σε διπλάσιο βάθος δένδρου ευρετικές µέθοδοι για τη σειρά εξέτασης των κινήσεων τυχαία εξέταση διαδόχων: µέση πολυπλοκότητα Ο(b3m/4) Ε αναλαµβανόµενες καταστάσεις σε παιχνίδια µε αντιµεταθέσεις λύση: πίνακας αντιµεταθέσεων (transposition table) παρέχει δυνατότητα για επιπλέον κλάδεµα
Σύγγραµµα Ενότητες 6.1 6.3 Μελέτη