Θεωρία Λήψης Αποφάσεων Ενότητα 8: Αναζήτηση με Αντιπαλότητα Μπεληγιάννης Γρηγόριος Σχολή Οργάνωσης και Διοίκησης Επιχειρήσεων Τμήμα Διοίκησης Επιχειρήσεων Αγροτικών Προϊόντων & Τροφίμων (Δ.Ε.Α.Π.Τ.)
Αναζήτηση με Αντιπαλότητα Υποενότητα 1
Σκοποί 1 ης υποενότητας Να γνωρίσουν οι φοιτητές τα παιχνίδια δύο παικτών μηδενικού αθροίσματος και την αναπαράστασή τους μέσω του δέντρου του παιχνιδιού Να μάθουν οι φοιτητές την έννοια της βέλτιστης στρατηγικής και να μπορούν να εφαρμόζουν τον αλγόριθμο minimax Να μάθουν να εφαρμόζουν τον αλγόριθμο κλαδέματος άλφα βήτα στο δέντρο ενός παιχνιδιού 3
Περιεχόμενα 1 ης υποενότητας Παιχνίδια δύο παικτών μηδενικού αθροίσματος Δέντρο παιχνιδιού Βέλτιστες στρατηγικές Αλγόριθμος minimax Παιχνίδια πολλών παικτών Κλάδεμα άλφα βήτα Ατελείς αποφάσεις σε πραγματικό χρόνο Παιχνίδια τύχης Παιχνίδια ατελούς πληροφόρησης 4
Παιχνίδια δύο παικτών μηδενικού αθροίσματος (1/2) Μπορούν να οριστούν ως ένα είδος προβλήματος αναζήτησης με τις παρακάτω συνιστώσες Την αρχική κατάσταση Προσδιορίζει ποιος παίκτης έχει την πρώτη κίνηση Μια συνάρτηση διαδόχων Επιστρέφει μία λίστα ζευγών (κίνηση, κατάσταση) 5
Παιχνίδια δύο παικτών μηδενικού αθροίσματος (2/2) Έναν έλεγχο τερματισμού Προσδιορίζει πότε τελειώνει το παιχνίδι Οι καταστάσεις στις οποίες το παιχνίδι έχει τελειώσει ονομάζονται τερματικές καταστάσεις Μια αντικειμενική συνάρτηση (ή συνάρτηση χρησιμότητας) Δίνει μια αριθμητική τιμή για τις τερματικές καταστάσεις 6
Δέντρο παιχνιδιού Ορίζεται από την αρχική κατάσταση και τις νόμιμες κινήσεις της κάθε πλευράς Παρουσιάζει όλες τις δυνατές εκβάσεις ενός παιχνιδιού αφού περιέχει όλες τις δυνατές ακολουθίες κινήσεων μεταξύ των δύο παικτών Η αναζήτηση σε αυτό είναι πολλές φορές απαγορευτική σε χρόνο 7
Βέλτιστες στρατηγικές (1/3) Στρατηγικές που οδηγούν σε αποτελέσματα τουλάχιστον το ίδιο καλά με οποιαδήποτε άλλη στρατηγική όταν παίζει κανείς εναντίον ενός αλάνθαστου αντιπάλου 8
Βέλτιστες στρατηγικές (2/3) α 1, α 2, α 3 : αποφάσεις του ΜΑΧ β 1, β 2, β 3 : αποφάσεις του ΜΙΝ ΜΑΧ 5 Α α 1 α 3 α 2 ΜΙΝ 2 Β 4 Γ 5 Δ β 1 β 2 β 3 β 1 β 2 β 3 β 1 β 2 β 3 7 12 2 4 9 7 13 5 6 9
Βέλτιστες στρατηγικές (3/3) Η τιμή minimax ενός κόμβου είναι η χρησιμότητα (για τον MAX) του να βρίσκεται στην αντίστοιχη κατάσταση, με την προϋπόθεση ότι και οι δύο παίκτες παίζουν βέλτιστα από εκείνο το σημείο μέχρι το τέλος του παιχνιδιού Η απόφαση minimax μεγιστοποιεί το αποτέλεσμα της χειρότερης περίπτωσης για τον παίκτη MAX 10
Ο αλγόριθμος minimax ΜΑΧ 5 Α α 1 α 3 α 2 ΜΙΝ 2 4 Β Γ 5 Δ β 1 β 2 β 3 β 1 β 2 β 3 β 1 β 2 β 3 7 12 2 4 9 7 13 5 6 11
Παιχνίδια πολλών παικτών (1/2) Έστω τρεις παίκτες A, B, C Σε κάθε κόμβο αντιστοιχεί ένα διάνυσμα (v A, v B, v C ) Για τις τερματικές καταστάσεις αυτό το διάνυσμα δίνει τη χρησιμότητα της κατάστασης από την άποψη του κάθε παίκτη 12
Παιχνίδια πολλών παικτών (2/2) Παίζει ο παίκτης Α 4,2,6 Παίζει ο παίκτης Β 4,2,6 3,8,5 Παίζει ο παίκτης Γ 4,2,6 6,1,3 3,5,3 3,8,5 4,2,6 3,2,5 7,4,2 6,1,3 4,2,1 3,5,3 6,7,1 3,8,5 13
Κλάδεμα Άλφα Βήτα (1/4) Εφαρμόζεται σε ένα συνηθισμένο δέντρο minimax, επιστρέφει την ίδια κίνηση που θα επέστρεφε η αναζήτηση minimax, αλλά εξαλείφει (δε διαβάζει) τους κόμβους που δεν πρόκειται να επηρεάσουν την τελική απόφαση (έκβαση) 14
Κλάδεμα Άλφα Βήτα (2/4) Έχει πάρει το όνομά του από τις δύο παρακάτω παραμέτρους, που προσδιορίζουν φράγματα για τις τιμές που καταγράφονται κατά μήκος μιας διαδρομής α = η τιμή της καλύτερης επιλογής (με τη μεγαλύτερη τιμή) που έχουμε βρει μέχρι στιγμής σε οποιοδήποτε σημείο επιλογής κατά μήκος της διαδρομής για τον MAX β = η τιμή της καλύτερης επιλογής (με τη μικρότερη τιμή) που έχουμε βρει μέχρι στιγμής σε οποιοδήποτε σημείο επιλογής κατά μήκος της διαδρομής για τον MIN 15
Κλάδεμα Άλφα Βήτα (3/4) Η αναζήτηση άλφα βήτα ενημερώνει τις τιμές των α και β καθώς προχωρά και κλαδεύει τους υπόλοιπους κλάδους που ξεκινούν από ένα κόμβο μόλις γίνει γνωστό ότι η τιμή του τρέχοντος κόμβου είναι χειρότερη από την τρέχουσα τιμή του α ή του β για τον MAX ή τον MIN, αντίστοιχα 16
Κλάδεμα Άλφα Βήτα (4/4) 7 Α ΜΑΧ 1 D 4 C 7 B ΜΙΝ M L K 9 1 J I H G F H 9 2 3 4 5 6 7 8 9 7 Α ΜΑΧ 7 D 6 C 3 B ΜΙΝ M L K J I H G F H 9 8 7 6 5 4 3 2 1 17
Ελάττωση πολυπλοκότητας Αρχική πολυπλοκότητα του minimax Ο(b m ) Μέγιστη δυνατή ελάττωση με άλφα βήτα Ο(b m/2 ) Ουσιαστικά μας επιτρέπει να ελέγξουμε τις ακολουθίες κινήσεων σε διπλάσιο βάθος Συνήθως χρησιμοποιούνται ευρετικές μέθοδοι για τη σειρά εξέτασης των κινήσεων 18
Ατελείς αποφάσεις σε πραγματικό χρόνο Η συνάρτηση χρησιμότητας αντικαθίσταται από μια ευρετική συνάρτηση αξιολόγησης, η οποία δίνει μια εκτίμηση της χρησιμότητας της θέσης (κατάστασης) Ο έλεγχος τερματισμού αντικαθίσταται από έναν έλεγχο αποκοπής, που αποφασίζει πότε θα εφαρμοστεί η ευρετική συνάρτηση αξιολόγησης 19
Συναρτήσεις αξιολόγησης Σταθμισμένη γραμμική συνάρτηση Eval(s)=w 1 f 1 (s)+w 2 f 2 (s)+ +w n f n (s) όπου κάθε w i είναι ένα βάρος και κάθε f i είναι ένα χαρακτηριστικό της θέσης (κατάστασης) Π.χ. στο σκάκι, τα f i θα μπορούσαν να είναι οι αριθμοί των κομματιών του κάθε είδους, που υπάρχουν στη σκακιέρα, και τα w i θα μπορούσαν να είναι οι αξίες των κομματιών, δηλαδή 1 για το πιόνι, 3 για τον αξιωματικό, 3 για το άλογο, 5 για τον πύργο, 10 για τη βασίλισσα 20
Δυνατότητες Αποκοπή αναζήτησης Επιλογή σταθερού βάθους αναζήτησης (ορίζοντας) Επαναληπτική εκβάθυνση (μέχρι να εξαντληθεί ο χρόνος) 21
Επίδραση του ορίζοντα Ο 1 ος παίκτης μπορεί να καθυστερήσει μια καλή κίνηση του 2 ου παίκτη για αρκετά βήματα (επίπεδα αναζήτησης κινήσεις) είτε παίζοντας αμυντικά είτε οδηγώντας το παιχνίδι σε επαναλαμβανόμενες κινήσεις Έτσι, η καλή κίνηση του 1 ου παίκτη υπάρχει περίπτωση να μην μπορεί να ανιχνευθεί για μικρούς ορίζοντες 22
Τάβλι (1/2) Ένα δέντρο παιχνιδιού στο τάβλι πρέπει να περιλαμβάνει κόμβους τύχης Οι κλάδοι που ξεκινούν από κάθε κόμβο τύχης αντιπροσωπεύουν τις δυνατές ζαριές και στον καθένα αναγράφεται η ζαριά και η πιθανότητα να συμβεί Υπάρχουν 36 τρόποι για να ριφθούν τα ζάρια, όλοι εξίσου πιθανοί 23
Τάβλι (2/2) Επειδή όμως το 6 5 είναι ίδιο με το 5 6, υπάρχουν μόνο 21 διαφορετικές ζαριές Οι έξι «διπλές» (1 1 έως 6 6) έχουν πιθανότητα 1/36 να εμφανιστούν, ενώ οι άλλες 15 διαφορετικές ζαριές έχουν πιθανότητα 1/18 η κάθε μία 24
Κόμβοι τύχης Οι κόμβοι τύχης συνήθως συμβολίζονται με κύκλο Από κάθε κόμβο τύχης ξεκινούν τόσες γραμμές (κλάδοι) όσες είναι οι πιθανές εκβάσεις (αποτελέσματα) του γεγονότος που εκφράζει ο κόμβος Κάθε γραμμή συνοδεύεται από την πιθανότητα να συμβεί η συγκεκριμένη έκβαση για το γεγονός 25
Αξιολόγηση θέσης σε παιχνίδια με κόμβους τύχης Η συνάρτηση αξιολόγησης πρέπει να εκφράζει σωστά την πιθανότητα νίκης από μια θέση Πρέπει να είναι ένας θετικός γραμμικός μετασχηματισμός της πιθανότητας νίκης από μια θέση ΜΑΧ 2,1 TYXH 2,1 1,3 0,9 0,1 0,9 0,1 ΜΙΝ 2 3 1 4 2 3 4 3 1 5 4 6 26
Παιχνίδια ατελούς πληροφόρησης (1/2) Παιγνίδια με τραπουλόχαρτα Δεν είναι γνωστή η κατάσταση του αντιπάλου Όταν η πληροφόρηση είναι ελλιπής, πρέπει κανείς να εξετάζει τι πληροφορίες θα έχει σε κάθε σημείο του παιχνιδιού Το πρόβλημα του αλγορίθμου MAX είναι ότι θεωρεί πως, σε κάθε δυνατή μοιρασιά, το παιχνίδι θα εξελιχθεί σαν να ήταν όλα τα χαρτιά ορατά 27
Παιχνίδια ατελούς πληροφόρησης (2/2) Αναζήτηση όχι στο χώρο των καταστάσεων του κόσμου αλλά στο χώρο των καταστάσεων πεποίθησης (τις πεποιθήσεις σχετικά με το ποιος έχει ποια χαρτιά και με τι πιθανότητες) Καλό είναι να προδίδουμε στον αντίπαλο όσο το δυνατόν λιγότερες πληροφορίες ενεργώντας απρόβλεπτα 28
Τέλος Υποενότητας 1
Ασκήσεις σε προβλήματα αναζήτησης με αντιπαλότητα Υποενότητα 2
Σκοποί 2 ης υποενότητας Να μπορούν οι φοιτητές να επιλύουν διάφορες ασκήσεις σχετικές με προβλήματα αναζήτησης με αντιπαλότητα χρησιμοποιώντας τη θεωρία της συγκεκριμένης ενότητας 31
Περιεχόμενα 2 ης υποενότητας 1 η Άσκηση: ο αλγόριθμος minmax 2 η Άσκηση: ο αλγόριθμος άλφα βήτα 3 η Άσκηση: ο αλγόριθμος άλφα βήτα 32
1 η Άσκηση: Αλγόριθμος min max (1/4) Έχουμε μία σειρά από N νομίσματα, όπου N άρτιος αριθμός Κάθε νόμισμα έχει αξία v i, όπου 1 i Ν Δύο παίκτες, Α και Β, παίζουν εναλλάξ, και καθένας από αυτούς επιλέγει κάθε φορά να αφαιρέσει ένα από τα δύο ακριανά νομίσματα της σειράς 33
1 η Άσκηση: Αλγόριθμος min max (2/4) Το παιχνίδι ολοκληρώνεται όταν αφαιρεθούν όλα τα νομίσματα Κερδίζει ο παίκτης που έχει συγκεντρώσει τη μεγαλύτερη αξία νομισμάτων 34
1 η Άσκηση: Αλγόριθμος min max (3/4) Έστω N=4, και ειδικότερα η σειρά των νομισμάτων είναι η 4 6 3 2 Πρώτος παίζει ο παίκτης Α Βρείτε ποιος παίκτης θα κερδίσει, δεδομένου ότι και οι δύο παίκτες παίζουν βέλτιστα 35
1 η Άσκηση: Αλγόριθμος min max Υπόδειξη: (4/4) Κατασκευάστε το δέντρο του παιχνιδιού (δέντρο πλήρους πληροφόρησης) μέχρι τους τερματικούς κόμβους και εφαρμόστε τον αλγόριθμο min max Πως θα παιχτεί το παιχνίδι; 36
2 η Άσκηση: Αλγόριθμος άλφα βήτα (1/2) Εφαρμόστε τον αλγόριθμο άλφα βήτα στο παρακάτω δέντρο και περιγράψτε πως θα παιχτεί το παιχνίδι 37
2 η Άσκηση: Αλγόριθμος άλφα βήτα (2/2) ΜΑΧ ΜΙΝ ΜΑΧ 1 2 3 4 3 2 4 1 5 7 1 2 1 4 3 3 Σε κάθε κόμβο ο αλγόριθμος διαβάζει πρώτα την τιμή του αριστερού παιδιού του και ύστερα, αν χρειαστεί, την τιμή του δεξιού παιδιού 38
3 η Άσκηση: Αλγόριθμος άλφα βήτα (1/2) Εφαρμόστε τον αλγόριθμο άλφα βήτα στο παρακάτω δέντρο και περιγράψτε πως θα παιχτεί το παιχνίδι 39
3 η Άσκηση: Αλγόριθμος άλφα βήτα (2/2) ΜΑΧ ΜΙΝ ΜΑΧ 1 4 0 3 9 12 8 11 4 7 3 6 Σε κάθε κόμβο ο αλγόριθμος διαβάζει πρώτα την τιμή του δεξιού παιδιού του και ύστερα, αν χρειαστεί, την τιμή του αριστερού παιδιού 40
Τέλος Υποενότητας 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Πατρών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 42
Σημειώματα
Σημείωμα Ιστορικού Εκδόσεων Έργου Το παρόν έργο αποτελεί την έκδοση 1.0. Έχουν προηγηθεί οι κάτωθι εκδόσεις: 44
Σημείωμα Αναφοράς Copyright Πανεπιστήμιο Πατρών, Γρηγόριος Μπεληγιάννης. «Θεωρία Λήψης Αποφάσεων. Αναζήτηση με Αντιπαλότητα». Έκδοση: 1.0. Πάτρα 2015. Διαθέσιμο από τη δικτυακή διεύθυνση: https://eclass.upatras.gr/modules/document/document.php?course=deapt1 12. 45
Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by nc sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. 46