Κεφάλαιο 6: Μεθοδολογίες με Γράφους Σε πολλές περιπτώσεις στα δεδομένα του προβλήματος υπάρχει δομή η οποία μπορεί να αναπαρασταθεί με έναν γράφο. Απόψεις της κλασικής θεωρίας γράφων (graph theory) παρουσιάζονται από το Μανωλόπουλο (000). Στο πλαίσιο αυτού του βιβλίου ένας γράφος μπορεί να μελετηθεί ως μια δυαδική σχέση RP στο Καρτεσιανό γινόμενο PP, όπως περιγράφεται στο Παράρτημα του Κεφαλαίου 7. Στο προαναφερθέν πλαίσιο σημειώστε ότι ένα πλέγμα, ως μια συγκεκριμένη δυαδική σχέση εφοδιασμένη με χρήσιμα μαθηματικά εργαλεία, μπορεί να χρησιμοποιηθεί για μελέτη ειδικών κατηγοριών γράφων, π.χ. δένδρων, όπως περιγράφεται στο Κεφάλαιο 7. Στη συνέχεια παρουσιάζονται επιλεγμένες μεθοδολογίες με γράφους. 6.1 Δίκτυα Bayes Ο όρος δίκτυα Bayes (ΔΒ) (Bayesian networks (BNs)) προτάθηκε από τον Pearl (1985). Λίγα χρόνια αργότερα τα ΔΒ αναγνωρίζονταν ως ένα ώριμο πεδίο μελέτης (Neapolitan, 1989 Pearl, 1988). Τα ΔΒ είναι εναλλακτικά γνωστά με ονόματα ως δίκτυα πεποίθησης (belief networks) καθώς και ως πιθανοτικά μοντέλα κατευθυνόμενων ακυκλικών γράφων (ΚΑΓ) (directed acyclic graphs (DAGs)) (Edwards, 000 Jordan & Sejnowski, 001). Οι κόμβοι του ΚΑΓ αναπαριστούν τυχαίες μεταβλητές, ενώ οι σύνδεσμοι αναπαριστούν εξαρτήσεις μεταξύ των μεταβλητών. Σημειώστε ότι δίκτυα (βλ. γράφοι) που αποκλειστικά περιλαμβάνουν μη-κατευθυνόμενους συνδέσμους καλούνται δίκτυα Markov (ΔΜ) (Markov networks (MNs)). Ένα απλό ΔΒ παρουσιάζεται στο Σχήμα 6.1, όπου θεωρείται ότι ένας άνθρωπος μπορεί να υποφέρει από τραύμα στη μέση, γεγονός που αναπαρίσταται με τη μεταβλητή Μέση (Μ). Τέτοιου είδους τραύμα μπορεί να προκαλέσει πόνο, γεγονός που αναπαρίσταται με τη μεταβλητή Πόνο (Π). Το τραύμα στη μέση μπορεί να προέλθει είτε από αθλητική άσκηση, γεγονός που αναπαρίσταται με τη μεταβλητή Άσκηση (Α), είτε από μηαναπαυτική καρέκλα στο γραφείο, γεγονός που αναπαρίσταται με τη μεταβλητή Καρέκλα (Κ). Στην τελευταία περίπτωση είναι λογικό να υποθέσουμε ότι και κάποιος συνεργάτης μπορεί να έχει παραπονεθεί για παρόμοιο πόνο στη μέση, γεγονός που αναπαρίσταται με τη μεταβλητή Συνεργάτης (Σ). Σ αυτό το συγκεκριμένο παράδειγμα όλες οι μεταβλητές είναι δυαδικές, συνεπώς οι μεταβλητές είναι είτε αληθείς (γεγονός που αναπαριστάνεται με «T»), είτε ψευδείς (γεγονός που αναπαρίσταται με «F»). Ακολουθώντας την ορολογία της θεωρίας γράφων λέμε ότι οι «γονείς» της μεταβλητής Μέση είναι οι μεταβλητές Καρέκλα και Άσκηση, το «παιδί» της μεταβλητής Μέση είναι η μεταβλητή Πόνος, ο «γονιός» της μεταβλητής Συνεργάτης είναι η μεταβλητή Καρέκλα κ.λπ. Μια παραδοχή των ΔΒ είναι η ανεξαρτησία μεταβλητών που δε συσχετίζονται άμεσα με τη σχέση γονιός-παιδί. Η προαναφερθείσα παραδοχή οδηγεί σε απλούστερη παραγοντοποίηση, όπως εξηγείται στη συνέχεια με αναφορά στο Σχήμα 6.1. Συγκεκριμένα, αντί η από κοινού συνάρτηση κατανομής πιθανότητας (joint probability distribution function) να υπολογίζεται με παραγοντοποίηση όλων των μεταβλητών σύμφωνα με τον κανόνα αλυσίδας (chain rule): P(Κ,Α,Σ,Μ,Π) = P(Κ)P(Α Κ)P(Σ Α,Κ)P(Μ Σ,Α,Κ)P(Π Μ,Σ,Α,Κ) υπολογίζεται ως P(Κ,Α,Σ,Μ,Π) = P(Κ)P(Α)P(Σ Κ)P(Μ Α,Κ)P(Π Μ). 6.1.1 Συμπερασμός με ΔΒ Ένα ΔΒ υποστηρίζει τους ακόλουθους δύο τύπους συμπερασμού: (α) (β) Συμπερασμό πρόβλεψης (prediction) για έναν κόμβο X i χρησιμοποιώντας γνώση των γονέων κόμβων του X i ή/και άλλων κόμβων συνδεδεμένων με τους γονείς κόμβους του X i Αυτός ο συμπερασμός εναλλακτικά καλείται συλλογιστική από πάνω προς τα κάτω (top-down reasoning). Συμπερασμό διάγνωσης (diagnosis) για έναν κόμβο X i χρησιμοποιώντας γνώση των παιδιών κόμβων του X i ή/και άλλων κόμβων συνδεδεμένων με τα παιδιά κόμβους του X i Αυτός ο συμπερασμός εναλλακτικά καλείται συλλογιστική από κάτω προς τα πάνω (bottom-up reasoning). Στη συνέχεια παρουσιάζουμε ένα παράδειγμα συμπερασμού διάγνωσης με αναφορά στο Σχήμα 6.1. Συγκεκριμένα, έστω ότι ένας άνθρωπος υποφέρει από πόνο στη μέση. Χρησιμοποιώντας συλλογιστική από κάτω προς τα πάνω μπορούμε να υπολογίσουμε την πεποίθηση ότι υπάρχει μη-αναπαυτική καρέκλα στο γραφείο, ως ακολούθως: 6-1
P( T, T) P(Κ=T Π=T)=, όπου P( T) P(Κ=T,Π=T)= P ( T ) P ( ) P ( T ) P (, T ) P ( T ), και { TF, } P(Π=T)= P ( ) P ( ) P ( ) P (, ) P ( T ). { TF, } Σημειώστε ότι τα ΔΒ είναι δημοφιλή σε εφαρμογές στατιστικής, μηχανικής μάθησης και TN. P(Κ=Τ) P(Κ=F) 0.8 0. P(Α=Τ) P(Α=F) 0.0 0.98 Καρέκλα (Κ) Άσκηση (Α) Κ P(Σ=Τ Κ) P(Σ=F Κ) Τ 0.9 0.1 F 0.01 0.99 Συνεργάτης (Σ) Μ P(Π=Τ Μ) P(Π=F Μ) Τ 0.7 0.3 F 0.1 0.9 Μέση (Μ) Πόνος (Π) Κ Α P(Μ=Τ Κ,Α) P(Μ=F Κ,Α) Τ Τ 0.9 0.1 Τ F 0. 0.8 F Τ 0.9 0.1 F F 0.01 0.99 Σχήμα 6.1 Παράδειγμα ενός Δικτύου Bayes. 6. Δένδρα Αποφάσεων Ένα δένδρο αποφάσεων χρησιμοποιείται για λήψη αποφάσεων. Για παράδειγμα, έστω ότι η απόφασή μας να κάνουμε περίπατο εξαρτάται από τις καιρικές συνθήκες σύμφωνα με το Σχήμα 6., το οποίο δόθηκε από κάποιον εμπειρογνώμονα. Ωστόσο, προκειμένου να είναι χρήσιμο σε πρακτικές εφαρμογές, ένα δένδρο αποφάσεων θα πρέπει να υπολογίζεται με επαγωγή (induction) από (καταγεγραμμένα) δεδομένα, αντί να δίδεται από κάποιον εμπειρογνώμονα. Για παράδειγμα, ένα δένδρο αποφάσεων μπορεί να είναι χρήσιμο σε εφαρμογές εξόρυξης γνώσης με τελικό σκοπό την πρόβλεψη της κατηγορίας/τιμής μιας μεταβλητής στη βάση δοθέντων μεταβλητών (Quinlan, 199 Kotsiantis, 013). 6..1 Υπολογισμός Δένδρων Απόφασης με Επαγωγή Τυπικά, ένα δένδρο αποφάσεων υπολογίζεται με μια τεχνική τύπου διαίρει-και-βασίλευε (divide-andconquer). Συγκεκριμένα, έστω ότι (α) υπάρχει ένα σύνολο Τ δεδομένων, όπου ένα δεδομένο περιλαμβάνει Ν γνωρίσματα τα οποία είναι είτε αριθμητικά, είτε μη-αριθμητικά και (β) υπάρχουν συνολικά k κατηγορίες C 1, C,, C k. Τρεις είναι οι δυνατές περιπτώσεις: 6-
ουρανός ηλιόλουστος υγρασία συννεφιασμένος βροχερός άνεμος 75% >75% δυνατός ασθενής περίπατος όχι περίπατος περίπατος όχι περίπατος περίπατος Σχήμα 6. Δένδρο απόφασης για το αν θα πάμε περίπατο ανάλογα με τις καιρικές συνθήκες. Τα φύλλα του δένδρου παριστάνονται με διακεκομμένο περίγραμμα. 1. Το σύνολο Τ περιλαμβάνει ένα ή περισσότερα δεδομένα τα οποία ανήκουν σε μία μόνον κατηγορία, έστω C j. Σ αυτήν την περίπτωση το δένδρο απόφασης είναι ένα φύλλο, το οποίο αντιστοιχεί στην κατηγορία C j.. Το σύνολο Τ είναι κενό. Σ αυτήν την περίπτωση θεωρούμε ότι το δένδρο απόφασης είναι και πάλι ένα φύλλο, το οποίο αντιστοιχεί σε μια κατηγορία, που τυπικά προσδιορίζεται από την πλειοψηφία των δεδομένων του γονέα (κόμβου) στο δένδρο. 3. Το σύνολο Τ περιλαμβάνει δεδομένα τα οποία ανήκουν σε περισσότερες από μία κατηγορίες. Στόχος είναι ο διαμερισμός (partition) του συνόλου Τ σε υποσύνολα, των οποίων όλα τα δεδομένα ανήκουν σε μία μόνον κατηγορία, όπως περιγράφεται στη συνέχεια. Συγκεκριμένα, επιλέγουμε μια κατάλληλη δοκιμασία (test), η οποία τυπικά χρησιμοποιεί ένα μόνον γνώρισμα, με ένα μόνον αποτέλεσμα στο σύνολο {O 1, O,, O n }. Μ αυτόν τον τρόπο το σύνολο Τ διαμερίζεται σε υποσύνολα Τ 1, Τ,, Τ n, όπου το υποσύνολο T i περιλαμβάνει όλα τα δεδομένα του T για τα οποία προέκυψε το αποτέλεσμα Ο i. Εν κατακλείδι, το δένδρο απόφασης περιλαμβάνει (α) έναν κόμβο απόφασης όπου εκτελείται η δοκιμασία που επιλέχθηκε και (β) έναν κλάδο για κάθε ένα αποτέλεσμα O 1, O,, O n. Οι προαναφερθείσες τρεις περιπτώσεις εξετάζονται εκ νέου για κάθε νέο κόμβο στο δένδρο, ώσπου να προκύψουν φύλλα τα οποία αντιστοιχούν σε μία μόνον κατηγορία. Στη συνέχεια παρουσιάζουμε ένα απλό παράδειγμα υπολογισμού δένδρου απόφασης. Θεωρήστε το μικρό σύνολο Τ δεδομένων στο Σχήμα 6.3 με τέσσερα γνωρίσματα και δύο δυνατές κατηγορίες. Επειδή όλα τα δεδομένα στο Σχήμα 6.3 ανήκουν σε περισσότερες από μία κατηγορίες, θα χρησιμοποιήσουμε μια υπολογιστική τεχνική τύπου διαίρει-και-βασίλευε προκειμένου να προκύψουν υποσύνολα, των οποίων τα δεδομένα ανήκουν σε μία μόνον κατηγορία. Για το σκοπό αυτό έστω ότι επιλέγουμε μια δοκιμασία με βάση το (πρώτο) γνώρισμα «ουρανός» για το οποίο υπάρχουν τρία δυνατά αποτελέσματα: «ηλιόλουστος», «συννεφιασμένος» και «βροχερός». Από την τελευταία στήλη παρατηρούμε ότι μόνον το υποσύνολο δεδομένων που αντιστοιχούν στο αποτέλεσμα «συννεφιασμένος» ανήκει όλο σε μία κατηγορία (βλ. «περίπατος»), ενώ το υποσύνολο δεδομένων είτε του αποτελέσματος «ηλιόλουστος», είτε του αποτελέσματος «βροχερός» ανήκει σε δύο κατηγορίες (βλ. «περίπατος» και «όχι περίπατος»). Το πρώτο υποσύνολο, δηλ. αυτό που αντιστοιχεί στο αποτέλεσμα «ηλιόλουστος», μπορεί να διαμεριστεί περαιτέρω αν επιλέξουμε μια δοκιμασία με βάση το (τρίτο) γνώρισμα «υγρασία» με δύο δυνατά αποτελέσματα: «υγρασία 75%» και «υγρασία > 75%». Ενώ, το τρίτο υποσύνολο, δηλ. αυτό που αντιστοιχεί στο αποτέλεσμα «βροχερός», μπορεί να διαμεριστεί περαιτέρω, αν επιλέξουμε μια δοκιμασία με βάση το (τέταρτο) γνώρισμα «άνεμος» με δύο δυνατά αποτελέσματα: «δυνατός» και «ασθενής». Μετά από τις προαναφερθείσες δύο δοκιμασίες προκύπτουν τα υποσύνολα διαμερισμού στο Σχήμα 6.4. Το αντίστοιχο 6-3
δένδρο απόφασης φαίνεται στο Σχήμα 6.5. Παρατηρήστε ότι το δένδρο στο Σχήμα 6.5 συμφωνεί με το δένδρο στο Σχήμα 6.. Ωστόσο η σημαντική διαφορά είναι ότι το δένδρο απόφασης στο Σχήμα 6. δόθηκε από κάποιον εμπειρογνώμονα, ενώ το δένδρο απόφασης στο Σχήμα 6.5 υπολογίστηκε με επαγωγή από καταγεγραμμένα δεδομένα. Στη συνέχεια μελετάμε τρόπους επιλογής κατάλληλων δοκιμασιών με σκοπό τον υπολογισμό όσο το δυνατόν μικρότερων δένδρων απόφασης. ουρανός θερμοκρασία ( o C) υγρασία (%) άνεμος κατηγορία ηλιόλουστος 0 70 δυνατός περίπατος ηλιόλουστος 5 90 δυνατός όχι περίπατος ηλιόλουστος 7 85 ασθενής όχι περίπατος ηλιόλουστος 19 95 ασθενής όχι περίπατος ηλιόλουστος 18 70 ασθενής περίπατος συννεφιασμένος 19 90 δυνατός περίπατος συννεφιασμένος 6 78 ασθενής περίπατος συννεφιασμένος 17 65 δυνατός περίπατος συννεφιασμένος 5 75 ασθενής περίπατος βροχερός 19 80 δυνατός όχι περίπατος βροχερός 15 70 δυνατός όχι περίπατος βροχερός 0 80 ασθενής περίπατος βροχερός 18 80 ασθενής περίπατος βροχερός 19 96 ασθενής περίπατος Σχήμα 6.3 Ένα μικρό σύνολο Τ δεδομένων για την επαγωγή ενός δένδρου απόφασης. 6.. Αξιολόγηση Δοκιμασιών Ο προηγούμενος υπολογισμός δένδρου απόφασης στηρίζεται σε δοκιμασίες που ήδη έχουν επιλεγεί. Στη συνέχεια μελετάμε τρόπους επιλογής δοκιμασιών. Σημειώστε ότι κάθε δοκιμασία η οποία υπολογίζει δύο μηκενά υποσύνολα T i, τελικά υπολογίζει φύλλα (του δένδρου απόφασης) που περιλαμβάνουν δεδομένα μιας μόνο κατηγορίας. Ωστόσο, το ενδιαφέρον μας εστιάζεται στον υπολογισμό ενός δένδρου απόφασης, το οποίο όχι μόνο να αποκαλύπτει στοιχεία για τη δομή των δεδομένων, αλλά επιπλέον να έχει την ικανότητα πρόβλεψης. Για τους προαναφερθέντες λόγους θέλουμε κάθε φύλλο του δένδρου απόφασης που θα υπολογιστεί να περιλαμβάνει ένα σημαντικό αριθμό δεδομένων ή, ισοδύναμα, θέλουμε να διαμερίσουμε το σύνολο Τ των δεδομένων στο μικρότερο δυνατό αριθμό υποσυνόλων. Σε κάθε περίπτωση επιζητούμε τον υπολογισμό μικρών δένδρων απόφασης. Ένας τρόπος εύρεσης του μικρότερου δένδρου απόφασης είναι με τυφλή αναζήτηση (blind search), δηλ. να υπολογίσουμε όλα τα δυνατά δένδρα απόφασης και από αυτά να επιλέξουμε το μικρότερο. Δυστυχώς όμως το πρόβλημα υπολογισμού όλων των δένδρων απόφασης απαιτεί μη-πολυωνυμικό χρόνο, πράγμα που καθιστά το πρόβλημα πρακτικά άλυτο. Για παράδειγμα, για τα λίγα δεδομένα στο Σχήμα 6.3 υπάρχουν περισσότερα από 10 6 δένδρα απόφασης. Σημειώστε ότι οι περισσότερες τεχνικές υπολογισμού δένδρων απόφασης είναι άπληστες (greedy) υπό την έννοια ότι δε διαθέτουν μνήμη. Συγκεκριμένα, ο διαμερισμός ενός συνόλου δεδομένων σε υποσύνολα είναι οριστικός και αμετάκλητος χωρίς να προβλέπεται κάποιου είδους «οπισθοδρόμηση» προς αναζήτηση εναλλακτικών διαμερισμών. Κάθε διαμερισμός είναι το αποτέλεσμα της εφαρμογής μιας δοκιμασίας η οποία τυπικά χρησιμοποιεί μια ευρετική συνάρτηση όπως περιγράφεται στη συνέχεια. 6..3 Ευρετικές Συναρτήσεις Κέρδους Μια δημοφιλής ευρετική συνάρτηση που χρησιμοποιείται για την επιλογή μιας δοκιμασίας είναι η συνάρτηση κέρδους πληροφορίας η οποία βασίζεται στη συνάρτηση εντροπία. Σημειώστε ότι η συνάρτηση εντροπία προτάθηκε από τον Shannon (1948) στη θεωρία πληροφορίας (information theory) για να ποσοτικοποιήσει την πληροφορία που μεταφέρει ένα γεγονός ανάλογα με τη σπανιότητά του. Δηλαδή, όσο πιο σπάνιο είναι ένα γεγονός, τόσο μεγαλύτερη να είναι η πληροφορία που προσλαμβάνουμε, όταν αυτό συμβεί. Συγκεκριμένα, έστω P A η πιθανότητα να συμβεί ένα γεγονός A. Τότε η πληροφορία που μεταφέρει το γεγονός A ορίζεται ως - (P) και μετριέται σε bits. Για παράδειγμα, όταν από οκτώ ισοπίθανα γεγονότα συμβεί το ένα, τότε θεωρούμε ότι προσλαμβάνουμε πληροφορία ίση με - (8) = 3 bits. 6-4
ουρανός = ηλιόλουστος υγρασία 75% ουρανός θερμοκρασία ( o C) υγρασία (%) άνεμος κατηγορία ηλιόλουστος 0 70 δυνατός περίπατος ηλιόλουστος 18 70 ασθενής περίπατος υγρασία > 75% ουρανός θερμοκρασία ( o C) υγρασία (%) άνεμος κατηγορία ηλιόλουστος 5 90 δυνατός όχι περίπατος ηλιόλουστος 7 85 ασθενής όχι περίπατος ηλιόλουστος 19 95 ασθενής όχι περίπατος ουρανός = συννεφιασμένος ουρανός θερμοκρασία ( o C) υγρασία (%) άνεμος κατηγορία συννεφιασμένος 19 90 δυνατός περίπατος συννεφιασμένος 6 78 ασθενής περίπατος συννεφιασμένος 17 65 δυνατός περίπατος συννεφιασμένος 5 75 ασθενής περίπατος ουρανός = βροχερός άνεμος = δυνατός ουρανός θερμοκρασία ( o C) υγρασία (%) άνεμος κατηγορία βροχερός 19 80 δυνατός όχι περίπατος βροχερός 15 70 δυνατός όχι περίπατος άνεμος = ασθενής ουρανός θερμοκρασία ( o C) υγρασία (%) άνεμος κατηγορία βροχερός 0 80 ασθενής περίπατος βροχερός 18 80 ασθενής περίπατος βροχερός 19 96 ασθενής περίπατος Σχήμα 6.4 Διαμερισμός δεδομένων. ουρανός = ηλιόλουστος: υγρασία 75%: περίπατος υγρασία > 75%: όχι περίπατος ουρανός = συννεφιασμένος: περίπατος ουρανός = βροχερός: άνεμος = δυνατός: όχι περίπατος άνεμος = ασθενής: περίπατος Σχήμα 6.5 Δένδρο απόφασης που αντιστοιχεί στο διαμερισμό του Σχήματος 6.4. 6-5
Έστω ότι είναι δυνατόν να συμβούν n πιθανά γεγονότα A 1,,A n με πιθανότητες P 1,,P n, αντίστοιχα. Τότε ως εντροπία (entropy), συμβολικά info(a 1,,A n ), ορίζεται ο μέσος όρος της πληροφορίας όλων των n i i i1 γεγονότων, δηλ. info(a 1,,A n ) = P ( P ). Τα προηγούμενα χρησιμοποιούνται στη συνέχεια για να οριστεί μια ευρετική συνάρτηση κέρδους. Έστω ένα σύνολο Τ δεδομένων πληθικότητας Τ και έστω freq(c j,t) ο συνολικός αριθμός των δεδομένων της κατηγορίας C j, j{1,,k}. Σύμφωνα με τα προηγούμενα, θεωρούμε ότι η κατηγορία C j μεταφέρει πληροφορία ίση με σύνολο Τ είναι: freq( C, T) bits. Άρα, η εντροπία του συνόλου των κατηγοριών στο T j info(t)= freq( C, T) freq( C, T). j j k j1 T T Στη συνέχεια υπολογίζουμε τη μέση πληροφορία στο διαμερισμό του συνόλου Τ σε n υποσύνολα Τ 1,,T n ως αποτέλεσμα εφαρμογής μιας δοκιμασίας X: info X (T)= n Ti info( Ti ). Η ποσότητα gain(x) = i1 T info(t) - info X (T) ονομάζεται κέρδος πληροφορίας (information gain) ή εναλλακτικά ονομάζεται αμοιβαία πληροφορία (mutual information), όταν το σύνολο T διαμερίζεται με τη δοκιμασία X. Η επιδίωξή μας είναι να επιλέξουμε μια δοκιμασία η οποία να μεγιστοποιεί το κέρδος πληροφορίας. Θεωρήστε το σύνολο T των δεδομένων στο Σχήμα 6.3. Υπάρχουν δύο κατηγορίες: η κατηγορία «περίπατος» με 9 δεδομένα και η κατηγορία «όχι περίπατος» με 5 δεδομένα. Η εντροπία του συνόλου T είναι info(t) = 9 9 5 5 = 0.940 bits. 14 14 14 14 Χρησιμοποιώντας το γνώρισμα «ουρανός» ως δοκιμασία X διαμερίζουμε το σύνολο T σε τρία υποσύνολα με εντροπία info X (T) = 5 3 3 14 5 5 5 5 + 4 4 4 0 0 14 4 4 4 4 + 5 3 3 14 5 5 5 5 = 0.694 bits. Άρα, το κέρδος πληροφορίας σ αυτήν την περίπτωση είναι 0.940-0.694 = 0.46 bits. Στη συνέχεια, αντί του γνωρίσματος «ουρανός» χρησιμοποιούμε εναλλακτικά το γνώρισμα «άνεμος» ως δοκιμασία X, οπότε το σύνολο T διαμερίζεται σε δύο υποσύνολα με εντροπία info X (T) = 6 3 3 3 3 14 6 6 6 6 + 8 6 6 14 8 8 8 8 = 0.89 bits. Άρα, το κέρδος πληροφορίας σ αυτήν την περίπτωση είναι 0.940-0.89 = 0.048 bits. Συνεπώς, σύμφωνα με το κριτήριο κέρδους (gain criterion) η δοκιμασία με το γνώρισμα «ουρανός» είναι προτιμότερη. Σε πολλές περιπτώσεις, το κριτήριο κέρδους υπολογίζει μικρά δένδρα απόφασης. Ωστόσο, το κριτήριο κέρδους είναι μεροληπτικό υπέρ δοκιμασιών με πολλά αποτελέσματα όπως εξηγείται στο ακόλουθο παράδειγμα. Θεωρήστε μια διαδικασία ιατρικής διάγνωσης όπου καταγράφονται τα δεδομένα ασθενών έτσι ώστε ένα από τα γνωρίσματα που καταγράφονται είναι ο αριθμός ταυτότητας του ασθενούς. Επειδή κάθε αριθμός ταυτότητας είναι μοναδικός, επιλέγοντας ως δοκιμασία το γνώρισμα του αριθμού ταυτότητας θα προκύψει ένα φύλλο (στο δένδρο απόφασης) για κάθε δεδομένο όπου κάθε ασθενής θα θεωρείται ως μια διαφορετική κατηγορία. Επομένως, σ αυτήν την περίπτωση η μέση πληροφορία είναι info X (T) = 1 n info( Ti ) = 0 διότι info(t i ) = 0. Οπότε, επιλέγοντας ως δοκιμασία το γνώρισμα του αριθμού i1 T ταυτότητας, μεγιστοποιείται το κριτήριο κέρδους. Ωστόσο, για εφαρμογές πρόβλεψης, η επιλογή αυτής της δοκιμασίας είναι άχρηστη. Η προαναφερθείσα μεροληψία του κριτηρίου κέρδους μπορεί να αρθεί με κανονικοποίηση (normalization) η οποία επιτυγχάνεται διαιρώντας το κέρδος πληροφορίας με την ποσότητα χώρισμα 6-6
i i πληροφορίας (split information) που ορίζεται ως split info(x) = n T T. Τελικά, προκύπτει η i1 T T gain(x) ευρετική συνάρτηση λόγος κέρδους (gain ratio) gain ratio(x) =, η οποία είναι split info(x) αποτελεσματική για την επιλογή μιας δοκιμασίας όπως εξηγείται στη συνέχεια. Συγκεκριμένα, ο παρονομαστής του λόγου κέρδους είναι split info(x) = (n), όπου n είναι ο συνολικός αριθμός των ασθενών στο σύνολο T παρατηρήστε ότι καθώς ο αριθμός n αυξάνει, ο λόγος κέρδους μειώνεται. Μια αποτελεσματική ευρετική συνάρτηση μπορεί να επιλέξει τη βέλτιστη δοκιμασία σε ένα σύνολο «υποψήφιων» δοκιμασιών, όπως εξηγήθηκε παραπάνω. Μένει τώρα να ορίσουμε το σύνολο «υποψήφιων» δοκιμασιών, όπως εξηγείται στη συνέχεια. Από τη μια μεριά, για ένα γνώρισμα που λαμβάνει διακριτές τιμές μπορούμε να επιλέξουμε ένα διαφορετικό αποτέλεσμα είτε (α) για κάθε διαφορετική τιμή που λαμβάνει το συγκεκριμένο γνώρισμα, είτε (β) για κάθε ομάδα ενός διαμερισμού των τιμών που λαμβάνει το συγκεκριμένο γνώρισμα. Ενώ, από την άλλη μεριά, για ένα γνώρισμα που λαμβάνει συνεχείς αριθμητικές τιμές, μπορούμε να επιλέξουμε μια δυαδική δοκιμασία με αποτελέσματα AZ και A>Z, όπου A είναι η (συνεχής) τιμή του γνωρίσματος και Z είναι μια προεπιλεγμένη τιμή κατωφλίου (threshold). 6.3 Γνωσιακοί Χάρτες Οι γνωσιακοί χάρτες (ΓΧ) (cognitive maps (CM)) είναι προσημασμένοι κατευθυνόμενοι γράφοι για λήψη αποφάσεων (Axelrod, 1976). Οι κόμβοι σε αυτούς τους χάρτες αναπαριστάνουν έννοιες ή μεταβλητές σχετιζόμενοι με κάποιο φυσικό σύστημα. Οι αιτιώδεις σύνδεσμοι μεταξύ των εννοιών του χάρτη ονομάζονται ακμές. Οι ακμές χαρακτηρίζονται από ένα πρόσημο και μία κατεύθυνση που περιγράφουν τον τρόπο με τον οποίο αλληλεπιδρούν οι κόμβοι μεταξύ τους. Για παράδειγμα μία ακμή που συνδέει δύο κόμβους Α και Β με κατεύθυνση από το Α στο Β μπορεί να είναι είτε θετική είτε αρνητική περιγράφοντας αντίστοιχα την προωθητική ή ανασταλτική επίδραση του κόμβου Α στον κόμβο Β. Στο παρακάτω Σχήμα 6.6 απεικονίζεται ένας γνωσιακός χάρτης που περιγράφει τις σχέσεις μεταξύ μερικών οικονομικών μεγεθών, καθώς και τον τρόπο που αυτά επηρεάζουν την οικονομική ανάπτυξη. Αξίζει να σημειωθεί ότι ο κύριος στόχος σχεδίασης ενός γνωσιακού χάρτη για ένα φυσικό σύστημα είναι η πρόγνωση της συμπεριφοράς του ως αποτέλεσμα της αλληλεπίδρασης των εννοιών του συστήματος. Σχήμα 6.6 Ένας τυπικός γνωσιακός χάρτης. 6-7
6.3.1 Ασαφείς Γνωσιακοί Χάρτες Οι ασαφείς γνωσιακοί χάρτες (ΑΓΧ) (fuzzy cognitive maps (FCM)) προτάθηκαν ως επέκταση των κλασικών γνωσιακών χαρτών που αναπτύχθηκαν στην προηγούμενη παράγραφο. Οι ΑΓΧ έχουν τέσσερις σημαντικές διαφορές από τους ΓΧ: 1. Οι ακμές μεταξύ των κόμβων μπορούν να λαμβάνουν αριθμητικές τιμές που ονομάζονται βάρη και τα οποία περιγράφουν το βαθμό αιτιότητας.. Οι ΑΓΧ μπορούν να μοντελοποιούν πολύπλοκα σενάρια της καθημερινής ζωής και δυναμικά συστήματα που μεταβάλλονται με το χρόνο. Σε αυτή τη μορφή τους οι ΑΓΧ μοιάζουν με τα ανατροφοδοτούμενα ΤΝΔ (βλ. Κεφάλαιο 1). 3. Η αποθηκευμένη γνώση σε έναν ΑΓΧ μπορεί να επαυξηθεί με το συνδυασμό ενός αριθμού ΑΓΧ. 4. Όπως τα ΤΝΔ, οι ΑΓΧ μπορούν να προσαρμόζουν τα βάρη τους μέσω της διαδικασίας της μάθησης. Σημειώνεται ότι οι αρχικές τιμές των βαρών καθορίζονται από ειδικούς που είναι γνώστες του προς μοντελοποίηση συστήματος. Οι ΑΓΧ χρησιμοποιήθηκαν αρχικά για τη μοντελοποίηση πολύπλοκων κοινωνικών και οικονομικών συστημάτων, όπου είτε δεν υπήρχαν, είτε γιατί ήταν αδύνατο να εξαχθούν αναλυτικές περιγραφές. Προτάθηκαν από τον Kosko (1986, 199) ως εναλλακτική μέθοδος μοντελοποίησης πολύπλοκων συστημάτων, ικανών να περιγράψουν τις αιτιατές σχέσεις μεταξύ κύριων παραγόντων-εννοιών που καθορίζουν τη δυναμική συμπεριφορά ενός συστήματος. Στο παρακάτω Σχήμα 6.7 απεικονίζεται ένας τυπικός ΑΓΧ. Σχήμα 6.7 Ένας τυπικός ΑΓΧ. Όπως μπορεί να γίνει αντιληπτό από το παραπάνω Σχήμα 6.7, ένας ΑΓΧ αποτελείται από κόμβους (έννοιες), C i, i=1,,3,,n, όπου N είναι ο συνολικός αριθμός των εννοιών, οι οποίες είναι χαρακτηριστικά, κύριοι παράγοντες ή ιδιότητες του προς μοντελοποίηση συστήματος. Οι έννοιες ενώνονται μεταξύ τους με συνδέσμους που έχουν συγκεκριμένα βάρη, που δηλώνουν την επίδραση που έχουν οι έννοιες μεταξύ τους. Υπάρχουν τρεις πιθανοί τύποι (Stylios & Groumpos, 1998) αιτιατών σχέσεων μεταξύ δύο εννοιών C i και C j : (α) θετική, που δηλώνει ότι μία αύξηση ή μείωση της τιμής μίας έννοιας αίτιο (cause), προκαλεί την έννοια αιτιατό (effect) να κινηθεί προς την ίδια κατεύθυνση και περιγράφεται με ένα θετικό βάρος W ij, (β) αρνητική, που δηλώνει ότι οι αλλαγές στις έννοιες αίτιο και αιτιατό λαμβάνουν χώρα σε αντίθετες κατευθύνσεις, με το βάρος W ij να έχει αρνητικό πρόσημο και (γ) ανύπαρκτη, με μηδενικό βάρος. Η τιμή του βάρους, π.χ. W ij, περιγράφει το κατά πόσο η έννοια C i επηρεάζει την έννοια C j και έχει πεδίο ορισμού το διάστημα [-1,1]. Κάθε χρονική στιγμή η τιμή κάθε έννοιας A i υπολογίζεται από το άθροισμα των επιρροών όλων των υπολοίπων εννοιών σε αυτή την έννοια και τον περιορισμό της συνολικής επίδρασης με τη χρήση μίας συνάρτησης φραγής f σύμφωνα με τον παρακάτω κανόνα: t1 t t A i f Ai W ji Aj, (6.1) i1, i j 6-8
όπου A και t1 i A είναι οι τιμές της έννοιας C i τις χρονικές στιγμές t+1 και t αντίστοιχα, t i t A j η τιμή της έννοιας C j τη χρονική στιγμή t, W ji το βάρος της σύνδεσης με κατεύθυνση από την έννοια C j στην C i και f η συνάρτηση φραγής που χρησιμοποιείται για τον περιορισμό της τιμής της έννοιας σε ένα συγκεκριμένο εύρος, συνήθως στο διάστημα [0,1]. Σε κάθε βήμα μία νέα κατάσταση των εννοιών προκύπτει μέσω της Εξ.(6.1) και μετά από έναν συγκεκριμένο αριθμό επαναλήψεων ο ΑΓΧ μπορεί να καταλήξει σε μία από τις παρακάτω καταστάσεις (Stylios & Groumpos, 1998): 1. Σε ένα συγκεκριμένο σημείο ισορροπίας.. Σε έναν περιορισμένο κύκλο. 3. Σε χαοτική συμπεριφορά. Όταν ο ΑΓΧ καταλήγει σε ένα συγκεκριμένο σημείο ισορροπίας, μπορούμε να συμπεράνουμε ότι ο χάρτης έχει συγκλίνει και η τελική κατάσταση αντιστοιχεί στην πραγματική κατάσταση του συστήματος στην οποία μεταπίπτει, όταν οι αρχικές τιμές των βαρών εφαρμοστούν στο χάρτη. 6.3.1.1 Εκπαίδευση των ΑΓΧ Ο σχεδιασμός των ΑΓΧ βασίζεται σημαντικά στην εμπειρία μερικών ειδικών, οι οποίοι έχουν αρκετή γνώση του προς μοντελοποίηση συστήματος και παρέχουν τις τιμές των βαρών για τις διασυνδέσεις μεταξύ των εννοιών. Σε πιο ευέλικτες δομές ΑΓΧ αυτά τα βάρη υπολογίζονται μέσω μίας διαδικασίας μάθησης, με παρόμοιο τρόπο όπως στην περίπτωση της εκπαίδευσης νευρωνικών δικτύων. Για αυτό το λόγο πολλοί επιστήμονες έχουν δανειστεί και προσαρμόσει αλγορίθμους από το πεδίο των νευρωνικών δικτύων και έχουν προτείνει νέες διαδικασίες εκπαίδευσης (Papageorgiou, 01 Papakostas κ.ά., 01). Επιπλέον, έχει γίνει σημαντική δουλειά όσον αφορά τη χρήση εξελικτικών μεθόδων εύρεσης των βέλτιστων συνόλων βαρών των ΑΓΧ, ως εναλλακτικοί στους βασιζόμενους σε παραγώγους αλγορίθμους, με αξιόλογα αποτελέσματα (Papakostas κ.ά., 01). Αξίζει να σημειωθεί ότι μία μεγάλη κατηγορία αλγορίθμων εκπαίδευσης ΑΓΧ οι οποίοι χρησιμοποιούνται ευρέως στη βιβλιογραφία είναι αλγόριθμοι που βασίζονται στο γνωστό από το Κεφάλαιο 1 κανόνα δέλτα ή κανόνα του Heb (Papakostas κ.ά., 01). Συγκεκριμένα, ξεχωρίζουμε τρείς αλγόριθμους στην κατηγορία αυτή: τη διαφορική μάθηση τύπου Hebb (ΔΜΗ) (differential Hebbian learning (DHL)) (Dickerson & Kosko, 1994), τη μη-γραμμική μάθηση τύπου Hebb (ΜΓΗ) (non-linear Hebbian learning (NHL)) (Papageorgiou κ.ά., 003) και την ενεργή μάθηση τύπου Hebb (ΕΜΗ) (active Hebbian learning (AHL)) (Papageorgiou κ.ά., 004), που περιγράφονται στη συνέχεια. Α. Διαφορική Μάθηση τύπου Hebb (ΔΜΗ) Ο αλγόριθμος ΔΜΗ ήταν ο πρώτος χρονικά αλγόριθμος που προτάθηκε και που έκανε χρήση του κανόνα δέλτα. Προτάθηκε από τους Dickerson & Kosko (1994) για την εύρεση καλύτερων βαρών αλληλοσυνδέσεων των εννοιών από αυτά που παρέχονται αρχικά από τους ειδικούς. Ο αλγόριθμος συσχετίζει τις αλλαγές των τιμών των εννοιών του χάρτη και ανανεώνει τα βάρη με βάση τον ακόλουθο κανόνα ανανέωσης: t t t t t 1, 0 wij t Ai Aj wij A t i wij (6.) t t wij, Ai 0 όπου t t t1 A A A (6.3) i i i Η παράμετρος t αντιστοιχεί στο ρυθμό μάθησης ο οποίος μειώνεται σε κάθε επανάληψη του αλγορίθμου ως ακολούθως: t t 0.11 1.1 N, (6.4) όπου t είναι η τρέχουσα επανάληψη του αλγορίθμου και Ν μία σταθερά που εξασφαλίζει ότι ο ρυθμός μάθησης δε θα λάβει αρνητικές τιμές. Συνήθως, επιλέγεται να είναι ίση με το μέγιστο αριθμό των επαναλήψεων του αλγορίθμου. 6-9
Β. Μη-γραμμική Μάθηση τύπου Hebb (ΜΓΗ) Ο αλγόριθμος ΜΓΗ προτάθηκε από τους Papageorgiou κ.ά. (004). Κάνει χρήση του τροποποιημένου από τον Oja (1989) κανόνα δέλτα (Εξ.(6.5)), ο οποίος αντιμετωπίζει τα προβλήματα ευστάθειας που παρουσιάζει ο κλασικός κανόνας, και ορίζεται ως εξής: w n 1 y n x n y n w n (6.5) ij i j i ij Η παραπάνω εξίσωση υπολογίζει την ανανέωση του βάρους που συνδέει τον κόμβο j με τον κόμβο i στην επανάληψη n+1, με ρυθμό μάθησης η. Για την ανανέωση λαμβάνονται υπόψη τα προ-σύναψης (είσοδος) x και μετά-σύναψης (έξοδος) y σήματα. Η ανανέωση των βαρών ενός ΑΓΧ με τον αλγόριθμο j i ΜΓΗ επιτυγχάνεται μέσω του παρακάτω κανόνα: t1 t t w w A t t t A A w (6.6) ij ij j i j ij Επιπλέον, έχουν προταθεί δύο παραλλαγές του παραπάνω αλγορίθμου (Papageorgiou κ.ά., 006), με στόχο να εξασφαλίσουν τη σύγκλιση του αλγορίθμου σε πιο βέλτιστες λύσεις βαρών. Στην πρώτη παραλλαγή έχει προστεθεί η συνάρτηση προσήμου sgn(.), ώστε να διατηρείται το πρόσημο του βάρους, σύμφωνα με τον παρακάτω κανόνα: t1 t t t t t t w w A A sgn w A w (6.7) ij ij j i ij j ij Τέλος, η δεύτερη παραλλαγή του ΜΓΗ αλγορίθμου, περιλαμβάνει την εφαρμογή ενός παράγοντα μείωση (γ) της επίδρασης του προηγούμενου βάρους του κόμβου, που περιγράφεται ως εξής: t1 t t t t t t w w A A sgn w A w (6.8) ij ij j i ij j ij Γ. Ενεργή Μάθηση τύπου Hebb (ΕΜΗ) Ένα κοινό χαρακτηριστικό των δύο προηγούμενων αλγορίθμων είναι η ταυτόχρονη ανανέωση των τιμών των εννοιών του χάρτη σε κάθε επανάληψη με βάση την Εξ.(6.1). Αντίθετα, ο αλγόριθμος ΕΜΗ θεωρεί ότι κάθε κόμβος ενεργοποιείται ασύγχρονα. Αυτό σημαίνει ότι η ισορροπία του χάρτη θα επιτυγχάνεται με την ενεργοποίηση διαφορετικών κόμβων και σε δοαφορετικό χρόνο. Επομένως, με βάση τον αλγόριθμο ΕΜΗ οι κόμβοι ενός ΑΓΧ διακρίνονται σε κόμβους που ενεργοποιήθηκαν και σε κόμβους που ενεργοποιούνται. Σε αυτή την περίπτωση ο κανόνας ανανέωσης των τιμών των κόμβων της Εξ.(6.1) τροποποιείται ως εξής: 1 N A t t act t i f Ai Wji A j (6.9) i1, ij όπου ο δείκτης act δηλώνει τον ενεργοποιημένο κόμβο. Ο κανόνας ανανέωσης των βαρών με βάση τον αλγόριθμο ΕΜΗ έχει τη μορφή: t1 t t t t t t act t w 1 w A A w A (6.10) ij ij i j ij i όπου ο ρυθμός μάθησης η και ο παράγοντας μείωσης των βαρών στην επανάληψη t, υπολογίζονται από τις σχέσεις t 1t be 1 (6.11) t t be όπου 0.01<b 1 <0.09, 0.1<λ 1 <1, ενώ b, λ είναι θετικοί σταθεροί αριθμοί που επιλέγονται με δοκιμή και παρατήρηση. Σημειώστε ότι όλοι οι προηγούμενοι αλγόριθμοι εκτελούνται επαναληπτικά, μέχρι να ικανοποιηθεί κάποιο κριτήριο τερματισμού (μέγιστος αριθμός επαναλήψεων ή σύγκλιση σε επιθυμητό σφάλμα με βάση κάποιο μέτρο καταλληλότητας). 6-10
6.3.1. Σύγχρονες Αρχιτεκτονικές Δομές ΑΓΧ Τα τελευταία χρόνια παρατηρείται έντονη κινητικότητα στην ανάπτυξη νέων αρχιτεκτονικών δομών ΑΓΧ με απώτερο στόχο την αύξηση της ακρίβειας μοντελοποίησης των συστημάτων, καθώς και την εισαγωγή των ΑΓΧ σε νέα πεδία εφαρμογών (Papageorgiou & Salmeron, 013). Σε αρχιτεκτονικές ΑΓΧ ανήκουν δομές για εφαρμογές ταξινόμησης και αναγνώρισης προτύπων που καλούνται ασαφείς γνωσιακοί απεικονιστές (ΑΓΑ) (fuzzy cognitive maps FCMper) (Papakostas & Koulouriotis, 010 Papakostas κ.ά., 008, 01). Σε αυτά τα μοντέλα ένας ΑΓΧ επιδιώκει να μοντελοποιήσει έναν ταξινομητή, στον οποίο οι κόμβοι είναι είτε χαρακτηριστικά διάκρισης, είτε ετικέτες κλάσεων. Επομένως, σε αντίθεση με τα νευρωνικά δίκτυα στα οποία οι νευρώνες έχουν μία αφαιρετική σημασία και αποτελούν απλά υπολογιστικές μονάδες, στους ΑΓΑ οι κόμβοι και οι συνδέσεις περιγράφουν τις σχέσεις που διέπουν τα χαρακτηριστικά με τις ετικέτες των κλάσεων. Ένας τυπικός ΑΓΑ απεικονίζεται στο Σχήμα 6.8. Επίσης, για τον ίδιο σκοπό της ταξινόμησης δεδομένων έχουν προταθεί συνδυασμοί ΑΓΧ, οι οποίοι λειτουργούν συνεργατικά με βάση τα μοντέλα πολλαπλής δειγματοθέτησης και ώθησης (Papageorgiou & Kannappan, 01). Μία δεύτερη κατηγορία αρχιτεκτονικών ΑΓΧ περιλαμβάνει όλες εκείνες τις δομές που είναι ικανές να διαχειριστούν την αβεβαιότητα και την ανακρίβεια που εμφανίζεται σε πολλά προβλήματα. Για το σκοπό αυτό έχουν προταθεί οι γκρι ασαφείς γνωσιακοί χάρτες (ΓΑΓΧ) (fuzzy grey cognitive maps (FGCM)) που βασίζονται στην γκρι θεωρία συστημάτων (Salmeron, 010), οι γνωσιακοί χάρτες τεκμηρίων (ΓΧΤ) (evidential cognitive maps (ECM)) που κάνουν χρήση της θεωρίας τεκμηρίων των Dempster και Shafer (Kang κ.ά., 01) και οι διαισθητικοί ασαφείς γνωσιακοί χάρτες (ΔΑΓΧ) (intuitionistic fuzzy cognitive maps (IFCM)), οι οποίοι βασίζονται στη διαισθητική ασαφή λογική (intuitionistic fuzzy ic) (Papageorgiou & Iakovidis, 013). Τέλος, στην κατηγορία αυτή ανήκουν και δομές οι οποίες κάνουν χρήση του κοκκώδους υπολογισμού (granular computing) (Pedrycz & Homenda, 014), και των αριθμών διαστημάτων (Papakostas κ.ά., 015). Συγκεκριμένα, ένας ΑΓΧ που χρησιμοποιεί την αναπαράσταση αριθμών διαστημάτων για εφαρμογές ταξινόμησης δεδομένων απεικονίζεται στο Σχήμα 6.9. Σχήμα 6.8 Ένας Ασαφής Γνωσιακός Απεικονιστής. 6-11
Σχήμα 6.9 Ασαφής γνωσιακός χάρτης αριθμού διαστημάτων. Ερωτήσεις Κατανόησης και Ασκήσεις 6.1) Έστω το Δίκτυο Bayes (ΔΒ) του παρακάτω σχήματος, όπου η Βροχή συσχετίζεται με τη συσκευή ποτίσματος (βλ. Συντριβάνι), ενώ τόσο η Βροχή, όσο και το Συντριβάνι συσχετίζονται με το γεγονός Χλοοτάπητας Υγρός. Εφαρμόζοντας συμπερασμό διάγνωσης υπολογίστε την αριθμητική τιμή της πεποίθησης ότι βρέχει, υπό την προϋπόθεση ότι ο χλοοτάπητας είναι υγρός. Συντριβάνι (Σ) Βροχή (Β) Συντριβάνι (Σ) Βροχή (B) T F F 0.4 0.6 T 0.01 0.99 Χλοοτάπητας Υγρός (Υ) Βροχή (B) T F 0. 0.8 Χλοοτάπητας Υγρός (Υ) Συντριβάνι (Σ) Βροχή (Β) T F F F 0.0 1.0 F T 0.8 0. T F 0.9 0.1 T T 0.99 0.01 6-1
Λύση: P(Β=T Υ=T)= P( T, T) P( T) { TF, }, { TF, } P( T,, T) P( T,, ) Υπολογίζουμε τον αριθμητή του παραπάνω κλάσματος χρησιμοποιώντας την από κοινού συνάρτηση κατανομής πιθανότητας. (,, ) { TF P T T P(Υ=T, Σ=T, Β=T) + P(Υ=T, Σ=F, Β=T) =, } P(Υ=T Σ=T,Β=T)P(Σ=T Β=T)P(Β=T) + P(Υ=T Σ=F,Β=T)P(Σ=F Β=T)P(Β=T) = (0.99)(0.01)(0.) + (0.8)(0.99)(0.) = 0.00198 + 0.1584 = 0.16038. Στη συνέχεια υπολογίζουμε τον παρονομαστή χρησιμοποιώντας την από κοινού συνάρτηση κατανομής πιθανότητας. (,, ), { TF P T P(Υ=T, Σ=T, Β=T) + P(Υ=T, Σ=F, Β=T) + P(Υ=T, Σ=T, Β=F) + P(Υ=T,, } Σ=F, Β=F) = P(Υ=T Σ=T,Β=T)P(Σ=T Β=T)P(Β=T) + P(Υ=T Σ=F,Β=T)P(Σ=F Β=T)P(Β=T) + P(Υ=T Σ=T,Β=F)P(Σ=T Β=F)P(Β=F) + P(Υ=T Σ=F,Β=F)P(Σ=F Β=F)P(Β=F) = (0.99)(0.01)(0.) + (0.8)(0.99)(0.) + (0.9)(0.4)(0.8) + (0.0)(0.6)(0.8) = 0.00198 + 0.1584 + 0.88 + 0 = 0.44838. Συνεπώς, P(Β=T Υ=T) = 0.16038/0.44838 = 0.357687. 6.) Σε εφαρμογές δένδρων απόφασης μπορεί να εμφανιστεί ένα πρόβλημα μεροληψίας όταν χρησιμοποιείται η συνάρτηση κέρδος πληροφορίας. Περιγράψτε το προαναφερθέν πρόβλημα και στη συνέχεια, εξηγήστε τον τρόπο επίλυσής του. 6.3) Έστω το παρακάτω σύστημα, στο οποίο τρεις βαλβίδες ελέγχουν την ποσότητα υγρού μίας δεξαμενής. Καθώς γεμίζει η δεξαμενή με υγρό, θα πρέπει το ύψος και το βάρος του υγρού μέσα στη δεξαμενή να βρίσκονται σε επιθυμητά επίπεδα. Σχεδιάστε έναν ΑΓΧ και υπολογίστε το σημείο ισσοροπίας του συστήματος, όταν οι περιορισμοί του ύψους και του βάρους είναι 0.68 H 0.74 και 0.74 G 0.80 αντίστοιχα. Τέλος, οι ειδικοί έχουν ορίσει ότι οι 5 παράγοντες (H, G, V 1, V, V 3 ) που περιγράφουν το σύστημα επηρεάζουν ο ένας τον άλλον βάσει του πίνακα: 0 0.4 0.5 0 0.3 0.36 0 0 0 0 0.45 0 0 0 0 0.9 0 0 0 0 0 0.6 0 0.3 0, ενώ οι αρχικές τους τιμές είναι (0.10, 0.01, 0.45, 0.39 0.04). 6.4) Να αναπτυχθεί κώδικας σε MATLAB, ο οποίος να υλοποιεί τον κανόνα ανανέωσης των τιμών των εννοιών ενός ΑΓΧ με βάση την Εξ.(6.1), για μεταβλητό αριθμό εννοιών και τυχαίο σύνολο βαρών. 6.5) Να αναπτυχθεί κώδικας σε MATLAB, ο οποίος να υλοποιεί τον αλγόριθμο εκπαίδευσης DHL. 6-13
Βιβλιογραφία Axelrod, R. (1976). Structure of Decision: The Cognitive Maps of Political Elites. Princeton, NJ: Princeton University Press. Dickerson, J.A. & Kosko, B. (1994). Virtual worlds as fuzzy cognitive maps. Presence, 3(), 173-189. Edwards, D. (000). Introduction to Graphical Modelling ( nd ed.). Springer, New York, NY. Jordan, M.I. & Sejnowski. T.J. (Eds.). (001). Graphical Models: Foundations of Neural Computation. Cambridge, MA: The MIT Press. Kang, B., Deng, Y., Sadiq, R. & Mahadevan, S. (01). Evidential cognitive maps. Knowledge-Based Systems, 35, 77-86. Kosko, B. (1986). Fuzzy cognitive maps. Intl. Journal Man-Machine Studies, 4, 65-75. Kosko, B. (199). Neural Networks and Fuzzy Systems: A Dynamical Systems Approach to Machine Intelligence. Upper Saddle River, NJ: Prentice-Hall. Kotsiantis, S.B. (013). Decision trees: a recent overview. Artificial Intelligence Review, 39(4), 61-83. Μανωλόπουλος, Γ. (000). Μαθήματα Θεωρίας Γράφων Θεμελιώσεις - Αλγόριθμοι - Εφαρμογές. Αθήνα, Ελλάς, Εκδόσεις Νέων Τεχνολογιών. Neapolitan, R.E. (1989). Probabilistic Reasoning in Expert Systems: Theory and Algorithms. New York, N.Y.: Wiley. Oja, E. (1989). Neural networks, principal components and subspaces. International Journal of Neural Systems, 1, 61-68. Papageorgiou, E.I. (01). Learning algorithms for fuzzy cognitive maps - a review study. IEEE Transactions on Systems, Man, and Cybernetics, Part C, 4(), 150-163. Papageorgiou, E.I. & Iakovidis, D.K. (013). Intuitionistic fuzzy cognitive maps. IEEE Transactions on Fuzzy Systems, 1(), 34-354. Papageorgiou, E.I. & Kannappan, A. (01). Fuzzy cognitive map ensemble learning paradigm to solve classification problems: application to autism identification. Applied Soft Computing, 1(1), 3798-3809. Papageorgiou, E.I. & Salmeron, J.L. (013). A review of fuzzy cognitive maps research during the last decade. IEEE Transactions on Fuzzy Systems, 1(1), 66-79. Papageorgiou, E.I., Stylios, C.D. & Groumpos, P.P. (003). Fuzzy cognitive map learning based on nonlinear Hebbian rule. Advances in Artificial Intelligence, (LNAI 903, pp. 54-66). Berlin, Germany: Springer. Papageorgiou, E.I., Stylios, C.D. & Groumpos, P.P. (004). Active Hebbian learning algorithm to train fuzzy cognitive maps. International Journal of Approximate Reasoning, 37(3), 19-49. Papageorgiou, E.I., Stylios, C.D. & Groumpos, P.P. (006). Unsupervised learning techniques for fine-tuning fuzzy cognitive map casual links. International Journal of Human-Computer Studies, 64(8), 77-743. Papakostas, G.A. & Koulouriotis, D.E. (010). Classifying patterns using fuzzy cognitive maps. In M. Glykas (Ed.), Fuzzy Cognitive Maps: Advances in Theory, Methodoies, Tools and Applications (pp. 91-306). Berlin, Germany: Springer. Papakostas, G.A., Papageorgiou, E.I. & Kaburlasos, V.G. (015). Linguistic Fuzzy Cognitive Map (LFCM) for pattern recognition. In IEEE International Conference on Fuzzy Systems (FUZZ-IEEE), -5 August 015. Papakostas, G.A., Boutalis, Y.S., Koulouriotis, D.E. & Mertzios, B.G. (008). Fuzzy cognitive maps for pattern recognition applications. International Journal of Pattern Recognition and Artificial Intelligence, (8), 1461-1468. Papakostas, G.A., Koulouriotis, D.E., Polydoros, A.S. & Tourassis, V.D. (01). Towards Hebbian learning of fuzzy cognitive maps in pattern classification problems. Expert Systems with Applications, 39(1), 1060-1069. Pearl, J. (1985). Bayesian networks: a model of self-activated memory for evidential reasoning. In Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine, CA, 39-334. Pearl, J. (1988) Probabilistic Reasoning in Intelligent Systems. San Francisco, CA: Morgan Kaufmann. Pedrycz, W. & Homenda, W. (014). From fuzzy cognitive maps to granular cognitive maps. IEEE Transactions on Fuzzy Systems, (4), 859-869. 6-14
Quinlan, J.R. (199). C4.5: Programs for Machine Learning. San Mateo, CA: Morgan Kaufman. Salmeron, J.L. (010). Modelling grey uncertainty with Fuzzy Grey Cognitive Maps. Expert Systems with Applications, 37(1), 7581-7588. Shannon, C.E. (1948). A mathematical theory of communication. Bell System Technical Journal, 7(3), 379-43. Stylios, C.D. & Groumpos, P.P. (1998). The challenge of modelling supervisory systems using fuzzy cognitive maps. Journal of Intelligent Manufacturing, 9, 339-345. Swartout, W. & Tate, A. (1999). Ontoies. IEEE Intelligent Systems, 14(1), 18-19. 6-15