Μάθηση με παραδείγματα Δέντρα Απόφασης

Σχετικά έγγραφα
ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Μηχανική Μάθηση: γιατί;

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Δέντρα Απόφασης (Decision(

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Ασκήσεις μελέτης της 16 ης διάλεξης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες εδομένων και Εξόρυξη εδομένων:

d k 10 k + d k 1 10 k d d = k i=0 d i 10 i.

Μάθηση εννοιών. Έννοιες: συναρτήσεις που επιστρέφουν λογική τιμή

Πελάτες φθάνουν στο ταμείο μιας τράπεζας Eνα μόνο ταμείο είναι ανοικτό Κάθε πελάτης παρουσιάζεται με ένα νούμερο - αριθμός προτεραιότητας Όσο ο

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Υπερπροσαρμογή (Overfitting) (1)

Διάλεξη 18: B-Δένδρα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Διάλεξη 22: Δυαδικά Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου

Ουρές προτεραιότητας

Αλγόριθµοι και Πολυπλοκότητα

Θέματα Συστημάτων Πολυμέσων

Μη γράφετε στο πίσω μέρος της σελίδας

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

Ευφυής Προγραμματισμός

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 6: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ: ΠΡΟΒΛΗΜΑ ΑΝΑΖΗΤΗΣΗΣ

Δομές Δεδομένων και Αλγόριθμοι

Τηλεπικοινωνιακά Συστήματα ΙΙ

Ουρά Προτεραιότητας (priority queue)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

Αλγόριθμοι Ταξινόμησης Μέρος 4

Αριθμήσιμα σύνολα. Μαθηματικά Πληροφορικής 5ο Μάθημα. Παραδείγματα αριθμήσιμων συνόλων. Οι ρητοί αριθμοί

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Τεχνητή Νοημοσύνη. Ενότητα 7: Μηχανική μάθηση

Ποσοτική Ανάλυση Κινδύνων

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

Δίαυλος Πληροφορίας. Δρ. Α. Πολίτης

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Διδάσκων: Παναγιώτης Ανδρέου ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Δηµοσθένης Σταµάτης Τµήµα Πληροφορικής ΑΤΕΙ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΕΝΤΡΑ (TREES) B C D E F G H I J K L M

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

Προγραμματισμός Ι (ΗΥ120)

Διδάσκων: Παναγιώτης Ανδρέου

Θεωρία πληροφοριών. Τεχνολογία Πολυµέσων 07-1

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Διδάσκων: Παναγιώτης Ανδρέου

Διάλεξη 14: Δέντρα IV - B-Δένδρα

ΚΕΦΑΛΑΙΟ ΠΕΜΠΤΟ ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ

Δυναμικές Δομές Δεδομένων Λίστες Δένδρα - Γράφοι

Δομές Δεδομένων & Αλγόριθμοι

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Σχεδιαση Αλγοριθμων -Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΕΞΕΤΑΣΕΙΣ (16/06/2010, 18:00)

ΗΥ360 Αρχεία και Βάσεις εδοµένων

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Διδάσκων: Κωνσταντίνος Κώστα

Μορφές αποδείξεων. Μαθηματικά Πληροφορικής 2ο Μάθημα. Μορφές αποδείξεων (συνέχεια)

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Δημιουργία Δυαδικών Δέντρων Αναζήτησης

Θέματα Συστημάτων Πολυμέσων

Αλγόριθμοι Αναζήτησης

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διαχείριση Εφοδιαστικής Αλυσίδας Μέρος 5 Αξιολόγηση Εναλλακτικών Σεναρίων ΔΡ. ΙΩΑΝΝΗΣ ΡΟΜΠΟΓΙΑΝΝΑΚΗΣ

Διάλεξη 13: Δέντρα ΙΙΙ Ισοζυγισμένα Δέντρα, AVL Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου

Ε ανάληψη. Ορισµοί της Τεχνητής Νοηµοσύνης (ΤΝ) Καταβολές. Ιστορική αναδροµή. Πράκτορες. Περιβάλλοντα. κριτήρια νοηµοσύνης

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Πανεπιστήµιο Αθηνών. Τµήµα Πληροφορικής και Τηλεπικοινωνιών. Παραλληλία. Κ. Χαλάτσης, Εισαγωγή στην Επιστήµη της Πληροφορικής και των Τηλεπικοινωνιών

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Παράδειγμα δομικής επαγωγής Ορισμός δομικής επαγωγής Συμβολοσειρές Γλώσσες Δυαδικά δένδρα Μαθηματικά Πληροφορικής 3ο Μάθημα Αρχικός συγγραφέας: Ηλίας

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Όρια Αλγόριθμων Ταξινόμησης. Εισαγωγή στην Ανάλυση Αλγορίθμων Μάγια Σατρατζέμη

Ν. Μ. Μισυρλής. Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών. Καθηγητής: Ν. Μ. Μισυρλής 29 Μαΐου / 18

Δομές ελέγχου ροής προγράμματος

Εισαγωγή στη θεωρία πληροφορίας

Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα

Δένδρα. Μαθηματικά (συνδυαστικά) αντικείμενα. Έχουν κεντρικό ρόλο στην επιστήμη των υπολογιστών :

Διασυνδεδεμένες Δομές. Δυαδικά Δέντρα. Προγραμματισμός II 1

Ψηφιακή Επεξεργασία Εικόνας

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Ουρά Προτεραιότητας (priority queue)

Εξόρυξη Γνώσης στον Τομέα του Αθλητισμού

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (1)

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Π(n) : 1 + a + + a n = an+1 1 a 1. a 1. + a k+1 = ak+2 1

Transcript:

Μάθηση με παραδείγματα Δέντρα Απόφασης

Μορφές μάθησης Επιβλεπόμενη μάθηση (Ταξινόμηση Πρόβλεψη) Παραδείγματα: {(x, t )} t κατηγορία ταξινόμηση t αριθμός πρόβλεψη Μη-επιβλεπόμενη μάθηση (Ομαδοποίηση Μείωση Διάστασης) Παραδείγματα: {x } Ενισχυτική μάθηση Παραδείγματα: {(x, r )} Επαγωγική Μάθηση (Αναπαράσταση): Μαθηματικά Μοντέλα Συστήματα Κανόνων (ερμηνευσιμότητα)

Επιβλεπόμενη μάθηση Υπόθεση (μοντέλο μάθησης): h (ορισμός χώρου υποθέσεων) Συνεπείς (με τα παραδείγματα) υποθέσεις Occam s razor: προτιμούμε την απλούστερη συνεπή υπόθεση

Δένδρα αποφάσεων για ταξινόμηση Decso Trees for Classfcato

Το πρόβλημα του εστιατορίου Χαρακτηριστικά (attrbutes) του προβλήματος: Εναλλακτικό: Ναι, Όχι. Μπαρ: Ναι, Όχι. Π/Σ: Ναι, Όχι. Πεινασμένος: Ναι, Όχι. Πελάτες: Κανένας, Μερικοί, και Πλήρες. Τιμή: $, $$, $$$. Βρέχει: Ναι, Όχι. Κράτηση: Ναι, Όχι. Τύπος: Γαλλικό, Ιταλικό, Ταϋλανδέζικο, ή ταχυφαγείο. ΕκτίμησηΑναμονής: 0' 10', 10' 30', 30' 60', >60'. Απόφαση για το αν ο πελάτης θα περιμένει: NAI ή ΟΧΙ

Παράδειγμα

Δέντρα απόφασης Εσωτερικοί κόμβοι: έλεγχος και απόφαση με βάση την τιμή κάποιου χαρακτηριστικού (attrbute test) Φύλλα: απόφαση ταξινόμησης σε κάποια κατηγορία

Σύνολο εκπαίδευσης # Εναλ Μπαρ Π/Σ Πεινασμ Πελατες Τιμή Βρέχει Κράτηση Τύπος Εκτιμ ΘαΠεριμένει X 1 Ναι Όχι Όχι Ναι Μερικοί $$$ Όχι Ναι Γαλλικό 0-10 Ναι X 2 Ναι Όχι Όχι Ναι Πλήρες $ Όχι Όχι Ταϋλ 30-60 Όχι X 3 Όχι Ναι Όχι Όχι Μερικοί $ Όχι Όχι Ταχυφ. 0-10 Ναι X 4 Ναι Όχι Ναι Ναι Πλήρες $ Ναι Όχι Ταϋλ 10-30 Ναι X 5 Ναι Όχι Ναι Όχι Πλήρες $$$ Όχι Ναι Γαλλικό >60 Όχι X 6 Όχι Ναι Όχι Ναι Μερικοί $$ Ναι Ναι Ιταλικό 0-10 Ναι X 7 Όχι Ναι Όχι Όχι Κανένας $ Ναι Όχι Ταχυφ. 0-10 Όχι X 8 Όχι Όχι Όχι Ναι Μερικοί $$ Ναι Ναι Ταϋλ 0-10 Ναι X 9 Όχι Ναι Ναι Όχι Πλήρες $ Ναι Όχι Ταχυφ. >60 Όχι X 10 Ναι Ναι Ναι Ναι Πλήρες $$$ Όχι Ναι Ιταλικό 10-30 Όχι X 11 Όχι Όχι Όχι Όχι Κανένας $ Όχι Όχι Ταϋλ 0-10 Όχι X 12 Ναι Ναι Ναι Ναι Πλήρες $ Όχι Όχι Ταχυφ. 30-60 Ναι

Κατασκευή δένδρων αποφάσεων (1/2)

Κατασκευή δένδρων αποφάσεων (2/2)

Ο αλγόριθμος fucto Decso-Τree-Learg(παραδείγματα,χαρακτηριστικά,προεπιλογή) returs δέντρο αποφάσεων uts: παραδείγματα, ένα σύνολο παραδειγμάτων χαρακτηριστικά, ένα σύνολο χαρακτηριστικών προεπιλογή, προεπιλεγμένη κατηγορία f παραδείγματα είναι κενό the retur προεπιλογή else f όλα στο παραδείγματα έχουν την ίδια κατηγορία the retur την κατηγορία else f χαρακτηριστικά είναι κενό the retur Majorty-Class (παραδείγματα) else best Choose-Attrbute(χαρακτηριστικά, παραδείγματα) tree νέο δέντρο αποφάσεων με έλεγχο ρίζας το χαρακτηριστικό best m Majorty-Value(παραδείγματα) for each τιμή υ του best do παραδείγματα {στοιχεία από τα παραδείγματα με best = υ } subtreedecso-tree-learg(παραδείγματα,χαρακτηριστικά-best,m) προσθήκη διακλάδωσης στο tree με ετικέτα υ και υποδέντρο=subtree retur tree

Εντροπία Εντροπία Πληροφορίας (Shao & Weaver, 1949) (μέτρο της αβεβαιότητας ή ανομοιογένειας των δεδομένων) Μεταβλητή με σύμβολα: I( P( υ 1 ),..., P( υ )) P( υ ) log2 P( υ ) 1 π.χ. για δύο ισοπίθανα ενδεχόμενα: Ι 1 1 1 1 log 1 1 log 1δυαδικό ψηφίο 2, 2 2 2 2 2 2 2 Για μη ισοπίθανα ενδεχόμενα, π.χ. Ι(1/100, 99/100) = 0,08 δυαδικά ψηφία, Ι(1,0)=Ι(0,1)=0 δυαδικά ψηφία Θέλουμε η διάσπαση του συνόλου παραδειγμάτων με βάση κάποιο χαρακτηριστικό να οδηγεί σε όσο το δυνατό μεγαλύτερη μείωση της εντροπίας.

Επιλογή χαρακτηριστικών Εντροπία συνόλου παραδειγμάτων πριν τη διάσπαση (: C 1, :C 2 ): Μέση εντροπία μετά τη διάσπαση με βάση το χαρακτηριστικό Α με υ δυνατές τιμές (διακλαδώσεις): Κέρδος πληροφορίας (Iformato Ga): I 2 log 2 log, 1, ) ( I Υπόλοιπο Α ) (, ) ( Α Υπόλ οιπο I Α Κέρδος

Παράδειγμα 2 4 6 2 4 Κέρδος( Πελάτες) 1 Ι(0,1) Ι(1,0) Ι, 0,541 12 12 12 6 6 2 1 1 2 1 1 4 2 2 4 2 2 Κέρδος( Τύπος) 1 Ι, Ι, Ι, Ι, 0 12 2 2 12 2 2 12 4 4 12 4 4

Αποτίμηση συστήματος μάθησης Σύνολο ελέγχου Αξιολόγηση σε παραδείγματα που δεν έχουν χρησιμοποιηθεί κατά την εκπαίδευση ικανότητα γενίκευσης Υπερεκπαίδευση: το σύστημα είναι πιο ευέλικτο απότι χρειάζεται (μαθαίνει και το θόρυβο που συνήθως υπάρχει στα παραδείγματα) Υποεκπαίδευση: το σύστημα δεν είναι επαρκώς ευέλικτο Υπάρχει ένα βέλτιστο μοντέλο: το μικρότερο συνεπές σύστημα (occam s razor). Για τα δέντρα απόφασης μπορούμε να κάνουμε κλάδεμα ενός μεγάλου δέντρου που κατασκευάζουμε αρχικά.