ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Σχετικά έγγραφα
Μάθηση με παραδείγματα Δέντρα Απόφασης

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αναγνώριση Προτύπων Ι

Στοχαστικές Στρατηγικές. διαδρομής (1)

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις)

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Υπερπροσαρμογή (Overfitting) (1)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ομαδοποίηση ΙΙ (Clustering)

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Σχεδίαση & Ανάλυση Αλγορίθμων

Ταξινόμηση II Σύντομη Ανακεφαλαίωση

Μη γράφετε στο πίσω μέρος της σελίδας

Μηχανική Μάθηση: γιατί;

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 2: Μαθηματικό Υπόβαθρο

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Εκτίμηση μη-γραμμικών χαρακτηριστικών

Ανάλυση Απόδοσης Πληροφοριακών Συστημάτων

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Ασκήσεις μελέτης της 16 ης διάλεξης

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

ΔΙΑΧΕΙΡΙΣΗ ΠΡΟΓΡΑΜΜΑΤΩΝ ΚΑΙ ΧΑΡΤΟΦΥΛΑΚΙΩΝ ΕΡΓΩΝ. Διάλεξη 1 η Εισαγωγικές έννοιες και ορισμοί Δημήτρης Τσέλιος

ΑΝΑΛΥΣΗ 2. Μ. Παπαδημητράκης.

n ίδια n διαφορετικά n n 0 n n n 1 n n n n 0 4

Ευφυής Προγραμματισμός

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (3)

Δομές Δεδομένων και Αλγόριθμοι

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 11: Μη Ασυμφραστικές Γλώσσες

Διαίρει και Βασίλευε. πρόβλημα μεγέθους Ν. διάσπαση. πρόβλημα μεγέθους k. πρόβλημα μεγέθους Ν-k

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μη γράφετε στο πίσω μέρος της σελίδας

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar

Σχεδίαση και Ανάλυση Αλγορίθμων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

HMY 795: Αναγνώριση Προτύπων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Πληρότητα της μεθόδου επίλυσης

Παράδειγμα δομικής επαγωγής Ορισμός δομικής επαγωγής Συμβολοσειρές Γλώσσες Δυαδικά δένδρα Μαθηματικά Πληροφορικής 3ο Μάθημα Αρχικός συγγραφέας: Ηλίας

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

Εξόρυξη Δεδομένων Κατηγοριοποίηση

Αριθμήσιμα σύνολα. Μαθηματικά Πληροφορικής 5ο Μάθημα. Παραδείγματα αριθμήσιμων συνόλων. Οι ρητοί αριθμοί

Μηχανική Μάθηση Εργασία 2

u v 4 w G 2 G 1 u v w x y z 4

Ενότητα 3 Επιτηρούµενος διαχωρισµός

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

ΗΥ180: Λογική Διδάσκων: Δημήτρης Πλεξουσάκης. Φροντιστήριο 8 Επίλυση για Horn Clauses Λογικός Προγραμματισμός Τετάρτη 9 Μαΐου 2012

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Αποθήκες και Εξόρυξη Δεδομένων

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

ΑΣΚΗΣΗ 3 ΑΣΚΗΣΗ 4 ΑΣΚΗΣΗ 5

Ομαδοποίηση Ι (Clustering)

Πληροφοριακά Συστήματα Διοίκησης

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

Διάλεξη 17: Συμφωνία με Βυζαντινά Σφάλματα. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

Προσεγγιστικοί Αλγόριθμοι

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ. Ακαδημαϊκό Έτος: ΣΗΜΕΙΩΣΕΙΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΥΕΝΑΣ ΓΙΑ ΤΟΥΣ ΦΟΙΤΗΤΕΣ ΤΟΥ Ε.Α.Π.

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

1.2 Βάσεις και υποβάσεις.

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

Θεωρία Παιγνίων Δρ. Τασσόπουλος Ιωάννης

Αναγνώριση Προτύπων Ι

Πελάτες φθάνουν στο ταμείο μιας τράπεζας Eνα μόνο ταμείο είναι ανοικτό Κάθε πελάτης παρουσιάζεται με ένα νούμερο - αριθμός προτεραιότητας Όσο ο

HMY 795: Αναγνώριση Προτύπων

R-Trees, kd-trees, QuadTrees. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ I Παντελής Δημήτριος Τμήμα Μηχανολόγων Μηχανικών

Το Πρόβλημα του Περιοδεύοντος Πωλητή - The Travelling Salesman Problem

Μη γράφετε στο πίσω μέρος της σελίδας

Κεφάλαιο 4: Μη Παραμετρικές Τεχνικές 4.1 Εισαγωγή

Στατιστικοί πίνακες. Δημιουργία κλάσεων

Καθ. Γιάννης Γαροφαλάκης. ΜΔΕ Επιστήμης και Τεχνολογίας Υπολογιστών Τμήμα Μηχανικών Η/Υ & Πληροφορικής

Χειρισμός Ανάλυση Δεδομένων

Transcript:

Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Κατηγοριοποιητής K πλησιέστερων γειτόνων Ας μελετήσουμε μια μη παραμετρική μέθοδο για την εκτίμηση πιθανοφάνειας η οποία χρησιμοποιεί την εκτίμηση πυκνότητας με βάση τους πλησιέστερους γείτονες. Έστω ότι D είναι ένα σύνολο δεδομένων εκπαίδευσης το οποίο αποτελείται από n σημεία x i R d, και έστω ότι συμβολίζουμε με D i το υποσύνολο των σημείων του D που έχουν ως ετικέτα την κατηγορία c i, με n i = D i. Ας υποθέσουμε ότι δίνεται ένα σημείο δοκιμής x R d, καθώς και το K (το πλήθος των γειτόνων που θα ληφθούν υπόψη) έστω ότι η απόσταση του x από τον K-οστό πλησιέστερο γείτονά του στο D συμβολίζεται με r. Θεωρήστε την d-διάστατη «υπερμπάλα» ακτίνας r γύρω από το σημείο δοκιμής x, η οποία ορίζεται ως B ( x, r) x D ( x, x ) r d i i Εδώ, το δ(x, x i ) είναι η απόσταση των x και x i συνήθως υποθέτουμε ότι πρόκειται για την Ευκλείδεια απόσταση, δηλαδή δ(x, x i ) = x x i 2. Επίσης, υποθέτουμε ότι B d (x, r) = K.

Κατηγοριοποιητής K πλησιέστερων γειτόνων k-κοντινότεροι γείτονες μιας εγγραφής x είναι τα σημεία που έχουν την k-οστή μικρότερη απόσταση από το x X X X (a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor

Κατηγοριοποιητής K πλησιέστερων γειτόνων Άγνωστο Σημείο Για να κατηγοριοποιηθεί μια άγνωστη εγγραφή: Υπολογισμός της απόστασης από τις εγγραφές του συνόλου Εύρεση των k κοντινότερων γειτόνων Χρήση των κλάσεων των κοντινότερων γειτόνων για τον καθορισμό της κλάσης της άγνωστης εγγραφής - π.χ., με βάση την πλειοψηφία (majority vote)

Κατηγοριοποιητής K πλησιέστερων γειτόνων Άγνωστο Σημείο Χρειάζεται: Το σύνολο των αποθηκευμένων εγγραφών Distance Metric Μετρική απόστασης για να υπολογίσουμε την απόσταση μεταξύ εγγραφών Την τιμή του k, δηλαδή τον αριθμό των κοντινότερων γειτόνων που πρέπει να ανακληθούν

Κατηγοριοποιητής K πλησιέστερων γειτόνων Άγνωστο Σημείο Απόσταση μεταξύ εγγραφών: Πχ ευκλείδεια απόσταση Καθορισμός τάξης: H πλειοψηφική κλάση Βάρος σε κάθε ψήφο με βάση την απόσταση

Κατηγοριοποιητής K πλησιέστερων γειτόνων Επιλογή της τιμής του k: k πολύ μικρό, ευαισθησία στα σημεία θορύβου k πολύ μεγάλο, η γειτονιά μπορεί να περιέχει σημεία από άλλες κλάσεις X

Δέντρα Αποφάσεων Συχνά είναι απαραίτητο να κάνουμε μια σειρά ερωτήσεων πριν καταλήξουμε σε μια απόφαση για ένα πρόβλημα. Οι απαντήσεις σε μια ερώτηση μπορεί να οδηγήσουν σε άλλη ερώτηση ή μπορεί να οδηγήσουν σε μια απόφαση για να επιτευχθεί η λύση του προβλήματος Μοντέλο = Δέντρο Απόφασης Εσωτερικοί κόμβοι αντιστοιχούν σε κάποιο γνώρισμα Διαχωρισμός (split) ενός κόμβου σε παιδιά η ετικέτα στην ακμή = συνθήκη/έλεγχος Φύλλα αντιστοιχούν σε κλάσεις

Δέντρα Αποφάσεων Το πρόβλημα του εστιατορίου Χαρακτηριστικά (attributes) του προβλήματος: Εναλλακτικό: Ναι, Όχι. Μπαρ: Ναι, Όχι. Π/Σ: Ναι, Όχι. Πεινασμένος: Ναι, Όχι. Πελάτες: Κανένας, Μερικοί, και Πλήρες. Τιμή: $, $$, $$$. Βρέχει: Ναι, Όχι. Κράτηση: Ναι, Όχι. Τύπος: Γαλλικό, Ιταλικό, Ταϋλανδέζικο, ή ταχυφαγείο. ΕκτίμησηΑναμονής: 0' 10', 10' 30', 30' 60', >60'. Απόφαση για το αν ο πελάτης θα περιμένει: NAI ή ΟΧΙ

Δέντρα Αποφάσεων Σύνολο εκπαίδευσης

Δέντρα Αποφάσεων Σύνολο εκπαίδευσης

Δέντρα Αποφάσεων

Δέντρα Αποφάσεων Νέος Πελάτης: Πλήρες, Εκτίμηση Αναμονής = 15 min, Πεινασμένος = ΝΑΙ, Ενναλακτικό = ΟΧΙ

Δέντρα Αποφάσεων Νέος Πελάτης: Πλήρες, Εκτίμηση Αναμονής = 15 min, Πεινασμένος = ΝΑΙ, Ενναλακτικό = ΟΧΙ

Δέντρα Αποφάσεων Εσωτερικοί κόμβοι: έλεγχος και απόφαση με βάση την τιμή κάποιου χαρακτηριστικού (attribute test) Φύλλα: απόφαση ταξινόμησης σε κάποια κατηγορία Πως επιτυγχάνεται ο διαχωρισμός σε δέντρα αποφάσεων. Υπάρχουν περισσότεροι από δυο τρόποι διαχωρισμού μιας απόφασης. Ωστόσο κάθε φορά θα πρέπει να επιλέγεται η μέθοδος με όποια δεν χάνεται ο έλεγχος πληροφορία μιας παραμέτρου που μπορεί να επηρεάσει μια απόφαση.

Δέντρα Αποφάσεων Iris Data

Δέντρα Αποφάσεων Iris Data

Κανόνες από δένδρα αποφάσεων Ένα δένδρο είναι ένα σύνολο κανόνων αποφάσεων κάθε κανόνας περιλαμβάνει τις αποφάσεις κατά μήκος της διαδρομής προς ένα φύλλο: R3 : Αν X 1 5.45 και X 2 2.8 και X 1 4.7, τότε η κατηγορία είναι η c 1, ή R4: Αν X 1 5.45 και X 2 2.8 και X 1 > 4.7, τότε η κατηγορία είναι η c 2, ή R1: Αν X 1 5.45 και X 2 > 2.8, τότε η κατηγορία είναι η c 1, ή R2: Αν X 1 > 5.45 και X 2 3.45, τότε η κατηγορία είναι η c 2, ή R5: Αν X 1 > 5.45 και X 2 > 3.45 και X 1 6.5, τότε η κατηγορία είναι η c 1, ή R6: Αν X 1 > 5.45 και X 2 > 3.45 και X 1 > 6.5, τότε η κατηγορία είναι η c 2.

Μέτρα αποτίμησης σημείων διαμερισμού: Εντροπία Η πρώτη προφανής επιλογή μας είναι ένα σημείο διαμερισμού το οποίο παράγει τον καλύτερο διαχωρισμό ή διάκριση των ετικετών για τις διαφορετικές κατηγορίες. Η εντροπία μετρά την ποσότητα της αταξίας ή αβεβαιότητας σε ένα σύστημα. Μια διαμέριση έχει χαμηλότερη εντροπία (ή αταξία) αν είναι σχετικά «καθαρή», δηλαδή αν τα περισσότερα από τα σημεία έχουν την ίδια ετικέτα. Από την άλλη πλευρά, μια διαμέριση έχει υψηλότερη εντροπία (ή αταξία) αν οι ετικέτες των κατηγορίες είναι ανάμεικτες, με αποτέλεσμα να μην προκύπτει πλειοψηφική κατηγορία. Αν μια περιοχή είναι «καθαρή», δηλαδή περιλαμβάνει σημεία από την ίδια κατηγορία, τότε η εντροπία της είναι μηδενική. Entropy ( t) c j1 p( j t)log p( j t 2 ) p(j t) σχετική συχνότητα της κλάσης j στον κόμβο t c αριθμός κλάσεων C1 0 C2 6 Entropy=0.000 C1 1 C2 5 Entropy=0.650 C1 3 C2 3 Entropy = 1.000

Κέρδος Πληροφορίας (Gain) Και σε αυτήν την περίπτωση, όταν ένας κόμβος p διασπάται σε k σύνολα (παιδιά), η ποιότητα του διαχωρισμού υπολογίζεται ως: GAIN split Entropy ( p) k i1 n i n Entropy( i) ni = αριθμός εγγραφών του παιδιού i, n = αριθμός εγγραφών του κόμβου p. Όσο υψηλότερη είναι η τιμή του κέρδους πληροφορίας, τόσο μεγαλύτερη είναι η μείωση της εντροπίας, και άρα τόσο καλύτερο είναι το σημείο διαμερισμού. Μπορούμε να βαθμολογήσουμε κάθε σημείο διαμερισμού και να επιλέξουμε εκείνο το οποίο παράγει το υψηλότερο πληροφοριακό κέρδος.

Μέτρα αποτίμησης σημείων διαμερισμού: Δείκτης Gini Δείκτης Gini: Ο δείκτης Gini ορίζεται ως Gini( t) 1 c j1 p( j t) 2 p(j t) σχετική συχνότητα της κλάσης j στον κόμβο t (ποσοστό εγγραφών της κλάσης j στον κόμβο t) c αριθμός κλάσεων Αν η διαμέριση είναι «καθαρή», τότε ο δείκτης Gini θα είναι 0. Παραδείγματα: C1 0 C2 6 Gini=0.000 C1 1 C2 5 Gini=0.278 C1 3 C2 3 Gini=0.500

y Μέτρα αποτίμησης σημείων διαμερισμού: Δείκτης Gini Όταν ένας κόμβος p διασπάται σε k κόμβους (παιδιά), (που σημαίνει ότι το σύνολο των εγγραφών του κόμβου χωρίζεται σε k υποσύνολα), η ποιότητα του διαχωρισμού υπολογίζεται ως: Gini split k i1 ni n Gini( i) όπου, ni = αριθμός εγγραφών του παιδιού i, n = αριθμός εγγραφών του κόμβου p. 1 0.9 0.8 0.7 0.6 0.5 Δείκτης Gini για το διαχωρισμό στο σημείο Χ = 0.4??? 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x

y Μέτρα αποτίμησης σημείων διαμερισμού: Δείκτης Gini Όταν ένας κόμβος p διασπάται σε k κόμβους (παιδιά), (που σημαίνει ότι το σύνολο των εγγραφών του κόμβου χωρίζεται σε k υποσύνολα), η ποιότητα του διαχωρισμού υπολογίζεται ως: Gini split k i1 ni n Gini( i) όπου, ni = αριθμός εγγραφών του παιδιού i, n = αριθμός εγγραφών του κόμβου p. 1 0.9 0.8 0.7 0.6 0.5 Gini split 0.486 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x

y Άσκηση Έστω η ρίζα του δέντρου στο X = 0.4. Κατασκευάστε ένα δένδρο αποφάσεων χρησιμοποιώντας ως κατώφλι καθαρότητας τη τιμή 100%. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x

y Άσκηση Έστω η ρίζα του δέντρου στο X = 0.4. Κατασκευάστε ένα δένδρο αποφάσεων χρησιμοποιώντας ως κατώφλι καθαρότητας τη τιμή 100%. 1 0.9 0.8 0.7 ΝΑΙ x < 0.4 ΟΧΙ 0.6 0.5 y < 0.5 y < 0.3 0.4 0.3 ΝΑΙ ΟΧΙ ΝΑΙ ΟΧΙ 0.2 0.1 : 4 : 0 : 0 : 4 : 0 : 3 : 4 : 0 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x

Άσκηση Κατασκευάστε ένα δένδρο αποφάσεων χρησιμοποιώντας ως κατώφλι καθαρότητας τη τιμή 100%. Χρησιμοποιείστε στο κέρδος πληροφορίας ως μέτρο αποτίμησης τωνσημείων διαμερισμού. Κατηγοριοποιείστε το σημείο (Age = 27, Car = Vintage)