Ενότητα 3 Επιτηρούµενος διαχωρισµός

Σχετικά έγγραφα
Διακριτικές Συναρτήσεις

Ασκήσεις μελέτης της 16 ης διάλεξης

Εισαγωγή στην Επιστήµη Δεδοµένων

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ασκήσεις μελέτης της 19 ης διάλεξης

Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

o AND o IF o SUMPRODUCT

Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Αρχίστε αµέσως το πρόγραµµα xline Εσόδων Εξόδων.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ


Γνωριµία µε τη Microsoft Access

ΔΙΑΔΡΑΣΤΙΚΟ ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ

ErmisWIN v & Οδηγίες Τέλους Έτους ( 31/12/2014 )

Πόσες µαύρες τελείες βλέπετε ; Οι οριζόντιες γραµµές δείχνουν να είναι παράλληλες ;

Διοίκηση Ολικής Ποιότητας ΔΙΑΛΕΞΗ 2 η : Εργαλεία και Τεχνικές

400 = t2 (2) t = 15.1 s (3) 400 = (t + 1)2 (5) t = 15.3 s (6)

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Οδηγίες για το Βιβλίο Κοστολογίου στα Γ κατηγορίας βιβλία

Σεραφείµ Καραµπογιάς. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6.3-1

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Διοίκηση Ποιότητας Έργων 6 η Διάλεξη. Δηµήτριος Τσέλιος Μεταπτυχιακό πρόγραµµα στη Διαχείριση Έργων και Προγραµµάτων

ΘΕΩΡΙΑ ΧΡΗΣΙΜΟΤΗΤΑΣ ΚΑΤΑΝΑΛΩΤΙΚΗ ΣΥΜΠΕΡΙΦΟΡΑ

Θεματολογία. Δεδομένα και αβεβαιότητα. Αντικείμενο της Στατιστικής. Βασικές έννοιες. Δεδομένα και αβεβαιότητα. Στατιστική Ι

Διάλεξη 5 η : ΕΠΙΛΟΓΗ ΕΡΓΟΥ. Δρ. Β. Βασιλειάδης ΔΙΚΣΕΟ, ΑΤΕΙ Μεσολογγίου

( ) = T 1 ) (2) ) # T 3 ( ) + T 2 ) = T 3. Ισορροπία Παράδειγµα. ! F! = m! a = 0. ! F y. # F g = 0! T 3 ! T 2. sin( 53 0

ΚΕΦΑΛΑΙΟ 6 ΚΕΝΤΡΟ ΒΑΡΟΥΣ-ΡΟΠΕΣ Α ΡΑΝΕΙΑΣ

ΑΡΧΕΣ ΟΙΚΟΝΟΜΙΚΗΣ ΘΕΩΡΙΑΣ

Σ F x = 0 T 1x + T 2x = 0 = T 1 cos(θ 1 ) = T 2 cos(θ 2 ) (2) F g cos(θ 2 ) (sin(θ 1 ) cos(θ 2 ) + cos(θ 1 ) sin(θ 2 )) = F g cos(θ 2 ) T 1 =

Σημειώσεις στο PowerPoint

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης

Παλαιότερες ασκήσεις

ΔΙΑΧΕΙΡΙΣΗ ΠΡΟΓΡΑΜΜΑΤΩΝ ΚΑΙ ΧΑΡΤΟΦΥΛΑΚΙΩΝ ΕΡΓΩΝ. Διάλεξη 1 η Εισαγωγικές έννοιες και ορισμοί Δημήτρης Τσέλιος

Επαναληπτικό ιαγώνισµα Πληροφορικής Γ Γυµνασίου Γιώργος Λιακέας Σχολικός Σύµβουλος Πληροφορικής Ερωτήσεις

ΚΕΦΑΛΑΙΟ 1 ο ΠΑΙΧΝΙ ΙΑ ΣΤΗΝ ΚΑΤΑΣΚΗΝΩΣΗ. Στο κεφάλαιο αυτό, θα προσπαθήσουµε να επιτύχουµε τους εξής στόχους:

Διάλεξη 6 η :Δένδρα Αποφάσεων. Β. Βασιλειάδης Τµ. Διοικ. Επιχειρήσεων, ΤΕΙ ΔΥΤ. ΕΛΛΑΔΑΣ

Μάθηµα Θεωρίας Αριθµών Ε.Μ.Ε

ΠΑΡΑ ΕΙΓΜΑΤΑ ΓΡΑΦΗΣ ΕΞΙΣΩΣΕΩΝ ΚΑΤΑΣΤΑΣΕΩΣ ΣΕ ΗΛΕΚΤΡΙΚΑ ΙΚΤΥΑ

ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ


ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ( , c Ε. Γαλλόπουλος) ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. Ε. Γαλλόπουλος. ΤΜΗΥΠ Πανεπιστήµιο Πατρών. ιαφάνειες διαλέξεων 28/2/12

ÖÑÏÍÔÉÓÔÇÑÉÏ ÈÅÌÅËÉÏ ÇÑÁÊËÅÉÏ ÊÑÇÔÇÓ

5.1.1 Η ΖΗΤΗΣΗ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΥΠΗΡΕΣΙΩΝ

ροµολόγηση πακέτων σε δίκτυα υπολογιστών

ΕΡΓΑΣΙΑ ΤΕΧΝΟΛΟΓΙΑΣ. Αρμάου Ανδριάνα

= γ + δ P απαιτεί γ > 0

ΑΣΚΗΣΗ 5. Χρώµα στην Αστρονοµία

Κατάτµηση εικόνας σε οµοιόµορφες περιοχές

Στην αυτοσωμική υπολειπόμενη κληρονομικότητα: κυστική ίνωση Στη φυλοσύνδετη υπολειπόμενη κληρονομικότητα: αιμορροφιλία

Η δυναμική ενέργεια ελαστικότητας και το μονωμένο σύστημα..

ΗΈνταξητουλογισµικού SalsaJσε. σεµιαδιαθεµατική προσέγγισητης Αστρονοµίας. Γρηγόρης Ζυγούρας Φυσικός Τεχνολόγος 2 ο Γυµνάσιο Χαλανδρίου

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Ασκήσεις στο µάθηµα «Επισκόπηση των Τηλεπικοινωνιών»

Κεφάλαιο 9 ο Κ 5, 4 4, 5 0, 0 0,0 5, 4 4, 5. Όπως βλέπουµε το παίγνιο δεν έχει καµιά ισορροπία κατά Nash σε αµιγείς στρατηγικές διότι: (ΙΙ) Α Κ

Ανάλυση ποσοτικών δεδομένων

Πανεπιστήµιο Πατρών Τµήµα ιοίκησης Επιχειρήσεων. Ανδρέας Νεάρχου 2

2.3. Ασκήσεις σχ. βιβλίου σελίδας Α ΟΜΑ ΑΣ

Βασικά Στοιχεία Διαχείρισης Έργων

ΘΕΜΑΤΑ ΤΕΧΝΗΣ Β και Γ ΛΥΚΕΙΟΥ. Ηρεμία, στατικότατα, σταθερότητα

ΦΥΣ Διαλ Κινηµατική και Δυναµική Κυκλικής κίνησης

Θα συµπληρώσετε τα απαραίτητα στοιχεία που βρίσκονται µε έντονα γράµµατα για να δηµιουργήσετε την νέα εταιρεία.

ζωγραφίζοντας µε τον υπολογιστή

ιαδικαστικά θέµατα HY118- ιακριτά Μαθηµατικά Συνάρτηση: Τυπικός ορισµός Ορολογία 17 - Η αρχή του περιστερώνα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες -Χειµερινό Εξάµηνο 2012 ιδάσκων : Π. Τσακαλίδης. Λύσεις : Τέταρτη Σειρά Ασκήσεων

ΕΞΕΤΑΣΕΙΣ στο τέλος του εξαμήνου με ΑΝΟΙΧΤΑ βιβλία ΕΞΕΤΑΣΕΙΣ ο καθένας θα πρέπει να έχει το ΔΙΚΟ του βιβλίο ΔΕΝ θα μπορείτε να ανταλλάσετε βιβλία ή να

ΜΑΘΗΜΑΤΙΚΑ MATHEMATICS

ΠΕΡΙΕΧΟΜΕΝΑ. Εικονίδια ιαχείρισης Φορολογικών ηλώσεων. ηµιουργία Φορολογούµενου. ηµιουργία και υπολογισµός του εντύπου ΕΣΠ

Οι πράξεις που χρειάζονται για την επίλυση αυτών των προβληµάτων (αφού είναι απλές) µπορούν να τεθούν σε µια σειρά και πάρουν µια αλγοριθµική µορφή.

Ενότητα 6: Μη θερµική ακτινοβολία σε blazars: Αντίστροφη Σκέδαση Compton Φύλλο Φοιτητή

Βασικό Επίπεδο στο Modellus

Πρακτική µε στοιχεία στατιστικής ανάλυσης

Άρα, Τ ser = (A 0 +B 0 +B 0 +A 0 ) επίπεδο 0 + (A 1 +B 1 +A 1 ) επίπεδο 1 + +(B 5 ) επίπεδο 5 = 25[χρονικές µονάδες]

ΕΙΣΑΓΩΓΗ ΣΤΟ MATLAB- SIMULINK

Μάθηµα 12. Κεφάλαιο: Στατιστική

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Γενική Επισκόπηση. Διοίκηση Έργων Πληροφορικής ΤΕΙ Δυτικής Ελλάδας Τµήµα Διοίκησης Επιχειρήσεων (Μεσολόγγι)

ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΑΞΙΟΛΟΓΗΣΗΣ/ΣΥΓΚΡΙΣΗΣ ΕΝΑΛΛΑΚΤΙΚΗΣ ΔΟΜΗΣΗΣ ΣΕ ΣΧΕΣΗ ΜΕ ΤΗ ΣΥΜΒΑΤΙΚΗ ΔΟΜΗΣΗ

ΧΡΗΣΗ ΚΙΝΗΤΟΥ ΤΗΛΕΦΩΝΟΥ ΚΑΙ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΚΥΚΛΟΦΟΡΙΑΣ

SPSS Statistical Package for the Social Sciences

ΚΕΦΑΛΑΙΟ 3 ο. Οι Έλληνες της διασποράς. Στο κεφάλαιο αυτό, θα προσπαθήσουµε να επιτύχουµε τους εξής στόχους:

Σηµαντικές παρατηρήσεις σχετικά µε το backround:

3.1 ΕΙΓΜΑΤΙΚΟΣ ΧΩΡΟΣ - ΕΝ ΕΧΟΜΕΝΑ. 1. Πείραµα τύχης : Το πείραµα του οποίου δε µπορούµε να προβλέψουµε µε ακρίβεια το αποτέλεσµα.

Κανονικοποίηση Σχήµατος. Βάσεις εδοµένων Ευαγγελία Πιτουρά 1

Σχήµα 3.1: Εισαγωγή shift register σε βρόγχο for-loop.

ΝΕΟ ΑΣΦΑΛΙΣΤΙΚΟ - ΦΟΡΟΛΟΓΙΚΟ

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Κώδικες µεταβλητού µήκους

Ροπή αδράνειας. q Ας δούµε την ροπή αδράνειας ενός στερεού περιστροφέα: I = m(2r) 2 = 4mr 2

Αποθήκες εδομένων και Εξόρυξη εδομένων:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Τα Γενετικά πειράματα του Mendel με την μπιζελιά

6.1 Η ΕΝΝΟΙΑ ΤΗΣ ΣΥΝΑΡΤΗΣΗΣ

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Κος ΣΤΑΥΡΙΝΟΥΔΗΣ: Καλησπέρα. Η δική μας εισήγηση θα είχε άμεση σχέση και θα είχε ενδιαφέρον να ακολουθούσε την εισήγηση του κυρίου Λέλεκα.

Γραµµική Αλγεβρα. Ενότητα 2 : Επίλυση Γραµµικών Εξισώσεων. Ευστράτιος Γαλλόπουλος Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Transcript:

Ενότητα 3 Επιτηρούµενος διαχωρισµός Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Οι διαλέξεις χρησιµοποιούν το βιβλίο Data Science for Business των Foster Provost καιtom Fawcett, 2013. Οι διαφάνειες και οι εικόνες χρησιµοποιούνται µε την άδεια των συγγραφέων.

Περιεχόµενα n Ορολογία n Ψάχνοντας για ιδιότητες µε πληροφορία n Διαχωρισµός βασισµένος σε δένδρα

Ορολογία των δεδοµένων Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......

Ορολογία των δεδοµένων Dataset Πίνακας δεδοµένων (οριζόντιο αρχείο) Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......

Ορολογία των δεδοµένων Μεταβλητές (στήλες) Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......

Ορολογία των δεδοµένων Ιδιότητες Χαρακτηριστικά Εξερευνητικές ή ανεξάρτητες µεταβλητές Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......

Ορολογία των δεδοµένων Μεταβλητή στόχος Τάξη δεδοµένων Εξαρτηµένη µεταβλητή Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......

Ορολογία των δεδοµένων Εγγραφές (Δεδοµένα) Instances Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......

Ορολογία των δεδοµένων (17824, 49, M, 12000, -3000) διάνυσµα χαρακτηριστικών Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......

Βρίσκοντας µεταβλητές που έχουν πληροφορία n Υπάρχουν µία ή περισσότερες µεταβλητές που µειώνουν την αβεβαιότητα µας για την τιµή της µεταβλητής στόχου; Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......

Πολλά ερωτήµατα n Πως µπορώ να καταλάβω ποια πληροφορία είναι σηµαντική για τη µεταβλητή στόχο; n Πως µπορούµε (αυτόµατα) να αποκτήσουµε την επιλογή από πολλές µεταβλητές για να προβλέψουµε την τιµή της µεταβλητής στόχου; n Ακόµη καλύτερα, µπορούµε να βρούµε µια βαθµολογική σειρά αυτών των µεταβλητών;

Επιτηρούµενος διαχωρισµός n Ιδιότητες: n κεφάλι-σχήµα: τετράγωνο, κύκλος n σώµα-σχήµα: ορθογώνιο, οβάλ n σώµα-χρώµα: µαύρο, άσπρο n Μεταβλητή στόχος: Ναι, Όχι

Επιτηρούµενος διαχωρισµός n Ποια ιδιότητα έχει περισσότερη πληροφορία; Ή ποια είναι προτιµότερη για το διαχωρισµό των δεδοµένων; n Αν χωρίσουµε τα δεδοµένα σύµφωνα µε αυτή τη µεταβλητή, θα θέλαµε οι οµάδες που δηµιουργούνται να είναι όσο το δυνατό πιο ξεκάθαρες. n Ξεκάθαρες σηµαίνει οµοιογενείς όσον αφορά τη µεταβλητή στόχο. n Αν κάθε µέλος της οµάδας έχει την ίδια τιµή για το στόχο, τότε η οµάδα είναι συνολικά ξεκάθαρη.

Παράδειγµα n Αν αυτό είναι το σύνολο δεδοµένων: n Τότε, µπορούµε να έχουµε δυο οµάδες κάνοντας τ διαχωρισµό µε βάση το σχήµα του σώµατος:

Ερωτήµατα n Οι ιδιότητες σπάνια διαχωρίζουν τέλεια µια οµάδα. n Ακόµη και αν µια υποοµάδα συµβαίνει να είναι ξεκάθαρη, η άλλη µπορεί να µην είναι. n Αν έχουµε µια µικρή ξεκάθαρη οµάδα είµαστε ικανοποιηµένοι; n Πως πρέπει να χειριστούµε συνεχείς και κατηγορηµατικές µεταβλητές;

Εντροπία και Κέρδος Πληροφορίας n Η µεταβλητή στόχος έχει δύο (ή περισσότερες) κατηγορίες: 1, 2 (, m) n Πιθανότητα P1 για την κατηγορία 1 n Πιθανότητα P2 για την κατηγορία 2 n n Εντροπία: H 2 ( X ) = p1 log2 p1 p2 log2 p2 p m log p m

Εντροπία H 2 ( X ) = p1 log2 p1 p2 log2 p2 p m log p m H ( 2 X ) = 0.5 log2 0.5 0.5 log 0.5 = 1 H ( 2 X ) = 0.75log2 0.75 0.25log 0.25 = 0.81 H ( X ) = 1log2 1 = 0

Κέρδος πληροφορίας n Υπολογισµός του Κέρδους Πληροφορίας (IG): n IG (γονέας, παιδιά) = εντροπία(γονέας) [p(c1) εντροπία (c1)+p(c2) εντροπία (c2) + ] Γονέας Παιδί 1 (c1) Παιδί 2 (c2) Παιδί Σηµείωση: Υψηλότερο IG σηµαίνει καλύτερος διαχωρισµός.

Κέρδος πληροφορίας Ατοµικό id Ηλικία>50 φύλο κατοικία υπόλοιπο Πληρωµή δανείου 123213 N F own 52000 delayed 17824 Y M own -3000 OK 232897 N F rent 70000 delayed 288822 Y M other 30000 delayed......

Κέρδος πληροφορίας - καθυστέρηση - OK

Κέρδος πληροφορίας Εντροπία (γονέα) = [p( ) log2 p( ) +p( ) log2 p( )] = [0.53 ( 0.9) +0.47 ( 1.1)] = 0.99 (εντελώς µη ξεκάθαρο!) - καθυστέρηση - OK Αριστερό παιδί: εντροπία (Υπόλοιπο< 50K) = [p( ) log2 p( ) + p( ) log2 p( )] = [0.92 ( 0.12) + 0.08 ( 3.7)] = 0.39 Δεξί παιδί: εντροπία (Υπόλοιπο 50K) = [p( ) log2 p( ) + p( ) log2 p( )] = [0.24 ( 2.1) + 0.76 ( 0.39)] = 0.79

Κέρδος πληροφορίας Εντροπία(γονέα) = 0.99 Αριστερό παιδί: εντροπία(υπόλοιπο< 50K) = 0.39 Δεξί παιδί: εντροπία (Υπόλοιπο 50K) = 0.79 IG για το διαχωρισµό που βασίζεται στη µεταβλητή Υπόλοιπο : IG = εντροπία (γονέα) [p(υπόλοιπο< 50K) εντροπία (Υπόλοιπο< 50K) +p(υπόλοιπο 50K) εντροπία (Υπόλοιπο 50K)] = 0.99 [0.43 0.39 + 0.57 0.79] = 0.37

Κέρδος πληροφορίας εντροπία(parent) =0.99 εντροπία(κατοικία=own) =0.54 εντροπία(κατοικία=rent) =0.97 εντροπία(κατοικία=other) =0.98 IG = 0.13 - delay - OK

Μέχρι τώρα n Έχουµε µετρήσεις για: n Καθαρότητα των δεδοµένων (εντροπία) n Πόσο πληροφοριακά γίνεται ένας διαχωρισµός από µια µεταβλητή. n Μπορούµε να αναγνωρίσουµε και να βαθµολογήσουµε το πόσο πληροφορία µας δίνει µια µεταβλητή. n Συνέχεια θα χρησιµοποιήσουµε τη µέθοδο για να φτιάξουµε τον πρώτο δικό µας επιτηρούµενο διαχωριστή ένα δένδρο αποφάσεων.

Σύνολο δεδοµένων Καθυστέρηση Υπόλοιπο> πληρωµής Ατοµικό id Ηλικία>50 φύλο κατοικία =50,000 δανείου 123213 N F own N delayed 17824 Y M own Y OK 232897 N F rent N delayed 288822 Y M other N delayed...... Με βάση αυτό σύνολο δεδοµένων θα φτιάξουµε ένα δενδροειδή διαχωριστή.

Δενδροειδής δοµή Όλοι οι πελάτες Υπόλοιπο 50,000 Υπόλοιπο<50,000 Κατοικία= Own OK Κατοικία= Rent OK Κατοικία= other Delay Ηλικία 50 OK Ηλικία<50 Delay

Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK)

Δενδροειδής δοµή balance residence gender age cust id Κέρδος Πληροφορίας 0 0.1 0.2 0.3 0.4 0.5 Όλοι οι πελάτες (14 Delay,16 OK)

Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay)

Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay)

Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay) Ηλικία 50 OK (1 delay,2 OK) Ηλικία<50 Delay (11 delay,0 OK)

Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay) Κέρδος Πληροφορίας residence gender age cust id 0 0.05 0.1 0.15 0.2 Ηλικία 50 OK (1 delay,2 OK) Ηλικία<50 Delay (11 delay,0 OK)

Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay) Κατοικία= Own OK (0 delay, 5 OK) Κατοικία= Rent OK (1 delay, 5 OK) Κατοικία= Other Delay (3 delay, 2 OK) Ηλικία 50 OK (1 delay,2 OK) Ηλικία<50 Delay (11 delay,0 OK)

Δενδροειδής δοµή Όλοι οι πελάτες Υπόλοιπο 50,000 Υπόλοιπο<50,000 Κατοικία= Own OK Κατοικία= Rent OK Κατοικία= Other Delay Ηλικία 50 OK Ηλικία<50 Delay Ατοµικό ID Ηλικία>50 Φύλο Κατοικία Υπόλοιπο>=50K Καθυστέρηση 87594 Y F own <50K???

Ανοικτά ζητήµατα Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay) Κατοικία= Own OK (0 delay, 5 OK) Κατοικία= Rent OK (1 delay, 5 OK) Κατοικία= Other Delay (3 delay, 2 OK) Ηλικία 50 OK (1 delay,2 OK) Ηλικία<50 Delay (11 delay,0 OK)

Ευχαριστώ!