Ενότητα 3 Επιτηρούµενος διαχωρισµός Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Οι διαλέξεις χρησιµοποιούν το βιβλίο Data Science for Business των Foster Provost καιtom Fawcett, 2013. Οι διαφάνειες και οι εικόνες χρησιµοποιούνται µε την άδεια των συγγραφέων.
Περιεχόµενα n Ορολογία n Ψάχνοντας για ιδιότητες µε πληροφορία n Διαχωρισµός βασισµένος σε δένδρα
Ορολογία των δεδοµένων Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......
Ορολογία των δεδοµένων Dataset Πίνακας δεδοµένων (οριζόντιο αρχείο) Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......
Ορολογία των δεδοµένων Μεταβλητές (στήλες) Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......
Ορολογία των δεδοµένων Ιδιότητες Χαρακτηριστικά Εξερευνητικές ή ανεξάρτητες µεταβλητές Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......
Ορολογία των δεδοµένων Μεταβλητή στόχος Τάξη δεδοµένων Εξαρτηµένη µεταβλητή Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......
Ορολογία των δεδοµένων Εγγραφές (Δεδοµένα) Instances Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......
Ορολογία των δεδοµένων (17824, 49, M, 12000, -3000) διάνυσµα χαρακτηριστικών Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......
Βρίσκοντας µεταβλητές που έχουν πληροφορία n Υπάρχουν µία ή περισσότερες µεταβλητές που µειώνουν την αβεβαιότητα µας για την τιµή της µεταβλητής στόχου; Ατοµικό ID Ηλικία Φύλο Εισόδηµα Υπόλοιπο Πληρωµή δανείου 123213 32 F 25000 32000 Y 17824 49 M 12000-3000 N 232897 60 F 8000 1000 Y 288822 28 M 9000 3000 Y......
Πολλά ερωτήµατα n Πως µπορώ να καταλάβω ποια πληροφορία είναι σηµαντική για τη µεταβλητή στόχο; n Πως µπορούµε (αυτόµατα) να αποκτήσουµε την επιλογή από πολλές µεταβλητές για να προβλέψουµε την τιµή της µεταβλητής στόχου; n Ακόµη καλύτερα, µπορούµε να βρούµε µια βαθµολογική σειρά αυτών των µεταβλητών;
Επιτηρούµενος διαχωρισµός n Ιδιότητες: n κεφάλι-σχήµα: τετράγωνο, κύκλος n σώµα-σχήµα: ορθογώνιο, οβάλ n σώµα-χρώµα: µαύρο, άσπρο n Μεταβλητή στόχος: Ναι, Όχι
Επιτηρούµενος διαχωρισµός n Ποια ιδιότητα έχει περισσότερη πληροφορία; Ή ποια είναι προτιµότερη για το διαχωρισµό των δεδοµένων; n Αν χωρίσουµε τα δεδοµένα σύµφωνα µε αυτή τη µεταβλητή, θα θέλαµε οι οµάδες που δηµιουργούνται να είναι όσο το δυνατό πιο ξεκάθαρες. n Ξεκάθαρες σηµαίνει οµοιογενείς όσον αφορά τη µεταβλητή στόχο. n Αν κάθε µέλος της οµάδας έχει την ίδια τιµή για το στόχο, τότε η οµάδα είναι συνολικά ξεκάθαρη.
Παράδειγµα n Αν αυτό είναι το σύνολο δεδοµένων: n Τότε, µπορούµε να έχουµε δυο οµάδες κάνοντας τ διαχωρισµό µε βάση το σχήµα του σώµατος:
Ερωτήµατα n Οι ιδιότητες σπάνια διαχωρίζουν τέλεια µια οµάδα. n Ακόµη και αν µια υποοµάδα συµβαίνει να είναι ξεκάθαρη, η άλλη µπορεί να µην είναι. n Αν έχουµε µια µικρή ξεκάθαρη οµάδα είµαστε ικανοποιηµένοι; n Πως πρέπει να χειριστούµε συνεχείς και κατηγορηµατικές µεταβλητές;
Εντροπία και Κέρδος Πληροφορίας n Η µεταβλητή στόχος έχει δύο (ή περισσότερες) κατηγορίες: 1, 2 (, m) n Πιθανότητα P1 για την κατηγορία 1 n Πιθανότητα P2 για την κατηγορία 2 n n Εντροπία: H 2 ( X ) = p1 log2 p1 p2 log2 p2 p m log p m
Εντροπία H 2 ( X ) = p1 log2 p1 p2 log2 p2 p m log p m H ( 2 X ) = 0.5 log2 0.5 0.5 log 0.5 = 1 H ( 2 X ) = 0.75log2 0.75 0.25log 0.25 = 0.81 H ( X ) = 1log2 1 = 0
Κέρδος πληροφορίας n Υπολογισµός του Κέρδους Πληροφορίας (IG): n IG (γονέας, παιδιά) = εντροπία(γονέας) [p(c1) εντροπία (c1)+p(c2) εντροπία (c2) + ] Γονέας Παιδί 1 (c1) Παιδί 2 (c2) Παιδί Σηµείωση: Υψηλότερο IG σηµαίνει καλύτερος διαχωρισµός.
Κέρδος πληροφορίας Ατοµικό id Ηλικία>50 φύλο κατοικία υπόλοιπο Πληρωµή δανείου 123213 N F own 52000 delayed 17824 Y M own -3000 OK 232897 N F rent 70000 delayed 288822 Y M other 30000 delayed......
Κέρδος πληροφορίας - καθυστέρηση - OK
Κέρδος πληροφορίας Εντροπία (γονέα) = [p( ) log2 p( ) +p( ) log2 p( )] = [0.53 ( 0.9) +0.47 ( 1.1)] = 0.99 (εντελώς µη ξεκάθαρο!) - καθυστέρηση - OK Αριστερό παιδί: εντροπία (Υπόλοιπο< 50K) = [p( ) log2 p( ) + p( ) log2 p( )] = [0.92 ( 0.12) + 0.08 ( 3.7)] = 0.39 Δεξί παιδί: εντροπία (Υπόλοιπο 50K) = [p( ) log2 p( ) + p( ) log2 p( )] = [0.24 ( 2.1) + 0.76 ( 0.39)] = 0.79
Κέρδος πληροφορίας Εντροπία(γονέα) = 0.99 Αριστερό παιδί: εντροπία(υπόλοιπο< 50K) = 0.39 Δεξί παιδί: εντροπία (Υπόλοιπο 50K) = 0.79 IG για το διαχωρισµό που βασίζεται στη µεταβλητή Υπόλοιπο : IG = εντροπία (γονέα) [p(υπόλοιπο< 50K) εντροπία (Υπόλοιπο< 50K) +p(υπόλοιπο 50K) εντροπία (Υπόλοιπο 50K)] = 0.99 [0.43 0.39 + 0.57 0.79] = 0.37
Κέρδος πληροφορίας εντροπία(parent) =0.99 εντροπία(κατοικία=own) =0.54 εντροπία(κατοικία=rent) =0.97 εντροπία(κατοικία=other) =0.98 IG = 0.13 - delay - OK
Μέχρι τώρα n Έχουµε µετρήσεις για: n Καθαρότητα των δεδοµένων (εντροπία) n Πόσο πληροφοριακά γίνεται ένας διαχωρισµός από µια µεταβλητή. n Μπορούµε να αναγνωρίσουµε και να βαθµολογήσουµε το πόσο πληροφορία µας δίνει µια µεταβλητή. n Συνέχεια θα χρησιµοποιήσουµε τη µέθοδο για να φτιάξουµε τον πρώτο δικό µας επιτηρούµενο διαχωριστή ένα δένδρο αποφάσεων.
Σύνολο δεδοµένων Καθυστέρηση Υπόλοιπο> πληρωµής Ατοµικό id Ηλικία>50 φύλο κατοικία =50,000 δανείου 123213 N F own N delayed 17824 Y M own Y OK 232897 N F rent N delayed 288822 Y M other N delayed...... Με βάση αυτό σύνολο δεδοµένων θα φτιάξουµε ένα δενδροειδή διαχωριστή.
Δενδροειδής δοµή Όλοι οι πελάτες Υπόλοιπο 50,000 Υπόλοιπο<50,000 Κατοικία= Own OK Κατοικία= Rent OK Κατοικία= other Delay Ηλικία 50 OK Ηλικία<50 Delay
Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK)
Δενδροειδής δοµή balance residence gender age cust id Κέρδος Πληροφορίας 0 0.1 0.2 0.3 0.4 0.5 Όλοι οι πελάτες (14 Delay,16 OK)
Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay)
Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay)
Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay) Ηλικία 50 OK (1 delay,2 OK) Ηλικία<50 Delay (11 delay,0 OK)
Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay) Κέρδος Πληροφορίας residence gender age cust id 0 0.05 0.1 0.15 0.2 Ηλικία 50 OK (1 delay,2 OK) Ηλικία<50 Delay (11 delay,0 OK)
Δενδροειδής δοµή Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay) Κατοικία= Own OK (0 delay, 5 OK) Κατοικία= Rent OK (1 delay, 5 OK) Κατοικία= Other Delay (3 delay, 2 OK) Ηλικία 50 OK (1 delay,2 OK) Ηλικία<50 Delay (11 delay,0 OK)
Δενδροειδής δοµή Όλοι οι πελάτες Υπόλοιπο 50,000 Υπόλοιπο<50,000 Κατοικία= Own OK Κατοικία= Rent OK Κατοικία= Other Delay Ηλικία 50 OK Ηλικία<50 Delay Ατοµικό ID Ηλικία>50 Φύλο Κατοικία Υπόλοιπο>=50K Καθυστέρηση 87594 Y F own <50K???
Ανοικτά ζητήµατα Όλοι οι πελάτες (14 Delay,16 OK) Υπόλοιπο 50,000 (4 delay, 12 OK) Υπόλοιπο<50,000 (2 OK, 12 delay) Κατοικία= Own OK (0 delay, 5 OK) Κατοικία= Rent OK (1 delay, 5 OK) Κατοικία= Other Delay (3 delay, 2 OK) Ηλικία 50 OK (1 delay,2 OK) Ηλικία<50 Delay (11 delay,0 OK)
Ευχαριστώ!