Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar"

Transcript

1 Ταξινόμηση Lecture Notes for Chapter 4 Introduction to Data Mining by Tan, Steinbach, Kumar

2 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Παραδείγματα Εντοπισμός spam s, με βάση πχ την επικεφαλίδα τους ή το περιεχόμενό τους Πρόβλεψη καρκινικών κυττάρων χαρακτηρίζοντας τα ως καλοήθη ή κακοήθη Κατηγοριοποίηση συναλλαγών με πιστωτικές κάρτες ως νόμιμες ή προϊόν απάτης Κατηγοριοποίηση δευτερευόντων δομών πρωτείνης ως alpha-helix, beta-sheet, ή random coil Χαρακτηρισμός ειδήσεων ως οικονομικές, αθλητικές, πολιτιστικές, πρόβλεψης καιρού, κλπ

3 Ταξινόμηση/κατηγοριοποίηση: Ορισμός Δεδομένου ενός συνόλου από καταγραφές (σύνολο εκπαίδευσης-training set ) Κάθε καταγραφή περιέχει ένα σύνολο από μεταβλητές (attributes), μία από τις μεταβλητές είναι η κατηγορία (class). Βρες ένα μοντέλο (model) για την μεταβλητή της κατηγορίας ως συνάρτηση των άλλων μεταβλητών. Στόχος: νέες καταγραφές (previously unseen) θα πρέπει να ανατίθονται σε μία κατηγορία με όσο μεγαλύτερη ακρίβεια γίνεται. Ένα σύνολο ελέγχου (test set) χρησιμοποιείται για τον υπολογισμό της ακρίβειας του μοντέλου. Συνήθως το δεδομένο σύνολο δεδομένων χωρίζεται σε δύο (ή σε τρία) σύνολα, με το σύνολο εκπαίδευσης να χρησιμοποιείται για να κατασκευαστεί το μοντέλο και το σύνολο ελέγχου για την επικύρωση/επαλήθευση του.

4 10 Είσοδος: συλλογή από εγγραφές Κάθε εγγραφή περιέχει ένα σύνολο από γνωρίσματα (attributes) Ένα από τα γνωρίσματα είναι η κλάση (class) Έξοδος: ένα μοντέλο (model) για το γνώρισμα κλάση ως μια συνάρτηση των τιμών των άλλων γνωρισμάτων Στόχος: νέες εγγραφές θα πρέπει να ανατίθενται σε μία από τις κλάσεις με τη μεγαλύτερη δυνατή ακρίβεια. Tid Επιστροφή Οικογενειακή Κατάσταση Ορισμός Φορολογητέο Εισόδημα 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Απάτη 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes

5 Είσοδος: συλλογή από εγγραφές Κάθε εγγραφή περιέχει ένα σύνολο από γνωρίσματα (attributes) Ένα από τα γνωρίσματα είναι η κλάση (class) Βρες ένα μοντέλο (model) για το γνώρισμα κλάση ως μια συνάρτηση των τιμών των άλλων γνωρισμάτων Ορισμός Σύνολο εγγραφών (x) Στόχος: νέες εγγραφές θα πρέπει να ανατίθενται σε μία κλάση με τη μεγαλύτερη δυνατή ακρίβεια. Ταξινόμηση είναι η διαδικασία εκμάθησης μιας συνάρτησης στόχου (target function) f που απεικονίζει κάθε σύνολο γνωρισμάτων x σε μια από τις προκαθορισμένες ετικέτες κλάσεις y. Συνήθως το σύνολο δεδομένων εισόδου χωρίζεται σε: ένα σύνολο εκπαίδευσης (training set) και ένα σύνολο ελέγχου (test test) Μοντέλο Ταξινόμησης Ετικέτα κλάσης (y) Το σύνολο εκπαίδευσης χρησιμοποιείται για να κατασκευαστεί το μοντέλο και το σύνολο ελέγχου για να το επικυρώσει.

6 Εισαγωγή Χρησιμοποιείται ως: Περιγραφικό μοντέλο (descriptive modeling): ως επεξηγηματικό εργαλείο πχ ποια χαρακτηριστικά κάνουν ένα ζώο να χαρακτηριστεί ως θηλαστικό Μοντέλο πρόβλεψης (predictive modeling): για τη πρόβλεψη της κλάσης άγνωστων εγγραφών πχ δοσμένων των χαρακτηριστικών κάποιου ζώου να προβλέψουμε αν είναι θηλαστικό, πτηνό, ερπετό ή αμφίβιο Κατάλληλη κυρίως για: δυαδικές κατηγορίες ή κατηγορίες για τις οποίες δεν υπάρχει διάταξη διακριτές (nominal) vs διατεταγμένες (ordinal) για μη ιεραρχικές κατηγορίες Θεωρούμε ότι τιμή (ετικέτα) της κλάσης (γνώρισμα y) είναι διακριτή τιμή Αν όχι, regression (οπισθοδρόμηση) όπου το γνώρισμα y παίρνει συνεχείς τιμές

7 10 10 Βήματα ταξινόμησης Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set / Σύνολο εκπαίδευσης Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Test Set / Σύνολο ελέγχου Learning algorithm/ Αλγόριθμος εκπαίδευσης Induction / επαγωγή Deduction / συμπέρασμα Learn Model Εκπαίδευση Apply Model Εφαρμογή Χαρακτηριστικά Μοντέλου Model Ταιριάζει δεδομένα εκπαίδευσης Προβλέπει την κλάση των δεδομένων ελέγχου Καλή δυνατότητα γενίκευσης 1. Δημιουργία ενός μοντέλου μέσω της αξιολόγησης ενός συνόλου δεδομένων εκπαίδευσης (training data) (ή μέσω της γνώσης ειδικών του πεδίου). Το μοντέλο μπορεί να είναι ένα δέντρο ταξινόμησης, κανόνες, μαθηματικοί τύποι κλπ) 2. Εφαρμογή του μοντέλου σε νέα δεδομένα. Εκτίμηση της ακρίβειας του μοντέλου με χρήση συνόλου ελέγχου Οι κλάσεις πρέπει να είναι προκαθορισμένες

8 1 ο βήμα: Δημιουργία μοντέλου Δεδομένα εκπαίδευσης (training data) Αλγόριθμος Κατηγοριοποίησης όνομα βαθμίδα έτη μόνιμος Μιχάλης Επικ.Καθηγητής 3 ΟΧΙ Νίκος Επικ.Καθηγητής 7 ΝΑΙ Βασίλης Καθηγητής 2 ΝΑΙ Δημήτρης Αναπλ.Καθηγητής 7 ΝΑΙ Γιώργος Επικ.Καθηγητής 6 ΟΧΙ Κώστας Αναπλ.Καθηγητής 3 ΟΧΙ Μοντέλο IF βαθμίδα = Καθηγητής OR έτη > 6 THEN μόνιμος = ΝΑΙ

9 2 ο βήμα: Εφαρμογή μοντέλου Μοντέλο Δοκιμαστικά Δεδομένα (test data) Νέα δεδομένα (Γιάννης, Καθηγητής, 4) όνομα βαθμίδα έτη μόνιμος Θωμάς Επικ.Καθηγητής 2 ΟΧΙ Νίκος Αναπλ.Καθηγητής 7 ΟΧΙ Γεράσιμος Καθηγητής 5 ΝΑΙ Ιωσήφ Επικ.Καθηγητής 7 ΝΑΙ Μόνιμος;

10 Παραδείγματα/εφαρμογές Πρόβλεψη καρκινικών κυττάρων (καλοήθη/κακοήθη) Κατηγοριοποίηση συναλλαγών με πιστωτικές κάρτες Ταξινόμηση πρωτεϊνικές δομές Ταξινόμηση κειμένων (οικονομικά, αθλητικά κτλ)

11 Παραδείγματα/εφαρμογές Οι δάσκαλοι αναθέτουν βαθμούς μέσα από τις κατηγορίες A, B, C, D, F. Τα μανιτάρια ταξινομούνται σε δηλητηριώδη και φαγώσιμα. Μπορεί να γίνει πρόβλεψη εάν θα πλημμυρίσει ένας ποταμός. Οι πελάτες της τράπεζας μπορούν να κατηγοριοποιηθούν ως προς την πιστωτική τους ικανότητα.

12 Παράδειγμα κατηγοριοποίησης Βαθμολογία πτυχίου If x 8.5 then grade = «άριστα». If 6.5 x < 8.5 then grade = «λίαν καλώς». If x < 6.5 then grade = «καλώς». < 8.5 x < 6.5 καλώς x 8.5 άριστα 6.5 λίαν καλώς

13 Προεπεξεργασία 1. Καθαρισμός Δεδομένων (data cleaning) Προεπεξεργασία δεδομένων και χειρισμός τιμών που λείπουν (πχ τις αγνοούμε ή τις αντικαθιστούμε με ειδικές τιμές) 2. Ανάλυση Σχετικότητα (Relevance analysis) (επιλογή χαρακτηριστικών (γνωρισμάτων) -- feature selection) Απομάκρυνση των μη σχετικών ή περιττών γνωρισμάτων 3. Μετασχηματισμοί Δεδομένων (Data transformation) Κανονικοποίηση ή/και Γενίκευση Πιθανών αριθμητικά γνωρίσματα κατηγορικά {low,medium,high} Κανονικοποίηση αριθμητικών δεδομένων στο [0,1)

14 Εκτίμηση Μεθόδων Ταξινόμηση Προβλεπόμενη ακρίβεια - Predictive accuracy Ταχύτητα (speed) Χρόνος κατασκευής του μοντέλου Χρόνος χρήσης/εφαρμογής του μοντέλου Robustness Χειρισμός θορύβου και τιμών που λείπουν Scalability Αποδοτικότητα σε βάσεις δεδομένων αποθηκευμένες στο δίσκο Interpretability: Πόσο κατανοητό είναι το μοντέλο και τι νέα πληροφορία προσφέρει Ποιότητα - Goodness of rules (quality) Πχ μέγεθος του δέντρου

15 Προσδιορισμός κλάσεων με βάση την απόσταση με βάση τη διαμέριση

16 Ζητήματα που προκύπτουν Ελλιπή δεδομένα (missing data) τα αγνοούμε τα αντικαθιστούμε με ειδικές τιμές Μέτρηση απόδοσης Μέτρηση ακρίβειας με χρήση συνόλου δοκιμαστικών δεδομένων (test data) Μήτρα σύγχυσης (confusion matrix) Καμπύλη OC (operating characteristic)

17 Παράδειγμα με δοκιμαστικά δεδομένα Name Gender Height Output1 Output2 Kristina F 1.6m Short Medium Jim M 2m Tall Medium Maggie F 1.9m Medium Tall Martha F 1.88m Medium Tall Stephanie F 1.7m Short Medium Bob M 1.85m Medium Medium Kathy F 1.6m Short Medium Dave M 1.7m Short Medium Worth M 2.2m Tall Tall Steven M 2.1m Tall Tall Debbie F 1.8m Medium Medium Todd M 1.95m Medium Medium Kim F 1.9m Medium Tall Amy F 1.8m Medium Medium Wynette F 1.75m Medium Medium

18 Για 2 κλάσεις (π.χ. Tall/Medium) υπάρχουν 4 πιθανοί συνδυασμοί (m κλάσεις m 2 συνδυασμοί) Ακρίβεια κατηγοριοποίησης Αληθώς θετικό Ψευδώς αρνητικό Οπτικοποίηση ποιότητας κατηγοριοποίη σης: Μήτρα σύγχυσης Καμπύλη OC Ψευδώς θετικό Αληθώς αρνητικό

19 Μήτρα σύγχυσης Έστω Output1 η ορθή κατηγοριοποίηση και Output2 η ανάθεση σε κλάσεις που προέκυψε από την (όποια) τεχνική κατηγοριοποίησης Μήτρα σύγχυσης (confusion matrix): Name Gender Height Output1 Output2 Kristina F 1.6m Short Medium Jim M 2m Tall Medium Maggie F 1.9m Medium Tall Martha F 1.88m Medium Tall Stephanie F 1.7m Short Medium Bob M 1.85m Medium Medium Kathy F 1.6m Short Medium Dave M 1.7m Short Medium Worth M 2.2m Tall Tall Steven M 2.1m Tall Tall Debbie F 1.8m Medium Medium Todd M 1.95m Medium Medium Kim F 1.9m Medium Tall Amy F 1.8m Medium Medium Wynette F 1.75m Medium Medium Πραγματική Ανάθεση κλάση Short Medium Tall Short Medium Tall 0 1 2

20 Αληθώς θετικά Καμπύλη OC (Operating Characteristic) Ψευδώς θετικά

21 Ορισμός Τεχνικές ταξινόμησης βασισμένες σε Δέντρα Απόφασης (decision trees) Κανόνες (Rule-based Methods) Αλγόριθμους Κοντινότερου Γείτονα Memory based reasoning Νευρωνικά Δίκτυα Naïve Bayes and Bayesian Belief Networks Support Vector Machines

22 10 Παράδειγμα δέντρου απόφασης Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Δεδομένα Εκπαίδευσης Φύλλα στα οποία αντιστοιχεί μια (ετικέτα) κλάσης Παράδειγμα Μοντέλου Yes NO Ρίζα NO Refund Γνωρίσματα Διαχωρισμού TaxInc No Single, Divorced MarSt < 80K > 80K Splitting Attributes YES Εσωτερικ οί κόμβοι Married NO Μοντέλο: Δένδρο Απόφασης

23 Παράδειγμα δέντρου απόφασης Μοντέλο = Δέντρο Απόφασης Εσωτερικοί κόμβοι αντιστοιχούν σε κάποιο γνώρισμα Διαχωρισμός (split) ενός κόμβου σε παιδιά η ετικέτα στην ακμή = συνθήκη/έλεγχος Φύλλα αντιστοιχούν σε κλάσεις

24 10 Άλλο ένα παράδειγμα ενός δέντρου απόφασης Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No Cheat Married NO MarSt Yes Single, Divorced Refund No 3 No Single 70K No NO TaxInc 4 Yes Married 120K No < 80K > 80K 5 No Divorced 95K Yes 6 No Married 60K No NO YES 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Μπορεί να υπάρξουν περισσότερα του ενός δέντρα που ταιριάζουν σε ένα σύνολο δεδομένων

25 10 10 Βήματα για την κατασκευή Δένδρου Απόφασης Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Test Set Induction Deduction Tree Induction algorithm Learn Model Apply Model Model Decision Tree Αφού κατασκευαστεί το δέντρο, η εφαρμογή (χρήση) του στην ταξινόμηση νέων εγγραφών είναι απλή -> διαπέραση από τη ρίζα στα φύλλα του

26 10 Εφαρμογή του μοντέλου σε δεδομένα ελέγχου Ξεκινάμε από τη ρίζα του δέντρου (root). Δεδομένα ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES

27 10 Εφαρμογή του μοντέλου σε δεδομένα ελέγχου Δεδομένα ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES

28 10 Εφαρμογή του μοντέλου σε δεδομένα ελέγχου Δεδομένα ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES

29 10 Εφαρμογή του μοντέλου σε δεδομένα ελέγχου Δεδομένα ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES

30 10 Εφαρμογή του μοντέλου σε δεδομένα ελέγχου Δεδομένα ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES

31 10 Εφαρμογή του μοντέλου σε δεδομένα ελέγχου Δεδομένα ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO MarSt Single, Divorced TaxInc < 80K > 80K Married NO Συνεπώς αναθέτουμε στην μεταβλητή εξόδου (Cheat) την τιμή No NO YES

32 10 10 Decision Tree Classification Task Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Test Set Induction Deduction Επαγωγή Δέντρου Απόφασης Learn Model Apply Model Model Decision Tree Θα δούμε πως θα το κατασκευάσουμε Σημείωση: Είσοδος μας είναι το σύνολο εκπαίδευσης

33 Κατασκευή Δέντρου Απόφασης 1. ξεκίνα με έναν κόμβο που περιέχει όλες τις εγγραφές 2. διάσπαση του κόμβου (μοίρασμα των εγγραφών) με βάση μια συνθήκη-διαχωρισμού σε κάποιο από τα γνωρίσματα 3. Αναδρομική κλήση του 2 σε κάθε κόμβο (top-down, recursive, divide-and-conquer προσέγγιση) 4. Αφού κατασκευαστεί το δέντρο, κάποιες βελτιστοποιήσεις (tree pruning) Το βασικό θέμα είναι Ποιο γνώρισμα-συνθήκη διαχωρισμού να χρησιμοποιήσουμε για τη διάσπαση των εγγραφών κάθε κόμβου

34 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no κλάση <=30 income student credit_rating buys_computer high no fair no high no excellent no medium no fair no low yes fair yes medium yes excellent yes Δέντρο Απόφασης Παράδειγμα age? >40 income student credit_rating buys_computer medium no fair yes low yes fair yes low yes excellent no medium yes fair yes medium no excellent no income student credit_rating buys_computer high no fair yes low yes excellent yes medium no excellent yes high yes fair yes φύλο με ετικέτα ye

35 10 Tid Refund Marital Status Taxable Income Δέντρο Απόφασης: Παράδειγμα Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Yes NO Refund Για το ίδιο σύνολο εκπαίδευσης υπάρχουν διαφορετικά δέντρα No Single, Divorced MarSt Married NO MarSt Yes NO Single, Divorced Refund < 80K NO No TaxInc > 80K YES TaxInc < 80K > 80K NO NO YES

36 Επαγωγή Δέντρου Απόφασης (Decision Tree Induction) Πολλοί αλγόριθμοι για την επαγωγή (induction) του δέντρου, οι οποίοι ακολουθούν μια άπληστη (greedy) στρατηγική για να κτίσουν το δέντρο απόφασης παίρνοντας μια σειρά από τοπικά βέλτιστες αποφάσεις: Ο αλγόριθμος του Hunt (ένας από τους πρώτους) CART ID3, C4.5 SLIQ,SPRINT

37 Σημείωση: ο διαχωρισμός δεν είναι δυνατός αν όλες οι εγγραφές έχουν τις ίδιες τιμές σε όλα τα γνωρίσματα (δηλαδή, ο ίδιος συνδυασμός αντιστοιχεί σε περισσότερες από μία κλάσεις) τότε φύλλο με κλάση αυτής της πλειοψηφίας των εγγραφών εκπαίδευσης Γενική Δομή Αλγορίθμου του Hunt Κτίζει το δέντρο αναδρομικά, αρχικά όλες οι εγγραφές σε έναν κόμβο (ρίζα) Έστω D t : το σύνολο των εγγραφών εκπαίδευσης που έχουν φτάσει στον κόμβο t Γενική Διαδικασία (αναδρομικά σε κάθε κόμβο) Αν το D t περιέχει εγγραφές που ανήκουν στην ίδια κλάση y t, τότε ο κόμβος t είναι κόμβος φύλλο της κατηγορίας y t Αν D t είναι το κενό σύνολο (αυτό σημαίνει ότι δεν υπάρχει εγγραφή στο σύνολο εκπαίδευσης με αυτό το συνδυασμό τιμών), τότε D t γίνεται είναι ένας κόμβος φύλλο της προκαθορισμένης κατηγορίας y d (γίνεται φύλλο με κλάση αυτή της πλειοψηφίας των εγγραφών εκπαίδευσης ή ανάθεση κάποιας default κλάσης Αν το D t περιέχει δεδομένα που ανήκουν σε περισσότερες από μία κατηγορίες (κλάσεις), τότε χρησιμοποίησε έναν έλεγχογνωρίσματος για το διαχωρισμό των δεδομένων σε μικρότερα υποσύνολα? D t

38 10 Don t Cheat Ο αλγόριθμος του Hunt Yes Don t Cheat Refund No Don t Cheat Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes Yes Refund No Yes Refund No 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes Don t Cheat Single, Divorced Cheat Marital Status Married Don t Cheat Don t Cheat Single, Divorced Taxable Income Marital Status Married Don t Cheat 9 No Married 75K No 10 No Single 90K Yes < 80K >= 80K Don t Cheat Cheat

39 Επαγωγή Δέντρου (Tree Induction) «Άπληστη» στρατηγική (Greedy strategy). Χώρισε τα δεδομένα με βάση έναν έλεγχο γνωρίσματος που βελτιστοποιεί κάποιο κριτήριο. Θέματα Καθορισμός του διαχωρισμού των δεδομένων Πώς να ορίσουμε την συνθήκη διάσπασης του γνωρίσματος (έλεγχο του γνωρίσματος); Πώς να καθορίσουμε τη βέλτιστη διάσπαση; Καθορισμός του πότε πρέπει να σταματήσουμε να διαχωρίζουμε (συνθήκη τερματισμού)

40 Πώς να καθορίσουμε την συνθήκη διάσπασης (Διαχωρισμό κόμβου)? Εξαρτάται από τον τύπο του γνωρίσματος Κατηγορικά (Nominal) (Διακριτές τιμές) Διατεταγμένα (Ordinal) Συνεχή (Continuous) Εξαρτάται από τον αριθμό των διαχωρισμών- είδη διαχωρισμού Στα 2 (2-way split) Σε πολλαπλά σημεία (Multi-way split)

41 Διαχωρισμός με βάση κατηγορικά χαρακτηριστικά (διακριτές τιμές) Πολλαπλός διαχωρισμός (Multi-way split): Χρησιμοποίησε τόσες διαμερίσεις όσες είναι οι διακριτές τιμές του γνωρίσματος. Family CarType Sports Luxury Δυαδικός διαχωρισμός (Binary split): Χωρισμός σε 2 υποσύνολα. Πρέπει να βρεθεί ο βέλτιστος διαχωρισμός. {Sports, Luxury} CarType {Family} OR {Family, Luxury} CarType {Sports}

42 Διαχωρισμός με βάση διατεταγμένα χαρακτηριστικά Πολλαπλός διαχωρισμός (Multi-way split): Χρησιμοποίησε τόσες διαμερίσεις όσες είναι οι διακριτές τιμές του γνωρίσματος. Small Size Medium Large Δυαδικός διαχωρισμός (Binary split): Χωρισμός σε 2 υποσύνολα. Πρέπει να βρεθεί ο βέλτιστος διαχωρισμός. {Small, Medium} Size {Large} OR {Medium, Large} {Small, Large} Size Size {Small} {Medium} Όταν υπάρχει διάταξη, πρέπει ο διαχωρισμός να μη την παραβιάζει

43 Διαχωρισμός με βάση συνεχείς μεταβλητές / τιμές: Δύο προσεγγίσεις Διακριτοποίηση (Discretization) για τη δημιουργία διατεταγμένου (κατηγορικό) γνώρισμα/μεταβλητής. Ταξινόμηση των τιμών και χωρισμός τους σε περιοχές καθορίζοντας n 1 σημεία διαχωρισμού, απεικόνιση όλων των τιμών μιας περιοχής στην ίδια κατηγορική τιμή Στατική διακριτοποίηση μία φορά στην αρχή Δυναμική τα όρια μπορεί να βρεθούν είτε με διαμέριση ίσων διαστημάτων, ίσων συχνοτήτων ή ομαδοποίηση (equal interval, equal frequency, clustering). Δυαδική απόφαση (Binary Decision): (A < v) ή (A v) Θεώρησε όλες τις πιθανές διαμερίσεις και βρες το βέλτιστο σημείο μπορεί να είναι πιο απαιτητική υπολογιστικά

44 Διαχωρισμός με βάση συνεχείς μεταβλητές/ τιμές Taxable Income > 80K? Taxable Income? < 10K > 80K Yes No [10K,25K) [25K,50K) [50K,80K) Δυαδικός διαχωρισμός Πολλαπλός διαχωρισμός

45 Δέντρο Απόφασης: Κατασκευή Δέντρου Greedy στρατηγική. Διάσπαση εγγραφών με βάση έναν έλεγχο γνωρίσματος που βελτιστοποιεί ένα συγκεκριμένο κριτήριο Θέματα Καθορισμός του τρόπου διαχωρισμού των εγγραφών Καθορισμός του ελέγχου γνωρίσματος Καθορισμός του βέλτιστου διαχωρισμού Πότε θα σταματήσει ο διαχωρισμός (συνθήκη τερματισμού)

46 Πώς να καθορίσουμε το βέλτιστο διαχωρισμό Πριν τον διαχωρισμός : 10 καταγραφές της κατηγορίας 0, 10 καταγραφές της κατηγορίας 1 Own Car? Car Type? Student ID? Yes No Family Luxury c 1 c 10 c 20 Sports c 11 C0: 6 C1: 4 C0: 4 C1: 6 C0: 1 C1: 3 C0: 8 C1: 0 C0: 1 C1: 7 C0: 1 C1: 0... C0: 1 C1: 0 C0: 0 C1: 1... C0: 0 C1: 1 Ποια συνθήκη ελέγχου είναι η καλύτερη? Ποια από τις 3 διασπάσεις να προτιμήσουμε; ορισμός κριτηρίου βέλτιστου διαχωρισμού

47 Πώς να καθορίσουμε το βέλτιστο διαχωρισμό? Greedy προσέγγιση: προτιμούνται οι κόμβοι με ομοιογενείς κατανομές κλάσεων (homogeneous class distribution) Χρειαζόμαστε μία μέτρηση της μη καθαρότητας ενός κόμβου (node impurity) C0: 5 C1: 5 Μη-ομοιογενής, Μεγάλος βαθμός μη καθαρότητας C0: 9 C1: 1 «Καλός» κόμβος!! Ομοιογενής, Μικρός βαθμός μη καθαρότητας Ν1 C1 0 C2 6 Μη καθαρότητα ~ 0 Ν2 C1 1 C2 5 ενδιάμεση Ν3 C1 2 C2 4 ενδιάμεση αλλά μεγαλύτερη Ν4 C1 3 C2 3 Μεγάλη μη καθαρότητα Ι(Ν1) < Ι(N2) < I(N3) < I(N4)

48 Μετρήσεις μη καθαρότητας των κόμβων Measures of Node Impurity Δείκτης Gini Εντροπία (Entropy) Ποσοστό λανθασμένων ταξινομήσεων (Misclassification error)

49 Μέτρηση καθαρότητας Ως κριτήριο για διάσπαση Το τι κερδίζουμε από την διάσπαση: Για κάθε κόμβο n, μετράμε την καθαρότητα του, I(n) Έστω μια διάσπαση ενός κόμβου (parent) με N εγγραφές σε k παιδιά u i Έστω N(u i ) ο αριθμός εγγραφών κάθε παιδιού ( Ν(u i ) = N) Για να χαρακτηρίσουμε μια διάσπαση, κοιτάμε το κέρδος, δηλαδή τη διαφορά μεταξύ της καθαρότητας του γονέα (πριν τη διάσπαση) και των παιδιών του (μετά τη διάσπαση) I( parent) k i 1 N( u ) N i I( u ) Βάρος (εξαρτάται από τον αριθμό εγγραφών) i Διαλέγουμε την «καλύτερη» διάσπαση (μεγαλύτερο Δ)

50 Πώς να καθορίσουμε το βέλτιστο διαχωρισμό Πριν το διαχωρισμό: C0 C1 N00 N01 M0 A? B? Yes No Yes No Node N1 Node N2 Node N3 Node N4 C0 N10 C0 N20 C0 N30 C0 N40 C1 N11 C1 N21 C1 N31 C1 N41 M1 M2 M3 M4 M12 Gain = M0 M12 vs M0 M34 M34

51 Αλγόριθμος του Hunt Ψευδό-κώδικας Algorithm GenDecTree(Sample S, Attlist A) 1. create a node N 2. If all samples are of the same class C then label N with C; terminate; 3. If A is empty then label N with the most common class C in S (majority voting); terminate; 4. Select a A, with the highest gain; Label N with a; 5. For each value v of a: a. Grow a branch from N with condition a=v; b. Let S v be the subset of samples in S with a=v; c. If S v is empty then attach a leaf labeled with the most common class in S; d. Else attach the node generated by GenDecTree(S v, A-a)

52 Μετρήσεις μη καθαρότητας των κόμβων Measures of Node Impurity Δείκτης Gini Εντροπία (Entropy) Ποσοστό λανθασμένων ταξινομήσεων (Misclassification error)

53 Μέτρα μη καθαρότητας (Impurity): GINI Ο δείκτης Gini για ένα κόμβο t είναι : GINI ( t) 1 j [ p( j t)] (Σημείωση: p( j t) είναι η σχετική συχνότητα μιας κατηγορίας j στον κόμβο t). Μέγιστη τιμή (1-1/n c ) όταν όλες οι καταγραφές ισοκατανέμονται ομοιόμορφα μεταξύ των κατηγοριών, υποδηλώνοντας «λιγότερο χρήσιμη πληροφορία» Ελάχιστη τιμή (0.0) όταν όλες οι καταγραφές ανήκουν σε μία κατηγορία, υποδηλώνοντας «περισσότερο χρήσιμη πληροφορία» Παραδείγματα: Ν1 Ν2 Ν3 Ν4 C1 0 C2 6 Gini=0.000 C1 1 C2 5 Gini=0.278 C1 2 C2 4 Gini= C1 3 C2 3 Gini=0.500

54 Παράδειγμα υπολογισμού του δείκτη GINI GINI ( t) 1 j [ p( j t)] 2 C1 0 C2 6 P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Gini = 1 P(C1) 2 P(C2) 2 = = 0 C1 1 C2 5 P(C1) = 1/6 P(C2) = 5/6 Gini = 1 (1/6) 2 (5/6) 2 = C1 2 C2 4 P(C1) = 2/6 P(C2) = 4/6 Gini = 1 (2/6) 2 (4/6) 2 = 0.444

55 Διαχωρισμός με βάση τον δείκτη GINI Χρησιμοποιείται στα CART, SLIQ, SPRINT. Όταν ένας κόμβος p χωρίζεται σε k κόμβους (παιδιάchildren) ( το σύνολο των εγγραφών του κόμβου χωρίζεται σε κ υποσύνολα), η ποιότητα του διαχωρισμού υπολογίζεται ως: GINI split k i 1 n i n GINI ( i) Ψάχνουμε για: Πιο καθαρές Πιο μεγάλες (σε αριθμό) μικρές διασπάσεις όπου, n i = ο αριθμός των καταγραφών του παιδιού i, n = ο αριθμός των καταγραφών στον κόμβο p.

56 Δυαδικά χαρακτηριστικά: υπολογισμός του δείκτη GINI (Παράδειγμα) Περίπτωση 1: Δυαδικά Γνωρίσματα Αρχικός κόμβος A? C1 6 C2 6 Parent C1 6 C1 4 C2 3 Yes Node N1 No Node N2 C1 2 C2 3 C2 6 Gini = N1 N2 C1 4 2 C2 3 3 Gini=0.486 Gini(N1) = 1 (4/7) 2 (3/7) 2 = 0.49 Gini(N2) = 1 (2/5) 2 (3/5) 2 = 0.48 Gini(Children) = 7/12 * /12 * 0.48 = 0.486

57 Δυαδικά χαρακτηριστικά: υπολογισμός του δείκτη GINI (Παράδειγμα συνέχεια) Χωρισμός σε δύο μέρη Επίδραση του μεγέθους των διαχωρισμών : Μεγαλύτεροι και πιο «Καθαροί» (Purer) διαχωρισμοί προτιμώνται. Yes B? C1 6 C2 6 No Parent C1 6 C2 6 Gini = Υπενθύμιση: με βάση το Α N1 N2 C1 4 2 C2 3 3 Gini=0.486 C1 5 C2 2 Node N1 Node N2 C1 1 C2 4 N1 N2 C1 5 1 C2 2 4 Gini=0.371 Gini(N1) = 1 (5/7) 2 (2/7) 2 = Gini(N2) = 1 (1/5) 2 (4/5) 2 = 0.32 Gini(Children) = 7/12 * /12 * 0.32 = Άρα διαλέγουμε το Β

58 Περίπτωση 2: Κατηγορικά χαρακτηριστικά Υπολογισμός του δείκτη Gini Για κάθε διακριτή τιμή μέτρησε τις τιμές στα δεδομένα πού ανήκουν σε κάθε κλάση /κατηγορία (στο σύνολο των δεδομένων) Χρησιμοποίησε τον πίνακα με τις μετρήσεις για ληφθεί η απόφαση για τον καλύτερο διαχωρισμό Πολλαπλός διαχωρισμός Multi-way split Χωρισμός σε 2 μέρη Two-way split (πρέπει να βρεθεί και ο βέλτιστος διαχωρισμός των τιμών) CarType Family Sports Luxury C C Gini CarType {Sports, Luxury} {Family} C1 3 1 C2 2 4 Gini CarType {Sports} {Family, Luxury} C1 2 2 C2 1 5 Gini 0.419

59 Περίπτωση 2: Κατηγορικά χαρακτηριστικά Υπολογισμός του δείκτη Gini Δυαδική διάσπαση (βρες τον καλύτερο διαχωρισμό των τιμών) {Sports, Luxury} CarType {Family} CarType Family Luxury Sports CarType {Sports, Luxury} {Family} C1 9 1 C2 7 3 Gini CarType Family Sports Luxury C C Gini {Family, Luxury} CarType {Sports} CarType {Sports} { Family, Luxury} C1 8 2 C Gini Πολλαπλή Διάσπαση

60 10 Συνεχή χαρακτηριστικά: Υπολογισμός του δείκτη GINI Χρήση δυαδικών αποφάσεων με βάση μία τιμή Πολλαπλές επιλογές για την τιμή διαχωρισμού Αριθμός πιθανόν διαχωρισμών = Αριθμό διακριτών τιμών -έστω Ν Για κάθε σημείο διαχωρισμού v έχουμε ένα πίνακα με τις μετρήσεις κάθε κατηγορίας (count matrix) Πλήθος των παραδειγμάτων κάθε κατηγορίας για κάθε ένα από τα δύο σύνολα A < v και A v Απλή μέθοδος για την επιλογή του καλύτερου v Για κάθε v, υπολόγισε τον πίνακα με τα παραδείγματα και υπολόγισε τον Gini index ευρετήριο χρόνος Ο(Ν) Όχι αποδοτική υπολογιστικά! Ο(Ν 2 ) (Επανάληψη ενεργειών). Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Taxable Income > 80K? Yes No

61 Συνεχή χαρακτηριστικά: Υπολογισμός του δείκτη GINI Για αποδοτικό υπολογισμό: για κάθε χαρακτηριστικό, Τοποθέτηση των τιμών με αύξουσα σειρά (Ταξινόμηση Ο(Ν logn) Γραμμικό «πέρασμα» (Σειριακό πέρασμα) όλων των τιμών, ενημερώνοντας κάθε φορά τον πίνακα με τους μετρητές και υπολογίζοντας τον δείκτη gini Επιλογή της θέσης με τον μικρότερο δείκτη gini Cheat No No No Yes Yes Yes No No No No Taxable Income Ταξινόμηση Τιμών Τιμές Διαχωρισμού <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > Yes No Gini

62 10 Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Για <55, δεν υπάρχει εγγραφή οπότε 0 Για <65, κοιτάμε το μικρότερο το 60, NO 0->1, 7->6 YES δεν αλλάζει Για <72, κοιτάμε το μικρότερο το 70, ΝΟ 1->2 6->5, YES δεν αλλάζει κοκ Καλύτερα; Αγνοούμε τα σημεία στα οποία δεν υπάρχει αλλαγή κλάσης (αυτά δε μπορεί να είναι σημεία διαχωρισμού) Άρα, στο παράδειγμα, αγνοούνται τα σημεία 55, 65, 72, 87, 92, 122, 172, 230 Από 11 πιθανά σημεία διαχωρισμού μας μένουν μόνο 2 Cheat No No No Yes Yes Yes No No No No Ταξινομημένες Τιμές Τιμές Διαχωρισμού Taxable Income <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > Yes No Gini

63 Συνεχή χαρακτηριστικά: Υπολογισμός του δείκτη GINI Παράδειγμα Κλάση age income student credit_rating buys_computer <=30 <=30 high high Class nop: buys_computer fair = yes Class non: buys_computer excellent = no no no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no 9 gini( D) Έστω ότι το διασπάμε με βάση το income Πρέπει να θεωρήσουμε όλες τις δυνατές διασπάσεις Έστω μόνο δυαδικές D1: {low, medium} και D2 {high} D3: {low} και D4 {medium, high} Αν πολλαπλές διασπάσεις, πρέπει να θεωρήσουμε και άλλες διασπάσεις Με τον ίδιο τρόπο εξετάζουμε και πιθανές διασπάσεις με βάση τα άλλα τρία γνωρίσματα (δηλαδή, age, student, credit_rating)

64 Μέτρα μη καθαρότητας των κόμβων Measures of Node Impurity Δείκτης Gini Εντροπία (Entropy) Ποσοστό λανθασμένων ταξινομήσεων (Misclassification error)

65 Εναλλακτικά κριτήρια διαχωρισμού με βάση την πληροφορία (INFO) Εντροπία (Entropy) σε ένα κόμβο t: Entropy ( t) p( j t)log p( j t) j (Σημείωση: p( j t) είναι η σχετική συχνότητα μια κατηγορίας j στον κόμβο t). Μετράει την ομοιογένεια ενός κόμβου. Μέγιστη τιμή (log n c ) όταν όλες οι καταγραφές ισοκατανέμονται (ομοιόμορφα κατανεμημένες) μεταξύ των κατηγοριών, υποδηλώνοντας ελάχιστη πληροφορία Ελάχιστη τιμή (0.0) όταν όλες οι καταγραφές ανήκουν σε μία κατηγορία, υποδηλώνοντας μέγιστη πληροφορία Οι υπολογισμοί που περιλαμβάνουν εντροπία είναι παρόμοιοι με αυτούς του δείκτη GINI

66 Παραδείγματα υπολογισμού της εντροπίας Entropy t) p( j t)log p( j t) j ( 2 C1 0 C2 6 P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Entropy = 0 log 0 1 log 1 = 0 0 = 0 C1 1 C2 5 P(C1) = 1/6 P(C2) = 5/6 Entropy = (1/6) log 2 (1/6) (5/6) log 2 (1/6) = 0.65 C1 2 C2 4 P(C1) = 2/6 P(C2) = 4/6 Entropy = (2/6) log 2 (2/6) (4/6) log 2 (4/6) = 0.92

67 Παραδείγματα υπολογισμού της εντροπίας Ν 1 C1 0 C2 6 Ν 2 C1 1 C2 5 Ν 3 C1 2 C2 4 Ν 4 C1 3 C2 3 Entropy=0.000 Entropy=0.650 Entropy = 0.92 Entropy = Gini = Gini = Gini = Gini = 0.500

68 Διαχωρισμός με βάση την πληροφορία Όταν ένας κόμβος p διασπάται σε k σύνολα (παιδιά), η ποιότητα του διαχωρισμού υπολογίζεται ως Κέρδος Πληροφορίας (Information Gain): GAIN Ο κόμβος γονέας (Parent Node), p χωρίζεται σε k μέρη; n i είναι το πλήθος των παραδειγμάτων στο i μέρος Μετράει τη μείωση της εντροπίας που προήλθε από τη διαμέριση. Επιλέγουμε την διαμέριση που επιτυγχάνει την μέγιστη μείωση (μεγιστοποιεί το κέρδος (GAIN)) Χρησιμοποιείται στους ID3 και C4.5 Entropy( p) split i 1 όπου, n i = αριθμός εγγραφών του παιδιού i, n = αριθμός εγγραφών του κόμβου p. Μειονέκτημα: Τείνει να προτιμά διαχωρισμούς που οδηγούν σε μεγάλο πλήθος διαμερίσεων με κάθε ένα να είναι μικρό αλλά «καθαρό» k n i n Entropy ( i)

69 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no Κέρδος Πληροφορίας Παράδειγμα Κλάση 9 Info D) I(9,5) log 14 Info age ( D) ( ) log I(2,3) I(3,2) 5 ( ) 14 ( I(4,0) Gain( age) Info( D) Info ( D) age age p i n i I(p i, n i ) <= > Gain( income) Gain( student) Gain( credit _ rating) 0.048

70 Κέρδος Πληροφορίας Παράδειγμα I( parent) k i 1 N( u ) N i I( u ) i Τείνει να ευνοεί διαχωρισμούς που καταλήγουν σε μεγάλο αριθμό από διασπάσεις που η κάθε μία είναι μικρή αλλά καθαρή Own Car? Car Type? Student ID? Yes No Family C0: 6 C1: 4 C0: 4 C1: 6 C0: 1 C1: 3 Sports C0: 8 C1: 0 Luxury c 1 c 10 c 20 C0: 1 C1: 7 C0: 1 C1: 0... C0: 1 C1: 0 c 11 C0: 0 C1: 1... C0: 0 C1: 1 Μπορεί να καταλήξουμε σε πολύ μικρούς κόμβους (με πολύ λίγες εγγραφές) για αξιόπιστες προβλέψεις Στο παράδειγμα, το student-id είναι κλειδί, όχι χρήσιμο για προβλέψεις

71 Διαχωρισμός με βάση την πληροφορία Λόγος κέρδους (Gain Ratio): Μία λύση είναι να έχουμε μόνο δυαδικές διασπάσεις Λαμβάνουμε υπόψιν τον αριθμό των κόμβων GainRATIO split GAIN Split SplitINFO SplitINFO k i 1 ni n ni log n Ο κόμβος γονέας (Parent Node), p χωρίζεται σε kμέρη; n i είναι το πλήθος των παραδειγμάτων στο i μέρος Προσαρμόζει το πληροφοριακό κέρδος (Information Gain) χρησιμοποιώντας την εντροπία του διαμερισμού (SplitINFO). Μεγαλύτερη εντροπία διαμέρισης (μεγάλο πλήθος από μικρά μέρη) «τιμωρείται»! Χρησιμοποιείται στον C4.5 Σχεδιάστηκε για να «διορθώσει» το πρόβλημα του πληροφοριακού κέρδους (Information Gain)

72 Λόγος Κέρδους GainRATIO split GAIN Split SplitINFO SplitINFO k i 1 ni n log ni n Παράδειγμα Έστω N εγγραφές αν τις χωρίσουμε Σε 3 κόμβους SplitINFO = - log(1/3) = log3 Σε 2 κόμβους SplitINFO = - log(1/2) = log2 = 1 Άρα οι 2 ευνοούνται

73 Εντροπία Και τα τρία μέτρα επιστρέφουν καλά αποτελέσματα Κέρδος Πληροφορίας: Δουλεύει καλύτερα σε γνωρίσματα με πολλαπλές τιμές Λόγος Κέρδους: Τείνει να ευνοεί διαχωρισμούς όπου μία διαμέριση είναι πολύ μικρότερη από τις υπόλοιπες Ευρετήριο Gini: Δουλεύει καλύτερα σε γνωρίσματα με πολλαπλές τιμές Δε δουλεύει τόσο καλά όταν ο αριθμός των κλάσεων είναι μεγάλος Τείνει να ευνοεί ελέγχους που οδηγούν σε ισομεγέθεις διαμερίσεις που και οι δύο είναι καθαρές

74 Μέτρα μη καθαρότητας των κόμβων Measures of Node Impurity Δείκτης Gini Εντροπία (Entropy) Ποσοστό λανθασμένων ταξινομήσεων (Misclassification error)

75 Κριτήρια διαχωρισμού με βάση το λάθος ταξινόμησης Λάθος ταξινόμησης στον κόμβο t : Error( t) 1 max P( i t) class i Όσες ταξινομούνται σωστά Μέτρηση του σφάλματος ταξινόμησης από ένα κόμβο. Μέγιστη τιμή (1-1/n c ) όταν όλες οι καταγραφές ισοκατανέμονται μεταξύ των κατηγοριών, υποδηλώνοντας «λιγότερο χρήσιμη πληροφορία» Ελάχιστη τιμή (0.0) όταν όλες οι καταγραφές ανήκουν σε μία κατηγορία, υποδηλώνοντας «περισσότερο χρήσιμη πληροφορία»

76 Παραδείγματα υπολογισμού του σφάλματος C1 0 C2 6 Error( t) 1 max P( i t) P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Error = 1 max (0, 1) = 1 1 = 0 i C1 1 C2 5 P(C1) = 1/6 P(C2) = 5/6 Error = 1 max (1/6, 5/6) = 1 5/6 = 1/6 C1 2 C2 4 P(C1) = 2/6 P(C2) = 4/6 Error = 1 max (2/6, 4/6) = 1 4/6 = 1/3

77 Σύγκριση των διαφόρων κριτηρίων Για ένα πρόβλημα με 2 κατηγορίες / κλάσεις: p ποσοστό εγγραφών που ανήκει σε μία από τις δύο κλάσεις (p κλάση +, 1-p κλάση -) Όλες την μεγαλύτερη τιμή για 0.5 (ομοιόμορφη κατανομή) Όλες μικρότερη τιμή όταν όλες οι εγγραφές σε μία μόνο κλάση (0 και στο 1)

78 Misclassification Error vs Gini Yes Node N1 A? No Node N2 Parent C1 7 C2 3 Gini = 0.42 Gini(N1) = 1 (3/3) 2 (0/3) 2 = 0 Gini(N2) = 1 (4/7) 2 (3/7) 2 = N1 N2 C1 3 4 C2 0 3 Gini=0.342 Gini(Children) = 3/10 * 0 + 7/10 * = Gini improves!!

79 Σύγκριση Όπως είδαμε και στα παραδείγματα οι τρεις μετρήσεις είναι συνεπής μεταξύ τους, πχ Ν1 μικρότερη τιμή από το Ν2 και με τις τρεις μετρήσεις Ωστόσο το γνώρισμα που θα επιλεγεί για τη συνθήκη ελέγχου εξαρτάται από το ποια μέτρηση χρησιμοποιείται Ν1 Ν2 Ν3 Ν4 C1 0 C2 6 Error=0.000 C1 1 C2 5 Error=0.167 C1 2 C2 4 Error = C1 3 C2 3 Error = Gini = Gini = Gini = Gini = Entropy = Entropy = Entropy = Entropy = 1.000

80 Αλγόριθμος του Hunt Ψευδό-κώδικας Algorithm GenDecTree(Sample S, Attlist A) 1. create a node N 2. If all samples are of the same class C then label N with C; terminate; 3. If A is empty then label N with the most common class C in S (majority voting); terminate; 4. Select a A, with the highest information gain (gini, error); Label N with a; 5. For each value v of a: a. Grow a branch from N with condition a=v; b. Let S v be the subset of samples in S with a=v; c. If S v is empty then attach a leaf labeled with the most common class in S; d. Else attach the node generated by GenDecTree(S v, A-a)

81 Δέντρο Απόφασης: Κατασκευή Δέντρου Greedy στρατηγική. Διάσπαση εγγραφών με βάση έναν έλεγχο γνωρίσματος που βελτιστοποιεί ένα συγκεκριμένο κριτήριο Θέματα Καθορισμός του τρόπου διαχωρισμού των εγγραφών Καθορισμός του ελέγχου γνωρίσματος Καθορισμός του βέλτιστου διαχωρισμού Πότε θα σταματήσει ο διαχωρισμός (συνθήκη τερματισμού)

82 Κριτήρια τερματισμού για την επαγωγή δέντρων Σταματάμε να επεκτείνουμε έναν κόμβο αν όλα τα δεδομένα ανήκουν στην ίδια κατηγορία /κλάση Σταματάμε να επεκτείνουμε έναν κόμβο όταν όλα δεδομένα έχουν τις ίδιες τιμές Γρήγορος τερματισμός

83 Δέντρο Απόφασης Data Fragmentation Διάσπαση Δεδομένων Ο αριθμός των εγγραφών μειώνεται όσο κατεβαίνουμε στο δέντρο Ο αριθμός των εγγραφών στα φύλλα μπορεί να είναι πολύ μικρός για να πάρουμε οποιαδήποτε στατιστικά σημαντική απόφαση Μπορούμε να αποτρέψουμε την περαιτέρω διάσπαση όταν ο αριθμός των εγγραφών πέσει κάτω από ένα όριο

84 Πλεονεκτήματα Δέντρων Απόφασης Μη παραμετρική προσέγγιση: Δε στηρίζεται σε υπόθεση εκ των προτέρων γνώσης σχετικά με τον τύπο της κατανομής πιθανότητας που ικανοποιεί η κλάση ή τα άλλα γνωρίσματα Η κατασκευή του βέλτιστου δέντρου απόφασης είναι ένα NPcomplete πρόβλημα. Ευριστικοί: Αποδοτική κατασκευή ακόμα και στην περίπτωση πολύ μεγάλου συνόλου δεδομένων Αφού το δέντρο κατασκευαστεί, η ταξινόμηση νέων εγγραφών πολύ γρήγορη O(h) όπου h το μέγιστο ύψος του δέντρου Εύκολα στην κατανόηση (ιδιαίτερα τα μικρά δέντρα) Η ακρίβεια τους συγκρίσιμη με άλλες τεχνικές για μικρά σύνολα δεδομένων

85 Ταξινόμηση με δέντρα απόφασης Πλεονεκτήματα: Υπολογιστικά οικονομικά Πολύ γρήγορα στην ταξινόμηση νέων καταγραφών Εύκολα να ερμηνευθούν για δέντρα μικρού μεγέθους Η ακρίβεια που επιτυγχάνεται είναι συγκρίσιμη με άλλες τεχνικές για μικρά σύνολα δεδομένων Καλή συμπεριφορά στο θόρυβο Η ύπαρξη πλεοναζόντων γνωρισμάτων (γνωρίσματα των οποίων η τιμή εξαρτάται από κάποιο άλλο) δεν είναι καταστροφική για την κατασκευή. Χρησιμοποιείται ένα από τα δύο. Αν πάρα πολλά, μπορεί να οδηγήσουν σε δέντρα πιο μεγάλα από ότι χρειάζεται

86 Δέντρα Απόφασης Εκφραστικότητα Δυνατότητα αναπαράστασης για συναρτήσεις διακριτών τιμών, αλλά δε δουλεύουν σε κάποια είδη δυαδικών προβλημάτων πχ, parity 0(1) αν υπάρχει μονός (ζυγός) αριθμός από δυαδικά γνωρίσματα 2 d κόμβοι για d γνωρίσματα Όχι καλή συμπεριφορά για συνεχείς μεταβλητές Ιδιαίτερα όταν η συνθήκη ελέγχου αφορά ένα γνώρισμα τη φορά

87 Δέντρο Απόφασης Decision Boundary Μέχρι στιγμής είδαμε ελέγχους που αφορούν μόνο ένα γνώρισμα τη φορά, μπορούμε να δούμε τη διαδικασία ως τη διαδικασία διαμερισμού του χώρου των γνωρισμάτων σε ξένες περιοχές μέχρι κάθε περιοχή να περιέχει εγγραφές που να ανήκουν στην ίδια κλάση Η οριακή γραμμή (Border line) μεταξύ δυο γειτονικών περιοχών που ανήκουν σε διαφορετικές κλάσεις ονομάζεται και decision boundary (όριο απόφασης)

88 Διαχωριστικό όριο (επιφάνεια) Decision Boundary x < 0.43? 0.7 Yes No 0.6 y 0.5 y < 0.47? y < 0.33? Yes No Yes No : 4 : 0 : 0 : 4 : 0 : 3 : 4 : x Η διαχωριστική γραμμή μεταξύ δύο γειτονικών περιοχών διαφορετικών κατηγοριών ονομάζεται διαχωριστικό όριο (decision boundary Το διαχωριστικό όριο είναι παράλληλο στους άξονες γιατί η συνθήκη ελέγχου εμπλέκει μόνο ένα χαρακτηριστικό κάθε φορά

89 «Λοξά» Δέντρα απόφασης (Oblique Decision Trees x + y < 1 Class = + Class = Η συνθήκη ελέγχου μπορεί να περιλαμβάνει πολλά χαρακτηριστικά (περισσότερα από ένα) Η εύρεση της βέλτιστης συνθήκης ελέγχου είναι υπολογιστικά ακριβή Μεγαλύτερη εκφραστικότητα

90 Δέντρο Απόφασης Tree Replication (Αντίγραφα) P Q R S 0 Q S 0 Το ίδιο υπο-δέντρο να εμφανίζεται πολλές φορές σε ένα δέντρο απόφασης Αυτό κάνει το δέντρο πιο περίπλοκο και πιθανών δυσκολότερο στην κατανόηση 0 1 Σε περιπτώσεις διάσπασης ενός γνωρίσματος σε κάθε εσωτερικό κόμβο ο ίδιος έλεγχος σε διαφορετικά σημεία

91 Δέντρο Απόφασης: C4.5 Simple depth-first construction. Uses Information Gain Sorts Continuous Attributes at each node. Needs entire data to fit in memory. Unsuitable for Large Datasets. Needs out-of-core sorting. You can download the software from: gz

92 Δέντρo Απόφασης Στρατηγική αναζήτησης Ο αλγόριθμος που είδαμε χρησιμοποιεί μια greedy, top-down, αναδρομική διάσπαση για να φτάσει σε μια αποδεκτή λύση Άλλες στρατηγικές? Bottom-up (από τα φύλλα, αρχικά κάθε εγγραφή και φύλλο) Bi-directional

93 Δέντρο Απόφασης Constructive induction Κατασκευή σύνθετων γνωρισμάτων ως αριθμητικών ή λογικών συνδυασμών άλλων γνωρισμάτων

94 Δέντρο Απόφασης - Περίληψη Προτερήματα - Pros + Λογικός χρόνος εκπαίδευσης + Γρήγορη εφαρμογή + Ευκολία στην κατανόηση + Εύκολη υλοποίηση + Μπορεί να χειριστεί μεγάλο αριθμό γνωρισμάτων Μειονεκτήματα - Cons Δεν μπορεί να χειριστεί περίπλοκες σχέσεις μεταξύ των γνωρισμάτων Απλά όρια απόφασης (decision boundaries) Προβλήματα όταν λείπουν πολλά δεδομένα

95 Πρακτικά ζητήματα στην Ταξινόμηση

96 Πρακτικά ζητήματα στην Ταξινόμηση Υπο-προσαρμογή (Underfitting) και υπέρ-προσαρμογή (Overfitting) Εκτίμηση λάθους Ελλιπή δεδομένα (Missing Values) Κόστος ταξινόμησης (Costs of Classification)

97 Εκτίμηση του Λάθους Ως λάθος μετράμε τις εγγραφές που ο ταξινομητής τοποθετεί σε λάθος κλάση Λάθη Εκπαίδευσης (training, resubstitution, apparent): λάθη ταξινόμησης στα δεδομένα του συνόλου εκπαίδευσης (ποσοστό δεδομένων εκπαίδευσης που ταξινομούνται σε λάθος κλάση) Γενίκευσης (generalization): τα αναμενόμενα λάθη ταξινόμησης του μοντέλου σε δεδομένα που δεν έχει δει

98 Λάθη και στα δεδομένα εκπαίδευσης, γιατί χρησιμοποιούμε την πλειοψηφία των εγγραφών σε ένα φύλλο για να αποδώσουμε κλάση Εκτίμηση του Λάθους Πλειοψηφία στην + Άρα 1 έγγραφή λάθος Πλειοψηφία στην - Άρα 3 εγγραφές λάθος Παράδειγμα δύο δέντρων για τα ίδια δεδομένα εκπαίδευσης Με βάση το λάθος εκπαίδευσης Αριστερό 4/24 = Δεξί: 6/24 = 0.25

99 Overfitting Overfitting Μπορεί ένα μοντέλο που ταιριάζει πολύ καλά με τα δεδομένα εκπαίδευσης να έχει μεγαλύτερο λάθος γενίκευσης από ένα μοντέλο που ταιριάζει λιγότερο καλά στα δεδομένα εκπαίδευσης

100 Underfitting καιoverfitting (Παράδειγμα) Δύο κλάσεις: κλάση 1 (500 κυκλικά σημεία) και κλάση 2 (500 τριγωνικά σημεία) Για τα σημεία της κλάσης 1 (κυκλικά σημεία): 0.5 sqrt(x 12 +x 22 ) 1 Για τα σημεία της κλάσης 2 (τριγωνικά σημεία): sqrt(x 12 +x 22 ) > 0.5 or sqrt(x 12 +x 22 ) < 1

101 Underfitting: όταν το μοντέλο είναι πολύ απλό, τόσο το σφάλμα εκπαίδευσης όσο και το σφάλμα ελέγχου είναι μεγάλα Underfitting και Overfitting Overfitting Το δέντρο απόφασης για το προηγούμενα δεδομένα 30% εκπαίδευση 70% έλεγχο Gini Στη συνέχεια, pruning

102 Overfitting Μπορούμε να διασπάμε το δέντρο μέχρι να φτάσουμε στο σημείο κάθε φύλλο να ταιριάζει απολύτως στα δεδομένα Μικρό (μηδενικό) λάθος εκπαίδευσης Μεγάλο λάθος ελέγχου Και το ανάποδο, μπορεί επίσης να ισχύει Δέντρα απόφασης με διαφορετική πολυπλοκότητα

103 Υπερπροσαρμογή λόγω Θορύβου Η διαχωριστική επιφάνεια «παραμορφώνεται» λόγω ενός εσφαλμένου σημείου

104 Υπερπροσαρμογή λόγω έλλειψης παραδειγμάτων Κόκκινοι κύκλοι ανήκουν στην ίδια κλάση Οι γεμάτοι είναι στο σύνολο εκπαίδευσης, οι άδειοι στο σύνολο ελέγχου Η έλλειψη παραδειγμάτων (κόκκινων σημείων) στο κάτω μισό του διαγράμματος κάνει δύσκολη την σωστή ταξινόμηση σε αυτή την περιοχή - Στην περίπτωση ενός δέντρου απόφασης αυτή η έλλειψη μπορεί να οδηγήσει στη χρήση άσχετων με το συγκεκριμένο πρόβλημα χαρακτηριστικών για την πραγματοποίηση της ταξινόμησης για τα σημεία αυτής της περιοχής

105 Σχετικά με την υπερπροσαρμογή Η υπερπροσαρμογή οδηγεί συνήθως σε μοντέλα τα οποία είναι πιο πολύπλοκα από το «ιδανικό» Το σφάλμα εκπαίδευσης δεν παρέχει πλέον μια καλή εκτίμηση για την απόδοση του ταξινομητή σε παραδείγματα που δεν έχει «δει» προηγουμένως Απαιτούνται νέοι τρόποι για την εκτίμηση του σφάλματος

106 Overfitting Πρόβλημα λόγω πολλαπλών επιλογών - Επειδή σε κάθε βήμα εξετάζουμε πάρα πολλές διαφορετικές διασπάσεις, - κάποια διάσπαση βελτιώνει το δέντρο κατά τύχη Το πρόβλημα χειροτερεύει όταν αυξάνει ο αριθμός των επιλογών και μειώνεται ο αριθμός των δειγμάτων

107 Overfitting Το οverfitting έχει ως αποτέλεσμα δέντρα απόφασης που είναι πιο περίπλοκα από ό,τι χρειάζεται Τα λάθη εκπαίδευσης δεν αποτελούν πια μια καλή εκτίμηση για τη συμπεριφορά του δέντρου σε εγγραφές που δεν έχει δει ξανά Νέοι μέθοδοι για την εκτίμηση του λάθους

108 Αντιμετώπιση Overfitting Δύο βασικές προσεγγίσεις: Pre-pruning Σταμάτημα της ανάπτυξης του δέντρου μετά από κάποιο σημείο Post-pruning Η κατασκευή του δέντρου χωρίζεται σε δύο φάσεις: 1. Φάση Ανάπτυξης 2. Φάση Ψαλιδίσματος

109 Αντιμετώπιση Overfitting Pre-Pruning (Early Stopping Rule) Σταμάτα τον αλγόριθμο πριν σχηματιστεί ένα πλήρες δέντρο Συνήθεις συνθήκες τερματισμού για έναν κόμβο: Σταμάτα όταν όλες οι εγγραφές ανήκουν στην ίδια κλάση Σταμάτα όταν όλες οι τιμές των γνωρισμάτων είναι οι ίδιες Πιο περιοριστικές συνθήκες: Σταμάτα όταν ο αριθμός των εγγραφών είναι μικρότερος από κάποιο προκαθορισμένο κατώφλι Σταμάτα όταν η επέκταση ενός κόμβου δεν βελτιώνει την καθαρότητα (π.χ., Gini ή information gain) ή το λάθος γενίκευσης περισσότερο από κάποιο κατώφλι. (-) δύσκολος ο καθορισμός του κατωφλιού, (-) αν και το κέρδος μικρό, επόμενοι διαχωρισμοί μπορεί να καταλήξουν σε καλύτερα δέντρα

110 Έλεγχος της υπερπροσαρμογής στην περίπτωση δέντρων Εκ των υστέρων κλάδεμα (Post-pruning) Δημιουργούμε ένα πλήρες δέντρο Αποκόπτουμε κόμβους από κάτω προς τα πάνω (bottom-up) Εάν το σφάλμα γενίκευσης αυξάνει μετά από το κλάδεμα, αντικατέστησε το υπο-δέντρο με ένα κόμβο φύλλο. Η ετικέτα της κατηγορίας για το συγκεκριμένο κόμβο φύλλο καθορίζεται από την πλειοψηφούσα κατηγορία του υποδέντρου (που αντικαταστάθηκε)

111 Εκτίμηση του Λάθους Ταξινόμησης Εκτίμηση Λάθους Γενίκευσης Ως λάθος μετράμε τις εγγραφές που ο ταξινομητής τοποθετεί σε λάθος κλάση Χρήση Δεδομένων Εκπαίδευσης αισιόδοξη εκτίμηση απαισιόδοξη εκτίμηση 3. Χρήση Δεδομένων Ελέγχου

112 Εκτίμηση του Λάθους Γενίκευσης Re-substitution errors: Λάθος στην εκπαίδευση ( e(t) ) Generalization errors: Λάθος στον έλεγχο ( e (t)) Ως λάθος μετράμε το ποσοστό των εγγραφών που ο ταξινομητής τοποθετεί σε λάθος κλάση Μέθοδοι εκτίμησης του λάθους γενίκευσης: 1. Optimistic approach Αισιόδοξη προσέγγιση: e (t) = e(t)

113 Εκτίμηση του Λάθους Γενίκευσης Πλειοψηφία στην + Άρα 1 έγγραφή λάθος Πλειοψηφία στην - Άρα 3 εγγραφές λάθος Παράδειγμα δύο δέντρων για τα ίδια δεδομένα Το δέντρο στο δεξί (T R ) μετά από ψαλίδισμα του δέντρου στα αριστερά (T Με βάση το λάθος εκπαίδευσης L ) sub-tree raising Αριστερό 4/24 = Δεξί: 6/24 = 0.25

114 Συνεπώς, θα πρέπει να περιλαμβάνεται και η πολυπλοκότητα του μοντέλου όταν εκτιμάμε ένα μοντέλο Το ξυράφι του Occam (Occam s Razor) Δεδομένου δύο μοντέλων με παρόμοιο σφάλμα γενίκευσης (generalization errors), πρέπει να προτιμάμε το πιο απλό μοντέλο από τα δύο Για πολύπλοκα μοντέλα, υπάρχει μεγαλύτερη πιθανότητα να έχει προσαρμοστεί λανθασμένα σε εσφαλμένες καταγραφές

115 Εκτίμηση/αποτίμηση των μοντέλων Model Evaluation Μέτρα για την εκτίμηση της απόδοσης (Metrics for Performance Evaluation) Πώς εκτιμούμε την απόδοση ενός μοντέλου? Μέθοδοι για την εκτίμηση της απόδοσης (Methods for Performance Evaluation) Πώς θα πάρουμε αξιόπιστες εκτιμήσεις? Μέθοδοι για την σύγκριση των μοντέλων Πώς θα συγκρίνουμε την σχετική απόδοση ανάμεσα στα υποψήφια μοντέλα?

116 Εκτίμηση του Λάθους Γενίκευσης 2. Pessimistic approach - Απαισιόδοξη προσέγγιση: k: αριθμός φύλλων, για κάθε φύλλο t i προσθέτουμε ένα κόστος V(t i ) e'( T ) k i 1 [ e( t ) V ( t )] k i i 1 n( t ) Aν για κάθε φύλλο t,v(t) = 0.5: e (t) = e(t) Συνολικό λάθος: e (T) = e(t) + k 0.5 (k: αριθμός φύλλων) Το 0.5 σημαίνει ότι διαχωρισμός ενός κόμβου δικαιολογείται αν βελτιώνει τουλάχιστον μία εγγραφή Για ένα δέντρο με 30 φύλλα και 10 λάθη στο σύνολο εκπαίδευσης (από σύνολο 1000 εγγραφών): Training error = 10/1000 = 1% Generalization error = ( )/1000 = 2.5% i i

117 Εκτίμηση του Λάθους Γενίκευσης Παράδειγμα δύο δέντρων για τα ίδια δεδομένα Με βάση το λάθος εκπαίδευσης Αριστερό (4 + 7*0.5)/24 = Δεξί: (6 + 4*0.5)/24 = Αν αντί για 0.5, κάτι μεγαλύτερο;

118 Overfitting Παράδειγμα Post-Pruning Λάθος εκπαίδευσης (Πριν τη διάσπαση) = 10/30 Class = Yes 20 Class = No 10 Error = 10/30 A1 A? A4 Απαισιόδοξο λάθος = ( )/30 = 10.5/30 Λάθος εκπαίδευσης (Μετά τη διάσπαση) = 9/30 Απαισιόδοξο λάθος (Μετά τη διάσπαση) A2 A3 = ( )/30 = 11/30 PRUNE! Class = Yes 8 Class = No 4 Class = Yes 4 Class = No 1 Class = Yes 5 Class = No 1 Class = Yes 3 Class = No 4

119 Εκτίμηση του Λάθους Γενίκευσης 3. Reduced error pruning (REP): χρήση ενός συνόλου επαλήθευσης για την εκτίμηση του λάθους γενίκευσης Χώρισε τα δεδομένα εκπαίδευσης: 2/3 εκπαίδευση 1/3 (σύνολο επαλήθευσης validation set) για υπολογισμό λάθους Χρήση για εύρεση του κατάλληλου μοντέλου

120 Παράδειγμα post-pruning Overfitting Αισιόδοξη προσέγγιση? Όχι διάσπαση Απαισιόδοξη προσέγγιση? Case 1: C0: 11 C1: 3 C0: 2 C1: 4 όχι case 1, ναι case 2 REP? Εξαρτάται από το σύνολο επαλήθευσης Case 2: C0: 14 C1: 3 C0: 2 C1: 2

121 Τιμές που λείπουν Οι τιμές που λείπουν (missing values) επηρεάζουν την κατασκευή του δέντρου με τρεις τρόπους: Πως υπολογίζονται τα μέτρα καθαρότητας Πως κατανέμονται στα φύλλα οι εγγραφές με τιμές που λείπουν Πως ταξινομείται μια εγγραφή εκπαίδευσης στην οποία λείπει μια τιμή

122 10 Τιμές που λείπουν Tid Refund Marital Status Taxable Income Class 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10? Single 90K Yes Missing value Υπολογισμό μέτρων καθαρότητας Πριν τη διάσπαση: Entropy(Parent) = -0.3 log(0.3)-(0.7)log(0.7) = Κόμβος 1 Κόμβος 2 Class Class = Yes = No Refund=Yes 0 3 Refund=No 2 4 Refund=? 1 0 Διάσπαση στο Refund: Entropy(Refund=Yes) = 0 Entropy(Refund=No) = -(2/6)log(2/6) (4/6)log(4/6) = Entropy(Children) = 0.3 (0) (0.9183) = Gain = 0.9 ( ) =

123 10 10 Tid Refund Marital Status Taxable Income Class 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No Τιμές που λείπουν Tid Refund Marital Status Taxable Income Class 10? Single 90K Yes Σε ποιο φύλλο; Πιθανότητα Refund=Yes is 3/9 (3 από τις 9 εγγραφές έχουν refund=yes) Πιθανότητα Refund=No is 6/9 Aνάθεση εγγραφής στο αριστερό παιδί με βάρος 3/9 και στο δεξί παιδί με βάρος 6/9 Yes Refund No Yes Refund No Class=Yes 0 Class=No 3 Class=Yes 2 Class=No 4 Class=Yes 0 + 3/9 Class=No 3 Class=Yes 2 + 6/9 Class=No 4

124 10 Τιμές που λείπουν Νέα εγγραφή Married Single Divorced Total Tid Refund Marital Status Taxable Income Class Class=No No? 85K? Class=Yes 6/ Yes NO NO Refund Single, Divorced No TaxInc MarSt < 80K > 80K YES Married NO Total Πιθανότητα οικογενειακή κατάσταση (MarSt) = Married is 3.67/6.67 Πιθανότητα οικογενειακή κατάσταση (MarSt) ={Single,Divorced} is 3/6.67

125 Αποτίμηση Μοντέλου

126 Αποτίμηση Μοντέλου Επιλογή Μοντέλου (model selection): το μοντέλο που έχει την απαιτούμενη πολυπλοκότητα χρησιμοποιώντας την εκτίμηση του λάθους γενίκευσης Αφού κατασκευαστεί μπορεί να χρησιμοποιηθεί στα δεδομένα ελέγχου για να προβλέψει σε ποιες κλάσεις ανήκουν Για να γίνει αυτό πρέπει να ξέρουμε τις κλάσεις των δεδομένων ελέγχου

127 Αποτίμηση Μοντέλου Μέτρα (metrics) για την εκτίμηση της απόδοσης του μοντέλου Πως να εκτιμήσουμε την απόδοση ενός μοντέλου Τι θα μετρήσουμε Μέθοδοι για την εκτίμηση της απόδοσης Πως μπορούνε να πάρουμε αξιόπιστες εκτιμήσεις Πως θα το μετρήσουμε Μέθοδοι για την σύγκριση μοντέλων Πως να συγκρίνουμε τη σχετική απόδοση δύο ανταγωνιστικών μοντέλων Ισχύουν για όλα τα μοντέλα ταξινόμησης

128 Μέτρα Εκτίμησης Αφού κατασκευαστεί ένα μοντέλο, θα θέλαμε να αξιολογήσουμε/εκτιμήσουμε την ποιότητα του/την ακρίβεια της ταξινόμησης που πετυχαίνει Έμφαση στην ικανότητα πρόβλεψης του μοντέλου παρά στην αποδοτικότητα του (πόσο γρήγορα κατασκευάζει το μοντέλο ή ταξινομεί μια εγγραφή, κλιμάκωση κλπ.)

129 Μέτρα για την απόδοση της εκτίμησης Επικεντρώνονται στην προβλεπτική ικανότητα ενός μοντέλου Αντί να επικεντρωθούμε στο πόσο γρήγορα ταξινομεί ή χτίζει ένα μοντέλο, εάν κλιμακώνεται γραμμικά κτλ. Πίνακας (μήτρα) σύγχυσης Confusion Matrix: πρόβλεψη PREDICTED CLASS πραγματική ACTUAL CLASS Class=Yes Class=No Class=Yes f 11 TP f 10 FN Class=No f 01 FP f 00 TN TP (true positive) f 11 FN (false negative) f 10 FP (false positive) f 01 TN (true negative) f 00 f ij : αριθμός των εγγραφών της κλάσης i που προβλέπονται ως κλάση j

130 Μέτρα για την απόδοση της εκτίμησης Πιστότητα - Accuracy Πιστότητα (ακρίβεια;) (accuracy) Το πιο συνηθισμένο μέτρο ACTUAL CLASS PREDICTED CLASS Class=Yes Class=No Class=Yes TP FN Class=No FP TN Accuracy f 11 f f f f f 10 TP TN TP TN FP FN = 0 Λόγος Λάθους Error rate f 11 f f f f f 10 ErrorRate(C) = 1 Accuracy(C)

131 Πίνακας σύγχυσης Άλλα Μέτρα Εκτίμησης πέραν της Πιστότητας PREDICTED CLASS Class=Yes Class=No ACTUAL CLASS Class=Yes TP FN Class=No FP TN Πιστότητα (accuracy) -- υπενθύμιση -- Accuracy f 11 f f f f f 10 TP TN TP TN FP FN Λόγος Λάθους Error rate f 11 f f f f f 10

132 Περιορισμοί από τη χρήση της ακρίβειας Έστω ένα πρόβλημα με 2 κατηγορίες Παραδείγματα από την κατηγορία 0 = 9990 Παραδείγματα από την κατηγορία 1 = 10 Εάν ένα μοντέλο προβλέπει ότι κάθε τι ανήκει στην κατηγορία 0, η ακρίβεια είναι 9990/10000 = 99.9 % Η ακρίβεια σε αυτή την περίπτωση είναι παραπλανητική γιατί το μοντέλο αποτυγχάνει να ανιχνεύσει οποιοδήποτε από τα παραδείγματα που ανήκουν στην κατηγορία 1

133 ACTUAL CLASS Πίνακας Κόστους PREDICTED CLASS C(i j) Class = + Class = - Class = + C(+, +) C(+, -) Class = - C(-, +) C(-, -) Μέτρα Εκτίμησης C(i j): κόστος λανθασμένης ταξινόμησης ενός παραδείγματος της κλάσης i ως κλάση j βάρος ACTUAL CLASS PREDICTED CLASS C(i j) Class = + Class = - Class = + TP F 11 FN F 10 Class = - FP F 01 TN F 00 Αρνητική τιμή κόστους σημαίνει επιπρόσθετη «επιβράβευση» σωστής πρόβλεψης C(M) = TP x C(+, +) + FN x C(+, -) + FP C(-, +) + TN C(-, -) Στα προηγούμενα, είχαμε C(+, +) = C(-, -) = 0 -> όχι επιβράβευση C(+, -) = C(-, +) = 1 -> κάθε λάθος μετρά 1

134 Μέτρα Εκτίμησης Υπολογισμός του Κόστους της Ταξινόμησης Model M 1 ACTUAL CLASS Cost Matrix ACTUAL CLASS PREDICTED CLASS Accuracy = 80% Cost = 3910 PREDICTED CLASS C(i j) Model M 2 ACTUAL CLASS PREDICTED CLASS Accuracy = 90% Cost = 4255 C(i j): κόστος λανθασμένης ταξινόμησης ενός παραδείγματος της κλάσης i ως κλάση j

135 Μέτρα Εκτίμησης Ταξινόμηση που λαμβάνει υπό όψιν της το κόστος Κατασκευή Δέντρου Ταξινόμησης Επιλογή γνωρίσματος στο οποίο θα γίνει η διάσπαση Στην απόφαση αν θα ψαλιδιστεί κάποιο υποδέντρο Στον καθορισμό της κλάσης του φύλλου

136 Μέτρα Εκτίμησης Καθορισμός κλάσης Κανονικά, ως ετικέτα ενός φύλλου την πλειοψηφούσα κλάση, Έστω p(j) τον ποσοστό των εγγραφών του κόμβου που ανήκουν στην κλάση j Τότε, Leaf-label = max p(j), το ποσοστό των εγγραφών της κλάσης j που έχουν ανατεθεί στον κόμβο Τώρα, δίνουμε την κλάση i στον κόμβο που έχει το ελάχιστο: j p ( j) C( j, i) Για όλες τις κλάσεις

137 Μέτρα Εκτίμησης Έστω 2 κλάσεις: + και - Αν όχι κόστος, ετικέτα +, ανν, p(+) > 0.5 Τώρα, αυτήν με το μικρότερο κόστος: κόστος της κλάσης - : p(+) x C(+, +) + p(+) x C(+, -) κόστος της κλάσης + : p(-) x C(-, -) + p(-) x C(-, +) Αν C(-, -) = C(+, +) = 0 (όχι κόστος (επιβράβευση) στα σωστά) Δίνουμε +, αν p(+) C(+, -) > p(-) x C(-, +) => p( ) C(, ) C(, ) C(, ) p(-) = 1 p(+) Αν C(-, +) < C(+, -), τότε λιγότερο του 0.5

138 Κόστος εναντίον Ακρίβειας Count ACTUAL CLASS PREDICTED CLASS Class=Yes Class=No Class=Yes a b Class=No c d Η ακρίβεια είναι ανάλογη του κόστους εάν 1. C(Yes No)=C(No Yes) = q 2. C(Yes Yes)=C(No No) = p N = a + b + c + d Accuracy = (a + d)/n Cost ACTUAL CLASS PREDICTED CLASS Class=Yes Class=No Class=Yes p q Class=No q p Cost = p (a + d) + q (b + c) = p (a + d) + q (N a d) = q N (q p)(a + d) = N [q (q-p) Accuracy]

139 Μέτρα Εκτίμησης Άλλες μετρήσεις με βάση τον πίνακα σύγχυσης ACTUAL CLASS PREDICTED CLASS Class=Yes Class=No Class=Yes TP FN Class=No FP TN True positive rate or sensitivity: Το ποσοστό των θετικών παραδειγμάτων που ταξινομούνται σωστά TPR TP TP FN True negative rate or specificity: Το ποσοστό των αρνητικών παραδειγμάτων που ταξινομούνται σωστά TNR TN TN FP

140 Μέτρα Εκτίμησης Άλλες μετρήσεις με βάση τον πίνακα σύγχυσης ACTUAL CLASS PREDICTED CLASS Class=Yes Class=No Class=Yes TP FN Class=No FP TN False positive rate: Το ποσοστό των αρνητικών παραδειγμάτων που ταξινομούνται λάθος (δηλαδή, ως θετικά) FPR FP TN FP False negative rate: Το ποσοστό των θετικών παραδειγμάτων που ταξινομούνται λάθος (δηλαδή, ως αρνητικά) FNR FN TP FN

141 Άλλα μέτρα a Precision (p) a c a Recall (r) a b 2rp F - measure (F) r p 2a 2a b c Weighted Accuracy w a 1 w a 1 w b 2 w d 4 w c 3 w d 4

142 Μέτρα Εκτίμησης Recall (ανάκληση) Precision (ακρίβεια) Precision Recall ACTUAL CLASS TP p TP FP TP r TP FN PREDICTED CLASS Class=Yes Class=No Class=Yes TP FN Class=No FP TN Πόσα από τα παραδείγματα που ο ταξινομητής έχει ταξινομήσει ως θετικά είναι πραγματικά θετικά Όσο πιο μεγάλη η ακρίβεια, τόσο μικρότερος o αριθμός των FP Πόσα από τα θετικά παραδείγματα κατάφερε ο ταξινομητής να βρει Όσο πιο μεγάλη η ανάκληση, τόσο λιγότερα θετικά παραδείγματα έχουν ταξινομεί λάθος (=TPR)

143 Μέτρα Εκτίμησης Recall (ανάκληση) Precision (ακρίβεια) Precision Recall TP p TP FP TP r TP FN Πόσα από τα παραδείγματα που ο ταξινομητής έχει ταξινομήσει ως θετικά είναι πραγματικά θετικά Πόσα από τα θετικά παραδείγματα κατάφερε ο ταξινομητής να βρει Συχνά το ένα καλό και το άλλο όχι Πχ, ένας ταξινομητής που όλα τα ταξινομεί ως θετικά, την καλύτερη ανάκληση με τη χειρότερη ακρίβεια Πώς να τα συνδυάσουμε;

144 Μέτρα Εκτίμησης F 1 measure F 1 2rp r p 2TP 2TP FP FN F 1 1/ 2 r 1/ p Αρμονικό μέσο (Harmonic mean) Τείνει να είναι πιο κοντά στο μικρότερο από τα δύο Υψηλή τιμή σημαίνει ότι και τα δύο είναι ικανοποιητικά μεγάλα

145 Μέτρα Εκτίμησης Αρμονικά, Γεωμετρικά και Αριθμητικά Μέσα Παράδειγμα α=1, b=5

146 TP Precision (p) TP FP TP Recall (r) TP FN 2rp F - measure (F) r p 2TP 2TP FN FP Μέτρα Εκτίμησης Precision - C(Yes Yes) & C(Yes No) Recall - C(Yes Yes) & C(No Yes) F-measure όλα εκτός του C(No No) Weighted Accuracy w1tp w4tn w TP w FP w FN w TN 4 w1 w2 w3 w4 Recall Precision F Accuracy

147 Αποτίμηση Μοντέλου Μπορούμε να χρησιμοποιήσουμε τα λάθη εκπαίδευσης/γενίκευσης (αισιόδοξη ή απαισιόδοξη προσέγγιση) Δεν είναι κατάλληλα γιατί βασίζονται στα δεδομένα εκπαίδευσης μόνο Συνήθως, σύνολο ελέγχου

148 Μέθοδοι για την εκτίμηση της απόδοσης Πώς θα πάρουμε μία αξιόπιστη εκτίμηση της απόδοσης? Η απόδοση ενός μοντέλου μπορεί να εξαρτάται και από άλλους παράγοντες πέρα από τον αλγόριθμο εκπαίδευσης : Την κατανομή των παραδειγμάτων Το κόστος εσφαλμένης ταξινόμησης Το μέγεθος των συνόλων ελέγχου και εκπαίδευσης

149 Μέθοδοι εκτίμησης Holdout Κρατάμε τα 2/3 των παραδειγμάτων για εκπαίδευση και το 1/3 για έλεγχο Τυχαία υποδειγματοληψία (Random subsampling) Repeated holdout Cross validation Χωρισμός των δεδομένων σε k μη επικαλυπτόμενα υποσύνολα (disjoint subsets) k-fold: εκπαιδεύουμε χρησιμοποιώντας τα k-1 υποσύνολα, κάνουμε έλεγχο χρησιμοποιώντας το ένα που δεν χρησιμοποιήσαμε Leave-one-out: k=n Bootstrap Δειγματοληψία με επανατοποθέτηση (Sampling with replacement)

150 Μέθοδοι Αποτίμησης Μοντέλου Μέθοδος Holdout Διαμέριση του αρχικού συνόλου σε δύο ξένα σύνολα: Εγγραφές που χρησιμοποιούνται για την κατασκευή του μοντέλου Σύνολο εκπαίδευσης (2/3) Σύνολο Ελέγχου (1/3) Κατασκευή μοντέλου με βάση το σύνολο εκπαίδευσης Αρχικό σύνολο εγγραφών για το οποίο γνωρίζουμε την κλάση τους Εγγραφές που χρησιμοποιούνται για τον έλεγχο του μοντέλου Αποτίμηση μοντέλου με βάση το σύνολο ελέγχου

151 Μέθοδοι Αποτίμησης Μοντέλου Μέθοδος Holdout (-) Λιγότερες εγγραφές για εκπαίδευση πιθανόν όχι τόσο καλό μοντέλο, όσο αν χρησιμοποιούνταν όλες (-) Το μοντέλο εξαρτάται από τη σύνθεση των συνόλων εκπαίδευσης και ελέγχου όσο μικρότερο το σύνολο εκπαίδευσης, τόσο μεγαλύτερη η variance του μοντέλου όσο μεγαλύτερο το σύνολο εκπαίδευσης, τόσο λιγότερο αξιόπιστη η πιστότητα του μοντέλου που υπολογίζεται με το σύνολο ελέγχου wide confidence interval (-) Τα σύνολα ελέγχου και εκπαίδευσης δεν είναι ανεξάρτητα μεταξύ τους (υποσύνολα του ίδιου συνόλου - πχ μια κλάση που έχει πολλά δείγματα στο ένα, θα έχει λίγα στο άλλο και το ανάποδο)

152 Μέθοδοι Αποτίμησης Μοντέλου Τυχαία Λήψη Δειγμάτων Random Subsampling Επανάληψη της μεθόδου για τη βελτίωσή της έστω k επαναλήψεις, παίρνουμε το μέσο όρο της ακρίβειας (-) Πάλι αφαιρούμε δεδομένα από το σύνολο εκπαίδευσης (-) Ένα ακόμα πρόβλημα είναι ότι μια εγγραφή μπορεί να χρησιμοποιείται (επιλέγεται) ως εγγραφή εκπαίδευσης πιο συχνά από κάποια άλλη

153 Μέθοδοι Αποτίμησης Μοντέλου Cross validation Κάθε εγγραφή χρησιμοποιείται τον ίδιο αριθμό φορών στην εκπαίδευση και ακριβώς μια φορά για έλεγχο Διαμοίραση των δεδομένων σε k ίσα διαστήματα Κατασκευή του μοντέλου αφήνοντας κάθε φορά ένα διάστημα ως σύνολο ελέγχου και χρησιμοποιώντας όλα τα υπόλοιπα ως σύνολα εκπαίδευσης Επανάληψη k φορές 2-fold (δύο ίσα υποσύνολα, το ένα μια φορά για έλεγχο το άλλο για εκπαίδευση και μετά ανάποδα) Αν k = N, (Ν ο αριθμός των εγγραφών) leave-one-out

154 Μέθοδοι Αποτίμησης Μοντέλου Bootstrap Sample with replacement δειγματοληψία με επανένταξη Μια εγγραφή που επιλέχθηκε ως δεδομένο εκπαίδευσης, ξαναμπαίνει στο αρχικό σύνολο Οι υπόλοιπες εγγραφές (όσες δεν επιλεγούν στο σύνολο εκπαίδευσης) εγγραφές ελέγχου Αν Ν δεδομένα, ένα δείγμα Ν στοιχείων 63.2% των αρχικών Πιθανότητα ένα δεδομένο να επιλεγεί 1 (1-1/Ν) Ν Για μεγάλο Ν, η πιθανότητα επιλογής τείνει ασυμπτωτικά στο 1-e -1 = 0.632, πιθανότητα μη επιλογής boostrap b: αριθμός επαναλήψεων acc boot 1 b b i 1 (0.6328* errortest acc s ακρίβεια όταν όλα τα δεδομένα ως σύνολο εκπαίδευσης i 0.368* acc ) s

155 Βελτίωση Απόδοσης Ensemble Methods Σύνολο Μεθόδων Κατασκευή ενός συνόλου από ταξινομητές από τα δεδομένα εκπαίδευσης C 1, C 2,. C t -> C* Υπολογισμός της κλάσης των δεδομένων συναθροίζοντας (aggregating) τις προβλέψεις των t ταξινομητών Πως: πχ με πλειοψηφικό σύστημα (Voting majority) Βήμα 1: Δημιουργία Πολλαπλών Συνόλων Δεδομένων Βήμα 2: Κατακσκευή Πολλαπλών Ταξινομητών Βήμα 3: Συνδυασμός Ταξινομητών D Aρχικά Δεδομένα εκπαίδευσης... D 1 D 2 D t-1 D t C 1 C 2 C t -1 C t C *

156 Βελτίωση Απόδοσης Έστω t = 25 βασικοί ταξινομητές Αν ο καθένας λάθος, = 0.35 Έστω ότι ανεξάρτητοι και μόνο 2 κλάσεις Πιθανότητα λανθασμένης πρόβλεψης του συνόλου: 25 i i (1 ) i 25 i 0.06

157 Βελτίωση Απόδοσης Bagging (Bootstarp + Aggregation) Δειγματοληψία με επανένταξη (Sampling with replacement) Κατασκευή ταξινομητή για κάθε δείγμα Κάθε δείγμα έχει πιθανότητα (1 1/n) n να επιλεγεί Original Data Bagging (Round 1) Bagging (Round 2) Bagging (Round 3) Boosting Δε δίνουμε το ίδιο βάρος σε όλους τους ταξινομητές, αλλά παίρνουμε υπόψη μας την ακρίβειά τους -- C* βάρος με βάση την ακρίβεια του Βασική ιδέα: Έστω C i, o C i+1 μεγαλύτερο λάθος στις πλειάδες που ταξινόμησε λάθος ο C i Πως; «πειράζουμε» την πιθανότητα επιλογής τους στο σύνολο εκπαίδευσης σωστά, πιθανότητα επιλογής λάθος, πιθανότητα επιλογής +

158 Μέθοδοι Αποτίμησης Μοντέλου Πως μπορούμε να πάρουμε αξιόπιστες εκτιμήσεις της απόδοσης Η απόδοση ενός μοντέλου μπορεί να εξαρτάται από πολλούς παράγοντες εκτός του αλγορίθμου μάθησης: Κατανομή των κλάσεων Το κόστος της λανθασμένης ταξινόμησης Το μέγεθος του συνόλου εκπαίδευσης και του συνόλου ελέγχου

159 Καμπύλη Μάθησης (Learning Curve) Μέθοδοι Αποτίμησης Μοντέλου Η καμπύλη μάθησης δείχνει πως μεταβάλλεται η πιστότητα (accuracy) με την αύξηση του μεγέθους του δείγματος Επίδραση δείγματος μικρού μεγέθους: Bias in the estimate Variance of estimate

160 Αποτίμηση Μοντέλου: ROC ROC (Receiver Operating Characteristic Curve) Αναπτύχθηκε στη δεκαετία 1950 για την ανάλυση θορύβου στα σήματα Χαρακτηρίζει το trade-off μεταξύ positive hits και false alarms Η καμπύλη ROC δείχνει τα TPR [TruePositiveRate] (στον άξονα των y) προς τα FPR [FalsePositiveRate] (στον άξονα των x) Η απόδοση κάθε ταξινομητή αναπαρίσταται ως ένα σημείο στην καμπύλη ROC Πόσα από τα θετικά βρίσκει TP TPR TP FN FP FPR TN FP Πόσα από τα αρνητικά βρίσκει

161 Αποτίμηση Μοντέλου: ROC (TP,FP): (0,0): declare everything to be negative class (1,1): declare everything to be positive class (1,0): ideal Diagonal line: Random guessing Μια εγγραφή θεωρείται θετική με καθορισμένη πιθανότητα p ανεξάρτητα από τις τιμές των γνωρισμάτων της TPR TP TP FN FP FPR TN FP

162 Αποτίμηση Μοντέλου: ROC Καλοί ταξινομητές κοντά στην αριστερή πάνω γωνία του διαγράμματος Κάτω από τη διαγώνιο Πρόβλεψη είναι το αντίθετο της πραγματικής κλάσης TPR TP TP FN FP FPR TN FP

163 Αποτίμηση Μοντέλου: ROC Σύγκριση δύο μοντέλων Κανένα μοντέλο δεν είναι πάντα καλύτερο του άλλου M 1 καλύτερο για μικρό FPR M 2 καλύτερο για μεγάλο FPR Η περιοχή κάτω από την καμπύλη ROC Ideal: Area = 1 Random guess: Area = 0.5

164 Αποτίμηση Μοντέλου Μέτρα (metrics) για την εκτίμηση της απόδοσης του μοντέλου Πως να εκτιμήσουμε την απόδοση ενός μοντέλου Μέθοδοι για την εκτίμηση της απόδοσης Πως μπορούνε να πάρουμε αξιόπιστες εκτιμήσεις Μέθοδοι για την σύγκριση μοντέλων Πως να συγκρίνουμε τη σχετική απόδοση δύο ανταγωνιστικών μοντέλων

165 Αποτίμηση Μοντέλου Έλεγχος Σημαντικότητας (Test of Significance) Έστω δύο μοντέλα: Μοντέλο M1: ακρίβεια = 85%, έλεγχος σε 30 εγγραφές Μοντέλο M2: ακρίβεια = 75%, έλεγχος σε 5000 εγγραφές Είναι το Μ1 καλύτερο από το Μ2; Πόση εμπιστοσύνη (confidence) μπορούμε να έχουμε για την πιστότητα του Μ1 και πόση για την πιστότητα του Μ2; Μπορεί η διαφορά στην απόδοση να αποδοθεί σε τυχαία διακύμανση του συνόλου ελέγχου;

166 Αποτίμηση Μοντέλου Διάστημα Εμπιστοσύνης για την Ακρίβεια (Confidence Interval) Η πρόβλεψη μπορεί να θεωρηθεί σε ένα πείραμα Bernoulli Ένα Bernoulli πείραμα έχει δύο πιθανά αποτελέσματα Πιθανά αποτελέσματα πρόβλεψης: σωστό ή λάθος Μια συλλογή από πειράματα έχει δυωνυμική κατανομή Binomial distribution: x Bin(N, p) x: αριθμός σωστών προβλέψεων Πχ: ρίξιμο τίμιου νομίσματος (κορώνα/γράμματα) 50 φορές, αριθμός κεφαλών; Expected number of heads = N p = = 25 Δοθέντος του x (# σωστών προβλέψεων) ή ισοδύναμα, acc=x/n, και του N (# εγγραφών ελέγχου), Μπορούμε να προβλέψουμε το p (την πραγματική πιστότητα του μοντέλο);

167 Αποτίμηση Μοντέλου Για μεγάλα σύνολα ελέγχου (N > 30), acc έχει κανονική κατανομή με μέσο mean p and variance p(1-p)/n Area = 1 - P acc p 1 / ) 1 p(1 p) / N ( Z / 2 Z 2 Confidence Interval for p (Διάστημα εμπιστοσύνης για το p): Z /2 Z 1- /2 2 N acc Z 2 / 2 Z 2 / 2 2( N Z 4 N acc 4 N acc 2 / 2 ) 2

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κατηγοριοποίηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός

Διαβάστε περισσότερα

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή 0 0 0 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση Οι διαφάνειες στηρίζονται στο P.-N. Tan,

Διαβάστε περισσότερα

Ταξινόμηση II Σύντομη Ανακεφαλαίωση

Ταξινόμηση II Σύντομη Ανακεφαλαίωση 0 0 0 Ταξινόμηση II Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 ΤΑΞΙΝΟΜΗΣΗ

Διαβάστε περισσότερα

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach,

Διαβάστε περισσότερα

Ταξινόμηση ΙI. Σύντομη Επανάληψη. Εισαγωγή Κατασκευή έντρου Απόφασης. Εξόρυξη Δεδομένων

Ταξινόμηση ΙI. Σύντομη Επανάληψη. Εισαγωγή Κατασκευή έντρου Απόφασης. Εξόρυξη Δεδομένων Ταξινόμηση ΙI Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Σύντομη Επανάληψη Εισαγωγή Κατασκευή έντρου Απόφασης Εξόρυξη Δεδομένων:

Διαβάστε περισσότερα

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις)

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Κατηγοριοποίηση ΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 200-20 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II Κατηγοριοποίηση Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1 Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Κατηγοριοποίηση (classification) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

(training data) (test data)

(training data) (test data) Αποθήκες εδοµένων και Εξόρυξη Γνώσης Κατηγοριοποίηση Νίκος Πελέκης, Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/db/courses/dwdm 1 ΠΑ.ΠΕΙ. Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές κατηγοριοποίησης

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 11: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Εξαγωγή Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων Από Δεδομένα-

Διαβάστε περισσότερα

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4)

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4) Data Mining Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης Κατηγοριοποίηση (κεφ. 4) Βασίλης Βερύκιος - Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/dmbook Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων Κατηγοριοποίηση

Εξόρυξη Δεδομένων Κατηγοριοποίηση Εξόρυξη Δεδομένων Κατηγοριοποίηση 1 2 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 2 Ο Εργαστήριο WEKA (CLASSIFICATION) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κατηγοριοποίηση Αποτελεί μια από τις βασικές

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΕΙ Δυτικής Μακεδονίας ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ 2015-2016 Τεχνητή Νοημοσύνη Μάθηση από Παρατηρήσεις Διδάσκων: Τσίπουρας Μάρκος Εκπαιδευτικό Υλικό: Τσίπουρας Μάρκος http://ai.uom.gr/aima/ 2 Μορφές μάθησης

Διαβάστε περισσότερα

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών,, τα οποίo είναι υποσύνολο του. Υποστηριζόμενες λειτουργίες αναζήτηση(s,x): εισαγωγή(s,x): διαγραφή(s,x): διάδοχος(s,x): προκάτοχος(s,x):

Διαβάστε περισσότερα

ΗΥ360 Αρχεία και Βάσεις εδοµένων

ΗΥ360 Αρχεία και Βάσεις εδοµένων ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Tutorial B-Trees, B+Trees Μπαριτάκης Παύλος 2018-2019 Ιδιότητες B-trees Χρήση για μείωση των προσπελάσεων στον δίσκο Επέκταση των Binary Search Trees

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης

Διαβάστε περισσότερα

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Κατηγοριοποίηση (Εποπτευόμενη μάθηση)

Κατηγοριοποίηση (Εποπτευόμενη μάθηση) Κατηγοριοποίηση (Εποπτευόμενη μάθηση) Αποθήκες και Εξόρυξη Δεδομένων Διδάσκoυσα: Μαρία Χαλκίδη με βάση slides από J. Han and M. Kamber Data Mining: Concepts and Techniques, 2 nd edition Εποπτευόμενη vs.

Διαβάστε περισσότερα

Διάλεξη 14: Δέντρα IV - B-Δένδρα

Διάλεξη 14: Δέντρα IV - B-Δένδρα ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 14: Δέντρα IV - B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - 2-3 Δένδρα, Εισαγωγή και άλλες πράξεις - Άλλα Δέντρα: Β-δένδρα, Β+-δέντρα,

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.» ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΙΔΙΚΕΥΣΗΣ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Διπλωματική εργασία με θέμα: «Ανάπτυξη υποδείγματος για την αξιολόγηση αυτοκινήτων με

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Ουρές Προτεραιότητας: Υπενθύμιση. Σωροί / Αναδρομή / Ταξινόμηση. Υλοποίηση Σωρού. Σωρός (Εισαγωγή) Ορέστης Τελέλης

Ουρές Προτεραιότητας: Υπενθύμιση. Σωροί / Αναδρομή / Ταξινόμηση. Υλοποίηση Σωρού. Σωρός (Εισαγωγή) Ορέστης Τελέλης Ουρές Προτεραιότητας: Υπενθύμιση Σωροί / Αναδρομή / Ταξινόμηση Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς (Abstract Data Type) με μεθόδους: Μπορεί να υλοποιηθεί με

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Μάθηση με παραδείγματα Δέντρα Απόφασης

Μάθηση με παραδείγματα Δέντρα Απόφασης Μάθηση με παραδείγματα Δέντρα Απόφασης Μορφές μάθησης Επιβλεπόμενη μάθηση (Ταξινόμηση Πρόβλεψη) Παραδείγματα: {(x, t )} t κατηγορία ταξινόμηση t αριθμός πρόβλεψη Μη-επιβλεπόμενη μάθηση (Ομαδοποίηση Μείωση

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η

Διαβάστε περισσότερα

Διάλεξη 17: Δυαδικά Δέντρα. Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Διάλεξη 17: Δυαδικά Δέντρα. Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ Διάλεξη 7: Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Δυαδικά Δένδρα Δυαδικά Δένδρα Αναζήτησης Πράξεις Εισαγωγής, Εύρεσης Στοιχείου, Διαγραφής Μικρότερου Στοιχείου Διδάσκων:

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση Υπολογιστική Νοημοσύνη Μάθημα 9: Γενίκευση Υπερπροσαρμογή (Overfitting) Ένα από τα βασικά προβλήματα που μπορεί να εμφανιστεί κατά την εκπαίδευση νευρωνικών δικτύων είναι αυτό της υπερβολικής εκπαίδευσης.

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 M = 1 N = N prob k N k { k n ω wrongly classfed} = (1 ) N k 2 Η συνάρτηση πιθανοφάνειας L(p) μεγιστοποιείται όταν =k/n. 3 Αφού τα s είναι άγνωστα,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

Σχεδίαση και Ανάλυση Αλγορίθμων

Σχεδίαση και Ανάλυση Αλγορίθμων Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4.0 Επιλογή Αλγόριθμοι Επιλογής Select και Quick-Select Σταύρος Δ. Νικολόπουλος 2016-17 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία

Διαβάστε περισσότερα

Διάλεξη 22: Δυαδικά Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου

Διάλεξη 22: Δυαδικά Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου Διάλεξη 22: Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Δυαδικά Δένδρα - Δυαδικά Δένδρα Αναζήτησης - Πράξεις Εισαγωγής, Εύρεσης Στοιχείου, Διαγραφής Μικρότερου Στοιχείου

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

Πληροφορική 2. Αλγόριθμοι

Πληροφορική 2. Αλγόριθμοι Πληροφορική 2 Αλγόριθμοι 1 2 Τι είναι αλγόριθμος; Αλγόριθμος είναι ένα διατεταγμένο σύνολο από σαφή βήματα το οποίο παράγει κάποιο αποτέλεσμα και τερματίζεται σε πεπερασμένο χρόνο. Ο αλγόριθμος δέχεται

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Διδάσκων: Κωνσταντίνος Κώστα

Διδάσκων: Κωνσταντίνος Κώστα Διάλεξη Ε4: Επανάληψη Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Εισαγωγή σε δενδρικές δομές δεδομένων, Δυαδικά Δένδρα Αναζήτησης Ισοζυγισμένα Δένδρα & 2-3 Δένδρα Διδάσκων: Κωνσταντίνος

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Δέντρα Αναζήτησης Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Το πρόβλημα Αναζήτηση Θέλουμε να διατηρήσουμε αντικείμενα με κλειδιά και να μπορούμε εκτός από

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Δυαδικά Δέντρα 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 18/11/2016 Εισαγωγή Τα

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο Πολλαπλασιασμός μεγάλων ακεραίων (1) Για να πολλαπλασιάσουμε δύο ακεραίους με n 1 και n 2 ψηφία με το χέρι, θα εκτελέσουμε n 1 n 2 πράξεις πολλαπλασιασμού Πρόβλημα ρβημ όταν έχουμε πολλά ψηφία: A = 12345678901357986429

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα Τµήµα Διοίκησης Επιχειρήσεων Τει Δυτικής Ελλάδας Μεσολόγγι Δρ. Α. Στεφανή Διάλεξη 5 2 Εγκυροποίηση Λογισµικού Εγκυροποίηση Λογισµικού

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός

Δυναμικός Κατακερματισμός Δυναμικός Κατακερματισμός Καλό για βάση δεδομένων που μεγαλώνει και συρρικνώνεται σε μέγεθος Επιτρέπει τη δυναμική τροποποίηση της συνάρτησης κατακερματισμού Επεκτάσιμος κατακερματισμός μια μορφή δυναμικού

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Μπιτσάκη Αντωνία-Χρυσάνθη Ταουσάκος Θανάσης

Μπιτσάκη Αντωνία-Χρυσάνθη Ταουσάκος Θανάσης Μπιτσάκη Αντωνία-Χρυσάνθη Ταουσάκος Θανάσης Τι εννοούμε με τον όρο data mining. (ανακάλυψη patterns με τη χρήση διαφορετικών μεθόδων) Το σενάριο με το οποίο θα ασχοληθούμε (2 πλευρές με σκοπό την άντληση

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Κατανεμημένα Συστήματα Ι Εκλογή αρχηγού και κατασκευή BFS δένδρου σε σύγχρονο γενικό δίκτυο Παναγιώτα Παναγοπούλου Περίληψη Εκλογή αρχηγού σε γενικά δίκτυα Ορισμός του προβλήματος Ο αλγόριθμος FloodMax

Διαβάστε περισσότερα

Δυναμικός Προγραμματισμός

Δυναμικός Προγραμματισμός Δυναμικός Προγραμματισμός Επιμέλεια διαφανειών: Δ. Φωτάκης Τροποποιήσεις: Α. Παγουρτζής Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διωνυμικοί Συντελεστές Διωνυμικοί

Διαβάστε περισσότερα

Διάλεξη 04: Παραδείγματα Ανάλυσης

Διάλεξη 04: Παραδείγματα Ανάλυσης Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Παραδείγματα Ανάλυσης Πολυπλοκότητας : Μέθοδοι, παραδείγματα

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής

Διαβάστε περισσότερα

Προγραμματισμός Ι (ΗΥ120)

Προγραμματισμός Ι (ΗΥ120) Προγραμματισμός Ι (ΗΥ120) Διάλεξη 20: Δυαδικό Δέντρο Αναζήτησης Δυαδικό δέντρο Κάθε κόμβος «γονέας» περιέχει δύο δείκτες που δείχνουν σε δύο κόμβους «παιδιά» του ιδίου τύπου. Αν οι δείκτες προς αυτούς

Διαβάστε περισσότερα

Διδάσκων: Παναγιώτης Ανδρέου

Διδάσκων: Παναγιώτης Ανδρέου Διάλεξη 12: Δέντρα ΙΙ -Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Δυαδικά Δένδρα - Δυαδικά Δένδρα Αναζήτησης(ΔΔΑ) - Εύρεση Τυχαίου, Μέγιστου, Μικρότερου στοιχείου - Εισαγωγή

Διαβάστε περισσότερα

Δομές Δεδομένων. Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο. Φυσικό Επίπεδο RAM. Ταξινομημένος.

Δομές Δεδομένων. Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο. Φυσικό Επίπεδο RAM. Ταξινομημένος. Δομές Δεδομένων Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο Φυσικό Επίπεδο RAM Πίνακας 8 10 17 19 22 Ταξινομημένος Πίνακας 5 8 10 12 17 Δένδρο 8 5 10 12 19 17

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 1 Εισαγωγή 1 / 14 Δομές Δεδομένων και Αλγόριθμοι Δομή Δεδομένων Δομή δεδομένων είναι ένα σύνολο αποθηκευμένων

Διαβάστε περισσότερα

ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων

ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων ΕΠΛ31 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων Στην ενότητα

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα