Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006"

Transcript

1 Κατηγοριοποίηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Παραδείγματα Εντοπισμός spam s, με βάση πχ την επικεφαλίδα τους ή το περιεχόμενό τους Πρόβλεψη καρκινικών κυττάρων χαρακτηρίζοντας τα ως καλοήθη ή κακοήθη Κατηγοριοποίηση συναλλαγών με πιστωτικές κάρτες ως νόμιμες ή προϊόν απάτης Κατηγοριοποίηση δευτερευόντων δομών πρωτείνης ως alpha helix, beta sheet, ή random coil Χαρακτηρισμός ειδήσεων ως οικονομικές, αθλητικές, πολιτιστικές, πρόβλεψης καιρού, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 2 Εξόρυξη Δεδομένων

2 10 Ορισμός Σύνολο εγγραφών (x) Κατηγοριοποίηση είναι η διαδικασία εκμάθησης μιας συνάρτησης στόχου (target function) f (μοντέλο) που απεικονίζει κάθε σύνολο γνωρισμάτων x σε μια από τις προκαθορισμένες ετικέτες κλάσεις y. Μοντέλο Κατηγοριοποίησης Ετικέτα κλάσης (y) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 3 Ορισμός Είσοδος (x): συλλογή από εγγραφές Κάθε εγγραφή περιέχει ένα σύνολο από γνωρίσματα/χαρακτηριστικά (attributes) Ένα από τα γνωρίσματα είναι η κλάση/κατηγορία (class) Έξοδος (y): ένα μοντέλο για το γνώρισμα κλάση ως μια συνάρτηση των τιμών των άλλων γνωρισμάτων Tid κατηγορικό Επιστροφή κατηγορικό Οικογενειακή Κατάσταση συνεχές Φορολογητέο Εισόδημα 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Απάτη 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes κλάση Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 4 Εξόρυξη Δεδομένων

3 Εισαγωγή Το μοντέλο κατηγοριοποίησης, χρησιμοποιείται ως: Περιγραφικό μοντέλο (descriptive modeling): ως επεξηγηματικό εργαλείο πχ ποια χαρακτηριστικά κάνουν ένα ζώο να χαρακτηριστεί ως θηλαστικό Μοντέλο πρόβλεψης (predictive modeling): για τη πρόβλεψη της κλάσης άγνωστων εγγραφών πχ δοσμένων των χαρακτηριστικών κάποιου ζώου να προβλέψουμε αν είναι θηλαστικό, πτηνό, ερπετό ή αμφίβιο Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 5 Ορισμός Συνήθως το σύνολο δεδομένων εισόδου χωρίζεται σε: ένα σύνολο εκπαίδευσης (training set) και ένα σύνολο ελέγχου (test test) Το σύνολο εκπαίδευσης χρησιμοποιείται για να κατασκευαστεί το μοντέλο, ενώ το σύνολο ελέγχου γιανατηνεπικύρωση του μοντέλου. Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 6 Εξόρυξη Δεδομένων

4 10 10 Εισαγωγή Θεωρούμε ότι τιμή (ετικέτα) της κλάσης (γνώρισμα y) είναι διακριτή τιμή Αν όχι, regression (οπισθοδρόμηση) όπου το γνώρισμα y παίρνει συνεχείς τιμές Κατάλληλη κυρίως για: δυαδικές κατηγορίες ή κατηγορίες για τις οποίες δεν υπάρχει διάταξη [διακριτές (nominal) vs διατεταγμένες (ordinal)] για μη ιεραρχικές κατηγορίες Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 7 Βήματα Κατηγοριοποίησης Εισαγωγή 1. Κατασκευή Μοντέλου Χρησιμοποιώντας το σύνολο εκπαίδευσης (στις εγγραφές του το γνώρισμα της κλάσης είναι προκαθορισμένο) Το μοντέλο μπορεί να είναι ένα δέντρο απόφασης, κανόνες, μαθηματικοί τύποι κλπ 2. Εφαρμογή Μοντέλου για την κατηγοριοποίηση μελλοντικών ή άγνωστων αντικειμένων Εκτίμηση της ακρίβειας του μοντέλου με χρήση συνόλου ελέγχου Ρυθμός ακρίβειας: το ποσοστό των εγγραφών του συνόλου ελέγχου που ταξινομούνται σωστά από το μοντέλο Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Σύνολο Εκπαίδευσης Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Σύνολο Ελέγχου Επαγωγή Induction Συμπέρασμα Deduction Αλγόριθμος Μάθησης Κατασκευή Μοντέλου Εφαρμογή Μοντέλου Χαρακτηριστικά Μοντέλου Ταιριάζει δεδομένα εκπαίδευσης Προβλέπει την κλάση των δεδομένων ελέγχου Καλή δυνατότητα γενίκευσης Μοντέλο Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 8 Εξόρυξη Δεδομένων

5 Προεπεξεργασία 1. Καθαρισμός Δεδομένων (data cleaning) Προεπεξεργασία δεδομένων και χειρισμός τιμών που λείπουν (πχ τις αγνοούμε ή τις αντικαθιστούμε με ειδικές τιμές) 2. Ανάλυση Σχετικότητας (Relevance analysis) (επιλογή χαρακτηριστικών (γνωρισμάτων) feature selection) Απομάκρυνση των μη σχετικών ή περιττών γνωρισμάτων 3. Μετασχηματισμοί Δεδομένων (Data transformation) Κανονικοποίηση ή/και Γενίκευση Πιθανών αριθμητικά γνωρίσματα κατηγορικά {low, medium, high} Κανονικοποίηση αριθμητικών δεδομένων στο [0,1) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 9 Εκτίμηση Μεθόδων Κατηγοριοποίησης Πόσο καλός είναι ο κατηγοριοποιητής Προβλεπόμενη ακρίβεια Predictive accuracy Ταχύτητα (speed) Χρόνος κατασκευής του μοντέλου Χρόνος χρήσης/εφαρμογής του μοντέλου Robustness Χειρισμός θορύβου και τιμών που λείπουν Κλιμάκωση Scalability Αποδοτικότητα σε βάσεις δεδομένων αποθηκευμένες στο δίσκο Ευκρίνεια Interpretability: Πόσο κατανοητό είναι το μοντέλο και τι νέα πληροφορία προσφέρει Ποιότητα Goodness of rules (quality) Πχ μέγεθος του δέντρου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 10 Εξόρυξη Δεδομένων

6 Ορισμός Τεχνικές κατηγοριοποίησης βασισμένες σε Δέντρα Απόφασης (decision trees) Κανόνες (Rule based Methods) Αλγόριθμοι Κοντινότερου Γείτονα Memory based reasoning Νευρωνικά Δίκτυα Naïve Bayes και Bayesian Belief Δίκτυα Support Vector Machines Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 11 έντρα Απόφασης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 12 Εξόρυξη Δεδομένων

7 10 Δέντρο Απόφασης Μοντέλο = Δέντρο Απόφασης Εσωτερικοί κόμβοι αντιστοιχούν σε κάποιο γνώρισμα Διαχωρισμός (split) ενός κόμβου σε παιδιά ηετικέταστηνακμή= συνθήκη/έλεγχος Φύλλα αντιστοιχούν σε κλάσεις Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 13 Δεδομένα Εκπαίδευσης Δέντρο Απόφασης: Παράδειγμα κατηγορικό Tid Refund Marital Status κατηγορικό Taxable Income συνεχές 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes κλάση Ετικέτα = συνθήκη Yes Φύλλα στα οποία αντιστοιχεί μια (ετικέτα) κλάσης Ρίζα Refund TaxInc No Single, Divorced MarSt < 80K > 80K Γνωρίσματα Διαχωρισμού Splitting Attributes YES Married Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 14 Εξόρυξη Δεδομένων

8 Δέντρο Απόφασης: Βήματα Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Σύνολο Εκπαίδευσης Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Σύνολο Ελέγχου Επαγωγή Συμπέρασμα Αλγόριθμος Επαγωγής Δέντρου Μάθηση Μοντέλου Εφαρμογή Μοντέλου μοντέλο Δέντρο Απόφασης Αφού κατασκευαστεί το δέντρο, η εφαρμογή (χρήση) του στην κατηγοριοποίηση νέων εγγραφών είναι απλή > διαπέραση από τη ρίζα στα φύλλα του Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 15 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Ξεκίνα από τη ρίζα του δέντρου. εδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 16 Εξόρυξη Δεδομένων

9 10 10 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Δεδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 17 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Δεδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 18 Εξόρυξη Δεδομένων

10 10 10 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Δεδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 19 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Δεδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 20 Εξόρυξη Δεδομένων

11 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Δεδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married Ανάθεση στο Cheat No TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 21 Δέντρο Απόφασης: Βήματα Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Σύνολο Εκπαίδευσης Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Σύνολο Ελέγχου Επαγωγή Συμπέρασμα Αλγόριθμος Επαγωγής Δέντρου Μάθηση Μοντέλου Εφαρμογή Μοντέλου Model Δέντρο Απόφασης Στη συνέχεια, θα δούμε αλγόριθμους για την κατασκευή του δέντρου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 22 Εξόρυξη Δεδομένων

12 10 Δέντρο Απόφασης Θα δούμε στη συνέχεια αλγορίθμους για την κατασκευή του (βήμα επαγωγής) Κατασκευή του δέντρου (με λίγα λόγια): 1. Ξεκίνα με έναν κόμβο που περιέχει όλες τις εγγραφές 2. Διάσπαση του κόμβου (μοίρασμα των εγγραφών) με βάση μια συνθήκη διαχωρισμού σε κάποιο από τα γνωρίσματα 3. Αναδρομική κλήση του βήματος 2 σε κάθε κόμβο 4. Αφού κατασκευαστεί το δέντρο, κάποιες βελτιστοποιήσεις (tree pruning) (top down, recursive, divide and conquer προσέγγιση) Το βασικό θέμα είναι Ποιο γνώρισμα συνθήκη διαχωρισμού να χρησιμοποιήσουμε για τη διάσπαση των εγγραφών κάθε κόμβου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 23 Tid Refund Marital Status Taxable Income Cheat Δέντρο Απόφασης: Παράδειγμα 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Yes Refund TaxInc Για το ίδιο σύνολο εκπαίδευσης υπάρχουν διαφορετικά δέντρα No Single, Divorced MarSt < 80K > 80K Married MarSt Yes Single, Divorced Refund < 80K No TaxInc > 80K YES YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 24 Εξόρυξη Δεδομένων

13 Δέντρο Απόφασης: Κατασκευή Ο αριθμός των πιθανών Δέντρων Απόφασης είναι εκθετικός. Πολλοί αλγόριθμοι για την επαγωγή (induction) του δέντρου οι οποίοι ακολουθούν μια greedy στρατηγική: γιανακτίσουντοδέντροαπόφασης παίρνοντας μια σειρά από τοπικά βέλτιστες αποφάσεις Hunt s Algorithm (από τους πρώτους) CART ID3, C4.5 SLIQ, SPRINT Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 25 έντρο Απόφασης: Αλγόριθμος του Hunt Κτίζει το δέντρο αναδρομικά, αρχικά όλες οι εγγραφές σε έναν κόμβο (ρίζα) D t : το σύνολο των εγγραφών εκπαίδευσης που έχουν φτάσει στον κόμβο t Γενική Διαδικασία (αναδρομικά σε κάθε κόμβο) Αν το D t περιέχει εγγραφές που ανήκουνστηνίδιακλάσηy t, τότε ο κόμβος t είναι κόμβος φύλλο με ετικέτα y t? D t Αν D t είναι το κενό σύνολο (αυτό σημαίνει ότι δεν υπάρχει εγγραφή στο σύνολο εκπαίδευσης με αυτό το συνδυασμό τιμών), τότε D t γίνεται φύλλο με κλάση αυτή της πλειοψηφίας των εγγραφών εκπαίδευσης ή ανάθεση κάποιας default κλάσης Αν το D t περιέχει εγγραφές που ανήκουν σε περισσότερες από μία κλάσεις, τότε χρησιμοποίησε έναν έλεγχο γνωρίσματος για το διαχωρισμό των δεδομένων σε μικρότερα υποσύνολα Σημείωση: ο διαχωρισμός δεν είναι δυνατός αν όλες οι εγγραφές έχουν τις ίδιες τιμές σε όλα τα γνωρίσματα (δηλαδή, ο ίδιος συνδυασμός αντιστοιχεί σε περισσότερες από μία κλάσεις) τότε φύλλο με κλάση αυτής της πλειοψηφίας των εγγραφών εκπαίδευσης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 26 Εξόρυξη Δεδομένων

14 10 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no κλάση <=30 income student credit_rating buys_computer high no fair no high no excellent no medium no fair no low yes fair yes medium yes excellent yes Δέντρο Απόφασης Παράδειγμα Ποιο γνώρισμα (πχ age) Ποια συνθήκη age? >40 income student credit_rating buys_computer medium no fair yes low yes fair yes low yes excellent no medium yes fair yes medium no excellent no income student credit_rating buys_computer high no fair yes low yes excellent yes medium no excellent yes high yes fair yes φύλλο με ετικέτα yes Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 27 Don t Cheat Yes Refund Don t Cheat Single, Divorced Cheat Yes Don t Cheat No Marital Status Refund Married Don t Cheat Δέντρο Απόφασης: Αλγόριθμος του Hunt No Don t Cheat Παράδειγμα Yes Refund Don t Cheat Single, Divorced Taxable Income No Marital Status < 80K >= 80K Married Don t Cheat Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Don t Cheat Cheat Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 28 Εξόρυξη Δεδομένων

15 Δέντρο Απόφασης: Κατασκευή Δέντρου Πως θα γίνει ο διαχωρισμός του κόμβου; Greedy στρατηγική Διαχωρισμός εγγραφών με βάση έναν έλεγχο στις τιμές του γνωρίσματος που βελτιστοποιεί ένα συγκεκριμένο κριτήριο Θέματα Καθορισμόςτουτρόπουδιαχωρισμούτωνεγγραφών Ποιο γνώρισμα Ποια συνθήκη Ποιος είναι ο βέλτιστος διαχωρισμός Πότε θα σταματήσει ο διαχωρισμός (συνθήκη τερματισμού) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 29 Δέντρο Απόφασης: Κατασκευή Δέντρου Ας δούμε πρώτα πιθανές συνθήκες ελέγχου για τα γνωρίσματα Εξαρτάται από τον τύπο των γνωρισμάτων Διακριτές Nominal Διατεταγμένες (τακτικές) Ordinal Συνεχείς Continuous Είδη διαχωρισμού: Δυαδικός διαχωρισμός 2 way split Πολλαπλός διαχωρισμός Multi way split Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 30 Εξόρυξη Δεδομένων

16 Δέντρο Απόφασης: Κατασκευή Δέντρου Διαχωρισμός βασισμένος σε διακριτές τιμές Πολλαπλός διαχωρισμός: Χρησιμοποίησε τόσες διασπάσεις όσες οι διαφορετικές τιμές CarType Family Sports Luxury Δυαδικός Διαχωρισμός: Χωρίζει τις τιμές σε δύο υποσύνολα. Πρέπει να βρει το βέλτιστο διαχωρισμό (partitioning). {Sports, Luxury} CarType {Family} {Family, Luxury} CarType {Sports} Γενικά, αν κ τιμές, 2 κ-1 1 τρόποι Όταν υπάρχει διάταξη, πρέπει οι διασπάσεις να μη την παραβιάζουν Αυτός ο διαχωρισμός; {Small, Large} Size {Medium} Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 31 Δέντρο Απόφασης: Κατασκευή Δέντρου Διαχωρισμός βασισμένος σε συνεχείς τιμές Taxable Income > 80K? Taxable Income? < 10K > 80K Yes No [10K,25K) [25K,50K) [50K,80K) Δυαδικός διαχωρισμός Πολλαπλός διαχωρισμός Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 32 Εξόρυξη Δεδομένων

17 10 Δέντρο Απόφασης: Κατασκευή Δέντρου Τρόποι χειρισμού Διαχωρισμός βασισμένος σε συνεχείς τιμές Discretization (διακριτοποίηση) ώστε να προκύψει ένα διατεταγμένο κατηγορικό γνώρισμα Ταξινόμηση των τιμών και χωρισμός τους σε περιοχές καθορίζοντας n 1 σημεία διαχωρισμού, απεικόνιση όλων των τιμών μιας περιοχής στην ίδια κατηγορική τιμή Στατικό μιαφοράστηναρχή Δυναμικό εύρεση των περιοχών πχ έτσι ώστε οι περιοχές να έχουν το ίδιο διάστημα ή τις ίδιες συχνότητες εμφάνισης ή με χρήση συσταδοποίησης Δυαδική Απόφαση: (A < v) or (A v) εξετάζει όλους τους δυνατούς διαχωρισμούς (τιμές του v) και επιλέγει τον καλύτερο υπολογιστικά βαρύ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 33 Δέντρο Απόφασης: Κατασκευή Δέντρου Συνεχή Γνωρίσματα (δυαδικός διαχωρισμός αναλυτικά) Πχ, χρήση δυαδικών αποφάσεων πάνω σε μία τιμή Πολλές επιλογές για την τιμή διαχωρισμού Αριθμός πιθανών διαχωρισμών = Αριθμός διαφορετικών τιμών έστω Ν Κάθε τιμή διαχωρισμού v συσχετίζεται με έναν πίνακα μετρητών Μετρητές των κλάσεων για κάθε μια από τις δύο διασπάσεις, A < v and A v Απλή μέθοδος για την επιλογή της καλύτερης τιμής v (βέλτιστη τιμή διαχωρισμού best split point) Διάταξε τις τιμές του A σε αύξουσα διάταξη Συνήθωςεπιλέγεταιτομεσαίοσημείοανάμεσα σε γειτονικές τιμές ας υποψήφιο (a i +a i+1 )/2 μέσο των τιμών a i και a i+1 Επέλεξε το «βέλτιστο» ανάμεσα στα υποψήφια Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Taxable Income > 80K? Yes No Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 34 Εξόρυξη Δεδομένων

18 Δέντρο Απόφασης: Κατασκευή Δέντρου Greedy στρατηγική. Διάσπαση εγγραφών με βάση έναν έλεγχο γνωρίσματος που βελτιστοποιεί ένα συγκεκριμένο κριτήριο Θέματα Καθορισμός του τρόπου διαχωρισμού των εγγραφών Καθορισμός του ελέγχου γνωρίσματος Καθορισμός του βέλτιστου διαχωρισμού Πότε θα σταματήσει ο διαχωρισμός (συνθήκη τερματισμού) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 35 Δέντρο Απόφασης: Κατασκευή Δέντρου Βέλτιστος Διαχωρισμός Έστω ότι πριν το διαχωρισμό: 10 εγγραφές της κλάσης 0, 10 εγγραφές της κλάσης 1 Own Car? Car Type? Student ID? Yes No Family c 20 Luxury c 1 c 10 Sports c 11 C0: 6 C1: 4 C0: 4 C1: 6 C0: 1 C1: 3 C0: 8 C1: 0 C0: 1 C1: 7 C0: 1 C1: 0... C0: 1 C1: 0 C0: 0 C1: 1... C0: 0 C1: 1 Ποια από τις 3 διασπάσεις να προτιμήσουμε; (Δηλαδή, ποια συνθήκη ελέγχου είναι καλύτερη;) => ορισμός κριτηρίου βέλτιστου διαχωρισμού Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 36 Εξόρυξη Δεδομένων

19 Δέντρο Απόφασης: Κατασκευή Δέντρου Σε κάθε επίπεδο, πολλές διαφορετικές δυνατότητες για την διάσπαση. Ποια θα επιλέξουμε; Ορίζουμε ένα κριτήριο για την «ποιότητα» ενός κόμβου Διαισθητικά, προτιμώνται οι κόμβοι με ομοιογενείς κατανομές κλάσεων (homogeneous class distribution) ιδανικά, όλες οι εγγραφές στην ίδια κλάση Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 37 Δέντρο Απόφασης: Κατασκευή Δέντρου Βέλτιστος Διαχωρισμός Χρειαζόμαστε μία μέτρηση της μη καθαρότητας ενός κόμβου (node impurity) «Καλός» κόμβος!! C0: 5 C1: 5 Μη-ομοιογενής, Μεγάλος βαθμός μη καθαρότητας C0: 9 C1: 1 Ομοιογενής, Μικρός βαθμός μη καθαρότητας v1 C1 0 C2 6 Μη καθαρότητα ~ 0 v2 C1 1 C2 5 ενδιάμεση v3 C1 2 C2 4 ενδιάμεση αλλά μεγαλύτερη v4 C1 3 C2 3 Μεγάλη μη καθαρότητα Ι(v1) < Ι(v2) < I(v3) < I(v4) Θα δούμε 3 διαφορετικούς ορισμούς για την ποιότητα Ι(v) ενός κόμβου v στη συνέχεια Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 38 Εξόρυξη Δεδομένων

20 Δέντρο Απόφασης: Κατασκευή Δέντρου Σε κάθε επίπεδο, πολλές διαφορετικές δυνατότητες για την διάσπαση. Ποια θα επιλέξουμε; Έστω μια διάσπαση ενός κόμβου (parent) με N εγγραφές σε k παιδιά u i Έστω N(u i ) ο αριθμός εγγραφών κάθε παιδιού ( Ν(u i ) = N) Κοιτάμε το κέρδος, δηλαδή τη διαφορά μεταξύ της ποιότητας του γονέα (πριν τη διάσπαση) και το «μέσο όρο» της ποιότητας ων παιδιών του (μετά τη διάσπαση) Δ = I( parent) k i= 1 N( u ) N i I( u ) i Βάρος (εξαρτάται από τον αριθμό εγγραφών) Διαλέγουμε τη διάσπαση με το μεγαλύτερο κέρδος (μεγαλύτερο Δ) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 39 Παράδειγμα Δέντρο Απόφασης: Κατασκευή Πριν τη διάσπαση: C0 C1 N00 N01 M0 A? B? Yes No Yes No Node v1 Node v2 Node v3 Node v4 C0 C1 N10 N11 C0 C1 N20 N21 C0 C1 N30 N31 C0 C1 N40 N41 M1 M2 M3 M4 M12 Gain (κέρδος) = M0 M12 vs M0 M34 M34 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 40 Εξόρυξη Δεδομένων

21 Δέντρο Απόφασης: Αλγόριθμος του Hunt Ψευδό-κώδικας Algorithm GenDecTree(Sample S, Attlist A) 1. create a node N 2. If all samples are of the same class C then label N with C; terminate; 3. If A is empty then label N with the most common class C in S (majority voting); terminate; 4. Select a A, with the highest gain; Label N with a; 5. For each value v of a: a. Grow a branch from N with condition a=v; b. Let S v be the subset of samples in S with a=v; c. If S v is empty then attach a leaf labeled with the most common class in S; d. Else attach the node generated by GenDecTree(S v, A-a) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 41 Δέντρο Απόφασης: Κατασκευή Δέντρου Μέτρα μη Καθαρότητας 1. Ευρετήριο Gini (Gini Index) 2. Εντροπία (Entropy) 3. Λάθος ταξινομήσεις (Misclassification error) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 42 Εξόρυξη Δεδομένων

22 Δέντρο Απόφασης: GINI Ευρετήριο Gini για τον κόμβο t : GINI( t) = 1 c j= 1 [ p( j t)] 2 Παραδείγματα: v1 v2 v3 v4 C1 1 C1 2 C2 5 C2 4 C1 0 C2 6 Gini=0.000 p(j t) σχετική συχνότητα της κλάσης j στον κόμβο t (ποσοστό εγγραφών της κλάσης j στον κόμβο t) c αριθμός κλάσεων Gini=0.278 Gini=0.444 C1 3 C2 3 Gini=0.500 Ελάχιστη τιμή (0.0) ότανόλεςοιεγγραφέςανήκουνσεμίακλάση Μέγιστη τιμή (1 1/c) όταν όλες οι εγγραφές είναι ομοιόμορφα κατανεμημένες στις κλάσεις εξαρτάται από τον αριθμό των κλάσεων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 43 Δέντρο Απόφασης: GINI Χρήση του στην κατασκευή του δέντρου απόφασης Χρησιμοποιείται στα CART, SLIQ, SPRINT. Όταν ένας κόμβος p διασπάται σε k κόμβους (παιδιά), (που σημαίνει ότι το σύνολο των εγγραφών του κόμβου χωρίζεται σε k υποσύνολα), η ποιότητα του διαχωρισμού υπολογίζεται ως: GINI split = k i= 1 ni n GINI ( i) όπου,n i = αριθμός εγγραφών του παιδιού i, n= αριθμός εγγραφών του κόμβου p. Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 44 Εξόρυξη Δεδομένων

23 Παράδειγμα Εφαρμογής Δέντρο Απόφασης: GINI Περίπτωση 1: Δυαδικά Γνωρίσματα C1 4 C2 3 A? Yes Node v1 C1 6 C2 6 No Node v2 C1 2 C2 3 Αρχικός κόμβος Parent C1 6 C2 6 Gini = v1 v2 C1 4 2 C2 3 3 Gini=0.486 Gini(v1) = 1 (4/7) 2 (3/7) 2 = 0.49 Gini(v2) = 1 (2/5) 2 (3/5) 2 = 0.48 Κέρδος Δ = Gini(Children) = 7/12 * /12 * 0.48 = Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 45 Παράδειγμα (συνέχεια) Δέντρο Απόφασης: GINI Yes B? C1 6 C2 6 Parent C1 6 C2 6 Gini = No Υπενθύμιση: με βάση το Α v1 v2 C1 4 2 C2 3 3 Gini=0.486 C1 5 C2 2 Node v1 Node v2 C1 1 C2 4 v1 v2 C1 5 1 C2 2 4 Gini=0.371 Gini(v1) = 1 (5/7) 2 (2/7) 2 = Gini(v2) = 1 (1/5) 2 (4/5) 2 = 0.32 Κέρδος Δ = Gini(Children) = 7/12 * /12 * 0.32 = Άρα διαλέγουμε το Β Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 46 Εξόρυξη Δεδομένων

24 Δέντρο Απόφασης: GINI Περίπτωση 2: Κατηγορικά Γνωρίσματα Για κάθε διαφορετική τιμή, μέτρησε τις τιμές στα δεδομένα που ανήκουν σε κάθε κλάση Χρησιμοποίησε τον πίνακα με τους μετρητές για να πάρεις την απόφαση Δυαδική διάσπαση (βρες τον καλύτερο διαχωρισμό των τιμών) {Family, Luxury} CarType {Sports} {Sports, Luxury} CarType CarType {Sports, {Family} Luxury} {Family} C1 9 1 C2 7 3 Gini CarType {Sports} {Family, Luxury} C1 8 2 C Gini Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 47 Δέντρο Απόφασης: GINI Περίπτωση 2: Κατηγορικά Γνωρίσματα CarType Family Luxury Sports Πολλαπλή Διάσπαση CarType Family Sports Luxury C C Gini Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 48 Εξόρυξη Δεδομένων

25 10 Δέντρο Απόφασης: GINI Παράδειγμα Κλάση ageclass income P: buys_computer student = yes credit_rating <=30Class high N: buys_computer no = no fair buys_computer no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no Αρχικό Gini για αυτόν τον κόμβο: gini( D) = = Έστω ότι το διασπάμε με βάση το income Πρέπει να θεωρήσουμε όλες τις δυνατές διασπάσεις Έστω μόνο δυαδικές D1: {low, medium} και D2 {high} D3: {low} και D4 {medium, high} Αν πολλαπλές διασπάσεις, πρέπει να θεωρήσουμε και άλλες διασπάσεις Με τον ίδιο τρόπο εξετάζουμε και πιθανές διασπάσεις με βάση τα άλλα τρία γνωρίσματα (δηλαδή, age, student, credit_rating) και διαλέγουμε την καλύτερη Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 49 Συνεχή Γνωρίσματα Δέντρο Απόφασης: GINI Χρήση δυαδικού διαχωρισμού πάνω σε μία τιμή Πολλές επιλογές για την τιμή διαχωρισμού Αριθμός πιθανών διαχωρισμών = Αριθμός διαφορετικών τιμών έστω Ν Κάθε τιμή διαχωρισμού v συσχετίζεται με έναν πίνακα μετρητών Μετρητές των κλάσεων για κάθε μια από τις δύο διασπάσεις, A < v and A v Απλή μέθοδος για την επιλογή της καλύτερης τιμής v Για κάθε διαφορετική τιμή v, scan τα δεδομένα, κατασκεύασε τον πίνακα και υπολόγισε το Gini ευρετήριο χρόνος Ο(Ν) Άρα για Ν τιμές, Ο(Ν 2 ) > Υπολογιστικά μη αποδοτικό! Επανάληψη υπολογισμού. Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Taxable Income > 80K? Yes No Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 50 Εξόρυξη Δεδομένων

26 10 Δέντρο Απόφασης: GINI Για ποιο αποδοτικό υπολογισμό, για κάθε γνώρισμα Ταξινόμησε το γνώρισμα Ο(Ν logn) Σειριακή διάσχιση των τιμών, ενημερώνοντας κάθε φορά τον πίνακα με τους μετρητές και υπολογίζοντας το ευρετήριο Gini Επιλογή του διαχωρισμού με το μικρότερο ευρετήριο Gini Παράδειγμα Διαχωρισμός στο γνώρισμα Income Cheat No No No Yes Yes Yes No No No No Taxable Income Ταξινόμηση Τιμών Τιμές διαχωρισμού <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > Yes No Gini Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 51 Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Για <55, δεν υπάρχει εγγραφή οπότε 0 Για <65, κοιτάμε το μικρότερο το 60, 0 >1, 7 >6 YES δεν αλλάζει Για <72, κοιτάμε το μικρότερο το 70, ΝΟ 1 >2 6 >5, YES δεν αλλάζει κοκ Καλύτερα; Αγνοούμε τα σημεία στα οποία δεν υπάρχει αλλαγή κλάσης (αυτά δε μπορεί να είναι σημεία διαχωρισμού) Άρα, στο παράδειγμα, αγνοούνται τα σημεία 55, 65, 72, 87, 92, 122, 172, 230 Από 11 πιθανά σημεία διαχωρισμού μας μένουν μόνο 2 Ταξινομημένες Τιμές Τιμές Διαχωρισμού Cheat No No No Yes Yes Yes No No No No Taxable Income <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > Yes No Gini Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 52 Εξόρυξη Δεδομένων

27 Δέντρο Απόφασης: Κατασκευή Δέντρου Μέτρα μη Καθαρότητας 1. Ευρετήριο Gini Gini Index 2. Εντροπία Entropy 3. Λάθος ταξινομήσεις Misclassification error Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 53 Εντροπία για τον κόμβο t : Δέντρο Απόφασης: Εντροπία Entropy( t) = c j= 1 p( j t)log p( j t) 2 p(j t) σχετική συχνότητα της κλάσης j στον κόμβο t c αριθμός κλάσεων v1 v2 v3 v4 C1 0 C2 6 Entropy=0.000 C1 1 C2 5 Entropy=0.650 C1 2 C2 4 Entropy = 0.92 C1 3 C2 3 Entropy = Gini = Gini = Gini = Gini = Μετράει την ομοιογένεια ενός κόμβου Μέγιστη τιμή log(c) όταν όλες οι εγγραφές είναι ομοιόμορφα κατανεμημένες στις κλάσεις (που σημαίνει τη λιγότερο ενδιαφέρουσα πληροφορία) Ελάχιστη τιμή (0.0) όταν όλες οι εγγραφές ανήκουν σε μία κλάση (που σημαίνει την πιο ενδιαφέρουσα πληροφορία) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 54 Εξόρυξη Δεδομένων

28 Δέντρο Απόφασης: Εντροπία Παραδείγματα Entropy t) p( j t)log p( j t) ( 2 = j C1 0 C2 6 P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Entropy = 0 log 0 1 log 1 = 0 0 = 0 C1 1 C2 5 P(C1) = 1/6 P(C2) = 5/6 Entropy = (1/6) log 2 (1/6) (5/6) log 2 (5/6) = 0.65 C1 2 C2 4 P(C1) = 2/6 P(C2) = 4/6 Entropy = (2/6) log 2 (2/6) (4/6) log 2 (4/6) = 0.92 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 55 Δέντρο Απόφασης: Εντροπία Και σε αυτήν την περίπτωση, όταν ένας κόμβος p διασπάται σε k σύνολα (παιδιά), η ποιότητα του διαχωρισμού υπολογίζεται ως: GAIN split k = Entropy( p) i= 1 n i Entropy( i) n όπου, n i = αριθμός εγγραφών του παιδιού i, n= αριθμός εγγραφών του κόμβου p. Χρησιμοποιείται στα ID3 and C4.5 Όταν χρησιμοποιούμε την εντροπία για τη μέτρηση της μη καθαρότητας τότε η διαφορά καλείται κέρδος πληροφορίας (information gain) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 56 Εξόρυξη Δεδομένων

29 Δέντρο Απόφασης: Κέρδος Πληροφορίας Παράδειγμα Κλάση age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no age p i n i I(p i, n i ) <= > Info( D) = I(9,5) = log ( ) log2( ) Info age ( D) = + 2 = I (2,3) I (3,2) = Gain( income) = Gain( student) = Gain( credit _ rating) = I (4,0) Gain( age) = Info( D) Info ( D) = age Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 57 Δέντρο Απόφασης Δ = I( parent) k i= 1 N( u ) N i I( u ) i Τείνει να ευνοεί διαχωρισμούς που καταλήγουν σε μεγάλο αριθμό από διασπάσεις που η κάθε μία είναι μικρή αλλά καθαρή Own Car? Car Type? Student ID? Yes No Family Sports C0: 6 C1: 4 C0: 4 C1: 6 C0: 1 C1: 3 C0: 8 C1: 0 Luxury c 1 c 20 c 10 c 11 C0: 1 C1: 7 C0: 1 C1: 0... C0: 1 C1: 0 C0: 0 C1: 1... C0: 0 C1: 1 Μπορεί να καταλήξουμε σε πολύ μικρούς κόμβους (με πολύ λίγες εγγραφές) για αξιόπιστες προβλέψεις Στο παράδειγμα, το student id είναι κλειδί, όχι χρήσιμο για προβλέψεις Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 58 Εξόρυξη Δεδομένων

30 Δέντρο Απόφασης: Λόγος Κέρδους Μία λύση είναι να έχουμε μόνο δυαδικές διασπάσεις Εναλλακτικά, μπορούμε να λάβουμε υπό όψιν μας τον αριθμό των κόμβων GainRATIO split GAIN Split = SplitINFO Δηλαδή διαιρούμε με μια ποσότητα που εξαρτάται από τον αριθμό των κόμβων Όπου: SplitINFO = k i= 1 ni n log ni n SplitINFO: εντροπία της διάσπασης Μεγάλος αριθμός μικρών διασπάσεων (υψηλή εντροπία) τιμωρείται Χρησιμοποιείται στο C4.5 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 59 Δέντρο Απόφασης: Λόγος Κέρδους GainRATIO split GAIN Split = SplitINFO SplitINFO = k i= 1 ni n log ni n Παράδειγμα Έστω N εγγραφές αν τις χωρίσουμε Σε 3 («ίσους») κόμβους SplitINFO = log(1/3) = log3 Σε 2 («ίσους») κόμβους SplitINFO = log(1/2) = log2 = 1 Άρα οι 2 ευνοούνται Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 60 Εξόρυξη Δεδομένων

31 Δέντρο Απόφασης: Εντροπία Και τα τρία μέτρα επιστρέφουν καλά αποτελέσματα Κέρδος Πληροφορίας (εντροπία): Δουλεύει καλύτερα σε γνωρίσματα με πολλαπλές τιμές Λόγος Κέρδους: Τείνει να ευνοεί διαχωρισμούς όπου μία διαμέριση είναι πολύ μικρότερη από τις υπόλοιπες Ευρετήριο Gini: Δουλεύει καλύτερα σε γνωρίσματα με πολλαπλές τιμές Δε δουλεύει τόσο καλά όταν ο αριθμός των κλάσεων είναι μεγάλος Τείνει να ευνοεί ελέγχους που οδηγούν σε ισομεγέθεις διαμερίσεις που και οι δύο είναι καθαρές Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 61 Δέντρο Απόφασης: Κατασκευή Δέντρου Μέτρα μη Καθαρότητας 1. Ευρετήριο Gini Gini Index 2. Εντροπία Entropy 3. Λάθος ταξινομήσεις Misclassification error Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 62 Εξόρυξη Δεδομένων

32 Λάθος ταξινόμησης (classification error) για τον κόμβο t : Μετράει το λάθος ενός κόμβου Δέντρο Απόφασης: Λάθος Ταξινόμησης Error( t) = 1 max P( i t) class i C1 0 C2 6 C1 1 C2 5 Παράδειγμα Όσες ταξινομούνται σωστά Υπενθύμιση: στις εγγραφές P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 ενός κόμβου ανατίθεται η Error = 1 max (0, 1) = 1 1 = 0 κλάση της πλειοψηφίας, (max p(i t)), όλα τα άλλα (1 max) ταξινομούνται λάθος P(C1) = 1/6 P(C2) = 5/6 Error = 1 max (1/6, 5/6) = 1 5/6 = 1/6 C1 2 C2 4 P(C1) = 2/6 P(C2) = 4/6 Error = 1 max (2/6, 4/6) = 1 4/6 = 1/3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 63 Δέντρο Απόφασης: Λάθος Ταξινόμησης Λάθος ταξινόμησης (classification error) για τον κόμβο t : Error( t) = 1 max P( i t) class i Μετράει το λάθος ενός κόμβου Μέγιστη τιμή 1 1/c όταν όλες οι εγγραφές είναι ομοιόμορφα κατανεμημένες στις κλάσεις (που σημαίνει τη λιγότερο ενδιαφέρουσα πληροφορία) Ελάχιστη τιμή (0.0) όταν όλες οι εγγραφές ανήκουν σε μία κλάση (που σημαίνει την πιο ενδιαφέρουσα πληροφορία) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 64 Εξόρυξη Δεδομένων

33 Δέντρο Απόφασης: Σύγκριση Για ένα πρόβλημα δύο κλάσεων p ποσοστό εγγραφών που ανήκει σε μία από τις δύο κλάσεις (p κλάση +, 1 p κλάση ) Όλες την μεγαλύτερη τιμή για 0.5 (ομοιόμορφη κατανομή) Όλες μικρότερη τιμή όταν όλες οι εγγραφές σε μία μόνο κλάση (0 και στο 1) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 65 Δέντρο Απόφασης: Σύγκριση Όπως είδαμε και στα παραδείγματα οι τρεις μετρήσεις είναι συνεπής μεταξύ τους, πχ v1 μικρότερη τιμή από το v2 και με τις τρεις μετρήσεις Ωστόσο το γνώρισμα που θα επιλεγεί για τη συνθήκη ελέγχου εξαρτάται από το ποια μέτρηση χρησιμοποιείται v1 v2 v3 v4 C1 0 C2 6 Error=0.000 C1 1 C2 5 Error=0.167 C1 2 C2 4 Error = C1 3 C2 3 Error = Gini = Gini = Gini = Gini = Entropy = Entropy = Entropy = Entropy = Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 66 Εξόρυξη Δεδομένων

34 Δέντρο Απόφασης: Αλγόριθμος του Hunt Ψευδό κώδικας (πάλι) Algorithm GenDecTree(Sample S, Attlist A) 1. create a node N 2. If all samples are of the same class C then label N with C; terminate; 3. If A is empty then label N with the most common class C in S (majority voting); terminate; 4. Select a A, with the highest information gain (gini, error); Label N with a; 5. For each value v of a: a. Grow a branch from N with condition a=v; b. Let S v be the subset of samples in S with a=v; c. If S v is empty then attach a leaf labeled with the most common class in S; d. Else attach the node generated by GenDecTree(S v, A-a) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 67 Δέντρο Απόφασης: Κατασκευή Δέντρου Greedy στρατηγική. Διάσπαση εγγραφών με βάση έναν έλεγχο γνωρίσματος που βελτιστοποιεί ένα συγκεκριμένο κριτήριο Θέματα Καθορισμόςτουτρόπουδιαχωρισμούτωνεγγραφών Καθορισμός του ελέγχου γνωρίσματος Καθορισμός του βέλτιστου διαχωρισμού Πότε θα σταματήσει ο διαχωρισμός (συνθήκη τερματισμού) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 68 Εξόρυξη Δεδομένων

35 Δέντρο Απόφασης: Κριτήρια Τερματισμού Σταματάμε την επέκταση ενός κόμβου όταν όλες οι εγγραφές του ανήκουν στην ίδια κλάση Σταματάμε την επέκταση ενός κόμβου όταν όλα τα γνωρίσματα έχουν τις ίδιες τιμές Γρήγορος τερματισμός με βάση τον αριθμό των εγγραφών με βάση το κέρδος (λάθος) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 69 Δέντρο Απόφασης Data Fragmentation Διάσπαση Δεδομένων Ο αριθμός των εγγραφών μειώνεται όσο κατεβαίνουμε στο δέντρο Ο αριθμός των εγγραφών στα φύλλα μπορεί να είναι πολύ μικρός για να πάρουμε οποιαδήποτε στατιστικά σημαντική απόφαση Μπορούμε να αποτρέψουμε την περαιτέρω διάσπαση όταν ο αριθμός των εγγραφών πέσει κάτω από ένα όριο Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 70 Εξόρυξη Δεδομένων

36 Δέντρο Απόφασης Πλεονεκτήματα Δέντρων Απόφασης Μη παραμετρική προσέγγιση: Δε στηρίζεται σε υπόθεση εκ των προτέρων γνώσης σχετικά με τον τύπο της κατανομής πιθανότητας που ικανοποιεί η κλάση ή τα άλλα γνωρίσματα Η κατασκευή του βέλτιστου δέντρου απόφασης είναι ένα NP complete πρόβλημα. Ευριστικοί: Αποδοτική κατασκευή ακόμα και στην περίπτωση πολύ μεγάλου συνόλου δεδομένων Αφού το δέντρο κατασκευαστεί, η κατηγοριοποίηση νέων εγγραφών είναι πολύ γρήγορη O(h) όπουh το μέγιστο ύψος του δέντρου Εύκολα στην κατανόηση (ιδιαίτερα τα μικρά δέντρα) Η ακρίβεια τους συγκρίσιμη με άλλες τεχνικές για μικρά σύνολα δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 71 Δέντρο Απόφασης Πλεονεκτήματα Καλή συμπεριφορά στο θόρυβο Η ύπαρξη πλεοναζόντων γνωρισμάτων (γνωρίσματα των οποίων η τιμή εξαρτάται από κάποιο άλλο) δεν είναι καταστροφική για την κατασκευή. Χρησιμοποιείται ένα από τα δύο. Αν πάρα πολλά, μπορεί να οδηγήσουν σε δέντρα πιο μεγάλα από ότι χρειάζεται Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 72 Εξόρυξη Δεδομένων

37 Δέντρο Απόφασης Εκφραστικότητα Δυνατότητα αναπαράστασης για συναρτήσεις διακριτών τιμών, αλλά δε δουλεύουν σε κάποια είδη δυαδικών προβλημάτων πχ, parity ισοτιμία 0(1) αν υπάρχει μονός (ζυγός) αριθμός από δυαδικά γνωρίσματα 2 d κόμβοι για d γνωρίσματα Όχι καλή συμπεριφορά για συνεχείς μεταβλητές Ιδιαίτερα όταν η συνθήκη ελέγχου αφορά ένα γνώρισμα τη φορά Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 73 Δέντρο Απόφασης Decision Boundary Μέχρι στιγμής είδαμε ελέγχους που αφορούν μόνο ένα γνώρισμα τη φορά, μπορούμε να δούμε τη διαδικασία ως τη διαδικασία διαμερισμού του χώρου των γνωρισμάτων σε ξένες περιοχές μέχρι κάθε περιοχή να περιέχει εγγραφές που να ανήκουν στην ίδια κλάση Η οριακή γραμμή (Border line) μεταξύ δυο γειτονικών περιοχών που ανήκουν σε διαφορετικές κλάσεις ονομάζεται και decision boundary (σύνορο απόφασης) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 74 Εξόρυξη Δεδομένων

38 Δέντρο Απόφασης Όταν η συνθήκη ελέγχου περιλαμβάνει μόνο ένα γνώρισμα τη φορά τότε το Decision boundary είναι παράλληλη στους άξονες (τα decision boundaries είναι ορθογώνια παραλληλόγραμμα) x < 0.43? Yes No y y < 0.47? y < 0.33? Yes No Yes No : 4 : 0 : 0 : 4 : 0 : 3 : 4 : x Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 75 Δέντρο Απόφασης Oblique (πλάγιο) Δέντρο Απόφασης x + y < 1 Class = + Class = Οι συνθήκες ελέγχου μπορούν να περιλαμβάνουν περισσότερα από ένα γνωρίσματα Μεγαλύτερη εκφραστικότητα Η εύρεση βέλτιστων συνθηκών ελέγχου είναι υπολογιστικά ακριβή Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 76 Εξόρυξη Δεδομένων

39 Δέντρο Απόφασης Constructive induction (εποικοδομητική επαγωγή) Κατασκευή σύνθετων γνωρισμάτων ως αριθμητικών ή λογικών συνδυασμών άλλων γνωρισμάτων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 77 Δέντρο Απόφασης Στρατηγική αναζήτησης Ο αλγόριθμος που είδαμε χρησιμοποιεί μια greedy, top down, αναδρομική διάσπαση για να φτάσει σε μια αποδεκτή λύση Άλλες στρατηγικές? Bottom up (από τα φύλλα, αρχικά κάθε εγγραφή και φύλλο) Bi directional Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 78 Εξόρυξη Δεδομένων

40 Δέντρο Απόφασης Tree Replication (Αντίγραφα) P Q R S 0 Q S 0 Το ίδιο υπο δέντρο να εμφανίζεται πολλές φορές σε ένα δέντρο απόφασης Αυτό κάνει το δέντρο πιο περίπλοκο και πιθανών δυσκολότερο στην κατανόηση 0 1 Σε περιπτώσεις διάσπασης ενός γνωρίσματος σε κάθε εσωτερικό κόμβο ο ίδιος έλεγχος σε διαφορετικά σημεία Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 79 Δέντρο Απόφασης: C4.5 Simple depth first construction. Uses Information Gain Sorts Continuous Attributes at each node. Needs entire data to fit in memory. Unsuitable for Large Datasets. Needs out of core sorting. You can download the software from: Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 80 Εξόρυξη Δεδομένων

41 Δέντρο Απόφασης Περίληψη Προτερήματα Pros + Λογικός χρόνος εκπαίδευσης + Γρήγορη εφαρμογή + Ευκολία στην κατανόηση + Εύκολη υλοποίηση + Μπορεί να χειριστεί μεγάλο αριθμό γνωρισμάτων Μειονεκτήματα Cons Δεν μπορεί να χειριστεί περίπλοκες σχέσεις μεταξύ των γνωρισμάτων Απλά όρια απόφασης (decision boundaries) Προβλήματα όταν λείπουν πολλά δεδομένα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 81 Θέματα στην Κατηγοριοποίηση Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 82 Εξόρυξη Δεδομένων

42 Εκτίμηση του Λάθους Ως λάθος (σφάλμα) μετράμε τις εγγραφές που το μοντέλο τοποθετεί σε λάθος κλάση 2 ειδών λάθη Εκπαίδευσης (training, resubstitution, apparent): λάθη κατηγοριοποίησης στα δεδομένα του συνόλου εκπαίδευσης (ποσοστό δεδομένων εκπαίδευσης που κατηγοριοποιούνται σε λάθος κλάση) Γενίκευσης (generalization): τα αναμενόμενα λάθη κατηγοριοποίησης του μοντέλου σε δεδομένα που δεν έχει δει Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 83 Λάθη και στα δεδομένα εκπαίδευσης, γιατί χρησιμοποιούμε την πλειοψηφία των εγγραφών σε ένα φύλλο για να αποδώσουμε κλάση Εκτίμηση του Λάθους Πλειοψηφία στην + Άρα 1 έγγραφή λάθος Πλειοψηφία στην - Άρα 3 εγγραφές λάθος Παράδειγμα δύο δέντρων για τα ίδια δεδομένα εκπαίδευσης Με βάση το λάθος εκπαίδευσης Αριστερό 4/24 = Δεξί: 6/24 = 0.25 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 84 Εξόρυξη Δεδομένων

43 Υπερπροσαρμογή (Overfitting) Υπερπροσαρμογή Overfitting Μπορεί ένα μοντέλο που ταιριάζει πολύ καλά με τα δεδομένα εκπαίδευσης να έχει μεγαλύτερο λάθος γενίκευσης από ένα μοντέλο που ταιριάζει λιγότερο καλά στα δεδομένα εκπαίδευσης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 85 Overfitting Δύο κλάσεις: κλάση 1 (500 κυκλικά σημεία) και κλάση 2 (500 τριγωνικά σημεία) Για τα σημεία της κλάσης 1 (κυκλικά σημεία): 0.5 sqrt(x 12 +x 22 ) 1 Για τα σημεία της κλάσης 2 (τριγωνικά σημεία): sqrt(x 12 +x 22 ) > 0.5 or sqrt(x 12 +x 22 ) < 1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 86 Εξόρυξη Δεδομένων

44 Everything should be made as simple as possible, but not simpler, Einstein Overfitting Overfitting Το δέντρο απόφασης για το προηγούμενα δεδομένα 30% εκπαίδευση 70% έλεγχο Gini Στη συνέχεια, pruning Underfitting (υποπροσαρμογή): όταν το μοντέλο είναι πολύ απλό και τα λάθη εκπαίδευσης και τα λάθη ελέγχου είναι μεγάλα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 87 Μπορούμε να διασπάμε το δέντρο μέχρι να φτάσουμε στο σημείο κάθε φύλλο να ταιριάζει απολύτως στα δεδομένα Μικρό (μηδενικό) λάθος εκπαίδευσης Μεγάλο λάθος ελέγχου Και το ανάποδο, μπορεί επίσης να ισχύει Overfitting Δέντρα απόφασης με διαφορετική πολυπλοκότητα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 88 Εξόρυξη Δεδομένων

45 Overfitting εξαιτίας Θορύβου Overfitting Το σημείο θορύβου επηρεάζει τη συνθήκη (Decision boundary is distorted by noise point) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 89 Overfitting εξαιτίας μη Επαρκών Δειγμάτων Overfitting Κόκκινοι κύκλοι ανήκουν στην ίδια κλάση Οι γεμάτοι είναι στο σύνολο εκπαίδευσης, οι άδειοι στο σύνολο ελέγχου Η έλλειψη κόκκινων σημείων στο κάτω μισό του διαγράμματος κάνει δύσκολη την πρόβλεψη των κλάσεων σε αυτήν την περιοχή Μη επαρκής αριθμός εγγραφών εκπαίδευσης έχει ως αποτέλεσμα το δέντρο απόφασης να κάνει πρόβλεψηγιατασημείααυτήςτηςπεριοχήςχρησιμοποιώντας εγγραφές εκπαίδευσης μη σχετικές με το έργο της ταξινόμησης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 90 Εξόρυξη Δεδομένων

46 Overfitting Πρόβλημα λόγω πολλαπλών επιλογών Επειδή σε κάθε βήμα εξετάζουμε πάρα πολλές διαφορετικές διασπάσεις, κάποια διάσπαση βελτιώνει το δέντρο κατά τύχη Το πρόβλημα χειροτερεύει όταν αυξάνει ο αριθμός των επιλογών και μειώνεται ο αριθμός των δειγμάτων (σημείων εκπαίδευσης) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 91 Overfitting Το οverfitting έχει ως αποτέλεσμα μοντέλα (δέντρα απόφασης) που είναι πιο περίπλοκα από ό,τι χρειάζεται Τα λάθη εκπαίδευσης δεν αποτελούν πια μια καλή εκτίμηση για τη συμπεριφορά του δέντρου σε εγγραφές που δεν έχει δει ξανά Νέοι μέθοδοι για την εκτίμηση του λάθους Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 92 Εξόρυξη Δεδομένων

47 Κλάδεμα Δέντρου Δύο βασικές προσεγγίσεις κλαδέματος (pruning) του δέντρου: Pre pruning Σταμάτημα της ανάπτυξης του δέντρου μετά από κάποιο σημείο Post pruning Η κατασκευή του δέντρου χωρίζεται σε δύο φάσεις: 1. Φάση Ανάπτυξης 2. Φάση Κλαδέματος Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 93 Κλάδεμα Δέντρου Pre-Pruning (Early Stopping Rule) Σταμάτα τον αλγόριθμο πριν σχηματιστεί ένα πλήρες δέντρο Συνήθεις συνθήκες τερματισμού για έναν κόμβο: Σταμάτα όταν όλες οι εγγραφές ανήκουν στην ίδια κλάση Σταμάτα όταν όλες οι τιμές των γνωρισμάτων είναι οι ίδιες Πιο περιοριστικές συνθήκες: Σταμάτα όταν ο αριθμός των εγγραφών είναι μικρότερος από κάποιο προκαθορισμένο κατώφλι Σταμάτα όταν η επέκταση ενός κόμβου δεν βελτιώνει την καθαρότητα (π.χ., Gini ή information gain) ήτολάθος γενίκευσης περισσότερο από κάποιο κατώφλι. ( ) δύσκολος ο καθορισμός του κατωφλιού, ( ) ανκαι το κέρδος μικρό, κατοπινοί διαχωρισμοί μπορεί να καταλήξουν σε καλύτερα δέντρα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 94 Εξόρυξη Δεδομένων

48 Κλάδεμα Δέντρου Post pruning Ανάπτυξε το δέντρο πλήρως Trim ψαλίδισε τους κόμβους από πάνω προς τα κάτω (bottom up) Αν το λάθος γενίκευσης μειώνεται με το ψαλίδισμα, αντικατέστησε το υποδέντρο με ένα φύλλο οι ετικέτες κλάσεις του φύλλου καθορίζεται από την πλειοψηφία των κλάσεων των εγγραφών του υποδέντρου (subtree replacement) ένα από τα κλαδιά του (Branch), αυτό που χρησιμοποιείται συχνότερα (subtree raising) Χρησιμοποιείται πιο συχνά Χρήση άλλων δεδομένων για τον υπολογισμό του καλύτερου δέντρου του λάθους γενίκευσης) (δηλαδή Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 95 Εκτίμηση του Λάθους Εκτίμηση Λάθους Γενίκευσης Ως λάθος μετράμε τις εγγραφές που ο ταξινομητής τοποθετεί σε λάθος κλάση Χρήση Δεδομένων Εκπαίδευσης αισιόδοξη εκτίμηση απαισιόδοξη εκτίμηση Χρήση Δεδομένων Ελέγχου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 96 Εξόρυξη Δεδομένων

49 Εκτίμηση του Λάθους Re substitution errors: Λάθος στην εκπαίδευση (Σ e(t) ) Generalization errors: Λάθος στον έλεγχο (Σ e (t)) Ως λάθος μετράμε το ποσοστό των εγγραφών που το μοντέλο τοποθετεί σε λάθος κλάση Μέθοδοι εκτίμησης του λάθους γενίκευσης: Optimistic approach Αισιόδοξη προσέγγιση: e (t) = e(t) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 97 Εκτίμηση του Λάθους Πλειοψηφία στην + Άρα 1 έγγραφή λάθος Πλειοψηφία στην - Άρα 3 εγγραφές λάθος Παράδειγμα δύο δέντρων για τα ίδια δεδομένα Το δέντρο στο δεξί (T R ) μετά από ψαλίδισμα του δέντρου στα αριστερά (T L ) sub tree raising Με βάση το λάθος εκπαίδευσης Αριστερό 4/24 = Δεξί: 6/24 = 0.25 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 98 Εξόρυξη Δεδομένων

50 Πολυπλοκότητα Μοντέλου Occam s Razor Δοθέντων δυο μοντέλων με παρόμοια λάθη γενίκευσης, πρέπει να προτιμάται το απλούστερο από το πιο περίπλοκο Ένα πολύπλοκο μοντέλο είναι πιο πιθανό να έχει ταιριαστεί (Fitted) τυχαία λόγω λαθών στα δεδομένα Για αυτό η πολυπλοκότητα του μοντέλου θα πρέπει να αποτελεί έναν από τους παράγοντες της αξιολόγησής του Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 99 Εκτίμηση του Λάθους Γενίκευσης Pessimistic approach Απαισιόδοξη προσέγγιση: k: αριθμός φύλλων, για κάθε φύλλο t i προσθέτουμε ένα κόστος V(t i ) e'( T ) k i i= 1 = k [ e( t ) + V ( t )] i 1 n( t ) i i Aν για κάθε φύλλο t,v(t) = 0.5: e (t) = e(t) Συνολικό λάθος: e (T) = e(t) + k 0.5 (k: αριθμός φύλλων) Το 0.5 σημαίνει ότι διαχωρισμός ενός κόμβου δικαιολογείται αν βελτιώνει τουλάχιστον μία εγγραφή Για ένα δέντρο με 30 φύλλα και 10 λάθη στο σύνολο εκπαίδευσης (από σύνολο 1000 εγγραφών): Training error = 10/1000 = 1% Generalization error = ( )/1000 = 2.5% Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 100 Εξόρυξη Δεδομένων

51 Εκτίμηση του Λάθους Παράδειγμα δύο δέντρων για τα ίδια δεδομένα Με βάση το λάθος εκπαίδευσης Αν αντί για 0.5, κάτι μεγαλύτερο; Αριστερό (4 + 7*0.5)/24 = Δεξί: (6 + 4*0.5)/24 = Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 101 Κλάδεμα Δέντρου Παράδειγμα Post Pruning Λάθος εκπαίδευσης (Πριν τη διάσπαση) = 10/30 Class = Yes 20 Class = No 10 Error = 10/30 A1 A? A4 Απαισιόδοξο λάθος = ( )/30 = 10.5/30 Λάθος εκπαίδευσης (Μετά τη διάσπαση) = 9/30 Απαισιόδοξο λάθος (Μετά τη διάσπαση) A2 A3 = ( )/30 = 11/30 PRUNE! Class = Yes Class = No 8 4 Class = Yes Class = No 4 1 Class = Yes Class = No 5 1 Class = Yes Class = No 3 4 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 102 Εξόρυξη Δεδομένων

52 Εκτίμηση του Λάθους Reduced error pruning (REP): χρήση ενός συνόλου επαλήθευσης για την εκτίμηση του λάθους γενίκευσης Χώρισε τα δεδομένα εκπαίδευσης: 2/3 εκπαίδευση 1/3 (σύνολο επαλήθευσης validation set) για υπολογισμό λάθους Χρήση για εύρεση του κατάλληλου μοντέλου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 103 Παράδειγμα post pruning Κλάδεμα Δέντρου Αισιόδοξη προσέγγιση? Όχι διάσπαση Απαισιόδοξη προσέγγιση? Case 1: C0: 11 C1: 3 C0: 2 C1: 4 όχι case 1, ναι case 2 REP? Εξαρτάται από το σύνολο ελέγχου Case 2: C0: 14 C1: 3 C0: 2 C1: 2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 104 Εξόρυξη Δεδομένων

53 10 Τιμές που λείπουν Οι τιμές που λείπουν (missing values) επηρεάζουν την κατασκευή του δέντρου με τρεις τρόπους: Πως υπολογίζονται τα μέτρα καθαρότητας Πως κατανέμονται στα φύλλα οι εγγραφές με τιμές που λείπουν Πως ταξινομείται μια εγγραφή εκπαίδευσης στην οποία λείπει μια τιμή Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 105 Τιμές που λείπουν Tid Refund Marital Status Taxable Income Class 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10? Single 90K Yes Missing value Υπολογισμό μέτρων καθαρότητας Πριν τη διάσπαση: Entropy(Parent) = -0.3 log(0.3)-(0.7)log(0.7) = Κόμβος 1 Κόμβος 2 Class = Yes Class = No Refund=Yes 0 3 Refund=No 2 4 Refund=? 1 0 Διάσπαση στο Refund: Entropy(Refund=Yes) = 0 Entropy(Refund=No) = -(2/6)log(2/6) (4/6)log(4/6) = Entropy(Children) = 0.3 (0) (0.9183) = Gain = 0.9 ( ) = Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 106 Εξόρυξη Δεδομένων

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή 0 0 0 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση Οι διαφάνειες στηρίζονται στο P.-N. Tan,

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1 Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Κατηγοριοποίηση (classification) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Δέντρα Αναζήτησης Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Το πρόβλημα Αναζήτηση Θέλουμε να διατηρήσουμε αντικείμενα με κλειδιά και να μπορούμε εκτός από

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ Εισαγωγή Εισαγωγή Τεράστιος όγκος διαθέσιμων δεδομένων χρειαζόμαστε μεθόδουςγιανατααναλύσουμε Τι είναι η Εξόρυξη Δεδομένων (με δυο λόγια) Αποδοτικές τεχνικές για να αναλύσουμε πολύ μεγάλες

Διαβάστε περισσότερα

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ

Διαβάστε περισσότερα

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006 Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία Πέτρος Ποτίκας CoReLab 4/5/2006 Επισκόπηση Ετικέτες σε συνιστώσες (Component labelling) Hough μετασχηματισμοί (transforms) Πλησιέστερος

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort. Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012

Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort. Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012 Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012 3 5 1 Ταξινόμηση - Sorting Πίνακας Α 1 3 5 5 3 1 Ταξινόμηση (Φθίνουσα) Χωρίς Ταξινόμηση Ταξινόμηση

Διαβάστε περισσότερα

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου Διάλεξη 14: Δέντρα IV B Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: 2 3 Δένδρα, Εισαγωγή και άλλες πράξεις Άλλα Δέντρα: Β δένδρα, Β+ δέντρα, R δέντρα Διδάσκων: Παναγιώτης Ανδρέου ΕΠΛ231

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών. Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι

Εισαγωγή στην επιστήμη των υπολογιστών. Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι Εισαγωγή στην επιστήμη των υπολογιστών Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι 1 Έννοια Ανεπίσημα, ένας αλγόριθμος είναι μια βήμα προς βήμα μέθοδος για την επίλυση ενός προβλήματος ή την διεκπεραίωση

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων Τεχνικές Σχεδιασμού Αλγορίθμων Αλγοριθμικές Τεχνικές Παύλος Εφραιμίδης, Λέκτορας http://pericles.ee.duth.gr Ορισμένες γενικές αρχές για τον σχεδιασμό αλγορίθμων είναι: Διαίρει και Βασίλευε (Divide and

Διαβάστε περισσότερα

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες Αλγόριθμοι Δεδομένα input Αλγόριθμοι Εξόρυξης Πληροφορίας Εξαγόμενα output

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Predicting the Choice of Contraceptive Method using Classification

Predicting the Choice of Contraceptive Method using Classification ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΣΣΑΛΟΝΙΚΗ Predicting the Choice of Contraceptive Method using Classification ΠΑΠΑΔΟΠΟΥΛΟΣ ΧΡΗΣΤΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Νικόλαος Σαμαράς ΕΞΕΤΑΣΤΗΣ:

Διαβάστε περισσότερα

AVL-trees C++ implementation

AVL-trees C++ implementation Τ Μ Η Μ Α Μ Η Χ Α Ν Ι Κ Ω Ν Η / Υ Κ Α Ι Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ AVL-trees C++ implementation Δομές Δεδομένων Μάριος Κενδέα 31 Μαρτίου 2015 kendea@ceid.upatras.gr Εισαγωγή (1/3) Δυαδικά Δένδρα Αναζήτησης:

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για

Διαβάστε περισσότερα

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή; Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση

Διαβάστε περισσότερα

5.1. Προσδοκώμενα αποτελέσματα

5.1. Προσδοκώμενα αποτελέσματα 5.1. Προσδοκώμενα αποτελέσματα Όταν θα έχεις ολοκληρώσει τη μελέτη αυτού του κεφαλαίου θα έχεις κατανοήσει τις τεχνικές ανάλυσης των αλγορίθμων, θα μπορείς να μετράς την επίδοση των αλγορίθμων με βάση

Διαβάστε περισσότερα

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1 Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1 Κεφάλαιο 14 Δομές Ευρετηρίων για Αρχεία Copyright 2007 Ramez Elmasri and Shamkant B. Navathe Ελληνική Έκδοση, Διαβλος, Επιμέλεια Μ.Χατζόπουλος Θα μιλήσουμε

Διαβάστε περισσότερα

Διδάσκων: Παναγιώτης Ανδρέου

Διδάσκων: Παναγιώτης Ανδρέου Διάλεξη 12: Δέντρα ΙΙ -Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Δυαδικά Δένδρα - Δυαδικά Δένδρα Αναζήτησης(ΔΔΑ) - Εύρεση Τυχαίου, Μέγιστου, Μικρότερου στοιχείου - Εισαγωγή

Διαβάστε περισσότερα

Κεφάλαιο 14. οµές Ευρετηρίων για Αρχεία. ιαφάνεια 14-1

Κεφάλαιο 14. οµές Ευρετηρίων για Αρχεία. ιαφάνεια 14-1 ιαφάνεια 14-1 Κεφάλαιο 14 οµές Ευρετηρίων για Αρχεία Copyright 2007 Ramez Elmasri and Shamkant B. NavatheΕλληνικήΈκδοση, ιαβλος, Επιµέλεια Μ.Χατζόπουλος 1 Θα µιλήσουµε για Τύποι Ταξινοµηµένων Ευρετηρίων

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Συμβολοσειρές Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Συμβολοσειρές Συμβολοσειρές και προβλήματα που αφορούν συμβολοσειρές εμφανίζονται τόσο συχνά που

Διαβάστε περισσότερα

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για 2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο

Διαβάστε περισσότερα

Δομές Δεδομένων. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής. Δομές Δεδομένων. Τμήμα Εφαρμοσμένης Πληροφορικής

Δομές Δεδομένων. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής. Δομές Δεδομένων. Τμήμα Εφαρμοσμένης Πληροφορικής Ενότητα 8: Γραμμική Αναζήτηση και Δυαδική Αναζήτηση-Εισαγωγή στα Δέντρα και Δυαδικά Δέντρα-Δυαδικά Δέντρα Αναζήτησης & Υλοποίηση ΔΔΑ με δείκτες Καθηγήτρια Μαρία Σατρατζέμη Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Περιεχόμενα. Περιεχόμενα

Περιεχόμενα. Περιεχόμενα Περιεχόμενα xv Περιεχόμενα 1 Αρχές της Java... 1 1.1 Προκαταρκτικά: Κλάσεις, Τύποι και Αντικείμενα... 2 1.1.1 Βασικοί Τύποι... 5 1.1.2 Αντικείμενα... 7 1.1.3 Τύποι Enum... 14 1.2 Μέθοδοι... 15 1.3 Εκφράσεις...

Διαβάστε περισσότερα

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον Τμήμα Μηχανικών Πληροφορικής Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον Δρ. Δημήτρης Βαρσάμης Επίκουρος Καθηγητής Οκτώβριος 2014 Δρ. Δημήτρης Βαρσάμης Οκτώβριος 2014 1 / 42 Αριθμητικές Μέθοδοι

Διαβάστε περισσότερα

Αναδρομικοί Αλγόριθμοι

Αναδρομικοί Αλγόριθμοι Αναδρομικός αλγόριθμος (recursive algorithm) Επιλύει ένα πρόβλημα λύνοντας ένα ή περισσότερα στιγμιότυπα του ίδιου προβλήματος. Αναδρομικός αλγόριθμος (recursive algorithm) Επιλύει ένα πρόβλημα λύνοντας

Διαβάστε περισσότερα

Εισαγωγή στον Προγραμματισμό

Εισαγωγή στον Προγραμματισμό Εισαγωγή στον Προγραμματισμό Έλεγχος Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ακ. Έτος 2012-2013 Σχεσιακοί Τελεστές και Ισότητας Ένα πρόγραμμα εκτός από αριθμητικές πράξεις

Διαβάστε περισσότερα

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER» Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 22 Counting sort, bucket sort και radix sort 1 / 16 Ιδιότητες αλγορίθμων ταξινόμησης ευστάθεια (stable

Διαβάστε περισσότερα

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire Αυτόνομοι Πράκτορες Εργασία εξαμήνου Value Iteration και Q- Learning για Peg Solitaire Μαρίνα Μαυρίκου 2007030102 1.Εισαγωγικά για το παιχνίδι Το Peg Solitaire είναι ένα παιχνίδι το οποίο παίζεται με ένα

Διαβάστε περισσότερα

Ουρά Προτεραιότητας (priority queue)

Ουρά Προτεραιότητας (priority queue) Ουρά Προτεραιότητας (priority queue) Δομή δεδομένων που υποστηρίζει δύο βασικές λειτουργίες : Εισαγωγή στοιχείου με δεδομένο κλειδί. Επιστροφή ενός στοιχείου με μέγιστο (ή ελάχιστο) κλειδί και διαγραφή

Διαβάστε περισσότερα

Αλγόριθµοι Τύπου Μείωσης Προβλήµατος

Αλγόριθµοι Τύπου Μείωσης Προβλήµατος Αλγόριθµοι Τύπου Μείωσης Προβλήµατος Περίληψη Αλγόριθµοι Τύπου Μείωσης Προβλήµατος ( Decrease and Conquer ) Μείωση κατά µια σταθερά (decrease by a constant) Μείωση κατά ένα ποσοστό (decrease by a constant

Διαβάστε περισσότερα

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ 9 ο ΜΑΘΗΜΑ ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ Πότε κάνουμε ομαδοποίηση των παρατηρήσεων; Όταν το πλήθος των τιμών μιας μεταβλητής είναι αρκετά μεγάλο κάνουμε ομαδοποίηση των παρατηρήσεων. Αυτό συμβαίνει είτε

Διαβάστε περισσότερα

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ ΜΕΡΟΣ ΙΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ Πολλές από τις αποφάσεις

Διαβάστε περισσότερα

ΠΛΗ111. Ανοιξη 2005. Μάθηµα 7 ο. έντρο. Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Πολυτεχνείο Κρήτης

ΠΛΗ111. Ανοιξη 2005. Μάθηµα 7 ο. έντρο. Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Πολυτεχνείο Κρήτης ΠΛΗ111 οµηµένος Προγραµµατισµός Ανοιξη 2005 Μάθηµα 7 ο έντρο Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Πολυτεχνείο Κρήτης έντρο Ορισµός Υλοποίηση µε Πίνακα Υλοποίηση µε είκτες υαδικό έντρο

Διαβάστε περισσότερα

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Μεταπτυχιακή Εργασία Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα Ειρήνη Ντούτση Μηχανικός Η/Υ και Πληροφορικής

Διαβάστε περισσότερα

υναμικός Προγραμματισμός

υναμικός Προγραμματισμός υναμικός Προγραμματισμός ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιωνυμικοί Συντελεστές ιωνυμικοί

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/ Τεχνητή Νοημοσύνη 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία: Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης

1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης 1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης Στη συγκεκριμένη ενότητα εξετάζουμε θέματα σχετικά με την αριθμητική πεπερασμένης ακρίβειας που χρησιμοποιούν οι σημερινοί υπολογιστές και τα

Διαβάστε περισσότερα

οµές εδοµένων 3 ο Εξάµηνο ΕΝΟΤΗΤΑ 4 ΕΝ ΡΑ

οµές εδοµένων 3 ο Εξάµηνο ΕΝΟΤΗΤΑ 4 ΕΝ ΡΑ ΕΝΟΤΗΤΑ 4 ΕΝ ΡΑ 1 ένδρα εσωτερικός κόµβος u το δένδρο έχει ύψος 4 u έχει ύψος 3 w έχει βάθος 2 κόµβος ένδρο: γράφηµα χωρίς κύκλους o Ρίζα (root) o Κόµβος (node) o Ακµή (edge) o Γονέας (parent) Παιδί (child)

Διαβάστε περισσότερα

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ 1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ Τα δεδομένα που θα επεξεργασθούμε στη διάρκεια του εργαστηρίου παραχωρήθηκαν από την εταιρεία ICAP ειδικά για τις ανάγκες του μαθήματος. Τα δεδομένα αυτά αντλήθηκαν από την

Διαβάστε περισσότερα

Μεταγλωττιστές. Δημήτρης Μιχαήλ. Ακ. Έτος 2011-2012. Ανοδικές Μέθοδοι Συντακτικής Ανάλυσης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Μεταγλωττιστές. Δημήτρης Μιχαήλ. Ακ. Έτος 2011-2012. Ανοδικές Μέθοδοι Συντακτικής Ανάλυσης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Μεταγλωττιστές Ανοδικές Μέθοδοι Συντακτικής Ανάλυσης Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ακ. Έτος 2011-2012 Ανοδική Κατασκευή Συντακτικού Δέντρου κατασκευή δέντρου

Διαβάστε περισσότερα

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η μέθοδος PCA (Ανάλυση Κύριων Συνιστωσών), αποτελεί μία γραμμική μέθοδο συμπίεσης Δεδομένων η οποία συνίσταται από τον επαναπροσδιορισμό των συντεταγμένων ενός

Διαβάστε περισσότερα

ΕΠΛ 231 οµές εδοµένων και Αλγόριθµοι Άννα Φιλίππου, 2006 9-1

ΕΠΛ 231 οµές εδοµένων και Αλγόριθµοι Άννα Φιλίππου, 2006 9-1 Σωροί Στην ενότητα αυτή θα µελετηθούν τα εξής επιµέρους θέµατα: Ουρές Προτεραιότητας Σωροί υλοποίηση και πράξεις Ο αλγόριθµος ταξινόµησης HeapSort Παραλλαγές Σωρών ΕΠΛ 231 οµές εδοµένων και Αλγόριθµοι

Διαβάστε περισσότερα

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ : ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ ΠΙΘΑΝΟΝΤΗΤΕΣ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΓΑΣΙΑ 08: ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ 1 Ο ΣΤΑΔΙΟ: Πριν εφαρμόσουμε οποιοδήποτε αλγόριθμο

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

Δρομολόγηση Και Πολύχρωματισμός. Γραφημάτων ΚΑΡΑΓΕΩΡΓΟΣ ΤΙΜΟΘΕΟΣ Α.Μ 1026

Δρομολόγηση Και Πολύχρωματισμός. Γραφημάτων ΚΑΡΑΓΕΩΡΓΟΣ ΤΙΜΟΘΕΟΣ Α.Μ 1026 Δρομολόγηση Και Πολύχρωματισμός Μονοπατιών Γραφημάτων ΚΑΡΑΓΕΩΡΓΟΣ ΤΙΜΟΘΕΟΣ Α.Μ 1026 Εισαγωγή. Το πρόβλημα με το οποίο θα ασχοληθούμε εδώ είναι γνωστό σαν: Δρομολόγηση και Πολύ-χρωματισμός Διαδρομών (Routing

Διαβάστε περισσότερα

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1 Κατακερματισμός 4/3/2009 Μ.Χατζόπουλος 1 H ιδέα που βρίσκεται πίσω από την τεχνική του κατακερματισμού είναι να δίνεται μια συνάρτησης h, που λέγεται συνάρτηση κατακερματισμού ή παραγωγής τυχαίων τιμών

Διαβάστε περισσότερα

Matrix Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι. Αλγόριθμοι» Γ. Καούρη Β. Μήτσου

Matrix Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι. Αλγόριθμοι» Γ. Καούρη Β. Μήτσου Matrix Algorithms Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Γ. Καούρη Β. Μήτσου Περιεχόμενα παρουσίασης Πολλαπλασιασμός πίνακα με διάνυσμα Πολλαπλασιασμός πινάκων Επίλυση τριγωνικού

Διαβάστε περισσότερα

Αλγόριθμοι Τυφλής Αναζήτησης

Αλγόριθμοι Τυφλής Αναζήτησης Τεχνητή Νοημοσύνη 04 Αλγόριθμοι Τυφλής Αναζήτησης Αλγόριθμοι Τυφλής Αναζήτησης (Blind Search Algorithms) Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει αξιολόγηση των καταστάσεων.

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους Εισαγωγή στους Αλγορίθμους Ενότητα 5η Διδάσκων Χρήστος Ζαρολιάγκης Καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Πατρών Email: zaro@ceid.upatras.gr Η Μέθοδος «Διαίρει & Βασίλευε» Η Μέθοδος

Διαβάστε περισσότερα

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2011-12

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2011-12 ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2011-12 ΣΚΟΠΟΣ ΕΡΓΑΣΙΑΣ Στα πλαίσια του μαθήματος Αυτόνομοι Πράκτορες μας ζητήθηκε να αναπτύξουμε

Διαβάστε περισσότερα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33 ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος του συγγραφέα... 13 Πρόλογος του καθηγητή Τιμολέοντα Σελλή... 15 ΚΕΦΑΛΑΙΟ 1: Εργαλεία γλωσσών προγραμματισμού...17 1.1 Γλώσσες προγραμματισμού τρίτης γεννεάς... 18 τι είναι η γλώσσα

Διαβάστε περισσότερα

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4)

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4) Data Mining Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης Κατηγοριοποίηση (κεφ. 4) Βασίλης Βερύκιος - Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/dmbook Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές

Διαβάστε περισσότερα

Δομές Δεδομένων (Data Structures)

Δομές Δεδομένων (Data Structures) Δομές Δεδομένων (Data Structures) Στοίβες Ουρές Στοίβες: Βασικές Έννοιες. Ουρές: Βασικές Έννοιες. Βασικές Λειτουργίες. Παραδείγματα. Στοίβες Δομή τύπου LIFO: Last In - First Out (τελευταία εισαγωγή πρώτη

Διαβάστε περισσότερα

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης Αναγνώριση Προτύπων (Pattern Recognton Μπεϋζιανή Θεωρία Αποφάσεων (Bayesan Decson Theory Π. Τσακαλίδης ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ Μπεϋζιανή Θεωρία Αποφάσεων (Bayes Decson theory Στατιστικά

Διαβάστε περισσότερα

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Πρόβλημα 1 Το πρώτο πρόβλημα λύνεται με τη μέθοδο του Δυναμικού Προγραμματισμού. Για να το λύσουμε με Δυναμικό Προγραμματισμό

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ. Ενότητα 4: Δειγματοληψία και Κβάντιση Εικόνας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ. Ενότητα 4: Δειγματοληψία και Κβάντιση Εικόνας ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ Ενότητα 4: Δειγματοληψία και Κβάντιση Εικόνας Ιωάννης Έλληνας Τμήμα Υπολογιστικών Συστημάτων Άδειες Χρήσης

Διαβάστε περισσότερα

Δομές δεδομένων (2) Αλγόριθμοι

Δομές δεδομένων (2) Αλγόριθμοι Δομές δεδομένων (2) Αλγόριθμοι Παράγωγοι τύποι (struct) σύνοψη προηγουμένων Πίνακες: πολλές μεταβλητές ίδιου τύπου Παράγωγοι τύποι ή Δομές (struct): ομαδοποίηση μεταβλητών διαφορετικού τύπου struct Student

Διαβάστε περισσότερα

Διαδικασιακός Προγραμματισμός

Διαδικασιακός Προγραμματισμός Τμήμα ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕ ΤΕΙ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ Διαδικασιακός Προγραμματισμός Διάλεξη 12 η Αναζήτηση/Ταξινόμηση Πίνακα Οι διαλέξεις βασίζονται στο βιβλίο των Τσελίκη και Τσελίκα C: Από τη Θεωρία στην

Διαβάστε περισσότερα

Άπληστοι Αλγόριθµοι (CLR, κεφάλαιο 17)

Άπληστοι Αλγόριθµοι (CLR, κεφάλαιο 17) Άπληστοι Αλγόριθµοι (CLR, κεφάλαιο 17) Στην ενότητα αυτή θα µελετηθούν τα εξής θέµατα: Σχεδιασµός αλγορίθµων µε Άπληστους Αλγόριθµους Στοιχεία άπληστων αλγορίθµων Το πρόβληµα επιλογής εργασιών ΕΠΛ 232

Διαβάστε περισσότερα

Υπολογιστικά & Διακριτά Μαθηματικά

Υπολογιστικά & Διακριτά Μαθηματικά Υπολογιστικά & Διακριτά Μαθηματικά Ενότητα 1: Εισαγωγή- Χαρακτηριστικά Παραδείγματα Αλγορίθμων Στεφανίδης Γεώργιος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ 1 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ Φροντιστήριο #10: Αλγόριθμοι Διαίρει & Βασίλευε: Master Theorem, Αλγόριθμοι Ταξινόμησης, Πιθανοτικός

Διαβάστε περισσότερα

Διάλεξη 1 Βασικές έννοιες

Διάλεξη 1 Βασικές έννοιες Εργαστήριο SPSS Ψ-4201 (ΕΡΓ) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις αναρτημένες στο: Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη

Διαβάστε περισσότερα

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr I ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ i e ΜΕΡΟΣ Ι ΟΡΙΣΜΟΣ - ΒΑΣΙΚΕΣ ΠΡΑΞΕΙΣ Α Ορισμός Ο ορισμός του συνόλου των Μιγαδικών αριθμών (C) βασίζεται στις εξής παραδοχές: Υπάρχει ένας αριθμός i για τον οποίο ισχύει i Το σύνολο

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης «Σχεδίαση και υλοποίηση έξυπνου συστήματος ανάλυσης

Διαβάστε περισσότερα

BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005

BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005 ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005 ΛΥΣΕΙΣ Ι. Βασιλείου -----------------------------------------------------------------------------------------------------

Διαβάστε περισσότερα

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η (3 μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάση το συντελεστή συσχέτισης. (γράψτε ποιο

Διαβάστε περισσότερα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βήματα προς τη δημιουργία εκτελέσιμου κώδικα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βήματα προς τη δημιουργία εκτελέσιμου κώδικα Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Βήματα προς τη δημιουργία εκτελέσιμου κώδικα Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Βήματα προς τη δημιουργία εκτελέσιμου κώδικα

Διαβάστε περισσότερα

Επαγωγικός Λογικός Προγραμματισμός και Aσαφείς Λογικές Περιγραφής

Επαγωγικός Λογικός Προγραμματισμός και Aσαφείς Λογικές Περιγραφής .. και Aσαφείς Λογικές Περιγραφής Άγγελος Χαραλαμπίδης Στασινός Κωνσταντόπουλος ΕΚΕΦΕ «Δημόκριτος» {acharal,konstant}@iit.demokritos.gr .. Σκελετός Ομιλίας Εισαγωγή .. Ορισμός Προβλήματος Γενικότερο πλαίσιο

Διαβάστε περισσότερα

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι Ροµ οτικοί Πράκτορες Αβεβαιότητα Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Πράκτορες χαρακτηριστικά στοιχεία είδη πρακτόρων αυτόνοµοι

Διαβάστε περισσότερα

Ενότητα 7 Ουρές Προτεραιότητας

Ενότητα 7 Ουρές Προτεραιότητας Ενότητα Ουρές Προτεραιότητας ΗΥ4 - Παναγιώτα Φατούρου Ουρές Προτεραιότητας Θεωρούµε ένα χώρο κλειδιών U και έστω ότι µε κάθε κλειδί Κ (τύπου Key) έχει συσχετισθεί κάποια πληροφορία Ι (τύπου Type). Έστω

Διαβάστε περισσότερα

1ο ΣΤΑΔΙΟ ΓΕΝΕΣΗ ΜΕΤΑΚΙΝΗΣΕΩΝ

1ο ΣΤΑΔΙΟ ΓΕΝΕΣΗ ΜΕΤΑΚΙΝΗΣΕΩΝ ΠΡΟΒΛΗΜΑ 1ο ΣΤΑΔΙΟ ΓΕΝΕΣΗ ΜΕΤΑΚΙΝΗΣΕΩΝ πόσες μετακινήσεις δημιουργούνται σε και για κάθε κυκλοφοριακή ζώνη; ΟΡΙΣΜΟΙ μετακίνηση μετακίνηση με βάση την κατοικία μετακίνηση με βάση άλλη πέρα της κατοικίας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2015-2016 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

Κεφάλαιο 7 Ιεραρχία Μνήμης (Memory Hierarchy)

Κεφάλαιο 7 Ιεραρχία Μνήμης (Memory Hierarchy) Κεφάλαιο 7 Ιεραρχία Μνήμης (Memory Hierarchy) 1 Συστήματα Μνήμης Η οργάνωση του συστήματος μνήμης επηρεάζει τη λειτουργία και απόδοση ενός μικροεπεξεργαστή: Διαχείριση μνήμης και περιφερειακών (Ι/Ο) απότολειτουργικόσύστημα

Διαβάστε περισσότερα

Μαθηματικά των Υπολογιστών και των Αποφάσεων Τεχνητή Νοημοσύνη 1η Σειρά Ασκήσεων

Μαθηματικά των Υπολογιστών και των Αποφάσεων Τεχνητή Νοημοσύνη 1η Σειρά Ασκήσεων Π Π Τ Μ Τ Μ Η/Υ Π Δ Μ Π Μαθηματικά των Υπολογιστών και των Αποφάσεων Τεχνητή Νοημοσύνη 1η Σειρά Ασκήσεων Φοιτητής: Ν. Χασιώτης (AM: 0000) Καθηγητής: Ι. Χατζηλυγερούδης 22 Οκτωβρίου 2010 ΑΣΚΗΣΗ 1. Δίνεται

Διαβάστε περισσότερα

Δηµοσθένης Σταµάτης Τµήµα Πληροφορικής ΑΤΕΙ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΕΝΤΡΑ (TREES) B C D E F G H I J K L M

Δηµοσθένης Σταµάτης Τµήµα Πληροφορικής ΑΤΕΙ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΕΝΤΡΑ (TREES) B C D E F G H I J K L M Δοµές Δεδοµένων & Ανάλυση Αλγορίθµων 3ο Εξάµηνο Δέντρα Δυαδικά Δέντρα Δυαδικά Δέντρα Αναζήτησης (inary Search Trees) http://aetos.it.teithe.gr/~demos/teaching_r.html Δηµοσθένης Σταµάτης Τµήµα Πληροφορικής

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή Ασκήσεις και Λύσεις

Ενότητα 1: Εισαγωγή Ασκήσεις και Λύσεις Ενότητα 1: Εισαγωγή Ασκήσεις και Λύσεις Άσκηση 1 Αποδείξτε τη µεταβατική και τη συµµετρική ιδιότητα του Θ. Λύση Μεταβατική Ιδιότητα (ορισµός): Αν f(n) = Θ(g(n)) και g(n) = Θ(h(n)) τότε f(n)=θ(h(n)). Για

Διαβάστε περισσότερα

Δομές Δεδομένων (Data Structures)

Δομές Δεδομένων (Data Structures) Δομές Δεδομένων (Data Structures) Ανάλυση - Απόδοση Αλγορίθμων Έλεγχος Αλγορίθμων. Απόδοση Προγραμμάτων. Χωρική/Χρονική Πολυπλοκότητα. Ασυμπτωτικός Συμβολισμός. Παραδείγματα. Αλγόριθμοι: Βασικές Έννοιες

Διαβάστε περισσότερα

Δίαυλος Πληροφορίας. Δρ. Α. Πολίτης

Δίαυλος Πληροφορίας. Δρ. Α. Πολίτης Δίαυλος Πληροφορίας Η λειτουργία του διαύλου πληροφορίας περιγράφεται από: Τον πίνακα διαύλου μαθηματική περιγραφή. Το διάγραμμα διάυλου παραστατικός τρόπος περιγραφής. Πίνακας Διαύλου Κατασκευάζεται με

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 19 Hashing - Κατακερματισμός 1 / 23 Πίνακες απευθείας πρόσβασης (Direct Access Tables) Οι πίνακες απευθείας

Διαβάστε περισσότερα

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις (Γραμμικές) Αναδρομικές Σχέσεις ιδάσκοντες: Φ. Αφράτη,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Αναδρομικές Σχέσεις Αναπαράσταση

Διαβάστε περισσότερα

ΕΠΑΛΗΘΕΥΣΗ (VERIFICATION) ΚΑΙ ΕΓΚΥΡΟΠΟΙΗΣΗ (VALIDATION) ΒΚ

ΕΠΑΛΗΘΕΥΣΗ (VERIFICATION) ΚΑΙ ΕΓΚΥΡΟΠΟΙΗΣΗ (VALIDATION) ΒΚ ΕΠΑΛΗΘΕΥΣΗ (VERIFICATION) ΚΑΙ ΕΓΚΥΡΟΠΟΙΗΣΗ (VALIDATION) ΒΚ Οι V&V αναφέρονται κυρίως τον έλεγχο λαθών (testing) ενός ΕΣΒΚ, δηλ. αν δίνονται σωστές λύσεις στα προβλήματα που διαπραγματεύεται. Αφορούν όμως

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ Ενότητα # 3: Αριθμητικά Περιγραφικά Μέτρα Εβελίνα Κοσσιέρη Τμήμα Λογιστικής και Χρηματοοικονομικής ΑΔΕΙΕΣ

Διαβάστε περισσότερα