Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006"

Transcript

1 Κατηγοριοποίηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Παραδείγματα Εντοπισμός spam s, με βάση πχ την επικεφαλίδα τους ή το περιεχόμενό τους Πρόβλεψη καρκινικών κυττάρων χαρακτηρίζοντας τα ως καλοήθη ή κακοήθη Κατηγοριοποίηση συναλλαγών με πιστωτικές κάρτες ως νόμιμες ή προϊόν απάτης Κατηγοριοποίηση δευτερευόντων δομών πρωτείνης ως alpha helix, beta sheet, ή random coil Χαρακτηρισμός ειδήσεων ως οικονομικές, αθλητικές, πολιτιστικές, πρόβλεψης καιρού, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 2 Εξόρυξη Δεδομένων

2 10 Ορισμός Σύνολο εγγραφών (x) Κατηγοριοποίηση είναι η διαδικασία εκμάθησης μιας συνάρτησης στόχου (target function) f (μοντέλο) που απεικονίζει κάθε σύνολο γνωρισμάτων x σε μια από τις προκαθορισμένες ετικέτες κλάσεις y. Μοντέλο Κατηγοριοποίησης Ετικέτα κλάσης (y) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 3 Ορισμός Είσοδος (x): συλλογή από εγγραφές Κάθε εγγραφή περιέχει ένα σύνολο από γνωρίσματα/χαρακτηριστικά (attributes) Ένα από τα γνωρίσματα είναι η κλάση/κατηγορία (class) Έξοδος (y): ένα μοντέλο για το γνώρισμα κλάση ως μια συνάρτηση των τιμών των άλλων γνωρισμάτων Tid κατηγορικό Επιστροφή κατηγορικό Οικογενειακή Κατάσταση συνεχές Φορολογητέο Εισόδημα 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Απάτη 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes κλάση Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 4 Εξόρυξη Δεδομένων

3 Εισαγωγή Το μοντέλο κατηγοριοποίησης, χρησιμοποιείται ως: Περιγραφικό μοντέλο (descriptive modeling): ως επεξηγηματικό εργαλείο πχ ποια χαρακτηριστικά κάνουν ένα ζώο να χαρακτηριστεί ως θηλαστικό Μοντέλο πρόβλεψης (predictive modeling): για τη πρόβλεψη της κλάσης άγνωστων εγγραφών πχ δοσμένων των χαρακτηριστικών κάποιου ζώου να προβλέψουμε αν είναι θηλαστικό, πτηνό, ερπετό ή αμφίβιο Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 5 Ορισμός Συνήθως το σύνολο δεδομένων εισόδου χωρίζεται σε: ένα σύνολο εκπαίδευσης (training set) και ένα σύνολο ελέγχου (test test) Το σύνολο εκπαίδευσης χρησιμοποιείται για να κατασκευαστεί το μοντέλο, ενώ το σύνολο ελέγχου γιανατηνεπικύρωση του μοντέλου. Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 6 Εξόρυξη Δεδομένων

4 10 10 Εισαγωγή Θεωρούμε ότι τιμή (ετικέτα) της κλάσης (γνώρισμα y) είναι διακριτή τιμή Αν όχι, regression (οπισθοδρόμηση) όπου το γνώρισμα y παίρνει συνεχείς τιμές Κατάλληλη κυρίως για: δυαδικές κατηγορίες ή κατηγορίες για τις οποίες δεν υπάρχει διάταξη [διακριτές (nominal) vs διατεταγμένες (ordinal)] για μη ιεραρχικές κατηγορίες Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 7 Βήματα Κατηγοριοποίησης Εισαγωγή 1. Κατασκευή Μοντέλου Χρησιμοποιώντας το σύνολο εκπαίδευσης (στις εγγραφές του το γνώρισμα της κλάσης είναι προκαθορισμένο) Το μοντέλο μπορεί να είναι ένα δέντρο απόφασης, κανόνες, μαθηματικοί τύποι κλπ 2. Εφαρμογή Μοντέλου για την κατηγοριοποίηση μελλοντικών ή άγνωστων αντικειμένων Εκτίμηση της ακρίβειας του μοντέλου με χρήση συνόλου ελέγχου Ρυθμός ακρίβειας: το ποσοστό των εγγραφών του συνόλου ελέγχου που ταξινομούνται σωστά από το μοντέλο Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Σύνολο Εκπαίδευσης Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Σύνολο Ελέγχου Επαγωγή Induction Συμπέρασμα Deduction Αλγόριθμος Μάθησης Κατασκευή Μοντέλου Εφαρμογή Μοντέλου Χαρακτηριστικά Μοντέλου Ταιριάζει δεδομένα εκπαίδευσης Προβλέπει την κλάση των δεδομένων ελέγχου Καλή δυνατότητα γενίκευσης Μοντέλο Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 8 Εξόρυξη Δεδομένων

5 Προεπεξεργασία 1. Καθαρισμός Δεδομένων (data cleaning) Προεπεξεργασία δεδομένων και χειρισμός τιμών που λείπουν (πχ τις αγνοούμε ή τις αντικαθιστούμε με ειδικές τιμές) 2. Ανάλυση Σχετικότητας (Relevance analysis) (επιλογή χαρακτηριστικών (γνωρισμάτων) feature selection) Απομάκρυνση των μη σχετικών ή περιττών γνωρισμάτων 3. Μετασχηματισμοί Δεδομένων (Data transformation) Κανονικοποίηση ή/και Γενίκευση Πιθανών αριθμητικά γνωρίσματα κατηγορικά {low, medium, high} Κανονικοποίηση αριθμητικών δεδομένων στο [0,1) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 9 Εκτίμηση Μεθόδων Κατηγοριοποίησης Πόσο καλός είναι ο κατηγοριοποιητής Προβλεπόμενη ακρίβεια Predictive accuracy Ταχύτητα (speed) Χρόνος κατασκευής του μοντέλου Χρόνος χρήσης/εφαρμογής του μοντέλου Robustness Χειρισμός θορύβου και τιμών που λείπουν Κλιμάκωση Scalability Αποδοτικότητα σε βάσεις δεδομένων αποθηκευμένες στο δίσκο Ευκρίνεια Interpretability: Πόσο κατανοητό είναι το μοντέλο και τι νέα πληροφορία προσφέρει Ποιότητα Goodness of rules (quality) Πχ μέγεθος του δέντρου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 10 Εξόρυξη Δεδομένων

6 Ορισμός Τεχνικές κατηγοριοποίησης βασισμένες σε Δέντρα Απόφασης (decision trees) Κανόνες (Rule based Methods) Αλγόριθμοι Κοντινότερου Γείτονα Memory based reasoning Νευρωνικά Δίκτυα Naïve Bayes και Bayesian Belief Δίκτυα Support Vector Machines Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 11 έντρα Απόφασης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 12 Εξόρυξη Δεδομένων

7 10 Δέντρο Απόφασης Μοντέλο = Δέντρο Απόφασης Εσωτερικοί κόμβοι αντιστοιχούν σε κάποιο γνώρισμα Διαχωρισμός (split) ενός κόμβου σε παιδιά ηετικέταστηνακμή= συνθήκη/έλεγχος Φύλλα αντιστοιχούν σε κλάσεις Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 13 Δεδομένα Εκπαίδευσης Δέντρο Απόφασης: Παράδειγμα κατηγορικό Tid Refund Marital Status κατηγορικό Taxable Income συνεχές 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes κλάση Ετικέτα = συνθήκη Yes Φύλλα στα οποία αντιστοιχεί μια (ετικέτα) κλάσης Ρίζα Refund TaxInc No Single, Divorced MarSt < 80K > 80K Γνωρίσματα Διαχωρισμού Splitting Attributes YES Married Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 14 Εξόρυξη Δεδομένων

8 Δέντρο Απόφασης: Βήματα Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Σύνολο Εκπαίδευσης Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Σύνολο Ελέγχου Επαγωγή Συμπέρασμα Αλγόριθμος Επαγωγής Δέντρου Μάθηση Μοντέλου Εφαρμογή Μοντέλου μοντέλο Δέντρο Απόφασης Αφού κατασκευαστεί το δέντρο, η εφαρμογή (χρήση) του στην κατηγοριοποίηση νέων εγγραφών είναι απλή > διαπέραση από τη ρίζα στα φύλλα του Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 15 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Ξεκίνα από τη ρίζα του δέντρου. εδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 16 Εξόρυξη Δεδομένων

9 10 10 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Δεδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 17 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Δεδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 18 Εξόρυξη Δεδομένων

10 10 10 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Δεδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 19 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Δεδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 20 Εξόρυξη Δεδομένων

11 Δέντρο Απόφασης: Εφαρμογή Μοντέλου Δεδομένα Ελέγχου Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married Ανάθεση στο Cheat No TaxInc < 80K > 80K YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 21 Δέντρο Απόφασης: Βήματα Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Σύνολο Εκπαίδευσης Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Σύνολο Ελέγχου Επαγωγή Συμπέρασμα Αλγόριθμος Επαγωγής Δέντρου Μάθηση Μοντέλου Εφαρμογή Μοντέλου Model Δέντρο Απόφασης Στη συνέχεια, θα δούμε αλγόριθμους για την κατασκευή του δέντρου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 22 Εξόρυξη Δεδομένων

12 10 Δέντρο Απόφασης Θα δούμε στη συνέχεια αλγορίθμους για την κατασκευή του (βήμα επαγωγής) Κατασκευή του δέντρου (με λίγα λόγια): 1. Ξεκίνα με έναν κόμβο που περιέχει όλες τις εγγραφές 2. Διάσπαση του κόμβου (μοίρασμα των εγγραφών) με βάση μια συνθήκη διαχωρισμού σε κάποιο από τα γνωρίσματα 3. Αναδρομική κλήση του βήματος 2 σε κάθε κόμβο 4. Αφού κατασκευαστεί το δέντρο, κάποιες βελτιστοποιήσεις (tree pruning) (top down, recursive, divide and conquer προσέγγιση) Το βασικό θέμα είναι Ποιο γνώρισμα συνθήκη διαχωρισμού να χρησιμοποιήσουμε για τη διάσπαση των εγγραφών κάθε κόμβου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 23 Tid Refund Marital Status Taxable Income Cheat Δέντρο Απόφασης: Παράδειγμα 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Yes Refund TaxInc Για το ίδιο σύνολο εκπαίδευσης υπάρχουν διαφορετικά δέντρα No Single, Divorced MarSt < 80K > 80K Married MarSt Yes Single, Divorced Refund < 80K No TaxInc > 80K YES YES Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 24 Εξόρυξη Δεδομένων

13 Δέντρο Απόφασης: Κατασκευή Ο αριθμός των πιθανών Δέντρων Απόφασης είναι εκθετικός. Πολλοί αλγόριθμοι για την επαγωγή (induction) του δέντρου οι οποίοι ακολουθούν μια greedy στρατηγική: γιανακτίσουντοδέντροαπόφασης παίρνοντας μια σειρά από τοπικά βέλτιστες αποφάσεις Hunt s Algorithm (από τους πρώτους) CART ID3, C4.5 SLIQ, SPRINT Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 25 έντρο Απόφασης: Αλγόριθμος του Hunt Κτίζει το δέντρο αναδρομικά, αρχικά όλες οι εγγραφές σε έναν κόμβο (ρίζα) D t : το σύνολο των εγγραφών εκπαίδευσης που έχουν φτάσει στον κόμβο t Γενική Διαδικασία (αναδρομικά σε κάθε κόμβο) Αν το D t περιέχει εγγραφές που ανήκουνστηνίδιακλάσηy t, τότε ο κόμβος t είναι κόμβος φύλλο με ετικέτα y t? D t Αν D t είναι το κενό σύνολο (αυτό σημαίνει ότι δεν υπάρχει εγγραφή στο σύνολο εκπαίδευσης με αυτό το συνδυασμό τιμών), τότε D t γίνεται φύλλο με κλάση αυτή της πλειοψηφίας των εγγραφών εκπαίδευσης ή ανάθεση κάποιας default κλάσης Αν το D t περιέχει εγγραφές που ανήκουν σε περισσότερες από μία κλάσεις, τότε χρησιμοποίησε έναν έλεγχο γνωρίσματος για το διαχωρισμό των δεδομένων σε μικρότερα υποσύνολα Σημείωση: ο διαχωρισμός δεν είναι δυνατός αν όλες οι εγγραφές έχουν τις ίδιες τιμές σε όλα τα γνωρίσματα (δηλαδή, ο ίδιος συνδυασμός αντιστοιχεί σε περισσότερες από μία κλάσεις) τότε φύλλο με κλάση αυτής της πλειοψηφίας των εγγραφών εκπαίδευσης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 26 Εξόρυξη Δεδομένων

14 10 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no κλάση <=30 income student credit_rating buys_computer high no fair no high no excellent no medium no fair no low yes fair yes medium yes excellent yes Δέντρο Απόφασης Παράδειγμα Ποιο γνώρισμα (πχ age) Ποια συνθήκη age? >40 income student credit_rating buys_computer medium no fair yes low yes fair yes low yes excellent no medium yes fair yes medium no excellent no income student credit_rating buys_computer high no fair yes low yes excellent yes medium no excellent yes high yes fair yes φύλλο με ετικέτα yes Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 27 Don t Cheat Yes Refund Don t Cheat Single, Divorced Cheat Yes Don t Cheat No Marital Status Refund Married Don t Cheat Δέντρο Απόφασης: Αλγόριθμος του Hunt No Don t Cheat Παράδειγμα Yes Refund Don t Cheat Single, Divorced Taxable Income No Marital Status < 80K >= 80K Married Don t Cheat Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Don t Cheat Cheat Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 28 Εξόρυξη Δεδομένων

15 Δέντρο Απόφασης: Κατασκευή Δέντρου Πως θα γίνει ο διαχωρισμός του κόμβου; Greedy στρατηγική Διαχωρισμός εγγραφών με βάση έναν έλεγχο στις τιμές του γνωρίσματος που βελτιστοποιεί ένα συγκεκριμένο κριτήριο Θέματα Καθορισμόςτουτρόπουδιαχωρισμούτωνεγγραφών Ποιο γνώρισμα Ποια συνθήκη Ποιος είναι ο βέλτιστος διαχωρισμός Πότε θα σταματήσει ο διαχωρισμός (συνθήκη τερματισμού) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 29 Δέντρο Απόφασης: Κατασκευή Δέντρου Ας δούμε πρώτα πιθανές συνθήκες ελέγχου για τα γνωρίσματα Εξαρτάται από τον τύπο των γνωρισμάτων Διακριτές Nominal Διατεταγμένες (τακτικές) Ordinal Συνεχείς Continuous Είδη διαχωρισμού: Δυαδικός διαχωρισμός 2 way split Πολλαπλός διαχωρισμός Multi way split Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 30 Εξόρυξη Δεδομένων

16 Δέντρο Απόφασης: Κατασκευή Δέντρου Διαχωρισμός βασισμένος σε διακριτές τιμές Πολλαπλός διαχωρισμός: Χρησιμοποίησε τόσες διασπάσεις όσες οι διαφορετικές τιμές CarType Family Sports Luxury Δυαδικός Διαχωρισμός: Χωρίζει τις τιμές σε δύο υποσύνολα. Πρέπει να βρει το βέλτιστο διαχωρισμό (partitioning). {Sports, Luxury} CarType {Family} {Family, Luxury} CarType {Sports} Γενικά, αν κ τιμές, 2 κ-1 1 τρόποι Όταν υπάρχει διάταξη, πρέπει οι διασπάσεις να μη την παραβιάζουν Αυτός ο διαχωρισμός; {Small, Large} Size {Medium} Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 31 Δέντρο Απόφασης: Κατασκευή Δέντρου Διαχωρισμός βασισμένος σε συνεχείς τιμές Taxable Income > 80K? Taxable Income? < 10K > 80K Yes No [10K,25K) [25K,50K) [50K,80K) Δυαδικός διαχωρισμός Πολλαπλός διαχωρισμός Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 32 Εξόρυξη Δεδομένων

17 10 Δέντρο Απόφασης: Κατασκευή Δέντρου Τρόποι χειρισμού Διαχωρισμός βασισμένος σε συνεχείς τιμές Discretization (διακριτοποίηση) ώστε να προκύψει ένα διατεταγμένο κατηγορικό γνώρισμα Ταξινόμηση των τιμών και χωρισμός τους σε περιοχές καθορίζοντας n 1 σημεία διαχωρισμού, απεικόνιση όλων των τιμών μιας περιοχής στην ίδια κατηγορική τιμή Στατικό μιαφοράστηναρχή Δυναμικό εύρεση των περιοχών πχ έτσι ώστε οι περιοχές να έχουν το ίδιο διάστημα ή τις ίδιες συχνότητες εμφάνισης ή με χρήση συσταδοποίησης Δυαδική Απόφαση: (A < v) or (A v) εξετάζει όλους τους δυνατούς διαχωρισμούς (τιμές του v) και επιλέγει τον καλύτερο υπολογιστικά βαρύ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 33 Δέντρο Απόφασης: Κατασκευή Δέντρου Συνεχή Γνωρίσματα (δυαδικός διαχωρισμός αναλυτικά) Πχ, χρήση δυαδικών αποφάσεων πάνω σε μία τιμή Πολλές επιλογές για την τιμή διαχωρισμού Αριθμός πιθανών διαχωρισμών = Αριθμός διαφορετικών τιμών έστω Ν Κάθε τιμή διαχωρισμού v συσχετίζεται με έναν πίνακα μετρητών Μετρητές των κλάσεων για κάθε μια από τις δύο διασπάσεις, A < v and A v Απλή μέθοδος για την επιλογή της καλύτερης τιμής v (βέλτιστη τιμή διαχωρισμού best split point) Διάταξε τις τιμές του A σε αύξουσα διάταξη Συνήθωςεπιλέγεταιτομεσαίοσημείοανάμεσα σε γειτονικές τιμές ας υποψήφιο (a i +a i+1 )/2 μέσο των τιμών a i και a i+1 Επέλεξε το «βέλτιστο» ανάμεσα στα υποψήφια Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Taxable Income > 80K? Yes No Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 34 Εξόρυξη Δεδομένων

18 Δέντρο Απόφασης: Κατασκευή Δέντρου Greedy στρατηγική. Διάσπαση εγγραφών με βάση έναν έλεγχο γνωρίσματος που βελτιστοποιεί ένα συγκεκριμένο κριτήριο Θέματα Καθορισμός του τρόπου διαχωρισμού των εγγραφών Καθορισμός του ελέγχου γνωρίσματος Καθορισμός του βέλτιστου διαχωρισμού Πότε θα σταματήσει ο διαχωρισμός (συνθήκη τερματισμού) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 35 Δέντρο Απόφασης: Κατασκευή Δέντρου Βέλτιστος Διαχωρισμός Έστω ότι πριν το διαχωρισμό: 10 εγγραφές της κλάσης 0, 10 εγγραφές της κλάσης 1 Own Car? Car Type? Student ID? Yes No Family c 20 Luxury c 1 c 10 Sports c 11 C0: 6 C1: 4 C0: 4 C1: 6 C0: 1 C1: 3 C0: 8 C1: 0 C0: 1 C1: 7 C0: 1 C1: 0... C0: 1 C1: 0 C0: 0 C1: 1... C0: 0 C1: 1 Ποια από τις 3 διασπάσεις να προτιμήσουμε; (Δηλαδή, ποια συνθήκη ελέγχου είναι καλύτερη;) => ορισμός κριτηρίου βέλτιστου διαχωρισμού Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 36 Εξόρυξη Δεδομένων

19 Δέντρο Απόφασης: Κατασκευή Δέντρου Σε κάθε επίπεδο, πολλές διαφορετικές δυνατότητες για την διάσπαση. Ποια θα επιλέξουμε; Ορίζουμε ένα κριτήριο για την «ποιότητα» ενός κόμβου Διαισθητικά, προτιμώνται οι κόμβοι με ομοιογενείς κατανομές κλάσεων (homogeneous class distribution) ιδανικά, όλες οι εγγραφές στην ίδια κλάση Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 37 Δέντρο Απόφασης: Κατασκευή Δέντρου Βέλτιστος Διαχωρισμός Χρειαζόμαστε μία μέτρηση της μη καθαρότητας ενός κόμβου (node impurity) «Καλός» κόμβος!! C0: 5 C1: 5 Μη-ομοιογενής, Μεγάλος βαθμός μη καθαρότητας C0: 9 C1: 1 Ομοιογενής, Μικρός βαθμός μη καθαρότητας v1 C1 0 C2 6 Μη καθαρότητα ~ 0 v2 C1 1 C2 5 ενδιάμεση v3 C1 2 C2 4 ενδιάμεση αλλά μεγαλύτερη v4 C1 3 C2 3 Μεγάλη μη καθαρότητα Ι(v1) < Ι(v2) < I(v3) < I(v4) Θα δούμε 3 διαφορετικούς ορισμούς για την ποιότητα Ι(v) ενός κόμβου v στη συνέχεια Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 38 Εξόρυξη Δεδομένων

20 Δέντρο Απόφασης: Κατασκευή Δέντρου Σε κάθε επίπεδο, πολλές διαφορετικές δυνατότητες για την διάσπαση. Ποια θα επιλέξουμε; Έστω μια διάσπαση ενός κόμβου (parent) με N εγγραφές σε k παιδιά u i Έστω N(u i ) ο αριθμός εγγραφών κάθε παιδιού ( Ν(u i ) = N) Κοιτάμε το κέρδος, δηλαδή τη διαφορά μεταξύ της ποιότητας του γονέα (πριν τη διάσπαση) και το «μέσο όρο» της ποιότητας ων παιδιών του (μετά τη διάσπαση) Δ = I( parent) k i= 1 N( u ) N i I( u ) i Βάρος (εξαρτάται από τον αριθμό εγγραφών) Διαλέγουμε τη διάσπαση με το μεγαλύτερο κέρδος (μεγαλύτερο Δ) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 39 Παράδειγμα Δέντρο Απόφασης: Κατασκευή Πριν τη διάσπαση: C0 C1 N00 N01 M0 A? B? Yes No Yes No Node v1 Node v2 Node v3 Node v4 C0 C1 N10 N11 C0 C1 N20 N21 C0 C1 N30 N31 C0 C1 N40 N41 M1 M2 M3 M4 M12 Gain (κέρδος) = M0 M12 vs M0 M34 M34 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 40 Εξόρυξη Δεδομένων

21 Δέντρο Απόφασης: Αλγόριθμος του Hunt Ψευδό-κώδικας Algorithm GenDecTree(Sample S, Attlist A) 1. create a node N 2. If all samples are of the same class C then label N with C; terminate; 3. If A is empty then label N with the most common class C in S (majority voting); terminate; 4. Select a A, with the highest gain; Label N with a; 5. For each value v of a: a. Grow a branch from N with condition a=v; b. Let S v be the subset of samples in S with a=v; c. If S v is empty then attach a leaf labeled with the most common class in S; d. Else attach the node generated by GenDecTree(S v, A-a) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 41 Δέντρο Απόφασης: Κατασκευή Δέντρου Μέτρα μη Καθαρότητας 1. Ευρετήριο Gini (Gini Index) 2. Εντροπία (Entropy) 3. Λάθος ταξινομήσεις (Misclassification error) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 42 Εξόρυξη Δεδομένων

22 Δέντρο Απόφασης: GINI Ευρετήριο Gini για τον κόμβο t : GINI( t) = 1 c j= 1 [ p( j t)] 2 Παραδείγματα: v1 v2 v3 v4 C1 1 C1 2 C2 5 C2 4 C1 0 C2 6 Gini=0.000 p(j t) σχετική συχνότητα της κλάσης j στον κόμβο t (ποσοστό εγγραφών της κλάσης j στον κόμβο t) c αριθμός κλάσεων Gini=0.278 Gini=0.444 C1 3 C2 3 Gini=0.500 Ελάχιστη τιμή (0.0) ότανόλεςοιεγγραφέςανήκουνσεμίακλάση Μέγιστη τιμή (1 1/c) όταν όλες οι εγγραφές είναι ομοιόμορφα κατανεμημένες στις κλάσεις εξαρτάται από τον αριθμό των κλάσεων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 43 Δέντρο Απόφασης: GINI Χρήση του στην κατασκευή του δέντρου απόφασης Χρησιμοποιείται στα CART, SLIQ, SPRINT. Όταν ένας κόμβος p διασπάται σε k κόμβους (παιδιά), (που σημαίνει ότι το σύνολο των εγγραφών του κόμβου χωρίζεται σε k υποσύνολα), η ποιότητα του διαχωρισμού υπολογίζεται ως: GINI split = k i= 1 ni n GINI ( i) όπου,n i = αριθμός εγγραφών του παιδιού i, n= αριθμός εγγραφών του κόμβου p. Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 44 Εξόρυξη Δεδομένων

23 Παράδειγμα Εφαρμογής Δέντρο Απόφασης: GINI Περίπτωση 1: Δυαδικά Γνωρίσματα C1 4 C2 3 A? Yes Node v1 C1 6 C2 6 No Node v2 C1 2 C2 3 Αρχικός κόμβος Parent C1 6 C2 6 Gini = v1 v2 C1 4 2 C2 3 3 Gini=0.486 Gini(v1) = 1 (4/7) 2 (3/7) 2 = 0.49 Gini(v2) = 1 (2/5) 2 (3/5) 2 = 0.48 Κέρδος Δ = Gini(Children) = 7/12 * /12 * 0.48 = Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 45 Παράδειγμα (συνέχεια) Δέντρο Απόφασης: GINI Yes B? C1 6 C2 6 Parent C1 6 C2 6 Gini = No Υπενθύμιση: με βάση το Α v1 v2 C1 4 2 C2 3 3 Gini=0.486 C1 5 C2 2 Node v1 Node v2 C1 1 C2 4 v1 v2 C1 5 1 C2 2 4 Gini=0.371 Gini(v1) = 1 (5/7) 2 (2/7) 2 = Gini(v2) = 1 (1/5) 2 (4/5) 2 = 0.32 Κέρδος Δ = Gini(Children) = 7/12 * /12 * 0.32 = Άρα διαλέγουμε το Β Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 46 Εξόρυξη Δεδομένων

24 Δέντρο Απόφασης: GINI Περίπτωση 2: Κατηγορικά Γνωρίσματα Για κάθε διαφορετική τιμή, μέτρησε τις τιμές στα δεδομένα που ανήκουν σε κάθε κλάση Χρησιμοποίησε τον πίνακα με τους μετρητές για να πάρεις την απόφαση Δυαδική διάσπαση (βρες τον καλύτερο διαχωρισμό των τιμών) {Family, Luxury} CarType {Sports} {Sports, Luxury} CarType CarType {Sports, {Family} Luxury} {Family} C1 9 1 C2 7 3 Gini CarType {Sports} {Family, Luxury} C1 8 2 C Gini Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 47 Δέντρο Απόφασης: GINI Περίπτωση 2: Κατηγορικά Γνωρίσματα CarType Family Luxury Sports Πολλαπλή Διάσπαση CarType Family Sports Luxury C C Gini Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 48 Εξόρυξη Δεδομένων

25 10 Δέντρο Απόφασης: GINI Παράδειγμα Κλάση ageclass income P: buys_computer student = yes credit_rating <=30Class high N: buys_computer no = no fair buys_computer no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no Αρχικό Gini για αυτόν τον κόμβο: gini( D) = = Έστω ότι το διασπάμε με βάση το income Πρέπει να θεωρήσουμε όλες τις δυνατές διασπάσεις Έστω μόνο δυαδικές D1: {low, medium} και D2 {high} D3: {low} και D4 {medium, high} Αν πολλαπλές διασπάσεις, πρέπει να θεωρήσουμε και άλλες διασπάσεις Με τον ίδιο τρόπο εξετάζουμε και πιθανές διασπάσεις με βάση τα άλλα τρία γνωρίσματα (δηλαδή, age, student, credit_rating) και διαλέγουμε την καλύτερη Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 49 Συνεχή Γνωρίσματα Δέντρο Απόφασης: GINI Χρήση δυαδικού διαχωρισμού πάνω σε μία τιμή Πολλές επιλογές για την τιμή διαχωρισμού Αριθμός πιθανών διαχωρισμών = Αριθμός διαφορετικών τιμών έστω Ν Κάθε τιμή διαχωρισμού v συσχετίζεται με έναν πίνακα μετρητών Μετρητές των κλάσεων για κάθε μια από τις δύο διασπάσεις, A < v and A v Απλή μέθοδος για την επιλογή της καλύτερης τιμής v Για κάθε διαφορετική τιμή v, scan τα δεδομένα, κατασκεύασε τον πίνακα και υπολόγισε το Gini ευρετήριο χρόνος Ο(Ν) Άρα για Ν τιμές, Ο(Ν 2 ) > Υπολογιστικά μη αποδοτικό! Επανάληψη υπολογισμού. Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Taxable Income > 80K? Yes No Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 50 Εξόρυξη Δεδομένων

26 10 Δέντρο Απόφασης: GINI Για ποιο αποδοτικό υπολογισμό, για κάθε γνώρισμα Ταξινόμησε το γνώρισμα Ο(Ν logn) Σειριακή διάσχιση των τιμών, ενημερώνοντας κάθε φορά τον πίνακα με τους μετρητές και υπολογίζοντας το ευρετήριο Gini Επιλογή του διαχωρισμού με το μικρότερο ευρετήριο Gini Παράδειγμα Διαχωρισμός στο γνώρισμα Income Cheat No No No Yes Yes Yes No No No No Taxable Income Ταξινόμηση Τιμών Τιμές διαχωρισμού <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > Yes No Gini Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 51 Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Για <55, δεν υπάρχει εγγραφή οπότε 0 Για <65, κοιτάμε το μικρότερο το 60, 0 >1, 7 >6 YES δεν αλλάζει Για <72, κοιτάμε το μικρότερο το 70, ΝΟ 1 >2 6 >5, YES δεν αλλάζει κοκ Καλύτερα; Αγνοούμε τα σημεία στα οποία δεν υπάρχει αλλαγή κλάσης (αυτά δε μπορεί να είναι σημεία διαχωρισμού) Άρα, στο παράδειγμα, αγνοούνται τα σημεία 55, 65, 72, 87, 92, 122, 172, 230 Από 11 πιθανά σημεία διαχωρισμού μας μένουν μόνο 2 Ταξινομημένες Τιμές Τιμές Διαχωρισμού Cheat No No No Yes Yes Yes No No No No Taxable Income <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > <= > Yes No Gini Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 52 Εξόρυξη Δεδομένων

27 Δέντρο Απόφασης: Κατασκευή Δέντρου Μέτρα μη Καθαρότητας 1. Ευρετήριο Gini Gini Index 2. Εντροπία Entropy 3. Λάθος ταξινομήσεις Misclassification error Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 53 Εντροπία για τον κόμβο t : Δέντρο Απόφασης: Εντροπία Entropy( t) = c j= 1 p( j t)log p( j t) 2 p(j t) σχετική συχνότητα της κλάσης j στον κόμβο t c αριθμός κλάσεων v1 v2 v3 v4 C1 0 C2 6 Entropy=0.000 C1 1 C2 5 Entropy=0.650 C1 2 C2 4 Entropy = 0.92 C1 3 C2 3 Entropy = Gini = Gini = Gini = Gini = Μετράει την ομοιογένεια ενός κόμβου Μέγιστη τιμή log(c) όταν όλες οι εγγραφές είναι ομοιόμορφα κατανεμημένες στις κλάσεις (που σημαίνει τη λιγότερο ενδιαφέρουσα πληροφορία) Ελάχιστη τιμή (0.0) όταν όλες οι εγγραφές ανήκουν σε μία κλάση (που σημαίνει την πιο ενδιαφέρουσα πληροφορία) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 54 Εξόρυξη Δεδομένων

28 Δέντρο Απόφασης: Εντροπία Παραδείγματα Entropy t) p( j t)log p( j t) ( 2 = j C1 0 C2 6 P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Entropy = 0 log 0 1 log 1 = 0 0 = 0 C1 1 C2 5 P(C1) = 1/6 P(C2) = 5/6 Entropy = (1/6) log 2 (1/6) (5/6) log 2 (5/6) = 0.65 C1 2 C2 4 P(C1) = 2/6 P(C2) = 4/6 Entropy = (2/6) log 2 (2/6) (4/6) log 2 (4/6) = 0.92 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 55 Δέντρο Απόφασης: Εντροπία Και σε αυτήν την περίπτωση, όταν ένας κόμβος p διασπάται σε k σύνολα (παιδιά), η ποιότητα του διαχωρισμού υπολογίζεται ως: GAIN split k = Entropy( p) i= 1 n i Entropy( i) n όπου, n i = αριθμός εγγραφών του παιδιού i, n= αριθμός εγγραφών του κόμβου p. Χρησιμοποιείται στα ID3 and C4.5 Όταν χρησιμοποιούμε την εντροπία για τη μέτρηση της μη καθαρότητας τότε η διαφορά καλείται κέρδος πληροφορίας (information gain) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 56 Εξόρυξη Δεδομένων

29 Δέντρο Απόφασης: Κέρδος Πληροφορίας Παράδειγμα Κλάση age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no age p i n i I(p i, n i ) <= > Info( D) = I(9,5) = log ( ) log2( ) Info age ( D) = + 2 = I (2,3) I (3,2) = Gain( income) = Gain( student) = Gain( credit _ rating) = I (4,0) Gain( age) = Info( D) Info ( D) = age Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 57 Δέντρο Απόφασης Δ = I( parent) k i= 1 N( u ) N i I( u ) i Τείνει να ευνοεί διαχωρισμούς που καταλήγουν σε μεγάλο αριθμό από διασπάσεις που η κάθε μία είναι μικρή αλλά καθαρή Own Car? Car Type? Student ID? Yes No Family Sports C0: 6 C1: 4 C0: 4 C1: 6 C0: 1 C1: 3 C0: 8 C1: 0 Luxury c 1 c 20 c 10 c 11 C0: 1 C1: 7 C0: 1 C1: 0... C0: 1 C1: 0 C0: 0 C1: 1... C0: 0 C1: 1 Μπορεί να καταλήξουμε σε πολύ μικρούς κόμβους (με πολύ λίγες εγγραφές) για αξιόπιστες προβλέψεις Στο παράδειγμα, το student id είναι κλειδί, όχι χρήσιμο για προβλέψεις Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 58 Εξόρυξη Δεδομένων

30 Δέντρο Απόφασης: Λόγος Κέρδους Μία λύση είναι να έχουμε μόνο δυαδικές διασπάσεις Εναλλακτικά, μπορούμε να λάβουμε υπό όψιν μας τον αριθμό των κόμβων GainRATIO split GAIN Split = SplitINFO Δηλαδή διαιρούμε με μια ποσότητα που εξαρτάται από τον αριθμό των κόμβων Όπου: SplitINFO = k i= 1 ni n log ni n SplitINFO: εντροπία της διάσπασης Μεγάλος αριθμός μικρών διασπάσεων (υψηλή εντροπία) τιμωρείται Χρησιμοποιείται στο C4.5 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 59 Δέντρο Απόφασης: Λόγος Κέρδους GainRATIO split GAIN Split = SplitINFO SplitINFO = k i= 1 ni n log ni n Παράδειγμα Έστω N εγγραφές αν τις χωρίσουμε Σε 3 («ίσους») κόμβους SplitINFO = log(1/3) = log3 Σε 2 («ίσους») κόμβους SplitINFO = log(1/2) = log2 = 1 Άρα οι 2 ευνοούνται Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 60 Εξόρυξη Δεδομένων

31 Δέντρο Απόφασης: Εντροπία Και τα τρία μέτρα επιστρέφουν καλά αποτελέσματα Κέρδος Πληροφορίας (εντροπία): Δουλεύει καλύτερα σε γνωρίσματα με πολλαπλές τιμές Λόγος Κέρδους: Τείνει να ευνοεί διαχωρισμούς όπου μία διαμέριση είναι πολύ μικρότερη από τις υπόλοιπες Ευρετήριο Gini: Δουλεύει καλύτερα σε γνωρίσματα με πολλαπλές τιμές Δε δουλεύει τόσο καλά όταν ο αριθμός των κλάσεων είναι μεγάλος Τείνει να ευνοεί ελέγχους που οδηγούν σε ισομεγέθεις διαμερίσεις που και οι δύο είναι καθαρές Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 61 Δέντρο Απόφασης: Κατασκευή Δέντρου Μέτρα μη Καθαρότητας 1. Ευρετήριο Gini Gini Index 2. Εντροπία Entropy 3. Λάθος ταξινομήσεις Misclassification error Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 62 Εξόρυξη Δεδομένων

32 Λάθος ταξινόμησης (classification error) για τον κόμβο t : Μετράει το λάθος ενός κόμβου Δέντρο Απόφασης: Λάθος Ταξινόμησης Error( t) = 1 max P( i t) class i C1 0 C2 6 C1 1 C2 5 Παράδειγμα Όσες ταξινομούνται σωστά Υπενθύμιση: στις εγγραφές P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 ενός κόμβου ανατίθεται η Error = 1 max (0, 1) = 1 1 = 0 κλάση της πλειοψηφίας, (max p(i t)), όλα τα άλλα (1 max) ταξινομούνται λάθος P(C1) = 1/6 P(C2) = 5/6 Error = 1 max (1/6, 5/6) = 1 5/6 = 1/6 C1 2 C2 4 P(C1) = 2/6 P(C2) = 4/6 Error = 1 max (2/6, 4/6) = 1 4/6 = 1/3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 63 Δέντρο Απόφασης: Λάθος Ταξινόμησης Λάθος ταξινόμησης (classification error) για τον κόμβο t : Error( t) = 1 max P( i t) class i Μετράει το λάθος ενός κόμβου Μέγιστη τιμή 1 1/c όταν όλες οι εγγραφές είναι ομοιόμορφα κατανεμημένες στις κλάσεις (που σημαίνει τη λιγότερο ενδιαφέρουσα πληροφορία) Ελάχιστη τιμή (0.0) όταν όλες οι εγγραφές ανήκουν σε μία κλάση (που σημαίνει την πιο ενδιαφέρουσα πληροφορία) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 64 Εξόρυξη Δεδομένων

33 Δέντρο Απόφασης: Σύγκριση Για ένα πρόβλημα δύο κλάσεων p ποσοστό εγγραφών που ανήκει σε μία από τις δύο κλάσεις (p κλάση +, 1 p κλάση ) Όλες την μεγαλύτερη τιμή για 0.5 (ομοιόμορφη κατανομή) Όλες μικρότερη τιμή όταν όλες οι εγγραφές σε μία μόνο κλάση (0 και στο 1) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 65 Δέντρο Απόφασης: Σύγκριση Όπως είδαμε και στα παραδείγματα οι τρεις μετρήσεις είναι συνεπής μεταξύ τους, πχ v1 μικρότερη τιμή από το v2 και με τις τρεις μετρήσεις Ωστόσο το γνώρισμα που θα επιλεγεί για τη συνθήκη ελέγχου εξαρτάται από το ποια μέτρηση χρησιμοποιείται v1 v2 v3 v4 C1 0 C2 6 Error=0.000 C1 1 C2 5 Error=0.167 C1 2 C2 4 Error = C1 3 C2 3 Error = Gini = Gini = Gini = Gini = Entropy = Entropy = Entropy = Entropy = Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 66 Εξόρυξη Δεδομένων

34 Δέντρο Απόφασης: Αλγόριθμος του Hunt Ψευδό κώδικας (πάλι) Algorithm GenDecTree(Sample S, Attlist A) 1. create a node N 2. If all samples are of the same class C then label N with C; terminate; 3. If A is empty then label N with the most common class C in S (majority voting); terminate; 4. Select a A, with the highest information gain (gini, error); Label N with a; 5. For each value v of a: a. Grow a branch from N with condition a=v; b. Let S v be the subset of samples in S with a=v; c. If S v is empty then attach a leaf labeled with the most common class in S; d. Else attach the node generated by GenDecTree(S v, A-a) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 67 Δέντρο Απόφασης: Κατασκευή Δέντρου Greedy στρατηγική. Διάσπαση εγγραφών με βάση έναν έλεγχο γνωρίσματος που βελτιστοποιεί ένα συγκεκριμένο κριτήριο Θέματα Καθορισμόςτουτρόπουδιαχωρισμούτωνεγγραφών Καθορισμός του ελέγχου γνωρίσματος Καθορισμός του βέλτιστου διαχωρισμού Πότε θα σταματήσει ο διαχωρισμός (συνθήκη τερματισμού) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 68 Εξόρυξη Δεδομένων

35 Δέντρο Απόφασης: Κριτήρια Τερματισμού Σταματάμε την επέκταση ενός κόμβου όταν όλες οι εγγραφές του ανήκουν στην ίδια κλάση Σταματάμε την επέκταση ενός κόμβου όταν όλα τα γνωρίσματα έχουν τις ίδιες τιμές Γρήγορος τερματισμός με βάση τον αριθμό των εγγραφών με βάση το κέρδος (λάθος) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 69 Δέντρο Απόφασης Data Fragmentation Διάσπαση Δεδομένων Ο αριθμός των εγγραφών μειώνεται όσο κατεβαίνουμε στο δέντρο Ο αριθμός των εγγραφών στα φύλλα μπορεί να είναι πολύ μικρός για να πάρουμε οποιαδήποτε στατιστικά σημαντική απόφαση Μπορούμε να αποτρέψουμε την περαιτέρω διάσπαση όταν ο αριθμός των εγγραφών πέσει κάτω από ένα όριο Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 70 Εξόρυξη Δεδομένων

36 Δέντρο Απόφασης Πλεονεκτήματα Δέντρων Απόφασης Μη παραμετρική προσέγγιση: Δε στηρίζεται σε υπόθεση εκ των προτέρων γνώσης σχετικά με τον τύπο της κατανομής πιθανότητας που ικανοποιεί η κλάση ή τα άλλα γνωρίσματα Η κατασκευή του βέλτιστου δέντρου απόφασης είναι ένα NP complete πρόβλημα. Ευριστικοί: Αποδοτική κατασκευή ακόμα και στην περίπτωση πολύ μεγάλου συνόλου δεδομένων Αφού το δέντρο κατασκευαστεί, η κατηγοριοποίηση νέων εγγραφών είναι πολύ γρήγορη O(h) όπουh το μέγιστο ύψος του δέντρου Εύκολα στην κατανόηση (ιδιαίτερα τα μικρά δέντρα) Η ακρίβεια τους συγκρίσιμη με άλλες τεχνικές για μικρά σύνολα δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 71 Δέντρο Απόφασης Πλεονεκτήματα Καλή συμπεριφορά στο θόρυβο Η ύπαρξη πλεοναζόντων γνωρισμάτων (γνωρίσματα των οποίων η τιμή εξαρτάται από κάποιο άλλο) δεν είναι καταστροφική για την κατασκευή. Χρησιμοποιείται ένα από τα δύο. Αν πάρα πολλά, μπορεί να οδηγήσουν σε δέντρα πιο μεγάλα από ότι χρειάζεται Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 72 Εξόρυξη Δεδομένων

37 Δέντρο Απόφασης Εκφραστικότητα Δυνατότητα αναπαράστασης για συναρτήσεις διακριτών τιμών, αλλά δε δουλεύουν σε κάποια είδη δυαδικών προβλημάτων πχ, parity ισοτιμία 0(1) αν υπάρχει μονός (ζυγός) αριθμός από δυαδικά γνωρίσματα 2 d κόμβοι για d γνωρίσματα Όχι καλή συμπεριφορά για συνεχείς μεταβλητές Ιδιαίτερα όταν η συνθήκη ελέγχου αφορά ένα γνώρισμα τη φορά Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 73 Δέντρο Απόφασης Decision Boundary Μέχρι στιγμής είδαμε ελέγχους που αφορούν μόνο ένα γνώρισμα τη φορά, μπορούμε να δούμε τη διαδικασία ως τη διαδικασία διαμερισμού του χώρου των γνωρισμάτων σε ξένες περιοχές μέχρι κάθε περιοχή να περιέχει εγγραφές που να ανήκουν στην ίδια κλάση Η οριακή γραμμή (Border line) μεταξύ δυο γειτονικών περιοχών που ανήκουν σε διαφορετικές κλάσεις ονομάζεται και decision boundary (σύνορο απόφασης) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 74 Εξόρυξη Δεδομένων

38 Δέντρο Απόφασης Όταν η συνθήκη ελέγχου περιλαμβάνει μόνο ένα γνώρισμα τη φορά τότε το Decision boundary είναι παράλληλη στους άξονες (τα decision boundaries είναι ορθογώνια παραλληλόγραμμα) x < 0.43? Yes No y y < 0.47? y < 0.33? Yes No Yes No : 4 : 0 : 0 : 4 : 0 : 3 : 4 : x Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 75 Δέντρο Απόφασης Oblique (πλάγιο) Δέντρο Απόφασης x + y < 1 Class = + Class = Οι συνθήκες ελέγχου μπορούν να περιλαμβάνουν περισσότερα από ένα γνωρίσματα Μεγαλύτερη εκφραστικότητα Η εύρεση βέλτιστων συνθηκών ελέγχου είναι υπολογιστικά ακριβή Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 76 Εξόρυξη Δεδομένων

39 Δέντρο Απόφασης Constructive induction (εποικοδομητική επαγωγή) Κατασκευή σύνθετων γνωρισμάτων ως αριθμητικών ή λογικών συνδυασμών άλλων γνωρισμάτων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 77 Δέντρο Απόφασης Στρατηγική αναζήτησης Ο αλγόριθμος που είδαμε χρησιμοποιεί μια greedy, top down, αναδρομική διάσπαση για να φτάσει σε μια αποδεκτή λύση Άλλες στρατηγικές? Bottom up (από τα φύλλα, αρχικά κάθε εγγραφή και φύλλο) Bi directional Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 78 Εξόρυξη Δεδομένων

40 Δέντρο Απόφασης Tree Replication (Αντίγραφα) P Q R S 0 Q S 0 Το ίδιο υπο δέντρο να εμφανίζεται πολλές φορές σε ένα δέντρο απόφασης Αυτό κάνει το δέντρο πιο περίπλοκο και πιθανών δυσκολότερο στην κατανόηση 0 1 Σε περιπτώσεις διάσπασης ενός γνωρίσματος σε κάθε εσωτερικό κόμβο ο ίδιος έλεγχος σε διαφορετικά σημεία Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 79 Δέντρο Απόφασης: C4.5 Simple depth first construction. Uses Information Gain Sorts Continuous Attributes at each node. Needs entire data to fit in memory. Unsuitable for Large Datasets. Needs out of core sorting. You can download the software from: Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 80 Εξόρυξη Δεδομένων

41 Δέντρο Απόφασης Περίληψη Προτερήματα Pros + Λογικός χρόνος εκπαίδευσης + Γρήγορη εφαρμογή + Ευκολία στην κατανόηση + Εύκολη υλοποίηση + Μπορεί να χειριστεί μεγάλο αριθμό γνωρισμάτων Μειονεκτήματα Cons Δεν μπορεί να χειριστεί περίπλοκες σχέσεις μεταξύ των γνωρισμάτων Απλά όρια απόφασης (decision boundaries) Προβλήματα όταν λείπουν πολλά δεδομένα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 81 Θέματα στην Κατηγοριοποίηση Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 82 Εξόρυξη Δεδομένων

42 Εκτίμηση του Λάθους Ως λάθος (σφάλμα) μετράμε τις εγγραφές που το μοντέλο τοποθετεί σε λάθος κλάση 2 ειδών λάθη Εκπαίδευσης (training, resubstitution, apparent): λάθη κατηγοριοποίησης στα δεδομένα του συνόλου εκπαίδευσης (ποσοστό δεδομένων εκπαίδευσης που κατηγοριοποιούνται σε λάθος κλάση) Γενίκευσης (generalization): τα αναμενόμενα λάθη κατηγοριοποίησης του μοντέλου σε δεδομένα που δεν έχει δει Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 83 Λάθη και στα δεδομένα εκπαίδευσης, γιατί χρησιμοποιούμε την πλειοψηφία των εγγραφών σε ένα φύλλο για να αποδώσουμε κλάση Εκτίμηση του Λάθους Πλειοψηφία στην + Άρα 1 έγγραφή λάθος Πλειοψηφία στην - Άρα 3 εγγραφές λάθος Παράδειγμα δύο δέντρων για τα ίδια δεδομένα εκπαίδευσης Με βάση το λάθος εκπαίδευσης Αριστερό 4/24 = Δεξί: 6/24 = 0.25 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 84 Εξόρυξη Δεδομένων

43 Υπερπροσαρμογή (Overfitting) Υπερπροσαρμογή Overfitting Μπορεί ένα μοντέλο που ταιριάζει πολύ καλά με τα δεδομένα εκπαίδευσης να έχει μεγαλύτερο λάθος γενίκευσης από ένα μοντέλο που ταιριάζει λιγότερο καλά στα δεδομένα εκπαίδευσης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 85 Overfitting Δύο κλάσεις: κλάση 1 (500 κυκλικά σημεία) και κλάση 2 (500 τριγωνικά σημεία) Για τα σημεία της κλάσης 1 (κυκλικά σημεία): 0.5 sqrt(x 12 +x 22 ) 1 Για τα σημεία της κλάσης 2 (τριγωνικά σημεία): sqrt(x 12 +x 22 ) > 0.5 or sqrt(x 12 +x 22 ) < 1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 86 Εξόρυξη Δεδομένων

44 Everything should be made as simple as possible, but not simpler, Einstein Overfitting Overfitting Το δέντρο απόφασης για το προηγούμενα δεδομένα 30% εκπαίδευση 70% έλεγχο Gini Στη συνέχεια, pruning Underfitting (υποπροσαρμογή): όταν το μοντέλο είναι πολύ απλό και τα λάθη εκπαίδευσης και τα λάθη ελέγχου είναι μεγάλα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 87 Μπορούμε να διασπάμε το δέντρο μέχρι να φτάσουμε στο σημείο κάθε φύλλο να ταιριάζει απολύτως στα δεδομένα Μικρό (μηδενικό) λάθος εκπαίδευσης Μεγάλο λάθος ελέγχου Και το ανάποδο, μπορεί επίσης να ισχύει Overfitting Δέντρα απόφασης με διαφορετική πολυπλοκότητα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 88 Εξόρυξη Δεδομένων

45 Overfitting εξαιτίας Θορύβου Overfitting Το σημείο θορύβου επηρεάζει τη συνθήκη (Decision boundary is distorted by noise point) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 89 Overfitting εξαιτίας μη Επαρκών Δειγμάτων Overfitting Κόκκινοι κύκλοι ανήκουν στην ίδια κλάση Οι γεμάτοι είναι στο σύνολο εκπαίδευσης, οι άδειοι στο σύνολο ελέγχου Η έλλειψη κόκκινων σημείων στο κάτω μισό του διαγράμματος κάνει δύσκολη την πρόβλεψη των κλάσεων σε αυτήν την περιοχή Μη επαρκής αριθμός εγγραφών εκπαίδευσης έχει ως αποτέλεσμα το δέντρο απόφασης να κάνει πρόβλεψηγιατασημείααυτήςτηςπεριοχήςχρησιμοποιώντας εγγραφές εκπαίδευσης μη σχετικές με το έργο της ταξινόμησης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 90 Εξόρυξη Δεδομένων

46 Overfitting Πρόβλημα λόγω πολλαπλών επιλογών Επειδή σε κάθε βήμα εξετάζουμε πάρα πολλές διαφορετικές διασπάσεις, κάποια διάσπαση βελτιώνει το δέντρο κατά τύχη Το πρόβλημα χειροτερεύει όταν αυξάνει ο αριθμός των επιλογών και μειώνεται ο αριθμός των δειγμάτων (σημείων εκπαίδευσης) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 91 Overfitting Το οverfitting έχει ως αποτέλεσμα μοντέλα (δέντρα απόφασης) που είναι πιο περίπλοκα από ό,τι χρειάζεται Τα λάθη εκπαίδευσης δεν αποτελούν πια μια καλή εκτίμηση για τη συμπεριφορά του δέντρου σε εγγραφές που δεν έχει δει ξανά Νέοι μέθοδοι για την εκτίμηση του λάθους Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 92 Εξόρυξη Δεδομένων

47 Κλάδεμα Δέντρου Δύο βασικές προσεγγίσεις κλαδέματος (pruning) του δέντρου: Pre pruning Σταμάτημα της ανάπτυξης του δέντρου μετά από κάποιο σημείο Post pruning Η κατασκευή του δέντρου χωρίζεται σε δύο φάσεις: 1. Φάση Ανάπτυξης 2. Φάση Κλαδέματος Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 93 Κλάδεμα Δέντρου Pre-Pruning (Early Stopping Rule) Σταμάτα τον αλγόριθμο πριν σχηματιστεί ένα πλήρες δέντρο Συνήθεις συνθήκες τερματισμού για έναν κόμβο: Σταμάτα όταν όλες οι εγγραφές ανήκουν στην ίδια κλάση Σταμάτα όταν όλες οι τιμές των γνωρισμάτων είναι οι ίδιες Πιο περιοριστικές συνθήκες: Σταμάτα όταν ο αριθμός των εγγραφών είναι μικρότερος από κάποιο προκαθορισμένο κατώφλι Σταμάτα όταν η επέκταση ενός κόμβου δεν βελτιώνει την καθαρότητα (π.χ., Gini ή information gain) ήτολάθος γενίκευσης περισσότερο από κάποιο κατώφλι. ( ) δύσκολος ο καθορισμός του κατωφλιού, ( ) ανκαι το κέρδος μικρό, κατοπινοί διαχωρισμοί μπορεί να καταλήξουν σε καλύτερα δέντρα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 94 Εξόρυξη Δεδομένων

48 Κλάδεμα Δέντρου Post pruning Ανάπτυξε το δέντρο πλήρως Trim ψαλίδισε τους κόμβους από πάνω προς τα κάτω (bottom up) Αν το λάθος γενίκευσης μειώνεται με το ψαλίδισμα, αντικατέστησε το υποδέντρο με ένα φύλλο οι ετικέτες κλάσεις του φύλλου καθορίζεται από την πλειοψηφία των κλάσεων των εγγραφών του υποδέντρου (subtree replacement) ένα από τα κλαδιά του (Branch), αυτό που χρησιμοποιείται συχνότερα (subtree raising) Χρησιμοποιείται πιο συχνά Χρήση άλλων δεδομένων για τον υπολογισμό του καλύτερου δέντρου του λάθους γενίκευσης) (δηλαδή Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 95 Εκτίμηση του Λάθους Εκτίμηση Λάθους Γενίκευσης Ως λάθος μετράμε τις εγγραφές που ο ταξινομητής τοποθετεί σε λάθος κλάση Χρήση Δεδομένων Εκπαίδευσης αισιόδοξη εκτίμηση απαισιόδοξη εκτίμηση Χρήση Δεδομένων Ελέγχου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 96 Εξόρυξη Δεδομένων

49 Εκτίμηση του Λάθους Re substitution errors: Λάθος στην εκπαίδευση (Σ e(t) ) Generalization errors: Λάθος στον έλεγχο (Σ e (t)) Ως λάθος μετράμε το ποσοστό των εγγραφών που το μοντέλο τοποθετεί σε λάθος κλάση Μέθοδοι εκτίμησης του λάθους γενίκευσης: Optimistic approach Αισιόδοξη προσέγγιση: e (t) = e(t) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 97 Εκτίμηση του Λάθους Πλειοψηφία στην + Άρα 1 έγγραφή λάθος Πλειοψηφία στην - Άρα 3 εγγραφές λάθος Παράδειγμα δύο δέντρων για τα ίδια δεδομένα Το δέντρο στο δεξί (T R ) μετά από ψαλίδισμα του δέντρου στα αριστερά (T L ) sub tree raising Με βάση το λάθος εκπαίδευσης Αριστερό 4/24 = Δεξί: 6/24 = 0.25 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 98 Εξόρυξη Δεδομένων

50 Πολυπλοκότητα Μοντέλου Occam s Razor Δοθέντων δυο μοντέλων με παρόμοια λάθη γενίκευσης, πρέπει να προτιμάται το απλούστερο από το πιο περίπλοκο Ένα πολύπλοκο μοντέλο είναι πιο πιθανό να έχει ταιριαστεί (Fitted) τυχαία λόγω λαθών στα δεδομένα Για αυτό η πολυπλοκότητα του μοντέλου θα πρέπει να αποτελεί έναν από τους παράγοντες της αξιολόγησής του Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 99 Εκτίμηση του Λάθους Γενίκευσης Pessimistic approach Απαισιόδοξη προσέγγιση: k: αριθμός φύλλων, για κάθε φύλλο t i προσθέτουμε ένα κόστος V(t i ) e'( T ) k i i= 1 = k [ e( t ) + V ( t )] i 1 n( t ) i i Aν για κάθε φύλλο t,v(t) = 0.5: e (t) = e(t) Συνολικό λάθος: e (T) = e(t) + k 0.5 (k: αριθμός φύλλων) Το 0.5 σημαίνει ότι διαχωρισμός ενός κόμβου δικαιολογείται αν βελτιώνει τουλάχιστον μία εγγραφή Για ένα δέντρο με 30 φύλλα και 10 λάθη στο σύνολο εκπαίδευσης (από σύνολο 1000 εγγραφών): Training error = 10/1000 = 1% Generalization error = ( )/1000 = 2.5% Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 100 Εξόρυξη Δεδομένων

51 Εκτίμηση του Λάθους Παράδειγμα δύο δέντρων για τα ίδια δεδομένα Με βάση το λάθος εκπαίδευσης Αν αντί για 0.5, κάτι μεγαλύτερο; Αριστερό (4 + 7*0.5)/24 = Δεξί: (6 + 4*0.5)/24 = Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 101 Κλάδεμα Δέντρου Παράδειγμα Post Pruning Λάθος εκπαίδευσης (Πριν τη διάσπαση) = 10/30 Class = Yes 20 Class = No 10 Error = 10/30 A1 A? A4 Απαισιόδοξο λάθος = ( )/30 = 10.5/30 Λάθος εκπαίδευσης (Μετά τη διάσπαση) = 9/30 Απαισιόδοξο λάθος (Μετά τη διάσπαση) A2 A3 = ( )/30 = 11/30 PRUNE! Class = Yes Class = No 8 4 Class = Yes Class = No 4 1 Class = Yes Class = No 5 1 Class = Yes Class = No 3 4 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 102 Εξόρυξη Δεδομένων

52 Εκτίμηση του Λάθους Reduced error pruning (REP): χρήση ενός συνόλου επαλήθευσης για την εκτίμηση του λάθους γενίκευσης Χώρισε τα δεδομένα εκπαίδευσης: 2/3 εκπαίδευση 1/3 (σύνολο επαλήθευσης validation set) για υπολογισμό λάθους Χρήση για εύρεση του κατάλληλου μοντέλου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 103 Παράδειγμα post pruning Κλάδεμα Δέντρου Αισιόδοξη προσέγγιση? Όχι διάσπαση Απαισιόδοξη προσέγγιση? Case 1: C0: 11 C1: 3 C0: 2 C1: 4 όχι case 1, ναι case 2 REP? Εξαρτάται από το σύνολο ελέγχου Case 2: C0: 14 C1: 3 C0: 2 C1: 2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 104 Εξόρυξη Δεδομένων

53 10 Τιμές που λείπουν Οι τιμές που λείπουν (missing values) επηρεάζουν την κατασκευή του δέντρου με τρεις τρόπους: Πως υπολογίζονται τα μέτρα καθαρότητας Πως κατανέμονται στα φύλλα οι εγγραφές με τιμές που λείπουν Πως ταξινομείται μια εγγραφή εκπαίδευσης στην οποία λείπει μια τιμή Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 105 Τιμές που λείπουν Tid Refund Marital Status Taxable Income Class 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10? Single 90K Yes Missing value Υπολογισμό μέτρων καθαρότητας Πριν τη διάσπαση: Entropy(Parent) = -0.3 log(0.3)-(0.7)log(0.7) = Κόμβος 1 Κόμβος 2 Class = Yes Class = No Refund=Yes 0 3 Refund=No 2 4 Refund=? 1 0 Διάσπαση στο Refund: Entropy(Refund=Yes) = 0 Entropy(Refund=No) = -(2/6)log(2/6) (4/6)log(4/6) = Entropy(Children) = 0.3 (0) (0.9183) = Gain = 0.9 ( ) = Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ I 106 Εξόρυξη Δεδομένων

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ Εισαγωγή Εισαγωγή Τεράστιος όγκος διαθέσιμων δεδομένων χρειαζόμαστε μεθόδουςγιανατααναλύσουμε Τι είναι η Εξόρυξη Δεδομένων (με δυο λόγια) Αποδοτικές τεχνικές για να αναλύσουμε πολύ μεγάλες

Διαβάστε περισσότερα

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες Αλγόριθμοι Δεδομένα input Αλγόριθμοι Εξόρυξης Πληροφορίας Εξαγόμενα output

Διαβάστε περισσότερα

Predicting the Choice of Contraceptive Method using Classification

Predicting the Choice of Contraceptive Method using Classification ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΣΣΑΛΟΝΙΚΗ Predicting the Choice of Contraceptive Method using Classification ΠΑΠΑΔΟΠΟΥΛΟΣ ΧΡΗΣΤΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Νικόλαος Σαμαράς ΕΞΕΤΑΣΤΗΣ:

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Δέντρα Αναζήτησης Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Το πρόβλημα Αναζήτηση Θέλουμε να διατηρήσουμε αντικείμενα με κλειδιά και να μπορούμε εκτός από

Διαβάστε περισσότερα

Αναδρομικοί Αλγόριθμοι

Αναδρομικοί Αλγόριθμοι Αναδρομικός αλγόριθμος (recursive algorithm) Επιλύει ένα πρόβλημα λύνοντας ένα ή περισσότερα στιγμιότυπα του ίδιου προβλήματος. Αναδρομικός αλγόριθμος (recursive algorithm) Επιλύει ένα πρόβλημα λύνοντας

Διαβάστε περισσότερα

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER» Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Διαβάστε περισσότερα

Κεφάλαιο 14. οµές Ευρετηρίων για Αρχεία. ιαφάνεια 14-1

Κεφάλαιο 14. οµές Ευρετηρίων για Αρχεία. ιαφάνεια 14-1 ιαφάνεια 14-1 Κεφάλαιο 14 οµές Ευρετηρίων για Αρχεία Copyright 2007 Ramez Elmasri and Shamkant B. NavatheΕλληνικήΈκδοση, ιαβλος, Επιµέλεια Μ.Χατζόπουλος 1 Θα µιλήσουµε για Τύποι Ταξινοµηµένων Ευρετηρίων

Διαβάστε περισσότερα

υναμικός Προγραμματισμός

υναμικός Προγραμματισμός υναμικός Προγραμματισμός ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιωνυμικοί Συντελεστές ιωνυμικοί

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης «Σχεδίαση και υλοποίηση έξυπνου συστήματος ανάλυσης

Διαβάστε περισσότερα

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Πρόβλημα 1 Το πρώτο πρόβλημα λύνεται με τη μέθοδο του Δυναμικού Προγραμματισμού. Για να το λύσουμε με Δυναμικό Προγραμματισμό

Διαβάστε περισσότερα

ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ. Σπουδάστρια Αρχοντοπούλου Ελένη. Εισηγητής Καθηγητής

ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ. Σπουδάστρια Αρχοντοπούλου Ελένη. Εισηγητής Καθηγητής ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ Σπουδάστρια Αρχοντοπούλου Ελένη Εισηγητής Καθηγητής Ρ γ. Γκούμας Στέφανος Καβάλα 2009 Περιεχόμενα 1. Εισαγωγή... 1 1.1.

Διαβάστε περισσότερα

Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ

Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ Α ΡΙΣΤΟΤΕΛΕΙΟ Π ΑΝΕΠΙΣΤΗΜΙΟ Θ ΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΠΡΟΒΛΕΨΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΑΓΩΝΩΝ ΠΟΔΟΣΦΑΙΡΟΥ ΠΑΥΛΟΣ ΠΟΛΙΑΝΙΔΗΣ

Διαβάστε περισσότερα

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης Αναγνώριση Προτύπων (Pattern Recognton Μπεϋζιανή Θεωρία Αποφάσεων (Bayesan Decson Theory Π. Τσακαλίδης ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ Μπεϋζιανή Θεωρία Αποφάσεων (Bayes Decson theory Στατιστικά

Διαβάστε περισσότερα

Διάλεξη 06: Συνδεδεμένες Λίστες & Εφαρμογές Στοιβών και Ουρών

Διάλεξη 06: Συνδεδεμένες Λίστες & Εφαρμογές Στοιβών και Ουρών ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 06: Συνδεδεμένες Λίστες & Εφαρμογές Στοιβών και Ουρών Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Υλοποίηση ΑΤΔ με Συνδεδεμένες Λίστες -

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα Αλγόριθμοι και Πολυπλοκότητα Ροή Δικτύου Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Μοντελοποίηση Δικτύων Μεταφοράς Τα γραφήματα χρησιμοποιούνται συχνά για την μοντελοποίηση

Διαβάστε περισσότερα

Αλγόριθμοι Τυφλής Αναζήτησης

Αλγόριθμοι Τυφλής Αναζήτησης Τεχνητή Νοημοσύνη 04 Αλγόριθμοι Τυφλής Αναζήτησης Αλγόριθμοι Τυφλής Αναζήτησης (Blind Search Algorithms) Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει αξιολόγηση των καταστάσεων.

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Δρομολόγηση Και Πολύχρωματισμός. Γραφημάτων ΚΑΡΑΓΕΩΡΓΟΣ ΤΙΜΟΘΕΟΣ Α.Μ 1026

Δρομολόγηση Και Πολύχρωματισμός. Γραφημάτων ΚΑΡΑΓΕΩΡΓΟΣ ΤΙΜΟΘΕΟΣ Α.Μ 1026 Δρομολόγηση Και Πολύχρωματισμός Μονοπατιών Γραφημάτων ΚΑΡΑΓΕΩΡΓΟΣ ΤΙΜΟΘΕΟΣ Α.Μ 1026 Εισαγωγή. Το πρόβλημα με το οποίο θα ασχοληθούμε εδώ είναι γνωστό σαν: Δρομολόγηση και Πολύ-χρωματισμός Διαδρομών (Routing

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ 1 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ Φροντιστήριο #10: Αλγόριθμοι Διαίρει & Βασίλευε: Master Theorem, Αλγόριθμοι Ταξινόμησης, Πιθανοτικός

Διαβάστε περισσότερα

Digital Image Processing

Digital Image Processing Digital Image Processing Intensity Transformations Πέτρος Καρβέλης pkarvelis@gmail.com Images taken from: R. Gonzalez and R. Woods. Digital Image Processing, Prentice Hall, 2008. Image Enhancement: είναι

Διαβάστε περισσότερα

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Λεξικό, Union Find. ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Λεξικό, Union Find ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιαχείριση ιαμερίσεων Συνόλου Στοιχεία

Διαβάστε περισσότερα

Δομές Δεδομένων (Data Structures)

Δομές Δεδομένων (Data Structures) Δομές Δεδομένων (Data Structures) Ανάλυση - Απόδοση Αλγορίθμων Έλεγχος Αλγορίθμων. Απόδοση Προγραμμάτων. Χωρική/Χρονική Πολυπλοκότητα. Ασυμπτωτικός Συμβολισμός. Παραδείγματα. Αλγόριθμοι: Βασικές Έννοιες

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

ΕΥΡΕΣΗ ΕΛΑΧΙΣΤΩΝ ΜΟΝΟΠΑΤΙΩΝ & ΚΑΤΗΓΟΡΙΕΣ ΑΛΓΟΡΙΘΜΩΝ

ΕΥΡΕΣΗ ΕΛΑΧΙΣΤΩΝ ΜΟΝΟΠΑΤΙΩΝ & ΚΑΤΗΓΟΡΙΕΣ ΑΛΓΟΡΙΘΜΩΝ ΕΥΡΕΣΗ ΕΛΑΧΙΣΤΩΝ ΜΟΝΟΠΑΤΙΩΝ & ΚΑΤΗΓΟΡΙΕΣ ΑΛΓΟΡΙΘΜΩΝ (ΑΛΓΟΡΙΘΜΟΙ, Sanjoy Dasgupta, Christos Papadimitriou, Umesh Vazirani, Κεφάλαιο 4 ΣΧΕΔΙΑΣΜΟΣ ΑΛΓΟΡΙΘΜΩΝ, Jon Kleinberg, Eva Tardos, Κεφάλαιο 4) 1 Θέματα

Διαβάστε περισσότερα

Αλγόριθµοι Brute-Force και Διεξοδική Αναζήτηση

Αλγόριθµοι Brute-Force και Διεξοδική Αναζήτηση Αλγόριθµοι Brute-Force και Διεξοδική Αναζήτηση Περίληψη Αλγόριθµοι τύπου Brute-Force Παραδείγµατα Αναζήτησης Ταξινόµησης Πλησιέστερα σηµεία Convex hull Βελτιστοποίηση Knapsack problem Προβλήµατα Ανάθεσης

Διαβάστε περισσότερα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών

Διαβάστε περισσότερα

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Ονοµατεπώνυµο: Αριθµός Μητρώου: Επαναληπτική Εξέταση (3 ώρες) Ηµεροµηνία:

Διαβάστε περισσότερα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βήματα προς τη δημιουργία εκτελέσιμου κώδικα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βήματα προς τη δημιουργία εκτελέσιμου κώδικα Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Βήματα προς τη δημιουργία εκτελέσιμου κώδικα Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Βήματα προς τη δημιουργία εκτελέσιμου κώδικα

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή Ασκήσεις και Λύσεις

Ενότητα 1: Εισαγωγή Ασκήσεις και Λύσεις Ενότητα 1: Εισαγωγή Ασκήσεις και Λύσεις Άσκηση 1 Αποδείξτε τη µεταβατική και τη συµµετρική ιδιότητα του Θ. Λύση Μεταβατική Ιδιότητα (ορισµός): Αν f(n) = Θ(g(n)) και g(n) = Θ(h(n)) τότε f(n)=θ(h(n)). Για

Διαβάστε περισσότερα

Θεωρία Υπολογισμού και Πολυπλοκότητα

Θεωρία Υπολογισμού και Πολυπλοκότητα Θεωρία Υπολογισμού και Πολυπλοκότητα Κεφάλαιο 1. Μαθηματικό Υπόβαθρο 23, 26 Ιανουαρίου 2007 Δρ. Παπαδοπούλου Βίκη 1 1.1. Σύνολα Ορισμός : Σύνολο μια συλλογή από αντικείμενα Στοιχεία: Μέλη συνόλου Τα στοιχεία

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της; 1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες (μορφές) της; Η δομή επανάληψης χρησιμοποιείται όταν μια σειρά εντολών πρέπει να εκτελεστεί σε ένα σύνολο περιπτώσεων, που έχουν κάτι

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 18 Dijkstra s Shortest Path Algorithm 1 / 12 Ο αλγόριθμος εύρεσης της συντομότερης διαδρομής του Dijkstra

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών. Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων

Εισαγωγή στην επιστήμη των υπολογιστών. Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων Εισαγωγή στην επιστήμη των υπολογιστών Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων 1 ομή εδομένων Μια δομή δεδομένων (data structure) χρησιμοποιεί μια συλλογή από σχετικές μεταξύ τους μεταβλητές, οι οποίες

Διαβάστε περισσότερα

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή ΜΕΡΟΣ Α ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 1 Εξόρυξη Δεδομένων 22 Η επανάσταση του ΚΡΙΟΥ 1.1 Εισαγωγή Το Data Mining αποτελεί μια νέα ερευνητική περιοχή, ραγδαία εξελισσόμενη, που είναι η τομή πολλών θεωριών και επιστημών,

Διαβάστε περισσότερα

Κεφάλαιο 5: Στρατηγική χωροταξικής διάταξης

Κεφάλαιο 5: Στρατηγική χωροταξικής διάταξης K.5.1 Γραμμή Παραγωγής Μια γραμμή παραγωγής θεωρείται μια διάταξη με επίκεντρο το προϊόν, όπου μια σειρά από σταθμούς εργασίας μπαίνουν σε σειρά με στόχο ο κάθε ένας από αυτούς να κάνει μια ή περισσότερες

Διαβάστε περισσότερα

Το Πρόβλημα της Πινακοθήκης (The Art Gallery Problem)

Το Πρόβλημα της Πινακοθήκης (The Art Gallery Problem) Το Πρόβλημα της Πινακοθήκης (The Art Gallery Problem) Τι είναι το Πρόβλημα της Πινακοθήκης; Σας ανήκει μια πινακοθήκη και επιθυμείτε να τοποθετήσετε κάμερες ασφαλείας έτσι ώστε όλη η γκαλερί να είναι προστατευμένη

Διαβάστε περισσότερα

Ολοκλήρωση - Μέθοδος Monte Carlo

Ολοκλήρωση - Μέθοδος Monte Carlo ΦΥΣ 145 - Διαλ.09 Ολοκλήρωση - Μέθοδος Monte Carlo Χρησιμοποίηση τυχαίων αριθμών για επίλυση ολοκληρωμάτων Η μέθοδος Monte Carlo δίνει μια διαφορετική προσέγγιση για την επίλυση ενός ολοκληρώμτατος Τυχαίοι

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5: Αλγόριθμοι

ΚΕΦΑΛΑΙΟ 5: Αλγόριθμοι ΚΕΦΑΛΑΙΟ 5: Αλγόριθμοι 5.1 Η έννοια του αλγορίθμου 5.2 Αναπαράσταση αλγορίθμων 5.3 Επινόηση αλγορίθμων 5.4 Δομές επανάληψης 5.5 Αναδρομικές δομές 5.6 Απόδοση και ορθότητα Οι διαφάνειες βασίζονται σε μεγάλο

Διαβάστε περισσότερα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα Κεφάλαιο 7. 7.1 ομές εδομένων για Γραφικά Υπολογιστών. Οι δομές δεδομένων αποτελούν αντικείμενο της επιστήμης υπολογιστών. Κατά συνέπεια πρέπει να γνωρίζουμε πώς οργανώνονται τα γεωμετρικά δεδομένα, προκειμένου

Διαβάστε περισσότερα

Στόχος µαθήµατος: Παράδειγµα 1: µελέτη ασθενών-µαρτύρων ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ

Στόχος µαθήµατος: Παράδειγµα 1: µελέτη ασθενών-µαρτύρων ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ ΠΜΣ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΥΓΕΙΑ, ΙΑΧΕΙΡΙΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΗ ΑΠΟΤΙΜΗΣΗ ΑΚ. ΕΤΟΣ 2006-2007, 3ο εξάµηνο ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ ΜΑΘΗΜΑ 5 ΕΡΓΑΣΤΗΡΙΟ 1 ΜΕΤΡΑ ΚΙΝ ΥΝΟΥ & ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ ΜΕ ΤΗΝ ΧΡΗΣΗ SPSS

Διαβάστε περισσότερα

Runtime Checking (1/3) Runtime Checking (2/3) Runtime Checking (3/3) ΗΥ 340 Γλώσσες και Μεταφραστές Φροντιστήριο

Runtime Checking (1/3) Runtime Checking (2/3) Runtime Checking (3/3) ΗΥ 340 Γλώσσες και Μεταφραστές Φροντιστήριο ΗΥ 340 Γλώσσες και Μεταφραστές Φροντιστήριο Runtime Checking (1/3) Η γλώσσα alpha είναι μια dynamic typing γλώσσα (ο τύπος μιας μεταβλητής αλλάζει ακολουθώντας τον τύπο της τιμής που κάθε φορά αποθηκεύεται

Διαβάστε περισσότερα

Άσκηση 1 (α) Να διατυπώσετε την πιο κάτω λογική έκφραση στη Visual Basic κάνοντας χρήση μεταβλητών:

Άσκηση 1 (α) Να διατυπώσετε την πιο κάτω λογική έκφραση στη Visual Basic κάνοντας χρήση μεταβλητών: Άσκηση 1 (α) Να διατυπώσετε την πιο κάτω λογική έκφραση στη Visual Basic κάνοντας χρήση μεταβλητών: (Μον.2) Η ηλικία είναι μεταξύ των 15 και 18 συμπεριλαμβανομένων (β) Αν Χ= 4, Υ=2, Κ=2 να βρείτε το αποτέλεσμα

Διαβάστε περισσότερα

Αναδρομή. Τι γνωρίζετε για τη δυνατότητα «κλήσης» αλγορίθμων; Τι νόημα έχει;

Αναδρομή. Τι γνωρίζετε για τη δυνατότητα «κλήσης» αλγορίθμων; Τι νόημα έχει; ΜΑΘΗΜΑ 7 Κλήση αλγορίθμου από αλγόριθμο Αναδρομή Σ χ ο λ ι κ ο Β ι β λ ι ο ΥΠΟΚΕΦΑΛΑΙΟ 2.2.7: ΕΝΤΟΛΕΣ ΚΑΙ ΔΟΜΕΣ ΑΛΓΟΡΙΘΜΟΥ ΠΑΡΑΓΡΑΦΟI 2.2.7.5: Κλήση αλγορίθμου από αλγόριθμο 2.2.7.6: Αναδρομή εισαγωγη

Διαβάστε περισσότερα

Γραφικά Υπολογιστών: Σχεδίαση γραμμών (Bresenham), Σχεδίασης Κύκλων, Γέμισμα Πολυγώνων

Γραφικά Υπολογιστών: Σχεδίαση γραμμών (Bresenham), Σχεδίασης Κύκλων, Γέμισμα Πολυγώνων 1 ΤΕΙ Θεσσαλονίκης Τμήμα Πληροφορικής Γραφικά Υπολογιστών: Σχεδίαση γραμμών (Bresenham), Σχεδίασης Κύκλων, Γέμισμα Πολυγώνων Πασχάλης Ράπτης http://aetos.it.teithe.gr/~praptis praptis@it.teithe.gr 2 Περιγραφή

Διαβάστε περισσότερα

Βασικές Έννοιες Θεωρίας Γραφημάτων

Βασικές Έννοιες Θεωρίας Γραφημάτων Βασικές Έννοιες Θεωρίας Γραφημάτων ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Γραφήματα Μοντελοποίηση

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 15: O αλγόριθμος SIMPLE

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 15: O αλγόριθμος SIMPLE ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ Διάλεξη 15: O αλγόριθμος SIMPLE Χειμερινό εξάμηνο 2008 Προηγούμενη παρουσίαση... Εξετάσαμε τις θέσεις που

Διαβάστε περισσότερα

7ο ΕΡΓΑΣΤΗΡΙΟ AAAABBBBAAAAABBBBBBCCCCCCCCCCCCCCBBABAAAABBBBBBCCCCD

7ο ΕΡΓΑΣΤΗΡΙΟ AAAABBBBAAAAABBBBBBCCCCCCCCCCCCCCBBABAAAABBBBBBCCCCD ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΛΑΜΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ 2010 11 Ιστοσελίδα μαθήματος: http://eclass.teilam.gr/di288 1 Συμπίεση

Διαβάστε περισσότερα

Διάλεξη 9: Αλγόριθμοι Αμοιβαίου Αποκλεισμού με τη χρήση μεταβλητών Ανάγνωσης/Εγγραφής. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

Διάλεξη 9: Αλγόριθμοι Αμοιβαίου Αποκλεισμού με τη χρήση μεταβλητών Ανάγνωσης/Εγγραφής. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι Διάλεξη 9: Αλγόριθμοι Αμοιβαίου Αποκλεισμού με τη χρήση μεταβλητών Ανάγνωσης/Εγγραφής ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι Τι θα δούμε σήμερα Αλγόριθμος Ψησταριάς (Bakery Algorithm) Αλγόριθμος 2- επεξεργαστών

Διαβάστε περισσότερα

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων Ελλιπή δεδομένα Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 75 ατόμων Εδώ έχουμε δ 75,0 75 5 Ηλικία Συχνότητες f 5-4 70 5-34 50 35-44 30 45-54 465 55-64 335 Δεν δήλωσαν 5 Σύνολο 75 Μπορεί

Διαβάστε περισσότερα

Αλγόριθμοι Αναζήτησης σε Παίγνια Δύο Αντιπάλων

Αλγόριθμοι Αναζήτησης σε Παίγνια Δύο Αντιπάλων Τεχνητή Νοημοσύνη 06 Αλγόριθμοι Αναζήτησης σε Παίγνια Δύο Αντιπάλων Εισαγωγικά (1/3) Τα προβλήματα όπου η εξέλιξη των καταστάσεων εξαρτάται από δύο διαφορετικά σύνολα τελεστών μετάβασης που εφαρμόζονται

Διαβάστε περισσότερα

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE) ΔΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE) ΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE). Εισαγωγή Οι στατιστικές δοκιμασίες που μελετήσαμε μέχρι τώρα ονομάζονται παραμετρικές (paramtrc) διότι χαρακτηρίζονται από υποθέσεις σχετικές είτε για

Διαβάστε περισσότερα

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Πιθανοτική Συλλογιστική Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Αβεβαιότητα πεποιθήσεων πράκτορας θεωρίας

Διαβάστε περισσότερα

Extensive Games with Imperfect Information

Extensive Games with Imperfect Information Extensive Games with Imperfect Information Παύλος Στ. Εφραιµίδης Τοµέας Λογισµικού και Ανάπτυξης Εφαρµογών Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εκτεταµένα παίγνια µε ατελή πληροφόρηση

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θ.Ε. ΠΛΗ31 (2004-5) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #3 Στόχος Στόχος αυτής της εργασίας είναι η απόκτηση δεξιοτήτων σε θέματα που αφορούν τα Τεχνητά Νευρωνικά Δίκτυα και ποιο συγκεκριμένα θέματα εκπαίδευσης και υλοποίησης.

Διαβάστε περισσότερα

Διάλεξη 13: Δομές Δεδομένων ΙΙ (Ταξινομημένες Λίστες)

Διάλεξη 13: Δομές Δεδομένων ΙΙ (Ταξινομημένες Λίστες) Τμήμα Πληροφορικής Πανεπιστήμιο Κύπρου ΕΠΛ132 Αρχές Προγραμματισμού II Διάλεξη 13: Δομές Δεδομένων ΙΙ (Ταξινομημένες Λίστες) Δημήτρης Ζεϊναλιπούρ http://www.cs.ucy.ac.cy/courses/epl132 13-1 Περιεχόμενο

Διαβάστε περισσότερα

Διάλεξη 14: Δομές Δεδομένων ΙΙI (Λίστες και Παραδείγματα)

Διάλεξη 14: Δομές Δεδομένων ΙΙI (Λίστες και Παραδείγματα) Τμήμα Πληροφορικής Πανεπιστήμιο Κύπρου ΕΠΛ132 Αρχές Προγραμματισμού II Διάλεξη 14: Δομές Δεδομένων ΙΙI (Λίστες και Παραδείγματα) Δημήτρης Ζεϊναλιπούρ http://www.cs.ucy.ac.cy/courses/epl132 14-1 Περιεχόμενο

Διαβάστε περισσότερα

ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΞΕΝΟΔΟΧΕΙΑΚΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ (Hotel Questionnaire) Εγχειρίδιο χρήσης (Demo Manual)

ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΞΕΝΟΔΟΧΕΙΑΚΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ (Hotel Questionnaire) Εγχειρίδιο χρήσης (Demo Manual) ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΞΕΝΟΔΟΧΕΙΑΚΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ (Hotel Questionnaire) Εγχειρίδιο χρήσης (Demo Manual) «WeKnow» ΔΗΜΗΤΡΙΟΣ ΨΥΧΙΑΣ & ΣΙΑ Ε.Ε. Υποστήριξη Πληροφοριακών Συστημάτων και Επικοινωνιών Σελίδα 1 από 19

Διαβάστε περισσότερα

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS) ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS) Έλεγχος Υποθέσεων για τους Μέσους - Εξαρτημένα Δείγματα (Paired samples t-test) Το κριτήριο Paired samples t-test χρησιμοποιείται όταν θέλουμε να συγκρίνουμε

Διαβάστε περισσότερα

3. Σελιδοποίηση μνήμης 4. Τμηματοποίηση χώρου διευθύνσεων

3. Σελιδοποίηση μνήμης 4. Τμηματοποίηση χώρου διευθύνσεων ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΥΠΟΛΟΓΙΣΤΩΝ MHXANIKOI Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΙΠΕ Ο ΜΗΧΑΝΗΣ ΛΕΙΤΟΥΡΓΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ Γ. Τσιατούχας 6 ο Κεφάλαιο 1. Επίπεδο OSM 2. Εικονική μνήμη ιάρθρωση 3. Σελιδοποίηση μνήμης 4. Τμηματοποίηση

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Στην ενότητα αυτή θα µελετηθούν τα εξής θέµατα: Πρόβληµα, Στιγµιότυπο, Αλγόριθµος Εργαλεία εκτίµησης πολυπλοκότητας: οι τάξεις Ο(n), Ω(n), Θ(n) Ανάλυση Πολυπλοκότητας Αλγορίθµων

Διαβάστε περισσότερα

Επαγωγικές Μηχανές Διανυσμάτων Στήριξης και εφαρμογή σε προβλήματα ταξινόμησης

Επαγωγικές Μηχανές Διανυσμάτων Στήριξης και εφαρμογή σε προβλήματα ταξινόμησης ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Επαγωγικές Μηχανές Διανυσμάτων Στήριξης

Διαβάστε περισσότερα

Δίκτυα Υπολογιστών ΙΙ (Ασκήσεις Πράξης)

Δίκτυα Υπολογιστών ΙΙ (Ασκήσεις Πράξης) TEI Σερρών Τμήμα Πληροφορικής και Επικοινωνιών Δίκτυα Υπολογιστών ΙΙ (Ασκήσεις Πράξης) Subnetting-VLSM-Troubleshooting IP Τομέας Τηλεπικοινωνιών και Δικτύων Δρ. Αναστάσιος Πολίτης Καθηγητής Εφαρμογών anpol@teiser.gr

Διαβάστε περισσότερα

Δυαδικό Σύστημα Αρίθμησης

Δυαδικό Σύστημα Αρίθμησης Δυαδικό Σύστημα Αρίθμησης Το δυαδικό σύστημα αρίθμησης χρησιμοποιεί δύο ψηφία. Το 0 και το 1. Τα ψηφία ενός αριθμού στο δυαδικό σύστημα αρίθμησης αντιστοιχίζονται σε δυνάμεις του 2. Μονάδες, δυάδες, τετράδες,

Διαβάστε περισσότερα

Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών. ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης

Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών. ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Ονοµατεπώνυµο: Αριθµός Μητρώου: Τελική Εξέταση (3 ώρες) Ηµεροµηνία: 7

Διαβάστε περισσότερα

Πρόβλεψη αποτελεσμάτων ποδοσφαιρικών αγώνων βάσει του ιστορικού των αναμετρήσεων

Πρόβλεψη αποτελεσμάτων ποδοσφαιρικών αγώνων βάσει του ιστορικού των αναμετρήσεων Πολυτεχνείο Κρήτης Αυτόνομοι Πράκτορες 2012-2013 Πρόβλεψη αποτελεσμάτων ποδοσφαιρικών αγώνων βάσει του ιστορικού των αναμετρήσεων Δουγιάκης Λάζαρος 13 Πρόβλεψη αποτελεσμάτων ποδοσφαιρικών αγώνων βάσει

Διαβάστε περισσότερα

ΕΦΑΡΜΟΓΕΣ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ

ΕΦΑΡΜΟΓΕΣ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΕΦΑΡΜΟΓΕΣ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Dr. Christos D. Tarantilis Associate Professor in Operations Research & Management Science http://tarantilis.dmst.aueb.gr/ ΕΦΑΡΜΟΓΕΣ ΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Ι - 1- ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Διαβάστε περισσότερα

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Συσχέτιση μεταξύ δύο συνόλων δεδομένων Διαγράμματα διασποράς (scattergrams) Συσχέτιση μεταξύ δύο συνόλων δεδομένων Η οπτική απεικόνιση δύο συνόλων δεδομένων μπορεί να αποκαλύψει με παραστατικό τρόπο πιθανές τάσεις και μεταξύ τους συσχετίσεις,

Διαβάστε περισσότερα

Ελαφρύτερος και βαρύτερος Αλγόριθμοι ταξινόμησης

Ελαφρύτερος και βαρύτερος Αλγόριθμοι ταξινόμησης 7η Δραστηριότητα Ελαφρύτερος και βαρύτερος Αλγόριθμοι ταξινόμησης Περίληψη Οι υπολογιστές χρησιμοποιούνται συχνά για την ταξινόμηση καταλόγων, όπως για παράδειγμα, ονόματα σε αλφαβητική σειρά, ραντεβού

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Εισαγωγή. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Εισαγωγή. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Εισαγωγή Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Βιβλιογραφία Robert Sedgewick, Αλγόριθμοι σε C, Μέρη 1-4 (Θεμελιώδεις Έννοιες, Δομές Δεδομένων, Ταξινόμηση,

Διαβάστε περισσότερα

Υπολογιστικές Μέθοδοι στις Κατασκευές

Υπολογιστικές Μέθοδοι στις Κατασκευές Γενικά Για Τη Βελτιστοποίηση Η βελτιστοποίηση µπορεί να χωριστεί σε δύο µεγάλες κατηγορίες: α) την Βελτιστοποίηση Τοπολογίας (Topological Optimization) και β) την Βελτιστοποίηση Σχεδίασης (Design Optimization).

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack Χλης Νικόλαος-Κοσμάς Περιγραφή παιχνιδιού Βlackjack: Σκοπός του παιχνιδιού είναι ο παίκτης

Διαβάστε περισσότερα

Κεφάλαιο 3. Αλγόριθµοι Τυφλής Αναζήτησης. Τεχνητή Νοηµοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 3. Αλγόριθµοι Τυφλής Αναζήτησης. Τεχνητή Νοηµοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 3 Αλγόριθµοι Τυφλής Αναζήτησης Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Αλγόριθµοι Τυφλής Αναζήτησης Οι αλγόριθµοι τυφλής αναζήτησης (blind

Διαβάστε περισσότερα

Εξεταστέα Ύλη (Syllabus) Έκδοση 5.0

Εξεταστέα Ύλη (Syllabus) Έκδοση 5.0 Εξεταστέα Ύλη (Syllabus) Έκδοση 5.0 Πνευματικά Δικαιώματα 2007 Ίδρυμα ECDL (ECDL Foundation www.ecdl.org) Όλα τα δικαιώματα είναι κατοχυρωμένα. Κανένα μέρος αυτού του εγγράφου δεν μπορεί να αναπαραχθεί

Διαβάστε περισσότερα

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. ΕΡΓΑΣΙΑ 4 «Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. Στόχος Στόχος της Εργασίας 4 είναι να η εξοικείωση με την αντικειμενοστρέφεια (object oriented programming). Πιο συγκεκριμένα,

Διαβάστε περισσότερα

Συνεχή Κλάσματα. Εμμανουήλ Καπνόπουλος Α.Μ 282

Συνεχή Κλάσματα. Εμμανουήλ Καπνόπουλος Α.Μ 282 Συνεχή Κλάσματα Εμμανουήλ Καπνόπουλος Α.Μ 282 5 Νοεμβρίου 204 Ορισμός και ιδιότητες: Ορισμός: Έστω a 0, a, a 2,...a n ανεξάρτητες μεταβλητές, n N σχηματίζουν την ακολουθία {[a 0, a,..., a n ] : n N} όπου

Διαβάστε περισσότερα

Επιμερισμός δεδομένων

Επιμερισμός δεδομένων Επιμερισμός δεδομένων Διαίρει και βασίλευε Κ.Γ. Μαργαρίτης προσαρμογή από το μάθημα του Barry Wilkinson ITCS 4145/5145 2006Cluster Computing Univ. of North Carolina at Charlotte Επιμερισμός δεδομένων Κατανομή

Διαβάστε περισσότερα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βασικές Έννοιες Προγραμματισμού. Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βασικές Έννοιες Προγραμματισμού. Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Βασικές Έννοιες Προγραμματισμού Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Αριθμητικά συστήματα Υπάρχουν 10 τύποι ανθρώπων: Αυτοί

Διαβάστε περισσότερα

2 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 2 + 0.5 0 0.125 + 1 + 0.5 1 0.125 + 1 + 0.75 1 0.125 1/5

2 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 2 + 0.5 0 0.125 + 1 + 0.5 1 0.125 + 1 + 0.75 1 0.125 1/5 IOYNIOΣ 23 Δίνονται τα εξής πρότυπα: x! = 2.5 Άσκηση η (3 µονάδες) Χρησιµοποιώντας το κριτήριο της οµοιότητας να απορριφθεί ένα χαρακτηριστικό µε βάση το συντελεστή συσχέτισης. Γράψτε εδώ το χαρακτηριστικό

Διαβάστε περισσότερα

Είδη εντολών. Απλές εντολές. Εντολές ελέγχου. Εκτελούν κάποια ενέργεια. Ορίζουν τον τρόπο με τον οποίο εκτελούνται άλλες εντολές

Είδη εντολών. Απλές εντολές. Εντολές ελέγχου. Εκτελούν κάποια ενέργεια. Ορίζουν τον τρόπο με τον οποίο εκτελούνται άλλες εντολές Μορφές Εντολών Είδη εντολών Απλές εντολές Εκτελούν κάποια ενέργεια Εντολές ελέγχου Ορίζουν τον τρόπο με τον οποίο εκτελούνται άλλες εντολές Εντολές και παραστάσεις Μιαεντολήείναιμιαπαράστασηπου ακολουθείται

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 6. Πιθανότητες

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 6. Πιθανότητες ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Δυναμικές Ιστοσελίδες Εισαγωγή στην Javascript για προγραμματισμό στην πλευρά του client

Δυναμικές Ιστοσελίδες Εισαγωγή στην Javascript για προγραμματισμό στην πλευρά του client ΕΣΔ 516 Τεχνολογίες Διαδικτύου Δυναμικές Ιστοσελίδες Εισαγωγή στην Javascript για προγραμματισμό στην πλευρά του client Περιεχόμενα Περιεχόμενα Javascript και HTML Βασική σύνταξη Μεταβλητές Τελεστές Συναρτήσεις

Διαβάστε περισσότερα

ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΤΟΥΡΙΣΤΙΚΩΝ ΓΡΑΦΕΙΩΝ (Travel Agency Questionnaire) Εγχειρίδιο χρήσης (Demo Manual)

ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΤΟΥΡΙΣΤΙΚΩΝ ΓΡΑΦΕΙΩΝ (Travel Agency Questionnaire) Εγχειρίδιο χρήσης (Demo Manual) ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΤΟΥΡΙΣΤΙΚΩΝ ΓΡΑΦΕΙΩΝ (Travel Agency Questionnaire) Εγχειρίδιο χρήσης (Demo Manual) «WeKnow»ΔΗΜΗΤΡΙΟΣ ΨΥΧΙΑΣ & ΣΙΑ Ε.Ε. Υποστήριξη Πληροφοριακών Συστημάτων και Επικοινωνιών Σελίδα 1 από 14

Διαβάστε περισσότερα

ιδάσκων: ηµήτρης Ζεϊναλιπούρ

ιδάσκων: ηµήτρης Ζεϊναλιπούρ Κεφάλαιο 1.3-1.4: Εισαγωγή Στον Προγραµµατισµό ( ιάλεξη 2) ιδάσκων: ηµήτρης Ζεϊναλιπούρ Περιεχόµενα Εισαγωγικές Έννοιες - Ορισµοί Ο κύκλος ανάπτυξης προγράµµατος Παραδείγµατα Πότε χρησιµοποιούµε υπολογιστή?

Διαβάστε περισσότερα

Γλώσσες Προγραμματισμού Μεταγλωττιστές

Γλώσσες Προγραμματισμού Μεταγλωττιστές Γλώσσες Προγραμματισμού Μεταγλωττιστές Πανεπιστήμιο Μακεδονίας Τμήμα Εφαρμοσμένης Πληροφορικής Ηλίας Σακελλαρίου Δομή Γλώσσες Προγραμματισμού Εισαγωγικά Γλώσσα Μηχανής Γλώσσες υψηλού επιπέδου Μεταγλωττιστές

Διαβάστε περισσότερα

Π Α Ν Ε Λ Λ Η Ν Ι Ε Σ 2 0 1 5 Μ Α Θ Η Μ Α Τ Ι Κ Α K A I Σ Τ Ο Ι Χ Ε Ι Α Σ Τ Α Τ Ι Σ Τ Ι Κ Η

Π Α Ν Ε Λ Λ Η Ν Ι Ε Σ 2 0 1 5 Μ Α Θ Η Μ Α Τ Ι Κ Α K A I Σ Τ Ο Ι Χ Ε Ι Α Σ Τ Α Τ Ι Σ Τ Ι Κ Η Π Α Ν Ε Λ Λ Η Ν Ι Ε Σ 0 Μ Α Θ Η Μ Α Τ Ι Κ Α K A I Σ Τ Ο Ι Χ Ε Ι Α Σ Τ Α Τ Ι Σ Τ Ι Κ Η Ε π ι μ ε λ ε ι α : Τ α κ η ς Τ σ α κ α λ α κ ο ς o ΘΕΜΑ Π α ν ε λ λ α δ ι κ ε ς Ε ξ ε τ α σ ε ι ς ( 0 ) A. Aν οι συναρτησεις

Διαβάστε περισσότερα

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ και ΔΟΜΗ ΑΚΟΛΟΥΘΙΑΣ 2.1 Να δοθεί ο ορισμός

Διαβάστε περισσότερα

Βάσεις δεδομένων. (10 ο μάθημα) Ηρακλής Βαρλάμης varlamis@hua.gr

Βάσεις δεδομένων. (10 ο μάθημα) Ηρακλής Βαρλάμης varlamis@hua.gr Βάσεις δεδομένων (10 ο μάθημα) Ηρακλής Βαρλάμης varlamis@hua.gr Περιεχόμενα Ευρετήρια Σκανδάλες PL/SQL Δείκτες/Δρομείς 2 Αποθήκευση δεδομένων Πρωτεύουσα αποθήκευση Κύρια μνήμη (main memory) ή κρυφή μνήμη

Διαβάστε περισσότερα

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Τρόποι και μέθοδοι δειγματοληψίας

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Τρόποι και μέθοδοι δειγματοληψίας ΙΕΚ ΞΑΝΘΗΣ Μάθημα : Στατιστική Ι Υποενότητα : Τρόποι και μέθοδοι δειγματοληψίας Επαμεινώνδας Διαμαντόπουλος Ιστοσελίδα : http://users.sch.gr/epdiaman/ Email : epdiamantopoulos@yahoo.gr 1 Στόχοι της υποενότητας

Διαβάστε περισσότερα

Διάλεξη 07: Λίστες Ι Υλοποίηση & Εφαρμογές

Διάλεξη 07: Λίστες Ι Υλοποίηση & Εφαρμογές Διάλεξη 07: Λίστες Ι Υλοποίηση & Εφαρμογές Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ευθύγραμμες Απλά Συνδεδεμένες Λίστες (εισαγωγή, εύρεση, διαγραφή) Ευθύγραμμες Διπλά Συνδεδεμένες Λίστες

Διαβάστε περισσότερα

Ε ανάληψη. Προβλήµατα ικανο οίησης εριορισµών. ορισµός και χαρακτηριστικά Ε ίλυση ροβληµάτων ικανο οίησης εριορισµών

Ε ανάληψη. Προβλήµατα ικανο οίησης εριορισµών. ορισµός και χαρακτηριστικά Ε ίλυση ροβληµάτων ικανο οίησης εριορισµών ΠΛΗ 405 Τεχνητή Νοηµοσύνη Αναζήτηση µε Αντι αλότητα Adversarial Search Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Προβλήµατα ικανο οίησης εριορισµών ορισµός και

Διαβάστε περισσότερα

Άριστες κατά Pareto Κατανομές

Άριστες κατά Pareto Κατανομές Άριστες κατά Pareto Κατανομές - Ορισμός. Μια κατανομή x = (x, x ) = (( 1, )( 1, )) ονομάζεται άριστη κατά Pareto αν δεν υπάρχει άλλη κατανομή x = ( x, x ) τέτοια ώστε: U j( x j) U j( xj) για κάθε καταναλωτή

Διαβάστε περισσότερα

ΠΛΗΡΕΣ ΒΑΘΟΣ ΕΝΤΟΛΩΝ

ΠΛΗΡΕΣ ΒΑΘΟΣ ΕΝΤΟΛΩΝ ΠΛΗΡΕΣ ΒΑΘΟΣ ΕΝΤΟΛΩΝ ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ ΓΙΑ ΤΟ MONOPOLY Μάρτιος 2009 Οδηγίες Χρήσης Monopoly για Σελίδα 1 από 8 1. Γενικά Το πλήρες βάθος εντολών είναι η νέα υπηρεσία του Χρηματιστηρίου Αξιών Αθηνών μέσω τις

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες ΕΙΣΑΓΩΓΗ Βασικές έννοιες Σε ένα ερωτηματολόγιο έχουμε ένα σύνολο ερωτήσεων. Μπορούμε να πούμε ότι σε κάθε ερώτηση αντιστοιχεί μία μεταβλητή. Αν θεωρήσουμε μια ερώτηση, τα άτομα δίνουν κάποιες απαντήσεις

Διαβάστε περισσότερα

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Τμημα Πληροφορικης και Τηλεματικης Τσάμη Παναγιώτα ΑΜ: 20833 ΚΑΤΑΝΕΜΗΜΕΝΑ ΣΥΣΤΗΜΑΤΑ Άσκηση 1 Αθήνα 13-12-2011 Αναφορά Ενότητα 1 A Δημιουργήστε στο φλοιό 3 εντολές (alias) που η

Διαβάστε περισσότερα