Εξόρυξη Δεδομένων Κατηγοριοποίηση

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Εξόρυξη Δεδομένων Κατηγοριοποίηση"

Transcript

1 Εξόρυξη Δεδομένων Κατηγοριοποίηση 1

2 2 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες Μηχανές Διανυσμάτων Υποστήριξης Αποτίμηση και Επιλογή Μοντέλου Τεχνικές βελτίωσης της ακρίβειας κατηγοριοποίησης Άλλα θέματα κατηγοριοποίησης Σύνοψη

3 Επιβλεπόμενη Μάθηση Επιβλεπόμενη Μάθηση(Κατηγοριοποίηση) Επίβλεψη: Τα δεδομένα εκπαίδευσης (παρατηρήσεις, μετρήσεις, κ.α.) συνοδεύονται από ετικέτες που δείχνουν την κλάση τους Τα νέα δεδομένα κατηγοριοποιούνται βάση του μοντέλου το οποίο δημιουργείται από τα δεδομένα εκπαίδευσης Δεδομένα εκπαίδευσης με ετικέτα κλάσης: 3 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no Εγγραφές Εκπαίδευσης Εγγραφές Ελέγχου Μοντέλο Μάθησης Μοντέλο Πρόβλεψης Θετικό Αρνητικό

4 4 Μη- Επιβλεπόμενη Μάθηση Μη επιβλεπόμενη μάθηση (συσταδοποίηση) Οι ετικέτες κλάσης του συνόλου εκπαίδευσης είναι άγνωστες Δεδομένου ενός συνόλου μετρήσεων, παρατηρήσεων, κτλ., στόχος είναι η εύρεση κλάσεων ή συστάδων των δεδομένων

5 5 Κατηγοριοποίηση και Πρόβλεψη Κατηγοριοποίηση Προβλέπει κατηγορικές ετικέτες κλάσης Κατασκευάζει ένα μοντέλο χρησιμοποιώντας τα δεδομένα εκπαίδευσης και τις ετικέτες κλάσης του προς κατηγοριοποίηση χαρακτηριστικού και με βάση αυτά κατηγοριοποιεί τα νέα δεδομένα Αριθμητική Πρόβλεψη Μοντελοποιεί συνεχείς συναρτήσεις, π.χ. προβλέπει άγνωστες ή ελλιπείς τιμές Τυπικές Εφαρμογές Πιστοληπτική απόφαση Ιατρική διάγνωση Ανίχνευση απάτης: εάν μια συναλλαγή είναι δόλια Κατηγοριοποίηση διαδικτυακών σελίδων

6 6 Κατηγοριοποίηση Η κατηγοριοποίηση (classification) αφορά το γενικό πρόβλημα της ανάθεσης (τοποθέτησης) ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) με βάση τα χαρακτηριστικά του. Παραδείγματα: Πρόβλεψη αν τα υπό εξέταση κύτταρα εντάσσονται στην κατηγορία κακοήθη (καρκινικά) ή στην κατηγορία καλοήθη (μη καρκινικά). Κατηγοριοποίηση επιχειρήσεων σε βιώσιμες ή επικίνδυνες για χρεωκοπία Κατηγοριοποίηση εισερχόμενων s σε spam ή όχι. Κατηγοριοποίηση ειδήσεων σε πολιτικές, αθλητικές, κοινωνικές, οικονομικές, κλπ

7 Κατηγοριοποίηση Δίδεται ένα σύνολο εγγραφών δεδομένων (σύνολο εκπαίδευσης - training set) Κάθε εγγραφή έχει ένα σύνολο από γνωρίσματα, ένα από αυτά είναι η κλάση (κατηγορία) στην οποία ανήκει η εγγραφή (δεδομένα με καθορισμένη κλάση) Η τιμή (ετικέτα) της κλάσης είναι διακριτή τιμή Εύρεση ενός μοντέλου για το γνώρισμα της κλάσης ως συνάρτηση της τιμής των άλλων γνωρισμάτων Στόχος: Το μοντέλο να μπορεί να αναθέτει σε εγγραφές, για τις οποίες δεν είναι γνωστή η κλάση στην οποία ανήκουν, μια κλάση με την μεγαλύτερη δυνατή ακρίβεια Κατάλληλη κυρίως για: Δυαδικές κατηγορίες ή κατηγορίες για τις οποίες δεν υπάρχει διάταξη Μη ιεραρχικές κατηγορίες Κατηγοριοποίηση: Μια διαδικασία σε δυο βήματα 7

8 Γενική Προσέγγιση Κατηγοριοποίησης Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Test Set Induction Deduction Learning algorithm Learn Model Apply Model Model

9 9 Κατασκευή Μοντέλου Το σύνολο δεδομένων εισόδου χωρίζεται σε: Σύνολο εκπαίδευσης (training set) Χρησιμοποιείται για την κατασκευή του μοντέλου Το γνώρισμα της κλάσης κάθε εγγραφής είναι γνωστό. Σύνολο ελέγχου (test set) Χρησιμοποιείται για την επικύρωση του μοντέλου Χαρακτηρίζει την ακρίβεια του μοντέλου Το σύνολο ελέγχου είναι ανεξάρτητο από το σύνολο εκπαίδευσης

10 10 Αξιολόγηση, Έλεγχος και Εφαρμογή του Μοντέλου Αξιολόγηση και Έλεγχος Μοντέλου (μέσω του συνόλου ελέγχου) Έλεγχος: Εκτίμηση της ακρίβειας του μοντέλου Η γνωστή κλάση του δείγματος ελέγχου συγκρίνεται με το αποτέλεσμα της κατηγοριοποίησης που προκύπτει από το μοντέλο Ακρίβεια (accuracy): το ποσοστό των δειγμάτων ελέγχου που κατηγοριοποιήθηκαν ορθά από το μοντέλο Το σύνολο ελέγχου πρέπει να είναι ανεξάρτητο από το σύνολο εκπαίδευσης για αποφυγή overfitting Εφαρμογή Μοντέλου: Αν η ακρίβεια είναι αποδεκτή, το μοντέλο μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση νέων δεδομένων

11 Προεπεξεργασία Δεδομένων 11 Ενοποίηση δεδομένων (Data integration) Ενοποίηση πολλαπλών βάσεων δεδομένων, κύβων δεδομένων ή αρχείων, απαλοιφή πλεονασμού Καθαρισμός δεδομένων Μείωση του θορύβου και διαχείριση των τιμών που λείπουν (πχ. τις αγνοούμε ή τις αντικαθιστούμε με ειδικές τιμές) απομάκρυνση των outliers, διόρθωση ασυνεπειών, απαλοιφή πλεονασμού Μείωση δεδομένων Μείωση διαστάσεων Ανάλυση συσχετίσεων (επιλογή χαρακτηριστικών) Απομάκρυνση των μη-σχετικών ή πλεοναζόντων χαρακτηριστικών Μείωση πληθικότητας, συμπίεση δεδομένων Μετασχηματισμός δεδομένων Γενίκευση ή/και κανονικοποίηση των δεδομένων Διακριτοποίηση δεδομένων - Αριθμητικά γνωρίσματα σε κατηγορικά {low, medium, high} Κανονικοποίηση αριθμητικών δεδομένων στο [0,1)

12 Τεχνικές Κατηγοριοποίησης Για την κατηγοριοποίηση, χρησιμοποιούνται τεχνικές όπως: Δέντρα Αποφάσεων (Decision Trees) Κανόνες (Rule-based Methods) Νευρωνικά Δίκτυα (Neural Networks) K-Πλησιέστερων Γειτόνων (k-nearest Neighbors, k-nn) Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) Bayesian Μέθοδοι Σε όλες τις τεχνικές κατηγοριοποίησης ενυπάρχει η ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης) Τα δεδομένα εκπαίδευσης αναλύονται από τον αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν το μοντέλο κατηγοριοποίησης Η κατηγορία (κλάση) των δειγμάτων εκπαίδευσης είναι γνωστή και για αυτό η κατηγοριοποίηση ανήκει στην κατηγορία της «εποπτευόμενης μάθησης» 12

13 13 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες Μηχανές Διανυσμάτων Υποστήριξης Αποτίμηση και Επιλογή Μοντέλου Τεχνικές βελτίωσης της ακρίβειας κατηγοριοποίησης Άλλα θέματα κατηγοριοποίησης Σύνοψη

14 14 Δένδρο Απόφασης

15 15 Δένδρο Αποφάσης Γνωρίσματα- κλάση Δέντρο Απόφασης Decision tree

16 16 Παράδειγμα Δένδρου Απόφασης

17 Αλγόριθμος για Επαγωγή Δένδρου Απόφασης Βασικός αλγόριθμος (ένας άπληστος αλγόριθμος) Το δέντρο κατασκευάζεται επαναληπτικά από πάνω προς τα κάτω με ένα τρόπο διαίρει και βασίλευε Στην αρχή, όλα τα παραδείγματα εκπαίδευσης βρίσκονται στη ρίζα Τα χαρακτηριστικά είναι κατηγορικά (εάν είναι συνεχή τότε διακριτοποιούνται από πριν) Τα παραδείγματα διαχωρίζονται επαναληπτικά με βάση επιλεγμένα χαρακτηριστικά Τα χαρακτηριστικά ελέγχου επιλέγονται επί τη βάσει ενός ευρετικού ή στατιστικού μέτρου (π.χ. κέρδος πληροφορίας) Συνθήκες τερματισμού διαχωρισμού Όλα τα δείγματα για ένα δεδομένο κόμβο ανήκουν στην ίδια ομάδα-κλάση Δεν υπάρχουν άλλα χαρακτηριστικά για περαιτέρω διαχωρισμό. Δεν υπάρχουν άλλα δείγματα 17

18 18 Αλγόριθμος για Επαγωγή Δένδρου Απόφασης Κατασκευή του δέντρου (συνοπτικά): 1. Ξεκινάμε με ένα κόμβο που περιέχει όλες τις εγγραφές 2. Διασπάμε τον κόμβο (μοίρασμα των εγγραφών) με βάση μια συνθήκη-διαχωρισμού ενός γνωρίσματος 3. Αναδρομική κλήση του βήματος 2 σε κάθε κόμβο (recursive partitioning algorithm) έως ότου οι εγγραφές ενός τελικού κόμβου (φύλλο-leaf) να ανήκουν σε μία μόνο κλάση 4. Αφού κατασκευαστεί το δέντρο, γίνονται κάποιες βελτιστοποιήσεις (π.χ. κλάδεμα δένδρου για αντιμετώπιση υπερπροσαρμογής Το βασικό θέμα είναι Ποιο γνώρισμα-συνθήκη διαχωρισμού θα χρησιμοποιήσουμε για τη διάσπαση των εγγραφών κάθε κόμβου

19 19 Δένδρο Απόφασης Πως αναπαρίσταται ένα δένδρο απόφασης; Κάθε εσωτερικός κόμβος ονοματίζεται με το όνομα ενός χαρακτηριστικού Κάθε κλαδί/σύνδεση ονοματίζεται με ένα κατηγόρημα που μπορεί να εφαρμοστεί στο χαρακτηριστικό που αποτελεί το όνομα του κόμβου - γονέα Κάθε φύλλο ονοματίζεται με το όνομα μιας κλάσης Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα

20 20 Δένδρο Απόφασης: Έννοιες Άπληστη (greedy) στρατηγική: Στόχος είναι να βρεθεί μια εφικτή λύση η οποία θα ελαχιστοποιεί ή θα μεγιστοποιεί μια δεδομένη αντικειμενική συνάρτηση. Ένας άπληστος αλγόριθμος κάνει την τοπικά βέλτιστη επιλογή με την ελπίδα ότι αυτή η επιλογή θα τον οδηγήσει στην ολικά βέλτιστη λύση. Διαίρει και βασίλευε (divide-and-conquer) προσέγγιση: Με τη τεχνική αυτή το πρόβλημα χωρίζεται σε μικρότερου μεγέθους υπο-προβλήματα με τέτοιο τρόπο ώστε από τις λύσεις των υπο-προβλημάτων να μπορεί να κατασκευασθεί η λύση του αρχικού προβλήματος.

21 21 Κατηγοριοποίηση: Κατασκευή Μοντέλου Δεδομένα Εκπαίδευσης Αλγόριθμος Κατηγοριοποίησης ΟΝΟΜΑ ΒΑΘΜΟΣ ΕΤΗ ΜΟΝΙΜΟΣ Mike Assistant Prof 3 no Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes Dave Assistant Prof 6 no Anne Associate Prof 3 no Κατηγοριοποιητής (Μοντέλο) IF ΒΑΘΜΟΣ = professor OR ΕΤΗ > 6 THEN ΜΟΝΙΜΟΣ = yes

22 Εφαρμογή Μοντέλου για Πρόβλεψη Κατηγοριοποιητής Δεδομένα Εκπαίδευσης Άγνωστα δεδομένα 22 ΟΝΟΜΑ ΒΑΘΜΟΣ ΕΤΗ ΜΟΝΙΜΟΣ Tom Assistant Prof 2 no Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes (Jeff, Professor, 4) ΜΟΝΙΜΟΣ;

23 23 Επαγωγή Δένδρου Απόφασης: Παράδειγμα Δημιουργία Δένδρου Απόφασης: Από πάνω προς τα κάτω, αναδρομική, διαίρει και βασίλευε διαδικασία no age? <=30 overcas >40 student? yes Buy excellent credit rating? fair Not-buy Buy Not-buy Buy Δεδομένα εκπαίδευσης: Ποιος αγοράζει Η/Υ age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no

24 24 10 Παράδειγμα Δένδρου Απόφασης ID Home Owner Marital Status Annual Income Defaulted Borrower Γνωρίσματα Διαχωρισμού 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Yes NO NO Home Owner Income No Single, Divorced MarSt < 80K > 80K YES Married NO Δεδομένα Εκπαίδευσης Μοντέλο: Δένδρο Απόφασης

25 25 10 Άλλο Ένα Παράδειγμα Δένδρου Απόφασης ID Home Owner Marital Status Annual Income 1 Yes Single 125K No 2 No Married 100K No Defaulted Borrower Married NO MarSt Yes Single, Divorced Home Owner No 3 No Single 70K No NO Income 4 Yes Married 120K No < 80K > 80K 5 No Divorced 95K Yes 6 No Married 60K No NO YES 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Μπορεί να υπάρχουν περισσότερα από ένα δένδρα απόφασης που ταιριάζουν στα δεδομένα!

26 26 10 Εφαρμογή Μοντέλου στα Δεδομένα Ελέγχου Start from the root of tree. Δεδομένα Ελέγχου Home Owner Marital Status Annual Income Defaulted Borrower Yes Home Owner No No Married 80K? NO Single, Divorced MarSt Married Income < 80K > 80K NO NO YES

27 27 10 Εφαρμογή Μοντέλου στα Δεδομένα Ελέγχου Δεδομένα Ελέγχου Home Owner Marital Status Annual Income Defaulted Borrower Yes Home Owner No No Married 80K? NO Single, Divorced MarSt Married Income < 80K > 80K NO NO YES

28 28 10 Εφαρμογή Μοντέλου στα Δεδομένα Ελέγχου Δεδομένα Ελέγχου Home Owner Marital Status Annual Income Defaulted Borrower Yes Home Owner No No Married 80K? NO Single, Divorced MarSt Married Income < 80K > 80K NO NO YES

29 29 10 Εφαρμογή Μοντέλου στα Δεδομένα Ελέγχου Δεδομένα Ελέγχου Home Owner Marital Status Annual Income Defaulted Borrower Yes Home Owner No No Married 80K? NO Single, Divorced MarSt Married Income < 80K > 80K NO NO YES

30 30 10 Εφαρμογή Μοντέλου στα Δεδομένα Ελέγχου Δεδομένα Ελέγχου Home Owner Marital Status Annual Income Defaulted Borrower Yes Home Owner No No Married 80K? NO Single, Divorced MarSt Married Income < 80K > 80K NO NO YES

31 31 10 Εφαρμογή Μοντέλου στα Δεδομένα Ελέγχου Δεδομένα Ελέγχου Home Owner Marital Status Annual Income Defaulted Borrower Yes Home Owner No No Married 80K? NO Single, Divorced MarSt Married Εκχώρηση κλάσης No Income NO < 80K > 80K NO YES

32 Προβλήματα Σχεδιασμού Δένδρων Απόφασης Πώς πρέπει να χωριστούν τα δεδομένα εκπαίδευσης; Μέθοδος προσδιορισμού της συνθήκης ελέγχου ανάλογα με τους τύπους χαρακτηριστικών Μέτρο για την αξιολόγηση της καλής κατάστασης μιας συνθήκης ελέγχου Πώς πρέπει να σταματήσει η διαδικασία διαίρεσης; Διακοπή της διαίρεσης εάν όλες οι εγγραφές ανήκουν στην ίδια κλάση ή έχουν ίδιες τιμές χαρακτηριστικών Πρόωρος τερματισμός 32

33 Επαγωγή Δένδρου Απόφασης Ο αριθμός των πιθανών Δέντρων Απόφασης είναι εκθετικός. Πολλοί αλγόριθμοι για την επαγωγή του δέντρου απόφασης ακολουθούν μια άπληστη στρατηγική: για να κτίσουν το δέντρο απόφασης παίρνουν μια σειρά από τοπικά βέλτιστες αποφάσεις Αλγόριθμοι Αλγόριθμος του Hunt (από τους πρώτους) CART ID3, C4.5 SLIQ, SPRINT 33

34 34 10 Γενική Δομή Αλγορίθμου του Hunt Έστω D t το σύνολο των εγγραφών εκπαίδευσης στον κόμβο t Γενική Διαδικασία: Αν το D t περιλαμβάνει εγγραφές που ανήκουν στην ίδια κλάση y t, τότε η t είναι ένας κόμβος-φύλλο που σηματοδοτείτε ως y t Αν το D t περιλαμβάνει εγγραφές που ανήκουν σε περισσότερες από μια κλάσεις, χρησιμοποίησε ένα έλεγχο γνωρισμάτων ώστε να χωρίσεις τα δεδομένα σε μικρότερα υποσύνολα. Αναδρομικά εφάρμοσε τη διαδικασία σε κάθε υποσύνολο. ID Home Owner Marital Status? Annual Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes D t Defaulted Borrower

35 35 10 Αλγόριθμος του Hunt Defaulted = No Yes Defaulted = No (3,0) Single, Divorced (7,3) (a) Home Owner Defaulted = Yes (c) No Marital Status Married Defaulted = No (1,3) (3,0) Yes Defaulted = No Yes Defaulted = No Home Owner (b) Home Owner Single, Divorced Annual Income (d) No Defaulted = No (3,0) (4,3) (3,0) No Marital Status < 80K >= 80K Defaulted = No Defaulted = Yes (1,0) (0,3) Married Defaulted = No (3,0) ID Home Owner Marital Status Annual Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Defaulted Borrower

36 Μέθοδοι Έκφρασης Συνθηκών Ελέγχου Εξαρτάται από τον τύπο των γνωρισμάτων Δυαδικά (Binary) Ονομαστικά (Nominal) Διάταξης (Ordinal) Συνεχή (Continuous) Εξαρτάται από τον αριθμό των τρόπων διαίρεσης Δυαδική διαίρεση Πολλαπλή διαίρεση 36

37 37 Συνθήκες Ελέγχου για Ονομαστικά Γνωρίσματα Πολλαπλή διαίρεση (Multi-way split): Χρήση τόσων διαιρέσεων όσες οι διακριτές τιμές. Marital Status Δυαδική διαίρεση (Binary split): Διαίρεση τιμών σε δύο υποσύνολα Single Divorced Married Marital Status Marital Status Marital Status OR OR {Married} {Single, Divorced} {Single} {Married, Divorced} {Single, Married} {Divorced}

38 Συνθήκες Ελέγχου για Γνωρίσματα Διάταξης Πολλαπλή διαίρεση (Multi-way split): Shirt Size Χρήση τόσων διαιρέσεων όσες οι διακριτές τιμές. Δυαδική διαίρεση (Binary split): Διαίρεση τιμών σε δύο υποσύνολα Small Medium Large Extra Large Διατήρηση της διάταξης στις τιμές των γνωρισμάτων Shirt Size Shirt Size {Small, Medium} {Large, Extra Large} {Small} {Medium, Large, Extra Large} Shirt Size Αυτή η ομαδοποίηση παραβιάζει τη διάταξη 38 {Small, Large} {Medium, Extra Large}

39 39 Συνθήκες Ελέγχου για Συνεχή Γνωρίσματα Annual Income > 80K? Annual Income? < 10K > 80K Yes No [10K,25K) [25K,50K) [50K,80K) (i) Binary split (ii) Multi-way split

40 Διαχωρισμός Βασισμένος σε Συνεχή Χαρακτηριστικά Διακριτοποίηση (Discretization) για να σχηματίσουν ένα κατηγορικό γνώρισμα διάταξης Οι κλίμακες μπορούν να βρεθούν με bucketing ίσων διαστημάτων, bucketing ίσων συχνοτήτων (εκατοστημόρια) ή ομαδοποίηση Στατική διακριτοποίηση μια φορά στην αρχή Δυναμική επανάληψη σε κάθε κόμβο Δυαδική Απόφαση (Binary Decision): (A < v) or (A v) εξέταση όλων των πιθανών διαχωρισμών και εύρεση του καλύτερου Απαιτεί περισσότερους υπολογισμούς 40

41 41 Πως Προσδιορίζεται ο Καλύτερος Διαχωρισμός Πριν τον Διαχωρισμό: 10 εγγραφές της κλάσης 0, 10 εγγραφές της κλάσης 1 Gender Car Type Customer ID Yes No Family Luxury c 1 c 10 c 20 Sports c 11 C0: 6 C1: 4 C0: 4 C1: 6 C0: 1 C1: 3 C0: 8 C1: 0 C0: 1 C1: 7 C0: 1 C1: 0... C0: 1 C1: 0 C0: 0 C1: 1... C0: 0 C1: 1 Ποιος έλεγχος είναι ο καλύτερος;

42 Πως Προσδιορίζεται ο Καλύτερος Διαχωρισμός Άπληστη προσέγγιση: Κόμβοι με καθαρότερη (purer) κατανομή κλάσεων είναι προτιμητέοι Χρειάζεται ένα μέτρο για τη μη-καθαρότητα (impurity) του κόμβου: C0: 5 C1: 5 C0: 9 C1: 1 Υψηλός Βαθμός μη-καθαρότητας Χαμηλός Βαθμός μη-καθαρότητας 42

43 43 Μέτρα Μη-Καθαρότητας Κόμβου Δείκτης Gini GINI ( t) = 1 j [ p( j t)] 2 Εντροπία (Entropy) Entropy ( t) = p( j t)log p( j t) j Σφάλμα μη-ορθής κατηγοριοποίησης Error( t) = 1 max P( i t) i

44 44 Εύρεση του Καλύτερου Διαχωρισμού 1. Υπολογισμός του μέτρου μη-καθαρότητας (P) πριν τον διαχωρισμό 2. Υπολογισμός του μέτρου μη-καθαρότητας (M) μετά τον διαχωρισμό 1. Υπολογισμός του μέτρου μη-καθαρότητας για κάθε κόμβο-απογόνων 2. M η σταθμισμένη μη-καθαρότητα των απογόνων 3. Επιλογή του γνωρίσματος που παράγει το υψηλότερο κέρδος Gain = P M ή ισοδύναμα, το χαμηλότερο μέτρο μη-καθαρότητας μετά τη διαίρεση (M)

45 Εύρεση του Καλύτερου Διαχωρισμού Πριν τον Διαχωρισμό: C0 C1 N00 N01 P A? B? Yes No Yes No Node N1 Node N2 Node N3 Node N4 C0 N10 C0 N20 C0 N30 C0 N40 C1 N11 C1 N21 C1 N31 C1 N41 M11 M12 M21 M22 M1 Gain = P M1 vs P M2 M2 45

46 46 Από την Εντροπία στο Κέρδος Πληροφορίας Εντροπία (Entropy) Μέτρο αβεβαιότητας συσχετισμένο με ένα τυχαίο αριθμό Υπολογισμός: Για διακριτή τυχαία μεταβλητή Y με m τιμές {y 1, y 2,, y m } Ερμηνεία Υψηλή Εντροπία Υψηλή αβεβαιότητα Χαμηλή Εντροπία Χαμηλή αβεβαιότητα

47 47 Κέρδος Πληροφορίας: Μέτρο Επιλογής Γνωρισμάτων Επιλογή του χαρακτηριστικού με το υψηλότερο κέρδος πληροφορίας (χρησιμοποιείται στον τυπικό αλγόριθμο επαγωγής δέντρων απόφασης: ID3 / C4.5) Έστω p i η πιθανότητα μια τυχαία εγγραφή στο D να ανήκει στην κλάση C i, εκτιμάται από C i, D / D Αναμενόμενη πληροφορία (εντροπία) που χρειάζεται για την ταξινόμηση της εγγραφής στο D: Info( D) = p i log2( p m i= 1 Πληροφορία που χρειάζεται (μετά τη χρήση του A για τη διαμέριση του D σε v τμήματα) για την ταξινόμηση του D: Info A v Dj ( D) = Info( D D j= 1 i ) j ) Κέρδος Πληροφορίας από τη διαμέριση βάσει του γνωρίσματος A Gain(A) = Info(D) Info A (D)

48 Επιλογή Γνωρίσματος με το Κέρδος Πληροφορίας 48 Κλάση P: buys_computer = yes Κλάση N: buys_computer = no Info D) = I(9,5) = log ( ) log ( ) age p i n i I(p i, n i ) <= > ( 2 2 = age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no 5 I 14 (2,3) Info age ( D) = σημαίνει age <=30 έχει 5 από τις 14 εγγραφές, με 2 yes και 3 no. Οπότε I(2,3) + I(3,2) = I(4,0) Gain( age) = Info( D) Info ( D) = age Παρόμοια, Gain( income) = Gain( student) = Gain( credit _ rating ) = 0.048

49 49 Δείκτης Gini Για ένα σύνολο δεδομένων T, που περιέχει παραδείγματα από n κλάσεις, ο δείκτης gini, gini(t), ορίζεται ως n gini( T) = 1 p 2 j j= 1 όπου p j είναι η σχετική συχνότητα της κλάσης j στο T. Για ένα σύνολο δεδομένων T, που αποτελείται από δύο υποσύνολα T 1 και T 2 με μέγεθος N 1 και N 2 αντίστοιχα, ο δείκτης gini των διαχωρισμένων δεδομένων ορίζεται ως ( ) N1 ( ) N 2 gini split T = gini T1 + gini( T 2) N N Το γνώρισμα που παρέχει το ελάχιστο gini split (T) επιλέγεται για τον διαχωρισμό του κόμβου (απαιτείται η απαρίθμηση όλων των πιθανών σημείων διαχωρισμού για κάθε γνώρισμα)

50 50 Υπολογισμός Δείκτη Gini Παράδειγμα: D έχει 9 εγγραφές για buys_computer = yes και 5 για no Ας υποθέσουμε ότι γνώρισμα income διαιρεί το D σε 10 στο D 1 : {low, medium} και 4 στο D 2 gini income low,medium D = 10 = gini D gini D Gini {low,high} είναι 0.458; Gini {medium,high} είναι gini( D) = = = = Gini income high D Έτσι, επιλέγεται η διαίρεση στο {low,medium} (και {high}) αφού έχει τον χαμηλότερο δείκτη Gini

51 51 Αναλογία Κέρδους: Βελτιωμένο Μέτρο Επιλογής Γνωρισμάτων Το κέρδος πληροφορίας είναι μεροληπτικό για χαρακτηριστικά με μεγάλο αριθμό τιμών Αναλογία κέρδους (Gain ratio): Ξεπερνά το πρόβλημα (ως κανονικοποίηση του κέρδους πληροφορίας) GainRatio(A) = Gain(A)/SplitInfo(A) Το γνώρισμα με το μεγαλύτερο λόγο κέρδους επιλέγεται ως το γνώρισμα διαίρεσης Η αναλογία κέρδους χρησιμοποιείται στο δημοφιλή αλγόριθμο C4.5 (διάδοχο του ID3) Παράδειγμα SplitInfo SplitInfo income D = 4 14 log log 2 GainRatio(income) = 0.029/1.557 = A v Dj ( D) = log2 D log 2 D ( j j= 1 D ) 4 14 = 1.557

52 52 Σύγκριση Μέτρων Επιλογής Γνωρισμάτων Τα τρία μέτρα, γενικά, επιστρέφουν καλά αποτελέσματα αλλά Κέρδος Πληροφορίας (Information gain): μεροληπτική προς γνωρίσματα με πολλές τιμές Αναλογία Κέρδους (Gain ratio): τείνει να προτιμά τις μη ισορροπημένες διαιρέσεις στις οποίες μια υποδιαίρεση είναι πολύ μικρότερη από τις άλλες Δείκτης Gini: μεροληπτικός προς γνωρίσματα με πολλές τιμές έχει δυσκολία όταν # κλάσεων είναι μεγάλος τείνει να ευνοεί ελέγχους που οδηγούν σε διαιρέσεις ίσου μεγέθους και καθαρότητα και στις δύο υποδιαίρεσεις

53 53 Εκτίμηση του Λάθους Αφού κατασκευαστεί ένα μοντέλο, θα θέλαμε να αξιολογήσουμε/εκτιμήσουμε την ποιότητα του/την ακρίβεια της κατηγοριοποίησης που πετυχαίνει Ως λάθος (σφάλμα) μετράμε τις εγγραφές που το μοντέλο τοποθετεί σε λάθος κλάση Έχουμε δύο είδη σφαλμάτων Εκπαίδευσης (training): Είναι τα λάθη κατηγοριοποίησης στα δεδομένα του συνόλου εκπαίδευσης (ποσοστό δεδομένων εκπαίδευσης που κατηγοριοποιούνται σε λάθος κλάση). Γενίκευσης (generalization): Είναι τα αναμενόμενα λάθη κατηγοριοποίησης του μοντέλου σε άγνωστα δεδομένα.

54 54 Υπερπροσαρμογή Το φαινόμενο της υπερπροσαρμογής (overfitting) αποδίδεται στο υπερβολικό ταίριασμα του μοντέλου με τα δεδομένα εκπαίδευσης. Μπορεί ένα μοντέλο που ταιριάζει πολύ καλά με τα δεδομένα εκπαίδευσης να έχει μεγαλύτερο λάθος γενίκευσης από ένα μοντέλο που ταιριάζει λιγότερο καλά στα δεδομένα εκπαίδευσης. Η υπερπροσαρμογή έχει ως αποτέλεσμα μοντέλα (δέντρα απόφασης) που είναι πιο περίπλοκα από όσο χρειάζεται. Τα λάθη εκπαίδευσης δεν αποτελούν πια μια καλή εκτίμηση για τη συμπεριφορά του δέντρου σε άγνωστα δεδομένα. Νέοι μέθοδοι για την εκτίμηση του λάθους.

55 55 Υπερπροσαρμογή

56 Υπερπροσαρμογή και Κλάδεμα Δέντρων Υπερπροσαρμογή Πάρα πολλά κλαδιά (δέντρου), μερικά μπορεί να αντιστοιχούν σε ανωμαλίες που οφείλονται σε θόρυβο ή σε ακραίες τιμές Χαμηλή ακρίβεια για άγνωστα παραδείγματα Δύο προσεγγίσεις για αποφυγή της υπερπροσαρμογής Προ-κλάδεμα (pre-pruning): Διακοπή της κατασκευής του δέντρου νωρίς. Δεν διαχωρίζει ένα κόμβο, αν αυτό έχει ως αποτέλεσμα το μέτρο προσαρμογής να βρίσκεται κάτω από ένα κατώφλι Δυσκολία να επιλέξουμε το κατάλληλο κατώφλι Μετα-κλάδεμα (post-pruning): Διαγραφή κλαδιών από ένα πλήρως αναπτυγμένο δέντρο. Δίνει μια σειρά από σταδιακά κλαδευόμενα δέντρα Χρησιμοποιείται ένα σύνολο δεδομένων διαφορετικών από τα δεδομένα εκπαίδευσης ώστε να αποφασιστεί ποιο είναι το «καλύτερα κλαδεμένο δέντρο» 56

57 57 Προ-κλάδεμα (Κανόνας Έγκαιρης Διακοπής) Ο αλγόριθμος σταματά πριν σχηματιστεί ένα πλήρες δέντρο, μέσω της μη επέκτασης ενός κόμβου στις ακόλουθες περιπτώσεις (συνθήκες τερματισμού): Όταν όλες οι εγγραφές ανήκουν στην ίδια κλάση Όταν όλες οι τιμές των γνωρισμάτων είναι οι ίδιες Περιοριστικές συνθήκες: Διακοπή όταν ο αριθμός των εγγραφών είναι μικρότερος από κάποιο προκαθορισμένο κατώφλι Διακοπή όταν η επέκταση ενός κόμβου δεν βελτιώνει την καθαρότητα (π.χ., Gini ή information gain) ή το λάθος γενίκευσης είναι μεγαλύτερο από κάποιο κατώφλι. Γρήγορος τερματισμός μια και ο αλγόριθμος σταματά πριν σχηματιστεί ένα πλήρες δέντρο.

58 Μετα-κλάδεμα (Post-pruning) Tο δέντρο αναπτύσσεται πλήρως Οι κόμβοι ψαλιδίζονται (trim) από πάνω προς τα κάτω (bottom-up) Αν το σφάλμα γενίκευσης μειώνεται με το ψαλίδισμα, τότε γίνεται αντικατάσταση του υπο-δέντρου με: ένα φύλλο - οι ετικέτες κλάσεις του φύλλου καθορίζονται από την πλειοψηφία των κλάσεων των εγγραφών του υπο-δέντρου (subtree replacement) ένα από τα κλαδιά του (branch), αυτό που χρησιμοποιείται συχνότερα (subtree raising) 58

59 Πλεονεκτήματα Δένδρων Αποφάσεων 59 Μη παραμετρική προσέγγιση: Δε στηρίζεται σε υπόθεση εκ των προτέρων γνώσης σχετικά με τον τύπο της κατανομής πιθανότητας που ικανοποιεί η κλάση ή τα άλλα γνωρίσματα Εύκολη κατανόηση, ερμηνεία και γραφική απεικόνιση των κανόνων (ιδιαίτερα τα μικρά δέντρα) Μπορούν να αναλυθούν τόσο μεταβλητές λόγου όσο και ονομαστικές Εξαιρετικά γρήγορη ταξινόμηση άγνωστων εγγραφών Εξαιρετικά ανθεκτικός στο θόρυβο (ειδικά όταν χρησιμοποιούνται μέθοδοι αποφυγής υπερπροσαρμογής) Μπορεί εύκολα να χειριστεί περιττά ή άσχετα γνωρίσματα (εκτός αν τα γνωρίσματα αλληλεπιδρούν) Είναι φτηνή (inexpensive) η κατασκευή του. Αποδοτική κατασκευή ακόμα και στην περίπτωση πολύ μεγάλου συνόλου δεδομένων Η ακρίβεια τους συγκρίσιμη με άλλες τεχνικές για μικρά σύνολα δεδομένων

60 60 Μειονεκτήματα Δένδρων Αποφάσεων Περιορίζονται σε μία μεταβλητή στόχο η οποία πρέπει να είναι ονομαστική Δέντρα αποφάσεων στηριζόμενα σε αριθμητικά δεδομένα (μεταβλητές λόγου) μπορεί να είναι ιδιαιτέρως πολύπλοκα. Ο χώρος των πιθανών δέντρων αποφάσεων είναι εκθετικά μεγάλος. Οι άπληστες προσεγγίσεις είναι συχνά ανίκανες να βρουν το καλύτερο δέντρο. Πραγματοποιούν διαίρεση του χώρου των δεδομένων σε υποσύνολα μόνο με «ευθείες γραμμές» για το εύρος τιμών ενός γνωρίσματος (απλά όρια απόφασης) Εμφανίζουν το πρόβλημα της υπερπροσαρμογής (overfitting) Για δεδομένα που περιλαμβάνουν κατηγορικές μεταβλητές με διαφορετικό αριθμό επιπέδων, το κέρδος πληροφοριας (information gain) στα δέντρα αποφάσεων είναι προκατειλημμένο υπέρ των χαρακτηριστικών με περισσότερα επίπεδα Δεν λαμβάνει υπόψη τις αλληλεπιδράσεις μεταξύ χαρακτηριστικών

61 61 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες Μηχανές Διανυσμάτων Υποστήριξης Αποτίμηση και Επιλογή Μοντέλου Τεχνικές βελτίωσης της ακρίβειας κατηγοριοποίησης Άλλα θέματα κατηγοριοποίησης Σύνοψη

62 62 Μπεϋζιανή Κατηγοριοποίηση Στατιστικός κατηγοριοποιητής Πραγματοποιεί πιθανοτική πρόβλεψη (δηλ. προβλέπει τις πιθανότητες συμμετοχής στην κλάση) Βασισμένος στο Θεώρημα του Bayes Επίδοση Ένας απλός Bayesian κατηγοριοποιητής, ο αφελής κατηγοριοποιητής Bayes, έχει συγκρίσιμη απόδοση με άλλες μεθόδους Μεταξύ των πλέον πρακτικών μεθόδων για συγκεκριμένους τύπους προβλημάτων μάθησης Σταδιακή λειτουργία Κάθε παράδειγμα εκπαίδευσης μπορεί σταδιακά να αυξήσει / μειώσει την πιθανότητα ότι μια υπόθεση είναι σωστή Η προηγούμενη γνώση μπορεί να συνδυαστεί με τα παρατηρούμενα δεδομένα Θεωρητικό πρότυπο Ακόμα και όταν οι Μπεϋζιανές μέθοδοι είναι υπολογιστικά απαιτητικές, μπορούν να παράσχουν ένα σταθερό επίπεδο βέλτιστης λήψης αποφάσεων συγκρίσιμο με άλλες μεθόδους

63 63 Θεώρημα Bayes (Μπεϋζιανό Θεώρημα) Δεδομένου ενός σύνολο εκπαίδευσης D, η δεσμευμένη πιθανότητα (ή εκ των υστέρων πιθανότητα) της υπόθεσης Η, P(Η D) ακολουθεί το θεώρημα του Bayes: Υπόθεση H: Π.χ. Η εγγραφή εκπαίδευσης να ανήκει σε μια κλάση C P(Η D): Η πιθανότητα η εγγραφή εκπαίδευσης D να ανήκει σε μια κλάση C, όταν γνωρίζουμε τις πιθανότητες των χαρακτηριστικών τις εγγραφής D P Η : η σχετική συχνότητα των δειγμάτων της κλάσης C Μεγιστοποίηση της πιθανότητας P(D Η) Η P(D) είναι σταθερή για κάθε κλάση Άρα μεγιστοποίηση της P(D Η)P(Η) Πρακτικές δυσκολίες Απαιτείται αρχική γνώση πολλών πιθανοτήτων, οι οποίες μπορεί να μην είναι διαθέσιμες Σημαντικό υπολογιστικό κόστος P(Η D) = P(D Η)P(Η) P(D)

64 Αφελής Κατηγοριοποιητής Bayes: Αφελής Υπόθεση Απλοποιημένη υπόθεση τα χαρακτηριστικά είναι υπό-συνθήκη ανεξάρτητα p C i X = ς k p x k C i ) = p x 1 C i ) p x 2 C i ) p x n C i ) όπου X είναι απλά δείγματα, x k είναι η τιμή του χαρακτηριστικού k στο δείγμα και C i είναι η i-οστή κλάση Απλοποιεί το μοντέλο και μειώνει σημαντικά το υπολογιστικό κόστος, υπολογίζοντας μόνο την κατανομή κλάσης, όσον αφορά τα χαρακτηριστικά και καθιστώντας τον υπολογισμό δυνατό Συγκρίσιμη απόδοση και βέλτιστοι κατηγοριοποιητές όταν ικανοποιείται σπάνια ικανοποιείται στην πράξη, καθώς τα χαρακτηριστικά συχνά συσχετίζονται 64

65 65 Αφελής Κατηγοριοποιητής Bayes Κατηγορικά χαρακτηριστικά Αν το χαρακτηριστικό x k είναι κατηγορικό, p(x k = v k C i ) είναι ο αριθμός των εγγραφών στην κλάση C i με x k = v k, δια του C i, D (ο αριθμός των εγγραφών της κλάσης C i στο D) p X C i = ς k p x k C i ) = p x 1 C i ) p x 2 C i ) p x n C i ) Συνεχή χαρακτηριστικά Αν το χαρακτηριστικό x k είναι συνεχές, p(x k = v k C i ) συνήθως υπολογίζεται βάσει της κατανομής Gauss με μέσο όρο μ και τυπική απόκλιση σ p x k = v k C i = N x k μ Ci, σ Ci = 1 2πσ Ci e x μ Ci 2 2σ 2

66 Play-tennis παράδειγμα: Υπολογισμός P(x i C) 66 Outlook Temperature Humidity Windy Class sunny hot high false N sunny hot high true N overcast hot high false P rain mild high false P rain cool normal false P rain cool normal true N overcast cool normal true P sunny mild high false N sunny cool normal false P rain mild normal false P sunny mild normal true P overcast mild high true P overcast hot normal false P rain mild high true N P(p) = 9/14 P(n) = 5/14 Ένα άγνωστο δείγμα X = <rain, hot, high, false> P(X p) P(p) = P(rain p) P(hot p) P(high p) P(false p) P(p) = 3/9 2/9 3/9 6/9 9/14 = P(X n) P(n) = P(rain n) P(hot n) P(high n) P(false n) P(n) = 2/5 2/5 4/5 2/5 5/14 = Το X κατηγοριοποιείται στην κλάση n (don t play) outlook P(sunny p) = 2/9 P(sunny n) = 3/5 P(overcast p) = 4/9 P(overcast n) = 0 P(rain p) = 3/9 P(rain n) = 2/5 temperature P(hot p) = 2/9 P(hot n) = 2/5 P(mild p) = 4/9 P(mild n) = 2/5 P(cool p) = 3/9 P(cool n) = 1/5 humidity P(high p) = 3/9 P(high n) = 4/5 P(normal p) = 6/9 P(normal n) = 1/5 windy P(true p) = 3/9 P(true n) = 3/5 P(false p) = 6/9 P(false n) = 2/5

67 Αφελής Κατηγοριοποιητής Bayes: Παράδειγμα 67 P(C i ): P(buys_computer = yes ) = 9/14 = P(buys_computer = no ) = 5/14= Υπολογισμός P(X C i ) για κάθε κλάση P(age = <=30 buys_computer = yes ) = 2/9 = P(age = <= 30 buys_computer = no ) = 3/5 = 0.6 P(income = medium buys_computer = yes ) = 4/9 = P(income = medium buys_computer = no ) = 2/5 = 0.4 P(student = yes buys_computer = yes) = 6/9 = P(student = yes buys_computer = no ) = 1/5 = 0.2 P(credit_rating = fair buys_computer = yes ) = 6/9 = P(credit_rating = fair buys_computer = no ) = 2/5 = 0.4 X = (age <= 30, income = medium, student = yes, credit_rating = fair) P(X C i ) : P(X buys_computer = yes ) = x x x = P(X buys_computer = no ) = 0.6 x 0.4 x 0.2 x 0.4 = P(X C i )*P(C i ) : P(X buys_computer = yes ) * P(buys_computer = yes ) = P(X buys_computer = no ) * P(buys_computer = no ) = Οπότε, το X ανήκει στην κλάση ( buys_computer = yes ) age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no

68 Αφελής Κατηγοριοποιητής Bayes: Πλεονεκτήματα - Μειονεκτήματα Πλεονεκτήματα Εύκολη υλοποίηση Δίνει καλά αποτελέσματα στις περισσότερες περιπτώσεις Μειονεκτήματα Υπόθεση: ανεξαρτησία των γνωρισμάτων, συνεπώς απώλεια ακρίβειας Πρακτικά υπάρχουν εξαρτήσεις μεταξύ των μεταβλητών Π.χ., Ασθενείς: Προφίλ: ηλικία, οικογενειακό ιστορικό, κλπ. Συμπτώματα: πυρετός, βήχας, κλπ. Ασθένεια: καρκίνος του πνεύμονα, διαβήτης, κλπ. Οι εξαρτήσεις μεταξύ αυτών δεν μπορούν να μοντελοποιηθούν Απαιτεί κάθε υπο-συνθήκη πιθανότητα να είναι μη-μηδενική, διαφορετικά η πιθανότητα πρόβλεψης θα είναι μηδέν p X C i = ς k p x k C i ) = p x 1 C i ) p x 2 C i ) p x n C i ) 68

69 69 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες Μηχανές Διανυσμάτων Υποστήριξης Αποτίμηση και Επιλογή Μοντέλου Τεχνικές βελτίωσης της ακρίβειας κατηγοριοποίησης Άλλα θέματα κατηγοριοποίησης Σύνοψη

70 70 Αλγόριθμος των k-πλησιέστερων Γειτόνων (k-νν) Η τεχνική των κοντινότερων γειτόνων (Nearest Neighbor (NN)) είναι μια απλή προσέγγιση του προβλήματος της κατηγοριοποίησης. Μια νέα εγγραφεί κατηγοριοποιείται στην κλάση στην οποία ανήκει η πλειοψηφία των k εγγραφών που βρίσκονται πιο κοντά του (κανόνας k-nn) Ο αριθμός k πρέπει να είναι: μεγάλος ώστε να ελαχιστοποιηθεί η πιθανότητα λανθασμένης κατηγοριοποίησης μικρό (σε σχέση με τον αριθμό των δειγμάτων) έτσι ώστε τα σημεία να είναι αρκετά κοντά στην άγνωστη εγγραφή για να δώσουν μια ακριβή εκτίμηση της πραγματικής κατηγορίας Παράδειγμα με k=3

71 Αλγόριθμος των k-πλησιέστερων Γειτόνων Για την κατηγοριοποίηση ενός νέου στοιχείου x, Μεταξύ των n διανυσμάτων εκπαίδευσης, προσδιορίζουμε τους k πλησιέστερους γείτονες του, ανεξάρτητα από την κλάση στην οποία ανήκουν συνήθως όταν έχουμε δύο κλάσεις το k επιλέγεται να είναι περιττός αριθμός Προσδιορίζουμε πόσα από δείγματα (έστω k i ) ανήκουν στην κλάση i, Ταξινομούμε το x στην κλάση με το μεγαλύτερο πλήθος k i δειγμάτων Για την εφαρμογή του αλγορίθμου, χρειάζεται εκ των προτέρων να γνωρίζουμε τη τιμή του k τη μετρική απόστασης 71

72 72 Χαρακτηριστικά του αλγορίθμου k-nn Ο αλγόριθμος k-nn για συνεχείς συναρτήσεις στόχου Υπολογίζει τις μέσες τιμές των k πλησιέστερων γειτόνων Σταθμισμένη απόσταση για τον πλησιέστερο γείτονα: παραλλαγή αλγορίθμου Σταθμίζει την συνεισφορά καθενός από τους k γείτονες ανάλογα με την απόσταση τους από το σημείο-ερώτημα x q w 1 Αναθέτει μεγαλύτερο βάρος στους πλέον κοντινούς γείτονες d ( xq, x i ) 2 Ομοίως, για συνεχείς συναρτήσεις στόχου Ανθεκτικός σε θορυβώδη δεδομένα βρίσκοντας τη μέση τιμή των k-πλησιέστερων γειτόνων Κατάρα των διαστάσεων: η απόσταση μεταξύ γειτόνων μπορεί να κυριαρχείται από μη σχετικά χαρακτηριστικά Περιορισμός των λιγότερο σχετικών χαρακτηριστικών

73 73 Εφαρμογές αναζήτησης k-nn Αναγνώριση προτύπων Διάγνωση υποστηριζόμενη από Η/Υ: υποστήριξη των γιατρών στην αναγνώριση ευρημάτων Οπτική αναγνώριση χαρακτήρων Θεωρεία κωδικοποίησης Αποκωδικοποίηση σημάτων Βάσεις δεδομένων που είναι context based Ανάκτηση δεδομένων Ηλεκτρονικό εμπόριο Συναφής διαφήμιση Βιοπληροφορική Ταξινόμηση βιολογικών ακολουθιών σε ομάδες Ορθογραφικός έλεγχος Σε εφαρμογές όπως το Microsoft Word Ανίχνευση λογοκλοπής Ανίχνευση αντιγραφής, ομοιότητας κειμένων

74 79 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες Μηχανές Διανυσμάτων Υποστήριξης Αποτίμηση και Επιλογή Μοντέλου Τεχνικές βελτίωσης της ακρίβειας κατηγοριοποίησης Άλλα θέματα κατηγοριοποίησης Σύνοψη

75 Αξιολόγηση Μεθόδων Κατηγοριοποίησης Ακρίβεια πρόβλεψης (predictive accuracy) Ταχύτητα (speed) Χρόνος κατασκευής του μοντέλου Χρόνος εφαρμογής του μοντέλου Ανθεκτικότητα (robustness) Διαχείριση θορύβου και τιμών που λείπουν Κλιμάκωση (scalability) Αποδοτικότητα σε βάσεις δεδομένων αποθηκευμένες στο δίσκο Ευκρίνεια (interpretability) Πόσο κατανοητό είναι το μοντέλο και τι νέα πληροφορία προσφέρει Ποιότητα (quality) Πχ. μέγεθος του δέντρου απόφασης 80

76 81 Αξιολόγηση και Επιλογή Μοντέλου Μέτρα Αξιολόγησης Πώς μπορούμε να μετρήσουμε την ακρίβεια του μοντέλου; Ποια άλλα μέτρα μπορούν να ληφθούν υπόψη; Χρήση συνόλου ελέγχου (με γνωστές κλάσεις) αντί του συνόλου εκπαίδευσης για την αξιολόγηση της ακρίβειας Μέθοδοι Εκτίμησης της ακρίβειας των κατηγοριοποιητών Μέθοδος Holdout Διασταυρωμένη επικύρωση (Cross-validation) Μέθοδος Bootstrap Σύγκριση κατηγοριοποιητών Καμπύλες ROC

77 82 Μέτρα Αξιολόγησης Κατηγοριοποιητών Πίνακας Σύγχυσης (Confusion Matrix) Πραγματική κλάση \ Προβλεπόμενη κλάση C 1 C 1 C 1 True Positives (TP) False Negatives (FN) C 1 False Positives (FP) True Negatives (TN) Σε ένα πίνακα σύγχυσης, το f i,j δείχνει τον αριθμό εγγραφών της κλάσης i που κατηγοριοποιήθηκαν στην κλάση j TP (true positive) f 11, FN (false negative) f 10, FP (false positive) f 01, TN (true negative) f 00 Παράδειγμα Πίνακα Σύγχυσης: Actual class\predicted class buy_computer = yes buy_computer = no Total buy_computer = yes buy_computer = no Total

78 83 Μέτρα Εκτίμησης Ακρίβεια - Accuracy Accuracy = f 11 + f f f f f 10 = TP + TN TP + TN + FP + FN Ρυθμός σφάλματος Error rate = f 11 + f f f f f 10 Ευαισθησία (true positive rate ή sensitivity): Το ποσοστό των θετικών παραδειγμάτων που κατηγοριοποιούνται σωστά TP TPR = TP + FN Ιδιαιτερότητα (true negative rate ή specificity): Το ποσοστό των αρνητικών παραδειγμάτων που κατηγοριοποιούνται σωστά TN TNR = TN + FP

79 84 Μέτρα Εκτίμησης False positive rate: Το ποσοστό των αρνητικών παραδειγμάτων που κατηγοριοποιούνται λάθος (δηλαδή, ως θετικά) FPR = FP TN + FP False negative rate: Το ποσοστό των θετικών παραδειγμάτων που κατηγοριοποιούνται λάθος (δηλαδή, ως αρνητικά) FNR = FN TP + FN Ευστοχία (Precision): Πόσα από τα παραδείγματα που το μοντέλο έχει κατηγοριοποιήσει ως θετικά είναι πραγματικά θετικά. Όσο πιο μεγάλη η ακρίβεια, τόσο μικρότερος o αριθμός των FP p = TP TP + FP Ανάκληση (Recall): Πόσα από τα θετικά παραδείγματα κατάφερε ο κατηγοριοποιητής να βρει. Όσο πιο μεγάλη η ανάκληση, τόσο λιγότερα θετικά παραδείγματα έχουν κατηγοριοποιηθεί λάθος (=TPR) TP r = TP + FN

80 85 Μέτρο Εκτίμησης F-score Το μέτρο F μπορεί να ερμηνευθεί ως ένας σταθμισμένος μέσος όρος της ευστοχίας (precision) και της ανάκλησης (recall) Το μέτρο F έχει ως μέγιστη (καλύτερη) τιμή το 1 και ελάχιστη (χειρότερη) 0 Το κλασσικό μέτρο F ή ισορροπημένο μέτρο F (F score) είναι ο αρμονικός μέσος ευστοχίας και ανάκλησης F_score = 2 (precision recall) precision + recall

81 86 Διαφορά μεταξύ Ακρίβειας και Ευστοχίας Ακρίβεια (Accuracy) είναι το πόσο κοντά βρίσκεται η μέτρηση στην πραγματικότητα Ευστοχία (Precision) είναι το πόσο κοντά βρίσκεται μια μέτρηση σε μια άλλη μέτρηση Χαμηλή ευστοχία σημαίνει αβεβαιότητα

82 87 Μέτρα Εκτίμησης Κατηγοριοποιητών: Παράδειγμα Πίνακας σύγχυσης Actual Class\Predicted class cancer = yes cancer = no Total Recognition(%) cancer = yes (sensitivity) cancer = no (specificity) Total (accuracy) Ευαισθησία (Sensitivity) = TP/P = 90/300 = 30% Ιδιαιτερότητα (Specificity) = TN/N = 9560/9700 = 98.56% Ακρίβεια (Accuracy) = (TP + TN)/All = ( )/10000 = 96.50% Ρυθμός σφάλματος (Error rate) = (FP + FN)/All = ( )/10000 = 3.50% Ευστοχία (Precision) = TP/(TP + FP) = 90/( ) = 90/230 = 39.13% Ανάκληση (Recall) = TP/ (TP + FN) = 90/( ) = 90/300 = 30.00% F1 = 2 P R /(P + R) = % 30.00%/(39.13% + 30%) = 33.96%

83 88 Παράδειγμα υπολογισμού μετρικών ακρίβειας Έχοντας ως δεδομένα τα ακόλουθα αποτελέσματα ενός αλγορίθμου κατηγοριοποίησης, υπολογίστε τις μετρικές TPrate FPrate Precision Recall F-measure === Confusion Matrix === a b c d e f g <-- classified as a b c d e f g

84 89 Μέτρηση Σφάλματος Κατηγοριοποιητή Μέτρηση ακρίβειας Κατηγοριοποιητή: πόσο απέχει η τιμή πρόβλεψης από την πραγματική τιμή Συνάρτηση Απώλειας (Loss function): το σφάλμα μεταξύ πραγματικής τιμής y i και τιμής πρόβλεψης y i Απόλυτο λάθος: y i y i Τετραγωνικό λάθος: (y i y i ) 2 Σφάλμα ελέγχου (γενίκευση σφάλματος): η μέση απώλεια στο σύνολο ελέγχου Μέσο απόλυτο σφάλμα (Mean absolute error): Μέσο τετραγωνικό σφάλμα (Mean squared error): Σχετικό απόλυτο σφάλμα (Relative absolute error): Σχετικό τετραγωνικό σφάλμα (Relative squared error): d y y d i i i = 1 ' d y y d i i i = 1 2 ') ( = = d i i d i i i y y y y 1 1 ' = = d i i d i i i y y y y ) ( ') (

85 90 Μέθοδοι Αποτίμησης Μοντέλου- Μέθοδος Holdout Τα δεδομένα χωρίζονται τυχαία σε δύο ανεξάρτητα σύνολα: Σύνολο εκπαίδευσης (2/3) Σύνολο Ελέγχου (1/3) Λιγότερες εγγραφές για εκπαίδευση Το μοντέλο εξαρτάται από τη σύνθεση των συνόλων εκπαίδευσης και ελέγχου όσο μικρότερο το σύνολο εκπαίδευσης, τόσο μεγαλύτερη η διακύμανση του μοντέλου Όσο μεγαλύτερο το σύνολο εκπαίδευσης, τόσο λιγότερο αξιόπιστη η πιστότητα του μοντέλου που υπολογίζεται με το σύνολο ελέγχου ευρύ διάστημα εμπιστοσύνης (λιγότερο αξιόπιστη εκτίμηση της ακρίβειας) Τα σύνολα ελέγχου και εκπαίδευσης δεν είναι ανεξάρτητα μεταξύ τους (υποσύνολα του ίδιου συνόλου - πχ μια κλάση που έχει πολλά δείγματα στο ένα, θα έχει λίγα στο άλλο και το ανάποδο)

86 91 Μέθοδοι Αποτίμησης Μοντέλου Τυχαία δειγματοληψία (Random Subsampling): μια παραλλαγή της holdout Επανάληψη της μεθόδου για τη βελτίωσή της έστω k επαναλήψεις, παίρνουμε το μέσο όρο της ακρίβειας acc sub = 1 k k i= 1 acci Πάλι αφαιρούμε δεδομένα από το σύνολο εκπαίδευσης Ένα ακόμα πρόβλημα είναι ότι μια εγγραφή μπορεί να χρησιμοποιείται (επιλέγεται) ως εγγραφή εκπαίδευσης πιο συχνά από κάποια άλλη

87 92 Μέθοδοι Αποτίμησης Μοντέλου Διασταυρωμένη επικύρωση (Cross validation) Διαμοίραση των δεδομένων σε k ίσα υποσύνολα (συνήθως k = 10) Κατασκευή του μοντέλου αφήνοντας κάθε φορά ένα υποσύνολο ως σύνολο ελέγχου και χρησιμοποιώντας όλα τα υπόλοιπα ως σύνολα εκπαίδευσης Επανάληψη k φορές 2-fold (δύο ίσα υποσύνολα, το ένα μια φορά για έλεγχο το άλλο για εκπαίδευση και μετά ανάποδα) Μέθοδος leave-one-out Αν k = N, (Ν ο αριθμός των εγγραφών) σύνολο ελέγχου μόνο μια εγγραφή Κάθε εγγραφή χρησιμοποιείται τον ίδιο αριθμό φορών στην εκπαίδευση και ακριβώς μια φορά για έλεγχο μεγαλύτερο δυνατό σύνολο εκπαίδευσης σύνολα ελέγχου αμοιβαία αποκλειόμενα (καλύπτουν όλο το σύνολο) υπολογιστικά ακριβή υψηλή διακύμανση του μέτρου

88 93 Μέθοδοι Αποτίμησης Μοντέλου Αυτοδυναμία (Bootstrap) Αποδίδει καλά για μικρά σύνολα δεδομένων Δειγματοληπτεί τις εγγραφές εκπαίδευσης ομοιόμορφα με αντικατάσταση Κάθε φορά που επιλέγεται μία εγγραφή, μπορεί με την ίδια πιθανότητα να επιλεχθεί πάλι και να επανεισαχθεί στο σύνολο εκπαίδευσης Αρκετές μέθοδοι αυτοδυναμίας. Μια δημοφιλής είναι η.632 bootstrap: Ένα σύνολο d εγγραφών δειγματοληπτείται d φορές, με αντικατάσταση, καταλήγοντας σε ένα σύνολο εκπαίδευσης d δειγμάτων. Οι πλειάδες δεδομένων που δεν συμμετέχουν στο σύνολο εκπαίδευσης, σχηματίζουν το σύνολο ελέγχου. Περίπου 63.2% των αρχικών δεδομένων θα καταλήξουν στο bootstrap, και το υπόλοιπο 36.8% θα σχηματίσει το σύνολο ελέγχου (αφού (1 1/d) d e -1 = 0.368) Επανάληψη της δειγματοληψίας k φορές Συνολική ακρίβεια του μοντέλου: k acc( M ) = (0.632 acc( M i ) test _ set acc( M i ) train _ i= 1 set )

89 94 Αποτίμηση Μοντέλου Μετά την ολοκλήρωση της διαδικασίας αποτίμησης του μοντέλου χρησιμοποιούνται όλα τα δεδομένα για τη δημιουργία του τελικού μοντέλου Γενικά, όσο πιο μεγάλο είναι το σύνολο δεδομένων εκπαίδευσης τόσο πιο καλός είναι ο κατηγοριοποιητής Όσο πιο μεγάλο είναι το σύνολο δεδομένων ελέγχου τόσο πιο ακριβής είναι εκτίμηση του σφάλματος κατηγοριοποίησης

90 95 Αποτίμηση - Επιλογή Μοντέλου: Καμπύλες ROC Καμπύλη χαρακτηριστικών λειτουργίας δέκτη-roc (Receiver Operating Characteristics Curve) Οπτική σύγκριση μοντέλων κατηγοριοποίησης Δείχνει την αντιστάθμιση μεταξύ του TPR (στον άξονα των y) και του FPR (στον άξονα των x) Το εμβαδό της περιοχής κάτω από την καμπύλη ROC (AUC: Area Under Curve) είναι ένα μέτρο της ακρίβειας του μοντέλου Για τη δημιουργία της καμπύλης οι εγγραφές ελέγχου κατατάσσονται σε φθίνουσα σειρά: αυτές που είναι πιθανότερο να ανήκουν στη θετική κατηγορία εμφανίζονται στην κορυφή της λίστας Όσο πιο κοντά στη διαγώνια γραμμή (δηλαδή όσο πιο κοντά είναι το εμβαδό στο 0,5), τόσο λιγότερο ακριβές είναι το μοντέλο

91 96 Καμπύλη ROC Ο κάθετος άξονας αναπαριστά τον TPR (ευαισθησία) O οριζόντιος άξονας αναπαριστά τον FPR (1- ευαισθησία) Το εμβαδό της περιοχής κάτω από την καμπύλη ROC (AUC) είναι ένα μέτρο της ακρίβειας του μοντέλου Όσο πιο κοντά στη διαγώνια γραμμή (δηλαδή όσο πιο κοντά είναι το εμβαδό στο 0,5), τόσο λιγότερο ακριβές είναι το μοντέλο. Το εμβαδό της περιοχής κάτω από την καμπύλη, για ένα μοντέλο με τέλεια ακρίβεια, θα είναι 1

92 97 Παράδειγμα κατασκευής ROC καμπύλης Υποθέτουμε ότι υπάρχουν 2 κλάσεις για τα δεδομένα diseased ( positive, P) και healthy ( negative, N). Δεδομένα 20 παρατηρήσεις εκ των οποίων 10 είναι Ν και 10 είναι P οι 10 Ν παρατηρήσεις έχουν τιμές N = {0.3,0.4,0.5,0.5,0.5,0.6,0.7,0.7,0.8,0.9}; οι 10 P παρατηρήσεις έχουν τιμές P = {0.5,0.6,0.6,0.8,0.9,0.9,0.9,1.0,1.2,1.4} Αλγόριθμος κατηγοριοποίησης Για δεδομένο όριο (threshold), t, ο κατηγοριοποιητής τοποθετεί μια παρατήρηση στο P αν είναι μεγαλύτερη από t Κατασκευή ROC καμπύλης Για τη δημιουργία της ROC καμπύλης, το όριο t παίρνει αρχικά μια μεγάλη τιμή (π.χ. 1.4), η οποία σταδιακά μειώνεται Για κάθε τιμή μεγαλύτερη ή ίση του 1.4, οι παρατηρήσεις τοποθετούνται στην κλάση N, οπότε καμία παρατήρηση του P δεν τοποθετείται στο P (tp = 0.0) και όλες οι παρατηρήσεις του N τοποθετούνται στο N (fp = 0.0) Μετακινώντας το όριο στο 1.2, μια τιμή από το P τοποθετείται στο P (tp = 0.1) ενώ όλες οι τιμές του N τοποθετούνται στο N (fp = 0.0) Συνεχίζοντας με αυτόν τον τρόπο δημιουργείται η καμπύλη ROC

93 98 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες Μηχανές Διανυσμάτων Υποστήριξης Αποτίμηση και Επιλογή Μοντέλου Τεχνικές βελτίωσης της ακρίβειας κατηγοριοποίησης Άλλα θέματα κατηγοριοποίησης Σύνοψη

94 Μέθοδοι Συνένωσης: Αυξάνοντας την ακρίβεια Μέθοδοι συνένωσης Χρήση ενός συνδυασμού από μοντέλα με σκοπό την αύξηση της ακρίβειας Συνδυασμός μια σειράς από k εκπαιδευμένα μοντέλα, M 1, M 2,, M k, για την δημιουργία ενός βελτιωμένου μοντέλου M* Συνήθεις μέθοδοι συνένωσης Συνάθροιση (Bagging): εκπαιδεύει παράλληλα κάθε μοντέλο, χρησιμοποιώντας ένα υποσύνολο του συνόλου εκπαίδευσης Ενίσχυση (Boosting): εκπαιδεύει διαδοχικά κάθε μοντέλο δίνοντας έμφαση στις εγγραφές που δεν κατάφερε να κατηγοριοποιήσει σωστά ο προηγούμενος κατηγοριοποιητής Random Forest: Μια παραλλαγή της συνάθροισης για δένδρα αποφάσεων 99

95 100 Συνάθροιση (Bagging) Αναλογία: Διάγνωση βασισμένη στην πλειοψηφούσα άποψη πολλών γιατρών Εκπαίδευση Δεδομένου ενός συνόλου D με d πλειάδες, σε κάθε επανάληψη i, ένα σύνολο εκπαίδευσης D i με d πλειάδες δειγματοληπτείται με αντικατάσταση από το D (π.χ., bootstrap) Ένα μοντέλο κατηγοριοποιητή M i εκπαιδεύεται για κάθε σύνολο D i Κατηγοριοποίηση: κατηγοριοποίησε ένα άγνωστο δείγμα X Κάθε κατηγοριοποιητής M i επιστρέφει την κλάση πρόβλεψης Ο κατηγοριοποιητής συνάθροισης M* μετρά τις ψήφους και αναθέτει στο X την πλειοψηφούσα κλάση Πρόβλεψη: μπορεί να εφαρμοστεί για την πρόβλεψη συνεχών τιμών, λαμβάνοντας την μέση τιμή κάθε πρόβλεψης για μια συγκεκριμένη πλειάδα ελέγχου Ακρίβεια Συχνά αρκετά καλύτερη από έναν κατηγοριοποιητή που παράγεται από το D Για θορυβώδη δεδομένα: όχι σημαντικά χειρότερος, ωστόσο περισσότερο ανθεκτικός Αποδεικνύεται ότι παρουσιάζει καλύτερη ακρίβεια στην πρόβλεψη

96 101 Ενίσχυση (Boosting) Αναλογία: Συμβουλεύσου διάφορους γιατρούς και αποφάσισε χρησιμοποιώντας ένα συνδυασμό σταθμισμένων διαγνώσεων, το κάθε βάρος σχετίζεται με την ακρίβεια των προηγούμενων διαγνώσεων Πως δουλεύει η ενίσχυση; Ανατίθενται βάρη σε κάθε εγγραφή εκπαίδευσης Μια σειρά k κατηγοριοποιητών εκπαιδεύονται επαναληπτικά Αφού εκπαιδευτεί ένας κατηγοριοποιητής M i, τα βάρη ανανεώνονται για να επιτρέψουν στον επόμενο κατηγοριοποιητή, M i+1, να δώσει περισσότερη προσοχή στις εγγραφές εκπαίδευσης που δεν κατηγοριοποιήθηκαν σωστά από τον M i Ο τελικός M* συνδυάζει τις ψήφους κάθε επιμέρους κατηγοριοποιητή, όπου το βάρος κάθε κατηγοριοποιητή είναι συνάρτηση της ακρίβειάς του Ο αλγόριθμος ενίσχυσης μπορεί να επεκταθεί για την πρόβλεψη συνεχών τιμών Συγκρίνοντας με τον αλγόριθμο συνάθροισης: η ενίσχυση τείνει να πετυχαίνει μεγαλύτερη ακρίβεια, αλλά υπάρχει ο κίνδυνος υπερπροσαρμογής του μοντέλου σε δεδομένα που δεν κατηγοριοποιήθηκαν σωστά

97 102 Random Forest: Βασικές Έννοιες Random Forest Μια παραλλαγή της συνάθροισης για δένδρα αποφάσεων Συνάθροιση δεδομένων Χρησιμοποιεί ένα υποσύνολο δεδομένων εκπαίδευσης με δειγματοληψία με αντικατάσταση για κάθε δέντρο Συνάθροιση χαρακτηριστικών Σε κάθε κόμβο χρησιμοποιείται μια τυχαία επιλογή χαρακτηριστικών ως υποψήφιων και γίνεται διαχωρισμός με βάση το καλύτερο χαρακτηριστικό Σε σύγκριση με τη συνάθροιση, αυξάνει την ποικιλομορφία μεταξύ των δημιουργούμενων δέντρων Κατά την κατηγοριοποίηση, κάθε δέντρο ψηφίζει και επιλέγεται η πιο δημοφιλής κλάση

98 103 Random Forest Δύο μέθοδοι για τη δημιουργία του Random Forest: Forest-RI (random input selection): Randomly select, at each node, F attributes as candidates for the split at the node. The CART methodology is used to grow the trees to maximum size Forest-RC (random linear combinations): Creates new attributes (or features) that are a linear combination of the existing attributes (reduces the correlation between individual classifiers) Δεν είναι ευαίσθητος στον αριθμό των χαρακτηριστικών που επιλέγονται για εξέταση σε κάθε διάσπαση και ταχύτερος από τον bagging ή τον boosting

99 108 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες Μηχανές Διανυσμάτων Υποστήριξης Αποτίμηση και Επιλογή Μοντέλου Τεχνικές βελτίωσης της ακρίβειας κατηγοριοποίησης Άλλα θέματα κατηγοριοποίησης Σύνοψη

100 Σύνοψη 109 Κατηγοριοποίηση Κατασκευή μοντέλου από ένα σύνολο δεδομένων εκπαίδευσης Έλεγχος μοντέλου από ένα σύνολο δεδομένων ελέγχου Κατηγοριοποιητές Επαγωγή δέντρου απόφασης Αφελής κατηγοριοποιητής Bays, Κατηγοριοποιητές k-πλησιέστερων γειτόνων Μετρικές αξιολόγησης Ακρίβεια, ευαισθησία, εξειδίκευση, ανάκληση, μέτρηση F Μέθοδοι αποτίμησης μοντέλων Διασταυρωμένη επικύρωση, μέθοδος Holdout, μέθοδος αυτοδυναμίας Καμπύλη ROC Μέθοδοι βελτίωσης ακρίβειας μοντέλων Ενίσχυση, συνάθροιση, random forests Καμία μέθοδος δεν έχει βρεθεί να υπερτερεί των υπολοίπων για όλα τα σύνολα δεδομένων Παράγοντες που επηρεάζουν την ποιότητα ενός μοντέλου: ακρίβεια, χρόνος εκπαίδευσης, ανθεκτικότητα, δυνατότητα κλιμάκωσης

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις)

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Κατηγοριοποίηση ΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 200-20 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II Κατηγοριοποίηση Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες

Διαβάστε περισσότερα

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή 0 0 0 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση Οι διαφάνειες στηρίζονται στο P.-N. Tan,

Διαβάστε περισσότερα

Κατηγοριοποίηση (Εποπτευόμενη μάθηση)

Κατηγοριοποίηση (Εποπτευόμενη μάθηση) Κατηγοριοποίηση (Εποπτευόμενη μάθηση) Αποθήκες και Εξόρυξη Δεδομένων Διδάσκoυσα: Μαρία Χαλκίδη με βάση slides από J. Han and M. Kamber Data Mining: Concepts and Techniques, 2 nd edition Εποπτευόμενη vs.

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 2 Ο Εργαστήριο WEKA (CLASSIFICATION) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κατηγοριοποίηση Αποτελεί μια από τις βασικές

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική Κατηγοριοποίηση Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κατηγοριοποίηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης

Διαβάστε περισσότερα

Ταξινόμηση II Σύντομη Ανακεφαλαίωση

Ταξινόμηση II Σύντομη Ανακεφαλαίωση 0 0 0 Ταξινόμηση II Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 ΤΑΞΙΝΟΜΗΣΗ

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar

Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar Ταξινόμηση Lecture Notes for Chapter 4 Introduction to Data Mining by Tan, Steinbach, Kumar Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach,

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Ταξινόμηση ΙI. Σύντομη Επανάληψη. Εισαγωγή Κατασκευή έντρου Απόφασης. Εξόρυξη Δεδομένων

Ταξινόμηση ΙI. Σύντομη Επανάληψη. Εισαγωγή Κατασκευή έντρου Απόφασης. Εξόρυξη Δεδομένων Ταξινόμηση ΙI Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Σύντομη Επανάληψη Εισαγωγή Κατασκευή έντρου Απόφασης Εξόρυξη Δεδομένων:

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 11: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Εξαγωγή Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων Από Δεδομένα-

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 M = 1 N = N prob k N k { k n ω wrongly classfed} = (1 ) N k 2 Η συνάρτηση πιθανοφάνειας L(p) μεγιστοποιείται όταν =k/n. 3 Αφού τα s είναι άγνωστα,

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ & ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ:

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Κατηγοριοποίηση. 3 ο Φροντιστήριο. Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς. Σκούρα Αγγελική

Κατηγοριοποίηση. 3 ο Φροντιστήριο. Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς. Σκούρα Αγγελική Κατηγοριοποίηση Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς 3 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Κατηγοριοποίηση (Classification) Σκοπός: Learn a method for

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ Ιωάννα Τζουλάκη Κώστας Τσιλίδης Ιωαννίδης: κεφάλαιο 2 Guyatt: κεφάλαιο 18 ΕΠΙςΤΗΜΟΝΙΚΗ ΙΑΤΡΙΚΗ Επιστήμη (θεωρία) Πράξη (φροντίδα υγείας) Γνωστικό μέρος Αιτιό-γνωση Διά-γνωση Πρό-γνωση

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1 Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Κατηγοριοποίηση (classification) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση Υπολογιστική Νοημοσύνη Μάθημα 9: Γενίκευση Υπερπροσαρμογή (Overfitting) Ένα από τα βασικά προβλήματα που μπορεί να εμφανιστεί κατά την εκπαίδευση νευρωνικών δικτύων είναι αυτό της υπερβολικής εκπαίδευσης.

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Δ.Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΧΟΥΧΟΥΜΗΣ ΙΩΑΝΝΗΣ Το σύνολο των

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

(training data) (test data)

(training data) (test data) Αποθήκες εδοµένων και Εξόρυξη Γνώσης Κατηγοριοποίηση Νίκος Πελέκης, Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/db/courses/dwdm 1 ΠΑ.ΠΕΙ. Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές κατηγοριοποίησης

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Πολυτεχνείο Κρήτης Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Ηλεκτρονικών Υπολογιστών Τομέας Τηλεπικοινωνιών Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

Σχεδίαση και Ανάλυση Αλγορίθμων

Σχεδίαση και Ανάλυση Αλγορίθμων Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4.0 Επιλογή Αλγόριθμοι Επιλογής Select και Quick-Select Σταύρος Δ. Νικολόπουλος 2016-17 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία

Διαβάστε περισσότερα

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ : ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ ΠΙΘΑΝΟΝΤΗΤΕΣ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΓΑΣΙΑ 08: ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ 1 Ο ΣΤΑΔΙΟ: Πριν εφαρμόσουμε οποιοδήποτε αλγόριθμο

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 6 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2017-2018 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ Είναι τεχνικές που έχουν σκοπό: τον εντοπισμό χαρακτηριστικών των οποίων οι αριθμητικές τιμές επιτυγχάνουν

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Χωρικά φίλτρα Χωρικά φίλτρα Γενικά Σε αντίθεση με τις σημειακές πράξεις και μετασχηματισμούς, στα

Διαβάστε περισσότερα

Στατιστική λήψη αποφάσεων

Στατιστική λήψη αποφάσεων Στατιστική λήψη αποφάσεων Εποπτευόμενη Μάθηση: Χρησιμοποιώντας ένα σετ κατάρτισης (training set) για τον σχεδιασμό του ταξινομητή -> Χρησιμοποιώντας ένα ξεχωριστό σύνολο δοκιμών (test set ) για ακρίβεια.

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ... ΠΕΡΙΕΧΟΜΕΝΑ ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...................................... 11 ΠΡΟΛΟΓΟΣ..........................................................15 1. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΝΑΛΥΤΙΚΗ, ΣΤΑ ΠΟΣΟΤΙΚΑ

Διαβάστε περισσότερα

Σχεδίαση & Ανάλυση Αλγορίθμων

Σχεδίαση & Ανάλυση Αλγορίθμων Σχεδίαση & Ανάλυση Αλγορίθμων Ενότητα 3 Αλγόριθμοι Επιλογής Σταύρος Δ. Νικολόπουλος Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros Αλγόριθμοι Επιλογής Γνωρίζουμε

Διαβάστε περισσότερα

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M. 09470015 AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διδάσκων: Γιώργος Τζιραλής ΔΠΜΣ ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ Στάδιο 1 ο. Προεπισκόπηση-προεπεξεργασία δεδομένων: Δίδονται τα παρακάτω

Διαβάστε περισσότερα

Συμπίεση Δεδομένων

Συμπίεση Δεδομένων Συμπίεση Δεδομένων 2014-2015 Κβάντιση Δρ. Ν. Π. Σγούρος 2 Αναλογικά Ψηφιακά Σήματα Αναλογικό Σήμα x t, t [t min, t max ], x [x min, x max ] Δειγματοληψία t n, x t x n, n = 1,, N Κβάντιση x n x(n) 3 Αλφάβητο

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 5 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης

Διαβάστε περισσότερα

Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ

Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ Α ΡΙΣΤΟΤΕΛΕΙΟ Π ΑΝΕΠΙΣΤΗΜΙΟ Θ ΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΠΡΟΒΛΕΨΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΑΓΩΝΩΝ ΠΟΔΟΣΦΑΙΡΟΥ ΠΑΥΛΟΣ ΠΟΛΙΑΝΙΔΗΣ

Διαβάστε περισσότερα

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρμοσμένες Επιστήμες Στατιστικός Πληθυσμός και Δείγμα Το στατιστικό

Διαβάστε περισσότερα

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΕΙ Δυτικής Μακεδονίας ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ 2015-2016 Τεχνητή Νοημοσύνη Μάθηση από Παρατηρήσεις Διδάσκων: Τσίπουρας Μάρκος Εκπαιδευτικό Υλικό: Τσίπουρας Μάρκος http://ai.uom.gr/aima/ 2 Μορφές μάθησης

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

ΑΝΑΣΚΟΠΗΣΗ. Αποθήκες και Εξόρυξη Δεδομένων

ΑΝΑΣΚΟΠΗΣΗ. Αποθήκες και Εξόρυξη Δεδομένων ΑΝΑΣΚΟΠΗΣΗ Αποθήκες και Εξόρυξη Δεδομένων Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης γνώσης Pattern Evaluation Task- relevant

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά Μάιος 2008 Τα δεδομένα που έχουμε προς επεξεργασία χωρίζονται σε τρία μέρη: 1. Τα δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 16 ης διάλεξης

Ασκήσεις μελέτης της 16 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 16 ης διάλεξης 16.1. (α) Έστω ένα αντικείμενο προς κατάταξη το οποίο

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Διακριτές Πηγές Πληροφορίας χωρίς μνήμη Ποσότητα πληροφορίας της πηγής Κωδικοποίηση

Διαβάστε περισσότερα

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας Δειγματοληψία στην εκπαιδευτική έρευνα Είδη δειγματοληψίας Γνωρίζουμε ότι: Με τη στατιστική τα δεδομένα γίνονται πληροφορίες Στατιστική Δεδομένα Πληροφορία Αλλά από πού προέρχονται τα δεδομένα; Πώς τα

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Διάλεξη 14: Δέντρα IV - B-Δένδρα

Διάλεξη 14: Δέντρα IV - B-Δένδρα ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 14: Δέντρα IV - B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - 2-3 Δένδρα, Εισαγωγή και άλλες πράξεις - Άλλα Δέντρα: Β-δένδρα, Β+-δέντρα,

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διαλέξεις 7-8 Μπεϋζιανή εκτίμηση - συνέχεια Μη παραμετρικές μέθοδοι εκτίμησης πυκνότητας Δυαδικές τ.μ. κατανομή Bernoulli : Εκτίμηση ML: Εκτίμηση Bayes για εκ των προτέρων

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 20 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 20 2.1.1 Αβεβαιότητα

Διαβάστε περισσότερα

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4)

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4) Data Mining Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης Κατηγοριοποίηση (κεφ. 4) Βασίλης Βερύκιος - Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/dmbook Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Διαχωριστικές συναρτήσεις Ταξινόμηση κανονικών

Διαβάστε περισσότερα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών

Διαβάστε περισσότερα

Εισαγωγή στη Στατιστική

Εισαγωγή στη Στατιστική Εισαγωγή στη Στατιστική Μετεκπαιδευτικό Σεμινάριο στην ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΑΠΟΚΑΤΑΣΤΑΣΗ ΨΥΧΟΚΟΙΝΩΝΙΚΕΣ ΘΕΡΑΠΕΥΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ Δημήτρης Φουσκάκης, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών,, τα οποίo είναι υποσύνολο του. Υποστηριζόμενες λειτουργίες αναζήτηση(s,x): εισαγωγή(s,x): διαγραφή(s,x): διάδοχος(s,x): προκάτοχος(s,x):

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

Τηλεπικοινωνιακά Συστήματα ΙΙ

Τηλεπικοινωνιακά Συστήματα ΙΙ Τηλεπικοινωνιακά Συστήματα ΙΙ Διάλεξη 11: Κωδικοποίηση Πηγής Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Ατζέντα 1. Αλγόριθμοι κωδικοποίησης πηγής Αλγόριθμος Fano Αλγόριθμος Shannon Αλγόριθμος Huffman

Διαβάστε περισσότερα