Αποθήκες και Εξόρυξη Δεδομένων
|
|
- Τυρώ Δουμπιώτης
- 7 χρόνια πριν
- Προβολές:
Transcript
1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 2 Ο Εργαστήριο WEKA (CLASSIFICATION) Στουγιάννου Ελευθερία estoug@unipi.gr
2 -2- Κατηγοριοποίηση Αποτελεί μια από τις βασικές εργασίες στην εξόρυξη δεδομένων. Βασίζεται στην εξέταση των χαρακτηριστικών ενός αντικειμένου, το όποιο βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κατηγοριών (κλάσεων) και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου, το οποίο αποτελείται από προκατηγοριοποιημένα παραδείγματα. Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο, το οποίο θα μπορούσε να εφαρμοστεί για να κατηγοριοποιήσει δεδομένα που δεν έχουν ακόμα κατηγοριοποιηθεί (ανάθεση ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες -κλάσεις-). Χρησιμοποιούνται κάποιες τεχνικές: Δέντρα Αποφάσεων (Decision Trees) Νευρωνικά Δίκτυα (Neural Networks) K-πλησιέστερων γειτόνων (k-nearest Neighbors, k-nn) Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) Bayesian μέθοδοι Στηρίζονται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης).
3 Παραδείγματα Κατηγοριοποίησης Εντοπισμός spam s, με βάση π.χ. την επικεφαλίδα τους ή το περιεχόμενό τους. -3- Πρόβλεψη καρκινικών κυττάρων χαρακτηρίζοντας τα ως καλοήθη ή κακοήθη. Κατηγοριοποίηση συναλλαγών με πιστωτικές κάρτες ως νόμιμες ή προϊόν απάτης. Χαρακτηρισμός ειδήσεων ως οικονομικές, αθλητικές, πολιτιστικές, πρόβλεψης καιρού, κλπ.
4 10-4- Κατηγοριοποίηση: Ορισμός Είσοδος: συλλογή από εγγραφές. Κάθε εγγραφή περιέχει ένα σύνολο από γνωρίσματα (attributes). Ένα από τα γνωρίσματα είναι η κλάση (class). Συνήθως, το σύνολο δεδομένων εισόδου χωρίζεται σε: ένα σύνολο εκπαίδευσης (training set) και ένα σύνολο ελέγχου (test set). Το σύνολο εκπαίδευσης χρησιμοποιείται για να κατασκευαστεί το μοντέλο και το σύνολο ελέγχου για να το επικυρώσει. Έξοδος: ένα μοντέλο (model) για το γνώρισμα κλάση ως μια συνάρτηση των τιμών των άλλων γνωρισμάτων. Στόχος: νέες εγγραφές θα πρέπει να ανατίθενται σε μία από τις κλάσεις με τη μεγαλύτερη δυνατή ακρίβεια. Tid Επιστροφή Οικογενειακή Κατάσταση Φορολογητέο Εισόδημα 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Απάτη 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes
5 10 10 Βήματα Κατηγοριοποίησης Κατασκευή Μοντέλου Χρησιμοποιώντας το σύνολο εκπαίδευσης (εγγραφές που το γνώρισμα της κλάσης είναι προκαθορισμένο). Το μοντέλο μπορεί να είναι ένα δέντρο ταξινόμησης, κανόνες, μαθηματικοί τύποι - Bayesian κατηγοριοποίηση, κλπ). 2. Εφαρμογή Μοντέλου για την ταξινόμηση μελλοντικών ή άγνωστων αντικειμένων. Εκτίμηση της ακρίβειας του μοντέλου με χρήση συνόλου ελέγχου. Accuracy rate: το ποσοστό των εγγραφών του συνόλου ελέγχου που ταξινομούνται σωστά από το μοντέλο. Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Σύνολο Εκπαίδευσης Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Σύνολο Ελέγχου Επαγωγή Induction Αφαίρεση Deduction Αλγόριθμος Μάθησης Κατασκευή Μοντέλου Εφαρμογή Μοντέλου Χαρακτηριστικά Μοντέλου Ταιριάζει δεδομένα εκπαίδευσης. Προβλέπει την κλάση των δεδομένων ελέγχου. Καλή δυνατότητα γενίκευσης. Μοντέλο
6 -6- Διαδικασία Κατηγοριοποίησης: Κατασκευή Μοντέλου Training Data Classification Algorithms NAM E RANK YEARS TENURED M ike Assistant Prof 3 no M ary A ssistant P rof 7 yes B ill P rofessor 2 yes Jim A ssociate P rof 7 yes Dave Assistant Prof 6 no Anne Associate Prof 3 no Classifier (Model) IF rank = professor OR years > 6 THEN tenured = yes
7 Διαδικασία Κατηγοριοποίησης: Χρήση Μοντέλου για Πρόβλεψη -7- Classifier Testing Data Unseen Data (Jeff, Professor, 4) NAM E RANK YEARS TENURED Tom Assistant Prof 2 no M erlisa A ssociate P rof 7 no G eorge P rofessor 5 yes Joseph A ssistant P rof 7 yes Tenured?
8 -8- Εκμάθηση Χτίζεται το μοντέλο περιγράφοντας ένα προκαθορισμένο σύνολο από κατηγορίες δεδομένων. Τα δεδομένα εκπαίδευσης αναλύονται από έναν αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν στη συνέχεια το μοντέλο. Τα στοιχεία αυτά επιλέγονται τυχαία από ένα πληθυσμό δεδομένων και ανήκουν σε μια από τις προκαθορισμένες κατηγορίες. Η κατηγορία των δειγμάτων εκπαίδευσης (κλάση των στιγμιότυπων εκπαίδευσης) είναι γνωστή και το βήμα αυτό λέγεται «εποπτευόμενη μάθηση». Η απόδοση του μοντέλου αξιολογείται με βάση ένα σύνολο δεδομένων ελέγχου (test set).
9 Βήματα του Data Analysis στον Explorer του WEKA -9- Επιλογή αλγόριθμου Ρυθμίσεις αλγορίθμου Ρυθμίσεις sampling Ρυθμίσεις output Επιλογή class variable Ανάλυση του output
10 -10- Μέθοδοι Κατηγοριοποίησης στο WEKA - Decision trees - Hidden Markov Models (HMMs) - Support vector machines - Artificial Neural Networks - Bayesian methods -
11 Δέντρα απόφασης -11- o Δοθέντος ενός συνόλου από instances (with a set of features), δημιουργείται ένα δέντρο με εσωτερικούς κόμβους τα ονόματα των χαρακτηριστικών γνωρισμάτων (features) και με φύλλα τα ονόματα των κλάσεων (classes). Κάθε κλαδί/σύνδεση ονοματίζεται με ένα κατηγόρημα που μπορεί να εφαρμοστεί στο χαρακτηριστικό που αποτελεί το όνομα του κόμβουπατέρα. Πρόκειται ουσιαστικά, για το διαχωρισμό (split) ενός κόμβου σε παιδιά, και η ετικέτα στην ακμή αποτελεί τη συνθήκη/έλεγχο. o Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές).
12 -12- Αλγόριθμοι Δέντρων Απόφασης ID3: διασπά τους κόμβους, επιλέγοντας το γνώρισμα ελέγχου με βάση το πληροφοριακό κέρδος (απαιτεί discretization). C4.5: επέκταση του ID3. Λειτουργεί και σε συνεχή γνωρίσματα (κάνοντας αυτόματα διακριτοποίηση). Κάνει κλάδεμα του δέντρου. J48: Εφαρμογή του C4.5. Aποτελεί έναν αλγόριθμο, ο οποίος δημιουργεί ένα pruned tree, βάσει του οποίου γίνεται classify η κάθε εγγραφή του training set. (Σε αντίθεση με τον ID3, ο J48 δεν απαιτεί discretization των αριθμητικών χαρακτηριστικών). ΠΡΟΣΟΧΗ: Για τα ίδια δεδομένα μπορεί να υπάρχουν παραπάνω από ένα δέντρα απόφασης (μοντέλα).
13 WEKA Explorer: Classification (1/3) -13- Selecting a Classifier Πατώντας στο επάνω μέρος της καρτέλας αυτής δίνεται το GenericObjectEditor dialog box και επιλέγουμε τον classifier που επιθυμούμε. Οι classifiers στο WEKA είναι μοντέλα για την πρόβλεψη nominal ή numeric εγγραφών. Τα ενσωματωμένα learning schemes περιέχουν: Decision trees και λίστες, instance-based classifiers, support vector machines, multi-layer perceptions, logistic regression, Bayes nets,
14 -14- WEKA Explorer: Classification (2/3) Επιλογές: Use training set: Ο classifier αποτιμάται στο πόσο καλά μπορεί να προβλέψει την class των instances που εκπαιδεύτηκε. Supplied test set: Ο classifier αποτιμάται στο πόσο καλά προβλέπει την class από το set των instances που φορτώθηκαν από το αρχείο. Cross-validation: Ο classifier αποτιμάται μέσα από τον υπολογισμό του μέσου όρου ακρίβειας για το σύνολο των επαναλήψεων (folds) που του δίνεται και εισάγεται στο ανάλογο πεδίο στην καρτέλα Classify. Percentage split: Ο classifier αποτιμάται στο πόσο καλά προβλέπει ένα certain percentage των δεδομένων που προσφέρονται για testing. Τα δεδομένα αυτά εξαρτώνται από την τιμή που εισάγεται στο πεδίο (ελέγχεται ένα ποσοστό των δεδομένων).
15 WEKA Explorer: Classification (3/3) Αποτελέσματα: -15- Run information: Πληροφορίες σχετικά με τις επιλογές του learning scheme, relation name, instances, attributes και το test mode που σχετίζονται με τη διαδικασία. Classifier model (full training set): Μια textual αναπαράσταση του classification μοντέλου που δημιουργήθηκε σε όλα τα training data. Summary: Λίστα στατιστικών για το πώς έγινε η πρόβλεψη την true class των instances κάτω από το επιλεγμένο test mode. Detailed Accuracy By Class: Μια πιο λεπτομερής αναφορά ανά class για την ακρίβεια πρόβλεψης του classifier. Confusion Matrix: Δείχνει πόσα instances αντιστοιχίζονται σε κάθε class. Τα στοιχεία δείχνουν τον αριθμό των test examples των οποίων η ακριβής class είναι η γραμμή και των οποίων η προβλεπόμενη class είναι η στήλη.
16 -16- Κατηγοριοποίηση Επιλογή Ταξινομητή
17 Κατηγοριοποίηση Καθορισμός Παραμέτρων Ταξινομητή -17-
18 -18- Ο Αλγόριθμος ID3 (1/3) Είναι ο πιο γνωστός αλγόριθμος μάθησης δένδρων ταξινόμησης. Είναι αναδρομικός και στη γενική του μορφή περιγράφεται ως εξής: Δηλαδή ο ID3 κατασκευάζει το δένδρο άπληστα (greedy) από πάνω προς τα κάτω, επιλέγοντας αρχικά το πιο κατάλληλο χαρακτηριστικό για έλεγχο στη ρίζα. Η επιλογή βασίζεται σε κάποιο στατιστικό μέτρο που υπολογίζεται από τα δεδομένα. Στη συνέχεια, για κάθε δυνατή τιμή του χαρακτηριστικού δημιουργούνται οι αντίστοιχοι απόγονοι της ρίζας και τα δεδομένα μοιράζονται στους νέους κόμβους ανάλογα με την τιμή που έχουν για το χαρακτηριστικό που ελέγχεται στη ρίζα.
19 Ο Αλγόριθμος ID3 (2/3) -19- Η όλη διαδικασία επαναλαμβάνεται για κάθε νέο κόμβο. Η επιλογή όμως του κατάλληλου χαρακτηριστικού σε κάθε νέο κόμβο αποφασίζεται, χρησιμοποιώντας μόνο τα δεδομένα που ανήκουν σε αυτόν τον κόμβο. Η διαδικασία τερματίζει όταν οι κόμβοι γίνουν τερματικοί (ή φύλλα). Ένας κόμβος γίνεται τερματικός όταν: Όλα τα δεδομένα που ανήκουν σε αυτόν ανήκουν στην ίδια κατηγορία. Η κατηγορία αυτή γίνεται και η τιμή του κόμβου. Ο κόμβος ονομάζεται αμιγής κόμβος (pure node). Σε κάποιο βάθος τελειώσουν τα χαρακτηριστικά προς έλεγχο. Τιμή του κόμβου είναι η κατηγορία στην οποία ανήκει η πλειοψηφία των δεδομένων του κόμβου αυτού. Το βασικότερο στάδιο του αλγορίθμου είναι η επιλογή της ανεξάρτητης μεταβλητής πάνω στην οποία θα συνεχιστεί η ανάπτυξη του δένδρου.
20 -20- Ο Αλγόριθμος ID3 (3/3) Χρησιμοποιεί σαν κριτήριο για τον προσδιορισμό του «καλύτερου χαρακτηριστικού διάσπασης» το κέρδος πληροφορίας (information gain). Το κέρδος πληροφορίας μετριέται ποσοτικά με την εντροπία (entropy). Η εντροπία εν γένει εκφράζει το μέγεθος της αβεβαιότητας ή έκπληξης ή τυχαιότητας σε ένα σύνολο δεδομένων. Π.χ. αν όλα τα δεδομένα ανήκουν σε μια κλάση, τότε δεν υπάρχει αβεβαιότητα: η εντροπία είναι μηδέν. Το ζητούμενο σ ένα Δ.Α., είναι ο διαχωρισμός του συνόλου εκπαίδευσης, με έναν επαναληπτικό τρόπο, σε υποσύνολα μηδενικής εντροπίας.
21 Δέντρο Απόφασης: Εντροπία Εντροπία: #bits για την κωδικοποίηση της ετικέτας κλάσης Εντροπία για τον κόμβο t : Entropy ( t) c j 1 p( j t)log p( j t) 2 p(j t) σχετική συχνότητα της κλάσης j στον κόμβο t c αριθμός κλάσεων Όταν ένας κόμβος p διασπάται σε k σύνολα (παιδιά), η ποιότητα του διαχωρισμού υπολογίζεται ως: GAIN split Entropy ( p) k i 1 n i n Entropy( i) όπου, n i = αριθμός εγγραφών του παιδιού i, n = αριθμός εγγραφών του κόμβου p. Χρησιμοποιείται στα ID3 and C4.5 Όταν χρησιμοποιούμε την εντροπία για τη μέτρηση της μη καθαρότητας τότε η διαφορά καλείται κέρδος πληροφορίας (information gain).
22 -22- Δέντρα Απόφασης Εντροπία: Παράδειγμα (1/4) Δέντρο απόφασης, το οποίο χτίστηκε χρησιμοποιώντας σαν δεδομένα εκπαίδευσης τα δεδομένα του παρακάτω πίνακα με εξαρτημένη μεταβλητή το «play». Βάσει των δεδομένων εκπαίδευσης του Πίνακα, η μεταβλητή στόχος (play) έχει δύο τιμές, οι οποίες δεν είναι ισοπίθανες. Έχουμε 14 παραδείγματα εκπαίδευσης, από τα οποία τα 9 αντιστοιχούν στην τιμή play=yes και τα 5 στην τιμή play=no. Άρα, η εκ των προτέρων πιθανότητα για την τιμή play=yes είναι P(yes)=0.64, ενώ η πιθανότητα play=no είναι P(no)=0.36. Η Εντροπία είναι: Entropy = - P(no)*log2P(no) - P(yes)*log2P(yes) = -0.64*log *log20.36=0.64* *1.47=0.94
23 Δέντρα Απόφασης Εντροπία: Παράδειγμα (2/4) -23- Για να αποφασίσουμε ποια θα είναι η μεταβλητή στη ρίζα του δένδρου, πρέπει να δούμε πόσο είναι το αναμενόμενο κέρδος, ύστερα από κάθε πιθανή πρώτη ερώτηση. Πρώτη ερώτησή: αφορά το πεδίο «outlook» => 3 πιθανές απαντήσεις: P(sunny) = 5/14 = 0.36, P(overcast) = 4/14 = 0.28, P(rainy) = 5/14 = 0.36 Στην περίπτωση που η απάντηση στην ερώτηση «outlook» είναι «sunny» έχουμε 3/5 = 0.6 πιθανότητα η τελική απάντηση να είναι «no», και 2/5 = 0.4 πιθανότητα η τελική απάντηση να είναι «yes». ΆΡΑ: Entropy outlook=sunny = -0.6*log *log20.4=0.6* *1.32=0.97 Στην περίπτωση που η απάντηση στην ερώτηση «outlook» είναι «overcast» έχουμε 0/4 = 0 πιθανότητα η τελική απάντηση να είναι «no», και 4/4 = 1 πιθανότητα η τελική απάντηση να είναι «yes». ΆΡΑ: Entropy outlook=overcast =0 Στην περίπτωση που η απάντηση στην ερώτηση «outlook» είναι «rainy» έχουμε 2/5 = 0.4 πιθανότητα η τελική απάντηση να είναι «no», και 3/5 = 0.6 πιθανότητα η τελική απάντηση να είναι «yes». ΆΡΑ: Entropy outlook=rainy =0.97 bits
24 -24- Δέντρα Απόφασης Εντροπία: Παράδειγμα (3/4) Άρα, η εντροπία μετά την πρώτη ερώτηση («outlook»): Entropy outlook = P(sunny)* Entropy outlook = sunny + P(overcast) * Entropy outlook =overcast + +P(rainy)*Entropy outlook =rainy = 0.36* *0+0.36*0.97 = 0.70 Το κέρδος από την ερώτηση «outlook» είναι λοιπόν: Gain outlook = Entropy Entropy outlook = = 0.24 Πρώτη ερώτησή: αφορά το πεδίο «humidity» => 2 πιθανές απαντήσεις: P(high) = 7/14 = 0.5, P(normal) = 7/14 = 0.5 Στην περίπτωση που η απάντηση στην ερώτηση «humidity» είναι «high» έχουμε 4/7 = 0.57 πιθανότητα η τελική απάντηση να είναι «no», και 3/7 = 0.43 πιθανότητα η τελική απάντηση να είναι «yes». ΆΡΑ: Entropy humidity=high = -0.57*log *log20.43 = 0.57* *1.22= Στην περίπτωση που η απάντηση στην ερώτηση «humidity» είναι «normal» έχουμε 1/7 = 0.14 πιθανότητα η τελική απάντηση να είναι «no», και 6/7 = 0.86 πιθανότητα η τελική απάντηση να είναι «yes». ΆΡΑ: Entropy humidity=normal = -0.86*log *log20.14=0.86* *2.84=0.59
25 -25- Δέντρα Απόφασης Εντροπία: Παράδειγμα (4/4) Άρα, η εντροπία μετά την πρώτη ερώτηση («humidity»): Entropy humidity = P(high)* Entropy humidity = high + P(normal) * Entropy humidity =normal = 0.5* *0.59 = 0.79 Το κέρδος από την ερώτηση «humidity» είναι λοιπόν: Gain humidity = Entropy Entropy humidity = = 0.15 Από ΟΛΑ τα παραπάνω, φαίνεται ότι, η ερώτηση που θα πραγματοποιηθεί στη ρίζα του δένδρου, αφορά τη μεταβλητή «outlook» (Gain outlook > Gain humidity ). Το Κέρδος (GAIN) έχει προδιάθεση να επιλέγει χαρακτηριστικά με μεγάλο σύνολο τιμών, σε σχέση με άλλα που λαμβάνουν λιγότερες τιμές.
26 -26- WEKA Classification: J48 - Παράδειγμα 1 Θα χρησιμοποιήσουμε τον J48 classifier. Τα δεδομένα μας θα είναι από πελάτες μιας τράπεζας (bank.arff).
27 WEKA Classification: J48 - Παράδειγμα Επιλέγουμε την καρτέλα Classify. Μετά επιλέγουμε τον J48 classifier (Ο J48 classifier δεν απαιτεί κάποιο discretization των numeric attributes). Κρατάμε τις default ρυθμίσεις για τον αλγόριθμο.
28 -28- WEKA Classification: J48 - Παράδειγμα 1 Στα "Test options" επιλέγουμε 10-fold cross-validation. - Τα δεδομένα χωρίζονται σε 10 υποσύνολα. - Γίνεται εκπαίδευση χρησιμοποίώντας τα 9 και έλεγχος χρησιμοποιώντας το 1 που περισσεύει. - Επανέλαβε το ίδιο για κάθε πιθανό συνδυσαμό και βγάλε το μέσο όρο. Ξεκινάμε το classification.
29 WEKA Classification: J48 - Παράδειγμα Στην οθόνη βλέπουμε αρχικά την ASCII version του tree και κάποια evaluation statistics. Μπορούμε να δούμε την πληροφορία αυτή, επιλέγοντας "View in separate window".
30 -30- WEKA Classification: J48 - Παράδειγμα 1 Ερμηνεία Αποτελεσμάτων Η ακρίβεια του classification στο μοντέλο μας είναι περίπου 69%. Αυτό σημαίνει, πως ίσως, χρειάζεται κάποια προεπεξεργασία ή επιλογή συγκεκριμένων παραμέτρων στο classification. Επίσης μπορούμε να δούμε μια γραφική απόδοση του classification tree. Αυτό γίνεται με δεξί κλικ στο αποτέλεσμα αριστερά και επιλέγοντας Visualize tree.
31 WEKA Classification: J48 - Παράδειγμα 1 Οπτικοποίηση Αποτελεσμάτων/Δέντρου -31-
32 -32- WEKA Classification: J48 - Παράδειγμα 1 Θα χρησιμοποιήσουμε το μοντέλο αυτό για να κάνουμε κατηγοριοποίηση νέων instances. Θα χρησιμοποιήσουμε τώρα ένα άλλο αρχείο δεδομένων (bank-new.arff), το οποίο έχει κάποιες κενές τιμές (δηλωμένες με? ) που αφορούν το pep attribute. Στο "Test options" επιλέγουμε "Supplied test set. Εκεί φορτώνουμε το νέο αρχείο δεδομένων.
33 WEKA Classification: J48 - Παράδειγμα 1-33-
34 -34- WEKA Classification: J48 - Παράδειγμα 1 Ξεκινάμε ξανά το classification. Εδώ γίνεται εφαρμογή του μοντέλου που αρχικά δημιουργήσαμε στα νέα unclassified instances του αρχείου "bank-new.arff", ώστε να γίνει πρόβλεψη για τις ακαθόριστες τιμές του "pep" attribute. Για να δούμε πως έγινε αυτό στα δεδομένα, επιλέγουμε στο αποτέλεσμα με δεξί κλικ το "Visualize classifier errors". Επιλέγουμε το save του νέου αρχείου δεδομένων.
35 WEKA Classification: J48 - Παράδειγμα 1-35-
36 -36- WEKA Classification: J48 - Παράδειγμα 1 Το αρχείο αυτό περιέχει τα νέα instances και με μια επιπλέον στήλη για τις τιμές που προέβλεψε ο αλγόριθμος για το attribute "pep".
37 WEKA Classification: J48 - Παράδειγμα 2 Επιλέξτε και φορτώστε τα δεδομένα από το αρχείο weather.nominal.arff Ταξινομείστε τα δεδομένα χρησιμοποιώντας τον J48 Ταξινομητή. Πειραματιστείτε με τις παραμέτρους του J48. Οπτικοποιήστε και Παρουσιάστε το Δέντρο. Εξηγείστε τα αποτελέσματα. Εφαρμόστε και άλλους αλγορίθμους κατηγοριοποίησης. Επαναλάβατε τα ίδια, χρησιμοποιώντας το αρχείο weather.arff (numeric attributes).
38 -38- WEKA Classification: build classifier 1 weather.nominal.arff
39 WEKA Classification: build classifier 2 weather.arff -39-
40 -40- WEKA Classification: Πρόβλεψη Class (1/2)
41 WEKA Classification: Πρόβλεψη Class (2/2) -41-
42 -42- WEKA Classification: Αποθήκευση Προβλεπόμενης Κλάσης
43 Παράδειγμα: Δέντρο απόφασης -43- J48 pruned tree outlook = sunny humidity = high: no (3.0) humidity = normal: yes (2.0) outlook = overcast: yes (4.0) outlook = rainy windy = TRUE: no (2.0) windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8 Attributes / Features Attribute Values Classes
44 -44- Μάθηση κατά Bayes Στη μάθηση κατά Bayes (Bayesian learning), κάθε παράδειγμα εκπαίδευσης μπορεί σταδιακά να μειώσει ή να αυξήσει την πιθανότητα να είναι σωστή μια υπόθεση. Μια πρακτική δυσκολία στην εφαρμογή της μάθησης κατά Bayes είναι η απαίτηση για τη γνώση πολλών τιμών πιθανοτήτων. Όταν αυτές οι τιμές δεν είναι δυνατό να υπολογιστούν επακριβώς, υπολογίζονται κατ εκτίμηση από παλαιότερες υποθέσεις, εμπειρική γνώση, κτλ. Η παραπάνω δυσκολία εφαρμογής έχει δώσει μεγάλη πρακτική αξία σε μια απλουστευμένη εκδοχή της μάθησης κατά Bayes, τον απλό ταξινομητή Bayes, στον οποίο γίνεται η παραδοχή ότι τα χαρακτηριστικά είναι ανεξάρτητα μεταξύ τους.
45 Απλός ταξινομητής Bayes -45- Ο απλός ταξινομητής Bayes (simple/naive Bayes classifier) είναι μια πρακτική μέθοδος μάθησης που στηρίζεται σε στατιστικά στοιχεία (κατανομές πιθανότητας). Η ποσότητα P που περιγράφει έναν απλό ταξινομητή Bayes για ένα σύνολο παραδειγμάτων, εκφράζει την πιθανότητα να είναι c η τιμή της εξαρτημένης μεταβλητής C με βάση τις τιμές x=(x1, x2,..., xn) των χαρακτηριστικών X=(X1, X2,..., Xn) και δίνεται από τη σχέση: όπου τα χαρακτηριστικά Χi θεωρούνται ανεξάρτητα μεταξύ τους. * Μπορεί να χρησιμοποιηθεί και για την εξάλειψη των άγνωστων τιμών.
46 -46- Play-tennis παράδειγμα: Υπολογισμός P(xi C) P(p) = 9/14 P(n) = 5/14 Outlook TemperatureHumidityWindy Class sunny hot high false N sunny hot high true N overcast hot high false P rain mild high false P rain cool normal false P rain cool normal true N overcast cool normal true P sunny mild high false N sunny cool normal false P rain mild normal false P sunny mild normal true P overcast mild high true P overcast hot normal false P rain mild high true N outlook P(sunny p) = 2/9 P(sunny n) = 3/5 P(overcast p) = 4/9 P(overcast n) = 0 P(rain p) = 3/9 P(rain n) = 2/5 temperature P(hot p) = 2/9 P(hot n) = 2/5 P(mild p) = 4/9 P(mild n) = 2/5 P(cool p) = 3/9 P(cool n) = 1/5 humidity P(high p) = 3/9 P(high n) = 4/5 P(normal p) = 6/9 P(normal n) = 1/5 windy P(true p) = 3/9 P(true n) = 3/5 P(false p) = 6/9 P(false n) = 2/5
47 Play-tennis παράδειγμα: Κατηγοριοποίηση του X -47- Ένα άγνωστο δείγμα X = <rain, hot, high, false> P(X p) P(p) = P(rain p) P(hot p) P(high p) P(false p) P(p) = 3/9 2/9 3/9 6/9 9/14 = P(X n) P(n) = P(rain n) P(hot n) P(high n) P(false n) P(n) = 2/5 2/5 4/5 2/5 5/14 = Το δείγμα X κατηγοριοποιείται στην κλάση n (don t play).
48 -48- WEKA Classification: Παράδειγμα Bayesian Algorithm (1/6) Επιλέγουμε την καρτέλα Preprocess και επιλέγουμε να ανοίξουμε και να φορτώσουμε το αρχείο iris.arff, που βρίσκεται στο: C:\Program Files\ Weka-3.6\data.
49 WEKA Classification: Παράδειγμα Bayesian Algorithm (2/6) -49-
50 -50- WEKA Classification: Παράδειγμα Bayesian Algorithm (3/6)
51 WEKA Classification: Παράδειγμα Bayesian Algorithm (4/6) -51-
52 -52- WEKA Classification: Παράδειγμα Bayesian Algorithm (5/6)
53 WEKA Classification: Παράδειγμα Bayesian Algorithm (6/6) -53- Η απόδοση κάθε ταξινομητή αναπαρίσταται ως ένα σημείο στην καμπύλη ROC (Receiver Operating Characteristic Curve). Χαρακτηρίζει το trade-off μεταξύ positive hits ([TruePositiveRate] στον άξονα των y) και false alarms ([FalsePositiveRate] στον άξονα των x).
Κατηγοριοποίηση (Εποπτευόμενη μάθηση)
Κατηγοριοποίηση (Εποπτευόμενη μάθηση) Αποθήκες και Εξόρυξη Δεδομένων Διδάσκoυσα: Μαρία Χαλκίδη με βάση slides από J. Han and M. Kamber Data Mining: Concepts and Techniques, 2 nd edition Εποπτευόμενη vs.
Διαβάστε περισσότεραΚατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική
Κατηγοριοποίηση Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά
Διαβάστε περισσότεραΤαξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή
0 0 0 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση Οι διαφάνειες στηρίζονται στο P.-N. Tan,
Διαβάστε περισσότεραΔέντρα Απόφασης (Decision(
Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα
Διαβάστε περισσότεραΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008
Διαβάστε περισσότεραΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:
Διαβάστε περισσότεραΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD
Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων
Διαβάστε περισσότεραΕξόρυξη Δεδομένων Κατηγοριοποίηση
Εξόρυξη Δεδομένων Κατηγοριοποίηση 1 2 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ
ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Ιουνίου 24 ιάρκεια: 2 ώρες Σχεδιάστε έναν αισθητήρα
Διαβάστε περισσότεραΕυφυής Προγραμματισμός
Ευφυής Προγραμματισμός Ενότητα 11: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Εξαγωγή Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων Από Δεδομένα-
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ
ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Τετάρτη 4 Οκτωβρίου 2006 0:00-3:00 ίνεται το παρακάτω
Διαβάστε περισσότερα(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Κατηγοριοποίηση (classification) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων
Διαβάστε περισσότεραΕξόρυξη Γνώσης από Βιολογικά εδομένα
Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά
Διαβάστε περισσότεραΑΝΑΣΚΟΠΗΣΗ. Αποθήκες και Εξόρυξη Δεδομένων
ΑΝΑΣΚΟΠΗΣΗ Αποθήκες και Εξόρυξη Δεδομένων Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης γνώσης Pattern Evaluation Task- relevant
Διαβάστε περισσότερα«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα
«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο
Διαβάστε περισσότερα(training data) (test data)
Αποθήκες εδοµένων και Εξόρυξη Γνώσης Κατηγοριοποίηση Νίκος Πελέκης, Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/db/courses/dwdm 1 ΠΑ.ΠΕΙ. Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές κατηγοριοποίησης
Διαβάστε περισσότεραΥπερπροσαρμογή (Overfitting) (1)
Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης
Διαβάστε περισσότεραΚατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών
Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός
Διαβάστε περισσότεραΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά
ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά Μάιος 2008 Τα δεδομένα που έχουμε προς επεξεργασία χωρίζονται σε τρία μέρη: 1. Τα δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528
Διαβάστε περισσότεραΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση
ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης
Διαβάστε περισσότεραΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ
Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ & ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ:
Διαβάστε περισσότεραΔιδάσκουσα: Χάλκου Χαρά,
Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών
Διαβάστε περισσότεραΕυφυής Προγραμματισμός
Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων
Διαβάστε περισσότεραΑποθήκες και Εξόρυξη Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 1 Ο Εργαστήριο Εισαγωγή στο WEKA (Preprocessing Select Attributes) Στουγιάννου Ελευθερία estoug@unipi.gr -2- ΠΕΡΙΕΧΟΜΕΝΑ Εισαγωγή
Διαβάστε περισσότεραΑποθήκες και Εξόρυξη Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση
Διαβάστε περισσότεραΤεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.
Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των
Διαβάστε περισσότεραΕξόρυξη Γνώσης από Δεδομένα
Εξόρυξη Γνώσης από Δεδομένα Το εργαλείο WEKA Ομάδα ιαχείρισης εδομένων,, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς http://infolab.cs.unipi.gr έσποινα Κοπανάκη (dkopanak@unipi.gr) Νοέμβριος 2009 Τα δεδομένα
Διαβάστε περισσότεραΑποθήκες και Εξόρυξη Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 3 Ο Εργαστήριο WEKA (CLUSTERING) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Συσταδοποίηση (Clustering) Συσταδοποίηση / Ομαδοποίηση
Διαβάστε περισσότεραΟι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός
Διαβάστε περισσότεραΤαξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή
Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach,
Διαβάστε περισσότεραΚατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις)
Κατηγοριοποίηση ΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 200-20 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II Κατηγοριοποίηση Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες
Διαβάστε περισσότεραΕξόρυξη Γνώσης - το εργαλείο WEKA
Εξόρυξη Γνώσης - το εργαλείο WEKA Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http:// http://isl.cs.unipi.gr/) Κοτσιφάκος Ευάγγελος ek@unipi.gr Νοέµβριος 2008 Ανακάλυψη και Εξόρυξη
Διαβάστε περισσότεραΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Δ.Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΧΟΥΧΟΥΜΗΣ ΙΩΑΝΝΗΣ Το σύνολο των
Διαβάστε περισσότεραΤαξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar
Ταξινόμηση Lecture Notes for Chapter 4 Introduction to Data Mining by Tan, Steinbach, Kumar Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες
Διαβάστε περισσότεραΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ
ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ Το dataset weather περιέχει 4 μεταβλητές (outlook, temperature, humidity, windy) και 14 καταχωρήσεις για το καθένα από αυτά. Με βάση αυτές εξετάζεται το γεγονός
Διαβάστε περισσότερα«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός
Διαβάστε περισσότεραΑλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα
Αλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα Στεργίου Κωνσταντίνος Α.Μ.496 Σχολή Θετικών Επιστημών - Τμήμα Μαθηματικών Μ.Π.Σ. Μαθηματικά και Σύγχρονες Εφαρμογές στα «Υπολογιστικά Μαθηματικά
Διαβάστε περισσότεραΤεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή
Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής
Διαβάστε περισσότεραΟι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Κατηγοριοποίηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης
Διαβάστε περισσότεραΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ
ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία
Διαβάστε περισσότεραData Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4)
Data Mining Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης Κατηγοριοποίηση (κεφ. 4) Βασίλης Βερύκιος - Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/dmbook Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές
Διαβάστε περισσότεραΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση
ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση Η μορφή των δεδομένων και η σημασία της Δεδομένα input Αλγόριθμοι Εξόρυξης
Διαβάστε περισσότεραΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ
ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M. 09470015 AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διδάσκων: Γιώργος Τζιραλής ΔΠΜΣ ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ Στάδιο 1 ο. Προεπισκόπηση-προεπεξεργασία δεδομένων: Δίδονται τα παρακάτω
Διαβάστε περισσότεραυποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»
ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΙΔΙΚΕΥΣΗΣ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Διπλωματική εργασία με θέμα: «Ανάπτυξη υποδείγματος για την αξιολόγηση αυτοκινήτων με
Διαβάστε περισσότεραΑποθήκες εδομένων και Εξόρυξη εδομένων:
Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΠανεπιστήµιο Κύπρου Πολυτεχνική Σχολή
Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,
Διαβάστε περισσότεραΣέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2
Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),
Διαβάστε περισσότεραΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες
ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες Αλγόριθμοι Δεδομένα input Αλγόριθμοι Εξόρυξης Πληροφορίας Εξαγόμενα output
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το
Διαβάστε περισσότεραΔιπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»
Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία
Διαβάστε περισσότεραΜέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση
Διαβάστε περισσότεραΔιακριτικές Συναρτήσεις
Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New
Διαβάστε περισσότεραΙ. Preprocessing (Επεξεργασία train.arff):
Ονοματεπώνυμο: Κατερίνα Αργύρη Δ.Π.Μ.Σ: Εφαρμοσμένες Μαθηματικές Επιστήμες Ακαδ. Έτος: 2008-2009 1 Για την παρούσα εργασία διατίθενται τρία σύνολα δεδομένων: Δεδομένα Εκπαίδευσης (train set αρχείο train.arff):
Διαβάστε περισσότεραΤαξινόμηση II Σύντομη Ανακεφαλαίωση
0 0 0 Ταξινόμηση II Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 ΤΑΞΙΝΟΜΗΣΗ
Διαβάστε περισσότεραΕισαγωγή στο Data Mining Από τα δεδομένα στη γνώση
Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση Η πληροφορία στη σύγχρονη επιχείρηση Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Πέραν του ανθρώπινου δυναμικού, η πληροφορία αποτελεί τον πλέον πολύτιμο
Διαβάστε περισσότεραLOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης
Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός
Διαβάστε περισσότεραΠληροφοριακά Συστήματα Διοίκησης
Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε
Διαβάστε περισσότεραΣυνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ
Πολυτεχνείο Κρήτης Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Ηλεκτρονικών Υπολογιστών Τομέας Τηλεπικοινωνιών Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην
Διαβάστε περισσότεραΤαξινόμηση ΙI. Σύντομη Επανάληψη. Εισαγωγή Κατασκευή έντρου Απόφασης. Εξόρυξη Δεδομένων
Ταξινόμηση ΙI Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Σύντομη Επανάληψη Εισαγωγή Κατασκευή έντρου Απόφασης Εξόρυξη Δεδομένων:
Διαβάστε περισσότεραΑναγνώριση Προτύπων Εργασία 1η Classification
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Αναγνώριση Προτύπων Εργασία 1η Classification Κιντσάκης Αθανάσιος 6667 Μόσχογλου Στυλιανός 6978 30 Νοεμβρίου,
Διαβάστε περισσότεραsquared error, Mean absolute error, Root mean squared error) µεγάλωσαν,
ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣ ΣΤΙΣ ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΈΤΟΣ 2009 ΌΝΟΜΑ : ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ Α.Μ. : 09480014 ΕΞΑΜΗΝΟ
Διαβάστε περισσότεραΜεθοδολογία των επιστημών του Ανθρώπου : Στατιστική
Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 5 Οι τιμές ενός τεστ κατανέμονται κανονικά με μέση τιμή 100 και τυπική απόκλιση 15. Διαθέτουμε τις τιμές επτά μαθητών για το παραπάνω τεστ
Διαβάστε περισσότεραΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων
ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Διακριτές Πηγές Πληροφορίας χωρίς μνήμη Ποσότητα πληροφορίας της πηγής Κωδικοποίηση
Διαβάστε περισσότεραΜάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων
Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες
Διαβάστε περισσότεραΕξόρυξη γνώμης πολιτών από ελεύθερο κείμενο
Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί
Διαβάστε περισσότεραΕιδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων
Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις
Διαβάστε περισσότεραΣέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2
Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson Σχεδιαζόντας ταξινομητές: Τα δεδομένα Στην πράξη η γνώση σχετικά διαδικασία γέννεσης των δεδομένων είναι πολύ σπάνια γνωστή. Το μόνο που έχουμε στη διάθεσή
Διαβάστε περισσότεραΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΔΟΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΛΙΚΩΝ Προχωρημένες Τεχνικές Εξόρυξης Δεδομένων σε Νοσοκομειακές
Διαβάστε περισσότεραΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ
Θ.Ε. ΠΛΗ31 (2004-5) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #3 Στόχος Στόχος αυτής της εργασίας είναι η απόκτηση δεξιοτήτων σε θέματα που αφορούν τα Τεχνητά Νευρωνικά Δίκτυα και ποιο συγκεκριμένα θέματα εκπαίδευσης και υλοποίησης.
Διαβάστε περισσότεραΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το
Διαβάστε περισσότεραΔρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης
Μάθημα 6 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2017-2018 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες
Διαβάστε περισσότεραHMY 795: Αναγνώριση Προτύπων
HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για
Διαβάστε περισσότεραΑνακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA
Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA Ειρήνη Ντούτση Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) 02/04/2008 Ανακάλυψη και
Διαβάστε περισσότεραPredicting the Choice of Contraceptive Method using Classification
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΣΣΑΛΟΝΙΚΗ Predicting the Choice of Contraceptive Method using Classification ΠΑΠΑΔΟΠΟΥΛΟΣ ΧΡΗΣΤΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Νικόλαος Σαμαράς ΕΞΕΤΑΣΤΗΣ:
Διαβάστε περισσότεραΠεριγραφική Ανάλυση ποσοτικών μεταβλητών
Περιγραφική Ανάλυση ποσοτικών μεταβλητών Στο data file Worldsales.sav (αρχείο υποθετικών πωλήσεων ανά ήπειρο και προϊόν) Analyze Descriptive Statistics Frequencies Επιλογή μεταβλητής Revenue Πατάμε στο
Διαβάστε περισσότεραΚεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -
Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) - 1 - Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα, όπως γίνεται αντιληπτή στην καθημερινή ζωή, μπορεί να συνδεθεί με δύο βασικές ιδιότητες: την ικανότητά στην
Διαβάστε περισσότεραΤεχνητή Νοημοσύνη ΙΙ. Ενότητα : Μηχανική Μάθηση. Σγάρμπας Κυριάκος Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών
Τεχνητή Νοημοσύνη ΙΙ Ενότητα : Μηχανική Μάθηση Σγάρμπας Κυριάκος Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σκοποί ενότητας Μηχανική Μάθηση 2 Περιεχόμενα ενότητας Μηχανική
Διαβάστε περισσότεραΔιαγραφή Επιλέγετε Διαγραφή για να διαγράψετε μία ήδη υπάρχουσα διαδικασία εισαγωγής ASCII
Published on PRISMA Win Help - Megasoft (http://docs.megasoft.gr) Home > Διαχείριση Βάσης Δεδομένων (dbadmin) > Αρχεία Αρχεία Εισαγωγή από αρχείο ASCII Με την εργασία αυτή έχετε την δυνατότητα να εισάγετε
Διαβάστε περισσότεραΑσκήσεις μελέτης της 16 ης διάλεξης
Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 16 ης διάλεξης 16.1. (α) Έστω ένα αντικείμενο προς κατάταξη το οποίο
Διαβάστε περισσότεραΠ ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ
Α ΡΙΣΤΟΤΕΛΕΙΟ Π ΑΝΕΠΙΣΤΗΜΙΟ Θ ΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΠΡΟΒΛΕΨΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΑΓΩΝΩΝ ΠΟΔΟΣΦΑΙΡΟΥ ΠΑΥΛΟΣ ΠΟΛΙΑΝΙΔΗΣ
Διαβάστε περισσότεραΜάθηση με παραδείγματα Δέντρα Απόφασης
Μάθηση με παραδείγματα Δέντρα Απόφασης Μορφές μάθησης Επιβλεπόμενη μάθηση (Ταξινόμηση Πρόβλεψη) Παραδείγματα: {(x, t )} t κατηγορία ταξινόμηση t αριθμός πρόβλεψη Μη-επιβλεπόμενη μάθηση (Ομαδοποίηση Μείωση
Διαβάστε περισσότεραΚατηγοριοποίηση. 3 ο Φροντιστήριο. Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς. Σκούρα Αγγελική
Κατηγοριοποίηση Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς 3 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Κατηγοριοποίηση (Classification) Σκοπός: Learn a method for
Διαβάστε περισσότερα4.3. Γραµµικοί ταξινοµητές
Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων
Διαβάστε περισσότεραΤεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.
Τεχνητή Νοημοσύνη 15η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των
Διαβάστε περισσότεραΜηχανική Μάθηση. Η µηχανική µάθηση ως πρόβληµα αναζήτησης
Μηχανική Μάθηση! Η έννοια της µάθησης σε ένα γνωστικό σύστηµα µπορεί να συνδεθεί µε δύοβασικές ιδιότητες: # Την ικανότητά του στην πρόσκτηση επιπλέον γνώσης κατά την αλληλεπίδρασή του µε το περιβάλλον
Διαβάστε περισσότεραΕξόρυξη γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό
Εξόρυξη γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό Ενότητα # 3: Supervised learning Διδάσκων: Μιχάλης Βαζιργιάννης Τμήμα: Προπτυχιακό Πρόγραμμα Σπουδών Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
Διαβάστε περισσότεραΔιαχείριση Βάσης Δεδομένων (dbadmin)
Published on PRISMA Win Help - Megasoft (http://docs.megasoft.gr) Home > Εμπορική Διαχείριση > Διαχείριση Βάσης Δεδομένων (dbadmin) Διαχείριση Βάσης Δεδομένων (dbadmin) Μέσα από τη διαχείριση βάσης δεδομένων
Διαβάστε περισσότεραΔιαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη
Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου
Διαβάστε περισσότεραΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ : ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ ΠΙΘΑΝΟΝΤΗΤΕΣ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΓΑΣΙΑ 08: ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ 1 Ο ΣΤΑΔΙΟ: Πριν εφαρμόσουμε οποιοδήποτε αλγόριθμο
Διαβάστε περισσότεραΘεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων
Θεωρία Αποφάσεων ο Φροντιστήριο Λύσεις των Ασκήσεων Άσκηση Έστω ένα πρόβλημα ταξινόμησης μιας διάστασης με δύο κατηγορίες, όπου για κάθε κατηγορία έχουν συλλεχθεί τα παρακάτω δεδομένα: D = {, 2,,,,7 }
Διαβάστε περισσότερα(Customer Relationship Management - CRM)
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΟΜΕΑΣ ΜΑΘΗΜΑΤΙΚΩΝ Διπλωματική Εργασία Μέθοδοι ταξινόμησης για δεδομένα υψηλών διαστάσεων και εφαρμογή σε πείραμα μελέτης
Διαβάστε περισσότερα8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ
8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ Στόχος του εργαστηρίου αυτού είναι να δείξει πώς τα εργαστήρια με τα δεδομένα της ICAP μπορούν να υλοποιηθούν χωρίς τη χρήση SQL Server, χρησιμοποιώντας μόνον Excel και Rapid
Διαβάστε περισσότεραΠοσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος
Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης
Διαβάστε περισσότεραΔημιουργία και επεξεργασία διανυσματικών επιπέδων στο QGIS
Δημιουργία και επεξεργασία διανυσματικών επιπέδων στο QGIS Δημιουργία επιπέδου σχεδίασης 1. Από το Menu Layer Create Layer New Shapefile Layer δημιουργούμε νέο επίπεδο. Στο παράθυρο που ανοίγει (Εικ. 1)
Διαβάστε περισσότεραΑναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)
Αναγνώριση Προτύπων Μη παραμετρικές τεχνικές Αριθμητικά Παραδείγματα (Non Parametric Techniques) Καθηγητής Χριστόδουλος Χαμζάς Τα περιεχόμενο της παρουσίασης βασίζεται στο βιβλίο: Introduction to Pattern
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
Διαβάστε περισσότεραΔομές Δεδομένων και Αλγόριθμοι
Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 20 Huffman codes 1 / 12 Κωδικοποίηση σταθερού μήκους Αν χρησιμοποιηθεί κωδικοποίηση σταθερού μήκους δηλαδή
Διαβάστε περισσότερα