Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης
|
|
- ramaic Ζερβός
- 7 χρόνια πριν
- Προβολές:
Transcript
1 Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων version: Περιεχόµενα Τι είναι η διαδικασία ανακάλυψης γνώσης από δεδοµένα (Knowledge Discovery in Data KDD ή data mining) Βασικές τεχνικές data mining Κατηγοριοποίηση ή ταξινόµηση (classification) Συσταδοποίηση ή οµαδοποίηση (clustering) Εξαγωγή κανόνων συσχετίσεων (association rule mining) 2 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 1
2 Περιεχόµενα Τι είναι η διαδικασία ανακάλυψης γνώσης από δεδοµένα (Knowledge Discovery in Data KDD ή data mining) Βασικές τεχνικές data mining Κατηγοριοποίηση ή ταξινόµηση (classification) Συσταδοποίηση ή οµαδοποίηση (clustering) Εξαγωγή κανόνων συσχετίσεων (association rule mining) 3 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κίνητρο: µεγάλες βάσεις δεδοµένων Παράγονται όλο και περισσότερα δεδοµένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστηµονικά δεδοµένα: αστρονοµικά, βιολογικά κλπ. Αποθηκεύονται όλο και περισσότερα δεδοµένα: Γρήγορη και φθηνή τεχνολογία αποθήκευσης Ικανά Σ Β για µεγάλες Β Παράδειγµα µεγάλης Β : Η Β της επιχείρησης λιανεµπορίου Wal-Mart είναι της τάξης των 24 Tbytes Άρα χρειάζεται η ανακάλυψη γνώσης µέσα από τα δεδοµένα (Knowledge Discovery in Data - KDD) για να δώσει νόηµα και χρήση στα δεδοµένα 4 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 2
3 ιαδικασία ανακάλυψης γνώσης Ολοκλήρωση Ερµηνεία & Αξιολόγηση Knowledge Πρωτογενή δεδοµένα Επιλογή & καθαρισµός Αποθήκη εδοµένων (data warehouse) Μετασχηµατισµός Εξόρυξη Γνώσης (Data Mining Μετ/να εδοµένα δεδοµένα στόχος (target data) Πρότυπα (patterns) και Κανόνες (rules) Γνώση Κατανόηση 5 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Τεχνικές DM Yes Refund No Classification Decision Trees, Neural Nets,... Clustering Spherical, density-based, Association rule mining MarSt NO Single, Divorced TaxInc < 80K > 80K YES NO NO Married 6 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 3
4 Περιεχόµενα Τι είναι η διαδικασία ανακάλυψης γνώσης από δεδοµένα (Knowledge Discovery in Data KDD ή data mining) Βασικές τεχνικές data mining Κατηγοριοποίηση ή ταξινόµηση (classification) Συσταδοποίηση ή οµαδοποίηση (clustering) Εξαγωγή κανόνων συσχετίσεων (association rule mining) 7 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κατηγοριοποίηση (Classification) Εκµάθηση µιας τεχνικής να προβλέπει την κλάση ενός στοιχείου επιλέγοντας από προκαθορισµένες τιµές 8 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 4
5 Το πρόβληµα της κατηγοριοποίησης Αν µας δοθεί µια βάση δεδοµένων D={t 1, t 2,, t n } και ένα σύνολο κατηγοριών -"κλάσεων" C={C 1,, C m },... το Πρόβληµα Κατηγοριοποίησηςέγκειται στον ορισµό µιας απεικόνισης f: D C όπου κάθε εγγραφή t i ανατίθεται σε µία κλάση C j. Ουσιαστικά, η κατηγοριοποίηση διαµερίζει τη D σε κλάσεις ισοδυναµίας. Η Πρόβλεψη είναι παρόµοιο πρόβληµα, αλλά µπορεί να θεωρηθεί ότι έχει άπειρο αριθµό κλάσεων. 9 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παραδείγµατα κατηγοριοποίησης Οι δάσκαλοι αναθέτουν βαθµούς µέσα από µία κλίµακα [A..Γ], [0..10], [0..20]. Τα µανιτάρια ταξινοµούνται σε δηλητηριώδη και µη. Μπορεί να γίνει πρόβλεψη (εκτίµηση πιθανότητας) εάν θα πληµµυρίσει ένας ποταµός. Οι πελάτες της τράπεζας µπορούν να κατηγοριοποιηθούν ως προς την πιστωτική τους ικανότητα. 10 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 5
6 Τεχνικές κατηγοριοποίησης Τυπική προσέγγιση: 1. ηµιουργία ενός µοντέλου µέσω της αξιολόγησης ενός συνόλου δεδοµένων εκπαίδευσης (training data) (ή µέσω της γνώσης ειδικών του πεδίου). 2. Εφαρµογή του µοντέλου σε νέα δεδοµένα. Οι κλάσεις πρέπει να είναι προκαθορισµένες Οι πιο κοινές τεχνικές είναι τα δένδρα αποφάσεων, τα νευρωνικά δίκτυα και τεχνικές βασισµένες σε απόσταση ή σε στατιστικές µεθόδους. 11 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1 ο βήµα: ηµιουργία µοντέλου εδοµένα εκπαίδευσης (training data) Αλγόριθµος Κατηγοριοποίησης όνοµα βαθµίδα έτη µόνιµος Μιχάλης Επικ.Καθηγητής 3 ΟΧΙ Νίκος Επικ.Καθηγητής 7 ΝΑΙ Βασίλης Καθηγητής 2 ΝΑΙ ηµήτρης Αναπλ.Καθηγητής 7 ΝΑΙ Γιώργος Επικ.Καθηγητής 6 ΟΧΙ Κώστας Αναπλ.Καθηγητής 3 ΟΧΙ Μοντέλο IF βαθµίδα = Καθηγητής OR έτη > 6 THEN µόνιµος = ΝΑΙ 12 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 6
7 2 ο βήµα: Εφαρµογή µοντέλου Μοντέλο οκιµαστικά εδοµένα (test data) Νέα δεδοµένα (Γιάννης, Καθηγητής, 4) όνοµα βαθµίδα έτη µόνιµος Θωµάς Επικ.Καθηγητής 2 ΟΧΙ Νίκος Αναπλ.Καθηγητής 7 ΟΧΙ Γεράσιµος Καθηγητής 5 ΝΑΙ Ιωσήφ Επικ.Καθηγητής 7 ΝΑΙ Μόνιµος; 13 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κατηγοριοποίηση µε δένδρα αποφάσεων (decision trees) Κατηγοριοποίηση βασισµένη στη διαµέριση: διαίρεση του χώρου σε ορθογώνιες περιοχές Οι εγγραφές ανατίθενται σε κλάσεις µε βάσητηνπεριοχή µέσα στην οποία πέφτουν. = Καθηγητής Οι τεχνικές Α διαφέρουν µεταξύ τους στον τρόπο ΝΑΙ κατασκευής του δένδρου (επαγωγή Α) Οι εσωτερικοί κόµβοι ενός Α αντιστοιχούν σε χαρακτηριστικά και τα τόξα ενός Α σε τιµές αυτών των χαρακτηριστικών. Αλγόριθµοι: ID3, C4.5, CART Βαθµίδα Καθηγητής 14 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 6 ΟΧΙ έτη >6 ΝΑΙ Page 7
8 Παράδειγµα: πρόγνωση καιρού Outlook Temperature Humidity Windy Play? sunny hot high false No sunny hot high true No overcast hot high false Yes rain mild high false Yes rain cool normal false Yes rain cool normal true No overcast cool normal true Yes sunny mild high false No sunny cool normal false Yes rain mild normal false Yes sunny mild normal true Yes overcast mild high true Yes overcast hot normal false Yes rain mild high true No 15 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα Α για το χαρακτηριστικό Play? Outlook sunny overcast rain Humidity Yes Windy high normal true false No Yes No Yes 16 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 8
9 ένδρο Απόφασης οθέντων: µιας βάσης δεδοµένων D = {t 1,, t n } όπου t i =<t i1,, t ih > του σχήµατος της Β {A 1, A 2,, A h } ενός συνόλου κλάσεων C={C 1,., C m } ένδρο απόφασης (ή κατηγοριοποίησης) είναι ένα δένδρο συσχετισµένο Βαθµίδα µε τηd έτσι ώστε = Καθηγητής Κάθε εσωτερικός κόµβος έχει ως ετικέτα ένα χαρακτηριστικό, A i Κάθε τόξο έχει ως ετικέτα ένα κατηγόρηµα πουµπορεί να εφαρµοστεί στο χαρακτηριστικό του κόµβου-γονέα Κάθε φύλλο (τερµατικός κόµβος) έχει ως ετικέτα µια κλάση, C j ΝΑΙ 6 ΟΧΙ Καθηγητής έτη >6 ΝΑΙ 17 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Επαγωγή Α Input: D //Training data Output: T //Decision tree DTBuild algorithm: //Simplistic algorithm to illustrate naïve approach to building DT begin T = ; Determine splitting criterion; T = Create root node and label with splitting attribute; T = Add arc to root node for each split predicate and label; for each arc do begin D = Database created by applying splitting predicate to D; if stopping point reached for this path, then T = Create leaf node and label with appropriate class; else T = DTBuild(D); end T = Add T to arc; end 18 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 9
10 Ζητήµατα στα Α Αρχική επιλογή των χαρακτηριστικών διάσπασης Κάποια από τα χαρακτηριστικά της Β πρέπει να παραληφθούν (δεν εξυπηρετούν την κατηγοριοποίηση) Κριτήριο διάσπασης Επιλογή του χαρακτηριστικού διάσπασης και της συνθήκης διάσπασης) ενδρική δοµή επιθυµητό: ισοζυγισµένο δένδρο µε λίγα επίπεδα κάποιες τεχνικές παράγουν µόνο δυαδικά δένδρα Κριτήρια τερµατισµού ακρίβεια κατηγοριοποίησης vs. απόδοση vs. υπερπροσαρµογή (over-fitting) Κλάδεµα (pruning) εκ των υστέρων «τακτοποίηση» του Α για καλύτερη απόδοση 19 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σύγκριση Α Ισοζυγισµένο Α Βαθύ Α 20 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 10
11 Ποιο χαρακτηριστικό να διαλέξουµε; 21 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ένα κριτήριο για την επιλογή του κατάλληλου χαρακτηριστικού διάσπασης Ποιο είναι το καλύτερο; Αυτό που θα οδηγήσει στο µικρότερο δένδρο Ένας ευρετικός κανόνας (heuristic): επιλέγουµε το γνώρισµα που παράγει τους πιο "αγνούς" κόµβους. Για το σκοπό αυτό, χρησιµοποιείται µια συνάρτηση καταλληλότητας (fitness function). Στρατηγική: επιλέγουµε τογνώρισµα πουµεγιστοποιεί τη συνάρτηση καταλληλότητας Χαρακτηριστικές συναρτήσεις καταλληλότητας: Κέρδος πληροφορίας Gain (ID3) Λόγοςκέρδουςπληροφορίας GainRatio (C4.5) gini index (SPRINT) 22 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 11
12 Θεωρία Πληροφορίας Η επαγωγή Α βασίζεται συχνά στη Θεωρία Πληροφορίας 23 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Πληροφορία / Εντροπία Έστω πιθανότητες p 1, p 2,.., p s τωνοποίωντοάθροισµα είναι 1. Η Εντροπία ορίζεται ως εξής: H ( p1, p2,..., ps ) = i= 1 p log η βάση του λογάριθµου δεν προσδιορίζεται (συνήθως, 10 ή 2) Η εντροπία είναι ποσοτικοποίηση της τυχαιότητας (έκπληξης, αβεβαιότητας). Ο στόχος της κατηγοριοποίησης καθόλου έκπληξη ( εντροπία = 0) s i 1 p i H(p,1-p) 24 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 12
13 Αλγόριθµος ID3 ηµιουργεί Α µε χρήση στοιχείων από τη θεωρία πληροφορίας (εντροπία) Επιλέγει για διάσπαση το γνώρισµα µε το µεγαλύτερο κέρδος πληροφορίας (information gain): Gain ( D, S ) = H ( D) P( D ) H ( ) s i= 1 i D i H(D) ηεντροπίατουd (πριν το διαχωρισµό) H(D i ) ηεντροπίατωνεπιµέρους D i (µετά το διαχωρισµό) Όσο µεγαλύτερη είναι η µείωση (το «άλµα» προς το 0), τόσο µεγαλύτερο είναι το κέρδος Gain(D,S) 25 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα ID3 Αρχική κατάσταση εντροπίας: H(D) = 4/15 log(15/4) + 8/15 log(15/8) + 3/15 log(15/3) = Κέρδος αν γίνει διάσπαση στο gender: Gender= F : 3/9 log(9/3) + 6/9 log(9/6)= Gender= M : 1/6 log(6/1) + 2/6 log(6/2) + 3/6 log(6/3) = Weighted sum: (9/15)(0.2764) + (6/15)(0.4392) = Gain: = Κέρδος αν γίνει διάσπαση στο height: Weighted sum: (2/15)(0.301) = Gain: = Κατηγορήµατα διάσπασης: (0, 1.6], (1.6, 1.7], (1.7, 1.8], (1.8, 1.9], (1.9, 2.0], (2.0, ) Επιλέγουµε height Name Gender Height Output1 Kristina F 1.6m Short Jim M 2m Tall Maggie F 1.9m Medium Martha F 1.88m Medium Stephanie F 1.7m Short Bob M 1.85m Medium Kathy F 1.6m Short Dave M 1.7m Short Worth M 2.2m Tall Steven M 2.1m Tall Debbie F 1.8m Medium Todd M 1.95m Medium Kim F 1.9m Medium Amy F 1.8m Medium Wynette F 1.75m Medium 26 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 13
14 Σύνοψη Κατηγοριοποίηση: η ανάθεση ετικετών στις εγγραφές της βάσης δεδοµένων σχετικά µε την κλάση στην οποία ανήκει η καθεµία Αλλιώς, διαµέριση της βάσης δεδοµένων σε (προκαθορισµένες) κατηγορίες Τεχνικές: στατιστικές (παλινδρόµηση, Bayesian, ) βασισµένες σε απόσταση (k-nn, ) δένδρα αποφάσεων (ID3, C4.5, CART, ) νευρωνικά δίκτυα (Perceptron, δίκτυα RDF, ) κανόνες κατηγοριοποίησης (1R, PRISM, ) 27 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Περιεχόµενα Τι είναι η διαδικασία ανακάλυψης γνώσης από δεδοµένα (Knowledge Discovery in Data KDD ή data mining) Βασικές τεχνικές data mining Κατηγοριοποίηση ή ταξινόµηση (classification) Συσταδοποίηση ή οµαδοποίηση (clustering) Εξαγωγή κανόνων συσχετίσεων (association rule mining) 28 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 14
15 Εφαρµογές Συσταδοποίησης ιαµέριση µίας Β πελατών µε βάση παρόµοια πρότυπα αγοράς προϊόντων. Οµαδοποίηση των σπιτιών µίας πόλης σε γειτονιές µε βάση παρόµοιες ιδιότητες. Αναγνώριση νέων ειδών φυτών Αναγνώριση παρόµοιων προτύπων στη χρήση του Web. 29 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Συσταδοποίηση σηµείων (µε χρήση Ευκλείδειας απόστασης) 30 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 15
16 Το Πρόβληµα της Συσταδοποίησης οθέντων: µιας Β D={t 1,t 2,,t n } από εγγραφές, ενός µέτρου οµοιότητας sim(t i, t j ) µεταξύ δύο εγγραφών της Β και µιαςακέραιαςτιµής k, το Πρόβληµα της Συσταδοποίησης είναι η εύρεση µίας αντιστοίχισης f:d {1,..., k} όπου κάθε εγγραφή t i της Β αντιστοιχίζεται σε µία συστάδα K j, 1 j k, έτσι ώστε: για κάθε εγγραφή η οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από την ίδια συστάδα να είναι µεγαλύτερη από την οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από άλλες συστάδες. Μία Συστάδα, K j, περιέχει ακριβώς εκείνες τις πλειάδες που αντιστοιχίζονται σε αυτήν. 31 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ιεραρχική Συσταδοποίηση Οι συστάδες δηµιουργούνται σε επίπεδα Κάθε επίπεδο αντιπροσωπεύει ένα σύνολο από συστάδες Συσσωρευτικοί αλγόριθµοι (agglomerative) Αρχικά κάθε στοιχείο είναι µία συστάδα Επαναληπτικά οι συστάδες συγχωνεύονται Προσέγγιση bottom-up ιαιρετικοί αλγόριθµοι (divisive) Αρχικάόλαταστοιχείασεµία συστάδα. Οι µεγάλες συστάδες προοδευτικά διαιρούνται. Προσέγγιση top-down 32 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 16
17 ενδρόγραµµα ενδρόγραµµα (dendrogram): µία δενδρική δοµή δεδοµένων η οποία επιδεικνύει τις ιεραρχικές τεχνικές συσταδοποίησης. Κάθε επίπεδο δείχνει τις συστάδες εκείνου του επιπέδου. Φύλλα κάθε στοιχείο αποτελεί ξεχωριστή συστάδα Ρίζα όλα τα στοιχεία αποτελούν µία συστάδα Μία συστάδα στο επίπεδο i είναι η ένωση των συστάδων-παιδιών στο επίπεδο i ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα Συσσώρευσης Μήτρα γειτνίασης A B C D E Γράφος αποστάσεων A B A B C E C D 0 3 E 0 D Κατώφλι απόστασης A B C D E 34 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 17
18 Συσσωρευτικός Αλγόριθµος 35 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Προσεγγίσεις Συσσωρευτικού Αλγόριθµου Με βάση την τεχνική που χρησιµοποιείται για τον καθορισµό της απόστασης µεταξύ δύο συστάδων Τεχνική Απλού Συνδέσµου (single link) αναζητά συνεκτικές συνιστώσες στο γράφο αποστάσεων ονοµάζεται και τεχνική συσταδοποίησης πλησιέστερου γείτονα (nearest neighbor) Παραλλαγή: µε χρήσηδένδρου ελάχιστης ζεύξης (Minimum Spanning Tree MST) Τεχνική Πλήρους Συνδέσµου (complete link) αναζητά κλίκες στο γράφο αποστάσεων Παραλλαγή: τεχνική συσταδοποίησης απώτατου γείτονα (farthest neighbor) Τεχνική Μέσου Συνδέσµου (average link) 36 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 18
19 Συσταδοποίηση µε ιαµέριση Μη ιεραρχική ηµιουργεί τις συστάδες σε ένα βήµα µόνο. Εφόσον υπάρχει µόνο ένα σύνολο συστάδων στην έξοδο, ο χρήστης πρέπει να εισάγει τον επιθυµητό αριθµό των συστάδων, k. Συνήθως χειρίζεται στατικά σύνολα. Πρόβληµα: οι πιθανοί συνδυασµοί n στοιχείων σε k συστάδες είναι ένας πολύ µεγάλος αριθµός (π.χ. >10 10 για n=19, k=4) Αναγκαστικά, η αναζήτηση γίνεται σε ένα µικρό υποσύνολο των πιθανών λύσεων 37 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης ιαµεριστικοί Αλγόριθµοι Τεχνική βασισµένη σε ένδρο Ελάχιστης Ζεύξης (MST) Τετραγωνικού Σφάλµατος (squared error) K-Μέσων (K-means) Πλησιέστερου Γείτονα (nearest neighbor) PAM (partitioning around medoids διαµερισµός γύρω από medoids) Τεχνική βασισµένη σε Γενετικούς Αλγορίθµους Τεχνική βασισµένη σε Νευρωνικά ίκτυα ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 19
20 Συσταδοποίηση K-Means Το αρχικό σύνολο συστάδων επιλέγεται τυχαία. Επαναληπτικά, τα στοιχεία µετακινούνται µεταξύ συνόλων συστάδων µέχρι να φτάσουµε το επιθυµητό σύνολο. Επιτυγχάνεται υψηλός βαθµός οµοιότητας µεταξύ των στοιχείων µίας συστάδας. εδοµένης µίας συστάδας K i ={t i1,t i2,,t im }, ο µέσος της συστάδας είναι m i = (1/m)(t i1 + + t im ) Ο µέσος της συστάδας ταυτίζεται µε τοκέντροβάρους 39 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Αλγόριθµος K-Means Πολυπλοκότητα O(tkn) όπου t το πλήθος των επαναλήψεων 40 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 20
21 Παράδειγµα K-Means (σε 2 διαστάσεις) Τυχαία επιλογή τριών (k=3) αρχικών κέντρων Y k 1 k 2 k 3 X 41 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα K-means, 1 η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k 2 k 3 X 42 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 21
22 Παράδειγµα K-means, 1 η επανάληψη Επανυπολογισµός του νέου κέντρου βάρους του κάθε cluster Y k 1 k 1 k 2 k 2 k 3 k 3 X 43 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα K-means, 2 η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k 2 k 3 X 44 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 22
23 Παράδειγµα K-means, 2 η επανάληψη τρία στοιχεία αλλάζουν cluster Y k 2 k 1 k 3 X 45 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα K-means, 2 η επανάληψη Επανυπολογισµός του νέου κέντρου βάρους του κάθε cluster Y k 1 k 2 k 3 X 46 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 23
24 Παράδειγµα K-means, 2 η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k 2 k 3 εν αλλάζει τίποτα. Άρα, τέλος! X 47 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σύγκριση Τεχνικών Συσταδοποίησης 48 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 24
25 Σύνοψη Συσταδοποίηση: η εύρεσηοµάδων µεταξύ των δεδοµένων ενός συνόλου µε βάση ένα µέτρο απόστασης Τεχνικές: Ιεραρχικές (συσσωρευτικές / διαιρετικές, απλού / πλήρους / µέσου συνδέσµου) ιαµεριστικές (µε πιοδηµοφιλή τον αλγόριθµο Apriori) Άλλες (βασισµένες στην πυκνότητα, σε γενετικούς αλγορίθµους, παράλληλες τεχνικές κ.α.) 49 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Περιεχόµενα Τι είναι η διαδικασία ανακάλυψης γνώσης από δεδοµένα (Knowledge Discovery in Data KDD ή data mining) Βασικές τεχνικές data mining Κατηγοριοποίηση ή ταξινόµηση (classification) Συσταδοποίηση ή οµαδοποίηση (clustering) Εξαγωγή κανόνων συσχετίσεων (association rule mining) 50 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 25
26 εδοµένα από το «καλάθι της νοικοκυράς» Market-basket data Αντικείµενα που συχνά αγοράζονται µαζί: Bread PeanutButter Εφαρµογές: Τοποθέτηση προϊόντων στα ράφια ιαφήµιση Πωλήσεις Κουπόνια Εκπτώσεις Σκοπός αύξηση πωλήσεων και µείωση κόστους 51 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κανόνες Συσχετίσεων: Ορισµοί Σύνολο στοιχείων: I={I 1,I 2,,I m } Βάση δοσοληψιών (transaction database): D={t 1,t 2,, t n }, t j I (υπο-) σύνολο στοιχείων (itemset): {I i1,i i2,, I ik } I Υποστήριξη (support) ενός itemset: το ποσοστό των δοσοληψιών που περιέχουν το συγκεκριµένο itemset. Συχνό (frequent) itemset: Ένα itemset, η υποστήριξη του οποίου υπερβαίνει ένα συγκεκριµένο κατώφλι. Στη βιβλιογραφία αναφέρεται και ως «µεγάλο» (large itemset) Καλάθια µε beer bread Καλάθια µε beer Καλάθια µε bread 52 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 26
27 Παράδειγµα I={Beer,Bread,Jelly,Milk,PeanutButter} Ηυποστήριξητουitemset {Bread} είναι 80% Ηυποστήριξητουitemset {Bread, PeanutButter} είναι 60% Ηυποστήριξητουitemset {Bread, Milk, PeanutButter} είναι 20% 53 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κανόνες Συσχετίσεων: Ορισµοί (συν.) Κανόνας συσχέτισης (AR): X Y όπου X, Y I και X Y = ø Το X ονοµάζεται LHS (left-hand side) ή antecedent (προηγούµενο) ή head (κεφαλή) του κανόνα Το Y ονοµάζεται RHS (right-hand side) ή consequent (επακόλουθο) ή body (σώµα) του κανόνα Υποστήριξη (support) του AR (s) X Y: το ποσοστό των δοσοληψιών που περιέχουν το X Y ή αλλιώς η πιθανότητα P(X Y) Εµπιστοσύνη (confidence) του AR (α) X Y: η αναλογία του πλήθους των δοσοληψιών που περιέχουν το X Y ως προς το πλήθος των δοσοληψιών που περιέχουν το X. ή αλλιώς, ηεξαρτηµένη πιθανότητα P(X Y Χ) = P(X Y)/P(X) 54 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 27
28 Κανόνες Συσχετίσεων: το πρόβληµα οθέντος ενός συνόλου αντικειµένων I={I 1,I 2,,I m } και µιας βάσης δοσοληψιών D={t 1,t 2,, t n } όπου t i ={I i1,i i2,, I ik } και I ij I µιας ελάχιστης υποστήριξης (min_support) µιας ελάχιστης εµπιστοσύνης (min_confidence) το Πρόβληµα της εύρεσης Κανόνων Συσχέτισης ορίζεται ως ο προσδιορισµός όλων των κανόνων συσχέτισης X Y, όπου X,Y I και X Y = ø, οι οποίοι ξεπερνούν το κατώφλι του min_support και του min_confidence. 55 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κανόνες Συσχετίσεων: η τεχνική Πρόβληµα εύρεσης κανόνων συσχέτισης: Προσδιορισµός όλων των κανόνων συσχέτισης X Y, όπου X,Y I και X Y = ø, οι οποίοι ξεπερνούν τα κατώφλια min_support και min_confidence Μεθοδολογία: Βήµα 1: Εύρεση του συνόλου L των συχνών itemsets (αυτών δηλαδή που ξεπερνούν το κατώφλι min_support). Βήµα 2: Προσδιορισµός των κανόνων συσχέτισης X Y από το σύνολο L (και παράλληλα το φιλτράρισµα αυτώνµε βάσητο κατώφλι min_support). 1 η σηµείωση: Η υποστήριξη του κανόνα X Y είναι ίδια µε την υποστήριξη του itemset X Y. 2 η σηµείωση: Το 1ο βήµα δείχνει απλό αλλά κοστίζει πολύ, αφού υπάρχουν µέχρι 2 m -1 «πιθανά» συχνά itemsets (m ο πληθάριθµος του I) 56 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 28
29 Προσδιορισµός των Κανόνων Συσχετίσεων από τα συχνά itemsets (βήµα 2) 57 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα support confidence ( X Y ) = support( X Y ) ( X Y ) support = support ( X Y ) ( X ) 58 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 29
30 Apriori Συχνό ονοµάζεται το itemset που έχει υποστήριξη πάνω από ένα κατώφλι Παράδειγµα (κατώφλι = 40%): {Beer} {Bread} {PeanutButter} {Bread, PeanutButter} Η ιδιότητα των συχνών itemsets: Κάθε υποσύνολο ενός συχνού itemset είναι συχνό. Αντιθέτως, αν ένα itemset δεν είναι συχνό, κανένα από τα υπερσύνολά του δεν µπορεί να είναι συχνό. 59 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Η ιδιότητα των συχνών itemsets 60 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 30
31 Παράδειγµα Apriori (συν.) s=30% α = 50% 61 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Αλγόριθµος Apriori 1. C 1 = Itemsets of size one in I; 2. Count C 1 to determine L 1 ; // 1st pass 3. i = 1; 4. Repeat 5. i = i + 1; 6. C i = Apriori-Gen(L i-1 ); 7. Count C i to determine L i ; // 2nd, 3rd,, pass 8. until no more frequent itemsets found; 62 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 31
32 Apriori-Gen Προσδιορισµός των υποψηφίων συχνών i-itemsets από τα συχνά (i- 1)-itemsets. Προσέγγιση που ακολουθείται (2 βήµατα): Βήµα σύνδεσης(join step): Σύνδεση σε ένα i-itemset των i συχνών (i-1)- itemsets, αν υπάρχουν. C i = L i-1 L i-1. Βήµακλαδέµατος (prune step): Απόρριψη ενός υποψηφίου i-itemset, αν κάποιο υποσύνολο (i-1)-itemset αυτού δεν είναι συχνό. C 1 : I Παράδειγµα (s = 30%): L 1 : {Beer}, {Bread}, {Milk}, {PeanutButter} C 2 : {Beer, Bread}, {Beer, Milk}, L 2 : {Bread, PeanutButter} C 3 : 63 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Πώς προσδιορίζουµε ταυποψήφιαitemsets Θεωρήστε ότι τα στοιχεία του L i-1 είναι διατεταγµένα Βήµα 1 (σύνδεση): C i = L i-1 L i-1 insert into C i select p.item 1, p.item 2,, p.item i-1, q.item i-1 from L i-1 p, L i-1 q where p.item 1 =q.item 1,, p.item i-1 < q.item i-1 Βήµα 2(κλάδεµα) For all itemsets c in C i do For all (k-1)-subsets s of c do if (s L i-1 ) then delete c from C i 64 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 32
33 2 ο Παράδειγµα Apriori (Πηγή: Data Mining: Concepts and Techniques, Han & Kamber) Scan {3} 3 t {4} 1 t {5} 3 t4 2 5 C 2 itemset s Database D itemset s TID Items C 1 {1} 2 t D {2} 3 L 1 itemset C 2 L 2 itemset s {1 2} 1 Scan D {1 3} 2 {1 3} 2 {2 3} 2 {1 5} 1 {2 5} 3 {2 3} 2 {2 5} 3 {3 5} 2 {3 5} 2 C 3 itemset Scan D L 3 itemset s {2 3 5} {2 3 5} 2 s {1} 2 {2} 3 {3} 3 {5} 3 itemset {1 2} {1 3} {1 5} {2 3} {2 5} {3 5} 65 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Υπέρ και Κατά του Apriori Πλεονεκτήµατα: Εκµεταλλεύεται την ιδιότητα των συχνών itemsets. Υλοποιείται εύκολα (και σε παράλληλη µορφή) Μειονεκτήµατα: Υποθέτει ότι η βάση των δοσοληψιών βρίσκεται στη µνήµη. Απαιτεί µέχρι και m σαρώσεις της βάσης (m το πλήθος των items). 66 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 33
34 Σύνοψη Εύρεση Κανόνων Συσχετίσεων: η εύρεση κανόνων της µορφής X Y µέσα από µια βάση δοσοληψιών µε βάση 2 κατώφλια (ελάχιστης υποστήριξης και ελάχιστης εµπιστοσύνης) Οπιοδηµοφιλής αλγόριθµος: Apriori βασίζεται στην ιδιότητα των συχνών στοιχειοσυνόλων (frequent itemsets property) Άλλοι αλγόριθµοι: δειγµατοληψίας, διαµερισµού, παράλληλοι 67 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 34
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Διαβάστε περισσότερα(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Κατηγοριοποίηση (classification) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων
Διαβάστε περισσότερα(training data) (test data)
Αποθήκες εδοµένων και Εξόρυξη Γνώσης Κατηγοριοποίηση Νίκος Πελέκης, Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/db/courses/dwdm 1 ΠΑ.ΠΕΙ. Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές κατηγοριοποίησης
Διαβάστε περισσότεραΕξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων
Διαβάστε περισσότεραΠανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Διαβάστε περισσότεραData Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4)
Data Mining Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης Κατηγοριοποίηση (κεφ. 4) Βασίλης Βερύκιος - Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/dmbook Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές
Διαβάστε περισσότεραΠανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Διαβάστε περισσότερα14Ιαν Νοε
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Επανάληψη Γιάννης Θεοδωρίδης, Νίκος Πελέκης Εργαστήριο Πληροφοριακών Συστηµάτων http://infolab.cs.unipi.gr
Διαβάστε περισσότεραΔέντρα Απόφασης (Decision(
Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα
Διαβάστε περισσότεραΕυφυής Προγραμματισμός
Ευφυής Προγραμματισμός Ενότητα 11: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Εξαγωγή Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων Από Δεδομένα-
Διαβάστε περισσότεραΕξόρυξη Γνώσης µε SQL Server 2005 Analysis Services
Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Γεράσιµος Μαρκέτος Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) οµή παρουσίασης SQL Server 2005 Επιχειρηµατική
Διαβάστε περισσότεραΑποθήκες και Εξόρυξη Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΑποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης
Διαβάστε περισσότεραMBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα
Διαβάστε περισσότεραΑποθήκες εδομένων και Εξόρυξη εδομένων:
Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:
Διαβάστε περισσότεραΥπερπροσαρμογή (Overfitting) (1)
Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης
Διαβάστε περισσότεραΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD
Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων
Διαβάστε περισσότεραΚατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών
Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός
Διαβάστε περισσότεραΤαξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή
0 0 0 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση Οι διαφάνειες στηρίζονται στο P.-N. Tan,
Διαβάστε περισσότεραΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης
ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιά http://isl.cs.unipi.gr/db/courses/dm πληµµύρα από δεδοµένα
Διαβάστε περισσότεραΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση
ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Διαβάστε περισσότεραΤαξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar
Ταξινόμηση Lecture Notes for Chapter 4 Introduction to Data Mining by Tan, Steinbach, Kumar Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες
Διαβάστε περισσότεραΕξόρυξη Γνώσης - το εργαλείο WEKA
Εξόρυξη Γνώσης - το εργαλείο WEKA Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http:// http://isl.cs.unipi.gr/) Κοτσιφάκος Ευάγγελος ek@unipi.gr Νοέµβριος 2008 Ανακάλυψη και Εξόρυξη
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το
Διαβάστε περισσότεραΕξόρυξη Γνώσης από Βιολογικά εδομένα
Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά
Διαβάστε περισσότεραΑποθήκες και Εξόρυξη Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 2 Ο Εργαστήριο WEKA (CLASSIFICATION) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κατηγοριοποίηση Αποτελεί μια από τις βασικές
Διαβάστε περισσότεραΚατηγοριοποίηση (Εποπτευόμενη μάθηση)
Κατηγοριοποίηση (Εποπτευόμενη μάθηση) Αποθήκες και Εξόρυξη Δεδομένων Διδάσκoυσα: Μαρία Χαλκίδη με βάση slides από J. Han and M. Kamber Data Mining: Concepts and Techniques, 2 nd edition Εποπτευόμενη vs.
Διαβάστε περισσότεραΟι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός
Διαβάστε περισσότεραΕξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι
Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Διαβάστε περισσότεραΤεχνικές Εξόρυξης Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:
Διαβάστε περισσότεραΑνακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA
Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA Ειρήνη Ντούτση Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) 02/04/2008 Ανακάλυψη και
Διαβάστε περισσότεραΕισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα
Εισαγωγή στην εξόρυξη δεδομένων ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα 1 Δεδομένα, δεδομένα, δεδομένα... Παράγονται όλο και περισσότερα δεδομένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστημονικά δεδομένα:
Διαβάστε περισσότεραΚατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική
Κατηγοριοποίηση Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά
Διαβάστε περισσότεραΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ
ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε
Διαβάστε περισσότεραΟΜΑΔΕΣ. Δημιουργία Ομάδων
Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 11: Κανόνες Συσχέτισης Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης
Διαβάστε περισσότεραΒάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.
Βάσεις Δεδομένων ΙΙ Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Εξόρυξη Δεδομένων Ανακάλυψη νέων πληροφοριών σε
Διαβάστε περισσότεραΤαξινόμηση II Σύντομη Ανακεφαλαίωση
0 0 0 Ταξινόμηση II Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 ΤΑΞΙΝΟΜΗΣΗ
Διαβάστε περισσότεραΟι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Κατηγοριοποίηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης
Διαβάστε περισσότεραΕξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων
Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε μεγάλα σύνολα δεδομένων Εξόρυξη εδομένων Στατιστική: ιερευνητική Ανάλυση εδομένων (exploratory data analysis) Τεχνητή Νοημοσύνη: Ανακάλυψη γνώσης και
Διαβάστε περισσότεραΑλγόριθμοι Εξόρυξης Χωρικών εδομένων
Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Αγρονόμων και Τοπογράφων Μηχανικών ιατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών «ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ» Αλγόριθμοι Εξόρυξης Χωρικών εδομένων Εφαρμογή σε Αλγόριθμους Συσταδοποίησης
Διαβάστε περισσότεραΕυφυής Προγραμματισμός
Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων
Διαβάστε περισσότεραΔιδάσκουσα: Χάλκου Χαρά,
Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών
Διαβάστε περισσότεραΕξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων
Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε µεγάλα σύνολα δεδοµένων Εξόρυξη εδοµένων Στατιστική: ιερευνητική Ανάλυση εδοµένων (exploratory data analysis) Τεχνητή Νοηµοσύνη: Ανακάλυψη γνώσης και
Διαβάστε περισσότεραΤαξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή
Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach,
Διαβάστε περισσότεραΣέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2
Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),
Διαβάστε περισσότεραΠανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εισαγωγή Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών
Διαβάστε περισσότεραυποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»
ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΙΔΙΚΕΥΣΗΣ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Διπλωματική εργασία με θέμα: «Ανάπτυξη υποδείγματος για την αξιολόγηση αυτοκινήτων με
Διαβάστε περισσότεραΕνότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)
Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή
Διαβάστε περισσότεραClustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων
Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία
Διαβάστε περισσότεραΑΝΑΣΚΟΠΗΣΗ. Αποθήκες και Εξόρυξη Δεδομένων
ΑΝΑΣΚΟΠΗΣΗ Αποθήκες και Εξόρυξη Δεδομένων Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης γνώσης Pattern Evaluation Task- relevant
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραTID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο
Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)
Διαβάστε περισσότεραΣχεδίαση και Ανάλυση Αλγορίθμων
Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4.0 Επιλογή Αλγόριθμοι Επιλογής Select και Quick-Select Σταύρος Δ. Νικολόπουλος 2016-17 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη
Διαβάστε περισσότεραΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...
ΠΕΡΙΕΧΟΜΕΝΑ ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...................................... 11 ΠΡΟΛΟΓΟΣ..........................................................15 1. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΝΑΛΥΤΙΚΗ, ΣΤΑ ΠΟΣΟΤΙΚΑ
Διαβάστε περισσότεραΟι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!)
Διαβάστε περισσότεραΕνότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)
Ενότητα 9 (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή ισχύει ότι S i S j =, για κάθε i,j µε i j και S 1 S k = U. Λειτουργίες q MakeSet(X): επιστρέφει
Διαβάστε περισσότεραΤεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή
Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής
Διαβάστε περισσότεραΚεφ.11: Ευρετήρια και Κατακερματισμός
Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση
Διαβάστε περισσότεραPredicting the Choice of Contraceptive Method using Classification
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΣΣΑΛΟΝΙΚΗ Predicting the Choice of Contraceptive Method using Classification ΠΑΠΑΔΟΠΟΥΛΟΣ ΧΡΗΣΤΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Νικόλαος Σαμαράς ΕΞΕΤΑΣΤΗΣ:
Διαβάστε περισσότερα10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ
ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ 1 2 3 1 ΚΑΤΗΓΟΡΊΕΣ ΤΑΞΙΝΌΜΗΣΗΣ Κατευθυνόμενη ταξινόμηση (supervised classification) Μη-κατευθυνόμενη ταξινόμηση (unsupervised classification) Γραμμική: Μη-Γραμμική: Ιεραρχική: Επιμεριστική:
Διαβάστε περισσότεραΔιδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ
ιάλεξη : λάχιστα εννητορικά ένδρα Αλγόριθμος Prim Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: λάχιστα εννητορικά ένδρα () Minimum Spanning Trees Ο αλγόριθμος του Prim για εύρεση σε γράφους
Διαβάστε περισσότεραΗ συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός
Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse
Διαβάστε περισσότεραΔιάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση
ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση Αλγόριθμοι Δεδομένα input Αλγόριθμοι
Διαβάστε περισσότεραΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης «Σχεδίαση και υλοποίηση έξυπνου συστήματος ανάλυσης
Διαβάστε περισσότεραΕξόρυξη Γνώσης από Δεδομένα
Εξόρυξη Γνώσης από Δεδομένα Το εργαλείο WEKA Ομάδα ιαχείρισης εδομένων,, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς http://infolab.cs.unipi.gr έσποινα Κοπανάκη (dkopanak@unipi.gr) Νοέμβριος 2009 Τα δεδομένα
Διαβάστε περισσότεραΣχεδίαση & Ανάλυση Αλγορίθμων
Σχεδίαση & Ανάλυση Αλγορίθμων Ενότητα 3 Αλγόριθμοι Επιλογής Σταύρος Δ. Νικολόπουλος Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros Αλγόριθμοι Επιλογής Γνωρίζουμε
Διαβάστε περισσότεραΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες
ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες Αλγόριθμοι Δεδομένα input Αλγόριθμοι Εξόρυξης Πληροφορίας Εξαγόμενα output
Διαβάστε περισσότεραΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ
Διαβάστε περισσότερα4.3. Γραµµικοί ταξινοµητές
Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων
Διαβάστε περισσότεραLecture Notes for Chapter 6. Introduction to Data Mining
Κανόνες Συσχέτισης: Βασικές αρχές και αλγόριθμοι (Association Analysis: Basic Concepts and Algorithms) Lecture Notes for Chapter 6 Introduction to Data Mining by Tan, Steinbach, Kumar Εξόρυξη κανόνων συσχέτισης
Διαβάστε περισσότεραΚεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.
Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Εισαγωγή Η µάθηση σε
Διαβάστε περισσότεραΕνότητα 7 Ουρές Προτεραιότητας
Ενότητα Ουρές Προτεραιότητας ΗΥ4 - Παναγιώτα Φατούρου Ουρές Προτεραιότητας Θεωρούµε ένα χώρο κλειδιών U και έστω ότι µε κάθε κλειδί Κ (τύπου Key) έχει συσχετισθεί κάποια πληροφορία Ι (τύπου Type). Έστω
Διαβάστε περισσότεραΜέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραInsert(K,I,S) Delete(K,S)
ΕΝΟΤΗΤΑ 5 ΣΥΝΟΛΑ & ΛΕΞΙΚΑ Φατούρου Παναγιώτα 1 Σύνολα (Sets) Τα µέλη ενός συνόλου προέρχονται από κάποιο χώρο αντικειµένων/στοιχείων (π.χ., σύνολα αριθµών, λέξεων, ζευγών αποτελούµενα από έναν αριθµό και
Διαβάστε περισσότερα«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός
Διαβάστε περισσότεραHY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems
HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη
Διαβάστε περισσότεραΑλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2016-17 Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) http://mixstef.github.io/courses/csintro/ Μ.Στεφανιδάκης Αφηρημένες
Διαβάστε περισσότεραΑνακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα
6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά
Διαβάστε περισσότεραΕξόρυξη Δεδομένων Κατηγοριοποίηση
Εξόρυξη Δεδομένων Κατηγοριοποίηση 1 2 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες
Διαβάστε περισσότεραΚεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -
Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) - 1 - Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα, όπως γίνεται αντιληπτή στην καθημερινή ζωή, μπορεί να συνδεθεί με δύο βασικές ιδιότητες: την ικανότητά στην
Διαβάστε περισσότεραΔιπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»
Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία
Διαβάστε περισσότεραΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων
ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς
Διαβάστε περισσότεραData mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining
Data mining Εξόρυξη εδοµένων o Association rules mining o Classification o Clustering o Text Mining o Web Mining ιάγραµµα της παρουσίασης Association rule Frequent itemset mining Γνωστοί Αλγόριθµοι Βελτιώσεις
Διαβάστε περισσότεραΑλγόριθμοι και πολυπλοκότητα Ταχυταξινόμηση (Quick-Sort)
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αλγόριθμοι και πολυπλοκότητα Ταχυταξινόμηση (Quick-Sort) Ιωάννης Τόλλης Τμήμα Επιστήμης Υπολογιστών Ταχυταξινόμηση (Quick-Sort) 7 4 9 6 2 2 4 6 7 9 4 2 2 4 7 9 7
Διαβάστε περισσότεραΚλασσικά Βιβλία Αναφοράς
Εξόρυξη Δεδομένων Κλασσικά Βιβλία Αναφοράς Data Mining-Concepts and Techniques-Han and K, Morgan Kaufmann, 2001 Principles of Data Mining-Hand, Manila and Smyth. MIT Press, 2001. The Elements of Statistical
Διαβάστε περισσότεραΚεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.
Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε
Διαβάστε περισσότεραΚατανεμημένα Συστήματα Ι
Κατανεμημένα Συστήματα Ι Παναγιώτα Παναγοπούλου Χριστίνα Σπυροπούλου 8η Διάλεξη 8 Δεκεμβρίου 2016 1 Ασύγχρονη κατασκευή BFS δέντρου Στα σύγχρονα συστήματα ο αλγόριθμος της πλημμύρας είναι ένας απλός αλλά
Διαβάστε περισσότεραΜεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Μεταπτυχιακή Εργασία Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα Ειρήνη Ντούτση Μηχανικός Η/Υ και Πληροφορικής
Διαβάστε περισσότεραΑνάλυση κατά Συστάδες. Cluster analysis
Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες
Διαβάστε περισσότεραΔιδάσκων: Παναγιώτης Ανδρέου
Διάλεξη 12: Δέντρα ΙΙ -Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Δυαδικά Δένδρα - Δυαδικά Δένδρα Αναζήτησης(ΔΔΑ) - Εύρεση Τυχαίου, Μέγιστου, Μικρότερου στοιχείου - Εισαγωγή
Διαβάστε περισσότεραΔιατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα
Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα Ανάλυση Μεγάλων Δεδομένων - Μελέτη Περίπτωσης στη Διαδικτυακή Εφαρμογή «Help Me Vote» - Big Data Analysis - a Case Study on the Web-Based
Διαβάστε περισσότεραΕισαγωγή στο Data Mining Από τα δεδομένα στη γνώση
Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση Η πληροφορία στη σύγχρονη επιχείρηση Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Πέραν του ανθρώπινου δυναμικού, η πληροφορία αποτελεί τον πλέον πολύτιμο
Διαβάστε περισσότερα