Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης"

Transcript

1 Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων version: Περιεχόµενα Τι είναι η διαδικασία ανακάλυψης γνώσης από δεδοµένα (Knowledge Discovery in Data KDD ή data mining) Βασικές τεχνικές data mining Κατηγοριοποίηση ή ταξινόµηση (classification) Συσταδοποίηση ή οµαδοποίηση (clustering) Εξαγωγή κανόνων συσχετίσεων (association rule mining) 2 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 1

2 Περιεχόµενα Τι είναι η διαδικασία ανακάλυψης γνώσης από δεδοµένα (Knowledge Discovery in Data KDD ή data mining) Βασικές τεχνικές data mining Κατηγοριοποίηση ή ταξινόµηση (classification) Συσταδοποίηση ή οµαδοποίηση (clustering) Εξαγωγή κανόνων συσχετίσεων (association rule mining) 3 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κίνητρο: µεγάλες βάσεις δεδοµένων Παράγονται όλο και περισσότερα δεδοµένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστηµονικά δεδοµένα: αστρονοµικά, βιολογικά κλπ. Αποθηκεύονται όλο και περισσότερα δεδοµένα: Γρήγορη και φθηνή τεχνολογία αποθήκευσης Ικανά Σ Β για µεγάλες Β Παράδειγµα µεγάλης Β : Η Β της επιχείρησης λιανεµπορίου Wal-Mart είναι της τάξης των 24 Tbytes Άρα χρειάζεται η ανακάλυψη γνώσης µέσα από τα δεδοµένα (Knowledge Discovery in Data - KDD) για να δώσει νόηµα και χρήση στα δεδοµένα 4 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 2

3 ιαδικασία ανακάλυψης γνώσης Ολοκλήρωση Ερµηνεία & Αξιολόγηση Knowledge Πρωτογενή δεδοµένα Επιλογή & καθαρισµός Αποθήκη εδοµένων (data warehouse) Μετασχηµατισµός Εξόρυξη Γνώσης (Data Mining Μετ/να εδοµένα δεδοµένα στόχος (target data) Πρότυπα (patterns) και Κανόνες (rules) Γνώση Κατανόηση 5 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Τεχνικές DM Yes Refund No Classification Decision Trees, Neural Nets,... Clustering Spherical, density-based, Association rule mining MarSt NO Single, Divorced TaxInc < 80K > 80K YES NO NO Married 6 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 3

4 Περιεχόµενα Τι είναι η διαδικασία ανακάλυψης γνώσης από δεδοµένα (Knowledge Discovery in Data KDD ή data mining) Βασικές τεχνικές data mining Κατηγοριοποίηση ή ταξινόµηση (classification) Συσταδοποίηση ή οµαδοποίηση (clustering) Εξαγωγή κανόνων συσχετίσεων (association rule mining) 7 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κατηγοριοποίηση (Classification) Εκµάθηση µιας τεχνικής να προβλέπει την κλάση ενός στοιχείου επιλέγοντας από προκαθορισµένες τιµές 8 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 4

5 Το πρόβληµα της κατηγοριοποίησης Αν µας δοθεί µια βάση δεδοµένων D={t 1, t 2,, t n } και ένα σύνολο κατηγοριών -"κλάσεων" C={C 1,, C m },... το Πρόβληµα Κατηγοριοποίησηςέγκειται στον ορισµό µιας απεικόνισης f: D C όπου κάθε εγγραφή t i ανατίθεται σε µία κλάση C j. Ουσιαστικά, η κατηγοριοποίηση διαµερίζει τη D σε κλάσεις ισοδυναµίας. Η Πρόβλεψη είναι παρόµοιο πρόβληµα, αλλά µπορεί να θεωρηθεί ότι έχει άπειρο αριθµό κλάσεων. 9 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παραδείγµατα κατηγοριοποίησης Οι δάσκαλοι αναθέτουν βαθµούς µέσα από µία κλίµακα [A..Γ], [0..10], [0..20]. Τα µανιτάρια ταξινοµούνται σε δηλητηριώδη και µη. Μπορεί να γίνει πρόβλεψη (εκτίµηση πιθανότητας) εάν θα πληµµυρίσει ένας ποταµός. Οι πελάτες της τράπεζας µπορούν να κατηγοριοποιηθούν ως προς την πιστωτική τους ικανότητα. 10 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 5

6 Τεχνικές κατηγοριοποίησης Τυπική προσέγγιση: 1. ηµιουργία ενός µοντέλου µέσω της αξιολόγησης ενός συνόλου δεδοµένων εκπαίδευσης (training data) (ή µέσω της γνώσης ειδικών του πεδίου). 2. Εφαρµογή του µοντέλου σε νέα δεδοµένα. Οι κλάσεις πρέπει να είναι προκαθορισµένες Οι πιο κοινές τεχνικές είναι τα δένδρα αποφάσεων, τα νευρωνικά δίκτυα και τεχνικές βασισµένες σε απόσταση ή σε στατιστικές µεθόδους. 11 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 1 ο βήµα: ηµιουργία µοντέλου εδοµένα εκπαίδευσης (training data) Αλγόριθµος Κατηγοριοποίησης όνοµα βαθµίδα έτη µόνιµος Μιχάλης Επικ.Καθηγητής 3 ΟΧΙ Νίκος Επικ.Καθηγητής 7 ΝΑΙ Βασίλης Καθηγητής 2 ΝΑΙ ηµήτρης Αναπλ.Καθηγητής 7 ΝΑΙ Γιώργος Επικ.Καθηγητής 6 ΟΧΙ Κώστας Αναπλ.Καθηγητής 3 ΟΧΙ Μοντέλο IF βαθµίδα = Καθηγητής OR έτη > 6 THEN µόνιµος = ΝΑΙ 12 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 6

7 2 ο βήµα: Εφαρµογή µοντέλου Μοντέλο οκιµαστικά εδοµένα (test data) Νέα δεδοµένα (Γιάννης, Καθηγητής, 4) όνοµα βαθµίδα έτη µόνιµος Θωµάς Επικ.Καθηγητής 2 ΟΧΙ Νίκος Αναπλ.Καθηγητής 7 ΟΧΙ Γεράσιµος Καθηγητής 5 ΝΑΙ Ιωσήφ Επικ.Καθηγητής 7 ΝΑΙ Μόνιµος; 13 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κατηγοριοποίηση µε δένδρα αποφάσεων (decision trees) Κατηγοριοποίηση βασισµένη στη διαµέριση: διαίρεση του χώρου σε ορθογώνιες περιοχές Οι εγγραφές ανατίθενται σε κλάσεις µε βάσητηνπεριοχή µέσα στην οποία πέφτουν. = Καθηγητής Οι τεχνικές Α διαφέρουν µεταξύ τους στον τρόπο ΝΑΙ κατασκευής του δένδρου (επαγωγή Α) Οι εσωτερικοί κόµβοι ενός Α αντιστοιχούν σε χαρακτηριστικά και τα τόξα ενός Α σε τιµές αυτών των χαρακτηριστικών. Αλγόριθµοι: ID3, C4.5, CART Βαθµίδα Καθηγητής 14 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης 6 ΟΧΙ έτη >6 ΝΑΙ Page 7

8 Παράδειγµα: πρόγνωση καιρού Outlook Temperature Humidity Windy Play? sunny hot high false No sunny hot high true No overcast hot high false Yes rain mild high false Yes rain cool normal false Yes rain cool normal true No overcast cool normal true Yes sunny mild high false No sunny cool normal false Yes rain mild normal false Yes sunny mild normal true Yes overcast mild high true Yes overcast hot normal false Yes rain mild high true No 15 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα Α για το χαρακτηριστικό Play? Outlook sunny overcast rain Humidity Yes Windy high normal true false No Yes No Yes 16 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 8

9 ένδρο Απόφασης οθέντων: µιας βάσης δεδοµένων D = {t 1,, t n } όπου t i =<t i1,, t ih > του σχήµατος της Β {A 1, A 2,, A h } ενός συνόλου κλάσεων C={C 1,., C m } ένδρο απόφασης (ή κατηγοριοποίησης) είναι ένα δένδρο συσχετισµένο Βαθµίδα µε τηd έτσι ώστε = Καθηγητής Κάθε εσωτερικός κόµβος έχει ως ετικέτα ένα χαρακτηριστικό, A i Κάθε τόξο έχει ως ετικέτα ένα κατηγόρηµα πουµπορεί να εφαρµοστεί στο χαρακτηριστικό του κόµβου-γονέα Κάθε φύλλο (τερµατικός κόµβος) έχει ως ετικέτα µια κλάση, C j ΝΑΙ 6 ΟΧΙ Καθηγητής έτη >6 ΝΑΙ 17 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Επαγωγή Α Input: D //Training data Output: T //Decision tree DTBuild algorithm: //Simplistic algorithm to illustrate naïve approach to building DT begin T = ; Determine splitting criterion; T = Create root node and label with splitting attribute; T = Add arc to root node for each split predicate and label; for each arc do begin D = Database created by applying splitting predicate to D; if stopping point reached for this path, then T = Create leaf node and label with appropriate class; else T = DTBuild(D); end T = Add T to arc; end 18 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 9

10 Ζητήµατα στα Α Αρχική επιλογή των χαρακτηριστικών διάσπασης Κάποια από τα χαρακτηριστικά της Β πρέπει να παραληφθούν (δεν εξυπηρετούν την κατηγοριοποίηση) Κριτήριο διάσπασης Επιλογή του χαρακτηριστικού διάσπασης και της συνθήκης διάσπασης) ενδρική δοµή επιθυµητό: ισοζυγισµένο δένδρο µε λίγα επίπεδα κάποιες τεχνικές παράγουν µόνο δυαδικά δένδρα Κριτήρια τερµατισµού ακρίβεια κατηγοριοποίησης vs. απόδοση vs. υπερπροσαρµογή (over-fitting) Κλάδεµα (pruning) εκ των υστέρων «τακτοποίηση» του Α για καλύτερη απόδοση 19 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σύγκριση Α Ισοζυγισµένο Α Βαθύ Α 20 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 10

11 Ποιο χαρακτηριστικό να διαλέξουµε; 21 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ένα κριτήριο για την επιλογή του κατάλληλου χαρακτηριστικού διάσπασης Ποιο είναι το καλύτερο; Αυτό που θα οδηγήσει στο µικρότερο δένδρο Ένας ευρετικός κανόνας (heuristic): επιλέγουµε το γνώρισµα που παράγει τους πιο "αγνούς" κόµβους. Για το σκοπό αυτό, χρησιµοποιείται µια συνάρτηση καταλληλότητας (fitness function). Στρατηγική: επιλέγουµε τογνώρισµα πουµεγιστοποιεί τη συνάρτηση καταλληλότητας Χαρακτηριστικές συναρτήσεις καταλληλότητας: Κέρδος πληροφορίας Gain (ID3) Λόγοςκέρδουςπληροφορίας GainRatio (C4.5) gini index (SPRINT) 22 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 11

12 Θεωρία Πληροφορίας Η επαγωγή Α βασίζεται συχνά στη Θεωρία Πληροφορίας 23 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Πληροφορία / Εντροπία Έστω πιθανότητες p 1, p 2,.., p s τωνοποίωντοάθροισµα είναι 1. Η Εντροπία ορίζεται ως εξής: H ( p1, p2,..., ps ) = i= 1 p log η βάση του λογάριθµου δεν προσδιορίζεται (συνήθως, 10 ή 2) Η εντροπία είναι ποσοτικοποίηση της τυχαιότητας (έκπληξης, αβεβαιότητας). Ο στόχος της κατηγοριοποίησης καθόλου έκπληξη ( εντροπία = 0) s i 1 p i H(p,1-p) 24 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 12

13 Αλγόριθµος ID3 ηµιουργεί Α µε χρήση στοιχείων από τη θεωρία πληροφορίας (εντροπία) Επιλέγει για διάσπαση το γνώρισµα µε το µεγαλύτερο κέρδος πληροφορίας (information gain): Gain ( D, S ) = H ( D) P( D ) H ( ) s i= 1 i D i H(D) ηεντροπίατουd (πριν το διαχωρισµό) H(D i ) ηεντροπίατωνεπιµέρους D i (µετά το διαχωρισµό) Όσο µεγαλύτερη είναι η µείωση (το «άλµα» προς το 0), τόσο µεγαλύτερο είναι το κέρδος Gain(D,S) 25 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα ID3 Αρχική κατάσταση εντροπίας: H(D) = 4/15 log(15/4) + 8/15 log(15/8) + 3/15 log(15/3) = Κέρδος αν γίνει διάσπαση στο gender: Gender= F : 3/9 log(9/3) + 6/9 log(9/6)= Gender= M : 1/6 log(6/1) + 2/6 log(6/2) + 3/6 log(6/3) = Weighted sum: (9/15)(0.2764) + (6/15)(0.4392) = Gain: = Κέρδος αν γίνει διάσπαση στο height: Weighted sum: (2/15)(0.301) = Gain: = Κατηγορήµατα διάσπασης: (0, 1.6], (1.6, 1.7], (1.7, 1.8], (1.8, 1.9], (1.9, 2.0], (2.0, ) Επιλέγουµε height Name Gender Height Output1 Kristina F 1.6m Short Jim M 2m Tall Maggie F 1.9m Medium Martha F 1.88m Medium Stephanie F 1.7m Short Bob M 1.85m Medium Kathy F 1.6m Short Dave M 1.7m Short Worth M 2.2m Tall Steven M 2.1m Tall Debbie F 1.8m Medium Todd M 1.95m Medium Kim F 1.9m Medium Amy F 1.8m Medium Wynette F 1.75m Medium 26 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 13

14 Σύνοψη Κατηγοριοποίηση: η ανάθεση ετικετών στις εγγραφές της βάσης δεδοµένων σχετικά µε την κλάση στην οποία ανήκει η καθεµία Αλλιώς, διαµέριση της βάσης δεδοµένων σε (προκαθορισµένες) κατηγορίες Τεχνικές: στατιστικές (παλινδρόµηση, Bayesian, ) βασισµένες σε απόσταση (k-nn, ) δένδρα αποφάσεων (ID3, C4.5, CART, ) νευρωνικά δίκτυα (Perceptron, δίκτυα RDF, ) κανόνες κατηγοριοποίησης (1R, PRISM, ) 27 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Περιεχόµενα Τι είναι η διαδικασία ανακάλυψης γνώσης από δεδοµένα (Knowledge Discovery in Data KDD ή data mining) Βασικές τεχνικές data mining Κατηγοριοποίηση ή ταξινόµηση (classification) Συσταδοποίηση ή οµαδοποίηση (clustering) Εξαγωγή κανόνων συσχετίσεων (association rule mining) 28 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 14

15 Εφαρµογές Συσταδοποίησης ιαµέριση µίας Β πελατών µε βάση παρόµοια πρότυπα αγοράς προϊόντων. Οµαδοποίηση των σπιτιών µίας πόλης σε γειτονιές µε βάση παρόµοιες ιδιότητες. Αναγνώριση νέων ειδών φυτών Αναγνώριση παρόµοιων προτύπων στη χρήση του Web. 29 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Συσταδοποίηση σηµείων (µε χρήση Ευκλείδειας απόστασης) 30 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 15

16 Το Πρόβληµα της Συσταδοποίησης οθέντων: µιας Β D={t 1,t 2,,t n } από εγγραφές, ενός µέτρου οµοιότητας sim(t i, t j ) µεταξύ δύο εγγραφών της Β και µιαςακέραιαςτιµής k, το Πρόβληµα της Συσταδοποίησης είναι η εύρεση µίας αντιστοίχισης f:d {1,..., k} όπου κάθε εγγραφή t i της Β αντιστοιχίζεται σε µία συστάδα K j, 1 j k, έτσι ώστε: για κάθε εγγραφή η οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από την ίδια συστάδα να είναι µεγαλύτερη από την οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από άλλες συστάδες. Μία Συστάδα, K j, περιέχει ακριβώς εκείνες τις πλειάδες που αντιστοιχίζονται σε αυτήν. 31 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Ιεραρχική Συσταδοποίηση Οι συστάδες δηµιουργούνται σε επίπεδα Κάθε επίπεδο αντιπροσωπεύει ένα σύνολο από συστάδες Συσσωρευτικοί αλγόριθµοι (agglomerative) Αρχικά κάθε στοιχείο είναι µία συστάδα Επαναληπτικά οι συστάδες συγχωνεύονται Προσέγγιση bottom-up ιαιρετικοί αλγόριθµοι (divisive) Αρχικάόλαταστοιχείασεµία συστάδα. Οι µεγάλες συστάδες προοδευτικά διαιρούνται. Προσέγγιση top-down 32 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 16

17 ενδρόγραµµα ενδρόγραµµα (dendrogram): µία δενδρική δοµή δεδοµένων η οποία επιδεικνύει τις ιεραρχικές τεχνικές συσταδοποίησης. Κάθε επίπεδο δείχνει τις συστάδες εκείνου του επιπέδου. Φύλλα κάθε στοιχείο αποτελεί ξεχωριστή συστάδα Ρίζα όλα τα στοιχεία αποτελούν µία συστάδα Μία συστάδα στο επίπεδο i είναι η ένωση των συστάδων-παιδιών στο επίπεδο i ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα Συσσώρευσης Μήτρα γειτνίασης A B C D E Γράφος αποστάσεων A B A B C E C D 0 3 E 0 D Κατώφλι απόστασης A B C D E 34 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 17

18 Συσσωρευτικός Αλγόριθµος 35 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Προσεγγίσεις Συσσωρευτικού Αλγόριθµου Με βάση την τεχνική που χρησιµοποιείται για τον καθορισµό της απόστασης µεταξύ δύο συστάδων Τεχνική Απλού Συνδέσµου (single link) αναζητά συνεκτικές συνιστώσες στο γράφο αποστάσεων ονοµάζεται και τεχνική συσταδοποίησης πλησιέστερου γείτονα (nearest neighbor) Παραλλαγή: µε χρήσηδένδρου ελάχιστης ζεύξης (Minimum Spanning Tree MST) Τεχνική Πλήρους Συνδέσµου (complete link) αναζητά κλίκες στο γράφο αποστάσεων Παραλλαγή: τεχνική συσταδοποίησης απώτατου γείτονα (farthest neighbor) Τεχνική Μέσου Συνδέσµου (average link) 36 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 18

19 Συσταδοποίηση µε ιαµέριση Μη ιεραρχική ηµιουργεί τις συστάδες σε ένα βήµα µόνο. Εφόσον υπάρχει µόνο ένα σύνολο συστάδων στην έξοδο, ο χρήστης πρέπει να εισάγει τον επιθυµητό αριθµό των συστάδων, k. Συνήθως χειρίζεται στατικά σύνολα. Πρόβληµα: οι πιθανοί συνδυασµοί n στοιχείων σε k συστάδες είναι ένας πολύ µεγάλος αριθµός (π.χ. >10 10 για n=19, k=4) Αναγκαστικά, η αναζήτηση γίνεται σε ένα µικρό υποσύνολο των πιθανών λύσεων 37 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης ιαµεριστικοί Αλγόριθµοι Τεχνική βασισµένη σε ένδρο Ελάχιστης Ζεύξης (MST) Τετραγωνικού Σφάλµατος (squared error) K-Μέσων (K-means) Πλησιέστερου Γείτονα (nearest neighbor) PAM (partitioning around medoids διαµερισµός γύρω από medoids) Τεχνική βασισµένη σε Γενετικούς Αλγορίθµους Τεχνική βασισµένη σε Νευρωνικά ίκτυα ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 19

20 Συσταδοποίηση K-Means Το αρχικό σύνολο συστάδων επιλέγεται τυχαία. Επαναληπτικά, τα στοιχεία µετακινούνται µεταξύ συνόλων συστάδων µέχρι να φτάσουµε το επιθυµητό σύνολο. Επιτυγχάνεται υψηλός βαθµός οµοιότητας µεταξύ των στοιχείων µίας συστάδας. εδοµένης µίας συστάδας K i ={t i1,t i2,,t im }, ο µέσος της συστάδας είναι m i = (1/m)(t i1 + + t im ) Ο µέσος της συστάδας ταυτίζεται µε τοκέντροβάρους 39 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Αλγόριθµος K-Means Πολυπλοκότητα O(tkn) όπου t το πλήθος των επαναλήψεων 40 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 20

21 Παράδειγµα K-Means (σε 2 διαστάσεις) Τυχαία επιλογή τριών (k=3) αρχικών κέντρων Y k 1 k 2 k 3 X 41 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα K-means, 1 η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k 2 k 3 X 42 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 21

22 Παράδειγµα K-means, 1 η επανάληψη Επανυπολογισµός του νέου κέντρου βάρους του κάθε cluster Y k 1 k 1 k 2 k 2 k 3 k 3 X 43 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα K-means, 2 η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k 2 k 3 X 44 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 22

23 Παράδειγµα K-means, 2 η επανάληψη τρία στοιχεία αλλάζουν cluster Y k 2 k 1 k 3 X 45 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα K-means, 2 η επανάληψη Επανυπολογισµός του νέου κέντρου βάρους του κάθε cluster Y k 1 k 2 k 3 X 46 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 23

24 Παράδειγµα K-means, 2 η επανάληψη Εκχώρηση κάθε στοιχείου στο πλησιέστερό του cluster (µε βάση την απόσταση από το κέντρο του cluster) Y k 1 k 2 k 3 εν αλλάζει τίποτα. Άρα, τέλος! X 47 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Σύγκριση Τεχνικών Συσταδοποίησης 48 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 24

25 Σύνοψη Συσταδοποίηση: η εύρεσηοµάδων µεταξύ των δεδοµένων ενός συνόλου µε βάση ένα µέτρο απόστασης Τεχνικές: Ιεραρχικές (συσσωρευτικές / διαιρετικές, απλού / πλήρους / µέσου συνδέσµου) ιαµεριστικές (µε πιοδηµοφιλή τον αλγόριθµο Apriori) Άλλες (βασισµένες στην πυκνότητα, σε γενετικούς αλγορίθµους, παράλληλες τεχνικές κ.α.) 49 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Περιεχόµενα Τι είναι η διαδικασία ανακάλυψης γνώσης από δεδοµένα (Knowledge Discovery in Data KDD ή data mining) Βασικές τεχνικές data mining Κατηγοριοποίηση ή ταξινόµηση (classification) Συσταδοποίηση ή οµαδοποίηση (clustering) Εξαγωγή κανόνων συσχετίσεων (association rule mining) 50 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 25

26 εδοµένα από το «καλάθι της νοικοκυράς» Market-basket data Αντικείµενα που συχνά αγοράζονται µαζί: Bread PeanutButter Εφαρµογές: Τοποθέτηση προϊόντων στα ράφια ιαφήµιση Πωλήσεις Κουπόνια Εκπτώσεις Σκοπός αύξηση πωλήσεων και µείωση κόστους 51 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κανόνες Συσχετίσεων: Ορισµοί Σύνολο στοιχείων: I={I 1,I 2,,I m } Βάση δοσοληψιών (transaction database): D={t 1,t 2,, t n }, t j I (υπο-) σύνολο στοιχείων (itemset): {I i1,i i2,, I ik } I Υποστήριξη (support) ενός itemset: το ποσοστό των δοσοληψιών που περιέχουν το συγκεκριµένο itemset. Συχνό (frequent) itemset: Ένα itemset, η υποστήριξη του οποίου υπερβαίνει ένα συγκεκριµένο κατώφλι. Στη βιβλιογραφία αναφέρεται και ως «µεγάλο» (large itemset) Καλάθια µε beer bread Καλάθια µε beer Καλάθια µε bread 52 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 26

27 Παράδειγµα I={Beer,Bread,Jelly,Milk,PeanutButter} Ηυποστήριξητουitemset {Bread} είναι 80% Ηυποστήριξητουitemset {Bread, PeanutButter} είναι 60% Ηυποστήριξητουitemset {Bread, Milk, PeanutButter} είναι 20% 53 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κανόνες Συσχετίσεων: Ορισµοί (συν.) Κανόνας συσχέτισης (AR): X Y όπου X, Y I και X Y = ø Το X ονοµάζεται LHS (left-hand side) ή antecedent (προηγούµενο) ή head (κεφαλή) του κανόνα Το Y ονοµάζεται RHS (right-hand side) ή consequent (επακόλουθο) ή body (σώµα) του κανόνα Υποστήριξη (support) του AR (s) X Y: το ποσοστό των δοσοληψιών που περιέχουν το X Y ή αλλιώς η πιθανότητα P(X Y) Εµπιστοσύνη (confidence) του AR (α) X Y: η αναλογία του πλήθους των δοσοληψιών που περιέχουν το X Y ως προς το πλήθος των δοσοληψιών που περιέχουν το X. ή αλλιώς, ηεξαρτηµένη πιθανότητα P(X Y Χ) = P(X Y)/P(X) 54 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 27

28 Κανόνες Συσχετίσεων: το πρόβληµα οθέντος ενός συνόλου αντικειµένων I={I 1,I 2,,I m } και µιας βάσης δοσοληψιών D={t 1,t 2,, t n } όπου t i ={I i1,i i2,, I ik } και I ij I µιας ελάχιστης υποστήριξης (min_support) µιας ελάχιστης εµπιστοσύνης (min_confidence) το Πρόβληµα της εύρεσης Κανόνων Συσχέτισης ορίζεται ως ο προσδιορισµός όλων των κανόνων συσχέτισης X Y, όπου X,Y I και X Y = ø, οι οποίοι ξεπερνούν το κατώφλι του min_support και του min_confidence. 55 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Κανόνες Συσχετίσεων: η τεχνική Πρόβληµα εύρεσης κανόνων συσχέτισης: Προσδιορισµός όλων των κανόνων συσχέτισης X Y, όπου X,Y I και X Y = ø, οι οποίοι ξεπερνούν τα κατώφλια min_support και min_confidence Μεθοδολογία: Βήµα 1: Εύρεση του συνόλου L των συχνών itemsets (αυτών δηλαδή που ξεπερνούν το κατώφλι min_support). Βήµα 2: Προσδιορισµός των κανόνων συσχέτισης X Y από το σύνολο L (και παράλληλα το φιλτράρισµα αυτώνµε βάσητο κατώφλι min_support). 1 η σηµείωση: Η υποστήριξη του κανόνα X Y είναι ίδια µε την υποστήριξη του itemset X Y. 2 η σηµείωση: Το 1ο βήµα δείχνει απλό αλλά κοστίζει πολύ, αφού υπάρχουν µέχρι 2 m -1 «πιθανά» συχνά itemsets (m ο πληθάριθµος του I) 56 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 28

29 Προσδιορισµός των Κανόνων Συσχετίσεων από τα συχνά itemsets (βήµα 2) 57 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Παράδειγµα support confidence ( X Y ) = support( X Y ) ( X Y ) support = support ( X Y ) ( X ) 58 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 29

30 Apriori Συχνό ονοµάζεται το itemset που έχει υποστήριξη πάνω από ένα κατώφλι Παράδειγµα (κατώφλι = 40%): {Beer} {Bread} {PeanutButter} {Bread, PeanutButter} Η ιδιότητα των συχνών itemsets: Κάθε υποσύνολο ενός συχνού itemset είναι συχνό. Αντιθέτως, αν ένα itemset δεν είναι συχνό, κανένα από τα υπερσύνολά του δεν µπορεί να είναι συχνό. 59 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Η ιδιότητα των συχνών itemsets 60 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 30

31 Παράδειγµα Apriori (συν.) s=30% α = 50% 61 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Αλγόριθµος Apriori 1. C 1 = Itemsets of size one in I; 2. Count C 1 to determine L 1 ; // 1st pass 3. i = 1; 4. Repeat 5. i = i + 1; 6. C i = Apriori-Gen(L i-1 ); 7. Count C i to determine L i ; // 2nd, 3rd,, pass 8. until no more frequent itemsets found; 62 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 31

32 Apriori-Gen Προσδιορισµός των υποψηφίων συχνών i-itemsets από τα συχνά (i- 1)-itemsets. Προσέγγιση που ακολουθείται (2 βήµατα): Βήµα σύνδεσης(join step): Σύνδεση σε ένα i-itemset των i συχνών (i-1)- itemsets, αν υπάρχουν. C i = L i-1 L i-1. Βήµακλαδέµατος (prune step): Απόρριψη ενός υποψηφίου i-itemset, αν κάποιο υποσύνολο (i-1)-itemset αυτού δεν είναι συχνό. C 1 : I Παράδειγµα (s = 30%): L 1 : {Beer}, {Bread}, {Milk}, {PeanutButter} C 2 : {Beer, Bread}, {Beer, Milk}, L 2 : {Bread, PeanutButter} C 3 : 63 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Πώς προσδιορίζουµε ταυποψήφιαitemsets Θεωρήστε ότι τα στοιχεία του L i-1 είναι διατεταγµένα Βήµα 1 (σύνδεση): C i = L i-1 L i-1 insert into C i select p.item 1, p.item 2,, p.item i-1, q.item i-1 from L i-1 p, L i-1 q where p.item 1 =q.item 1,, p.item i-1 < q.item i-1 Βήµα 2(κλάδεµα) For all itemsets c in C i do For all (k-1)-subsets s of c do if (s L i-1 ) then delete c from C i 64 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 32

33 2 ο Παράδειγµα Apriori (Πηγή: Data Mining: Concepts and Techniques, Han & Kamber) Scan {3} 3 t {4} 1 t {5} 3 t4 2 5 C 2 itemset s Database D itemset s TID Items C 1 {1} 2 t D {2} 3 L 1 itemset C 2 L 2 itemset s {1 2} 1 Scan D {1 3} 2 {1 3} 2 {2 3} 2 {1 5} 1 {2 5} 3 {2 3} 2 {2 5} 3 {3 5} 2 {3 5} 2 C 3 itemset Scan D L 3 itemset s {2 3 5} {2 3 5} 2 s {1} 2 {2} 3 {3} 3 {5} 3 itemset {1 2} {1 3} {1 5} {2 3} {2 5} {3 5} 65 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Υπέρ και Κατά του Apriori Πλεονεκτήµατα: Εκµεταλλεύεται την ιδιότητα των συχνών itemsets. Υλοποιείται εύκολα (και σε παράλληλη µορφή) Μειονεκτήµατα: Υποθέτει ότι η βάση των δοσοληψιών βρίσκεται στη µνήµη. Απαιτεί µέχρι και m σαρώσεις της βάσης (m το πλήθος των items). 66 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 33

34 Σύνοψη Εύρεση Κανόνων Συσχετίσεων: η εύρεση κανόνων της µορφής X Y µέσα από µια βάση δοσοληψιών µε βάση 2 κατώφλια (ελάχιστης υποστήριξης και ελάχιστης εµπιστοσύνης) Οπιοδηµοφιλής αλγόριθµος: Apriori βασίζεται στην ιδιότητα των συχνών στοιχειοσυνόλων (frequent itemsets property) Άλλοι αλγόριθµοι: δειγµατοληψίας, διαµερισµού, παράλληλοι 67 ΠΑ.ΠΕΙ. Γιάννης Θεοδωρίδης Page 34

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1 Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Κατηγοριοποίηση (classification) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων

Διαβάστε περισσότερα

(training data) (test data)

(training data) (test data) Αποθήκες εδοµένων και Εξόρυξη Γνώσης Κατηγοριοποίηση Νίκος Πελέκης, Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/db/courses/dwdm 1 ΠΑ.ΠΕΙ. Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές κατηγοριοποίησης

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4)

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4) Data Mining Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης Κατηγοριοποίηση (κεφ. 4) Βασίλης Βερύκιος - Γιάννης Θεοδωρίδης http://isl.cs.unipi.gr/dmbook Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

14Ιαν Νοε

14Ιαν Νοε Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Επανάληψη Γιάννης Θεοδωρίδης, Νίκος Πελέκης Εργαστήριο Πληροφοριακών Συστηµάτων http://infolab.cs.unipi.gr

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 11: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Εξαγωγή Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων Από Δεδομένα-

Διαβάστε περισσότερα

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Γεράσιµος Μαρκέτος Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) οµή παρουσίασης SQL Server 2005 Επιχειρηµατική

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή 0 0 0 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση Οι διαφάνειες στηρίζονται στο P.-N. Tan,

Διαβάστε περισσότερα

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιά http://isl.cs.unipi.gr/db/courses/dm πληµµύρα από δεδοµένα

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar

Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar Ταξινόμηση Lecture Notes for Chapter 4 Introduction to Data Mining by Tan, Steinbach, Kumar Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες

Διαβάστε περισσότερα

Εξόρυξη Γνώσης - το εργαλείο WEKA

Εξόρυξη Γνώσης - το εργαλείο WEKA Εξόρυξη Γνώσης - το εργαλείο WEKA Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http:// http://isl.cs.unipi.gr/) Κοτσιφάκος Ευάγγελος ek@unipi.gr Νοέµβριος 2008 Ανακάλυψη και Εξόρυξη

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 2 Ο Εργαστήριο WEKA (CLASSIFICATION) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κατηγοριοποίηση Αποτελεί μια από τις βασικές

Διαβάστε περισσότερα

Κατηγοριοποίηση (Εποπτευόμενη μάθηση)

Κατηγοριοποίηση (Εποπτευόμενη μάθηση) Κατηγοριοποίηση (Εποπτευόμενη μάθηση) Αποθήκες και Εξόρυξη Δεδομένων Διδάσκoυσα: Μαρία Χαλκίδη με βάση slides από J. Han and M. Kamber Data Mining: Concepts and Techniques, 2 nd edition Εποπτευόμενη vs.

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA Ειρήνη Ντούτση Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) 02/04/2008 Ανακάλυψη και

Διαβάστε περισσότερα

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα Εισαγωγή στην εξόρυξη δεδομένων ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα 1 Δεδομένα, δεδομένα, δεδομένα... Παράγονται όλο και περισσότερα δεδομένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστημονικά δεδομένα:

Διαβάστε περισσότερα

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική Κατηγοριοποίηση Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 11: Κανόνες Συσχέτισης Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης

Διαβάστε περισσότερα

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων. Βάσεις Δεδομένων ΙΙ Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Εξόρυξη Δεδομένων Ανακάλυψη νέων πληροφοριών σε

Διαβάστε περισσότερα

Ταξινόμηση II Σύντομη Ανακεφαλαίωση

Ταξινόμηση II Σύντομη Ανακεφαλαίωση 0 0 0 Ταξινόμηση II Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 ΤΑΞΙΝΟΜΗΣΗ

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κατηγοριοποίηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης

Διαβάστε περισσότερα

Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων

Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε μεγάλα σύνολα δεδομένων Εξόρυξη εδομένων Στατιστική: ιερευνητική Ανάλυση εδομένων (exploratory data analysis) Τεχνητή Νοημοσύνη: Ανακάλυψη γνώσης και

Διαβάστε περισσότερα

Αλγόριθμοι Εξόρυξης Χωρικών εδομένων

Αλγόριθμοι Εξόρυξης Χωρικών εδομένων Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Αγρονόμων και Τοπογράφων Μηχανικών ιατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών «ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ» Αλγόριθμοι Εξόρυξης Χωρικών εδομένων Εφαρμογή σε Αλγόριθμους Συσταδοποίησης

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων

Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε µεγάλα σύνολα δεδοµένων Εξόρυξη εδοµένων Στατιστική: ιερευνητική Ανάλυση εδοµένων (exploratory data analysis) Τεχνητή Νοηµοσύνη: Ανακάλυψη γνώσης και

Διαβάστε περισσότερα

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach,

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εισαγωγή Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών

Διαβάστε περισσότερα

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.» ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΙΔΙΚΕΥΣΗΣ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Διπλωματική εργασία με θέμα: «Ανάπτυξη υποδείγματος για την αξιολόγηση αυτοκινήτων με

Διαβάστε περισσότερα

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

ΑΝΑΣΚΟΠΗΣΗ. Αποθήκες και Εξόρυξη Δεδομένων

ΑΝΑΣΚΟΠΗΣΗ. Αποθήκες και Εξόρυξη Δεδομένων ΑΝΑΣΚΟΠΗΣΗ Αποθήκες και Εξόρυξη Δεδομένων Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης γνώσης Pattern Evaluation Task- relevant

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Σχεδίαση και Ανάλυση Αλγορίθμων

Σχεδίαση και Ανάλυση Αλγορίθμων Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4.0 Επιλογή Αλγόριθμοι Επιλογής Select και Quick-Select Σταύρος Δ. Νικολόπουλος 2016-17 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ... ΠΕΡΙΕΧΟΜΕΝΑ ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...................................... 11 ΠΡΟΛΟΓΟΣ..........................................................15 1. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΝΑΛΥΤΙΚΗ, ΣΤΑ ΠΟΣΟΤΙΚΑ

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Ενότητα 9 (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή ισχύει ότι S i S j =, για κάθε i,j µε i j και S 1 S k = U. Λειτουργίες q MakeSet(X): επιστρέφει

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Predicting the Choice of Contraceptive Method using Classification

Predicting the Choice of Contraceptive Method using Classification ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΣΣΑΛΟΝΙΚΗ Predicting the Choice of Contraceptive Method using Classification ΠΑΠΑΔΟΠΟΥΛΟΣ ΧΡΗΣΤΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Νικόλαος Σαμαράς ΕΞΕΤΑΣΤΗΣ:

Διαβάστε περισσότερα

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ 1 2 3 1 ΚΑΤΗΓΟΡΊΕΣ ΤΑΞΙΝΌΜΗΣΗΣ Κατευθυνόμενη ταξινόμηση (supervised classification) Μη-κατευθυνόμενη ταξινόμηση (unsupervised classification) Γραμμική: Μη-Γραμμική: Ιεραρχική: Επιμεριστική:

Διαβάστε περισσότερα

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ ιάλεξη : λάχιστα εννητορικά ένδρα Αλγόριθμος Prim Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: λάχιστα εννητορικά ένδρα () Minimum Spanning Trees Ο αλγόριθμος του Prim για εύρεση σε γράφους

Διαβάστε περισσότερα

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse

Διαβάστε περισσότερα

Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση

Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση Αλγόριθμοι Δεδομένα input Αλγόριθμοι

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης «Σχεδίαση και υλοποίηση έξυπνου συστήματος ανάλυσης

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Δεδομένα

Εξόρυξη Γνώσης από Δεδομένα Εξόρυξη Γνώσης από Δεδομένα Το εργαλείο WEKA Ομάδα ιαχείρισης εδομένων,, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς http://infolab.cs.unipi.gr έσποινα Κοπανάκη (dkopanak@unipi.gr) Νοέμβριος 2009 Τα δεδομένα

Διαβάστε περισσότερα

Σχεδίαση & Ανάλυση Αλγορίθμων

Σχεδίαση & Ανάλυση Αλγορίθμων Σχεδίαση & Ανάλυση Αλγορίθμων Ενότητα 3 Αλγόριθμοι Επιλογής Σταύρος Δ. Νικολόπουλος Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros Αλγόριθμοι Επιλογής Γνωρίζουμε

Διαβάστε περισσότερα

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες Αλγόριθμοι Δεδομένα input Αλγόριθμοι Εξόρυξης Πληροφορίας Εξαγόμενα output

Διαβάστε περισσότερα

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Lecture Notes for Chapter 6. Introduction to Data Mining

Lecture Notes for Chapter 6. Introduction to Data Mining Κανόνες Συσχέτισης: Βασικές αρχές και αλγόριθμοι (Association Analysis: Basic Concepts and Algorithms) Lecture Notes for Chapter 6 Introduction to Data Mining by Tan, Steinbach, Kumar Εξόρυξη κανόνων συσχέτισης

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Εισαγωγή Η µάθηση σε

Διαβάστε περισσότερα

Ενότητα 7 Ουρές Προτεραιότητας

Ενότητα 7 Ουρές Προτεραιότητας Ενότητα Ουρές Προτεραιότητας ΗΥ4 - Παναγιώτα Φατούρου Ουρές Προτεραιότητας Θεωρούµε ένα χώρο κλειδιών U και έστω ότι µε κάθε κλειδί Κ (τύπου Key) έχει συσχετισθεί κάποια πληροφορία Ι (τύπου Type). Έστω

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Insert(K,I,S) Delete(K,S)

Insert(K,I,S) Delete(K,S) ΕΝΟΤΗΤΑ 5 ΣΥΝΟΛΑ & ΛΕΞΙΚΑ Φατούρου Παναγιώτα 1 Σύνολα (Sets) Τα µέλη ενός συνόλου προέρχονται από κάποιο χώρο αντικειµένων/στοιχείων (π.χ., σύνολα αριθµών, λέξεων, ζευγών αποτελούµενα από έναν αριθµό και

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2016-17 Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) http://mixstef.github.io/courses/csintro/ Μ.Στεφανιδάκης Αφηρημένες

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων Κατηγοριοποίηση

Εξόρυξη Δεδομένων Κατηγοριοποίηση Εξόρυξη Δεδομένων Κατηγοριοποίηση 1 2 Κατηγοριοποίηση: Θέματα Κατηγοριοποίηση: Βασικές Έννοιες Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Αφελής Κατηγοριοποίηση Bayes Κατηγοριοποίηση Κ-πλησιέστεροι γείτονες

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 - Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) - 1 - Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα, όπως γίνεται αντιληπτή στην καθημερινή ζωή, μπορεί να συνδεθεί με δύο βασικές ιδιότητες: την ικανότητά στην

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining Data mining Εξόρυξη εδοµένων o Association rules mining o Classification o Clustering o Text Mining o Web Mining ιάγραµµα της παρουσίασης Association rule Frequent itemset mining Γνωστοί Αλγόριθµοι Βελτιώσεις

Διαβάστε περισσότερα

Αλγόριθμοι και πολυπλοκότητα Ταχυταξινόμηση (Quick-Sort)

Αλγόριθμοι και πολυπλοκότητα Ταχυταξινόμηση (Quick-Sort) ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αλγόριθμοι και πολυπλοκότητα Ταχυταξινόμηση (Quick-Sort) Ιωάννης Τόλλης Τμήμα Επιστήμης Υπολογιστών Ταχυταξινόμηση (Quick-Sort) 7 4 9 6 2 2 4 6 7 9 4 2 2 4 7 9 7

Διαβάστε περισσότερα

Κλασσικά Βιβλία Αναφοράς

Κλασσικά Βιβλία Αναφοράς Εξόρυξη Δεδομένων Κλασσικά Βιβλία Αναφοράς Data Mining-Concepts and Techniques-Han and K, Morgan Kaufmann, 2001 Principles of Data Mining-Hand, Manila and Smyth. MIT Press, 2001. The Elements of Statistical

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Κατανεμημένα Συστήματα Ι Παναγιώτα Παναγοπούλου Χριστίνα Σπυροπούλου 8η Διάλεξη 8 Δεκεμβρίου 2016 1 Ασύγχρονη κατασκευή BFS δέντρου Στα σύγχρονα συστήματα ο αλγόριθμος της πλημμύρας είναι ένας απλός αλλά

Διαβάστε περισσότερα

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Μεταπτυχιακή Εργασία Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα Ειρήνη Ντούτση Μηχανικός Η/Υ και Πληροφορικής

Διαβάστε περισσότερα

Ανάλυση κατά Συστάδες. Cluster analysis

Ανάλυση κατά Συστάδες. Cluster analysis Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες

Διαβάστε περισσότερα

Διδάσκων: Παναγιώτης Ανδρέου

Διδάσκων: Παναγιώτης Ανδρέου Διάλεξη 12: Δέντρα ΙΙ -Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Δυαδικά Δένδρα - Δυαδικά Δένδρα Αναζήτησης(ΔΔΑ) - Εύρεση Τυχαίου, Μέγιστου, Μικρότερου στοιχείου - Εισαγωγή

Διαβάστε περισσότερα

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα Ανάλυση Μεγάλων Δεδομένων - Μελέτη Περίπτωσης στη Διαδικτυακή Εφαρμογή «Help Me Vote» - Big Data Analysis - a Case Study on the Web-Based

Διαβάστε περισσότερα

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση Η πληροφορία στη σύγχρονη επιχείρηση Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Πέραν του ανθρώπινου δυναμικού, η πληροφορία αποτελεί τον πλέον πολύτιμο

Διαβάστε περισσότερα