Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης
|
|
- Σωφρονία Αξιώτης
- 9 χρόνια πριν
- Προβολές:
Transcript
1 Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων Περιεχόµενα Παρουσίαση του προβλήµατος εύρεσης Κανόνων Συσχετίσεων Συχνά σύνολα αντικειµένων ή στοιχειοσύνολα (frequent itemsets) Αλγόριθµοι εύρεσης συχνών itemsets Αλγόριθµος Apriori Αλγόριθµος δειγµατοληψίας Αλγόριθµος διαµερισµού Παράλληλοι αλγόριθµοι Ειδικά θέµατα Βασισµένες κατά κύριο λόγο (αλλά όχι αποκλειστικά) στις διαφάνειες που συνοδεύουν το βιβλίο M. H. Dunham: Data Mining, Introductory and Advanced Topics Prentice Hall, 2002 Επιµέλεια Ελληνικής έκδοσης Βασίλης Βερύκιος & Γιάννης Θεοδωρίδης,
2 Περιεχόµενα Παρουσίαση του προβλήµατος εύρεσης Κανόνων Συσχετίσεων Συχνά σύνολα αντικειµένων ή στοιχειοσύνολα (frequent itemsets) Αλγόριθµοι εύρεσης συχνών itemsets Αλγόριθµος Apriori Αλγόριθµος δειγµατοληψίας Αλγόριθµος διαµερισµού Παράλληλοι αλγόριθµοι Ειδικά θέµατα εδοµένα από το «καλάθι της νοικοκυράς» Market-basket data Αντικείµενα που αγοράζονται συχνά µαζί: Bread PeanutButter Εφαρµογές: Τοποθέτηση προϊόντων στα ράφια ιαφήµιση Πωλήσεις Κουπόνια Εκπτώσεις Σκοπός αύξηση πωλήσεων και µείωση κόστους
3 Κανόνες Συσχετίσεων: Ορισµοί Σύνολο στοιχείων: I={I 1,I 2,,I m } Βάση δοσοληψιών (transaction database): D={t 1,t 2,, t n }, t j I (υπο-) σύνολο στοιχείων (itemset): {I i1,i i2,, I ik } I Υποστήριξη (support) ενός itemset: το ποσοστό των δοσοληψιών που περιέχουν το συγκεκριµένο itemset. Καλάθια µε beer bread Συχνό (frequent) itemset: Ένα itemset, η υποστήριξη του οποίου υπερβαίνει ένα συγκεκριµένο κατώφλι. Στη βιβλιογραφία αναφέρεται και ως «µεγάλο» (large itemset) Καλάθια µε bread Καλάθια µε beer Παράδειγµα I={Beer,Bread,Jelly,Milk,PeanutButter} Ηυποστήριξητουitemset {Bread} είναι 80% Ηυποστήριξητουitemset {Bread, PeanutButter} είναι 60% Ηυποστήριξητουitemset {Bread, Milk, PeanutButter} είναι 20%
4 Κανόνες Συσχετίσεων: Ορισµοί (συν.) Κανόνας συσχέτισης (AR): X Y όπου X, Y I και X Y = ø Το X ονοµάζεται LHS (left-hand side) ή antecedent (προηγούµενο) ή head (κεφαλή) του κανόνα Το Y ονοµάζεται RHS (right-hand side) ή consequent (επακόλουθο) ή body (σώµα) του κανόνα Υποστήριξη (support) του AR (s) X Y: το ποσοστό των δοσοληψιών που περιέχουν το X Y ή αλλιώς η πιθανότητα P(X Y) Εµπιστοσύνη (confidence) του AR (α) X Y: η αναλογία του πλήθους των δοσοληψιών που περιέχουν το X Y ως προς το πλήθος των δοσοληψιών που περιέχουν το X. ή αλλιώς, ηεξαρτηµένη πιθανότητα P(X Y Χ) = P(X Y)/P(X) Παράδειγµα (συν.)
5 Κανόνες Συσχετίσεων: το πρόβληµα οθέντος ενός συνόλου αντικειµένων I={I 1,I 2,,I m } και µιας βάσης δοσοληψιών D={t 1,t 2,, t n } όπου t i ={I i1,i i2,, I ik } και I ij I µιας ελάχιστης υποστήριξης (min_support) µιας ελάχιστης εµπιστοσύνης (min_confidence) το Πρόβληµα της εύρεσης Κανόνων Συσχέτισης ορίζεται ως ο προσδιορισµός όλων των κανόνων συσχέτισης X Y, όπου X,Y I και X Y = ø, οι οποίοι ξεπερνούν το κατώφλι του min_support και του min_confidence. Κανόνες Συσχετίσεων: Τεχνική Πρόβληµα εύρεσης κανόνων συσχέτισης: Προσδιορισµός όλων των κανόνων συσχέτισης X Y, όπου X,Y I και X Y = ø, οι οποίοι ξεπερνούν τα κατώφλια min_support και min_confidence Μεθοδολογία: Βήµα 1: Εύρεση του συνόλου L των συχνών itemsets (αυτών δηλαδή που ξεπερνούν το κατώφλι min_support). Βήµα 2: Προσδιορισµός των κανόνων συσχέτισης X Y απότοσύνολοl (και παράλληλα το φιλτράρισµα αυτών µε βάσητοκατώφλιmin_support). 1 η σηµείωση: Η υποστήριξη του κανόνα X Y είναι ίδια µε την υποστήριξη του itemset X Y. 2 η σηµείωση: Το 1ο βήµα δείχνει απλό αλλά κοστίζει πολύ, αφού υπάρχουν µέχρι 2 m -1 «πιθανά» συχνά itemsets (m ο πληθάριθµος του I)
6 Προσδιορισµός των Κανόνων Συσχετίσεων από τα συχνά itemsets (βήµα 2) Παράδειγµα support confidence ( X Y ) = support( X Y ) ( X Y ) support = support ( X Y ) ( X )
7 Περιεχόµενα Παρουσίαση του προβλήµατος εύρεσης Κανόνων Συσχετίσεων Συχνά σύνολα αντικειµένων (frequent itemsets) Αλγόριθµοι εύρεσης συχνών itemsets Αλγόριθµος Apriori Αλγόριθµος δειγµατοληψίας Αλγόριθµος διαµερισµού Παράλληλοι αλγόριθµοι Ειδικά θέµατα Apriori Συχνό ονοµάζεται το itemset που έχει υποστήριξη πάνω από ένα κατώφλι Παράδειγµα (κατώφλι = 40%): {Beer} {Bread} {PeanutButter} {Bread, PeanutButter} Η ιδιότητα των συχνών itemsets: Κάθε υποσύνολο ενός συχνού itemset είναι συχνό. Αντιθέτως, αν ένα itemset δεν είναι συχνό, κανένα από τα υπερσύνολά του δεν µπορεί να είναι συχνό.
8 Η ιδιότητα των συχνών itemsets Παράδειγµα Apriori (συν.) s=30% α = 50%
9 Αλγόριθµος Apriori 1. C 1 = Itemsets of size one in I; 2. Count C 1 to determine L 1 ; // 1st pass 3. i = 1; 4. Repeat 5. i = i + 1; 6. C i = Apriori-Gen(L i-1 ); 7. Count C i to determine L i ; // 2nd, 3rd,, pass 8. until no more frequent itemsets found; Apriori-Gen Προσδιορισµός των υποψηφίων συχνών i-itemsets από τα συχνά (i-1)- itemsets. Προσέγγιση που ακολουθείται (2 βήµατα): Βήµα σύνδεσης(join step): Σύνδεση σε ένα i-itemset των i συχνών (i-1)-itemsets, αν υπάρχουν. C i = L i-1 L i-1. Βήµα κλαδέµατος (prune step): Απόρριψη ενός υποψηφίου i-itemset, αν κάποιο υποσύνολο (i-1)-itemset αυτού δεν είναι συχνό. Παράδειγµα (s = 30%): C 1 : I L 1 : {Beer}, {Bread}, {Milk}, {PeanutButter} C 2 : {Beer, Bread}, {Beer, Milk}, L 2 : {Bread, PeanutButter} C 3 :
10 Πώς προσδιορίζουµε τα υποψήφια itemsets Θεωρήστε ότι τα στοιχεία του L i-1 είναι διατεταγµένα Βήµα 1 (σύνδεση): C i = L i-1 L i-1 insert into C i select p.item 1, p.item 2,, p.item i-1, q.item i-1 from L i-1 p, L i-1 q where p.item 1 =q.item 1,, p.item i-1 < q.item i-1 Βήµα 2(κλάδεµα) For all itemsets c in C i do For all (k-1)-subsets s of c do if (s L i-1 ) then delete c from C i Παράδειγµα: L 3 ={abc, abd, acd, ace, bcd} Σύνδεση: L 3 L 3 = {abcd, acde} από τα abc-abd και acd-ace, αντίστοιχα Κλάδεµα: acde, αφού ade L 3 Άρα, C 4 ={abcd} 2 ο Παράδειγµα Apriori (Πηγή: Data Mining: Concepts and Techniques, Han & Kamber) Scan {3} 3 t {4} 1 t {5} 3 t4 2 5 C 2 itemset s Database D itemset s TID Items C 1 {1} 2 t D {2} 3 L 1 itemset C 2 L 2 itemset s {1 2} 1 Scan D {1 3} 2 {1 3} 2 {2 3} 2 {1 5} 1 {2 5} 3 {2 3} 2 {2 5} 3 {3 5} 2 {3 5} 2 C 3 itemset Scan D L 3 itemset s {2 3 5} {2 3 5} 2 s {1} 2 {2} 3 {3} 3 {5} 3 itemset {1 2} {1 3} {1 5} {2 3} {2 5} {3 5}
11 Υπέρ και Κατά του Apriori Πλεονεκτήµατα: Εκµεταλλεύεται την ιδιότητα των συχνών itemsets. Υλοποιείται εύκολα (και σε παράλληλη µορφή) Μειονεκτήµατα: Υποθέτει ότι η βάση των δοσοληψιών βρίσκεται στη µνήµη. Απαιτεί µέχρι και m σαρώσεις της βάσης (m το πλήθος των items). Κανόνες Συσχετίσεων που προκύπτουν από άλλους (πλεονάζοντες) Κάποιοι κανόνες προκύπτουν από άλλους, παρατήρηση που µπορεί να επιταχύνει τη διαδικασία εύρεσης του συνόλου L. Απλός πλεονασµός: Ο κανόνας {a,b} {c} προκύπτει από τον {a} {b,c} Αποδείξτε το αν δηλαδή ο δεύτερος ξεπερνά τα όρια που έχουν τεθεί για support και confidence, αναγκαστικάθαισχύειτοίδιοκαιγιατονπρώτο Αυστηρός πλεονασµός: Ο κανόνας {a} {c} προκύπτει από τον {a} {b,c} Αποδείξτε το
12 Κανόνες Συσχετίσεων στο Weka (Πηγή: Data Mining Course File: weather.nominal.arff MinSupport: 0.2 Κανόνες Συσχετίσεων στο Weka (συν.) (Πηγή: Data Mining Course
13 Περιεχόµενα Παρουσίαση του προβλήµατος εύρεσης Κανόνων Συσχετίσεων Συχνά σύνολα αντικειµένων (frequent itemsets) Αλγόριθµοι εύρεσης συχνών itemsets Αλγόριθµος Apriori Αλγόριθµος δειγµατοληψίας Αλγόριθµος διαµερισµού Παράλληλοι αλγόριθµοι Ειδικά θέµατα ειγµατοληψία Πρόβληµα: Μεγάλες Β Λύση: ειγµατοληψία στη Β και εφαρµογή του Apriori στο επιλεγµένο δείγµα. Ενδεχοµένως Μεγάλα Itemsets (Potentially Large Itemsets -PL): µεγάλα itemsets από το επιλεγµένο δείγµα Αρνητικό Όριο (Negative Border - BD ): Γενίκευση του Apriori-Gen που εφαρµόζεται σε itemsets διαφόρων µεγεθών. Το ελάχιστο σύνολο των itemsets που δεν ανήκουν στο PL, ενώ όλα τα υποσύνολά τους ανήκουν στο PL.
14 Αρνητικό Όριο: Παράδειγµα PL PL BD - (PL) Αλγόριθµος δειγµατοληψίας 1. D s = sample of Database D; 2. PL = Large itemsets in D s (using smalls); 3. C = PL BD (PL); 4. L = Count C in Database (using s); // 1 st pass 5. ML = itemsets in BD (PL) found to be frequent; 6. If ML = then done else C = L; repeat C = C BD (C); until BD (C) = 7. L = Count C in Database (using s); // 2 nd pass
15 Παράδειγµα δειγµατοληψίας Θέλουµε ναβρούµε τουςκανόνες συσχετίσεων, µε s = 40% 1. D s = { t 1,t 2 }; smalls = 10% 2. PL = { {Bread}, {Jelly}, {PeanutButter}, {Bread, Jelly}, {Bread, PeanutButter}, {Jelly, PeanutButter}, {Bread, Jelly, PeanutButter} } 3. BD (PL) = { {Beer}, {Milk} } ; C = PL BD (PL) 4. (1 ο πέρασµαστηβ ) Μέτρηση του C απ όπου προκύπτει ότι L = { {Bread}, {PeanutButter}, {Bread, PeanutButter}, {Beer}, {Milk} } 5. ML = BD (PL) L = { {Beer}, {Milk} } 6. C = L; επαναληπτικά:c = C BD (C) // στο παράδειγµα, θα γίνουν 3 επαναλήψεις: για 2-, 3-, 4-itemsets 7. (2 ο πέρασµαστηβ ) Μέτρηση του C απ όπου προκύπτει ότι L = L (που ήδη βρέθηκαν στο βήµα 4) (απότοβήµα 7) Υπέρ και Κατά της ειγµατοληψίας Πλεονεκτήµατα: Μειώνει το πλήθος των σαρώσεων της Β σε 1 (στην καλύτερη περίπτωση) ή 2 (στη χειρότερη περίπτωση). Καλύτερη κλιµάκωση (αποδοτικό σε µικρές αλλά και µεγάλες Β ). Μειονεκτήµατα: Ενδεχοµένως µεγάλος αριθµός υποψηφίων itemsets στη δεύτερη σάρωση (πολλά υποψήφια λόγω επαναληπτικού υπολογισµού του αρνητικού ορίου)
16 Περιεχόµενα Παρουσίαση του προβλήµατος εύρεσης Κανόνων Συσχετίσεων Συχνά σύνολα αντικειµένων (frequent itemsets) Αλγόριθµοι εύρεσης συχνών itemsets Αλγόριθµος Apriori Αλγόριθµος δειγµατοληψίας Αλγόριθµος διαµερισµού Παράλληλοι αλγόριθµοι Ειδικά θέµατα ιαµερισµός ιαµερίζουµε τηβ σετµήµατα (partitions) D 1,D 2,,D p Εφαρµόζουµε τον Apriori σε κάθε τµήµα Κάθε συχνό itemset θα πρέπει να είναι συχνό σε ένα τουλάχιστον από τα τµήµατα. Αλγόριθµος: 1. Divide D into partitions D 1,D 2,,D p; 2. For i = 1 to p do 3. L i = Apriori(D i ); // 1 st pass 4. C = L 1 L p ; 5. Count C on D to generate L; // 2 nd pass
17 Παράδειγµα διαµερισµού D 1 L 1 ={{Bread}, {Jelly}, {PeanutButter}, {Bread,Jelly}, {Bread,PeanutButter}, {Jelly, PeanutButter}, {Bread,Jelly,PeanutButter}} D 2 L 2 ={{Bread}, {Milk}, {PeanutButter}, {Bread,Milk}, {Bread,PeanutButter}, {Milk, PeanutButter}, {Bread,Milk,PeanutButter}, {Beer}, {Beer,Bread}, {Beer,Milk}} s =10% Υπέρ και Κατά του ιαµερισµού Πλεονεκτήµατα: Προσαρµόζεται στη διαθέσιµη κύρια µνήµη Υλοποιείται εύκολα σε παράλληλη µορφή Μέγιστο πλήθος σαρώσεων της Β = 2. 1η σάρωση: διαµερισµός σε τµήµατα που χωρούν στην κύρια µνήµη (και εκτέλεση Apriori στην κύρια µνήµη) 2η σάρωση: γιαναεντοπιστούνταπραγµατικά συχνά itemsets από τα υποψήφια που προέκυψαν από την 1η σάρωση Μειονεκτήµατα: Μπορεί να έχει πολλά υποψήφια itemsets κατά την διάρκεια της δεύτερης σάρωσης.
18 Περιεχόµενα Παρουσίαση του προβλήµατος εύρεσης Κανόνων Συσχετίσεων Συχνά σύνολα αντικειµένων (frequent itemsets) Αλγόριθµοι εύρεσης συχνών itemsets Αλγόριθµος Apriori Αλγόριθµος δειγµατοληψίας Αλγόριθµος διαµερισµού Παράλληλοι αλγόριθµοι Ειδικά θέµατα Παράλληλοι Αλγόριθµοι Κανόνων Συσχετίσεων Βασίζονται στον Apriori Οι τεχνικές διαφέρουν ανάλογα µε το: τι µετράµεσεκάθετόπο(site) πως είναι κατανεµηµέναταδεδοµένα (δοσοληψίες) Παραλληλισµός δεδοµένων διαµέριση δεδοµένων, εκποµπή µετρητών: Count Distribution Algorithm CDA Παραλληλισµός εργασιών διαµέριση δεδοµένων και υποψηφίων, εκποµπή µετρητών και δεδοµένων: Data Distribution Algorithm - DDA
19 Παραλληλισµός εδοµένων Count Distribution Algorithm (CDA) 1. Place data partition at each site. 2. In Parallel at each site do 3. C 1 = Itemsets of size one in I; 4. Count C 1; 5. Broadcast counts to all sites; 6. Determine global large itemsets of size 1, L 1 ; 7. i = 1; 8. Repeat 9. i = i + 1; 10. C i = Apriori-Gen(L i-1 ); 11. Count C i; 12. Broadcast counts to all sites; 13. Determine global large itemsets of size i,l i ; 14. until no more large itemsets found; Παράδειγµα CDA
20 Παραλληλισµός Εργασιών Data Distribution Algorithm(DDA) 1. Place data partition at each site. 2. In Parallel at each site do 3. Determine local candidates of size 1 to count; 4. Broadcast local transactions to other sites; 5. Count local candidates of size 1 on all data; 6. Determine large itemsets of size 1 for local candidates; 7. Broadcast large itemsets to all sites; 8. Determine L 1 ; 9. i = 1; 10. Repeat 11. i = i + 1; 12. C i = Apriori-Gen(L i-1 ); 13. Determine local candidates of size i to count; 14. Count, broadcast, and find L i ; 15. until no more large itemsets found; Παράδειγµα DDA
21 Περιεχόµενα Παρουσίαση του προβλήµατος εύρεσης Κανόνων Συσχετίσεων Συχνά σύνολα αντικειµένων (frequent itemsets) Αλγόριθµοι εύρεσης συχνών itemsets Αλγόριθµος Apriori Αλγόριθµος δειγµατοληψίας Αλγόριθµος διαµερισµού Παράλληλοι αλγόριθµοι Ειδικά θέµατα Ειδικά θέµατα Κανόνων Συσχετίσεων Πολυεπίπεδοι (multiple-level) κανόνες συσχετίσεων Στόχος: να ληφθεί υπόψη πιθανή «ιεραρχία» των items π.χ. {Αναψυκτικά} {Χαρτικά} Σχετικό µε τις ιεραρχίες εννοιών (concept hierarchies) των Αποθηκών εδοµένων Καθηµερινά είδη Αναψυκτικά Χαρτικά µη ανθρακούχα ανθρακούχα χαρτοπετσέτες ρολά κουζίνας Coca Cola Pepsi Cola
22 Ειδικά θέµατα Κανόνων Συσχετίσεων (συν.) Αυξητικοί (incremental) αλγόριθµοι Πρόβληµα: οι αλγόριθµοι υποθέτουν στατικές Β Αντικειµενικός σκοπός: Αν γνωρίζουµε τασυχνάitemsets του D να βρούµε τασυχνάitemsets του D = D { D} Το itemset που είναι συχνό στο D πρέπει να είναι συχνό είτε στο D είτε στο D Χρειάζεται να αποθηκευτούν τα συχνά itemsets αλλά και οι µετρήσεις τους (για να είναι διαθέσιµα γιατηνεπόµενη φορά) Οπτικοποίηση Κανόνων Συσχετίσεων (Πηγή: Data Mining: Concepts and Techniques, Han & Kamber)
23 Εφαρµογές Κανόνων Συσχετίσεων Ανάλυση καλαθιού αγοράς Τοποθέτηση προϊόντων στα ράφια ιαφήµιση Πωλήσεις Κουπόνια Εκπτώσεις Μερικές φορές δεν είναι προφανής η εφαρµογή: Wal-Mart knows that customers who buy Barbie dolls (it sells one every 20 seconds) have a 60% likelihood of buying one of three types of candy bars. What does Wal-Mart do with information like that? I don't have a clue,' says Wal-Mart's chief of merchandising, Lee Scott. (Πηγή: C. Palmeri. Believe in yourself, believe in the merchandise. Forbes 160(5), 8-Sep Also at: Σύνοψη Εύρεση Κανόνων Συσχετίσεων: η εύρεση κανόνων της µορφής X Y µέσα από µια βάση δοσοληψιών µε βάση2 κατώφλια (ελάχιστης υποστήριξης και ελάχιστης εµπιστοσύνης) Ο πιο δηµοφιλής αλγόριθµος: Apriori βασίζεται στην ιδιότητα των συχνών στοιχειοσυνόλων (frequent itemsets property) Άλλοι αλγόριθµοι: δειγµατοληψίας, διαµερισµού, παράλληλοι
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 11: Κανόνες Συσχέτισης Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης
Lecture Notes for Chapter 6. Introduction to Data Mining
Κανόνες Συσχέτισης: Βασικές αρχές και αλγόριθμοι (Association Analysis: Basic Concepts and Algorithms) Lecture Notes for Chapter 6 Introduction to Data Mining by Tan, Steinbach, Kumar Εξόρυξη κανόνων συσχέτισης
TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο
Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)
Αποθήκες και Εξόρυξη Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση
Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!)
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων
Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Ανάλυση Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market Basket transactions (Το καλάθι της νοικοκυράς!)
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές
Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης
Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης Σύνοψη Ο βασικός στόχος αυτού του κεφαλαίου είναι η εισαγωγή σε θέματα που αφορούν στην εξόρυξη συχνών στοιχειοσυνόλων και κανόνων συσχέτισης.
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data
Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining
Data mining Εξόρυξη εδοµένων o Association rules mining o Classification o Clustering o Text Mining o Web Mining ιάγραµµα της παρουσίασης Association rule Frequent itemset mining Γνωστοί Αλγόριθµοι Βελτιώσεις
Ανάλυση Συσχέτισης IΙ
Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ
Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)
Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introdion to Data Mining», Addison Wesley, 26 Market-Basket transactions (Το καλάθι της νοικοκυράς!) TID Items
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 12: Κανόνες Συσχέτισης Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης
Κανόνες Συσχέτισης IIΙ
Κανόνες Συσχέτισης IIΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ
Κανόνες συσχέτισης Association rules
Κανόνες συσχέτισης Association rules Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη με βάση slides από J. Han and M. Kamber Data Mining: Concepts and Techniques, 2 nd edition Τι είναι η εξόρυξη
Κανόνες Συσχέτισης IΙ
Κανόνες Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος 28-29 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ
Ο Αλγόριθμος FP-Growth
Ο Αλγόριθμος FP-Growth Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο - prefix tree (trie)
Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services
Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Γεράσιµος Μαρκέτος Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) οµή παρουσίασης SQL Server 2005 Επιχειρηµατική
Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων
Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε µεγάλα σύνολα δεδοµένων Εξόρυξη εδοµένων Στατιστική: ιερευνητική Ανάλυση εδοµένων (exploratory data analysis) Τεχνητή Νοηµοσύνη: Ανακάλυψη γνώσης και
Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων
Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε μεγάλα σύνολα δεδομένων Εξόρυξη εδομένων Στατιστική: ιερευνητική Ανάλυση εδομένων (exploratory data analysis) Τεχνητή Νοημοσύνη: Ανακάλυψη γνώσης και
Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης
Τεχνικές Εξόρυξης Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:
Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα
Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα Ανάλυση Μεγάλων Δεδομένων - Μελέτη Περίπτωσης στη Διαδικτυακή Εφαρμογή «Help Me Vote» - Big Data Analysis - a Case Study on the Web-Based
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΕΠΛ 451 Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό I. Στόχος ΑΣΚΗΣΗ 1 Ανάλυση συσχετίσεων ανάμεσα σε προϊόντα Διδάσκων: Γιώργος Πάλλης Υπεύθυνος Εργασίας: Παύλος Αντωνίου
Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA
Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA Ειρήνη Ντούτση Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) 02/04/2008 Ανακάλυψη και
Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης
-------------------------- Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πολυτεχνική Σχολή Πανεπιστημίου Πατρών Διπλωματική Εργασία για το Μεταπτυχιακό Δίπλωμα Ειδίκευσης στην «Επιστήμη και Τεχνολογία Υπολογιστών»
14Ιαν Νοε
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Επανάληψη Γιάννης Θεοδωρίδης, Νίκος Πελέκης Εργαστήριο Πληροφοριακών Συστηµάτων http://infolab.cs.unipi.gr
MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα
Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος
ΗΥ-360 Αρχεια και Βασεις εδοµενων, Τµηµα Επιστηµης Υπολογιστων, Πανεπιστηµιο Κρητης Συναρτησιακές Εξαρτήσεις Βάρσος Κωνσταντίνος 24 Νοεµβρίου 2017 Ορισµός 1. Μια συναρτησιακή εξάρτηση µεταξύ X και Y συµβολίζεται
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων
Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Αποθήκες εδομένων και Εξόρυξη εδομένων:
Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος
ΗΥ-360 Αρχεια και Βασεις εδοµενων, Τµηµα Επιστηµης Υπολογιστων, Πανεπιστηµιο Κρητης Συναρτησιακές Εξαρτήσεις Βάρσος Κωνσταντίνος 16 Νοεµβρίου 2018 Ορισµός 1. Μια συναρτησιακή εξάρτηση µεταξύ X και Y συµβολίζεται
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση
Το εσωτερικό ενός Σ Β
Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων
The challenges of non-stable predicates
The challenges of non-stable predicates Consider a non-stable predicate Φ encoding, say, a safety property. We want to determine whether Φ holds for our program. The challenges of non-stable predicates
ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ Κολώνια Αγγελική Στείρου
Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων
Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού
ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΠΟΛΟΓΙΣΤΩΝ Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού ( Απαντήσεις & Λύσεις Βιβλίου) 1. Σκοποί κεφαλαίου Κύκλος ανάπτυξης προγράµµατος Κατηγορίες γλωσσών προγραµµατισµού
Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Χρονικής Γνώσης (temporal data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης
Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook
Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook Βήμα 1: Step 1: Βρείτε το βιβλίο που θα θέλατε να αγοράσετε και πατήστε Add to Cart, για να το προσθέσετε στο καλάθι σας. Αυτόματα θα
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Εισαγωγή Συστάσεις Ι Ποιός είμαι εγώ: Email: tsap@cs.uoi.gr Γραφείο: Β.3 Προτιμώμενες ώρες γραφείου: 11:00-18:00 Ενδιαφέροντα Web mining, Social networks, User Generated Content Mobile
Κεφάλαιο 3. Αλγόριθµοι Τυφλής Αναζήτησης. Τεχνητή Νοηµοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.
Κεφάλαιο 3 Αλγόριθµοι Τυφλής Αναζήτησης Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Αλγόριθµοι Τυφλής Αναζήτησης Οι αλγόριθµοι τυφλής αναζήτησης (blind
The Simply Typed Lambda Calculus
Type Inference Instead of writing type annotations, can we use an algorithm to infer what the type annotations should be? That depends on the type system. For simple type systems the answer is yes, and
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Εργαστήριο 7: Ο αλγόριθμος ταξινόμησης Radix Sort
Εργαστήριο 7: Ο αλγόριθμος ταξινόμησης Radix Sort Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: -Ο αλγόριθμος ταξινόμησης Radix Sort -Δυο εκδοχές: Most Significant Digit (MSD) και Least Significant
ΠΡΟΩΘΗΣΗ ΠΡΟΪΟΝΤΩΝ ΜΕ ΧΡΗΣΗ
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΠΑΡΑΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΩΘΗΣΗ ΠΡΟΪΟΝΤΩΝ ΜΕ ΧΡΗΣΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ
Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση
Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 26 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ
Δομές Δεδομένων και Αλγόριθμοι
Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 8 Quick Sort 1 / 11 Ο αλγόριθμος QuickSort 1 Προτάθηκε από τον CAR (Tony) Hoare το 1961 2 Ο αλγόριθμος
Matrices and Determinants
Matrices and Determinants SUBJECTIVE PROBLEMS: Q 1. For what value of k do the following system of equations possess a non-trivial (i.e., not all zero) solution over the set of rationals Q? x + ky + 3z
Επεξεργασία Ερωτήσεων
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)
Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής
Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ342: Βάσεις Δεδομένων Χειμερινό Εξάμηνο 2013 Φροντιστήριο 10 ΛΥΣΕΙΣ Επερωτήσεις SQL Άσκηση 1 Για το ακόλουθο σχήμα Suppliers(sid, sname, address) Parts(pid, pname,
ΠΕΡΙΛΗΨΗ. Η μελέτη αφορά την εξόρυξη κανόνων συσχέτισης από βάση δεδομένων με ασθενής με
ΠΕΡΙΛΗΨΗ Η μελέτη αφορά την εξόρυξη κανόνων συσχέτισης από βάση δεδομένων με ασθενής με καρδιαγγειακά επεισόδια. Είναι γεγονός ότι στην Κύπρο παρατηρείται αυξημένη συχνότητα των καρδιαγγειακών επεισοδίων.
Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)
Ενότητα 9 (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή ισχύει ότι S i S j =, για κάθε i,j µε i j και S 1 S k = U. Λειτουργίες q MakeSet(X): επιστρέφει
!! " &' ': " /.., c #$% & - & ' ()",..., * +,.. * ' + * - - * ()",...(.
..,.. 00 !!.6 7 " 57 +: #$% & - & ' ()",..., * +,.. * ' + * - - * ()",.....(. 8.. &' ': " /..,... :, 00. c. " *+ ' * ' * +' * - * «/'» ' - &, $%' * *& 300.65 «, + *'». 3000400- -00 3-00.6, 006 3 4.!"#"$
Κεφάλαιο 9. Εξαγωγή Κανόνων Συσχέτισης
Κεφάλαιο 9. Εξαγωγή Κανόνων Συσχέτισης Σύνοψη Σ αυτό το κεφάλαιο θα μελετήσουμε τον αλγόριθμο Assosiation Rules. Ο συγκεκριμένος αλγόριθμος παράγει συσχετίσεις μεταξύ αντικειμένων και ανήκει στην οικογένεια
Εισαγωγή στους Αλγόριθµους. Αλγόριθµοι. Ιστορικά Στοιχεία. Ο πρώτος Αλγόριθµος. Παραδείγµατα Αλγορίθµων. Τι είναι Αλγόριθµος
Εισαγωγή στους Αλγόριθµους Αλγόριθµοι Τι είναι αλγόριθµος; Τι µπορεί να υπολογίσει ένας αλγόριθµος; Πως αξιολογείται ένας αλγόριθµος; Παύλος Εφραιµίδης pefraimi@ee.duth.gr Αλγόριθµοι Εισαγωγικές Έννοιες
Προβλήματα, αλγόριθμοι, ψευδοκώδικας
Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι
Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)
Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή
Network Algorithms and Complexity Παραλληλοποίηση του αλγορίθμου του Prim. Αικατερίνη Κούκιου
Network Algorithms and Complexity Παραλληλοποίηση του αλγορίθμου του Prim Αικατερίνη Κούκιου Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό,
ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Όλοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα μικρότεροι του 10000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Αν κάπου κάνετε κάποιες υποθέσεις
Asocijativna analiza
Asocijativna analiza Šta je asocijativna analiza? Asocijativna analiza sastoji se u identifikovanju jakih asocijativnih pravila u datom skupu podataka Brojne su varijante osnovnog problema Originalna primjena:
2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις
2η ΔΙΑΛΕΞΗ 1 Συναρτησιακές εξαρτήσεις Συναρτησιακές εξαρτήσεις 2 Θέματα Ανάπτυξης Έννοια και ορισμός των συναρτησιακών εξαρτήσεων Κανόνες του Armstrong Μη αναγώγιμα σύνολα εξαρτήσεων Στόχος και Αποτελέσματα
Minimum Spanning Tree: Prim's Algorithm
Minimum Spanning Tree: Prim's Algorithm 1. Initialize a tree with a single vertex, chosen arbitrarily from the graph. 2. Grow the tree by one edge: of the edges that connect the tree to vertices not yet
ΕΙΣΑΓΩΓΗ ΣΤΟN ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΕΙΣΑΓΩΓΗ ΣΤΟN ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Εμβέλεια Μεταβλητών Εμβέλεια = το τμήμα του προγράμματος στο οποίο έχει ισχύ ή είναι ορατή η μεταβλητή.
Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι
Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι Εργαστήριο 9 1. Να χρησιμοποιηθεί το αρχείο data_kids. Τα δεδομένα του προέρχονται από την έρευνα των Chase και Dummer (1992), μελέτησαν τον ρόλο των
ΠΕΡΙΛΗΨΗ. χρησιµοποιηθούν είναι αλγόριθµοι παραγωγής κανόνων συσχέτισης.
ΠΕΡΙΛΗΨΗ Η µελέτη αυτή αφορά την εξόρυξη κανόνων συσχέτισης από βάση δεδοµένων µε ασθενείς µε καρδιαγγειακά επεισόδια. Είναι γεγονός ότι στην Κύπρο παρατηρείται αυξηµένη συχνότητα των καρδιαγγειακών επεισοδίων.
ΠΕΡΙΛΗΨΗ. Έχουν χρησιμοποιηθεί κάποια αντικειμενικά μέτρα όπως η Υποστήριξη, η Εμπιστοσύνη,
ΠΕΡΙΛΗΨΗ Η μελέτη αυτή αφορά την αξιολόγηση κανόνων συσχέτισης και κατηγοριοποίησης βάσει πολλαπλών μέτρων. Τα μέτρα ενδιαφέροντος των κανόνων αναφέρονται στους κανόνες που είναι της μορφής Α Β. Όλα τα
Section 8.3 Trigonometric Equations
99 Section 8. Trigonometric Equations Objective 1: Solve Equations Involving One Trigonometric Function. In this section and the next, we will exple how to solving equations involving trigonometric functions.
Αλγόριθμοι και πολυπλοκότητα Δυναμικός Προγραμματισμός
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αλγόριθμοι και πολυπλοκότητα Δυναμικός Προγραμματισμός Ιωάννης Τόλλης Τμήμα Επιστήμης Υπολογιστών Δυναμικός Προγραμματισμός Δυναμικός Προγραμματισμός 1 Περίληψη
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Εξόρυξη και διαχείριση κανόνων συσχέτισης με χρήση τεχνικών Ανάκτησης Πληροφορίας ΘΕΟΔΩΡΟΣ Θ. ΒΑΡΣΑΜΗΣ
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης «Σχεδίαση και υλοποίηση έξυπνου συστήματος ανάλυσης
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Θέμα: «Market Basket Analysis» Στυλιανός Μητσοτάκης Α.Μ Επιβλέπων καθηγητής: Βασίλειος Ταμπακάς ΑΝΤΙΡΡΙΟ 2018
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Θέμα: «Market Basket Analysis» Στυλιανός Μητσοτάκης Α.Μ 13826 Επιβλέπων καθηγητής: Βασίλειος Ταμπακάς ΑΝΤΙΡΡΙΟ 2018 0 1 Περιεχόμενα Κεφάλαιο 1 ο... 4 1.1 Εισαγωγή... 4 1.2 Data Mining...
ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ
ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται
Μηχανική Μάθηση Hypothesis Testing
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Μηχανική Μάθηση Hypothesis Testing Γιώργος Μπορμπουδάκης Τμήμα Επιστήμης Υπολογιστών Procedure 1. Form the null (H 0 ) and alternative (H 1 ) hypothesis 2. Consider
Επίλυση Προβληµάτων µε Greedy Αλγόριθµους
Επίλυση Προβληµάτων µε Greedy Αλγόριθµους Περίληψη Επίλυση προβληµάτων χρησιµοποιώντας Greedy Αλγόριθµους Ελάχιστα Δέντρα Επικάλυψης Αλγόριθµος του Prim Αλγόριθµος του Kruskal Πρόβληµα Ελάχιστης Απόστασης
Δομές δεδομένων. Ενότητα 8: Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Παναγιώτα Φατούρου Τμήμα Επιστήμης Υπολογιστών
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Δομές δεδομένων Ενότητα 8: Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Παναγιώτα Φατούρου Τμήμα Επιστήμης Υπολογιστών Ενότητα 8 Ξένα Σύνολα
5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ
5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ 5.2. Εισαγωγή Αν η λογική συνάρτηση που πρόκειται να απλοποιήσουμε έχει περισσότερες από έξι μεταβλητές τότε η μέθοδος απλοποίησης με Χάρτη Καρνώ χρειάζεται
TMA4115 Matematikk 3
TMA4115 Matematikk 3 Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet Trondheim Spring 2010 Lecture 12: Mathematics Marvellous Matrices Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet
HY118- ιακριτά Μαθηµατικά. Παράδειγµα. Από τα συµπεράσµατα στις υποθέσεις Αποδείξεις - Θεωρία συνόλων. Από τις υποθέσεις στα συµπεράσµατα...
HY118- ιακριτά Μαθηµατικά Παρασκευή, 11/03/2016 Αντώνης Α. Αργυρός e-mail: argyros@csd.uoc.gr Το υλικό των διαφανειών έχει βασιστεί σε διαφάνειες του Kees van Deemter, από το University of Aberdeen 3/15/2016
Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.
Βάσεις Δεδομένων ΙΙ Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Εξόρυξη Δεδομένων Ανακάλυψη νέων πληροφοριών σε
for for for for( . */
Εισαγωγή Στον Προγραµµατισµό «C» Βρόχοι Επανάληψης Πανεπιστήµιο Πελοποννήσου Τµήµα Πληροφορικής & Τηλεπικοινωνιών Νικόλαος Δ. Τσελίκας Νικόλαος Προγραµµατισµός Δ. Τσελίκας Ι Ο βρόχος for Η εντολή for χρησιµοποιείται
Math 6 SL Probability Distributions Practice Test Mark Scheme
Math 6 SL Probability Distributions Practice Test Mark Scheme. (a) Note: Award A for vertical line to right of mean, A for shading to right of their vertical line. AA N (b) evidence of recognizing symmetry
Γενικευµένη Simplex Γενικευµένη Simplex
Πρόβληµα cutting stock Λογικά µεγέθη (20 περιορισµοί, 24000 µεταβλητές) Πρόβληµα cutting stock Λογικά µεγέθη (20 περιορισµοί, 24000 µεταβλητές) Μεγάλα µεγέθη (30 περιορισµοί, 190000 µεταβλητές) Πρόβληµα
ΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ
ΑΛΓΟΡΙΘΜΟΙ http://eclass.aueb.gr/courses/inf161/ Άνοιξη 216 - I. ΜΗΛΗΣ ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΑΛΓΟΡΙΘΜΟΙ - ΑΝΟΙΞΗ 216 - Ι. ΜΗΛΗΣ 9 DP II 1 Dynamic Programming ΓΕΝΙΚΗ ΙΔΕΑ 1. Ορισμός υπο-προβλήματος/ων
A Fast Mining Algorithm for Frequent Essential Itemsets
40 6 Vol.40 No.6 Computer Engineering 2014 6 June 2014 1000 3428(2014)06 0120 05 A TP18 ( 230009) FMEP Rymon MEP 2 30 Rymon A Fast Mining Algorithm for Frequent Essential Itemsets TIAN Wei-dong, JI Yun
ES440/ES911: CFD. Chapter 5. Solution of Linear Equation Systems
ES440/ES911: CFD Chapter 5. Solution of Linear Equation Systems Dr Yongmann M. Chung http://www.eng.warwick.ac.uk/staff/ymc/es440.html Y.M.Chung@warwick.ac.uk School of Engineering & Centre for Scientific
ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο
Εξόρυξη Γνώσης από εδοµένα (Data Mining)
ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά Εξόρυξη Γνώσης από εδοµένα (Data Mining) Αποθήκες εδοµένων Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιά http://isl.cs.unipi.gr/db/courses/dm "Πυραµίδα"
Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.
B-Trees Index files can become quite large for large main files Indices on index files are possible 3 rd -level index 2 nd -level index 1 st -level index Main file 1 The 1 st -level index consists of pairs
ΜΕΡΙΚΑ ΣΤΟΙΧΕΙΑ ΓΙΑ ΤΙΣ ΓΛΩΣΣEΣ ΠPOΓPAMMATIΣMOY
ΜΕΡΙΚΑ ΣΤΟΙΧΕΙΑ ΓΙΑ ΤΙΣ ΓΛΩΣΣEΣ ΠPOΓPAMMATIΣMOY Mία γλώσσα προγραμματισμού συνίσταται από ένα περιορισμένο υποσύνολο της αγγλικής γλώσσας και το οποίο αποτελείται από εκφράσεις σαφώς ορισμένες, χωρίς παρερμηνεία.
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Αλγόριθµοι Οπισθοδρόµησης
Αλγόριθµοι Οπισθοδρόµησης Στην ενότητα αυτή θα µελετηθούν τα εξής επιµέρους θέµατα: Η οπισθοδρόµηση στο σχεδιασµό αλγορίθµων Το πρόβληµα των σταθερών γάµων και ο αλγόριθµος των Gale-Shapley Το πρόβληµα
Παράλληλη Επεξεργασία Κεφάλαιο 9 ο Επιµερισµός εδοµένων
Παράλληλη Επεξεργασία Κεφάλαιο 9 ο Επιµερισµός εδοµένων Κωνσταντίνος Μαργαρίτης Καθηγητής Τµήµα Εφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας kmarg@uom.gr http://eos.uom.gr/~kmarg Αρετή Καπτάν Υποψήφια
Εργαστήριο Βάσεων Δεδομένων. Δικαιώματα Χρηστών Προβολές
Εργαστήριο Βάσεων Δεδομένων Δικαιώματα Χρηστών Προβολές Επικοινωνία με MySQL mysql host DB server queries results Client host Β Δ Η χρήση της mysql βασίζεται στο μοντέλο client server Remote access to
Εισαγωγή στα Πληροφοριακά Συστήματα
Εισαγωγή στα Πληροφοριακά Συστήματα Ενότητα 3: Η έννοια της ΠΛΗΡΟΦΟΡΙΑΣ - INFORMATION Κωνσταντίνος Ταραμπάνης Τμήμα Οργάνωσης & Διοίκησης Επιχειρήσεων ΕΙΣΑΓΩΓΗ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Κωνσταντίνος Ταραμπάνης