Κανόνες Συσχέτισης IIΙ
|
|
- Ἔβέρ Λαμπρόπουλος
- 9 χρόνια πριν
- Προβολές:
Transcript
1 Κανόνες Συσχέτισης IIΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 2 Εξόρυξη Δεδομένων 2-2
2 Εισαγωγή Market Basket transactions (Το καλάθι της νοικοκυράς!) TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke Το πρόβλημα: Δεδομένου ενός συνόλου συναλλαγών (transactions), βρες κανόνες που προβλέπουν την εμφάνιση στοιχείων (item) με βάση την εμφάνιση άλλων στοιχείων στις συναλλαγές Παραδείγματα κανόνων συσχέτισης 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke {Diaper} {Beer}, {Milk, Bread} {Eggs,Coke}, {Beer, Bread} {Milk} συναλλαγή (transaction) Προώθηση προϊόντων στοιχείο (item) Τοποθέτηση προϊόντων στα ράφια Διαχείριση αποθεμάτων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 3 Ορισμοί στοιχειοσύνολο (itemset): Ένα υποσύνολο του συνόλου των στοιχείων k στοιχειοσύνολο (k itemset): ένα στοιχειοσύνολο μεk στοιχεία support count (σ) ενός στοιχειοσυνόλου: ο αριθμός εμφανίσεων του στοιχείου Υποστήριξη (Support (s)) ενός στοιχειοσυνόλου Το ποσοστό των συναλλαγών που περιέχουν ένα στοιχειοσύνολο TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Συχνό Στοιχειοσύνολο (Frequent Itemset) Ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου minsup Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 4 Εξόρυξη Δεδομένων 2-2 2
3 Κανόνας Συσχέτισης (Association Rule) Είναι μια έκφραση της μορφής X Y, όπου X και Y είναι στοιχειοσύνολα Χ Ι, Υ Ι, Χ Υ = Παράδειγμα: {Milk, Diaper} {Beer} Ορισμοί TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Υποστήριξη Κανόνα Support (s) Το ποσοστό των συναλλαγών που περιέχουν και το X και το Y(Χ Υ) Εμπιστοσύνη Conidence (c) Πόσεςαπότιςσυναλλαγές(ποσοστό) που περιέχουν το Χ περιέχουν και το Υ Πρόβλημα Εύρεση Κανόνων Συσχέτισης Είσοδος: Ένα σύνολο από δοσοληψίες T Έξοδος: Όλοι οι κανόνες με support minsup conidence mincon Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 5 Εξόρυξη Κανόνων Συσχέτισης Χωρισμός του προβλήματος σε δύο υπο προβλήματα:. Εύρεση όλων των συχνών στοιχειοσυνόλων (Frequent Itemset Generation) Εύρεση όλων των στοιχειοσυνόλων με υποστήριξη minsup 2. Δημιουργία Κανόνων (Rule Generation) Για κάθε (συχνό) στοιχειοσύνολο, δημιούργησε κανόνες με μεγάλη υποστήριξη, όπου κάθε κανόνας είναι μια δυαδική διαμέριση (δηλ. χωρισμός στα δύο) του συχνού στοιχειοσυνόλου Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 6 Εξόρυξη Δεδομένων 2-2 3
4 Εύρεση Συχνών Στοιχειοσυνόλων Itemset Lattice Πλέγμα Στοιχειοσυνόλων null A B C D E Όλα τα δυνατά στοιχειοσύνολα όταν έχουμε 5 στοιχεία AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE Για d στοιχεία, 2 d πιθανά στοιχειοσύνολα ABCDE Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 7 Εύρεση Συχνών Στοιχειοσυνόλων: Στρατηγική apriori Αρχή Apriori Αν ένα στοιχειοσύνολο είναι συχνό, τότε όλα τα υποσύνολα του είναι συχνά null Ήισοδύναμαανένα στοιχειοσύνολο είναι μη συχνό, όλα τα υπερσύνολα του είναι μη συχνά A B C D E AB AC AD AE BC BD BE CD CE DE βρέθηκε μη συχνό ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ψαλιδισμένα υπερσύνολα ABCDE Support-based pruning Ψαλίδισμα με βάση την υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 8 Εξόρυξη Δεδομένων 2-2 4
5 Στρατηγική apriori Γενικός Αλγόριθμος για την Εύρεση Συχνών Στοιχειοσυνόλων Έστω k = #k: μήκος στοιχειοσυνόλου Παρήγαγε τα συχνά στοιχειοσύνολα Repeat until να μην παράγονται νέα συχνά στοιχειοσύνολα. Παρήγαγε υποψήφια (k+) στοιχειοσύνολα 2. Ψαλίδισε τα υποψήφια στοιχειοσύνολα που περιέχουν μη συχνά στοιχειοσύνολα μεγέθους k 3. Υπολόγισε την υποστήριξη κάθε υποψήφιου (k+) στοιχειοσυνόλου διασχίζοντας τη βάση των συναλλαγών 4. Σβήσε τα υποψήφια στοιχειοσύνολα που δεν είναι συχνά 5. k=k + Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 9 Στρατηγική apriori: Δημιουργία Στοιχειοσυνόλων Για την παραγωγή υποψήφιων k στοιχειοσυνόλων F k x F Επέκταση κάθε συχνού (k ) στοιχειοσυνόλου με άλλα συχνά στοιχεία F k x F k Συγχώνευση δύο συχνών (k ) στοιχειοσυνόλου αν τα πρώτα k 2 στοιχεία τους είναι τα ίδια Για να αποφύγουμε τη δημιουργία του ίδιου στοιχειοσυνόλου, κρατάμε κάθε στοιχειοσύνολο (λεξικογραφικά) ταξινομημένο Ψαλίδισμα Είναι δυνατόν να γίνουν απλοί έλεγχοι αν τα παραγόμενα πιθανά στοιχειοσύνολα είναι συχνά ελέγχοντας αν τα υποσύνολα τους είναι συχνά και έτσι να αποφύγουμε να υπολογίσουμε την υποστήριξή τους Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III Εξόρυξη Δεδομένων 2-2 5
6 Στρατηγική apriori: Υπολογισμός Υποστήριξης Για κάθε νέο υποψήφιο k+ στοιχειοσύνολο, πρέπει να υπολογίσουμε την υποστήριξή του Σε κάθε βήμα k+ Για να μειώσουμε τον αριθμό των πράξεων, αποθηκεύουμε τα υποψήφια k+ στοιχειοσύνολα σε ένα δέντρο κατακερματισμού Αντί να ταιριάζουμε κάθε συναλλαγή με κάθε υποψήφιο στοιχειοσύνολο, κατακερματίζουμε όλα τα k+ στοιχειοσύνολα της συναλλαγής και για καθένα, ενημερώνουμε μόνο τους αντίστοιχους κάδους του δέντρου κατακερματισμού των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III Αναπαράσταση Στοιχειοσυνόλων Τα στοιχειοσύνολα που παράγονται είναι πολλά, κάποια ίσως περιττά οδηγούν σε παραγωγή πολλών κανόνων Ποια να κρατήσουμε; Ψάχνουμε για αντιπροσωπευτικά συχνά στοιχειοσύνολα (δηλαδή, να μπορούμε να πάρουμε από αυτά ακριβώς όλα τα συχνά και ιδεατά να μπορούμε να υπολογίσουμε και την υποστήριξη όλων των συχνών): Maximal συχνά Κλειστά συχνά Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 2 Εξόρυξη Δεδομένων 2-2 6
7 Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι maximal συχνό αν κανένα από τα άμεσα υπερσύνολά του δεν είναι συχνό δηλαδή είναι όλα μη συχνά Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων: το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα είναι τα υποσύνολά τους ΟΜΩΣ: Δεν προσφέρουν καμιά πληροφορία για την υποστήριξη τωνυποσυνόλωντους Συχνά null A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ABCD E Μη συχνά Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 3 Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό (δηλαδή, έχει μικρότερη υποστήριξη) Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και συχνό (δηλαδή, η υποστήριξη του είναι μεγαλύτερη ή ίση με minsup) Πάλι τα υποσύνολα τους μας δίνουν όλα τα συχνά υποσύνολα, τώρα όμως μπορούμε να υπολογίσουμε την υποστήριξη των υποσυνόλων τους Πως: Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 4 Εξόρυξη Δεδομένων 2-2 7
8 Αναπαράσταση Στοιχειοσυνόλων TID στοιχεία ABC 2 ABCD 3 BCE 4 ACDE 5 DE Maximal vs Closed Itemsets ΤIDs null A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE Δεν εμφανίζονται σε καμιά συναλλαγή ABCDE Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 5 Ελάχιστη υποστήριξη = 2 Αναπαράσταση Στοιχειοσυνόλων Maximal vs Closed Itemsets null Κλειστά αλλά όχι maximal A B C D E Κλειστά και maximal AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE # Closed = 9 # Maximal = 4 ABCDE Γιαναυπολογίσουμεόλατασυχνάστοιχειοσύνολακαιτην υποστήριξη τους, ξεκινάμε από τα μεγαλύτερα κλειστά και προχωράμε Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 6 Εξόρυξη Δεδομένων 2-2 8
9 Εναλλακτικός Υπολογισμός Συχνών Στοιχειοσυνόλων Με λίγα λόγια: Αλγόριθμος FP Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο preix tree (trie) Ο αλγόριθμος κατασκευής διαβάζει μια συναλλαγή τη φορά, απεικονίζει την συναλλαγή σε ένα μονοπάτι του FP δέντρου Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση Μόλις κατασκευαστεί το FP δέντρο, ο αλγόριθμος χρησιμοποιεί μια αναδρομική διαίρει και βασίλευε (divide and conquer) προσέγγιση για την εξόρυξη των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 7 Αλγόριθμος FP Growth TID Items {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} {B,C,E} Κατασκευή FP δέντρου null A:7 B:5 C: B:3 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E: E: E: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 8 Εξόρυξη Δεδομένων 2-2 9
10 Αλγόριθμος FP Growth Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Είσοδος: FP δέντρο Έξοδος: Συχνά στοιχειοσύνολα και η υποστήριξη τους Μέθοδος: Διαίρει και Βασίλευε o Χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν σε E, D, C, B, A o Μετά αυτά που τελειώνουν σε E σε αυτά σε DE, CE, BE, AE κοκ Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 9 TID Items {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} {B,C,E} Αλγόριθμος FP Growth Χρήση FP δέντρου για εύρεση συχνών στοιχειοσυνόλων null A:7 B:3 B:5 C:3 C: Header table Item Pointer A B C D E C:3 E: E: E: Πως; Bottom up traversal του δέντρου Αυτά που τελειώνουν σε E, μετά αυτά που τελειώνουν σε D, C, B και τέλος Α suix based classes (επίθεμα κατάληξη) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 2 Εξόρυξη Δεδομένων 2-2
11 Αλγόριθμος FP Growth Συνοπτικά Σε κάθε βήμα, για το suix (επίθεμα) Χ Φάση Κατασκευάζουμε το προθεματικό δέντρο γιατοχκαιυπολογίζουμε την υποστήριξη χρησιμοποιώντας τον πίνακα Φάση 2 Αν είναι συχνό, κατασκευάζουμε το υπο συνθήκη δέντρο για το Χ, σε βήματα επανα υπολογισμός υποστήριξης περικοπή κόμβων με μικρή υποστήριξη περικοπή φύλλων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 2 Αλγόριθμος FP Growth Φάση κατασκευή προθεματικού δέντρου Όλα τα μονοπάτια που περιέχουν το E null Προθεματικά (preix paths) Μονοπάτια A:7 B:3 B:5 C: C:3 Header table Item A B C D E Pointer C:3 E: E: E: Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 22 Εξόρυξη Δεδομένων 2-2
12 Αλγόριθμος FP Growth Φάση Όλα τα μονοπάτια που περιέχουν το E Προθεματικά Μονοπάτια (preix paths) null A:7 B:3 C: C:3 E: E: E: Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 23 Έστω minsup = 2 Βρες την υποστήριξη του {E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας ++=3>2 Οπότε {Ε} συχνό Αλγόριθμος FP Growth null A:7 B:3 C: C:3 E: E: E: {E} συχνό άρα προχωράμε για DE, CE, BE, AE Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 24 Εξόρυξη Δεδομένων 2-2 2
13 Αλγόριθμος FP Growth {E} συχνό άρα προχωράμε για DE, CE, BE, AE Φάση 2 Μετατροπή των προθεματικών δέντρων σε FP δέντρο υπό συνθήκες ή υποθετικό (conditional FP tree) Δύο αλλαγές () Αλλαγή των μετρητών (2) Περικοπή null A:7 B:3 C: C:3 E: E: E: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 25 Αλγόριθμος FP Growth Αλλαγή μετρητών Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν συναλλαγές που δεν έχουν το Ε Πχ στο null >B >C >E μετράμε και την {B, C} null A:7 B:3 C: C:3 E: E: E: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 26 Εξόρυξη Δεδομένων 2-2 3
14 Αλγόριθμος FP Growth null A:2 B: C: C: E: E: E: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 27 Αλγόριθμος FP Growth Περικοπή (truncate) Σβήσε τους κόμβους του Ε null A:2 B: C: C: E: E: E: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 28 Εξόρυξη Δεδομένων 2-2 4
15 Αλγόριθμος FP-Growth Περικοπή (truncate) Σβήσε τους κόμβους του Ε null A:2 B: C: C: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 29 Αλγόριθμος FP Growth Πιθανή περαιτέρω περικοπή Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης Πχ το Β > περικοπή null A:2 B: Αυτό σημαίνει ότι το Β εμφανίζεται μαζί με το E λιγότερο από minsup φορές C: C: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 3 Εξόρυξη Δεδομένων 2-2 5
16 Αλγόριθμος FP Growth null A:2 C: C: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 3 Αλγόριθμος FP Growth Υπο συνθήκη FP δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} null A:2 C: C: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 32 Εξόρυξη Δεδομένων 2-2 6
17 Αλγόριθμος FP Growth Παρατηρήσεις Η απόδοση του FP Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction actor) Αν τα τελικά δέντρα είναι «θαμνώδη» (bushy) τότε δε δουλεύει καλά, αυξάνεται ο αριθμός των υποπροβλημάτων (οι αναδρομικές κλήσεις) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 33 Παραγωγή Κανόνων Δοθέντος ενός συχνού στοιχειοσυνόλου L, βρες όλα τα μη κενά υποσύνολα L τέτοια ώστε: ο κανόνας L να ικανοποιεί τον περιορισμό της ελάχιστης εμπιστοσύνης Η εμπιστοσύνη για τους κανόνες που παράγονται από το ίδιο στοιχειοσύνολο έχει μια αντι μονότονη ιδιότητα Για παράδειγμα L = {A,B,C,D}: c(abc D) c(ab CD) c(a BCD) Η εμπιστοσύνη είναι αντι μονότονη σε σχέση με τον αριθμό των στοιχείων στο RHS του κανόνα Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 34 Εξόρυξη Δεδομένων 2-2 7
18 Παραγωγή Κανόνων για τον Αλγόριθμο apriori Πλέγμα Κανόνων για το Στοιχειοσύνολο {Α, B, C, D} Ψαλίδισμα με βάση την εμπιστοσύνη Έστω κόμβος με μικρή εμπιστοσύνη Ψαλιδισ μένοι κανόνες ABCD=>{ } BCD=>A ACD=>B ABD=>C ABC=>D CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD D=>ABC C=>ABD B=>ACD A=>BCD Για κάθε συχνό στοιχειοσύνολο, ξεκινάμε με έναν κανόνα που έχει μόνο k= στοιχείο στο δεξί μέρος του Υπολογίζουμε την εμπιστοσύνη Παράγουμε κανόνες με k+ στοιχεία στο δεξί μέρος και υπολογίζουμε την εμπιστοσύνη τους Σημείωση: Για τον υπολογισμό της εμπιστοσύνης δεν χρειάζεται να διαπεράσουμε τη βάση Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 35 Εκτίμηση Κανόνων Συσχέτισης Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 36 Εξόρυξη Δεδομένων 2-2 8
19 Εκτίμηση Κανόνων Συσχέτισης Παράγουν πάρα πολλούς κανόνες που συχνά είναι μη ενδιαφέροντες ή πλεονάζοντες (περιττοί) Πλεονάζοντες αν {A, B, C} {D} και {A,B} {D} έχουν την ίδια υποστήριξη & εμπιστοσύνη Μέτρα ενδιαφέροντος (interestingness) χρησιμοποιούνται για να ελαττώσουν (prune) ή να ιεραρχήσουν (rank) τα παραγόμενα πρότυπα Χρησιμοποιούνται σε διάφορα στάδια της διαδικασίας ανάκτησης γνώσης Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 37 Μέτρηση Ενδιαφέροντος Εφαρμογές της μέτρησης του ενδιαφέροντος (σε διάφορα στάδια) Μέτρα Ενδιαφέροντος Επιλεγμένα Δεδομένα Featur Featur e Featur e Featur e Featur Featur e Featur e e Featur e Featur e Featur e e Prod uct uct Prod uct Prod uct Prod uct Πρότυπα Προ-επεξεργασμένα Δεδομένα Prod uct Prod uct Prod Prod uct Prod uct Prod uct Γνώση Μετά-επεξεργασία Εξόρυξη Δεδομένα Προ-επεξεργασία Επιλογή Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 38 Εξόρυξη Δεδομένων 2-2 9
20 Αποτίμηση Κανόνων Συσχέτισης Γενικά: αντικειμενικά (objective) και υποκειμενικά (subjective) μέτρα ενδιαφέροντος Ας δούμε πρώτα μερικά αντικειμενικά κριτήρια: Στην αρχική διατύπωση του προβλήματος της εξόρυξης κανόνων συσχέτισης χρησιμοποιήθηκαν ως μέτρα μόνο η υποστήριξη και η εμπιστοσύνη Γενικά συνήθως βασίζονται σε μετρήσεις της συχνότητας εμφάνισης που δίνονται μέσω ενός πίνακα contingency (συνάφειας) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 39 Μέτρηση Ενδιαφέροντος: Αντικειμενικά Μέτρα Contingency table (πίνακας συνάφειας/πίνακας ενδεχομένων) Μέτρηση συχνότητας εμφάνισης X X Y Y o+ + T + + : support o X and Y : support o X and Y : support o X and Y : support o X and Y πόσο συχνά εμφανίζεται το Χ και το Υ (support count) + μετρητής υποστήριξης (support count) του Υ Χρησιμοποιείται για τον ορισμό διαφόρων μέτρων Έστω ένας κανόνας, X Y, η πληροφορία που χρειάζεται για τον υπολογισμό της εμπιστοσύνης και της υποστήριξης του κανόνα μπορεί να υπολογιστεί από τον contingency table Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 4 Εξόρυξη Δεδομένων 2-2 2
21 Μειονεκτήματα της Εμπιστοσύνης Μέτρηση Ενδιαφέροντος Μεγάλες τιμές υποστήριξης μπορεί να «διώξουν» ενδιαφέροντες κανόνες. Τι γίνεται με την εμπιστοσύνη; Tea Tea Coee Coee Ποια είναι μια καλή τιμή για την εμπιστοσύνη; Ενδιαφερόμαστε για τη σχέση μεταξύ αυτών που πίνουν καφέ και αυτών που πίνουν τσάι Κανόνας Συσχέτισης: Tea Coee Εμπιστοσύνη = P(Coee Tea) =.75 Ενώ ο κανόνας έχει υψηλή εμπιστοσύνη, ο κανόνας είναι παραπλανητικός P(Coee Tea) =.9375 P(Coee) =.9 Αγνοεί την υποστήριξη του RHS (στην περίπτωση μας του coee) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 4 Μέτρηση Ενδιαφέροντος Εξαιτίας τέτοιων προβλημάτων της υποστήριξης/εμπιστοσύνης, έχουν προταθεί πολλά αντικειμενικά μέτρα για τη μέτρηση του ενδιαφέροντος των κανόνων, που στηρίζονται κυρίως στην έννοια της στατιστικής ανεξαρτησίας Ας δούμε ένα παράδειγμα Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 42 Εξόρυξη Δεδομένων 2-2 2
22 Μέτρα βασισμένα στη Στατιστική Στατιστική Ανεξαρτησία Πληθυσμός σπουδαστών 6 σπουδαστές ξέρουν κολύμπι (S) 7 σπουδαστές ξέρουν ποδήλατο (B) 42 σπουδαστές ξέρουν κολύμπι και ποδήλατο (S, B) P(S B) = 42/ =.42 P(S) P(B) =.6.7 =.42 P(S B) = P(S) P(B) => Στατιστική ανεξαρτησία P(S B) > P(S) P(B) => Positively correlated (θετική συσχέτιση) P(S B) < P(S) P(B) => Negatively correlated (αρνητική συσχέτιση) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 43 Μέτρα βασισμένα στη Στατιστική Μέτρα που λαμβάνουν υπ όψιν τους τη στατιστική εξάρτηση Για τη συσχέτιση: Χ Υ P( Y X ) Lit = = P( Y ) + P( X, Y ) T Interest = = P( X ) P( Y ) + =, Στατιστική ανεξαρτησία >, θετική συσχέτιση + <, αρνητική συσχέτιση PS = P( X, Y ) P( X ) P( Y ) P( X, Y ) P( X ) P( Y ) φ coeicient = = P( X )[ P( X )] P( Y )[ P( Y )] Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 44 Εξόρυξη Δεδομένων
23 Μέτρα βασισμένα στη Στατιστική Παράδειγμα: Lit/Interest Coee Coee Tea Tea Κανόνας συσχέτιση: Tea Coee Εμπιστοσύνη= P(Coee Tea) =.75 αλλά P(Coee) =.9 Interest =.5/(.9*.2)=.8333 (<, άρα αρνητικά συσχετιζόμενα) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 45 Μέτρα βασισμένα στη Στατιστική Μειονεκτήματα του Lit & Interest X X Y Y X X Y 9 9 Y 9..9 I = = I = =. (.)(.) (.9)(.9) Μεγαλύτερο αν και σπάνια εμφανίζονται μαζί c = / =. s = c (conidence εμπιστοσύνη) s (support υποστήριξη) c = 9/ =.9 s = Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 46 Εξόρυξη Δεδομένων
24 Μέτρα βασισμένα στη Στατιστική φ Coeicient φ coeicient = P( X, Y ) P( X ) P( Y ) = P( X )[ P( X )] P( Y )[ P( Y )] Κανονικοποιημένη τιμή μεταξύ του και Δυαδική εκδοχή του Pearson s coeicient : στατιστική ανεξαρτησία : τέλεια αρνητική συσχέτιση : τέλεια θετική συσχέτιση Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 47 Μέτρα βασισμένα στη Στατιστική φ Coeicient X X Y 6 7 Y X X Y 2 3 Y φ = =.5238 φ Coeicient ίδιος και για τους δύο πίνακες φ = =.5238 Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 48 Εξόρυξη Δεδομένων
25 Μέτρα βασισμένα στη Στατιστική φ-coeicient φ coeicient = P( X, Y ) P( X ) P( Y ) = P( X )[ P( X )] P( Y )[ P( Y )] Είναι κατάλληλο για μη συμμετρικές (η απουσία και η παρουσία μετρούν το ίδιο) Λόγω κανονικοποίησης, αγνοεί το μέγεθος του δείγματος Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 49 Μέτρα βασισμένα στη Στατιστική IS-measure s( X, Y ) IS ( X, Y ) = = = s( X ) s( Y ) + + I( X, Y ) s( x, Y ) είναι το συνημίτονο αν θεωρηθούν δυαδικές μεταβλητές γεωμετρικόςμέσοςτηςεμπιστοσύνηςτουχ Υ καιυ Χ Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 5 Εξόρυξη Δεδομένων
26 Στη βιβλιογραφία έχουν προταθεί πολλά μέτρα ανάλογα με την εφαρμογή Με ποια κριτήρια θα επιλέξουμε ένα καλό μέτρο; Πως έναν Aprioristyle support based pruning επηρεάζει αυτά τα μέτρα; Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 5 Αποτίμηση Κανόνων Συσχέτισης Σύγκριση Μέτρων παραδείγματα contingency πινάκων: Ιεράρχηση των πινάκων με βάση τα διάφορα μέτρα ( ο πιο ενδιαφέρον, ο λιγότερο ενδιαφέρον): Example E E E E E E E E E E Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 52 Εξόρυξη Δεδομένων
27 Αποτίμηση Κανόνων Συσχέτισης ΙδιότητεςενόςΚαλούΜέτρου Piatetsky Shapiro: 3 γενικές ιδιότητες που πρέπει να ικανοποιεί ένα καλό μέτρο M: M(A, B) = αν τα Α και Β είναι στατιστικά ανεξάρτητα M(A, B) να αυξάνει μονότονα με το P(A,B) όταν τα P(A) και P(B) παραμένουν αμετάβλητα M(A, B) μειώνεται μονότονα με το P(A) [ή τοp(b)] όταν τα P(A,B) και P(B) [ή P(A)] παραμένουν αμετάβλητα Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 53 Ιδιότητες Μέτρων Αποτίμησης Αλλαγή Διάταξης Μεταβλητών (variable permutation) B B A p q A r s A A B p r B q s Ισχύει M(A, B) = M(B, A)? Γενικά συμμετρικά μέτρα για στοιχειοσύνολα και μη συμμετρικά για κανόνες Συμμετρικά (symmetric) μέτρα: support (υποστήριξη), lit, collective strength, cosine, Jaccard, κλπ Μη συμμετρικά (asymmetric) μέτρα: conidence (εμπιστοσύνη), conviction, Laplace, J measure, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 54 Εξόρυξη Δεδομένων
28 Ιδιότητες Μέτρων Αποτίμησης Κλιμάκωση Γραμμής/Στήλης (Row/Column Scaling) Παράδειγμα Βαθμός Φύλο (Mosteller, 968): κ 3 Male κ 4 Female Male Female κ κ 2 High Low High Low Mosteller: Η συσχέτιση πρέπει να είναι ανεξάρτητη από το σχετικό αριθμό αγοριών κοριτσιών στο δείγμα 2x x Invariant under the row/column scaling operation αν Μ(Τ) = Μ(Τ ) όπου Τ o πίνακας contingency με μετρητές συχνότητας [, ; ; ] και Τ o πίνακας contingency με μετρητές συχνότητας [κ κ 3, κ 2 κ 3 ; κ κ 4 ; κ 2 κ 4 ] όπου κ, κ 2, κ 3, κ 4 θετικές σταθερές Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 55 Ιδιότητες Μέτρων Αποτίμησης Αντιστροφή (Inversion Operation) A B C D E F Συναλλαγή. Συναλλαγή N (a) (b) (c) Invariant under the inversion operation αν η τιμή της παραμένει η ίδια αν ανταλλάξουμε τις τιμές και και τις τιμές και Χρήσιμο για συμμετρικές μεταβλητές πχ φ το ίδιο για Α,ΒκαιC,D αλλά μικρότερο για Ε,F Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 56 Εξόρυξη Δεδομένων
29 Ιδιότητες Μέτρων Αποτίμησης Null Addition (προσθήκη μη σχετιζόμενων στοιχείων) B B A p q A r s B B A p q A r s + k Δεν επηρεάζονται από την αύξηση του όταν οι άλλες τιμές παραμένουν αμετάβλητες Invariant measures: support, cosine, Jaccard, κλπ Non invariant measures: correlation, Gini, mutual inormation, odds ratio, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 57 Αποτίμηση Κανόνων Συσχέτισης Παράδοξο του Simpson Students Buy HDTV Yes No Buy Exercise Machine Yes No Buy HDTV Yes No Buy Exercise Machine Yes No c({hdtv=yes} {EM=Yes})=/=% c({hdtv=no} {EM=Yes})=4/34=.8% c({hdtv=yes} {EM=Yes})=99/8=55% c({hdtv=no} {EM=Yes})=54/2=45% Working adults c({htvs=yes} {EM=Yes})=98/7=57.7% c({htvs=no} {EM=Yes})=5/86=58.% Buy HDTV Yes No Buy Exercise Machine Yes 98 No Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 58 Εξόρυξη Δεδομένων
30 Αποτίμηση Κανόνων Συσχέτισης Buy HDTV Yes No Παράδοξο του Simpson Yes 99 a+p 54 c+r 53 Buy Exercise Machine No c({hdtv=yes} {EM=Yes})=99/8=55% c({hdtv=no} {EM=Yes})=54/2=45% 8 b+q 2 d+s 3 Students Buy HDTV Yes No Working adults c({hdtv=yes} {EM=Yes})=/=% c({hdtvs=no} {EM=Yes})=4/34=.8% Buy HDTV Yes α 4 c 5 Buy Exercise Machine No b 34 d 44 c({hdtv=yes} {EM=Yes})=98/7=57.7% c({hdtv=no} {EM=Yes})=5/86=58.% Buy Exercise Machine a/b < c/d p/q < r/s δεν συνεπάγεται ότι (a+p)/(b+q) < (c+r)/(d+s)! Yes No Yes 98 p 5 r 48 No q 86 s 256 Είναι σημαντικό πως θα γίνει διαχωρισμός (stratiication) των δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 59 Υποκειμενικά Μέτρα Ενδιαφέροντος Αντικειμενικά Μέτρα: Ιεραρχούν τα αποτελέσματα με βάση στατιστικά στοιχεία που υπολογίζονται από τα δεδομένα πχ., 2 μετρήσεις συσχέτισης (support, conidence, Laplace, Gini, mutual inormation, Jaccard, etc). Υποκειμενικά Μέτρα: Ιεράρχηση των προτύπων με βάση την ερμηνεία του χρήστη Ένα πρότυπο είναι υποκειμενικά ενδιαφέρον αν είναι σε αντίθεση με αυτό που αναμένει ο χρήστης (Silberschatz & Tuzhilin) Ένα πρότυπο είναι υποκειμενικά ενδιαφέρον αν μπορεί να χρησιμοποιηθεί (Silberschatz & Tuzhilin) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 6 Εξόρυξη Δεδομένων 2-2 3
31 Υποκειμενικά Μέτρα Ενδιαφέροντος Interestingness (ενδιαφέρον)via Unexpectedness (μη αναμονή) + Pattern expected to be requent - Pattern expected to be inrequent Pattern ound to be requent Pattern ound to be inrequent Expected Patterns Unexpected Patterns Χρειάζεται να μοντελοποιήσουμε τι αναμένει ο χρήστης (domain knowledge) Χρειάζεται να συνδυάσουμε το τι αναμένεται από τους χρήστες με το τι δίνουν τα δεδομένα (δηλαδή τα πρότυπα που παίρνουμε evidence) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 6 Οπτικοποίηση: Απλός Γράφος Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 62 Εξόρυξη Δεδομένων 2-2 3
32 Οπτικοποίηση: Γράφος Κανόνων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 63 Οπτικοποίηση: (SGI/MineSet 3.) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 64 Εξόρυξη Δεδομένων
33 Επίδραση της «Λοξής Κατανομής» της Υποστήριξης Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 65 Κατανομή Υποστήριξης Η απόδοση των αλγορίθμων εξαρτάται από τα δεδομένα εισόδου, πχ ο apriori από τον αριθμό των στοιχείων, το πλάτος των δοσοληψιών, ο FP Growth από την τομή (κοινά στοιχεία) των δοσοληψιών Επίσης, από την τιμή της ελάχιστης υποστήριξης (minsup). Πως θα προσδιοριστεί μια κατάλληλη τιμή για το minsup; Αν η τιμή είναι πολύ υψηλή, μπορεί να χαθούν στοιχειοσύνολα που περιέχουν ενδιαφέροντα σπάνια στοιχεία (πχ ακριβά προϊόντα) Αν η τιμή είναι πολύ χαμηλή, οι μέθοδοι γίνονται ακριβοί γιατί ο αριθμός των υποψήφιων στοιχειοσυνόλων είναι πολύ μεγάλος και ο αριθμός των συχνών στοιχειοσυνόλων γίνεται πολύ μεγάλος Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 66 Εξόρυξη Δεδομένων
34 Κατανομή Υποστήριξης Επιπρόσθετα, η χρήση μόνο μίας ελάχιστης υποστήριξης μπορεί να μην αρκεί Για πολλά πραγματικά δεδομένα η κατανομή της υποστήριξης δεν είναι ομοιόμορφη (skewed support distribution) Κατανομή υποστήριξης γιαδεδομέναλιανικών πωλήσεων Τα περισσότερα στοιχεία έχουν μικρή ή μέτρια υποστήριξη και μόνο λίγα έχουν μεγάλη υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 67 Κατανομή Υποστήριξης Ομάδα G G2 G3 Υποστήριξη <% % 9% >9% Αριθμός στοιχείων Πως θα βρούμε κανόνες με «σπάνια» αλλά ενδιαφέροντα στοιχεία; Πολύ μικρή υποστήριξη; πολυπλοκότητα (πολλά υποψήφια στοιχειοσύνολα + πολλά συχνά στοιχειοσύνολα άρα και κανόνες) παράξενοι κανόνες μεταξύ G και G3 (χαβιάρι και γάλα) πχ support =.5 > 8,847 συχνά ζεύγη (από τα οποία μεικτά (διασταυρωμένης υποστήριξης το 93%) Cross support patterns (υποδείγματα διασταυρωμένης υποστήριξης) ανάμιξη στοιχείων πολύ συχνών με στοιχεία που είναι σπάνια! min{s(i ), s(i 2 ),, s(i k )}/max{s(i ), s(i 2 ),, s(i k )} Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 68 Εξόρυξη Δεδομένων
35 Κατανομή Υποστήριξης 3 25 υποστήριξη {p, q, r} s = 4/3 {p, q} s = 4/3 {p, r} s = 4/3 {q, r} s = 5/3 εμπιστοσύνη {p, q, r} {p, q} p q, c = 4/25 q p c = 4/5 {p, r} 4/3 {q, r} q r c = 5/5 r q c = 5/5 Υπάρχει ένας κανόνας με μικρή εμπιστοσύνη ο εντοπισμός του δηλώνει ότι πρόκειται για crosssupport Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 69 Κατανομή Υποστήριξης Cross support patterns ανάμιξη στοιχείων πολύ συχνών με στοιχεία που είναι σπάνια! min{s(i ), s(i 2 ),, s(i k )}/max{s(i ), s(i 2 ),, s(i k )} Πως να απαλλαγούμε Να θεωρήσουμε τον κανόνα με τη μικρότερη δυνατή εμπιστοσύνη ανάμεσα στους κανόνες με στοιχεία από το {i, i 2,, i k } Ποιος είναι αυτός ένα στοιχείο στο LHS ποιο στοιχείο: αυτό με τη μεγαλύτερη υποστήριξη! h c = s{i, i 2,, i k }/max k {s(i), s(i2),, s(ik)} Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 7 Εξόρυξη Δεδομένων
36 Κανόνων Συσχέτισης Πολλαπλών Επιπέδων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 7 Κανόνες Συσχέτισης Πολλών Επιπέδων Food Electronics Bread Milk Computers Home Wheat White Skim 2% Desktop Laptop Accessory TV DVD Foremost Kemps Printer Scanner Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 72 Εξόρυξη Δεδομένων
37 Κανόνες Συσχέτισης Πολλών Επιπέδων Γιατί είναι χρήσιμοι; Οι κανόνες στα χαμηλότερα επίπεδα δεν έχουν αρκετή υποστήριξη σε κανένα στοιχειοσύνολο Οι κανόνες στα χαμηλότερα επίπεδα είναι πάρα πολύ συγκεκριμένοι και στα υψηλότερα επίπεδα πολύ γενικοί! π.χ., skim milk white bread, 2% milk wheat bread, skim milk wheat bread, κλπ. είναι ενδεικτικοί της συσχέτισης μεταξύ γάλατος και ψωμιού Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 73 Κανόνες Συσχέτισης Πολλών Επιπέδων Προσέγγιση : Επέκταση κάθε συναλλαγής με στοιχεία από τα υψηλότερα επίπεδα της ιεραρχίας Αρχική Συναλλαγή: {skim milk, wheat bread} ΕπαυξημένηΣυναλλαγή:{skim milk, wheat bread, milk, bread, ood} Θέματα: Τα στοιχεία στα υψηλότερα επίπεδα θα εμφανίζονται πολύ συχνά, μεγάλους μετρητές υποστήριξης μικρή υποστήριξη, θαοδηγούσεσεπολλάσυχνάστοιχειοσύνολααπότα υψηλότερα επίπεδα Αύξηση της διάστασης των δεδομένων Πλεονάζοντες κανόνες Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 74 Εξόρυξη Δεδομένων
38 Κανόνες Συσχέτισης Πολλών Επιπέδων Πως τροποποιούνται η υποστήριξη και η εμπιστοσύνη στην ιεραρχία; Αν X ο γονέας των X and X2, τότε σ(x) σ(x) + σ(x2) Αν σ(x Y) minsup, και X γονέας του X, Y γονέας του Y τότε σ(x Y) minsup, σ(x Y) minsup σ(x Y) minsup Αν con(x Y) mincon, τότε con(x Y) mincon Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 75 Κανόνες Συσχέτισης Πολλών Επιπέδων Προσέγγιση 2: Δημιούργησε συχνά στοιχειοσύνολα πρώτα για τα υψηλότερα επίπεδα Μετά, δημιούργησε στοιχειοσύνολα για τοαμέσωςεπόμενοεπίπεδοκοκ Θέματα: I/O απαιτήσεις αυξάνουν, γιατί απαιτούνται πολλαπλά περάσματα Μπορεί να χαθούν συσχετίσεις ανάμεσα στα επίπεδα Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 76 Εξόρυξη Δεδομένων
Ανάλυση Συσχέτισης IΙ
Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ
Ο Αλγόριθμος FP-Growth
Ο Αλγόριθμος FP-Growth Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο - prefix tree (trie)
TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο
Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές
Κανόνες Συσχέτισης IΙ
Κανόνες Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος 28-29 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ
Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!)
Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Ανάλυση Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market Basket transactions (Το καλάθι της νοικοκυράς!)
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 12: Κανόνες Συσχέτισης Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης
Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση
Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 26 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ
Lecture Notes for Chapter 6. Introduction to Data Mining
Κανόνες Συσχέτισης: Βασικές αρχές και αλγόριθμοι (Association Analysis: Basic Concepts and Algorithms) Lecture Notes for Chapter 6 Introduction to Data Mining by Tan, Steinbach, Kumar Εξόρυξη κανόνων συσχέτισης
Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)
Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introdion to Data Mining», Addison Wesley, 26 Market-Basket transactions (Το καλάθι της νοικοκυράς!) TID Items
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 11: Κανόνες Συσχέτισης Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης
Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση
Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ
Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης
Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης Σύνοψη Ο βασικός στόχος αυτού του κεφαλαίου είναι η εισαγωγή σε θέματα που αφορούν στην εξόρυξη συχνών στοιχειοσυνόλων και κανόνων συσχέτισης.
Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining
Data mining Εξόρυξη εδοµένων o Association rules mining o Classification o Clustering o Text Mining o Web Mining ιάγραµµα της παρουσίασης Association rule Frequent itemset mining Γνωστοί Αλγόριθµοι Βελτιώσεις
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Αποθήκες και Εξόρυξη Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση
Δμόξπμε Γεδνκέλσλ. Καλόλεο Σπζρέηηζεο: Βαζηθέο Έλλνηεο θαη Αιγόξηζκνη
Δμόξπμε Γεδνκέλσλ Καλόλεο Σπζρέηηζεο: Βαζηθέο Έλλνηεο θαη Αιγόξηζκνη (Σημειώσεις μεταυρασμένες από το Κευάλαιο 6 τοσ βιβλίοσ των Tan, Steinbach, Kumar) Καλόλεο Σπζρέηηζεο Δμόξπμε Καλόλσλ Σπζρέηηζεο Γεδνκέλνπ
Κανόνες συσχέτισης Association rules
Κανόνες συσχέτισης Association rules Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη με βάση slides από J. Han and M. Kamber Data Mining: Concepts and Techniques, 2 nd edition Τι είναι η εξόρυξη
5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ
5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ 5.2. Εισαγωγή Αν η λογική συνάρτηση που πρόκειται να απλοποιήσουμε έχει περισσότερες από έξι μεταβλητές τότε η μέθοδος απλοποίησης με Χάρτη Καρνώ χρειάζεται
Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης
-------------------------- Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πολυτεχνική Σχολή Πανεπιστημίου Πατρών Διπλωματική Εργασία για το Μεταπτυχιακό Δίπλωμα Ειδίκευσης στην «Επιστήμη και Τεχνολογία Υπολογιστών»
Κεφ.11: Ευρετήρια και Κατακερματισμός
Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση
2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις
2η ΔΙΑΛΕΞΗ 1 Συναρτησιακές εξαρτήσεις Συναρτησιακές εξαρτήσεις 2 Θέματα Ανάπτυξης Έννοια και ορισμός των συναρτησιακών εξαρτήσεων Κανόνες του Armstrong Μη αναγώγιμα σύνολα εξαρτήσεων Στόχος και Αποτελέσματα
Asocijativna analiza
Asocijativna analiza Šta je asocijativna analiza? Asocijativna analiza sastoji se u identifikovanju jakih asocijativnih pravila u datom skupu podataka Brojne su varijante osnovnog problema Originalna primjena:
Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία
Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων
Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις
ΗΥ360 Αρχεία και Βάσεις Δεδομένων
ΗΥ360 Αρχεία και Βάσεις Δεδομένων Φροντιστήριο Συναρτησιακές Εξαρτήσεις Αξιώματα Armstrong Ελάχιστη Κάλυψη Συναρτησιακές Εξαρτήσεις Τι είναι : Οι Συναρτησιακές εξαρτήσεις είναι περιορισμοί ακεραιότητας
Αποθήκες εδομένων και Εξόρυξη εδομένων:
Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Υπερπροσαρμογή (Overfitting) (1)
Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης
Αλγόριθμοι και Πολυπλοκότητα
Αλγόριθμοι και Πολυπλοκότητα Διαίρει και Βασίλευε Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Διαίρει και Βασίλευε Divide and Conquer Η τεχνική διαίρει και βασίλευε αναφέρεται
Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ : «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΤΙΤΛΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ : Αλγόριθμοι Εξόρυξης δεδομένων
Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης
Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης Δένδρα στα οποία κάθε κόμβος μπορεί να αποθηκεύει ένα ή περισσότερα κλειδιά. Κόμβος με d διακλαδώσεις : k 1 k 2 k 3 k 4 d-1 διατεταγμένα κλειδιά d διατεταγμένα παιδιά
Τεχνικές Εξόρυξης Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:
ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης
ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Συναρτησιακές Εξαρτήσεις Αξιώµατα Armstrong Ελάχιστη κάλυψη Φροντιστήριο 1 Συναρτησιακές Εξαρτήσεις Οι Συναρτησιακές εξαρτήσεις είναι περιορισµοί
Ευφυής Προγραμματισμός
Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων
Ζητήματα ηήμ με τα δεδομένα
Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών
ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 11: Μη Ασυμφραστικές Γλώσσες
ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας Διάλεξη 11: Μη Ασυμφραστικές Γλώσσες Τι θα κάνουμε σήμερα Εισαγωγικά (2.3) Το Λήμμα της Άντλησης για ασυμφραστικές γλώσσες (2.3.1) Παραδείγματα 1 Πότε μια
Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»
Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
Επεξεργασία Ερωτήσεων
Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008
!! " &' ': " /.., c #$% & - & ' ()",..., * +,.. * ' + * - - * ()",...(.
..,.. 00 !!.6 7 " 57 +: #$% & - & ' ()",..., * +,.. * ' + * - - * ()",.....(. 8.. &' ': " /..,... :, 00. c. " *+ ' * ' * +' * - * «/'» ' - &, $%' * *& 300.65 «, + *'». 3000400- -00 3-00.6, 006 3 4.!"#"$
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις
Κλείσιμο Συνόλου Γνωρισμάτων
Κλείσιμο Συνόλου Γνωρισμάτων Ο υπολογισμός του κλεισίματος ενός συνόλου από ΣΕ μας δίνει τα σύνολα όλων των γνωρισμάτων τα οποία προσδιορίζονται συναρτησιακά από άλλα σύνολα γνωρισμάτων Ο υπολογισμός αυτός
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
2. Η πιθανότητα της αριθμήσιμης ένωσης ξένων μεταξύ τους ενδεχομένων είναι το άθροισμα των πιθανοτήτων των ενδεχομένων.
Ένα μέτρο πιθανότητας πάνω στο δειγματικός χώρο Ω, είναι μία συνάρτηση P ( ) που αντιστοιχεί σε υποσύνολα του Ω, έναν αριθμό στο [ 0, ], με τις εξής ιδιότητες: P ( Ω ) 2 Η πιθανότητα της αριθμήσιμης ένωσης
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες
Ατομική Διπλωματική Εργασία ΜΕΘΟΔΟΙ ΠΡΟΤΑΣΙΑΚΗΣ ΙΚΑΝΟΠΟΙΗΣΙΜΟΤΗΤΑΣ ΣΕ ΓΕΝΙΚΕΥΜΕΝΑ ΠΡΟΒΛΗΜΑΤΑ ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΙΑΣ. Νίκη Κουππή ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ
Ατομική Διπλωματική Εργασία ΜΕΘΟΔΟΙ ΠΡΟΤΑΣΙΑΚΗΣ ΙΚΑΝΟΠΟΙΗΣΙΜΟΤΗΤΑΣ ΣΕ ΓΕΝΙΚΕΥΜΕΝΑ ΠΡΟΒΛΗΜΑΤΑ ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΙΑΣ Νίκη Κουππή ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Μάιος 2013 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ
Εξόρυξη από Γραφήματα
Εισαγωγή Εξόρυξη από Γραφήματα Γράφημα G(V, E) u i V, (u i, u j ) E Ετικέτα l(u i ), l(u i, u j ) Επέκταση της εξόρυξης κανόνων συσχέτισης για τον εντοπισμό συχνών υπο-γραφημάτων s t t Γράφημα με ετικέτες
Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας
Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Σε ένα σύστημα φιλτραρίσματος πληροφορίας, ή αλλιώς σύστημα έκδοσης/συνδρομής, οι χρήστες εγγράφονται
Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος
ΗΥ-360 Αρχεια και Βασεις εδοµενων, Τµηµα Επιστηµης Υπολογιστων, Πανεπιστηµιο Κρητης Συναρτησιακές Εξαρτήσεις Βάρσος Κωνσταντίνος 24 Νοεµβρίου 2017 Ορισµός 1. Μια συναρτησιακή εξάρτηση µεταξύ X και Y συµβολίζεται
Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα
Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
Σχεδίαση και Ανάλυση Αλγορίθμων
Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4.0 Επιλογή Αλγόριθμοι Επιλογής Select και Quick-Select Σταύρος Δ. Νικολόπουλος 2016-17 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros
Επεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική
ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ
ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ
Π Α Ν Ε Π Ι Σ Τ Η Μ Ι O Π Ε Ι Ρ Α Ι Ω Σ
Π Α Ν Ε Π Ι Σ Τ Η Μ Ι O Π Ε Ι Ρ Α Ι Ω Σ Σχολή Χρηματοοικονομικής και Στατιστικής Τ μήμα Στατιστικής και Ασφαλιστικής Επιστήμης ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Τ ρ ό ποι αντιμετώπ
Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο
Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων
Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων
Τεχνικές Σχεδιασμού Αλγορίθμων Αλγοριθμικές Τεχνικές Παύλος Εφραιμίδης, Λέκτορας http://pericles.ee.duth.gr Ορισμένες γενικές αρχές για τον σχεδιασμό αλγορίθμων είναι: Διαίρει και Βασίλευε (Divide and
Θεωρία Υπολογισμού και Πολυπλοκότητα
Θεωρία Υπολογισμού και Πολυπλοκότητα Κεφάλαιο 1. Μαθηματικό Υπόβαθρο 23, 26 Ιανουαρίου 2007 Δρ. Παπαδοπούλου Βίκη 1 1.1. Σύνολα Ορισμός : Σύνολο μια συλλογή από αντικείμενα Στοιχεία: Μέλη συνόλου Τα στοιχεία
Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες
Πινάκες συνάφειας εξερεύνηση σχέσεων μεταξύ τυχαίων μεταβλητών. Είναι λογικό λοιπόν, στην ανάλυση των κατηγορικών δεδομένων να μας ενδιαφέρει η σχέση μεταξύ δύο ή περισσότερων κατηγορικών μεταβλητών. Έστω
HY118-Διακριτά Μαθηματικά
HY118-Διακριτά Μαθηματικά Παρασκευή, 02/03/2018 Αντώνης Α. Αργυρός e-mail: argyros@csd.uoc.gr Το υλικό των διαφανειών έχει βασιστεί σε διαφάνειες του Kees van Deemter, από το University of Aberdeen 02-Mar-18
Κατανεμημένα Συστήματα Ι
Κατανεμημένα Συστήματα Ι Παναγιώτα Παναγοπούλου Χριστίνα Σπυροπούλου 8η Διάλεξη 8 Δεκεμβρίου 2016 1 Ασύγχρονη κατασκευή BFS δέντρου Στα σύγχρονα συστήματα ο αλγόριθμος της πλημμύρας είναι ένας απλός αλλά
ΗΜΥ-210: Σχεδιασμός Ψηφιακών Συστημάτων
ΗΜΥ-2: Σχεδιασμός Ψηφιακών Συστημάτων Συνδυαστική Λογική / Κυκλώματα (Μέρος B) Διδάσκουσα: Μαρία Κ Μιχαήλ Πανεπιστήμιο Κύπρου Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Περίληψη Βελτιστοποίηση
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:
Επεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων
Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort
Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο
Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση
Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Εντοπισμός ενός σήματος STOP σε μια εικόνα. Περιγράψτε τη διαδικασία με την οποία μπορώ να εντοπίσω απλά σε μια εικόνα την ύπαρξη του παρακάτω
Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα
Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα Ανάλυση Μεγάλων Δεδομένων - Μελέτη Περίπτωσης στη Διαδικτυακή Εφαρμογή «Help Me Vote» - Big Data Analysis - a Case Study on the Web-Based
Αλγοριθμικές Τεχνικές
Αλγοριθμικές Τεχνικές Παύλος Εφραιμίδης, Λέκτορας http://pericles.ee.duth.gr Αλγοριθμικές Τεχνικές 1 Τεχνικές Σχεδιασμού Αλγορίθμων Ορισμένες γενικές αρχές για τον σχεδιασμό αλγορίθμων είναι: Διαίρει και
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ Φροντιστήριο #7: Ελάχιστα Επικαλυπτικά Δένδρα, Αλγόριθμος Kruskal, Δομές Union-Find Άσκηση # 0 5 0 0 0
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΕΠΛ 451 Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό I. Στόχος ΑΣΚΗΣΗ 1 Ανάλυση συσχετίσεων ανάμεσα σε προϊόντα Διδάσκων: Γιώργος Πάλλης Υπεύθυνος Εργασίας: Παύλος Αντωνίου
Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;
Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση
Κατανεμημένα Συστήματα Ι
Κατανεμημένα Συστήματα Ι Εκλογή αρχηγού και κατασκευή BFS δένδρου σε σύγχρονο γενικό δίκτυο Παναγιώτα Παναγοπούλου Περίληψη Εκλογή αρχηγού σε γενικά δίκτυα Ορισμός του προβλήματος Ο αλγόριθμος FloodMax
LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης
Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός
Ψηφιακά Συστήματα. 5. Απλοποίηση με χάρτες Karnaugh
Ψηφιακά Συστήματα 5. Απλοποίηση με χάρτες Karnaugh Βιβλιογραφία 1. Φανουράκης Κ., Πάτσης Γ., Τσακιρίδης Ο., Θεωρία και Ασκήσεις Ψηφιακών Ηλεκτρονικών, ΜΑΡΙΑ ΠΑΡΙΚΟΥ & ΣΙΑ ΕΠΕ, 2016. [59382199] 2. Floyd
Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών
Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός
Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος
ΗΥ-360 Αρχεια και Βασεις εδοµενων, Τµηµα Επιστηµης Υπολογιστων, Πανεπιστηµιο Κρητης Συναρτησιακές Εξαρτήσεις Βάρσος Κωνσταντίνος 16 Νοεµβρίου 2018 Ορισµός 1. Μια συναρτησιακή εξάρτηση µεταξύ X και Y συµβολίζεται
P(n, r) = n! P(n, r) = n r. (n r)! n r. n+r 1 r n!
Διακριτά Μαθηματικά Σύνοψη Θεωρίας Τυπολόγιο Αναστασία Κόλλια 20/11/2016 1 / 55 Κανόνες γινομένου και αθροίσματος Κανόνας αθροίσματος: Αν ένα γεγονός μπορεί να συμβεί κατά m τρόπους και ένα άλλο γεγονός
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Εξόρυξη και διαχείριση κανόνων συσχέτισης με χρήση τεχνικών Ανάκτησης Πληροφορίας ΘΕΟΔΩΡΟΣ Θ. ΒΑΡΣΑΜΗΣ
Αρχεία και Βάσεις Δεδομένων
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αρχεία και Βάσεις Δεδομένων Διάλεξη 13η: Κλείσιμο Συνόλου Γνωρισμάτων - Ελάχιστη κάλυψη - Αποσύνθεση - Συναρτησιακές Εξαρτήσεις Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης
Υπολογιστικά & Διακριτά Μαθηματικά
Υπολογιστικά & Διακριτά Μαθηματικά Ενότητα 8: Σχέσεις - Πράξεις Δομές Στεφανίδης Γεώργιος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό,
Αλγόριθμοι Ταξινόμησης Μέρος 4
Αλγόριθμοι Ταξινόμησης Μέρος 4 Μανόλης Κουμπαράκης Δομές Δεδομένων και Τεχνικές 1 Μέθοδοι Ταξινόμησης Βασισμένοι σε Συγκρίσεις Κλειδιών Οι αλγόριθμοι ταξινόμησης που είδαμε μέχρι τώρα αποφασίζουν πώς να
ΗΥ360 Αρχεία και Βάσεις εδοµένων
ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Tutorial B-Trees, B+Trees Μπαριτάκης Παύλος 2018-2019 Ιδιότητες B-trees Χρήση για μείωση των προσπελάσεων στον δίσκο Επέκταση των Binary Search Trees
Ταξινόμηση με συγχώνευση Merge Sort
Ταξινόμηση με συγχώνευση Merge Sort 7 2 9 4 2 4 7 9 7 2 2 7 9 4 4 9 7 7 2 2 9 9 4 4 Πληροφορικής 1 Διαίρει και Βασίλευε Η μέθοδος του «Διαίρει και Βασίλευε» είναι μια γενική αρχή σχεδιασμού αλγορίθμων
Παραδείγματα (2 ο σετ) Διανυσματικοί Χώροι Επιμέλεια: Ι. Λυχναρόπουλος
Παραδείγματα ( ο σετ) Διανυσματικοί Χώροι Επιμέλεια: Ι. Λυχναρόπουλος Παράδειγμα Έστω ο υποχώρος W του R 5 που παράγεται από τα διανύσματα v=(,,-,,), v=(,,-,6,8), v=(,,,,6), v=(,,5,,8), v5=(,7,,,9). a)
Ουρές Προτεραιότητας: Υπενθύμιση. Σωροί / Αναδρομή / Ταξινόμηση. Υλοποίηση Σωρού. Σωρός (Εισαγωγή) Ορέστης Τελέλης
Ουρές Προτεραιότητας: Υπενθύμιση Σωροί / Αναδρομή / Ταξινόμηση Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς (Abstract Data Type) με μεθόδους: Μπορεί να υλοποιηθεί με
Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη
Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές
Διακριτά Μαθηματικά. Απαρίθμηση: μεταθέσεις και συνδυασμοί
Διακριτά Μαθηματικά Απαρίθμηση: μεταθέσεις και συνδυασμοί Μεταθέσεις (permutations) Μετάθεση διακεκριμένων στοιχείων ενός συνόλου = Ανακάτεμα κάποιων ή όλων των στοιχείων του συνόλου S={1,2,3} Μεταθέσεις
Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 11: Κατασκευή φυλογενετικών δέντρων part II
Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Βιοπληροφορική Ενότητα 11: Κατασκευή φυλογενετικών δέντρων part II Αν. καθηγητής Αγγελίδης Παντελής e-mail: paggelidis@uowm.gr ΕΕΔΙΠ Μπέλλου Σοφία e-mail:
ΠΡΟΔΙΑΘΕΣΙΚOI ΠΑΡΑΓΟΝΤΕΣ ΑΘΗΡΟΣΚΛΗΡΩΣΗΣ ΚΑΙ ΕΜΦΑΝΙΣΗ ΑΘΗΡΩΜΑΤΙΚΩΝ ΒΛΑΒΩΝ ΣΤΙΣ ΚΑΡΩΤΙΔΕΣ ΣΕ ΝΕΟΥΣ ΕΝΗΛΙΚΕΣ
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πρόγραμμα Μεταπτυχιακών Σπουδών Ιατρικής Πληροφορικής Διπλωματική Εργασία: ΠΡΟΔΙΑΘΕΣΙΚOI ΠΑΡΑΓΟΝΤΕΣ ΑΘΗΡΟΣΚΛΗΡΩΣΗΣ ΚΑΙ ΕΜΦΑΝΙΣΗ ΑΘΗΡΩΜΑΤΙΚΩΝ ΒΛΑΒΩΝ ΣΤΙΣ ΚΑΡΩΤΙΔΕΣ
επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S
Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών,, τα οποίo είναι υποσύνολο του. Υποστηριζόμενες λειτουργίες αναζήτηση(s,x): εισαγωγή(s,x): διαγραφή(s,x): διάδοχος(s,x): προκάτοχος(s,x):
Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα
6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά