Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introdion to Data Mining», Addison Wesley, 26 Market-Basket transactions (Το καλάθι της νοικοκυράς!) TID Items Bread, Milk Το πρόβλημα: εδομένου ενός συνόλου δοσοληψιών (transactions), βρες κανόνες που προβλέπουν την εμφάνιση ενός στοιχείου (item) με βάση την εμφάνιση άλλων στοιχείων στις συναλλαγές Παραδείγματα κανόνων συσχέτισης 5 Bread, Milk, Diaper, Coke {Diaper} {Beer}, {Milk, Bread} {Eggs,Coke}, δοσοληψία {Beer, Bread} {Milk} Προώθηση προϊόντων Τοποθέτηση προϊόντων στα ράφια ιαχείριση αποθεμάτων Σημαίνει ότι εμφανίζονται μαζί, όχι ότι η εμφάνιση του ενός είναι η αιτία της εμφάνισης του άλλου (co-occurrence, not causality όχι έννοια χρόνου ή διάταξης) Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 2 Εισαγωγή Ορισμοί υαδική αναπαράσταση Γραμμές: δοσοληψίες Στήλες: Στοιχεία αν το στοιχείο εμφανίζεται στη σχετική δοσοληψία Μη συμμετρική δυαδική μεταβλητή ( πιο σημαντικό από το ) Παράδειγμα TID Items Bread, Milk 5 Bread, Milk, Diaper, Coke Ι = {i, i 2,.., i k } ένα σύνολο από διακριτά στοιχεία (items) Παράδειγμα: {Bread, Milk, Diapers, Beer, Eggs, Coke} Στοιχειοσύνολο (Itemset): Ένα υποσύνολο του Ι Παράδειγμα: {Milk, Bread, Diaper} k-στοιχειοσύνολο (k-itemset): ένα στοιχειοσύνολο με k στοιχεία Τ = {t, i 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο Πλάτος (width) δοσοληψίας: αριθμός στοιχείων ti περιέχει ένα στοιχειοσύνολο Χ, αν το Χ είναι υποσύνολο της t i TID Items Bread, Milk 5 Bread, Milk, Diaper, Coke Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 3 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 4 Ορισμοί Ορισμοί support count (σ) ενός στοιχειοσυνόλου Η συχνότητα εμφάνισης του στοιχειοσυνόλου Παράδειγμα: σ({milk, Bread, Diaper}) = 2 Υποστήριξη (Support (s)) ενός στοιχειοσυνόλου Το ποσοστό των δοσοληψιών που περιέχουν ένα στοιχειοσύνολο Παράδειγμα: s({milk, Bread, Diaper}) = 2/5 TID Items Bread, Milk 5 Bread, Milk, Diaper, Coke Κανόνας Συσχέτισης (Association Rule) Είναι μια έκφραση της μορφής X Y, όπου X και Y είναι στοιχειοσύνολα Χ Ι, Υ Ι, Χ Υ = Παράδειγμα: {Milk, Diaper} {Beer} TID Items Bread, Milk 5 Bread, Milk, Diaper, Coke Υποστήριξη Κανόνα Support (s) Το ποσοστό των δοσοληψιών που περιέχουν και το X και το Y(Χ Υ) Εμπιστοσύνη -Confidence(c) Πόσες από τις δοσοληψίες (ποσοστό) που περιέχουν το Χ περιέχουν και το Υ Frequent Itemset Ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου minsup { Milk, Diaper, s = σ T Beer } = 2 =.4 5 σ { Milk, Diaper, Beer } 2 c = = =.67 σ { Milk, Diaper } 3 { Milk, Diaper } Beer Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 5 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 6
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 7 Εξόρυξη Κανόνων Συσχέτισης Εξόρυξη Κανόνων Συσχέτισης Παρατηρήσεις s(x Y) = s(x Y) = σ(x Y)/Ν Ένας κανόνας με μικρή υποστήριξη μπορεί να εμφανίζεται τυχαία Εξαιρεί κανόνες που δεν έχουν ενδιαφέρον c(x Y) = σ(x Y)/σ(X) c(x Y) = P(Υ Χ) δεσμευμένη πιθανότητα να εμφανίζεται το Υ όταν εμφανίζεται το Χ Εμπιστοσύνη μετρά την αξιοπιστία Όσο μεγαλύτερη εμπιστοσύνη τόσο μεγαλύτερη η πιθανότητα εμφάνισης του Υ σε κανόνες που περιέχουν το Χ Εύρεση Κανόνων Συσχέτισης Είσοδος: Ένα σύνολο από δοσοληψίες T Έξοδος: Όλοι οι κανόνες με support minsup confidence minconf Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 8 Εξόρυξη Κανόνων Συσχέτισης Εύρεση Συχνών Στοιχειοσυνόλων Υπολογιστική Πολυπλοκότητα Brute-force approach: List all possible association rules Compute the support and confidence for each rule Prune rules that fail the minsup and minconf thresholds Computationally prohibitive! Για d στοιχεία, 3 d 2 d+ + Given d unique items: Total number of itemsets = 2 d (δυναμοσύνολο) Total number of possible association rules: d d d k d k R = k= j= k j d d + = 3 2 + If d = 6, R = 62 rules Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 9 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι Εξόρυξη Κανόνων Συσχέτισης Εξόρυξη Κανόνων Συσχέτισης TID Items Bread, Milk 5 Bread, Milk, Diaper, Coke Πιθανοί κανόνες με τα στοιχεία Milk, Diaper και Beer (στοιχειοσύνολο {Milk, Diaper, Beer}) {Milk,Diaper} {Beer} (s=.4, c=.67) {Milk,Beer} {Diaper} (s=.4, c=.) {Diaper,Beer} {Milk} (s=.4, c=.67) {Beer} {Milk,Diaper} (s=.4, c=.67) {Diaper} {Milk,Beer} (s=.4, c=.5) {Milk} {Diaper,Beer} (s=.4, c=.5) Η υποστήριξη ενός κανόνα X Y εξαρτάται μόνο από την υποστήριξη του Χ Υ Άρα κανόνες που ξεκινούν από to ίδιο στοιχειοσύνολο έχουν την ίδια υποστήριξη (αλλά πιθανών διαφορετική εμπιστοσύνη) Αν είχαμε minsup =.5, θα αποκλείαμε και τους έξη κανόνες Χωρισμός του προβλήματος σε δύο υπο-προβλήματα: Εύρεση όλων των συχνών στοιχειοσυνόλων (Frequent Itemset Generation) Εύρεση όλων των στοιχειοσυνόλων με υποστήριξη minsup ημιουργία Κανόνων (Rule Generation) Για κάθε στοιχειοσύνολο, δημιούργησε κανόνες με μεγάλη υποστήριξη, όπου κάθε κανόνες είναι μια δυαδική διαμέριση του συχνού στοιχειοσυνόλου Ηδημιουργία των συχνών στοιχειοσυνόλων είναι επίσης υπολογιστικά ακριβή Άρα μπορούμε να θεωρήσουμε τους περιορισμούς για την εμπιστοσύνη ξεχωριστά υποστήριξη και την Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 2
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 3 Itemset (πλέγμα) Lattice Εύρεση Συχνών Στοιχειοσυνόλων null A B C D E AB AC AD AE BC BD BE CD CE DE Εύρεση Συχνών Στοιχειοσυνόλων ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE Για d στοιχεία, 2 d πιθανά στοιχειοσύνολα ABCDE Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 4 Εύρεση Συχνών Στοιχειοσυνόλων Εύρεση Συχνών Στοιχειοσυνόλων Brute-force approach: Κάθε στοιχειοσύνολο στο lattice είναι ένα υποψήφιο συχνό στοιχειοσύνολο Υπολόγισε την υποστήριξη κάθε υποψήφιου στοιχειοσυνόλου διατρέχοντας (scanning) της βάση δεδομένων Transactions TID Items Bread, Milk N 5 Bread, Milk, Diaper, Coke w Ταίριαξε κάθε δοσοληψία με κάθε υποψήφιο Πολυπλοκότητα ~ O(NMw) => Μεγάλη γιατί M = 2 d!!!... List of Candidates M Ν: αριθμός δοσοληψιών w: μέγιστο πλάτος δοσοληψίας ιαφορετικές Στρατηγικές Ελάττωση του αριθμού των υποψηφίων στοιχειοσυνόλων (M) Πλήρης αναζήτηση: M=2 d Χρησιμοποίησε κάποια τεχνική pruning (κλαδέματος - ελάττωσης) για να ελαττωθεί το M(πχ apriori) Ελάττωση του αριθμού των δοσοληψιών (N) Ελάττωση του μεγέθους του N καθώς το μέγεθος του στοιχειοσυνόλου αυξάνεται Used by DHP and vertical-based mining algorithms Ελάττωση του αριθμού των συγκρίσεων (NM) Στόχος να αποφύγουμε να ταιριάξουμε κάθε υποψήφιο στοιχειοσύνολο με κάθε δοσοληψία Χρήση αποδοτικών δομών δεδομένων για την αποθήκευση των υποψηφίων στοιχειοσυνόλων ή των δοσοληψιών Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 5 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 6 Αρχή apriori Αρχή apriori Ελάττωση συχνών στοιχεισυνόλων Αρχή Apriori Αν ένα στοιχειοσύνολο είναι συχνό, τότε όλα τα υποσύνολα του είναι συχνά Αντιθετοαντιστροφή: Αν ένα στοιχειοσύνολο δεν είναι συχνό, όλα τα υπερσύνολα του δεν είναι συχνά Ηαρχή Apriori ισχύει λόγω της παρακάτω ιδιότητας της υποστήριξης: X, Y : ( X Y ) s( X ) s( Y ) Αντι-μονότονη (anti-monotone) ιδιότητα της υποστήριξης X, Y : ( X Y ) s( X ) s( Y ) s: downwards closed Mονότονη ιδιότητα ή upwards closed X, Y : ( X Y ) f ( X ) f ( Y ) Η υποστήριξη ενός στοιχεισύνολου είναι μικρότερη ή ίση της υποστήριξης οποιουδήποτε υποσυνόλου του Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 7 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 8
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 9 Όλα τα υποσύνολα του συχνά (κλειστό από πάνω) Αρχή apriori Support-based pruning Στρατηγική apriori Βρέθηκε μη συχνό Συχνό στοιχειοσύνολο Pruned supersets Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 2 Παράδειγμα Item Count Bread 4 Coke 2 Milk 4 Beer 3 Diaper 4 Eggs Αν όλα τα δυνατά στοιχειοσύνολα: 6 6 6 + + = 6 + 5 + 2 = 4 2 3 Μετά την ελάττωση με βάση την υποστήριξη: 6 4 + + = + 6 + = 3 2 Minimum Support = 3 Items (-itemsets) Itemset Count {Bread,Milk} 3 {Bread,Beer} 2 {Bread,Diaper} 3 {Milk,Beer} 2 {Milk,Diaper} 3 {Beer,Diaper} 3 Στρατηγική apriori TID Items Bread, Milk 5 Bread, Milk, Diaper, Coke Pairs (2-itemsets) (No need to generate candidates involving Coke or Eggs) Triplets (3-itemsets) Item set Count {B read,m ilk,d iaper} 3 Γενικός Αλγόριθμος Στρατηγική apriori Let k= Generate frequent itemsets of length Repeat until no new frequent itemsets are identified Generate length (k+) candidate itemsets from length k frequent itemsets Prune candidate itemsets containing subsets of length k that are infrequent Count the support of each candidate by scanning the DB Eliminate candidates that are infrequent, leaving only those that are frequent Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 2 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 22 Στρατηγική apriori Στρατηγική apriori: ημιουργία Στοιχειοσυνόλων Σε κάθε βήμα k: F k- x F Επέκταση κάθε συχνού (k-) στοιχειοσυνόλου με άλλα συχνά στοιχεία ημιουργία υποψήφιων k-στοιχειοσυνόλων με βάση τα συχνά k- στοιχειοσύνολα Όλα τα υποσύνολα του πρέπει να είναι συχνά εν πρέπει να δημιουργούμε ένα στοιχειοσύνολο πολλές φορές complete δεν πρέπει να χάνουμε κάποιο συχνό Item Count Bread 4 Coke 2 Milk 4 Beer 3 Diaper 4 Eggs Itemset Count {Bread,Milk} 3 {Beer,Bread} 2 {Bread,Diaper} 3 {Beer, Milk} 2 {Diaper,Milk} 3 {Beer,Diaper} 3 Υπολογισμός της υποστήριξής τους και pruning όσον έχουν μικρή υποστήριξη Για να αποφύγουμε τη δημιουργία του ίδιου στοιχειοσυνόλου, κρατάμε κάθε στοιχειοσύνολο (λεξικογραφικά) ταξινομημένο {Beer, Diaper, Milk} ημιουργεί και κάποια περιττά, πχ το παραπάνω δεν είναι συχνό, γιατί το {Beer, Milk} δεν είναι συχνό Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 23 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 24
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 25 Στρατηγική apriori: ημιουργία Στοιχειοσυνόλων Στρατηγική apriori: ημιουργία Στοιχειοσυνόλων F k- x F F k- x F k- Επέκταση κάθε συχνού (k-) στοιχειοσυνόλου με άλλα συχνά στοιχεία ιάφοροι ευριστικοί για να μειωθεί ο αριθμός των στοιχειοσυνόλων που δημιουργούνται και δεν είναι συχνά Πχ έστω το {i, i 2, i 3, i 4 } για να είναι συχνό, θα πρέπει να υπάρχουν τουλάχιστον 3 3- στοιχειοσύνολα που περιέχουν πχ το i 4 ({i, i 2, i 4 }, {i, i 3, i 4 } και {i 2, i 3, i 4 } Γενικά, κάθε στοιχείο ενός k-στοιχειοσυνόλου θα πρέπει να περιέχεται σε τουλάχιστον k- από το συχνά (k-)-στοιχειοσύνολα Συγχώνευση δύο συχνών (k-) στοιχειοσυνόλου αν τα πρώτα k-2 στοιχεία τους είναι τα ίδια Itemset Count Itemset Count {Bread,Milk} 3 {Bread,Milk} 3 {Beer,Bread} 2 {Beer,Bread} 2 {Bread,Diaper} 3 {Bread,Diaper} 3 {Beer, Milk} 2 {Beer, Milk} 2 {Diaper,Milk} 3 {Diaper,Milk} 3 {Beer,Diaper} 3 {Beer,Diaper} 3 Συγχώνευση δύο συχνών (k-)-στοιχειοσυνόλων αλλά πρέπει επιπρόσθετα να ελέγξουμε ότι και τα υπόλοιπα k-2 υποσύνολα είναι συχνά Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 26 Υπολογισμός υποστήριξης: για κάθε νέο υποψήφιο συχνό στοιχειοσύνολο, πρέπει να υπολογίσουμε την υποστήριξή του Ελάττωση του αριθμού των συγκρίσεων Brute Force: ιαπέρασε τη βάση των δοσοληψιών για τον υπολογισμό της υποστήριξης κάθε υποψήφιου στοιχειοσυνόλου Για να μειώσουμε τον αριθμό των συγκρίσεων, αποθήκευση των υποψηφίων στοιχειοσυνόλων σε μια δομή κατακερματισμού Αντί να ταιριάζουμε κάθε δοσοληψία με κάθε υποψήφιο στοιχειοσύνολο, ταίριαξε κάθε δοσοληψία με τα υποψήφια στοιχειοσύνολα που περιέχονται σε κάδους κατακερματισμού Transactions TID Items Bread, Milk 5 Bread, Milk, Diaper, Coke ημιουργία του δέντρου κατακερματισμού (hash tree) Στο δέντρο κατακερματίζουμε Έστω ότι έχουμε 5 υποψήφια 3-στοιχειοσύνολα: τα υποψήφια στοιχειοσύνολα { 4 5}, { 2 4}, {4 5 7}, { 2 5}, {4 5 8}, { 5 9}, { 3 6}, {2 3 4}, {5 6 7}, {3 4 5}, {3 5 6}, {3 5 7}, {6 8 9}, {3 6 7}, {3 6 8} Πρέπει να προσδιορίσουμε: Συνάρτηση κατακερματισμού Μέγιστο Μήκος Φύλλου: μέγιστο αριθμό στοιχειοσυνόλων που θα αποθηκευτούν σε κάθε φύλλο (αν ο αριθμός των στοιχειοσυνόλων υπερβεί το μέγιστο μέγεθος του φύλλου, διαχώρισε τον κόμβο) Hash function 3,6,9,4,7 2,5,8 m mod 3 4 5 2 4 4 5 7 2 5 4 5 8 2 3 4 5 6 7 3 4 5 3 5 6 3 6 3 5 7 6 8 9 5 9 3 6 7 3 6 8 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 27 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 28 Hash Function Candidate Hash Tree Hash Function Candidate Hash Tree,4,7 3,6,9,4,7 3,6,9 2,5,8 2 3 4 5 6 7 2,5,8 2 3 4 5 6 7 Hash on, 4 or 7 45 3 6 2 4 2 5 5 9 4 5 7 4 5 8 3 4 5 3 5 6 3 6 7 3 5 7 3 6 8 6 8 9 Hash on 2, 5 or 8 4 5 3 6 2 4 25 5 9 4 5 7 4 58 3 4 5 3 5 6 3 6 7 3 5 7 3 6 8 6 8 9 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 29 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 3
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 3 Hash Function Candidate Hash Tree Απαρίθμηση Υποσυνόλων Έστω μια δοσοληψία t, ποια είναι τα πιθανά υποσύνολο της με τρία στοιχεία;,4,7 3,6,9 2,5,8 Hash on 3, 6 or 9 4 5 3 6 2 4 2 5 5 9 4 5 7 4 5 8 2 3 4 5 6 7 3 4 5 3 5 6 367 3 5 7 368 6 8 9 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 32 Απαρίθμηση Υποσυνόλων με χρήση του έντρου Κατακερματισμού 2 3 5 6 transaction Hash Function Hash Function 2 3 5 6 transaction 4 5 3 6 2 4 4 5 7 + 2 3 5 6 2 5 4 5 8 5 9 2 3 4 5 6 7 2 + 3 5 6 3 + 5 6 3 4 5 3 5 6 3 6 7 3 5 7 3 6 8 6 8 9,4,7 2,5,8 3,6,9 Έχοντας κατασκευάσει το δέντρο κατακερματισμού για τα 3-στοιχειοσύνολα, κατακερματίζουμε όλα τα 3- στοιχειοσύνολα της δοσοληψίας στο δέντρο και αυξάνουμε τον αντίστοιχο μετρητή 2 + 3 5 6 3 + 5 6 5 + 6 4 5 3 6 2 4 4 5 7 + 2 3 5 6 2 5 4 5 8 5 9 2 3 4 5 6 7 2 + 3 5 6 3 + 5 6 3 4 5 3 5 6 3 6 7 3 5 7 3 6 8 6 8 9,4,7 2,5,8 3,6,9 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 33 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 34 Στρατηγική apriori: Πολυπλοκότητα 2 + 3 5 6 3 + 5 6 5 + 6 4 5 3 6 2 4 4 5 7 + 2 3 5 6 2 5 4 5 8 5 9 2 3 5 6 transaction 2 3 4 5 6 7 2 + 3 5 6 3 + 5 6 3 4 5 3 5 6 3 6 7 3 5 7 3 6 8 6 8 9 Hash Function,4,7 2,5,8 3,6,9 Match transaction against out of 5 candidates Επιλογή της τιμής του κατωφλιού για την ελάχιστη υποστήριξη Μικρή τιμή => πολλά συχνά στοιχειοσύνολα Αύξηση υποψήφιων στοιχειοσυνόλων (πολυπλοκότητα) και το μέγιστο μήκος των συχνών στοιχειοσυνόλων (περισσότερα περάσματα στα δεδομένα) Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 35 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 36
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 37 Στρατηγική apriori: Πολυπλοκότητα Στρατηγική apriori: Πολυπλοκότητα Αριθμός διαστάσεων - Dimensionality (αριθμός στοιχείων) του συνόλου δεδομένων more space is needed to store support count of each item if number of frequent items also increases, both computation and I/O costs may also increase Μέσο πλάτος δοσοληψίας transaction width larger with denser data sets This may increase max length of frequent itemsets and traversals of hash tree (number of subsets in a transaction increases with its width) Μέγεθος της βάσης Επειδή ο Apriori κάνει πολλαπλά περάσματα, ο χρόνος εκτέλεσης μπορεί να αυξηθεί Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 38 Στρατηγική apriori: Πολυπλοκότητα. ημιουργία συχνών -στοχειοσυνόλων Ο(Νw) 2. ημιουργία υποψήφιων στοιχειοσυνόλων Έστω F k- xf k- k-2 συγκρίσεις για κοινό prefix Στη χειρότερη περίπτωση, ταιριάζουν όλα Σ k=2,w F k- 2 Επίσης κατασκευάζουμε το δέντρο, μέγιστο ύψος k, άρα Σ k=2,w k F k- 2 Έλεγχος, για τα k-2 υποσύνολα με χρήση του δέντρου ημιουργία Κανόνων 3. Υπολογισμός της Υποστήριξης Κάθε δοσοληψία έχει k από t k-στοιχειοσύνολα Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 39 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 4 Παραγωγή Κανόνων Παραγωγή Κανόνων Παραγωγή Κανόνων (Rule Generation) οθέντος ενός συχνού στοιχειοσυνόλου L, βρες όλα τα μη κενά υποσύνολα f L τέτοια ώστε ο κανόνας f L f ικανοποιεί τον περιορισμό της ελάχιστης εμπιστοσύνης Παράδειγμα αν {A,B,C,D} υποψήφιοι κανόνες: ABC D, ABD C, ACD B, BCD A, A BCD, B ACD, C ABD, D ABC AB CD, AC BD, AD BC, BC AD, BD AC, CD AB, Όλοι έχουν την ίδια υποστήριξη, πρέπει να ελέγξουμε την εμπιστοσύνη Αν L = k, τότε υπάρχουν 2 k 2 υποψήφιοι κανόνες συσχέτισης (εξαιρώντας τον L και τον L) Υπολογισμός Εμπιστοσύνης Παρατήρηση: ε χρειάζεται να διαπεράσουμε πάλι τα δεδομένα για να υπολογίσουμε την εμπιστοσύνη ενός κανόνα που προκύπτει από ένα συχνό στοιχειοσύνολο: ABC D, ABD C, ACD B, BCD A, A BCD, B ACD, C ABD, D ABC AB CD, AC BD, AD BC, BC AD, BD AC, CD AB Γιατί; Πχ c(cd AB) = σ{a,b,c,d}/σ{c, D} Από την αντι-μονότονη ιδιότητα της υποστήριξης, το {C, D} είναι συχνό στοιχειοσύνολο άρα έχουμε ήδη υπολογίζει την υποστήριξή του Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 4 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 42
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 43 Παραγωγή Κανόνων Παραγωγή Κανόνων Πως να παράξουμε αποδοτικά τους κανόνες από τα συχνά στοιχειοσύνολα; Γενικά, η αντι-μονότονη ιδιότητα δεν ισχύει για την εμπιστοσύνη X, Y : ( X Y ) s( X ) s( Y ) Γενικά έστω {p} {q} με εμπιστοσύνη c Και {p, r} {q} με εμπιστοσύνη c 2 Μπορεί c 2 > c, c 2 < c ή c 2 = c Έστω {p} {q, r} με εμπιστοσύνη c 3 c 3 c Επίσης,c 3 c 2 Η εμπιστοσύνη για τους κανόνες που παράγονται από το ίδιο στοιχειοσύνολα έχει μια αντι-μονότονη ιδιότητα Για παράδειγμα L = {A,B,C,D}: c(abc D) c(ab CD) c(a BCD) Η εμπιστοσύνη είναι αντι-μονότονη σε σχέση με των αριθμό των στοιχείων στο RHS του κανόνα (ή ισοδύναμα μονότονα στον αριθμό των στοιχείων στο LHS) Τυπικά: Αν ο κανόνας X X Y δεν ικανοποιεί το κατώφλι εμπιστοσύνης, τότε και ο κανόνας Χ Χ Υ (Χ Χ) δεν τον ικανοποιεί Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 44 Παραγωγή Κανόνων για τον Αλγόριθμο apriori Παραγωγή Κανόνων για τον Αλγόριθμο apriori Lattice of rules Έστω κόμβος με μικρή εμπιστοσύνη Οι κανόνες παράγονται σε επίπεδα με βάση τα στοιχεία στο RHS Αρχικά, θεωρούμε όλους τους κανόνες με ένα στοιχείο στο RHS Στη συνέχεια, οι υποψήφιοι κανόνες παράγονται συγχωνεύοντας το RHS δυο υποψηφίων κανόνων Πχ Join(ACD=>B, ABD=>C) μας δίνει AD=>BC Όπως και στα συχνά στοιχειοσύνολα, στη συνέχεια, με το ίδιο prefix στο RHS join(cd=>ab,bd=>ac) μας δίνει D => ABC CD=>AB D=>ABC BD=>AC Pruned Rules Prune τον κανόνα D=>ABC, αν το υποσύνολο AD=>BC δεν έχει επαρκή εμπιστοσύνη Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 45 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 46 Παραγωγή Κανόνων για τον Αλγόριθμο apriori Lattice of rules Έστω κόμβος με μικρή εμπιστοσύνη Επίπεδο Επίπεδο 2 Αναπαράσταση Κανόνων Συσχέτισης Επίπεδο 3 Pruned Rules Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 47 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 48
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 49 Τα στοιχειοσύνολα που παράγονται είναι πολλά, κάποια ίσως περιττά Ποια να κρατήσουμε; Αντιπροσωπευτικά συχνά στοιχειοσύνολα Ένα στοιχειοσύνολο είναι maximal συχνό αν κανένα από τα άμεσα υπερσύνολα του δεν είναι συχνό Maximal Itemsets Συχνά στοιχειοσύνολα Περιττός κανόνας Χ Υ, αν υπάρχει ένας κανόνας Χ Υ, όπου Χ Χ και Υ Υ με την ίδια υποστήριξη και εμπιστοσύνη {b} {d, e} περιττός {b, c} {d, e} Μη συχνά στοιχειοσυνολα Όριο Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 5 Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων Το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα είναι τα υποσύνολά τους Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό εν είναι κλειστό αν κάποιο άμεσο υπερσύνολό του έχει την ίδια υποστήριξη Βέβαια χρειαζόμαστε έναν αποδοτικό αλγόριθμο για τον υπολογισμό τους που δεν παράγει όλα τα δυνατά υποσύνολα τους ΜΕΙΟΝΕΧΤΗΜΑ: εν προσφέρουν καμιά πληροφορία για την υποστήριξη των υποσυνόλων τους TID Items {A,B} 2 {B,C,D} 3 {A,B,C,D} 4 {A,B,D} 5 {A,B,C,D} Itemset Support {A} 4 {B} 5 {C} 3 {D} 4 {A,B} 4 {A,C} 2 {A,D} 3 {B,C} 3 {B,D} 4 {C,D} 3 Itemset Support {A,B,C} 2 {A,B,D} 3 {A,C,D} 2 {B,C,D} 3 {A,B,C,D} 2 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 5 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 52 Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και η υποστήριξη του είναι μικρότερη ή ίση με minsup Οαλγόριθμος υπολογισμού της υποστήριξης βασίζεται στο ότι: Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του TID Items {A,B} 2 {B,C,D} 3 {A,B,C,D} 4 {A,B,D} 5 {A,B,C,D} Itemset Support {A} 4 {B} 5 {C} 3 {D} 4 {A,B} 4 {A,C} 2 {A,D} 3 {B,C} 3 {B,D} 4 {C,D} 3 Itemset Support {A,B,C} 2 {A,B,D} 3 {A,C,D} 2 {B,C,D} 3 {A,B,C,D} 2 Περιττός κανόνας Χ Υ, αν υπάρχει ένας κανόνας Χ Υ, όπου Χ Χ και Υ Υ με την ίδια υποστήριξη και εμπιστοσύνη {b} {d, e} περιττός {b, c} {d, e} Παρατήρηση: θα κρατήσουμε μόνο το {b, c, d, e} Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 53 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 54
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 55 Some itemsets are redundant because they have identical support as their supersets TID A A2 A3 A4 A5 A6 A7 A8 A9 A B B2 B3 B4 B5 B6 B7 B8 B9 B C C2 C3 C4 C5 C6 C7 C8 C9 C 2 3 4 5 6 7 8 9 2 3 4 5 TID Items ABC 2 ABCD 3 BCE 4 ACDE 5 DE Maximal vs Closed Itemsets Transaction Ids null 24 23 234 245 345 A B C D E 2 AB 24 AC 24 AD 4 23 2 3 24 34 45 AE BC BD BE CD CE DE 2 2 24 4 4 2 3 4 ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE Number of frequent itemsets Need a compact representation = 3 k = k Not supported by any transactions 2 4 ABCD ABCE ABDE ACDE BCDE ABCDE Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 56 Minimum support = 2 Maximal vs Closed Itemsets null Closed but not maximal Maximal vs Closed Itemsets 24 23 234 245 345 A B C D E Closed and maximal 4 2 3 24 34 45 AB AC AD AE BC BD BE CD CE DE 2 2 24 4 4 2 3 4 ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE # Closed = 9 # Maximal = 4 ABCDE Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 57 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 58 Αποτίμηση Κανόνων Συσχέτισης Παράγουν πάρα πολλούς κανόνες που συχνά είναι μη ενδιαφέροντες ή πλεονάζοντες (περιττοί) Αποτίμηση Κανόνων Συσχέτισης Πλεονάζοντες αν {A,B,C} {D} και {A,B} {D} έχουν την ίδια υποστήριξη & εμπιστοσύνη Μέτρα ενδιαφέροντος (interestingness) χρησιμοποιούνται για να ελαττώσουν (prune) ή να ιεραρχήσουν (rank) τα παραγόμενα πρότυπα Στην αρχική διατύπωση του προβλήματος της εξόρυξης κανόνων συσχέτισης χρησιμοποιήθηκαν ως μέτρα μόνο η υποστήριξη και η εμπιστοσύνη Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 59 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 6
Featur Featur e Featur e Featur e Featur e Featur Featur e e Featur e Featur e Featur e e Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 6 Μέτρηση Ενδιαφέροντος Μέτρηση Ενδιαφέροντος Εφαρμογές της μέτρησης του ενδιαφέροντος Μέτρα Ενδιαφέροντος Selected Data Preprocessed Data Patterns Knowledge Postprocessing Mining Υπολογισμός του Μέτρου Ενδιαφέροντος Έστω ένας κανόνας, X Y, η πληροφορία που χρειάζεται για τον υπολογισμό του ενδιαφέροντος του κανόνα μπορεί να υπολογιστεί από τον contingency table Contingency table for X Y X X Y f Y f f f f o+ f + T f + f + f : support of X and Y f : support of X and Y f : support of X and Y f : support of X and Y Data Preprocessing Μέτρηση συχνότητας εμφάνισης Χρησιμοποιείται για τον ορισμό διαφόρων μέτρων Selection Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 62 Μειονεκτήματα της Εμπιστοσύνης Tea Tea Coffee 5 75 9 Coffee 5 5 2 8 Μέτρηση Ενδιαφέροντος Ενδιαφερόμαστε για τη σχέση μεταξύ αυτών που πίνουν καφέ και αυτών που πίνουν τσάι Κανόνας Συσχέτισης: Tea Coffee Εμπιστοσύνη = P(Coffee Tea) =.75 αλλά P(Coffee) =.9 Ενώ ο κανόνας έχει υψηλή εμπιστοσύνη, ο κανόνας είναι παραπλανητικός P(Coffee Tea) =.9375 Αγνοεί την υποστήριξη του RHS Στατιστική Ανεξαρτησία Πληθυσμός σπουδαστών 6 σπουδαστές ξέρουν κολύμπι (S) 7 σπουδαστές ξέρουν ποδήλατο (B) 42 σπουδαστές ξέρουν κολύμπι και ποδήλατο (S,B) P(S B) = 42/ =.42 P(S) P(B) =.6.7 =.42 Μέτρα βασισμένα στη Στατιστική P(S B) = P(S) P(B) => Στατιστική ανεξαρτησία P(S B) > P(S) P(B) => Positively correlated (θετική συσχέτιση) P(S B) < P(S) P(B) => Negatively correlated (αρνητική συσχέτιση) Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 63 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 64 Μέτρα βασισμένα στη Στατιστική Μέτρα βασισμένα στη Στατιστική Μέτρα που λαμβάνουν υπ όψιν τους στη στατιστική εξάρτηση P( Y X ) Lift = P( Y ) Χ Υ P( X, Y ) Interest = P( X ) P( Y ) PS = P( X, Y ) P( X ) P( Y ) P( X, Y ) P( X ) P( Y ) φ coefficient = P( X )[ P( X )] P( Y )[ P( Y )] Παράδειγμα: Lift/Interest Coffee Coffee Tea 5 5 2 Tea 75 5 8 9 Κανόνας συσχέτιση: Tea Coffee Εμπιστοσύνη= P(Coffee Tea) =.75 αλλά P(Coffee) =.9 Lift =.75/.9=.8333 (<, άρα αρνητικά συσχετιζόμενα) Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 65 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 66
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 67 Μέτρα βασισμένα στη Στατιστική Μειονεκτήματα του Lift & Interest Y Y Y Y X X 9 9 X 9 9 X 9 9. Lift = =.9 Lift = =. (.)(.) (.9)(.9) Μεγαλύτερο αν και σπάνια εμφανίζονται Στατιστική ανεξαρτησία: μαζί If P(X,Y)=P(X)P(Y) => Lift = Example: φ-coefficient φ-coefficient is analogous to correlation coefficient for continuous variables X X Y 6 7 Y 2 3 7 3.6.7.7 φ =.7.3.7.3 =.5238 X X Y 2 3 φ Coefficient is the same for both tables Y 6 7 3 7.2.3.3 φ =.7.3.7.3 =.5238 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 68 Στη βιβλιογραφία έχουν προταθεί πολλές μέτρα ανάλογα με την εφαρμογή Με ποια κριτήρια θα επιλέξουμε ένα καλό μέτρο; Ιδιότητες ενός Καλού Μέτρου Piatetsky-Shapiro: Αποτίμηση Κανόνων Συσχέτισης Πως έναν Aprioristyle support based pruning επηρεάζει αυτά τα μέτρα; 3 ιδιότητες που πρέπει να ικανοποιεί ένα καλό μέτρο M: M(A,B) = αν τα Α και Β είναι στατιστικά ανεξάρτητα M(A,B) αυξάνει μονότονα με το P(A,B) όταν τα P(A) και P(B) παραμένουν αμετάβλητα M(A,B) μειώνεται μονότονα με το P(A) [ή το P(B)] όταν τα P(A,B) και P(B) [ή P(A)] παραμένουν αμετάβλητα Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 69 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 7 Αποτίμηση Κανόνων Συσχέτισης Ιδιότητες Μέτρων Αποτίμησης Σύγκριση Μέτρων παραδείγματα contingency πινάκων: Ιεράρχηση των πινάκων με βάση τα διάφορα μέτρα ( ο πιο ενδιαφέρον, ο λιγότερο ενδιαφέρον): Example f f f f E 823 83 424 37 E2 833 2 622 46 E3 948 94 27 298 E4 3954 38 5 296 E5 2886 363 32 443 E6 5 2 5 6 E7 4 2 3 E8 4 2 2 2 E9 72 72 5 54 E 6 2483 4 7452 Αλλαγή ιάταξης Μεταβλητών (variable permutation) B B A p q A r s Συμμετρικά (symmetric) μέτρα: Ισχύει M(A,B) = M(B,A)? A A B p r B q s Γενικά συμμετρικά μέτρα για στοιχειοσύνολα και μη συμμετρικά για κανόνες support (υποστήριξη), lift, collective strength, cosine, Jaccard, etc Μη συμμετρικά (asymmetric) μέτρα: confidence (εμπιστοσύνη), conviction, Laplace, J-measure, etc Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 7 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 72
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 73 Ιδιότητες Μέτρων Αποτίμησης Ιδιότητες Μέτρων Αποτίμησης Κλιμάκωση Γραμμής/Στήλης (Row/Column Scaling) Παράδειγμα Βαθμός-Φύλο (Mosteller, 968): High Low Male 2 3 Female 3 4 7 5 5 High Low Male 4 2 6 2x Female Mosteller: Η συσχέτιση πρέπει να είναι ανεξάρτητη από το σχετικό αριθμό αγοριών-κοριτσιών στο δείγμα Invariant under the row/column scaling operation αν Μ(Τ) = Μ(Τ ) όπου Τ o πίνακας contingency με μετρητές συχνότητας [f, f ; f ; f ] και Τ o πίνακας contingency με μετρητές συχνότητας [κ κ 3 f, κ 2 κ 3 f ; κ κ 4 f ; κ 2 κ 4 f ] όπου κ, κ 2, κ 3, κ 4 θετικές σταθερές 3 4 7 x 34 42 76 Αντιστροφή (Inversion Operation) Transaction. Transaction N A B C D (a) (b) E (c) F Invariant under the inversion operation αν η τιμή της παραμένει η ίδια αν ανταλλάξουμε τις τιμές f και f και τις τιμές f και f Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 74 Ιδιότητες Μέτρων Αποτίμησης Ιδιότητες Μέτρων Αποτίμησης Null Addition (προσθήκη μη σχετιζόμενων στοιχείων) B B A p q A r s Invariant measures: B B A p q A r s + k εν επηρεάζονται από την αύξηση του f όταν οι άλλες τιμές παραμένουν αμετάβλητες support, cosine, Jaccard, etc Non-invariant measures: correlation, Gini, mutual information, odds ratio, etc Sym bol Measure Range P P2 P3 O O2 O3 O3' O4 Φ - Yes Yes Yes Yes No Yes Yes No λ Lambda Yes No No Yes No No* Yes No α Odds ratio Yes* Yes Yes Yes Yes Yes* Yes No Q Yule's Q - Yes Yes Yes Yes Yes Yes Yes No Y Yule's Y - Yes Yes Yes Yes Yes Yes Yes No κ Cohen's - Yes Yes Yes Yes No No Yes No M Mutual Information Yes Yes Yes Yes No No* Yes No J J-Measure Yes No No No No No No No G Gini Index Yes No No No No No* Yes No s Support No Yes No Yes No No No No c Confidence No Yes No Yes No No No Yes L Laplace No Yes No Yes No No No No V Conviction.5 No Y es No Y es** No No Y es No I Interest Yes* Yes Yes Yes No No No No IS IS (cosine).. No Yes Yes Yes No No No Yes PS Piatetsky-Shapiro's -.25.25 Yes Yes Yes Yes No Yes Yes No F Certainty factor - Yes Yes Yes No No No Yes No AV Added value.5 Yes Yes Yes No No No No No S Collective strength No Yes Yes Yes No Yes* Yes No ζ Jaccard.. No Yes Yes Yes No No No Yes 2 2 K Klosgen's 2 3 K K Y es Y es Y es No No No No No 3 3 3 3 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 75 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 76 Αποτίμηση Κανόνων Συσχέτισης Ελάττωση με Βάση την Υποστήριξη Buy HDTV Yes No Παράδοξο του Simpson Yes 99 54 53 Buy Exercise Machine No 8 66 47 8 2 3 Students Buy HDTV Buy Exercise Machine Yes No Yes 9 No 4 3 34 Working adults Buy HDTV Buy Exercise Machine Yes No Yes 98 72 7 No 5 36 86 Support-based Pruning Οι περισσότεροι αλγόριθμοι για την εξόρυξη κανόνων συσχέτισης χρησιμοποιούν την υποστήριξη για να μειώσουν (prune) κανόνες και στοιχειοσύνολα Μελέτη του αποτελέσματος της μείωσης στη συσχέτιση των στοιχειοσυνόλων ημιουργία τυχαίων contingency tables Υπολογισμός της υποστήριξης και της ανα-δύο συσχέτισης των πινάκων Εφαρμογή της ελάττωσης με βάση την υποστήριξη και μελέτη των πινάκων που αφαιρέθηκαν Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 77 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 78
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 79 Ελάττωση με Βάση την Υποστήριξη Ελάττωση με Βάση την Υποστήριξη Support <. Support <.3 All Itempairs 3 25 3 25 2 2 9 5 5 8 7 6 5 - -.9 -.8 -.7 -.6 -.5 -.4 -.3 -.2 -...2.3.4.5.6.7.8.9 5 - -.9 -.8 -.7 -.6 -.5 -.4 -.3 -.2 -...2.3.4.5.6.7.8.9 5 4 3 2 - -.9 -.8 -.7 -.6 -.5 -.4 -.3 -.2 -...2.3.4.5.6.7.8.9 Κυρίως αφαιρεί στοιχειοσύνολα που σχετίζονται αρνητικά Support <.5 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 8 3 25 2 5 5 - -.9 -.8 -.7 -.6 -.5 -.4 -.3 -.2 -...2.3.4.5.6.7.8.9 Ελάττωση με Βάση την Υποστήριξη Ελάττωση με Βάση την Υποστήριξη Χωρίς ελάττωση (Όλα τα ζεύγη) Μελέτη του πως επηρεάζει τα άλλα μέτρα Conviction All Pairs (4.4%) Βήματα: ημιουργία contingency tables Ιεράρχηση κάθε πίνακα με βάση τα διαφορετικά μέτρα Υπολογισμός της ανά-δύο συσχέτισης μεταξύ των μέτρων Odds ratio Col Strength Interest PS CF Yule Y Reliability Kappa Klosg en Yule Q Confidence Laplace IS Support Jaccard Lambda Gini J-measure.9 Jaccard.8.7.6.5.4.3.2. - -.8 -.6 -.4 -.2.2.4.6.8 Mutual Info 2 3 4 5 6 7 8 9 2 3 4 5 6 7 8 9 2 2 Red cells indicate correlation between the pair of measures >.85 4.4% pairs have correlation >.85 Scatter Plot between & Jaccard Measure Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 8 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 82 Ελάττωση με Βάση την Υποστήριξη Ελάττωση με Βάση την Υποστήριξη.5% support 5%.5 <= support <=.5 (6.45%).5% support 3%.5 <= support <=.3 (76.42%) Interest Conviction Odds ratio Col Strength Laplace Confidence Klosg en Reliability PS Yule Q CF Yule Y Kappa IS Jaccard Support Lambda Gini J-measure Support.9 Interest Reliability.9.8 Conviction Yule Q.8.7 Odds ratio.7.6 Confidence CF.6 Jaccard.5 Yule Y Kappa Jaccard.5.4.4.3 Col Strength IS.3.2 Jaccard Laplace.2. PS. Klosg en - -.8 -.6 -.4 -.2.2.4.6.8 Lambda Mutual Info -.4 -.2.2.4.6.8 Gini Mutual Info 2 3 4 5 6 7 8 9 2 3 4 5 6 7 8 9 2 2 6.45% pairs have correlation >.85 Scatter Plot between & Jaccard Measure: J-measure 2 3 4 5 6 7 8 9 2 3 4 5 6 7 8 9 2 2 76.42% pairs have correlation >.85 Scatter Plot between & Jaccard Measure Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 83 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 84
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 85 Υποκειμενικά Μέτρα Ενδιαφέροντος Υποκειμενικά Μέτρα Ενδιαφέροντος Interestingness via Unexpectedness Αντικειμενικά Μέτρα: Rank patterns based on statistics computed from data e.g., 2 measures of association (support, confidence, Laplace, Gini, mutual information, Jaccard, etc). + Pattern expected to be frequent - Pattern expected to be infrequent Pattern found to be frequent Υποκειμενικά Μέτρα: Ιεράρχηση των προτύπων με βάση την ερμηνεία του χρήστη A pattern is subjectively interesting if it contradicts the expectation of a user (Silberschatz & Tuzhilin) A pattern is subjectively interesting if it is actionable (Silberschatz & Tuzhilin) + - - + Pattern found to be infrequent Expected Patterns Unexpected Patterns Need to model expectation of users (domain knowledge) Need to combine expectation of users with evidence from data (i.e., extracted patterns) Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 86 Οπτικοποίηση: Απλός Γράφος Οπτικοποίηση: Γράφος Κανόνων Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 87 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 88 Οπτικοποίηση: (SGI/MineSet 3.) Κανόνων Συσχέτισης Πολλαπλών Επιπέδων Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 89 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 9
Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 9 Κανόνες Συσχέτισης Πολλών Επιπέδων Κανόνες Συσχέτισης Πολλών Επιπέδων Food Electronics Γιατί είναι χρήσιμοι; Bread Milk Computers Home Οι κανόνες στα χαμηλότερα επίπεδα δεν έχουν αρκετή υποστήριξη σε κανένα στοχειοσύνολο Οι κανόνες στα χαμηλότερα επίπεδα είναι πάρα πολύ συγκεκριμένοι Wheat White Skim 2% Desktop Laptop Accessory TV DVD π.χ., skim milk white bread, 2% milk wheat bread, skim milk wheat bread, etc. είναι ενδεικτικοί της συσχέτισης μεταξύ γάλατος και ψωμιού Foremost Kemps Printer Scanner Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 92 Κανόνες Συσχέτισης Πολλών Επιπέδων Κανόνες Συσχέτισης Πολλών Επιπέδων Προσέγγιση : Επέκταση κάθε δοσοληψίας με στοιχεία από τα υψηλότερα επίπεδα της ιεραρχίας Αρχική οσοληψία: {skim milk, wheat bread} Επαυξημένη οσοληψία: {skim milk, wheat bread, milk, bread, food} Θέματα: Τα στοιχεία στα υψηλότερα επίπεδα θα εμφανίζονται πολύ συχνά, μεγάλους μετρητές υποστήριξης if support threshold is low, too many frequent patterns involving items from the higher levels Increased dimensionality of the data How do support and confidence vary as we traverse the concept hierarchy? If X is the parent item for both X and X2, then σ(x) σ(x) + σ(x2) If σ(x Y) minsup, and X is parent of X, Y is parent of Y then σ(x Y) minsup, σ(x Y) minsup σ(x Y) minsup If conf(x Y) minconf, then conf(x Y) minconf Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 93 Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 94 Κανόνες Συσχέτισης Πολλών Επιπέδων Approach 2: Generate frequent patterns at highest level first Then, generate frequent patterns at the next highest level, and so on Issues: I/O requirements will increase dramatically because we need to perform more passes over the data May miss some potentially interesting cross-level association patterns Εξόρυξη Δεδομένων: Ακ. Έτος 26-27 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Ι 95