Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 26 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Εισαγωγή Ορισμοί Market-asket transactions (Το καλάθι της νοικοκυράς!) TI Items read, Milk 2 read, iaper, eer, ggs 3 Milk, iaper, eer, oke Το πρόβλημα: εδομένου ενός συνόλου δοσοληψιών (transactions), βρες κανόνες που προβλέπουν την εμφάνιση στοιχείων (item) με βάση την εμφάνιση άλλων στοιχείων στις συναλλαγές Παραδείγματα κανόνων συσχέτισης 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke {iaper} {eer}, δοσοληψία (transaction) στοιχείο (item) Προώθηση προϊόντων Τοποθέτηση προϊόντων στα ράφια ιαχείριση αποθεμάτων {Milk, read} {ggs,oke}, {eer, read} {Milk} Σημαίνει ότι εμφανίζονται μαζί, όχι ότι η εμφάνιση του ενός είναι η αιτία της εμφάνισης του άλλου (co-occurrence, not causality όχι έννοια χρόνου ή διάταξης) στοιχειοσύνολο (itemset): Ένα υποσύνολο του συνόλου των στοιχείων k-στοιχειοσύνολο (k-itemset): ένα στοιχειοσύνολο με k στοιχεία support count (σ) ενός στοιχειοσυνόλου: ο αριθμός εμφανίσεων του στοιχείου Υποστήριξη (Support (s)) ενός στοιχειοσυνόλου Το ποσοστό των δοσοληψιών που περιέχουν ένα στοιχειοσύνολο Συχνό Στοιχειοσύνολο (Frequent Itemset) Ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου minsup TI Items read, Milk 2 read, iaper, eer, ggs 3 Milk, iaper, eer, oke 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Κανόνας Συσχέτισης (ssociation Rule) Είναι μια έκφραση της μορφής X Y, όπου X και Y είναι στοιχειοσύνολα Χ Ι, Υ Ι, Χ Υ = Παράδειγμα: {Milk, iaper} {eer} TI Items Ορισμοί read, Milk 2 read, iaper, eer, ggs 3 Milk, iaper, eer, oke 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke Υποστήριξη Κανόνα Support (s) Το ποσοστό των δοσοληψιών που περιέχουν και το X και το Y(Χ Υ) Εμπιστοσύνη -onfidence(c) Πόσες από τις δοσοληψίες (ποσοστό) που περιέχουν το Χ περιέχουν και το Υ Πρόβλημα Εύρεση Κανόνων Συσχέτισης Είσοδος: Ένα σύνολο από δοσοληψίες T Έξοδος: Όλοι οι κανόνες με support minsup confidence minconf Χωρισμός του προβλήματος σε δύο υπο-προβλήματα: Εξόρυξη Κανόνων Συσχέτισης Εύρεση όλων των συχνών στοιχειοσυνόλων (Frequent Itemset Generation) Εύρεση όλων των στοιχειοσυνόλων με υποστήριξη minsup ημιουργία Κανόνων (Rule Generation) Για κάθε (συχνό) στοιχειοσύνολο, δημιούργησε κανόνες με μεγάλη υποστήριξη, όπου κάθε κανόνες είναι μια δυαδική διαμέριση (δηλ. χωρισμός στα δύο) του συχνού στοιχειοσυνόλου Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Itemset Lattice - Πλέγμα Στοιχειοσυνόλων Εύρεση Συχνών Στοιχειοσυνόλων Όλα τα δυνατά στοιχειοσύνολα όταν έχουμε 5 στοιχεία Αρχή priori Αν ένα στοιχειοσύνολο είναι συχνό, τότε όλα τα υποσύνολα του είναι συχνά Ή ισοδύναμα αν ένα στοιχειοσύνολο είναι μη συχνό, όλα τα υπερσύνολα του είναι μη συχνά Εύρεση Συχνών Στοιχειοσυνόλων: Στρατηγική apriori βρέθηκε μη συχνό Για d στοιχεία, 2 d πιθανά στοιχειοσύνολα ψαλιδισμένα υπερσύνολα Support-based pruning Ψαλίδισμα με βάση την υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Στρατηγική apriori Στρατηγική apriori: ημιουργία Στοιχειοσυνόλων Για την παραγωγή υποψήφιων k-στοιχειοσυνόλων Γενικός Αλγόριθμος για την Εύρεση Συχνών Στοιχειοσυνόλων Έστω k = #k: μήκος στοιχειοσυνόλου Παρήγαγε τα συχνά -στοιχειοσύνολα Repeat until να μην παράγονται νέα συχνά στοιχειοσύνολα. Παρήγαγε υποψήφια (k+)-στοιχειοσύνολα 2. Ψαλίδισε τα υποψήφια στοιχειοσύνολα που περιέχουν μη συχνά στοιχειοσύνολα μεγέθους k 3. Υπολόγισε την υποστήριξη κάθε υποψήφιου (k+)- στοιχειοσυνόλου διασχίζοντας τη βάση των δοσοληψιών 4. Σβήσε τα υποψήφια στοιχειοσύνολα που δεν είναι συχνά 5. k=k + F k- x F Επέκταση κάθε συχνού (k-) στοιχειοσυνόλου με άλλα συχνά στοιχεία F k- x F k- Συγχώνευση δύο συχνών (k-) στοιχειοσυνόλου αν τα πρώτα k-2 στοιχεία τους είναι τα ίδια Για να αποφύγουμε τη δημιουργία του ίδιου στοιχειοσυνόλου, κρατάμε κάθε στοιχειοσύνολο (λεξικογραφικά) ταξινομημένο Ψαλίδισμα Είναι δυνατόν να γίνουν απλοί έλεγχοι αν τα παραγόμενα πιθανά στοιχειοσύνολα είναι συχνά ελέγχοντας αν τα υποσύνολα τους είναι συχνά και έτσι να αποφύγουμε να υπολογίσουμε την υποστήριξή τους Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Στρατηγική apriori: Υπολογισμός Υποστήριξης Παραγωγή Κανόνων Για κάθε νέο υποψήφιο k+-στοιχειοσύνολο, πρέπει να υπολογίσουμε την υποστήριξή του Σε κάθε βήμα k+ Για να μειώσουμε τον αριθμό των πράξεων, αποθηκεύουμε τα υποψήφια k+-στοιχειοσύνολα σε ένα δέντρο κατακερματισμού Αντί να ταιριάζουμε κάθε δοσοληψία με κάθε υποψήφιο στοιχειοσύνολο, κατακερματίζουμε τα k+-στοιχειοσύνολα της δοσοληψίας και ενημερώνουμε μόνο τους αντίστοιχους κάδους του δέντρου κατακερματισμού των συχνών στοιχειοσυνόλων οθέντος ενός συχνού στοιχειοσυνόλου L, βρεςόλαταμηκενάυποσύνολαf L τέτοια ώστε ο κανόνας f L f ικανοποιεί τον περιορισμό της ελάχιστης εμπιστοσύνης Η εμπιστοσύνη για τους κανόνες που παράγονται από το ίδιο στοιχειοσύνολο έχει μια αντι-μονότονη ιδιότητα Για παράδειγμα L = {,,,}: c( ) c( ) c( ) Η εμπιστοσύνη είναι αντι-μονότονη σε σχέση με των αριθμό των στοιχείων στο RHS του κανόνα Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Παραγωγή Κανόνων για τον Αλγόριθμο apriori Αναπαράσταση Στοιχειοσυνόλων Πλέγμα Κανόνων για το Στοιχειοσύνολο {Α,,, } Ψαλίδισμα με βάση την εμπιστοσύνη Έστω κόμβος =>{ } με μικρή εμπιστοσύνη Για κάθε συχνό στοιχειοσύνολο, ξεκινάμε με => => => => έναν κανόνα που έχει μόνο k= στοιχείο στο δεξί μέρος του Υπολογίζουμε την εμπιστοσύνη Παράγουμε κανόνες με k+ => => => => => => στοιχεία στο δεξί μέρος και υπολογίζουμε την εμπιστοσύνη τους Σημείωση: Για τον υπολογισμό της εμπιστοσύνης δεν χρειάζεται να διαπεράσουμε τη => => => => βάση Ψαλιδισ μένοι κανόνες Τα στοιχειοσύνολα που παράγονται είναι πολλά, κάποια ίσως περιττά οδηγούν σε παραγωγή πολλών κανόνων Ποια να κρατήσουμε; Ψάχνουμε για αντιπροσωπευτικά συχνά στοιχειοσύνολα (δηλαδή, να μπορούμε να πάρουμε από αυτά ακριβώς όλα τα συχνά και ιδεατά να μπορούμε να υπολογίσουμε και την υποστήριξη όλων των συχνών): Maximal συχνά Κλειστά συχνά Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Αναπαράσταση Στοιχειοσυνόλων Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι maximal συχνό αν κανένα από τα άμεσα υπερσύνολά του δεν είναι συχνό Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων: το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα είναι τα υποσύνολά τους ΟΜΩΣ: εν προσφέρουν καμιά πληροφορία για την υποστήριξη των υποσυνόλων τους Συχνά Μη συχνά Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό (δηλαδή, έχει μικρότερη υποστήριξη) Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και συχνό (δηλαδή, η υποστήριξητουείναιμεγαλύτερηήίσημεminsup) Πάλι τα υποσύνολα τους μας δίνουν όλα τα συχνά υποσύνολα, τώρα όμως μπορούμε να υπολογίσουμε την υποστήριξη των υποσυνόλων τους Πως: Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6 TI στοιχεία 2 3 4 5 Αναπαράσταση Στοιχειοσυνόλων Maximal vs losed Itemsets ΤIs 24 23 234 245 345 2 24 24 4 23 2 3 24 34 45 Ελάχιστη υποστήριξη = 2 Αναπαράσταση Στοιχειοσυνόλων Maximal vs losed Itemsets Κλειστά αλλά όχι maximal 24 23 234 245 345 2 24 24 4 23 2 3 24 34 45 Κλειστά και maximal 2 2 24 4 4 2 3 4 2 2 24 4 4 2 3 4 Δεν εμφανίζονται σε καμιά δοσοληψία 2 4 2 4 # losed = 9 # Maximal = 4 Για να υπολογίσουμε όλα τα συχνά στοιχειοσύνολα και την υποστήριξη τους, ξεκινάμε από τα μεγαλύτερα κλειστά και προχωράμε Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Ο priori από τους παλιότερους, αλλά: Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Συχνά μεγάλο I/O επειδή κάνει πολλαπλά περάσματα στη βάση των δοσοληψιών Κακή απόδοση όταν οι δοσοληψίες έχουν μεγάλο πλάτος Άλλες μέθοδοι: ιαφορετικές διασχίσεις του πλέγματος των στοιχειοσυνόλων Αναπαράσταση Συνόλου οσoληψιών Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων priori: Γενικά-προς-Συγκεκριμένα k- -> k Πλέγμα Στοιχεισυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: Συγκεκριμένα-προς-Γενικά vs Γενικά-προς-Συγκεκριμένα k -> k (συγκεκριμένο-προς-γενικό) Πιο χρήσιμο για τον εντοπισμό maximal συχνών στοιχειοσυνόλων σε πυκνές (δηλ, με μεγάλο πλάτος δοσοληψίες) όπου το συχνό στοιχειοσύνολο βρίσκεται κοντά στο κατώτατο σημείο του πλέγματος Αν συχνό, δε χρειάζεται να ελέγξουμε κανένα από τα υποσύνολά του k -> k - Συγκεκριμένα-προς-Γενικά Αν αυτό είναι το συχνό, το βρίσκουμε αφού εξετάσουμε όλα τα υποσύνολά του Αν τα συχνά είναι προς το κατώτατο σημείο (bottom) τους πλέγματος, ίσως συμφέρει Γενικό-προς-Συγκεκριμένο Συγκεκριμένο-προς-Γενικό ιπλής Κατεύθυνσης Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 22 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: Κλάσεις Ισοδυναμίας Χωρισμός των στοιχειοσυνόλων του πλέγματος σε ξένες μεταξύ τους ομάδες (κλάσεις ισοδυναμίας) και εξέταση των στοιχειοσυνόλων ανά κλάσεις priori: ορίζει τις κλάσεις με βάση το μήκος k των στοιχειοσυνόλων, πρώτα αυτά μήκους, μετά μήκους 2 κοκ Prefix (Suffix): ύο στοιχειοσύνολα ανήκουν στην ίδια κλάση αν έχουν κοινό πρόθεμα (ή επίθημα-κατάληξη) μήκους k priori ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: FS vs FS FS: epth-first-search Διάσχιση κατά Βάθος (a) Prefix tree (b) Suffix tree FS: readth-first-search Διάσχιση κατά Πλάτος Χρήσιμο για την εύρεση maximal συχνών στοιχειοσυνόλων γιατί τα εντοπίζει πιο γρήγορα από το FS Μόλις εντοπιστεί το maximal, είναι δυνατόν να κλαδευτούν πολλά υποσύνολα του Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 23 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 24

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 25 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: FS vs FS Αναπαράσταση της Βάσης εδομένων: Οριζόντια vs Κάθετη Άλλοι Τρόποι Υπολογισμού Αυτό χρησιμοποιεί ο apriori Εναλλακτικά: Για κάθε στοιχείο σε ποιες δοσοληψίες εμφανίζεται Prune μόνο τa ab και ac Μπορούμε να κάνουμε prune όλο το υποδέντρο Maximal συχνό στοιχειοσύνολο Οριζόντια Διάρθρωση Δεδομένων TI Items,, 2,, 3, 4,, 5,,, 6, 7, 8,, 9,, Κάθετη Διάρθρωση Δεδομένων 2 2 4 2 3 4 3 5 5 4 5 6 6 7 8 9 7 8 9 8 9 Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TI-λιστών Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 26 Άλλοι Τρόποι Υπολογισμού Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TI-λιστών 4 5 6 7 8 9 2 5 7 8 Η υποστήριξη ενός k-στοιχειοσυνόλου υπολογίζεται παίρνοντας τις τομές των TIλιστών δύο από τα (k-)-ύπο-στοιχειοσύνολα του. 5 7 8 Ο Πλεονέκτημα: πολύ γρήγορος υπολογισμός της υποστήριξης Πρόβλημα, αν οι TI-λίστες είναι μεγάλες και δε χωρούν στη μνήμη Θα δούμε τον FP-Growth που χρησιμοποιεί μια prefix-based αναπαράσταση των δοσοληψιών Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 27 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 28 Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο -prefix tree (trie) Ο αλγόριθμος κατασκευής διαβάζει μια δοσοληψία τη φορά, απεικονίζει τη δοσοληψία σε ένα μονοπάτι του FP-δέντρου Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση Μόλις κατασκευαστεί το FP-δέντρο, ο αλγόριθμος χρησιμοποιεί μια αναδρομική διαίρει-και-βασίλευε (divide-and-conquer) προσέγγιση για την εξόρυξη των συχνών στοιχειοσυνόλων TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου To FP-δέντρο είναι ένα προθεματικό δέντρο Επειδή έχουμε σύνολα, κάπως πρέπει να τα διατάξουμε ώστε να βρίσκουμε προθέματα ηλαδή δε μπορεί το ένα σύνολο να είναι {Α, Β} και το άλλο {Β,, } γιατί χάνουμε το κοινό πρόθεμα ΑΒ (ή ΒΑ) Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική (θα δούμε αργότερα αν κάτι άλλο συμφέρει καλύτερα) Αρχικά, το δέντρο κενό Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 29 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=: : : TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=: : : Διάβασμα TI=2: : Κάθε κόμβος έχει μια ετικέτα: ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Κάθε κόμβος ετικέτα, ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Επίσης, δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 32 TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=, 2: Πίνακας εικτών : : : TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=, 2: Διάβασμα TI=3 Πίνακας εικτών : : : Επίσης, κρατάμε πίνακα δεικτών για να βοηθήσουν στον υπολογισμό των συχνών στοιχειοσυνόλων Item Pointer Item Pointer Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 33 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 34 TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=, 2: Διάβασμα TI=3 Πίνακας εικτών Item Pointer : :2 : : TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=, 2: Διάβασμα TI=3 Πίνακας εικτών Item Pointer : :2 : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 35 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 36

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 37 TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Πίνακας Δεικτών Item Pointer Κατασκευή FP-δέντρου :5 : : : Μέγεθος FP-δέντρου Κάθε δοσοληψία αντιστοιχεί σε ένα μονοπάτι από τη ρίζα Το μέγεθος του δέντρου συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα Αν όλες οι δοσοληψίες τα ίδια δεδομένα, μόνο ένα κλαδί Αν όλες διαφορετικές, ο χώρος μεγαλύτερος (γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύτωνκόμβωναλλάκαισυχνότητεςεμφάνισης) Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 38 Κατασκευή FP-δέντρου TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Το τελικό δέντρο, εξαρτάται από τη διάταξη: άλλη διάταξη -> άλλα προθέματα (Συνήθως) μικρότερο δέντρο, αν όχι λεξικογραφικά, αλλά με βάση τη συχνότητα εμφάνισης -> Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό Επίσης, αγνοούμε όσα στοιχεία είναι μη συχνά Για τo παράδειγμα, σ(α)=7, σ(β)=8, σ()=7, σ()=5, σ(ε)=3 Άρα, διάταξη Β,Α,,, TI Items {Β,Α} 2 {,,} 3 {,,,} 4 {,,} 5 {Β,Α,} 6 {Β,Α,,} 7 {,} 8 {Β,Α,} 9 {Β,Α,} {,,} Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 39 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Είσοδος: FP-δέντρο Έξοδος: Συχνάστοιχειοσύνολακαιηυποστήριξητους Μέθοδος ιαίρει-και-βασίλευε o Χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν σε,,,, o Μετά αυτά που τελειώνουν σε σε αυτά σε,,, κοκ Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλαταστοιχειοσύνολα Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλαταστοιχειοσύνολα Ε Ε Όλαταδυνατάστοιχειοσύνολα! Όλαταδυνατάστοιχειοσύνολα! Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 42

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 43 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλαταστοιχειοσύνολα Όλαταστοιχειοσύνολα Ε Ε Όλαταδυνατάστοιχειοσύνολα! Όλαταδυνατάστοιχειοσύνολα! Στο δέντρο μπορεί να υπάρχουν λιγότερα! Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 44 TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Χρήση FP-δέντρου για εύρεση συχνών στοιχειοσυνόλων Υποπρόβλημα: Βρες συχνά στοιχειοσύνολα που τελειώνουν σε :5 :5 Header table Item Pointer : : Πως; : ottom-up traversal του δέντρου Αυτά που τελειώνουν σε, μετά αυτά που τελειώνουν σε,, και τέλος Α suffix-based classes (επίθεμα κατάληξη) Header table Item Pointer : : : Θα δούμε στη συνέχεια πως υπολογίζεται η υποστήριξη γιαταπιθανάστοιχειοσύνολα Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 45 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 46 Για το Για το :5 :5 Header table Item Pointer : : : Header table Item Pointer : : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 47 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 48

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 49 Για το Α Για το :5 :5 Header table Item Pointer : : : Header table Item Pointer : : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Συνοπτικά Σε κάθε βήμα, για το suffix Χ Φάση κατασκευάζουμε το προθεματικό δέντρο για το Χ και υπολογίζουμε την υποστήριξη χρησιμοποιώντας τον πίνακα Φάση 2 Αν είναι συχνό, κατασκευάζουμε το υπο-συνθήκη δέντρο για το Χ, σε βήματα επανα-υπολογισμός υποστήριξης περικοπή κόμβων με μικρή υποστήριξη περικοπή φύλλων Φάση κατασκευή προθεματικού δέντρου Όλα τα μονοπάτια που περιέχουν το Προθεματικά Μονοπάτια (prefix paths) Header table Item Pointer :5 : : : Προθεματικά μονοπάτια του Ε: {}, {,}, {,,}, {,,Ε}, {,,,}, {,}, {,,} Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 52 Φάση Έστω minsup = 2 Όλα τα μονοπάτια που περιέχουν το Προθεματικά Μονοπάτια (prefix paths) Βρες την υποστήριξη του {} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας ++=3>2 Οπότε {Ε} συχνό : : : : : : Προθεματικά μονοπάτια του Ε: {}, {,}, {,,}, {,,Ε}, {,,,}, {,}, {,,} {} συχνό άρα προχωράμε για,,, Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 53 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 54

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 55 {} συχνό άρα προχωράμε για,,, Αλλαγή μετρητών Φάση 2 Μετατροπή των προθεματικών δέντρων σε FP-δέντρο υπό συνθήκες (conditional FP-tree) Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν δοσοληψίες που δεν έχουν το Ε Πχ στο ->->-> μετράμε και την {, } ύο αλλαγές () Αλλαγή των μετρητών (2) Περικοπή : : : : : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 56 : : : : : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 57 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 58 : : : : : : : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 59 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6 : :2 : : : : : : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 62 Περικοπή (truncate) Σβήσε τους κόμβους του Ε :2 : :2 : : : : : : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 63 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 64 Περικοπή (truncate) Περικοπή (truncate) Σβήσε τους κόμβους του Ε Σβήσε τους κόμβους του Ε :2 : :2 : : : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 65 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 66

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 67 Πιθανή περαιτέρω περικοπή Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης Πχ το Β -> περικοπή :2 : :2 : Αυτό σημαίνει ότι το Β εμφανίζεται μαζί με το λιγότερο από minsup φορές Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 68 :2 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 69 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Φάση Φάση Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 72

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 73 Βρες την υποστήριξη του {, } Πως; Ακολούθησε τους συνδέσμους αθροίζοντας +=2 2 Οπότε {, Ε} συχνό :2 Φάση 2 Κατασκεύασε το υπο-συνθήκη FPδέντρο για το {, }. Αλλαγή υποστήριξης 2. Περικοπές κόμβων :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 74. Αλλαγή υποστήριξης 2. Περικοπές κόμβων :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 75 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 76 2. Περικοπές κόμβων 2. Περικοπές κόμβων :2 :2 Μικρή υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 77 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 78

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 79 Τελικό υπο-συνθήκη FP-δέντρο για το {, } Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 :2 Υποστήριξη του Α είναι minsup -> {Α,, } συχνό Αφού μόνο έναν κόμβο, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Φάση Φάση Όλα τα μονοπάτια που περιέχουν το () Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 82 Βρες την υποστήριξη του {, } Πως; Ακολούθησε τους συνδέσμους αθροίζοντας +=2 2 Οπότε {, Ε} συχνό :2 Κατασκεύασε το υπο-συνθήκη FPδέντρο για το {, }. Αλλαγή υποστήριξης 2. Περικοπές κόμβων :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 83 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 84

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 85. Αλλαγή υποστήριξης 2. Περικοπή Κόμβων : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 86 2. Περικοπή Κόμβων 2. Περικοπή Κόμβων : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 87 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 88 2. Περικοπή Κόμβων Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 Άρα, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 89 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Φάση Φάση Όλα τα μονοπάτια που περιέχουν το Α () Όλα τα μονοπάτια που περιέχουν το Α () Προθεματικά Μονοπάτια (prefix paths) :2 Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 92 Βρες την υποστήριξη του {Α, } Οπότε {Α, Ε} συχνό ε χρειάζεται να φτιάξουμε υποσυνθήκη FP-δέντρο για το {Α, Ε} :2 Άρα για το Ε Έχουμε τα εξής συχνά στοιχειοσύνολα {Ε} {, } {,, } {, } {, } Συνεχίζουμε για το Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 93 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 94 Φάση Όλα τα προθεματικά μονοπάτια που περιέχουν το Για το Υποστήριξη συχνό 5>2 -> άρα :5 Μετατροπή του προθεματικού δέντρου σε FP-δέντρο υπό συνθήκη :5 Header table Item Pointer : : : Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 95 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 96

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 97. Αλλαγή υποστήριξης. Αλλαγή υποστήριξης :5 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 98. Αλλαγή υποστήριξης. Αλλαγή υποστήριξης :3 :3 :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 99 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II. Αλλαγή υποστήριξης 2. Περικοπή Κόμβων :3 : :3 : :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 2. Περικοπή Κόμβων Προθεματικά δέντρα και υποσυνθήκη δέντρα ΓιαταΑ, Β και κοκ :3 : :3 : :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Παρατηρήσεις Παρατηρήσεις Παράδειγμα τεχνικής διαίρει-και-βασίλευε Σε κάθε αναδρομικό βήμα, λύνεται και ένα υπο-πρόβλημα: Κατασκευάζεται το προθεματικό δέντρο Υπολογίζεται η νέα υποστήριξη για τους κόμβους του Περικόβονται οι κόμβοι με μικρή υποστήριξη Επειδή τα υποπροβλήματα είναι ξένα μεταξύ τους, δεν δημιουργούνται τα ίδια συχνά στοιχειοσύνολα δυο φορές Ο υπολογισμός της υποστήριξης είναι αποδοτικός γίνεται ταυτόχρονα με τη δημιουργία των συχνών στοιχειοσυνόλων Η απόδοση του FP-Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction factor) Αν τα τελικά δέντρα είναι «θαμνώδη» (bushy) τότε δε δουλεύει καλά, αυξάνεται ο αριθμός των υποπροβλημάτων (οι αναδρομικές κλήσεις) Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6 Αποτίμηση Κανόνων Συσχέτισης Παράγουν πάρα πολλούς κανόνες που συχνά είναι μη ενδιαφέροντες ή πλεονάζοντες (περιττοί) Αποτίμηση Κανόνων Συσχέτισης Πλεονάζοντες αν {,, } {} και {,} {} έχουν την ίδια υποστήριξη & εμπιστοσύνη Μέτρα ενδιαφέροντος (interestingness) χρησιμοποιούνται για να ελαττώσουν (prune) ή ναιεραρχήσουν(rank) τα παραγόμενα πρότυπα Χρησιμοποιούνται σε διάφορα στάδια της διαδικασίας ανάκτησης γνώσης Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8

Featur Featur Featur e Featur e e Featur Featur e Featur e e Featur Featur e e Featur e e uct uct uct uct uct uct Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Μέτρηση Ενδιαφέροντος Αποτίμηση Κανόνων Συσχέτισης Εφαρμογές της μέτρησης του ενδιαφέροντος (σε διάφορα στάδια) Μέτρα Ενδιαφέροντος Δεδομένα Επιλεγμένα Δεδομένα Προ-επεξεργασμένα Δεδομένα Prod uct uct Πρότυπα Prod Prod Prod Prod Prod Prod Prod uct Prod uct Prod Γνώση Μετά-επεξεργασία Εξόρυξη Προ-επεξεργασία Γενικά: αντικειμενικά (objective) και υποκειμενικά (subjective) μέτρα ενδιαφέροντος Ας δούμε πρώτα μερικά αντικειμενικά κριτήρια: Στην αρχική διατύπωση του προβλήματος της εξόρυξης κανόνων συσχέτισης χρησιμοποιήθηκαν ως μέτρα μόνο η υποστήριξη και η εμπιστοσύνη Γενικά συνήθως βασίζονται σε μετρήσεις της συχνότητας εμφάνισης που δίνονται μέσω ενός πίνακα contingency (συνάφειας) Επιλογή Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Υπολογισμός του Μέτρου Ενδιαφέροντος (αντικειμενικά μέτρα) ontingency table (πίνακας συνάφειας) X X Y f Y f f f f o+ f + T f + f + f : support of X and Y f : support of X and Y f : support of X and Y f : support of X and Y Χρησιμοποιείται για τον ορισμό διαφόρων μέτρων Μέτρηση Ενδιαφέροντος Μέτρηση συχνότητας εμφάνισης f πόσο συχνά εμφανίζεται το Χ και το Υ (support count) f + μετρητής υποστήριξης (support count) του Υ Έστω ένας κανόνας, X Y, η πληροφορία που χρειάζεται για τον υπολογισμό της εμπιστοσύνης και υποστήριξης του κανόνα μπορεί να υπολογιστεί από τον contingency table Μειονεκτήματα της Εμπιστοσύνης Tea Tea offee 5 75 9 offee 5 5 2 8 Μέτρηση Ενδιαφέροντος Μεγάλες τιμές υποστήριξης μπορεί να «διώξουν» ενδιαφέροντες κανόνες. Τι γίνεται με την εμπιστοσύνη; Ενδιαφερόμαστε για τη σχέση μεταξύ αυτών που πίνουν καφέ και αυτών που πίνουν τσάι Κανόνας Συσχέτισης: Tea offee Εμπιστοσύνη = P(offee Tea) =.75 Ενώ ο κανόνας έχει υψηλή εμπιστοσύνη, ο κανόνας είναι παραπλανητικός P(offee Tea) =.9375 P(offee) =.9 Αγνοεί την υποστήριξη του RHS Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Μέτρηση Ενδιαφέροντος ΜέτραβασισμέναστηΣτατιστική Στατιστική Ανεξαρτησία Εξαιτίας τέτοιων προβλημάτων της υποστήριξης/εμπιστοσύνης, Έχουν προταθεί πολλά αντικειμενικά μέτρα για τη μέτρηση του ενδιαφέροντος των κανόνων, που στηρίζονται κυρίως στην έννοια της στατιστικής ανεξαρτησίας Ας δούμε ένα παράδειγμα Πληθυσμός σπουδαστών 6 σπουδαστές ξέρουν κολύμπι (S) 7 σπουδαστές ξέρουν ποδήλατο () 42 σπουδαστές ξέρουν κολύμπι και ποδήλατο (S,) P(S ) = 42/ =.42 P(S) P() =.6.7 =.42 P(S ) = P(S) P() => Στατιστική ανεξαρτησία P(S ) > P(S) P() => Positively correlated (θετική συσχέτιση) P(S ) < P(S) P() => Negatively correlated (αρνητική συσχέτιση) Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Μέτρα βασισμένα στη Στατιστική ΜέτραβασισμέναστηΣτατιστική Μέτρα που λαμβάνουν υπ όψιν τους τη στατιστική εξάρτηση Για τη συσχέτιση: Χ Υ P( Y X ) f Lift = = P( Y ) f + P( X, Y) Nf Interest = = P( X ) P( Y ) f + f PS = P( X, Y ) P( X ) P( Y ) P( X, Y ) P( X ) P( Y ) f f φ coefficient = = P( X )[ P( X )] P( Y)[ P( Y )] f + f + f + f + f f + Παράδειγμα: Lift/Interest offee offee Tea 5 5 2 Tea 75 5 8 9 Κανόνας συσχέτιση: Tea offee Εμπιστοσύνη= P(offee Tea) =.75 αλλά P(offee) =.9 Interest =.5/(.9*.2)=.8333 (<, άρααρνητικάσυσχετιζόμενα) Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6 Μέτρα βασισμένα στη Στατιστική ΜέτραβασισμέναστηΣτατιστική Μειονεκτήματα του Lift & Interest φ-oefficient X X Y Y 9 9 9 X X Y 9 9 Y 9 φ coefficient = P( X, Y ) P( X ) P( Y ) = P( X )[ P( X )] P( Y )[ P( Y )] f f f f f + f + + f f +..9 I = = I = =. (.)(.) (.9)(.9) Μεγαλύτερο αν και σπάνια εμφανίζονται μαζί c = / =. c = 9/ =.9 s = s = Κανονικοποιημένη τιμή μεταξύ του - και υαδική εκδοχή του Pearson s coefficient : στατιστική ανεξαρτησία -: τέλεια αρνητική συσχέτιση : τέλεια θετική συσχέτιση Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Μέτρα βασισμένα στη Στατιστική ΜέτραβασισμέναστηΣτατιστική φ-oefficient φ-oefficient X X Y 6 7 Y 2 3 7 3 X X Y 2 3 Y 6 7 3 7 φ coefficient = P( X, Y ) P( X ) P( Y ) = P( X )[ P( X )] P( Y )[ P( Y )] f f f f f + f + + f f +.6.7.7 φ =.7.3.7.3 =.5238 φ oefficient ίδιοςκαιγιατουςδύοπίνακες.2.3.3 φ =.7.3.7.3 =.5238 Είναι κατάλληλο για μη συμμετρικές (η απουσία και η παρουσία μετρούν το ίδιο) Λόγω κανονικοποίησης, αγνοεί το μέγεθος του δείγματος Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 IS-measure Μέτρα βασισμένα στη Στατιστική Στη βιβλιογραφία έχουν προταθεί πολλά μέτρα ανάλογα με την εφαρμογή IS ( X, Y) = s( X, Y) f = s( X ) s( Y ) f + f = + I( X, Y ) s( x, Y) Με ποια κριτήρια θα επιλέξουμε ένα καλό μέτρο; Πως έναν prioristyle support based pruning επηρεάζει αυτά τα μέτρα; είναι το συνημίτονο αν θεωρηθούν δυαδικές μεταβλητές γεωμετρικός μέσος της εμπιστοσύνης του Χ Υ καιυ Χ Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 22 Αποτίμηση Κανόνων Συσχέτισης Αποτίμηση Κανόνων Συσχέτισης Σύγκριση Μέτρων παραδείγματα contingency πινάκων: Ιεράρχηση των πινάκων με βάση τα διάφορα μέτρα ( ο πιοενδιαφέρον, ο λιγότερο ενδιαφέρον): xample f f f f 823 83 424 37 2 833 2 622 46 3 948 94 27 298 4 3954 38 5 296 5 2886 363 32 443 6 5 2 5 6 7 4 2 3 8 4 2 2 2 9 72 72 5 54 6 2483 4 7452 Ιδιότητες ενός Καλού Μέτρου Piatetsky-Shapiro: 3 γενικές ιδιότητες που πρέπει να ικανοποιεί ένα καλό μέτρο M: M(, ) = αν τα Α και Β είναι στατιστικά ανεξάρτητα M(, ) αυξάνει μονότονα με το P(,) όταν τα P() και P() παραμένουν αμετάβλητα M(,) μειώνεται μονότονα με το P() [ή τοp()] όταν τα P(,) και P() [ή P()] παραμένουν αμετάβλητα Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 23 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 24 Ιδιότητες Μέτρων Αποτίμησης Ιδιότητες Μέτρων Αποτίμησης Αλλαγή ιάταξης Μεταβλητών (variable permutation) p q r s Συμμετρικά (symmetric) μέτρα: Ισχύει M(, ) = M(, )? p r q s Γενικά συμμετρικά μέτρα για στοιχειοσύνολα και μη συμμετρικά για κανόνες support (υποστήριξη), lift, collective strength, cosine, Jaccard, κλπ Μη συμμετρικά (asymmetric) μέτρα: confidence (εμπιστοσύνη), conviction, Laplace, J-measure, κλπ Κλιμάκωση Γραμμής/Στήλης (Row/olumn Scaling) Παράδειγμα Βαθμός-Φύλο (Mosteller, 968): κ κ 2 High Low κ 3 Male 2 3 κ 4 Female 3 4 7 5 5 High Low Male 4 2 6 2x Female Mosteller: Η συσχέτιση πρέπει να είναι ανεξάρτητη από το σχετικό αριθμό αγοριών-κοριτσιών στο δείγμα Invariant under the row/column scaling operation αν Μ(Τ) = Μ(Τ ) όπου Τ o πίνακας contingency με μετρητές συχνότητας [f, f ; f ; f ] και Τ o πίνακας contingency με μετρητές συχνότητας [κ κ 3 f, κ 2 κ 3 f ; κ κ 4 f ; κ 2 κ 4 f ] όπου κ, κ 2, κ 3, κ 4 θετικές σταθερές 3 4 7 x 34 42 76 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 25 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 26

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 27 Ιδιότητες Μέτρων Αποτίμησης Ιδιότητες Μέτρων Αποτίμησης Αντιστροφή (Inversion Operation) Δοσοληψία. Δοσοληψία N (a) (b) (c) F Invariant under the inversion operation αν η τιμή της παραμένει η ίδια αν ανταλλάξουμε τις τιμές f και f και τις τιμές f και f Χρήσιμο για συμμετρικές μεταβλητές Null ddition (προσθήκη μη σχετιζόμενων στοιχείων) p q r s Invariant measures: p q r s + k εν επηρεάζονται από την αύξηση του f όταν οι άλλες τιμές παραμένουν αμετάβλητες support, cosine, Jaccard, κλπ Non-invariant measures: correlation, Gini, mutual information, odds ratio, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 28 uy HTV Yes No Παράδοξο του Simpson Yes 99 54 53 uy xercise Machine No 8 66 47 c({htvs=yes} {M=Yes})=99/8=55% c({htvs=no} {M=Yes})=54/2=45% 8 2 3 Αποτίμηση Κανόνων Συσχέτισης Students uy HTV Yes No Working adults c({htvs=yes} {M=Yes})=98/7=57.7% c({htvs=no} {M=Yes})=5/86=58.% uy HTV Yes No Yes 4 5 uy xercise Machine No 9 3 39 c({htvs=yes} {M=Yes})=/=% c({htvs=no} {M=Yes})=4/34=.8% uy xercise Machine Yes No 98 5 48 72 36 8 34 44 7 86 256 uy HTV Yes No Παράδοξο του Simpson Yes 99 a+p 54 c+r 53 uy xercise Machine No 8 66 47 c({htvs=yes} {M=Yes})=99/8=55% c({htvs=no} {M=Yes})=54/2=45% a/b < c/d p/q < r/s δεν συνεπάγεται ότι (a+p)/(b+q) < (c+r)/(d+s)! 8 b+q 2 d+s 3 Αποτίμηση Κανόνων Συσχέτισης Students uy HTV Yes No Working adults c({htvs=yes} {M=Yes})=/=% c({htvs=no} {M=Yes})=4/34=.8% uy HTV Yes No Yes α 4 c 5 uy xercise Machine Yes 98 p 5 r 48 No 9 3 39 No 72 36 8 b 34 d 44 c({htvs=yes} {M=Yes})=98/7=57.7% c({htvs=no} {M=Yes})=5/86=58.% Είναι σημαντικό πως θα γίνει διαχωρισμός (stratification) των δεδομένων uy xercise Machine 7 q 86 s 256 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 29 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Υποκειμενικά Μέτρα Ενδιαφέροντος Υποκειμενικά Μέτρα Ενδιαφέροντος Interestingness (ενδιαφέρον) via Unexpectedness(μη αναμονή) Αντικειμενικά Μέτρα: Ιεραρχούν τα αποτελέσματα με βάση στατιστικά στοιχεία που υπολογίζονται από τα δεδομένα πχ., 2 μετρήσεις συσχέτισης (support, confidence, Laplace, Gini, mutual information, Jaccard, etc). Υποκειμενικά Μέτρα: Ιεράρχηση των προτύπων με βάση την ερμηνεία του χρήστη Ένα πρότυπο είναι υποκειμενικά ενδιαφέρον αν είναι σε αντίθεση με αυτό που αναμένει ο χρήστης (Silberschatz & Tuzhilin) Ένα πρότυπο είναι υποκειμενικά ενδιαφέρον αν μπορεί να χρησιμοποιηθεί (Silberschatz & Tuzhilin) + Pattern expected to be frequent - Pattern expected to be infrequent + - - + Pattern found to be frequent Pattern found to be infrequent xpected Patterns Unexpected Patterns Χρειάζεται να μοντελοποιήσουμε τι αναμένει ο χρήστης (domain knowledge) Χρειάζεται να συνδυάσουμε το τι αναμένεται από τους χρήστες με το τι δίνουν τα δεδομένα (δηλαδή τα πρότυπα που παίρνουμε -evidence) Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 32

Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 33 Οπτικοποίηση: Απλός Γράφος Οπτικοποίηση: Γράφος Κανόνων Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 34 Οπτικοποίηση: (SGI/MineSet 3.) Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 35