Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Εισαγωγή Ορισμοί Market-asket transactions (Το καλάθι της νοικοκυράς!) TI s 1 read, Milk 2 read, iaper, eer, ggs Το πρόβλημα: εδομένου ενός συνόλου δοσοληψιών (transactions), βρες κανόνες που προβλέπουν την εμφάνιση στοιχείων (item) με βάση την εμφάνιση άλλων στοιχείων στις συναλλαγές 3 Milk, iaper, eer, oke Παραδείγματα κανόνων συσχέτισης 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke {iaper} {eer}, {Milk, read} {ggs,oke}, δοσοληψία {eer, read} {Milk} στοιχειοσύνολο (itemset): Ένα υποσύνολο του συνόλου των στοιχείων k-στοιχειοσύνολο (k-itemset): ένα στοιχειοσύνολο με k στοιχεία support count (σ) ενός στοιχειοσυνόλου: ο αριθμός εμφανίσεων του στοιχείου Υποστήριξη (Support (s)) ενός στοιχειοσυνόλου Το ποσοστό των δοσοληψιών που περιέχουν ένα στοιχειοσύνολο TI s 1 read, Milk 2 read, iaper, eer, ggs 3 Milk, iaper, eer, oke 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke Προώθηση προϊόντων Τοποθέτηση προϊόντων στα ράφια ιαχείριση αποθεμάτων Σημαίνει ότι εμφανίζονται μαζί, όχι ότι η εμφάνιση του ενός είναι η αιτία της εμφάνισης του άλλου (co-occurrence, not causality όχι έννοια χρόνου ή διάταξης) Συχνό Στοιχειοσύνολο (Frequent set) Ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου minsup Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Κανόνας Συσχέτισης (ssociation Rule) Είναι μια έκφραση της μορφής X Y, όπου X και Y είναι στοιχειοσύνολα Χ Ι, Υ Ι, Χ Υ = Παράδειγμα: {Milk, iaper} {eer} TI s Ορισμοί 1 read, Milk 2 read, iaper, eer, ggs 3 Milk, iaper, eer, oke 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke Υποστήριξη Κανόνα Support (s) Το ποσοστό των δοσοληψιών που περιέχουν και το X και το Y(Χ Υ) Εμπιστοσύνη -onfidence(c) Πόσες από τις δοσοληψίες (ποσοστό) που περιέχουν το Χ περιέχουν και το Υ Πρόβλημα Εύρεση Κανόνων Συσχέτισης Είσοδος: Ένα σύνολο από δοσοληψίες T Έξοδος: Όλοι οι κανόνες με support minsup confidence minconf Χωρισμός του προβλήματος σε δύο υπο-προβλήματα: Εξόρυξη Κανόνων Συσχέτισης Εύρεση όλων των συχνών στοιχειοσυνόλων (Frequent set Generation) Εύρεση όλων των στοιχειοσυνόλων με υποστήριξη minsup ημιουργία Κανόνων (Rule Generation) Για κάθε στοιχειοσύνολο, δημιούργησε κανόνες με μεγάλη υποστήριξη, όπου κάθε κανόνες είναι μια δυαδική διαμέριση του συχνού στοιχειοσυνόλου Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 set Lattice - Πλέγμα Στοιχειοσυνόλων Εύρεση Συχνών Στοιχειοσυνόλων Αρχή priori Αν ένα στοιχειοσύνολο είναι συχνό, τότε όλα τα υποσύνολα του είναι συχνά Εύρεση Συχνών Στοιχειοσυνόλων: Στρατηγική apriori Ή ισοδύναμα αν ένα στοιχειοσύνολο είναι μη συχνό, όλα τα υπερσύνολα του είναι μη συχνά Βρέθηκε μη συχνό Για d στοιχεία, 2 d πιθανά στοιχειοσύνολα Pruned supersets Support-based pruning Ψαλίδισμα με βάση την υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Στρατηγική apriori Στρατηγική apriori: ημιουργία Στοιχειοσυνόλων Γενικός Αλγόριθμος Έστω k = 1 #k: μήκος στοιχειοσυνόλου Παρήγαγε τα συχνά 1-στοιχειοσύνολα Repeat until να μην παράγονται νέα συχνά στοιχειοσύνολα 1. Παρήγαγε υποψήφια (k+1)-στοιχειοσύνολα 2. Ψαλίδισε τα υποψήφια στοιχειοσύνολα που περιέχουν μη συχνά στοιχειοσύνολα μεγέθους k 3. Υπολόγισε την υποστήριξη κάθε υποψήφιου (k+1)- στοιχειοσυνόλου διασχίζοντας τη βάση των δοσοληψιών 4. Σβήσε τα υποψήφια στοιχειοσύνολα που δεν είναι συχνά 5. k=k + 1 Για την παραγωγή υποψήφιων k-στοιχειοσυνόλων F k- 1 x F 1 Επέκταση κάθε συχνού (k-1) στοιχειοσυνόλου με άλλα συχνά στοιχεία F k- 1 x F k- 1 Συγχώνευση δύο συχνών (k-1) στοιχειοσυνόλου αν τα πρώτα k-2 στοιχεία τους είναι τα ίδια Παρατηρήσεις Για να αποφύγουμε τη δημιουργία του ίδιου στοιχειοσυνόλου, κρατάμε κάθε στοιχειοσύνολο (λεξικογραφικά) ταξινομημένο Είναι δυνατόν να γίνουν απλοί έλεγχοι αν τα παραγόμενα πιθανά στοιχειοσύνολα είναι συχνά ελέγχοντας αν τα υποσύνολα τους είναι συχνά και έτσι να αποφύγουμε να υπολογίσουμε την υποστήριξή τους Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 10 Στρατηγική apriori: Υπολογισμός Υποστήριξης Παραγωγή Κανόνων Για κάθε νέο υποψήφιο k+1-στοιχειοσύνολο, πρέπει να υπολογίσουμε την υποστήριξή του Για να μειώσουμε τον αριθμό των πράξεων, σε κάθε βήμα, αποθηκεύουμε τα υποψήφια k+1-στοιχειοσύνολα σε ένα δέντρο κατακερματισμού Αντί να ταιριάζουμε κάθε δοσοληψία με κάθε υποψήφιο στοιχειοσύνολο, κατακερματίζουμε τα στοιχειοσύνολα της δοσοληψίας και ενημερώνουμε μόνο τους αντίστοιχους κάδους του δέντρου κατακερματισμού των συχνών στοιχειοσυνόλων οθέντος ενός συχνού στοιχειοσυνόλου L, βρες όλα τα μη κενά υποσύνολα f L τέτοια ώστε ο κανόνας f L f ικανοποιεί τον περιορισμό της ελάχιστης εμπιστοσύνης Η εμπιστοσύνη για τους κανόνες που παράγονται από το ίδιο στοιχειοσύνολο έχει μια αντι-μονότονη ιδιότητα Για παράδειγμα L = {,,,}: c( ) c( ) c( ) Η εμπιστοσύνη είναι αντι-μονότονη σε σχέση με των αριθμό των στοιχείων στο RHS του κανόνα Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 11 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 12

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 13 Παραγωγή Κανόνων για τον Αλγόριθμο apriori Αναπαράσταση Στοιχειοσυνόλων Πλέγμα Κανόνων για το Στοιχειοσύνολο {Α,,, } Ψαλίδισμα με βάση την εμπιστοσύνη Έστω κόμβος με μικρή εμπιστοσύνη Pruned Rules Για κάθε συχνό στοιχειοσύνολο, ξεκινάμε με έναν κανόνα που έχει μόνο k=1 στοιχείο στο δεξί μέρος του Υπολογίζουμε την εμπιστοσύνη Παράγουμε κανόνες με k+1 στοιχεία και υπολογίζουμε την εμπιστοσύνη τους Για τον υπολογισμό της εμπιστοσύνης δεν χρειάζεται να διαπεράσουμε τη βάση Τα στοιχειοσύνολα που παράγονται είναι πολλά, κάποια ίσως περιττά οδηγούν σε παραγωγή πολλών κανόνων Ποια να κρατήσουμε; Αντιπροσωπευτικά συχνά στοιχειοσύνολα: Maximal συχνά Κλειστά συχνά Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 14 Αναπαράσταση Στοιχειοσυνόλων Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι maximal συχνό αν κανένα από τα άμεσα υπερσύνολά του δεν είναι συχνό Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων: το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα είναι τα υποσύνολά τους Πρόβλημα: εν προσφέρουν καμιά πληροφορία για την υποστήριξη των υποσυνόλων τους Συχνά Μη συχνά Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό (δηλαδή, έχει μικρότερη) Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και η υποστήριξη του είναι μικρότερη ή ίση με minsup Πάλι τα υποσύνολα τους μας δίνουν όλα τα συχνά υποσύνολα, τώρα όμως μπορούμε να υπολογίσουμε την υποστήριξη των υποσυνόλων τους Πως: Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 15 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 16 Αναπαράσταση Στοιχειοσυνόλων Maximal vs Κλειστά στοιχειοσύνολα Minimum support = 2 losed but not maximal Μέτρηση Ενδιαφέροντος 124 123 1234 245 345 12 124 24 4 123 2 3 24 34 45 losed and maximal Στην αρχική διατύπωση του προβλήματος της εξόρυξης κανόνων συσχέτισης χρησιμοποιήθηκαν ως μέτρα μόνο η υποστήριξη και η εμπιστοσύνη 12 2 24 4 4 2 3 4 2 4 # losed = 9 # Maximal = 4 Μια σειρά μέτρων βασισμένα στη στατιστική P(S ) = P(S) P() => Στατιστική ανεξαρτησία P(S ) > P(S) P() => Positively correlated (θετική συσχέτιση) P(S ) < P(S) P() => Negatively correlated (αρνητική συσχέτιση) Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 17 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 18

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 19 Μέτρηση Ενδιαφέροντος Μέτρηση Ενδιαφέροντος Μέτρα που λαμβάνουν υπ όψιν τους στη στατιστική εξάρτηση Έστω ένας κανόνας, X Y, η πληροφορία που χρειάζεται για τον υπολογισμό του ενδιαφέροντος του κανόνα μπορεί να υπολογιστεί από τον contingency table ontingency table for X Y X X Y f 11 Μέτρηση συχνότητας εμφάνισης Y f 10 f 01 f 00 f o+ f +1 T f +0 f 1+ f 11 : support of X and Y f 10 : support of X and Y f 01 : support of X and Y f 00 : support of X and Y Χρησιμοποιείται για τον ορισμό διαφόρων μέτρων P( Y X ) Lift = P( Y ) Χ Υ P( X, Y ) Interest = P( X ) P( Y ) PS = P( X, Y ) P( X ) P( Y ) P( X, Y ) P( X ) P( Y ) φ coefficient = P( X )[1 P( X )] P( Y )[1 P( Y )] Γενικά έχουν προταθεί 21 τέτοια μέτρα Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 20 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Ο priori από τους παλιότερους, αλλά: Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Συχνά μεγάλο I/O επειδή κάνει πολλαπλά περάσματα στη βάση των δοσοληψιών Κακή απόδοση όταν οι δοσοληψίες έχουν μεγάλο πλάτος Άλλες μέθοδοι: ιαφορετικές διασχίσεις του πλέγματος των στοιχειοσυνόλων Αναπαράσταση Συνόλου οσoληψιών Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 21 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 22 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων priori: Γενικά- προς- Συγκεκριμένα k-1 -> k set Lattice Πλέγμα Στοιχεισυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: Συγκεκριμένα-προς-Γενικά vs Γενικά-προς-Συγκεκριμένα k -> k 1 (συγκεκριμένο-προς-γενικό) Ποιο χρήσιμο για τον εντοπισμό maximal συχνών στοιχειοσυνόλων σε πυκνές (δηλ, με μεγάλο πλάτος δοσοληψίες) όπου το συχνό στοιχειοσύνολο βρίσκεται κοντά στο κατώτατο σημείο του πλέγματος Αν συχνό, δε χρειάζεται να ελέγξουμε κανένα από τα υποσύνολά του k -> k - 1 Συγκεκριμένα- προς- Γενικά Αν αυτό είναι το συχνό, το βρίσκουμε αφού εξετάσουμε όλα τα υποσύνολά του Αν τα συχνά είναι προς το κατώτατο σημείο (bottom) τους πλέγματος, ίσως συμφέρει Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 23 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 24

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 25 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: Κλάσεις Ισοδυναμίας Χωρισμός των στοιχειοσυνόλων του πλέγματος σε ξένες μεταξύ τους ομάδες (κλάσεις ισοδυναμίας) και εξέταση των στοιχειοσυνόλων ανά κλάσεις priori: ορίζει τις κλάσεις με βάση το μήκος k των στοιχειοσυνόλων, πρώτα αυτά μήκους 1, μετά μήκους 2 κοκ Prefix (Suffix): ύο στοιχειοσύνολα ανήκουν στην ίδια κλάση αν έχουν κοινό πρόθεμα (επίθημα) μήκους k priori Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: FS vs FS FS: readth-first-search Χρήσιμο για την εύρεση maximal συχνών στοιχειοσυνόλων γιατί τα εντοπίζει πιο γρήγορα από το FS Μόλις εντοπιστεί το maximal, είναι δυνατόν να κλαδευτούν πολλά υποσύνολα του FS: epth-first-search Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 26 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: FS vs FS Αναπαράσταση της Βάσης εδομένων: Οριζόντια vs Κάθετη Άλλοι Τρόποι Υπολογισμού Αυτό χρησιμοποιεί ο apriori Εναλλακτικά: Για κάθε στοιχείο σε ποιες δοσοληψίες εμφανίζεται Prune μόνο τa ab και ac Μπορούμε να κάνουμε prune όλο το υποδέντρο Maximal συχνό στοιχειοσύνολο Horizontal ata Layout TI s 1,, 2,, 3, 4,, 5,,, 6, 7, 8,, 9,, 10 Vertical ata Layout 1 1 2 2 1 4 2 3 4 3 5 5 4 5 6 6 7 8 9 7 8 9 8 10 9 Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TI-λιστών Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 27 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 28 Άλλοι Τρόποι Υπολογισμού Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TI-λιστών 1 4 5 6 7 8 9 1 2 5 7 8 10 1 5 7 8 Ο Η υποστήριξη ενός k-στοιχειοσυνόλου υπολογίζεται παίρνοντας τις τομές των TIλιστών δύο από τα (k-1)-ύπο-στοιχειοσύνολα του. Πλεονέκτημα: πολύ γρήγορος υπολογισμός της υποστήριξης Πρόβλημα, αν οι TI-λίστες είναι μεγάλες και δε χωρούν στη μνήμη Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 29 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 30

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 31 Κατασκευή FP-δέντρου Χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με prefix tree (trie) Ο αλγόριθμος κατασκευής διαβάζει μια δοσοληψία τη φορά, απεικονίζει τη δοσοληψία σε ένα μονοπάτι του FP-δέντρου Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση Μόλις το FP-δέντρο κατασκευαστεί, ο αλγόριθμος χρησιμοποιεί μια αναδρομική διαίρει-και-βασίλευε (divide-and-conquer) προσέγγιση για την εξόρυξη των συχνών στοιχειοσυνόλων TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} To FP-δέντρο είναι ένα προθεματικό δέντρο Επειδή έχουμε σύνολα, κάπως πρέπει να τα διατάξουμε ώστε να βρίσκουμε προθέματα ηλαδή δε μπορεί το ένα σύνολο να είναι {Α, Β} και το άλλο {Β,, } γιατί χάνουμε το κοινό πρόθεμα ΑΒ (ή ΒΑ) Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική (θα δούμε αργότερα αν κάτι άλλο συμφέρει καλύτερα) Αρχικά, το δέντρο κενό Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 32 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1: :1 :1 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1: :1 :1 Διάβασμα TI=2: :1 Κάθε κόμβος ετικέτα: ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Κάθε κόμβος ετικέτα, ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Επίσης, δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 33 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 34 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1, 2: Πίνακας εικτών :1 :1 :1 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1, 2: Διάβασμα TI=3 Πίνακας εικτών :1 :1 :1 Επίσης, κρατάμε δείκτες για να βοηθήσουν στον υπολογισμό των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 35 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 36

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 37 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1, 2: Διάβασμα TI=3 Πίνακας εικτών :1 :2 :1 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1, 2: Διάβασμα TI=3 Πίνακας εικτών :1 :2 :1 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 38 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Header table Κατασκευή FP-δέντρου :7 :5 :3 Μέγεθος FP-δέντρου Κάθε δοσοληψία αντιστοιχεί σε ένα μονοπάτι από τη ρίζα Το μέγεθος του δέντρου συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα Αν όλες οι δοσοληψίες τα ίδια δεδομένα, μόνο ένα κλαδί Αν όλες διαφορετικές, ο χώρος μεγαλύτερος (γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύ των κόμβων αλλά και συχνότητες εμφάνισης) Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 39 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 40 Κατασκευή FP-δέντρου TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Το τελικό δέντρο, εξαρτάται από τη διάταξη: άλλη διάταξη -> άλλα προθέματα (Συνήθως) Μικρότερο δέντρο, αν όχι λεξικογραφικά, αλλά με βάση τη συχνότητα εμφάνισης -> Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό Για τo παράδειγμα, σ(α)=7, σ(β)=8, σ()=7, σ()=5, σ(ε)=3 Άρα, διάταξη Β,Α,,, TI s 1 {Β,Α} 2 {,,} 3 {,,,} 4 {,,} 5 {Β,Α,} 6 {Β,Α,,} 7 {,} 8 {Β,Α,} 9 {Β,Α,} 10 {,,} Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 41 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Header table Χρήση FP-δέντρου για εύρεση συχνών στοιχειοσυνόλων :5 :7 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 42 :3 Πως; ottom-up traversal του δέντρου Αυτά που τελειώνουν σε, μετά αυτά που τελειώνουν σε,, και τέλος Α suffix-based classes

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 43 Υποπρόβλημα: Βρες συχνά στοιχειοσύνολα που τελειώνουν σε :7 :3 Για το :7 :3 :5 :5 Header table Header table Θα δούμε στη συνέχεια πως υπολογίζεται η υποστήριξη για τα πιθανά στοιχειοσύνολα Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 44 Για το :7 :3 Για το :7 :3 :5 :5 Header table Header table Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 45 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 46 Φάση 1 Για το Α :7 :3 Όλα τα μονοπάτια που περιέχουν το Προθεματικά Μονοπάτια (prefix paths) :7 :3 :5 :5 Header table Header table Προθεματικά μονοπάτια του Ε: {}, {,}, {,,}, {,,Ε}, {,,,}, {,}, {,,} Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 47 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 48

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 49 Φάση 1 Φάση 1 Όλα τα μονοπάτια που περιέχουν το Προθεματικά Μονοπάτια (prefix paths) :7 :3 Όλα τα μονοπάτια που περιέχουν το Προθεματικά Μονοπάτια (prefix paths) :7 :3 :5 Header table Προθεματικά μονοπάτια του Ε: {}, {,}, {,,}, {,,Ε}, {,,,}, {,}, {,,} Προθεματικά μονοπάτια του Ε: {}, {,}, {,,}, {,,Ε}, {,,,}, {,}, {,,} Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 50 Έστω minsup = 2 Βρες την υποστήριξη του {} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1+1=3>2 Οπότε {Ε} συχνό :7 :3 Μετατροπή των προθεματικών δέντρων σε FP-δέντρο υπό συνθήκες (conditional FP-tree) ύο αλλαγές (1) Αλλαγή των μετρητών (2) Περικοπή :7 :3 {} συχνό άρα προχωράμε για,,, {} συχνό άρα προχωράμε για,,, Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 51 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 52 Αλλαγή μετρητών Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν δοσοληψίες που δεν έχουν το Ε Πχ στο ->->-> μετράμε και την {, } :7 :3 :7 :3 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 53 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 54

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 55 :7 :3 :7 :1 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 56 :7 :1 :7 :1 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 57 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 58 :2 :1 :2 :1 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 59 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 60

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 61 Περικοπή (truncate) Περικοπή (truncate) Σβήσε τους κόμβους του Ε Σβήσε τους κόμβους του Ε :2 :1 :2 :1 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 62 Περικοπή (truncate) Πιθανή περαιτέρω περικοπή Σβήσε τους κόμβους του Ε Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης :2 :1 Πχ το Β -> περικοπή :2 :1 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 63 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 64 :2 :1 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 65 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 66

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 67 Φάση 1 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 68 Φάση 1 Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Βρες την υποστήριξη του {, } Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1=2 2 Οπότε {, Ε} συχνό :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 69 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 70 Κατασκεύασε το υπο-συνθήκη FPδέντρο για το {, } 1. Αλλαγή υποστήριξης 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 71 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 72

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 73 2. Περικοπές κόμβων 2. Περικοπές κόμβων :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 74 2. Περικοπές κόμβων Τελικό υπο-συνθήκη FP-δέντρο για το {, } :2 :2 Μικρή υποστήριξη Υποστήριξη του Α είναι minsup -> {Α,, } συχνό Αφού μόνο έναν κόμβο, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 75 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 76 Φάση 1 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 77 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 78

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 79 Φάση 1 Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Βρες την υποστήριξη του {, } Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1=2 2 Οπότε {, Ε} συχνό :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 80 Κατασκεύασε το υπο-συνθήκη FPδέντρο για το {, } 1. Αλλαγή υποστήριξης 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων :2 :1 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 81 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 82 2. Περικοπή Κόμβων 2. Περικοπή Κόμβων :1 :1 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 83 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 84

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 85 2. Περικοπή Κόμβων 2. Περικοπή Κόμβων :1 Άρα, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 86 Φάση 1 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 Όλα τα μονοπάτια που περιέχουν το Α () Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 87 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 88 Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α () Βρες την υποστήριξη του {Α, } Οπότε {Α, Ε} συχνό Προθεματικά Μονοπάτια (prefix paths) :2 ε χρειάζεται να φτιάξουμε υποσυνθήκη FP-δέντρο για το {Α, Ε} :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 89 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 90

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 91 Άρα για το Ε Έχουμε τα εξής συχνά στοιχειοσύνολα Για το :7 :3 {Ε} {, } {,, } {, } {, } Συνεχίζουμε για το :5 Header table Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 92 Φάση 1 Όλα τα προθεματικά μονοπάτια που περιέχουν το 1. Αλλαγή υποστήριξης Υποστήριξη 5>2 -> άρα συχνό :7 :3 :7 :3 Μετατροπή του προθεματικού δέντρου σε FP-δέντρο υπό συνθήκη :5 :5 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 93 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 94 1. Αλλαγή υποστήριξης 1. Αλλαγή υποστήριξης :7 :3 :3 :3 :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 95 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 96

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 97 1. Αλλαγή υποστήριξης 1. Αλλαγή υποστήριξης :3 :3 :3 :1 :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 98 2. Περικοπή Κόμβων 2. Περικοπή Κόμβων :3 :1 :3 :1 :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 99 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 100 Προθεματικά δέντρα και υποσυνθήκη δέντρα Για τα Α, Β και κοκ :3 :1 Παράδειγμα τεχνικής διαίρει-και-βασίλευε Σε κάθε αναδρομικό βήμα, λύνεται και ένα υπο-πρόβλημα: :2 Κατασκευάζεται το προθεματικό δέντρο Υπολογίζεται η νέα υποστήριξη για τους κόμβους του Περικόβονται οι κόμβοι με μικρή υποστήριξη Επειδή τα υποπροβλήματα είναι ξένα μεταξύ τους, δεν δημιουργούνται τα ίδια συχνά στοιχειοσύνολα δυο φορές Ο υπολογισμός της υποστήριξης είναι αποδοτικός γίνεται ταυτόχρονα με τη δημιουργία των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 101 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 102

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 103 Η απόδοση του FP-Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction factor) Αν τα τελικά δέντρα είναι «θαμνώδη» (bushy) τότε δε δουλεύει καλά, αυξάνεται ο αριθμός των υποπροβλημάτων (οι αναδρομικές κλήσεις) Επίδραση της Υποστήριξης Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 104 Κατανομή Υποστήριξης Κατανομή Υποστήριξης Η απόδοση των αλγορίθμων εξαρτάται από τα δεδομένα εισόδου, πχ ο apriori από τον αριθμό των στοιχείων, το πλάτος των δοσοληψιών, ο FP- Growth από την τομή των δοσοληψιών Επίσης, από την τιμή της ελάχιστης υποστήριξης (minsup). Πως θα προσδιοριστεί μια κατάλληλη τιμή για το minsup; Αν η τιμή είναι πολύ υψηλή, μπορεί να χαθούν στοιχειοσύνολα που περιέχουν ενδιαφέροντα σπάνια στοιχεία (πχ ακριβά προϊόντα) Αν η τιμή είναι πολύ χαμηλή, οι μέθοδοι γίνονται ακριβοί γιατί ο αριθμός των υποψήφιων στοιχειοσυνόλων είναι πολύ μεγάλος Ο αριθμός των συχνών στοιχειοσυνόλων γίνεται πολύ μεγάλος Επιπρόσθετα, η χρήση μόνο μίας ελάχιστης υποστήριξης μπορεί να μην αρκεί Για πολλά πραγματικά δεδομένα η κατανομή της υποστήριξης δεν είναι ομοιόμορφη (skewed support distribution) Support distribution of a retail data set Τα περισσότερα στοιχεία έχουν μικρή ή μέτρια υποστήριξη και μόνο λίγα έχουν μεγάλη υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 105 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 106 Κατανομή Υποστήριξης Πολλαπλές Τιμές Υποστήριξης Πολλαπλές Ελάχιστες Τιμές Υποστήριξης Ομάδα G1 G2 G3 Υποστήριξη <1% 1%-90% >90% Αριθμός στοιχείων 1735 358 20 Παράξενοι κανόνες μεταξύ G1 και G3 (χαβιάρι και γάλα) ross-support patterns MS(i): ελάχιστη υποστήριξη για το στοιχείο i Π.χ.: MS(Milk)=5%, MS(oke) = 3%, MS(roccoli)=0.1%, MS(Salmon)=0.5% MS({Milk, roccoli}) = min (MS(Milk), MS(roccoli)) = 0.1% Πρόβλημα: Η υποστήριξη παύει να είναι αντιμονότονη: Έστω: Support(Milk, oke) = 1.5% and Support(Milk, oke, roccoli) = 0.5% {Milk,oke} είναι μη συχνό αλλά το {Milk,oke,roccoli} είναι συχνό Λόγω του roccoli που κατεβάζει το minsup Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 107 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 108

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 109 Πολλαπλές Τιμές Υποστήριξης Πολλαπλές Τιμές Υποστήριξης Multiple Minimum Support (Liu 1999) Ταξινόμησε τα στοιχεία με βάση την ελάχιστη τιμή υποστήριξης (σε αύξουσα διάταξη) πχ.: MS(Milk)=5%, MS(oke) = 3%, MS(roccoli)=0.1%, MS(Salmon)=0.5% ιάταξη: roccoli, Salmon, oke, Milk Τροποποίηση του priori έτσι ώστε: L 1 : σύνολο συχνών στοιχειοσυνόλων F 1 : σύνολο στοιχείων που η υποστήριξη τους είναι MS(1) όπου MS(1) είναι min i (MS(i)) 2 : τα υποψήφια στοιχειοσύνολα μεγέθους 2 παράγονται από το F 1 αντί του L 1 Τροποποιήσεις στον priori (Βήμα Ψαλιδίσματος): Στον παραδοσιακό priori, Ένα υποψήφιο (k+1)-στοιχειοσύνολο δημιουργείται συγχωνεύοντας δυο συχνά k-στοιχειοσύνολα Το υποψήφιο ψαλιδίζεται αν περιέχει ένα (οποιοδήποτε) μη συχνό k- στοιχειοσύνολο Τροποποίηση βήματος ψαλιδίσματος: Ψαλίδισε μόνο αν το υποσύνολο περιέχει το πρώτο στοιχείο πχ andidate={roccoli, oke, Milk} (διατεταγμένα με βάση την μικρότερη ελάχιστη υποστήριξη) {roccoli, oke} και {roccoli, Milk} είναι συχνά αλλά {oke, Milk} είναι μη συχνό andidate δε σβήνεται γιατί το {oke,milk} δεν περιέχει το πρώτο ου στοιχείο, δηλαδή, roccoli. Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 110 Πολλαπλές Τιμές Υποστήριξης Πολλαπλές Τιμές Υποστήριξης MS(I) Sup(I) 0.10% 0.25% MS(I) Sup(I) 0.10% 0.25% 0.20% 0.26% 0.30% 0.29% 0.20% 0.26% 0.30% 0.29% 0.50% 0.05% 3% 4.20% 0.50% 0.05% 3% 4.20% Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 111 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 112 Ακολουθιακά εδομένα Ακολουθιακά εδομένα Μέχρι στιγμής, οι δοσοληψίες σύνολα από στοιχεία, δεν έχει σημασία η σειρά εμφάνισης των στοιχείων σε κάθε δοσοληψία επίσης, σύνολα από δοσοληψίες, δεν έχει σημασία η σειρά εμφάνισης κάθε δοσοληψίας Ωστόσο, πολλά δεδομένα στο «Καλάθι της νοικοκυράς» περιέχουν χρονική πληροφορία, πχ ποιες δοσοληψίες κάνει ένας πελάτης σε μια συγκεκριμένη χρονική περίοδο Επίσης, γεγονότα που είναι αποτελέσματα επιστημονικών πειραμάτων ηλαδή, σχέση διάταξης είτε χρονική, είτε χωρική Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 113 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 114

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 115 Ακολουθίες Ακολουθίες Sequence atabase (Ακολουθιακή Βάση Δεδομένων): Παραδείγματα Ακολουθιακών εδομένων Object Timestamp vents 10 2, 3, 5 20 6, 1 23 1 11 4, 5, 6 17 2 21 7, 8, 1, 2 28 1, 6 14 1, 8, 7 Ταξινόμηση με βάση τη χρονόσημα -> ακολουθία Ακολουθία προσπελάσεων Web: < {Homepage} {lectronics} {igital ameras} {anon igital amera} {Shopping art} {Order onfirmation} {Return to Shopping} > Ακολουθία γεγονότων που οδήγησαν σε πυρηνικό ατύχημα στο 3-mile Island: (http://stellar-one.com/nuclear/staff_reports/summary_so_the_initiating_event.htm) < {clogged resin} {outlet valve closure} {loss of feedwater} {condenser polisher outlet valve shut} {booster pumps trip} {main waterpump trips} {main turbine trips} {reactor pressure increases}> Γεγονότα (vents) (~στοιχεία) σχετιζόμενα με Αντικείμενα (Objects) (~δοσοληψίες) και πότε αυτά εμφανίζονται Ακολουθία βιβλίων δανεισμού από βιβλιοθήκη: <{Fellowship of the Ring} {The Two Towers} {Return of the King}> Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 116 Τυπικός Ορισμός Ακολουθίας Ακολουθίες Μια ακολουθία (sequence) είναι μια διατεταγμένη λίστα από στοιχεία (elements) (~transactions) s = < e 1 e 2 e 3 > Κάθε στοιχείο αποτελείται από μια συλλογή από γεγονότα (events) (~items) e i = {i 1, i 2,, i k } Κάθε στοιχείο αντιστοιχεί σε μια συγκεκριμένη χρονική στιγμή ή τοποθεσία Μήκος (length) μιας ακολουθίας, s, είναι ο αριθμός των στοιχείων της ακολουθίας Μια k-ακολουθία είναι μια ακολουθία που περιέχει k γεγονότα (items) Στοιχεία (Transaction) Ακολουθία 1 2 1 3 2 Μήκος = 5, 8-ακολουθία 2 3 4 Γεγονός () Sequence atabase ustomer Web ata vent data Genome sequences lement (Transaction) Sequence Παραδείγματα Ακολουθιακών εδομένων Sequence Purchase history of a given customer rowsing activity of a particular Web visitor History of events generated by a given sensor N sequence of a particular species 1 2 set of items bought by a customer at time t collection of files viewed by a Web visitor after a single mouse click vents triggered by a sensor at time t n element of the N sequence 1 3 lement (Transaction) 2 ooks, diary products, s, etc Home page, index page, contact info, etc Types of alarms generated by sensors ases,t,g, 2 Ακολουθίες vent () 3 4 Χρονική διάταξη Χωρική διάταξη vent () Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 117 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 118 Ακολουθίες Τυπικός Ορισμός Υπο-ακολουθίας Μια ακολουθία <a 1 a 2 a n > περιέχεται σε μια άλλη ακολουθία (είναι υποακολουθία της) <b 1 b 2 b m > (m n) αν υπάρχουν ακέραιοι i 1 < i 2 < < i n τέτοιοι ώστε a 1 b i1, a 2 b i2,, a n b in Έστω ένα σύνολο που περιέχει μια ή περισσότερες ακολουθίες. Η υποστήριξη (support) μιας ακολουθίας w ορίζεται ως το ποσοστό των ακολουθιών στο που περιέχουν το w Σύνολο 5 ακολουθιών Παραδείγματα Ακολουθία Δεδομένων Υπο-ακολουθία < {2,4} {3,5,6} {8} > < {2} {3,5} > < {1,2} {3,4} > < {1} {2} > < {2,4} {2,4} {2,5} > < {2} {4} > Περιέχεται; Ναι Όχι Ναι Object Timestamp vents 1 1,2,4 2 2,3 3 5 1 1,2 2 2,3,4 1 1, 2 2 2,3,4 3 2,4,5 1 2 2 3, 4 3 4, 5 1 1, 3 2 2, 4, 5 Παραδείγματα: < {1,2} > s=60% Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 119 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 120

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 121 Έστω ένα σύνολο που περιέχει μια ή περισσότερες ακολουθίες. Η υποστήριξη (support) μιας ακολουθίας w ορίζεται ως το ποσοστό των ακολουθιών στο που περιέχουν το w Ένα ακολουθιακό πρότυπο (sequential pattern ) είναι μια συχνή υπο-ακολουθία (δηλαδή μια ακολουθία με υποστήριξη minsup) Σύνολο 5 ακολουθιών Object Timestamp vents 1 1,2,4 2 2,3 3 5 1 1,2 2 2,3,4 1 1, 2 2 2,3,4 3 2,4,5 1 2 2 3, 4 3 4, 5 1 1, 3 2 2, 4, 5 Παραδείγματα: < {3}{5}> s=80% <{1,2}{5}> s=40% <{5}{1,2}> s=0% Επίσης, οποιαδήποτε ακολουθία με μήκος μεγαλύτερο του 2 Object Timestamp vents 1 1,2,4 2 2,3 3 5 1 1,2 2 2,3,4 1 1, 2 2 2,3,4 3 2,4,5 1 2 2 3, 4 3 4, 5 1 1, 3 2 2, 4, 5 Minsup = 50% Παραδείγματα συχνών υπο-ακολουθιών < {1,2} > s=60% < {2,3} > s=60% < {2,4}> s=80% < {3} {5}> s=80% < {1} {2} > s=80% < {2} {2} > s=60% < {1} {2,3} > s=60% < {2} {2,3} > s=60% < {1,2} {2,3} > s=60% Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 122 Ορισμός Προβλήματος Εξόρυξης Ακολουθιακών Προτύπων (Sequential Pattern Mining) Έστω μια ακολουθία: <{a b} {c d e} {f} {g h i}> Παραδείγματα υπο-ακολουθίας: <{a} {c d} {f} {g} >, < {c d e} >, < {b} {g} >, etc Ο αριθμός τους είναι εκθετικός Πόσες k-υποακολουθίες μπορεί να εξαχθούν από μια n-ακολουθία; Είσοδος: Μια βάση από ακολουθίες Ένα ελάχιστο κατώφλι υποστήριξης, minsup Πρόβλημα: Βρες όλες τις υπο-ακολουθίες με υποστήριξη minsup <{a b} {c d e} {f} {g h i}> n = 9 Παράδειγμα για k = 4 {a}{c}{f}{g} n 9 = = 126 {a}, {f}, {h i} k 4 {c d e} {g} i= 1,9 9 = 511 i Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 123 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 124 rute-force Μέθοδος Απαρίθμηση όλων των πιθανών υπο-ακολουθιών και υπολογισμός της υποστήριξης τους Έστω n γεγονότα: i 1, i 2, i 3,, i n Υποψήφιες 1-υπο-ακολουθίες: <{i 1 }>, <{i 2 }>, <{i 3 }>,, <{i n }> Υποψήφιες 2-υπο-ακολουθίες: <{i 1, i 2 }>, <{i 1, i 3 }>,, <{i 1 } {i 1 }>, <{i 1 } {i 2 }>,, <{i n- 1 } {i n }> Υποψήφιες 3-υπο-ακολουθίες: <{i 1, i 2, i 3 }>, <{i 1, i 2, i 4 }>,, <{i 1, i 2 } {i 1 }>, <{i 1, i 2 } {i 2 }>,, <{i 1 } {i 1, i 2 }>, <{i 1 } {i 1, i 3 }>,, <{i 1 } {i 1 } {i 1 }>, <{i 1 } {i 1 } {i 2 }>, Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 125 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 126

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 127 Παρατήρηση Ο αριθμός των υποψήφιων ακολουθιών είναι πολύ μεγαλύτερος από τον αριθμό των υποψήφιων στοιχειοσυνόλων για δύο κυρίως λόγους: Ένα στοιχείο μπορεί να εμφανιστεί μόνο μια φορά σε ένα στοιχειοσύνολο, ενώ ένα γεγονός μπορεί να εμφανιστεί περισσότερο από μια φορά σε μια ακολουθία Πχ το στοιχειοσύνολο {i1, i2} -> <{i1,i1}> <{i1},{i1}>, κλπ priori για ακολουθίες Μια k-ακολουθία πρέπει να περιέχει όλες τις πιθανές k-1 υποακολουθίες της Οπότε, παρόμοιος αλγόριθμος Η διάταξη δεν έχει σημασία στα στοιχειοσύνολα, αλλά έχει στις ακολουθίες Πχ το στοιχειοσύνολο {i1, i2} -> <{i1}{i2}> <{i2}{i1}>, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 128 Generalized Sequential Pattern (GSP) Βήμα 1: Κάνε το πρώτο πέρασμα στη βάση των ακολουθιών και παρήγαγε όλες τις συχνές ακολουθίες ενός στοιχείου Βήμα 2: Επανέλαβε μέχρι να μην παράγονται νέες συχνές ακολουθίες ημιουργία Υποψηφίων - andidate Generation: Συγχώνευση συχνών ακολουθιών που βρέθηκαν στο (k-1)th πέρασμα φια δημιουργία υποψηφίων ακολουθιών με k στοιχεία Ψαλίδισμα Υποψηφίων - andidate Pruning: Ψαλίδισε τις k-ακολουθίες που περιέχουν μη συχνές Prune candidate (k-1)-υπο-ακολουθίες Υπολογισμός Υποστήριξης - Support ounting: Κάνε ένα νέο πέρασμα στη βάση για τον υπολογισμό της υποστήριξης των νέων υποψηφίων Υπολογισμός Υποψηφίων - andidate limination: ιώξε τις υποψήφιες k-ακολουθίες που η πραγματική τους υποστήριξη είναι μικρότερη του minsup ημιουργία υποψηφίων Βάση (k=2): Συγχώνευση δύο συχνών 1-ακολουθιών <{i 1 }> and <{i 2 }> θα παράξει δυο υποψήφιες 2-ακολουθίες: <{i 1 } {i 2 }> and <{i 1 i 2 }> Γενική περίπτωση (k>2): Συνθήκη για συγχώνευση: Μια συχνή (k-1)-ακολουθία w 1 συγχωνεύεται μα μια άλλη συχνή (k-1)-ακολουθία w 2 για να παραχθεί μια υποψήφια k-ακολουθία αν η υπο-ακολουθία που παίρνουμε αν σβήσουμε το πρώτο γεγονός της w 1 είναι το ίδιο με την υπο-ακολουθία που παίρνουμε αν σβήσουμε το τελευταίο γεγονός της w 2 Το αποτέλεσμα μετά τη συγχώνευση είναι η ακολουθία w 1 επεκταμένη με το τελευταίο γεγονός της w 2. Αν τα τελευταία δύο γεγονότα της w 2 ανήκουν στο ίδιο στοιχείο τότε το τελευταίο γεγονός της w 2 γίνεται μέρος του τελευταίου στοιχείου της w 1 Αλλιώς το τελευταίο γεγονός της w 2 γίνεται ένα διαφορετικό στοιχείο appended στο τέλος της w 1 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 129 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 130 Παραδείγματα ημιουργίας Υποψηφίων Παραδείγματα ημιουργίας Υποψηφίων Συγχώνευση των ακολουθιών w 1 =<{1} {2 3} {4}> και w 2 =<{2 3} {4 5}> μας δίνει την υποψήφια ακολουθία < {1} {2 3} {4 5}> γιατί τα 2 τελευταία γεγονότα της w 2 (4 και 5) ανήκουν στο ίδιο στοιχείο Συγχώνευση των ακολουθιών w 1 =<{1} {2 3} {4}> και w 2 =<{2 3} {4} {5}> μας δίνει την υποψήφια ακολουθία < {1} {2 3} {4} {5}> γιατί τα 2 τελευταία γεγονότα της w 2 (4 και 5) δεν ανήκουν στο ίδιο στοιχείο ε χρειάζεται να συγχωνεύσουμε τις ακολουθίες w 1 =<{1} {2 6} {4}> και w 2 =<{1} {2} {4 5}> για να πάρουμε το υποψήφιο < {1} {2 6} {4 5}> συγχώνευση w 1 με <{2 6} {4 5}> Frequent 3-sequences < {1} {2} {3} > < {1} {2 5} > < {1} {5} {3} > < {2} {3} {4} > < {2 5} {3} > < {3} {4} {5} > < {5} {3 4} > andidate Generation < {1} {2} {3} {4} > < {1} {2 5} {3} > < {1} {5} {3 4} > < {2} {3} {4} {5} > < {2 5} {3 4} > Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 131 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 132

Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 133 Ψαλίδισμα υποψηφίων Μια υποψήφια k-ακολουθία σβήνεται αν έχει τουλάχιστον μια μη συχνή (k-1)-υπο-ακολουθία Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 134 Τέλος Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 135