Κανόνες Συσχέτισης IIΙ

Σχετικά έγγραφα

Ανάλυση Συσχέτισης IΙ

Ο Αλγόριθμος FP-Growth

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Κανόνες Συσχέτισης IΙ

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Lecture Notes for Chapter 6. Introduction to Data Mining

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Αποθήκες και Εξόρυξη Δεδομένων

Δμόξπμε Γεδνκέλσλ. Καλόλεο Σπζρέηηζεο: Βαζηθέο Έλλνηεο θαη Αιγόξηζκνη

Κανόνες συσχέτισης Association rules

5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ

Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης

Κεφ.11: Ευρετήρια και Κατακερματισμός

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις

Asocijativna analiza

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

ΗΥ360 Αρχεία και Βάσεις Δεδομένων

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Υπερπροσαρμογή (Overfitting) (1)

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

Τεχνικές Εξόρυξης Δεδομένων

ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης

Ευφυής Προγραμματισμός

Ζητήματα ηήμ με τα δεδομένα

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 11: Μη Ασυμφραστικές Γλώσσες

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Επεξεργασία Ερωτήσεων

!! " &' ': " /.., c #$% & - & ' ()",..., * +,.. * ' + * - - * ()",...(.

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Κλείσιμο Συνόλου Γνωρισμάτων

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

2. Η πιθανότητα της αριθμήσιμης ένωσης ξένων μεταξύ τους ενδεχομένων είναι το άθροισμα των πιθανοτήτων των ενδεχομένων.

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ατομική Διπλωματική Εργασία ΜΕΘΟΔΟΙ ΠΡΟΤΑΣΙΑΚΗΣ ΙΚΑΝΟΠΟΙΗΣΙΜΟΤΗΤΑΣ ΣΕ ΓΕΝΙΚΕΥΜΕΝΑ ΠΡΟΒΛΗΜΑΤΑ ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΙΑΣ. Νίκη Κουππή ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Εξόρυξη από Γραφήματα

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Σχεδίαση και Ανάλυση Αλγορίθμων

Επεξεργασία Ερωτήσεων

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Π Α Ν Ε Π Ι Σ Τ Η Μ Ι O Π Ε Ι Ρ Α Ι Ω Σ

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων

Θεωρία Υπολογισμού και Πολυπλοκότητα

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

HY118-Διακριτά Μαθηματικά

Κατανεμημένα Συστήματα Ι

ΗΜΥ-210: Σχεδιασμός Ψηφιακών Συστημάτων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Επεξεργασία Ερωτήσεων

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα

Αλγοριθμικές Τεχνικές

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

Κατανεμημένα Συστήματα Ι

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Ψηφιακά Συστήματα. 5. Απλοποίηση με χάρτες Karnaugh

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

P(n, r) = n! P(n, r) = n r. (n r)! n r. n+r 1 r n!

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Αρχεία και Βάσεις Δεδομένων

Υπολογιστικά & Διακριτά Μαθηματικά

Αλγόριθμοι Ταξινόμησης Μέρος 4

ΗΥ360 Αρχεία και Βάσεις εδοµένων

Ταξινόμηση με συγχώνευση Merge Sort

Παραδείγματα (2 ο σετ) Διανυσματικοί Χώροι Επιμέλεια: Ι. Λυχναρόπουλος

Ουρές Προτεραιότητας: Υπενθύμιση. Σωροί / Αναδρομή / Ταξινόμηση. Υλοποίηση Σωρού. Σωρός (Εισαγωγή) Ορέστης Τελέλης

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Διακριτά Μαθηματικά. Απαρίθμηση: μεταθέσεις και συνδυασμοί

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 11: Κατασκευή φυλογενετικών δέντρων part II

ΠΡΟΔΙΑΘΕΣΙΚOI ΠΑΡΑΓΟΝΤΕΣ ΑΘΗΡΟΣΚΛΗΡΩΣΗΣ ΚΑΙ ΕΜΦΑΝΙΣΗ ΑΘΗΡΩΜΑΤΙΚΩΝ ΒΛΑΒΩΝ ΣΤΙΣ ΚΑΡΩΤΙΔΕΣ ΣΕ ΝΕΟΥΣ ΕΝΗΛΙΚΕΣ

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Transcript:

Κανόνες Συσχέτισης IIΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 2 Εξόρυξη Δεδομένων 2-2

Εισαγωγή Market Basket transactions (Το καλάθι της νοικοκυράς!) TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke Το πρόβλημα: Δεδομένου ενός συνόλου συναλλαγών (transactions), βρες κανόνες που προβλέπουν την εμφάνιση στοιχείων (item) με βάση την εμφάνιση άλλων στοιχείων στις συναλλαγές Παραδείγματα κανόνων συσχέτισης 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke {Diaper} {Beer}, {Milk, Bread} {Eggs,Coke}, {Beer, Bread} {Milk} συναλλαγή (transaction) Προώθηση προϊόντων στοιχείο (item) Τοποθέτηση προϊόντων στα ράφια Διαχείριση αποθεμάτων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 3 Ορισμοί στοιχειοσύνολο (itemset): Ένα υποσύνολο του συνόλου των στοιχείων k στοιχειοσύνολο (k itemset): ένα στοιχειοσύνολο μεk στοιχεία support count (σ) ενός στοιχειοσυνόλου: ο αριθμός εμφανίσεων του στοιχείου Υποστήριξη (Support (s)) ενός στοιχειοσυνόλου Το ποσοστό των συναλλαγών που περιέχουν ένα στοιχειοσύνολο TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Συχνό Στοιχειοσύνολο (Frequent Itemset) Ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου minsup Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 4 Εξόρυξη Δεδομένων 2-2 2

Κανόνας Συσχέτισης (Association Rule) Είναι μια έκφραση της μορφής X Y, όπου X και Y είναι στοιχειοσύνολα Χ Ι, Υ Ι, Χ Υ = Παράδειγμα: {Milk, Diaper} {Beer} Ορισμοί TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Υποστήριξη Κανόνα Support (s) Το ποσοστό των συναλλαγών που περιέχουν και το X και το Y(Χ Υ) Εμπιστοσύνη Conidence (c) Πόσεςαπότιςσυναλλαγές(ποσοστό) που περιέχουν το Χ περιέχουν και το Υ Πρόβλημα Εύρεση Κανόνων Συσχέτισης Είσοδος: Ένα σύνολο από δοσοληψίες T Έξοδος: Όλοι οι κανόνες με support minsup conidence mincon Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 5 Εξόρυξη Κανόνων Συσχέτισης Χωρισμός του προβλήματος σε δύο υπο προβλήματα:. Εύρεση όλων των συχνών στοιχειοσυνόλων (Frequent Itemset Generation) Εύρεση όλων των στοιχειοσυνόλων με υποστήριξη minsup 2. Δημιουργία Κανόνων (Rule Generation) Για κάθε (συχνό) στοιχειοσύνολο, δημιούργησε κανόνες με μεγάλη υποστήριξη, όπου κάθε κανόνας είναι μια δυαδική διαμέριση (δηλ. χωρισμός στα δύο) του συχνού στοιχειοσυνόλου Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 6 Εξόρυξη Δεδομένων 2-2 3

Εύρεση Συχνών Στοιχειοσυνόλων Itemset Lattice Πλέγμα Στοιχειοσυνόλων null A B C D E Όλα τα δυνατά στοιχειοσύνολα όταν έχουμε 5 στοιχεία AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE Για d στοιχεία, 2 d πιθανά στοιχειοσύνολα ABCDE Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 7 Εύρεση Συχνών Στοιχειοσυνόλων: Στρατηγική apriori Αρχή Apriori Αν ένα στοιχειοσύνολο είναι συχνό, τότε όλα τα υποσύνολα του είναι συχνά null Ήισοδύναμαανένα στοιχειοσύνολο είναι μη συχνό, όλα τα υπερσύνολα του είναι μη συχνά A B C D E AB AC AD AE BC BD BE CD CE DE βρέθηκε μη συχνό ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ψαλιδισμένα υπερσύνολα ABCDE Support-based pruning Ψαλίδισμα με βάση την υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 8 Εξόρυξη Δεδομένων 2-2 4

Στρατηγική apriori Γενικός Αλγόριθμος για την Εύρεση Συχνών Στοιχειοσυνόλων Έστω k = #k: μήκος στοιχειοσυνόλου Παρήγαγε τα συχνά στοιχειοσύνολα Repeat until να μην παράγονται νέα συχνά στοιχειοσύνολα. Παρήγαγε υποψήφια (k+) στοιχειοσύνολα 2. Ψαλίδισε τα υποψήφια στοιχειοσύνολα που περιέχουν μη συχνά στοιχειοσύνολα μεγέθους k 3. Υπολόγισε την υποστήριξη κάθε υποψήφιου (k+) στοιχειοσυνόλου διασχίζοντας τη βάση των συναλλαγών 4. Σβήσε τα υποψήφια στοιχειοσύνολα που δεν είναι συχνά 5. k=k + Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 9 Στρατηγική apriori: Δημιουργία Στοιχειοσυνόλων Για την παραγωγή υποψήφιων k στοιχειοσυνόλων F k x F Επέκταση κάθε συχνού (k ) στοιχειοσυνόλου με άλλα συχνά στοιχεία F k x F k Συγχώνευση δύο συχνών (k ) στοιχειοσυνόλου αν τα πρώτα k 2 στοιχεία τους είναι τα ίδια Για να αποφύγουμε τη δημιουργία του ίδιου στοιχειοσυνόλου, κρατάμε κάθε στοιχειοσύνολο (λεξικογραφικά) ταξινομημένο Ψαλίδισμα Είναι δυνατόν να γίνουν απλοί έλεγχοι αν τα παραγόμενα πιθανά στοιχειοσύνολα είναι συχνά ελέγχοντας αν τα υποσύνολα τους είναι συχνά και έτσι να αποφύγουμε να υπολογίσουμε την υποστήριξή τους Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III Εξόρυξη Δεδομένων 2-2 5

Στρατηγική apriori: Υπολογισμός Υποστήριξης Για κάθε νέο υποψήφιο k+ στοιχειοσύνολο, πρέπει να υπολογίσουμε την υποστήριξή του Σε κάθε βήμα k+ Για να μειώσουμε τον αριθμό των πράξεων, αποθηκεύουμε τα υποψήφια k+ στοιχειοσύνολα σε ένα δέντρο κατακερματισμού Αντί να ταιριάζουμε κάθε συναλλαγή με κάθε υποψήφιο στοιχειοσύνολο, κατακερματίζουμε όλα τα k+ στοιχειοσύνολα της συναλλαγής και για καθένα, ενημερώνουμε μόνο τους αντίστοιχους κάδους του δέντρου κατακερματισμού των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III Αναπαράσταση Στοιχειοσυνόλων Τα στοιχειοσύνολα που παράγονται είναι πολλά, κάποια ίσως περιττά οδηγούν σε παραγωγή πολλών κανόνων Ποια να κρατήσουμε; Ψάχνουμε για αντιπροσωπευτικά συχνά στοιχειοσύνολα (δηλαδή, να μπορούμε να πάρουμε από αυτά ακριβώς όλα τα συχνά και ιδεατά να μπορούμε να υπολογίσουμε και την υποστήριξη όλων των συχνών): Maximal συχνά Κλειστά συχνά Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 2 Εξόρυξη Δεδομένων 2-2 6

Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι maximal συχνό αν κανένα από τα άμεσα υπερσύνολά του δεν είναι συχνό δηλαδή είναι όλα μη συχνά Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων: το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα είναι τα υποσύνολά τους ΟΜΩΣ: Δεν προσφέρουν καμιά πληροφορία για την υποστήριξη τωνυποσυνόλωντους Συχνά null A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ABCD E Μη συχνά Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 3 Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό (δηλαδή, έχει μικρότερη υποστήριξη) Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και συχνό (δηλαδή, η υποστήριξη του είναι μεγαλύτερη ή ίση με minsup) Πάλι τα υποσύνολα τους μας δίνουν όλα τα συχνά υποσύνολα, τώρα όμως μπορούμε να υπολογίσουμε την υποστήριξη των υποσυνόλων τους Πως: Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 4 Εξόρυξη Δεδομένων 2-2 7

Αναπαράσταση Στοιχειοσυνόλων TID στοιχεία ABC 2 ABCD 3 BCE 4 ACDE 5 DE Maximal vs Closed Itemsets ΤIDs null 24 23 234 245 345 A B C D E 2 24 24 4 23 2 3 24 34 45 AB AC AD AE BC BD BE CD CE DE 2 2 24 4 4 2 3 4 ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE Δεν εμφανίζονται σε καμιά συναλλαγή ABCDE Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 5 Ελάχιστη υποστήριξη = 2 Αναπαράσταση Στοιχειοσυνόλων Maximal vs Closed Itemsets null Κλειστά αλλά όχι maximal 24 23 234 245 345 A B C D E Κλειστά και maximal 2 24 24 4 23 2 3 24 34 45 AB AC AD AE BC BD BE CD CE DE 2 2 24 4 4 2 3 4 ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE # Closed = 9 # Maximal = 4 ABCDE Γιαναυπολογίσουμεόλατασυχνάστοιχειοσύνολακαιτην υποστήριξη τους, ξεκινάμε από τα μεγαλύτερα κλειστά και προχωράμε Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 6 Εξόρυξη Δεδομένων 2-2 8

Εναλλακτικός Υπολογισμός Συχνών Στοιχειοσυνόλων Με λίγα λόγια: Αλγόριθμος FP Growth Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο preix tree (trie) Ο αλγόριθμος κατασκευής διαβάζει μια συναλλαγή τη φορά, απεικονίζει την συναλλαγή σε ένα μονοπάτι του FP δέντρου Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση Μόλις κατασκευαστεί το FP δέντρο, ο αλγόριθμος χρησιμοποιεί μια αναδρομική διαίρει και βασίλευε (divide and conquer) προσέγγιση για την εξόρυξη των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 7 Αλγόριθμος FP Growth TID Items {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} {B,C,E} Κατασκευή FP δέντρου null A:7 B:5 C: B:3 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E: E: E: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 8 Εξόρυξη Δεδομένων 2-2 9

Αλγόριθμος FP Growth Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Είσοδος: FP δέντρο Έξοδος: Συχνά στοιχειοσύνολα και η υποστήριξη τους Μέθοδος: Διαίρει και Βασίλευε o Χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν σε E, D, C, B, A o Μετά αυτά που τελειώνουν σε E σε αυτά σε DE, CE, BE, AE κοκ Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 9 TID Items {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} {B,C,E} Αλγόριθμος FP Growth Χρήση FP δέντρου για εύρεση συχνών στοιχειοσυνόλων null A:7 B:3 B:5 C:3 C: Header table Item Pointer A B C D E C:3 E: E: E: Πως; Bottom up traversal του δέντρου Αυτά που τελειώνουν σε E, μετά αυτά που τελειώνουν σε D, C, B και τέλος Α suix based classes (επίθεμα κατάληξη) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 2 Εξόρυξη Δεδομένων 2-2

Αλγόριθμος FP Growth Συνοπτικά Σε κάθε βήμα, για το suix (επίθεμα) Χ Φάση Κατασκευάζουμε το προθεματικό δέντρο γιατοχκαιυπολογίζουμε την υποστήριξη χρησιμοποιώντας τον πίνακα Φάση 2 Αν είναι συχνό, κατασκευάζουμε το υπο συνθήκη δέντρο για το Χ, σε βήματα επανα υπολογισμός υποστήριξης περικοπή κόμβων με μικρή υποστήριξη περικοπή φύλλων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 2 Αλγόριθμος FP Growth Φάση κατασκευή προθεματικού δέντρου Όλα τα μονοπάτια που περιέχουν το E null Προθεματικά (preix paths) Μονοπάτια A:7 B:3 B:5 C: C:3 Header table Item A B C D E Pointer C:3 E: E: E: Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 22 Εξόρυξη Δεδομένων 2-2

Αλγόριθμος FP Growth Φάση Όλα τα μονοπάτια που περιέχουν το E Προθεματικά Μονοπάτια (preix paths) null A:7 B:3 C: C:3 E: E: E: Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 23 Έστω minsup = 2 Βρες την υποστήριξη του {E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας ++=3>2 Οπότε {Ε} συχνό Αλγόριθμος FP Growth null A:7 B:3 C: C:3 E: E: E: {E} συχνό άρα προχωράμε για DE, CE, BE, AE Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 24 Εξόρυξη Δεδομένων 2-2 2

Αλγόριθμος FP Growth {E} συχνό άρα προχωράμε για DE, CE, BE, AE Φάση 2 Μετατροπή των προθεματικών δέντρων σε FP δέντρο υπό συνθήκες ή υποθετικό (conditional FP tree) Δύο αλλαγές () Αλλαγή των μετρητών (2) Περικοπή null A:7 B:3 C: C:3 E: E: E: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 25 Αλγόριθμος FP Growth Αλλαγή μετρητών Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν συναλλαγές που δεν έχουν το Ε Πχ στο null >B >C >E μετράμε και την {B, C} null A:7 B:3 C: C:3 E: E: E: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 26 Εξόρυξη Δεδομένων 2-2 3

Αλγόριθμος FP Growth null A:2 B: C: C: E: E: E: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 27 Αλγόριθμος FP Growth Περικοπή (truncate) Σβήσε τους κόμβους του Ε null A:2 B: C: C: E: E: E: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 28 Εξόρυξη Δεδομένων 2-2 4

Αλγόριθμος FP-Growth Περικοπή (truncate) Σβήσε τους κόμβους του Ε null A:2 B: C: C: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 29 Αλγόριθμος FP Growth Πιθανή περαιτέρω περικοπή Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης Πχ το Β > περικοπή null A:2 B: Αυτό σημαίνει ότι το Β εμφανίζεται μαζί με το E λιγότερο από minsup φορές C: C: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 3 Εξόρυξη Δεδομένων 2-2 5

Αλγόριθμος FP Growth null A:2 C: C: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 3 Αλγόριθμος FP Growth Υπο συνθήκη FP δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} null A:2 C: C: Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 32 Εξόρυξη Δεδομένων 2-2 6

Αλγόριθμος FP Growth Παρατηρήσεις Η απόδοση του FP Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction actor) Αν τα τελικά δέντρα είναι «θαμνώδη» (bushy) τότε δε δουλεύει καλά, αυξάνεται ο αριθμός των υποπροβλημάτων (οι αναδρομικές κλήσεις) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 33 Παραγωγή Κανόνων Δοθέντος ενός συχνού στοιχειοσυνόλου L, βρες όλα τα μη κενά υποσύνολα L τέτοια ώστε: ο κανόνας L να ικανοποιεί τον περιορισμό της ελάχιστης εμπιστοσύνης Η εμπιστοσύνη για τους κανόνες που παράγονται από το ίδιο στοιχειοσύνολο έχει μια αντι μονότονη ιδιότητα Για παράδειγμα L = {A,B,C,D}: c(abc D) c(ab CD) c(a BCD) Η εμπιστοσύνη είναι αντι μονότονη σε σχέση με τον αριθμό των στοιχείων στο RHS του κανόνα Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 34 Εξόρυξη Δεδομένων 2-2 7

Παραγωγή Κανόνων για τον Αλγόριθμο apriori Πλέγμα Κανόνων για το Στοιχειοσύνολο {Α, B, C, D} Ψαλίδισμα με βάση την εμπιστοσύνη Έστω κόμβος με μικρή εμπιστοσύνη Ψαλιδισ μένοι κανόνες ABCD=>{ } BCD=>A ACD=>B ABD=>C ABC=>D CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD D=>ABC C=>ABD B=>ACD A=>BCD Για κάθε συχνό στοιχειοσύνολο, ξεκινάμε με έναν κανόνα που έχει μόνο k= στοιχείο στο δεξί μέρος του Υπολογίζουμε την εμπιστοσύνη Παράγουμε κανόνες με k+ στοιχεία στο δεξί μέρος και υπολογίζουμε την εμπιστοσύνη τους Σημείωση: Για τον υπολογισμό της εμπιστοσύνης δεν χρειάζεται να διαπεράσουμε τη βάση Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 35 Εκτίμηση Κανόνων Συσχέτισης Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 36 Εξόρυξη Δεδομένων 2-2 8

Εκτίμηση Κανόνων Συσχέτισης Παράγουν πάρα πολλούς κανόνες που συχνά είναι μη ενδιαφέροντες ή πλεονάζοντες (περιττοί) Πλεονάζοντες αν {A, B, C} {D} και {A,B} {D} έχουν την ίδια υποστήριξη & εμπιστοσύνη Μέτρα ενδιαφέροντος (interestingness) χρησιμοποιούνται για να ελαττώσουν (prune) ή να ιεραρχήσουν (rank) τα παραγόμενα πρότυπα Χρησιμοποιούνται σε διάφορα στάδια της διαδικασίας ανάκτησης γνώσης Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 37 Μέτρηση Ενδιαφέροντος Εφαρμογές της μέτρησης του ενδιαφέροντος (σε διάφορα στάδια) Μέτρα Ενδιαφέροντος Επιλεγμένα Δεδομένα Featur Featur e Featur e Featur e Featur Featur e Featur e e Featur e Featur e Featur e e Prod uct uct Prod uct Prod uct Prod uct Πρότυπα Προ-επεξεργασμένα Δεδομένα Prod uct Prod uct Prod Prod uct Prod uct Prod uct Γνώση Μετά-επεξεργασία Εξόρυξη Δεδομένα Προ-επεξεργασία Επιλογή Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 38 Εξόρυξη Δεδομένων 2-2 9

Αποτίμηση Κανόνων Συσχέτισης Γενικά: αντικειμενικά (objective) και υποκειμενικά (subjective) μέτρα ενδιαφέροντος Ας δούμε πρώτα μερικά αντικειμενικά κριτήρια: Στην αρχική διατύπωση του προβλήματος της εξόρυξης κανόνων συσχέτισης χρησιμοποιήθηκαν ως μέτρα μόνο η υποστήριξη και η εμπιστοσύνη Γενικά συνήθως βασίζονται σε μετρήσεις της συχνότητας εμφάνισης που δίνονται μέσω ενός πίνακα contingency (συνάφειας) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 39 Μέτρηση Ενδιαφέροντος: Αντικειμενικά Μέτρα Contingency table (πίνακας συνάφειας/πίνακας ενδεχομένων) Μέτρηση συχνότητας εμφάνισης X X Y Y o+ + T + + : support o X and Y : support o X and Y : support o X and Y : support o X and Y πόσο συχνά εμφανίζεται το Χ και το Υ (support count) + μετρητής υποστήριξης (support count) του Υ Χρησιμοποιείται για τον ορισμό διαφόρων μέτρων Έστω ένας κανόνας, X Y, η πληροφορία που χρειάζεται για τον υπολογισμό της εμπιστοσύνης και της υποστήριξης του κανόνα μπορεί να υπολογιστεί από τον contingency table Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 4 Εξόρυξη Δεδομένων 2-2 2

Μειονεκτήματα της Εμπιστοσύνης Μέτρηση Ενδιαφέροντος Μεγάλες τιμές υποστήριξης μπορεί να «διώξουν» ενδιαφέροντες κανόνες. Τι γίνεται με την εμπιστοσύνη; Tea Tea Coee 5 75 9 Coee 5 5 2 8 Ποια είναι μια καλή τιμή για την εμπιστοσύνη; Ενδιαφερόμαστε για τη σχέση μεταξύ αυτών που πίνουν καφέ και αυτών που πίνουν τσάι Κανόνας Συσχέτισης: Tea Coee Εμπιστοσύνη = P(Coee Tea) =.75 Ενώ ο κανόνας έχει υψηλή εμπιστοσύνη, ο κανόνας είναι παραπλανητικός P(Coee Tea) =.9375 P(Coee) =.9 Αγνοεί την υποστήριξη του RHS (στην περίπτωση μας του coee) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 4 Μέτρηση Ενδιαφέροντος Εξαιτίας τέτοιων προβλημάτων της υποστήριξης/εμπιστοσύνης, έχουν προταθεί πολλά αντικειμενικά μέτρα για τη μέτρηση του ενδιαφέροντος των κανόνων, που στηρίζονται κυρίως στην έννοια της στατιστικής ανεξαρτησίας Ας δούμε ένα παράδειγμα Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 42 Εξόρυξη Δεδομένων 2-2 2

Μέτρα βασισμένα στη Στατιστική Στατιστική Ανεξαρτησία Πληθυσμός σπουδαστών 6 σπουδαστές ξέρουν κολύμπι (S) 7 σπουδαστές ξέρουν ποδήλατο (B) 42 σπουδαστές ξέρουν κολύμπι και ποδήλατο (S, B) P(S B) = 42/ =.42 P(S) P(B) =.6.7 =.42 P(S B) = P(S) P(B) => Στατιστική ανεξαρτησία P(S B) > P(S) P(B) => Positively correlated (θετική συσχέτιση) P(S B) < P(S) P(B) => Negatively correlated (αρνητική συσχέτιση) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 43 Μέτρα βασισμένα στη Στατιστική Μέτρα που λαμβάνουν υπ όψιν τους τη στατιστική εξάρτηση Για τη συσχέτιση: Χ Υ P( Y X ) Lit = = P( Y ) + P( X, Y ) T Interest = = P( X ) P( Y ) + =, Στατιστική ανεξαρτησία >, θετική συσχέτιση + <, αρνητική συσχέτιση PS = P( X, Y ) P( X ) P( Y ) P( X, Y ) P( X ) P( Y ) φ coeicient = = P( X )[ P( X )] P( Y )[ P( Y )] + + + + Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 44 Εξόρυξη Δεδομένων 2-2 22

Μέτρα βασισμένα στη Στατιστική Παράδειγμα: Lit/Interest Coee Coee Tea Tea 5 75 9 5 5 2 8 Κανόνας συσχέτιση: Tea Coee Εμπιστοσύνη= P(Coee Tea) =.75 αλλά P(Coee) =.9 Interest =.5/(.9*.2)=.8333 (<, άρα αρνητικά συσχετιζόμενα) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 45 Μέτρα βασισμένα στη Στατιστική Μειονεκτήματα του Lit & Interest X X Y Y 9 9 9 X X Y 9 9 Y 9..9 I = = I = =. (.)(.) (.9)(.9) Μεγαλύτερο αν και σπάνια εμφανίζονται μαζί c = / =. s = c (conidence εμπιστοσύνη) s (support υποστήριξη) c = 9/ =.9 s = Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 46 Εξόρυξη Δεδομένων 2-2 23

Μέτρα βασισμένα στη Στατιστική φ Coeicient φ coeicient = P( X, Y ) P( X ) P( Y ) = P( X )[ P( X )] P( Y )[ P( Y )] + + + + Κανονικοποιημένη τιμή μεταξύ του και Δυαδική εκδοχή του Pearson s coeicient : στατιστική ανεξαρτησία : τέλεια αρνητική συσχέτιση : τέλεια θετική συσχέτιση Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 47 Μέτρα βασισμένα στη Στατιστική φ Coeicient X X Y 6 7 Y 2 3 7 3 X X Y 2 3 Y 6 7 3 7.6.7.7 φ =.7.3.7.3 =.5238 φ Coeicient ίδιος και για τους δύο πίνακες.2.3.3 φ =.7.3.7.3 =.5238 Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 48 Εξόρυξη Δεδομένων 2-2 24

Μέτρα βασισμένα στη Στατιστική φ-coeicient φ coeicient = P( X, Y ) P( X ) P( Y ) = P( X )[ P( X )] P( Y )[ P( Y )] + + + + Είναι κατάλληλο για μη συμμετρικές (η απουσία και η παρουσία μετρούν το ίδιο) Λόγω κανονικοποίησης, αγνοεί το μέγεθος του δείγματος Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 49 Μέτρα βασισμένα στη Στατιστική IS-measure s( X, Y ) IS ( X, Y ) = = = s( X ) s( Y ) + + I( X, Y ) s( x, Y ) είναι το συνημίτονο αν θεωρηθούν δυαδικές μεταβλητές γεωμετρικόςμέσοςτηςεμπιστοσύνηςτουχ Υ καιυ Χ Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 5 Εξόρυξη Δεδομένων 2-2 25

Στη βιβλιογραφία έχουν προταθεί πολλά μέτρα ανάλογα με την εφαρμογή Με ποια κριτήρια θα επιλέξουμε ένα καλό μέτρο; Πως έναν Aprioristyle support based pruning επηρεάζει αυτά τα μέτρα; Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 5 Αποτίμηση Κανόνων Συσχέτισης Σύγκριση Μέτρων παραδείγματα contingency πινάκων: Ιεράρχηση των πινάκων με βάση τα διάφορα μέτρα ( ο πιο ενδιαφέρον, ο λιγότερο ενδιαφέρον): Example E 823 83 424 37 E2 833 2 622 46 E3 948 94 27 298 E4 3954 38 5 296 E5 2886 363 32 443 E6 5 2 5 6 E7 4 2 3 E8 4 2 2 2 E9 72 72 5 54 E 6 2483 4 7452 Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 52 Εξόρυξη Δεδομένων 2-2 26

Αποτίμηση Κανόνων Συσχέτισης ΙδιότητεςενόςΚαλούΜέτρου Piatetsky Shapiro: 3 γενικές ιδιότητες που πρέπει να ικανοποιεί ένα καλό μέτρο M: M(A, B) = αν τα Α και Β είναι στατιστικά ανεξάρτητα M(A, B) να αυξάνει μονότονα με το P(A,B) όταν τα P(A) και P(B) παραμένουν αμετάβλητα M(A, B) μειώνεται μονότονα με το P(A) [ή τοp(b)] όταν τα P(A,B) και P(B) [ή P(A)] παραμένουν αμετάβλητα Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 53 Ιδιότητες Μέτρων Αποτίμησης Αλλαγή Διάταξης Μεταβλητών (variable permutation) B B A p q A r s A A B p r B q s Ισχύει M(A, B) = M(B, A)? Γενικά συμμετρικά μέτρα για στοιχειοσύνολα και μη συμμετρικά για κανόνες Συμμετρικά (symmetric) μέτρα: support (υποστήριξη), lit, collective strength, cosine, Jaccard, κλπ Μη συμμετρικά (asymmetric) μέτρα: conidence (εμπιστοσύνη), conviction, Laplace, J measure, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 54 Εξόρυξη Δεδομένων 2-2 27

Ιδιότητες Μέτρων Αποτίμησης Κλιμάκωση Γραμμής/Στήλης (Row/Column Scaling) Παράδειγμα Βαθμός Φύλο (Mosteller, 968): κ 3 Male κ 4 Female Male Female κ κ 2 High Low 2 3 3 4 7 5 5 High Low 4 2 6 3 4 7 34 42 76 Mosteller: Η συσχέτιση πρέπει να είναι ανεξάρτητη από το σχετικό αριθμό αγοριών κοριτσιών στο δείγμα 2x x Invariant under the row/column scaling operation αν Μ(Τ) = Μ(Τ ) όπου Τ o πίνακας contingency με μετρητές συχνότητας [, ; ; ] και Τ o πίνακας contingency με μετρητές συχνότητας [κ κ 3, κ 2 κ 3 ; κ κ 4 ; κ 2 κ 4 ] όπου κ, κ 2, κ 3, κ 4 θετικές σταθερές Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 55 Ιδιότητες Μέτρων Αποτίμησης Αντιστροφή (Inversion Operation) A B C D E F Συναλλαγή. Συναλλαγή N (a) (b) (c) Invariant under the inversion operation αν η τιμή της παραμένει η ίδια αν ανταλλάξουμε τις τιμές και και τις τιμές και Χρήσιμο για συμμετρικές μεταβλητές πχ φ το ίδιο για Α,ΒκαιC,D αλλά μικρότερο για Ε,F Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 56 Εξόρυξη Δεδομένων 2-2 28

Ιδιότητες Μέτρων Αποτίμησης Null Addition (προσθήκη μη σχετιζόμενων στοιχείων) B B A p q A r s B B A p q A r s + k Δεν επηρεάζονται από την αύξηση του όταν οι άλλες τιμές παραμένουν αμετάβλητες Invariant measures: support, cosine, Jaccard, κλπ Non invariant measures: correlation, Gini, mutual inormation, odds ratio, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 57 Αποτίμηση Κανόνων Συσχέτισης Παράδοξο του Simpson Students Buy HDTV Yes No Buy Exercise Machine Yes No 99 8 8 54 66 2 Buy HDTV Yes No Buy Exercise Machine Yes No 9 4 3 34 5 39 44 53 47 3 c({hdtv=yes} {EM=Yes})=/=% c({hdtv=no} {EM=Yes})=4/34=.8% c({hdtv=yes} {EM=Yes})=99/8=55% c({hdtv=no} {EM=Yes})=54/2=45% Working adults c({htvs=yes} {EM=Yes})=98/7=57.7% c({htvs=no} {EM=Yes})=5/86=58.% Buy HDTV Yes No Buy Exercise Machine Yes 98 No 72 7 5 36 86 48 8 256 Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 58 Εξόρυξη Δεδομένων 2-2 29

Αποτίμηση Κανόνων Συσχέτισης Buy HDTV Yes No Παράδοξο του Simpson Yes 99 a+p 54 c+r 53 Buy Exercise Machine No 8 66 47 c({hdtv=yes} {EM=Yes})=99/8=55% c({hdtv=no} {EM=Yes})=54/2=45% 8 b+q 2 d+s 3 Students Buy HDTV Yes No Working adults c({hdtv=yes} {EM=Yes})=/=% c({hdtvs=no} {EM=Yes})=4/34=.8% Buy HDTV Yes α 4 c 5 Buy Exercise Machine No 9 3 39 b 34 d 44 c({hdtv=yes} {EM=Yes})=98/7=57.7% c({hdtv=no} {EM=Yes})=5/86=58.% Buy Exercise Machine a/b < c/d p/q < r/s δεν συνεπάγεται ότι (a+p)/(b+q) < (c+r)/(d+s)! Yes No Yes 98 p 5 r 48 No 72 36 8 7 q 86 s 256 Είναι σημαντικό πως θα γίνει διαχωρισμός (stratiication) των δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 59 Υποκειμενικά Μέτρα Ενδιαφέροντος Αντικειμενικά Μέτρα: Ιεραρχούν τα αποτελέσματα με βάση στατιστικά στοιχεία που υπολογίζονται από τα δεδομένα πχ., 2 μετρήσεις συσχέτισης (support, conidence, Laplace, Gini, mutual inormation, Jaccard, etc). Υποκειμενικά Μέτρα: Ιεράρχηση των προτύπων με βάση την ερμηνεία του χρήστη Ένα πρότυπο είναι υποκειμενικά ενδιαφέρον αν είναι σε αντίθεση με αυτό που αναμένει ο χρήστης (Silberschatz & Tuzhilin) Ένα πρότυπο είναι υποκειμενικά ενδιαφέρον αν μπορεί να χρησιμοποιηθεί (Silberschatz & Tuzhilin) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 6 Εξόρυξη Δεδομένων 2-2 3

Υποκειμενικά Μέτρα Ενδιαφέροντος Interestingness (ενδιαφέρον)via Unexpectedness (μη αναμονή) + Pattern expected to be requent - Pattern expected to be inrequent Pattern ound to be requent Pattern ound to be inrequent + - - + Expected Patterns Unexpected Patterns Χρειάζεται να μοντελοποιήσουμε τι αναμένει ο χρήστης (domain knowledge) Χρειάζεται να συνδυάσουμε το τι αναμένεται από τους χρήστες με το τι δίνουν τα δεδομένα (δηλαδή τα πρότυπα που παίρνουμε evidence) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 6 Οπτικοποίηση: Απλός Γράφος Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 62 Εξόρυξη Δεδομένων 2-2 3

Οπτικοποίηση: Γράφος Κανόνων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 63 Οπτικοποίηση: (SGI/MineSet 3.) Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 64 Εξόρυξη Δεδομένων 2-2 32

Επίδραση της «Λοξής Κατανομής» της Υποστήριξης Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 65 Κατανομή Υποστήριξης Η απόδοση των αλγορίθμων εξαρτάται από τα δεδομένα εισόδου, πχ ο apriori από τον αριθμό των στοιχείων, το πλάτος των δοσοληψιών, ο FP Growth από την τομή (κοινά στοιχεία) των δοσοληψιών Επίσης, από την τιμή της ελάχιστης υποστήριξης (minsup). Πως θα προσδιοριστεί μια κατάλληλη τιμή για το minsup; Αν η τιμή είναι πολύ υψηλή, μπορεί να χαθούν στοιχειοσύνολα που περιέχουν ενδιαφέροντα σπάνια στοιχεία (πχ ακριβά προϊόντα) Αν η τιμή είναι πολύ χαμηλή, οι μέθοδοι γίνονται ακριβοί γιατί ο αριθμός των υποψήφιων στοιχειοσυνόλων είναι πολύ μεγάλος και ο αριθμός των συχνών στοιχειοσυνόλων γίνεται πολύ μεγάλος Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 66 Εξόρυξη Δεδομένων 2-2 33

Κατανομή Υποστήριξης Επιπρόσθετα, η χρήση μόνο μίας ελάχιστης υποστήριξης μπορεί να μην αρκεί Για πολλά πραγματικά δεδομένα η κατανομή της υποστήριξης δεν είναι ομοιόμορφη (skewed support distribution) Κατανομή υποστήριξης γιαδεδομέναλιανικών πωλήσεων Τα περισσότερα στοιχεία έχουν μικρή ή μέτρια υποστήριξη και μόνο λίγα έχουν μεγάλη υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 67 Κατανομή Υποστήριξης Ομάδα G G2 G3 Υποστήριξη <% % 9% >9% Αριθμός στοιχείων 735 358 2 Πως θα βρούμε κανόνες με «σπάνια» αλλά ενδιαφέροντα στοιχεία; Πολύ μικρή υποστήριξη; πολυπλοκότητα (πολλά υποψήφια στοιχειοσύνολα + πολλά συχνά στοιχειοσύνολα άρα και κανόνες) παράξενοι κανόνες μεταξύ G και G3 (χαβιάρι και γάλα) πχ support =.5 > 8,847 συχνά ζεύγη (από τα οποία μεικτά (διασταυρωμένης υποστήριξης το 93%) Cross support patterns (υποδείγματα διασταυρωμένης υποστήριξης) ανάμιξη στοιχείων πολύ συχνών με στοιχεία που είναι σπάνια! min{s(i ), s(i 2 ),, s(i k )}/max{s(i ), s(i 2 ),, s(i k )} Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 68 Εξόρυξη Δεδομένων 2-2 34

Κατανομή Υποστήριξης 3 25 υποστήριξη {p, q, r} s = 4/3 {p, q} s = 4/3 {p, r} s = 4/3 {q, r} s = 5/3 εμπιστοσύνη {p, q, r} {p, q} p q, c = 4/25 q p c = 4/5 {p, r} 4/3 {q, r} q r c = 5/5 r q c = 5/5 Υπάρχει ένας κανόνας με μικρή εμπιστοσύνη ο εντοπισμός του δηλώνει ότι πρόκειται για crosssupport Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 69 Κατανομή Υποστήριξης Cross support patterns ανάμιξη στοιχείων πολύ συχνών με στοιχεία που είναι σπάνια! min{s(i ), s(i 2 ),, s(i k )}/max{s(i ), s(i 2 ),, s(i k )} Πως να απαλλαγούμε Να θεωρήσουμε τον κανόνα με τη μικρότερη δυνατή εμπιστοσύνη ανάμεσα στους κανόνες με στοιχεία από το {i, i 2,, i k } Ποιος είναι αυτός ένα στοιχείο στο LHS ποιο στοιχείο: αυτό με τη μεγαλύτερη υποστήριξη! h c = s{i, i 2,, i k }/max k {s(i), s(i2),, s(ik)} Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 7 Εξόρυξη Δεδομένων 2-2 35

Κανόνων Συσχέτισης Πολλαπλών Επιπέδων Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 7 Κανόνες Συσχέτισης Πολλών Επιπέδων Food Electronics Bread Milk Computers Home Wheat White Skim 2% Desktop Laptop Accessory TV DVD Foremost Kemps Printer Scanner Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 72 Εξόρυξη Δεδομένων 2-2 36

Κανόνες Συσχέτισης Πολλών Επιπέδων Γιατί είναι χρήσιμοι; Οι κανόνες στα χαμηλότερα επίπεδα δεν έχουν αρκετή υποστήριξη σε κανένα στοιχειοσύνολο Οι κανόνες στα χαμηλότερα επίπεδα είναι πάρα πολύ συγκεκριμένοι και στα υψηλότερα επίπεδα πολύ γενικοί! π.χ., skim milk white bread, 2% milk wheat bread, skim milk wheat bread, κλπ. είναι ενδεικτικοί της συσχέτισης μεταξύ γάλατος και ψωμιού Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 73 Κανόνες Συσχέτισης Πολλών Επιπέδων Προσέγγιση : Επέκταση κάθε συναλλαγής με στοιχεία από τα υψηλότερα επίπεδα της ιεραρχίας Αρχική Συναλλαγή: {skim milk, wheat bread} ΕπαυξημένηΣυναλλαγή:{skim milk, wheat bread, milk, bread, ood} Θέματα: Τα στοιχεία στα υψηλότερα επίπεδα θα εμφανίζονται πολύ συχνά, μεγάλους μετρητές υποστήριξης μικρή υποστήριξη, θαοδηγούσεσεπολλάσυχνάστοιχειοσύνολααπότα υψηλότερα επίπεδα Αύξηση της διάστασης των δεδομένων Πλεονάζοντες κανόνες Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 74 Εξόρυξη Δεδομένων 2-2 37

Κανόνες Συσχέτισης Πολλών Επιπέδων Πως τροποποιούνται η υποστήριξη και η εμπιστοσύνη στην ιεραρχία; Αν X ο γονέας των X and X2, τότε σ(x) σ(x) + σ(x2) Αν σ(x Y) minsup, και X γονέας του X, Y γονέας του Y τότε σ(x Y) minsup, σ(x Y) minsup σ(x Y) minsup Αν con(x Y) mincon, τότε con(x Y) mincon Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 75 Κανόνες Συσχέτισης Πολλών Επιπέδων Προσέγγιση 2: Δημιούργησε συχνά στοιχειοσύνολα πρώτα για τα υψηλότερα επίπεδα Μετά, δημιούργησε στοιχειοσύνολα για τοαμέσωςεπόμενοεπίπεδοκοκ Θέματα: I/O απαιτήσεις αυξάνουν, γιατί απαιτούνται πολλαπλά περάσματα Μπορεί να χαθούν συσχετίσεις ανάμεσα στα επίπεδα Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ III 76 Εξόρυξη Δεδομένων 2-2 38