Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ανάλυση Συσχέτισης IΙ

Ο Αλγόριθμος FP-Growth

Lecture Notes for Chapter 6. Introduction to Data Mining

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Κανόνες Συσχέτισης IΙ

Κανόνες Συσχέτισης IIΙ

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

!! " &' ': " /.., c #$% & - & ' ()",..., * +,.. * ' + * - - * ()",...(.

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης

ΗΥ360 Αρχεία και Βάσεις Δεδομένων

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις

Αλγόριθμοι και Πολυπλοκότητα

Παρατηρήσεις στα ϑέµατα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

Ατομική Διπλωματική Εργασία ΜΕΘΟΔΟΙ ΠΡΟΤΑΣΙΑΚΗΣ ΙΚΑΝΟΠΟΙΗΣΙΜΟΤΗΤΑΣ ΣΕ ΓΕΝΙΚΕΥΜΕΝΑ ΠΡΟΒΛΗΜΑΤΑ ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΙΑΣ. Νίκη Κουππή ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Αποθήκες και Εξόρυξη Δεδομένων

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

ΗΜΥ-210: Σχεδιασμός Ψηφιακών Συστημάτων

Θέματα Εφαρμογών Βάσεων Δεδομένων: Ιδιωτικότητα Δεδομένων

Κλείσιμο Συνόλου Γνωρισμάτων

Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Δομές Δεδομένων & Αλγόριθμοι

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

Δομές Δεδομένων και Αλγόριθμοι

Π Α Ν Ε Π Ι Σ Τ Η Μ Ι O Π Ε Ι Ρ Α Ι Ω Σ

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

Αρχεία και Βάσεις Δεδομένων

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις

ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ (συνέχεια)

Πολλαπλασιασμός: αλγόριθμος

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 11: Κατασκευή φυλογενετικών δέντρων part II

Asocijativna analiza

ΔΙΑΣΧΙΣΗ ΓΡΑΦΗΜΑΤΩΝ 1

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Κεφάλαιο 10 Ψηφιακά Λεξικά

ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Το Πρόβλημα του Περιοδεύοντος Πωλητή - The Travelling Salesman Problem

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Διαίρει και Βασίλευε. πρόβλημα μεγέθους Ν. διάσπαση. πρόβλημα μεγέθους k. πρόβλημα μεγέθους Ν-k

Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

ΓΕΝΙΚΟ ΛΥΚΕΙΟ Λ. ΑΙΔΗΨΟΥ ΣΧΟΛ. ΕΤΟΣ ΓΡΑΠΤΕΣ ΠΡΟΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ ΠΕΡΙΟΔΟΥ ΜΑΪΟΥ ΙΟΥΝΙΟΥ ΓΕΩΜΕΤΡΙΑ Α ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ

ΕΠΙΤΡΟΠΗ ΔΙΑΓΩΝΙΣΜΩΝ 31 η Ελληνική Μαθηματική Ολυμπιάδα "Ο Αρχιμήδης" 22 Φεβρουαρίου 2014

HY437 Αλγόριθμοι CAD

2. Η πιθανότητα της αριθμήσιμης ένωσης ξένων μεταξύ τους ενδεχομένων είναι το άθροισμα των πιθανοτήτων των ενδεχομένων.

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Δυναμικός Προγραμματισμός

Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort. Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

1. Σε ένα τουρνουά με 8 παίκτες μπορεί οι παίκτες να συμμετείχαν σε: 6,5,4,4,4,3,1,1 αγώνες αντίστοιχα;

Ταχεία Ταξινόμηση Quick-Sort

Αρχεία και Βάσεις Δεδομένων Φροντιστήριο Κανονικές Μορφές

Διαδικασιακός Προγραμματισμός

A Fast Mining Algorithm for Frequent Essential Itemsets

Αρχεία και Βάσεις Δεδομένων

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

Αλγόριθμοι εύρεσης ελάχιστων γεννητικών δέντρων (MST)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

7ο ΕΡΓΑΣΤΗΡΙΟ AAAABBBBAAAAABBBBBBCCCCCCCCCCCCCCBBABAAAABBBBBBCCCCD

Βάσεις Δεδομένων Συναρτησιακές Εξαρτήσεις (Functional Dependencies) Σχεδιασμός Βάσεων Δεδομένων και Κανονικοποίηση

Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης

Εισαγωγή στους Αλγόριθμους

Κωδικοποίηση Πηγής. Δρ. Α. Πολίτης

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

DIGITAL DESIGN WITH AN INTRODUCTION TO THE VERILOG HDL Fifth Edition

Ταξινόμηση με συγχώνευση Merge Sort

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση

Αναδρομικοί Αλγόριθμοι

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνικές Εξόρυξης Δεδομένων

Συνδυαστική Απαρίθμηση

Δυναμικός Προγραμματισμός

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Διακριτά Μαθηματικά. Απαρίθμηση: μεταθέσεις και συνδυασμοί

Transcript:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/

Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν το σύγγραμμα «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» Αρχικές εκδόσεις από μέρος των διαφανειών ετοιμάστηκαν από τον Δρ. Α. Νανόπουλο. Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Introduction to Data Mining» των Tan, Steinbach, Kumar, και «Data Mining: Concepts and Techniques» των Jiawei Han, Micheline Kamber. 2

Τι θα εξετάσουμε Αλγόριθμος FP-Growth Μειονεκτήματα υποστήριξης-εμπιστοσύνης Κλειστά Maximal στοιχειοσύνολα 3

Είναι γρήγορος ο Apriori? Bottlenecks στην απόδοση Ο βασικός αλγόριθμος Apriori: Χρησιμοποιεί συχνά (k 1)-στοιχειοσύνολα για την παραγωγή υποψηφίων συχνών k-στοιχειοσυνόλων στοιχειοσυνόλων. Χρήση τεχνικών σαρώματος ΒΔ και ταύτισης προτύπων για τη μέτρηση της υποστήριξης των υποψηφίων συνόλων. Tο bottleneck του Apriori: δημιουργία υποψηφίων Πολύ μεγάλα υποψήφια σύνολα. Πολλαπλές σαρώσεις της ΒΔ. 4

Ο Αλγόριθμος FP-Growth Χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης με τη μορφή ενός FP-δένδρου (FP: frequent pattern) Το δένδρο μοιάζει με προθεματικό δένδρο - prefix tree (trie). Ο αλγόριθμος κατασκευής διαβάζει μια συναλλαγή τη φορά, και απεικονίζει τη συναλλαγή σε ένα μονοπάτι του FP- δένδρου. Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση. Τα συχνά στοιχειοσύνολα βρίσκονται με μια αναδρομική διαίρει-και-βασίλευε προσέγγιση. 5

Κατασκευή FP-δένδρου ρ (1) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} To FP-δένδρο είναι ένα προθεματικό δένδρο Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική Θα δούμε αργότερα ότι κάτι άλλο συμφέρει περισσότερο 7 {B,C} 8 {A,B,C} Αρχικά, το δένδρο είναι κενό 9 {A,B,D} 10 {B,C,E} 6

Κατασκευή FP-δένδρου ρ (2) TID Items 1 {A,B} Δάβ Διάβασμα TID=1: 2 {B,C,D} A:1 3 {A,C,D,E},, 4 {A,D,E} 5 {A,B,C} B:1 6 {A,B,C,D},, 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Κάθε κόμβος έχει μια ετικέτα που δείχνει πόσες συναλλαγές φτάνουν σε αυτόν, δηλαδή δή πόσα μονοπάτια καταλήγουν σε αυτόν τον κόμβο. 7

Κατασκευή FP-δένδρου ρ (3) TID Items 1 {A,B} Δάβ Διάβασμα TID=1: 2 {B,C,D} 3 {A,C,D,E},, 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D},C, B:1 7 {B,C} Διάβασμα TID=2: 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} A:1 B:1 Κάθε κόμβος έχει μια ετικέτα που δείχνει πόσες συναλλαγές αυτόν. C:1 φτάνουν σε Επίσης, υπάρχουν δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο 8

Κατασκευή FP-δένδρου ρ (4) TID Items 1 {A,B} Δάβ Διάβασμα TID=1, 2: 2 {B,C,D} 3 {A,C,D,E} A:1 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} B:1 7 {B,C} 8 {A,B,C} 9 {A,B,D} Πίνακας Δεικτών 10 {B,C,E} Item Pointer A Επίσης, κρατάμε πίνακα B δεικτών για να βοηθήσουν C στον υπολογισμό των D συχνών στοιχειοσυνόλων. E B:1 C:1 9

Κατασκευή FP-δένδρου ρ (5) Διάβασμα TID=1, 2: TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E}, 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Διάβασμα TID=3 Πίνακας Δεικτών Item Pointer A B C D E B:1 A:2 C1 C:1 E:1 B:1 C:1 10

Κατασκευή FP-δένδρου ρ (6) Διάβασμα TID=1, 2: Διάβασμα TID=3 TID Items 1 {A,B} 2 {B,C,D} B:1 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} Πίνακας Δεικτών 6 {A,B,C,D} Item Pointer 7 {B,C} A 8 {A,B,C} B 9 {A,B,D} C 10 {B,C,E} D E A:2 C1 C:1 E:1 B:1 C:1 11

Κατασκευή FP-δένδρου ρ (7) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Αφού έχουν διαβαστεί όλες οι συναλλαγές... A:7 B3 B:3 B:5 C:3 C:1 ί ώ C:3 Pointer E:1 A B E1 E:1 Πίνακας Δεικτών Item C D E E:1 12

Μέγεθος FP-δένδρουρ Κάθε συναλλαγή αντιστοιχεί σε ένα μονοπάτι από τη ρίζα Το μέγεθος του δένδρου είναι συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα. Αν όλες οι συναλλαγές περιέχουν τα ίδια δεδομένα, τότε υπάρχει μόνο ένα κλαδί. Αν όλες είναι διαφορετικές, ο χώρος είναι μεγαλύτερος......γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύ των κόμβων αλλά και συχνότητες εμφάνισης. 13

Επιλογή προθέματος Το τελικό δένδρο, εξαρτάται από τη διάταξη: άλλη διάταξη άλλα προθέματα. (Συνήθως) μικρότερο δένδρο, αν δεν διατάσουμε τα αντικείμενα λεξικογραφικά, αλλά σύμφωνα με τη συχνότητα εμφάνισης. Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό (αγνοούμε όσα στοιχεία είναι μη συχνά) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C}, 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} TID Items 1 {Β,Α} 2 {B,C,D}, 3 {A,C,D,E} 4 {A,D,E} 5 {Β,Α,C} 6 {Β,Α,C,D} 7 {B,C} 8 {Β,Α,C} Α 9 {Β,Α,D} 10 {B,C,E} 14

Εύρεση συχνών στοιχειοσυνόλων Είσοδος: FP-δένδρο Έξοδος: Συχνά στοιχειοσύνολα και η υποστήριξη τους Μέθοδος Διαίρει-και-Βασίλευε: ΧωρίζουμεταστοιχειοσύνολασεαυτάπουτελειώνουνσεE, D, C, B, A Μετά αυτά που τελειώνουν σε E σε αυτά σε DE, CE, BE, AE κ.ο.κ. Αν η διάταξη είναι βάσει της συχνότητας εμφάνισης, τότε χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν στο πιο σπάνιο στοιχείο, μετά στο δεύτερο πιο σπάνιο κ.ο.κ. 15

Εύρεση συχνών στοιχειοσυνόλων με χρήση του FP-δένδρου Bottom-up διάσχιση του δένδρου. A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 16

Συχνά στοιχειοσύνολα που τελειώνουν σε E A:7 B:3 B:5 C:3 C:1 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 17

Για το D A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 18

Για το C A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 19

Για το B A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 20

Για το A A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item Pointer A B C D E C:3 E:1 E:1 E:1 21

Συνοπτικά ο αλγόριθμος Σε κάθε βήμα, για το επίθεμα (suffix) Χ Φάση 1 κατασκευάζουμε το προθεματικό δένδρο για το Χ και υπολογίζουμε την υποστήριξη χρησιμοποιώντας τον πίνακα Φάση 2 Αν είναι συχνό, κατασκευάζουμε το υπο-συνθήκη δένδρο για το Χ, σε βήματα επανα-υπολογισμός υποστήριξης περικοπή κόμβων με μικρή υποστήριξη περικοπή φύλλων 22

Προθεματικά μονοπάτια του Ε: Φάση 1 {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, A:7 {C,E}, {B,C,E} A:7 B:3 B:5 C:3 C:1 Πίνακας Δεικτών Item A B C D E Pointer C:3 D1 E:1 E:1 E:1 23

Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} Φάση 1 A:7 B:3 C1 C:1 D1 C:3 E:1 E:1 E:1 24

Μέτρηση η Υποστήριξης Έστω minsup = 2 A:7 B:3 Ακολουθούμε τους συνδέσμους αθροίζοντας 1+1+1=3>2 C1 D1 Οπότε {Ε} συχνό E:1 E:1 άρα προχωράμε για DE, CE, BE, AE E:1 C:3 25

Φάση 2 {E} συχνό άρα προχωράμε για DE, CE, BE, AE Μετατροπή των προθεματικών δένδρων σε FP-δένδρο υπό συνθήκες (conditional FP-tree) Δύο αλλαγές (1) Αλλαγή των μετρητών (2) Περικοπή A:7 B:3 C1 C:1 D1 C:3 E:1 E:1 E:1 26

Αλλαγή μετρητών Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν A:7 δοσοληψίες που δεν έχουν το Ε A:7 B:3 C1 C:1 D1 Πχ στο B C E μετράμε και την συναλλαγή {B, C} E:1 E:1 E:1 C:3 27

Αλλαγή μετρητών A:7 B:3 C1 C:1 D1 C:3 E:1 E:1 E:1 28

Αλλαγή μετρητών A:7 B:3 C1 C:1 D1 C:1 E:1 E:1 E:1 29

Αλλαγή μετρητών A:7 B:1 C1 C:1 D1 C:1 E:1 E:1 E:1 30

Αλλαγή μετρητών A:7 B:1 C1 C:1 D1 C:1 E:1 E:1 E:1 31

Αλλαγή μετρητών A:7 B:1 C1 C:1 D1 C:1 E:1 E:1 E:1 32

Αλλαγή μετρητών Περικοπή (truncate): Σβήσε τους κόμβους του Ε A:2 B:1 C1 C:1 D1 C:1 E:1 E:1 E:1 33

Αλλαγή μετρητών Περικοπή (truncate): Σβήσε τους κόμβους του Ε A:2 B:1 C1 C:1 D1 C:1 E:1 E:1 E:1 34

Περικοπή Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης A:2 (π.χ., Β). Αυτό σημαίνει ότι το Β εμφανίζεται μαζί με το E λιγότερο από minsup φορές A:2 B:1 C:11 1 C:1 Άρα Β περικοπή 35

Περικοπή A:2 C:1 C:11 1 36

Αναδρομή Υπο-συνθήκη FP-δένδρο για το Ε. A:2 C:1 Ο αλγόριθμος C:11 1 επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} 37

Φάση 1 Βρίσκουμε όλα τα μονοπάτια που A:2 περιέχουν το D (DE) A:2 C:1 C:11 1 38

Φάση 1 Βρίσκουμε όλα τα μονοπάτια που A:2 περιέχουν το D (DE) C:11 1 39

Υποστήριξη DE Ακολουθούμε τους συνδέσμους αθροίζοντας: 1+1=2 2 A:2 Οπότε {D, Ε} συχνό. C:11 1 40

Φάση 2: Υπο-συνθήκη ήηδένδρο Κατασκεύασε το υπο- συνθήκη FP-δένδρο για το {D, E} A:2 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων C:11 1 41

Φάση 2: Υπο-συνθήκη ήηδένδρο Κατασκεύασε το υπο- συνθήκη FP-δένδρο για το {D, E} A:2 1. Αλλαγή υποστήριξης: Δεν υπάρχει καμία C:11 1 2. Περικοπές κόμβων 42

Φάση 2: Υπο-συνθήκη ήηδένδρο 2. Περικοπές κόμβων A:2 C:11 1 43

Φάση 2: Υπο-συνθήκη ήηδένδρο 2. Περικοπές κόμβων A:2 C:11 44

Φάση 2: Υπο-συνθήκη ήηδένδρο 2. Περικοπές κόμβων A:2 C:11 Μικρή υποστήριξη 45

Φάση 2: Υπο-συνθήκη ήηδένδρο Τελικό υπο-συνθήκη FPδένδρο για το {D, E} A:2 Υποστήριξη του Α είναι minsup -> {Α, D,E}συχνό Αφού μόνο ένας κόμβος απέμεινε, επιστροφή στο επόμενο υποπρόβλημα. 46

Αναδρομή Υπο-συνθήκη FP-δένδρο για το Ε. Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} A:2 C:1 C:11 1 47

Φάση 1 Όλα τα μονοπάτια που περιέχουν το C (CE) A:2 C:1 C:11 1 48

Φάση 1 Όλα τα μονοπάτια που περιέχουν το C (CE) A:2 C:1 C:11 49

Υποστήριξη CE {C, Ε} συχνό A:2 C:1 C:11 50

Φάση 2 Κατασκεύασε το υπο- συνθήκη FP-δένδρο για το {C, E} A:2 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:2 C:1 C:11 51

Φάση 2 Κατασκεύασε το υπο- συνθήκη FP-δένδρο για το {C, E} A:1 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:1 C:1 C:11 52

Φάση 2 Κατασκεύασε το υπο- συνθήκη FP-δένδρο για το {C, E} A:1 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:1 C:1 C:11 53

Φάση 2 2. Περικοπή Κόμβων Άρα, επιστροφή στο επόμενο υποπρόβλημα. 54

Αναδρομή Υπο-συνθήκη FP-δένδρο για το Ε. Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} A:2 C:1 C:11 1 55

Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α A:2 (AE) 56

Υποστήριξη ΑΕ {Α, Ε} συχνό Δε χρειάζεται να φτιάξουμε υπο-συνθήκη FP-δένδρο για το {Α, Ε} A:2 57

Συνολικά για το Ε Έχουμε τα εξής συχνά στοιχειοσύνολα {Ε} {D, E} {A, D, E} {C, E} {A, E} Συνεχίζουμε για το D 58

Συχνά στοιχειοσύνολα που λήγουν σε D A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item Pointer A B C D E C:3 E:1 E:1 E:1 59

Φάση 1 Κρατάμε όλα τα προθεματικά μονοπάτια που περιέχουν το D A:7 Υποστήριξη 5>2: άρα συχνό το D Μετατροπή του C:3 προθεματικού δένδρου σε FP- δένδρο υπό συνθήκη A:7 B:3 B:5 C:3 C1 C:1 D1 60

Αλλαγή υποστήριξης A:7 B:3 B:5 C:3 C1 C:1 D1 C:1 61

Αλλαγή υποστήριξης A:7 B:3 B:2 C:3 C1 C:1 D1 C:1 62

Αλλαγή υποστήριξης A:4 B:3 B:2 C:3 C1 C:1 D1 C:1 63

Αλλαγή υποστήριξης A:4 B:3 B:2 C:1 C1 C:1 D1 C:1 64

Αλλαγή υποστήριξης A:4 B:1 B:2 C:1 C1 C:1 D1 C:1 65

Επόμενο βήμα: Περικοπή κόμβων A:4 B:1 B:2 C:1 C1 C:1 D1 C:1 66

Επόμενο βήμα: Περικοπή κόμβων A:4 B:1 B:2 C:1 C1 C:1 D1 C:1 Κατόπιν συνεχίζουμε για AD, BD, CD 67

Παρατηρήσεις Εφαρμογή τεχνικής διαίρει-και-βασίλευε. Σε κάθε αναδρομικό βήμα, λύνεται και ένα υπο-πρόβλημα: Κατασκευάζεται το προθεματικό δένδρο Υπολογίζεται η νέα υποστήριξη για τους κόμβους του Περικόπτονται οι κόμβοι με μικρή υποστήριξη Επειδή τα υποπροβλήματα είναι ξένα μεταξύ τους, δεν δημιουργούνται τα ίδια συχνά στοιχειοσύνολα δυο φορές. Ο υπολογισμός της υποστήριξης είναι αποδοτικός γίνεται ταυτόχρονα με τη δημιουργία των συχνών στοιχειοσυνόλων Η απόδοση του FP-Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction factor) Βοηθάει η ταξινόμηση αντικειμένων κατά φθίνουσα σειρά υποστήριξης. 68

Άλλο ένα παράδειγμα Minsup = 2 69

Άλλο ένα παράδειγμα 70

Άλλο ένα παράδειγμα Υπό Συνθήκη FP-tree f 71

Άλλο ένα παράδειγμα 72

Άλλο ένα παράδειγμα Συνδυασμός ef με κάθε υποσύνολο του dca (και το κενό): ) ef, def, cef, aef, dcef, daef, caef, dcaef Όλα με υποστήριξη ίση με 2 Δηλ. όταν μένει μόνο ένα υπο συνθήκη μονοπάτι, σταματάμε μ την αναδρομική διαδικασία. (όμοια και για όλα τα άλλα ΥΣ μονοπάτια του f) 73

Άλλο ένα παράδειγμα {(d:1), ( :1)} 74

Τι θα εξετάσουμε Αλγόριθμος FP-Growth Μειονεκτήματα υποστήριξης-εμπιστοσύνης Κλειστά Maximal στοιχειοσύνολα 75

Μειονεκτήματα υποστήριξης, εμπιστοσύνης Θέατρο => Κινηματογράφος (15%, 75%) P(Κινηματογράφος) = 80% > 75% 76

Μέτρο ενδιαφέροντος φρ Έστω ο κανόνας Α Β I A, B = P ( A B) ) P( A) P( B) Αν Ι A,B = 1: ανεξαρτησία Αν Ι AB A,B > 1: θετική συσχέτιση Αν Ι A,B < 1: αρνητική συσχέτιση 77

Παράδειγμα Ι = 0.15/(0.2 * 0.8) = 0.9375 < 1 78

Παράδοξο Simpson Τηλεόραση => Ραδιόφωνο (εμπ = 99/180= 55%) Όχι Τηλεόραση => Ραδιόφωνο (εμπ = 54/120 = 45%) Συσχέτιση(Τηλεόραση, Ραδιόφωνο) = 1.07 Θετική συσχέτιση μεταξύ τηλεόρασης και ραδιοφώνου 79

Παράδοξο Simpson ανήλικοι Τηλεόραση => Ραδιόφωνο (εμπ = 1/10= 10%) Όχι Τηλεόραση => Ραδιόφωνο δό (εμπ = 4/34 = 11.8%) Ι(Τηλεόραση, Ραδιόφωνο) = 0.88 80

Παράδοξο Simpson ενήλικοι Τηλεόραση => Ραδιόφωνο (εμπ = 98/170= 57.7%) Όχι Τηλεόραση => Ραδιόφωνο (εμπ = 50/86 = 58.1%) Ι(Τηλεόραση, Ραδιόφωνο) = 0.60 81

Τι θα εξετάσουμε Αλγόριθμος FP-Growth Μειονεκτήματα υποστήριξης-εμπιστοσύνης Κλειστά Maximal στοιχειοσύνολα 82

Μaximal συχνά στοιχειοσύνολα Ένα στοιχειοσύνολο είναι maximal συχνό αν κανένα από τα άμεσα υπερσύνολά του δεν είναι συχνό. Συχνά Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων. AB AC AD AE BC BD BE CD CE DE Είναι το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα. ΟΜΩΣ: Δεν προσφέρουν καμιά πληροφορία για την υποστήριξη των υποσυνόλων τους A B C D E ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE Μη συχνά ABCD E 83

Κλειστά συχνά στοιχειοσύνολα Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό (δηλαδή, έχει μικρότερη υποστήριξη). Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και συχνό (δηλαδή, η υποστήριξη του είναι μεγαλύτερη ή ίση με minsup). Πάλι τα υποσύνολα τους μας δίνουν όλα τα συχνά υποσύνολα,, τώρα όμως μπορούμε μ να υπολογίσουμε την υποστήριξη των υποσυνόλων τους. Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του. 84