Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ανάλυση Συσχέτισης IΙ

Ο Αλγόριθμος FP-Growth

Lecture Notes for Chapter 6. Introduction to Data Mining

Κανόνες Συσχέτισης IΙ

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Κανόνες Συσχέτισης IIΙ

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης

Αποθήκες εδομένων και Εξόρυξη εδομένων:

!! " &' ': " /.., c #$% & - & ' ()",..., * +,.. * ' + * - - * ()",...(.

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αλγόριθμοι και Πολυπλοκότητα

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Δομές Δεδομένων και Αλγόριθμοι

Θέματα Εφαρμογών Βάσεων Δεδομένων: Ιδιωτικότητα Δεδομένων

ΗΥ360 Αρχεία και Βάσεις Δεδομένων

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

Αποθήκες και Εξόρυξη Δεδομένων

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης

Δομές Δεδομένων & Αλγόριθμοι

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Κεφάλαιο 10 Ψηφιακά Λεξικά

ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ

Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων

Παρατηρήσεις στα ϑέµατα

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

Ατομική Διπλωματική Εργασία ΜΕΘΟΔΟΙ ΠΡΟΤΑΣΙΑΚΗΣ ΙΚΑΝΟΠΟΙΗΣΙΜΟΤΗΤΑΣ ΣΕ ΓΕΝΙΚΕΥΜΕΝΑ ΠΡΟΒΛΗΜΑΤΑ ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΙΑΣ. Νίκη Κουππή ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort. Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Ταχεία Ταξινόμηση Quick-Sort

Διαδικασιακός Προγραμματισμός

Πολλαπλασιασμός: αλγόριθμος

(Γραμμικές) Αναδρομικές Σχέσεις

Δυναμικός Προγραμματισμός

(Γραμμικές) Αναδρομικές Σχέσεις

Ταξινόμηση με συγχώνευση Merge Sort

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

Κλείσιμο Συνόλου Γνωρισμάτων

Αναδρομικοί Αλγόριθμοι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

ΔΙΑΣΧΙΣΗ ΓΡΑΦΗΜΑΤΩΝ 1

Διαίρει και Βασίλευε. πρόβλημα μεγέθους Ν. διάσπαση. πρόβλημα μεγέθους k. πρόβλημα μεγέθους Ν-k

ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ (συνέχεια)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

7ο ΕΡΓΑΣΤΗΡΙΟ AAAABBBBAAAAABBBBBBCCCCCCCCCCCCCCBBABAAAABBBBBBCCCCD

Εισαγωγή στους Αλγόριθμους

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Αλγόριθμοι εύρεσης ελάχιστων γεννητικών δέντρων (MST)

Διδάσκων: Παναγιώτης Ανδρέου

Διάλεξη 22: Δυαδικά Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου

Περιεχόμενα. Περιεχόμενα

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 11: Κατασκευή φυλογενετικών δέντρων part II

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 5 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ. Ταξινόµηση Mergesort Κεφάλαιο 8. Ε. Μαρκάκης Επίκουρος Καθηγητής

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Δυναμικός Προγραμματισμός

Δένδρα. Μαθηματικά (συνδυαστικά) αντικείμενα. Έχουν κεντρικό ρόλο στην επιστήμη των υπολογιστών :

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Αρχεία και Βάσεις Δεδομένων

(μονάδες 5) β) την εντολή Αρχή_επανάληψης Μέχρις_ότου (μονάδες 5) Μονάδες 10 ΘΕΜΑ Β Β1. Δίνεται το παρακάτω απόσπασμα αλγορίθμου:

Δυναμικός Προγραμματισμός

Εισαγωγή στην επιστήμη των υπολογιστών. Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Διάλεξη 10: Αλγόριθμοι Ταξινόμησης II

Fast Fourier Transform

Δομές Δεδομένων & Αλγόριθμοι

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων

Κεφ.11: Ευρετήρια και Κατακερματισμός

Αλγόριθμοι ταξινόμησης

Το Πρόβλημα του Περιοδεύοντος Πωλητή - The Travelling Salesman Problem

Ψηφιακά Συστήματα. 5. Απλοποίηση με χάρτες Karnaugh

A Fast Mining Algorithm for Frequent Essential Itemsets

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα

Κωδικοποίηση Πηγής. Δρ. Α. Πολίτης

Transcript:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth

Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data Mining» των Tan, Steinbach, Kumar, και «Data Mining: Concepts and Techniques» των Jiawei Han, Micheline Kamber. 2

Είναι γρήγορος ο Apriori? Bottlenecks στην απόδοση Ο βασικός αλγόριθμος Apriori: Χρησιμοποιεί συχνά (k 1)-στοιχειοσύνολα για την παραγωγή υποψηφίων συχνών k-στοιχειοσυνόλων στοιχειοσυνόλων. Χρήση τεχνικών σαρώματος ΒΔ και ταύτισης προτύπων για τη μέτρηση της υποστήριξης των υποψηφίων συνόλων. Tο bottleneck του Apriori: δημιουργία υποψηφίων Πολύ μεγάλα υποψήφια σύνολα. Πολλαπλές σαρώσεις της ΒΔ. 3

Ο Αλγόριθμος FP-Growth Χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης με τη μορφή ενός FP-δένδρου (FP: frequent pattern) Το δένδρο μοιάζει με προθεματικό δένδρο - prefix tree (trie). Ο αλγόριθμος κατασκευής διαβάζει μια συναλλαγή τη φορά, και απεικονίζει τη συναλλαγή σε ένα μονοπάτι του FP- δένδρου. Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση. Τα συχνά στοιχειοσύνολα βρίσκονται με μια αναδρομική διαίρει-και-βασίλευε προσέγγιση. 4

Κατασκευή FP-δένδρου ρ (1) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} To FP-δένδρο είναι ένα προθεματικό δένδρο Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική Θα δούμε αργότερα ότι κάτι άλλο συμφέρει περισσότερο 7 {B,C} 8 {A,B,C} Αρχικά, το δένδρο είναι κενό 9 {A,B,D} 10 {B,C,E} 5

Κατασκευή FP-δένδρου ρ (2) TID Items 1 {A,B} Δάβ Διάβασμα TID=1: 2 {B,C,D} A:1 3 {A,C,D,E},, 4 {A,D,E} 5 {A,B,C} B:1 6 {A,B,C,D},, 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Κάθε κόμβος έχει μια ετικέτα που δείχνει πόσες συναλλαγές φτάνουν σε αυτόν, δηλαδή δή πόσα μονοπάτια καταλήγουν σε αυτόν τον κόμβο. 6

Κατασκευή FP-δένδρου ρ (3) TID Items 1 {A,B} Δάβ Διάβασμα TID=1: 2 {B,C,D} 3 {A,C,D,E},, 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D},C, B:1 7 {B,C} Διάβασμα TID=2: 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} A:1 B:1 Κάθε κόμβος έχει μια ετικέτα που δείχνει πόσες συναλλαγές αυτόν. C:1 φτάνουν σε Επίσης, υπάρχουν δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο 7

Κατασκευή FP-δένδρου ρ (4) TID Items 1 {A,B} Δάβ Διάβασμα TID=1, 2: 2 {B,C,D} 3 {A,C,D,E} A:1 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} B:1 7 {B,C} 8 {A,B,C} 9 {A,B,D} Πίνακας Δεικτών 10 {B,C,E} Item Pointer A Επίσης, κρατάμε πίνακα B δεικτών για να βοηθήσουν C στον υπολογισμό των D συχνών στοιχειοσυνόλων. E B:1 C:1 8

Κατασκευή FP-δένδρου ρ (5) Διάβασμα TID=1, 2: TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E}, 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Διάβασμα TID=3 Πίνακας Δεικτών Item Pointer A B C D E B:1 A:2 C1 C:1 E:1 B:1 C:1 9

Κατασκευή FP-δένδρου ρ (6) Διάβασμα TID=1, 2: Διάβασμα TID=3 TID Items 1 {A,B} 2 {B,C,D} B:1 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} Πίνακας Δεικτών 6 {A,B,C,D} Item Pointer 7 {B,C} A 8 {A,B,C} B 9 {A,B,D} C 10 {B,C,E} D E A:2 C1 C:1 E:1 B:1 C:1 10

Κατασκευή FP-δένδρου ρ (7) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Αφού έχουν διαβαστεί όλες οι συναλλαγές... A:7 B3 B:3 B:5 C:3 C:1 ί ώ C:3 Pointer E:1 A B E1 E:1 Πίνακας Δεικτών Item C D E E:1 11

Μέγεθος FP-δένδρουρ Κάθε συναλλαγή αντιστοιχεί σε ένα μονοπάτι από τη ρίζα Το μέγεθος του δένδρου είναι συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα. Αν όλες οι συναλλαγές περιέχουν τα ίδια δεδομένα, τότε υπάρχει μόνο ένα κλαδί. Αν όλες είναι διαφορετικές, ο χώρος είναι μεγαλύτερος......γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύ των κόμβων αλλά και συχνότητες εμφάνισης. 12

Επιλογή προθέματος Το τελικό δένδρο, εξαρτάται από τη διάταξη: άλλη διάταξη άλλα προθέματα. (Συνήθως) μικρότερο δένδρο, αν δεν διατάσουμε τα αντικείμενα λεξικογραφικά, αλλά σύμφωνα με τη συχνότητα εμφάνισης. Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό (αγνοούμε όσα στοιχεία είναι μη συχνά) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C}, 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} TID Items 1 {Β,Α} 2 {B,C,D}, 3 {A,C,D,E} 4 {A,D,E} 5 {Β,Α,C} 6 {Β,Α,C,D} 7 {B,C} 8 {Β,Α,C} Α 9 {Β,Α,D} 10 {B,C,E} 13

Εύρεση συχνών στοιχειοσυνόλων Είσοδος: FP-δένδρο Έξοδος: Συχνά στοιχειοσύνολα και η υποστήριξη τους Μέθοδος Διαίρει-και-Βασίλευε: ΧωρίζουμεταστοιχειοσύνολασεαυτάπουτελειώνουνσεE, D, C, B, A Μετά αυτά που τελειώνουν σε E σε αυτά σε DE, CE, BE, AE κ.ο.κ. Αν η διάταξη είναι βάσει της συχνότητας εμφάνισης, τότε χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν στο πιο σπάνιο στοιχείο, μετά στο δεύτερο πιο σπάνιο κ.ο.κ. 14

Εύρεση συχνών στοιχειοσυνόλων με χρήση του FP-δένδρου Bottom-up διάσχιση του δένδρου. A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 15

Συχνά στοιχειοσύνολα που τελειώνουν σε E A:7 B:3 B:5 C:3 C:1 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 16

Για το D A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 17

Για το C A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 18

Για το B A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 19

Για το A A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item Pointer A B C D E C:3 E:1 E:1 E:1 20

Συνοπτικά ο αλγόριθμος Σε κάθε βήμα, για το επίθεμα (suffix) Χ Φάση 1 κατασκευάζουμε το προθεματικό δένδρο για το Χ και υπολογίζουμε την υποστήριξη χρησιμοποιώντας τον πίνακα Φάση 2 Αν είναι συχνό, κατασκευάζουμε το υπο-συνθήκη δένδρο για το Χ, σε βήματα επανα-υπολογισμός υποστήριξης περικοπή κόμβων με μικρή υποστήριξη περικοπή φύλλων 21

Προθεματικά μονοπάτια του Ε: Φάση 1 {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, A:7 {C,E}, {B,C,E} A:7 B:3 B:5 C:3 C:1 Πίνακας Δεικτών Item A B C D E Pointer C:3 D1 E:1 E:1 E:1 22

Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} Φάση 1 A:7 B:3 C1 C:1 D1 C:3 E:1 E:1 E:1 23

Μέτρηση η Υποστήριξης Έστω minsup = 2 A:7 B:3 Ακολουθούμε τους συνδέσμους αθροίζοντας 1+1+1=3>2 C1 D1 Οπότε {Ε} συχνό E:1 E:1 άρα προχωράμε για DE, CE, BE, AE E:1 C:3 24

Φάση 2 {E} συχνό άρα προχωράμε για DE, CE, BE, AE Μετατροπή των προθεματικών δένδρων σε FP-δένδρο υπό συνθήκες (conditional FP-tree) Δύο αλλαγές (1) Αλλαγή των μετρητών (2) Περικοπή A:7 B:3 C1 C:1 D1 C:3 E:1 E:1 E:1 25

Αλλαγή μετρητών Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν A:7 δοσοληψίες που δεν έχουν το Ε A:7 B:3 C1 C:1 D1 Πχ στο B C E μετράμε και την συναλλαγή {B, C} E:1 E:1 E:1 C:3 26

Αλλαγή μετρητών A:7 B:3 C1 C:1 D1 C:3 E:1 E:1 E:1 27

Αλλαγή μετρητών A:7 B:3 C1 C:1 D1 C:1 E:1 E:1 E:1 28

Αλλαγή μετρητών A:7 B:1 C1 C:1 D1 C:1 E:1 E:1 E:1 29

Αλλαγή μετρητών A:7 B:1 C1 C:1 D1 C:1 E:1 E:1 E:1 30

Αλλαγή μετρητών A:7 B:1 C1 C:1 D1 C:1 E:1 E:1 E:1 31

Αλλαγή μετρητών Περικοπή (truncate): Σβήσε τους κόμβους του Ε A:2 B:1 C1 C:1 D1 C:1 E:1 E:1 E:1 32

Αλλαγή μετρητών Περικοπή (truncate): Σβήσε τους κόμβους του Ε A:2 B:1 C1 C:1 D1 C:1 E:1 E:1 E:1 33

Περικοπή Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης A:2 (π.χ., Β). Αυτό σημαίνει ότι το Β εμφανίζεται μαζί με το E λιγότερο από minsup φορές A:2 B:1 C:11 1 C:1 Άρα Β περικοπή 34

Περικοπή A:2 C:1 C:11 1 35

Αναδρομή Υπο-συνθήκη FP-δένδρο για το Ε. A:2 C:1 Ο αλγόριθμος C:11 1 επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} 36

Φάση 1 Βρίσκουμε όλα τα μονοπάτια που A:2 περιέχουν το D (DE) A:2 C:1 C:11 1 37

Φάση 1 Βρίσκουμε όλα τα μονοπάτια που A:2 περιέχουν το D (DE) C:11 1 38

Υποστήριξη DE Ακολουθούμε τους συνδέσμους αθροίζοντας: 1+1=2 2 A:2 Οπότε {D, Ε} συχνό. C:11 1 39

Φάση 2: Υπο-συνθήκη ήηδένδρο Κατασκεύασε το υπο- συνθήκη FP-δένδρο για το {D, E} A:2 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων C:11 1 40

Φάση 2: Υπο-συνθήκη ήηδένδρο Κατασκεύασε το υπο- συνθήκη FP-δένδρο για το {D, E} A:2 1. Αλλαγή υποστήριξης: Δεν υπάρχει καμία C:11 1 2. Περικοπές κόμβων 41

Φάση 2: Υπο-συνθήκη ήηδένδρο 2. Περικοπές κόμβων A:2 C:11 1 42

Φάση 2: Υπο-συνθήκη ήηδένδρο 2. Περικοπές κόμβων A:2 C:11 43

Φάση 2: Υπο-συνθήκη ήηδένδρο 2. Περικοπές κόμβων A:2 C:11 Μικρή υποστήριξη 44

Φάση 2: Υπο-συνθήκη ήηδένδρο Τελικό υπο-συνθήκη FPδένδρο για το {D, E} A:2 Υποστήριξη του Α είναι minsup -> {Α, D,E}συχνό Αφού μόνο ένας κόμβος απέμεινε, επιστροφή στο επόμενο υποπρόβλημα. 45

Αναδρομή Υπο-συνθήκη FP-δένδρο για το Ε. Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} A:2 C:1 C:11 1 46

Φάση 1 Όλα τα μονοπάτια που περιέχουν το C (CE) A:2 C:1 C:11 1 47

Φάση 1 Όλα τα μονοπάτια που περιέχουν το C (CE) A:2 C:1 C:11 48

Υποστήριξη CE {C, Ε} συχνό A:2 C:1 C:11 49

Φάση 2 Κατασκεύασε το υπο- συνθήκη FP-δένδρο για το {C, E} A:2 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:2 C:1 C:11 50

Φάση 2 Κατασκεύασε το υπο- συνθήκη FP-δένδρο για το {C, E} A:1 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:1 C:1 C:11 51

Φάση 2 Κατασκεύασε το υπο- συνθήκη FP-δένδρο για το {C, E} A:1 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:1 C:1 C:11 52

Φάση 2 2. Περικοπή Κόμβων Άρα, επιστροφή στο επόμενο υποπρόβλημα. 53

Αναδρομή Υπο-συνθήκη FP-δένδρο για το Ε. Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} A:2 C:1 C:11 1 54

Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α A:2 (AE) 55

Υποστήριξη ΑΕ {Α, Ε} συχνό Δε χρειάζεται να φτιάξουμε υπο-συνθήκη FP-δένδρο για το {Α, Ε} A:2 56

Συνολικά για το Ε Έχουμε τα εξής συχνά στοιχειοσύνολα {Ε} {D, E} {A, D, E} {C, E} {A, E} Συνεχίζουμε για το D 57

Συχνά στοιχειοσύνολα που λήγουν σε D A:7 B:3 B:5 C:3 C1 C:1 D1 Πίνακας Δεικτών Item Pointer A B C D E C:3 E:1 E:1 E:1 58

Φάση 1 Κρατάμε όλα τα προθεματικά μονοπάτια που περιέχουν το D A:7 Υποστήριξη 5>2: άρα συχνό το D Μετατροπή του C:3 προθεματικού δένδρου σε FP- δένδρο υπό συνθήκη A:7 B:3 B:5 C:3 C1 C:1 D1 59

Αλλαγή υποστήριξης A:7 B:3 B:5 C:3 C1 C:1 D1 C:1 60

Αλλαγή υποστήριξης A:7 B:3 B:2 C:3 C1 C:1 D1 C:1 61

Αλλαγή υποστήριξης A:4 B:3 B:2 C:3 C1 C:1 D1 C:1 62

Αλλαγή υποστήριξης A:4 B:3 B:2 C:1 C1 C:1 D1 C:1 63

Αλλαγή υποστήριξης A:4 B:1 B:2 C:1 C1 C:1 D1 C:1 64

Επόμενο βήμα: Περικοπή κόμβων A:4 B:1 B:2 C:1 C1 C:1 D1 C:1 65

Επόμενο βήμα: Περικοπή κόμβων A:4 B:1 B:2 C:1 C1 C:1 D1 C:1 Κατόπιν συνεχίζουμε για AD, BD, CD 66

Παρατηρήσεις Εφαρμογή τεχνικής διαίρει-και-βασίλευε. Σε κάθε αναδρομικό βήμα, λύνεται και ένα υπο-πρόβλημα: Κατασκευάζεται το προθεματικό δένδρο Υπολογίζεται η νέα υποστήριξη για τους κόμβους του Περικόπτονται οι κόμβοι με μικρή υποστήριξη Επειδή τα υποπροβλήματα είναι ξένα μεταξύ τους, δεν δημιουργούνται τα ίδια συχνά στοιχειοσύνολα δυο φορές. Ο υπολογισμός της υποστήριξης είναι αποδοτικός γίνεται ταυτόχρονα με τη δημιουργία των συχνών στοιχειοσυνόλων Η απόδοση του FP-Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction factor) Βοηθάει η ταξινόμηση αντικειμένων κατά φθίνουσα σειρά υποστήριξης. 67

Άλλο ένα παράδειγμα Minsup = 2 68

Άλλο ένα παράδειγμα 69

Άλλο ένα παράδειγμα Υπό Συνθήκη FP-tree f 70

Άλλο ένα παράδειγμα 71

Άλλο ένα παράδειγμα Συνδυασμός ef με κάθε υποσύνολο του dca (και το κενό): ) ef, def, cef, aef, dcef, daef, caef, dcaef Όλα με υποστήριξη ίση με 2 Δηλ. όταν μένει μόνο ένα υπο συνθήκη μονοπάτι, σταματάμε μ την αναδρομική διαδικασία. (όμοια και για όλα τα άλλα ΥΣ μονοπάτια του f) 72