Ανάλυση Συσχέτισης IΙ

Σχετικά έγγραφα
Ο Αλγόριθμος FP-Growth

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Κανόνες Συσχέτισης IΙ

Lecture Notes for Chapter 6. Introduction to Data Mining

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Κανόνες Συσχέτισης IIΙ

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης

!! " &' ': " /.., c #$% & - & ' ()",..., * +,.. * ' + * - - * ()",...(.

Αλγόριθμοι και Πολυπλοκότητα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

ΗΥ360 Αρχεία και Βάσεις Δεδομένων

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Κλείσιμο Συνόλου Γνωρισμάτων

ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Π Α Ν Ε Π Ι Σ Τ Η Μ Ι O Π Ε Ι Ρ Α Ι Ω Σ

Αρχεία και Βάσεις Δεδομένων

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 11: Κατασκευή φυλογενετικών δέντρων part II

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ (συνέχεια)

Θέματα Εφαρμογών Βάσεων Δεδομένων: Ιδιωτικότητα Δεδομένων

Πολλαπλασιασμός: αλγόριθμος

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

ΗΜΥ-210: Σχεδιασμός Ψηφιακών Συστημάτων

Ατομική Διπλωματική Εργασία ΜΕΘΟΔΟΙ ΠΡΟΤΑΣΙΑΚΗΣ ΙΚΑΝΟΠΟΙΗΣΙΜΟΤΗΤΑΣ ΣΕ ΓΕΝΙΚΕΥΜΕΝΑ ΠΡΟΒΛΗΜΑΤΑ ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΙΑΣ. Νίκη Κουππή ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις

Δομές Δεδομένων και Αλγόριθμοι

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Αρχεία και Βάσεις Δεδομένων Φροντιστήριο Κανονικές Μορφές

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Δυναμικός Προγραμματισμός

Ταξινόμηση με συγχώνευση Merge Sort

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων

Δυναμικός Προγραμματισμός

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΦΡΟΝΤΙΣΤΗΡΙΟ ΑΛΓΟΡΙΘΜΩΝ ΒΟΗΘΟΣ: ΒΑΓΓΕΛΗΣ ΔΟΥΡΟΣ

Αλγοριθμικές Τεχνικές

επιστρέφει το αμέσως μεγαλύτερο από το x στοιχείο του S επιστρέφει το αμέσως μικρότερο από το x στοιχείο του S

Asocijativna analiza

Δομές Δεδομένων & Αλγόριθμοι

7ο ΕΡΓΑΣΤΗΡΙΟ AAAABBBBAAAAABBBBBBCCCCCCCCCCCCCCBBABAAAABBBBBBCCCCD

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Ταχεία Ταξινόμηση Quick-Sort

DIGITAL DESIGN WITH AN INTRODUCTION TO THE VERILOG HDL Fifth Edition

Κεφάλαιο 10 Ψηφιακά Λεξικά

Ψηφιακά Συστήματα. 5. Απλοποίηση με χάρτες Karnaugh

Αλγόριθμοι ταξινόμησης

Δομές Δεδομένων & Αλγόριθμοι

Θέματα Μεταγλωττιστών

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 5 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Merge Sort (Ταξινόμηση με συγχώνευση) 6/14/2007 3:04 AM Merge Sort 1

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ. Ταξινόµηση Mergesort Κεφάλαιο 8. Ε. Μαρκάκης Επίκουρος Καθηγητής

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

Κωδικοποίηση Πηγής. Δρ. Α. Πολίτης

Αναδρομικοί Αλγόριθμοι

Εισαγωγή στους Αλγόριθμους

Fast Fourier Transform

Αλγόριθμοι εύρεσης ελάχιστων γεννητικών δέντρων (MST)

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Βιοπληροφορική. Ενότητα 10: Κατασκευή φυλογενετικών δέντρων

ΗΥ360 Αρχεία και Βάσεις εδοµένων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Δομές Δεδομένων. Ιωάννης Γ. Τόλλης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης

Παρατηρήσεις στα ϑέµατα

HY437 Αλγόριθμοι CAD

Αλγόριθµοι. Παράδειγµα. ιαίρει και Βασίλευε. Παράδειγµα MergeSort. Τεχνικές Σχεδιασµού Αλγορίθµων

Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort. Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βασιλική

Διάλεξη 10: Αλγόριθμοι Ταξινόμησης II

Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων

Ασκήσεις ανακεφαλαίωσης στο μάθημα Τεχνητή Νοημοσύνη

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Πανεπιστημιο Πατρων Πολυτεχνικη Σχολη

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Some new generalized topologies via hereditary classes. Key Words:hereditary generalized topological space, A κ(h,µ)-sets, κµ -topology.

Βάσεις Δεδομένων Συναρτησιακές Εξαρτήσεις (Functional Dependencies) Σχεδιασμός Βάσεων Δεδομένων και Κανονικοποίηση

Διδάσκων: Παναγιώτης Ανδρέου

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 4 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

(Γραμμικές) Αναδρομικές Σχέσεις

Κεφ.11: Ευρετήρια και Κατακερματισμός

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση

(Γραμμικές) Αναδρομικές Σχέσεις

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

Αρχεία και Βάσεις Δεδομένων

Δυναμικός Προγραμματισμός

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΗ ΑΣΚΗΣΗ 2

Στην ενότητα αυτή θα µελετηθούν τα εξής θέµατα:

ΔΙΑΣΧΙΣΗ ΓΡΑΦΗΜΑΤΩΝ 1

Transcript:

Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 2 Εξόρυξη Δεδομένων 2010-2011 1

Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο prefix tree (trie) Ο αλγόριθμος κατασκευής διαβάζει μια συναλλαγή τη φορά, απεικονίζει τη συναλλαγή σε ένα μονοπάτι του FP δέντρου Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση Μόλις κατασκευαστεί το FP δέντρο, ο αλγόριθμος χρησιμοποιεί μια αναδρομική διαίρει και βασίλευε (divide and conquer) προσέγγιση για την εξόρυξη των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 3 Κατασκευή FP δέντρου TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} To FP δέντρο είναι ένα προθεματικό δέντρο Επειδή έχουμε σύνολα, κάπως πρέπει να τα διατάξουμε ώστε να βρίσκουμε προθέματα Δηλαδή δε μπορεί το ένα σύνολο να είναι {Α, Β} και το άλλο {Β, C, A} γιατί χάνουμε το κοινό πρόθεμα ΑΒ (ή ΒΑ) Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική (θα δούμε αργότερα αν κάτι άλλο συμφέρει καλύτερα) Αρχικά, το δέντρο κενό Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 4 Εξόρυξη Δεδομένων 2010-2011 2

TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Κατασκευή FP-δέντρου Διάβασμα TID=1: B:1 A:1 Κάθε κόμβος έχει μια ετικέτα: ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Ετικέτα κόμβου <ΣΤΟΙΧΕΙΟ: ΥΠΟΣΤΗΡΙΞΗ> Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 5 Κατασκευή FP δέντρου Αλγόριθμος FP-Growth TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Διάβασμα TID=1: Διάβασμα TID=2: B:1 A:1 B:1 Κάθε κόμβος ετικέτα, ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες συναλλαγές φτάνουν σε αυτόν Επίσης, δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 6 Εξόρυξη Δεδομένων 2010-2011 3

TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Κατασκευή FP δέντρου Διάβασμα TID=1, 2: Πίνακας εικτών B:1 A:1 B:1 Επίσης, κρατάμε πίνακα δεικτών για να βοηθήσουν στον υπολογισμό των συχνών στοιχειοσυνόλων Item A B C D E Pointer Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 7 TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Κατασκευή FP δέντρου Διάβασμα TID=1, 2: Διάβασμα TID=3 Πίνακας Δεικτών B:1 A:1 B:1 Item A B C D E Pointer Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 8 Εξόρυξη Δεδομένων 2010-2011 4

TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Κατασκευή FP δέντρου Διάβασμα TID=1, 2: Διάβασμα TID=3 Πίνακας Δεικτών Item A B C D E Pointer B:1 A:2 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 9 TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Κατασκευή FP δέντρου Διάβασμα TID=1, 2: Διάβασμα TID=3 Πίνακας Δεικτών Item A B C D E Pointer B:1 A:2 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 10 Εξόρυξη Δεδομένων 2010-2011 5

TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Κατασκευή FP δέντρου A:7 B:5 B:3 Πίνακας Δεικτών Item A B C D E Pointer Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 11 Μέγεθος FP δέντρου Κάθε συναλλαγή αντιστοιχεί σε ένα μονοπάτι από τη ρίζα Το μέγεθος του δέντρου συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα Αν όλες οι συναλλαγές τα ίδια στοιχεία, μόνο ένα κλαδί Αν όλες διαφορετικές, ο χώρος μεγαλύτερος (γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύ των κόμβων αλλά και συχνότητες εμφάνισης) Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 12 Εξόρυξη Δεδομένων 2010-2011 6

Κατασκευή FP δέντρου TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Το τελικό δέντρο, εξαρτάται από τη διάταξη: άλλη διάταξη > άλλα προθέματα (Συνήθως) μικρότερο δέντρο, αν όχι λεξικογραφικά, αλλά με βάση τη συχνότητα εμφάνισης > Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό Επίσης, αγνοούμε όσα στοιχεία είναι μη συχνά Για τo παράδειγμα, σ(α)=7, σ(β)=8, σ(c)=7, σ(d)=5, σ(ε)=3 Άρα, διάταξη Β,Α,C,D,E TID Items 1 {Β,Α} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {Β,Α,C} 6 {Β,Α,C,D} 7 {B,C} 8 {Β,Α,C} 9 {Β,Α,D} 10 {B,C,E} Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 13 Αλγόριθμος FP-Growth Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Είσοδος: FP δέντρο Έξοδος: Συχνά στοιχειοσύνολα και η υποστήριξη τους Μέθοδος: Διαίρει και Βασίλευε o Χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν σε E, D, C, B, A o Μετά αυτά που τελειώνουν σε E σε αυτά σε DE, CE, BE, AE κοκ Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 14 Εξόρυξη Δεδομένων 2010-2011 7

Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα Ε D C B A DE CE BE AE CD BD AD BC AC AB CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC ACDE BCDE ABDE ABCE ABCD ABCDE Όλαταδυνατάστοιχειοσύνολα! Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 15 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα συχνό; Ε D C B A DE CE BE AE CD BD AD BC AC AB συχνό; CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC συχνό; ACDE BCDE ABDE ABCE ABCD συχνό; ABCDE Όλαταδυνατάστοιχειοσύνολα! Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 16 Εξόρυξη Δεδομένων 2010-2011 8

Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα συχνό; Ε D C B A DE CE BE AE CD BD AD BC AC AB συχνό; CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC συχνό; συχνό; ACDE BCDE ABDE ABCE ABCD συχνό; ABCDE Όλαταδυνατάστοιχειοσύνολα! Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 17 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα συχνό; Ε D C B A DE CE BE AE CD BD AD BC AC AB συχνό; CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC συχνό; ACDE BCDE ABDE ABCE ABCD ABCDE Όλαταδυνατάστοιχειοσύνολα! Στο δέντρο μπορεί να υπάρχουν λιγότερα! Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 18 Εξόρυξη Δεδομένων 2010-2011 9

TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Χρήση FP δέντρου για εύρεση συχνών στοιχειοσυνόλων A:7 B:3 B:5 Header table Item Pointer A B C D E Πως; Bottom up traversal του δέντρου Αυτά που τελειώνουν σε E, μετά αυτά που τελειώνουν σε D, C, B και τέλος Α suffix based classes (επίθεμα κατάληξη) Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 19 Υποπρόβλημα: Βρες συχνά στοιχειοσύνολα που τελειώνουν σε E A:7 B:3 B:5 Header table Item A B C D E Pointer Θα δούμε στη συνέχεια πως υπολογίζεται η υποστήριξη γιαταπιθανάστοιχειοσύνολα Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 20 Εξόρυξη Δεδομένων 2010-2011 10

Για το D A:7 B:3 B:5 Header table Item A B C D E Pointer Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 21 Για το C A:7 B:3 B:5 Header table Item A B C D E Pointer Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 22 Εξόρυξη Δεδομένων 2010-2011 11

Για το B A:7 B:3 B:5 Header table Item A B C D E Pointer Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 23 Για το Α A:7 B:3 B:5 Header table Item A B C D E Pointer Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 24 Εξόρυξη Δεδομένων 2010-2011 12

Συνοπτικά Σε κάθε βήμα, για το suffix (επίθεμα) Χ Φάση 1 Κατασκευάζουμε το προθεματικό δέντρο γιατοχκαιυπολογίζουμε την υποστήριξη χρησιμοποιώντας τον πίνακα Φάση 2 Αν είναι συχνό, κατασκευάζουμε το υπο συνθήκη δέντρο για το Χ, σε βήματα επανα υπολογισμός υποστήριξης περικοπή κόμβων με μικρή υποστήριξη περικοπή φύλλων Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 25 Φάση 1 κατασκευή προθεματικού δέντρου Όλα τα μονοπάτια που περιέχουν το E Προθεματικά (prefix paths) Μονοπάτια A:7 B:3 B:5 Header table Item A B C D E Pointer Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 26 Εξόρυξη Δεδομένων 2010-2011 13

Φάση 1 Όλα τα μονοπάτια που περιέχουν το E Προθεματικά Μονοπάτια (prefix paths) A:7 B:3 Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 27 Έστω minsup = 2 Βρες την υποστήριξη του {E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1+1=3>2 Οπότε {Ε} συχνό A:7 B:3 {E} συχνό άρα προχωράμε για DE, CE, BE, AE Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 28 Εξόρυξη Δεδομένων 2010-2011 14

{E} συχνό άρα προχωράμε για DE, CE, BE, AE Φάση 2 Μετατροπή των προθεματικών δέντρων σε FP δέντρο υπό συνθήκες (conditional FP tree) Δύο αλλαγές (1) Αλλαγή των μετρητών (2) Περικοπή A:7 B:3 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 29 Αλλαγή μετρητών Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν συναλλαγές που δεν έχουν το Ε Πχ στο >B >C >E μετράμε και την {B, C} A:7 B:3 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 30 Εξόρυξη Δεδομένων 2010-2011 15

A:7 B:3 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 31 A:7 B:3 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 32 Εξόρυξη Δεδομένων 2010-2011 16

A:7 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 33 A:7 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 34 Εξόρυξη Δεδομένων 2010-2011 17

A:7 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 35 A:2 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 36 Εξόρυξη Δεδομένων 2010-2011 18

A:2 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 37 Περικοπή (truncate) Σβήσε τους κόμβους του Ε A:2 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 38 Εξόρυξη Δεδομένων 2010-2011 19

Περικοπή (truncate) Σβήσε τους κόμβους του Ε A:2 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 39 Περικοπή (truncate) Σβήσε τους κόμβους του Ε A:2 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 40 Εξόρυξη Δεδομένων 2010-2011 20

Πιθανή περαιτέρω περικοπή Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης Πχ το Β > περικοπή A:2 B:1 Αυτό σημαίνει ότι το Β εμφανίζεται μαζί με το E λιγότερο από minsup φορές Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 41 A:2 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 42 Εξόρυξη Δεδομένων 2010-2011 21

A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 43 Υπο συνθήκη FP δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 44 Εξόρυξη Δεδομένων 2010-2011 22

Φάση 1 Όλα τα μονοπάτια που περιέχουν το D (DE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 45 Φάση 1 Όλα τα μονοπάτια που περιέχουν το D (DE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 46 Εξόρυξη Δεδομένων 2010-2011 23

Βρες την υποστήριξη του {D, E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1=2 2 Οπότε {D, Ε} συχνό A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 47 Αλγόριθμος FP-Growth Φάση 2 Κατασκεύασε το υπο συνθήκη FP δέντρο για το {D, E} 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 48 Εξόρυξη Δεδομένων 2010-2011 24

1. Αλλαγή υποστήριξης A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 49 2. Περικοπές κόμβων A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 50 Εξόρυξη Δεδομένων 2010-2011 25

Αλγόριθμος FP-Growth 2. Περικοπές κόμβων A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 51 2. Περικοπές κόμβων A:2 Μικρή υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 52 Εξόρυξη Δεδομένων 2010-2011 26

Τελικό υπο συνθήκη FP δέντρο για το {D, E} A:2 Υποστήριξη του Α είναι minsup > {Α, D, E} συχνό Αφού μόνο έναν κόμβο, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 53 Υπο συνθήκη FP δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 54 Εξόρυξη Δεδομένων 2010-2011 27

Φάση 1 Όλα τα μονοπάτια που περιέχουν το C (CE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 55 Φάση 1 Όλα τα μονοπάτια που περιέχουν το C (CE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 56 Εξόρυξη Δεδομένων 2010-2011 28

Βρες την υποστήριξη του {C, E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1=2 2 Οπότε {C, Ε} συχνό A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 57 Κατασκεύασε το υπο συνθήκη FP δέντρο για το {C, E} 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 58 Εξόρυξη Δεδομένων 2010-2011 29

1. Αλλαγή υποστήριξης A:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 59 2. Περικοπή Κόμβων A:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 60 Εξόρυξη Δεδομένων 2010-2011 30

2. Περικοπή Κόμβων A:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 61 2. Περικοπή Κόμβων A:1 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 62 Εξόρυξη Δεδομένων 2010-2011 31

2. Περικοπή Κόμβων Άρα, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 63 Υπο συνθήκη FP δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 64 Εξόρυξη Δεδομένων 2010-2011 32

Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α (AE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 65 Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α (AE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 66 Εξόρυξη Δεδομένων 2010-2011 33

Βρες την υποστήριξη του {Α, E} Οπότε {Α, Ε} συχνό Δε χρειάζεται να φτιάξουμε υπο συνθήκη FP δέντρο για το {Α, Ε} A:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 67 Άρα για το Ε Έχουμε τα εξής συχνά στοιχειοσύνολα {Ε} {D, E} {A, D, E} {C, E} {A, E} Συνεχίζουμε για το D Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 68 Εξόρυξη Δεδομένων 2010-2011 34

Για το D A:7 B:3 B:5 Header table Item A B C D E Pointer Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 69 Φάση 1 Όλα τα προθεματικά μονοπάτια που περιέχουν το D Υποστήριξη 5>2 > άρα συχνό A:7 B:3 Μετατροπή του προθεματικού δέντρου σε FP δέντρο υπό συνθήκη B:5 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 70 Εξόρυξη Δεδομένων 2010-2011 35

1. Αλλαγή υποστήριξης A:7 B:3 B:5 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 71 1. Αλλαγή υποστήριξης A:7 B:3 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 72 Εξόρυξη Δεδομένων 2010-2011 36

1. Αλλαγή υποστήριξης A:3 B:3 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 73 1. Αλλαγή υποστήριξης A:3 B:3 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 74 Εξόρυξη Δεδομένων 2010-2011 37

1. Αλλαγή υποστήριξης A:3 B:1 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 75 2. Περικοπή Κόμβων A:3 B:1 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 76 Εξόρυξη Δεδομένων 2010-2011 38

2. Περικοπή Κόμβων A:3 B:1 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 77 Προθεματικά δέντρα και υποσυνθήκη δέντρα ΓιαταΑD, ΒD και CD κοκ A:3 B:1 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 78 Εξόρυξη Δεδομένων 2010-2011 39

Παρατηρήσεις Παράδειγμα τεχνικής διαίρει και βασίλευε Σε κάθε αναδρομικό βήμα, λύνεται και ένα υπο πρόβλημα: Κατασκευάζεται το προθεματικό δέντρο Υπολογίζεται η νέα υποστήριξη για τους κόμβους του Περικόβονται οι κόμβοι με μικρή υποστήριξη Επειδή τα υποπροβλήματα είναι ξένα μεταξύ τους, δεν δημιουργούνται τα ίδια συχνάστοιχειοσύνολαδυοφορές Ο υπολογισμός της υποστήριξης είναι αποδοτικός γίνεται ταυτόχρονα με τη δημιουργία των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 79 Παρατηρήσεις Η απόδοση του FP Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction factor) Αν τα τελικά δέντρα είναι «θαμνώδη» (bushy) τότε δε δουλεύει καλά, αυξάνεται ο αριθμός των υποπροβλημάτων (οι αναδρομικές κλήσεις) Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΙI 80 Εξόρυξη Δεδομένων 2010-2011 40