Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ανάλυση Συσχέτισης IΙ

Ο Αλγόριθμος FP-Growth

Εισαγωγή στους Αλγορίθμους

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Εισαγωγή στους Αλγορίθμους

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Εισαγωγή στους Αλγορίθμους

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Διοικητική Λογιστική

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Μηχανολογικό Σχέδιο Ι

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Ιστορία της μετάφρασης

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Δομές Δεδομένων Ενότητα 1

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Βέλτιστος Έλεγχος Συστημάτων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 6

Βάσεις Περιβαλλοντικών Δεδομένων

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Γενικά Μαθηματικά Ι. Ενότητα 15: Ολοκληρώματα Με Ρητές Και Τριγωνομετρικές Συναρτήσεις Λουκάς Βλάχος Τμήμα Φυσικής

Λογισμός 3. Ενότητα 19: Θεώρημα Πεπλεγμένων (γενική μορφή) Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Εκκλησιαστικό Δίκαιο

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Κβαντική Επεξεργασία Πληροφορίας

Εφαρμογές πληροφορικής σε θέματα πολιτικού μηχανικού

Διοικητική Λογιστική

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 3

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Διοίκηση Επιχειρήσεων

Εισαγωγή στους Αλγορίθμους Ενότητα 11η Άσκηση - Σταθμισμένος Χρονοπρογραμματισμός Διαστημάτων

Εκκλησιαστικό Δίκαιο

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Θέματα Εφαρμοσμένης. Ενότητα 14.2: Η ψήφος στα πρόσωπα. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4: ΑΝΑΠΑΡΑΣΤΑΣΗ ΔΕΔΟΜΕΝΩΝ - ΔΕΝΤΡΑ

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Μάρκετινγκ Αγροτικών Προϊόντων

Ψηφιακή Επεξεργασία Εικόνων

Γενικά Μαθηματικά Ι. Ενότητα 14: Ολοκλήρωση Κατά Παράγοντες, Ολοκλήρωση Ρητών Συναρτήσεων Λουκάς Βλάχος Τμήμα Φυσικής

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Παράκτια Τεχνικά Έργα

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 4

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Προγραμματισμός Η/Υ. Βασικές Προγραμματιστικές Δομές. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Διδακτική των εικαστικών τεχνών Ενότητα 1

Διδακτική της Πληροφορικής

Τεχνικό Σχέδιο - CAD

Κβαντική Επεξεργασία Πληροφορίας

Τεχνολογία Λογισμικού

Εισαγωγή στη Δικτύωση Υπολογιστών

Βάσεις Δεδομένων. Ενότητα 1: Εισαγωγή στις Βάσεις δεδομένων. Πασχαλίδης Δημοσθένης Τμήμα Ιερατικών σπουδών

ΑΛΓΟΡΙΘΜΟΙ. Ενότητα 12: Αντιμετώπιση Περιορισμών Αλγοριθμικής Ισχύος

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Εισαγωγή στους Υπολογιστές

ΟΙΚΟΝΟΜΙΚΑ ΜΑΘΗΜΑΤΙΚΑ

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Β. Διαφορικός Λογισμός

Μηχανολογικό Σχέδιο Ι

Εισαγωγή στους Η/Υ. Ενότητα 2α: Χάρτης Karnaugh (Βοηθητικό υλικό)

Μαθηματικά στην Πολιτική Επιστήμη:

Γενικά Μαθηματικά Ι. Ενότητα 17: Αριθμητική Ολοκλήρωση, Υπολογισμός Μήκους Καμπύλης Λουκάς Βλάχος Τμήμα Φυσικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Διδακτική Πληροφορικής

Τεχνικό Σχέδιο - CAD

Κβαντική Επεξεργασία Πληροφορίας

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εφαρμογές των Τεχνολογιών της Πληροφορίας και των Επικοινωνιών στη διδασκαλία και τη μάθηση

Διδακτική των εικαστικών τεχνών Ενότητα 3

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 12: Κανόνες Συσχέτισης Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Κανόνες Συσχέτισης Μέρος B Αλγόριθμος FP-Growth

Περιεχόμενα ενότητας 1. Αλγόριθμος FP-Growth. 2. Μειονεκτήματα υποστήριξης-εμπιστοσύνης. 3. Κλειστά Maximal στοιχειοσύνολα. 5

Σκοποί ενότητας Ανάλυση των κανόνων συσχέτισης. Περιγραφή του αλγορίθμου FP-Growth. Κατασκευή του FP-δένδρου. Παρουσίαση των μειονεκτημάτων σχετικά με την υποστήριξη και εμπιστοσύνη. 6

Είναι γρήγορος ο Apriori? Bottlenecks στην απόδοση Ο βασικός αλγόριθμος Apriori: o Χρησιμοποιεί συχνά (k 1)-στοιχειοσύνολα για την παραγωγή υποψηφίων συχνών k-στοιχειοσυνόλων. o Χρήση τεχνικών σαρώματος ΒΔ και ταύτισης προτύπων για τη μέτρηση της υποστήριξης των υποψηφίων συνόλων. Tο bottleneck του Apriori: Δημιουργία υποψηφίων. o Πολύ μεγάλα υποψήφια σύνολα. o Πολλαπλές σαρώσεις της ΒΔ. 7

Ο Αλγόριθμος FP-Growth Χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης με τη μορφή ενός FP-δένδρου (FP: frequent pattern). Το δένδρο μοιάζει με προθεματικό δένδρο - prefix tree (trie). Ο αλγόριθμος κατασκευής διαβάζει μια συναλλαγή τη φορά, και απεικονίζει τη συναλλαγή σε ένα μονοπάτι του FP-δένδρου. Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση. Τα συχνά στοιχειοσύνολα βρίσκονται με μια αναδρομική διαίρει-και-βασίλευε προσέγγιση. 8

Κατασκευή FP-δένδρου (1/7) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Το FP-δένδρο είναι ένα προθεματικό δένδρο. Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική. Θα δούμε αργότερα ότι κάτι άλλο συμφέρει περισσότερο. Αρχικά, το δένδρο είναι κενό. 9

Κατασκευή FP-δένδρου (2/7) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Διάβασμα TID=1: B:1 A:1 Κάθε κόμβος έχει μια ετικέτα που δείχνει πόσες συναλλαγές φτάνουν σε αυτόν, δηλαδή πόσα μονοπάτια καταλήγουν σε αυτόν τον κόμβο. 10

Κατασκευή FP-δένδρου (3/7) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Διάβασμα TID=1: B:1 Διάβασμα TID=2: A:1 B:1 Κάθε κόμβος έχει μια ετικέτα που δείχνει πόσες συναλλαγές φτάνουν σε αυτόν. Επίσης, υπάρχουν δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο. 11

Κατασκευή FP-δένδρου (4/7) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Κρατάμε πίνακα δεικτών για να βοηθήσουν στον υπολογισμό των συχνών στοιχειοσυνόλων. Διάβασμα TID=1, 2: Πίνακας Δεικτών Item A B C D E Pointer B:1 A:1 B:1 12

Κατασκευή FP-δένδρου (5/7) Διάβασμα TID=1, 2: TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Item A B C D E Διάβασμα TID=3 A:2 Πίνακας Δεικτών Pointer B:1 E:1 B:1 13

Κατασκευή FP-δένδρου (6/7) Διάβασμα TID=1, 2: TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} Item A B C D E Διάβασμα TID=3 Πίνακας Δεικτών Pointer B:1 A:2 E:1 B:1 14

Κατασκευή FP-δένδρου (7/7) TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} B:5 A:7 B:3 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 Αφού έχουν διαβαστεί όλες οι συναλλαγές... 15

Μέγεθος FP-δένδρου Κάθε συναλλαγή αντιστοιχεί σε ένα μονοπάτι από τη ρίζα. Το μέγεθος του δένδρου είναι συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα. o Αν όλες οι συναλλαγές περιέχουν τα ίδια δεδομένα, τότε υπάρχει μόνο ένα κλαδί. o Αν όλες είναι διαφορετικές, ο χώρος είναι μεγαλύτερος... o...γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύ των κόμβων αλλά και συχνότητες εμφάνισης. 16

Επιλογή προθέματος Το τελικό δένδρο, εξαρτάται από τη διάταξη: o άλλη διάταξη άλλα προθέματα. (Συνήθως) μικρότερο δένδρο, αν δεν διατάσουμε τα αντικείμενα λεξικογραφικά, αλλά σύμφωνα με τη συχνότητα εμφάνισης. Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό (αγνοούμε όσα στοιχεία είναι μη συχνά). TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 10 {B,C,E} TID Items 1 {B,A} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {B,A,C} 6 {B,A,C,D} 7 {B,C} 8 {B,A,C} 9 {B,A,D} 10 {B,C,E} 17

Εύρεση συχνών στοιχειοσυνόλων Είσοδος: FP-δένδρο. Έξοδος: Συχνά στοιχειοσύνολα και η υποστήριξη τους. Μέθοδος Διαίρει-και-Βασίλευε: o Χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν σε E, D, C, B, A. o Μετά αυτά που τελειώνουν σε E σε αυτά σε DE, CE, BE, AE κ.ο.κ. o Αν η διάταξη είναι βάσει της συχνότητας εμφάνισης, τότε χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν στο πιο σπάνιο στοιχείο, μετά στο δεύτερο πιο σπάνιο κ.ο.κ. 18

Εύρεση συχνών στοιχειοσυνόλων με χρήση του FP-δένδρου Bottom-up διάσχιση του δένδρου. A:7 B:3 B:5 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 19

Συχνά στοιχειοσύνολα που τελειώνουν σε E A:7 B:3 B:5 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 20

Για το D A:7 B:3 B:5 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 21

Για το C A:7 B:3 B:5 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 22

Για το B A:7 B:3 B:5 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 23

Για το A A:7 B:3 B:5 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 24

Συνοπτικά ο αλγόριθμος Σε κάθε βήμα, για το επίθεμα (suffix) Χ: Φάση 1 o Κατασκευάζουμε το προθεματικό δένδρο για το Χ και υπολογίζουμε την υποστήριξη χρησιμοποιώντας τον πίνακα. Φάση 2 o Αν είναι συχνό, κατασκευάζουμε το υπο-συνθήκη δένδρο για το Χ, σε βήματα: Επανα-υπολογισμός υποστήριξης. Περικοπή κόμβων με μικρή υποστήριξη. Περικοπή φύλλων. 25

Φάση 1 (1/2) Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} A:7 B:3 B:5 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 26

Φάση 1 (2/2) Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} A:7 B:3 C:3 E:1 E:1 27

Μέτρηση Υποστήριξης Έστω minsup = 2 Ακολουθούμε τους συνδέσμους αθροίζοντας 1+1+1=3>2 Οπότε {Ε} συχνό άρα προχωράμε για DE, CE, BE, AE A:7 B:3 C:3 E:1 E:1 28

Φάση 2 {E} συχνό άρα προχωράμε για DE, CE, BE, AE. A:7 B:3 Μετατροπή των προθεματικών δένδρων σε FP-δένδρο υπό συνθήκες (conditional FP-tree). Δύο αλλαγές: E:1 E:1 C:3 o Αλλαγή των μετρητών. o Περικοπή. 29

Αλλαγή μετρητών (1/7) A:7 B:3 C:3 E:1 E:1 30

Αλλαγή μετρητών (2/7) A:7 B:3 E:1 E:1 E:1 31

Αλλαγή μετρητών (3/7) A:7 B:3 E:1 E:1 E:1 32

Αλλαγή μετρητών (4/7) A:7 B:3 E:1 E:1 E:1 33

Αλλαγή μετρητών (5/7) A:7 B:3 E:1 E:1 E:1 34

Αλλαγή μετρητών (6/7) A:7 B:3 E:1 E:1 E:1 35

Αλλαγή μετρητών (7/7) Περικοπή (truncate): Σβήσε τους κόμβους του Ε. A:2 B:3 E:1 E:1 E:1 36

Περικοπή (1/2) Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης (π.χ., Β). A:2 B:1 Αυτό σημαίνει ότι το Β εμφανίζεται μαζί με το E λιγότερο από minsup φορές. Άρα Β περικοπή. 37

Περικοπή (2/2) A:2 B:1 38

Αναδρομή Υπο-συνθήκη FP-δένδρο για το Ε. Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E}. A:2 B:1 39

Φάση 1 (1/2) Βρίσκουμε όλα τα μονοπάτια που περιέχουν το D (DE). A:2 B:1 40

Φάση 1 (2/2) Βρίσκουμε όλα τα μονοπάτια που περιέχουν το D (DE). A:2 41

Υποστήριξη DE Ακολουθούμε τους συνδέσμους αθροίζοντας: 1+1=2 2 Οπότε {D, Ε} συχνό. A:2 42

Φάση 2: Υπο-συνθήκη δένδρο (1/6) Κατασκεύασε το υποσυνθήκη FP-δένδρο για το {D, E}. 1. Αλλαγή υποστήριξης. A:2 2. Περικοπές κόμβων. 43

Φάση 2: Υπο-συνθήκη δένδρο (2/6) Κατασκεύασε το υποσυνθήκη FP-δένδρο για το {D, E}. 1. Αλλαγή υποστήριξης: A:2 Δεν υπάρχει καμία. 2. Περικοπές κόμβων. 44

Φάση 2: Υπο-συνθήκη δένδρο (3/6) 2. Περικοπές κόμβων. A:2 45

Φάση 2: Υπο-συνθήκη δένδρο (4/6) 2. Περικοπές κόμβων. A:2 46

Φάση 2: Υπο-συνθήκη δένδρο (5/6) 2. Περικοπές κόμβων. A:2 Μικρή υποστήριξη 47

Φάση 2: Υπο-συνθήκη δένδρο (6/6) A:2 Τελικό υπο-συνθήκη FP-δένδρο για το {D, E} Υποστήριξη του Α είναι minsup -> {Α, D, E} συχνό. Αφού μόνο ένας κόμβος απέμεινε, επιστροφή στο επόμενο υποπρόβλημα. 48

Αναδρομή Υπο-συνθήκη FP-δένδρο για το Ε. Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E}. A:2 B:1 49

Φάση 1 (1/2) Όλα τα μονοπάτια που περιέχουν το C (CE). A:2 B:1 50

Φάση 1 (2/2) Όλα τα μονοπάτια που περιέχουν το C (CE). A:2 B:1 51

Υποστήριξη CE {C, Ε} συχνό. A:2 B:1 52

Φάση 2 (1/4) Κατασκεύασε το υποσυνθήκη FP-δένδρο για το {C, E}. 1. Αλλαγή υποστήριξης. 2. Περικοπές κόμβων. A:2 B:1 53

Φάση 2 (2/4) Κατασκεύασε το υποσυνθήκη FP-δένδρο για το {C, E}. 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:2 B:1 54

Φάση 2 (3/4) Κατασκεύασε το υποσυνθήκη FP-δένδρο για το {C, E}. 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:2 B:1 55

Φάση 2 (4/4) 2. Περικοπές κόμβων Άρα, επιστροφή στο επόμενο υποπρόβλημα. 56

Αναδρομή Υπο-συνθήκη FP-δένδρο για το Ε. Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E}. A:2 B:1 57

Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α (AE). A:2 58

Υποστήριξη ΑΕ {Α, Ε} συχνό. Δε χρειάζεται να φτιάξουμε υποσυνθήκη FP-δένδρο για το {Α, Ε}. A:2 59

Συνολικά για το Ε Έχουμε τα εξής συχνά στοιχειοσύνολα: o {Ε} {D, E} {A, D, E} {C, E} {A, E}. o Συνεχίζουμε για το D. 60

Συχνά στοιχειοσύνολα που λήγουν σε D A:7 B:3 B:5 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 61

Φάση 1 Κρατάμε όλα τα προθεματικά μονοπάτια που περιέχουν το D. A:7 B:3 Υποστήριξη 5>2: άρα συχνό το D. Μετατροπή του προθεματικού δένδρου σε FP-δένδρο υπό συνθήκη. C:3 B:5 C:3 62

Αλλαγή υποστήριξης (1/5) A:7 B:3 B:5 C:3 63

Αλλαγή υποστήριξης (2/5) A:7 B:3 B:2 C:3 64

Αλλαγή υποστήριξης (3/5) A:4 B:3 B:2 C:3 65

Αλλαγή υποστήριξης (4/5) A:4 B:3 B:2 66

Αλλαγή υποστήριξης (5/5) A:4 B:1 B:2 67

Επόμενο βήμα: Περικοπή κόμβων A:4 B:1 B:2 68

Παρατηρήσεις Εφαρμογή τεχνικής διαίρει-και-βασίλευε. Σε κάθε αναδρομικό βήμα, λύνεται και ένα υπο-πρόβλημα: o Κατασκευάζεται το προθεματικό δένδρο. o Υπολογίζεται η νέα υποστήριξη για τους κόμβους του. o Περικόπτονται οι κόμβοι με μικρή υποστήριξη. Επειδή τα υποπροβλήματα είναι ξένα μεταξύ τους, δεν δημιουργούνται τα ίδια συχνά στοιχειοσύνολα δυο φορές. Ο υπολογισμός της υποστήριξης είναι αποδοτικός. o Γίνεται ταυτόχρονα με τη δημιουργία των συχνών στοιχειοσυνόλων. Η απόδοση του FP-Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction factor). o Βοηθάει η ταξινόμηση αντικειμένων κατά φθίνουσα σειρά υποστήριξης. 69

Άλλο ένα παράδειγμα (1/6) Κωδ. Εγγραφή Υποστ. Αντικειμένων Αναταξινόμηση 1 {a, c, d, e, f} d:4, c:4 {d, c, a, e, f} 2 {a, b, c, d, e} a:3, b:3, e:3, f:3 {d, c, a, b, e} 3 {b, d, g} g:1, h:1 {d, b} 4 {b, c, f} {c, b, f} 5 {a, c, d, e, f, h} {d, c, a, e, f} Minsup = 2 70

Άλλο ένα παράδειγμα (2/6) {d, c, a, e, f} {d, c, a, b, e} {d, b} {c, b, f} {d, c, a, e, f} 71

Άλλο ένα παράδειγμα (3/6) Επίθεμα f e b a c d Υ.Σ. Μονοπάτια {(dcae:2), (cb:1)} {(dca:2), (dcab:1)} {(dca:1), (d:1), (c:1)} {(dc:3)} {(d:3), Ø:1} {Ø:4} Υπό Συνθήκη FP-tree f 72

Άλλο ένα παράδειγμα (4/6) f {(dcae:2), (cb:1)} Επίθεμα Υ.Σ. Μονοπάτια f ef {(dca:2)} af {(dc:2)} df {Ø:2} cf {(d:2), Ø:1} 73

Άλλο ένα παράδειγμα (5/6) ef {(dca:2)} Συνδυασμός ef με κάθε υποσύνολο του dca (και το κενό): o ef, def, cef, aef, dcef, daef, caef, dcaef o Όλα με υποστήριξη ίση με 2 o Δηλ. όταν μένει μόνο ένα υπο συνθήκη μονοπάτι, σταματάμε την αναδρομική διαδικασία. (όμοια και για όλα τα άλλα ΥΣ μονοπάτια του f) 74

Άλλο ένα παράδειγμα (6/6) b {(dca:1), (d:1), (c:1)} Επίθεμα Υ.Σ. Μονοπάτια b cb {(d:1), (Ø:1)} db {Ø:2} 75

Μειονεκτήματα υποστήριξης, εμπιστοσύνης Κινηματογράφος Όχι κινηματογράφος Θέατρο 15 5 20 Όχι Θέατρο 65 15 80 80 20 100 Θέατρο => Κινηματογράφος (15%, 75%) P(Κινηματογράφος) = 80% > 75% 76

Μέτρο ενδιαφέροντος Έστω ο κανόνας Α Β Αν Αν Αν : ανεξαρτησία. : θετική συσχέτιση. : αρνητική συσχέτιση. 77

Παράδειγμα Κινηματογράφος Όχι κινηματογράφος Θέατρο 15 5 20 Όχι Θέατρο 65 15 80 80 20 100 Ι = 0.15/(0.2 * 0.8) = 0.9375 < 1 78

Παράδοξο Simpson (1/3) Ραδιόφωνο Όχι ραδιόφωνο Τηλεόραση 99 81 180 Όχι Τηλεόραση 54 66 120 153 147 300 Τηλεόραση Ραδιόφωνο (εμπ = 99/180= 55%) Όχι Τηλεόραση Ραδιόφωνο (εμπ = 54/120 = 45%) Συσχέτιση(Τηλεόραση, Ραδιόφωνο) = 1.07 Θετική συσχέτιση μεταξύ τηλεόρασης και ραδιοφώνου. 79

Παράδοξο Simpson (2/3) Ραδιόφωνο Όχι ραδιόφωνο Τηλεόραση 1 9 10 Όχι Τηλεόραση 4 30 34 5 13 44 ανήλικοι Τηλεόραση => Ραδιόφωνο (εμπ = 1/10= 10%) Όχι Τηλεόραση => Ραδιόφωνο (εμπ = 4/34 = 11.8%) Ι(Τηλεόραση, Ραδιόφωνο) = 0.88 80

Παράδοξο Simpson (3/3) Ραδιόφωνο Όχι ραδιόφωνο Τηλεόραση 98 72 170 Όχι Τηλεόραση 50 36 86 148 108 156 ανήλικοι Τηλεόραση => Ραδιόφωνο (εμπ = 98/170= 57.7%) Όχι Τηλεόραση => Ραδιόφωνο (εμπ = 50/86 = 58.1%) Ι(Τηλεόραση, Ραδιόφωνο) = 0.60 81

Maximal συχνά στοιχειοσύνολα Ένα στοιχειοσύνολο είναι maximal συχνό αν κανένα από τα άμεσα υπερσύνολά του δεν είναι συχνό. Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων. Είναι το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα. Συχνά A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ΟΜΩΣ: Δεν προσφέρουν καμιά πληροφορία για την υποστήριξη των υποσυνόλων τους. Μη συχνά ABCD E 82

Κλειστά συχνά στοιχειοσύνολα Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό (δηλαδή, έχει μικρότερη υποστήριξη). Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και συχνό (δηλαδή, η υποστήριξη του είναι μεγαλύτερη ή ίση με minsup). Πάλι τα υποσύνολα τους μας δίνουν όλα τα συχνά υποσύνολα, τώρα όμως μπορούμε να υπολογίσουμε την υποστήριξη των υποσυνόλων τους. Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του. 83

Σημείωμα Αναφοράς Copyright, Αναστάσιος Γούναρης. «. Ενότητα 12. Κανόνες Συσχέτισης Μέρος B». Έκδοση: 1.0. Θεσσαλονίκη 2014. Διαθέσιμο από τη δικτυακή διεύθυνση:http://eclass.auth.gr/courses/ocrs182/

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο [1] http://creativecommons.org/licenses/by-nc-sa/4.0/

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Τέλος ενότητας Επεξεργασία: Ανδρέας Κοσματόπουλος Θεσσαλονίκη, Χειμερινό Εξάμηνο 2013-2014

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Σημειώματα

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.