Αποθήκες και Εξόρυξη Δεδομένων

Σχετικά έγγραφα
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Τεχνικές Εξόρυξης Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Κεφάλαιο 9. Εξαγωγή Κανόνων Συσχέτισης

Ευφυής Προγραμματισμός

Κανόνες συσχέτισης Association rules

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

Εξόρυξη Γνώσης - το εργαλείο WEKA

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Lecture Notes for Chapter 6. Introduction to Data Mining

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

Υπερπροσαρμογή (Overfitting) (1)

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα

Εισαγωγή στην επιστήμη των υπολογιστών

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Αποθήκες και Εξόρυξη Δεδομένων

ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Θέμα: «Market Basket Analysis» Στυλιανός Μητσοτάκης Α.Μ Επιβλέπων καθηγητής: Βασίλειος Ταμπακάς ΑΝΤΙΡΡΙΟ 2018

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Διάλεξη 04: Παραδείγματα Ανάλυσης

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ «ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ»

Ενότητα: Δυαδική Αναζήτηση Σχέδιο Δραστηριότητας: Παιχνίδι: Βρες τον αριθμό

Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort. Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

Κανόνες Συσχέτισης IIΙ

Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων

ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Κεφάλαιο 5: Στρατηγική χωροταξικής διάταξης

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Ανάλυση Συσχέτισης IΙ

2.1. Εντολές Σχόλια Τύποι Δεδομένων

2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Γ7.5 Αλγόριθμοι Αναζήτησης. Γ Λυκείου Κατεύθυνσης

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Ουρές Προτεραιότητας. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Ενότητες 3 & 4: Δένδρα, Σύνολα & Λεξικά Ασκήσεις και Λύσεις

Ενδεικτικές Ερωτήσεις Θεωρίας


Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

14Ιαν Νοε

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Τμήμα Οικιακής Οικονομίας και Οικολογίας. Αναπαράσταση Αριθμών

Σχέδια μαθημάτων για την δημιουργία συναρτήσεων υπολογισμού του ΜΚΔ και του ΕΚΠ στην MSWLogo

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Ο Αλγόριθμος FP-Growth

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

x 2,, x Ν τον οποίον το αποτέλεσμα επηρεάζεται από

ΠΕΡΙΛΗΨΗ. Η μελέτη αφορά την εξόρυξη κανόνων συσχέτισης από βάση δεδομένων με ασθενής με

Εισ. Στην ΠΛΗΡΟΦΟΡΙΚΗ. Διάλεξη 7 η. Βασίλης Στεφανής

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Σειρά Προβλημάτων 5 Λύσεις

Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Επαναληπτικές Διαδικασίες

ΑΡΧΗ 2ΗΣ ΣΕΛΙΔΑΣ Γ Α... Β

3 ο Εργαστήριο Μεταβλητές, Τελεστές

Αναγνώριση Προτύπων Ι

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Διαδικασιακός Προγραμματισμός

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 )

ΜΜΚ 105: Πειραματική και Στατιστική Ανάλυση Δημιουργία Πινάκων και Γραφικών Παραστάσεων στην Excel 18/09/14

Υπολογιστικά & Διακριτά Μαθηματικά

Δυναμικές Ιστοσελίδες Εισαγωγή στην Javascript για προγραμματισμό στην πλευρά του client

Περιεχόμενα. Μέρος 1: Βασικές έννοιες Πληροφορικής και επικοινωνιών Μέρος 2: Χρήση υπολογιστή και διαχείριση αρχείων Πρόλογος...

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

I. ΑΛΓΟΡΙΘΜΟΣ II. ΠΡΑΞΕΙΣ - ΣΥΝΑΡΤΗΣΕΙΣ III. ΕΠΑΝΑΛΗΨΕΙΣ. 1. Τα πιο συνηθισμένα σενάρια παραβίασης αλγοριθμικών κριτηρίων είναι:

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΕΠΑΛΗΘΕΥΣΗ (VERIFICATION) ΚΑΙ ΕΓΚΥΡΟΠΟΙΗΣΗ (VALIDATION) ΒΚ

Αποθήκες και Εξόρυξη Δεδομένων

Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων

Τμήμα Οικιακής Οικονομίας και Οικολογίας. Αναπαράσταση Αριθμών

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr

-2- Κανόνες Συσχέτισης (Association Rules) Εύρεση συσχετίσεων μεταξύ των διαφόρων χαρακτηριστικών των δεδομένων. Κανόνες συσχέτισης Έστω I ένα σύνολο από αντικείμενα (items) Ένας κανόνας συσχέτισης έχει τη μορφή X => Y όπου X,Y I και X Y = ø Το X ονομάζεται head (κεφαλή) ή LHS (left-hand side) ή antecedent (προηγούμενο) του κανόνα. Το Y ονομάζεται body (σώμα) ή RHS (right-hand side) ή consequent (επακόλουθο) του κανόνα. Ένας κανόνας σχετίζεται με διάφορα μέτρα ποιότητας όπως: H υποστήριξη (support) του κανόνα ορίζεται ως το ποσοστό των δοσοληψιών που περιέχουν τα αντικείμενα (X Y), δηλ. και το Χ και το Y. ή αλλιώς η πιθανότητα P(X Y) Η εμπιστοσύνη (confidence) του κανόνα ορίζει πόσες από τις δοσοληψίες (ποσοστό) που περιέχουν το X περιέχουν και το Υ. ή αλλιώς, η εξαρτημένη πιθανότητα P(X Y Χ) = P(X Y)/P(X). (Η Εμπιστοσύνη μετράει την Αξιοπιστία του Κανόνων Συσχέτισης)

-3- Διαφορές με τη μάθηση ταξινόμησης Οι Κανόνες Συσχέτισης: Μπορούν να αναδείξουν τη συσχέτιση είτε να προβλέψουν την τιμή οποιουδήποτε χαρακτηριστικού και όχι μόνο της τάξης. Συνδέουν πιθανόν περισσότερα από ένα χαρακτηριστικά κάθε φορά. Επομένως, προκύπτουν πολλοί περισσότεροι κανόνες συσχέτισης από ότι κανόνες ταξινόμησης. Πρόβλημα: αχανής αριθμός πιθανών συσχετίσεων. Απαιτείται η θέσπιση περιορισμών (κριτηρίων), ώστε να αναδειχθούν μόνο οι σημαντικότερες των προβλεπτικών συσχετίσεων μόνο εκείνες με υψηλή υποστήριξη (support) και υψηλή εμπιστοσύνη (confidence).

-4- Μορφή Κανόνων Συσχέτισης Έχουν μορφή: If temperature = cool then humidity = normal If windy = false and play = no then outlook = sunny and humidity = high Συσχετίζουν τις τιμές των διαφόρων attributes μεταξύ τους.

-5- WEKA Explorer: Finding Associations @weka->associate->assosiator Το WEKA περιέχει μεταξύ άλλων τον Apriori αλγόριθμο για την εύρεση κανόνων συσχέτισης. Δουλεύει μόνο με διακριτά δεδομένα (ΟΧΙ Αριθμητικά). Μπορεί να προσδιορίσει στατιστικές εξαρτήσεις μεταξύ των ομάδων των χαρακτηριστικών: Π.χ Γάλα, βούτυρο ψωμί, αυγά (με confidence 0.9 και support 0,5) Ο αλγόριθμος Apriori μπορεί να υπολογίσει όλους τους κανόνες που έχουν ένα δοθέν minimum support και υπερβαίνουν ένα δοθέν επίπεδο confidence.

-6- WEKA Explorer: Κανόνες Συσχέτισης Επιλογή Αλγορίθμου

-7- WEKA Explorer: Κανόνες Συσχέτισης Καθορισμός Παραμέτρων Αλγορίθμου

-8- WEKA Apriori: Παράμετροι car: εάν είναι true, εξάγονται οι κανόνες συσχέτισης κλάσης (Class Association Rules) αντί των (γενικών) κανόνων συσχέτισης, σύμφωνα με την τιμή του χαρακτηριστικού classindex που ακολουθεί. Εάν το classindex είναι -1, τότε η κλάση είναι το τελευταίο γνώρισμα. lowerboundminsupport: η ελάχιστη τιμή που μπορεί να πάρει το μέτρο της υποστήριξης (support) ενός κανόνα. metrictype: μετρικές που χρησιμοποιούνται για την αξιολόγηση του κανόνα. Confidence είναι το μόνο χρησιμοποιήσιμο αν το car=true Lift Lift(A,B) = c(a,b)/p(b) Leverage Leverage(A=>B) = P(A,B) / P(A)P(B) Conviction Conviction(A=>B) = P(A)P(not(B))/P(A,not(B)) minmetric: ελάχιστη τιμή για τo επιλεγμένο ακριβώς πιο πάνω χρησιμοποιούμενο μετρικό (Confidence, Lift, Leverage-Conviction). numrules: μέγιστος αριθμός των κανόνων που πρέπει να επιστραφεί. outputitemsets: αν είναι true, το σύστημα επιστρέφει τα συχνά στοιχειοσύνολα (itemsets). delta Συντελεστής μείωσης του ελάχιστου ορίου του μέτρου της υποστήριξης (support). upperboundminsupport σε σχέση με lowerboundminsupport. Οι επαναλήψεις σταματούν όταν φτάσετε στο κάτω όριο της υποστήριξης (support) ή όταν δημιουργηθεί ο απαιτούμενος αριθμός κανόνων.

-9- Αλγόριθμος Apriori (1/2) Εκτελεί τόσο αριθμό περασμάτων όσο (το πολύ) το πλήθος των διαφορετικών αντικειμένων. Ιδιότητα Τερματισμού Υποσυνόλου: Κάθε υποσύνολο ενός συχνού συνολοστοιχείου είναι επίσης συχνό. Σε κάθε διαδοχική προσπέλαση χρησιμοποιούνται τα (συχνά) συνολοστοιχεία του προηγούμενου περάσματος, με στόχο να δημιουργηθούν καινούργια συνολοστοιχεία.

-10- Αλγόριθμος Apriori (2/2) k = 1 Γενικός Αλγόριθμος Δημιούργησε όλα τα συχνά στοιχειοσύνολα μήκους 1 Repeat until δεν δημιουργούνται νέα στοιχειοσύνολα Δημιούργησε υποψήφια στοιχειοσύνολα μήκους (k+1) από τα συχνά στοιχειοσύνολα μήκους k Prune τα υποψήφια στοιχειοσύνολα που περιέχουν υποσύνολα μήκους k που δεν είναι συχνά Υπολόγισε την υποστήριξη (support) κάθε υποψηφίου στοιχειοσύνολου διαβάζοντας από τη βάση δεδομένων Σβήσε τα υποψήφια στοιχειοσύνολα που δεν είναι συχνά, αφήνοντας μόνο τα συχνά.

-11- Αλγόριθμος Apriori (3/3) Χωρισμός του προβλήματος σε δύο υποπροβλήματα: Εύρεση όλων των συχνών στοιχειοσυνόλων (Frequent Itemset Generation) Εύρεση όλων των στοιχειοσυνόλων με υποστήριξη minsup Δημιουργία Κανόνων (Rule Generation) Για κάθε στοιχειοσύνολο, δημιούργησε κανόνες με μεγάλη υποστήριξη, όπου κάθε κανόνας είναι μια δυαδική διαμέριση του συχνού στοιχειοσυνόλου.

-12- Παράδειγμα Apriori (1/4) Γενικά: Support: Αριθμός υποδειγμάτων που υποστηρίζει ο κανόνας. Confidence: Πόσες από τις προβλέψεις ήταν επιτυχείς. C i : Υποψήφια i-itemsets. L i : Σύνολο (συχνών) frequent i-itemsets. items: π.χ. 1, 2, 3 κτλ. itemsets: π.χ. {1, 2}, {3,4,5} κτλ. Frequent itemsets: support>=minsupport Κανόνες Συσχέτισης: confidence>=minconfidence

-13- Παράδειγμα Apriori (2/4) Database D TID Items 100 1 3 4 200 2 3 5 300 1 2 3 5 400 2 5 Scan D itemset sup. {1} 2 {2} 3 {3} 3 {4} 1 {5} 3 C 1 L 1 itemset sup {1 2} 1 {1 3} 2 {1 5} 1 {2 3} 2 {2 5} 3 {3 5} 2 C 2 C 2 L 2 itemset sup Scan D {1 3} 2 {2 3} 2 {2 5} 3 {3 5} 2 C 3 itemset Scan D L 3 {2 3 5} itemset sup {2 3 5} 2 itemset sup. {1} 2 {2} 3 {3} 3 {5} 3 itemset {1 2} {1 3} {1 5} {2 3} {2 5} {3 5}

-14- Παράδειγμα Apriori (3/4) Θέτω: minsupport =0,3. Database D TID Items 100 1 3 4 200 2 3 5 300 1 2 3 5 400 2 5 C 1 {1} => sup=2/4=0,5=50% {2} => sup=3/4=0,75=75% {3} => sup=3/4=0,75=75% {4} => sup=1/4=0,25=25% Απορρίπτεται {5} => sup=3/4=0,75=75% L 1 C 2 {1,2} => sup=1/4=0,25=25% Απορρίπτεται {1,3} => sup=2/4=0,50=50% {1,5} => sup=1/4=0,25=25% Απορρίπτεται {2,3} => sup=2/4=0,50=50% 0,25<0,3 0,25<0,3 {2,5} => sup=3/4=0,75=75% {3,5} => sup=2/4=0,50=50%

-15- Παράδειγμα Apriori (4/4) L 2 C 3 {2,3,5} => sup=2 /4=0,50=50% 0,5>0,3 L 3 Association Rules Θέτω: minconfidence=0,9 Ελέγχω τους πιθανούς συνδυασμούς από τα (L 1, L 2,) L 3, έτσι ώστε να παράγω κανόνες που το confidence τους δεν θα είναι μικρότερο από το minconfidence.

-16- Παράδειγμα Apriori στο Weka (1/2) Δημιουργήστε το κατάλληλο αρχείο.arff ή.csv που να εκφράζει το παραπάνω παράδειγμα, δηλ. να έχει ως δεδομένα τα: [1,3,4], [2,3,5], [1,2,3,5], [2,5]. 12345.csv TID Items 100 1 3 4 200 2 3 5 300 1 2 3 5 400 2 5 12345.arff

-17- Παράδειγμα Apriori στο Weka (2/2)

-18- Weka Associate: Άσκηση Apriori (1/8) Δίνεται Β.Δ. με 4 transactions. Ποιοί κανόνες συσχέτισης από αυτά μπορούν να παραχθούν όταν minimum support (coverage) είναι 60% και το minimum confidence (accuracy) είναι 80%; ΣΧΕΔΙΑΣΜΟΣ ΛΥΣΗΣ. Πίνακας Δυαδικής αναπαράστασης δεδομένων:

-19- Weka Associate: Άσκηση Apriori (2/8) ΛΥΣΗ: ΒΗΜΑ 1 Εύρεση των itemsets. Ξεκινάμε βρίσκοντας τα itemsets που περιέχουν 1 item. Ο αριθμός εμφάνισής τους και η τιμή της υποστήριξης (support) για κάθε itemset εμφανίζονται μετά από το κάθε itemset. Για να έχουμε minimum support 60%, το κάθε item πρέπει να εμφανίζεται τουλάχιστον σε 3 transactions. ΛΥΣΗ: ΒΗΜΑ 2 Εύρεση των itemsets που περιέχουν 2 items. Επιλέγουμε τα item sets από το προηγούμενο βήμα που το support είναι 60% ή περισσότερο.

-20- Weka Associate: Άσκηση Apriori (3/8) ΛΥΣΗ: ΒΗΜΑ 2 (συνέχεια) ΛΥΣΗ: ΒΗΜΑ 3 Εύρεση των itemsets που περιέχουν 3 items. Επιλέγουμε τα item sets από το προηγούμενο βήμα που το support είναι 60% ή περισσότερο. ΛΥΣΗ: ΒΗΜΑ 4 Σχεδιάζουμε τους κανόνες και υπολογίζουμε το confidence (c) τους. Επιλέγουμε τα item sets από το προηγούμενο βήμα που το support είναι 60% ή περισσότερο.

-21- Weka Associate: Άσκηση Apriori (4/8) ΛΥΣΗ: ΒΗΜΑ 4 (συνέχεια) Αρχικοί Κανόνες: Κανόνες: Τελικοί Οι κανόνες με 75% confidence απορρίπτονται, 75%<80%

-22- Weka Associate: Άσκηση Apriori (5/8) ΛΥΣΗ WEKA: Βγαίνουν τα ίδια αποτελέσματα και οι ίδιοι κανόνες στο Weka, με αυτά που υπολογίσαμε πριν, χειρονακτικά; Δημιουργία.arff ή.cvs αρχείου και φόρτωσή του στο Weka.

-23- Weka Associate: Άσκηση Apriori (6/8)

-24- Weka Associate: Άσκηση Apriori (7/8) Επιλέγονται μόνο όσα είναι True. ΣΥΜΠΕΡΑΣΜΑ: Τελικά, παράγονται στο weka τα ίδια αποτελέσματα, τα ίδια itemsets και οι ίδιοι κανόνες με αυτούς που υπολογίσαμε χειρονακτικά, σε προηγούμενες διαφάνειες.

-25- Weka Associate: Άσκηση Apriori (8/8) Εκτός από τα support, confidence υπάρχουν και άλλα μέτρα που μπορούν να περιγράψουν τους κανόνες συσχέτισης που παρήχθησαν: Υπολογίστε τις παραμέτρους lift, leverage and conviction για τους κανόνες που παρήχθησαν. Lift(A,B) = c(a,b)/p(b) Leverage(A=>B) = P(A,B) / P(A)P(B) Conviction(A=>B) = P(A)P(negation(B))/P(A, negation(b)) Υπολογισμοί για κάθε Κανόνα To Leverage παίρνει τις τιμές στο διάστημα [-1, 1]. Οι τιμές κάτω από το 0 δείχνουν ισχυρή ανεξαρτησία LHS, και RHS. Lift->1, τα RHS, LHS είναι ανεξάρτητα. Lift ->0, o κανόνας δεν είναι σημαντικός. Lift ->, ενδεχομένως ο κανόνας είναι ενδιαφέρων. Conviction =1 -> A,B δεν σχετίζονται, αν ισχύουν.

-26- WEKA Association Rules: Παράδειγμα 1 Επιλέξτε και φορτώστε το αρχείο weather.nominal.arff. Επιλέξτε και τρέξτε τον Apriori αλγόριθμο. Πειραματιστείτε με τις παραμέτρους του αλγορίθμου. Αποθηκεύστε τα αποτελέσματα. Δοκιμάστε άλλους αλγόριθμους κανόνων συσχέτισης. Δοκιμάστε να τρέξετε τον αλγόριθμο με άλλα datasets.

-27- WEKA Association Rules: Apriori Εκτέλεση Αλγορίθμου για το weather.nominal.arff. Όπως φαίνεται, δεν υπάρχουν αριθμητικές τιμές για να κάνουμε προεπεξεργασία. Properties

-28- Δείγμα Εκτέλεσης του Αλγορίθμου

-29- Ερμηνεία Αποτελεσμάτων Εκτέλεσης Αλγορίθμου (1/2) Default Values: Number of Rules => 10 Minimum Support (delta factor) => 0.05 Minimum Confidence => 0.9 Rule Support: Η αναλογία των παραδειγμάτων που καλύπτονται από την αριστερή (LHS) και από τη δεξιά (RHS) πλευρά του κανόνα. Confidence: Η αναλογία των παραδειγμάτων που καλύπτονται από την αριστερή (LHS), ενώ επιπλέον έχουν καλυφθεί από τη δεξιά (RHS) πλευρά του κανόνα. Με τα default settings του Apriori: Δημιουργούνται 10 Κανόνες ξεκινώντας με Minimum Support 100% (upperboundminsupport). Επαναληπτικά μειώνεται το Support με το delta factor μέχρι να φτάσει το ελάχιστο μημηδενικό Support (lowerboundminsupport) ή να δημιουργηθεί ο απαιτούμενος αριθμός των κανόνων με το ελάχιστο Confidence.

-30- Ερμηνεία Αποτελεσμάτων Εκτέλεσης Αλγορίθμου (2/2) ΕΞΟΔΟΣ WEKA: Minimum support: 0.15 Δείχνει την ελάχιστη υποστήριξη (Support) που μπορεί να φτάσει ένα itemset για να δημιουργηθούν 10 Κανόνες με την ελάχιστή τιμή που έχει οριστεί για το μέτρο εμπιστοσύνης (Confidence), στο παράδειγμά μας έχει πάρει την τιμή 0.9. Τα μεγέθη των itemsets που δημιουργούνται εμφανίζονται: Π.Χ. Υπάρχουν 6 four item sets που έχουν το απαιτούμενο minimum Support (L(4):6). Υπάρχουν 39 three item sets που έχουν το απαιτούμενο minimum Support (L(3):39). Εξ ορισμού: Οι Κανόνες ταξινομούνται και εμφανίζονται στην έξοδο του Weka σύμφωνα με την τιμή που παίρνει το μέτρο της εμπιστοσύνης (Confidence), και σε περίπτωση ίδιας τιμής της εμπιστοσύνης, ξεχωρίζονται οι κανόνες με βάση την τιμή της υποστήριξης (support). Best rules found: Ο αριθμός που προηγείται του συμβόλου ==>, υποδεικνύει τον αριθμό των περιπτώσεων που καλύπτουν το αριστερό κριτήριο (LHS) του κανόνα. Ο αριθμός που έπεται του συμβόλου ==> και του κανόνα, υποδεικνύει τον αριθμό των περιπτώσεων που καλύπτουν το δεξιό κριτήριο (RHS) του κανόνα. Η τιμή στην παρένθεση είναι η τιμή της εμπιστοσύνης του κανόνα (Rule Confidence).

-31- WEKA Association Rules: Αποθήκευση Κανόνων

-32- WEKA Association Rules: Παράδειγμα 2 Επιλέξτε και φορτώστε το αρχείο bank.arff. Επιλέξτε και τρεξτε τον Apriori αλγόριθμο. Πειραματιστείτε με τις παραμέτρους του αλγορίθμου. Αποθηκεύστε τα αποτελέσματα. Δοκιμάστε άλλους αλγόριθμους κανόνων συσχέτισης. Δοκιμάστε να τρέξετε τον αλγόριθμο με άλλα datasets.

-33- WEKA Association Rules: Εισαγωγή Αρχείου Είναι το αρχείο σε κατάλληλη μορφή, για να δουλέψει σωστά ο αλγόριθμός Apriori;

-34- WEKA Association Rules: Associate Γιατί δεν είναι ενεργό; --Χρειάζεται Προ-επεξεργασία!!!

-35- WEKA Association Rules: Preprocess I 1 ος Τρόπος: Apriori => Μόνο Nominal τιμές. Επιστρέφω στην καρτέλα Preprocess => Κάνω Discritize (για να μετατρέψω τις αριθμητικές τιμές σε ονομαστικές διακριτές τιμές.)

-36- WEKA Association Rules: Παραγωγή Κανόνων μετά από Descritize (1/2) Θέτω αριθμό Κανόνων 10, και βαθμό Εμπιστοσύνης 0.9 Ταξινομημένοι Κανόνες σε φθίνουσα σειρά, μέχρι το επιτρεπτό 0.9.

-37- WEKA Association Rules: Παραγωγή Κανόνων μετά από Descritize (2/2) Αλλάζω τον αριθμό των Κανόνων σε 15, αντί 10. Μου λείπει ένας Κανόνας. Γιατί ;;; Ταξινομημένοι Κανόνες σε φθίνουσα σειρά, μέχρι το επιτρεπτό 0.9.

-38- WEKA Association Rules: Preprocess II 2 ος Τρόπος: Apriori => Μόνο Nominal τιμές. Επιστρέφω στην καρτέλα Preprocess => Κάνω Remove (για να αφαιρέσω τα attributes με τις αριθμητικές τιμές.)

-39- WEKA Association Rules: Παραγωγή Κανόνων μετά από Remove Attr.

-40- WEKA Association Rules: Παράδειγμα 3 Ένα επιπλέον παράδειγμα για να πειραματιστείτε μόνοι σας: Επιλέξτε και φορτώστε το αρχείο market_basket.arff. Επιλέξτε και τρέξτε τον Apriori αλγόριθμο, με minsupport=0.05, minmetric=0.7, metrictype=confidence. Βρείτε ενδιαφέροντες κανόνες που εξηγούν τη συμπεριφορά των καταναλωτών. Πειραματιστείτε με τις παραμέτρους του αλγορίθμου. Αποθηκεύστε τα αποτελέσματα. Δοκιμάστε άλλους αλγόριθμους κανόνων συσχέτισης. Δοκιμάστε να τρέξετε τον αλγόριθμο με άλλα datasets.