Δμόξπμε Γεδνκέλσλ. Καλόλεο Σπζρέηηζεο: Βαζηθέο Έλλνηεο θαη Αιγόξηζκνη

Σχετικά έγγραφα
Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Κανόνες Συσχέτισης IIΙ

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Lecture Notes for Chapter 6. Introduction to Data Mining

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Κανόνες Συσχέτισης IΙ

B-Δέλδξα. Τα B-δέλδξα ρξεζηκνπνηνύληαη γηα ηε αλαπαξάζηαζε πνιύ κεγάισλ ιεμηθώλ πνπ είλαη απνζεθεπκέλα ζην δίζθν.

Ανάλυση Συσχέτισης IΙ

ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ. Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη Εήηημα 1 ο :

Ενδεικτικά Θέματα Στατιστικής ΙΙ

ΔΕΟ 13. Ποσοτικές Μέθοδοι. θαη λα ππνινγίζεηε ην θόζηνο γηα παξαγόκελα πξντόληα. Να ζρεδηαζηεί γηα εύξνο πξντόλησλ έσο

H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ

Αζκήζεις ζτ.βιβλίοσ ζελίδας 13 14

Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν

Γοκή επαλάιευες Δληοιές Όζο & Μέτρης_όηοσ

Ο Αλγόριθμος FP-Growth

Έλαο πίνακας σσμβόλων ππνζηεξίδεη δύν βαζηθέο ιεηηνπξγίεο:

ΗΥ-150 Πξνγξακκατησκόο Ταμηλόκεσε θαη Αλαδήτεσε

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΘΔΜΑ 1 ο Μονάδες 5,10,10

Απαντήσεις θέματος 2. Παξαθάησ αθνινπζεί αλαιπηηθή επίιπζε ησλ εξσηεκάησλ.

Επωηήζειρ Σωζηού Λάθοςρ ηων πανελλαδικών εξεηάζεων Σςναπηήζειρ

Σήκαηα Β Α Γ Γ Δ Λ Η Σ Ο Ι Κ Ο Ν Ο Μ Ο Υ Γ Ι Α Λ Δ Ξ Η - ( 2 ) ΕΙΣΑΓΨΓΗ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΨΝΙΕΣ

ΔΝΓΔΙΚΣΙΚΔ ΛΤΔΙ ΣΑ ΜΑΘΗΜΑΣΙΚΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ 2017

ΑΛΛΑΓΗ ΟΝΟΜΑΣΟ ΚΑΙ ΟΜΑΔΑ ΕΡΓΑΙΑ, ΚΟΙΝΟΥΡΗΣΟΙ ΦΑΚΕΛΟΙ ΚΑΙ ΕΚΣΤΠΩΣΕ ΣΑ WINDOWS XP

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γευηέρα 11 Ηουνίου 2018 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

ΠΑΡΑΡΣΗΜΑ Δ. ΔΤΡΔΗ ΣΟΤ ΜΔΣΑΥΗΜΑΣΙΜΟΤ FOURIER ΓΙΑΦΟΡΩΝ ΗΜΑΣΩΝ

Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική ΑΔ

Άμεσοι Αλγόριθμοι: Προσπέλαση Λίστας (list access)

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ

Απνζήθεο Γεδνκέλσλ θαη Δμόξπμε Γεδνκέλσλ:

f '(x)g(x)h(x) g'(x)f (x)h(x) h'(x) f (x)g(x)

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γεσηέρα 10 Ηοσνίοσ 2019 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

Κβαντικοί Υπολογισμοί. Πέκπηε Γηάιεμε

(Ενδεικηικές Απανηήζεις) ΘΔΜΑ Α. Α1. Βιέπε απόδεημε Σει. 262, ζρνιηθνύ βηβιίνπ. Α2. Βιέπε νξηζκό Σει. 141, ζρνιηθνύ βηβιίνπ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΤΙΚΗ ΣΚΥΤΑΛΟΓΡΟΜΙΑ 2015 ΓΙΑ ΤΟ ΓΥΜΝΑΣΙΟ Τεηάπηη 28 Ιανουαπίου 2015 ΛΔΥΚΩΣΙΑ Τάξη: Α Γυμναζίου

Κεθάλαιο 7. Πξνζθνξά ηνπ θιάδνπ Μ. ΨΥΛΛΑΚΗ

ΔΙΑΓΩΝΙΣΜΑ ΣΤΗ ΦΥΣΙΚΗ. Ύλη: Εσθύγραμμη Κίνηζη

ΔΦΑΡΜΟΜΔΝΑ ΜΑΘΗΜΑΣΙΚΑ ΣΗ ΧΗΜΔΙΑ Ι ΘΔΜΑΣΑ Α επηέκβξηνο Να ππνινγηζηνύλ νη κεξηθέο παξάγσγνη πξώηεο ηάμεο ηεο ζπλάξηεζεο f(x,y) =

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙ ΜΟ

ΑΠΑΝΤΗΣΔΙΣ ΓΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ II ΔΠΑΛ

Αντισταθμιστική ανάλυση

Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πολυεπίπεδα/Διασυμδεδεμέμα Δίκτυα

Α. Εηζαγσγή ηεο έλλνηαο ηεο ηξηγσλνκεηξηθήο εμίζσζεο κε αξρηθό παξάδεηγκα ηελ εκx = 2

ΠΛΗ36. Άσκηση 1. Άσκηση 2. Οη δηεπζύλζεηο ησλ 4 σλ ππνδηθηύσλ είλαη νη αθόινπζεο. Υπνδίθηπν Α: /27 Υπνδίθηπν Β:

Κεθάιαην 20. Ελαχιστοποίηση του κόστους

(γ) Να βξεζεί ε ρξνλνεμαξηώκελε πηζαλόηεηα κέηξεζεο ηεο ζεηηθήο ηδηνηηκήο ηνπ ηειεζηή W.

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη

Constructors and Destructors in C++

Δυναμικοί πίνακες. Πνιιέο δνκέο δεδνκέλσλ πινπνηνύληαη κε ρξήζε πηλάθσλ. π.ρ. Σηνίβεο. α β γ δ. tail. head % N. Οπξέο Ν-1. θάησ όξην.

Γ ΣΑΞΖ ΔΝΗΑΗΟΤ ΛΤΚΔΗΟΤ ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΘΔΣΗΚΩΝ ΚΑΗ ΟΗΚΟΝΟΜΗΚΩΝ ΠΟΤΓΩΝ ΤΝΑΡΣΖΔΗ ΟΡΗΑ ΤΝΔΥΔΗΑ (έως Θ.Bolzano) ΘΔΜΑ Α

ΑΝΤΗΛΙΑΚΑ. Η Μηκή ζθέθηεθε έλαλ ηξόπν, γηα λα ζπγθξίλεη κεξηθά δηαθνξεηηθά αληειηαθά πξντόληα. Απηή θαη ν Νηίλνο ζπλέιεμαλ ηα αθόινπζα πιηθά:

ΑΠΛΟΠΟΙΗΗ ΛΟΓΙΚΩΝ ΤΝΑΡΣΗΕΩΝ ΜΕ ΠΙΝΑΚΕ KARNAUGH

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙΜΟ Α ΛΤΚΔΙΟΤ. Ημεπομηνία: 10/12/11 Ώπα εξέτασηρ: 09:30-12:30 ΠΡΟΣΔΙΝΟΜΔΝΔ ΛΤΔΙ

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΣΥΝΔΥΑΣΤΙΚΑ ΚΥΚΛΩΜΑΤΑ

Δξγαζηεξηαθή άζθεζε 03. Σηεξενγξαθηθή πξνβνιή ζην δίθηπν Wulf

ΚΕΦ. 2.3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ

Μνλνδηάζηαηνη Πίλαθεο Λπκέλεο Αζθήζεηο. Άζθεζε 1. Πνηά ζα είλαη ηα πεξηερόκελα ηνπ πίλαθα Α κεηά ηελ εθηέιεζε ηνπ παξαθάησ αιγνξίζκνπ;

Η/Υ A ΤΑΞΕΩΣ ΑΕ Συστήματα Αρίθμησης. Υποπλοίαρχος Ν. Πετράκος ΠΝ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

ΟΠΤΙΚΗ Α. ΑΝΑΚΛΑΣΖ - ΓΗΑΘΛΑΣΖ

x-1 x (x-1) x 5x 2. Να απινπνηεζνύλ ηα θιάζκαηα, έηζη ώζηε λα κελ ππάξρνπλ ξηδηθά ζηνπο 22, 55, 15, 42, 93, 10 5, 12

α) ηε κεηαηόπηζε x όηαλ ην ζώκα έρεη κέγηζην ξπζκό κεηαβνιήο ζέζεο δ) ην κέγηζην ξπζκό κεηαβνιήο ηεο ηαρύηεηαο

Σύλζετα Δίθτπα. com+plex: with+ -fold (having parts) Διδάζκων Δημήηριος Καηζαρός

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Q Η ζσνάρηηζη μέζοσ κόζηοσς μας δίνει ηο κόζηος ανά μονάδα παραγωγής. Q Η ζσνάρηηζη μέζοσ κόζηοσς μας δίνει ηο ζηαθερό κόζηος ανά μονάδα παραγωγής

Αζθήζεηο 5 νπ θεθαιαίνπ Crash course Step by step training. Dipl.Biol.cand.med. Stylianos Kalaitzis

Δπηιέγνληαο ην «Πξνεπηινγή» θάζε θνξά πνπ ζα ζπλδέεζηε ζηελ εθαξκνγή ζα βξίζθεζηε ζηε λέα ρξήζε.

Αιγόξηζκνη Γνκή επηινγήο. Πνιιαπιή Δπηινγή Δκθωιεπκέλεο Δπηινγέο. Δηζαγωγή ζηηο Αξρέο ηεο Δπηζηήκεο ηωλ Η/Υ. introcsprinciples.wordpress.

x x x x tan(2 x) x 2 2x x 1

Παιχνίδι γλωζζικής καηανόηζης με ζχήμαηα!

Φςζική Πποζαναηολιζμού Γ Λςκείος. Αζκήζειρ Ταλανηώζειρ 1 ο Φςλλάδιο

ΔΝΓΔΙΚΤΙΚΔΣ ΛΥΣΔΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΔΥΘΥΝΣΗΣ Γ ΛΥΚΔΙΟΥ ΓΔΥΤΔΡΑ 27 ΜΑΪΟΥ 2013

ΘΔΚΑ ΡΖΠ ΑΛΑΓΛΩΟΗΠΖΠ

Μονοψϊνιο. Αγνξά κε ιίγνπο αγνξαζηέο. Δύναμη μονοψωνίος Η ηθαλόηεηα πνπ έρεη ν αγνξαζηήο λα επεξεάζεη ηελ ηηκή ηνπ αγαζνύ.

TOOLBOOK (μάθημα 2) Δεκηνπξγία βηβιίνπ θαη ζειίδσλ ΠΡΟΑΡΜΟΓΗ: ΒΑΛΚΑΝΙΩΣΗ ΔΗΜ. ΕΚΠΑΙΔΕΤΣΙΚΟ ΠΕ19 1 TOOLBOOK ΜΑΘΗΜΑ 2

Δξγαιεία Καηαζθεπέο 1 Σάμε Σ Δ.Κ.Φ.Δ. ΥΑΝΙΧΝ ΠΡΧΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ. ΔΝΟΣΗΣΑ 11 ε : ΦΧ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Φαθόο κε ζσιήλα.

ΓΗΜΟΙΑ ΟΙΚΟΝΟΜΙΚΗ ΣΟΜΟ Γ

ΓΙΑΙΡΔΣΟΣΗΣΑ. Οπιζμόρ 1: Έζηω d,n. Λέκε όηη ν d δηαηξεί ηνλ n (ζπκβνιηζκόο: dn) αλ. ππάξρεη c ηέηνην ώζηε n. Θεώπημα 2: Γηα d,n,m,α,b ηζρύνπλ:

DOM. Γηδάζθνληεο: Π. Αγγειάηνο, Γ. Εήλδξνο Δπηκέιεηα δηαθαλεηώλ: Π. Αγγειάηνο. Σρνιή Ζιεθηξνιόγωλ Μεραληθώλ θαη Μεραληθώλ Υπνινγηζηώλ

ΜΑΘΗΜΑΣΑ ΦΩΣΟΓΡΑΦΙΑ. Εισαγωγή στη Φωτογραυία. Χριζηάκης Σαζεΐδης - EFIAP

Άσκηση 1 - Μοπυοποίηση Κειμένου

ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ: έζησ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Αιγνξηζκηθή Δπηζηήκε Γεδνκέλσλ

ΚΔΦ. 2.4 ΡΗΕΔ ΠΡΑΓΜΑΣΗΚΩΝ ΑΡΗΘΜΩΝ

ΓΔΧΜΔΣΡΙΑ ΓΙΑ ΟΛΤΜΠΙΑΓΔ

ΡΤΘΜΙΕΙ ΔΙΚΣΤΟΤ ΣΑ WINDOWS

ΦΥΣΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ. G. Mitsou

ΕΞΙΣΩΣΕΙΣ. Α. Πρωτοβάθμιεσ Εξιςώςεισ. Β. Διερεφνηςη Εξιςώςεων. 1x είναι αδφνατθ. x 1 x 1. Άλγεβρα Α Λυκείου

Σύνθεζη ηαλανηώζεων. Έζησ έλα ζώκα πνπ εθηειεί ηαπηόρξνλα δύν αξκνληθέο ηαιαληώζεηο ηεο ίδηαο ζπρλόηεηαο πνπ πεξηγξάθνληαη από ηηο παξαθάησ εμηζώζεηο:

ΜΑΘΗΜΑΤΙΚΑ ΘΔΤΙΚΗΣ ΚΑΙ ΤΔΦΝΟΛΟΓΙΚΗΣ ΚΑΤΔΥΘΥΝΣΗΣ Β ΛΥΚΔΙΟΥ ΤΔΣΤ(1) ΣΤΑ ΓΙΑΝΥΣΜΑΤΑ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ ΚΑΗ ΔΠΑΛ ΣΔΣΑΡΣΖ 25 ΜΑΨΟΤ 2016 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΑΡΥΔ ΟΗΚΟΝΟΜΗΚΖ ΘΔΧΡΗΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ - ΔΠΗΛΟΓΖ

ΛΙΜΝΗ ΤΣΑΝΤ. Σρήκα 1. Σρήκα 2

Η επιζκόπηζη ηης έμμιζθης ενηολής ζηην Αλλοδαπή. Καηεξίλα Γαιαλνπνύινπ, Intellectual Property Manager, Microsoft Ειιάο Α.Ε.

Transcript:

Δμόξπμε Γεδνκέλσλ Καλόλεο Σπζρέηηζεο: Βαζηθέο Έλλνηεο θαη Αιγόξηζκνη (Σημειώσεις μεταυρασμένες από το Κευάλαιο 6 τοσ βιβλίοσ των Tan, Steinbach, Kumar) Καλόλεο Σπζρέηηζεο

Δμόξπμε Καλόλσλ Σπζρέηηζεο Γεδνκέλνπ ελόο ζπλόινπ εγγξαθώλ/ζπλαιιαγώλ, ζηόρνο είλαη ν εληνπηζκόο θαλόλσλ νη νπνίνη λα πξνβιέπνπλ ηελ παξνπζία ελόο αληηθεηκέλνπ/ζηνηρείνπ κε βάζε ηελ παξνπζία άιισλ αληηθεηκέλσλ/ζηνηρείσλ ζηελ ζπλαιιαγή Σπλαιιαγέο ζε θαιάζη αγνξώλ TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Παξαδείγκαηα Καλόλσλ Σπζρέηηζεο: {Diaper} {Beer}, {Milk, Bread} {Eggs,Coke}, {Beer, Bread} {Milk}, Οη θαλόλεο εθθξάδνπλ ζπλύπαξμε θαη όρη αηηηόηεηα! Καλόλεο Σπζρέηηζεο 2

Οξηζκόο ηνπ Σπρλνύ Σηνηρεηνζπλόινπ Σηνηρεηνζύλνιν (Itemset) Μία ζπιινγή από έλα ή πεξηζζόηεξα ζηνηρεία/αληηθείκελα Παξάδεηγκα: {Milk, Bread, Diaper} TID k-ζηνηρεηνζύλνιν Έλα ζηνηρεηνζύλνιν πνπ πεξηέρεη k ζηνηρεία/αληηθείκελα Support Count () Σπρλόηεηα εκθάληζεο ελόο ζηνηρεηνζπλόινπ π.ρ. ({Milk, Bread,Diaper}) = 2 Support (s) Τν θιάζκα/πνζνζηό ησλ ζπλαιιαγώλ πνπ πεξηέρνπλ έλα ζηνηρεηνζύλνιν π.ρ. s({milk,bread,diaper})=2/5=0.4=40% Σπρλό Σηνηρεηνζύλνιν Έλα ζηνηρεηνζύλνιν ηνπ νπνίνπ ην support είλαη κεγαιύηεξν ή ίζν από έλα πξνθαζνξηζκέλν όξην minsup Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Καλόλεο Σπζρέηηζεο 3

Οξηζκόο Καλόλσλ Σπζρέηηζεο Καλόλαο Σπζρέηηζεο Δίλαη κία ζπλεπαγσγή ηεο κνξθήο: X Y, όπνπ X θαη Y ζηνηρεηνζύλνια Παξάδεηγκα: {Milk, Diaper} {Beer} Μεηξηθέο Αμηνιόγεζεο ηνπ Καλόλα Support (s) Δίλαη ην θιάζκα ησλ ζπλαιιαγώλ πνπ πεξηιακβάλνπλ ηαπηόρξνλα θαη ην X θαη ην Y Confidence (c) Μεηξά πόζν ζπρλά ηα αληηθείκελα πνπ βξίζθνληαη ζην Y εκθαλίδνληαη ζε ζπλαιιαγέο πνπ πεξηέρνπλ ην X TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Παράδειγμα: { Milk, Diaper} Beer (Milk, Diaper, Beer) s T (Milk, Diaper, Beer) c (Milk, Diaper) 2 3 2 5 0.4 0.67 Καλόλεο Σπζρέηηζεο 4

Σηόρνο Δμόξπμεο Καλόλσλ Σπζρέηηζεο Γεδνκέλνπ ελόο ζπλόινπ ζπλαιιαγώλ T, ν ζηόρνο ηεο εμόξπμεο θαλόλσλ ζπζρέηηζεο είλαη λα βξεζνύλ όινη νη θαλόλεο πνπ έρνπλ support minsup (θαζνξηζκέλν όξην) confidence minconf (θαζνξηζκέλν όξην) Πξνζέγγηζε brute-force: Καηαγξαθή όισλ ησλ πηζαλώλ θαλόλσλ ζπζρέηηζεο Υπνινγηζκόο ησλ support θαη confidence ζε θάζε θαλόλα Απνθνπή ησλ θαλόλσλ πνπ απνηπγράλνπλ ζηνλ έιεγρν ησλ νξίσλ minsup θαη minconf Υπνινγηζηηθά απαγνξεπηηθή! Καλόλεο Σπζρέηηζεο 5

Δμόξπμε Καλόλσλ Σπζρέηηζεο TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Παξαδείγκαηα Καλόλσλ: {Milk,Diaper} {Beer} (s=0.4, c=0.67) {Milk,Beer} {Diaper} (s=0.4, c=.0) {Diaper,Beer} {Milk} (s=0.4, c=0.67) {Beer} {Milk,Diaper} (s=0.4, c=0.67) {Diaper} {Milk,Beer} (s=0.4, c=0.5) {Milk} {Diaper,Beer} (s=0.4, c=0.5) Παξαηεξήζεηο: Όινη νη παξαπάλσ θαλόλεο είλαη δπαδηθέο δηακεξίζεηο ηνπ ηδίνπ ζηνηρεηνζπλόινπ: {Milk, Diaper, Beer} Οη θαλόλεο πνπ πξνέξρνληαη από ην ίδην ζηνηρεηνζύλνιν έρνπλ ην ίδην support αιιά κπνξεί λα έρνπλ δηαθνξεηηθό confidence Σπλεπώο κπνξνύκε λα απνζπλδέζνπκε ηηο απαηηήζεηο γηα ην support θαη ην confidence Καλόλεο Σπζρέηηζεο 6

Δμόξπμε Καλόλσλ Σπζρέηηζεο Η πξνζέγγηζε ησλ δύν-βεκάησλ:. Παξαγσγή Σπρλώλ Σηνηρεηνζπλόισλ Παξάγνληαη όια ηα ζηνηρεηνζύλνια πνπ έρνπλ support minsup 2. Παξαγσγή Καλόλσλ Παξάγνληαη όινη νη θαλόλεο πνπ έρνπλ πςειό confidence από θάζε έλα ζπρλό ζηνηρεηνζύλνιν, όπνπ θάζε θαλόλαο είλαη θαη έλαο δπαδηθόο δηαρσξηζκόο ελόο ζπρλνύ ζηνηρεηνζπλόινπ Η παξαγσγή ησλ ζπρλώλ ζηνηρεηνζπλόισλ εμαθνινπζεί όκσο λα είλαη ππνινγηζηηθά αθξηβή Καλόλεο Σπζρέηηζεο 7

Παξαγσγή Σπρλώλ Σηνηρεηνζπλόισλ null A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ABCDE Με δεδνκέλα d ζηνηρεία, ππάξρνπλ 2 d πηζαλά ππνςήθηα ζηνηρεηνζύλνια Καλόλεο Σπζρέηηζεο 8

Παξαγσγή Σπρλώλ Σηνηρεηνζπλόισλ Πξνζέγγηζε brute-force: Κάζε ζηνηρεηνζύλνιν ζην πιέγκα είλαη θαη έλα ππνςήθην ζπρλό ζηνηρεηνζύλνιν Υπνινγίδεηαη ην support θάζε ππνςεθίνπ ζαξώλνληαο ηελ βάζε δεδνκέλσλ N Transactions TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke List of Candidates w Διέγρεηαη αλ ηαηξηάδεη θάζε ζπλαιιαγή κε θάζε ππνςήθην Πνιππινθόηεηα ~ O(NMw) => Αθξηβή αθνύ M = 2 d!!! M Καλόλεο Σπζρέηηζεο 9

Καλόλεο Σπζρέηηζεο 0 Υπνινγηζηηθή Πνιππινθόηεηα Με δεδνκέλα d δηαθνξεηηθά ζηνηρεία: Σπλνιηθό πιήζνο ζηνηρεηνζπλόισλ = 2 d Σπλνιηθό πιήζνο πηζαλώλ θαλόλσλ ζπζρέηηζεο: 2 3 d d d k k d j j k d k d R Αλ d=6, R = 602 θαλόλεο

Σηξαηεγηθέο Παξαγσγήο Σπρλώλ Σηνηρεηνζπλόισλ Μείσζε ηνπ πιήζνπο ησλ ππνςεθίσλ (M) Πιήξεο αλάπηπμε: M=2 d Φξήζε ηερληθώλ απνθνπήο γηα λα κεησζεί ην M Μείσζε ηνπ πιήζνπο ησλ ζπλαιιαγώλ (N) Μείσζε ηνπ N θαζώο ην κέγεζνο ησλ ζηνηρεηνζπλόισλ απμάλεηαη Φξεζηκνπνηείηαη ζηελ κέζνδν DHP θαη ζε verticalbased mining αιγνξίζκνπο Μείσζε ηνπ πιήζνπο ησλ ζπγθξίζεσλ (NM) Φξεζηκνπνηνύληαη απνδνηηθέο δνκέο δεδνκέλσλ γηα λα απνζεθεύνληαη ηα ππνςήθηα ζηνηρεηνζύλνια ή νη ζπλαιιαγέο Γελ απαηηείηαη λα ηαηξηάδεη θάζε ππνςήθην ζηνηρεηνζύλνιν κε θάζε ζπλαιιαγή Καλόλεο Σπζρέηηζεο

Μείσζε ηνπ πιήζνπο ησλ Υπνςεθίσλ Καλόλαο Apriori: Αλ έλα ζηνηρεηνζύλνιν είλαη ζπρλό, ηόηε θαη όια ηνπ ηα ππνζύλνια πξέπεη επίζεο λα είλαη ζπρλά Ιζνδύλακα (κε αληηζεηναληηζηξνθή): αλ έλα ζηνηρεηνζύλνιν δελ είλαη ζπρλό, ηόηε θαη θάζε ππεξζύλνιό ηνπ δελ ζα είλαη ζπρλό Ο θαλόλαο Apriori ηζρύεη εμαηηίαο ηεο αθόινπζεο ηδηόηεηαο ηνπ support: X, Y : ( X Y ) s( X ) s( Y ) Τν support ελόο ζηνηρεηνζπλόινπ πνηέ δελ ππεξβαίλεη ην support ησλ ππνζπλόισλ ηνπ Η ηδηόηεηα απηή είλαη γλσζηή σο αληηκνλόηνλε ηδηόηεηα ηνπ support Καλόλεο Σπζρέηηζεο 2

Απεηθνλίδνληαο ηνλ Καλόλα Apriori null A B C D E AB AC AD AE BC BD BE CD CE DE Βξέζεθε όηη δελ είλαη ζπρλό ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE Υπεξζύλνια πνπ απνθόπηνληαη ABCDE Καλόλεο Σπζρέηηζεο 3

Απεηθνλίδνληαο ηνλ Καλόλα Apriori Item Count Bread 4 Coke 2 Milk 4 Beer 3 Diaper 4 Eggs Minimum Support = 3 Items (-itemsets) Itemset Count {Bread,Milk} 3 {Bread,Beer} 2 {Bread,Diaper} 3 {Milk,Beer} 2 {Milk,Diaper} 3 {Beer,Diaper} 3 Pairs (2-itemsets) (δελ τρεηάδεηαη ε παραγφγή σπουεθίφλ ποσ περηιακβάλοσλ Coke ή Eggs) Triplets (3-itemsets) Αλ ζεφρήζοσκε θάζε σποζύλοιο: 6 C + 6 C 2 + 6 C 3 = 4 Με αποθοπή κε βάζε ηο support: 6 + 6 + = 3 Itemset Count {Bread,Milk,Diaper} 3 Καλόλεο Σπζρέηηζεο 4

Ο Αιγόξηζκνο Apriori Αιγόξηζκνο: Θέηνπκε k= Παξάγνληαη ηα ζπρλά ζηνηρεηνζύλνια κήθνπο Δπαλάιεςε κέρξη λα κελ κπνξεί λα εληνπηζηεί θαλέλα λέν ζπρλό ζηνηρεηνζύλνιν ησλ παξαθάησ: Γεκηνπξγνύληαη ηα ππνςήθηα ζηνηρεηνζύλνια κήθνπο (k+) από ηα ζπρλά ζηνηρεηνζύλνια κήθνπο k Απνθόπηνληαη ηα ππνςήθηα ζηνηρεηνζύλνια ηα νπνία πεξηιακβάλνπλ ππνζύλνια κήθνπο k ηα νπνία δελ είλαη ζπρλά Υπνινγίδεηαη ην support ηνπ θάζε ππνςεθίνπ ζαξώλνληαο ηελ βάζε δεδνκέλσλ Δμαιείθνληαη ηα ππνςήθηα ζηνηρεηνζύλνια ηα νπνία δελ είλαη ζπρλά, αθήλνληαο κόλν όζα είλαη ζπρλά Καλόλεο Σπζρέηηζεο 5

Αιγόξηζκνο Apriori Παξάδεηγκα Database D TID Items 00 3 4 200 2 3 5 300 2 3 5 400 2 5 Scan D itemset sup. {} 2 {2} 3 {3} 3 {4} {5} 3 C L itemset sup { 2} { 3} 2 { 5} {2 3} 2 {2 5} 3 {3 5} 2 C 2 C 2 L 2 itemset sup Scan D { 3} 2 {2 3} 2 {2 5} 3 {3 5} 2 C 3 itemset Scan D L 3 {2 3 5} itemset sup {2 3 5} 2 itemset sup. {} 2 {2} 3 {3} 3 {5} 3 itemset { 2} { 3} { 5} {2 3} {2 5} {3 5} Καλόλεο Σπζρέηηζεο 6

Μείσζε ηνπ πιήζνπο ησλ Σπγθξίζεσλ Καηακέηξεζε ησλ ππνςεθίσλ: Σαξώλεηαη ε βάζε δεδνκέλσλ ησλ ζπλαιιαγώλ γηα λα πξνζδηνξηζηεί ην support θάζε ππνςήθηνπ ζηνηρεηνζπλόινπ Γηα λα κεησζεί ην πιήζνο ησλ ζπγθξίζεσλ, απνζεθεύνληαη ηα ππνςήθηα ζηνηρεηνζύλνια ζε κία δνκή θαηαθεξκαηηζκνύ (hash structure) Αληί λα ειέγρεηαη θάζε ζπλαιιαγή κε θάζε ππνςήθην, ειέγρεηαη κε ηα ππνςήθηα ζηνηρεηνζύλνια πνπ βξίζθνληαη ζηνπο θάδνπο ηνπ θαηαθεξκαηηζκνύ Transactions Hash Structure N TID Items Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke k Buckets Καλόλεο Σπζρέηηζεο 7

Μείσζε ηνπ πιήζνπο ησλ Σπγθξίζεσλ Καλόλεο Σπζρέηηζεο 8

Γεκηνπξγία ηνπ Γέληξνπ Hash Έζησ όηη έρνπκε 5 ππνςήθηα ζηνηρεηνζύλνια κήθνπο 3: { 4 5}, { 2 4}, {4 5 7}, { 2 5}, {4 5 8}, { 5 9}, { 3 6}, {2 3 4}, {5 6 7}, {3 4 5}, {3 5 6}, {3 5 7}, {6 8 9}, {3 6 7}, {3 6 8} Φξεηάδεηαη: Μία ζπλάξηεζε θαηαθεξκαηηζκνύ (hash function) Τν Max leaf size: ην κέγηζην πιήζνο ζηνηρεηνζπλόισλ πνπ κπνξεί λα απνζεθεπηεί ζε έλαλ θόκβν θύιιν (αλ ην πιήζνο ησλ ππνςεθίσλ ζηνηρεηνζπλόισλ ππεξβαίλεη ην max leaf size, ηόηε γίλεηαη δηάζπαζε ηνπ θόκβνπ) Hash function 3,6,9,4,7 2,5,8 4 5 2 4 4 5 7 2 5 4 5 8 2 3 4 5 6 7 3 4 5 3 5 6 3 6 3 5 7 6 8 9 5 9 3 6 7 3 6 8 Καλόλεο Σπζρέηηζεο 9

Αλαθάιπςε Καλόλσλ Σπζρέηηζεο: Γέληξν Hash Hash Function Candidate Hash Tree,4,7 3,6,9 2,5,8 Hash on, 4 or 7 4 5 3 6 2 4 2 5 5 9 4 5 7 4 5 8 2 3 4 5 6 7 3 4 5 3 5 6 3 5 7 6 8 9 3 6 7 3 6 8 Καλόλεο Σπζρέηηζεο 20

Αλαθάιπςε Καλόλσλ Σπζρέηηζεο: Γέληξν Hash Hash Function Candidate Hash Tree,4,7 3,6,9 2,5,8 Hash on 2, 5 or 8 4 5 3 6 2 4 2 5 5 9 4 5 7 4 5 8 2 3 4 5 6 7 3 4 5 3 5 6 3 5 7 6 8 9 3 6 7 3 6 8 Καλόλεο Σπζρέηηζεο 2

Αλαθάιπςε Καλόλσλ Σπζρέηηζεο: Γέληξν Hash Hash Function Candidate Hash Tree,4,7 3,6,9 2,5,8 Hash on 3, 6 or 9 4 5 3 6 2 4 2 5 5 9 4 5 7 4 5 8 2 3 4 5 6 7 3 4 5 3 5 6 3 5 7 6 8 9 3 6 7 3 6 8 Καλόλεο Σπζρέηηζεο 22

Παξαγσγή Υπνζπλόισλ Γεδνκέλεο κίαο ζπλαιιαγήο t, πνηα είλαη ηα πηζαλά ππνζύλνια κεγέζνπο 3; Transaction, t 2 3 5 6 Level 2 3 5 6 2 3 5 6 3 5 6 Level 2 2 3 5 6 3 5 6 5 6 2 3 5 6 2 5 6 3 5 6 2 3 2 5 2 6 3 5 3 6 5 6 2 3 5 2 3 6 2 5 6 3 5 6 Level 3 Subsets of 3 items Καλόλεο Σπζρέηηζεο 23

Παξαγσγή Υπνζπλόισλ κε ρξήζε ηνπ Γέληξνπ Hash 2 3 5 6 transaction Hash Function + 2 3 5 6 2 + 3 5 6,4,7 3,6,9 3 + 5 6 2,5,8 2 3 4 5 6 7 4 5 3 6 2 4 2 5 5 9 4 5 7 4 5 8 3 4 5 3 5 6 3 6 7 3 5 7 3 6 8 6 8 9 Καλόλεο Σπζρέηηζεο 24

Παξαγσγή Υπνζπλόισλ κε ρξήζε ηνπ Γέληξνπ Hash 2 3 5 6 transaction Hash Function 2 + 3 + 3 5 6 5 6 + 2 3 5 6 2 + 3 5 6 3 + 5 6,4,7 2,5,8 3,6,9 5 + 6 2 3 4 5 6 7 4 5 3 6 2 4 2 5 5 9 4 5 7 4 5 8 3 4 5 3 5 6 3 6 7 3 5 7 3 6 8 6 8 9 Καλόλεο Σπζρέηηζεο 25

Παξαγσγή Υπνζπλόισλ κε ρξήζε ηνπ Γέληξνπ Hash 2 3 5 6 transaction Hash Function 2 + 3 + 3 5 6 5 6 + 2 3 5 6 2 + 3 5 6 3 + 5 6,4,7 2,5,8 3,6,9 5 + 6 2 3 4 5 6 7 4 5 3 6 2 4 2 5 5 9 4 5 7 4 5 8 3 4 5 3 5 6 3 5 7 6 8 9 3 6 7 3 6 8 Match transaction against out of 5 candidates Καλόλεο Σπζρέηηζεο 26

Παξάγνληεο πνπ επεξεάδνπλ ηελ πνιππινθόηεηα Η επηινγή ηνπ νξίνπ minimum support Διαηηώλνληαο ην όξην ηνπ support πξνθύπηνπλ πεξηζζόηεξα ζπρλά ζηνηρεηνζύλνια Απηό κπνξεί λα απμήζεη ην πιήζνο ησλ ππνςεθίσλ θαζώο θαη ην κέγηζην κήθνο ησλ ζπρλώλ ζηνηρεηνζπλόισλ Η Γηάζηαζε (πιήζνο αληηθεηκέλσλ) ηνπ ζπλόινπ δεδνκέλσλ Με ηελ αύμεζή ηεο νινέλα θαη πεξηζζόηεξνο ρώξνο απαηηείηαη γηα ηελ απνζήθεπζε ηνπ κέηξνπ support γηα ην θάζε αληηθείκελν Όηαλ ην πιήζνο ησλ ζπρλώλ αληηθεηκέλσλ απμάλεηαη, ηόηε ην θόζηνο ησλ ππνινγηζκώλ αιιά θαη ην I/O θόζηνο κπνξεί λα απμεζνύλ Τν κέγεζνο ηεο βάζεο δεδνκέλσλ Από ηε ζηηγκή πνπ ν αιγόξηζκνο Apriori θάλεη πνιιαπιά πεξάζκαηα ζηε βάζε, ν ρξόλνο εθηέιεζήο ηνπ κπνξεί λα απμεζεί ιόγσ ηνπ πιήζνπο ησλ ζπλαιιαγώλ Τν κέζν εύξνο ησλ ζπλαιιαγώλ Τν εύξνο ησλ ζπλαιιαγώλ απμάλεηαη κε ππθλόηεξα ζύλνια δεδνκέλσλ Απηό κπνξεί λα απμήζεη ην κέγηζην κήθνο ησλ ζπρλώλ ζηνηρεηνζπλόισλ θαη ησλ δηαζρίζεσλ ηνπ δέληξνπ hash (ην πιήζνο ησλ ππνζπλόισλ ζε κία ζπλαιιαγή απμάλεηαη από ην εύξνο ηεο) Καλόλεο Σπζρέηηζεο 27

Σπκπαγήο Αλαπαξάζηαζε Σπρλώλ Σηνηρεηνζπλόισλ Οξηζκέλα ζηνηρεηνζύλνια είλαη πεξηηηά επεηδή έρνπλ ην ίδην support κε ηα ππεξζύλνιά ηνπο. Π.ρ.: TID A A2 A3 A4 A5 A6 A7 A8 A9 A0 B B2 B3 B4 B5 B6 B7 B8 B9 B0 C C2 C3 C4 C5 C6 C7 C8 C9 C0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Πιήζνο ζπρλώλ ζηνηρεηνζπλόισλ 0 3 0 k k Φξεηάδεηαη κία πην ζπκπαγήο αλαπαξάζηαζε Καλόλεο Σπζρέηηζεο 28

Μέγηζην Σπρλό Σηνηρεηνζύλνιν Έλα ζηνηρεηνζύλνιν είλαη κέγηζην ζπρλό όηαλ θαλέλα από ηα άκεζα ππεξζύλνιά ηνπ δελ είλαη ζπρλό null Maximal Itemsets A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE Infrequent Itemsets ABCD E Border Καλόλεο Σπζρέηηζεο 29

Κιεηζηό Σηνηρεηνζύλνιν Έλα ζηνηρεηνζύλνιν είλαη θιεηζηό όηαλ θαλέλα από ηα άκεζα ππεξζύλνιά ηνπ δελ έρεη ην ίδην support κε απηό TID Items {A,B} 2 {B,C,D} 3 {A,B,C,D} 4 {A,B,D} 5 {A,B,C,D} Itemset Support {A} 4 {B} 5 {C} 3 {D} 4 {A,B} 4 {A,C} 2 {A,D} 3 {B,C} 3 {B,D} 4 {C,D} 3 Itemset Support {A,B,C} 2 {A,B,D} 3 {A,C,D} 2 {B,C,D} 3 {A,B,C,D} 2 Καλόλεο Σπζρέηηζεο 30

Μέγηζηα θαη Κιεηζηά Σηνηρεηνζύλνια TID Items ABC 2 ABCD 3 BCE 4 ACDE 5 DE Not closed null Transaction Ids 24 23 234 245 345 A B C D E 2 24 24 4 23 2 3 24 34 45 AB AC AD AE BC BD BE CD CE DE Closed 2 2 24 4 4 2 3 4 ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE Not supported by any transactions ABCDE Καλόλεο Σπζρέηηζεο 3

Μέγηζηα θαη Κιεηζηά Σηνηρεηνζύλνια Minimum support = 2 null Closed but not maximal 24 23 234 245 345 A B C D E Closed and maximal 2 24 24 4 23 2 3 24 34 45 AB AC AD AE BC BD BE CD CE DE 2 2 24 4 4 2 3 4 ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE # Closed = 9 # Maximal = 4 ABCDE Καλόλεο Σπζρέηηζεο 32

Μέγηζηα θαη Κιεηζηά Σηνηρεηνζύλνια Frequent Itemsets Closed Frequent Itemsets Maximal Frequent Itemsets Καλόλεο Σπζρέηηζεο 33

Δλαιιαθηηθέο Μέζνδνη γηα ηελ Παξαγσγή Σπρλώλ Σηνηρεηνζπλόισλ Γηάζρηζε ηνπ Πιέγκαηνο Σηνηρεηνζπλόισλ General-to-specific vs Specific-to-general Frequent itemset border null null Frequent itemset border null............ {a,a 2,...,a n } {a,a 2,...,a n } Frequent itemset border {a,a 2,...,a n } (a) General-to-specific (b) Specific-to-general (c) Bidirectional Καλόλεο Σπζρέηηζεο 34

Δλαιιαθηηθέο Μέζνδνη γηα ηελ Παξαγσγή Σπρλώλ Σηνηρεηνζπλόισλ Γηάζρηζε ηνπ Πιέγκαηνο Σηνηρεηνζπλόισλ Equivalent Classes null null A B C D A B C D AB AC AD BC BD CD AB AC BC AD BD CD ABC ABD ACD BCD ABC ABD ACD BCD ABCD ABCD (a) Prefix tree (b) Suffix tree Καλόλεο Σπζρέηηζεο 35

Δλαιιαθηηθέο Μέζνδνη γηα ηελ Παξαγσγή Σπρλώλ Σηνηρεηνζπλόισλ Γηάζρηζε ηνπ Πιέγκαηνο Σηνηρεηνζπλόισλ Breadth-first vs Depth-first (a) Breadth first (b) Depth first Καλόλεο Σπζρέηηζεο 36

Δλαιιαθηηθέο Μέζνδνη γηα ηελ Παξαγσγή Σπρλώλ Σηνηρεηνζπλόισλ Αλαπαξάζηαζε ηεο βάζεο δεδνκέλσλ horizontal vs vertical data layout Horizontal Data Layout TID Items A,B,E 2 B,C,D 3 C,E 4 A,C,D 5 A,B,C,D 6 A,E 7 A,B 8 A,B,C 9 A,C,D 0 B Vertical Data Layout A B C D E 2 2 4 2 3 4 3 5 5 4 5 6 6 7 8 9 7 8 9 8 0 9 Καλόλεο Σπζρέηηζεο 37

Ο Αιγόξηζκνο FP-growth Φξεζηκνπνηεί κία ζπκπηεζκέλε αλαπαξάζηαζε ηεο βάζεο δεδνκέλσλ κε ηε βνήζεηα ελόο FP-tree Μόιηο θαηαζθεπαζηεί έλα FP-tree, ρξεζηκνπνηεί κία αλαδξνκηθή divide-and-conquer πξνζέγγηζε γηα λα αλαθαιύςεη ηα ζπρλά ζηνηρεηνζύλνια Καλόλεο Σπζρέηηζεο 38

Καηαζθεπή ηνπ FP-tree After reading TID=: null TID Items {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 0 {B,C,E} B: After reading TID=2: null A: B: A: B: C: D: Καλόλεο Σπζρέηηζεο 39

Καηαζθεπή ηνπ FP-tree After reading TID=3: TID Items {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 0 {B,C,E} Καλόλεο Σπζρέηηζεο 40

Καηαζθεπή ηνπ FP-Tree TID Items {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 0 {B,C,E} Transaction Database B:5 After reading TID=0: null A:7 B:3 C: D: C:3 Header table Item A B C D E Pointer C:3 D: D: D: E: D: E: E: Οη δείθηεο ρξεζηκνπνηνύληαη βνεζεηηθά γηα ηελ παξαγσγή ησλ ζπρλώλ ζηνηρεηνζπλόισλ Καλόλεο Σπζρέηηζεο 4

Αιγόξηζκνο FP-growth D: C:3 B:5 A:7 D: null C: D: D: B: C: D: Σρήκαηα ζπλόισλ κε βάζε ην ζηνηρείν D: P = {(A:7,B:5,C:3), (A:7,B:5), (A:7,C:), (A:7), (B:,C:)} Αλαδξνκηθή εθαξκνγή ηνπ FP-growth ζην P Σπρλά ζηνηρεηνζύλνια πνπ βξέζεθαλ (κε sup > ): A, AB, ABC Καλόλεο Σπζρέηηζεο 42

Γηαηί ν FP-Growth είλαη γξήγνξνο; Ο FP-growth είλαη πην γξήγνξνο από ηνλ Apriori Γελ δεκηνπξγνύληαη ππνςήθηνη, δελ ρξεηάδεηαη έιεγρνο ππνςεθίσλ Φξεζηκνπνηεί ζπκπαγή δνκή δεδνκέλσλ Καηαξγεί ηελ επαλαιακβαλόκελε ζάξσζε ηεο βάζεο δεδνκέλσλ Οη βαζηθέο ηνπ πξάμεηο αθνξνύλ κόλν ηελ θαηακέηξεζε θαη ηελ θαηαζθεπή ηνπ FP-tree Καλόλεο Σπζρέηηζεο 43

Πξνβνιή ηνπ Γέληξνπ (Tree Projection) Set enumeration tree: null Possible Extension: E(A) = {B,C,D,E} A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE Possible Extension: E(ABC) = {D,E} ABCD ABCE ABDE ACDE BCDE ABCDE Καλόλεο Σπζρέηηζεο 44

Πξνβνιή ηνπ Γέληξνπ (Tree Projection) Τα ζηνηρεία θαηαγξάθνληαη κε ιεμηθνγξαθηθή ζεηξά Σε θάζε θόκβν P απνζεθεύεηαη ε αθόινπζε πιεξνθνξία: Σηνηρεηνζύλνιν γηα ηνλ θόκβν P Λίζηα κε όιεο ηηο πηζαλέο ιεμηθνγξαθηθέο επεθηάζεηο ηνπ P: E(P) Γείθηεο ηνπ θόκβνπ-πξνγόλνπ ηνπ πξνο ηελ πξνβεβιεκέλε βάζε δεδνκέλσλ Έλα δπαδηθό δηάλπζκα (bit-vector) πνπ πεξηιακβάλεη πιεξνθνξίεο ζρεηηθά κε ην πνηεο ζπλαιιαγέο ζηελ πξνβεβιεκέλε βάζε δεδνκέλσλ πεξηέρνπλ ην ζηνηρεηνζύλνιν Καλόλεο Σπζρέηηζεο 45

Πξνβεβιεκέλε Βάζε Γεδνκέλσλ Original Database: Projected Database for node A: TID Items {B} 2 {} 3 {C,D,E} 4 {D,E} 5 {B,C} 6 {B,C,D} 7 {} 8 {B,C} 9 {B,D} 0 {} TID Items {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 0 {B,C,E} Γηα θάζε ζπλαιιαγή T, ε αληίζηνηρε πξνβεβιεκέλε ζπλαιιαγή ζηνλ θόκβν A είλαη T E(A) Καλόλεο Σπζρέηηζεο 46

Ο Αιγόξηζκνο ECLAT Γηα θάζε αληηθείκελν, απνζεθεύεηαη κία ιίζηα κε ηα ids ησλ ζπλαιιαγώλ (tids): Horizontal Data Layout TID Items A,B,E 2 B,C,D 3 C,E 4 A,C,D 5 A,B,C,D 6 A,E 7 A,B 8 A,B,C 9 A,C,D 0 B Vertical Data Layout A B C D E 2 2 4 2 3 4 3 5 5 4 5 6 6 7 8 9 7 8 9 8 0 9 TID-list Καλόλεο Σπζρέηηζεο 47

Ο Αιγόξηζκνο ECLAT Πξνζδηνξίδεηαη ην support θάζε k-ζηνηρεηνζπλόινπ από ηελ ηνκή ησλ tid-lists δύν (k-)-ππνζπλόισλ ηνπ. A 4 5 6 7 8 9 B 2 5 7 8 0 3 κέζνδνη δηάζρηζεο: top-down, bottom-up and hybrid Πιενλέθηεκα: πνιύ γξήγνξε κέηξεζε ηνπ support Μεηνλέθηεκα: νη ελδηάκεζεο ιίζηεο tid-lists ελδέρεηαη λα γίλνπλ πνιύ κεγάιεο γηα ηελ θύξηα κλήκε AB 5 7 8 Καλόλεο Σπζρέηηζεο 48

Η Παξαγσγή ησλ Καλόλσλ Γεδνκέλνπ ελόο ζπρλνύ ζηνηρεηνζπλόινπ L, λα βξεζνύλ όια ηα κε θελά ππνζύλνια f L γηα ηα νπνία ν θαλόλαο f L f ηθαλνπνηεί ηελ απαίηεζε ηνπ minimum confidence Αλ ην {A,B,C,D} είλαη έλα ζπρλό ζηνηρεηνζύλνιν, ηόηε ππνςήθηνη θαλόλεο είλαη: ABC D, ABD C, ACD B, BCD A, A BCD, B ACD, C ABD, D ABC, AB CD, AC BD, AD BC, BC AD, BD AC, CD AB Αλ L = k, ηόηε ππάξρνπλ 2 k 2 ππνςήθηνη θαλόλεο ζπζρέηηζεο (αγλνώληαο ηνπο L θαη L) Καλόλεο Σπζρέηηζεο 49

Η Παξαγσγή ησλ Καλόλσλ Πσο ζα παξάγνπκε απνηειεζκαηηθά ηνπο θαλόλεο από ηα ζπρλά ζηνηρεηνζύλνια; Γεληθά, ην κέηξν confidence δελ ηθαλνπνηεί ηελ αληηκνλόηνλε ηδηόηεηα Τν c(abc D) κπνξεί λα είλαη κεγαιύηεξν ή κηθξόηεξν από ην c(ab D) Αιιά ην confidence ησλ θαλόλσλ πνπ παξάγνληαη από ην ίδην ζηνηρεηνζύλνιν ηθαλνπνηεί ηελ αληηκνλόηνλε ηδηόηεηα Π.ρ., αλ L = {A,B,C,D}, ηόηε: c(abc D) c(ab CD) c(a BCD) Τν κέηξν confidence ηθαλνπνηεί ηελ αληηκνλόηνλε ηδηόηεηα σο πξνο ην πιήζνο ησλ ζηνηρείσλ πνπ ππάξρνπλ ζην δεμί κέξνο ηνπ θαλόλα Καλόλεο Σπζρέηηζεο 50

Παξαγσγή Καλόλσλ ζηνλ Αιγόξηζκν Apriori Πλέγμα κανόνων Low Confidence Rule ABCD=>{ } BCD=>A ACD=>B ABD=>C ABC=>D CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD Pruned Rules D=>ABC C=>ABD B=>ACD A=>BCD Καλόλεο Σπζρέηηζεο 5

Παξαγσγή Καλόλσλ ζηνλ Αιγόξηζκν Apriori Έλαο ππνςήθηνο θαλόλαο δεκηνπξγείηαη από ηε ζπγρώλεπζε δύν θαλόλσλ νη νπνίνη κνηξάδνληαη ην ίδην πξόζεκα ζηελ αθνινπζία θαλόλσλ Με join(cd=>ab,bd=>ac) παξάγεηαη ν ππνςήθηνο θαλόλαο D => ABC CD=>AB Ο θαλόλαο D=>ABC απνθόπηεηαη αλ ην ππνζύλνιό ηνπ AD=>BC δελ έρεη πςειό confidence D=>ABC BD=>AC Καλόλεο Σπζρέηηζεο 52

Η επίδξαζε ηεο Καηαλνκήο ηνπ Support Πνιιά πξαγκαηηθά ζύλνια δεδνκέλσλ εκθαλίδνπλ κία αζύκκεηξε θαηαλνκή Καηαλνκή ηνπ Support ζε έλα ζύλνιν δεδνκέλσλ πξντόλησλ ιηαληθήο Καλόλεο Σπζρέηηζεο 53

Η επίδξαζε ηεο Καηαλνκήο ηνπ Support Πσο ζα ζέζνπκε ην θαηάιιειν όξην minsup; Αλ ζέζνπκε ην minsup αξθεηά πςειό, ζα παξαιείςνπκε ζηνηρεηνζύλνια πνπ πεξηιακβάλνπλ ελδηαθέξνληα ζπάληα αληηθείκελα (π.ρ., αθξηβά πξντόληα) Αλ ζέζνπκε ην minsup αξθεηά ρακειό, ζα έρνπκε αθξηβό ππνινγηζηηθό θόζηνο θαη ην πιήζνο ησλ ζηνηρεηνζπλόισλ ζα είλαη πνιύ κεγάιν Η ρξήζε ελόο κόλν απινύ ειαρίζηνπ νξίνπ support ελδέρεηαη λα κελ είλαη απνηειεζκαηηθή επηινγή. Καλόλεο Σπζρέηηζεο 54

Πνιιαπιά Διάρηζηα Support Πσο ζα εθαξκόζνπκε πνιιαπιά ειάρηζηα support; MS(i): ειάρηζην support γηα ην ζηνηρείν i π.ρ.: MS(Milk)=5%, MS(Coke) = 3%, MS(Broccoli)=0.%, MS(Salmon)=0.5% MS({Milk, Broccoli}) = min (MS(Milk), MS(Broccoli)) = 0.% Challenge: αλ ην support δελ είλαη πιένλ αληηκνλόηνλν: ηόηε αλ ππνζέζνπκε όηη: Support(Milk, Coke) =.5% θαη Support(Milk, Coke, Broccoli) = 0.5% κπνξεί ην {Milk,Coke} λα είλαη κε-ζπρλό αιιά ην {Milk,Coke,Broccoli} λα είλαη ζπρλό Καλόλεο Σπζρέηηζεο 55

Πνιιαπιά Διάρηζηα Support Item MS(I) Sup(I) AB ABC A 0.0% 0.25% A AC AD ABD ABE B 0.20% 0.26% B AE ACD C 0.30% 0.29% C BC BD ACE ADE D 0.50% 0.05% D BE BCD E 3% 4.20% E CD CE BCE BDE DE CDE Καλόλεο Σπζρέηηζεο 56

Πνιιαπιά Διάρηζηα Support Item MS(I) Sup(I) A 0.0% 0.25% A AB AC AD ABC ABD ABE B 0.20% 0.26% C 0.30% 0.29% B C AE BC BD ACD ACE ADE D 0.50% 0.05% E 3% 4.20% D E BE CD CE BCD BCE BDE DE CDE Καλόλεο Σπζρέηηζεο 57

Πνιιαπιά Διάρηζηα Support (Liu 999) Ταμηλνκνύκε ηα ζηνηρεία σο πξνο ην ειάρηζην support ηνπο (ζε αύμνπζα ζεηξά) π.ρ.: MS(Milk)=5%, MS(Coke) = 3%, MS(Broccoli)=0.%, MS(Salmon)=0.5% Ταμηλόκεζε: Broccoli, Salmon, Coke, Milk Φξεηάδεηαη λα ηξνπνπνηεζεί ν αιγόξηζκνο Apriori έηζη ώζηε: L : ην ζύλνιν ησλ ζπρλώλ ζηνηρείσλ F : ην ζύλνιν ησλ ζηνηρείσλ ησλ νπνίσλ ην support είλαη MS(), όπνπ MS() είλαη ην min i ( MS(i) ) C 2 : ηα ππνςήθηα αληηθείκελα κεγέζνπο 2 παξάγνληαη από ην F αληί από ην L Καλόλεο Σπζρέηηζεο 58

Πνιιαπιά Διάρηζηα Support (Liu 999) Τξνπνπνηήζεηο ζηνλ Apriori: Σηνλ θαλνληθό αιγόξηζκν Apriori, Έλα ππνςήθην A (k+)-ζηνηρεηνζύλνιν παξάγεηαη από ηελ ζπγρώλεπζε δύν ζπρλώλ ζηνηρεηνζπλόισλ κεγέζνπο k Έλα ππνςήθην ζηνηρεηνζύλνιν απνξξίπηεηαη αλ πεξηιακβάλεη νπνηνδήπνηε κε ζπρλό ππνζύλνιν κεγέζνπο k Τν βήκα ηεο απνθνπήο πξέπεη λα ηξνπνπνηεζεί: Η απνθνπή γίλεηαη κόλνλ όηαλ ην ππνζύλνιν πεξηιακβάλεη ην πξώην ζηνηρείν π.ρ.: ππνςήθην={broccoli, Coke, Milk} (ηαμηλνκεκέλα ζύκθσλα κε ην ειάρηζην support) Τα {Broccoli, Coke} θαη {Broccoli, Milk} είλαη ζπρλά αιιά ην {Coke, Milk} είλαη κε-ζπρλό (ζπάλην) Το υποψήφιο δεν αποκόπτεται επειδή το {Coke,Milk} δεν περιλαμβάνει το πρώτο αντικείμενο, που είναι το Broccoli. Καλόλεο Σπζρέηηζεο 59

Αμηνιόγεζε Πξνηύπσλ Καλόλσλ Οη αιγόξηζκνη θαλόλσλ ζπζρέηηζεο ηείλνπλ λα παξάγνπλ πάξα πνιινύο θαλόλεο Πνιινί από απηνύο είλαη ρσξίο ελδηαθέξνλ ή πεξηηηνί Οη θαλόλεο {A,B,C} {D} θαη {A,B} {D} είλαη πεξηηηνί αλ έρνπλ ην ίδην support & confidence Σηελ αξρηθή ηππνπνίεζε ησλ θαλόλσλ ζπζρέηηζεο, ηα κέηξα support & confidence είλαη ηα κόλα πνπ ρξεζηκνπνηήζεθαλ Μπνξνύλ επηπιένλ λα ρξεζηκνπνηεζνύλ κέηξα ελδηαθέξνληνο γηα λα απνθόςνπλ ή λα βαζκνινγήζνπλ ηα παξαγόκελα πξόηππα θαλόλσλ Καλόλεο Σπζρέηηζεο 60

Η Δθαξκνγή Μέηξσλ Δλδηαθέξνληνο Interestingness Measures Καλόλεο Σπζρέηηζεο 6

Υπνινγίδνληαο έλα Μέηξν Δλδηαθέξνληνο Γνζέληνο ελόο θαλόλα X Y, νη πιεξνθνξίεο πνπ απαηηνύληαη γηα ηνλ ππνινγηζκό ηνπ ελδηαθέξνληνο ηνπ θαλόλα κπνξνύλ λα ιεθζνύλ από ηνλ πίλαθα ελδερνκέλσλ: Contingency table for X Y Y Y X f f 0 f + X f 0 f 00 f o+ f + f +0 T f : support of X and Y f 0 : support of X and Y f 0 : support of X and Y f 00 : support of X and Y Φξεζηκνπνηείηαη ζηνλ νξηζκό δηαθόξσλ κέηξσλ όπσο: support, confidence, lift, Gini, J-measure, θιπ. Καλόλεο Σπζρέηηζεο 62

Τν Μεηνλέθηεκα ηνπ Confidence Coffee Coffee Tea 5 5 20 Tea 75 5 80 90 0 00 Καλόλας Σσζτέηηζες: Tea Coffee Confidence = P(Coffee Tea) = 5/20 = 0.75 αιιά P(Coffee) = 90/00 = 0.9 Αλ θαη ηο confidence είλαη συειό, ο θαλόλας είλαη παραπιαλεηηθός P(Coffee Tea) = 75/80 = 0.9375 Καλόλεο Σπζρέηηζεο 63

Σπζρέηηζε θαη Σηαηηζηηθή Αλεμαξηεζία Σε έλα πιεζπζκό 000 καζεηώλ 600 καζεηέο μέξνπλ θνιύκπη (S) 700 καζεηέο μέξνπλ πνδήιαην (B) 420 καζεηέο μέξνπλ θαη θνιύκπη θαη πνδήιαην (S,B) P(SB) = 420/000 = 0.42 P(S) P(B) = 0.6 0.7 = 0.42 corr S, B P( S B) P( S) P( B) Αλ corr S,B = => Σηαηηζηηθή Αλεμαξηεζία Αλ corr S,B > => Θεηηθή Σπζρέηηζε Αλ corr S,B < => Αξλεηηθή Σπζρέηηζε Καλόλεο Σπζρέηηζεο 64

Καλόλεο Σπζρέηηζεο 65 Σηαηηζηηθά Μέηξα Μέηξα πνπ ιακβάλνπλ ππόςε ηελ ζηαηηζηηθή εμάξηεζε: )] ( )[ ( )] ( )[ ( ) ( ) ( ), ( ) ( ) ( ), ( ) ( ) ( ), ( ) ( ) ( Y P Y P X P X P Y P X P Y X P coefficien t Y P X P Y X P PS Y P X P Y X P Interest Y P X Y P Lift Confidence (XY) / Support (Y) Support (X, Y) / support(x)* support(y)

Παξάδεηγκα: Lift/Interest Coffee Coffee Tea 5 5 20 Tea 75 5 80 90 0 00 Καλόλας Σσζτέηηζες: Tea Coffee Confidence= P(Coffee Tea) = 0.75 αιιά P(Coffee) = 0.9 Lift = 0.75/0.9= 0.8333 (<, άρα έτεη αρλεηηθή ζσζτέηηζε) Interest = 0.5 / (0.9 * 0.2) = 0.8333 (<, άξα έρεη αξλεηηθή ζπζρέηηζε) Καλόλεο Σπζρέηηζεο 66

Μεηνλέθηεκα ησλ Lift & Interest Y Y X 0 0 0 X 0 90 90 0 90 00 Y Y X 90 0 90 X 0 0 0 90 0 00 0. 0.9 Lift 0 Lift. (0.)(0.) (0.9)(0.9) Σηαηηζηηθή Αλεμαξηεζία: If P(X,Y)=P(X)P(Y) => Lift = Καλόλεο Σπζρέηηζεο 67

Υπάξρνπλ πνιιά κέηξα πνπ πξνηείλνληαη ζηε βηβιηνγξαθία Οξηζκέλα κέηξα είλαη θαιά γηα ζπγθεθξηκέλεο εθαξκνγέο, αιιά όρη γηα άιιεο Πνηα θξηηήξηα πξέπεη λα ρξεζηκνπνηήζνπκε γηα λα δηαπηζηώζνπκε εάλ έλα κέηξν είλαη θαιό ή θαθό; Καη ηη γίλεηαη κε ηελ απνθνπή πνπ βαζίδεηαη ζην support ηνπ Apriori; Πώο επεξεάδεη απηά ηα κέηξα;

Οη Ιδηόηεηεο ελόο Καινύ Μέηξνπ Piatetsky-Shapiro: Έλα θαιό κέηξν M πξέπεη λα ηθαλνπνηεί 3 ηδηόηεηεο: M(A,B) = 0 αλ ηα A θαη B είλαη ζηαηηζηηθά αλεμάξηεηα M(A,B) απμάλεηαη κνλόηνλα σο πξνο ηελ πηζαλόηεηα P(A,B) όηαλ νη P(A) θαη P(B) παξακέλνπλ ακεηάβιεηεο M(A,B) κεηώλεηαη κνλόηνλα σο πξνο ηελ P(A) [ή P(B)] όηαλ νη P(A,B) θαη P(B) [ή P(A) αληίζηνηρα] παξακέλνπλ ακεηάβιεηεο Καλόλεο Σπζρέηηζεο 69

Σπγθξίλνληαο Γηαθνξεηηθά Μέηξα 0 παξαδείγκαηα πηλάθσλ ελδερνκέλσλ: Βαζκνινγία ησλ πηλάθσλ ελδερνκέλσλ ρξεζηκνπνηώληαο δηάθνξα κέηξα: Example f f 0 f 0 f 00 E 823 83 424 370 E2 8330 2 622 046 E3 948 94 27 298 E4 3954 3080 5 296 E5 2886 363 320 443 E6 500 2000 500 6000 E7 4000 2000 000 3000 E8 4000 2000 2000 2000 E9 720 72 5 54 E0 6 2483 4 7452 Καλόλεο Σπζρέηηζεο 70

Ιδηόηεηεο θαη Μεηάζεζε Μεηαβιεηώλ B B A p q A r s A A B p r B q s Ιζρύεη όηη M(A,B) = M(B,A); Σπκκεηξηθά Μέηξα: support, lift, collective strength, cosine, Jaccard, θιπ. Με-ζπκκεηξηθά Μέηξα: confidence, conviction, Laplace, J-measure, θιπ. Καλόλεο Σπζρέηηζεο 7

Ιδηόηεηεο θαη Αιιαγή Κιίκαθαο ζε Γξακκή/Σηήιε Τν παξάδεηγκα Grade-Gender (Mosteller, 968): Male Female High 2 3 5 Low 4 5 3 7 0 Male Female High 4 30 34 Low 2 40 42 6 70 76 2x 0x Mosteller: Η παξαγόκελε ζπζρέηηζε πξέπεη λα είλαη αλεμάξηεηε από ην ζρεηηθό πιήζνο αλδξώλ θαη γπλαηθώλ θνηηεηώλ ζηα δείγκαηα Καλόλεο Σπζρέηηζεο 72

Καλόλεο Σπζρέηηζεο 73 Ιδηόηεηεο θαη Πξάμε Αλαζηξνθήο 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 A B C D (a) (b) 0 0 0 0 0 0 0 0 0 0 0 (c) E F Transaction Transaction N.....

Παξάδεηγκα: Σπληειεζηήο- Ο ζπληειεζηήο- είλαη αλάινγνο ηνπ ζπληειεζηή ζπζρέηηζεο αιιά γηα ζπλερείο κεηαβιεηέο f f f 00 f f f 0 0 f 0 f 0 Y Y X 60 0 70 X 0 20 30 70 30 00 Y Y X 20 0 30 X 0 60 70 30 70 00 60*20 0*0 70307030 0.5238 2060 00 70307030 0.5238 Ο ζπληειεζηήο- είλαη ίδηνο θαη γηα ηνπο δύν πίλαθεο Καλόλεο Σπζρέηηζεο 74

Ιδηόηεηεο θαη Null Addition B B A p q A r s B B A p q A r s + k Ακεηάβιεηα κέηξα: support, cosine, Jaccard, θιπ. Μεηαβιεηά κέηξα: correlation, Gini, mutual information, odds ratio, θιπ. Καλόλεο Σπζρέηηζεο 75

Γηαθνξεηηθά Μέηξα έρνπλ θαη Γηαθνξεηηθέο Ιδηόηεηεο Sym bol Measure Range P P2 P3 O O2 O3 O3' O4 Correlation - 0 Yes Yes Yes Yes No Yes Yes No Lambda 0 Yes No No Yes No No* Yes No Odds ratio 0 Yes* Yes Yes Yes Yes Yes* Yes No Q Yule's Q - 0 Yes Yes Yes Yes Yes Yes Yes No Y Yule's Y - 0 Yes Yes Yes Yes Yes Yes Yes No Cohen's - 0 Yes Yes Yes Yes No No Yes No M Mutual Information 0 Yes Yes Yes Yes No No* Yes No J J-Measure 0 Yes No No No No No No No G Gini Index 0 Yes No No No No No* Yes No s Support 0 No Yes No Yes No No No No c Confidence 0 No Yes No Yes No No No Yes L Laplace 0 No Yes No Yes No No No No V Conviction 0.5 No Yes No Yes** No No Yes No I Interest 0 Yes* Yes Yes Yes No No No No IS IS (cosine) 0.. No Yes Yes Yes No No No Yes PS Piatetsky-Shapiro's -0.25 0 0.25 Yes Yes Yes Yes No Yes Yes No F Certainty factor - 0 Yes Yes Yes No No No Yes No AV Added value 0.5 Yes Yes Yes No No No No No S Collective strength 0 No Yes Yes Yes No Yes* Yes No Jaccard 0.. No Yes Yes Yes No No No Yes 2 K Klosgen's 2 2 3 0 Yes Yes Yes No No No No No 3 3 3 3 Καλόλεο Σπζρέηηζεο 76

Απνθνπή κε βάζε ην Support Οη πεξηζζόηεξνη από ηνπο αιγνξίζκνπο εμόξπμεο θαλόλσλ ζπζρέηηζεο ρξεζηκνπνηνύλ ην κέηξν support γηα λα απνθόπηνπλ θαλόλεο θαη ζηνηρεηνζύλνια Μειέηε ηεο επίδξαζεο ηεο απνθνπήο κε βάζε ην support ζε ζπζρεηηζκέλα ζηνηρεηνζύλνια: Παξάγνπκε 0000 ηπραίνπο πίλαθεο ελδερνκέλσλ Υπνινγίδνπκε ην support θαη ηηο ζπζρεηίζεηο ελδερνκέλσλ θαηά δεύγε ζε θάζε πίλαθα Δθαξκόδνπκε απνθνπή κε βάζε ην support θαη εμεηάδνπκε ηνπο πίλαθεο πνπ απνθόπηνληαη Καλόλεο Σπζρέηηζεο 77

Δπίδξαζε ηεο Απνθνπήο κε βάζε ην Support All Itempairs 000 900 800 700 600 500 400 300 200 00 0 - -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0. 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Correlation Καλόλεο Σπζρέηηζεο 78

Δπίδξαζε ηεο Απνθνπήο κε βάζε ην Support Support < 0.0 Support < 0.03 300 250 200 50 00 - -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2 50 0-0. 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Correlation 300 250 200 50 00 50 0 - -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0. 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Correlation Support < 0.05 Η απνθνπή κε βάζε ην Support εμαιείθεη θπξίσο αξλεηηθά ζπζρεηηζκέλα ζηνηρεηνζύλνια 300 250 200 50 00 50 - -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2 0-0. 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Correlation Καλόλεο Σπζρέηηζεο 79

Δπίδξαζε ηεο Απνθνπήο κε βάζε ην Support Γηεξεύλεζε ηνπ πώο ε απνθνπή κε βάζε ην support επεξεάδεη άιια κέηξα: Βήκαηα: Γεκηνπξγνύκε 0000 πίλαθεο ελδερνκέλσλ Βαζκνινγνύκε θάζε πίλαθα ζύκθσλα κε ηα δηαθνξεηηθά κέηξα Υπνινγίδνπκε ηηο ζπζρεηίζεηο κεηαμύ ησλ κέηξσλ θαηά δεύγε Καλόλεο Σπζρέηηζεο 80

Jaccard Δπίδξαζε ηεο Απνθνπήο κε βάζε ην Support Conviction Odds ratio Col Strength Correlation Interest PS CF Yule Y Reliability Kappa Klosgen Yule Q Confidence Laplace IS Support Jaccard Lambda Gini J-measure Mutual Info Φσξίο Απνθνπή κε ην Support (όια ηα δεύγε) All Pairs (40.4%) 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 2 Τα θόθθηλα θειηά δείρλνπλ ύπαξμε ζπζρέηηζεο κεηαμύ ηνπ δεύγνπο ησλ κέηξσλ > 0.85 Τν 40.4% ησλ δεπγώλ έρνπλ ζπζρέηηζε > 0.85 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 - -0.8-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 Correlation Γηάγξακκα Γηαζπνξάο κεηαμύ ησλ κέηξσλ Correlation θαη Jaccard Καλόλεο Σπζρέηηζεο 8

Jaccard Δπίδξαζε ηεο Απνθνπήο κε βάζε ην Support 0.5% support 50% Interest Conviction Odds ratio Col Strength Laplace Confidence Correlation Klosgen Reliability PS Yule Q CF Yule Y Kappa IS Jaccard Support Lambda Gini J-measure Mutual Info 0.005 <= support <= 0.500 (6.45%) 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 2 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 - -0.8-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 Correlation Τν 6.45% ησλ δεπγώλ έρνπλ ζπζρέηηζε > 0.85 Γηάγξακκα Γηαζπνξάο κεηαμύ ησλ κέηξσλ Correlation θαη Jaccard Καλόλεο Σπζρέηηζεο 82

Jaccard Δπίδξαζε ηεο Απνθνπήο κε βάζε ην Support 0.5% support 30% Support Interest Reliability Conviction Yule Q Odds ratio Confidence CF Yule Y Kappa Correlation Col Strength IS Jaccard Laplace PS Klosgen Lambda Mutual Info Gini J-measure 0.005 <= support <= 0.300 (76.42%) 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 2 Τν 76.42% ησλ δεπγώλ έρνπλ ζπζρέηηζε > 0.85 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0-0.4-0.2 0 0.2 0.4 0.6 0.8 Correlation Γηάγξακκα Γηαζπνξάο κεηαμύ ησλ κέηξσλ Correlation θαη Jaccard Καλόλεο Σπζρέηηζεο 83

Υπνθεηκεληθά Μέηξα Δλδηαθέξνληνο Αληηθεηκεληθά Μέηξα: Η βαζκνιόγεζε ησλ πξνηύπσλ βαζίδεηαη ζε ζηαηηζηηθά ζηνηρεία ππνινγηζκέλα από ηα δεδνκέλα π.ρ., 2 κέηξα ζπζρέηηζεο (support, confidence, Laplace, Gini, mutual information, Jaccard, θιπ.). Υπνθεηκεληθά Μέηξα: Η βαζκνιόγεζε ησλ πξνηύπσλ αθνινπζεί ηελ εξκελεία ηνπ ρξήζηε Έλα πξόηππν είλαη ππνθεηκεληθά ελδηαθέξνλ εάλ έξρεηαη ζε αληίζεζε κε ηηο πξνζδνθίεο ελόο ρξήζηε (Silberschatz & Tuzhilin) Έλα πξόηππν είλαη ππνθεηκεληθά ελδηαθέξνλ αλ έρεη ελεξγή εθαξκνγή (Silberschatz & Tuzhilin) Καλόλεο Σπζρέηηζεο 84

Τν Δλδηαθέξνλ θαη ην Απξνζδόθεην Αλάγθε λα κνληεινπνηεζνύλ νη πξνζδνθίεο ησλ ρξεζηώλ (απαηηείηαη γλώζε ζην ζπγθεθξηκέλν πεδίν εθαξκνγήο) + Pattern expected to be frequent - Pattern expected to be infrequent Pattern found to be frequent Pattern found to be infrequent + - - Expected Patterns + Unexpected Patterns Αλάγθε λα ζπλδπαζηνύλ νη πξνζδνθίεο ησλ ρξεζηώλ κε απνδεηθηηθά ζηνηρεία από ηα δεδνκέλα (δειαδή κε εμαγόκελα πξόηππα) Καλόλεο Σπζρέηηζεο 85

Τν Δλδηαθέξνλ θαη ην Απξνζδόθεην Σε Γεδνκέλα Ιζηνύ (Web Data, Cooley et al 200) Γλώζε πεδίνπ: ε δνκή ελόο ηζηνηόπνπ Γνζέληνο ελόο ζηνηρεηνζπλόινπ F = {X, X 2,, X k } όπνπ ηα X i είλαη ηζηνζειίδεο, έρνπκε: L: πιήζνο από links πνπ ζπλδένπλ ηηο ζειίδεο lfactor = L / (k k-) cfactor = (αλ ν γξάθνο είλαη ζπλδεδεκέλνο), 0 (αλ ν γξάθνο είλαη κε ζπλδεδεκέλνο) Structure evidence = cfactor lfactor P( X X... X ) 2 k Usage evidence P( X X... X ) 2 k Γίλεηαη ρξήζε ηεο ζεσξίαο ησλ Dempster-Shafer γηα λα ζπλδπαζηεί ε γλώζε πεδίνπ κε απνδεηθηηθά ζηνηρεία από ηα δεδνκέλα Καλόλεο Σπζρέηηζεο 86