Απνζήθεο Γεδνκέλσλ θαη Δμόξπμε Γεδνκέλσλ:

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Lecture Notes for Chapter 6. Introduction to Data Mining

Δμόξπμε Γεδνκέλσλ. Καλόλεο Σπζρέηηζεο: Βαζηθέο Έλλνηεο θαη Αιγόξηζκνη

ΔΦΑΡΜΟΜΔΝΑ ΜΑΘΗΜΑΣΙΚΑ ΣΗ ΧΗΜΔΙΑ Ι ΘΔΜΑΣΑ Α επηέκβξηνο Να ππνινγηζηνύλ νη κεξηθέο παξάγσγνη πξώηεο ηάμεο ηεο ζπλάξηεζεο f(x,y) =

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αζκήζεις ζτ.βιβλίοσ ζελίδας 13 14

ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ. Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη Εήηημα 1 ο :

Ανάλυση Συσχέτισης IΙ

Ενδεικτικά Θέματα Στατιστικής ΙΙ

Κανόνες Συσχέτισης IIΙ

TOOLBOOK (μάθημα 2) Δεκηνπξγία βηβιίνπ θαη ζειίδσλ ΠΡΟΑΡΜΟΓΗ: ΒΑΛΚΑΝΙΩΣΗ ΔΗΜ. ΕΚΠΑΙΔΕΤΣΙΚΟ ΠΕ19 1 TOOLBOOK ΜΑΘΗΜΑ 2

ΚΕΦ. 2.3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΤΙΚΗ ΣΚΥΤΑΛΟΓΡΟΜΙΑ 2015 ΓΙΑ ΤΟ ΓΥΜΝΑΣΙΟ Τεηάπηη 28 Ιανουαπίου 2015 ΛΔΥΚΩΣΙΑ Τάξη: Α Γυμναζίου

ΑΛΛΑΓΗ ΟΝΟΜΑΣΟ ΚΑΙ ΟΜΑΔΑ ΕΡΓΑΙΑ, ΚΟΙΝΟΥΡΗΣΟΙ ΦΑΚΕΛΟΙ ΚΑΙ ΕΚΣΤΠΩΣΕ ΣΑ WINDOWS XP

ΔΕΟ 13. Ποσοτικές Μέθοδοι. θαη λα ππνινγίζεηε ην θόζηνο γηα παξαγόκελα πξντόληα. Να ζρεδηαζηεί γηα εύξνο πξντόλησλ έσο

Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική ΑΔ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Αζθήζεηο 5 νπ θεθαιαίνπ Crash course Step by step training. Dipl.Biol.cand.med. Stylianos Kalaitzis

Ο Αλγόριθμος FP-Growth

H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ

Κανόνες Συσχέτισης IΙ

f '(x)g(x)h(x) g'(x)f (x)h(x) h'(x) f (x)g(x)

Γοκή επαλάιευες Δληοιές Όζο & Μέτρης_όηοσ

x-1 x (x-1) x 5x 2. Να απινπνηεζνύλ ηα θιάζκαηα, έηζη ώζηε λα κελ ππάξρνπλ ξηδηθά ζηνπο 22, 55, 15, 42, 93, 10 5, 12

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη

Αιγόξηζκνη Γνκή επηινγήο. Πνιιαπιή Δπηινγή Δκθωιεπκέλεο Δπηινγέο. Δηζαγωγή ζηηο Αξρέο ηεο Δπηζηήκεο ηωλ Η/Υ. introcsprinciples.wordpress.

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

ηδάζθσλ: εµήηξεο Εετλαιηπνύξ

EL Eνωμένη στην πολυμορυία EL A8-0046/319. Τροπολογία

ΠΛΗ36. Άσκηση 1. Άσκηση 2. Οη δηεπζύλζεηο ησλ 4 σλ ππνδηθηύσλ είλαη νη αθόινπζεο. Υπνδίθηπν Α: /27 Υπνδίθηπν Β:

Asocijativna analiza

Constructors and Destructors in C++

ΘΔΜΑ 1 ο Μονάδες 5,10,10

Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση

Γ ΣΑΞΖ ΔΝΗΑΗΟΤ ΛΤΚΔΗΟΤ ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΘΔΣΗΚΩΝ ΚΑΗ ΟΗΚΟΝΟΜΗΚΩΝ ΠΟΤΓΩΝ ΤΝΑΡΣΖΔΗ ΟΡΗΑ ΤΝΔΥΔΗΑ (έως Θ.Bolzano) ΘΔΜΑ Α

x x x x tan(2 x) x 2 2x x 1

Ανάπηςξη Δθαπμογών ζε Ππογπαμμαηιζηικό Πεπιβάλλον

ΚΔΦ. 2.4 ΡΗΕΔ ΠΡΑΓΜΑΣΗΚΩΝ ΑΡΗΘΜΩΝ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙ ΜΟ

Κανόνες συσχέτισης Association rules

Αντισταθμιστική ανάλυση

ΠΑΡΑΡΣΗΜΑ Δ. ΔΤΡΔΗ ΣΟΤ ΜΔΣΑΥΗΜΑΣΙΜΟΤ FOURIER ΓΙΑΦΟΡΩΝ ΗΜΑΣΩΝ

ΔΝΓΔΙΚΣΙΚΔ ΛΤΔΙ ΣΑ ΜΑΘΗΜΑΣΙΚΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ 2017

Έλαο πίνακας σσμβόλων ππνζηεξίδεη δύν βαζηθέο ιεηηνπξγίεο:

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γεσηέρα 10 Ηοσνίοσ 2019 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Κεθάλαιο 7. Πξνζθνξά ηνπ θιάδνπ Μ. ΨΥΛΛΑΚΗ

ΓΙΑΙΡΔΣΟΣΗΣΑ. Οπιζμόρ 1: Έζηω d,n. Λέκε όηη ν d δηαηξεί ηνλ n (ζπκβνιηζκόο: dn) αλ. ππάξρεη c ηέηνην ώζηε n. Θεώπημα 2: Γηα d,n,m,α,b ηζρύνπλ:

ΟΠΤΙΚΗ Α. ΑΝΑΚΛΑΣΖ - ΓΗΑΘΛΑΣΖ

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γευηέρα 11 Ηουνίου 2018 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

Διαηιμήζεις για Αιολικά Πάρκα. Κώδικες 28, 78 και 84

Επωηήζειρ Σωζηού Λάθοςρ ηων πανελλαδικών εξεηάζεων Σςναπηήζειρ

1 Είζοδορ ζηο Σύζηημα ΣΔΕΔ ή BPMS

Απαντήσεις θέματος 2. Παξαθάησ αθνινπζεί αλαιπηηθή επίιπζε ησλ εξσηεκάησλ.

ΡΤΘΜΙΕΙ ΔΙΚΣΤΟΤ ΣΑ WINDOWS

Φςζική Πποζαναηολιζμού Γ Λςκείος. Αζκήζειρ Ταλανηώζειρ 1 ο Φςλλάδιο

B-Δέλδξα. Τα B-δέλδξα ρξεζηκνπνηνύληαη γηα ηε αλαπαξάζηαζε πνιύ κεγάισλ ιεμηθώλ πνπ είλαη απνζεθεπκέλα ζην δίζθν.

Δξγαιεία Καηαζθεπέο 1 Σάμε Σ Δ.Κ.Φ.Δ. ΥΑΝΙΧΝ ΠΡΧΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ. ΔΝΟΣΗΣΑ 11 ε : ΦΧ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Φαθόο κε ζσιήλα.

ΔΝΓΔΙΚΤΙΚΔΣ ΛΥΣΔΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΔΥΘΥΝΣΗΣ Γ ΛΥΚΔΙΟΥ ΓΔΥΤΔΡΑ 27 ΜΑΪΟΥ 2013

Ζαχαρίας Μ. Κοντοπόδης Εργαστήριο Λειτουργικών Συστημάτων ΙΙ

Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν

Πολυεπίπεδα/Διασυμδεδεμέμα Δίκτυα

ΓΗΜΟΙΑ ΟΙΚΟΝΟΜΙΚΗ ΣΟΜΟ Γ

Η/Υ A ΤΑΞΕΩΣ ΑΕ Συστήματα Αρίθμησης. Υποπλοίαρχος Ν. Πετράκος ΠΝ

Άμεσοι Αλγόριθμοι: Προσπέλαση Λίστας (list access)

ΑΠΑΝΤΗΣΔΙΣ ΓΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ II ΔΠΑΛ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΦΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Μάθημα: Πιθανόηηηες και Σηαηιζηική Διδάζκων: Σ. Γ.

Βιομησανικόρ ζσεδιαζμόρ πποϊόνηων από ανακςκλωμένερ ζςζκεςαζίερ

Παιχνίδι γλωζζικής καηανόηζης με ζχήμαηα!

Σήκαηα Β Α Γ Γ Δ Λ Η Σ Ο Ι Κ Ο Ν Ο Μ Ο Υ Γ Ι Α Λ Δ Ξ Η - ( 2 ) ΕΙΣΑΓΨΓΗ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΨΝΙΕΣ

ΣΥΣΤΗΜΑΤΑ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ. 1. Να ιπζνύλ ηα ζπζηήκαηα. 1 0,3x 0,1y x 3 3x 4y 2 4x 2y ( x 1) 6( y 1) (i) (ii)

ΦΥΣΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ. G. Mitsou

Οργάνωση και Δομή Παρουσιάσεων

Α. Εηζαγσγή ηεο έλλνηαο ηεο ηξηγσλνκεηξηθήο εμίζσζεο κε αξρηθό παξάδεηγκα ηελ εκx = 2

ΒΗΜΑ 2. Εηζάγεηε ηνλ Κωδηθό Πξόζβαζεο πνπ ιακβάλεηε κε SMS & δειώλεηε επηζπκεηό Όλνκα Πξόζβαζεο (Username) θαη ην ζαο

Η επιζκόπηζη ηης έμμιζθης ενηολής ζηην Αλλοδαπή. Καηεξίλα Γαιαλνπνύινπ, Intellectual Property Manager, Microsoft Ειιάο Α.Ε.

Σρήκα Α. Γξάθνπκε ηα ζηνηρεία ηνπ Πξνκεζεπηή θαη παηάκε Δηζαγσγή. Σρήκα Β1

MySQL Εργαστήριο #5 Ενεργοποιητές (συνέχεια)

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΘΔΚΑ ΡΖΠ ΑΛΑΓΛΩΟΗΠΖΠ

Image J Plugin particle tracker για παρακολούθηση της κίνησης σωματιδίων

ΕΞΙΣΩΣΕΙΣ. Α. Πρωτοβάθμιεσ Εξιςώςεισ. Β. Διερεφνηςη Εξιςώςεων. 1x είναι αδφνατθ. x 1 x 1. Άλγεβρα Α Λυκείου

ΗΥ-150 Πξνγξακκατησκόο Ταμηλόκεσε θαη Αλαδήτεσε

Έκδοζη /10/2014. Νέα λειηοσργικόηηηα - Βεληιώζεις

Μηα ζπλάξηεζε κε πεδίν νξηζκνύ ην Α, ζα ιέκε όηη παξνπζηάδεη ηοπικό μέγιζηο ζην, αλ ππάξρεη δ>0, ηέηνην ώζηε:

ΑΝΤΗΛΙΑΚΑ. Η Μηκή ζθέθηεθε έλαλ ηξόπν, γηα λα ζπγθξίλεη κεξηθά δηαθνξεηηθά αληειηαθά πξντόληα. Απηή θαη ν Νηίλνο ζπλέιεμαλ ηα αθόινπζα πιηθά:

ΔΙΑΚΡΙΤΑ ΜΑΘΗΜΑΤΙΚΑ. Αθροίσματα, Γινόμενα και Ασσμπτωτικές Εκτιμήσεις

Να ζρεδηάζεηο ηξόπνπο ζύλδεζεο κηαο κπαηαξίαο θαη ελόο ιακπηήξα ώζηε ν ιακπηήξαο λα θσηνβνιεί.

IV Ο ΕΛΛΗΝΙΜΟ ΣΗ ΔΤΗ,ΠΟΛΙΣΙΜΟΙ Δ.ΜΕΟΓΕΙΟΤ ΚΑΙ ΡΩΜΗ

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΣΥΝΔΥΑΣΤΙΚΑ ΚΥΚΛΩΜΑΤΑ

Ηλεκηπονικά Απσεία και Διεπαθέρ

Κινητός και Διάχυτος Υπολογισμός (Mobile & Pervasive Computing)

ΕΞΙΣΩΣΕΙΣ. (iv) (ii) (ii) (ii) 5. Γηα ηηο δηάθνξεο ηηκέο ηνπ ι λα ιπζνύλ νη εμηζώζεηο : x 6 3 9x

Transcript:

Απνζήθεο Γεδνκέλσλ θαη Δμόξπμε Γεδνκέλσλ: Θαλόλεο Σπζρέηηζεο: Κέξνο Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/

Δπραξηζηίεο Οη δηαθάλεηεο ηνπ καζήκαηνο ζε γεληθέο γξακκέο αθνινπζνύλ ην ζύγγξακκα «Δηζαγσγή ζηελ Δμόξπμε θαη ηηο Απνζήθεο Γεδνκέλσλ» Xξεζηκνπνηήζεθε επηπιένλ πιηθό από ηα βηβιία «Introduction to Data Mining» ησλ Tan, Steinbach, Kumar, θαη «Data Mining: Concepts and Techniques» ησλ Jiawei Han, Micheline Kamber. 2

Σπζρεηίζεηο Θαλόλεο γηα ηηο ζρέζεηο κεηαμύ ησλ αληηθεηκέλσλ. Παξάδεηγκα: Γεκεηξηαθά, γάια θξνύηα ηα άηνκα πνπ αγόξαζαλ δεκεηξηαθά θαη γάια, αγόξαζαλ επίζεο θαη θξνύηα. Σθνπόο: Π.ρ., κπνξεί λα γίλεη εηδηθή πξνζθνξά γηα όζνπο αγνξάδνπλ γάια θαη δεκεηξηαθά, λα αγνξάζνπλ θαη θξνύηα ζε θαιύηεξεο ηηκέο. 3

Αλάιπζε θαιαζηνύ αγνξώλ Αλάιπζε ησλ ζπλαιιαγώλ Φσξίο ηελ πιεξνθνξία γηα ην πιήζνο αληηθεηκέλσλ Person A B C D Basket Chips, Salsa, Cookies, Crackers, Coke, Beer Lettuce, Spinach, Oranges, Celery, Apples, Grapes Chips, Salsa, Frozen Pizza, Frozen Cake Lettuce, Spinach, Milk, Butter Πσο κπνξνύκε λα ειέγρνπκε ππνζέζεηο; Chips => Salsa Lettuce => Spinach 4

Οξηζκνί Έζησ I ={i 1,, i m } ην ζύλνιν ησλ αληηθεηκέλσλ. Έζησ D ην ζύλνιν ησλ ζπλαιιαγώλ Όπνπ γηα θάζε T D, T I Σηνηρεηνζύλνιν (Itemset ) X: θάζε X I k-itemset: X = k Τν X πεξηέρεηαη ζηε ζπλαιιαγή T, αλ X T ππνζηήξημε s(x): πνζνζηό ζπλαιιαγώλ πνπ πεξηέρνπλ ην X { T T D, X T} s( X ) D 5

Θαλόλεο Σπζρέηηζεο: Υπνζηήξημε θη εκπηζηνζύλε Θαλόλαο Beer Diaper Υπνζηήξημε (support) s: πηζαλόηεηα κία ζπλαιιαγή λα πεξηέρεη {Beer Diaper} Δκπηζηνζύλε (confidence) c: ππνζπλζήθε πηζαλόηεηα κία ζπλαιιαγή πνπ πεξηέρεη {Beer} λα πεξηέρεη επίζεο θαη Diaper Customer buys beer Customer buys both Customer buys diaper Κυδ. Σςναλλαγήρ Ανηικείμενα 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F A C (50%, 66.6%) C A (50%, 100%) 6

Κανόνερ Σςζσέηιζηρ: Οπιζμόρ Πποβλήμαηορ Κανόναρ Σςζσέηιζηρ (Association rule): X Y, X I, Y I, X Y = Υποζηήπιξη Κανόνα = s(x Y) Δμπιζηοζύνη Κανόνα = s(x Y) / s(x) Ππόβλημα: Βπερ όλοςρ ηοςρ κανόνερ ζςζσέηιζηρ με εμπιζηοζύνη ίζη ή μεγαλύηεπη από MINCONF και ςποζηήπιξη ίζη ή μεγαλύηεπη από MINSUP Πποζοσή: αν X Y, Y Z, αςηό δεν ζημαίνει όηι X Z καθώρ ο X Z μποπεί να μην έσει ηην απαιηούμενη ςποζηήπιξη ή εμπιζηοζύνη. 7

Δξόπςξη Κανόνυν Σςζσέηιζηρ - Παπάδειγμα Κυδ. Σςναλλαγήρ Ανηικείμενα 2000 A,B,C 1000 A,C 4000 A,D Για ηον κανόνα A C: support = support({a C}) = 50% Διάρηζηε ππνζηήξημε: 50% Διάρηζηε εκπηζηνζύλε: 50% 5000 B,E,F Σςσνά ζηοισειοζύνολα Υποζηήπιξη {A} 75% {B} 50% {C} 50% {A,C} 50% confidence = support({a C})/support({A}) = 66.6% 8

Δξόπςξη Κανόνυν Σςζσέηιζηρ Γύο βαζικά βήμαηα - ςποπποβλήμαηα Βπερ όλα ηα ζςσνά ζηοισειοζύνολα Γηλ. ηα ζηοισειοζύνολα πος ικανοποιούν ηον πεπιοπιζμό ελάσιζηηρ ςποζηήπιξηρ. Βπερ ζςσνούρ και αξιόπιζηοςρ κανόνερ ζςζσέηιζηρ Γημιούπγηζε κανόνερ ζςζσέηιζηρ από ηα ζςσνά ζηοισειοζύνολα. Κπάηηζε μόνο αςηούρ πος ικανοποιούν ηον πεπιοπιζμό ελάσιζηηρ εμπιζηοζύνηρ. 9

Γημιοςπγία ζςσνών ζηοισειοζςνόλυν Αφελής (naive) αλγόριθμος: n D for each subset s of I do m 0 for each transaction T in D do if s is a subset of T then m m + 1 if minimum support m/n then add s to frequent subsets 10

Ανάλςζη αθελούρ αλγοπίθμος Έζηυ n ζςναλλαγέρ από m ανηικείμενα. O(2 m ) ςποζύνολα s ηος I Γιάβαζμα n ζςναλλαγών για κάθε ένα ςποζύνολο O(2 m n) έλεγσοι για ηο πλήθορ εμθανίζευν ηυν ςποζςνόλυν s. Η αύξηζη είναι εκθεηική με ηον απιθμό ηυν ανηικειμένυν! Μποπούμε να βεληιώζοςμε ηην απόδοζη; Μειώνονηαρ ηα ςποζύνολα πος ελέγσοςμε. Μειώνονηαρ ηιρ ζςγκπίζειρ. 11

Αξρή Apriori: Κείσζε ππνςεθίσλ ζπρλώλ ζηνηρεηνζπλόισλ: Apriori Αλ έλα ζηνηρεηνζύλνιν είλαη ζπρλό, ηόηε όια ηα ππνζύλνιά ηνπ είλαη επίζεο ζπρλά. Ηζρύεη ιόγσ ηεο αθόινπζεο ηδηόηεηαο ζρεηηθά κε ηελ ππνζηήξημε: X, Y : ( X Y ) s( X ) s( Y ) Ζ ππνζηήξημε ελόο ζηνηρεηνζπλόινπ πνηέ δελ ππεξβαίλεη ηελ ππνζηήξημε ησλ ππνζπλόισλ ηνπ. Απηή ε ηδηόηεηα είλαη γλσζηή σο ε αληη-κνλόηνλε ηδηόηεηα ηεο ππνζηήξημεο. 12

Αλαπαξάζζηαζε ηεο αξρήο Apriori null A B C D E AB AC AD AE BC BD BE CD CE DE Έζησ όηη βξέζεθε κε ζπρλό ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ABCDE Θιαδεκέλα ζηνηρεηνζύλνια 13

Παξάδεηγκα εθαξκνγήο ηνπ Apriori Item Count Bread 4 Coke 2 Milk 4 Beer 3 Diaper 4 Eggs 1 Minimum Support = 3 Κνλά αληηθείκελα (1-itemsets) Itemset Count {Bread,Milk} 3 {Bread,Beer} 2 {Bread,Diaper} 3 {Milk,Beer} 2 {Milk,Diaper} 3 {Beer,Diaper} 3 Εεύγε (2-itemsets) (Γελ ρξεηάδεηαη ε δεκηνπξγία δεπγώλ πνπ πεξηέρενπλ Coke ή Eggs) Αλ ειέγρακε όια ηα ζηνηρεηνζύλνια: 6 C 1 + 6 C 2 + 6 C 3 = 41 Κε θιάδεκα ιόγσ ηεο αξρήο Apriori: 6 + 6 + 1 = 13 Itemset Count {Bread,Milk,Diaper} 3 Τξηπιέηεο (3-itemsets) 14

Ο Αιγόξηζκνο Apriori Join Step: C k is generated by joining L k-1 with itself Prune Step: Any (k-1)-itemset that is not frequent cannot be a subset of a frequent k-itemset Pseudo-code: C k : Candidate itemsets of size k L k : frequent itemsets of size k L 1 = {frequent items}; for (k = 1; L k!= ; k++) do begin C k+1 = candidates generated from L k ; //επόκελε δηαθάλεηα for each transaction t in database do //δηαθάλεηα 18 increment the count of all candidates in C k+1 that are contained in t L k+1 = candidates in C k+1 with min_support end return k L k 15

Γεκηνπξγία ππνςήθησλ ζηνηρεηνζπλόισλ Έζησ όηη ηα αληηθείκελα L k-1 ηαμηλνκνύληαη (π.ρ., ιεμηθνγξαθηθά) Βήκα 1: ζύλδεζε ηνπ L k-1 κε ηνλ εαπηό ηνπ γηα ηα ζηνηρεηνζύλνια κε θνηλά ηα πξώηα k-2 αληηθείκελα insert into C k select p.item 1, p.item 2,, p.item k-1, q.item k-1 from L k-1 p, L k-1 q where p.item 1 =q.item 1,, p.item k-2 =q.item k-2, p.item k-1 < q.item k-1 Βήκα 2: θιάδεκα forall itemsets c in C k do forall (k-1)-subsets s of c do if (s is not in L k-1 ) then delete c from C k 16

Παξάδεηγκα L 3 ={abc, abd, acd, ace, bcd} Self-joining: L 3 *L 3 abcd από abc θαη abd acde από acd θαη ace Θιάδεκα: acde: δηαγξάθεηαη γηαηί ην ade δελ είλαη ζην L 3 C 4 ={abcd} 17

Πσο κεηξάηαη ε ππνζηήξημε; Κέηξεζε ππνζηήξημεο γηα ππνςήθηα ζπρλά ζηνηρεηνζύλνια: Γηάβαζε ηηο ζπλαιιαγέο γηα λα δηαπηζησζεί ε ππνζηήξημε γηα θάζε έλα ππνςήθην ζπρλό ζηνηρεηνζύλνιν. Γηα κείσζε ησλ ζπγθξίζεσλ, απνζήθεπζε ηα ππνςήθηα ΣΣ ζε κία δνκή θαηαθεξκαηηζκνύ. Αληί λα ειέγρεηαη θάζε ζπλαιιαγή κε θάζε ππνςήθην ΣΣ, ειέγρεηαη κόλν κε ηα ΣΣ ζηνπο θάδνπο ηεο δνκήο. Transactions Hash Structure N TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke k Buckets 18

Παξάδεηγκα b (αξηζκόο παηδηώλ)=2, c (κέγεζνο θύιισλ) =3 ζην παξάδεηγκα Όθελορ: μία ζάπυζη όλυν ηυν ζςναλλαγών για όλα ηα ςποτήθια ζύνολα οπιζμένος μήκοςρ 19

Αλγόπιθμορ Apriori: Σςνολικό Παπάδειγμα Database D TID Items 100 1 3 4 200 2 3 5 300 1 2 3 5 400 2 5 itemset sup {1 3} 2 {2 3} 2 {2 5} 3 {3 5} 2 Scan D itemset sup. {1} 2 {2} 3 {3} 3 {4} 1 {5} 3 C 1 L 1 itemset sup {1 2} 1 {1 3} 2 {1 5} 1 {2 3} 2 {2 5} 3 {3 5} 2 L 2 Scan D C 2 C 2 C 3 itemset Scan D L 3 {2 3 5} itemset sup {2 3 5} 2 itemset sup. {1} 2 {2} 3 {3} 3 {5} 3 itemset {1 2} {1 3} {1 5} {2 3} {2 5} {3 5} 20

Minsup = 2 Άιιν έλα παξάδεηγκα 21

Another example of Apriori 22

Γεκηνπξγία θαλόλσλ (2 ν ππνπξόβιεκα) Γεδνκέλνπ ελόο ζπρλνύ ζηνηρεηνζπλόινπ ΣΣ L, βξεο όια ηα κε θελά ππνζύλνια f L νύησο ώζηε ν θαλόλαο f L f να ικανοποιεί ηην ελάσιζηη εμπιζηοζύνη Αλ {A,B,C,D} είλαη ΣΣ, νη ππνςήθηνη θαλόλεο είλαη: ABC D, ABD C, ACD B, BCD A, A BCD, B ACD, C ABD, D ABC AB CD, AC BD, AD BC, BC AD, BD AC, CD AB, Αλ L = k, ηόηε ππάξρνπλ 2 k 2 ππνςήθηνη θαλόλεο ζπζρέηηζεο (εμαηξώληαο ηνπο L θαη L) 23

Γεκηνπξγία Θαλόλσλ - Αληηκνλνηνληθόηεηα Απνδνηηθή δεκηνπξγία θαλόλσλ από ΣΣ. Γεληθά, δελ ηζρύεη ε αληηκνλνηνληθή ηδηόηεηα ζηελ εκπηζηνζύλε c(abc D) <> c(ab D) ΑΙΙΑ ηζρύεη όηαλ νη θαλόλεο έρνπλ δεκηνπξγεζεί από ην ΗΓΗΟ ζπρλό ζηνηρεηνζύλνιν. Π.ρ, L = {A,B,C,D}: c(abc D) c(ab CD) c(a BCD) Ζ εκπηζηνζύλε είλαη αληηκνλόηνλε όζνλ αθνξά ηνλ αξηζκό ησλ ζηνηρείσλ ην δεμί θνκκάηη ηνπ θαλόλα. 24

Παξάδεηγκα Θαλόλαο κε ρακειή εκπηζηνζύλε ABCD=>{ } BCD=>A ACD=>B ABD=>C ABC=>D CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD Υπνςήθηνη Θαλόλεο πνπ δηαγξάθνληαη D=>ABC C=>ABD B=>ACD A=>BCD 25

Κέζνδνη βειηίσζεο ηεο απνδνηηθόηεαηο ηνπ Apriori Κέηξεζε ππνζηήξημεο ζηνηρεηνζπλόισλ βαζηζκέλε ζε θαηαθεξκαηηζκό: Έλα k-ζηνηρεηνζύλνιν κε κέγεζνο ηνπ αληίζηνηρνπ θάδνπ θάησ από ην θαηώθιη, δελ κπνξεί λα είλαη ζπρλό. Κείσζε ζπλαιιαγώλ: Κία ζπλαιιαγή πνπ δελ πεξηέρεη θαλέλα ζπρλό k-ζηνηρεηνζύλνιν κπνξεί λα αγλνεζεί ζε κεηαγελέζηεξεο ζαξώζεηο. Θαηάηκεζε: Έλα ππνςήθην ζηνηρεηνζύλνιν πξέπεη λα είλαη ζπρλό ζε ηνπιάρηζηνλ έλα ηκήκα ηεο ΒΓ. Γεηγκαηνιεςία: εμόξπμε ζε έλα δείγκα ησλ δεδνκέλσλ, κηθξόηεξν θαηώθιη ππνζηήξημεο, κέζνδνο γηα επίηεπμε πιεξόηεηαο. Γπλακηθή κέηξεζε ππνζηήξημεο: πξνζζήθε λέσλ ππνςήθησλ ζηνηρεηνζπλόισλ όηαλ όια ηα ππνζύλνιά ηνπο είλαη ζπρλά. 26

Κέζνδνο βαζηζκέλε ζε θαηαθεξκαηηζκό C2 = comb( L1, 2) = O( L1 2 ) L1 θζάλεη ηηο ρηιηάδεο, C2 bottleneck Θαζώο κεηξάηαη ε ππνζηήξημε ηνπ C1 Βξεο ηα 2-ζηνηρεηνζύλνια ζε θάζε ζπλαιιαγή. Δθάξκνζε θαηαθεξκαηηζκό κεηξώληαο ην κέγεζνο ησλ θάδσλ. Αλ έλα 2-ζηνηρεηνζύλνιν αλήθεη ζε θάδν κε κέγεζνο κηθξόηεξν από MINSUP, ηόηε δελ είλαη ζπρλό. 27

Παπάδειγμα 100 ACD 200 BCE 300 ABCE 400 BE 3 {C,E} 3 {B,C} C 1 {A} (2) {B} (3) {C} (3) {D} (1) {E} (3) 0 3 L 1 {A} {B} {C} {E} {B,E} 1 {A,B} L 1 x L 1 {A,B} {A,C} {A,E} {B,C} {B,E} {C,E} 3 {A,C} C 2 {A,Β} {A,C} {A,E} {B,C} {B,E} {C,E} Min sup = 2 {C,E} {B,C} {B,E} {C,D} {A,D} {A,E} {B,E} {A,C} 28

Κείσζε ζπλαιιαγώλ Θαζώο ππνινγίδεηαη ην C k (k θάζε) Έλα αληηθείκελν ζε κηα ζπλαιιαγή t κπνξεί λ αθαηξεζεί αλ δελ εκθαλίδεηαη ζε ηνπιάρηζηνλ k ζηνηρεία ηνπ C k. Παξάδεηγκα: ηα ABC, ABD, BCD είλαη ππνςήθηα ζηνηρεηνζύλνια ελώ ην ACD δελ είλαη Αλ κία ζπλαιιαγή t πεξηέρεη ην A, ηόηε ην A κπνξεί λα αθεξαηζεί από ην t, επεηδή δελ ζα ζπκκεηέρεη ζε κειινληηθνύο ειέγρνπο (ην ABCD δελ ζα δεκηνπξγεζεί) Αλ ε ζπλαιιαγή t δελ πεξηέρεη πεξηζζόηεξα από k αληηθείκελα, αθαηξείηαη. 29

Παπάδειγμα 100 ACD 200 BCE 300 ABCE 400 BE 100 ACD 200 BCE 300 ABCE 400 BE C 1 {A} (2) {B} (3) {C} (3) {D} (1) {E} (3) {C} {B,C,E} {B,C,E} {B,E} L 2 {A,C} {B,C} {B,E} {C,E} Αθαίξεζε Α (θαη D σο κε ζπρλό) Θακία αιιαγή Αθαίξεζε Α Αθαίξεζε εγγξαθήο Τν Α αθαηξείηαη γηαηί δελ κπνξεί λα ζπκκεηάζρεη ζε 3-ΣΣ, εκθαλίδεηαη κόλν κηα θνξά ζην L 2. 30

Τκεκαηνπνίεζε (Partitioning) Ινγηθή θαηάηκεζε ηεο ΒΓ ζε κε αιιεινεπηθαιππηόκελα ηκήκαηα Θάζε ηκήκα ρσξάεη εμ νινθιήξνπ ζηελ κλήκε Δύξεζε ησλ ζπρλώλ ζηνηρεηνζπλόισλ ζε θάζε ηκήκα Όιεο νη θάζεηο επηηεινύληαη ζηελ θύξηα κλήκε, κόλν κία θνξά ην θάζε ηκήκα δηαβάδεηαη από ηνλ δίζθν. Θαζνξηζκόο πνηα ζύλνια είλαη θαη ζπλνιηθά ζπρλά. Κία ζάξσζε ηεο ΒΓ. Θαλέλα ζπρλό ζηνηρεηνζύλνιν δε ράλεηαη. 31

Αιγόξηζκνο partition_database(d) n = Number of partitions //Phase I for i=1 to n do read i -th partition L i = gen_all_large_itemsets(i-th partition) C = L 1 L n //Phase II for i=1 to n do read i -th partition for each candidate c C update c.count L = {c c C, c.count MINSUP} 32

Παξάδεηγκα 33

Οξζόηεηα Θαλέλα ζπρλό ζηνηρεηνζύλνιν δελ πξέπεη λα ράλεηαη. Έλα ζπλνιηθά ζπρλό ζηνηρεηνζύλνιν X δε ράλεηαη αλ είλαη ππνςήθην ζηε 2ε θάζε, δει. αλ είλαη ζπρλό ζε ηνπιάρηζηνλ έλα ηκήκα. Έζησ X έλα ζπλνιηθά ζπρλό ζύλνιν πνπ δελ είλαη ηνπηθά ζπρλά πνπζελά. Θα δνύκε όηη απηό είλαη αδύλαην λα ζπκβεί. Έζησ t(x,p i ) ην πιήζνο ησλ εκθαλίζεσλ ηνπ Φ ζην i-νζηό ηκήκα. Απόδεημε: t(x, P i ) < MINSUP P i 1 i n Σ t(x, P i ) < MINSUP Σ P i t(x, D) < MINSUP D s(x) < MINSUP (contradiction) 34

Κέγεζνο ππνςεθίσλ ζπλόισλ ζηε 2ε θάζε Μποπούμε να κάνοςμε ηην παπαδοσή όηι ηο μέγεθορ C από όλα ηα ηοπικά ΣΣ είναι απκεηά μικπό Και ζςγκπίζιμο με ηο L (global large) Το ίδιο MINSUP σπηζιμοποιείηαι, άπα κανείρ θα πεπίμενε να είναι ίδιο με ηο L Σηη σειπόηεπη πεπίπηυζη n L Σηην ππάξη, ςπάπσει επικάλςτη (ηο ίδιο ΣΣ ζε διαθοπεηικά ημήμαηα) Για μικπό n, C κονηά ζηο L Για μεγαλύηεπα n, C πιο μεγάλο αλλά όσι n L 35

Γεηγκαηνιεςία Βαζηθή ηδέα Πάξε ηπραίν δείγκα s από ηε ΒΓ D Βξεο ΣΣ S ζην δείγκα s Έιεγμε πνηα είλαη ηα ζύλνια ζην S θαη ζην αξλεηηθό όξην (επόκελε δηαθάλεηα) είλαη ζπρλά θαη ζην D (έλα ζάξσκα ηεο βάζεο) Δληνπηζκόο ηπρόλ επηπιένλ ΣΣ (πηζαλώο δει. θαη 2 ν ζάξσκα) Θέξδε Ζ εμόξπμε ζην s δελ θνζηίδεη ζε I/O Θαιύηεξε πεξίπησζε 1 ζάξσκα, 2 ζηε ρεηξόηεξε. 36

Αξλεηηθό όξην - Negative border Σηοισειοζύνολα ηυν οποίυν καηαμεηπήθηκε η ςποζηήπιξη και δεν βπέθηκαν ζςσνά. Ή αςηά ηυν οποίυν όλα ηα ςποζύνολα είναι ζςσνά. 37

Οξζόηεηα Ο ζηόρνο είλαη λα κελ ραζνύλ ζηνηρεηνζύλνια πνπ είλαη ζπρλά ζε όιε ηε βάζε Αλ ην X είλαη ζπρλό ζηε D, αιιά όρη ζην δείγκα S, ηόηε Y X, Y Bd-(S) Διέγρνπκε αλ θάπνην ζύλνιν ζην Bd-(S) είλαη ζπρλό ζε όιε ηε βάζε D Δπηινγή ηνπ Minsup ζην S έηζη ώζηε ε πηζαλόηεηα αξρηθήο απνηπρίαο λα είλαη κηθξή αιιά ηα αξρηθά ζηνηρεηνζύλνια λα ρσξνύλ ζηελ κλήκε. 38

Παξάδεηγκα Domain = {A, B, C, D, E, F}, minsup = 25% Γείγκα = {A,B,C}, {A,C,F}, {A,D}, {B,D} Minsup=1, C 1 : Α 3, Β 2, C 2, D 2, E 0, F 1 C 2 : AB 1, AC 2, AD 1, AF 1, BC 1, BD 1, BF 0, CD 0, CF 1, DF 0 Bd-(S) = {B,F}, {C,D}, {D,F}, {E} Υπνςήθηα ζύλνια πνπ δελ βξέζεθαλ ζπρλά ζην δείγκα Έζησ L = {A,B}, {B,F}, {A,C,F} ζπρλά ζε όιε ηε ΒΓ D Κε όια ηα ππνζύλνιά ηνπο πξνθαλώο {B,F} είλαη κηα απνηπρία γηαηί είλαη ζην L αιιά δελ βξέζεθε ζπρλό ζην δείγκα πεξηέρεηαη όκσο ζην Bd-(S) θη έηζη δελ ράλεηαη. ΌΚΩΣ {A,B},{B,F} θαη {A,F} δεκηνπξγνύλ ην {A,B,F} πνπ πηζαλώο λα είλαη ζπρλό αιιά δελ έρεη κεηξεζεί ε ππνζηήξημή ηνπ. 39