Αιγνξηζκηθή Δπηζηήκε Γεδνκέλσλ

Σχετικά έγγραφα
Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη

ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ. Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη Εήηημα 1 ο :

ΔΝΓΔΙΚΣΙΚΔ ΛΤΔΙ ΣΑ ΜΑΘΗΜΑΣΙΚΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ 2017

Δπηιέγνληαο ην «Πξνεπηινγή» θάζε θνξά πνπ ζα ζπλδέεζηε ζηελ εθαξκνγή ζα βξίζθεζηε ζηε λέα ρξήζε.

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ

Αζκήζεις ζτ.βιβλίοσ ζελίδας 13 14

Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση

Γοκή επαλάιευες Δληοιές Όζο & Μέτρης_όηοσ

B-Δέλδξα. Τα B-δέλδξα ρξεζηκνπνηνύληαη γηα ηε αλαπαξάζηαζε πνιύ κεγάισλ ιεμηθώλ πνπ είλαη απνζεθεπκέλα ζην δίζθν.

Η/Υ A ΤΑΞΕΩΣ ΑΕ Συστήματα Αρίθμησης. Υποπλοίαρχος Ν. Πετράκος ΠΝ

ΔΝΓΔΙΚΤΙΚΔΣ ΛΥΣΔΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΔΥΘΥΝΣΗΣ Γ ΛΥΚΔΙΟΥ ΓΔΥΤΔΡΑ 27 ΜΑΪΟΥ 2013

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γευηέρα 11 Ηουνίου 2018 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

Γ ΣΑΞΖ ΔΝΗΑΗΟΤ ΛΤΚΔΗΟΤ ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΘΔΣΗΚΩΝ ΚΑΗ ΟΗΚΟΝΟΜΗΚΩΝ ΠΟΤΓΩΝ ΤΝΑΡΣΖΔΗ ΟΡΗΑ ΤΝΔΥΔΗΑ (έως Θ.Bolzano) ΘΔΜΑ Α

Επωηήζειρ Σωζηού Λάθοςρ ηων πανελλαδικών εξεηάζεων Σςναπηήζειρ

Constructors and Destructors in C++

Α. Εηζαγσγή ηεο έλλνηαο ηεο ηξηγσλνκεηξηθήο εμίζσζεο κε αξρηθό παξάδεηγκα ηελ εκx = 2

Άμεσοι Αλγόριθμοι: Προσπέλαση Λίστας (list access)

ΔΦΑΡΜΟΜΔΝΑ ΜΑΘΗΜΑΣΙΚΑ ΣΗ ΧΗΜΔΙΑ Ι ΘΔΜΑΣΑ Α επηέκβξηνο Να ππνινγηζηνύλ νη κεξηθέο παξάγσγνη πξώηεο ηάμεο ηεο ζπλάξηεζεο f(x,y) =

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γεσηέρα 10 Ηοσνίοσ 2019 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

Αιγόξηζκνη Γνκή επηινγήο. Πνιιαπιή Δπηινγή Δκθωιεπκέλεο Δπηινγέο. Δηζαγωγή ζηηο Αξρέο ηεο Δπηζηήκεο ηωλ Η/Υ. introcsprinciples.wordpress.

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΤΙΚΗ ΣΚΥΤΑΛΟΓΡΟΜΙΑ 2015 ΓΙΑ ΤΟ ΓΥΜΝΑΣΙΟ Τεηάπηη 28 Ιανουαπίου 2015 ΛΔΥΚΩΣΙΑ Τάξη: Α Γυμναζίου

TOOLBOOK (μάθημα 2) Δεκηνπξγία βηβιίνπ θαη ζειίδσλ ΠΡΟΑΡΜΟΓΗ: ΒΑΛΚΑΝΙΩΣΗ ΔΗΜ. ΕΚΠΑΙΔΕΤΣΙΚΟ ΠΕ19 1 TOOLBOOK ΜΑΘΗΜΑ 2

Ενδεικτικά Θέματα Στατιστικής ΙΙ

ΘΔΚΑ ΡΖΠ ΑΛΑΓΛΩΟΗΠΖΠ

ηδάζθσλ: εµήηξεο Εετλαιηπνύξ

Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική ΑΔ

Πολυεπίπεδα/Διασυμδεδεμέμα Δίκτυα

H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙΜΟ Α ΛΤΚΔΙΟΤ. Ημεπομηνία: 10/12/11 Ώπα εξέτασηρ: 09:30-12:30 ΠΡΟΣΔΙΝΟΜΔΝΔ ΛΤΔΙ

Q Η ζσνάρηηζη μέζοσ κόζηοσς μας δίνει ηο κόζηος ανά μονάδα παραγωγής. Q Η ζσνάρηηζη μέζοσ κόζηοσς μας δίνει ηο ζηαθερό κόζηος ανά μονάδα παραγωγής

1 Είζοδορ ζηο Σύζηημα ΣΔΕΔ ή BPMS

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙ ΜΟ

ΔΕΟ 13. Ποσοτικές Μέθοδοι. θαη λα ππνινγίζεηε ην θόζηνο γηα παξαγόκελα πξντόληα. Να ζρεδηαζηεί γηα εύξνο πξντόλησλ έσο

ΣΧΕΣΕΙΣ ΚΑΙ ΣΥΝΑΡΤΗΣΕΙΣ

(Ενδεικηικές Απανηήζεις) ΘΔΜΑ Α. Α1. Βιέπε απόδεημε Σει. 262, ζρνιηθνύ βηβιίνπ. Α2. Βιέπε νξηζκό Σει. 141, ζρνιηθνύ βηβιίνπ

Μονοψϊνιο. Αγνξά κε ιίγνπο αγνξαζηέο. Δύναμη μονοψωνίος Η ηθαλόηεηα πνπ έρεη ν αγνξαζηήο λα επεξεάζεη ηελ ηηκή ηνπ αγαζνύ.

Αντισταθμιστική ανάλυση

Αζθήζεηο 5 νπ θεθαιαίνπ Crash course Step by step training. Dipl.Biol.cand.med. Stylianos Kalaitzis

ΜΑΘΗΜΑΤΙΚΑ ΘΔΤΙΚΗΣ ΚΑΙ ΤΔΦΝΟΛΟΓΙΚΗΣ ΚΑΤΔΥΘΥΝΣΗΣ Β ΛΥΚΔΙΟΥ ΤΔΣΤ(1) ΣΤΑ ΓΙΑΝΥΣΜΑΤΑ

Δξγαιεία Καηαζθεπέο 1 Σάμε Σ Δ.Κ.Φ.Δ. ΥΑΝΙΧΝ ΠΡΧΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ. ΔΝΟΣΗΣΑ 11 ε : ΦΧ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Φαθόο κε ζσιήλα.

Σήκαηα Β Α Γ Γ Δ Λ Η Σ Ο Ι Κ Ο Ν Ο Μ Ο Υ Γ Ι Α Λ Δ Ξ Η - ( 2 ) ΕΙΣΑΓΨΓΗ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΨΝΙΕΣ

Κβαντικοί Υπολογισμοί. Πέκπηε Γηάιεμε

x-1 x (x-1) x 5x 2. Να απινπνηεζνύλ ηα θιάζκαηα, έηζη ώζηε λα κελ ππάξρνπλ ξηδηθά ζηνπο 22, 55, 15, 42, 93, 10 5, 12

Οργάνωση και Δομή Παρουσιάσεων

Να ζρεδηάζεηο ηξόπνπο ζύλδεζεο κηαο κπαηαξίαο θαη ελόο ιακπηήξα ώζηε ν ιακπηήξαο λα θσηνβνιεί.

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

ΚΕΦ. 2.3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ

Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν

Παιχνίδι γλωζζικής καηανόηζης με ζχήμαηα!

Άσκηση 1 - Μοπυοποίηση Κειμένου

ΓΙΑΙΡΔΣΟΣΗΣΑ. Οπιζμόρ 1: Έζηω d,n. Λέκε όηη ν d δηαηξεί ηνλ n (ζπκβνιηζκόο: dn) αλ. ππάξρεη c ηέηνην ώζηε n. Θεώπημα 2: Γηα d,n,m,α,b ηζρύνπλ:

Case Study. Παξαθάηω παξνπζηάδνπκε βήκα - βήκα κε screenshots έλα παξάδεηγκα ππνβνιήο κηαο εξγαζίαο θαη ηελ παξαγωγή ηνπ Originality Report.

ΒΗΜΑ 2. Εηζάγεηε ηνλ Κωδηθό Πξόζβαζεο πνπ ιακβάλεηε κε SMS & δειώλεηε επηζπκεηό Όλνκα Πξόζβαζεο (Username) θαη ην ζαο

Φςζική Πποζαναηολιζμού Γ Λςκείος. Αζκήζειρ Ταλανηώζειρ 1 ο Φςλλάδιο

ΟΠΤΙΚΗ Α. ΑΝΑΚΛΑΣΖ - ΓΗΑΘΛΑΣΖ

f '(x)g(x)h(x) g'(x)f (x)h(x) h'(x) f (x)g(x)

Δξγαζηεξηαθή άζθεζε 03. Σηεξενγξαθηθή πξνβνιή ζην δίθηπν Wulf

Έλαο πίνακας σσμβόλων ππνζηεξίδεη δύν βαζηθέο ιεηηνπξγίεο:

ΓΗΜΟΙΑ ΟΙΚΟΝΟΜΙΚΗ ΣΟΜΟ Γ

Τν Πξόγξακκα ζα αλαθνηλσζεί, ακέζσο κεηά ηηο γηνξηέο ηνπ Πάζρα.

ΕΞΙΣΩΣΕΙΣ. (iv) (ii) (ii) (ii) 5. Γηα ηηο δηάθνξεο ηηκέο ηνπ ι λα ιπζνύλ νη εμηζώζεηο : x 6 3 9x

Ππογπαμμαηιζμόρ Ι (ΗΥ120)

x x x x tan(2 x) x 2 2x x 1

Τίτλος Μαθήματος: Ηλεκτρονικοί Υπολογιστές IΙΙ. Διδάσκων: Επίκουρος Καθηγητής Αθανάσιος Σταυρακούδης

Κεθάιαην 20. Ελαχιστοποίηση του κόστους

ΘΔΜΑ 1 ο Μονάδες 5,10,10

Τάπηα με ππάζo, bacon και θέηα by Madame Ginger

Διάρηζηα Δπηθαιύπηνληα Γέλδξα

Απαντήσεις θέματος 2. Παξαθάησ αθνινπζεί αλαιπηηθή επίιπζε ησλ εξσηεκάησλ.

Δσζμενές διαηαρατές και Ονομαζηικό-πραγμαηικό επιηόκιο

ΔΙΑΓΩΝΙΣΜΑ ΣΤΗ ΦΥΣΙΚΗ. Ύλη: Εσθύγραμμη Κίνηζη

ΥΡΙΣΟΤΓΔΝΝΙΑΣΙΚΔ ΚΑΣΑΚΔΤΔ

Μηα ζπλάξηεζε κε πεδίν νξηζκνύ ην Α, ζα ιέκε όηη παξνπζηάδεη ηοπικό μέγιζηο ζην, αλ ππάξρεη δ>0, ηέηνην ώζηε:

Κινητός και Διάχυτος Υπολογισμός (Mobile & Pervasive Computing)

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ. Οξηδόληηα θαη θαηαθόξπθε κεηαηόπηζε παξαβνιήο

ΥΛΙΚΑ ΠΑΡΟΝ ΚΑΙ ΜΕΛΛΟΝ ΠΑΝΕΠΙΣΗΜΙΟ ΚΡΗΣΗ ΣΜΗΜΑ ΕΠΙΣΗΜΗ ΚΑΙ ΣΕΧΝΟΛΟΓΙΑ ΤΛΙΚΩΝ

Ο γεωκεηξηθόο ηόπνο ηωλ εηθόλωλ ηωλ κηγαδηθώλ αξηζκώλ z είλαη ν θύθινο κε θέληξν ηελ αξρή ηωλ αμόλωλ θαη αθηίλα ξ=2.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΘΕΩΡΙΑ ΣΗΜΑΤΩΝ & ΣΥΣΤΗΜΑΤΩΝ. ΜΕΤΑΣΦΗΜΑΤΙΣΜΟΣ Laplace

Σύνθεζη ηαλανηώζεων. Έζησ έλα ζώκα πνπ εθηειεί ηαπηόρξνλα δύν αξκνληθέο ηαιαληώζεηο ηεο ίδηαο ζπρλόηεηαο πνπ πεξηγξάθνληαη από ηηο παξαθάησ εμηζώζεηο:

ΣΡΑΠΕΖΑ ΘΕΜΑΣΩΝ Α ΛΤΚΕΙΟΤ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΗΛΕΚΤΡΟΛΟΓΙΑ/Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 08/09/2014

ΣΥΣΤΗΜΑΤΑ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ. 1. Να ιπζνύλ ηα ζπζηήκαηα. 1 0,3x 0,1y x 3 3x 4y 2 4x 2y ( x 1) 6( y 1) (i) (ii)

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ ΚΑΗ ΔΠΑΛ ΣΔΣΑΡΣΖ 25 ΜΑΨΟΤ 2016 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΑΡΥΔ ΟΗΚΟΝΟΜΗΚΖ ΘΔΧΡΗΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ - ΔΠΗΛΟΓΖ

όπου R η ακηίνα ηου περιγεγραμμένου κύκλου ηου ηριγώνου.

ΑΠΛΟΠΟΙΗΗ ΛΟΓΙΚΩΝ ΤΝΑΡΣΗΕΩΝ ΜΕ ΠΙΝΑΚΕ KARNAUGH

Ηλεκηπονικά Απσεία και Διεπαθέρ

Κινητός και Διάχυτος Υπολογισμός (Mobile & Pervasive Computing)

Ζαχαρίας Μ. Κοντοπόδης Εργαστήριο Λειτουργικών Συστημάτων ΙΙ

1. Οδηγίερ εγκαηάζηαζηρ και σπήζηρ έξςπνυν καπηών και τηθιακών πιζηοποιηηικών με σπήζη ηος λογιζμικού Μοzilla Thunderbird

ΓΔΧΜΔΣΡΙΑ ΓΙΑ ΟΛΤΜΠΙΑΓΔ

Τ ξ ε ύ ο ξ π ς ξ σ ξ ο ί ξ σ _ Ι ε ο α μ ε ι κ ό π

3ο Δπαναληπηικό διαγώνιζμα ζηα Μαθημαηικά καηεύθσνζης ηης Γ Λσκείοσ Θέμα A Α1. Έζησ f κηα ζπλερήο ζπλάξηεζε ζ έλα δηάζηεκα

Να ζρεδηαζζεί ην θαηεπζπλόκελν γξάθεκα πνπ νξίδεηαη από ηνλ εμήο πίλαθα γεηηλίαζεο.

ΕΠΑΝΑΛΗΠΣΙΚΕ ΑΠΟΛΤΣΗΡΙΕ ΕΞΕΣΑΕΙ Γ ΣΑΞΗ ΗΜΕΡΗΙΟΤ ΕΝΙΑΙΟΤ ΛΤΚΕΙΟΤ ΠΑΡΑΚΕΤΗ 4 ΙΟΤΛΙΟΤ ΑΕΠΠ

ΗΥ-150 Πξνγξακκατησκόο Ταμηλόκεσε θαη Αλαδήτεσε

ΔΡΓΑΙΑ 1. Γιαδικησακά πληροθοριακά σζηήμαηα. Ομάδα Δργαζίας: Μεηαπηστιακοί Φοιηηηές. ηέθανος Κονηοβάς ΑΔΜ :283. Πάζτος Βαζίλειος ΑΔΜ :288

ΑΝΤΗΛΙΑΚΑ. Η Μηκή ζθέθηεθε έλαλ ηξόπν, γηα λα ζπγθξίλεη κεξηθά δηαθνξεηηθά αληειηαθά πξντόληα. Απηή θαη ν Νηίλνο ζπλέιεμαλ ηα αθόινπζα πιηθά:

Γίθησα ποσ παρέτοληαη από τρήζηες: Κίλεηρα, ηετλοιογίες θαη αλοητηά δεηήκαηα Λεσηέρες Μακάηας

Transcript:

Αιγνξηζκηθή Δπηζηήκε Γεδνκέλσλ Frequent Patterns and Association Rules Mining Δπηκέιεηα δηαθαλεηώλ: Γώρα Σούιηοσ Άρες Παγοσρηδής ΔΠΜΣ Επιζηήμη Δεδομένων και Μητανική Μάθηζη (ε.δε.μ 2 ) ΔΜΠ 2019

Γηάγξακκα παξνπζίαζεο Association rules Frequent itemset mining Αιγόρηζκος A-priori Αιγόρηζκος FP-Growth Βειηηώζεης 2

Καλόλεο Σπζρέηηζεο Γίλεηαη κία βάζε δεδνκέλσλ D κε εγγξαθέο πνπ απνηεινύληαη από δηάθνξα αληηθείκελα. Γηα παξάδεηγκα: {ςσκί, γάια, θαθέο} {ςσκί, δάραξε, θαθέο, ηπξί} Κανόνας ζσζτέηιζης (association rule): κία ζπλεπαγσγή ηεο κνξθήο A B όπνπ A θαη B είλαη ζύλνια από αληηθείκελα, π.ρ. {ςσκί, γάια} {δάραξε, θαθέο} Σηήξηγκα (support, ή frequency) ζπλόινπ αληηθεηκέλσλ (itemset) X: πιήζνο εγγξαθώλ ηεο D πνπ πεξηέρνπλ ην itemset X. 3

Παξάδεηγκα support({a,h}) = 3 support({a,d,h}) = 3 support({a,g,h}) = 2 support({a,f,g,h}) = 1 4

Έγθπξνη θαλόλεο support ηνπ itemset X: #εγγξαθώλ ζηε βάζε δεδνκέλσλ D πνπ πεξηέρνπλ ην Φ (~ prob(x) ) support ηνπ θαλόλα A B: support ηνπ AUB confidence ηνπ θαλόλα A B: ν ιόγνο πιήζνπο εγγξαθώλ ζηε βάζε D πνπ πεξηέρνπλ ηελ έλσζε AUB σο πξνο απηέο πνπ πεξηέρνπλ ην A. confidence(a B) = support(aub) / support(a) = prob[b A] Γεδνκέλεο κηαο database D ελδηαθεξόκαζηε λα παξάγνπκε έγθπξνπο θαλόλεο δειαδή θαλόλεο πνπ έρνπλ support and confidence πάλσ από θάπνηα δεδνκέλα thresholds t, c. 28/2/2019 ΓΠΜΣ ε.δε.κ 2 ΔΜΠ 5

Παξάδεηγκα Α = {a, h}, B = {g} support(a B) = 2 confidence(a B) = 2/3 6

Σπρλά ζύλνια αληηθεηκέλσλ Δάλ ηο support ηες έλωζες AUB είλαη πάλω από θάποηο threshold, ηόηε ηο support ηοσ A είλαη ζίγοσρα πάλω από ασηό ηο threshold Έηζη ε παραγωγή όιωλ ηωλ itemsets κε support(x)>t θάλεη απιό ηολ σποιογηζκό ηοσ confidence(a B) Τα itemsets ασηά ολοκάδοληαη large ή frequent (ζστλά) Το πρόβιεκα εύρεζες έγθσρωλ θαλόλωλ αλάγεηαη ζηο πρόβιεκα εύρεζες ζστλώλ ζσλόιωλ αληηθεηκέλωλ 7

Δθαξκνγέο ηνπ πξνβιήκαηνο Market Basket Data Baskets: θαιάζηα αγνξώλ S.M. Items: ηα αληηθείκελα πνπ αγνξάδεη θαλείο Frequent itemsets: Πνηά αληηθείκελα αγνξάδνληαη ηαπηόρξνλα κε θάπνηα άιια (θαιύηεξε ηνπνζέηεζε) Ανάλσζη κειμένων Baskets:θείκελα Items: ιέμεηο Frequent itemsets : ζύλνια ιέμεσλ πνπ εκθαλίδνληαη ζπρλά καδί δειώλνπλ θείκελα κε παξόκνην πεξηερόκελν Ανάλσζη Web Baskets: web pages Items: ζειίδεο πνπ θάλνπλ link ζε απηέο Frequent itemsets: ζειίδεο κε θνηλά εηζεξρόκελα links ίζσο έρνπλ παξόκνην ζέκα 8

Απιντθόο αιγόξηζκνο Παξαγσγή όισλ ησλ δπλαηώλ ππνζπλόισλ Γηάζρηζε ηεο βάζεο δεδνκέλσλ θαη ελεκέξσζε ησλ ζπρλνηήησλ ησλ ππνζπλόισλ πνπ εκθαλίδνληαη 9

Πξνβιήκαηα θαη κέζνδνη επίιπζήο ηνπο Μεγάλο πλήθος ανηικειμένων (πάξα πνιινί ζπλδπαζκνί) Τερληθέο κείσζεο ηνπ εθζεηηθνύ πιήζνπο ππνζπλόισλ (2 n ) Μεγάλο πλήθος εγγραθών (ρξνλνβόξα ε δηαδηθαζία πξνζπέιαζήο ηνπο) Τερληθέο κείσζεο ησλ δηαζρίζεσλ (passes) ηεο βάζεο δεδνκέλσλ 10

Σηξαηεγηθέο frequent itemsets mining With candidate generation (e.g. A-priori) [Agrawal, Srikant 94] Without candidate generation (e.g. FP-growth) [Han, Pei, Yin 00] 11

Candidate generation Παξαγσγή frequent itemsets κατά επίπεδα αλάινγα κε ηελ πληθικότητα, θαη ππνινγηζκόο ζπρλόηεηαο εκθάληζεο. Έζησ π.ρ. I={a,b,c,d} ζύλνιν δηαθξηηώλ αληηθεηκέλσλ ηεο D Δπίπεδν 1: {a},{b},{c},{d} Δπίπεδν 2: {a,b}, {a,c}, {a,d}, {b,c}, {b,d}, {c,d} Δπίπεδν 3: {a,b,c}, {a,b,d}, {a,c,d}, {b,c,d} Δπίπεδν 4: {a,b,c,d} 12

Αιγόξηζκνο A-priori [Agrawal, Srikant 94]: βαζηθή ηδέα Monotonicity property: Έζησ Σ ζύλνιν αληηθεηκέλσλ κε n ζηνηρεία θαη J=pow(Σ) κε 2 n -1 ζηνηρεία. Μία ζπλάξηεζε f είλαη μονόηονη εάλ Η ζπλάξηεζε f είλαη ανηι-μονόηονη εάλ Η ζπλάξηεζε support είλαη αληη-κνλόηνλε: Έλα (k+1)-itemset κπνξεί λα είλαη frequent κόλν αλ όλα ηα σποζύνολά ηοσ με k items είναι frequent 13

Αιγόξηζκνο A-priori Βήκα 1: Σρεκαηηζκόο ιίζηαο L 1 ζπρλώλ κνλνζπλόισλ Βήκα k+1 (k=1,2, ): Σρεκαηηζκόο ιίζηαο ππνςεθίσλ (k+1)-itemsets από ιίζηα L k ζπρλώλ k-itemsets Γηα θάζε itemset ζηελ ιίζηα L k δηάζρηζε ηεο ππόινηπεο ιίζηαο ώζπνπ λα βξεζεί itemset πνπ δηαθέξεη ζην ηειεπηαίν item κόλν. Παξαγσγή (k+1)-itemset := έλσζε ησλ δύν k-itemsets πνπ δηαθέξνπλ ζην ηειεπηαίν item. Αλαδήηεζε ζηελ ππόινηπε ιίζηα L k όισλ ησλ άιισλ ππνζύλνισλ ηνπ λένπ itemset. Αλ ππάξρνπλ, ην itemset πξνζηίζεηαη ζηε ιίζηα L k+1 ησλ ππνςεθίσλ frequent (k+1)-itemsets θαη ππνινγίδεηαη ε ζπρλόηεηά ηνπ. Αλ είλαη ζπρλό παξακέλεη, αιιηώο δηαγξάθεηαη. 14

Παξάδεηγκα εθηέιεζεο ηνπ A-priori Έζησ ε ιίζηα κε ηα frequent 3-itemsets {a,b,d}, {a,b,f}, {a,d,f}, {b,c,f}, {b,c,g}, {b,c,k}, {b,d,f}, {b,d,l}, θαη {c,d,f} {a,b,d}, {a,b,f} => {a,b,d,f} Υπνζύλνια: {a,b,d} {a,b,f} {a,d,f} {b,d,f} {a,b,d,f} είναι candidate frequent {a,b,d}, {a,d,f} => {} // δηαθέξνπλ ζε 2 items {b,c,f}, {b,c,g} => {b,c,f,g} Υπνζύλνια: {b,c,f}, {b,c,g}, {b,f,g}, {c,f,g} {b,c,f,g} δεν είναι candidate frequent 15

Πιενλεθηήκαηα-κεηνλεθηήκαηα ηνπ A-priori Υπέξ: Γηα θάζε ζπρλό ππνζύλνιν ειέγρνληαη ην πνιύ n κε-ζπρλά ππνζύλνια Πνιππινθόηεηα: πνιπσλπκηθή ωρ ππορ την έξοδο (γηαηί όρη θαη σο πξνο είζνδν;) Καηά: Αλ κεγαιύηεξν frequent είλαη ζην επίπεδν k, απαηηνύληαη k δηαζρίζεηο ηεο βάζεο Οη ιίζηεο κπνξεί λα γίλνπλ πνιύ κεγάιεο 16

Aιγόξηζκνο FP-growth [Han, Pei, Yin 00] Απνζήθεπζε ηεο βάζεο δεδνκέλσλ ζηε δνκή FPtree κε 2 δηαζρίζεηο Υπνινγηζκόο ησλ ζπρλνηήησλ όισλ ησλ singletons (1-itemsets) Αθαίξεζε ησλ non-frequent items θαη επαλαδηάηαμε ησλ εγγξαθώλ κε θζίλνπζα ζεηξά ζπρλόηεηαο ησλ items Τνπνζέηεζε ησλ εγγξαθώλ ζην δέληξν Δμόξπμε ησλ ζπρλώλ ζπλόισλ αληηθεηκέλσλ ρσξίο candidate generation 17

Κατώυλι συχνότητας 3 f, b, p f : 5 b : 2 p : 1 18

Αιγόξηζκνο FP-growth Ο αιγόξηζκνο μεθηλά από ην item κε ηελ κηθξόηεξε ζπρλόηεηα. Φηηάρλεη ην ππνδέληξν κε ηα κνλνπάηηα πνπ θαηαιήγνπλ ζε απηό. Σην λέν δέληξν ελεκεξώλεη ζπρλόηεηεο θαη βξίζθεη όια ηα frequent 2-itemsets. Σπλερίδεη κε ηα δέληξα πνπ πξνθύπηνπλ γηα θαζέλα από απηά ηα δηζύλνια Σε θάζε ηέηνην δέληξν πξνζπαζεί λα θηηάμεη ηξηζύλνια θ.ιπ. 19

Παξάδεηγκα Threshold 3 f : 2 c : 2 a : 2 Ο αιγόξηζκνο μεθηλά κε ην p 2 κνλνπάηηα έρνπλ p Δλεκέξσζε ζπρλνηήησλ Υπνινγηζκόο ζπρλνηήησλ items Σπρλό ην c Άξα ην cp είλαη ζπρλό. 20

Παξάδεηγκα Δπόκελν item m f : 3 Μνλνπάηηα ηνπ λένπ ππνδέληξνπ f,c,a θαη f,c,a,b Δλεκέξσζε ζπρλνηήησλ Υπνινγηζκόο ζπρλνηήησλ ησλ items Σπρλά ηα f, c, a Άξα ζπρλά 2-itemsets ηα (f,m), (c,m), (a,m) Ξεθηλώληαο από (a,m) θηηάρλεη ππνδέληξν κε κνλνπάηηα πνπ θαηαιήγνπλ ζε απηό - ζην παξάδεηγκα είλαη κόλν ηα f, c 21

Βειηηώζεηο ηνπ A-priori Με τρήζε hashing Σηο 1 ο πέραζκα: Υποιογηζκός ζστλώλ 1-itemsets Καη όιωλ ηωλ 2-itemsets Δηζαγωγή ζε hash table Γηαγραθή κε-ζστλώλ «θοσβάδωλ» Σσρρίθλωζε βάζες Γηαγραθή εγγραθώλ ποσ δελ περηέτοσλ frequent 2-itemsets (σπερζύλοια: non frequent) 22

Παξάδεηγκα TID List of items 100 I1,I2,I5 200 I2,I4 300 I2,I3 400 I1,I2,I4 500 I1,I3 600 I2,I3 700 I1,I3 800 I1,I2,I3,I5 900 I1,I2,I3 23

Παξάδεηγκα hash function h(x,y) = (order x)*10 + (order y) mod 7 Bucket address 0 1 2 3 4 5 6 Bucket count 2 2 4 2 2 4 4 Bucket contents I1, I4 I1, I5 I2, I3 I2, I4 I2, I5 I1, I2 I1, I3 I3, I5 I1, I5 I2, I3 I2, I4 I2, I5 I1, I2 I1, I3 I2, I3 I1, I2 I1, I3 I2, I3 I1, I2 I1, I3 24

Δξεπλεηηθέο θαηεπζύλζεηο Παραιιειοποίεζε αιγορίζκωλ Πρόβιεκα: αληαιιαγή κελσκάηωλ γηα κέηρεζε ζστλοηήηωλ αλά επίπεδο Γσλακηθές βάζεης δεδοκέλωλ Πρόβιεκα: τώρος κλήκες θαη γηα κε ζστλά itemsets ποσ πηζαλόλ λα εκθαληζηούλ αργόηερα 25