Κανόνες Συσχέτισης IΙ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Κανόνες Συσχέτισης IΙ"

Transcript

1 Κανόνες Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Εξόρυξη Δεδομένων

2 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!) TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke Το πρόβλημα: εδομένου ενός συνόλου δοσοληψιών (transactions), βρες κανόνες που προβλέπουν την εμφάνιση στοιχείων (item) με βάση την εμφάνιση άλλων στοιχείων στις συναλλαγές Παραδείγματα κανόνων συσχέτισης 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke {Diaper} {Beer}, {Milk, Bread} {Eggs,Coke}, {Beer, Bread} {Milk} δοσοληψία (transaction) Προώθηση προϊόντων στοιχείο (item) Τοποθέτηση προϊόντων στα ράφια ιαχείριση αποθεμάτων Σημαίνει ότι εμφανίζονται μαζί, όχι ότι η εμφάνιση του ενός είναι η αιτία της εμφάνισης του άλλου (co-occurrence, not causality όχι έννοια χρόνου ή διάταξης) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Ορισμοί στοιχειοσύνολο (itemset): Ένα υποσύνολο του συνόλου των στοιχείων k-στοιχειοσύνολο (k-itemset): ένα στοιχειοσύνολο με k στοιχεία support count (σ) ενός στοιχειοσυνόλου: ο αριθμός εμφανίσεων του στοιχείου Υποστήριξη (Support (s)) ενός στοιχειοσυνόλου Το ποσοστό των δοσοληψιών που περιέχουν ένα στοιχειοσύνολο TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Συχνό Στοιχειοσύνολο (Frequent Itemset) Ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου minsup Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Εξόρυξη Δεδομένων

3 Κανόνας Συσχέτισης (Association Rule) Είναι μια έκφραση της μορφής X Y, όπου X και Y είναι στοιχειοσύνολα Χ Ι, Υ Ι, Χ Υ = Παράδειγμα: {Milk, Diaper} {Beer} Ορισμοί TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Υποστήριξη Κανόνα Support (s) Το ποσοστό των δοσοληψιών που περιέχουν και το X και το Y(Χ Υ) Εμπιστοσύνη -Confidence(c) Πόσες από τις δοσοληψίες (ποσοστό) που περιέχουν το Χ περιέχουν και το Υ Πρόβλημα Εύρεση Κανόνων Συσχέτισης Είσοδος: Ένα σύνολο από δοσοληψίες T Έξοδος: Όλοι οι κανόνες με support minsup confidence minconf Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Κανόνων Συσχέτισης Χωρισμός του προβλήματος σε δύο υπο-προβλήματα: Εύρεση όλων των συχνών στοιχειοσυνόλων (Frequent Itemset Generation) Εύρεση όλων των στοιχειοσυνόλων με υποστήριξη minsup ημιουργία Κανόνων (Rule Generation) Για κάθε (συχνό) στοιχειοσύνολο, δημιούργησε κανόνες με μεγάλη υποστήριξη, όπου κάθε κανόνaς είναι μια δυαδική διαμέριση (δηλ. χωρισμός στα δύο) του συχνού στοιχειοσυνόλου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6 Εξόρυξη Δεδομένων

4 Εύρεση Συχνών Στοιχειοσυνόλων Itemset Lattice - Πλέγμα Στοιχειοσυνόλων A B C D E Όλα τα δυνατά στοιχειοσύνολα όταν έχουμε 5 στοιχεία AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE Για d στοιχεία, 2 d πιθανά στοιχειοσύνολα ABCDE Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Εύρεση Συχνών Στοιχειοσυνόλων: Στρατηγική apriori Αρχή Apriori Αν ένα στοιχειοσύνολο είναι συχνό, τότεόλαταυποσύνολα του είναι συχνά Ή ισοδύναμα αν ένα στοιχειοσύνολο είναι μη συχνό, όλα τα υπερσύνολα του είναι μη συχνά A B C D E AB AC AD AE BC BD BE CD CE DE βρέθηκε μη συχνό ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ψαλιδισμένα υπερσύνολα ABCDE Support-based pruning Ψαλίδισμα με βάση την υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Εξόρυξη Δεδομένων

5 Στρατηγική apriori Γενικός Αλγόριθμος για την Εύρεση Συχνών Στοιχειοσυνόλων Έστω k = 1 #k: μήκος στοιχειοσυνόλου Παρήγαγε τα συχνά 1-στοιχειοσύνολα Repeat until να μην παράγονται νέα συχνά στοιχειοσύνολα 1. Παρήγαγε υποψήφια (k+1)-στοιχειοσύνολα 2. Ψαλίδισε τα υποψήφια στοιχειοσύνολα που περιέχουν μη συχνά στοιχειοσύνολα μεγέθους k 3. Υπολόγισε την υποστήριξη κάθε υποψήφιου (k+1)- στοιχειοσυνόλου διασχίζοντας τη βάση των δοσοληψιών 4. Σβήσεταυποψήφιαστοιχειοσύνολαπουδενείναισυχνά 5. k=k + 1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Στρατηγική apriori: ημιουργία Στοιχειοσυνόλων Για την παραγωγή υποψήφιων k-στοιχειοσυνόλων F k-1 x F 1 Επέκταση κάθε συχνού (k-1) στοιχειοσυνόλου με άλλα συχνά στοιχεία F k-1 x F k-1 Συγχώνευση δύο συχνών (k-1) στοιχειοσυνόλου αν τα πρώτα k-2 στοιχεία τους είναι τα ίδια Για να αποφύγουμε τη δημιουργία του ίδιου στοιχειοσυνόλου, κρατάμε κάθε στοιχειοσύνολο (λεξικογραφικά) ταξινομημένο Ψαλίδισμα Είναι δυνατόν να γίνουν απλοί έλεγχοι αν τα παραγόμενα πιθανά στοιχειοσύνολα είναι συχνά ελέγχοντας αν τα υποσύνολα τους είναι συχνά και έτσι να αποφύγουμε να υπολογίσουμε την υποστήριξή τους Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 1 Εξόρυξη Δεδομένων

6 Στρατηγική apriori: Υπολογισμός Υποστήριξης Για κάθε νέο υποψήφιο k+1-στοιχειοσύνολο, πρέπει να υπολογίσουμε την υποστήριξή του Σε κάθε βήμα k+1 Γιαναμειώσουμετοναριθμότωνπράξεων, αποθηκεύουμε τα υποψήφια k+1-στοιχειοσύνολα σε ένα δέντρο κατακερματισμού Αντί να ταιριάζουμε κάθε δοσοληψία με κάθε υποψήφιο στοιχειοσύνολο, κατακερματίζουμε όλα τα k+1-στοιχειοσύνολα της δοσοληψίας και για καθένα, ενημερώνουμε μόνο τους αντίστοιχους κάδους του δέντρου κατακερματισμού των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 11 Παραγωγή Κανόνων οθέντος ενός συχνού στοιχειοσυνόλου L, βρεςόλαταμηκενάυποσύνολαf L τέτοια ώστε: ο κανόνας f L f να ικανοποιεί τον περιορισμό της ελάχιστης εμπιστοσύνης Η εμπιστοσύνη για τους κανόνες που παράγονται από το ίδιο στοιχειοσύνολο έχει μια αντι-μονότονη ιδιότητα Για παράδειγμα L = {A,B,C,D}: c(abc D) c(ab CD) c(a BCD) Η εμπιστοσύνη είναι αντι-μονότονη σε σχέση με τον αριθμό των στοιχείων στο RHS του κανόνα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 12 Εξόρυξη Δεδομένων

7 Παραγωγή Κανόνων για τον Αλγόριθμο apriori Πλέγμα Κανόνων για το Στοιχειοσύνολο {Α, B, C, D} Ψαλίδισμα με βάση την εμπιστοσύνη Έστω κόμβος με μικρή εμπιστοσύνη Ψαλιδισ μένοι κανόνες ABCD=>{ } BCD=>A ACD=>B ABD=>C ABC=>D CD=>AB BD=>AC BC=>AD AD=>BC AC=>BD AB=>CD D=>ABC C=>ABD B=>ACD A=>BCD Για κάθε συχνό στοιχειοσύνολο, ξεκινάμε με έναν κανόνα που έχει μόνο k = 1 στοιχείο στο δεξί μέρος του Υπολογίζουμε την εμπιστοσύνη Παράγουμε κανόνες με k+1 στοιχεία στο δεξί μέρος και υπολογίζουμε την εμπιστοσύνη τους Σημείωση: Για τον υπολογισμό της εμπιστοσύνης δεν χρειάζεται να διαπεράσουμε τη βάση Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 13 Αναπαράσταση Στοιχειοσυνόλων Τα στοιχειοσύνολα που παράγονται είναι πολλά, κάποια ίσως περιττά οδηγούν σε παραγωγή πολλών κανόνων Ποια να κρατήσουμε; Ψάχνουμε για αντιπροσωπευτικά συχνά στοιχειοσύνολα (δηλαδή, να μπορούμε να πάρουμε από αυτά ακριβώς όλα τα συχνά και ιδεατά να μπορούμε να υπολογίσουμε και την υποστήριξη όλων των συχνών): Maximal συχνά Κλειστά συχνά Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 14 Εξόρυξη Δεδομένων

8 Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι maximal συχνό αν κανένα από τα άμεσα υπερσύνολά του δεν είναι συχνό δηλαδή είναι όλα μη συχνά Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων: το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα είναι τα υποσύνολά τους ΟΜΩΣ: εν προσφέρουν καμιά πληροφορία για την υποστήριξη των υποσυνόλων τους Συχνά A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ABCD E Μη συχνά Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 15 Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό (δηλαδή, έχει μικρότερη υποστήριξη) Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και συχνό (δηλαδή, η υποστήριξη του είναι μεγαλύτερη ή ίση με minsup) Πάλι τα υποσύνολα τους μας δίνουν όλα τα συχνά υποσύνολα, τώρα όμως μπορούμε να υπολογίσουμε την υποστήριξη των υποσυνόλων τους Πως: Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 16 Εξόρυξη Δεδομένων

9 Αναπαράσταση Στοιχειοσυνόλων TID στοιχεία 1 ABC 2 ABCD 3 BCE 4 ACDE 5 DE Maximal vs Closed Itemsets ΤIDs A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE Δεν εμφανίζονται σε καμιά δοσοληψία ABCDE Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 17 Ελάχιστη υποστήριξη = 2 Αναπαράσταση Στοιχειοσυνόλων Maximal vs Closed Itemsets Κλειστά αλλά όχι maximal A B C D E Κλειστά και maximal AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 2 4 ABCD ABCE ABDE ACDE BCDE # Closed = 9 # Maximal = 4 ABCDE Για να υπολογίσουμε όλα τα συχνά στοιχειοσύνολα και την υποστήριξη τους, ξεκινάμε από τα μεγαλύτερα κλειστά και προχωράμε Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 18 Εξόρυξη Δεδομένων

10 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 19 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Ο Apriori από τους παλιότερους, αλλά: Συχνά μεγάλο I/O επειδή κάνει πολλαπλά περάσματα στη βάση των δοσοληψιών Κακή απόδοση όταν οι δοσοληψίες έχουν μεγάλο πλάτος Άλλες μέθοδοι: ιαφορετικές διασχίσεις του πλέγματος των στοιχειοσυνόλων Αναπαράσταση Συνόλου οσoληψιών Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Εξόρυξη Δεδομένων

11 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Apriori: Γενικά-προς-Συγκεκριμένα k-1 -> k Πλέγμα Στοιχεισυνόλων A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE k -> k - 1 ABCD ABCE ABDE ACDE BCDE Συγκεκριμένα-προς-Γενικά Αν αυτό είναι το συχνό, το βρίσκουμε αφού εξετάσουμε όλα τα υποσύνολά του ABCDE Αν τα συχνά είναι προς το κατώτατο σημείο (bottom) τους πλέγματος, ίσως συμφέρει Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 21 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: Συγκεκριμένα-προς-Γενικά vs Γενικά-προς-Συγκεκριμένα k -> k 1 (συγκεκριμένο-προς-γενικό) Πιο χρήσιμο για τον εντοπισμό maximal συχνών στοιχειοσυνόλων σε πυκνές (δηλ, με μεγάλο πλάτος) δοσοληψίες όπου το συχνό στοιχειοσύνολο βρίσκεται κοντά στο κατώτατο σημείο του πλέγματος Αν συχνό, δε χρειάζεται να ελέγξουμε κανένα από τα υποσύνολά του Γενικό-προς-Συγκεκριμένο Συγκεκριμένο-προς-Γενικό ιπλής Κατεύθυνσης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 22 Εξόρυξη Δεδομένων

12 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: Κλάσεις Ισοδυναμίας Χωρισμός των στοιχειοσυνόλων του πλέγματος σε ξένες μεταξύ τους ομάδες (κλάσεις ισοδυναμίας) και εξέταση των στοιχειοσυνόλων ανά κλάσεις Apriori: ορίζει τις κλάσεις με βάση το μήκος k των στοιχειοσυνόλων, πρώτα αυτά μήκους 1, μετά μήκους 2 κοκ Prefix (Suffix): ύο στοιχειοσύνολα ανήκουν στην ίδια κλάση αν έχουν κοινό πρόθεμα (ή επίθεμα-κατάληξη) μήκους k A B C D A B C D AB AC AD BC BD CD AB AC BC AD BD CD ABC ABD ACD BCD ABC ABD ACD BCD ABCD ABCD (a) Prefix tree (b) Suffix tree Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 23 Apriori Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: BFS vs DFS DFS: Depth-First-Search Διάσχιση κατά Βάθος BFS: Breadth-First-Search Διάσχιση κατά Πλάτος Χρήσιμο για την εύρεση maximal συχνών στοιχειοσυνόλων γιατί τα εντοπίζει πιο γρήγορα από το BFS Μόλις εντοπιστεί το maximal, είναι δυνατόν να κλαδευτούν πολλά υποσύνολα του Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 24 Εξόρυξη Δεδομένων

13 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: BFS vs DFS Maximal συχνό στοιχειοσύνολο Prune πχ μόνο τa bc και ac (το υποδέντρa τους μπορεί να έχει maximal) Maximal συχνό στοιχειοσύνολο Μπορούμε να κάνουμε prune όλο το υποδέντρο Επίσης, πχ αν abc ίδια υποστήριξη με ab τότε τα υποδέντρα στο abd και abe pruned δεν έχουν maximal συχνό Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 25 Άλλοι Τρόποι Υπολογισμού Αναπαράσταση της Βάσης εδομένων των οσοληψιών: Οριζόντια vs Κάθετη Αυτό χρησιμοποιεί ο apriori Οριζόντια Διάρθρωση Δεδομένων TID Items 1 A,B,E 2 B,C,D 3 C,E 4 A,C,D 5 A,B,C,D 6 A,E 7 A,B 8 A,B,C 9 A,C,D 1 B Εναλλακτικά: Για κάθε στοιχείο σε ποιες δοσοληψίες εμφανίζεται Κάθετη Διάρθρωση Δεδομένων A B C D E Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TID-λιστών Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 26 Εξόρυξη Δεδομένων

14 Άλλοι Τρόποι Υπολογισμού Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TID-λιστών A B AB Η υποστήριξη ενός k-στοιχειοσυνόλου υπολογίζεται παίρνοντας τις τομές των TIDλιστών δύο από τα (k-1)-ύπο-στοιχειοσύνολα του. Πλεονέκτημα: πολύ γρήγορος υπολογισμός της υποστήριξης Πρόβλημα, αν οι TID-λίστες είναι μεγάλες και δε χωρούν στη μνήμη Θα δούμε τον FP-Growth που χρησιμοποιεί μια prefix-based αναπαράσταση των δοσοληψιών Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 27 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 28 Εξόρυξη Δεδομένων

15 Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των δοσοληψιών με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο - prefix tree (trie) Ο αλγόριθμος κατασκευής διαβάζει μια δοσοληψία τη φορά, απεικονίζει τη δοσοληψία σε ένα μονοπάτι του FP-δέντρου Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση Μόλις κατασκευαστεί το FP-δέντρο, ο αλγόριθμος χρησιμοποιεί μια αναδρομική διαίρει-και-βασίλευε (divide-and-conquer) προσέγγιση για την εξόρυξη των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 29 Κατασκευή FP-δέντρου TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 1 {B,C,E} To FP-δέντρο είναι ένα προθεματικό δέντρο Επειδή έχουμε σύνολα, κάπως πρέπει να τα διατάξουμε ώστε να βρίσκουμε προθέματα ηλαδή δε μπορεί το ένα σύνολο να είναι {Α, Β} και το άλλο {Β, C, A} γιατί χάνουμε το κοινό πρόθεμα ΑΒ (ή ΒΑ) Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική (θα δούμε αργότερα αν κάτι άλλο συμφέρει καλύτερα) Αρχικά, το δέντρο κενό Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Εξόρυξη Δεδομένων

16 TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 1 {B,C,E} Κατασκευή FP-δέντρου Διάβασμα TID=1: B:1 A:1 Κάθε κόμβος έχει μια ετικέτα: ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Ετικέτα κόμβου <ΣΤΟΙΧΕΙΟ: ΥΠΟΣΤΗΡΙΞΗ> Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 31 Κατασκευή FP-δέντρου TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 1 {B,C,E} Διάβασμα TID=1: Διάβασμα TID=2: B:1 A:1 B:1 Κάθε κόμβος ετικέτα, ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Επίσης, δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 32 Εξόρυξη Δεδομένων

17 TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 1 {B,C,E} Επίσης, κρατάμε πίνακα δεικτών για να βοηθήσουν στον υπολογισμό των συχνών στοιχειοσυνόλων Κατασκευή FP-δέντρου Διάβασμα TID=1, 2: Πίνακας εικτών Item A B C D E Pointer B:1 A:1 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 33 TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 1 {B,C,E} Κατασκευή FP-δέντρου Διάβασμα TID=1, 2: Διάβασμα TID=3 Πίνακας εικτών B:1 A:1 B:1 Item A B C D E Pointer Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 34 Εξόρυξη Δεδομένων

18 TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 1 {B,C,E} Κατασκευή FP-δέντρου Διάβασμα TID=1, 2: Διάβασμα TID=3 Πίνακας εικτών Item A B C D E Pointer B:1 A:2 E:1 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 35 TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 1 {B,C,E} Κατασκευή FP-δέντρου Διάβασμα TID=1, 2: Διάβασμα TID=3 Πίνακας εικτών Item A B C D E Pointer B:1 A:2 E:1 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 36 Εξόρυξη Δεδομένων

19 TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 1 {B,C,E} Κατασκευή FP-δέντρου A:7 B:5 B:3 C:3 Πίνακας Δεικτών Item A B C D E Pointer C:3 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 37 Μέγεθος FP-δέντρου Κάθε δοσοληψία αντιστοιχεί σε ένα μονοπάτι από τη ρίζα Το μέγεθος του δέντρου συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα Αν όλες οι δοσοληψίες τα ίδια δεδομένα, μόνο ένα κλαδί Αν όλες διαφορετικές, ο χώρος μεγαλύτερος (γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύ των κόμβων αλλά και συχνότητες εμφάνισης) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 38 Εξόρυξη Δεδομένων

20 Κατασκευή FP-δέντρου TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 1 {B,C,E} Το τελικό δέντρο, εξαρτάται από τη διάταξη: άλλη διάταξη -> άλλα προθέματα (Συνήθως) μικρότερο δέντρο, αν όχι λεξικογραφικά, αλλά με βάση τη συχνότητα εμφάνισης -> Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό Επίσης, αγνοούμε όσα στοιχεία είναι μη συχνά Για τo παράδειγμα, σ(α)=7, σ(β)=8, σ(c)=7, σ(d)=5, σ(ε)=3 Άρα, διάταξη Β,Α,C,D,E TID Items 1 {Β,Α} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {Β,Α,C} 6 {Β,Α,C,D} 7 {B,C} 8 {Β,Α,C} 9 {Β,Α,D} 1 {B,C,E} Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 39 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Είσοδος: FP-δέντρο Έξοδος: Συχνά στοιχειοσύνολα και η υποστήριξη τους Μέθοδος: ιαίρει-και-βασίλευε o Χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν σε E, D, C, B, A o Μετά αυτά που τελειώνουν σε E σε αυτά σε DE, CE, BE, AE κοκ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Εξόρυξη Δεδομένων

21 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα Ε D C B A DE CE BE AE CD BD AD BC AC AB CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC ACDE BCDE ABDE ABCE ABCD ABCDE Όλαταδυνατάστοιχειοσύνολα! Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 41 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα συχνό; Ε D C B A DE CE BE AE CD BD AD BC AC AB συχνό; CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC συχνό; ACDE BCDE ABDE ABCE ABCD συχνό; ABCDE Όλαταδυνατάστοιχειοσύνολα! Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 42 Εξόρυξη Δεδομένων

22 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα συχνό; Ε D C B A DE CE BE AE CD BD AD BC AC AB συχνό; CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC συχνό; συχνό; ACDE BCDE ABDE ABCE ABCD συχνό; ABCDE Όλαταδυνατάστοιχειοσύνολα! Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 43 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλα τα στοιχειοσύνολα συχνό; Ε D C B A DE CE BE AE CD BD AD BC AC AB συχνό; CDE BDE ADE BCE ACE ABE BCD ACD ABD ABC συχνό; ACDE BCDE ABDE ABCE ABCD ABCDE Όλαταδυνατάστοιχειοσύνολα! Στο δέντρο μπορεί να υπάρχουν λιγότερα! Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 44 Εξόρυξη Δεδομένων

23 TID Items 1 {A,B} 2 {B,C,D} 3 {A,C,D,E} 4 {A,D,E} 5 {A,B,C} 6 {A,B,C,D} 7 {B,C} 8 {A,B,C} 9 {A,B,D} 1 {B,C,E} Χρήση FP-δέντρου για εύρεση συχνών στοιχειοσυνόλων A:7 B:3 B:5 C:3 Header table Item Pointer A B C D E C:3 E:1 E:1 E:1 Πως; Bottom-up traversal του δέντρου Αυτά που τελειώνουν σε E, μετά αυτά που τελειώνουν σε D, C, B και τέλος Α suffix-based classes (επίθεμα κατάληξη) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 45 Υποπρόβλημα: Βρες συχνά στοιχειοσύνολα που τελειώνουν σε E A:7 B:3 B:5 C:3 Header table Item A B C D E Pointer C:3 E:1 E:1 E:1 Θα δούμε στη συνέχεια πως υπολογίζεται η υποστήριξη για τα πιθανά στοιχειοσύνολα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 46 Εξόρυξη Δεδομένων

24 Για το D A:7 B:3 B:5 C:3 Header table Item A B C D E Pointer C:3 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 47 Για το C A:7 B:3 B:5 C:3 Header table Item A B C D E Pointer C:3 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 48 Εξόρυξη Δεδομένων

25 Για το B A:7 B:3 B:5 C:3 Header table Item A B C D E Pointer C:3 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 49 Για το Α A:7 B:3 B:5 C:3 Header table Item A B C D E Pointer C:3 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων

26 Συνοπτικά Σε κάθε βήμα, για το suffix (επίθεμα) Χ Φάση 1 Κατασκευάζουμε το προθεματικό δέντρο για το Χ και υπολογίζουμε την υποστήριξη χρησιμοποιώντας τον πίνακα Φάση 2 Αν είναι συχνό, κατασκευάζουμε το υπο-συνθήκη δέντρο για το Χ, σε βήματα επανα-υπολογισμός υποστήριξης περικοπή κόμβων με μικρή υποστήριξη περικοπή φύλλων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 51 Φάση 1 κατασκευή προθεματικού δέντρου Όλα τα μονοπάτια που περιέχουν το E Προθεματικά Μονοπάτια (prefix paths) A:7 B:3 B:5 C:3 Header table Item A B C D E Pointer C:3 E:1 E:1 E:1 Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 52 Εξόρυξη Δεδομένων

27 Φάση 1 Όλα τα μονοπάτια που περιέχουν το E Προθεματικά Μονοπάτια (prefix paths) A:7 B:3 C:3 E:1 E:1 E:1 Προθεματικά μονοπάτια του Ε: {E}, {D,E}, {C,D,E}, {A,D,Ε}, {A,C,D,E}, {C,E}, {B,C,E} Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 53 Έστω minsup = 2 Βρες την υποστήριξη του {E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1+1=3>2 Οπότε {Ε} συχνό A:7 B:3 C:3 E:1 E:1 E:1 {E} συχνό άρα προχωράμε για DE, CE, BE, AE Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 54 Εξόρυξη Δεδομένων

28 {E} συχνό άρα προχωράμε για DE, CE, BE, AE Φάση 2 Μετατροπή των προθεματικών δέντρων σε FP-δέντρο υπό συνθήκες (conditional FP-tree) ύο αλλαγές (1) Αλλαγή των μετρητών (2) Περικοπή A:7 B:3 C:3 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 55 Αλλαγή μετρητών Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν δοσοληψίες που δεν έχουν το Ε Πχ στο ->B->C->E μετράμε και την {B, C} A:7 B:3 C:3 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 56 Εξόρυξη Δεδομένων

29 A:7 B:3 C:3 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 57 A:7 B:3 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 58 Εξόρυξη Δεδομένων

30 A:7 B:1 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 59 A:7 B:1 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6 Εξόρυξη Δεδομένων

31 A:7 B:1 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 61 A:2 B:1 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 62 Εξόρυξη Δεδομένων

32 A:2 B:1 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 63 Περικοπή (truncate) Σβήσε τους κόμβους του Ε A:2 B:1 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 64 Εξόρυξη Δεδομένων

33 Περικοπή (truncate) Σβήσε τους κόμβους του Ε A:2 B:1 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 65 Περικοπή (truncate) Σβήσε τους κόμβους του Ε A:2 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 66 Εξόρυξη Δεδομένων

34 Πιθανή περαιτέρω περικοπή Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης Πχ το Β -> περικοπή A:2 B:1 Αυτό σημαίνει ότι το Β εμφανίζεται μαζί με το E λιγότερο από minsup φορές Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 67 A:2 B:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 68 Εξόρυξη Δεδομένων

35 A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 69 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Εξόρυξη Δεδομένων

36 Φάση 1 Όλα τα μονοπάτια που περιέχουν το D (DE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 71 Φάση 1 Όλα τα μονοπάτια που περιέχουν το D (DE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 72 Εξόρυξη Δεδομένων

37 Βρες την υποστήριξη του {D, E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1=2 2 Οπότε {D, Ε} συχνό A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 73 Φάση 2 Κατασκεύασε το υπο-συνθήκη FPδέντρο για το {D, E} 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 74 Εξόρυξη Δεδομένων

38 1. Αλλαγή υποστήριξης A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπές κόμβων A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 76 Εξόρυξη Δεδομένων

39 2. Περικοπές κόμβων A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπές κόμβων A:2 Μικρή υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 78 Εξόρυξη Δεδομένων

40 Τελικό υπο-συνθήκη FP-δέντρο για το {D, E} A:2 Υποστήριξη του Α είναι minsup -> {Α, D, E} συχνό Αφού μόνο έναν κόμβο, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 79 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Εξόρυξη Δεδομένων

41 Φάση 1 Όλα τα μονοπάτια που περιέχουν το C (CE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 81 Φάση 1 Όλα τα μονοπάτια που περιέχουν το C (CE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 82 Εξόρυξη Δεδομένων

42 Βρες την υποστήριξη του {C, E} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1=2 2 Οπότε {C, Ε} συχνό A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 83 Κατασκεύασε το υπο-συνθήκη FPδέντρο για το {C, E} 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 84 Εξόρυξη Δεδομένων

43 1. Αλλαγή υποστήριξης A:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπή Κόμβων A:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 86 Εξόρυξη Δεδομένων

44 2. Περικοπή Κόμβων A:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπή Κόμβων A:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 88 Εξόρυξη Δεδομένων

45 2. Περικοπή Κόμβων Άρα, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 89 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {D, E}, {C, E}, {A, E} A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Εξόρυξη Δεδομένων

46 Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α (AE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 91 Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α (AE) Προθεματικά Μονοπάτια (prefix paths) A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 92 Εξόρυξη Δεδομένων

47 Βρες την υποστήριξη του {Α, E} Οπότε {Α, Ε} συχνό ε χρειάζεται να φτιάξουμε υποσυνθήκη FP-δέντρο για το {Α, Ε} A:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 93 Άρα για το Ε Έχουμε τα εξής συχνά στοιχειοσύνολα {Ε} {D, E} {A, D, E} {C, E} {A, E} Συνεχίζουμε για το D Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 94 Εξόρυξη Δεδομένων

48 Για το D A:7 B:3 B:5 C:3 Header table Item A B C D E Pointer C:3 E:1 E:1 E:1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 95 Φάση 1 Όλα τα προθεματικά μονοπάτια που περιέχουν το D Υποστήριξη 5>2 -> άρα συχνό A:7 B:3 Μετατροπή του προθεματικού δέντρου σε FP-δέντρο υπό συνθήκη B:5 C:3 C:3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 96 Εξόρυξη Δεδομένων

49 1. Αλλαγή υποστήριξης A:7 B:3 B:5 C:3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Αλλαγή υποστήριξης A:7 B:3 B:2 C:3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 98 Εξόρυξη Δεδομένων

50 1. Αλλαγή υποστήριξης A:3 B:3 B:2 C:3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Αλλαγή υποστήριξης A:3 B:3 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 1 Εξόρυξη Δεδομένων

51 1. Αλλαγή υποστήριξης A:3 B:1 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπή Κόμβων A:3 B:1 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 12 Εξόρυξη Δεδομένων

52 2. Περικοπή Κόμβων A:3 B:1 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 13 Προθεματικά δέντρα και υποσυνθήκη δέντρα ΓιαταΑD, ΒD και CD κοκ A:3 B:1 B:2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 14 Εξόρυξη Δεδομένων

53 Παρατηρήσεις Παράδειγμα τεχνικής διαίρει-και-βασίλευε Σε κάθε αναδρομικό βήμα, λύνεται και ένα υπο-πρόβλημα: Κατασκευάζεται το προθεματικό δέντρο Υπολογίζεται η νέα υποστήριξη για τους κόμβους του Περικόβονται οι κόμβοι με μικρή υποστήριξη Επειδή τα υποπροβλήματα είναι ξένα μεταξύ τους, δεν δημιουργούνται τα ίδια συχνά στοιχειοσύνολα δυο φορές Ο υπολογισμός της υποστήριξης είναι αποδοτικός γίνεται ταυτόχρονα με τη δημιουργία των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 15 Παρατηρήσεις Η απόδοση του FP-Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction factor) Αν τα τελικά δέντρα είναι «θαμνώδη» (bushy) τότε δε δουλεύει καλά, αυξάνεται ο αριθμός των υποπροβλημάτων (οι αναδρομικές κλήσεις) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 16 Εξόρυξη Δεδομένων

54 Αποτίμηση Κανόνων Συσχέτισης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 17 Αποτίμηση Κανόνων Συσχέτισης Παράγουν πάρα πολλούς κανόνες που συχνά είναι μη ενδιαφέροντες ή πλεονάζοντες (περιττοί) Πλεονάζοντες αν {A, B, C} {D} και {A,B} {D} έχουν την ίδια υποστήριξη & εμπιστοσύνη Μέτρα ενδιαφέροντος (interestingness) χρησιμοποιούνται για να ελαττώσουν (prune) ή να ιεραρχήσουν (rank) τα παραγόμενα πρότυπα Χρησιμοποιούνται σε διάφορα στάδια της διαδικασίας ανάκτησης γνώσης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 18 Εξόρυξη Δεδομένων

55 Μέτρηση Ενδιαφέροντος Εφαρμογές της μέτρησης του ενδιαφέροντος (σε διάφορα στάδια) Μέτρα Ενδιαφέροντος Επιλεγμένα Δεδομένα Featur Featur e Featur e Featur e Featur Featur e Featur e e Featur e Featur e Featur e e Prod uct uct Prod uct Prod uct Prod uct Πρότυπα Προ-επεξεργασμένα Δεδομένα Prod uct uct Prod Prod Prod uct Prod uct Prod uct Γνώση Μετά-επεξεργασία Εξόρυξη Δεδομένα Προ-επεξεργασία Επιλογή Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 19 Αποτίμηση Κανόνων Συσχέτισης Γενικά: αντικειμενικά (objective) και υποκειμενικά (subjective) μέτρα ενδιαφέροντος Ας δούμε πρώτα μερικά αντικειμενικά κριτήρια: Στην αρχική διατύπωση του προβλήματος της εξόρυξης κανόνων συσχέτισης χρησιμοποιήθηκαν ως μέτρα μόνο η υποστήριξη και η εμπιστοσύνη Γενικά συνήθως βασίζονται σε μετρήσεις της συχνότητας εμφάνισης που δίνονται μέσω ενός πίνακα contingency (συνάφειας) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 11 Εξόρυξη Δεδομένων

56 Μέτρηση Ενδιαφέροντος Υπολογισμός του Μέτρου Ενδιαφέροντος (αντικειμενικά μέτρα) Contingency table (πίνακας συνάφειας) Μέτρηση συχνότητας εμφάνισης X X Y f 11 Y f 1 f 1 f f o+ f +1 T f + f 1+ f 11 : support of X and Y f 1 : support of X and Y f 1 : support of X and Y f : support of X and Y f 11 πόσο συχνά εμφανίζεται το Χ και το Υ (support count) f +1 μετρητής υποστήριξης (support count) του Υ Χρησιμοποιείται για τον ορισμό διαφόρων μέτρων Έστω ένας κανόνας, X Y, η πληροφορία που χρειάζεται για τον υπολογισμό της εμπιστοσύνης και υποστήριξης του κανόνα μπορεί να υπολογιστεί από τον contingency table Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 111 Μειονεκτήματα της Εμπιστοσύνης Μέτρηση Ενδιαφέροντος Μεγάλες τιμές υποστήριξης μπορεί να «διώξουν» ενδιαφέροντες κανόνες. Τι γίνεται με την εμπιστοσύνη; Tea Tea Coffee Coffee Ποια είναι μια καλή τιμή για την εμπιστοσύνη; Ενδιαφερόμαστε για τη σχέση μεταξύ αυτών που πίνουν καφέ και αυτών που πίνουν τσάι Κανόνας Συσχέτισης: Tea Coffee Εμπιστοσύνη = P(Coffee Tea) =.75 Ενώοκανόναςέχειυψηλήεμπιστοσύνη, ο κανόνας είναι παραπλανητικός P(Coffee Tea) =.9375 P(Coffee) =.9 Αγνοεί την υποστήριξη του RHS Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 112 Εξόρυξη Δεδομένων

57 Μέτρηση Ενδιαφέροντος Εξαιτίας τέτοιων προβλημάτων της υποστήριξης/εμπιστοσύνης, Έχουν προταθεί πολλά αντικειμενικά μέτρα για τη μέτρηση του ενδιαφέροντος των κανόνων, που στηρίζονται κυρίως στην έννοια της στατιστικής ανεξαρτησίας Ας δούμε ένα παράδειγμα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 113 Μέτρα βασισμένα στη Στατιστική Στατιστική Ανεξαρτησία Πληθυσμός 1 σπουδαστών 6 σπουδαστές ξέρουν κολύμπι (S) 7 σπουδαστές ξέρουν ποδήλατο (B) 42 σπουδαστές ξέρουν κολύμπι και ποδήλατο (S, B) P(S B) = 42/1 =.42 P(S) P(B) =.6.7 =.42 P(S B) = P(S) P(B) => Στατιστική ανεξαρτησία P(S B) > P(S) P(B) => Positively correlated (θετική συσχέτιση) P(S B) < P(S) P(B) => Negatively correlated (αρνητική συσχέτιση) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 114 Εξόρυξη Δεδομένων

58 Μέτρα βασισμένα στη Στατιστική Μέτρα που λαμβάνουν υπ όψιν τους τη στατιστική εξάρτηση Για τη συσχέτιση: Χ Υ P( Y X ) f Lift = = P( Y ) f P( X, Y ) T f Interest = = P( X ) P( Y ) f 1 + f PS = P( X, Y ) P( X ) P( Y ) P( X, Y ) P( X ) P( Y ) φ coefficient = = P( X )[1 P( X )] P( Y )[1 P( Y )] f f 11 f 1 + f f + 1 f 1 + f f 1 + Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 115 Μέτρα βασισμένα στη Στατιστική Παράδειγμα: Lift/Interest Coffee Coffee Tea Tea Κανόνας συσχέτιση: Tea Coffee Εμπιστοσύνη= P(Coffee Tea) =.75 αλλά P(Coffee) =.9 Interest =.15/(.9*.2)=.8333 (< 1, άρα αρνητικά συσχετιζόμενα) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 116 Εξόρυξη Δεδομένων

59 Μέτρα βασισμένα στη Στατιστική Μειονεκτήματα του Lift & Interest X X Y 1 1 Y X X Y 9 9 Y I = = 1 I = = (.1)(.1) (.9)(.9) Μεγαλύτερο αν και σπάνια εμφανίζονται μαζί c = 1/1 =.1 s = 1 c (confidence εμπιστοσύνη) s (support υποστήριξη) c = 9/1 =.9 s = 1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 117 Μέτρα βασισμένα στη Στατιστική φ-coefficient φ coefficient = P( X, Y ) P( X ) P( Y ) = P( X )[1 P( X )] P( Y )[1 P( Y )] f f 11 f 1 + f f + 1 f 1 + f f 1 + Κανονικοποιημένη τιμή μεταξύ του -1 και 1 υαδική εκδοχή του Pearson s coefficient : στατιστική ανεξαρτησία -1: τέλεια αρνητική συσχέτιση 1: τέλεια θετική συσχέτιση Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 118 Εξόρυξη Δεδομένων

60 Μέτρα βασισμένα στη Στατιστική φ-coefficient X X Y Y X X Y Y φ = =.5238 φ Coefficient ίδιος και για τους δύο πίνακες φ = =.5238 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 119 Μέτρα βασισμένα στη Στατιστική φ-coefficient φ coefficient = P( X, Y ) P( X ) P( Y ) = P( X )[1 P( X )] P( Y )[1 P( Y )] f f 11 f 1 + f f + 1 f 1 + f f 1 + Είναι κατάλληλο για μη συμμετρικές (η απουσία και η παρουσία μετρούν το ίδιο) Λόγω κανονικοποίησης, αγνοεί το μέγεθος του δείγματος Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 12 Εξόρυξη Δεδομένων

61 Μέτρα βασισμένα στη Στατιστική IS-measure s( X, Y ) f 11 IS ( X, Y ) = = = s( X ) s( Y ) f 1 + f + 1 I( X, Y ) s( x, Y ) είναι το συνημίτονο αν θεωρηθούν δυαδικές μεταβλητές γεωμετρικός μέσος της εμπιστοσύνης του Χ Υ καιυ Χ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 121 Στη βιβλιογραφία έχουν προταθεί πολλά μέτρα ανάλογα με την εφαρμογή Με ποια κριτήρια θα επιλέξουμε ένα καλό μέτρο; Πως έναν Aprioristyle support based pruning επηρεάζει αυτά τα μέτρα; Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 122 Εξόρυξη Δεδομένων

62 Αποτίμηση Κανόνων Συσχέτισης Σύγκριση Μέτρων 1 παραδείγματα contingency πινάκων: Ιεράρχηση των πινάκων με βάση τα διάφορα μέτρα (1 ο πιο ενδιαφέρον, 1 ο λιγότερο ενδιαφέρον): Example f 11 f 1 f 1 f E E E E E E E E E E Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 123 Αποτίμηση Κανόνων Συσχέτισης Ιδιότητες ενός Καλού Μέτρου Piatetsky-Shapiro: 3 γενικές ιδιότητες που πρέπει να ικανοποιεί ένα καλό μέτρο M: M(A, B) = αν τα Α και Β είναι στατιστικά ανεξάρτητα M(A, B) αυξάνει μονότονα με το P(A,B) όταν τα P(A) και P(B) παραμένουν αμετάβλητα M(A, B) μειώνεται μονότονα με το P(A) [ή τοp(b)] όταν τα P(A,B) και P(B) [ή P(A)] παραμένουν αμετάβλητα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 124 Εξόρυξη Δεδομένων

63 Ιδιότητες Μέτρων Αποτίμησης Αλλαγή ιάταξης Μεταβλητών (variable permutation) B B A p q A r s A A B p r B q s Συμμετρικά (symmetric) μέτρα: Ισχύει M(A, B) = M(B, A)? Γενικά συμμετρικά μέτρα για στοιχειοσύνολα και μη συμμετρικά για κανόνες support (υποστήριξη), lift, collective strength, cosine, Jaccard, κλπ Μη συμμετρικά (asymmetric) μέτρα: confidence (εμπιστοσύνη), conviction, Laplace, J-measure, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 125 Ιδιότητες Μέτρων Αποτίμησης Κλιμάκωση Γραμμής/Στήλης (Row/Column Scaling) Παράδειγμα Βαθμός-Φύλο (Mosteller, 1968): κ 3 Male κ 4 Female Male Female κ 1 κ 2 High Low High Low Mosteller: Η συσχέτιση πρέπει να είναι ανεξάρτητη από το σχετικό αριθμό αγοριών-κοριτσιών στο δείγμα Invariant under the row/column scaling operation αν Μ(Τ) = Μ(Τ ) όπου Τ o πίνακας contingency με μετρητές συχνότητας [f 11, f 1 ; f 1 ; f ] και Τ o πίνακας contingency με μετρητές συχνότητας [κ 1 κ 3 f 11, κ 2 κ 3 f 1 ; κ 1 κ 4 f 1 ; κ 2 κ 4 f ] όπου κ 1, κ 2, κ 3, κ 4 θετικές σταθερές 2x 1x Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 126 Εξόρυξη Δεδομένων

64 Ιδιότητες Μέτρων Αποτίμησης Αντιστροφή (Inversion Operation) A B C D E F Δοσοληψία 1. Δοσοληψία N (a) (b) (c) Invariant under the inversion operation αν η τιμή της παραμένει η ίδια αν ανταλλάξουμε τις τιμές f 11 και f και τις τιμές f 1 και f 1 Χρήσιμο για συμμετρικές μεταβλητές Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 127 Ιδιότητες Μέτρων Αποτίμησης Null Addition (προσθήκη μη σχετιζόμενων στοιχείων) B B A p q A r s B B A p q A r s + k εν επηρεάζονται από την αύξηση του f παραμένουν αμετάβλητες όταν οι άλλες τιμές Invariant measures: support, cosine, Jaccard, κλπ Non-invariant measures: correlation, Gini, mutual information, odds ratio, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 128 Εξόρυξη Δεδομένων

65 Αποτίμηση Κανόνων Συσχέτισης Παράδοξο του Simpson Students Buy HDTV Yes No Buy Exercise Machine Yes No Buy HDTV Yes No Buy Exercise Machine Yes No c({hdtv=yes} {EM=Yes})=1/1=1% c({hdtv=no} {EM=Yes})=4/34=11.8% c({hdtv=yes} {EM=Yes})=99/18=55% c({hdtv=no} {EM=Yes})=54/12=45% Working adults c({htvs=yes} {EM=Yes})=98/17=57.7% c({htvs=no} {EM=Yes})=5/86=58.1% Buy HDTV Yes No Buy Exercise Machine Yes No Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 129 Αποτίμηση Κανόνων Συσχέτισης Buy HDTV Yes No Παράδοξο του Simpson Yes 99 a+p 54 c+r 153 Buy Exercise Machine No c({hdtv=yes} {EM=Yes})=99/18=55% c({hdtv=no} {EM=Yes})=54/12=45% a/b < c/d p/q < r/s δεν συνεπάγεται ότι (a+p)/(b+q) < (c+r)/(d+s)! 18 b+q 12 d+s 3 Students Buy HDTV Yes No Working adults c({hdtv=yes} {EM=Yes})=1/1=1% c({hdtvs=no} {EM=Yes})=4/34=11.8% Buy HDTV Yes No Yes 1 α 4 c 5 Buy Exercise Machine Yes 98 p 5 r 148 No No b 34 d 44 c({hdtv=yes} {EM=Yes})=98/17=57.7% c({hdtv=no} {EM=Yes})=5/86=58.1% Buy Exercise Machine 17 q 86 s 256 Είναι σημαντικό πως θα γίνει διαχωρισμός (stratification) των δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 13 Εξόρυξη Δεδομένων

66 Υποκειμενικά Μέτρα Ενδιαφέροντος Αντικειμενικά Μέτρα: Ιεραρχούν τα αποτελέσματα με βάση στατιστικά στοιχεία που υπολογίζονται από τα δεδομένα πχ., 21 μετρήσεις συσχέτισης (support, confidence, Laplace, Gini, mutual information, Jaccard, etc). Υποκειμενικά Μέτρα: Ιεράρχηση των προτύπων με βάση την ερμηνεία του χρήστη Ένα πρότυπο είναι υποκειμενικά ενδιαφέρον αν είναι σε αντίθεση με αυτό που αναμένει ο χρήστης (Silberschatz & Tuzhilin) Ένα πρότυπο είναι υποκειμενικά ενδιαφέρον αν μπορεί να χρησιμοποιηθεί (Silberschatz & Tuzhilin) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 131 Υποκειμενικά Μέτρα Ενδιαφέροντος Interestingness (ενδιαφέρον) via Unexpectedness (μη αναμονή) + Pattern expected to be frequent - Pattern expected to be infrequent Pattern found to be frequent Pattern found to be infrequent Expected Patterns Unexpected Patterns Χρειάζεται να μοντελοποιήσουμε τι αναμένει ο χρήστης (domain knowledge) Χρειάζεται να συνδυάσουμε το τι αναμένεται από τους χρήστες με το τι δίνουν τα δεδομένα (δηλαδή τα πρότυπα που παίρνουμε -evidence) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 132 Εξόρυξη Δεδομένων

67 Οπτικοποίηση: Απλός Γράφος Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 133 Οπτικοποίηση: Γράφος Κανόνων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 134 Εξόρυξη Δεδομένων

68 Οπτικοποίηση: (SGI/MineSet 3.) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 135 Εξόρυξη Δεδομένων

Ο Αλγόριθμος FP-Growth

Ο Αλγόριθμος FP-Growth Ο Αλγόριθμος FP-Growth Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο - prefix tree (trie)

Διαβάστε περισσότερα

Ανάλυση Συσχέτισης IΙ

Ανάλυση Συσχέτισης IΙ Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές

Διαβάστε περισσότερα

Κανόνες Συσχέτισης IIΙ

Κανόνες Συσχέτισης IIΙ Κανόνες Συσχέτισης IIΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Ανάλυση Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data

Διαβάστε περισσότερα

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 26 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 12: Κανόνες Συσχέτισης Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης

Διαβάστε περισσότερα

Lecture Notes for Chapter 6. Introduction to Data Mining

Lecture Notes for Chapter 6. Introduction to Data Mining Κανόνες Συσχέτισης: Βασικές αρχές και αλγόριθμοι (Association Analysis: Basic Concepts and Algorithms) Lecture Notes for Chapter 6 Introduction to Data Mining by Tan, Steinbach, Kumar Εξόρυξη κανόνων συσχέτισης

Διαβάστε περισσότερα

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!) Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introdion to Data Mining», Addison Wesley, 26 Market-Basket transactions (Το καλάθι της νοικοκυράς!) TID Items

Διαβάστε περισσότερα

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 11: Κανόνες Συσχέτισης Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης

Διαβάστε περισσότερα

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης Σύνοψη Ο βασικός στόχος αυτού του κεφαλαίου είναι η εισαγωγή σε θέματα που αφορούν στην εξόρυξη συχνών στοιχειοσυνόλων και κανόνων συσχέτισης.

Διαβάστε περισσότερα

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining Data mining Εξόρυξη εδοµένων o Association rules mining o Classification o Clustering o Text Mining o Web Mining ιάγραµµα της παρουσίασης Association rule Frequent itemset mining Γνωστοί Αλγόριθµοι Βελτιώσεις

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ

5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ 5.2 ΑΠΛΟΠΟΙΗΣΗ ΜΕ ΤΗΝ ΜΕΘΟΔΟ ΚΑΤΑΤΑΞΗΣ ΣΕ ΠΙΝΑΚΑ 5.2. Εισαγωγή Αν η λογική συνάρτηση που πρόκειται να απλοποιήσουμε έχει περισσότερες από έξι μεταβλητές τότε η μέθοδος απλοποίησης με Χάρτη Καρνώ χρειάζεται

Διαβάστε περισσότερα

ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης

ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Συναρτησιακές Εξαρτήσεις Αξιώµατα Armstrong Ελάχιστη κάλυψη Φροντιστήριο 1 Συναρτησιακές Εξαρτήσεις Οι Συναρτησιακές εξαρτήσεις είναι περιορισµοί

Διαβάστε περισσότερα

Δμόξπμε Γεδνκέλσλ. Καλόλεο Σπζρέηηζεο: Βαζηθέο Έλλνηεο θαη Αιγόξηζκνη

Δμόξπμε Γεδνκέλσλ. Καλόλεο Σπζρέηηζεο: Βαζηθέο Έλλνηεο θαη Αιγόξηζκνη Δμόξπμε Γεδνκέλσλ Καλόλεο Σπζρέηηζεο: Βαζηθέο Έλλνηεο θαη Αιγόξηζκνη (Σημειώσεις μεταυρασμένες από το Κευάλαιο 6 τοσ βιβλίοσ των Tan, Steinbach, Kumar) Καλόλεο Σπζρέηηζεο Δμόξπμε Καλόλσλ Σπζρέηηζεο Γεδνκέλνπ

Διαβάστε περισσότερα

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις 2η ΔΙΑΛΕΞΗ 1 Συναρτησιακές εξαρτήσεις Συναρτησιακές εξαρτήσεις 2 Θέματα Ανάπτυξης Έννοια και ορισμός των συναρτησιακών εξαρτήσεων Κανόνες του Armstrong Μη αναγώγιμα σύνολα εξαρτήσεων Στόχος και Αποτελέσματα

Διαβάστε περισσότερα

ΗΥ360 Αρχεία και Βάσεις Δεδομένων

ΗΥ360 Αρχεία και Βάσεις Δεδομένων ΗΥ360 Αρχεία και Βάσεις Δεδομένων Φροντιστήριο Συναρτησιακές Εξαρτήσεις Αξιώματα Armstrong Ελάχιστη Κάλυψη Συναρτησιακές Εξαρτήσεις Τι είναι : Οι Συναρτησιακές εξαρτήσεις είναι περιορισμοί ακεραιότητας

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης

Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης -------------------------- Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πολυτεχνική Σχολή Πανεπιστημίου Πατρών Διπλωματική Εργασία για το Μεταπτυχιακό Δίπλωμα Ειδίκευσης στην «Επιστήμη και Τεχνολογία Υπολογιστών»

Διαβάστε περισσότερα

Κανόνες συσχέτισης Association rules

Κανόνες συσχέτισης Association rules Κανόνες συσχέτισης Association rules Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη με βάση slides από J. Han and M. Kamber Data Mining: Concepts and Techniques, 2 nd edition Τι είναι η εξόρυξη

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 20 Huffman codes 1 / 12 Κωδικοποίηση σταθερού μήκους Αν χρησιμοποιηθεί κωδικοποίηση σταθερού μήκους δηλαδή

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Συμβολοσειρές Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Συμβολοσειρές Συμβολοσειρές και προβλήματα που αφορούν συμβολοσειρές εμφανίζονται τόσο συχνά που

Διαβάστε περισσότερα

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος ΗΥ-360 Αρχεια και Βασεις εδοµενων, Τµηµα Επιστηµης Υπολογιστων, Πανεπιστηµιο Κρητης Συναρτησιακές Εξαρτήσεις Βάρσος Κωνσταντίνος 24 Νοεµβρίου 2017 Ορισµός 1. Μια συναρτησιακή εξάρτηση µεταξύ X και Y συµβολίζεται

Διαβάστε περισσότερα

Asocijativna analiza

Asocijativna analiza Asocijativna analiza Šta je asocijativna analiza? Asocijativna analiza sastoji se u identifikovanju jakih asocijativnih pravila u datom skupu podataka Brojne su varijante osnovnog problema Originalna primjena:

Διαβάστε περισσότερα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη Εσωτερική Μνήμη Κρυφή Μνήμη (Cache) μεγαλύτερη χωρητικότητα Καταχωρητές (Registers) Κεντρική Μονάδα (CPU) μεγαλύτερη ταχύτητα Πολλές σημαντικές εφαρμογές διαχειρίζονται

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος

Συναρτησιακές Εξαρτήσεις 7ο Φροντιστήριο. Βάρσος Κωνσταντίνος ΗΥ-360 Αρχεια και Βασεις εδοµενων, Τµηµα Επιστηµης Υπολογιστων, Πανεπιστηµιο Κρητης Συναρτησιακές Εξαρτήσεις Βάρσος Κωνσταντίνος 16 Νοεµβρίου 2018 Ορισµός 1. Μια συναρτησιακή εξάρτηση µεταξύ X και Y συµβολίζεται

Διαβάστε περισσότερα

Κλείσιμο Συνόλου Γνωρισμάτων

Κλείσιμο Συνόλου Γνωρισμάτων Κλείσιμο Συνόλου Γνωρισμάτων Ο υπολογισμός του κλεισίματος ενός συνόλου από ΣΕ μας δίνει τα σύνολα όλων των γνωρισμάτων τα οποία προσδιορίζονται συναρτησιακά από άλλα σύνολα γνωρισμάτων Ο υπολογισμός αυτός

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/ Τεχνητή Νοημοσύνη 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία: Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας

Διαβάστε περισσότερα

Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων

Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ : «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΤΙΤΛΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ : Αλγόριθμοι Εξόρυξης δεδομένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

ΗΜΥ-210: Σχεδιασμός Ψηφιακών Συστημάτων

ΗΜΥ-210: Σχεδιασμός Ψηφιακών Συστημάτων ΗΜΥ-2: Σχεδιασμός Ψηφιακών Συστημάτων Συνδυαστική Λογική / Κυκλώματα (Μέρος B) Διδάσκουσα: Μαρία Κ Μιχαήλ Πανεπιστήμιο Κύπρου Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Περίληψη Βελτιστοποίηση

Διαβάστε περισσότερα

!! " &' ': " /.., c #$% & - & ' ()",..., * +,.. * ' + * - - * ()",...(.

!!  &' ':  /.., c #$% & - & ' (),..., * +,.. * ' + * - - * (),...(. ..,.. 00 !!.6 7 " 57 +: #$% & - & ' ()",..., * +,.. * ' + * - - * ()",.....(. 8.. &' ': " /..,... :, 00. c. " *+ ' * ' * +' * - * «/'» ' - &, $%' * *& 300.65 «, + *'». 3000400- -00 3-00.6, 006 3 4.!"#"$

Διαβάστε περισσότερα

ΔΙΑΣΧΙΣΗ ΓΡΑΦΗΜΑΤΩΝ 1

ΔΙΑΣΧΙΣΗ ΓΡΑΦΗΜΑΤΩΝ 1 ΔΙΑΣΧΙΣΗ ΓΡΑΦΗΜΑΤΩΝ 1 Θέματα μελέτης Πρόβλημα αναζήτησης σε γραφήματα Αναζήτηση κατά βάθος (Depth-first search DFS) Αναζήτηση κατά πλάτος (Breadth-first search BFS) 2 Γράφημα (graph) Αναπαράσταση συνόλου

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Εξόρυξη από Γραφήματα

Εξόρυξη από Γραφήματα Εισαγωγή Εξόρυξη από Γραφήματα Γράφημα G(V, E) u i V, (u i, u j ) E Ετικέτα l(u i ), l(u i, u j ) Επέκταση της εξόρυξης κανόνων συσχέτισης για τον εντοπισμό συχνών υπο-γραφημάτων s t t Γράφημα με ετικέτες

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΕΠΛ 451 Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό I. Στόχος ΑΣΚΗΣΗ 1 Ανάλυση συσχετίσεων ανάμεσα σε προϊόντα Διδάσκων: Γιώργος Πάλλης Υπεύθυνος Εργασίας: Παύλος Αντωνίου

Διαβάστε περισσότερα

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις (Γραμμικές) Αναδρομικές Σχέσεις ιδάσκοντες: Φ. Αφράτη,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Αναδρομικές Σχέσεις Αναπαράσταση

Διαβάστε περισσότερα

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 11: Μη Ασυμφραστικές Γλώσσες

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 11: Μη Ασυμφραστικές Γλώσσες ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας Διάλεξη 11: Μη Ασυμφραστικές Γλώσσες Τι θα κάνουμε σήμερα Εισαγωγικά (2.3) Το Λήμμα της Άντλησης για ασυμφραστικές γλώσσες (2.3.1) Παραδείγματα 1 Πότε μια

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου Συμπίεση Η συμπίεση δεδομένων ελαττώνει το μέγεθος ενός αρχείου : Εξοικονόμηση αποθηκευτικού χώρου Εξοικονόμηση χρόνου μετάδοσης Τα περισσότερα αρχεία έχουν πλεονασμό στα δεδομένα τους Είναι σημαντική

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

ΠΡΟΔΙΑΘΕΣΙΚOI ΠΑΡΑΓΟΝΤΕΣ ΑΘΗΡΟΣΚΛΗΡΩΣΗΣ ΚΑΙ ΕΜΦΑΝΙΣΗ ΑΘΗΡΩΜΑΤΙΚΩΝ ΒΛΑΒΩΝ ΣΤΙΣ ΚΑΡΩΤΙΔΕΣ ΣΕ ΝΕΟΥΣ ΕΝΗΛΙΚΕΣ

ΠΡΟΔΙΑΘΕΣΙΚOI ΠΑΡΑΓΟΝΤΕΣ ΑΘΗΡΟΣΚΛΗΡΩΣΗΣ ΚΑΙ ΕΜΦΑΝΙΣΗ ΑΘΗΡΩΜΑΤΙΚΩΝ ΒΛΑΒΩΝ ΣΤΙΣ ΚΑΡΩΤΙΔΕΣ ΣΕ ΝΕΟΥΣ ΕΝΗΛΙΚΕΣ Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πρόγραμμα Μεταπτυχιακών Σπουδών Ιατρικής Πληροφορικής Διπλωματική Εργασία: ΠΡΟΔΙΑΘΕΣΙΚOI ΠΑΡΑΓΟΝΤΕΣ ΑΘΗΡΟΣΚΛΗΡΩΣΗΣ ΚΑΙ ΕΜΦΑΝΙΣΗ ΑΘΗΡΩΜΑΤΙΚΩΝ ΒΛΑΒΩΝ ΣΤΙΣ ΚΑΡΩΤΙΔΕΣ

Διαβάστε περισσότερα

P(n, r) = n! P(n, r) = n r. (n r)! n r. n+r 1 r n!

P(n, r) = n! P(n, r) = n r. (n r)! n r. n+r 1 r n! Διακριτά Μαθηματικά Σύνοψη Θεωρίας Τυπολόγιο Αναστασία Κόλλια 20/11/2016 1 / 55 Κανόνες γινομένου και αθροίσματος Κανόνας αθροίσματος: Αν ένα γεγονός μπορεί να συμβεί κατά m τρόπους και ένα άλλο γεγονός

Διαβάστε περισσότερα

Π Α Ν Ε Π Ι Σ Τ Η Μ Ι O Π Ε Ι Ρ Α Ι Ω Σ

Π Α Ν Ε Π Ι Σ Τ Η Μ Ι O Π Ε Ι Ρ Α Ι Ω Σ Π Α Ν Ε Π Ι Σ Τ Η Μ Ι O Π Ε Ι Ρ Α Ι Ω Σ Σχολή Χρηματοοικονομικής και Στατιστικής Τ μήμα Στατιστικής και Ασφαλιστικής Επιστήμης ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Τ ρ ό ποι αντιμετώπ

Διαβάστε περισσότερα

Αρχεία και Βάσεις Δεδομένων

Αρχεία και Βάσεις Δεδομένων ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αρχεία και Βάσεις Δεδομένων Διάλεξη 13η: Κλείσιμο Συνόλου Γνωρισμάτων - Ελάχιστη κάλυψη - Αποσύνθεση - Συναρτησιακές Εξαρτήσεις Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n. Πρώτο Σύνολο Ασκήσεων 2014-2015 Κατερίνα Ποντζόλκοβα, 5405 Αθανασία Ζαχαριά, 5295 Ερώτημα 1 Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n. Ο αλγόριθμος εύρεσης

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα Αλγόριθμοι και Πολυπλοκότητα Διαίρει και Βασίλευε Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Διαίρει και Βασίλευε Divide and Conquer Η τεχνική διαίρει και βασίλευε αναφέρεται

Διαβάστε περισσότερα

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή; Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση

Διαβάστε περισσότερα

2. Η πιθανότητα της αριθμήσιμης ένωσης ξένων μεταξύ τους ενδεχομένων είναι το άθροισμα των πιθανοτήτων των ενδεχομένων.

2. Η πιθανότητα της αριθμήσιμης ένωσης ξένων μεταξύ τους ενδεχομένων είναι το άθροισμα των πιθανοτήτων των ενδεχομένων. Ένα μέτρο πιθανότητας πάνω στο δειγματικός χώρο Ω, είναι μία συνάρτηση P ( ) που αντιστοιχεί σε υποσύνολα του Ω, έναν αριθμό στο [ 0, ], με τις εξής ιδιότητες: P ( Ω ) 2 Η πιθανότητα της αριθμήσιμης ένωσης

Διαβάστε περισσότερα

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις (Γραμμικές) Αναδρομικές Σχέσεις Διδάσκοντες: Φ. Αφράτη, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Αναδρομικές Σχέσεις

Διαβάστε περισσότερα

Ατομική Διπλωματική Εργασία ΜΕΘΟΔΟΙ ΠΡΟΤΑΣΙΑΚΗΣ ΙΚΑΝΟΠΟΙΗΣΙΜΟΤΗΤΑΣ ΣΕ ΓΕΝΙΚΕΥΜΕΝΑ ΠΡΟΒΛΗΜΑΤΑ ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΙΑΣ. Νίκη Κουππή ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Ατομική Διπλωματική Εργασία ΜΕΘΟΔΟΙ ΠΡΟΤΑΣΙΑΚΗΣ ΙΚΑΝΟΠΟΙΗΣΙΜΟΤΗΤΑΣ ΣΕ ΓΕΝΙΚΕΥΜΕΝΑ ΠΡΟΒΛΗΜΑΤΑ ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΙΑΣ. Νίκη Κουππή ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Ατομική Διπλωματική Εργασία ΜΕΘΟΔΟΙ ΠΡΟΤΑΣΙΑΚΗΣ ΙΚΑΝΟΠΟΙΗΣΙΜΟΤΗΤΑΣ ΣΕ ΓΕΝΙΚΕΥΜΕΝΑ ΠΡΟΒΛΗΜΑΤΑ ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΙΑΣ Νίκη Κουππή ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Μάιος 2013 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Διαβάστε περισσότερα

Ψηφιακά Συστήματα. 5. Απλοποίηση με χάρτες Karnaugh

Ψηφιακά Συστήματα. 5. Απλοποίηση με χάρτες Karnaugh Ψηφιακά Συστήματα 5. Απλοποίηση με χάρτες Karnaugh Βιβλιογραφία 1. Φανουράκης Κ., Πάτσης Γ., Τσακιρίδης Ο., Θεωρία και Ασκήσεις Ψηφιακών Ηλεκτρονικών, ΜΑΡΙΑ ΠΑΡΙΚΟΥ & ΣΙΑ ΕΠΕ, 2016. [59382199] 2. Floyd

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα Ανάλυση Μεγάλων Δεδομένων - Μελέτη Περίπτωσης στη Διαδικτυακή Εφαρμογή «Help Me Vote» - Big Data Analysis - a Case Study on the Web-Based

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΕΠΛ 035 - ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΓΙΑ ΗΛΕΚΤΡΟΛΟΓΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΚΑΙ ΜΗΧΑΝΙΚΟΥΣ ΥΠΟΛΟΓΙΣΤΩΝ Ακαδηµαϊκό έτος 2017-2018 Υπεύθυνος εργαστηρίου: Γεώργιος

Διαβάστε περισσότερα

Περιεχόμενα. Περιεχόμενα

Περιεχόμενα. Περιεχόμενα Περιεχόμενα xv Περιεχόμενα 1 Αρχές της Java... 1 1.1 Προκαταρκτικά: Κλάσεις, Τύποι και Αντικείμενα... 2 1.1.1 Βασικοί Τύποι... 5 1.1.2 Αντικείμενα... 7 1.1.3 Τύποι Enum... 14 1.2 Μέθοδοι... 15 1.3 Εκφράσεις...

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Κεφάλαιο 10 Ψηφιακά Λεξικά

Κεφάλαιο 10 Ψηφιακά Λεξικά Κεφάλαιο 10 Ψηφιακά Λεξικά Περιεχόμενα 10.1 Εισαγωγή... 213 10.2 Ψηφιακά Δένδρα... 214 10.3 Υλοποίηση σε Java... 222 10.4 Συμπιεσμένα και τριαδικά ψηφιακά δένδρα... 223 Ασκήσεις... 225 Βιβλιογραφία...

Διαβάστε περισσότερα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Εξόρυξη και διαχείριση κανόνων συσχέτισης με χρήση τεχνικών Ανάκτησης Πληροφορίας ΘΕΟΔΩΡΟΣ Θ. ΒΑΡΣΑΜΗΣ

Διαβάστε περισσότερα

Ασκήσεις ανακεφαλαίωσης στο μάθημα Τεχνητή Νοημοσύνη

Ασκήσεις ανακεφαλαίωσης στο μάθημα Τεχνητή Νοημοσύνη Ασκήσεις ανακεφαλαίωσης στο μάθημα Τεχνητή Νοημοσύνη Τμήμα Μηχανικών Πληροφορικής ΤΕ (ΤΕΙ Ηπείρου) Τυφλή αναζήτηση Δίνεται το ακόλουθο κατευθυνόμενο γράφημα 1. Ο κόμβος αφετηρία είναι ο Α και ο κόμβος

Διαβάστε περισσότερα

Παρατηρήσεις στα ϑέµατα

Παρατηρήσεις στα ϑέµατα Παρατηρήσεις στα ϑέµατα του διαγωνισµού ΘΑΛΗΣ 2013 της Ε.Μ.Ε. Λυγάτσικας Ζήνων Πρότυπο Πειραµατικό Γ.Ε.Λ. Βαρβακείου Σχολής 20 Οκτωβρίου 2013 1 Γενικές Παρατηρήσεις Οι απόψεις των παιδιών Τα ϑέµατα, ιδίως

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Δυαδικά Δέντρα 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 18/11/2016 Εισαγωγή Τα

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Διάλεξη 21: Γράφοι IV - Βραχύτερα Μονοπάτια σε Γράφους

Διάλεξη 21: Γράφοι IV - Βραχύτερα Μονοπάτια σε Γράφους Διάλεξη 2: Γράφοι IV - Βραχύτερα Μονοπάτια σε Γράφους Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Βραχύτερα Μονοπάτια σε γράφους - Ο αλγόριθμος Dijkstra για εύρεση της βραχύτερης απόστασης

Διαβάστε περισσότερα

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος Χρησιμοποιείται μόνο όταν οι τιμές της μεταβλητής έχουν ένα σταθερό άθροισμα (συνήθως 100%, όταν μιλάμε για σχετικές συχνότητες) Είναι χρήσιμο μόνο

Διαβάστε περισσότερα

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις (Γραμμικές) Αναδρομικές Σχέσεις ιδάσκοντες:. Φωτάκης. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Αναδρομικές Σχέσεις Αναπαράσταση

Διαβάστε περισσότερα

κυρτών και σύνθετων σωμάτων

κυρτών και σύνθετων σωμάτων Τ.Ε.Ι. Αθηνών τμήμα Πληροφορικής Διπλωματική εργασία Ανίχνευση συγκρούσεων σε σκηνές 3Δ κυρτών και σύνθετων σωμάτων Κόνιαρης Χαράλαμπος Επιβλέπων καθηγητής : Δρ. Ιωάννης Πρατικάκης Περιληπτικά (1) Γενικά

Διαβάστε περισσότερα

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε. Ψηφιακά Δένδρα Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών τα οποία είναι ακολουθίες συμβάλλων από ένα πεπερασμένο αλφάβητο Ένα στοιχείο γράφεται ως, όπου κάθε. Μπορούμε να

Διαβάστε περισσότερα

ΗΥ118: Διακριτά Μαθηματικά - Εαρινό Εξάμηνο 2016 Τελική Εξέταση Ιουνίου - Τετάρτη, 15/06/2016 Λύσεις Θεμάτων

ΗΥ118: Διακριτά Μαθηματικά - Εαρινό Εξάμηνο 2016 Τελική Εξέταση Ιουνίου - Τετάρτη, 15/06/2016 Λύσεις Θεμάτων ΗΥ118: Διακριτά Μαθηματικά - Εαρινό Εξάμηνο 2016 Τελική Εξέταση Ιουνίου - Τετάρτη, 15/06/2016 Λύσεις Θεμάτων Θέμα 1: [14 μονάδες] 1. [5] Έστω Y(x): «Το αντικείμενο x είναι ηλεκτρονικός υπολογιστής», Φ(y):

Διαβάστε περισσότερα

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Θεωρία Πληροφορίας Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Ατζέντα Διακριτή πηγή πληροφορίας χωρίς μνήμη Ποσότητα πληροφορίας της πηγής Κωδικοποίηση

Διαβάστε περισσότερα

Συνδυαστική Απαρίθμηση

Συνδυαστική Απαρίθμηση Παραδείγματα Συνδυαστική Απαρίθμηση Διδάσκοντες: Φ. Αφράτη, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο n θρανία στη σειρά

Διαβάστε περισσότερα

Συνδυαστική Απαρίθμηση

Συνδυαστική Απαρίθμηση Συνδυαστική Απαρίθμηση ιδάσκοντες: Φ. Αφράτη,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Συνδυαστική Απαρίθμηση Υπολογισμός

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Συνδυαστική Απαρίθμηση

Συνδυαστική Απαρίθμηση Συνδυαστική Απαρίθμηση ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Συνδυαστική Απαρίθμηση

Διαβάστε περισσότερα