Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση"

Transcript

1 Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 26 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Εισαγωγή Ορισμοί Market-asket transactions (Το καλάθι της νοικοκυράς!) TI Items read, Milk 2 read, iaper, eer, ggs 3 Milk, iaper, eer, oke Το πρόβλημα: εδομένου ενός συνόλου δοσοληψιών (transactions), βρες κανόνες που προβλέπουν την εμφάνιση στοιχείων (item) με βάση την εμφάνιση άλλων στοιχείων στις συναλλαγές Παραδείγματα κανόνων συσχέτισης 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke {iaper} {eer}, δοσοληψία (transaction) στοιχείο (item) Προώθηση προϊόντων Τοποθέτηση προϊόντων στα ράφια ιαχείριση αποθεμάτων {Milk, read} {ggs,oke}, {eer, read} {Milk} Σημαίνει ότι εμφανίζονται μαζί, όχι ότι η εμφάνιση του ενός είναι η αιτία της εμφάνισης του άλλου (co-occurrence, not causality όχι έννοια χρόνου ή διάταξης) στοιχειοσύνολο (itemset): Ένα υποσύνολο του συνόλου των στοιχείων k-στοιχειοσύνολο (k-itemset): ένα στοιχειοσύνολο με k στοιχεία support count (σ) ενός στοιχειοσυνόλου: ο αριθμός εμφανίσεων του στοιχείου Υποστήριξη (Support (s)) ενός στοιχειοσυνόλου Το ποσοστό των δοσοληψιών που περιέχουν ένα στοιχειοσύνολο Συχνό Στοιχειοσύνολο (Frequent Itemset) Ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου minsup TI Items read, Milk 2 read, iaper, eer, ggs 3 Milk, iaper, eer, oke 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Κανόνας Συσχέτισης (ssociation Rule) Είναι μια έκφραση της μορφής X Y, όπου X και Y είναι στοιχειοσύνολα Χ Ι, Υ Ι, Χ Υ = Παράδειγμα: {Milk, iaper} {eer} TI Items Ορισμοί read, Milk 2 read, iaper, eer, ggs 3 Milk, iaper, eer, oke 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke Υποστήριξη Κανόνα Support (s) Το ποσοστό των δοσοληψιών που περιέχουν και το X και το Y(Χ Υ) Εμπιστοσύνη -onfidence(c) Πόσες από τις δοσοληψίες (ποσοστό) που περιέχουν το Χ περιέχουν και το Υ Πρόβλημα Εύρεση Κανόνων Συσχέτισης Είσοδος: Ένα σύνολο από δοσοληψίες T Έξοδος: Όλοι οι κανόνες με support minsup confidence minconf Χωρισμός του προβλήματος σε δύο υπο-προβλήματα: Εξόρυξη Κανόνων Συσχέτισης Εύρεση όλων των συχνών στοιχειοσυνόλων (Frequent Itemset Generation) Εύρεση όλων των στοιχειοσυνόλων με υποστήριξη minsup ημιουργία Κανόνων (Rule Generation) Για κάθε (συχνό) στοιχειοσύνολο, δημιούργησε κανόνες με μεγάλη υποστήριξη, όπου κάθε κανόνες είναι μια δυαδική διαμέριση (δηλ. χωρισμός στα δύο) του συχνού στοιχειοσυνόλου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6

2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Itemset Lattice - Πλέγμα Στοιχειοσυνόλων Εύρεση Συχνών Στοιχειοσυνόλων Όλα τα δυνατά στοιχειοσύνολα όταν έχουμε 5 στοιχεία Αρχή priori Αν ένα στοιχειοσύνολο είναι συχνό, τότε όλα τα υποσύνολα του είναι συχνά Ή ισοδύναμα αν ένα στοιχειοσύνολο είναι μη συχνό, όλα τα υπερσύνολα του είναι μη συχνά Εύρεση Συχνών Στοιχειοσυνόλων: Στρατηγική apriori βρέθηκε μη συχνό Για d στοιχεία, 2 d πιθανά στοιχειοσύνολα ψαλιδισμένα υπερσύνολα Support-based pruning Ψαλίδισμα με βάση την υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Στρατηγική apriori Στρατηγική apriori: ημιουργία Στοιχειοσυνόλων Για την παραγωγή υποψήφιων k-στοιχειοσυνόλων Γενικός Αλγόριθμος για την Εύρεση Συχνών Στοιχειοσυνόλων Έστω k = #k: μήκος στοιχειοσυνόλου Παρήγαγε τα συχνά -στοιχειοσύνολα Repeat until να μην παράγονται νέα συχνά στοιχειοσύνολα. Παρήγαγε υποψήφια (k+)-στοιχειοσύνολα 2. Ψαλίδισε τα υποψήφια στοιχειοσύνολα που περιέχουν μη συχνά στοιχειοσύνολα μεγέθους k 3. Υπολόγισε την υποστήριξη κάθε υποψήφιου (k+)- στοιχειοσυνόλου διασχίζοντας τη βάση των δοσοληψιών 4. Σβήσε τα υποψήφια στοιχειοσύνολα που δεν είναι συχνά 5. k=k + F k- x F Επέκταση κάθε συχνού (k-) στοιχειοσυνόλου με άλλα συχνά στοιχεία F k- x F k- Συγχώνευση δύο συχνών (k-) στοιχειοσυνόλου αν τα πρώτα k-2 στοιχεία τους είναι τα ίδια Για να αποφύγουμε τη δημιουργία του ίδιου στοιχειοσυνόλου, κρατάμε κάθε στοιχειοσύνολο (λεξικογραφικά) ταξινομημένο Ψαλίδισμα Είναι δυνατόν να γίνουν απλοί έλεγχοι αν τα παραγόμενα πιθανά στοιχειοσύνολα είναι συχνά ελέγχοντας αν τα υποσύνολα τους είναι συχνά και έτσι να αποφύγουμε να υπολογίσουμε την υποστήριξή τους Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Στρατηγική apriori: Υπολογισμός Υποστήριξης Παραγωγή Κανόνων Για κάθε νέο υποψήφιο k+-στοιχειοσύνολο, πρέπει να υπολογίσουμε την υποστήριξή του Σε κάθε βήμα k+ Για να μειώσουμε τον αριθμό των πράξεων, αποθηκεύουμε τα υποψήφια k+-στοιχειοσύνολα σε ένα δέντρο κατακερματισμού Αντί να ταιριάζουμε κάθε δοσοληψία με κάθε υποψήφιο στοιχειοσύνολο, κατακερματίζουμε τα k+-στοιχειοσύνολα της δοσοληψίας και ενημερώνουμε μόνο τους αντίστοιχους κάδους του δέντρου κατακερματισμού των συχνών στοιχειοσυνόλων οθέντος ενός συχνού στοιχειοσυνόλου L, βρεςόλαταμηκενάυποσύνολαf L τέτοια ώστε ο κανόνας f L f ικανοποιεί τον περιορισμό της ελάχιστης εμπιστοσύνης Η εμπιστοσύνη για τους κανόνες που παράγονται από το ίδιο στοιχειοσύνολο έχει μια αντι-μονότονη ιδιότητα Για παράδειγμα L = {,,,}: c( ) c( ) c( ) Η εμπιστοσύνη είναι αντι-μονότονη σε σχέση με των αριθμό των στοιχείων στο RHS του κανόνα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2

3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Παραγωγή Κανόνων για τον Αλγόριθμο apriori Αναπαράσταση Στοιχειοσυνόλων Πλέγμα Κανόνων για το Στοιχειοσύνολο {Α,,, } Ψαλίδισμα με βάση την εμπιστοσύνη Έστω κόμβος =>{ } με μικρή εμπιστοσύνη Για κάθε συχνό στοιχειοσύνολο, ξεκινάμε με => => => => έναν κανόνα που έχει μόνο k= στοιχείο στο δεξί μέρος του Υπολογίζουμε την εμπιστοσύνη Παράγουμε κανόνες με k+ => => => => => => στοιχεία στο δεξί μέρος και υπολογίζουμε την εμπιστοσύνη τους Σημείωση: Για τον υπολογισμό της εμπιστοσύνης δεν χρειάζεται να διαπεράσουμε τη => => => => βάση Ψαλιδισ μένοι κανόνες Τα στοιχειοσύνολα που παράγονται είναι πολλά, κάποια ίσως περιττά οδηγούν σε παραγωγή πολλών κανόνων Ποια να κρατήσουμε; Ψάχνουμε για αντιπροσωπευτικά συχνά στοιχειοσύνολα (δηλαδή, να μπορούμε να πάρουμε από αυτά ακριβώς όλα τα συχνά και ιδεατά να μπορούμε να υπολογίσουμε και την υποστήριξη όλων των συχνών): Maximal συχνά Κλειστά συχνά Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Αναπαράσταση Στοιχειοσυνόλων Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι maximal συχνό αν κανένα από τα άμεσα υπερσύνολά του δεν είναι συχνό Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων: το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα είναι τα υποσύνολά τους ΟΜΩΣ: εν προσφέρουν καμιά πληροφορία για την υποστήριξη των υποσυνόλων τους Συχνά Μη συχνά Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό (δηλαδή, έχει μικρότερη υποστήριξη) Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και συχνό (δηλαδή, η υποστήριξητουείναιμεγαλύτερηήίσημεminsup) Πάλι τα υποσύνολα τους μας δίνουν όλα τα συχνά υποσύνολα, τώρα όμως μπορούμε να υπολογίσουμε την υποστήριξη των υποσυνόλων τους Πως: Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6 TI στοιχεία Αναπαράσταση Στοιχειοσυνόλων Maximal vs losed Itemsets ΤIs Ελάχιστη υποστήριξη = 2 Αναπαράσταση Στοιχειοσυνόλων Maximal vs losed Itemsets Κλειστά αλλά όχι maximal Κλειστά και maximal Δεν εμφανίζονται σε καμιά δοσοληψία # losed = 9 # Maximal = 4 Για να υπολογίσουμε όλα τα συχνά στοιχειοσύνολα και την υποστήριξη τους, ξεκινάμε από τα μεγαλύτερα κλειστά και προχωράμε Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8

4 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Ο priori από τους παλιότερους, αλλά: Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Συχνά μεγάλο I/O επειδή κάνει πολλαπλά περάσματα στη βάση των δοσοληψιών Κακή απόδοση όταν οι δοσοληψίες έχουν μεγάλο πλάτος Άλλες μέθοδοι: ιαφορετικές διασχίσεις του πλέγματος των στοιχειοσυνόλων Αναπαράσταση Συνόλου οσoληψιών Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων priori: Γενικά-προς-Συγκεκριμένα k- -> k Πλέγμα Στοιχεισυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: Συγκεκριμένα-προς-Γενικά vs Γενικά-προς-Συγκεκριμένα k -> k (συγκεκριμένο-προς-γενικό) Πιο χρήσιμο για τον εντοπισμό maximal συχνών στοιχειοσυνόλων σε πυκνές (δηλ, με μεγάλο πλάτος δοσοληψίες) όπου το συχνό στοιχειοσύνολο βρίσκεται κοντά στο κατώτατο σημείο του πλέγματος Αν συχνό, δε χρειάζεται να ελέγξουμε κανένα από τα υποσύνολά του k -> k - Συγκεκριμένα-προς-Γενικά Αν αυτό είναι το συχνό, το βρίσκουμε αφού εξετάσουμε όλα τα υποσύνολά του Αν τα συχνά είναι προς το κατώτατο σημείο (bottom) τους πλέγματος, ίσως συμφέρει Γενικό-προς-Συγκεκριμένο Συγκεκριμένο-προς-Γενικό ιπλής Κατεύθυνσης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 22 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: Κλάσεις Ισοδυναμίας Χωρισμός των στοιχειοσυνόλων του πλέγματος σε ξένες μεταξύ τους ομάδες (κλάσεις ισοδυναμίας) και εξέταση των στοιχειοσυνόλων ανά κλάσεις priori: ορίζει τις κλάσεις με βάση το μήκος k των στοιχειοσυνόλων, πρώτα αυτά μήκους, μετά μήκους 2 κοκ Prefix (Suffix): ύο στοιχειοσύνολα ανήκουν στην ίδια κλάση αν έχουν κοινό πρόθεμα (ή επίθημα-κατάληξη) μήκους k priori ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: FS vs FS FS: epth-first-search Διάσχιση κατά Βάθος (a) Prefix tree (b) Suffix tree FS: readth-first-search Διάσχιση κατά Πλάτος Χρήσιμο για την εύρεση maximal συχνών στοιχειοσυνόλων γιατί τα εντοπίζει πιο γρήγορα από το FS Μόλις εντοπιστεί το maximal, είναι δυνατόν να κλαδευτούν πολλά υποσύνολα του Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 23 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 24

5 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 25 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: FS vs FS Αναπαράσταση της Βάσης εδομένων: Οριζόντια vs Κάθετη Άλλοι Τρόποι Υπολογισμού Αυτό χρησιμοποιεί ο apriori Εναλλακτικά: Για κάθε στοιχείο σε ποιες δοσοληψίες εμφανίζεται Prune μόνο τa ab και ac Μπορούμε να κάνουμε prune όλο το υποδέντρο Maximal συχνό στοιχειοσύνολο Οριζόντια Διάρθρωση Δεδομένων TI Items,, 2,, 3, 4,, 5,,, 6, 7, 8,, 9,, Κάθετη Διάρθρωση Δεδομένων Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TI-λιστών Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 26 Άλλοι Τρόποι Υπολογισμού Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TI-λιστών Η υποστήριξη ενός k-στοιχειοσυνόλου υπολογίζεται παίρνοντας τις τομές των TIλιστών δύο από τα (k-)-ύπο-στοιχειοσύνολα του Ο Πλεονέκτημα: πολύ γρήγορος υπολογισμός της υποστήριξης Πρόβλημα, αν οι TI-λίστες είναι μεγάλες και δε χωρούν στη μνήμη Θα δούμε τον FP-Growth που χρησιμοποιεί μια prefix-based αναπαράσταση των δοσοληψιών Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 27 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 28 Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο -prefix tree (trie) Ο αλγόριθμος κατασκευής διαβάζει μια δοσοληψία τη φορά, απεικονίζει τη δοσοληψία σε ένα μονοπάτι του FP-δέντρου Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση Μόλις κατασκευαστεί το FP-δέντρο, ο αλγόριθμος χρησιμοποιεί μια αναδρομική διαίρει-και-βασίλευε (divide-and-conquer) προσέγγιση για την εξόρυξη των συχνών στοιχειοσυνόλων TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου To FP-δέντρο είναι ένα προθεματικό δέντρο Επειδή έχουμε σύνολα, κάπως πρέπει να τα διατάξουμε ώστε να βρίσκουμε προθέματα ηλαδή δε μπορεί το ένα σύνολο να είναι {Α, Β} και το άλλο {Β,, } γιατί χάνουμε το κοινό πρόθεμα ΑΒ (ή ΒΑ) Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική (θα δούμε αργότερα αν κάτι άλλο συμφέρει καλύτερα) Αρχικά, το δέντρο κενό Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 29 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3

6 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=: : : TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=: : : Διάβασμα TI=2: : Κάθε κόμβος έχει μια ετικέτα: ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Κάθε κόμβος ετικέτα, ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Επίσης, δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 32 TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=, 2: Πίνακας εικτών : : : TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=, 2: Διάβασμα TI=3 Πίνακας εικτών : : : Επίσης, κρατάμε πίνακα δεικτών για να βοηθήσουν στον υπολογισμό των συχνών στοιχειοσυνόλων Item Pointer Item Pointer Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 33 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 34 TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=, 2: Διάβασμα TI=3 Πίνακας εικτών Item Pointer : :2 : : TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Κατασκευή FP-δέντρου Διάβασμα TI=, 2: Διάβασμα TI=3 Πίνακας εικτών Item Pointer : :2 : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 35 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 36

7 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 37 TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Πίνακας Δεικτών Item Pointer Κατασκευή FP-δέντρου :5 : : : Μέγεθος FP-δέντρου Κάθε δοσοληψία αντιστοιχεί σε ένα μονοπάτι από τη ρίζα Το μέγεθος του δέντρου συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα Αν όλες οι δοσοληψίες τα ίδια δεδομένα, μόνο ένα κλαδί Αν όλες διαφορετικές, ο χώρος μεγαλύτερος (γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύτωνκόμβωναλλάκαισυχνότητεςεμφάνισης) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 38 Κατασκευή FP-δέντρου TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Το τελικό δέντρο, εξαρτάται από τη διάταξη: άλλη διάταξη -> άλλα προθέματα (Συνήθως) μικρότερο δέντρο, αν όχι λεξικογραφικά, αλλά με βάση τη συχνότητα εμφάνισης -> Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό Επίσης, αγνοούμε όσα στοιχεία είναι μη συχνά Για τo παράδειγμα, σ(α)=7, σ(β)=8, σ()=7, σ()=5, σ(ε)=3 Άρα, διάταξη Β,Α,,, TI Items {Β,Α} 2 {,,} 3 {,,,} 4 {,,} 5 {Β,Α,} 6 {Β,Α,,} 7 {,} 8 {Β,Α,} 9 {Β,Α,} {,,} Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 39 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Είσοδος: FP-δέντρο Έξοδος: Συχνάστοιχειοσύνολακαιηυποστήριξητους Μέθοδος ιαίρει-και-βασίλευε o Χωρίζουμε τα στοιχειοσύνολα σε αυτά που τελειώνουν σε,,,, o Μετά αυτά που τελειώνουν σε σε αυτά σε,,, κοκ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλαταστοιχειοσύνολα Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλαταστοιχειοσύνολα Ε Ε Όλαταδυνατάστοιχειοσύνολα! Όλαταδυνατάστοιχειοσύνολα! Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 42

8 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 43 Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Αλγόριθμος εύρεσης συχνών στοιχειοσυνόλων Όλαταστοιχειοσύνολα Όλαταστοιχειοσύνολα Ε Ε Όλαταδυνατάστοιχειοσύνολα! Όλαταδυνατάστοιχειοσύνολα! Στο δέντρο μπορεί να υπάρχουν λιγότερα! Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 44 TI Items {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} {,,} Χρήση FP-δέντρου για εύρεση συχνών στοιχειοσυνόλων Υποπρόβλημα: Βρες συχνά στοιχειοσύνολα που τελειώνουν σε :5 :5 Header table Item Pointer : : Πως; : ottom-up traversal του δέντρου Αυτά που τελειώνουν σε, μετά αυτά που τελειώνουν σε,, και τέλος Α suffix-based classes (επίθεμα κατάληξη) Header table Item Pointer : : : Θα δούμε στη συνέχεια πως υπολογίζεται η υποστήριξη γιαταπιθανάστοιχειοσύνολα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 45 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 46 Για το Για το :5 :5 Header table Item Pointer : : : Header table Item Pointer : : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 47 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 48

9 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 49 Για το Α Για το :5 :5 Header table Item Pointer : : : Header table Item Pointer : : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Συνοπτικά Σε κάθε βήμα, για το suffix Χ Φάση κατασκευάζουμε το προθεματικό δέντρο για το Χ και υπολογίζουμε την υποστήριξη χρησιμοποιώντας τον πίνακα Φάση 2 Αν είναι συχνό, κατασκευάζουμε το υπο-συνθήκη δέντρο για το Χ, σε βήματα επανα-υπολογισμός υποστήριξης περικοπή κόμβων με μικρή υποστήριξη περικοπή φύλλων Φάση κατασκευή προθεματικού δέντρου Όλα τα μονοπάτια που περιέχουν το Προθεματικά Μονοπάτια (prefix paths) Header table Item Pointer :5 : : : Προθεματικά μονοπάτια του Ε: {}, {,}, {,,}, {,,Ε}, {,,,}, {,}, {,,} Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 52 Φάση Έστω minsup = 2 Όλα τα μονοπάτια που περιέχουν το Προθεματικά Μονοπάτια (prefix paths) Βρες την υποστήριξη του {} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας ++=3>2 Οπότε {Ε} συχνό : : : : : : Προθεματικά μονοπάτια του Ε: {}, {,}, {,,}, {,,Ε}, {,,,}, {,}, {,,} {} συχνό άρα προχωράμε για,,, Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 53 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 54

10 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 55 {} συχνό άρα προχωράμε για,,, Αλλαγή μετρητών Φάση 2 Μετατροπή των προθεματικών δέντρων σε FP-δέντρο υπό συνθήκες (conditional FP-tree) Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν δοσοληψίες που δεν έχουν το Ε Πχ στο ->->-> μετράμε και την {, } ύο αλλαγές () Αλλαγή των μετρητών (2) Περικοπή : : : : : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 56 : : : : : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 57 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 58 : : : : : : : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 59 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6

11 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6 : :2 : : : : : : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 62 Περικοπή (truncate) Σβήσε τους κόμβους του Ε :2 : :2 : : : : : : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 63 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 64 Περικοπή (truncate) Περικοπή (truncate) Σβήσε τους κόμβους του Ε Σβήσε τους κόμβους του Ε :2 : :2 : : : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 65 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 66

12 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 67 Πιθανή περαιτέρω περικοπή Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης Πχ το Β -> περικοπή :2 : :2 : Αυτό σημαίνει ότι το Β εμφανίζεται μαζί με το λιγότερο από minsup φορές Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 68 :2 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 69 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Φάση Φάση Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 72

13 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 73 Βρες την υποστήριξη του {, } Πως; Ακολούθησε τους συνδέσμους αθροίζοντας +=2 2 Οπότε {, Ε} συχνό :2 Φάση 2 Κατασκεύασε το υπο-συνθήκη FPδέντρο για το {, }. Αλλαγή υποστήριξης 2. Περικοπές κόμβων :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 74. Αλλαγή υποστήριξης 2. Περικοπές κόμβων :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 75 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπές κόμβων 2. Περικοπές κόμβων :2 :2 Μικρή υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 77 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 78

14 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 79 Τελικό υπο-συνθήκη FP-δέντρο για το {, } Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 :2 Υποστήριξη του Α είναι minsup -> {Α,, } συχνό Αφού μόνο έναν κόμβο, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Φάση Φάση Όλα τα μονοπάτια που περιέχουν το () Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 82 Βρες την υποστήριξη του {, } Πως; Ακολούθησε τους συνδέσμους αθροίζοντας +=2 2 Οπότε {, Ε} συχνό :2 Κατασκεύασε το υπο-συνθήκη FPδέντρο για το {, }. Αλλαγή υποστήριξης 2. Περικοπές κόμβων :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 83 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 84

15 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 85. Αλλαγή υποστήριξης 2. Περικοπή Κόμβων : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπή Κόμβων 2. Περικοπή Κόμβων : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 87 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπή Κόμβων Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 Άρα, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 89 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9

16 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Φάση Φάση Όλα τα μονοπάτια που περιέχουν το Α () Όλα τα μονοπάτια που περιέχουν το Α () Προθεματικά Μονοπάτια (prefix paths) :2 Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 92 Βρες την υποστήριξη του {Α, } Οπότε {Α, Ε} συχνό ε χρειάζεται να φτιάξουμε υποσυνθήκη FP-δέντρο για το {Α, Ε} :2 Άρα για το Ε Έχουμε τα εξής συχνά στοιχειοσύνολα {Ε} {, } {,, } {, } {, } Συνεχίζουμε για το Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 93 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 94 Φάση Όλα τα προθεματικά μονοπάτια που περιέχουν το Για το Υποστήριξη συχνό 5>2 -> άρα :5 Μετατροπή του προθεματικού δέντρου σε FP-δέντρο υπό συνθήκη :5 Header table Item Pointer : : : Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 95 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 96

17 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 97. Αλλαγή υποστήριξης. Αλλαγή υποστήριξης :5 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 98. Αλλαγή υποστήριξης. Αλλαγή υποστήριξης :3 :3 :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 99 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II. Αλλαγή υποστήριξης 2. Περικοπή Κόμβων :3 : :3 : :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2

18 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 2. Περικοπή Κόμβων Προθεματικά δέντρα και υποσυνθήκη δέντρα ΓιαταΑ, Β και κοκ :3 : :3 : :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Παρατηρήσεις Παρατηρήσεις Παράδειγμα τεχνικής διαίρει-και-βασίλευε Σε κάθε αναδρομικό βήμα, λύνεται και ένα υπο-πρόβλημα: Κατασκευάζεται το προθεματικό δέντρο Υπολογίζεται η νέα υποστήριξη για τους κόμβους του Περικόβονται οι κόμβοι με μικρή υποστήριξη Επειδή τα υποπροβλήματα είναι ξένα μεταξύ τους, δεν δημιουργούνται τα ίδια συχνά στοιχειοσύνολα δυο φορές Ο υπολογισμός της υποστήριξης είναι αποδοτικός γίνεται ταυτόχρονα με τη δημιουργία των συχνών στοιχειοσυνόλων Η απόδοση του FP-Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction factor) Αν τα τελικά δέντρα είναι «θαμνώδη» (bushy) τότε δε δουλεύει καλά, αυξάνεται ο αριθμός των υποπροβλημάτων (οι αναδρομικές κλήσεις) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6 Αποτίμηση Κανόνων Συσχέτισης Παράγουν πάρα πολλούς κανόνες που συχνά είναι μη ενδιαφέροντες ή πλεονάζοντες (περιττοί) Αποτίμηση Κανόνων Συσχέτισης Πλεονάζοντες αν {,, } {} και {,} {} έχουν την ίδια υποστήριξη & εμπιστοσύνη Μέτρα ενδιαφέροντος (interestingness) χρησιμοποιούνται για να ελαττώσουν (prune) ή ναιεραρχήσουν(rank) τα παραγόμενα πρότυπα Χρησιμοποιούνται σε διάφορα στάδια της διαδικασίας ανάκτησης γνώσης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8

19 Featur Featur Featur e Featur e e Featur Featur e Featur e e Featur Featur e e Featur e e uct uct uct uct uct uct Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Μέτρηση Ενδιαφέροντος Αποτίμηση Κανόνων Συσχέτισης Εφαρμογές της μέτρησης του ενδιαφέροντος (σε διάφορα στάδια) Μέτρα Ενδιαφέροντος Δεδομένα Επιλεγμένα Δεδομένα Προ-επεξεργασμένα Δεδομένα Prod uct uct Πρότυπα Prod Prod Prod Prod Prod Prod Prod uct Prod uct Prod Γνώση Μετά-επεξεργασία Εξόρυξη Προ-επεξεργασία Γενικά: αντικειμενικά (objective) και υποκειμενικά (subjective) μέτρα ενδιαφέροντος Ας δούμε πρώτα μερικά αντικειμενικά κριτήρια: Στην αρχική διατύπωση του προβλήματος της εξόρυξης κανόνων συσχέτισης χρησιμοποιήθηκαν ως μέτρα μόνο η υποστήριξη και η εμπιστοσύνη Γενικά συνήθως βασίζονται σε μετρήσεις της συχνότητας εμφάνισης που δίνονται μέσω ενός πίνακα contingency (συνάφειας) Επιλογή Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Υπολογισμός του Μέτρου Ενδιαφέροντος (αντικειμενικά μέτρα) ontingency table (πίνακας συνάφειας) X X Y f Y f f f f o+ f + T f + f + f : support of X and Y f : support of X and Y f : support of X and Y f : support of X and Y Χρησιμοποιείται για τον ορισμό διαφόρων μέτρων Μέτρηση Ενδιαφέροντος Μέτρηση συχνότητας εμφάνισης f πόσο συχνά εμφανίζεται το Χ και το Υ (support count) f + μετρητής υποστήριξης (support count) του Υ Έστω ένας κανόνας, X Y, η πληροφορία που χρειάζεται για τον υπολογισμό της εμπιστοσύνης και υποστήριξης του κανόνα μπορεί να υπολογιστεί από τον contingency table Μειονεκτήματα της Εμπιστοσύνης Tea Tea offee offee Μέτρηση Ενδιαφέροντος Μεγάλες τιμές υποστήριξης μπορεί να «διώξουν» ενδιαφέροντες κανόνες. Τι γίνεται με την εμπιστοσύνη; Ενδιαφερόμαστε για τη σχέση μεταξύ αυτών που πίνουν καφέ και αυτών που πίνουν τσάι Κανόνας Συσχέτισης: Tea offee Εμπιστοσύνη = P(offee Tea) =.75 Ενώ ο κανόνας έχει υψηλή εμπιστοσύνη, ο κανόνας είναι παραπλανητικός P(offee Tea) =.9375 P(offee) =.9 Αγνοεί την υποστήριξη του RHS Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Μέτρηση Ενδιαφέροντος ΜέτραβασισμέναστηΣτατιστική Στατιστική Ανεξαρτησία Εξαιτίας τέτοιων προβλημάτων της υποστήριξης/εμπιστοσύνης, Έχουν προταθεί πολλά αντικειμενικά μέτρα για τη μέτρηση του ενδιαφέροντος των κανόνων, που στηρίζονται κυρίως στην έννοια της στατιστικής ανεξαρτησίας Ας δούμε ένα παράδειγμα Πληθυσμός σπουδαστών 6 σπουδαστές ξέρουν κολύμπι (S) 7 σπουδαστές ξέρουν ποδήλατο () 42 σπουδαστές ξέρουν κολύμπι και ποδήλατο (S,) P(S ) = 42/ =.42 P(S) P() =.6.7 =.42 P(S ) = P(S) P() => Στατιστική ανεξαρτησία P(S ) > P(S) P() => Positively correlated (θετική συσχέτιση) P(S ) < P(S) P() => Negatively correlated (αρνητική συσχέτιση) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4

20 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Μέτρα βασισμένα στη Στατιστική ΜέτραβασισμέναστηΣτατιστική Μέτρα που λαμβάνουν υπ όψιν τους τη στατιστική εξάρτηση Για τη συσχέτιση: Χ Υ P( Y X ) f Lift = = P( Y ) f + P( X, Y) Nf Interest = = P( X ) P( Y ) f + f PS = P( X, Y ) P( X ) P( Y ) P( X, Y ) P( X ) P( Y ) f f φ coefficient = = P( X )[ P( X )] P( Y)[ P( Y )] f + f + f + f + f f + Παράδειγμα: Lift/Interest offee offee Tea Tea Κανόνας συσχέτιση: Tea offee Εμπιστοσύνη= P(offee Tea) =.75 αλλά P(offee) =.9 Interest =.5/(.9*.2)=.8333 (<, άρααρνητικάσυσχετιζόμενα) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6 Μέτρα βασισμένα στη Στατιστική ΜέτραβασισμέναστηΣτατιστική Μειονεκτήματα του Lift & Interest φ-oefficient X X Y Y X X Y 9 9 Y 9 φ coefficient = P( X, Y ) P( X ) P( Y ) = P( X )[ P( X )] P( Y )[ P( Y )] f f f f f + f + + f f +..9 I = = I = =. (.)(.) (.9)(.9) Μεγαλύτερο αν και σπάνια εμφανίζονται μαζί c = / =. c = 9/ =.9 s = s = Κανονικοποιημένη τιμή μεταξύ του - και υαδική εκδοχή του Pearson s coefficient : στατιστική ανεξαρτησία -: τέλεια αρνητική συσχέτιση : τέλεια θετική συσχέτιση Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Μέτρα βασισμένα στη Στατιστική ΜέτραβασισμέναστηΣτατιστική φ-oefficient φ-oefficient X X Y 6 7 Y X X Y 2 3 Y φ coefficient = P( X, Y ) P( X ) P( Y ) = P( X )[ P( X )] P( Y )[ P( Y )] f f f f f + f + + f f φ = =.5238 φ oefficient ίδιοςκαιγιατουςδύοπίνακες φ = =.5238 Είναι κατάλληλο για μη συμμετρικές (η απουσία και η παρουσία μετρούν το ίδιο) Λόγω κανονικοποίησης, αγνοεί το μέγεθος του δείγματος Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2

21 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 IS-measure Μέτρα βασισμένα στη Στατιστική Στη βιβλιογραφία έχουν προταθεί πολλά μέτρα ανάλογα με την εφαρμογή IS ( X, Y) = s( X, Y) f = s( X ) s( Y ) f + f = + I( X, Y ) s( x, Y) Με ποια κριτήρια θα επιλέξουμε ένα καλό μέτρο; Πως έναν prioristyle support based pruning επηρεάζει αυτά τα μέτρα; είναι το συνημίτονο αν θεωρηθούν δυαδικές μεταβλητές γεωμετρικός μέσος της εμπιστοσύνης του Χ Υ καιυ Χ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 22 Αποτίμηση Κανόνων Συσχέτισης Αποτίμηση Κανόνων Συσχέτισης Σύγκριση Μέτρων παραδείγματα contingency πινάκων: Ιεράρχηση των πινάκων με βάση τα διάφορα μέτρα ( ο πιοενδιαφέρον, ο λιγότερο ενδιαφέρον): xample f f f f Ιδιότητες ενός Καλού Μέτρου Piatetsky-Shapiro: 3 γενικές ιδιότητες που πρέπει να ικανοποιεί ένα καλό μέτρο M: M(, ) = αν τα Α και Β είναι στατιστικά ανεξάρτητα M(, ) αυξάνει μονότονα με το P(,) όταν τα P() και P() παραμένουν αμετάβλητα M(,) μειώνεται μονότονα με το P() [ή τοp()] όταν τα P(,) και P() [ή P()] παραμένουν αμετάβλητα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 23 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 24 Ιδιότητες Μέτρων Αποτίμησης Ιδιότητες Μέτρων Αποτίμησης Αλλαγή ιάταξης Μεταβλητών (variable permutation) p q r s Συμμετρικά (symmetric) μέτρα: Ισχύει M(, ) = M(, )? p r q s Γενικά συμμετρικά μέτρα για στοιχειοσύνολα και μη συμμετρικά για κανόνες support (υποστήριξη), lift, collective strength, cosine, Jaccard, κλπ Μη συμμετρικά (asymmetric) μέτρα: confidence (εμπιστοσύνη), conviction, Laplace, J-measure, κλπ Κλιμάκωση Γραμμής/Στήλης (Row/olumn Scaling) Παράδειγμα Βαθμός-Φύλο (Mosteller, 968): κ κ 2 High Low κ 3 Male 2 3 κ 4 Female High Low Male x Female Mosteller: Η συσχέτιση πρέπει να είναι ανεξάρτητη από το σχετικό αριθμό αγοριών-κοριτσιών στο δείγμα Invariant under the row/column scaling operation αν Μ(Τ) = Μ(Τ ) όπου Τ o πίνακας contingency με μετρητές συχνότητας [f, f ; f ; f ] και Τ o πίνακας contingency με μετρητές συχνότητας [κ κ 3 f, κ 2 κ 3 f ; κ κ 4 f ; κ 2 κ 4 f ] όπου κ, κ 2, κ 3, κ 4 θετικές σταθερές x Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 25 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 26

22 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 27 Ιδιότητες Μέτρων Αποτίμησης Ιδιότητες Μέτρων Αποτίμησης Αντιστροφή (Inversion Operation) Δοσοληψία. Δοσοληψία N (a) (b) (c) F Invariant under the inversion operation αν η τιμή της παραμένει η ίδια αν ανταλλάξουμε τις τιμές f και f και τις τιμές f και f Χρήσιμο για συμμετρικές μεταβλητές Null ddition (προσθήκη μη σχετιζόμενων στοιχείων) p q r s Invariant measures: p q r s + k εν επηρεάζονται από την αύξηση του f όταν οι άλλες τιμές παραμένουν αμετάβλητες support, cosine, Jaccard, κλπ Non-invariant measures: correlation, Gini, mutual information, odds ratio, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 28 uy HTV Yes No Παράδοξο του Simpson Yes uy xercise Machine No c({htvs=yes} {M=Yes})=99/8=55% c({htvs=no} {M=Yes})=54/2=45% Αποτίμηση Κανόνων Συσχέτισης Students uy HTV Yes No Working adults c({htvs=yes} {M=Yes})=98/7=57.7% c({htvs=no} {M=Yes})=5/86=58.% uy HTV Yes No Yes 4 5 uy xercise Machine No c({htvs=yes} {M=Yes})=/=% c({htvs=no} {M=Yes})=4/34=.8% uy xercise Machine Yes No uy HTV Yes No Παράδοξο του Simpson Yes 99 a+p 54 c+r 53 uy xercise Machine No c({htvs=yes} {M=Yes})=99/8=55% c({htvs=no} {M=Yes})=54/2=45% a/b < c/d p/q < r/s δεν συνεπάγεται ότι (a+p)/(b+q) < (c+r)/(d+s)! 8 b+q 2 d+s 3 Αποτίμηση Κανόνων Συσχέτισης Students uy HTV Yes No Working adults c({htvs=yes} {M=Yes})=/=% c({htvs=no} {M=Yes})=4/34=.8% uy HTV Yes No Yes α 4 c 5 uy xercise Machine Yes 98 p 5 r 48 No No b 34 d 44 c({htvs=yes} {M=Yes})=98/7=57.7% c({htvs=no} {M=Yes})=5/86=58.% Είναι σημαντικό πως θα γίνει διαχωρισμός (stratification) των δεδομένων uy xercise Machine 7 q 86 s 256 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 29 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Υποκειμενικά Μέτρα Ενδιαφέροντος Υποκειμενικά Μέτρα Ενδιαφέροντος Interestingness (ενδιαφέρον) via Unexpectedness(μη αναμονή) Αντικειμενικά Μέτρα: Ιεραρχούν τα αποτελέσματα με βάση στατιστικά στοιχεία που υπολογίζονται από τα δεδομένα πχ., 2 μετρήσεις συσχέτισης (support, confidence, Laplace, Gini, mutual information, Jaccard, etc). Υποκειμενικά Μέτρα: Ιεράρχηση των προτύπων με βάση την ερμηνεία του χρήστη Ένα πρότυπο είναι υποκειμενικά ενδιαφέρον αν είναι σε αντίθεση με αυτό που αναμένει ο χρήστης (Silberschatz & Tuzhilin) Ένα πρότυπο είναι υποκειμενικά ενδιαφέρον αν μπορεί να χρησιμοποιηθεί (Silberschatz & Tuzhilin) + Pattern expected to be frequent - Pattern expected to be infrequent Pattern found to be frequent Pattern found to be infrequent xpected Patterns Unexpected Patterns Χρειάζεται να μοντελοποιήσουμε τι αναμένει ο χρήστης (domain knowledge) Χρειάζεται να συνδυάσουμε το τι αναμένεται από τους χρήστες με το τι δίνουν τα δεδομένα (δηλαδή τα πρότυπα που παίρνουμε -evidence) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 32

23 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 33 Οπτικοποίηση: Απλός Γράφος Οπτικοποίηση: Γράφος Κανόνων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 34 Οπτικοποίηση: (SGI/MineSet 3.) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 35

Ανάλυση Συσχέτισης IΙ

Ανάλυση Συσχέτισης IΙ Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Ο Αλγόριθμος FP-Growth

Ο Αλγόριθμος FP-Growth Ο Αλγόριθμος FP-Growth Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο - prefix tree (trie)

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 12: Κανόνες Συσχέτισης Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης

Διαβάστε περισσότερα

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2006-2007 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Κανόνες Συσχέτισης IIΙ

Κανόνες Συσχέτισης IIΙ Κανόνες Συσχέτισης IIΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ

Διαβάστε περισσότερα

Κανόνες Συσχέτισης IΙ

Κανόνες Συσχέτισης IΙ Κανόνες Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος 28-29 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ

Διαβάστε περισσότερα

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Ανάλυση Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Lecture Notes for Chapter 6. Introduction to Data Mining

Lecture Notes for Chapter 6. Introduction to Data Mining Κανόνες Συσχέτισης: Βασικές αρχές και αλγόριθμοι (Association Analysis: Basic Concepts and Algorithms) Lecture Notes for Chapter 6 Introduction to Data Mining by Tan, Steinbach, Kumar Εξόρυξη κανόνων συσχέτισης

Διαβάστε περισσότερα

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!) Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introdion to Data Mining», Addison Wesley, 26 Market-Basket transactions (Το καλάθι της νοικοκυράς!) TID Items

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining Data mining Εξόρυξη εδοµένων o Association rules mining o Classification o Clustering o Text Mining o Web Mining ιάγραµµα της παρουσίασης Association rule Frequent itemset mining Γνωστοί Αλγόριθµοι Βελτιώσεις

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Συμβολοσειρές Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Συμβολοσειρές Συμβολοσειρές και προβλήματα που αφορούν συμβολοσειρές εμφανίζονται τόσο συχνά που

Διαβάστε περισσότερα

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης Σύνοψη Ο βασικός στόχος αυτού του κεφαλαίου είναι η εισαγωγή σε θέματα που αφορούν στην εξόρυξη συχνών στοιχειοσυνόλων και κανόνων συσχέτισης.

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 11: Κανόνες Συσχέτισης Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη Εσωτερική Μνήμη Κρυφή Μνήμη (Cache) μεγαλύτερη χωρητικότητα Καταχωρητές (Registers) Κεντρική Μονάδα (CPU) μεγαλύτερη ταχύτητα Πολλές σημαντικές εφαρμογές διαχειρίζονται

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Εξόρυξη από Γραφήματα

Εξόρυξη από Γραφήματα Εισαγωγή Εξόρυξη από Γραφήματα Γράφημα G(V, E) u i V, (u i, u j ) E Ετικέτα l(u i ), l(u i, u j ) Επέκταση της εξόρυξης κανόνων συσχέτισης για τον εντοπισμό συχνών υπο-γραφημάτων s t t Γράφημα με ετικέτες

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 20 Huffman codes 1 / 12 Κωδικοποίηση σταθερού μήκους Αν χρησιμοποιηθεί κωδικοποίηση σταθερού μήκους δηλαδή

Διαβάστε περισσότερα

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις (Γραμμικές) Αναδρομικές Σχέσεις Διδάσκοντες: Φ. Αφράτη, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Αναδρομικές Σχέσεις

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Περιεχόμενα. Περιεχόμενα

Περιεχόμενα. Περιεχόμενα Περιεχόμενα xv Περιεχόμενα 1 Αρχές της Java... 1 1.1 Προκαταρκτικά: Κλάσεις, Τύποι και Αντικείμενα... 2 1.1.1 Βασικοί Τύποι... 5 1.1.2 Αντικείμενα... 7 1.1.3 Τύποι Enum... 14 1.2 Μέθοδοι... 15 1.3 Εκφράσεις...

Διαβάστε περισσότερα

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n. Πρώτο Σύνολο Ασκήσεων 2014-2015 Κατερίνα Ποντζόλκοβα, 5405 Αθανασία Ζαχαριά, 5295 Ερώτημα 1 Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n. Ο αλγόριθμος εύρεσης

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Insert (P) : Προσθέτει ένα νέο πρότυπο P στο λεξικό D. Delete (P) : Διαγράφει το πρότυπο P από το λεξικό D

Insert (P) : Προσθέτει ένα νέο πρότυπο P στο λεξικό D. Delete (P) : Διαγράφει το πρότυπο P από το λεξικό D Dynamic dictionary matching problem Έχουμε ένα σύνολο πρότυπων D = { P1, P2,..., Pk } oπου D το λεξικό και ένα αυθαίρετο κειμενο T [1,n] To σύνολο των πρότυπων αλλάζει με το χρόνο (ρεαλιστική συνθήκη).

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις (Γραμμικές) Αναδρομικές Σχέσεις ιδάσκοντες:. Φωτάκης. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Αναδρομικές Σχέσεις Αναπαράσταση

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/ Τεχνητή Νοημοσύνη 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία: Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΕΠΛ 035 - ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΓΙΑ ΗΛΕΚΤΡΟΛΟΓΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΚΑΙ ΜΗΧΑΝΙΚΟΥΣ ΥΠΟΛΟΓΙΣΤΩΝ Ακαδηµαϊκό έτος 2017-2018 Υπεύθυνος εργαστηρίου: Γεώργιος

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων

Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ : «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΤΙΤΛΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ : Αλγόριθμοι Εξόρυξης δεδομένων

Διαβάστε περισσότερα

Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης

Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης -------------------------- Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πολυτεχνική Σχολή Πανεπιστημίου Πατρών Διπλωματική Εργασία για το Μεταπτυχιακό Δίπλωμα Ειδίκευσης στην «Επιστήμη και Τεχνολογία Υπολογιστών»

Διαβάστε περισσότερα

Δυναμικός Προγραμματισμός

Δυναμικός Προγραμματισμός Δυναμικός Προγραμματισμός Επιμέλεια διαφανειών: Δ. Φωτάκης Τροποποιήσεις: Α. Παγουρτζής Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διωνυμικοί Συντελεστές Διωνυμικοί

Διαβάστε περισσότερα

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε. Ψηφιακά Δένδρα Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών τα οποία είναι ακολουθίες συμβάλλων από ένα πεπερασμένο αλφάβητο Ένα στοιχείο γράφεται ως, όπου κάθε. Μπορούμε να

Διαβάστε περισσότερα

Δυναμικός Προγραμματισμός

Δυναμικός Προγραμματισμός Δυναμικός Προγραμματισμός Επιμέλεια διαφανειών: Δ. Φωτάκης Τροποποιήσεις /προσθήκες: Α. Παγουρτζής Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διωνυμικοί Συντελεστές

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Δυαδικά Δέντρα 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 18/11/2016 Εισαγωγή Τα

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΕΠΛ 451 Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό I. Στόχος ΑΣΚΗΣΗ 1 Ανάλυση συσχετίσεων ανάμεσα σε προϊόντα Διδάσκων: Γιώργος Πάλλης Υπεύθυνος Εργασίας: Παύλος Αντωνίου

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ. Ταξινόµηση Mergesort Κεφάλαιο 8. Ε. Μαρκάκης Επίκουρος Καθηγητής

ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ. Ταξινόµηση Mergesort Κεφάλαιο 8. Ε. Μαρκάκης Επίκουρος Καθηγητής ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Ταξινόµηση Mergesort Κεφάλαιο 8 Ε. Μαρκάκης Επίκουρος Καθηγητής Περίληψη Ταξινόµηση µε συγχώνευση Αλγόριθµος Mergesort Διµερής συγχώνευση Αφηρηµένη επιτόπου συγχώνευση Αναλυτική ταξινόµηση

Διαβάστε περισσότερα

ΗΥ360 Αρχεία και Βάσεις εδοµένων

ΗΥ360 Αρχεία και Βάσεις εδοµένων ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Tutorial B-Trees, B+Trees Μπαριτάκης Παύλος 2018-2019 Ιδιότητες B-trees Χρήση για μείωση των προσπελάσεων στον δίσκο Επέκταση των Binary Search Trees

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων Τεχνικές Σχεδιασμού Αλγορίθμων Αλγοριθμικές Τεχνικές Παύλος Εφραιμίδης, Λέκτορας http://pericles.ee.duth.gr Ορισμένες γενικές αρχές για τον σχεδιασμό αλγορίθμων είναι: Διαίρει και Βασίλευε (Divide and

Διαβάστε περισσότερα

Δομές Δεδομένων & Αλγόριθμοι

Δομές Δεδομένων & Αλγόριθμοι Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν

Διαβάστε περισσότερα

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο Σχεδίαση Αλγορίθμων Διαίρει και Βασίλευε http://delab.csd.auth.gr/courses/algorithms/ auth 1 Διαίρει και Βασίλευε Η γνωστότερη ρημέθοδος σχεδιασμού αλγορίθμων: 1. Διαιρούμε το στιγμιότυπο του προβλήματος

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΑ. ΕΤΟΣ 2012-13 Ι ΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής, Τοµέας Τεχνολογίας

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Ταχεία Ταξινόμηση Quick-Sort

Ταχεία Ταξινόμηση Quick-Sort Ταχεία Ταξινόμηση Quc-Sort 7 4 9 6 2 2 4 6 7 9 4 2 2 4 7 9 7 9 2 2 9 9 Δομές Δεδομένων και Αλγόριθμοι Εργαστήριο Γνώσης και Ευφυούς Πληροφορικής 1 Outlne Quc-sort Αλγόριθμος Βήμα διαχωρισμού Δένδρο Quc-sort

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα

Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Δυαδικά Δένδρα Δυαδικά Δένδρα Αναζήτησης (ΔΔΑ) Εύρεση Τυχαίου, Μέγιστου, Μικρότερου στοιχείου Εισαγωγή στοιχείου

Διαβάστε περισσότερα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε

Διαβάστε περισσότερα

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις (Γραμμικές) Αναδρομικές Σχέσεις ιδάσκοντες: Φ. Αφράτη,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Αναδρομικές Σχέσεις Αναπαράσταση

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα Αλγόριθμοι και Πολυπλοκότητα Διαίρει και Βασίλευε Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Διαίρει και Βασίλευε Divide and Conquer Η τεχνική διαίρει και βασίλευε αναφέρεται

Διαβάστε περισσότερα

Ουρές Προτεραιότητας: Υπενθύμιση. Σωροί / Αναδρομή / Ταξινόμηση. Υλοποίηση Σωρού. Σωρός (Εισαγωγή) Ορέστης Τελέλης

Ουρές Προτεραιότητας: Υπενθύμιση. Σωροί / Αναδρομή / Ταξινόμηση. Υλοποίηση Σωρού. Σωρός (Εισαγωγή) Ορέστης Τελέλης Ουρές Προτεραιότητας: Υπενθύμιση Σωροί / Αναδρομή / Ταξινόμηση Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς (Abstract Data Type) με μεθόδους: Μπορεί να υλοποιηθεί με

Διαβάστε περισσότερα

Αλγοριθμικές Τεχνικές

Αλγοριθμικές Τεχνικές Αλγοριθμικές Τεχνικές Παύλος Εφραιμίδης, Λέκτορας http://pericles.ee.duth.gr Αλγοριθμικές Τεχνικές 1 Τεχνικές Σχεδιασμού Αλγορίθμων Ορισμένες γενικές αρχές για τον σχεδιασμό αλγορίθμων είναι: Διαίρει και

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Διακριτές Πηγές Πληροφορίας χωρίς μνήμη Ποσότητα πληροφορίας της πηγής Κωδικοποίηση

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort. Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012

Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort. Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012 Αλγόριθμοι Ταξινόμησης Bubble Sort Quick Sort Αντρέας Δημοσθένους Καθηγητής Πληροφορικής Ολυμπιάδα 2012 3 5 1 Ταξινόμηση - Sorting Πίνακας Α 1 3 5 5 3 1 Ταξινόμηση (Φθίνουσα) Χωρίς Ταξινόμηση Ταξινόμηση

Διαβάστε περισσότερα

Συνδυαστική Απαρίθμηση

Συνδυαστική Απαρίθμηση Παραδείγματα Συνδυαστική Απαρίθμηση Διδάσκοντες: Φ. Αφράτη, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο n θρανία στη σειρά

Διαβάστε περισσότερα

Διδάσκων: Παναγιώτης Ανδρέου

Διδάσκων: Παναγιώτης Ανδρέου Διάλεξη 12: Δέντρα ΙΙ -Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Δυαδικά Δένδρα - Δυαδικά Δένδρα Αναζήτησης(ΔΔΑ) - Εύρεση Τυχαίου, Μέγιστου, Μικρότερου στοιχείου - Εισαγωγή

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Μέρος 4

Αλγόριθμοι Ταξινόμησης Μέρος 4 Αλγόριθμοι Ταξινόμησης Μέρος 4 Μανόλης Κουμπαράκης Δομές Δεδομένων και Τεχνικές 1 Μέθοδοι Ταξινόμησης Βασισμένοι σε Συγκρίσεις Κλειδιών Οι αλγόριθμοι ταξινόμησης που είδαμε μέχρι τώρα αποφασίζουν πώς να

Διαβάστε περισσότερα

Αλγόριθμοι για αυτόματα

Αλγόριθμοι για αυτόματα Κεφάλαιο 8 Αλγόριθμοι για αυτόματα Κύρια βιβλιογραφική αναφορά για αυτό το Κεφάλαιο είναι η Hopcroft, Motwani, and Ullman 2007. 8.1 Πότε ένα DFA αναγνωρίζει κενή ή άπειρη γλώσσα Δοθέντος ενός DFA M καλούμαστε

Διαβάστε περισσότερα

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις

2η ΔΙΑΛΕΞΗ Συναρτησιακές εξαρτήσεις 2η ΔΙΑΛΕΞΗ 1 Συναρτησιακές εξαρτήσεις Συναρτησιακές εξαρτήσεις 2 Θέματα Ανάπτυξης Έννοια και ορισμός των συναρτησιακών εξαρτήσεων Κανόνες του Armstrong Μη αναγώγιμα σύνολα εξαρτήσεων Στόχος και Αποτελέσματα

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Λογική Δημήτρης Πλεξουσάκης 2ο μέρος σημειώσεων: Συστήματα Αποδείξεων για τον ΠΛ, Μορφολογική Παραγωγή, Κατασκευή Μοντέλων Τμήμα Επιστήμης Υπολογιστών Άδειες Χρήσης

Διαβάστε περισσότερα

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινομημένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Ταξινόμηση με συγχώνευση Merge Sort

Ταξινόμηση με συγχώνευση Merge Sort Ταξινόμηση με συγχώνευση Merge Sort 7 2 9 4 2 4 7 9 7 2 2 7 9 4 4 9 7 7 2 2 9 9 4 4 Πληροφορικής 1 Διαίρει και Βασίλευε Η μέθοδος του «Διαίρει και Βασίλευε» είναι μια γενική αρχή σχεδιασμού αλγορίθμων

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών. Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων

Εισαγωγή στην επιστήμη των υπολογιστών. Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων Εισαγωγή στην επιστήμη των υπολογιστών Οργάνωση εδομένων Κεφάλαιο 11ο ομές εδομένων 1 ομή εδομένων Μια δομή δεδομένων (data structure) χρησιμοποιεί μια συλλογή από σχετικές μεταξύ τους μεταβλητές, οι οποίες

Διαβάστε περισσότερα

Μαθηματική Εισαγωγή Συναρτήσεις

Μαθηματική Εισαγωγή Συναρτήσεις Φυσικός Ραδιοηλεκτρολόγος (MSc) ο Γενικό Λύκειο Καστοριάς Καστοριά, Ιούλιος 14 A. Μαθηματική Εισαγωγή Πράξεις με αριθμούς σε εκθετική μορφή Επίλυση βασικών μορφών εξισώσεων Συναρτήσεις Στοιχεία τριγωνομετρίας

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός

Δυναμικός Κατακερματισμός Δυναμικός Κατακερματισμός Καλό για βάση δεδομένων που μεγαλώνει και συρρικνώνεται σε μέγεθος Επιτρέπει τη δυναμική τροποποίηση της συνάρτησης κατακερματισμού Επεκτάσιμος κατακερματισμός μια μορφή δυναμικού

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 14 Μαρτίου 018 1/34 Διαστήματα Εμπιστοσύνης. Εχουμε δει εκτενώς μέχρι τώρα τρόπους εκτίμησης

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ Η/Υ ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ 2o ΜΑΘΗΜΑ Ι ΑΣΚΩΝ: ΒΑΣΙΛΕΙΑ ΗΣ ΓΕΩΡΓΙΟΣ Email: gvasil@math.auth.gr Ιστοσελίδες Μαθήματος: users.auth.gr/gvasil

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ Στατιστική ανάλυση του γεωχηµικού δείγµατος µας δίνει πληροφορίες για τον γεωχηµικό πληθυσµό που µελετάµε. Συνυπολογισµός σφαλµάτων Πειραµατικά

Διαβάστε περισσότερα

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Δοµές Δεδοµένων. 11η Διάλεξη Ταξινόµηση Quicksort και Ιδιότητες Δέντρων. Ε. Μαρκάκης

Δοµές Δεδοµένων. 11η Διάλεξη Ταξινόµηση Quicksort και Ιδιότητες Δέντρων. Ε. Μαρκάκης Δοµές Δεδοµένων 11η Διάλεξη Ταξινόµηση Quicksort και Ιδιότητες Δέντρων Ε. Μαρκάκης Περίληψη Quicksort Χαρακτηριστικά επιδόσεων Μη αναδροµική υλοποίηση Δέντρα Μαθηµατικές ιδιότητες Δοµές Δεδοµένων 11-2

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα