Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση"

Transcript

1 Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 2 Εισαγωγή Ορισμοί Market-asket transactions (Το καλάθι της νοικοκυράς!) TI s 1 read, Milk 2 read, iaper, eer, ggs Το πρόβλημα: εδομένου ενός συνόλου δοσοληψιών (transactions), βρες κανόνες που προβλέπουν την εμφάνιση στοιχείων (item) με βάση την εμφάνιση άλλων στοιχείων στις συναλλαγές 3 Milk, iaper, eer, oke Παραδείγματα κανόνων συσχέτισης 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke {iaper} {eer}, {Milk, read} {ggs,oke}, δοσοληψία {eer, read} {Milk} στοιχειοσύνολο (itemset): Ένα υποσύνολο του συνόλου των στοιχείων k-στοιχειοσύνολο (k-itemset): ένα στοιχειοσύνολο με k στοιχεία support count (σ) ενός στοιχειοσυνόλου: ο αριθμός εμφανίσεων του στοιχείου Υποστήριξη (Support (s)) ενός στοιχειοσυνόλου Το ποσοστό των δοσοληψιών που περιέχουν ένα στοιχειοσύνολο TI s 1 read, Milk 2 read, iaper, eer, ggs 3 Milk, iaper, eer, oke 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke Προώθηση προϊόντων Τοποθέτηση προϊόντων στα ράφια ιαχείριση αποθεμάτων Σημαίνει ότι εμφανίζονται μαζί, όχι ότι η εμφάνιση του ενός είναι η αιτία της εμφάνισης του άλλου (co-occurrence, not causality όχι έννοια χρόνου ή διάταξης) Συχνό Στοιχειοσύνολο (Frequent set) Ένα στοιχειοσύνολο του οποίου η υποστήριξη είναι μεγαλύτερη ή ίση από κάποια τιμή κατωφλίου minsup Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 4 Κανόνας Συσχέτισης (ssociation Rule) Είναι μια έκφραση της μορφής X Y, όπου X και Y είναι στοιχειοσύνολα Χ Ι, Υ Ι, Χ Υ = Παράδειγμα: {Milk, iaper} {eer} TI s Ορισμοί 1 read, Milk 2 read, iaper, eer, ggs 3 Milk, iaper, eer, oke 4 read, Milk, iaper, eer 5 read, Milk, iaper, oke Υποστήριξη Κανόνα Support (s) Το ποσοστό των δοσοληψιών που περιέχουν και το X και το Y(Χ Υ) Εμπιστοσύνη -onfidence(c) Πόσες από τις δοσοληψίες (ποσοστό) που περιέχουν το Χ περιέχουν και το Υ Πρόβλημα Εύρεση Κανόνων Συσχέτισης Είσοδος: Ένα σύνολο από δοσοληψίες T Έξοδος: Όλοι οι κανόνες με support minsup confidence minconf Χωρισμός του προβλήματος σε δύο υπο-προβλήματα: Εξόρυξη Κανόνων Συσχέτισης Εύρεση όλων των συχνών στοιχειοσυνόλων (Frequent set Generation) Εύρεση όλων των στοιχειοσυνόλων με υποστήριξη minsup ημιουργία Κανόνων (Rule Generation) Για κάθε στοιχειοσύνολο, δημιούργησε κανόνες με μεγάλη υποστήριξη, όπου κάθε κανόνες είναι μια δυαδική διαμέριση του συχνού στοιχειοσυνόλου Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 5 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 6

2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 7 set Lattice - Πλέγμα Στοιχειοσυνόλων Εύρεση Συχνών Στοιχειοσυνόλων Αρχή priori Αν ένα στοιχειοσύνολο είναι συχνό, τότε όλα τα υποσύνολα του είναι συχνά Εύρεση Συχνών Στοιχειοσυνόλων: Στρατηγική apriori Ή ισοδύναμα αν ένα στοιχειοσύνολο είναι μη συχνό, όλα τα υπερσύνολα του είναι μη συχνά Βρέθηκε μη συχνό Για d στοιχεία, 2 d πιθανά στοιχειοσύνολα Pruned supersets Support-based pruning Ψαλίδισμα με βάση την υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 8 Στρατηγική apriori Στρατηγική apriori: ημιουργία Στοιχειοσυνόλων Γενικός Αλγόριθμος Έστω k = 1 #k: μήκος στοιχειοσυνόλου Παρήγαγε τα συχνά 1-στοιχειοσύνολα Repeat until να μην παράγονται νέα συχνά στοιχειοσύνολα 1. Παρήγαγε υποψήφια (k+1)-στοιχειοσύνολα 2. Ψαλίδισε τα υποψήφια στοιχειοσύνολα που περιέχουν μη συχνά στοιχειοσύνολα μεγέθους k 3. Υπολόγισε την υποστήριξη κάθε υποψήφιου (k+1)- στοιχειοσυνόλου διασχίζοντας τη βάση των δοσοληψιών 4. Σβήσε τα υποψήφια στοιχειοσύνολα που δεν είναι συχνά 5. k=k + 1 Για την παραγωγή υποψήφιων k-στοιχειοσυνόλων F k- 1 x F 1 Επέκταση κάθε συχνού (k-1) στοιχειοσυνόλου με άλλα συχνά στοιχεία F k- 1 x F k- 1 Συγχώνευση δύο συχνών (k-1) στοιχειοσυνόλου αν τα πρώτα k-2 στοιχεία τους είναι τα ίδια Παρατηρήσεις Για να αποφύγουμε τη δημιουργία του ίδιου στοιχειοσυνόλου, κρατάμε κάθε στοιχειοσύνολο (λεξικογραφικά) ταξινομημένο Είναι δυνατόν να γίνουν απλοί έλεγχοι αν τα παραγόμενα πιθανά στοιχειοσύνολα είναι συχνά ελέγχοντας αν τα υποσύνολα τους είναι συχνά και έτσι να αποφύγουμε να υπολογίσουμε την υποστήριξή τους Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 9 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 10 Στρατηγική apriori: Υπολογισμός Υποστήριξης Παραγωγή Κανόνων Για κάθε νέο υποψήφιο k+1-στοιχειοσύνολο, πρέπει να υπολογίσουμε την υποστήριξή του Για να μειώσουμε τον αριθμό των πράξεων, σε κάθε βήμα, αποθηκεύουμε τα υποψήφια k+1-στοιχειοσύνολα σε ένα δέντρο κατακερματισμού Αντί να ταιριάζουμε κάθε δοσοληψία με κάθε υποψήφιο στοιχειοσύνολο, κατακερματίζουμε τα στοιχειοσύνολα της δοσοληψίας και ενημερώνουμε μόνο τους αντίστοιχους κάδους του δέντρου κατακερματισμού των συχνών στοιχειοσυνόλων οθέντος ενός συχνού στοιχειοσυνόλου L, βρες όλα τα μη κενά υποσύνολα f L τέτοια ώστε ο κανόνας f L f ικανοποιεί τον περιορισμό της ελάχιστης εμπιστοσύνης Η εμπιστοσύνη για τους κανόνες που παράγονται από το ίδιο στοιχειοσύνολο έχει μια αντι-μονότονη ιδιότητα Για παράδειγμα L = {,,,}: c( ) c( ) c( ) Η εμπιστοσύνη είναι αντι-μονότονη σε σχέση με των αριθμό των στοιχείων στο RHS του κανόνα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 11 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 12

3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 13 Παραγωγή Κανόνων για τον Αλγόριθμο apriori Αναπαράσταση Στοιχειοσυνόλων Πλέγμα Κανόνων για το Στοιχειοσύνολο {Α,,, } Ψαλίδισμα με βάση την εμπιστοσύνη Έστω κόμβος με μικρή εμπιστοσύνη Pruned Rules Για κάθε συχνό στοιχειοσύνολο, ξεκινάμε με έναν κανόνα που έχει μόνο k=1 στοιχείο στο δεξί μέρος του Υπολογίζουμε την εμπιστοσύνη Παράγουμε κανόνες με k+1 στοιχεία και υπολογίζουμε την εμπιστοσύνη τους Για τον υπολογισμό της εμπιστοσύνης δεν χρειάζεται να διαπεράσουμε τη βάση Τα στοιχειοσύνολα που παράγονται είναι πολλά, κάποια ίσως περιττά οδηγούν σε παραγωγή πολλών κανόνων Ποια να κρατήσουμε; Αντιπροσωπευτικά συχνά στοιχειοσύνολα: Maximal συχνά Κλειστά συχνά Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 14 Αναπαράσταση Στοιχειοσυνόλων Αναπαράσταση Στοιχειοσυνόλων Ένα στοιχειοσύνολο είναι maximal συχνό αν κανένα από τα άμεσα υπερσύνολά του δεν είναι συχνό Προσφέρουν μια συνοπτική αναπαράσταση των συχνών στοιχειοσυνόλων: το μικρότερο σύνολο στοιχειοσυνόλων από το οποίο μπορούμε να πάρουμε όλα τα συχνά στοιχειοσύνολα είναι τα υποσύνολά τους Πρόβλημα: εν προσφέρουν καμιά πληροφορία για την υποστήριξη των υποσυνόλων τους Συχνά Μη συχνά Ένα στοιχειοσύνολο είναι κλειστό (closed) αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια υποστήριξη με αυτό (δηλαδή, έχει μικρότερη) Ένα στοιχειοσύνολο είναι κλειστό συχνό στοιχειοσύνολο αν είναι κλειστό και η υποστήριξη του είναι μικρότερη ή ίση με minsup Πάλι τα υποσύνολα τους μας δίνουν όλα τα συχνά υποσύνολα, τώρα όμως μπορούμε να υπολογίσουμε την υποστήριξη των υποσυνόλων τους Πως: Η υποστήριξη ενός μη κλειστού στοιχειοσυνόλου πρέπει να είναι ίση με την μεγαλύτερη υποστήριξη ανάμεσα στα υπερσύνολά του Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 15 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 16 Αναπαράσταση Στοιχειοσυνόλων Maximal vs Κλειστά στοιχειοσύνολα Minimum support = 2 losed but not maximal Μέτρηση Ενδιαφέροντος losed and maximal Στην αρχική διατύπωση του προβλήματος της εξόρυξης κανόνων συσχέτισης χρησιμοποιήθηκαν ως μέτρα μόνο η υποστήριξη και η εμπιστοσύνη # losed = 9 # Maximal = 4 Μια σειρά μέτρων βασισμένα στη στατιστική P(S ) = P(S) P() => Στατιστική ανεξαρτησία P(S ) > P(S) P() => Positively correlated (θετική συσχέτιση) P(S ) < P(S) P() => Negatively correlated (αρνητική συσχέτιση) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 17 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 18

4 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 19 Μέτρηση Ενδιαφέροντος Μέτρηση Ενδιαφέροντος Μέτρα που λαμβάνουν υπ όψιν τους στη στατιστική εξάρτηση Έστω ένας κανόνας, X Y, η πληροφορία που χρειάζεται για τον υπολογισμό του ενδιαφέροντος του κανόνα μπορεί να υπολογιστεί από τον contingency table ontingency table for X Y X X Y f 11 Μέτρηση συχνότητας εμφάνισης Y f 10 f 01 f 00 f o+ f +1 T f +0 f 1+ f 11 : support of X and Y f 10 : support of X and Y f 01 : support of X and Y f 00 : support of X and Y Χρησιμοποιείται για τον ορισμό διαφόρων μέτρων P( Y X ) Lift = P( Y ) Χ Υ P( X, Y ) Interest = P( X ) P( Y ) PS = P( X, Y ) P( X ) P( Y ) P( X, Y ) P( X ) P( Y ) φ coefficient = P( X )[1 P( X )] P( Y )[1 P( Y )] Γενικά έχουν προταθεί 21 τέτοια μέτρα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 20 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Ο priori από τους παλιότερους, αλλά: Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Συχνά μεγάλο I/O επειδή κάνει πολλαπλά περάσματα στη βάση των δοσοληψιών Κακή απόδοση όταν οι δοσοληψίες έχουν μεγάλο πλάτος Άλλες μέθοδοι: ιαφορετικές διασχίσεις του πλέγματος των στοιχειοσυνόλων Αναπαράσταση Συνόλου οσoληψιών Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 21 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 22 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων priori: Γενικά- προς- Συγκεκριμένα k-1 -> k set Lattice Πλέγμα Στοιχεισυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: Συγκεκριμένα-προς-Γενικά vs Γενικά-προς-Συγκεκριμένα k -> k 1 (συγκεκριμένο-προς-γενικό) Ποιο χρήσιμο για τον εντοπισμό maximal συχνών στοιχειοσυνόλων σε πυκνές (δηλ, με μεγάλο πλάτος δοσοληψίες) όπου το συχνό στοιχειοσύνολο βρίσκεται κοντά στο κατώτατο σημείο του πλέγματος Αν συχνό, δε χρειάζεται να ελέγξουμε κανένα από τα υποσύνολά του k -> k - 1 Συγκεκριμένα- προς- Γενικά Αν αυτό είναι το συχνό, το βρίσκουμε αφού εξετάσουμε όλα τα υποσύνολά του Αν τα συχνά είναι προς το κατώτατο σημείο (bottom) τους πλέγματος, ίσως συμφέρει Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 23 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 24

5 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 25 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: Κλάσεις Ισοδυναμίας Χωρισμός των στοιχειοσυνόλων του πλέγματος σε ξένες μεταξύ τους ομάδες (κλάσεις ισοδυναμίας) και εξέταση των στοιχειοσυνόλων ανά κλάσεις priori: ορίζει τις κλάσεις με βάση το μήκος k των στοιχειοσυνόλων, πρώτα αυτά μήκους 1, μετά μήκους 2 κοκ Prefix (Suffix): ύο στοιχειοσύνολα ανήκουν στην ίδια κλάση αν έχουν κοινό πρόθεμα (επίθημα) μήκους k priori Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: FS vs FS FS: readth-first-search Χρήσιμο για την εύρεση maximal συχνών στοιχειοσυνόλων γιατί τα εντοπίζει πιο γρήγορα από το FS Μόλις εντοπιστεί το maximal, είναι δυνατόν να κλαδευτούν πολλά υποσύνολα του FS: epth-first-search Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 26 Άλλοι Μέθοδοι Υπολογισμού Συχνών Στοιχειοσυνόλων ιάσχιση του Πλέγματος των Στοιχειοσυνόλων: FS vs FS Αναπαράσταση της Βάσης εδομένων: Οριζόντια vs Κάθετη Άλλοι Τρόποι Υπολογισμού Αυτό χρησιμοποιεί ο apriori Εναλλακτικά: Για κάθε στοιχείο σε ποιες δοσοληψίες εμφανίζεται Prune μόνο τa ab και ac Μπορούμε να κάνουμε prune όλο το υποδέντρο Maximal συχνό στοιχειοσύνολο Horizontal ata Layout TI s 1,, 2,, 3, 4,, 5,,, 6, 7, 8,, 9,, 10 Vertical ata Layout Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TI-λιστών Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 27 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 28 Άλλοι Τρόποι Υπολογισμού Η υποστήριξη υπολογίζεται παίρνοντας τις τομές των TI-λιστών Ο Η υποστήριξη ενός k-στοιχειοσυνόλου υπολογίζεται παίρνοντας τις τομές των TIλιστών δύο από τα (k-1)-ύπο-στοιχειοσύνολα του. Πλεονέκτημα: πολύ γρήγορος υπολογισμός της υποστήριξης Πρόβλημα, αν οι TI-λίστες είναι μεγάλες και δε χωρούν στη μνήμη Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 29 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 30

6 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 31 Κατασκευή FP-δέντρου Χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με prefix tree (trie) Ο αλγόριθμος κατασκευής διαβάζει μια δοσοληψία τη φορά, απεικονίζει τη δοσοληψία σε ένα μονοπάτι του FP-δέντρου Μερικά μονοπάτια μπορεί να επικαλύπτονται: όσο περισσότερα μονοπάτια επικαλύπτονται, τόσο καλύτερη συμπίεση Μόλις το FP-δέντρο κατασκευαστεί, ο αλγόριθμος χρησιμοποιεί μια αναδρομική διαίρει-και-βασίλευε (divide-and-conquer) προσέγγιση για την εξόρυξη των συχνών στοιχειοσυνόλων TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} To FP-δέντρο είναι ένα προθεματικό δέντρο Επειδή έχουμε σύνολα, κάπως πρέπει να τα διατάξουμε ώστε να βρίσκουμε προθέματα ηλαδή δε μπορεί το ένα σύνολο να είναι {Α, Β} και το άλλο {Β,, } γιατί χάνουμε το κοινό πρόθεμα ΑΒ (ή ΒΑ) Άρα τα στοιχεία σε κάθε σύνολο πρέπει να ακολουθούν κάποια διάταξη, έστω τη λεξικογραφική (θα δούμε αργότερα αν κάτι άλλο συμφέρει καλύτερα) Αρχικά, το δέντρο κενό Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 32 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1: :1 :1 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1: :1 :1 Διάβασμα TI=2: :1 Κάθε κόμβος ετικέτα: ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Κάθε κόμβος ετικέτα, ποιο στοιχείο και τη συχνότητα εμφάνισης (υποστήριξη) πόσες δοσοληψίες φτάνουν σε αυτόν Επίσης, δείκτες μεταξύ των κόμβων που αναφέρονται στο ίδιο στοιχείο Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 33 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 34 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1, 2: Πίνακας εικτών :1 :1 :1 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1, 2: Διάβασμα TI=3 Πίνακας εικτών :1 :1 :1 Επίσης, κρατάμε δείκτες για να βοηθήσουν στον υπολογισμό των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 35 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 36

7 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 37 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1, 2: Διάβασμα TI=3 Πίνακας εικτών :1 :2 :1 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Κατασκευή FP-δέντρου Διάβασμα TI=1, 2: Διάβασμα TI=3 Πίνακας εικτών :1 :2 :1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 38 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Header table Κατασκευή FP-δέντρου :7 :5 :3 Μέγεθος FP-δέντρου Κάθε δοσοληψία αντιστοιχεί σε ένα μονοπάτι από τη ρίζα Το μέγεθος του δέντρου συνήθως μικρότερο των δεδομένων, αν υπάρχουν κοινά προθέματα Αν όλες οι δοσοληψίες τα ίδια δεδομένα, μόνο ένα κλαδί Αν όλες διαφορετικές, ο χώρος μεγαλύτερος (γιατί αποθηκεύεται περισσότερη πληροφορία, όπως δείκτες μεταξύ των κόμβων αλλά και συχνότητες εμφάνισης) Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 39 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 40 Κατασκευή FP-δέντρου TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Το τελικό δέντρο, εξαρτάται από τη διάταξη: άλλη διάταξη -> άλλα προθέματα (Συνήθως) Μικρότερο δέντρο, αν όχι λεξικογραφικά, αλλά με βάση τη συχνότητα εμφάνισης -> Αρχικά, διαβάζουμε όλα τα δεδομένα μια φορά ώστε να υπολογιστεί ο μετρητής υποστήριξης κάθε στοιχείου, και διατάσουμε τα στοιχεία με βάση αυτό Για τo παράδειγμα, σ(α)=7, σ(β)=8, σ()=7, σ()=5, σ(ε)=3 Άρα, διάταξη Β,Α,,, TI s 1 {Β,Α} 2 {,,} 3 {,,,} 4 {,,} 5 {Β,Α,} 6 {Β,Α,,} 7 {,} 8 {Β,Α,} 9 {Β,Α,} 10 {,,} Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 41 TI s 1 {,} 2 {,,} 3 {,,,} 4 {,,} 5 {,,} 6 {,,,} 7 {,} 8 {,,} 9 {,,} 10 {,,} Header table Χρήση FP-δέντρου για εύρεση συχνών στοιχειοσυνόλων :5 :7 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 42 :3 Πως; ottom-up traversal του δέντρου Αυτά που τελειώνουν σε, μετά αυτά που τελειώνουν σε,, και τέλος Α suffix-based classes

8 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 43 Υποπρόβλημα: Βρες συχνά στοιχειοσύνολα που τελειώνουν σε :7 :3 Για το :7 :3 :5 :5 Header table Header table Θα δούμε στη συνέχεια πως υπολογίζεται η υποστήριξη για τα πιθανά στοιχειοσύνολα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 44 Για το :7 :3 Για το :7 :3 :5 :5 Header table Header table Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 45 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 46 Φάση 1 Για το Α :7 :3 Όλα τα μονοπάτια που περιέχουν το Προθεματικά Μονοπάτια (prefix paths) :7 :3 :5 :5 Header table Header table Προθεματικά μονοπάτια του Ε: {}, {,}, {,,}, {,,Ε}, {,,,}, {,}, {,,} Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 47 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 48

9 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 49 Φάση 1 Φάση 1 Όλα τα μονοπάτια που περιέχουν το Προθεματικά Μονοπάτια (prefix paths) :7 :3 Όλα τα μονοπάτια που περιέχουν το Προθεματικά Μονοπάτια (prefix paths) :7 :3 :5 Header table Προθεματικά μονοπάτια του Ε: {}, {,}, {,,}, {,,Ε}, {,,,}, {,}, {,,} Προθεματικά μονοπάτια του Ε: {}, {,}, {,,}, {,,Ε}, {,,,}, {,}, {,,} Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 50 Έστω minsup = 2 Βρες την υποστήριξη του {} Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1+1=3>2 Οπότε {Ε} συχνό :7 :3 Μετατροπή των προθεματικών δέντρων σε FP-δέντρο υπό συνθήκες (conditional FP-tree) ύο αλλαγές (1) Αλλαγή των μετρητών (2) Περικοπή :7 :3 {} συχνό άρα προχωράμε για,,, {} συχνό άρα προχωράμε για,,, Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 51 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 52 Αλλαγή μετρητών Οι μετρητές σε κάποιους κόμβους περιλαμβάνουν δοσοληψίες που δεν έχουν το Ε Πχ στο ->->-> μετράμε και την {, } :7 :3 :7 :3 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 53 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 54

10 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 55 :7 :3 :7 :1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 56 :7 :1 :7 :1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 57 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 58 :2 :1 :2 :1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 59 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 60

11 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 61 Περικοπή (truncate) Περικοπή (truncate) Σβήσε τους κόμβους του Ε Σβήσε τους κόμβους του Ε :2 :1 :2 :1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 62 Περικοπή (truncate) Πιθανή περαιτέρω περικοπή Σβήσε τους κόμβους του Ε Κάποια στοιχεία μπορεί να έχουν υποστήριξη μικρότερη της ελάχιστης :2 :1 Πχ το Β -> περικοπή :2 :1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 63 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 64 :2 :1 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 65 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 66

12 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 67 Φάση 1 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 68 Φάση 1 Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Βρες την υποστήριξη του {, } Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1=2 2 Οπότε {, Ε} συχνό :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 69 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 70 Κατασκεύασε το υπο-συνθήκη FPδέντρο για το {, } 1. Αλλαγή υποστήριξης 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 71 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 72

13 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπές κόμβων 2. Περικοπές κόμβων :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπές κόμβων Τελικό υπο-συνθήκη FP-δέντρο για το {, } :2 :2 Μικρή υποστήριξη Υποστήριξη του Α είναι minsup -> {Α,, } συχνό Αφού μόνο έναν κόμβο, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 75 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 76 Φάση 1 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 77 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 78

14 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 79 Φάση 1 Όλα τα μονοπάτια που περιέχουν το () Προθεματικά Μονοπάτια (prefix paths) :2 Βρες την υποστήριξη του {, } Πως; Ακολούθησε τους συνδέσμους αθροίζοντας 1+1=2 2 Οπότε {, Ε} συχνό :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 80 Κατασκεύασε το υπο-συνθήκη FPδέντρο για το {, } 1. Αλλαγή υποστήριξης 1. Αλλαγή υποστήριξης 2. Περικοπές κόμβων :2 :1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 81 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπή Κόμβων 2. Περικοπή Κόμβων :1 :1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 83 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 84

15 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπή Κόμβων 2. Περικοπή Κόμβων :1 Άρα, επιστροφή στο επόμενο υποπρόβλημα Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 86 Φάση 1 Υπο-συνθήκη FP-δέντρο για το Ε Ο αλγόριθμος επαναλαμβάνεται για το {, }, {, }, {, } :2 Όλα τα μονοπάτια που περιέχουν το Α () Προθεματικά Μονοπάτια (prefix paths) :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 87 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 88 Φάση 1 Όλα τα μονοπάτια που περιέχουν το Α () Βρες την υποστήριξη του {Α, } Οπότε {Α, Ε} συχνό Προθεματικά Μονοπάτια (prefix paths) :2 ε χρειάζεται να φτιάξουμε υποσυνθήκη FP-δέντρο για το {Α, Ε} :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 89 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 90

16 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 91 Άρα για το Ε Έχουμε τα εξής συχνά στοιχειοσύνολα Για το :7 :3 {Ε} {, } {,, } {, } {, } Συνεχίζουμε για το :5 Header table Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 92 Φάση 1 Όλα τα προθεματικά μονοπάτια που περιέχουν το 1. Αλλαγή υποστήριξης Υποστήριξη 5>2 -> άρα συχνό :7 :3 :7 :3 Μετατροπή του προθεματικού δέντρου σε FP-δέντρο υπό συνθήκη :5 :5 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 93 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Αλλαγή υποστήριξης 1. Αλλαγή υποστήριξης :7 :3 :3 :3 :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 95 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 96

17 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Αλλαγή υποστήριξης 1. Αλλαγή υποστήριξης :3 :3 :3 :1 :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II Περικοπή Κόμβων 2. Περικοπή Κόμβων :3 :1 :3 :1 :2 :2 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 99 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 100 Προθεματικά δέντρα και υποσυνθήκη δέντρα Για τα Α, Β και κοκ :3 :1 Παράδειγμα τεχνικής διαίρει-και-βασίλευε Σε κάθε αναδρομικό βήμα, λύνεται και ένα υπο-πρόβλημα: :2 Κατασκευάζεται το προθεματικό δέντρο Υπολογίζεται η νέα υποστήριξη για τους κόμβους του Περικόβονται οι κόμβοι με μικρή υποστήριξη Επειδή τα υποπροβλήματα είναι ξένα μεταξύ τους, δεν δημιουργούνται τα ίδια συχνά στοιχειοσύνολα δυο φορές Ο υπολογισμός της υποστήριξης είναι αποδοτικός γίνεται ταυτόχρονα με τη δημιουργία των συχνών στοιχειοσυνόλων Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 101 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 102

18 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 103 Η απόδοση του FP-Growth εξαρτάται από τον παράγοντα συμπίεσης του συνόλου των δεδομένων (compaction factor) Αν τα τελικά δέντρα είναι «θαμνώδη» (bushy) τότε δε δουλεύει καλά, αυξάνεται ο αριθμός των υποπροβλημάτων (οι αναδρομικές κλήσεις) Επίδραση της Υποστήριξης Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 104 Κατανομή Υποστήριξης Κατανομή Υποστήριξης Η απόδοση των αλγορίθμων εξαρτάται από τα δεδομένα εισόδου, πχ ο apriori από τον αριθμό των στοιχείων, το πλάτος των δοσοληψιών, ο FP- Growth από την τομή των δοσοληψιών Επίσης, από την τιμή της ελάχιστης υποστήριξης (minsup). Πως θα προσδιοριστεί μια κατάλληλη τιμή για το minsup; Αν η τιμή είναι πολύ υψηλή, μπορεί να χαθούν στοιχειοσύνολα που περιέχουν ενδιαφέροντα σπάνια στοιχεία (πχ ακριβά προϊόντα) Αν η τιμή είναι πολύ χαμηλή, οι μέθοδοι γίνονται ακριβοί γιατί ο αριθμός των υποψήφιων στοιχειοσυνόλων είναι πολύ μεγάλος Ο αριθμός των συχνών στοιχειοσυνόλων γίνεται πολύ μεγάλος Επιπρόσθετα, η χρήση μόνο μίας ελάχιστης υποστήριξης μπορεί να μην αρκεί Για πολλά πραγματικά δεδομένα η κατανομή της υποστήριξης δεν είναι ομοιόμορφη (skewed support distribution) Support distribution of a retail data set Τα περισσότερα στοιχεία έχουν μικρή ή μέτρια υποστήριξη και μόνο λίγα έχουν μεγάλη υποστήριξη Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 105 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 106 Κατανομή Υποστήριξης Πολλαπλές Τιμές Υποστήριξης Πολλαπλές Ελάχιστες Τιμές Υποστήριξης Ομάδα G1 G2 G3 Υποστήριξη <1% 1%-90% >90% Αριθμός στοιχείων Παράξενοι κανόνες μεταξύ G1 και G3 (χαβιάρι και γάλα) ross-support patterns MS(i): ελάχιστη υποστήριξη για το στοιχείο i Π.χ.: MS(Milk)=5%, MS(oke) = 3%, MS(roccoli)=0.1%, MS(Salmon)=0.5% MS({Milk, roccoli}) = min (MS(Milk), MS(roccoli)) = 0.1% Πρόβλημα: Η υποστήριξη παύει να είναι αντιμονότονη: Έστω: Support(Milk, oke) = 1.5% and Support(Milk, oke, roccoli) = 0.5% {Milk,oke} είναι μη συχνό αλλά το {Milk,oke,roccoli} είναι συχνό Λόγω του roccoli που κατεβάζει το minsup Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 107 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 108

19 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 109 Πολλαπλές Τιμές Υποστήριξης Πολλαπλές Τιμές Υποστήριξης Multiple Minimum Support (Liu 1999) Ταξινόμησε τα στοιχεία με βάση την ελάχιστη τιμή υποστήριξης (σε αύξουσα διάταξη) πχ.: MS(Milk)=5%, MS(oke) = 3%, MS(roccoli)=0.1%, MS(Salmon)=0.5% ιάταξη: roccoli, Salmon, oke, Milk Τροποποίηση του priori έτσι ώστε: L 1 : σύνολο συχνών στοιχειοσυνόλων F 1 : σύνολο στοιχείων που η υποστήριξη τους είναι MS(1) όπου MS(1) είναι min i (MS(i)) 2 : τα υποψήφια στοιχειοσύνολα μεγέθους 2 παράγονται από το F 1 αντί του L 1 Τροποποιήσεις στον priori (Βήμα Ψαλιδίσματος): Στον παραδοσιακό priori, Ένα υποψήφιο (k+1)-στοιχειοσύνολο δημιουργείται συγχωνεύοντας δυο συχνά k-στοιχειοσύνολα Το υποψήφιο ψαλιδίζεται αν περιέχει ένα (οποιοδήποτε) μη συχνό k- στοιχειοσύνολο Τροποποίηση βήματος ψαλιδίσματος: Ψαλίδισε μόνο αν το υποσύνολο περιέχει το πρώτο στοιχείο πχ andidate={roccoli, oke, Milk} (διατεταγμένα με βάση την μικρότερη ελάχιστη υποστήριξη) {roccoli, oke} και {roccoli, Milk} είναι συχνά αλλά {oke, Milk} είναι μη συχνό andidate δε σβήνεται γιατί το {oke,milk} δεν περιέχει το πρώτο ου στοιχείο, δηλαδή, roccoli. Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 110 Πολλαπλές Τιμές Υποστήριξης Πολλαπλές Τιμές Υποστήριξης MS(I) Sup(I) 0.10% 0.25% MS(I) Sup(I) 0.10% 0.25% 0.20% 0.26% 0.30% 0.29% 0.20% 0.26% 0.30% 0.29% 0.50% 0.05% 3% 4.20% 0.50% 0.05% 3% 4.20% Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 111 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 112 Ακολουθιακά εδομένα Ακολουθιακά εδομένα Μέχρι στιγμής, οι δοσοληψίες σύνολα από στοιχεία, δεν έχει σημασία η σειρά εμφάνισης των στοιχείων σε κάθε δοσοληψία επίσης, σύνολα από δοσοληψίες, δεν έχει σημασία η σειρά εμφάνισης κάθε δοσοληψίας Ωστόσο, πολλά δεδομένα στο «Καλάθι της νοικοκυράς» περιέχουν χρονική πληροφορία, πχ ποιες δοσοληψίες κάνει ένας πελάτης σε μια συγκεκριμένη χρονική περίοδο Επίσης, γεγονότα που είναι αποτελέσματα επιστημονικών πειραμάτων ηλαδή, σχέση διάταξης είτε χρονική, είτε χωρική Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 113 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 114

20 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 115 Ακολουθίες Ακολουθίες Sequence atabase (Ακολουθιακή Βάση Δεδομένων): Παραδείγματα Ακολουθιακών εδομένων Object Timestamp vents 10 2, 3, , , 5, , 8, 1, , , 8, 7 Ταξινόμηση με βάση τη χρονόσημα -> ακολουθία Ακολουθία προσπελάσεων Web: < {Homepage} {lectronics} {igital ameras} {anon igital amera} {Shopping art} {Order onfirmation} {Return to Shopping} > Ακολουθία γεγονότων που οδήγησαν σε πυρηνικό ατύχημα στο 3-mile Island: ( < {clogged resin} {outlet valve closure} {loss of feedwater} {condenser polisher outlet valve shut} {booster pumps trip} {main waterpump trips} {main turbine trips} {reactor pressure increases}> Γεγονότα (vents) (~στοιχεία) σχετιζόμενα με Αντικείμενα (Objects) (~δοσοληψίες) και πότε αυτά εμφανίζονται Ακολουθία βιβλίων δανεισμού από βιβλιοθήκη: <{Fellowship of the Ring} {The Two Towers} {Return of the King}> Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 116 Τυπικός Ορισμός Ακολουθίας Ακολουθίες Μια ακολουθία (sequence) είναι μια διατεταγμένη λίστα από στοιχεία (elements) (~transactions) s = < e 1 e 2 e 3 > Κάθε στοιχείο αποτελείται από μια συλλογή από γεγονότα (events) (~items) e i = {i 1, i 2,, i k } Κάθε στοιχείο αντιστοιχεί σε μια συγκεκριμένη χρονική στιγμή ή τοποθεσία Μήκος (length) μιας ακολουθίας, s, είναι ο αριθμός των στοιχείων της ακολουθίας Μια k-ακολουθία είναι μια ακολουθία που περιέχει k γεγονότα (items) Στοιχεία (Transaction) Ακολουθία Μήκος = 5, 8-ακολουθία Γεγονός () Sequence atabase ustomer Web ata vent data Genome sequences lement (Transaction) Sequence Παραδείγματα Ακολουθιακών εδομένων Sequence Purchase history of a given customer rowsing activity of a particular Web visitor History of events generated by a given sensor N sequence of a particular species 1 2 set of items bought by a customer at time t collection of files viewed by a Web visitor after a single mouse click vents triggered by a sensor at time t n element of the N sequence 1 3 lement (Transaction) 2 ooks, diary products, s, etc Home page, index page, contact info, etc Types of alarms generated by sensors ases,t,g, 2 Ακολουθίες vent () 3 4 Χρονική διάταξη Χωρική διάταξη vent () Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 117 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 118 Ακολουθίες Τυπικός Ορισμός Υπο-ακολουθίας Μια ακολουθία <a 1 a 2 a n > περιέχεται σε μια άλλη ακολουθία (είναι υποακολουθία της) <b 1 b 2 b m > (m n) αν υπάρχουν ακέραιοι i 1 < i 2 < < i n τέτοιοι ώστε a 1 b i1, a 2 b i2,, a n b in Έστω ένα σύνολο που περιέχει μια ή περισσότερες ακολουθίες. Η υποστήριξη (support) μιας ακολουθίας w ορίζεται ως το ποσοστό των ακολουθιών στο που περιέχουν το w Σύνολο 5 ακολουθιών Παραδείγματα Ακολουθία Δεδομένων Υπο-ακολουθία < {2,4} {3,5,6} {8} > < {2} {3,5} > < {1,2} {3,4} > < {1} {2} > < {2,4} {2,4} {2,5} > < {2} {4} > Περιέχεται; Ναι Όχι Ναι Object Timestamp vents 1 1,2,4 2 2, ,2 2 2,3,4 1 1, 2 2 2,3,4 3 2,4, , 4 3 4, 5 1 1, 3 2 2, 4, 5 Παραδείγματα: < {1,2} > s=60% Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 119 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 120

21 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 121 Έστω ένα σύνολο που περιέχει μια ή περισσότερες ακολουθίες. Η υποστήριξη (support) μιας ακολουθίας w ορίζεται ως το ποσοστό των ακολουθιών στο που περιέχουν το w Ένα ακολουθιακό πρότυπο (sequential pattern ) είναι μια συχνή υπο-ακολουθία (δηλαδή μια ακολουθία με υποστήριξη minsup) Σύνολο 5 ακολουθιών Object Timestamp vents 1 1,2,4 2 2, ,2 2 2,3,4 1 1, 2 2 2,3,4 3 2,4, , 4 3 4, 5 1 1, 3 2 2, 4, 5 Παραδείγματα: < {3}{5}> s=80% <{1,2}{5}> s=40% <{5}{1,2}> s=0% Επίσης, οποιαδήποτε ακολουθία με μήκος μεγαλύτερο του 2 Object Timestamp vents 1 1,2,4 2 2, ,2 2 2,3,4 1 1, 2 2 2,3,4 3 2,4, , 4 3 4, 5 1 1, 3 2 2, 4, 5 Minsup = 50% Παραδείγματα συχνών υπο-ακολουθιών < {1,2} > s=60% < {2,3} > s=60% < {2,4}> s=80% < {3} {5}> s=80% < {1} {2} > s=80% < {2} {2} > s=60% < {1} {2,3} > s=60% < {2} {2,3} > s=60% < {1,2} {2,3} > s=60% Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 122 Ορισμός Προβλήματος Εξόρυξης Ακολουθιακών Προτύπων (Sequential Pattern Mining) Έστω μια ακολουθία: <{a b} {c d e} {f} {g h i}> Παραδείγματα υπο-ακολουθίας: <{a} {c d} {f} {g} >, < {c d e} >, < {b} {g} >, etc Ο αριθμός τους είναι εκθετικός Πόσες k-υποακολουθίες μπορεί να εξαχθούν από μια n-ακολουθία; Είσοδος: Μια βάση από ακολουθίες Ένα ελάχιστο κατώφλι υποστήριξης, minsup Πρόβλημα: Βρες όλες τις υπο-ακολουθίες με υποστήριξη minsup <{a b} {c d e} {f} {g h i}> n = 9 Παράδειγμα για k = 4 {a}{c}{f}{g} n 9 = = 126 {a}, {f}, {h i} k 4 {c d e} {g} i= 1,9 9 = 511 i Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 123 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 124 rute-force Μέθοδος Απαρίθμηση όλων των πιθανών υπο-ακολουθιών και υπολογισμός της υποστήριξης τους Έστω n γεγονότα: i 1, i 2, i 3,, i n Υποψήφιες 1-υπο-ακολουθίες: <{i 1 }>, <{i 2 }>, <{i 3 }>,, <{i n }> Υποψήφιες 2-υπο-ακολουθίες: <{i 1, i 2 }>, <{i 1, i 3 }>,, <{i 1 } {i 1 }>, <{i 1 } {i 2 }>,, <{i n- 1 } {i n }> Υποψήφιες 3-υπο-ακολουθίες: <{i 1, i 2, i 3 }>, <{i 1, i 2, i 4 }>,, <{i 1, i 2 } {i 1 }>, <{i 1, i 2 } {i 2 }>,, <{i 1 } {i 1, i 2 }>, <{i 1 } {i 1, i 3 }>,, <{i 1 } {i 1 } {i 1 }>, <{i 1 } {i 1 } {i 2 }>, Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 125 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 126

22 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 127 Παρατήρηση Ο αριθμός των υποψήφιων ακολουθιών είναι πολύ μεγαλύτερος από τον αριθμό των υποψήφιων στοιχειοσυνόλων για δύο κυρίως λόγους: Ένα στοιχείο μπορεί να εμφανιστεί μόνο μια φορά σε ένα στοιχειοσύνολο, ενώ ένα γεγονός μπορεί να εμφανιστεί περισσότερο από μια φορά σε μια ακολουθία Πχ το στοιχειοσύνολο {i1, i2} -> <{i1,i1}> <{i1},{i1}>, κλπ priori για ακολουθίες Μια k-ακολουθία πρέπει να περιέχει όλες τις πιθανές k-1 υποακολουθίες της Οπότε, παρόμοιος αλγόριθμος Η διάταξη δεν έχει σημασία στα στοιχειοσύνολα, αλλά έχει στις ακολουθίες Πχ το στοιχειοσύνολο {i1, i2} -> <{i1}{i2}> <{i2}{i1}>, κλπ Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 128 Generalized Sequential Pattern (GSP) Βήμα 1: Κάνε το πρώτο πέρασμα στη βάση των ακολουθιών και παρήγαγε όλες τις συχνές ακολουθίες ενός στοιχείου Βήμα 2: Επανέλαβε μέχρι να μην παράγονται νέες συχνές ακολουθίες ημιουργία Υποψηφίων - andidate Generation: Συγχώνευση συχνών ακολουθιών που βρέθηκαν στο (k-1)th πέρασμα φια δημιουργία υποψηφίων ακολουθιών με k στοιχεία Ψαλίδισμα Υποψηφίων - andidate Pruning: Ψαλίδισε τις k-ακολουθίες που περιέχουν μη συχνές Prune candidate (k-1)-υπο-ακολουθίες Υπολογισμός Υποστήριξης - Support ounting: Κάνε ένα νέο πέρασμα στη βάση για τον υπολογισμό της υποστήριξης των νέων υποψηφίων Υπολογισμός Υποψηφίων - andidate limination: ιώξε τις υποψήφιες k-ακολουθίες που η πραγματική τους υποστήριξη είναι μικρότερη του minsup ημιουργία υποψηφίων Βάση (k=2): Συγχώνευση δύο συχνών 1-ακολουθιών <{i 1 }> and <{i 2 }> θα παράξει δυο υποψήφιες 2-ακολουθίες: <{i 1 } {i 2 }> and <{i 1 i 2 }> Γενική περίπτωση (k>2): Συνθήκη για συγχώνευση: Μια συχνή (k-1)-ακολουθία w 1 συγχωνεύεται μα μια άλλη συχνή (k-1)-ακολουθία w 2 για να παραχθεί μια υποψήφια k-ακολουθία αν η υπο-ακολουθία που παίρνουμε αν σβήσουμε το πρώτο γεγονός της w 1 είναι το ίδιο με την υπο-ακολουθία που παίρνουμε αν σβήσουμε το τελευταίο γεγονός της w 2 Το αποτέλεσμα μετά τη συγχώνευση είναι η ακολουθία w 1 επεκταμένη με το τελευταίο γεγονός της w 2. Αν τα τελευταία δύο γεγονότα της w 2 ανήκουν στο ίδιο στοιχείο τότε το τελευταίο γεγονός της w 2 γίνεται μέρος του τελευταίου στοιχείου της w 1 Αλλιώς το τελευταίο γεγονός της w 2 γίνεται ένα διαφορετικό στοιχείο appended στο τέλος της w 1 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 129 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 130 Παραδείγματα ημιουργίας Υποψηφίων Παραδείγματα ημιουργίας Υποψηφίων Συγχώνευση των ακολουθιών w 1 =<{1} {2 3} {4}> και w 2 =<{2 3} {4 5}> μας δίνει την υποψήφια ακολουθία < {1} {2 3} {4 5}> γιατί τα 2 τελευταία γεγονότα της w 2 (4 και 5) ανήκουν στο ίδιο στοιχείο Συγχώνευση των ακολουθιών w 1 =<{1} {2 3} {4}> και w 2 =<{2 3} {4} {5}> μας δίνει την υποψήφια ακολουθία < {1} {2 3} {4} {5}> γιατί τα 2 τελευταία γεγονότα της w 2 (4 και 5) δεν ανήκουν στο ίδιο στοιχείο ε χρειάζεται να συγχωνεύσουμε τις ακολουθίες w 1 =<{1} {2 6} {4}> και w 2 =<{1} {2} {4 5}> για να πάρουμε το υποψήφιο < {1} {2 6} {4 5}> συγχώνευση w 1 με <{2 6} {4 5}> Frequent 3-sequences < {1} {2} {3} > < {1} {2 5} > < {1} {5} {3} > < {2} {3} {4} > < {2 5} {3} > < {3} {4} {5} > < {5} {3 4} > andidate Generation < {1} {2} {3} {4} > < {1} {2 5} {3} > < {1} {5} {3 4} > < {2} {3} {4} {5} > < {2 5} {3 4} > Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 131 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 132

23 Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 133 Ψαλίδισμα υποψηφίων Μια υποψήφια k-ακολουθία σβήνεται αν έχει τουλάχιστον μια μη συχνή (k-1)-υπο-ακολουθία Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 134 Τέλος Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ II 135

Ο Αλγόριθμος FP-Growth

Ο Αλγόριθμος FP-Growth Ο Αλγόριθμος FP-Growth Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο - prefix tree (trie)

Διαβάστε περισσότερα

Ανάλυση Συσχέτισης IΙ

Ανάλυση Συσχέτισης IΙ Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση

Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Κανόνες Συσχέτισης IΙ Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to ata Mining», ddison Wesley, 26 Εξόρυξη Δεδομένων: Ακ. Έτος 27-28 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 12: Κανόνες Συσχέτισης Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Ανάλυση Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Κανόνες Συσχέτισης IΙ

Κανόνες Συσχέτισης IΙ Κανόνες Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος 28-29 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ

Διαβάστε περισσότερα

Lecture Notes for Chapter 6. Introduction to Data Mining

Lecture Notes for Chapter 6. Introduction to Data Mining Κανόνες Συσχέτισης: Βασικές αρχές και αλγόριθμοι (Association Analysis: Basic Concepts and Algorithms) Lecture Notes for Chapter 6 Introduction to Data Mining by Tan, Steinbach, Kumar Εξόρυξη κανόνων συσχέτισης

Διαβάστε περισσότερα

Κανόνες Συσχέτισης IIΙ

Κανόνες Συσχέτισης IIΙ Κανόνες Συσχέτισης IIΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 26 Σύντομη Ανακεφαλαίωση Εξόρυξη Δεδομένων: Ακ. Έτος 2-2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining Data mining Εξόρυξη εδοµένων o Association rules mining o Classification o Clustering o Text Mining o Web Mining ιάγραµµα της παρουσίασης Association rule Frequent itemset mining Γνωστοί Αλγόριθµοι Βελτιώσεις

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Κανόνες Συσχέτισης Ι. Εισαγωγή. Εισαγωγή. Ορισμοί. Ορισμοί. Ορισμοί. Market-Basket transactions (Το καλάθι της νοικοκυράς!) Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introdion to Data Mining», Addison Wesley, 26 Market-Basket transactions (Το καλάθι της νοικοκυράς!) TID Items

Διαβάστε περισσότερα

Εξόρυξη από Γραφήματα

Εξόρυξη από Γραφήματα Εισαγωγή Εξόρυξη από Γραφήματα Γράφημα G(V, E) u i V, (u i, u j ) E Ετικέτα l(u i ), l(u i, u j ) Επέκταση της εξόρυξης κανόνων συσχέτισης για τον εντοπισμό συχνών υπο-γραφημάτων s t t Γράφημα με ετικέτες

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 11: Κανόνες Συσχέτισης Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης

Διαβάστε περισσότερα

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης

Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης Κεφάλαιο 7: Εξόρυξη Συχνών Στοιχειοσυνόλων και Κανόνων Συσχέτισης Σύνοψη Ο βασικός στόχος αυτού του κεφαλαίου είναι η εισαγωγή σε θέματα που αφορούν στην εξόρυξη συχνών στοιχειοσυνόλων και κανόνων συσχέτισης.

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Συμβολοσειρές Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Συμβολοσειρές Συμβολοσειρές και προβλήματα που αφορούν συμβολοσειρές εμφανίζονται τόσο συχνά που

Διαβάστε περισσότερα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη Εσωτερική Μνήμη Κρυφή Μνήμη (Cache) μεγαλύτερη χωρητικότητα Καταχωρητές (Registers) Κεντρική Μονάδα (CPU) μεγαλύτερη ταχύτητα Πολλές σημαντικές εφαρμογές διαχειρίζονται

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο

Διαβάστε περισσότερα

Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων

Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ : «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΤΙΤΛΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ : Αλγόριθμοι Εξόρυξης δεδομένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n. Πρώτο Σύνολο Ασκήσεων 2014-2015 Κατερίνα Ποντζόλκοβα, 5405 Αθανασία Ζαχαριά, 5295 Ερώτημα 1 Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n. Ο αλγόριθμος εύρεσης

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

Merge Sort (Ταξινόμηση με συγχώνευση) 6/14/2007 3:04 AM Merge Sort 1

Merge Sort (Ταξινόμηση με συγχώνευση) 6/14/2007 3:04 AM Merge Sort 1 Merge Sort (Ταξινόμηση με συγχώνευση) 7 2 9 4 2 4 7 9 7 2 2 7 9 4 4 9 7 7 2 2 9 9 4 4 6/14/2007 3:04 AM Merge Sort 1 Κύρια σημεία για μελέτη Το παράδειγμα του «διαίρει και βασίλευε» ( 4.1.1) Merge-sort

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 20 Huffman codes 1 / 12 Κωδικοποίηση σταθερού μήκους Αν χρησιμοποιηθεί κωδικοποίηση σταθερού μήκους δηλαδή

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Ταξινόμηση με συγχώνευση Merge Sort

Ταξινόμηση με συγχώνευση Merge Sort Ταξινόμηση με συγχώνευση Merge Sort 7 2 9 4 2 4 7 9 7 2 2 7 9 4 4 9 7 7 2 2 9 9 4 4 Πληροφορικής 1 Διαίρει και Βασίλευε Η μέθοδος του «Διαίρει και Βασίλευε» είναι μια γενική αρχή σχεδιασμού αλγορίθμων

Διαβάστε περισσότερα

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΑ. ΕΤΟΣ 2012-13 Ι ΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής, Τοµέας Τεχνολογίας

Διαβάστε περισσότερα

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις (Γραμμικές) Αναδρομικές Σχέσεις ιδάσκοντες: Φ. Αφράτη,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Αναδρομικές Σχέσεις Αναπαράσταση

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Πληροφορική 2. Αλγόριθμοι

Πληροφορική 2. Αλγόριθμοι Πληροφορική 2 Αλγόριθμοι 1 2 Τι είναι αλγόριθμος; Αλγόριθμος είναι ένα διατεταγμένο σύνολο από σαφή βήματα το οποίο παράγει κάποιο αποτέλεσμα και τερματίζεται σε πεπερασμένο χρόνο. Ο αλγόριθμος δέχεται

Διαβάστε περισσότερα

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης Δένδρα στα οποία κάθε κόμβος μπορεί να αποθηκεύει ένα ή περισσότερα κλειδιά. Κόμβος με d διακλαδώσεις : k 1 k 2 k 3 k 4 d-1 διατεταγμένα κλειδιά d διατεταγμένα παιδιά

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Δομές Δεδομένων. Ιωάννης Γ. Τόλλης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Δομές Δεδομένων. Ιωάννης Γ. Τόλλης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Δομές Δεδομένων Ιωάννης Γ. Τόλλης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού

Διαβάστε περισσότερα

Περιεχόμενα. Περιεχόμενα

Περιεχόμενα. Περιεχόμενα Περιεχόμενα xv Περιεχόμενα 1 Αρχές της Java... 1 1.1 Προκαταρκτικά: Κλάσεις, Τύποι και Αντικείμενα... 2 1.1.1 Βασικοί Τύποι... 5 1.1.2 Αντικείμενα... 7 1.1.3 Τύποι Enum... 14 1.2 Μέθοδοι... 15 1.3 Εκφράσεις...

Διαβάστε περισσότερα

Σχεδίαση & Ανάλυση Αλγορίθμων

Σχεδίαση & Ανάλυση Αλγορίθμων Σχεδίαση & Ανάλυση Αλγορίθμων Ενότητα 3 Αλγόριθμοι Επιλογής Σταύρος Δ. Νικολόπουλος Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros Αλγόριθμοι Επιλογής Γνωρίζουμε

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση Ιωάννης Τόλλης Τμήμα Επιστήμης Υπολογιστών Συγχωνευτική Ταξινόμηση (Merge Sort) 7 2 9 4 2 4 7 9 7 2 2 7 9 4

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Μέρος 4

Αλγόριθμοι Ταξινόμησης Μέρος 4 Αλγόριθμοι Ταξινόμησης Μέρος 4 Μανόλης Κουμπαράκης Δομές Δεδομένων και Τεχνικές 1 Μέθοδοι Ταξινόμησης Βασισμένοι σε Συγκρίσεις Κλειδιών Οι αλγόριθμοι ταξινόμησης που είδαμε μέχρι τώρα αποφασίζουν πώς να

Διαβάστε περισσότερα

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις (Γραμμικές) Αναδρομικές Σχέσεις Διδάσκοντες: Φ. Αφράτη, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Αναδρομικές Σχέσεις

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Heapsort Using Multiple Heaps

Heapsort Using Multiple Heaps sort sort Using Multiple s. Λεβεντέας Χ. Ζαρολιάγκης Τµήµα Μηχανικών Η/Υ & Πληροφορικής 29 Αυγούστου 2008 sort 1 Ορισµός ify Build- 2 sort Πως δουλεύει Ιδιότητες 3 4 Προβλήµατα Προτάσεις Ανάλυση Κόστους

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ Κείμενα Ν. Μ. Σγούρος (sgouros@unipi.gr) Επεξεργασία Κειμένων Αναζήτηση Ακολουθιακή Αναζήτηση, Δομές Trie Συμπίεση Huffmann Coding, Run-Length Encoding, Burrows- Wheeler Κρυπτογράφηση

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Δυαδικά Δέντρα 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 18/11/2016 Εισαγωγή Τα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΕΠΛ 451 Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό I. Στόχος ΑΣΚΗΣΗ 1 Ανάλυση συσχετίσεων ανάμεσα σε προϊόντα Διδάσκων: Γιώργος Πάλλης Υπεύθυνος Εργασίας: Παύλος Αντωνίου

Διαβάστε περισσότερα

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα). Κ08 Δομές Δεδομένων και Τεχνικές Προγραμματισμού Διδάσκων: Μανόλης Κουμπαράκης Εαρινό Εξάμηνο 2016-2017. Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Διαβάστε περισσότερα

ΗΥ360 Αρχεία και Βάσεις εδοµένων

ΗΥ360 Αρχεία και Βάσεις εδοµένων ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Tutorial B-Trees, B+Trees Μπαριτάκης Παύλος 2018-2019 Ιδιότητες B-trees Χρήση για μείωση των προσπελάσεων στον δίσκο Επέκταση των Binary Search Trees

Διαβάστε περισσότερα

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε. Ψηφιακά Δένδρα Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών τα οποία είναι ακολουθίες συμβάλλων από ένα πεπερασμένο αλφάβητο Ένα στοιχείο γράφεται ως, όπου κάθε. Μπορούμε να

Διαβάστε περισσότερα

(Γραμμικές) Αναδρομικές Σχέσεις

(Γραμμικές) Αναδρομικές Σχέσεις (Γραμμικές) Αναδρομικές Σχέσεις ιδάσκοντες:. Φωτάκης. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Αναδρομικές Σχέσεις Αναπαράσταση

Διαβάστε περισσότερα

Συνδυαστική Απαρίθμηση

Συνδυαστική Απαρίθμηση Συνδυαστική Απαρίθμηση ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Συνδυαστική Απαρίθμηση

Διαβάστε περισσότερα

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο Σχεδίαση Αλγορίθμων Διαίρει και Βασίλευε http://delab.csd.auth.gr/courses/algorithms/ auth 1 Διαίρει και Βασίλευε Η γνωστότερη ρημέθοδος σχεδιασμού αλγορίθμων: 1. Διαιρούμε το στιγμιότυπο του προβλήματος

Διαβάστε περισσότερα

Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης

Privacy preserving data mining με χρήση δενδρικών δομών εξόρυξης κανόνων συσχέτισης -------------------------- Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πολυτεχνική Σχολή Πανεπιστημίου Πατρών Διπλωματική Εργασία για το Μεταπτυχιακό Δίπλωμα Ειδίκευσης στην «Επιστήμη και Τεχνολογία Υπολογιστών»

Διαβάστε περισσότερα

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί

Διαβάστε περισσότερα

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινομημένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Standard Template Library (STL) C++ library

Standard Template Library (STL) C++ library Τ Μ Η Μ Α Μ Η Χ Α Ν Ι Κ Ω Ν Η / Υ Κ Α Ι Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Standard Template Library (STL) C++ library Δομές Δεδομένων Μάριος Κενδέα kendea@ceid.upatras.gr Εισαγωγή Η Standard Βιβλιοθήκη προτύπων

Διαβάστε περισσότερα

Ανάλυση αλγορίθμων. Χρόνος εκτέλεσης: Αναμενόμενη περίπτωση. - απαιτεί γνώση της κατανομής εισόδου

Ανάλυση αλγορίθμων. Χρόνος εκτέλεσης: Αναμενόμενη περίπτωση. - απαιτεί γνώση της κατανομής εισόδου Ανάλυση αλγορίθμων Παράμετροι απόδοσης ενός αλγόριθμου: Χρόνος εκτέλεσης Απαιτούμενοι πόροι, π.χ. μνήμη, επικοινωνία (π.χ. σε κατανεμημένα συστήματα) Προσπάθεια υλοποίησης Ανάλυση της απόδοσης Θεωρητική

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΕΠΛ 035 - ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΓΙΑ ΗΛΕΚΤΡΟΛΟΓΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΚΑΙ ΜΗΧΑΝΙΚΟΥΣ ΥΠΟΛΟΓΙΣΤΩΝ Ακαδηµαϊκό έτος 2017-2018 Υπεύθυνος εργαστηρίου: Γεώργιος

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 12/10/2017

Διαβάστε περισσότερα

Ταχεία Ταξινόμηση Quick-Sort

Ταχεία Ταξινόμηση Quick-Sort Ταχεία Ταξινόμηση Quc-Sort 7 4 9 6 2 2 4 6 7 9 4 2 2 4 7 9 7 9 2 2 9 9 Δομές Δεδομένων και Αλγόριθμοι Εργαστήριο Γνώσης και Ευφυούς Πληροφορικής 1 Outlne Quc-sort Αλγόριθμος Βήμα διαχωρισμού Δένδρο Quc-sort

Διαβάστε περισσότερα

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Θεωρία Πληροφορίας Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Ατζέντα Διακριτή πηγή πληροφορίας χωρίς μνήμη Ποσότητα πληροφορίας της πηγής Κωδικοποίηση

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ Κεφάλαιο 3 ο. Πίνακες. Επικοινωνία:

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ Κεφάλαιο 3 ο. Πίνακες. Επικοινωνία: Πίνακες Επικοινωνία: spzygouris@gmail.com Να δοθεί ο ορισμός του όρου «δεδομένα». Δεδομένα αποτελούν οποιαδήποτε στοιχεία μπορούν να εξαχθούν από τη διατύπωση του προβλήματος και η επιλογή τους εξαρτάται

Διαβάστε περισσότερα

Outline. 6 Edit Distance

Outline. 6 Edit Distance Αλγόριθμοι και Πολυπλοκότητα Άπληστοι Αλγόριθμοι και Δυναμικός Προγραμματισμός Ασκήσεις CoReLab ΣΗΜΜΥ - Ε.Μ.Π. 16 Νοεμβρίου 216 (CoReLab - NTUA) Αλγόριθμοι - Ασκήσεις 16 Νοεμβρίου 216 1 / 52 Outline 1

Διαβάστε περισσότερα

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων. Βάσεις Δεδομένων ΙΙ Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Εξόρυξη Δεδομένων Ανακάλυψη νέων πληροφοριών σε

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 21/10/2016

Διαβάστε περισσότερα

ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών έντρα ιδάσκοντες: Φ. Αφράτη,. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο έντρα έντρο: πρότυπο ιεραρχικής δομής.

Διαβάστε περισσότερα

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου Συμπίεση Η συμπίεση δεδομένων ελαττώνει το μέγεθος ενός αρχείου : Εξοικονόμηση αποθηκευτικού χώρου Εξοικονόμηση χρόνου μετάδοσης Τα περισσότερα αρχεία έχουν πλεονασμό στα δεδομένα τους Είναι σημαντική

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ Κεφάλαιο 3 ο

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ Κεφάλαιο 3 ο 3.07 Να γραφεί αλγόριθμος που θα δημιουργεί πίνακα 100 θέσεων στον οποίο τα περιττά στοιχεία του θα έχουν την τιμή 1 και τα άρτια την τιμή 0. ΛΥΣΗ Θα δημιουργήσω άσκηση βάση κάποιων κριτηρίων. Δηλ. δεν

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Διακριτές Πηγές Πληροφορίας χωρίς μνήμη Ποσότητα πληροφορίας της πηγής Κωδικοποίηση

Διαβάστε περισσότερα

Συνδυαστική Απαρίθμηση

Συνδυαστική Απαρίθμηση Συνδυαστική Απαρίθμηση ιδάσκοντες: Φ. Αφράτη,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Συνδυαστική Απαρίθμηση Υπολογισμός

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα 23 Μαρτίου 2017 1 / 20 Επιλογή Το πρόβληµα

Διαβάστε περισσότερα

Θέματα Μεταγλωττιστών

Θέματα Μεταγλωττιστών Γιώργος Δημητρίου Ενότητα 1 η : Parsers Συντακτική Ανάλυση για ΓΧΣ Οι τεχνικές συντακτικής ανάλυσης κατηγοριοποιούνται με βάση διάφορα κριτήρια: Κατεύθυνση ανάλυσης μη τερματικών συμβόλων Σειρά επιλογής

Διαβάστε περισσότερα

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο έντρα ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο έντρα έντρο: πρότυπο ιεραρχικής δομής. Αναπαράσταση

Διαβάστε περισσότερα