Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ : «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΤΙΤΛΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ : Αλγόριθμοι Εξόρυξης δεδομένων για χειρισμό πολλαπλών υποστηρίξεων και αρνητικών συσχετίσεων ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ ΜΑΚΡΗΣ ΧΡΗΣΤΟΣ ΜΕΤΑΠΤΥΧΙΑΚΟΣ ΦΟΙΤΗΤΗΣ ΓΟΥΡΔΟΥΛΗΣ ΙΩΑΝΝΗΣ ΠΡΟΔΡΟΜΟΣ (Α.Μ. 449)

2 Εισαγωγή... 4 Εισαγωγή στην Διαδικασία Εξόρυξης γνώσης... 4 Εξόρυξη συχνών προτύπων... 5 Αποδοτικές μέθοδοι εύρεσης συχνών προτύπων... 6 Αρχή και αλγόριθμος Apriori... 6 Εξόρυξη συχνών προτύπων χωρίς την παραγωγή υποψήφιων συνόλων... 7 Εξόρυξη συχνών προτύπων με «κάθετη χρήση» δεδομένων... 7 Κατηγορίες δεδομένων προς εξόρυξη... 7 Εξόρυξη πολυδιάστατων δεδομένων ή δεδομένων πολλαπλών επιπέδων... 7 Εξόρυξη κλειστών και maximal προτύπων... 8 Εξόρυξη τεράστιων πολυδιάστατων συνόλων και προτύπων κολοσσιαίου μήκους... 9 Εξόρυξη ακολουθιακών προτύπων... 9 Εξόρυξη προτύπων δομών δεδομένων (γράφων,δέντρων) Εξόρυξη «χρήσιμων» συχνών προτύπων Επίδραση συχνών προτύπων στην ανάλυση δεδομένων Κατηγοριοποίηση μέσω συχνών προτύπων Συσταδοποίηση (clustering) μέσω συχνών προτύπων Κεφάλαιο Εξόρυξη προτύπων μέσα από βάσεις δεδομένων: Βασικές αρχές- Αλγόριθμοι Εισαγωγή Ορισμός του προβλήματος Ανίχνευση συχνών συνόλων αντικειμένων Ο αλγόριθμος apriori Αρχή Apriori Παραγωγή Υποψηφίων συχνών συνόλων Κεφάλαιο Υλοποίηση του αλγόριθμου apriori βασισμένη στη δομή trie Εισαγωγή Αναπαράσταση δομής δεδομένων με την μορφή TRIE Η μορφή trie για τον apriori αλγόριθμο Στρατηγικές δρομολόγησης στην δομή Trie Παραγωγή υποψήφιων συνόλων Παράβλεψη υποστήριξης υπερσυνόλων Επιλογές μνήμης Κεφάλαιο Εξόρυξη δεδομένων χωρίς παραγωγή υποψήφιων συχνών συνόλων (Προσέγγιση εύρεσης προτύπων μέσω δενδρικών δομών ) Εισαγωγή Σχεδίαση και κατασκευή fp-tree Frequent pattern tree Έλεγχος πληρότητας της συμπαγής δομής FP tree Εξόρυξη συχνών προτύπων με χρήση του Fp tree Βασικές Αρχές για τον Fp Growth αλγόριθμο Βελτιωμένες τεχνικές Fp Growth αλγορίθμου Αλγόριθμος Fp Growth για single prefix fp tree Αποκλιμάκωση (σπάσιμο) του Fp tree μέσω της μεθόδου database projection Αποδοτική χρήση προθεματικών δέντρων στην εξόρυξη συχνών προτύπων Ανίχνευση απλών συχνών προτύπων (FI) Παραλλαγή με χρήση τεχνικής πινάκων Συμπεράσματα και βελτιωμένος αλγόριθμος fp growth Ανίχνευση maximal συχνών προτύπων (MFI) Η δομή MFI tree Αλγόριθμος ανίχνευσης maximal συχνών προτύπων (FPmax) Υλοποίηση της συνάρτησης subset Βελτιώσεις και συμπεράσματα Ανίχνευση κλειστών συχνών προτύπων (CFI) Η δομή CFI tree και ο αλγόριθμος FPclose Αποτελέσματα και πειραματικές μετρήσεις Εξόρυξη απλών συχνών προτύπων (FI) Εξόρυξη maximal συχνών προτύπων

3 Εξόρυξη κλειστών συχνών προτύπων Κεφάλαιο Υλοποίηση του FP Growth Algorithm Εισαγωγή Προεπεξεργασία Κατασκευή του αρχικού Fp tree Κατασκευή των επιμέρους conditional fp tree Πειραματική αξιολόγηση και αποδοτικότητα Έλεγχος πόσο συμπαγής είναι η δομή Fp tree Σύγκριση FP Growth Apriori Κεφάλαιο Εξόρυξη προτύπων με χρήση πολλαπλών ελάχιστων υποστηρίξεων Εισαγωγή Εναλλακτικό μοντέλο πολλαπλών υποστηρίξεων Εξόρυξη συχνών προτύπων μέσω MIS Αλγόριθμος εξόρυξης προτύπων με χρήση MIS Εφαρμογή FP-Growth αλγορίθμου στο Multiple Minimum Supports Βελτιωμένη Εφαρμογή FP-Growth αλγορίθμου στο Multiple Minimum Supports Παράμετροι υλοποίησης των αλγορίθμων Fp-Growth for MMS Προεπεξεργασία Εύρεση frequent item sets Κεφάλαιο Εξόρυξη θετικών και αρνητικών κανόνων συσχέτισης Κανόνες συσχέτισης Είδη κανόνων συσχέτισης Μεθοδολογία ανακάλυψης κανόνων συσχέτισης Συντελεστής συσχέτισης (Correlation Coefficient) Υπολογισμός του correlation coefficient Εύρος τιμών correlation coefficient Αλγόριθμος εύρεσης κανόνων συσχέτισης Κεφάλαιο Επεκτάσεις Εφαρμογές μεθόδων εξόρυξης Εισαγωγή Το πρόβλημα την διατήρησης της σειράς των αντικειμένων Εφαρμογή fp growth σε εξόρυξη προτύπων με διατήρηση της σειράς Κατασκευή του γράφου των συναλλαγών Κατασκευή των conditional γράφων Αλγόριθμος Fp Growth εξόρυξης προτύπων με διατήρηση σειράς αντικειμένων Διαφορές και πλεονεκτήματα fp γράφου σε σχέση με το fp tree Συμπεράσματα Εφαρμογές μεθόδων εξόρυξης Δεικτοδότηση και ανίχνευση ομοιοτήτων σε πολύπλοκα δομημένα δεδομένα Εξόρυξη πολυμεσικών δεδομένων Εξόρυξη ροών δεδομένων (data streams) Εξόρυξη προτύπων web Εξόρυξη προγραμματιστικών λαθών Σκέψεις για μελλοντικές επεκτάσεις Βιβλιογραφία Αναφορές ΠΑΡΑΡΤΗΜΑ Προεπεξεργασία Αλγόριθμος Fp-Growth Βελτιωμένος αλγόριθμος Fp-Growth Αλγόριθμος FP-Growth εύρεσης κανόνων (θετικών & αρνητικών) με χρήση correlation coefficient

4 Εισαγωγή Εισαγωγή στην Διαδικασία Εξόρυξης γνώσης Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων είναι πλέον ένα από τα βασικά ερευνητικά πεδία που απασχολεί σημαντικούς τομείς όπως είναι οι βάσεις δεδομένων και η στατιστική. Η αποδοτική διαχείριση μεγάλων βάσεων δεδομένων αποτελεί πλέον επιτακτική ανάγκη. Αυτό γιατί το μέγεθος της πληροφορίας είναι τόσο μεγάλο που η επεξεργασία της στο σύνολο της είναι πλέον ανέφικτη. Ο τεράστιος όγκος πληροφορίας μας οδήγησε λοιπόν στην ανάγκη για φιλτράρισμά της έτσι ώστε να εξαχθεί η λεγόμενη «χρήσιμη γνώση». Πρόκειται για ένα υποσύνολο της συνολικής πληροφορίας μας, το οποίο όμως μας βοηθά να εξάγουμε σημαντικά συμπεράσματα για την συμπεριφορά ολόκληρης της βάσης δεδομένων. Η ανακάλυψη γνώσης από βάσεις δεδομένων αναφέρεται στην διεργασία εξόρυξης γνώσης από μεγάλες αποθήκες δεδομένων. Ο όρος εξόρυξη δεδομένων (data mining) χρησιμοποιείται ως συνώνυμο της ανακάλυψης γνώσης από βάσεις δεδομένων αλλά κυρίως για αναφορά στις πραγματικές τεχνικές που χρησιμοποιούνται για την ανάλυση και την εξαγωγή της από διάφορα σύνολα δεδομένων. Χαρακτηρίζει την διαδικασία της εύρεσης των δομών γνώσης οι οποίες περιγράφουν με ακρίβεια μεγάλα σύνολα πρωτογενών δεδομένων. Οι δομές αυτές αναδεικνύουν γνώση (συσχετίσεις ή κανόνες) που είναι κρυμμένη μέσα στα δεδομένα και δεν μπορούν να εξαχθούν από την βάση με ένα απλό περάσμά της από την αρχή μέχρι το τέλος. Μέχρι τώρα λοιπόν αναφέραμε δύο όρους- την εξόρυξη γνώσης και την εξόρυξη δεδομένων - που με μια πρώτη ματιά είναι ταυτόσημοι. Μια πιο προσεκτική ματιά καταδεικνύει ότι δεν είναι έτσι τα πράγματα. Η εξόρυξη γνώσης από μια βάση δεδομένων αναφέρεται σε ολόκληρη την διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων. Είναι μια επαναληπτική διαδικασία που αποτελείται από τα ακόλουθα βήματα[1]. Ανάπτυξη και κατανόηση της περιοχής της εφαρμογής, της προγενέστερης γνώσης του προς εξέταση τομέα καθώς και των στόχων του τελικού χρήστη. Ολοκλήρωση των δεδομένων. Εξετάζεται ο βαθμός «πολύπλεξης» πολλαπλών πηγών δεδομένων ώστε η όποια διαδικασία να εφαρμοστεί στον συνδυασμό τους. Δημιουργία στόχου συνόλου δεδομένων. Επιλογή του συνόλου στο οποίο θα εφαρμοστεί η διαδικασία εξόρυξης Καθαρισμός και προεπεξεργασία δεδομένων. Εδώ αναφερόμαστε κυρίως στην αφαίρεση του θορύβου που περιέχουν τα δεδομένα (όποια μορφή και να έχει). Μετασχηματισμός των δεδομένων. Οι αλλαγές που μπορούν να υποστούν τα δεδομένα για να εφαρμόσουμε τις τεχνικές μας πιο εύκολα. Επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων Εξόρυξη δεδομένων. Εφαρμογή μεθόδων και αλγορίθμων με στόχο την ανακάλυψη προτύπων γνώσης. Τα πρότυπα θα μπορούσαν να περιγραφούν από ένα σύνολο από διεργασίες με κυριότερες τις εξής: 4

5 o o o o o Κατηγοριοποίηση, όπου κάθε νέο αντικείμενο εντάσσεται, με βάση τα χαρακτηριστικά του, σε μια από τις προκαθορισμένες κατηγορίες. Συσταδοποίηση, όπου γίνεται καταμερισμός των αντικειμένων σε ομάδες ανάλογα με τις ομοιότητες τους. Η διαφορά εδώ είναι ότι δεν υπάρχουν έτοιμες κατηγορίες. Κανόνες συσχέτισης, όπου ανακαλύπτονται συσχετίσεις μεταξύ των γνωρισμάτων ενός συνόλου δεδομένων. Πρότυπα ακολουθιών, τα οποία ομοιάζουν πολύ με τους κανόνες συσχέτισης με την προσθήκη όμως της παραμέτρου του χρόνου. Παλινδρόμηση, η οποία αναφέρεται στην εκμάθηση μιας λειτουργίας που εκχωρεί τα δεδομένα σε μια μεταβλητή πρόβλεψης, η οποία παίρνει πραγματικές τιμές. Αξιολόγηση των προτύπων. Διαδικασία «απομόνωσης» των πραγματικά χρήσιμων προτύπων Παρουσίαση της γνώσης. Βλέπουμε λοιπόν ότι η εξόρυξη δεδομένων αποτελεί ένα βήμα της εξόρυξης γνώσης το οποίο είναι στις περισσότερες περιπτώσεις και ο βασικός κορμός όλης της παραπάνω διαδικασίας. Οι αλγόριθμοι που χρησιμοποιούνται σε αυτό το βήμα έχουν σχεδιαστεί με εστίαση στην εξελιξιμότητα τους όσον αφορά το μέγεθος του συνόλου δεδομένων εισαγωγής. Μπορούν να αναλυθούν ως σύνθεση των παρακάτω συστατικών: Περιγραφή του μοντέλου. Καθορισμός των βασικών στόχων της διαδικασίας εξόρυξης (π.χ. classification or clustering), και απόφαση τρόπου απεικόνισης του μοντέλου. Αξιολόγηση του μοντέλου. Εξετάζεται η εγκυρότητα των προτύπων και η αξιολόγηση της ακρίβειας και της χρησιμότητας του μοντέλου. Αλγόριθμοι αναζήτησης. Υπάρχουν δύο είδη αλγορίθμων: o o Αυτοί που αναζητούν παραμέτρους βελτιστοποίησης κριτηρίων αξιολόγησης του μοντέλου. Αυτοί που αναζητούν μοντέλα Εξόρυξη συχνών προτύπων Με τον όρο συχνά πρότυπα μπορεί να αναφερόμαστε είτε σε σύνολα από αντικείμενα (itemsets), είτε σε ακολουθίες (sequences), είτε σε δομές (structures), οι οποίες κάνουν την εμφάνισή τους μέσα σε μια βάση δεδομένων με συχνότητα μεγαλύτερη από μια προκαθορισμένη τιμή. Ένα σύνολο από αντικείμενα - για παράδειγμα γάλα, ψωμί, νερό- είναι συχνό όταν εμφανίζονται πολλές φορές μαζί σε μια βάση αγορών, χωρίς να μας απασχολεί η σειρά με την οποία θα αγοραστούν τα προϊόντα. Αντιθέτως όταν δεν μας ενδιαφέρει η ταυτόχρονη αγορά τους αλλά και η χρονολογική σειρά με την οποία αγοράστηκαν τότε μιλάμε για ακολουθία. Τέλος όταν αναφερόμαστε σε δομή, αυτή μπορεί να είναι είτε δέντρο είτε γράφος. Αποκτά δε την ιδιότητα του συχνού όταν εμφανίζεται τουλάχιστον ένα συγκεκριμένο αριθμό φορών ως κομμάτι μιας ευρύτερης δομής. 5

6 Γενικά η εύρεση συχνών προτύπων παίζει εξέχοντα ρόλο σε εργασίες όπως η δεικτοδότηση αντικειμένων, η κατηγοριοποίηση τους και ο καταμερισμός τους. Αυτό οδήγησε στην ανάπτυξη της έρευνας σχετικά με την εξόρυξη προτύπων. Μια πρώτη σημαντική εργασία προτάθηκε από τον Agrawal (1993) [2] όπου γίνεται προσέγγιση μέσα από την έρευνα αγορών. Η ανάλυση των αγοραστικών συνηθειών των πελατών αναδεικνύει συσχετίσεις μεταξύ των αντικειμένων που οδηγούν στα συχνά πρότυπα. Αποδοτικές μέθοδοι εύρεσης συχνών προτύπων Στην ενότητα αυτή θα αναφερθούμε περιληπτικά σε μεθόδους αναζήτησης συχνών προτύπων τις οποίες θα αναλύσουμε σε βάθος στα επόμενα κεφάλαια. Προτού κάνουμε την αναφορά θα παραθέσουμε πολύ γενικά το πρόβλημα έτσι όπως τίθεται στην εργασία Agrawal et al. (1993) [2] για βάσεις συναλλαγών. Έστω λοιπόν Ι = ι 1,ι 2,ι 3..,ι m το σύνολο που περιέχει όλα τα αντικείμενα (items) και Κ-σύνολο αντικειμένων ένα σύνολο που αποτελείται από κ αντικείμενα πάντα μέσα από το Ι. Τότε ανιχνεύουμε αν το κ-σύνολο είναι συχνό ή όχι. Αυτό συμβαίνει όταν εμφανίζεται στην βάση συναλλαγών τουλάχιστον θ D φορές όπου θ είναι ένα ελάχιστη τιμή που έχουμε θέσει και D είναι ο συνολικός αριθμός των συναλλαγών εγγραφών μέσα στην βάση δεδομένων. Αρχή και αλγόριθμος Apriori Με την παραδοχή ότι συνήθως έχουμε να κάνουμε με τεράστιες βάσεις δεδομένων, οι οποίες περιέχουν μεγάλο αριθμό από διακριτά αντικείμενα οδηγούμαστε στο συμπέρασμα ότι και τα τυχόν σύνολα που απαρτίζονται από τα αντικείμενα αυτά είναι επίσης μεγάλα. Για την αποδοτική επίλυση του προβλήματος μας λοιπόν, Agrawal & Srikant (1994) [3] βασίστηκαν σε μια αρχή που ονομάστηκε Apriori ή περιγραφικά αρχή της προς τα κάτω κλειστότητας. Σύμφωνα με αυτή «Ένα κ-σύνολο είναι συχνό μόνο αν όλα τα υποσύνολα του είναι επίσης συχνά» Αυτή η ιδιότητα οδηγεί στην επίλυση του προβλήματος ξεκινώντας από κάτω, δηλαδή από τα συχνά σύνολα ενός αντικειμένου. Με αυτά ως βάση κατασκευάζουμε τα συχνά σύνολα 2 αντικειμένων, μετά 3 κ.ο.κ. μέχρι να μην μπορούμε να πέσουμε πάνω σε κ-σύνολα που δεν είναι συχνά. Τότε η επαναληπτική διαδικασία σταματά. Από την διατύπωση του Apriori και μετά εμφανίστηκαν αρκετές παραλλαγές που βελτιώσεις πάνω στον αλγόριθμο όπως είναι οι τεχνικές hashing (Park et al 1995) [4], τεχνικές partitioning (Savasere et. al. 1995) [5], τεχνικές δειγματοληψίας (Toivonen 1996) [6], σταδιακή εξόρυξη (incremental mining, Cheung et. al. 1996) [7] και παράλληλη κατανεμημένη εξόρυξη (parallel and distributing mining, Park et.al. 1995, Agrawal and Shafer 1996, Cheung et. al. 1996, Zaki et. al. 1997) [8,9,10,11]. Γενικά οι βελτιώσεις που έγιναν στόχευαν πάντα στον ολοένα και μικρότερο αριθμό περασμάτων της βάσης δεδομένων που όπως θα δούμε είναι το μεγάλο μειονέκτημα του Apriori. 6

7 Εξόρυξη συχνών προτύπων χωρίς την παραγωγή υποψήφιων συνόλων Μια διαφορετική προσέγγιση του προβλήματος είναι η μέθοδος FP-Growth που ανήκει στην κατηγορία διαίρει και βασίλευε. Αυτό γιατί σπάει το πρόβλημα σε μικρότερα υπο προβλήματα με την ίδια ακριβώς δομή το καθένα. Η λογική του Fp-growth βασίζεται στην αποδοτική αποθήκευση των εγγραφών της βάσης δεδομένων σε μια δενδρική δομή που ονομάζεται Fp-tree. Η αποδοτικότητα της δομής έγκειται στο πόσο συμπαγής είναι. Αυτό εξαρτάται από τον βαθμό της επικάλυψης των συναλλαγών που έχουν κοινά αντικείμενα. Όσο πιο μεγάλη είναι η επικάλυψη τόσο μεγαλύτερη είναι συμπίεση των δεδομένων μέσα στο fp-tree. Από την κατασκευή του δέντρου και μετά «σπάει» το πρόβλημα, απομονώνοντας το κομμάτι της δομής που καταλήγει σε συγκεκριμένα φύλλα- αντικείμενα. Η διαδικασία αυτή γίνεται επαναληπτικά και τα συχνά πρότυπα προκύπτουν από την συγχώνευση των καταλήξεων των επιμέρους δενδρικών δομών. Και ο αλγόριθμος fp-growth από την διατύπωση του και μετά υπήρξε αντικείμενο μελέτης επεκτάσεων και βελτιώσεων. Κάποιες από αυτές είναι η παραγωγή συχνών προτύπων σε βάθος (Agrawal et. al. 2001) [12], τεχνικές διαπέρασης του δέντρου από κάτω προς τα πάνω και το αντίστροφο (Liu et. al. 2002) [13] και μια υλοποίηση προθεματικής δομής αποθήκευσης με βάση τεχνικές πινάκων (Grahne and Zhu 2003) [14], την οποία και θα αναλύσουμε σε ξεχωριστό κεφάλαιο. Εξόρυξη συχνών προτύπων με «κάθετη χρήση» δεδομένων Οι τεχνικές που είδαμε (Apriori, Fp growth) χρησιμοποιούν τις συναλλαγές της βάσης σε «οριζόντια» μορφή. Αυτό σημαίνει ότι κάθε συναλλαγή αναπαρίσταται ως TID:itemset όπου TID είναι η μονοσήμαντη ταυτότητα της συναλλαγής μέσα στη βάση. Μια εναλλακτική αναπαράσταση των δεδομένων είναι η «κάθετη» μορφή. Στην περίπτωση αυτή έχουμε item:tid_set όπου για κάθε αντικείμενο έχουμε το σύνολο των αναγνωριστικών των συναλλαγών στις οποίες συμμετέχει το αντικείμενο. Ένας προτεινόμενος αλγόριθμος της κατηγορίας αυτής είναι ο Eclat (Equivalence CLASS Transformation, Zaki 2000) [15]. Χρησιμοποιείται η αρχή apriori. Αυτό σημαίνει ότι γίνεται σταδιακός έλεγχος των συνόλων. Αυτό σημαίνει ότι τα κ+1 σύνολα προκύπτουν από τα κ σύνολα. Ο υπολογισμός των TID_set γίνεται μέσα από την τομή των TID_sets των κ-συνόλων. Στις τεχνικές κάθετης χρήσης δεδομένων εκτός των πλεονεκτημάτων της εφαρμογής της αρχής apriori, υπάρχει επιπλέον και το προτέρημα της αποφυγής ανίχνευσης της βάσης δεδομένων ώστε να βρούμε τον αριθμό εμφανίσεων του κ+1- συνόλου. Την πληροφορία αυτή μας την παρέχει το TID_set. Κατηγορίες δεδομένων προς εξόρυξη Εξόρυξη πολυδιάστατων δεδομένων ή δεδομένων πολλαπλών επιπέδων Η ανίχνευση προτύπων όταν τα δεδομένα είναι στην απλή μορφή, είναι μια διαδικασία που καλύπτεται από την μεθοδολογία που αναπτύξαμε παραπάνω. 7

8 Τα πράγματα αρχίζουν να περιπλέκονται όταν τα δεδομένα της βάσης που έχουμε να επεξεργαστούμε εκτείνονται σε περισσότερες από μία διαστάσεις ή επίπεδα. Στην περίπτωση αυτή και η εξόρυξη είτε προτύπων είτε κανόνων συσχέτισης πρέπει να λαμβάνει υπόψη τα διαφορετικά επίπεδα. Η πρώτη παρατήρηση λοιπόν που γίνεται είναι η δυσκολία εύρεσης κανόνων προτύπων στα πιο κάτω επίπεδα όπου οι σχέσεις μεταξύ δεδομένων δεν είναι τόσο ισχυρές. Από την άλλη η ανίχνευση στα τελευταία επίπεδα περιμένουμε να μας δώσει ισχυρότερους και περισσότερους κανόνες συσχέτισης λόγω της συνεκτικότητας των αντικειμένων. Μια δεύτερη παρατήρηση είναι τα κριτήρια που θα πρέπει να ληφθούν υπόψη κατά την εξόρυξη. Ειδάμε παραπάνω ότι το κριτήριο μας είναι ο αριθμός των εμφανίσεων θα πρέπει να είναι μεγαλύτερος από κάποια ελάχιστη τιμή που θέτουμε. Το ερώτημα που τίθεται λοιπόν είναι αν το κατώφλι αυτό θα είναι ίδιο για όλα τα επίπεδα. Μια στρατηγική που ακολουθείται θέλει την χρήση ενός κατωφλίου και εξόρυξη κανόνων στα τελευταία και πιο ισχυρά επίπεδα. Στην συνέχεια εκμεταλλευόμενοι την ιεραρχία των δεδομένων γίνεται εξόρυξη στα πιο κάτω επίπεδα μόνο των συνόλων τα οποία αντιστοιχούν σε συχνά πρότυπα στα τελευταία επίπεδα (Srikant and Agrawal 1995) [16]. Μια δεύτερη στρατηγική είναι η χρήση διαφορετικού κατωφλίου για κάθε επίπεδο ή αντίστοιχα για κάθε διάσταση. Σε αυτή την περίπτωση η εξόρυξη γίνεται ανεξάρτητα για κάθε επίπεδο. Όπως είναι φυσικό το κατώφλι που χρησιμοποιούμε ανεβαίνοντας επίπεδα θα γίνεται ολοένα και πιο αυστηρό δηλαδή μεγαλύτερο. Εξόρυξη κλειστών και maximal προτύπων Η ανίχνευση συχνών προτύπων μπορεί να οδηγήσει σε ένα τεράστιο αριθμό προτύπων ο οποίος μάλιστα μεγαλώνει εκθετικά όσο κατεβάζουμε το κατώφλι εμφάνισης. Αυτό μπορεί να αποτελέσει πρόβλημα εφόσον τα πρότυπα που ανιχνεύονται δεν έχουν να προσδώσουν κάποια καινούρια πληροφορία όσον αφορά την σχέση των αντικειμένων. Για να περιγράψουμε καλύτερα τι εννοούμε με βάση την αρχή της προς τα κάτω κλειστότητας για κάθε πρότυπο που ανιχνεύουμε ως συχνό και μάλιστα με μεγάλο μήκος υπάρχει ένας εκθετικός αριθμός από υποσύνολα που είναι επίσης συχνά. Η βασική πληροφορία της σχέσης των αντικειμένων όμως μπορεί να περιγραφεί από το αρχικό πρότυπο χωρίς να χρειάζεται να σπαταλήσουμε χρόνο στην ανίχνευση των υποσυνόλων. Για το λόγο αυτό παρατίθενται οι έννοιες των κλειστών και των maximal προτύπων τα οποία και θα ανιχνεύονται. Ένα πρότυπο α είναι κλειστό συχνό πρότυπο σε μία βάση D εάν το α είναι συχνό και δεν υπάρχει υπερσύνολο αυτού β το οποίο να έχει τον ίδιο αριθμό εμφανίσεων με το α μέσα στην βάση D. Ένα πρότυπο α είναι maximal συχνό πρότυπο σε μια βάση D εάν το α είναι συχνό και δεν υπάρχει υπερσύνολο αυτού β που να είναι συχνό. Ο συνδυασμός των κλειστών με τα maximal συχνά πρότυπα μας δίνει την συνολική εικόνα πληροφορία για τα συχνά πρότυπα που υπάρχουν μέσα στην βάση D. Ο στόχος λοιπόν είναι να ελέγξουμε κατά πόσο ένα πρότυπο είναι κλειστό (maximal). Αυτό επιτυγχάνεται με δύο προσεγγίσεις: Στην πρώτη κρατάμε την λίστα των αναγνωριστικών TID ενός προτύπου. Στην ουσία δηλαδή κρατάμε μια λίστα με τις συναλλαγές της βάσης στις οποίες περιέχεται το πρότυπο. Έτσι μπορούμε να δεικτοδοτήσουμε το πρότυπο ανά πάσα στιγμή με τεχνικές hashing στην λίστα των αναγνωριστικών (αλγόριθμος CHARM, Zaki and Hsiao 2002) [17]. Στην δεύτερη προσέγγιση διατηρούμε τα πρότυπα που ανιχνεύσαμε σε μια δενδρική μορφή παρόμοια με το FP tree. 8

9 Εξόρυξη τεράστιων πολυδιάστατων συνόλων και προτύπων κολοσσιαίου μήκους Η ανάπτυξη των επιστημών έχει κάνει επιτακτική την ανάγκη για επεξεργασία δεδομένων που ξεφεύγουν από τα συνηθισμένα μεγέθη. Παράδειγμα αυτού αποτελεί η βιοπληροφορική όπου η μελέτη της συμπεριφοράς των γονιδίων αλλά και η έρευνα για τις διάφορες μορφές καρκίνου καταλήγουν σε δεκάδες ή και εκατοντάδες ακολουθίες πολυδιάστατων δεδομένων. Αν φανταστούμε λοιπόν έναν πίνακα δεδομένων όπου οι στήλες αποτελούν τα γονίδια (μιλάμε για μεγέθη από έως και ) και οι γραμμές αποτελούν τα δείγματα μιλάμε για έναν πρωτόγνωρο όγκο στοιχείων όπου η ανάγκη για ανίχνευση κλειστών συχνών προτύπων κρίνεται εντελώς απαραίτητη. Οι αλγόριθμοι εξόρυξης που έχουν υλοποιηθεί (CARPENTER Pan et. al. 2003, TD_Close Liu et. al. 2006) [18,19] αντιμετωπίζουν την κατάσταση μετατρέποντας τα δεδομένα σε κάθετη μορφή, κατασκευάζοντας TID_set, τα οποία στη συνέχεια τα εκμεταλλεύονται για να χτίσουν δενδρικές δομές. Εκτός από τον μεγάλο αριθμό διαστάσεων ένα σημαντικό θέμα που χρήζει αντιμετώπισης είναι και το τεράστιο μήκος των προτύπων. Οι μέχρι τώρα αλγόριθμοι εξόρυξης όπως είναι ο Apriori, πρέπει να εξετάσουν σε ενδιάμεσα στάδια μεγάλο αριθμό από σύνολα μεσαίου μεγέθους. Η προσέγγιση που είναι σε εξέλιξη (Pattern Fusion, Zhu et. al. 2007) [20] προσπαθεί να αναδείξει τα λεγόμενα κολοσσιαία πρότυπα μέσα από την σύμπτυξη συνόλων μικρότερου μεγέθους σε ένα βήμα. Εξόρυξη ακολουθιακών προτύπων Μια ακολουθιακή βάση δεδομένων αποτελείται από στοιχεία σαφώς διατεταγμένα στο χρόνο. Τα ακολουθιακά δεδομένα συναντώνται σε πλήθος εφαρμογών όπως είναι η αγορά προϊόντων, η επίσκεψη σε ιστότοπους αλλά και η έρευνα δεδομένων από επιστήμες όπως η βιολογία. Η ακολουθία που αποτελεί αντικείμενο μελέτης ορίζεται ως α = < t 1,t 2,t 3..,t m >. Η α είναι μια διατεταγμένη λίστα που αποτελείται από σύνολο αντικειμένων t ι. Τα t ι έχουν την ιδιότητα όλα τα αντικείμενα γεγονότα που περιέχουν, να συμβαίνουν την ίδια χρονική στιγμή. Επίσης ένας σημαντικός ορισμός είναι αυτός της υποακολουθίας. Έτσι μια ακολουθία α=< α 1,α 2,α 3..,α m > είναι υποακολουθία της β=< β 1,β 2,β 3..,β m > αν α β και για κάθε στοιχείο της α υπάρχει κομμάτι της β που να το περιέχει. Δεδομένης λοιπόν μιας ακολουθιακής βάσης D = s 1,s 2,s 3..,s m, μια ακολουθία α έχει υποστήριξη που ισούται με τον αριθμό των ακολουθιών της βάσης που περιέχουν την α. Αν αυτή η υποστήριξη ξεπερνά το κατώφλι που θέτουμε κατά περίπτωση τότε μιλάμε για συχνό ακολουθιακό πρότυπο. Οι αλγόριθμοι εξόρυξης που έχουν αναπτυχθεί στηρίζονται στις τεχνικές που είδαμε μέχρι τώρα. Έτσι υπάρχει ο Generalized Sequential Patterns (GSP), ένας αλγόριθμος στη λογική του Apriori (Srikant & Agrawal 1995) [21], που ενσωματώνει χρονικούς περιορισμούς με τεχνικές κινούμενου χρονικά παραθύρου. Η προσέγγιση με «κάθετη» χρήση δεδομένων υλοποιήθηκε με τον αλγόριθμο SPADE (Zaki 2001) [22] ο οποίος ομοιάζει με τον Eclat. Η διαφορά εδώ είναι ότι τα δεδομένα παίρνουν την μορφή <itemset : (sequence_id, event_id) >. Η ανίχνευση των κ-μήκους ακολουθιών γίνεται από τις ακολουθίες μήκους κ-1. Το μήκος της id λίστας είναι ίσο με την υποστήριξη της νέας ακολουθίας κ μήκους. 9

10 Οι αλγόριθμοι GSP, SPADE έχουν το μειονέκτημα της παραγωγής μεγάλων υποψήφιων συνόλων. Για να αποφευχθεί αυτό αναπτύχθηκαν και αλγόριθμοι οι οποίοι δουλεύουν στο πρότυπο του FP Growth. Αυτό σημαίνει την εξόρυξη προτύπων μέσα από μεθοδολογία διαίρει και βασίλευε. Τέτοιου είδους τεχνική υλοποιείται από τον PrefixScan (Pei et. al ) [23,24]. Πέραν αυτών των τεχνικών, αναπτύχθηκαν και αλγόριθμοι που ανιχνεύουν κλειστές σύνολα ακολουθιών. Ο αλγόριθμος ονομάζεται Clospan [25] και προσπαθεί να ανιχνεύσει κλειστές ακολουθίες εκμεταλλευόμενος την παρακάτω ιδιότητα: «Δυο προβολές βάσεων S a και S β, είναι ισότιμες αν και μόνο αν ο αριθμός των ακολουθιών στην S a είναι ίσος με τα αντίστοιχα στην S β» Αυτό που δεν τονίστηκε είναι ότι η ακολουθία α είναι υποακολουθία της β. Με τον τρόπο αυτό ο Prefix Scan κόβει μη κλειστές ακολουθίες από περαιτέρω μελέτη. Εξόρυξη προτύπων δομών δεδομένων (γράφων,δέντρων) Στην μέχρι τώρα ανάλυση τα δεδομένα είχαν την μορφή συνόλων αντικειμένων, οποιασδήποτε μορφής είτε αλφαβητικών είτε αριθμητικών. Η ανάπτυξη όμως επιστημών όπως είναι η χημεία και η βιοπληροφορική έχει φέρει στο προσκήνιο αναπαραστάσεις στοιχείων σε μορφή δομών δεδομένων όπως είναι τα δέντρα και οι γράφοι. Έτσι λοιπόν η έννοια του συχνού προτύπου μπορεί να επεκταθεί και σε αυτές τις δομές. Συχνό πρότυπο θα θεωρούμε κάθε υπό γράφο ή υπό δέντρο το οποίο εμφανίζεται σε ένα σύνολο γράφων (δέντρων) τουλάχιστον όσες φορές μας ορίζει το κατώφλι υποστήριξης. Η επέκταση της μελέτης γίνεται με τον ίδιο ακριβώς τρόπο και στις τεχνικές. Έτσι έχουμε καταρχήν την εφαρμογή των μεθόδων Apriori. Η ανίχνευση γίνεται σταδιακά ξεκινώντας από μικρούς γράφους, οι οποίοι σταδιακά μεγαλώνουν χάρη στην συνένωση μικρότερων δομών. Τέτοιος αλγόριθμος είναι και ο AGM (Inokuchi et. al.) [26] όπου η παραγωγή των υποψήφιων γράφων γίνεται με «αύξηση» των κόμβων των υπό-γράφων. Δύο γράφοι μεγέθους κ συνενώνονται αν περιέχουν τον ίδιο υπο-γράφο μεγέθους κ-1 (όπου μέγεθος εννοείται ο αριθμός των κόμβων). Παρόμοιος αλγόριθμος είναι ο FSG (Kuramochi and Karypis 2001) [27,28] μόνο που η παραγωγή υποψήφιων προτύπων γράφων γίνεται με την σταδιακή ενσωμάτωση ακμών και όχι κόμβων. Οι εναλλακτικές τεχνικές ώστε να αποφευχθεί το overhead του Apriori στηρίζονται πάνω στον Fp Growth. Η εξόρυξη προτύπων γίνεται επεκτείνοντας συχνούς γράφους. Η επέκταση γίνεται προσθέτοντας νέες ακμές σε κάθε πιθανή θέση. Επειδή υπάρχει το μειονέκτημα της πολλαπλής εξόρυξης του ίδιου γράφου, οι αλγόριθμοι που αναπτύχθηκαν έκαναν «επιλεκτική επέκταση». Ο gspan (Yan & Han 2002) [29] υλοποιεί την δεξιά επέκταση. Αυτό σημαίνει ότι οι νέες ακμές μπαίνουν μόνο στο δεξιότερο μονοπάτι. Εξόρυξη «χρήσιμων» συχνών προτύπων Παρά τον μεγάλο αριθμό αλγορίθμων που παρατέθηκαν για την εξόρυξη συχνών προτύπων, τίθεται το ερώτημα πόσο χρήσιμα είναι τα τόσο πολλά πρότυπα που παράγονται. Ποια από αυτά είναι πραγματικά χρήσιμα και με ποιο τρόπο μπορούν να παραχθούν αποδοτικά; 10

11 Εξόρυξη βάσει προδιαγραφών Η πρώτη απάντηση έρχεται με την εξόρυξη προτύπων με βάση ορισμένες προδιαγραφές (constrained based mining). Οι προδιαγραφές ορίζονται από τον χρήστη ώστε να περιορίσουν το ογκώδες σύνολο προτύπων που έχει προκύψει από την εξόρυξη. Το είδος των προδιαγραφών ποικίλλει και μπορεί να κατηγοριοποιηθεί ανάλογα με τον τρόπο αλληλεπίδρασής του με την διαδικασία εξόρυξης. Έτσι έχουμε προδιαγραφές οι οποίες επιδρούν στα αρχικά δεδομένα και κάνουν κάποια επιλογή πριν καν εφαρμόσουμε κάποιον αλγόριθμο εξόρυξης. Αντίστοιχα αντί για την αρχή, είναι δυνατόν να τεθούν περιορισμοί στην ανάπτυξη των προτύπων κατά την διαδικασία εξόρυξης. Άλλη κατηγορία προδιαγραφών θέλει τα αντικείμενα των προτύπων να συναντούν κάποια κριτήρια που ελέγχουν την σημαντικότητα τους. Τέτοια μπορεί να είναι στατιστικές τιμές όπως η μέση τιμή ή το πόσο «ισχυρό» είναι το μπλοκ των σετ αντικειμένων που προκύπτουν από τα πρότυπα και τις συναλλαγές της βάσης. Εξόρυξη συμπιεσμένων προτύπων ή προσεγγίσεων τους Ένας εναλλακτικός τρόπος μείωσης του όγκου των συχνών προτύπων είναι η ανίχνευση είτε συμπιεσμένου συνόλου προτύπων είτε η ανίχνευση προσέγγισης αυτού. Η συμπίεση όπως σε όλες τις εφαρμογές της, έτσι και εδώ έχει δύο παραλλαγές. Στην πρώτη (lossless) περίπτωση, η συμπίεση γίνεται χωρίς να χάσουμε πληροφορία. Τέτοια μέθοδος αποτελεί η εξόρυξη κλειστών προτύπων, η οποία και μας δίνει μέσω των κλειστών προτύπων όλη την πληροφορία της εξόρυξης χωρίς να χάνονται κάποια πρότυπα. Στην δεύτερη περίπτωση (loosy), η συμπίεση γίνεται με κόστος κάποια πρότυπα. Σημαντικότερος εκπρόσωπος της κατηγορίας αυτής είναι η τεχνική top-k most frequent closed patterns (Wang et. al.2005) [30], ενώ για την εξόρυξη χρησιμοποιήθηκε ένας αλγόριθμος γνωστός ως TFP. Τα δύο χαρακτηριστικά του αλγορίθμου είναι ότι γίνεται εξόρυξη προτύπων με μήκος μεγαλύτερο από ένα κατώφλι που θέτουμε και, το κυριότερο, αυξάνεται σταδιακά το κατώφλι υποστήριξης έτσι ώστε να γίνεται «κλάδεμα» του FP tree τόσο κατά την διάρκεια κατασκευής του όσο και μετά. Παρά την συμπίεση που πετυχαίνει η προηγούμενη μέθοδος, τα κ πρότυπα που αναδεικνύει δεν αποτελούν ένα αντιπροσωπευτικό υποσύνολο των όλων των κ- προτύπων. Το πρόβλημα της αντιπροσωπευτικότητας έρχονται να λύσουν αλγόριθμοι προσέγγισης βασισμένοι ο καθένας σε διαφορετικό τρόπο μέτρησης της αντιπροσωπευτικότητας. Ένας από αυτούς (Afrati et. al. 2004) [31] δρα με κριτήριο το μέγεθος του συνόλου των κ- προτύπων που πρέπει να προσεγγίσουν. Κάποιος άλλος (Yan et. al. 2005) [32] χτίζει προφίλ ώστε να πετύχει την αντιπροσώπευση. Το προφίλ, για ένα σετ συγγενών συνόλων αντικειμένων, περιγράφεται από την ένωση των συνόλων αυτών και την πιθανότητα των αντικειμένων να περιέχονται στις συναλλαγές της βάσης δεδομένων. Το δυνατό σημείο της χρήσης προφίλ είναι η ευκολία να ξεχωρίζουμε τα ανεξάρτητα σύνολα αντικειμένων και τις υποστηρίξεις τους. Μια διαφορετική οπτική της συμπίεσης προτύπων εισάγει και την γνωστή τεχνική του clustering. Με βάση αυτή τα πρότυπα ομαδοποιούνται με βάση την ομοιότητα τους αλλά και την υποστήριξή τους. Στην συνέχεια εφαρμόζονται τεχνικές εύρεσης του αντιπροσωπευτικού συνόλου των clusters. Μία από αυτές τις υλοποιήσεις (Siebes et. al. 2006) [33] χρησιμοποιεί την αρχή MDL, με βάση την οποία το καλύτερο σετ αντιπροσώπευσης είναι αυτό που συμπιέζει περισσότερο την βάση. 11

12 Εξόρυξη χρήσιμων προτύπων με χρήση correlation analysis Όπως έχει διαφανεί μέχρι τώρα η εξόρυξη συχνών προτύπων έχει αντικειμενικό σκοπό την εύρεση σχέσεων και συσχετίσεων μεταξύ αντικειμένων. Μάλιστα η εύρεση συχνών προτύπων είναι συνήθως το εισαγωγικό στάδιο από το οποίο θα προέλθουν οι κανόνες συσχέτισης. Ο ορισμός των κανόνων θα δοθεί αργότερα αναλυτικά. Εδώ απλά θα αναφέρουμε ότι αποτελείται από δύο υποσύνολα του συχνού προτύπου ξένα μεταξύ τους έτσι ώστε να ισχύει α β με βάση κάποια κριτήρια. Τα κριτήρια έχουν να κάνουν αφενός με τις ταυτόχρονες εμφανίσεις των α, β στις συναλλαγές αλλά και με τις εμφανίσεις του β στις συναλλαγές που υπάρχει ήδη το α. Παρά το γεγονός ότι τα κριτήρια αυτά ικανοποιούνται, αυτό δεν σημαίνει πάντα ότι οι συσχετίσεις που προκύπτουν είναι αυτές που ενδιαφέρουν. Για να επιβεβαιωθεί η χρησιμότητα των προτύπων χρησιμοποιούνται συμπληρωματικά, εκτός από τις εμφανίσεις, και μεγέθη που μετρούν την συσχέτιση των στοιχείων των προτύπων. Το πιο γνωστό τέτοιο μέγεθος είναι ο συντελεστής συσχέτισης (correlation coefficient). Φυσικά υπάρχουν και άλλα τέτοια μεγέθη τα οποία ως επί το πλείστον έχουν «δανειστεί» οι ερευνητές από το πεδίο της στατιστικής και τα έχουν προσαρμόσει στο πεδίο της εξόρυξης. Για παράδειγμα ένα από τα τρικ της προσαρμογής είναι ο υπολογισμός των μεγεθών συσχέτισης να μην γίνεται λαμβάνοντας υπόψη τις «κενές συναλλαγές». Λέγοντας κενές συναλλαγές εννοούμε τις συναλλαγές που δεν περιέχουν κανένα από τα αντικείμενα του κανόνα. Επίδραση συχνών προτύπων στην ανάλυση δεδομένων Η ανίχνευση συχνών προτύπων είναι ένα ερευνητικό πεδίο με πολλές εφαρμογές αλλά ταυτόχρονα έχει και χρησιμότητα σε άλλους τομείς της ανάλυσης δεδομένων όπως είναι η κατηγοριοποίηση (classification) και η συσταδοποίηση (clustering). Κατηγοριοποίηση μέσω συχνών προτύπων Τα συχνά πρότυπα έχει αποδειχθεί ότι είναι πολύ χρήσιμα στην διαδικασία της κατηγοριοποίησης. Πιο συγκεκριμένα η βασική ιδέα είναι τα συχνά πρότυπα να αποτελέσουν τον οδηγό στην ανακάλυψη των κατηγοριών που θα χρησιμοποιηθούν. Με αυτό τον τρόπο οι κανόνες συσχέτισης που προκύπτουν μπορούν εύκολα να χρησιμοποιηθούν για πρόβλεψη. Έχουν αναπτυχθεί αρκετοί αλγόριθμοι πάνω στην κατηγοριοποίηση όπου οι περισσότεροι είναι επέκταση αυτών που ήδη έχουμε περιγράψει. Για παράδειγμα υπάρχει η τεχνική της εξόρυξης top-k συχνών προτύπων (Cong et. al. 2005) [34]. Η διαφορά εδώ είναι ότι τα top-k συχνά πρότυπα δρουν και ως κατηγορίες και με την προσθήκη ενός κατηγοριοποιητή (classifier) ονόματι RCBT γίνεται η πρόβλεψη. Στην ουσία αυτό που γίνεται είναι ένας υπολογισμός που εμπεριέχει τις τιμές υποστήριξης και εμπιστοσύνης των κανόνων ώστε να τους εντάξει στην κατάλληλη κατηγορία. Κάτι παρόμοιο υλοποιεί και ο αλγόριθμος HARMONY (Wang & Karypis 2005) [35] όπου εδώ γίνεται απευθείας εξόρυξη των κανόνων που θα αποτελέσουν τον κατηγοριοποιητή. Έτσι κάθε κανόνας (Instance rule) εξετάζεται αν «καλύπτεται» από κάποιον κανόνα - κατηγοριοποιητή με πολύ υψηλή εμπιστοσύνη. Συσταδοποίηση (clustering) μέσω συχνών προτύπων Η διαδικασία clustering, ειδικά σε πολυδιάστατα δεδομένα, αποτελεί πεδίο έρευνας. Μία από τις παραμέτρους που δίνει κάποιες διεξόδους είναι η συσχέτιση του με την εξόρυξη προτύπων. Πιο συγκεκριμένα γίνεται προσπάθεια συσχέτισης της εύρεσης 12

13 συχνών προτύπων σε υποσύνολα πολυδιάστατων δεδομένων με την διαδικασία clustering. Ένας από τους αλγορίθμους που ασχολείται με clustering είναι ο CLIQUE (Agrawal et. al. 1998) [36]. Χρησιμοποιεί την τεχνική Apriori ώστε να βρει υποσύνολα των πολυδιάστατων δεδομένων που να είναι ικανά να χωριστούν σε clusters. Στην συνέχεια σε αυτά τα υποσύνολα ψάχνουμε ενότητες που να έχουν «ομοιότητες» μεταξύ τους. Ο συνδυασμός τους αποτελεί και τα clusters. Ο αλγόριθμος ENCLUS (Cheng et. al.) [37] ασχολείται με αριθμητικά δεδομένα και χρησιμοποιεί ως σημαντική παράμετρο την εντροπία. Στηρίζεται και αυτός στην αρχή apriori ώστε να ανιχνεύσει υποχώρους ικανούς για clustering. Η χρήση της εντροπίας βασίζεται στην παρατήρηση ότι ένας υποχώρος που μπορεί να περίεχει clusters, έχει λιγότερη εντροπία («αταξία») από τον υποχώρο που δεν περιέχει clusters. Τέλος τεχνικές εξόρυξης προτύπων οι οποίες βοηθούν στο clustering εφαρμόζονται και σε αλγορίθμους εξόρυξης κειμένων μέσα από λέξεις κλειδιά. Στην ουσία πρόκειται για τεχνικές clustering όπου τα clusters έχουν ως βάση συχνά εμφανιζόμενους λεκτικά κομμάτια. Γενικά λοιπόν στα παρακάτω κεφάλαια θα ασχοληθούμε καταρχήν με την ανάλυση του αλγορίθμου Apriori τα πλεονεκτήματα και τα μειονεκτήματά του. Στην συνέχεια θα παραθέσουμε μια παραλλαγή του Apriori βασισμένη στην δομή trie η οποία φιλοδοξεί να βελτιστοποιήσει κάποια μειονεκτήματα. Σε επόμενο κεφάλαιο εξετάζουμε το αντίπαλο δέος του apriori, τον αλγόριθμο Fpgrowth. Αναλύουμε την δομή πάνω στην οποία στηρίζεται, το fp- tree, και αναφέρουμε κάποιες παραλλαγές βελτιώσεις που μπορεί να γίνουν. Στο τέταρτο κεφάλαιο εξετάζουμε μια εργασία παραλλαγή του fp growth η οποία βασίζεται σε προθεματικές δομές και προσπαθεί να βελτιώσει τον χρόνο που σπαταλάμε στο να διασχίσουμε τις δενδρικές δομές. Στο πέμπτο κεφάλαιο παραθέτουμε μια υλοποίηση του αλγορίθμου fp growth η οποία χτίζει τις δομές (κεντρική και επιμέρους conditionals) και θα μας είναι χρήσιμη στην κατασκευή της δικής μας υλοποίησης του αλγορίθμου. Στην συνέχεια αλλάζουμε το μοντέλο εξόρυξης προτύπων χρησιμοποιώντας πολλαπλές υποστηρίξεις αντικειμένων και όχι μία για όλα. Αφού παρουσιάσουμε την τεχνική γίνεται προσπάθεια προσαρμογής και υλοποίησης του αλγορίθμου fp growth (το οποίο και αποτελεί το κύριο κομμάτι της εργασίας μας). Παρουσιάζονται δύο παραλλαγές (απλή και βελτιωμένη) με όλες τις παραμέτρους καθώς και τα αποτελέσματα τους. Στο έβδομο κεφάλαιο γίνεται εισαγωγή της έννοιας αρνητικού κανόνα συσχέτισης και υλοποιείται ο παραπάνω αλγόριθμος fp growth, προσαρμοσμένος στα νέα δεδομένα που απαιτούν και χρήση συντελεστή συσχέτισης. Παρουσιάζονται και αναλύονται αποτελέσματα και η χρησιμότητά τους. Τέλος γίνεται μια αναφορά σε περαιτέρω σκέψεις και επεκτάσεις που μπορεί να έχει η εξόρυξη προτύπων, δίνοντας βάρος στην διατήρηση της σειράς των αντικειμένων στα σύνολα (order preserving). Δίνονται κάποιες σκέψεις σε θεωρητικό επίπεδο και πάντα με βάση τον αλγόριθμο fp- growth. Επίσης γίνεται μια αναφορά στις χρήσεις που μπορεί να έχει γενικά όλος ο τομέας του data mining στην καθημερινή ζωή αλλά και σε συγγενικούς επιστημονικούς κλάδους. 13

14 Κεφάλαιο 1 Εξόρυξη προτύπων μέσα από βάσεις δεδομένων: Βασικές αρχές- Αλγόριθμοι 1.1 Εισαγωγή Πολλές επιχειρήσεις αποθηκεύουν καθημερινά μεγάλες ποσότητες δεδομένων, σημαντικές ή μη. Ένα σημαντικό κομμάτι από αυτά αποτελούν τα δεδομένα που αναφέρονται στις αγορές προϊόντων ανά πελάτη. Ένα παράδειγμα αυτών των δεδομένων φαίνεται στον παρακάτω πίνακα: TID Προϊόντα 1 Ψωμί, Γάλα 2 Ψωμί, Μπύρες, Αυγά 3 Γάλα, Μπύρα, Κόκα-κόλα 4 Ψωμί, Γάλα, Μπύρα 5 Ψωμί, Γάλα, Κόκα-κόλα Κάθε γραμμή αντιπροσωπεύει τις αγορές ενός πελάτη, που θα ονομάζουμε και συναλλαγή, ενώ σε κάθε πελάτη δίδεται ένα αναγνωριστικό TID, ώστε να ορίζεται μονοσήμαντα. Η παρούσα εργασία πραγματεύεται το πρόβλημα της εξόρυξης γνώσης, που μπορούμε να εκμεταλλευτούμε, μέσα από μεγάλες βάσεις δεδομένων. Στο συγκεκριμένο παράδειγμα η γνώση είναι η σχέση που μπορεί να έχουν το σύνολο των αντικειμένων που αγοράζει κάποιος από ένα πολυκατάστημα. Η εύρεση συσχετισμού μεταξύ των αντικειμένων που περιέχει το καλάθι των προϊόντων μπορεί να βοηθήσει σε μεγάλο βαθμό την διεύθυνση της επιχείρησης ώστε να αναδιατάξει τη σειρά με την οποία τοποθετεί τα προϊόντα στα ράφια. 1.2 Ορισμός του προβλήματος Στο σημείο αυτό θα ορίσουμε τυπικά όλους τους όρους που χρησιμοποιήσαμε παραπάνω: Έστω Ι = ι 1,ι 2,ι 3..,ι m ένα σύνολο από διακριτά αντικείμενα (items). Έστω επίσης D = t 1,t 2,t 3..,t m ένα σύνολο από δοσοληψίες (transactions) όπου κάθε δοσοληψία t i είναι ένα υποσύνολο αντικειμένων του Ι. Το μήκος μιας δοσοληψίας ορίζεται ως ο αριθμός των αντικειμένων που εμφανίζεται μέσα σε αυτή. Θα λέμε ότι μία δοσοληψία περιέχει το σύνολο αντικειμένων (itemset) X αν ισχύει Χ T Μια σημαντική ιδιότητα των συνόλων αντικειμένων είναι η υποστήριξη (support). Ορίζεται ως ο αριθμός των δοσοληψιών που περιέχουν το συγκεκριμένο σύνολο (itemset). Στο παράδειγμα μας το itemset ψωμί, γάλα εμφανίζεται σε 3 δοσοληψίες άρα έχει υποστήριξη 3. Ουσιαστικά η υποστήριξη μας δείχνει πόσο συχνά εμφανίζεται το item set του κανόνα. Αυτό μπορεί να σημαίνει την απομάκρυνση αντικειμένων που εμφανίζονται πιο σπάνια. 14

15 Έτσι λοιπόν η ανάλυση μας σε πρώτο στάδιο θα εστιάσει στη εύρεση των συνόλων αντικειμένων που εμφανίζονται πιο συχνά στις δοσοληψίες. 1.3 Ανίχνευση συχνών συνόλων αντικειμένων Αφού δώσαμε τους τυπικούς ορισμούς σειρά έχει η εύρεση των πιο συχνά εμφανιζόμενων συνόλων αντικειμένων (frequent item sets), δηλαδή των συνόλων που ικανοποιούν την απαίτηση για μεγάλη υποστήριξη. Πρόκειται για μία δύσκολη εργασία με πολλές διαθέσιμες μεθοδολογίες. Ξεκινώντας με ένα σύνολο δεδομένων που αποτελείται από d αντικείμενα, ο αριθμός των πιθανών frequent item sets είναι ίσος με 2 d 1. Για μεγάλο αριθμό αντικειμένων όμως το μέγεθος αυτό γίνεται υπερβολικά μεγάλο. Επιπροσθέτως είπαμε ότι δεν μας ενδιαφέρουν όλα αλλά μόνο αυτά που συμβαίνουν συχνά. Έτσι λοιπόν κάποια θα κοπούν χρησιμοποιώντας διάφορες τεχνικές. Μια πρώτη απλή και πρωτόγονη μέθοδος είναι να ψάξουμε κάθε έναν από τους 2 d 1 δυνατούς συνδυασμούς ανιχνεύοντας το αριθμό των δοσοληψιών που περιέχονται. Κάτι τέτοιο φυσικά είναι αρκετά κοστοβόρο αφού απαιτεί Ο(Ν Μ w) συγκρίσεις, όπου Ν είναι ο αριθμός των δοσοληψιών, Μ=2 d 1, και w είναι το μέγιστο μήκος δοσοληψιών. Για να μειώσουμε το κόστος αυτό θα πρέπει να δουλέψουμε προς δύο κατευθύνσεις: Καταρχήν θα πρέπει να μειώσουμε αισθητά το μέγεθος των υποψήφιων συνόλων αντικειμένων. Ακριβώς παρακάτω θα παρουσιάσουμε έναν από τους πιο διαδεδομένους αλγόριθμους πάνω σε αυτό. Στην συνέχεια θα πρέπει να ρίξουμε βάρος στην μείωση των συγκρίσεων. Αυτό σημαίνει ότι αντί για κάθε υποψήφιο σύνολο να περνάμε όλες τις δοσοληψίες, θα πρέπει να βρούμε εναλλακτικούς τρόπους μέσα από αποδοτικές δομές αποθήκευσης των δεδομένων. 1.4 Ο αλγόριθμος apriori Στην ενότητα αυτή περιγράφεται πως η υποστήριξη βοηθά να μειωθούν τα υποψήφια συχνά σύνολα. Η χρήση της υποστήριξης για την μείωση των υποψήφιων συνόλων στηρίζεται στην παρακάτω αρχή Αρχή Apriori Εάν ένα σύνολο αντικειμένων είναι συχνό τότε όλα τα υποσύνολά του είναι επίσης συχνά. Με βάση την ιδιότητα της αντιθετοαντιστροφής ισχύει και το εξίσου σημαντικό: Εάν ένα σύνολο αντικειμένων δεν είναι συχνό τότε και όλα τα υπερσύνολά του είναι επίσης μη συχνά. Η στρατηγική αυτή της μείωσης του τεράστιου αριθμού των υποψηφίων συχνών συνόλων λέγεται απόρριψη βάσει υποστήριξης και προκύπτει από την ιδιότητα του μεγέθους της υποστήριξης με βάση την οποία: Η υποστήριξη ενός συνόλου δεν είναι δυνατόν να υπερβαίνει την υποστήριξη κανενός από τα υποσύνολα του. 15

16 Το παραπάνω είναι γνωστό και ως αντιμονότονη ιδιότητα και συνεπάγεται από την ιδιότητα της μονοτονικότητας που ορίζουμε ως: «Έστω Ι ένα σύνολο από αντικείμενα και J = 2 I. Η ποσότητα f είναι μονότονη (ή κλειστή προς τα πάνω) εάν για κάθε Χ,Υ που ανήκουν στο J ισχύει: Αν το Χ είναι υποσύνολο του Υ f(x) f(y) Δηλαδή το f(x) δεν υπερβαίνει με τίποτα το f(y)» Κατ αντιστοιχία έχουμε την αντι-μονότονη ποσότητα f (η κλειστή προς τα κάτω) όπου ισχύει: Αν το Χ είναι υποσύνολο του Υ f(υ) f(χ) Δηλαδή το f(υ) δεν υπερβαίνει με τίποτα το f(χ) Χρήσιμα Συμπεράσματα και ιδιότητες Maximal συχνό σύνολο. Πρόκειται για το συχνό σύνολο το οποίου κανένα υπερσύνολο του δεν είναι συχνό. Ιδιότητα της Κλειστότητας. Ένα σύνολο αντικειμένων Χ είναι κλειστό αν κανένα από τα άμεσα υπερσύνολα του δεν έχει την ίδια τιμή υποστήριξης με το Χ. Σε συνδυασμό με την apriori αρχή συνεπάγεται ότι τα υπερσύνολα ενός κλειστού συνόλου έχουν σίγουρα μικρότερη υποστήριξη. Ιδιότητα της Κλειστότητας (2). Ένα σύνολο αντικειμένων Χ είναι ένα συχνόκλειστό σύνολο εάν είναι κλειστό και η υποστήριξη του είναι μεγαλύτερη ή ίση με το εκάστοτε κατώφλι υποστήριξης που έχει τεθεί. Μετά την ανάλυση των ιδιοτήτων που στηρίζονται στην υποστήριξη των αντικειμένων μπορούμε να προχωρήσουμε στην παράθεση του αλγόριθμου apriori για την παραγωγή των συχνών συνόλων αντικειμένων. Αλγόριθμος Apriori 1. k = 1 2. F k = i i ε Ι ^ σ(ι) Ν x minsup 3. repeat 4. k+1 5. C k = apriori-gen(f k-1 ) 6. for each transaction t in T do 7. C t =subset(c k,t) 8. for each candidate itemset c in C t do 9. σ(c) = σ(c) endfor 11. endfor 12. F k = c c ε C k ^ σ(c) Ν x minsup 13. until F k =Ǿ 14. return Ụ F k Παρατηρήσεις: Το F k είναι το σύνολο των συχνών συνόλων από κ αντικείμενα ενώ το C k είναι το αντίστοιχο σύνολο των υποψήφιων συνόλων. Το Ι είναι το σύνολο των αντικειμένων. Το σ(i) είναι ο αριθμός εμφανίσεων του i. Ο αλγόριθμος προτού προχωρήσει στην επαναληπτική διαδικασία κάνει ένα πέρασμα στα δεδομένα ώστε να ανιχνεύσει τα μονά συχνά αντικείμενα που αποτελούν το σύνολο F 1. Στην επαναληπτική διαδικασία αρχικά δημιουργεί το υποψήφιο κ-σύνολο από τα συχνά σύνολα αντικειμένων κ-1 στοιχείων. Η υλοποίηση της συνάρτησης apriorigen είναι κάτι που θα απασχολήσει αναλυτικά αργότερα. 16

17 Η συνάρτηση subset στο βήμα 7 βρίσκει όλα τα υποσύνολα κ-αντικειμένων που προκύπτουν από την δοσοληψία. Η υλοποίηση της είναι κάτι που δεν θα μας απασχολήσει. Τα βήματα 6-11 του αλγορίθμου υπολογίζουν την υποστήριξη των υποψηφίων συνόλων. Αποτελεί και το σημαντικότερο μειονέκτημα του apriοri αφού απαιτεί επιπλέον περάσματα στην βάση δοσοληψιών. Ο συνολικός αριθμός επαναλήψεων του εξωτερικού βρόγχου του αλγορίθμου είναι κ max +1 όπου κ max είναι το μέγιστο μήκος που υπάρχει στο σύνολο των συχνών αντικειμένων Παραγωγή Υποψηφίων συχνών συνόλων Στο βήμα 5 του αλγορίθμου όπως είδαμε γίνεται η παραγωγή των υποψήφιων συνόλων μέσα από την συνάρτηση apriori-gen. Η υλοποίηση αυτής της συνάρτησης μπορεί να γίνει με αρκετούς διαφορετικούς τρόπους και εμείς θα δούμε τους τρεις πιο διαδεδομένους: Απλή- άμεση μέθοδος. Κάθε κ-σύνολο είναι εν δυνάμει υποψήφιο συχνό σύνολο. Αυτό σημαίνει ότι ο αριθμός των υποψήφιων συνόλων είναι ίσος με ( ) όπου d είναι ο συνολικός αριθμός των αντικειμένων. Γίνεται εύκολα αντιληπτό ότι ο έλεγχος των υποψηφίων συνόλων σε αυτή την περίπτωση είναι αρκετά κοστοβόρος αφού ο αριθμός των προς εξέταση συνόλων είναι αρκετά μεγάλος. Πιο συγκεκριμένα αν το κόστος υπολογισμού για κάθε υποψήφιο είναι Ο(κ) τότε το συνολικό κόστος είναι Ο(d 2 d-1 ). F k-1 x F 1 μέθοδος. Η τεχνική αυτή δουλεύει επεκτατικά. Τα κ-σύνολα που θα είναι υποψήφια προκύπτουν από τα (κ-1)-σύνολα με την προσθήκη ενός ακόμα συχνού αντικειμένου, διαφορετικού από τα κ-1. Η συγκεκριμένη μέθοδος ενώ μας δίνει όλα τα υποψήφια κ-σύνολα έχει ένα σημαντικό μειονέκτημα. Τα υποψήφια σύνολα μπορεί να παραχθούν παραπάνω από μία φορά. Έτσι παρόλο την βελτίωση από την πρωτόγονη μέθοδος συνεχίζει να παράγει έναν υπολογίσιμο αριθμό από άχρηστα υποψήφια σύνολα. F k-1 x F κ-1 μέθοδος. Και εδώ λειτουργούμε επεκτατικά αλλά με αρκετά διαφορετικό τρόπο. Τα κ-σύνολα που θα είναι υποψήφια προέρχονται από την συγχώνευση δύο κ-1-συνόλων-συχνών- με μια απαραίτητη προϋπόθεση: Τα κ-2 αντικείμενα των δύο προς συγχώνευση συνόλων να είναι πανομοιότυπα. Αυτό σημαίνει ότι θα διαφέρουν μόνο ως προς ένα στοιχείο. Με αυτόν τον τρόπο η συγχώνευσή τους θα αποτελείται από κ διαφορετικά αντικείμενα. Με το πέρας της εφαρμογής της μεθόδου έχουμε πάρει όλα τα πιθανά κ-σύνολα που θα είναι υποψήφια και μάλιστα χωρίς διπλοεγγραφές. Το μοναδικό μειονέκτημα αυτής της μεθόδου είναι ότι χρειάζεται ένας επιπλέον έλεγχος ώστε να πιστοποιείται η ομοιότητα των κ-2 αντικειμένων μεταξύ τους. 17

18 Κεφάλαιο 2 Υλοποίηση του αλγόριθμου apriori βασισμένη στη δομή trie 2.1 Εισαγωγή Όπως αναφέραμε το σημαντικό μειονέκτημα του apriori είναι τα αλλεπάλληλα περάσματα στην βάση και ο σημαντικός αριθμός των υποψήφιων συνόλων που πρέπει να εξεταστούν. Έτσι ένας πρωταρχικός παράγοντας αποδοτικότητας του αλγορίθμου είναι ο τρόπος αποθήκευσης των υποψήφιων συνόλων [47]. Παρακάτω γίνεται παρουσίαση μιας δομής που επιτυγχάνει αρκετά στον τομέα της αποδοτικότητας, του λεγόμενου Trie [48]. 2.2 Αναπαράσταση δομής δεδομένων με την μορφή TRIE Το trie στην μορφή που το χρησιμοποιούμε εδώ, αποτελεί ένα κατευθυνόμενο δέντρο από κόμβους και συνδέσμους όπου κάθε σύνδεσμος που ξεκινά από κάποιον κόμβο έχει επιγραφή. Στην περίπτωση μας η επιγραφή δεν είναι τίποτα άλλο από τον συμβολισμό ενός αντικειμένου. Η ρίζα ορίζεται με βάθος 0, ενώ οι κόμβοι με βάθος κ δείχνουν (μέσω των κατευθυνόμενων συνδέσμων) προς αντικείμενα- κόμβους με βάθος κ+1. Επίσης κάτι σημαντικό είναι ότι ένας κόμβος εκπροσωπεί μια ακολουθία αντικειμένων η οποία προκύπτει από την συνένωση των επιγραφών του μονοπατιού, ξεκινώντας από την ρίζα. Παρακάτω φαίνεται σχηματικά μια μορφή ενός trie A C B F D C G F Αύξουσα Ταξινόμηση ακμών Οι σύνδεσμοι μεταξύ γονέων και παιδιών μπορούν να αποθηκευτούν με πολλαπλούς τρόπους, ωστόσο δύο είναι οι πιο αποδοτικοί: 18

19 Στην πρώτη περίπτωση οι σύνδεσμοι που ξεκινούν από έναν κόμβο αναπαρίστανται από ένα ζεύγος της μορφής (επιγραφή, δείκτης). Τα ζεύγη αυτά αποθηκεύονται σε ένα άνυσμα- λίστα ταξινομημένο με βάση την επιγραφή. Στην δεύτερη περίπτωση αποθηκεύονται μόνο οι δείκτες για κάθε σύνδεσμο σε ένα άνυσμα το οποίο έχει μέγεθος l min -l max. Τα l min, l max είναι η μικρότερη και μεγαλύτερη επιγραφή αντίστοιχα. Έτσι για παράδειγμα στην θέση του ανύσματος ι υπάρχει ο σύνδεσμος με επιγραφή l min +ι Η μορφή trie για τον apriori αλγόριθμο Ο αντικειμενικός στόχος μας είναι ο υπολογισμός της υποστήριξης των υποψήφιων συχνών συνόλων που γεννά ο αλγόριθμος. Ο αποδοτικός τρόπος υπολογισμού περνά μέσα από την αποθήκευση των υποψήφιων σε ένα trie. Πιο συγκεκριμένα η διαδικασία έχει ως εξής: Παίρνουμε τις δοσοληψίες μία προς μία Με βάση την εκάστοτε δοσοληψία διασχίζουμε επαναληπτικά συγκεκριμένα μέρη του trie ώστε να καταλήξουμε στα φύλλα (κόμβοι που δεν έχουν παιδιά) που περιέχονται στην δοσοληψία. Η υποστήριξη αυτών των φύλλων αυξάνεται Είναι φανερό ότι ο τρόπος που θα διασχίσουμε το trie εξαρτάται απόλυτα από την δοσοληψία. Αυτό σημαίνει ότι δεν ακολουθούμε συνδέσμους του δέντρου με επιγραφές που δεν περιέχονται στην δοσοληψία. Όπως αναφέραμε στο προηγούμενο κεφάλαιο ο apriori υλοποιείται μέσα από την επαναληπτική διαδικασία της δημιουργίας αυξανόμενου μήκους υποψήφια σύνολα. Η δημιουργία όμως ενός trie για κάθε επανάληψη είναι μια διαδικασία καθόλου αποδοτική. Για το λόγο αυτό διατηρείται ένα trie από το οποίο αφαιρούμε ή προσθέτουμε στοιχεία. Σε κάθε φάση δημιουργίας υποψηφίων συνόλων, νέα φύλλα προστίθενται. Σε αντίθετη περίπτωση όταν τα υποψήφια αποδειχτούν μη συχνά, φύλλα από το trie αφαιρούνται. Επίσης σημαντικό ρόλο παίζει και η αφαίρεση των αδιέξοδων μονοπατιών. Τέτοια είναι τα μονοπάτια που δεν οδηγούν σε φύλλο, με αποτέλεσμα να μην παίζουν κανένα ρόλο στα επόμενα βήματα του αλγορίθμου. Αδιέξοδα μονοπάτια μπορεί να προκύψουν και στην φάση παραγωγής υποψηφίων συνόλων. Όταν ένα φύλλο δεν μπορεί να επεκταθεί (στον ουσία μιλάμε για maximal frequent itemset) τότε το μονοπάτι του φύλλου είναι αδιέξοδο και φυσικά αφαιρείται. Η αφαίρεση των αδιέξοδων μονοπατιών έχει ευεργετικές επιπτώσεις σε δύο τομείς: Αφαιρώντας συνδέσμους κάνουμε πιο εύκολη και γρήγορη την ανίχνευση στους συνδέσμους ώστε να προχωρήσουμε στο επιθυμητό μονοπάτι Η αφαίρεση συνδέσμων επιτρέπει την μείωση της μνήμης cache που χρειάζεται για την αποθήκευση των λιστών των συνδέσμων. Αποτέλεσμα λιγότερες αποτυχίες στην cache καθώς και βελτίωση της τοπικότητας αναφοράς. 2.3 Στρατηγικές δρομολόγησης στην δομή Trie Παραπάνω θέσαμε ως πρωτεύουσα λειτουργία να διατρέχουμε επαναληπτικά το trie. Η επαναληπτικότητα της λειτουργίας αυτής έγκειται στο εξής: 19

20 Δοθέντος ενός κομματιού t της δοσοληψίας t και ενός κόμβου του trie, πρέπει να ανιχνεύσουμε τους συνδέσμους που αντιστοιχούν σε αντικείμενο μέσα στο κομμάτι. Οι τεχνικές δρομολόγησης επιστρατεύονται ακριβώς γι αυτό τον λόγο, δηλαδή για την εύρεση των συνδέσμων που θα ακολουθηθούν. Πρόκειται για απόφαση που έχει άμεση επίπτωση στην ταχύτητα του αλγορίθμου. Οι τεχνικές που εξετάζονται εδώ είναι: Ανίχνευση συγκεκριμένου αντικειμένου. Η ανίχνευση γίνεται με βάση τους συνδέσμους, ελέγχοντας αν υπάρχει κάποιο αντικείμενο του t που ισούται με την επιγραφή του συνδέσμου. Αυτό σημαίνει ότι σταματάμε την ανίχνευση είτε όταν βρούμε το αντικείμενο είτε όταν τελειώσει το t. Στην χειρότερη περίπτωση χρειαζόμαστε n t συγκρίσεις και αυξήσεις δεικτών. Ανίχνευση συγκεκριμένης επιγραφής. Η ανίχνευση εδώ γίνεται με βάση τα αντικείμενα του t, ελέγχοντας αν υπάρχει σύνδεσμος με επιγραφή πανομοιότυπη του αντικειμένου. Επειδή στα διάφορα t που προκύπτουν από την δοσοληψία είναι δυνατή η επανάληψη αντικειμένου γι αυτό κρατάμε το ίχνος των αντικειμένων που ήδη έχουμε ανιχνεύσει. Το ίχνος αυτό υλοποιείται από ένα άνυσμα λογικών τιμών όπου το αντικείμενο ι εκπροσωπείται στην θέση ι. Έτσι η ανίχνευση για σύνδεσμο με επιγραφή ι γίνεται μόνο αν η τιμή του ανύσματος στην θέση ι είναι αληθής. Βέβαια πρέπει να ειπωθεί ότι αυτή η βελτίωση για αποφυγή διπλοεγγραφών σημαίνει επιβάρυνση στο χρόνο εκτέλεσης λόγω της αρχικοποίησης του ανύσματος με λογικές τιμές. Διασχίζουμε ταυτόχρονα. Πρόκειται για την καλύτερη μέθοδο η οποία και χρησιμοποιείται κατά κόρον [49]. Το κύριο χαρακτηριστικό είναι τα αντικείμενα του t αλλά και οι επιγραφές των συνδέσμων ταξινομούνται. Εδώ λοιπόν επιτυγχάνουμε καλύτερους χρόνους, γραμμικούς πάντα t, αλλά υπάρχει μια επιβάρυνση όσον αφορά την απαραίτητη προεπεξεργασία των δύο συνόλων ( t log t βήματα). 2.4 Παραγωγή υποψήφιων συνόλων Στο αλγόριθμο Apriori σημαντικό ρόλο παίζει ο αριθμός των πραγματικών υποψήφιων συνόλων. Αυτό συνεπάγεται ότι πρέπει να ρίξουμε το ανάλογο βάρος στο κόψιμο κάποιων από τα σύνολα που σχηματίζονται προτού καν γίνουν υποψήφια. Αυτό γίνεται μέσω ελέγχου του συνόλου των υποσυνόλων, αν είναι συχνά ή όχι (Αρχή Apriori). Παρακάτω παρουσιάζουμε δύο τρόπους για να κόβουμε υποψήφια σύνολα: Απλό Κόψιμο. Ελέγχουμε ένα προς ένα όλα τα l-σύνολα που είναι ταυτόχρονα και υποσύνολα ενός εν δυνάμει υποψήφιου l+1-συνόλου. Εάν όλα τα υποσύνολα βρεθούν συχνά τότε το l-σύνολο απλώς γίνεται πραγματικό υποψήφιο (Προσοχή: όχι συχνό!). Στην διαδικασία αυτή προστίθενται δύο παράμετροι που βελτιώνουν την κατάσταση. Πρώτον δεν χρειάζεται να ελέγξουμε υποσύνολα που έχουν προκύψει από την απομάκρυνση του τελευταίου ή του προτελευταίου αντικειμένου. Δεύτερον η όλη διαδικασία σταματά μόλις ένα υποσύνολο βρεθεί μη συχνό (δηλαδή δεν περιέχεται στο trie). Intersection-based κόψιμο. Ένα πρόβλημα που αντιμετωπίζει το απλό κόψιμο είναι οι πολλαπλές επισκέψεις σε ορισμένα κομμάτια του trie. Για να το καταλάβουμε αυτό έστω ότι έχουμε τα συχνά σύνολα 4 αντικειμένων 20

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε. Ψηφιακά Δένδρα Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών τα οποία είναι ακολουθίες συμβάλλων από ένα πεπερασμένο αλφάβητο Ένα στοιχείο γράφεται ως, όπου κάθε. Μπορούμε να

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 20 Huffman codes 1 / 12 Κωδικοποίηση σταθερού μήκους Αν χρησιμοποιηθεί κωδικοποίηση σταθερού μήκους δηλαδή

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Αναζήτηση Δοθέντος ενός προβλήματος με περιγραφή είτε στον χώρο καταστάσεων

Διαβάστε περισσότερα

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η

Διαβάστε περισσότερα

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας Μακεδόνας Ανδρέας Μεταδιδακτορικός Ερευνητής Τμ. Φυσικής, Εργαστήριο Ηλεκτρονικής Ένα απλό ερώτημα Στον κόσμο την πληροφορίας υπάρχει

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 12: Κανόνες Συσχέτισης Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης

Διαβάστε περισσότερα

Ανάλυση Συσχέτισης IΙ

Ανάλυση Συσχέτισης IΙ Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Κεφάλαιο 11 Ένωση Ξένων Συνόλων

Κεφάλαιο 11 Ένωση Ξένων Συνόλων Κεφάλαιο 11 Ένωση Ξένων Συνόλων Περιεχόμενα 11.1 Εισαγωγή... 227 11.2 Εφαρμογή στο Πρόβλημα της Συνεκτικότητας... 228 11.3 Δομή Ξένων Συνόλων με Συνδεδεμένες Λίστες... 229 11.4 Δομή Ξένων Συνόλων με Ανοδικά

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Μέρος 4

Αλγόριθμοι Ταξινόμησης Μέρος 4 Αλγόριθμοι Ταξινόμησης Μέρος 4 Μανόλης Κουμπαράκης Δομές Δεδομένων και Τεχνικές 1 Μέθοδοι Ταξινόμησης Βασισμένοι σε Συγκρίσεις Κλειδιών Οι αλγόριθμοι ταξινόμησης που είδαμε μέχρι τώρα αποφασίζουν πώς να

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining Data mining Εξόρυξη εδοµένων o Association rules mining o Classification o Clustering o Text Mining o Web Mining ιάγραµµα της παρουσίασης Association rule Frequent itemset mining Γνωστοί Αλγόριθµοι Βελτιώσεις

Διαβάστε περισσότερα

Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ

Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ 1 Συναρτήσεις Όταν αναφερόμαστε σε μια συνάρτηση, ουσιαστικά αναφερόμαστε σε μια σχέση ή εξάρτηση. Στα μαθηματικά που θα μας απασχολήσουν, με απλά λόγια, η σχέση

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εισαγωγή στη Σχεδίαση Λογισμικού

Εισαγωγή στη Σχεδίαση Λογισμικού Εισαγωγή στη Σχεδίαση Λογισμικού περιεχόμενα παρουσίασης Τι είναι η σχεδίαση λογισμικού Έννοιες σχεδίασης Δραστηριότητες σχεδίασης Σχεδίαση και υποδείγματα ανάπτυξης λογισμικού σχεδίαση Η σχεδίαση του

Διαβάστε περισσότερα

Ενδεικτικές Ερωτήσεις Θεωρίας

Ενδεικτικές Ερωτήσεις Θεωρίας Ενδεικτικές Ερωτήσεις Θεωρίας Κεφάλαιο 2 1. Τι καλούμε αλγόριθμο; 2. Ποια κριτήρια πρέπει οπωσδήποτε να ικανοποιεί ένας αλγόριθμος; 3. Πώς ονομάζεται μια διαδικασία που δεν περατώνεται μετά από συγκεκριμένο

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Δομές Δεδομένων & Αλγόριθμοι

Δομές Δεδομένων & Αλγόριθμοι Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν

Διαβάστε περισσότερα

Ο Αλγόριθμος FP-Growth

Ο Αλγόριθμος FP-Growth Ο Αλγόριθμος FP-Growth Με λίγα λόγια: Ο αλγόριθμος χρησιμοποιεί μια συμπιεσμένη αναπαράσταση της βάσης των συναλλαγών με τη μορφή ενός FP-δέντρου Το δέντρο μοιάζει με προθεματικό δέντρο - prefix tree (trie)

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test 1 Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου One-Sample t-test 2 Μια σύντομη αναδρομή Στα τέλη του 19 ου αιώνα μια μεγάλη αλλαγή για την επιστήμη ζυμώνονταν στην ζυθοποιία Guinness. Ο William Gosset

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα Αλγόριθμοι και Πολυπλοκότητα Ανάλυση Αλγορίθμων Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ανάλυση Αλγορίθμων Η ανάλυση αλγορίθμων περιλαμβάνει τη διερεύνηση του τρόπου

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Διακριτές Πηγές Πληροφορίας χωρίς μνήμη Ποσότητα πληροφορίας της πηγής Κωδικοποίηση

Διαβάστε περισσότερα

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n. Πρώτο Σύνολο Ασκήσεων 2014-2015 Κατερίνα Ποντζόλκοβα, 5405 Αθανασία Ζαχαριά, 5295 Ερώτημα 1 Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n. Ο αλγόριθμος εύρεσης

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 12/10/2017

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1 Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 2016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 4 ης διάλεξης 4.1. (α) Αποδείξτε ότι αν η h είναι συνεπής, τότε h(n

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 21/10/2016

Διαβάστε περισσότερα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων

Διαβάστε περισσότερα

Υπολογιστικά & Διακριτά Μαθηματικά

Υπολογιστικά & Διακριτά Μαθηματικά Υπολογιστικά & Διακριτά Μαθηματικά Ενότητα 1: Εισαγωγή- Χαρακτηριστικά Παραδείγματα Αλγορίθμων Στεφανίδης Γεώργιος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Κουτσιούμπας Αχιλλέας U. Adamy, C. Ambuehl, R. Anand, T. Erlebach

Κουτσιούμπας Αχιλλέας U. Adamy, C. Ambuehl, R. Anand, T. Erlebach Κουτσιούμπας Αχιλλέας ΕΛΕΓΧΟΣ ΚΛΗΣΕΩΝ ΣΕ ΑΚΤΥΛΙΟ U. Adamy, C. Ambuehl, R. Anand, T. Erlebach ΜΠΛΑ 1 Δομή παρουσίασης Γενικά Ορισμός προβλήματος Σχετιζόμενη δουλειά Εισαγωγικά Αλγόριθμος Παράδειγμα εκτέλεσης

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου ΠΡΟΛΟΓΟΣ Η γραμμική παλινδρόμηση χρησιμοποιείται για την μελέτη των σχέσεων μεταξύ μετρήσιμων μεταβλητών. Γενικότερα, η γραμμική στατιστική συμπερασματολογία αποτελεί ένα ευρύ πεδίο της στατιστικής ανάλυσης

Διαβάστε περισσότερα

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης Σύνοψη Προηγούμενου Πίνακες (Arrays Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς Διαδικαστικά θέματα. Aντικείμενο Μαθήματος. Aντικείμενα, Κλάσεις, Μέθοδοι, Μεταβλητές.

Διαβάστε περισσότερα

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access Κεφάλαιο 2 Χειρισμός πινάκων... 27

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access Κεφάλαιο 2 Χειρισμός πινάκων... 27 Περιεχόμενα Κεφάλαιο 1 Εισαγωγή στην Access... 9 Γνωριμία με την Access... 12 Δημιουργία βάσης δεδομένων... 22 Άνοιγμα και κλείσιμο βάσης δεδομένων... 24 Ερωτήσεις ανακεφαλαίωσης... 25 Πρακτική εξάσκηση...

Διαβάστε περισσότερα

Δομές Δεδομένων. Ενότητα 11: Τεχνικές Κατακερματισμού. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής.

Δομές Δεδομένων. Ενότητα 11: Τεχνικές Κατακερματισμού. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής. Ενότητα 11: Τεχνικές Κατακερματισμού Καθηγήτρια Μαρία Σατρατζέμη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Ενότητα 9 (Union-Find) ΗΥ240 - Παναγιώτα Φατούρου 1 Έστω ότι S 1,, S k είναι ξένα υποσύνολα ενός συνόλου U, δηλαδή ισχύει ότι S i S j =, για κάθε i,j µε i j και S 1 S k = U. Λειτουργίες q MakeSet(X): επιστρέφει

Διαβάστε περισσότερα

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear

Διαβάστε περισσότερα

Περιεχόμενα. Περιεχόμενα

Περιεχόμενα. Περιεχόμενα Περιεχόμενα xv Περιεχόμενα 1 Αρχές της Java... 1 1.1 Προκαταρκτικά: Κλάσεις, Τύποι και Αντικείμενα... 2 1.1.1 Βασικοί Τύποι... 5 1.1.2 Αντικείμενα... 7 1.1.3 Τύποι Enum... 14 1.2 Μέθοδοι... 15 1.3 Εκφράσεις...

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 19 Hashing - Κατακερματισμός 1 / 23 Πίνακες απευθείας πρόσβασης (Direct Access Tables) Οι πίνακες απευθείας

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: μέθοδοι μονοδιάστατης ελαχιστοποίησης Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 6 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

Εφαρμοσμένη Βελτιστοποίηση

Εφαρμοσμένη Βελτιστοποίηση Εφαρμοσμένη Βελτιστοποίηση Ενότητα 1: Το πρόβλημα της βελτιστοποίησης Καθηγητής Αντώνιος Αλεξανδρίδης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σημείωμα Αδειοδότησης Το

Διαβάστε περισσότερα

21. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ 4 - ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΜΕ ΤΟ BYOB BYOB. Αλγόριθμος Διαδικασία Παράμετροι

21. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ 4 - ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΜΕ ΤΟ BYOB BYOB. Αλγόριθμος Διαδικασία Παράμετροι 21. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ 4 - ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΜΕ ΤΟ BYOB BYOB Αλγόριθμος Διαδικασία Παράμετροι Τι είναι Αλγόριθμος; Οι οδηγίες που δίνουμε με λογική σειρά, ώστε να εκτελέσουμε μια διαδικασία ή να επιλύσουμε ένα

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Κατευθυνόμενα γραφήματα. Μαθηματικά Πληροφορικής 6ο Μάθημα. Βρόγχοι. Μη κατευθυνόμενα γραφήματα. Ορισμός

Κατευθυνόμενα γραφήματα. Μαθηματικά Πληροφορικής 6ο Μάθημα. Βρόγχοι. Μη κατευθυνόμενα γραφήματα. Ορισμός Κατευθυνόμενα γραφήματα Μαθηματικά Πληροφορικής 6ο Μάθημα Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πανεπιστήμιο Αθηνών Κατευθυνόμενο γράφημα G είναι ένα ζεύγος (V, E ) όπου V πεπερασμένο σύνολο του οποίου

Διαβάστε περισσότερα

Θέματα Μεταγλωττιστών

Θέματα Μεταγλωττιστών Γιώργος Δημητρίου Ενότητα 7 η : Περιοχές: Εναλλακτική Μέθοδος Ανάλυσης Ροής Δεδομένων Περιοχές (Regions) Σε κάποιες περιπτώσεις βρόχων η ανάλυση ροής δεδομένων με τον επαναληπτικό αλγόριθμο συγκλίνει αργά

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ. 1 ο ΚΕΦΑΛΑΙΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ. 1 ο ΚΕΦΑΛΑΙΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ 1 ο ΚΕΦΑΛΑΙΟ 1) Τι είναι πρόβλημα (σελ. 3) 2) Τι είναι δεδομένο, πληροφορία, επεξεργασία δεδομένων (σελ. 8) 3) Τι είναι δομή ενός προβλήματος (σελ. 8)

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Βασικά ζητήματα μιας βάσης δεδομένων

Βασικά ζητήματα μιας βάσης δεδομένων Τριαντάφυλλος Πριμηκύρης* Βασικά ζητήματα μιας βάσης δεδομένων Τι είναι μια βάση δεδομένων; Ας ξεκινήσουμε με κάτι πολύ απλό! Όλοι έχετε έναν τηλεφωνικό κατάλογο. Ο κατάλογος αυτός είναι μια χειροκίνητη

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον Δανάη Κούτρα Eργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Εθνικό Μετσόβιο Πολυτεχνείο Θέματα Σκοπός της διπλωματικής

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Δημήτρης Πλεξουσάκης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Λογική Δημήτρης Πλεξουσάκης 2ο μέρος σημειώσεων: Συστήματα Αποδείξεων για τον ΠΛ, Μορφολογική Παραγωγή, Κατασκευή Μοντέλων Τμήμα Επιστήμης Υπολογιστών Άδειες Χρήσης

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 Λύσεις 2η σειράς ασκήσεων Προθεσμία παράδοσης: 18 Μαίου 2015 Πρόβλημα 1. (14

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Γαροφαλάκης Ιωάννης Πολυτεχνική Σχολή Τμήμα Μηχ/κών Η/Υ & Πληροφορικής Περιεχόμενα ενότητας Εισαγωγή Συλλογή

Διαβάστε περισσότερα

HY Λογική Διδάσκων: Δ. Πλεξουσάκης

HY Λογική Διδάσκων: Δ. Πλεξουσάκης HY-180 - Λογική Διδάσκων: Δ. Πλεξουσάκης Πληρότητα της μεθόδου επίλυσης Λήμμα: Αν κάθε μέλος ενός συνόλου όρων περιέχει ένα αρνητικό γράμμα, τότε το σύνολο είναι ικανοποιήσιμο. Άρα για να είναι μη-ικανοποιήσιμο,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΕΠΛ 451 Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό I. Στόχος ΑΣΚΗΣΗ 1 Ανάλυση συσχετίσεων ανάμεσα σε προϊόντα Διδάσκων: Γιώργος Πάλλης Υπεύθυνος Εργασίας: Παύλος Αντωνίου

Διαβάστε περισσότερα

Παράδειγμα 2. Λύση & Επεξηγήσεις. Τέλος_επανάληψης Εμφάνισε "Ναι" Τέλος Α2

Παράδειγμα 2. Λύση & Επεξηγήσεις. Τέλος_επανάληψης Εμφάνισε Ναι Τέλος Α2 Διδακτική πρόταση ΕΝΟΤΗΤΑ 2η, Θέματα Θεωρητικής Επιστήμης των Υπολογιστών Κεφάλαιο 2.2. Παράγραφος 2.2.7.4 Εντολές Όσο επανάλαβε και Μέχρις_ότου Η διαπραγμάτευση των εντολών επανάληψης είναι σημαντικό

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά.

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. AeppAcademy.com facebook.com/aeppacademy Γεια. Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. Καλή Ανάγνωση & Καλή Επιτυχία

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Media Monitoring. Ενότητα 2: Η ανάλυση περιεχομένου. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ

Media Monitoring. Ενότητα 2: Η ανάλυση περιεχομένου. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ Media Monitoring Ενότητα 2: Η ανάλυση περιεχομένου Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ Ορισμός Μετατρέπει υλικό ποιοτικής κυρίως φύσης σε μορφή ποσοτικών/ποιοτικών δεδομένων Μπορεί να οριστεί ως

Διαβάστε περισσότερα

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή Στην ενότητα αυτή θα µελετηθούν τα εξής επιµέρους θέµατα: Εισαγωγή στις έννοιες Αλγόριθµοι και Πολυπλοκότητα, Οργάνωση Δεδοµένων και Δοµές Δεδοµένων Χρήσιµοι µαθηµατικοί

Διαβάστε περισσότερα

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης Δένδρα στα οποία κάθε κόμβος μπορεί να αποθηκεύει ένα ή περισσότερα κλειδιά. Κόμβος με d διακλαδώσεις : k 1 k 2 k 3 k 4 d-1 διατεταγμένα κλειδιά d διατεταγμένα παιδιά

Διαβάστε περισσότερα

Πληρότητα της μεθόδου επίλυσης

Πληρότητα της μεθόδου επίλυσης Πληρότητα της μεθόδου επίλυσης Λήμμα: Αν κάθε μέλος ενός συνόλου όρων περιέχει ένα αρνητικό γράμμα, τότε το σύνολο είναι ικανοποιήσιμο. Άρα για να είναι μη-ικανοποιήσιμο, θα πρέπει να περιέχει τουλάχιστον

Διαβάστε περισσότερα

Θεωρήστε ένα puzzle (παιχνίδι σπαζοκεφαλιάς) με την ακόλουθη αρχική διαμόρφωση : b b b w w w e

Θεωρήστε ένα puzzle (παιχνίδι σπαζοκεφαλιάς) με την ακόλουθη αρχική διαμόρφωση : b b b w w w e Άσκηση 1 Θεωρήστε ένα puzzle (παιχνίδι σπαζοκεφαλιάς) με την ακόλουθη αρχική διαμόρφωση : b b b w w w e Υπάρχουν τρία μαύρα τετραγωνάκια (b), τρία άσπρα (w) και ένα κενό (e). Η σπαζοκεφαλιά έχει τις ακόλουθες

Διαβάστε περισσότερα

Δομές δεδομένων. Ενότητα 8: Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Παναγιώτα Φατούρου Τμήμα Επιστήμης Υπολογιστών

Δομές δεδομένων. Ενότητα 8: Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Παναγιώτα Φατούρου Τμήμα Επιστήμης Υπολογιστών ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Δομές δεδομένων Ενότητα 8: Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find) Παναγιώτα Φατούρου Τμήμα Επιστήμης Υπολογιστών Ενότητα 8 Ξένα Σύνολα

Διαβάστε περισσότερα

ΗΥ180: Λογική Διδάσκων: Δημήτρης Πλεξουσάκης. Φροντιστήριο 8 Επίλυση για Horn Clauses Λογικός Προγραμματισμός Τετάρτη 9 Μαΐου 2012

ΗΥ180: Λογική Διδάσκων: Δημήτρης Πλεξουσάκης. Φροντιστήριο 8 Επίλυση για Horn Clauses Λογικός Προγραμματισμός Τετάρτη 9 Μαΐου 2012 ΗΥ180: Λογική Διδάσκων: Δημήτρης Πλεξουσάκης Φροντιστήριο 8 Επίλυση για Horn Clauses Λογικός Προγραμματισμός Τετάρτη 9 Μαΐου 2012 Πληρότητα της μεθόδου επίλυσης Λήμμα: Αν κάθε μέλος ενός συνόλου όρων περιέχει

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ 1.1 Να δοθεί ο ορισμός του προβλήματος καθώς και τρία παραδείγματα

Διαβάστε περισσότερα

Οι δυναμικές δομές δεδομένων στην ΑΕΠΠ

Οι δυναμικές δομές δεδομένων στην ΑΕΠΠ Καθηγητής Πληροφορικής Απαγορεύεται η αναπαραγωγή των σημειώσεων χωρίς αναφορά στην πηγή Οι σημειώσεις, αν και βασίζονται στο διδακτικό πακέτο, αποτελούν προσωπική θεώρηση της σχετικής ύλης και όχι επίσημο

Διαβάστε περισσότερα

ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ Κολώνια Αγγελική Στείρου

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 1 Εισαγωγή 1 / 14 Δομές Δεδομένων και Αλγόριθμοι Δομή Δεδομένων Δομή δεδομένων είναι ένα σύνολο αποθηκευμένων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Τελικές εξετάσεις Πέμπτη 27 Ιουνίου 2013 10:003:00 Έστω το πάζλ των οκτώ πλακιδίων (8-puzzle)

Διαβάστε περισσότερα

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ 2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ Προκειμένου να επιτευχθεί η «ακριβής περιγραφή» ενός αλγορίθμου, χρησιμοποιείται κάποια γλώσσα που μπορεί να περιγράφει σειρές ενεργειών με τρόπο αυστηρό,

Διαβάστε περισσότερα

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ 1 η Διάλεξη: Αναδρομή στον Μαθηματικό Προγραμματισμό 2019, Πολυτεχνική Σχολή Εργαστήριο Συστημάτων Σχεδιασμού, Παραγωγής και Λειτουργιών Περιεχόμενα 1. Γραμμικός Προγραμματισμός

Διαβάστε περισσότερα

Πληροφορική 2. Δομές δεδομένων και αρχείων

Πληροφορική 2. Δομές δεδομένων και αρχείων Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Επίλυση προβλημάτων με αναζήτηση

Επίλυση προβλημάτων με αναζήτηση Επίλυση προβλημάτων με αναζήτηση Αναζήτηση σημαίνει την εύρεση μιας λύσης (τελικής κατάστασης) ενός προβλήματος διά της συνεχούς δημιουργίας (νέων) καταστάσεων με την εφαρμογή των διαθέσιμων ενεργειών

Διαβάστε περισσότερα