ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ. Μοντέλο 3 Μ οοποοιοης. Αξιολόγηση αποτελεσμάτων συσταδοποίησης. Μπαμπαλιάρης Αθανάσιος.

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ. Μοντέλο 3 Μ οοποοιοης. Αξιολόγηση αποτελεσμάτων συσταδοποίησης. Μπαμπαλιάρης Αθανάσιος."

Transcript

1 ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΊΔΡΥΜΑ ΚΑΒΑΛΑΣ Σχολή Διοίκησης & Οικονομίας ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ Νέα δεδομένα Μοντέλο 3 Μ οοποοιοης Σύνολο δεδομένων δοκιμής Αξιολόγηση αποτελεσμάτων συσταδοποίησης Ακρίβεια μοντέλου κ α ιη γο ριοπ οιιο η ς ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Μπαμπαλιάρης Αθανάσιος Ιανουάριος 2011 ΕΠΟΠΤΗΣ ΚΑΘΗΓΗΤΗΣ Δρ. Γ κούμας Στέφανος Επίκουρος Καθηγητής

2

3 Περιεχόμενα 3 Πρόλογος 5 Σκοπός της πτυχιακής 7 Εισαγωγή 8 Κεφάλαιο 1 Η διαδικασία εξόρυξης γνώσης 1.1 Εισαγωγή στην εξόρυξη γνώσης 1.2 Εξόρυξη γνώσης και δεδομένων 1.3 Η ανακάλυψη γνώσης από βάσεις δεδομένων (Κϋϋ) σε εξόρυξη δεδομένων 1.4 Η διαδικασία εξόρυξης δεδομένων 1.5 Απαιτήσεις εξόρυξης δεδομένων 1.6 Κατηγοριοποίηση των μεθόδων εξόρυξης δεδομένων 1.7 Επισκόπηση των εργασιών εξόρυξης δεδομένων Κατηγοριοποίηση Συσταδοποίηση Κανόνες συσχέτισης Κεφάλαιο 2 Κατηνοριοποίηση 2.1 Εισαγωγή στη κατηγοριοποίηση Bayesian κατηγοριοποίηση Naïve Bayesian Κατηγοριοποιητής Bayesian Balief Networks Δέντρα απόφασης Αλγόριθμος ID SLIQ C SPRINT Νευρωνικά δίκτυα Κατηγοριοποίηση με βάση τα νευρωνίκα δίκτυα Κατηγοριοποίηση με βάση την τεχνική των Κοντινότερων Γειτόνων Ασαφής κατηγοριοποίηση Παραγωγή κανόνων κατηγοριοποίησης 44 Κεφάλαιο 3 Συσταδιοποίηση 3.1 Εισαγωγή στη Συσταδοποίση Μέθοδοι συσταδοποίησης Κατηγοριοποίηση με βάση τη μέθοδο συσταδοποίησης 49 Σελίδα 3 από σχέση με την

4 3.2.2 Κατηγοριοποίση με τον αλγοριθμο K-Means Διαιρετικοί (Partitional) αλγόριθμοι Αλγόριθμος K-Means Εκλέπτυση σημείων για τον αλγόριθμο K-Means RAM CLARANS Ιεραρχικοί αλγόριθμοι συσταδοποίησης Cure Birch CHAMELEON Chamelom Βασισμένη στην πυκνότητα συσταδοποίηση (Density-based clustering) Βασισμένοι σε πλέγμα (Grid-based) αλγόριθμοι STING Wave Cluster Συσταδοποίηση υπο-χώρων CLIQUE PROCLUS Αλγόριθμοι συσταδοποίησης για δεδομένα με λεκτικές τιμές ROCK Αλγόριθμοι βασισμένα στο K-Means για λεκτικά δεδομένα Ασαφής συσταδοποίηση Kohonen Net συσταδοποίηση Κλιμάκωση και στάθμιση 76 Κεφάλαιο 4 Κανόνες Συσχέτισης 4.1 Εισαγωγή στους κανόνες συσχέτισης Αλγόριθμος Apriori Σύγκριση αλγορίθμων παραγωγής κανόνων συσχέτισης Ποσοτικοί κανόνες συσχέτισης 97 Συμπεράσματα/μελλοντική εργασία 104 Βιβλιογραφία 105 Σελίδα 4 από 105

5 Πρόλογος Τις τελευταίες δεκαετίες έχουν παραχθεί ασύλληπτα μεγάλες ποσότητες δεδομένων από διάφορες διεργασίες που έχουν οργανωθεί με χρήση υπολογιστικών συστημάτων όπως, συστήματα δοσοληψιών που λειτουργούν επί πολλά χρόνια όπως τραπεζικές συναλλαγές, τηλεφωνικές κλήσεις, αγορές με πιστωτική κάρτα και διαδικασίες που συσσωρεύουν μεγάλα ψηφιακά αρχεία όπως φωτογραφίες από δορυφόρους και πειραματικά δεδομένα. Οι δοσοληψίες αυτές καταγράφονται και έτσι έχουν δημιουργηθεί τεράστιες βάσεις δεδομένων (κυρίως σε σχεσιακή μορφή) οι οποίες στην μεγάλη πλειοψηφία των περιπτώσεων μένουν αδρανείς. Οι μόνες χρήσεις που τους γίνονται είναι είτε για σχεσιακού τύπου ερωτήσεις με στόχο επιλογή μικρού υποσύνολου των δεδομένων που ικανοποιούν κάποια πολύ συγκεκριμένα κριτήρια που ο χρήστης επιλεγεί, είτε για στατιστική επεξεργασία κυρίως με την μορφή αθροιστικών συναρτήσεων που εφαρμόζονται σε πολλές διαστάσεις (κυρίως στις βάσεις δεδομένων). Και στις δυο παραπάνω περιπτώσεις ο χρήστης έχει γνώση του στόχου των ερωτήσεων, πράγμα που υπονοεί ότι ο χρήστης γνωρίζει τη δομή και την σημασία των δεδομένων και των τιμών που εμφανίζονται. Από την άλλη μεριά είναι πολύ πιθανόν στις τεράστιες αυτές βάσεις δεδομένων να υπάρχει «κρυμμένη γνώση», με τη μορφή συσχετίσεων, εξαρτήσεων και ομαδοποιήσεων, που δεν είναι εκ των πρότερων γνωστή αλλά που μπορεί να είναι πολύ χρήσιμη στους χρηστές. Αυτό που λείπει είναι η «μη επιβλεπόμενη ανάκτηση γνώσης», η αλλιώς η εφαρμογή αλγορίθμων στα δεδομένα μας για την ανακάλυψη και την εξαγωγή της κρυμμένης γνώσης που προαναφέρθηκε. Σελίδα 5 από 105

6 Ο χώρος της εξόρυξης δεδομένων ήρθε να καλύψει ακριβώς αυτήν την απαίτηση της παραπέρα επεξεργασίας αυτών των αποθηκών δεδομένων. Η περιοχή αυτή γνώρισε με γαλή ανάπτυξη, ο τζίρος τα τελευταία χρόνια στην παγκόσμια αγορά είναι της τάξης των δισεκατομμυρίων ευρώ, καθώς αναπτύχτηκε μεγάλη ερευνητική αλλά και βιομηχανική δραστηριότητα στον χώρο αυτό. Ήδη γίνονται αρκετά διεθνή συνέδρια σε ετήσια βάση και εκδίδονται δυο διεθνή περιοδικά στο χώρο. Ακόμα οι απαιτήσεις των οργανισμών προκάλεσαν νέες απαιτήσεις σε ότι αφορά την ανάλυση δεδομένων και συνέλαβαν στην ανάπτυξη της βιομηχανίας λογισμικού, με την δημιουργία εργαλείων για εξόρυξη γνώσης. Τα εργαλεία αυτά είναι είτε γενικού σκοπού, είτε προσαρμοσμένα στις απαιτήσεις συγκεκριμένων περιοχών εφαρμογών. Η εξόρυξη δεδομένων έχει εισήχθη και διδάσκετε ήδη σε αρκετά ΑΤΕΙ και ΑΕΙ στην Ελλάδα σε προπτυχιακό και μεταπτυχιακό επίπεδο. Σελίδα 6 από 105

7 Σκοπός της πτυχιακής εργασίας Η πτυχιακή αυτή εργασία αποσκοπεί στο να δώσει μια σύντομη, αλλά περιεκτική «μάτια» στις τεχνικές και τους αλγορίθμους που χρησιμοποιούνται για την εξαγωγή γνώσης από τις βάσεις δεδομένων, με την ελπίδα πως θα μπορεί μια μέρα να χρησιμοποιεί σαν παράδειγμα και οδηγός-βοήθημα από τους μελλοντικούς συνάδελφους-φοιτητές του τμήματος διαχείρισης πληροφοριών. Σελίδα 7 από 105

8 Εισαγωγή Στην πτυχιακή αυτή εργασία θα δούμε τις βασικές τεχνικές και αλγορίθμους εξόρυξης δεδομένων, ειδικότερα θα δούμε τις βασικές έννοιες της διαδικασίας εξόρυξης δεδομένων καθώς και μια ανασκόπηση των τεχνικών και των προσεγγίσεων της διαδικασίας κατηγοριοποίησης. Ακόμα θα εμβαθύνουμε στις βασικές έννοιες της διαδικασίας συσταδοποίησης συγκρίνοντας τους κυριότερους αλγορίθμους αυτής της διαδικασίας και θα δούμε το ρολό της διαδικασίας εξαγωγής κανόνων συσχέτισης στην συνολική διαδικασία εξόρυξης δεδομένων, παρουσιάζοντας τις προσεγγίσεις και τις τεχνικές που έχουν προταθεί στη βιβλιογραφία. Σελίδα 8 από 105

9 1o ΚΕΦΑΛΑΙΟ Η Διαδικασία Εξόρυξης Γνώσης 1.1 Εισαγωγή στην εξόρυξη γνώσης Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, των μηχανών γνώσης, της στατιστικής, καθώς επίσης και ως μία σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Οι δικτυακές εφαρμογές που διαχειρίζονται μεγάλες αποθήκες δεδομένων έχουν αρχίσει να κάνουν χρήση διαφόρων τεχνικών εξόρυξης δεδομένων, με σκοπό τη βελτίωση της ποιότητας των παρεχόμενων υπηρεσιών μέσω της μελέτης της συμπεριφοράς των πελατών και της εξαγωγής χρήσιμων συμπερασμάτων από αυτήν. Η τελευταία δεκαετία έχει επιφέρει μια αλματώδη αύξηση στην παραγωγή και συλλογή δεδομένων. Η πρόοδος στην τεχνολογία των βάσεων δεδομένων μας παρέχει νέες τεχνικές για την αποδοτική και αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Κάθε χρόνο παράγονται τεράστιοι όγκοι δεδομένων (1-2 exa-bytes) από εταιρίες και πανεπιστήμια τα οποία αποθηκεύονται σε μεγάλες βάσεις δεδομένων. Επίσης η δυνατότητα ανάλυσης και ερμηνείας των συνόλων δεδομένων, και η εξαγωγή «χρήσιμης» γνώσης από αυτά έχει ξεπεράσει κάθε όριο και η ανάγκη για μία νέα γενιά εργαλείων και τεχνικών για ευφυή ανάλυση βάσεων δεδομένων έχει δημιουργηθεί. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές (τεχνητή νοημοσύνη, στατιστική, αποθήκες δεδομένων, διαδραστική ανάλυση και επεξεργασία, έμπειρα συστήματα και οπτικοποίηση δεδομένων) και ένας νέος ερευνητικός τομέας δημιουργείται, γνωστός ως εξόρυξη δεδομένων και γνώσης (Data and Knowledge Mining). Σελίδα 9 από 105

10 1.2 Εξόρυξη γνώσης και δεδομένων Η ανακάλυψη γνώσης από βάσεις δεδομένων (Knowledge Discovery in Databases - KDD) αναφέρεται στη διεργασία εξόρυξης γνώσης από τις μεγάλες αποθήκες δεδομένων. Ο όρος εξόρυξη δεδομένων χρησιμοποιείται ως συνώνυμο της ανακάλυψης γνώσης από βάσεις δεδομένων, καθώς επίσης και για αναφορά στις πραγματικές τεχνικές που χρησιμοποιούνται για την ανάλυση και την εξαγωγή της από διάφορα σύνολα δεδομένων. Για να διαφοροποιηθούμε μεταξύ της διαδικασίας και των εργαλείων, θα χρησιμοποιήσουμε τον πρώτο όρο, KDD, για να περιγράψουμε ολόκληρη τη διαδικασία ανάλυσης ενός συνόλου δεδομένων, και το δεύτερο όρο, την εξόρυξη δεδομένων, για να αναφερθούμε κυρίως στις μεθόδους και τις τεχνικές που χρησιμοποιούνται στη διαδικασία ανάλυσης. Πολλοί ερευνητές θεωρούν τον όρο εξόρυξη δεδομένων μη αντιπροσωπευτικό της διαδικασίας που αντιπροσωπεύει, υποστηρίζοντας ότι ο όρος εξόρυξη γνώσης θα ήταν μια πιο κατάλληλη περιγραφή Εντούτοις, ένας τέτοιος όρος μπορεί να μην δίνει έμφαση στην ανάλυση και την εξαγωγή των προτύπων από μεγάλα σύνολα δεδομένων. ο όρος εξόρυξη δεδομένων (Data Mining) είναι αυτός που έχει επικρατήσει και χαρακτηρίζει τη διαδικασία της εύρεσης δομών γνώσης οι οποίες περιγράφουν με ακρίβεια μεγάλα σύνολα πρωτογενών δεδομένων. Οι δομές αυτές αναδεικνύουν γνώση (συσχετίσεις ή κανόνες) που είναι κρυμμένοι μέσα στα δεδομένα και δεν μπορούν να εξαχθούν από τον άνθρωπο-χρήστη της βάσης με «γυμνό» μάτι. Οι προκύπτουσες δομές είναι πλούσιες σε σημασιολογία και εκμεταλλεύονται πιθανές κοινές ιδιότητες των πρωτογενών δεδομένων. Στα πλαίσια αυτού του βιβλίου θα χρησιμοποιούμε τον όρο εξόρυξη δεδομένων και γνώσης εναλλακτικά. Σελίδα 10 από 105

11 1.3 Η ανακάλυψη γνώσης από βάσεις δεδομένων (KDD) σε σχέση με την εξόρυξη δεδομένων. Η ανακάλυψη γνώσης από μία βάση δεδομένων (KDD) αναφέρεται σε ολόκληρη τη διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων. Ένας γενικός ορισμός, που παρουσιάζει με περισσότερη σαφήνεια την έννοια του όρου KDD δόθηκε από τους Frawley, Piatesky-Shaphiro & Matheus (1991) [FPSU96], σύμφωνα με τον οποίο: «KDD είναι η ντετερμινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών προτύπων στα δεδομένα». Για την κατανόηση του παραπάνω ορισμού, θα εξετάσουμε λεπτομερώς τις βασικές έννοιες των όρων στους οποίους είναι βασισμένος [FPSU96]: 1. Τα δεδομένα περιγράφουν οντότητες ή συσχετίσεις του πραγματικού κόσμου, F. Παραδείγματος χάριν θα μπορούσε να είναι ένα σύνολο εγγραφών που αναφέρονται στις συναλλαγές τραπεζών, οι οποίες να περιέχουν τις τιμές τριών ιδιοτήτων (π.χ. τμήμα, εισόδημα, κατάσταση δανείου). 2. Ένα πρότυπο είναι μια έκφραση Ε σε μια γλώσσα L η οποία περιγράφει ένα υποσύνολο δεδομένων F cf εκμεταλλευόμενο κοινές ιδιότητες των δεδομένων του. Σε αυτή την περίπτωση το πρότυπο θεωρείται υποσύνολο του F και αφαίρεση (abstraction) του F. Παραδείγματος χάριν, ο κανόνας: «Εάν οι τηλεφωνικοί συνδρομητές έχουν income > $t λ age[av α2], δηλαδή εισόδημα μεγαλύτερο από μία τιμή t και η ηλικία τους βρίσκεται στο διάστημα τιμών [a,, a,], τότε ανταποκρίνονται στη νέα προσφορά υπηρεσιών». Σελίδα 11 από 105

12 3. Η διαδικασία Κϋϋ είναι μια διαδικασία πολλαπλών βημάτων, η οποία περιλαμβάνει την προ-επεξεργασία των δεδομένων, την αναζήτηση των προτύπων και την αξιολόγηση της εξαγόμενης γνώσης. 4 Εγκυρότητα. Το εξαγόμενο πρότυπο θα πρέπει να είναι συνεπές σε νέα δεδομένα με κάποιο βαθμό βεβαιότητας. Το ζήτημα της εγκυρότητας αποτελεί ένα από τα βασικά προβλήματα και αντικείμενο έρευνας στην εξόρυξη δεδομένων. 5 Πιθανά χρήσιμο. Η εξαγωγή των προτύπων θα πρέπει να ακολουθείται από μερικές χρήσιμες διεργασίες όπως η αξιολόγηση τους από κάποιες συναρτήσεις χρησιμότητας. Επίσης, θα ήταν χρήσιμο να εμπλουτιστεί η σημασιολογία τους, διατηρώντας όσο το δυνατόν περισσότερη γνώση από τα αρχικά δεδομένα η οποία μπορεί να φανεί χρήσιμη για τη λήψη αποφάσεων. Παραδείγματος χάριν, σε περίπτωση μίας βάσης δεδομένων που αφορά σε δάνεια, σαν χρήσιμη διαδικασία θα μπορούσε να θεωρηθεί αυτή που θα δίνει μια ένδειξη της αναμενόμενης αύξησης στα κέρδη. Συνδέεται επίσης με τον ακόλουθα κανόνα απόφασης: «Εάν έσοδα < $ΐ, τότε ο πελάτης δεν μπορεί να πάρει δάνειο». 6 Τελικά κατανοητό. Ο στόχος της εξόρυξης γνώσης είναι να προσδιοριστούν τα πρότυπα και να γίνουν κατανοητά, ώστε να μπορούν να οδηγήσουν ακόμη και τους μη ειδικούς σε χρήσιμα συμπεράσματα και αποφάσεις. Η διαδικασία Κϋϋ είναι μια διαλογική και επαναληπτική διαδικασία που αποτελείται από μια σειρά από τα ακόλουθα βήματα (Σχήμα 1) 1) Την ανάπτυξη και κατανόηση της περιοχής της εφαρμογής, της σχετικά προγενέστερης γνώσης του εξέταση τομέα και τους στόχους του τελικού χρήστη. Σελίδα 12 από 105

13 2) Την ολοκλήρωση των δεδομένων. Υπάρχουν διαφορετικά είδη αποθηκών πληροφοριών που μπορούν να χρησιμοποιηθούν στη διαδικασία εξόρυξης γνώσης. Κατά συνέπεια, οι πολλαπλές πηγές δεδομένων μπορούν να συνδυαστούν καθορίζοντας το σύνολο στο οποίο τελικά η διαδικασία εξόρυξης πρόκειται να εφαρμοστεί. 3) Τη δημιουργία του στόχων-συνόλου δεδομένων. Επιλογή του συνόλου δεδομένων (δηλαδή μεταβλητές, δείγματα δεδομένων) στο οποίο η διαδικασία εξόρυξης πρόκειται να εκτελεσθεί. 4) Τον καθαρισμό και την προ-επεξεργασία δεδομένων. Αυτό το βήμα περιλαμβάνει βασικές διαδικασίες όπως η αφαίρεση του θορύβου ή των outliers, η συλλογή των απαραίτητων πληροφοριών για τη διαμόρφωση ή τη μέτρηση του θορύβου, η απόφαση σχετικά με τις στρατηγικές διαχείρισης των ελλειπόντων πεδίων δεδομένων. 5) Τον μετασχηματισμό των δεδομένων. Τα δεδομένα μετασχηματίζονται ή παγιώνονται σε μορφές κατάλληλες για εξόρυξη. Χρήση των μεθόδων μείωσης διαστάσεων ή μετασχηματισμού για τη μείωση του αριθμού των υπό εξέταση μεταβλητών ή την εύρεση κατάλληλης αντιπροσώπευσης των δεδομένων χωρίς μεταβλητές. 6) Την επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων. Σε αυτό το βήμα αποφασίζουμε το στόχο της διαδικασίας KDD, επιλέγοντας τους στόχους εξόρυξης δεδομένων που θέλουμε να επιτύχουμε. Επίσης, επιλέγονται οι μέθοδοι που θα χρησιμοποιηθούν. Αυτό περιλαμβάνει την επιλογή του κατάλληλου μοντέλου και παραμέτρων (π.χ. κατηγορικό ή αριθμητικό μοντέλο δεδομένων). Επίσης η μέθοδος εξόρυξης δεδομένων πρέπει να αντιστοιχηθεί με τις απαιτήσεις και τα γενικά κριτήρια της διαδικασίας KDD. Σελίδα 13 από 105

14 7)Την εξόρυξη δεδομένων. Εφαρμόζοντας ευφυείς μεθόδους, ψάχνουμε για ενδιαφέροντα πρότυπα γνώσης. Τα πρότυπα θα μπορούσαν να είναι μια συγκεκριμένης αντιπροσωπευτικής μορφής ή ενός συνόλου τέτοιων αντιπροσωπεύσεων, όπως κανόνες κατηγοριοποίησης (classification rules), δέντρα, παλινδρόμηση, συσταδοποίηση (clustering) κ.λπ. Η απόδοση και τα αποτελέσματα της μεθόδου εξόρυξης δεδομένων εξαρτώνται από τα προηγούμενα βήματα. ΣΧΗΜΑ 1. Τα βήματα της διαδικασίας KDD. Αξιολόγηση προτύπων Εξόρυξη γνώσης Μετασχηματισμός δεδομένων < 5 I Πρότυπα Γνώση Καθαρισμός δεδομένων & προεπεξεργασία, Μετασχηματισμένα * δεδομένα Επιλογή ίπεξεργασμένα δεδομένα ν Στοχευομενα 4 δεδομένα Αποθήκη δεδομένων Βάση δεδομένων Αρχεία Σελίδα 14 από 105

15 8) Την αξιολόγηση των προτύπων. Τα εξαγόμενα πρότυπα αξιολογούνται με κάποια μέτρα, προκειμένου να προσδιοριστούν τα πρότυπα τα οποία αντιπροσωπεύουν τη γνώση, δηλαδή τα αληθινά ενδιαφέροντα πρότυπα. 9) Την σταθεροποίηση και παρουσίαση της γνώσης. Σε αυτό το βήμα, η εξορυγμένη γνώση ενσωματώνεται στο σύστημα ή απλά την απεικόνιση μας και κάποιες τεχνικές αντιπροσώπευσης γνώσης χρησιμοποιούνται για να παρουσιάσουν την εξορυγμένη γνώση στο χρήστη. Επίσης, ελέγχουμε για επίλυση τυχών συγκρούσεων με προηγούμενη εξορυγμένη γνώση. Η εξόρυξη δεδομένων ως βήμα της διαδικασίας Κϋϋ ενδιαφέρεται κυρίως για τις μεθοδολογίες και τις τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από τις μεγάλες αποθήκες δεδομένων. Αφ' ετέρου η διαδικασία Κϋϋ περιλαμβάνει την αξιολόγηση και την ερμηνεία των προτύπων. Επίσης, περιλαμβάνει την επιλογή της κωδικοποίησης των προτύπων, της προεπεξεργασίας, της δειγματοληψίας και του μετασχηματισμού των δεδομένων πριν από το βήμα της εξόρυξης των δεδομένων. Η διαδικασία Κϋϋ είναι επαναληπτική και θα μπορούσε να περιέχει βρόχους μεταξύ οποιωνδήποτε από τα ανωτέρω βήματα. Η βασική ροή των βημάτων είναι διευκρινισμένη στο Σχήμα 1-2. Αν και η κύρια εργασία στη διαδικασία εξόρυξης γνώσης εστιάζεται στη διαδικασία εξόρυξης δεδομένων, τα άλλα βήματα είναι εξίσου σημαντικά για την επιτυχή εφαρμογή της τεχνικής Κϋϋ. 1.4 Η διαδικασία εξόρυξης δεδομένων Η εξόρυξη δεδομένων περιλαμβάνει τα μοντέλα συναρμολογήσεων των υπό εξέταση δεδομένων, ή εναλλακτικά την εξαγωγή των προτύπων από αυτά. Ουσιαστικά, οι παράμετροι του μοντέλου που Σελίδα 15 από 105

16 είναι γνωστές από τα δεδομένα ή τα πρότυπα που προσδιορίζονται, αντιπροσωπεύουν τη γνώση που έχει εξαχθεί από ένα σύνολο δεδομένων. Υπάρχει μια μεγάλη συλλογή αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση, οι αλγόριθμοι και οι βάσεις δεδομένων. Μια θεμελιώδης ιδιότητα των αλγορίθμων εξόρυξης δεδομένων, και αυτή που διαφοροποιεί τους περισσότερους από αυτούς από άλλες παρόμοιες τεχνικές που υιοθετούνται στη μηχανική μάθηση και τη στατιστική, είναι ότι οι αλγόριθμοι εξόρυξης δεδομένων έχουν σχεδιαστεί με έμφαση στην εξελιξιμότητα όσον αφορά το μέγεθος του συνόλου δεδομένων εισαγωγής. Η πλειοψηφία των αλγορίθμων εξόρυξης δεδομένων θα μπορούσε να περιγραφεί σε υψηλό επίπεδο με τον όρο ενός απλού πλαισίου. Συγκεκριμένα, μπορούν να αντιμετωπισθούν ως σύνθεση των τριών ακόλουθων συστατικών: Την περιγραφή του μοντέλου. Υπάρχουν δύο παράγοντες σχετικοί με το μοντέλο: 1) Η λειτουργία του μοντέλου. Καθορίζει τους βασικούς στόχους κατά τη διάρκεια της διαδικασίας εξόρυξης δεδομένων (π.χ. classification ή clustering). 2) Η παραστατική μορφή του μοντέλου. Η απεικόνιση του μοντέλου καθορίζει και το ταίριασμα του με την απεικόνιση των δεδομένων και τη δυνατότητα να ερμηνευθεί το μοντέλο με κατανοητούς όρους. Χαρακτηριστικά, πιο περίπλοκα μοντέλα ταιριάζουν καλύτερα στα δεδομένα αλλά μπορεί να είναι δυσκολότερο να γίνουν κατανοητά και να ανταποκριθούν σε πραγματικές συνθήκες. Τα πιο γνωστά μοντέλα είναι τα δέντρα και οι κανόνες απόφασης, τα νευρωνικά δίκτυα, τα συστήματα Σελίδα 16 από 105

17 βασισμένα σε παραδείγματα, τα γραφικά μοντέλα, τα μοντέλα βασισμένα στις πιθανότητες (π.χ. δίκτυα Bayes και τα συγγενικά μοντέλα. Την αξιολόγηση του μοντέλου. Με βάση κάποια κριτήρια αξιολόγησης (π.χ. μέγιστη πιθανότητα) θα μπορούσαμε να καθορίσουμε πόσο καλά ένα συγκεκριμένο μοντέλο ταιριάζει με τα κριτήρια της KDD διαδικασίας. Γενικά, η αξιολόγηση του μοντέλου αναφέρεται και στην εγκυρότητα των προτύπων και στην αξιολόγηση της ακρίβειας, της χρησιμότητας και της δυνατότητας κατανόησης του μοντέλου. Τους αλγόριθμους αναζήτησης. Αναφέρεται στην προδιαγραφή ενός αλγορίθμου να βρίσκει συγκεκριμένα μοντέλα και παραμέτρους, δοσμένου ενός συνόλου δεδομένων, μιας οικογένειας μοντέλων και ενός κριτηρίου αξιολόγησης. Υπάρχουν δύο τύποι αλγορίθμων αναζήτησης: 1) Αυτοί που αναζητούν παραμέτρους. Αυτός ο τύπος αλγορίθμων ψάχνει για παραμέτρους, οι οποίες βελτιστοποιούν ένα κριτήριο αξιολόγησης για το μοντέλο. Οι αλγόριθμοι εκτελούν το στόχο αναζήτηση παίρνοντας ως είσοδο ένα σύνολο δεδομένων και μια απεικόνιση μοντέλου. 2) Αυτοί που αναζητούν μοντέλα. Εκτελούν μια επαναληπτική διαδικασία αναζήτησης για την αντιπροσώπευση των δεδομένων. Για κάποια συγκεκριμένη απεικόνιση ενός μοντέλου, εφαρμόζεται η μέθοδος αναζήτησης παραμέτρων και η ποιότητα των αποτελεσμάτων αξιολογείται. 1.5 Απαιτήσεις εξόρυξης δεδομένων Για να επιτύχουμε μια αποτελεσματική διαδικασία εξόρυξης δεδομένων, Σελίδα 17 από 105

18 πρέπει πρώτα να εξετάσουμε το είδος των χαρακτηριστικών που ένα σύστημα εξόρυξης δεδομένων αναμένεται να έχει καθώς επίσης και τις απαιτήσεις που πρέπει να λάβουμε υπόψη στην ανάπτυξη των τεχνικών εξόρυξης δεδομένων. Οι κύριες απαιτήσεις μπορούν να συνοψιστούν στα εξής: 1) Χειρισμός των διαφορετικών τύπων δεδομένων. Δεδομένου ότι διαφορετικοί τύποι και βάσεις δεδομένων χρησιμοποιούνται σε διαφορετικές εφαρμογές, είναι σημαντικό ένα σύστημα εξόρυξης δεδομένων να εφαρμόζεται αποτελεσματικά σε διαφορετικούς τύπους δεδομένων. Οι βάσεις δεδομένων είναι στη συντριπτική τους πλειοψηφία συγγενείς μεταξύ τους. Συνεπώς, είναι σημαντικό ένα σύστημα εξόρυξης δεδομένων να υποστηρίζει τεχνικές για αποδοτική και αποτελεσματική ανάλυση συγγενικών δεδομένων. Επιπλέον, πολλά συστήματα βάσεων δεδομένων που τέθηκαν πρόσφατα σε χρήση περιέχουν σύνθετους τύπους δεδομένων, όπως δομές δεδομένων και σύνθετα αντικείμενα, υπερκείμενο και στοιχεία πολυμέσων, χωροχρονικά στοιχεία, κ.λπ. Ένα τέτοιο σύστημα πρέπει να λειτουργεί αποτελεσματικά ανεξάρτητα από τους τύπους δεδομένων. Εντούτοις, η διαφοροποίηση των τύπων δεδομένων και οι διαφορετικοί στόχοι της εξόρυξης θα μπορούσαν να καταστήσουν δύσκολη την ύπαρξη ενός συστήματος που χειρίζεται όλες τις περιπτώσεις. Αντίθετα, θα μπορούσαν να είναι πιο ρεαλιστικά, συστήματα για συγκεκριμένους τύπους δεδομένων και εφαρμογές που αναπτύσσονται, όπως το σύστημα που εξάγει γνώση από σχεσιακές βάσεις δεδομένων, χωροχρονικές βάσεις δεδομένων, βάσεις δεδομένων πολυμέσων κ.λπ. 2) Απόδοση και εξελιξιμότητα των αλγορίθμων εξόρυξης δεδομένων. Για να επιτευχθεί αποτελεσματική εξόρυξη γνώσης από μεγάλα σύνολα δεδομένων οι αλγόριθμοι πρέπει να προσαρμοστούν κατάλληλα σε αυτά. Αυτό σημαίνει ότι ο χρόνος Σελίδα 18 από 105

19 εκτέλεσης των αλγορίθμων εξόρυξης δεδομένων πρέπει να είναι αποδεκτός και αναμενόμενος για μεγάλες βάσεις δεδομένων. Οι αλγόριθμοι με εκθετική ή πολυωνομική πολυπλοκότητα δεν είναι κατάλληλοι. 3) Χρησιμότητα, βεβαιότητα και εκφραστικότητα των αποτελεσμάτων εξόρυξης δεδομένων. Η εξορυγμένη γνώση πρέπει να παρουσιάζει με ακριβή τρόπο τα περιεχόμενα των βάσεων δεδομένων. Η ακρίβεια των αποτελεσμάτων θα μπορούσε να εκφραστεί χρησιμοποιώντας κάποια μέτρα βεβαιότητας. Ο θόρυβος και οι outliers, που αντιπροσωπεύουν τις εξαιρέσεις, πρέπει να αντιμετωπιστούν αποτελεσματικά από τα συστήματα εξόρυξης δεδομένων. Το γεγονός αυτό, δίνει το κίνητρο για μια συστηματική μελέτη της ποιότητας της εξορυγμένης γνώσης, της κατασκευαστικής στατιστικής, των αναλυτικών μοντέλων, των μοντέλων προσομοίωσης, καθώς και των εργαλείων. 4) Διαφορετικού τύπου εκφράσεις των ερωτήσεων και αποτελεσμάτων της εξόρυξης δεδομένων. Διαφορετικοί τύποι γνώσεων θα μπορούσαν να εξαχθούν από μεγάλα σύνολα δεδομένων. Θα ήταν επίσης χρήσιμο να μπορούμε να εξετάσουμε τη γνώση από ποικίλες απόψεις και να την αντιπροσωπεύσουμε με διαφορετικές μορφές. Κατά συνέπεια υπάρχει μια ανάγκη να εκφραστούν οι επερωτήσεις εξόρυξης δεδομένων και η εξορυγμένη γνώση σε γλώσσες υψηλού επιπέδου ή μέσω γραφικών διεπαφών των χρηστών προκειμένου η διαδικασία εξόρυξης δεδομένων να μπορεί να είναι εφαρμόσιμη από μη ειδικούς και η εξορυγμένη γνώση να χρησιμοποιείται άμεσα από τους χρήστες. Μια άλλη απαίτηση για την αποτελεσματική παρουσίαση της γνώσης, είναι Σελίδα 19 από 105

20 το σύστημα να υιοθετήσει τις εκφραστικές τεχνικές αναπαράστασης γνώσης. 5) Διαλογική ανακάλυψη γνώσης στα πολυ-εννοιολογικά επίπεδα. Η διαλογική ανακάλυψη της γνώσης επιτρέπει στο χρήστη να αλληλεπιδράσει με ένα σύστημα, καθορίζοντας τις ερωτήσεις εξόρυξης δεδομένων προκειμένου να αλλάξει την εστίαση των δεδομένων, να οδηγήσει μια διαδικασία εξόρυξης δεδομένων σε ένα πιο λεπτομερές επίπεδο και να δει τα δεδομένα και τα αποτελέσματα εξόρυξης δεδομένων σε πολλαπλά επίπεδα και από διάφορες πτυχές. 6) Εξόρυξη γνώσης από διαφορετικές πηγές δεδομένων. Η διάδοση της σύνδεσης υπολογιστών σε τοπικό και παγκόσμιο επίπεδο, συμπεριλαμβανομένου του διαδικτύου, έχει το προβάδισμα στη σύνδεση των διάφορων πηγών δεδομένων. Αυτό οδηγεί στη δημιουργία μεγάλων κατανεμημένων και ετερογενών βάσεων δεδομένων. Το τεράστιο ποσό δεδομένων, η υψηλή κατανομή τους και υπολογιστική πολυπλοκότητα τους οδηγούν στην ανάπτυξη παράλληλων και κατανεμημένων αλγορίθμων εξόρυξης δεδομένων. 1.6 Κατηνοριοποίηση των μεθόδων εξόρυξης δεδομένων Τα τελευταία έτη διάφορες τεχνικές και μέθοδοι εξόρυξης δεδομένων έχουν αναπτυχθεί. Διαφορετικά κριτήρια κατηγοριοποίησης μπορούν να χρησιμοποιηθούν για να κατηγοριοποιήσουν τις μεθόδους και τα συστήματα εξόρυξης δεδομένων, βασισμένες στους τύπους των βάσεων δεδομένων που θα χρησιμοποιηθούν, τους τύπους γνώσης που θα εξαχθούν και τις τεχνικές που θα εφαρμοστούν. Η κατηγοριοποίηση των συστημάτων εξόρυξης δεδομένων είναι βασισμένη στα ακόλουθα κριτήρια: Σελίδα 20 από 105

21 Α)Τι είδους βάση δεδομένων χρησιμοποιείται; Ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί σύμφωνα με τα είδη βάσεων δεδομένων στις οποίες εφαρμόζεται η εξόρυξη δεδομένων. Παραδείγματος χάριν, ένα σύστημα που χρησιμοποιείται για την εξαγωγή γνώσης από σχεσιακά δεδομένα καλείται σχεσιακό σύστημα γνώσης. Εάν εξάγει τη γνώση από αντικειμενοστρεφείς βάσεις δεδομένων καλείται αντικειμενοστρεφές σύστημα εξόρυξης δεδομένων. Γενικά, ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί βασισμένο στους διάφορους τύπους συστημάτων βάσεων δεδομένων, όπως τα σχεσιακά συστήματα βάσεων δεδομένων, τα αντικειμενοστρεφή συστήματα βάσεων δεδομένων, οι χωροχρονικές βάσεις δεδομένων, τα συστήματα βάσεων δεδομένων πολυμέσων, κ.λπ. Β) Τι είδους γνώσης εξάγεται; Από ένα σύστημα εξόρυξης δεδομένων θα μπορούσαν να εξαχθούν διάφορα είδη γνώσης, όπως κανόνες συσχέτισης (association rules), συσταδοποίηση (clustering), κανόνες κατηγοριοποίησης (classification rules), χαρακτηριστικοί κανόνες. Ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί σύμφωνα με το επίπεδο αφαίρεσης της εξορυγμένης γνώσης, η οποία θα μπορούσε να είναι γενική, πρώτου επιπέδου γνώση ή πολυεπίπεδη γνώση. Γ) Ποιο είδος τεχνικών χρησιμοποιείται; Τα συστήματα εξόρυξης δεδομένων θα μπορούσαν να ταξινομηθούν σύμφωνα με τις χρησιμοποιούμενες τεχνικές εξόρυξης δεδομένων. Παραδείγματος χάριν, θα μπορούσαν να ταξινομηθούν σε αυτόνομα συστήματα, συστήματα προσανατολισμένα στα δεδομένα, συστήματα οδηγούμενα από ερωταποκρίσεις καθώς και διαλογικά συστήματα. Επίσης, Σελίδα 21 από 105

22 σύμφωνα με την προσέγγιση που χρησιμοποιείται θα μπορούσαν να ταξινομηθούν σε συστήματα γενικής εξόρυξης, εξόρυξης βασισμένης στα πρότυπα, εξόρυξης βασισμένης στην στατιστική ή τα μαθηματικά, κ.λπ. 1.7 Επισκόπηση των εργασιών εξόρυξης δεδομένων Οι δύο βασικοί στόχοι της εξόρυξης δεδομένων (γνώσης) είναι η εφαρμογή τεχνικών περιγραφής και πρόβλεψης σε μεγάλα σύνολα δεδομένων. Η πρόβλεψη στοχεύει στον υπολογισμό της μελλοντικής αξίας ή στην πρόβλεψη της συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και οι οποίες βασίζονται στη συμπεριφορά άλλων μεταβλητών. Η περιγραφή επικεντρώνεται στην ανακάλυψη προτύπων και αναπαριστά τα δεδομένα μίας πολύπλοκης βάσης δεδομένων με ένα κατανοητό και αξιοποιήσιμο τρόπο. Μία καλή περιγραφή θα μπορούσε να δώσει μια καλή εξήγηση στη συμπεριφορά των δεδομένων. Η σημαντικότητα της πρόβλεψης και της περιγραφής διαφέρει ανάλογα με τις εφαρμογές εξόρυξης δεδομένων. Ωστόσο, ως προς την εξόρυξη γνώσης η περιγραφή τείνει να είναι περισσότερο σημαντική από την πρόβλεψη, σε αντίθεση με την αναγνώριση προτύπων και την εφαρμογή μηχανικής μάθησης για τις οποίες η πρόβλεψη είναι πιο σημαντική. Ένας αριθμός μεθόδων εξόρυξης δεδομένων έχουν προταθεί για να ικανοποιούν τις απαιτήσεις διαφορετικών εφαρμογών. Ωστόσο, όλες επιτυγχάνουν μία ομάδα από διεργασίες εξόρυξη δεδομένων για να προσδιορίσουν και περιγράψουν ενδιαφέροντα πρότυπα γνώσης που έχουν αντληθεί από ένα σύνολο δεδομένων. Στη συνέχεια αυτές οι διεργασίες περιγράφονται με μεγαλύτερη λεπτομέρεια. Σελίδα 22 από 105

23 1.7.1 Κατηγοριοποίηση Η κατηγοριοποίηση (classification) αποτελεί μία από τις βασικές εργασίες (tasks) εξόρυξης δεδομένων. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου (μη κατηγοριοποιημένο) το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν αναπαριστάνονται γενικά από τις εγγραφές της βάσης δεδομένων και η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες. Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κατηγοριών και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου αποτελείται από προκατηγοριοποιημένα παραδείγματα. Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο το οποίο θα μπορούσε να εφαρμοστεί για να κατηγοριοποιεί δεδομένα που δεν έχουν ακόμα κατηγοριοποιηθεί (ανατεθεί σε κάποια από τις κατηγορίες). Στις περισσότερες περιπτώσεις, υπάρχει ένας περιορισμένος αριθμός κατηγοριών και εμείς θα πρέπει να αναθέσουμε κάθε εγγραφή στην κατάλληλη κατηγορία. Για το σκοπό αυτό χρησιμοποιούνται κάποιες τεχνικές, τις οποίες μπορούμε να κατατάξουμε σε δύο κατηγορίες. Η πρώτη χρησιμοποιεί Δέντρα Αποφάσεων (Decision Trees) και η δεύτερη Νευρωνικά Δίκτυα (Neural Networks). Και οι δύο στηρίζονται στην ιδέα της «εκπαίδευσης» (training) με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης (training set). Το υποσύνολο αυτό επιλέγεται σαν αντιπροσωπευτικό δείγμα του συνολικού όγκου δεδομένων. Με την εφαρμογή της διαδικασίας εκπαίδευσης καθορίζονται κάποια πρότυπα για τις κατηγορίες δεδομένων. Έτσι. όταν προκύψει ένα νέο στοιχείο τότε μπορεί εύκολα Σελίδα 23 από 105

24 να κατηγοριοποιηθεί. Για τη διαδικασία αυτή χρησιμοποιούνται είτε τεχνικές βασισμένες στα νευρωνικά δίκτυα είτε συμβολικές τεχνικές. Στις πρώτες υπάρχει το φαινόμενο της αμφίδρομης αναμετάδοσης και επεξεργασίας δεδομένων ενώ στη δεύτερη υπάρχουν μοντέλα δένδρων αποφάσεων ή μοντέλα για ΙΕ...ΤΗΕΝ...ΕΙ_3Ε ανάλυση Συσιαδοποίηοη Η συσταδοποίηση (clustering) είναι η εργασία του καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο περισσότερων ετερογενών συστάδων (clusters). Αυτό που διαφοροποιεί την ομαδοποίηση από την κατηγοριοποίηση είναι ότι η ομαδοποίηση δεν βασίζεται σε προκαθορισμένες κατηγορίες. Στην κατηγοριοποίηση, ο πληθυσμός διαιρείται σε κατηγορίες αναθέτοντας κάθε στοιχείο ή εγγραφή σε μία προκαθορισμένη κατηγορία με βάση ένα μοντέλο που αναπτύσσεται μέσω της εκπαίδευσης του με παραδείγματα που έχουν κατηγοριοποιηθεί εκ των προτέρων. Στην συσταδοποίηση δεν υπάρχουν προκαθορισμένες κατηγορίες. Οι εγγραφές ομαδοποιούνται σε σύνολα με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους. Επαφίεται σε εμάς να καθορίσουμε την σημασία που θα έχει κάθε μία από τις ομάδες που προκύπτουν. Για παράδειγμα, οι ομάδες συμπτωμάτων μπορεί να υποδεικνύουν διαφορετικές ασθένειες, ομάδες που περιλαμβάνουν τα χαρακτηριστικά που σχετίζονται με τα φύλλα και τον καρπό φυτών μπορεί να υποδεικνύουν διαφορετικές ποικιλίες ενός φυτού. Η συσταδοποίηση μπορεί να χρησιμοποιηθεί και σαν εισαγωγή σε κάποια άλλη διαδικασία εξόρυξης γνώσης ή μοντελοποίησης. Για παράδειγμα, η ομαδοποίηση μπορεί να χρησιμοποιηθεί σαν πρώτο βήμα στην προσπάθεια μερισμού της αγοράς. Αντί δηλαδή να Σελίδα 24 από 105

25 προσπαθούμε να προσδιορίσουμε τι είδος promotion θα ταίριαζε καλύτερα σε κάθε πελάτη, μπορούμε να κατηγοριοποιήσουμε τους πελάτες αρχικά σε ομάδες (clusters) ατόμων που παρουσιάζουν τις ίδιες συνήθειες σχετικά με την αγορά προϊόντων και στην συνέχεια να προσδιορίσουμε το είδος του promotion που ταιριάζει σε κάθε ομάδα Κανόνες συσχέτισης Η εξαγωγή κανόνων συσχέτισης (association rules) θεωρείται μια από τις σημαντικότερες διεργασίες εξόρυξης δεδομένων. Έχει προσελκύσει ιδιαίτερο ενδιαφέρον καθώς οι κανόνες συσχέτισης παρέχουν έναν συνοπτικό τρόπο για να εκφραστούν οι ενδεχομένως χρήσιμες πληροφορίες που γίνονται εύκολα κατανοητές από τους τελικούς χρήστες. Οι κανόνες συσχέτισης ανακαλύπτουν κρυμμένες «συσχετίσεις» μεταξύ των γνωρισμάτων ενός συνόλου των δεδομένων. Αυτοί οι συσχετισμοί παρουσιάζονται στην ακόλουθη μορφή: Α->Β όπου το Α και το Β αναφέρονται στα σύνολα γνωρισμάτων που υπάρχουν στα υπό ανάλυση δεδομένα. Υποθέστε ότι μας δίνεται ένα σύνολο συναλλαγών S = (S,,..., Sn}, όπου κάθε συναλλαγή είναι ένα υποσύνολο του Α = {Α1,...Λχ} (Ai, i = 1,2,..., Κ, είναι οι ιδιότητες του συνόλου δεδομένων). Για ένα δεδομένο σύνολο AcΑ, η υποστήριξη του A, sup(a), καθορίζεται ώστε να είναι ο αριθμός συναλλαγών στο S που είναι υπερσύνολα του Α (δηλαδή το Α εμφανίζεται σε αυτές τις συναλλαγές). Εάν η υποστήριξη ενός συνόλου αντικειμένων Α είναι μεγαλύτερη από ένα καθορισμένο από τον χρήστη κατώτατο όριο υποστήριξης Τ, τότε ονομάζουμε το Α ως συχνό σύνολο. Σελίδα 25 από 105

26 Η σημασία ενός τέτοιου κανόνα είναι ότι οι συναλλαγές στο σύνολο δεδομένων, που περιέχουν τις ιδιότητες του Α, τείνουν επίσης να περιέχουν τις ιδιότητες του Β. Σημειώνουμε επίσης ότι οι κανόνες συσχέτισης που εξάγονται πρέπει να μπορούν επίσης να ικανοποιούν κι άλλους περιορισμούς που καθορίζονται από το χρήστη, σχετικούς με τα μέτρα των κανόνων συσχέτισης. Λαμβάνοντας υπόψη την ανωτέρω περιγραφή, μια σημαντική δευτερεύουσα λειτουργία που συνήθως λύνεται πρώτη είναι αυτή του υπολογισμού των συχνών συνόλων. Δηλαδή, λαμβάνοντας υπόψη ένα σύνολο συναλλαγών S, υπολογίζονται όλα τα συχνά υποσύνολα του Α (για το δεδομένο κατώτατο όριο υποστήριξης Τ). Μόλις βρεθούν τα συχνά σύνολα, το πρόβλημα το υπολογισμού των κανόνων συσχέτισης από αυτά γίνεται πολύ απλό. Για κάθε συχνό σύνολο Α, και για κάθε Β c Α μπορεί να εξεταστεί η εμπιστοσύνη του κανόνα Α/Β -> Β. Ο υπολογισμός όλων των συχνών συνόλων ξεκινά με τον υπολογισμό του συνόλου των συχνών συνόλων με αριθμό στοιχείων ίσο με 1. Κατόπιν, υποθέτοντας ότι όλα τα συχνά σύνολα με πλήθος στοιχείων i είναι γνωστά, ο αλγόριθμος υπολογίζει ένα σύνολο υποψηφίων συχνών συνόλων: σύνολα στοιχείων με πλήθος στοιχείων i + 1, έτσι ώστε όλα τα υποσύνολα τους να είναι συχνά υποσύνολα. Για καθένα από τα υποψηφία συχνά σύνολα, υπολογίζει τη συχνότητα του. Αυτή η επαναληπτική διαδικασία εκτελείται έως ότου δεν βρίσκονται άλλα συχνά σύνολα. Η ακρίβεια του αλγορίθμου προκύπτει από την φθίνουσα μονοτονία της συνάρτησης υποστήριξης: if Β c A then sup(b) >= sup(a). Αυτός ο αλγόριθμος έχει χρησιμοποιηθεί με διάφορες μορφές στην εύρεση των κανόνων συσχέτισης, των ακολουθιακών κανόνων (sequential rules), και των επεισοδίων. Αποδεικνύεται ότι είναι βέλτιστος για τον υπολογισμό όλων των συχνών συνόλων. Οι πρόσφατες μελέτες Σελίδα 26 από 105

27 έχουν επικεντρωθεί στους αποδοτικούς αλγορίθμους για τα μέγιστα συχνά σύνολα (δηλαδή συχνά σύνολα που δεν έχουν συχνά υπερσύνολα). Δεδομένου ότι ο αριθμός μέγιστων συχνών συνόλων μπορεί να είναι εκθετικά μικρότερος από τον αριθμό συχνών συνόλων, μέχρι στιγμής τα μέγιστα συχνά σύνολα μπορούν να χαρακτηρίσουν όλα τα συχνά σύνολα, αφού τέτοιοι αλγόριθμοι μπορούν να προσφέρουν ουσιαστικές βελτιώσεις για σύνολα δεδομένων που έχουν συχνά σύνολα μεγάλου πληθικού αριθμού. Οι πρόσφατοι αλγόριθμοι εύρεσης των μέγιστων συχνών συνόλων περιλαμβάνουν τον MaxMiner, την Dualize-and-Advance, τον FPGrowth και τον MAFIA. Σελίδα 27 από 105

28 2o ΚΕΦΑΛΑΙΟ Κατηγοριοποίηση 2.1 Εισαγωγή στη κατηγοριοποίηση Το πρόβλημα της κατηγοριοποίησης έχει μελετηθεί εκτενώς στη στατιστική, στην αναγνώριση προτύπων (patterns) και μηχανική μάθηση (machine learning) στα πλαίσια του προβλήματος της ανάκτησης ή εξαγωγής γνώσης από σύνολα δεδομένων. Χαρακτηρίζεται ως μία από τις βασικές εργασίες στη διαδικασία εξόρυξης γνώσης η οποία αποσκοπεί στην ανάθεση ενός στοιχείου σε ένα προκαθορισμένο σύνολο κατηγοριών (classes). Η κατηγοριοποίηση (classification) μπορεί να περιγραφεί λοιπόν ως μία λειτουργία που αντιστοιχεί (κατηγοριοποιεί) ένα στοιχείο σε μία από τις διαφορετικές κατηγορίες που έχουν προκαθοριστεί. Η κατηγοριοποίηση χαρακτηρίζεται από ένα καλά καθορισμένο σύνολο κατηγόριων καθώς και ένα σύνολο από προκατηγοριοποιημένα (preclassified) παραδείγματα. Αντίθετα, η διαδικασία τμηματοποίησης δεν στηρίζεται σε προκαθορισμένες κατηγορίες ή παραδείγματα. Γενικά, ο στόχος της διαδικασίας κατηγοριοποίησης είναι η δημιουργία ενός μοντέλου που θα μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση μελλοντικών δεδομένων των οποίων η κατηγοριοποίηση είναι άγνωστη. Πιο συγκεκριμένα η κατηγοριοποίηση δεδομένων μπορεί να περιγραφεί ως μία διαδικασία δύο βημάτων: Βήμα 1ο: Εκμάθηση (Learning). Σε αυτό το βήμα χτίζεται ένα μοντέλο (model), περιγράφοντας ένα προκαθορισμένο σύνολο από κατηγορίες δεδομένων. Τα δεδομένα εκπαίδευσης (training data) Σελίδα 28 από 105

29 αναλύονται από έναν αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν στην συνέχεια το μοντέλο. Τα στοιχεία που αποτελούν το σύνολο κατάρτισης επιλέγονται τυχαία από έναν πληθυσμό δεδομένων και ανήκουν σε μία από τις προκαθορισμένες κατηγορίες. Δεδομένου ότι η κατηγορία των δειγμάτων εκπαίδευσης είναι γνωστή, αυτό το βήμα είναι επίσης γνωστό σαν «εποπτευμένη μάθηση» (supervised learning). Το μοντέλο που ορίζεται, γνωστό και ως κατηγοριοποιητής (classifier), αναπαριστάται με τη μορφή κανόνων κατηγοριοποίησης (classification rules), δέντρων απόφασης (decision trees) ή μαθηματικών τύπων (mathematical formulas). Βήμα 2ο: Κατηγοριοποίηση (Classification). Σε αυτό το βήμα χρησιμοποιούνται τα δοκιμαστικά δεδομένα (test data) για να υπολογίσουν την ακρίβεια (accuracy) του μοντέλου. Υπάρχουν διάφορες μέθοδοι για να εκτιμηθεί η ακρίβεια του κατηγοριοποιητή (classifier). Τα δεδομένα εκπαίδευσης επιλέγονται τυχαία και είναι ΣΧΗΜΑ 3. Διαδικασία ταξινόμησης: Εκμάθηι ανεξάρτητα. Το μοντέλο κατηγοριοποιεί κάθε ένα από τα δοκιμαστικά παραδείγματα (training samples). Στη συνέχεια η κατηγορία που ανήκουν τα δεδομένα με βάση το σύνολο δοκιμαστικών δεδομένων συγκρίνεται με την πρόβλεψη που έκανε το μοντέλο για την Σελίδα 29 από 105

30 κατηγορία. Η ακρίβεια του μοντέλου σε ένα καθορισμένο σύνολο δεδομένων δοκιμής είναι το ποσοστό των δειγμάτων δοκιμής που κατηγοριοποιήθηκαν σωστά από το υπό εκπαίδευση μοντέλο. Εάν η ακρίβεια του μοντέλου θεωρείται ως αποδεκτή, το μοντέλο μπορεί πλέον να χρησιμοποιηθεί για να κατηγοριοποιήσει το μελλοντικά δείγματα δεδομένων (αντικείμενα), των οποίων η κατηγοριοποίηση είναι άγνωστη. 2.2 Bayesian κατηγοριοποίηση Η Bayesian κατηγοριοποίηση (classification) βασίζεται στην στατιστική θεωρία κατηγοριοποίησης του Bayes. Ο στόχος είναι να κατηγοριοποιηθεί ένα δείγμα Χ σε μια από τις δεδομένες κατηγορίες Ci, C2,..., Cn χρησιμοποιώντας ένα μοντέλο πιθανότητας που ορίζεται σύμφωνα με τη θεωρία Bayes. Κάθε κατηγορία χαρακτηρίζεται από μια εκ των προτέρων πιθανότητα (a prior probability) παρατήρησης της κλάσης Ci. Επίσης, υποθέτουμε ότι το δεδομένο δείγμα Χ ανήκει σε μια κλάση Ci, με την υπό συνθήκη συνάρτηση πυκνότητας πιθανότητας: p(x/ci) ε ([0,10]. Κατόπιν, χρησιμοποιώντας τους ανωτέρω ορισμούς και βασιζόμενοι στη θεωρία Bayes, καθορίζουμε την εκ των υστέρων (posterior) πιθανότητα p(ci/x) ως εξής: Σελίδα 30 από 105

31 Ο απλούστερος Bayesian κατηγοριοποιητής είναι ο γνωστός naive Bayesian κατηγοριοποιητής. Αυτός υποθέτει ότι η επίδραση ενός ΣΧΗΜΑ 4. Διαδικασία Κατηγοριοποίησης. γνωρίσματος (attribute) σε μια δεδομένη κατηγορία είναι ανεξάρτητη από τις τιμές των άλλων γνωρισμάτων. Αυτή η υπόθεση γίνεται για να απλοποιήσει τους υπολογισμούς που εμπλέκονται και καλείται υπό συνθήκη ανεξαρτησία (conditional independence) κατηγορίας. Ένας άλλος Bayesian κατηγοριοποιητής είναι τα Bayesian Belief Networks. Είναι γραφικά μοντέλα όπου χρησιμοποιούμενα, αντίθετα με τους Naive Bayesian κατηγοριοποιητές, επιτρέπουν την παρουσίαση των εξαρτήσεων μεταξύ των υποσυνόλων των γνωρισμάτων Naive Bayesian κατηγοριοποιητής Υποθέστε ότι έχουμε ένα σύνολο δεδομένων S και έστω κάθε δείγμα δεδομένων αντιπροσωπεύεται από ένα η-διάστατο χαρακτηριστικό διάνυσμα, Χ = (Χ1, Χ2,, xn), το οποίο απεικονίζει τις n μετρήσεις που γίνονται στο δείγμα για τα n γνωρίσματα, A1 Α2,..., Α^ Σελίδα 31 από 105

32 Υποθέστε ότι υπάρχουν m κατηγορίες C1, C2,... Cm. Κατόπιν δεδομένου ενός άγνωστου δείγματος δεδομένων, Χ, ο κατηγοριοποιητής θα προβλέψει ότι το Χ ανήκει στην κατηγορία που έχει την υψηλότερη εκ των υστέρων πιθανότητα δεδομένου του Χ. Αυτό υπονοεί ότι ο κατηγοριοποιητής Naive Bayesian αναθέτει το δείγμα Χ στην κατηγορία Q εάν και μόνο εάν: p(ci Χ) > p(ci X) for\<j < m,j Φΐ Κατά συνέπεια, ο στόχος είναι να μεγιστοποιηθεί η εκ των υστέρων υπόθεση (posterior hypothesis). Η κατηγορία Q για την οποία η πιθανότητα p(ci Χ) μεγιστοποιείται καλείται μέγιστη μεταγενέστερη υπόθεση. Ο Naive Bayesian κατηγοριοποιητής υπολογίζει τις υπό συνθήκη πιθανότητες της κατηγορίας υποθέτοντας υπό συνθήκη ανεξαρτησία (conditional independence). Κατόπιν, πρέπει να υποθέσουμε ότι p(x Ci) = p(χι Ci)...p(xn Ci), και κάθε μία από τις πιθανότητες p (χϊ Ci) μπορεί να υπολογιστεί από τα δε- δομένα εκπαίδευσης. Κατά συνέπεια, ο Naive Bayesian κατηγοριοποιητής είναι μια πολύ αποδοτική τεχνική. Θεωρητικά, οι Bayesian κατηγοριοποιητές έχουν το ελάχιστο ποσοστό σφάλματος σε σύγκριση με όλους τους άλλους κατηγοριοποιητές. Στην πράξη, όμως, αυτό δεν συμβαίνει πάντα λόγω των υποθέσεων που απαιτούνται να γίνουν κατά την χρήση τους, όπως η υπό συνθήκη ανεξαρτησία, και η έλλειψη διαθέσιμων δεδομένων για τον ακριβή υπολογισμό των υπό συνθήκη πιθανοτήτων. Ωστόσο, έχει βρεθεί ότι είναι συγκρίσιμοι με τα δέντρα απόφασης και τους κατηγοριοποιητές που βασίζονται σε νευρωνικά δίκτυα σε μερικές εφαρμογές Bayesian Belief Networks Τα Bayesian Belief Networks προσδιορίζουν τις συνδεδεμένες υπό συνθήκη κατανομές πιθανότητας (joint conditional probability Σελίδα 32 από 105

33 distributions) στοχεύοντας στο να λάβουν υπόψη τις εξαρτήσεις που μπορούν να υπάρξουν μεταξύ των μεταβλητών. Ένα Belief Network καθορίζεται από δύο στοιχεία. Το πρώτο είναι ένας κατευθυνόμενος ακυκλικός γράφος, όπου κάθε κόμβος αντιπροσωπεύει μία τυχαία μεταβλητή και κάθε τόξο αντιπροσωπεύει μία εξάρτηση πιθανοτήτων (probabilistic dependencies). Εάν ένα τόξο έχει αρχή έναν κόμβο Υ και πέρας ένα κόμβο Ζ, τότε το Υ είναι ο γονέας του Ζ και το Ζ είναι ο απόγονος του Υ. Κάθε μεταβλητή είναι ανεξάρτητη από τους μη προγονούς της στο γράφο, δεδομένου των γονέων της. Το δεύτερο στοιχείο που καθορίζει ένα Belief Network αποτελείται από έναν πίνακα υπό συνθήκη πιθανότητας (Conditional Probability Table: CPT) για κάθε μεταβλητή. Ο CPT για μία μεταβλητή Χ προσδιορίζει την δεσμευμένη κατανομή p(x Parent (Χ)). Η συνδυασμένη πιθανότητα (joint probability) κάθε συνόλου (xl5 χ2,..., xj που αντιστοιχεί στα γνωρίσματα Α 1, Α2,..., Απ, δίνεται από την ακόλουθη εξίσωση: η... *η) = Π ρ(χ'. I parent (χ,)) όπου parent(xi) είναι ο γονέας του χ και p(x; parent(xi) αντιστοιχεί στις υπό συνθήκη καταχωρήσεις του CPT για το Xi. Ένας από τους κόμβους του δικτύου μπορεί να επιλεχτεί ως «output» κόμβος αντιπροσωπεύοντας τα γνωρίσματα μίας κατηγορίας. Οι αλγόριθμοι συμπεράσματος (inference algorithms) για εκμάθηση μπορούν να εφαρμοστούν στο δίκτυο. 2.3 Δέντρα απόφασης Τα δέντρα απόφασης είναι μια από τις ευρέως χρησιμοποιούμενες τεχνικές για την κατηγοριοποίηση (classification) και την πρόβλεψη Σελίδα 33 από 105

34 (prediction). Διάφοροι δημοφιλείς κατηγοριοποιητές κατασκευάζουν τα δέντρα απόφασης ως μοντέλα κατηγοριοποίησης. Ένα δέντρο απόφασης κατασκευάζεται με βάση ένα σύνολο εκπαίδευσης προ-κατηγοριοποιημένων δεδομένων. Κάθε ένας από τους εσωτερικούς κόμβος του δέντρου απόφασης προσδιορίζει τον έλεγχο ενός γνωρίσματος και κάθε κλαδί που «κατεβαίνει» από εκείνον τον κόμβο αντιστοιχεί σε μια από τις πιθανές τιμές για το συγκεκριμένο γνώρισμα. Επίσης, κάθε φύλλο αντιστοιχεί σε μια από τις κατηγορίες που έχουν οριστεί. Η διαδικασία για την κατηγοριοποίηση ενός νέου δείγματος με βάση ένα δέντρο απόφασης είναι η ακόλουθη: ξεκινώντας από την ρίζα του δέντρου και εξετάζοντας τα γνωρίσματα που καθορίζονται από τον κόμβο αυτό προσδιορίζονται διαδοχικά οι εσωτερικοί κόμβοι που θα επισκεφτούμε έως ότου καταλήξουμε σε ένα φύλλο. Σε κάθε εσωτερικό κόμβο ελέγχεται εάν το δείγμα ικανοποιεί το συγκεκριμένο κόμβο. Η έκβαση αυτής της δοκιμής σ' έναν εσωτερικό κόμβο καθορίζει το κλαδί που θα διασχίσουμε στην συνέχεια καθώς και τον επόμενο κόμβο που θα επισκεφτούμε. Η κατηγορία του υπό μελέτη δείγματος είναι η κατηγορία του τελικού κόμβου ο οποίος αντιστοιχεί σε φύλλο του δέντρου. Διάφοροι αλγόριθμοι κατασκευής των δέντρων απόφασης έχουν αναπτυχθεί κατά τη διάρκεια των τελευταίων ετών. Μερικοί από τους πιο γνωστούς αλγορίθμους είναι οι: ID3, C4.5, SPRINT, SLIQ, CART, Rainforest κ.λπ. Γενικά, οι περισσότεροι από τους αλγόριθμους έχουν δύο διακριτές φάσεις: τη φάση οικοδόμησης (building phase) και την φάση περικοπής (pruning phase). Στη φάση οικοδόμησης, το σύνολο των δεδομένων εκπαίδευσης χωρίζεται κατ' επανάληψη μέχρις ότου όλα τα δείγματα σ' ένα τμήμα (partition) να ανήκουν στην ίδια κατηγορία. Το αποτέλεσμα είναι ένα δέντρο που κατηγοριοποιεί κάθε στοιχείο του συνόλου εκπαίδευσης. Ωστόσο, το Σελίδα 34 από 105

35 δέντρο που κατασκευάζεται μπορεί να είναι ευαίσθητο στις στατιστικές παρατυπίες (irregularities) του συνόλου κατάρτισης. Κατά συνέπεια, οι περισσότεροι από τους αλγορίθμους εκτελούν μια φάση περικοπής μετά από τη φάση κατασκευής του δέντρου, στην οποία οι κόμβοι περικόπτονται για να αποτραπούν οι επικαλύψεις και για να δημιουργηθεί ένα δέντρο με υψηλότερη ακρίβεια. Οι διάφοροι αλγόριθμοι κατασκευής δέντρων απόφασης χρησιμοποιούν διαφορετικούς αλγορίθμους για την επιλογή του κριτηρίου ελέγχου για την κατηγοριοποίηση ενός συνόλου δεδομένων. Ένας από τους πιο πρόσφατους αλγορίθμους, ο CLS, εξετάζει όλα τα δυνατά δέντρα αποφάσεων σ' ένα συγκεκριμένο βάθος. Στην συνέχεια επιλέγει τον έλεγχο που ελαχιστοποιεί το υπολογιστικό κόστος κατηγοριοποίησης ενός στοιχείου. Ο ορισμός αυτού του κόστους αποτελείται από το κόστος καθορισμού των τιμών των χαρακτηριστικών για έλεγχο καθώς και το κόστος λανθασμένης κατηγοριοποίησης. Οι αλγόριθμοι ID3 και C4. βασίζονται σε μία στατιστική ιδιότητα, καλούμενη κέδρος πληροφορίας (information gain), προκειμένου να επιλέξουμε το γνώρισμα που θα ελέγξουμε σε κάθε κόμβο του δέντρου. Ο ορισμός του μέτρου βασίζεται στην εντροπία, η οποία χαρακτηρίζει την καθαρότητα μίας αφηρημένης επιλογής των δειγμάτων. Εναλλακτικά οι αλγόριθμοι όπως ο SLIQ, SPRINT επιλέγουν το γνώρισμα που θα ελεγχθεί με βάση το δείκτη GINI και όχι το μέτρο εντροπίας. Το καλύτερο γνώρισμα για τον έλεγχο (δηλαδή το γνώρισμα που δίνει τη καλύτερη τμηματοποίηση) δίνει την χαμηλότερη τιμή για το δείκτη GINI Αλγόριθμος ID3 Στην συνέχεια παρουσιάζουμε τα βασικά βήματα για τη δημιουργία ενός δέντρου αποφάσεων με βάση τον αλγόριθμο ID3, ο Σελίδα 35 από 105

36 οποίος θεωρείται ένας από τους βασικούς αλγορίθμους κατηγοριοποίησης. Είσοδος: Δείγματα εκπαίδευσης τα οποία παρουσιάζονται με διακριτές τιμές γνωρισμάτων. Έξοδος: Δέντρο Απόφασης. Διαδικασία: Βήμα 1ο: Το δέντρο ξεκινάει με έναν μόνο κόμβο που αντιπροσωπεύει ολόκληρο το σύνολο των δεδομένων εκπαίδευσης. Βήμα 2ο: Αν τα δείγματα είναι όλα της ίδιας κατηγορίας, τότε ο κόμβος γίνεται φύλλο και προστίθεται η ετικέτα της κατηγορίας. Βήμα 3ο: Ο αλγόριθμος χρησιμοποιεί ένα μέτρο εντροπίας, γνωστό σαν κέρδος πληροφορίας, για την επιλογή των γνωρισμάτων που διαχωρίζουν καλύτερα τα δείγματα στις διαφορετικές κατηγορίες. Στην συνέχεια το κέρδος πληροφορίας υπολογίζεται για κάθε γνώρισμα. Το γνώρισμα με το μέγιστο κέρδος πληροφορίας επιλέγεται σαν γνώρισμα ελέγχου. Επιλογή γνωρίσματος. Έστω 3 το σύνολο των $ δειγμάτων δεδομένων. Υποθέτοντας ένα σύνολο η κατηγοριών Οι (για ί = 1,2,..., η), η αναμενόμενη πληροφορία που απαιτείται για την κατηγοριοποίηση του ενός δείγματος δίνεται από την εξίσωση: Σελίδα 36 από 105

37 όπου Si είναι ο αριθμός των δειγμάτων στην κατηγορία Ci και Ρι είναι η πιθανότητα να χρησιμοποιηθεί για το διαχωρισμό του S σε ν υποσύνολα {S,, S2,..., Sv), όπου Sj περιέχει εκείνα τα δείγματα του S που έχουν την τιμή αλ για το γνώρισμα Α. Βήμα 4ο: Ένας κόμβος δημιουργείται και χαρακτηρίζεται γνώρισμα ελέγχου (test attribute), όσο δημιουργούνται κλαδιά για κάθε τιμή του. Στην συνέχεια το δείγμα δεδομένων διαχωρίζεται αναλόγως. Βήμα 5ο: Ο αλγόριθμος εφαρμόζεται συνεχώς για τη μορφοποίηση ενός δέντρου απόφασης με βάση τα δείγματα σε κάθε προκαθορισμένη κατηγορία. Ο συνεχής διαχωρισμός σταματάει μόνο όταν κάποια από τις παρακάτω συνθήκες ικανοποιείται: - Όλα τα δείγματα του δοσμένου κόμβου ανήκουν στην ίδια κατηγορία, ή - Δεν υπάρχουν άλλα γνωρίσματα με βάση τα οποία τα δείγματα θα μπορούσαν να διαχωριστούν περαιτέρω, ή - Δεν υπάρχουν μη κατηγοριοποιημένα δείγματα για το κλαδί του γνωρίσματος ελέγχου SLIQ Σύμφωνα με την προσέγγιση αυτή το σύνολο των γνωρισμάτων προ-κατηγοριοποιείται. Το δέντρο κατηγοριοποίησης αυξάνεται με μια κατά-εύρος μέθοδο. Αρχικά ορίζεται ο κόμβος ρίζα του δέντρου. Κατά τη διάρκεια της φάσης του διαχωρισμού, γίνεται χρήση της λίστας κατηγοριών για τον υπολογισμό του καλύτερου δυνατού διαχωρισμού για κάθε μεμονωμένο γνώρισμα. Ο κατάλογος του τρέχοντος κάθε φορά γνωρίσματος χρησιμοποιείται για να ενημερώσει τις αντίστοιχες ετικέτες των φύλλων (οι οποίες αντιστοιχούν στις κατηγορίες). Αφού διαχωριστεί ένας κόμβος, οι Σελίδα 37 από 105

38 είσοδοι της λίστας κατηγοριών τροποποιούνται για να υποδείξουν τον κόμβο στον οποίον η εγγραφή ανήκει. Ο αλγόριθμος αυτός έχει το μειονέκτημα ότι οι κατηγορίες προσεγγίζονται συχνά και μάλιστα με τυχαίο τρόπο και από τις δύο φάσεις της επαγωγής του δέντρου. Για τον λόγο αυτόν, πρέπει να βρίσκεται στη μνήμη συνεχώς προκειμένου να πετύχουμε μία καλή απόδοση. Αυτό, όμως, περιορίζει το μέγιστο επιτρεπτό μέγεθος του συνόλου εκπαίδευσης C4.5 Ο αλγόριθμος αυτός εφαρμόζει μία απλή κατά-βάθος μέθοδος για την κατασκευή του δέντρου. Τα γνωρίσματα κάθε κόμβου του δέντρου μπορούν να έχουν συνεχείς τιμές. Ωστόσο, για να λειτουργήσει σωστά χρειάζεται ολοκληρωμένα δεδομένα. Ο C4.5 κρίνεται ακατάλληλος για μεγάλα σύνολα δεδομένων, αφού η ακρίβεια που παρουσιάζει είναι πολύ μικρή SPRINT Το σύνολο των γνωρισμάτων προ-κατηγοριοποιούνται. Η κατηγοριοποίηση αυτή διατηρείται καθ' όλη τη διάρκεια του διαχωρισμού. Το δέντρο αποφάσεων αυξάνεται με μια κατά-εύρος μέθοδο και τα γνωρίσματα διαχωρίζονται μεταξύ των κόμβων. Η καθοριστική φάση του διαχωρισμού είναι μια γραμμική ανίχνευση των καταλόγων σε κάθε κόμβο και για το σκοπό αυτό χρησιμοποιείται ένα hashing σχήμα. Ακολουθούν τα κυριότερα μειονεκτήματα του αλγορίθμου: Το μέγεθος του hash πίνακα είναι συνήθως Ο(Ν) για τα επάνω επίπεδα του δέντρου. Αν ο hash πίνακας δεν χωράει στη μνήμη, γεγονός το οποίο είναι πολύ πιθανό για μεγάλες βάσεις δεδομένων, τότε διασπάται σε Σελίδα 38 από 105

39 μικρότερα κομμάτια. Αυτό έχει σαν αποτέλεσμα πολλαπλά και ακριβά περάσματα εισόδου - εξόδου από ολόκληρη τη βάση δεδομένων. 2.4 Νευρωνικά δίκτυα Μία άλλη προσέγγιση της κατηγοριοποίησης που χρησιμοποιείται σε πολλές εφαρμογές εξόρυξης γνώσης για πρόβλεψη (prediction) και κατηγοριοποίηση (classification) βασίζεται στα νευρωνικά δίκτυα. Οι μέθοδοι αυτής της προσέγγισης χρησιμοποιούν τα νευρωνικά δίκτυα για να κατασκευάσουν ένα μοντέλο κατηγοριοποίησης ή πρόβλεψης. Τα κύρια βήματα αυτής της διαδικασίας είναι: a) Αναγνώριση των χαρακτηριστικών (features) εισόδου και εξόδου. b) Κατασκευή ενός δικτύου με την κατάλληλη τοπολογία. ^Επιλογή του σωστού συνόλου εκπαίδευσης. d) Εκπαίδευση του δικτύου με βάση ένα αντιπροσωπευτικό σύνολο δεδομένων. Τα δεδομένα πρέπει να απεικονίζονται με τέτοιο τρόπο ώστε να μεγιστοποιηθεί η δυνατότητα του δικτύου να αναγνωρίζει πρότυπα. e) Έλεγχος του δικτύου χρησιμοποιώντας ένα σύνολο ελέγχου (test data set) το οποίο είναι ανεξάρτητο από το σύνολο εκπαίδευσης (training data set). Κατόπιν το μοντέλο που παράγεται από το δίκτυο, εφαρμόζεται για να προβλέψει τις κατηγορίες (έξοδοι - outputs) των μη κατηγοριοποιημένων δειγμάτων (είσοδοι - inputs) Κατηγοριοποίηση με βάση νευρωνικά δίκτυα Τα νευρωνικά δίκτυα αποτελούνται από «νευρώνες» με βάση τη νευρωνική δομή του εγκεφάλου. Επεξεργάζονται τα στοιχεία ένα κάθε Σελίδα 39 από 105

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER» Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) Των σπουδαστών Σκλαβενίτης Αργύρης (Α.Μ. 535) Στασινός

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Εισαγωγή στη Σχεδίαση Λογισμικού

Εισαγωγή στη Σχεδίαση Λογισμικού Εισαγωγή στη Σχεδίαση Λογισμικού περιεχόμενα παρουσίασης Τι είναι η σχεδίαση λογισμικού Έννοιες σχεδίασης Δραστηριότητες σχεδίασης Σχεδίαση και υποδείγματα ανάπτυξης λογισμικού σχεδίαση Η σχεδίαση του

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 5 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Παραγώγιση Εισαγωγή Ορισμός 7. Αν y f x είναι μια συνάρτηση ορισμένη σε ένα διάστημα

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Μοντελοποίηση Πεδίου

Μοντελοποίηση Πεδίου Μοντελοποίηση Πεδίου περιεχόμενα παρουσίασης Εννοιολογικές κλάσεις Συσχετίσεις εννοιολογικών κλάσεων Τύποι ιδιοτήτων Γενίκευση Συχνά σφάλματα μοντελοποίησης πεδίου Εννοιολογικές κλάσεις και κλάσεις λογισμικού

Διαβάστε περισσότερα

Στάδιο Εκτέλεσης

Στάδιο Εκτέλεσης 16 ΚΕΦΑΛΑΙΟ 1Ο 1.4.2.2 Στάδιο Εκτέλεσης Το στάδιο της εκτέλεσης μίας έρευνας αποτελεί αυτό ακριβώς που υπονοεί η ονομασία του. Δηλαδή, περιλαμβάνει όλες εκείνες τις ενέργειες από τη στιγμή που η έρευνα

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420) Διάλεξη 8: Σχεδίαση Συστήματος Σχεδίαση Συστήματος 2 Διεργασία μετατροπής του προβλήματος σε λύση. Από το Τί στο Πώς. Σχέδιο: Λεπτομερής περιγραφή της λύσης. Λύση:

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΘΕΜΑ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ ΜΕ ΤΗ ΧΡΗΣΗ WEKA ΛΑΖΑΡΙΔΟΥ ΠΑΡΘΕΝΑ ΜΕΤΑΞΑ ΟΛΓΑ ΕΠΙΒΛΕΠΩΝ

Διαβάστε περισσότερα

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Αναζήτηση γνώσης σε Νοσοκομειακά Δεδομένα ΤΟΡΤΟΠΙΔΗΣ ΓΕΩΡΓΙΟΣ Μηχανικός Η/Υ & Πληροφορικής Επιβλέπων: ΒΛΑΧΑΒΑΣ Π. ΙΩΑΝΝΗΣ Καθηγητής Τμ. Πληροφορικής

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

Σχεδίαση μαθησιακών δραστηριοτήτων λογιστικά φύλλα υπερμεσικά περιβάλλοντα προσομοιώσεις

Σχεδίαση μαθησιακών δραστηριοτήτων λογιστικά φύλλα υπερμεσικά περιβάλλοντα προσομοιώσεις Σχεδίαση μαθησιακών δραστηριοτήτων λογιστικά φύλλα υπερμεσικά περιβάλλοντα προσομοιώσεις Καθηγητής Τ. Α. Μικρόπουλος Προδιαγραφές Βασικό και αφετηριακό σημείο για τη σχεδίαση μαθησιακών δραστηριοτήτων

Διαβάστε περισσότερα

Περιεχόμενα ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Πρόλογος 15

Περιεχόμενα ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Πρόλογος 15 Περιεχόμενα Πρόλογος 15 ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ 1 Τεχνητή νοημοσύνη 21 1.1 Εισαγωγή 21 1.2 Ιστορική εξέλιξη 22 1.3 Εφαρμογές Τεχνητής Νοημοσύνης 25 2 Επίλυση Προβλημάτων 29 2.1 Διαμόρφωση

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

Παιδαγωγικές δραστηριότητες μοντελοποίησης με χρήση ανοικτών υπολογιστικών περιβαλλόντων

Παιδαγωγικές δραστηριότητες μοντελοποίησης με χρήση ανοικτών υπολογιστικών περιβαλλόντων Παιδαγωγικές δραστηριότητες μοντελοποίησης με χρήση ανοικτών υπολογιστικών περιβαλλόντων Βασίλης Κόμης, Επίκουρος Καθηγητής Ερευνητική Ομάδα «ΤΠΕ στην Εκπαίδευση» Τμήμα Επιστημών της Εκπαίδευσης και της

Διαβάστε περισσότερα

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ Δομή παρουσίασης Εισαγωγή Βασικές Έννοιες Σχετικές μελέτες Εφαρμογή Δεδομένων Συμπεράσματα Εισαγωγή Μελέτη και προσαρμογή των διάφορων

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ Ενότητα # 7: Δειγματοληψία Μιλτιάδης Χαλικιάς Τμήμα Διοίκησης Επιχειρήσεων Άδειες Χρήσης

Διαβάστε περισσότερα

E[ (x- ) ]= trace[(x-x)(x- ) ]

E[ (x- ) ]= trace[(x-x)(x- ) ] 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΚΩΔΙΚΟΣ ΠΑΡΑΔΟΤΕΟΥ: Π18 ΑΡΙΘΜΟΣ ΠΡΩΤΟΚΟΛΛΟΥ ΈΡΓΟΥ: ΤΠΕ/ΟΡΖΙΟ/0308(ΒΕ)/03 ΤΙΤΛΟΣ ΕΡΓΟΥ: ΓΕΝΙΚΕΥΜΕΝΟ ΣΥΣΤΗΜΑ ΑΣΑΦΟΥΣ ΓΝΩΣΤΙΚΟΥ ΧΑΡΤΗ

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Συγγραφή ερευνητικής πρότασης

Συγγραφή ερευνητικής πρότασης Συγγραφή ερευνητικής πρότασης 1 o o o o Η ερευνητική πρόταση είναι ένα ιδιαίτερα σημαντικό τμήμα της έρευνας. Η διατύπωσή της θα πρέπει να είναι ιδιαίτερα προσεγμένη, περιεκτική και βασισμένη στην ανασκόπηση

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων Παράδειγμα Μας δίνονται τα παρακάτω δεδομένα που αντιπροσωπεύουν τις τιμές πίεσης σε ατμόσφαιρες

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ

Διαβάστε περισσότερα

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Γαροφαλάκης Ιωάννης Πολυτεχνική Σχολή Τμήμα Μηχ/κών Η/Υ & Πληροφορικής Περιεχόμενα ενότητας Εισαγωγή Συλλογή

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Αναλυτικό Πρόγραμμα Μαθηματικών

Αναλυτικό Πρόγραμμα Μαθηματικών Αναλυτικό Πρόγραμμα Μαθηματικών Σχεδιασμός... αντιμετωπίζει ενιαία το πλαίσιο σπουδών (Προδημοτική, Δημοτικό, Γυμνάσιο και Λύκειο), είναι συνέχεια υπό διαμόρφωση και αλλαγή, για να αντιμετωπίζει την εξέλιξη,

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.» ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΙΔΙΚΕΥΣΗΣ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Διπλωματική εργασία με θέμα: «Ανάπτυξη υποδείγματος για την αξιολόγηση αυτοκινήτων με

Διαβάστε περισσότερα

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ Μ. Γρηγοριάδου Ρ. Γόγουλου Ενότητα: Η Διδασκαλία του Προγραμματισμού Περιεχόμενα Παρουσίασης

Διαβάστε περισσότερα

Σχεδιασμός Οικολογικού Διαμεσολαβητή για την εποπτεία και διαχείριση δικτύου διανομής ηλεκτρικής ενέργειας

Σχεδιασμός Οικολογικού Διαμεσολαβητή για την εποπτεία και διαχείριση δικτύου διανομής ηλεκτρικής ενέργειας Σχεδιασμός Οικολογικού Διαμεσολαβητή για την εποπτεία και διαχείριση δικτύου διανομής ηλεκτρικής ενέργειας Σωτηρία Δριβάλου Εθνικό Μετσόβιο Πολυτεχνείο Μονάδα Εργονομίας Συστήματα διανομής ηλεκτρικής ενέργειας

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ 3.1 Εισαγωγή ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ Στο κεφ. 2 είδαμε πώς θα μπορούσαμε να σχεδιάσουμε έναν βέλτιστο ταξινομητή εάν ξέραμε τις προγενέστερες(prior) πιθανότητες ( ) και τις κλάση-υπό όρους πυκνότητες

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ 2 η ΙΑΧΕΙΡΙΣΗ ΡΟΗΣ ΕΡΓΑΣΙΑΣ (WORKFLOW MANAGEMENT) 2.1 Εισαγωγή

ΕΝΟΤΗΤΑ 2 η ΙΑΧΕΙΡΙΣΗ ΡΟΗΣ ΕΡΓΑΣΙΑΣ (WORKFLOW MANAGEMENT) 2.1 Εισαγωγή ΕΝΟΤΗΤΑ 2 η ΙΑΧΕΙΡΙΣΗ ΡΟΗΣ ΕΡΓΑΣΙΑΣ (WORKFLOW MANAGEMENT) 2.1 Εισαγωγή Οι σηµερινές δραστηριότητες των επιχειρήσεων δηµιουργούν την ανάγκη για όσο το δυνατό µεγαλύτερη υποστήριξη από τα πληροφοριακά τους

Διαβάστε περισσότερα

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ

2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ 2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ Προκειμένου να επιτευχθεί η «ακριβής περιγραφή» ενός αλγορίθμου, χρησιμοποιείται κάποια γλώσσα που μπορεί να περιγράφει σειρές ενεργειών με τρόπο αυστηρό,

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

Δομές Δεδομένων. Ενότητα 1 - Εισαγωγή. Χρήστος Γκουμόπουλος. Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων

Δομές Δεδομένων. Ενότητα 1 - Εισαγωγή. Χρήστος Γκουμόπουλος. Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Δομές Δεδομένων Ενότητα 1 - Εισαγωγή Χρήστος Γκουμόπουλος Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Αντικείμενο μαθήματος Δομές Δεδομένων (ΔΔ): Στην επιστήμη υπολογιστών

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Μαθησιακές δραστηριότητες με υπολογιστή

Μαθησιακές δραστηριότητες με υπολογιστή ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Μαθησιακές δραστηριότητες με υπολογιστή Κατευθυντήριες γραμμές σχεδίασης μαθησιακών δραστηριοτήτων Διδάσκων: Καθηγητής Αναστάσιος Α. Μικρόπουλος Άδειες

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

Media Monitoring. Ενότητα 2: Η ανάλυση περιεχομένου. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ

Media Monitoring. Ενότητα 2: Η ανάλυση περιεχομένου. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ Media Monitoring Ενότητα 2: Η ανάλυση περιεχομένου Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ Ορισμός Μετατρέπει υλικό ποιοτικής κυρίως φύσης σε μορφή ποσοτικών/ποιοτικών δεδομένων Μπορεί να οριστεί ως

Διαβάστε περισσότερα

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα Τµήµα Διοίκησης Επιχειρήσεων Τει Δυτικής Ελλάδας Μεσολόγγι Δρ. Α. Στεφανή Διάλεξη 5 2 Εγκυροποίηση Λογισµικού Εγκυροποίηση Λογισµικού

Διαβάστε περισσότερα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ ΜΕΡΟΣ ΙΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ Πολλές από τις αποφάσεις

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους. του Σταύρου Κοκκαλίδη. Μαθηματικού

Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους. του Σταύρου Κοκκαλίδη. Μαθηματικού Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους του Σταύρου Κοκκαλίδη Μαθηματικού Διευθυντή του Γυμνασίου Αρχαγγέλου Ρόδου-Εκπαιδευτή Στα προγράμματα Β Επιπέδου στις ΤΠΕ Ορισμός της έννοιας του σεναρίου.

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ... ΠΕΡΙΕΧΟΜΕΝΑ ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...................................... 11 ΠΡΟΛΟΓΟΣ..........................................................15 1. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΑΝΑΛΥΤΙΚΗ, ΣΤΑ ΠΟΣΟΤΙΚΑ

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2 (ΨΥΧ-122) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: lzabetak@dpem.tuc.gr Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ 28210 37323 Διάλεξη 2 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ

Διαβάστε περισσότερα