«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»"

Transcript

1 Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER» ΣΑΙΝΑΤΟΥΔΗ ΣΤΥΛΙΑΝΗ ΟΚΤΩΒΡΙΟΣ 2014 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ ΓΕΡΟΝΤΙΔΗΣ ΙΩΑΝΝΗΣ Εκπονηθείσα πτυχιακή εργασία απαραίτητη για την κτήση του βασικού πτυχίου

2 ΠΡΟΛΟΓΟΣ Η παρούσα πτυχιακή εργασία πραγματοποιήθηκε στο ΤΕΙ Καβάλας, στο τμήμα Διαχείρισης Πληροφοριών. Στόχος αυτής της πτυχιακής εργασίας είναι η στατιστική ανάλυση δεδομένων από τον πιστωτικό κίνδυνο με το λογισμικό εξόρυξης 8ΐ8ίΐ8ΐΙθ8ϋ8ί8ΜΙπθΓ. Η πολυπλοκότητα του προβλήματος του πιστωτικού κινδύνου επιχειρήσεων, αλλά και η ιδιαίτερη σημασία για τις τράπεζες καθιστά αναγκαία την ανάπτυξη των κατάλληλων μοντέλων για την αξιολόγηση. Με τον τρόπο αυτό αυξάνεται η πιθανότητα επιτυχίας, και μειώνεται αμφότερα, η πιθανότητα αβεβαιότητας επίτευξης των συνολικών στόχων. Θέλω να ευχαριστήσω τον επιβλέπων καθηγητή μου Δρ. Γεροντίδη Ιωάννη, ο οποίος με βοήθησε πολύ έτσι ώστε να ολοκληρωθεί αυτή η εργασία. Τον ευχαριστώ για όσα μου δίδαξε, για το επιστημονικό υλικό που μου πρόσφερε και τις συμβουλές του. Τέλος θα ήθελα να ευχαριστήσω την οικογένεια μου και τον Νίκο για την καθημερινή τους συμπαράσταση, την υπομονή τους και για την θετική τους σκέψη, όπου συνέλαβαν στην εκπλήρωση του στόχου μου. Σελίδα 1 από 83

3 ΠΕΡΙΕΧΟΜΕΝΑ ΕΙΣΑΓΩΓΗ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ 1.1 Η τεχνική εξόρυξης από δεδομένα Η διαδικασία εξόρυξης δεδομένων Απαιτήσεις εξόρυξης δεδομένων Τεχνικές ανακάλυψης γνώσης Κατηγοριοποίηση Κατηγοριοποίηση με βάση Νευρωνικά Δίκτυα Συσταδοποίηση Κανόνες συσχέτισης Πρότυπα ακολουθιών Παλινδρόμηση Συνοπτική παρουσίαση πληροφορίας ΔΕΝΔΡΑ ΑΠΟΦΑΣΕΩΝ 2.1 Τι είναι τα δένδρα αποφάσεων Πλεονεκτήματα και μειονεκτήματα των Δένδρων Αποφάσεων Αλγόριθμοι κατασκευής Δένδρων Αποφάσεων Αλγόριθμος ^ Αλγόριθμος C Αλγόριθμος SPRINT Αλγόριθμος SLIQ Αλγόριθμος CHAID Σελίδα 2 από 83

4 2.3.6 Αλγόριθμος CART ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΜΕ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ 3.1 Εισαγωγή Bayesian κατηγοριοποίηση Naïve Bayesian κατηγοριοποίηση Bayesian Belief Networks Κατηγοριοποίηση με βάση Νευρωνικά Δίκτυα Κατηγοριοποίηση με βάση την τεχνική των Εγγύτερων Γειτόνων Ασαφής κατηγοριοποίηση Παραγωγή κανόνων κατηγοριοποίησης ΕΝΝΟΙΑ ΤΟΥ ΚΙΝΔΥΝΟΥ ΚΑΙ ΠΙΣΤΩΤΙΚΟΣ ΚΙΝΔΥΝΟΣ 4.1 Έννοια του κινδύνου και είδη κινδύνων Κίνδυνος αγοράς Πιστωτικός κίνδυνος Κίνδυνος ρευστότητας Λειτουργικός κίνδυνος Κίνδυνος χώρας Πιστωτικός κίνδυνος Είδη πιστωτικού κινδύνου Κίνδυνος αθέτησης Κίνδυνος έκθεσης Κίνδυνος ανάκτησης ΑΝΑΛΥΣΗ ΠΡΑΓΜΑΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ 5.1 Περιγραφή του αρχείου των δεδομένων Ανάλυση δεδομένων με τη μέθοδο CART Ανάλυση δεδομένων με τη μέθοδοchaid Σελίδα 3 από 83

5 5.4 Σύγκριση αποτελεσμάτων μεθόδων ΟΔΚΪκαι ΟΗΔίϋ Συμπεράσματα και περαιτέρω έρευνα Σελίδα 4 από 83

6 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ 3.1: Δοκιμαστικά δεδομένα : Αποτελέσματα τερματικών κόμβων : Εσφαλμένη ταξινόμηση πελατών : Συγκεντρωτικά : Αποτελέσματα τερματικών κόμβων...75 Σελίδα 5 από 83

7 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 1.1: Κατηγοριοποίηση του συνόλου δεδομένων δανείων χρησιμοποιώντας ένα όριο για το γνώρισμα «income» : Διαδικασία ταξινόμησης: Εκμάθηση : Δομή νευρωτικού δικτύου : Βήματα της διαδικασίας συσταδοποιήσης : Δικτυωτό πλέγμα που προκαλείται από τις μέγιστες ακολουθίες T1^H3P1^P2 και H 2 ^T 2 ^T : Δομή Δένδρου Απόφασης : Διαδικασία κατηγοριοποιήσης : Δομή νευρωτικού δικτύου : Επίπεδα νευρωτικού δικτύου : Το δένδρο απόφασης που ορίζεται από τα δοκιμαστικά δεδομένα του Πίνακα : Επεξεργασία δεδομένων με το StatisticaDataMiner : Δένδρο παλινδρόμησης με τη μέθοδο CART : Διάταξη δένδρου για τη μέθοδο CART :Γράφημα εσφαλμένης ταξινόμησης : Δένδρο παλινδρόμησης με τη μέθοδο CHAID : Διάταξη δένδρου για τη μέθοδο CHAID...74 Σελίδα 6 από 83

8 ΕΙΣΑΓΩΓΗ Σκοπός της παρούσας εργασίας είναι η ανάπτυξη ενός μοντέλου πρόβλεψης για τον πιστωτικό κίνδυνο των καταναλωτών, προκειμένου να εντοπιστούν και να διερευνηθούν οι παράγοντες που χαρακτηρίζουν τους επισφαλείς πελάτες μεταξύ εκείνων που έχουν ήδη δανειοδοτηθεί από τις τράπεζες. Στόχος του μοντέλου είναι ο εντοπισμός των μελλοντικών επισφαλών πελατών. Η ανάλυση θα βασιστεί πάνω σ ένα αρχείο 425 περιπτώσεων με 15 μεταβλητές από παλαιούς πελάτες και θα χρησιμοποιηθούν μέθοδοι κατηγοριοποίησης δένδρων αποφάσεων όπως είναι τα CART και CHAID με τη βοήθεια του λογισμικού StatisticaDataMiner. Η δομή της εργασίας διαμορφώνεται ως εξής: Το πρώτο κεφάλαιο που είναι εισαγωγικό περιέχει την οριοθέτηση της πτυχιακής και την βιβλιογραφική έρευνα. Στο δεύτερο κεφάλαιο παρατίθεται ο ορισμός και η περιγραφή του προβλήματος της κατηγοριοποίησης με δένδρα παλινδρόμησης (CART και CHAID). Στο τρίτο κεφάλαιο αναλύουμε την ανακάλυψη γνώσης μέσω κατηγοριοποίησης. Στο τέταρτο κεφάλαιο αναφέρουμε την έννοια του κινδύνου, την αναλύουμε και μελετούμε αναλυτικά τα είδη κινδύνων. Ιδιαίτερα, γίνεται αναφορά και στον πιστωτικό κίνδυνο και τα είδη του. Στο πέμπτο κεφάλαιο πραγματοποιείται ανάλυση πραγματικών δεδομένων με το StatisticaDataMiner παραθέτοντας τα αποτελέσματα που προκύπτουν και η εργασία ολοκληρώνεται με τα συμπεράσματα. Σελίδα 7 από 83

9 ΚΕΦΑΛΑΙΟ 1 ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ 1.1 Η ΤΕΧΝΙΚΗ ΕΞΟΡΥΞΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, των μηχανών γνώσης, της στατιστικής, καθώς επίσης και ως μία σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Οι δικτυακές εφαρμογές που διαχειρίζονται μεγάλες αποθήκες δεδομένων έχουν αρχίσει να κάνουν χρήση διαφόρων τεχνικών εξόρυξης δεδομένων, με σκοπό τη βελτίωση της ποιότητας των παρεχόμενων υπηρεσιών μέσω της μελέτης της συμπεριφοράς των πελατών και της εξαγωγής χρήσιμων συμπερασμάτων από αυτήν (Χαλκίδη, Βαζιργιάννης, 2005). Η τελευταία δεκαετία έχει επιφέρει μια αλματώδη αύξηση στην παραγωγή και συλλογή δεδομένων. Η πρόοδος στην τεχνολογία των βάσεων δεδομένων μας παρέχει νέες τεχνικές για την αποδοτική και αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Επίσης η δυνατότητα ανάλυσης και ερμηνείας των συνόλων δεδομένων, και η εξαγωγή «χρήσιμης» γνώσης από αυτά έχει ξεπεράσει κάθε όριο και έχει δημιουργηθεί η ανάγκη για μία νέα γενιά εργαλείων και τεχνικών για ευφυή ανάλυση βάσεων δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές (τεχνητή νοημοσύνη, στατιστική, αποθήκες δεδομένων, διαδραστική ανάλυση και επεξεργασία, έμπειρα συστήματα και οπτικοποίηση δεδομένων) και ένας νέος ερευνητικός τομέας δημιουργείται, γνωστός ως εξόρυξη δεδομένων και γνώσης (Data and Knowledge Mining). Σελίδα 8 από 83

10 Δεδομένου ότι η πρακτική της εξόρυξης δεδομένων έχει αναπτυχθεί περαιτέρω, το επίκεντρο των ορισμών έχει μετατοπιστεί σε συγκεκριμένες πτυχές των πληροφοριών και των πηγών της. Ο δεύτερος ορισμός εστιάζεται στα μοτίβα των δεδομένων και όχι μόνο σε πληροφορίες υπό μια γενική έννοια. Αυτά τα πρότυπα είναι εξασθενημένα και μπορούν να ανιχνεύονται μόνο από αλγόριθμους ανάλυσης που μπορεί να αξιολογήσουν τις μη γραμμικές σχέσεις μεταξύ των προβλεπτικών μεταβλητών και των προσωπικών στόχων τους. Αυτή η μορφή του ορισμού της εξόρυξης δεδομένων, αναπτύχθηκε μαζί με την άνοδο των εργαλείων μηχανικής μάθησης για χρήση στην εξόρυξη δεδομένων. Εργαλεία όπως τα δένδρα αποφάσεων και τα νευρωνικά δίκτυα επιτρέπουν την ανάλυση των μη γραμμικών προτύπων σε δεδομένα ευκολότερα από ότι είναι δυνατό σε παραμετρικές στατιστικές αλγόριθμους. Ο λόγος είναι ότι οι αλγόριθμοι μηχανικής μάθησης βοηθάνε στο να μάθουμε τον τρόπο με τον οποίο οι άνθρωποι κάνουν το παράδειγμα, όχι με τον υπολογισμό των μετρήσεων που βασίζονται σε μέσους όρους και τις διανομές των δεδομένων. Ο όρος όμως που έχει επικρατήσει και χαρακτηρίζει τη διαδικασία της εύρεσης δομών γνώσης, οι οποίες περιγράφουν με ακρίβεια μεγάλα σύνολα πρωτογενών δεδομένων, είναι «εξόρυξη δεδομένων» (ϋθίθμιπιπς). Οι δομές αυτές αναδεικνύουν γνώση (συσχετίσεις ή κανόνες) που είναι κρυμμένοι μέσα στα δεδομένα και δεν μπορούν να εξαχθούν από τον άνθρωπο-χρήστη της βάσης δεδομένων με «γυμνό» μάτι. Οι προκύπτουσες δομές είναι πλούσιες σε σημασιολογία και εκμεταλλεύονται πιθανές κοινές ιδιότητες των πρωτογενών δεδομένων (Χαλκίδη, Βαζιργιάννης, 2005). Σελίδα 9 από 83

11 Σχήμα 1.1: Κατηγοριοποίηση του συνόλου δεδομένων δανείων χρησιμοποιώντας ένα όριο για το γνώρισμα «income» Μερικές από τις εφαρμογές της εξόρυξης δεδομένων για την ανακάλυψη της γνώσης, είναι: Ανάλυση οργανικών συνθέσεων (analysis of organic compounds) Αυτόματη αφαίρεση (automatic abstracting) Προσδιορισμός απειλών στον κλάδο των πιστώσεων (fraud detection) Ιατρική διάγνωση Οικονομική πρόβλεψη Πρόβλεψη καιρού 1.2 Η ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Η εξόρυξη δεδομένων περιλαμβάνει τα μοντέλα συναρμολογήσεων των υπό εξέταση δεδομένων, ή εναλλακτικά την εξαγωγή των προτύπων από αυτά. Ουσιαστικά, οι παράμετροι του μοντέλου που είναι γνωστές από τα δεδομένα ή τα πρότυπα που προσδιορίζονται, αντιπροσωπεύουν τη γνώση που έχει εξαχθεί από ένα σύνολο δεδομένων. Σελίδα 10 από 83

12 Υπάρχει μια μεγάλη συλλογή αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση, οι αλγόριθμοι και οι βάσεις δεδομένων. Μια θεμελιώδης ιδιότητα των αλγορίθμων εξόρυξης δεδομένων και αυτή που διαφοροποιεί τους περισσότερους από αυτούς από άλλες παρόμοιες τεχνικές που υιοθετούνται στη μηχανική μάθηση και τη στατιστική, είναι ότι οι αλγόριθμοι εξόρυξης δεδομένων έχουν σχεδιαστεί με έμφαση στην εξελιξιμότητα όσον αφορά το μέγεθος του συνόλου δεδομένων εισαγωγής. Η πλειοψηφία των αλγορίθμων εξόρυξης δεδομένων μπορούν να αντιμετωπισθούν ως σύνθεση των τριών ακόλουθων συστατικών (Fayyad, et.al., 1996): S Την περιγραφή του μοντέλου. Υπάρχουν δύο παράγοντες σχετικοί με το μοντέλο: Η λειτουργία του μοντέλου. Καθορίζει τους βασικούς στόχους κατά τη διάρκεια της διαδικασίας εξόρυξης δεδομένων (π.χ. Classification ή clustering). Η παραστατική μορφή τον μοντέλου. Η απεικόνιση του μοντέλου καθορίζει και το ταίριασμα του με την απεικόνιση των δεδομένων και τη δυνατότητα να ερμηνευθεί το μοντέλο με κατανοητούς όρους. Χαρακτηριστικά, πιο περίπλοκα μοντέλα ταιριάζουν καλύτερα στα δεδομένα αλλά μπορεί να είναι δυσκολότερο να γίνουν κατανοητά και να ανταποκριθούν σε πραγματικές συνθήκες. Τα πιο γνωστά μοντέλα είναι τα δένδρα και οι κανόνες απόφασης, τα νευρωνικά δίκτυα, τα συστήματα βασισμένα σε παραδείγματα, τα γραφικά μοντέλα, τα μοντέλα βασισμένα στις πιθανότητες (π.χ. δίκτυα Bayes και τα συγγενικά μοντέλα) (Χαλκίδη, Βαζιργιάννης, 2005). S Την αξιολόγηση του μοντέλου. Με βάση κάποια κριτήρια αξιολόγησης (π.χ. μέγιστη πιθανότητα) μπορεί να καθοριστεί πόσο καλά ένα συγκεκριμένο μοντέλο ταιριάζει με τα κριτήρια της KDD διαδικασίας. Γενικά, η αξιολόγηση του μοντέλου αναφέρεται και στην εγκυρότητα των Σελίδα 11 από 83

13 προτύπων και στην αξιολόγηση της ακρίβειας, της χρησιμότητας και της δυνατότητας κατανόησης του μοντέλου: ^ Τους αλγόριθμους αναζήτησης. Αναφέρεται στην προδιαγραφή ενός αλγορίθμου να βρίσκει συγκεκριμένα μοντέλα και παραμέτρους, δοσμένου ενός συνόλου δεδομένων, μιας οικογένειας μοντέλων και ενός κριτηρίου αξιολόγησης. Υπάρχουν δύο τύποι αλγορίθμων αναζήτησης: Αυτοί που αναζητούν παραμέτρους. Αυτός ο τύπος αλγορίθμων ψάχνει για παραμέτρους, οι οποίες βελτιστοποιούν ένα κριτήριο αξιολόγησης για το μοντέλο. Οι αλγόριθμοι εκτελούν το στόχο αναζήτησης παίρνοντας ως είσοδο ένα σύνολο δεδομένων και μια απεικόνιση μοντέλου. Αυτοί που αναζητούν μοντέλα. Εκτελούν μια επαναληπτική διαδικασία αναζήτησης για την αντιπροσώπευση των δεδομένων. Για κάποια συγκεκριμένη απεικόνιση ενός μοντέλου, εφαρμόζεται η μέθοδος αναζήτησης παραμέτρων και η ποιότητα των αποτελεσμάτων αξιολογείται. 1.3 ΑΠΑΙΤΗΣΕΙΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Για να είναι αποτελεσματική μια διαδικασία εξόρυξης δεδομένων, πρέπει πρώτα να εξεταστεί το είδος των χαρακτηριστικών που ένα σύστημα εξόρυξης δεδομένων αναμένεται να έχει καθώς επίσης και οι απαιτήσεις που πρέπει να ληφθούν υπόψη στην ανάπτυξη των τεχνικών εξόρυξης δεδομένων. Οι κύριες απαιτήσεις μπορούν να συνοψιστούν στα εξής (Chen, et.al., Agrawal, et.al., 1998): S Χειρισμός των διαφορετικών τύπων δεδομένων. Δεδομένου ότι διαφορετικοί τύποι και βάσεις δεδομένων χρησιμοποιούνται σε διαφορετικές εφαρμογές, είναι σημαντικό ένα σύστημα εξόρυξης δεδομένων να εφαρμόζεται αποτελεσματικά σε διαφορετικούς τύπους δεδομένων. Οι βάσεις δεδομένων είναι στη συντριπτική τους πλειοψηφία συγγενείς μεταξύ τους. Συνεπώς, είναι σημαντικό ένα σύστημα εξόρυξης Σελίδα 12 από 83

14 δεδομένων να υποστηρίζει τεχνικές για αποδοτική και αποτελεσματική ανάλυση συγγενικών δεδομένων. ^ Απόδοση και εξελιξιμότητα των αλγορίθμων εξόρυξης δεδομένων. Για να επιτευχθεί αποτελεσματική εξόρυξη γνώσης από μεγάλα σύνολα δεδομένων οι αλγόριθμοι πρέπει να προσαρμοστούν κατάλληλα σε αυτά. Αυτό σημαίνει ότι ο χρόνος εκτέλεσης των αλγορίθμων εξόρυξης δεδομένων πρέπει να είναι αποδεκτός και αναμενόμενος για μεγάλες βάσεις δεδομένων. Οι αλγόριθμοι με εκθετική ή πολυωνυμική πολυπλοκότητα δεν είναι κατάλληλοι. ^ Χρησιμότητα, βεβαιότητα και εκφραστικότητα των αποτελεσμάτων εξόρυξης δεδομένων. Η εξορυγμένη γνώση πρέπει να παρουσιάζει με ακριβή τρόπο τα περιεχόμενα των βάσεων δεδομένων. Η ακρίβεια των αποτελεσμάτων θα μπορούσε να εκφραστεί χρησιμοποιώντας κάποια μέτρα βεβαιότητας. Ο θόρυβος και οι οϋίίιθγβ, που αντιπροσωπεύουν τις εξαιρέσεις, πρέπει να αντιμετωπιστούν αποτελεσματικά από τα συστήματα εξόρυξης δεδομένων. Το γεγονός αυτό, δίνει το κίνητρο για μια συστηματική μελέτη της ποιότητας της εξορυγμένης γνώσης, της κατασκευαστικής στατιστικής, των αναλυτικών μοντέλων, των μοντέλων προσομοίωσης, καθώς και των εργαλείων. ^ Διαφορετικού τύπου εκφράσεις των ερωτήσεων και αποτελεσμάτων της εξόρυξης δεδομένων. Διαφορετικοί τύποι γνώσεων θα μπορούσαν να εξαχθούν από μεγάλα σύνολα δεδομένων. ^ Διαλογική ανακάλυψη γνώσης στα πολυ-εννοιολογικά επίπεδα. Η διαλογική ανακάλυψη της γνώσης επιτρέπει στο χρήστη να αλληλεπιδράσει με ένα σύστημα, καθορίζοντας τις ερωτήσεις εξόρυξης δεδομένων προκειμένου να αλλάξει την εστίαση των δεδομένων, να οδηγήσει μια διαδικασία εξόρυξης δεδομένων σε ένα πιο λεπτομερές επίπεδο και να δει τα δεδομένα και τα αποτελέσματα εξόρυξης δεδομένων σε πολλαπλά επίπεδα και από διάφορες πτυχές. ^ Εξόρυξη γνώσης από διαφορετικές πηγές δεδομένων. Η διάδοση της σύνδεσης υπολογιστών σε τοπικό και παγκόσμιο επίπεδο, συμπεριλαμβανομένου του διαδικτύου, έχει το προβάδισμα στη σύνδεση Σελίδα 13 από 83

15 των διάφορων πηγών δεδομένων. Αυτό οδηγεί στη δημιουργία μεγάλων κατανεμημένων και ετερογενών βάσεων δεδομένων. Το τεράστιο ποσό δεδομένων, η υψηλή κατανομή τους και υπολογιστική πολυπλοκότητα τους οδηγούν στην ανάπτυξη παράλληλων και κατανεμημένων αλγορίθμων εξόρυξης δεδομένων. 1.4 ΤΕΧΝΙΚΕΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ Η ανακάλυψη γνώσης από βάσεις δεδομένων (Knowledge Discovery in Databases - KDD) αναφέρεται στη διεργασία εξόρυξης γνώσης από τις μεγάλες αποθήκες δεδομένων. Ο όρος εξόρυξη δεδομένων χρησιμοποιείται ως συνώνυμο της ανακάλυψης γνώσης από βάσεις δεδομένων, καθώς επίσης και για αναφορά στις πραγματικές τεχνικές που χρησιμοποιούνται για την ανάλυση και την εξαγωγή της από διάφορα σύνολα δεδομένων (Χαλκίδη, Βαζιργιάννης, 2005). Η εξόρυξη δεδομένων (DataMining) μπορεί να οριστεί με διάφορους τρόπους, που διαφέρουν κυρίως στο επίκεντρο τους σχετικά με διάφορες πτυχές της εξόρυξης δεδομένων. Ένας από τους πρώτους ορισμούς είναι η μη-τετριμμένη σιωπηρή εξόρυξη, προηγουμένως άγνωστη, και πιθανότατα αποτελεί μια χρήσιμη πληροφορία από τα δεδομένα (Frawleyetal, 1991). Άλλοι ορισμοί που χρησιμοποιούνται οι ακόλουθοι ορισμοί: Στατιστική μοντελοποίηση: Η χρήση των παραμετρικών στατιστικών αλγορίθμων για την ομάδα ή για την πρόβλεψη ενός αποτελέσματος ή μιας εκδήλωσης, με βάση τις μεταβλητές πρόβλεψης. Η εξόρυξη δεδομένων: Η χρήση αλγορίθμων μηχανικής μάθησης για να βρει εξασθενημένα πρότυπα της σχέσης μεταξύ των στοιχείων δεδομένων σε μεγάλα, θορυβώδη και βρώμικα σύνολα δεδομένων, τα οποία μπορεί να οδηγήσουν σε ενέργειες για την αύξηση του επιδόματος με κάποια μορφή (διάγνωση, το κέρδος, την ανίχνευση, κ.λπ.). Σελίδα 14 από 83

16 Ανακάλυψη γνώσης: Η όλη διαδικασία της πρόσβασης στα δεδομένα, η διερεύνηση δεδομένων, η προετοιμασία των δεδομένων, η μοντελοποίηση, το μοντέλο ανάπτυξης και το μοντέλο παρακολούθησης. Οι βασικοί στόχοι της εξόρυξης γνώσης είναι η εφαρμογή τεχνικών περιγραφής και πρόβλεψης σε μεγάλα σύνολα δεδομένων. Η πρόβλεψη στοχεύει στον υπολογισμό της μελλοντικής αξίας ή στην πρόβλεψη της συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και οι οποίες βασίζονται στη συμπεριφορά άλλων μεταβλητών. Η περιγραφή επικεντρώνεται στην ανακάλυψη προτύπων και αναπαριστά τα δεδομένα μιας πολύπλοκης βάσης δεδομένων με έναν κατανοητό και αξιοποιήσιμο τρόπο. Η σημαντικότητα της πρόβλεψης και της περιγραφής διαφέρει ανάλογα με τις εφαρμογές εξόρυξης δεδομένων. Ωστόσο, ως προς την εξόρυξη γνώσης η περιγραφή τείνει να είναι περισσότερο σημαντική από την πρόβλεψη, σε αντίθεση με την αναγνώριση προτύπων και την εφαρμογή μηχανικής μάθησης για τις οποίες η πρόβλεψη είναι πιο σημαντική. Ένας αριθμός μεθόδων εξόρυξης δεδομένων, έχει προταθεί για να ικανοποιεί τις απαιτήσεις διαφορετικών εφαρμογών. Ωστόσο, όλες επιτυγχάνουν μια ομάδα από διεργασίες εξόρυξης δεδομένων για να προσδιορίσουν και να περιγράψουν ενδιαφέροντα πρότυπα γνώσης που έχουν αντληθεί από ένα σύνολο δεδομένων. Παρακάτω περιγράφονται οι διεργασίες αυτές (Berry, et.al., Fayyad, et.al., 1996) Κατηγοριοπ οίηση To πρόβλημα της κατηγοριοποίησης έχει μελετηθεί εκτενώς στη στατιστική, στην αναγνώριση προτύπων (patterns) και μηχανικής μάθησης (machine learning) στα πλαίσια του προβλήματος της ανάκτησης ή εξαγωγής γνώσης από σύνολα δεδομένων (Duda, et. al., 1973). Σελίδα 15 από 83

17 Χαρακτηρίζεται ως μία από τις βασικές εργασίες στη διαδικασία εξόρυξης γνώσης, η οποία αποσκοπεί στην ανάθεση ενός στοιχείου σε ένα προκαθορισμένο σύνολο κατηγοριών (classes).h κατηγοριοποίηση (classification) μπορεί να περιγραφεί ως μία λειτουργία που αντιστοιχίζει (κατηγοριοποιεί) ένα στοιχείο σε μία από τις διαφορετικές κατηγορίες που Λ έχουν προκαθοριστεί1(fayyad, et.al., 1996). Η κατηγοριοποίηση χαρακτηρίζεται από ένα καλά καθορισμένο σύνολο κατηγοριών καθώς και ένα σύνολο από προκατηγοριοποιημένα (pre-classified) παραδείγματα (αντίθετα, η διαδικασία συσταδοποίησης δεν στηρίζεται σε προκαθορισμένες κατηγορίες ή παραδείγματα). Γενικά, ο στόχος της διαδικασίας κατηγοριοποίησης είναι η δημιουργία ενός μοντέλου που θα μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση μελλοντικών δεδομένων των οποίων η κατηγοριοποίηση είναι άγνω στη^π7, et.al., 1996). Στις περισσότερες περιπτώσεις, υπάρχει ένας περιορισμένος αριθμός κατηγοριών και θα πρέπει κάθε εγγραφή να ανατεθεί στην κατάλληλη κατηγορία. Για το σκοπό αυτό χρησιμοποιούνται κάποιες τεχνικές, οι οποίες κατατάσσονται σε δύο κατηγορίες. Η πρώτη χρησιμοποιεί Δένδρα Αποφάσεων (Decision Trees) (Mitcell, Han, et. al., 2001) και η δεύτερη Νευρωνικά Δίκτυα (Neural Networks). Και οι δύο στηρίζονται στην ιδέα της «εκπαίδευσης» (training) με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης (training set). Το υποσύνολο αυτό επιλέγεται σαν αντιπροσωπευτικό δείγμα του συνολικού όγκου δεδομένων. Με την εφαρμογή της διαδικασίας εκπαίδευσης καθορίζονται κάποια πρότυπα για τις κατηγορίες δεδομένων. Έτσι, όταν προκύψει ένα νέο στοιχείο τότε μπορεί εύκολα να κατηγοριοποιηθεί. Για τη διαδικασία αυτή χρησιμοποιούνται είτε τεχνικές βασισμένες στα νευρωνικά δίκτυα είτε συμβολικές τεχνικές. Στις πρώτες υπάρχει το φαινόμενο της αμφίδρομης αναμετάδοσης και επεξεργασίας 1 Ο όρος ταξινόμηση χρησιμοποιείται στη βιβλιογραφία ως συνώνυμο της κατηγοριοποίησης. Σελίδα 16 από 83

18 δεδομένων ενώ στη δεύτερη υπάρχουν μοντέλα δένδρων αποφάσεων ή μοντέλα για IF...THEN...ELSE ανάλυση. Πιο συγκεκριμένα, η κατηγοριοποίηση δεδομένων μπορεί να περιγραφεί ως μία διαδικασία δύο βημάτων: Βήμα 1ο: Εκμάθηση (Learning). Σε αυτό το βήμα χτίζεται ένα μοντέλο (model), περιγράφοντας ένα προκαθορισμένο σύνολο από κατηγορίες δεδομένων. Τα δεδομένα εκπαίδευσης (training data) αναλύονται από έναν αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν στη συνέχεια το μοντέλο. Τα στοιχεία που αποτελούν το σύνολο κατάρτισης επιλέγονται τυχαία από έναν πληθυσμό δεδομένων και ανήκουν σε μία από τις προκαθορισμένες κατηγορίες. Δεδομένου ότι η κατηγορία των δειγμάτων εκπαίδευσης είναι γνωστή, αυτό το βήμα είναι επίσης γνωστό σαν «εποπτευμένη μάθηση» (supervised learning). Το μοντέλο που ορίζεται, γνωστό και ως κατηγοριοποιητής (classifier), αναπαριστάται με τη μορφή κανόνων κατηγοριοποίησης (classification rules), δένδρων αποφάσεων (decision trees) ή μαθηματικών τύπων (mathematical formulas) (Han, et.al., 2001). Βήμα 2ο: Κατηγοριοποίηση (Classification). Σε αυτό το βήμα χρησιμοποιούνται τα δοκιμαστικά δεδομένα (test data) για να υπολογίσουν την ακρίβεια (accuracy) του μοντέλου. Υπάρχουν διάφορες μέθοδοι για να εκτιμηθεί η ακρίβεια του κατηγοριοποιητή (classifier). Τα δεδομένα εκπαίδευσης επιλέγονται τυχαία και είναι ανεξάρτητα. Το μοντέλο κατηγοριοποιεί κάθε ένα από τα δοκιμαστικά παραδείγματα (training samples). Στη συνέχεια η κατηγορία που ανήκουν τα δεδομένα με βάση το σύνολο δοκιμαστικών δεδομένων συγκρίνεται με την πρόβλεψη που έκανε το μοντέλο για την κατηγορία. Η ακρίβεια του μοντέλου σε ένα καθορισμένο σύνολο δεδομένων δοκιμής είναι το ποσοστό των δειγμάτων δοκιμής που κατηγοριοποιήθηκαν σωστά από το υπό εκπαίδευση μοντέλο. Εάν η ακρίβεια του μοντέλου θεωρείται ως αποδεκτή, το μοντέλο μπορεί πλέον να χρησιμοποιηθεί για να κατηγοριοποιήσει τα μελλοντικά Σελίδα 17 από 83

19 δείγματα δεδομένων (αντικείμενα), των οποίων η κατηγοριοποίηση είναι άγνωστη Κατηγοριοποίηση με βάση Νευρωνικά Δίκτυα (NeuralNetworks) Μια άλλη προσέγγιση της κατηγοριοποίησης που χρησιμοποιείται σε πολλές εφαρμογές εξόρυξης γνώσης για πρόβλεψη (prediction) και κατηγοριοποίηση (classification) βασίζεται στα νευρωνικά δίκτυα. Οι μέθοδοι αυτής της προσέγγισης χρησιμοποιούν τα νευρωνικά δίκτυα για να κατασκευάσουν ένα μοντέλο κατηγοριοποίησης ή πρόβλεψης. Τα κύρια βήματα αυτής της διαδικασίας είναι: S Αναγνώριση των χαρακτηριστικών (features) εισόδου και εξόδου. S Κατασκευή ενός δικτύου με την κατάλληλη τοπολογία. S Επιλογή του σωστού συνόλου εκπαίδευσης. S Εκπαίδευση του δικτύου με βάση ένα αντιπροσωπευτικό σύνολο δεδομένων. Τα δεδομένα πρέπει να απεικονίζονται με τέτοιον τρόπο ώστε να μεγιστοποιηθεί η δυνατότητα του δικτύου να αναγνωρίζει πρότυπα. Σελίδα 18 από 83

20 S Έλεγχος του δικτύου χρησιμοποιώντας ένα σύνολο ελέγχου (test data set) το οποίο είναι ανεξάρτητο από το σύνολο εκπαίδευσης (training data set). Κατόπιν το μοντέλο που παράγεται από το δίκτυο, εφαρμόζεται για να προβλέψει τις κατηγορίες (έξοδοι - outputs) των μη κατηγοριοποιημένων δειγμάτων (είσοδοι - inputs). Τα νευρωνικά δίκτυα γίνονται ολοένα και πιο δημοφιλή στον κόσμο των επιχειρήσεων, της επιστήμης, και τον ακαδημαϊκό χώρο. Αυτό συμβαίνει επειδή έχουν ένα αποδεδειγμένο ιστορικό στην πρόβλεψη αριθμητικών ή διαδοχικών αποτελεσμάτων. Τα Νευρωνικά Δίκτυα που χρησιμοποιούνται για τον υπολογισμό, βασίστηκαν στην αρχική κατανόηση της δομής και της λειτουργίας του ανθρώπινου εγκεφάλου. Προτάθηκαν ως ένα μέσο για τον μαθηματικό υπολογισμό από τους McCulloch and Pitts (1943). Ο βασικός ισχυρισμός των νευρωνικών δικτύων είναι ότι όλες οι λειτουργίες ενός ψηφιακού υπολογιστή μπορούν να εκτελεστούν με ένα σύνολο διασυνδεδεμένων «νευρώνων». Σχήμα 1.3: Δομή νευρωνικού δικτύου Σελίδα 19 από 83

21 1.4.2 Συσταδοπ οιήσ η Η συσταδοποιήση (clustering) είναι μια από τις πιο χρήσιμες διεργασίες στη διαδικασία εξόρυξης γνώσης για την ανακάλυψη συστάδων και για τον προσδιορισμό κατανομών ή προτύπων (patterns). Το πρόβλημα της συσταδοποίησης σχετίζεται με την τμηματοποίηση (partitioning) ενός συνόλου δεδομένων σε συστάδες έτσι ώστε τα στοιχεία του συνόλου των δεδομένων που ανήκουν σε μια συστάδα να είναι περισσότερο όμοια μεταξύ τους από ότι είναι με τα στοιχεία των άλλων συστάδων. Για παράδειγμα, έστω μια βάση δεδομένων με εγγραφές λιανικών πωλήσεων. Μια διαδικασία συσταδοποίησης θα ομαδοποιούσε τους πελάτες με τέτοιον τρόπο ώστε οι πελάτες που παρουσιάζουν όμοια αγοραστικά πρότυπα να ανήκουν στην ίδια συστάδα (cluster). Έτσι, το βασικό μέλημα της διαδικασίας συσταδοποίησης είναι να αποκαλύψει την οργάνωση προτύπων σε «λογικές» συστάδες, οι οποίες θα επιτρέψουν την ανακάλυψη ομοιοτήτων και διαφορών, καθώς επίσης και την αποκόμιση χρήσιμων συμπερασμάτων γι αυτά. Η συσταδοποίηση μπορεί να βρεθεί με διαφορετικά ονόματα σε διαφορετικά πεδία, όπως μη εποπτευόμενη μάθηση (unsupervised learning) στην αναγνώριση προτύπων, αριθμητική ταξονομία (numerical taxonomy) στη βιολογία, στην οικολογία, τυπολογία (typology) στις κοινωνικές επιστήμες και τμηματοποίηση (partition) στη θεωρία των γράφων. Στη διαδικασία της συσταδοποίησης δεν υπάρχουν προκαθορισμένες κατηγορίες ούτε κάποιο παράδειγμα που θα έδειχνε ποιες επιθυμητές σχέσεις θα ήταν έγκυρες μεταξύ των δεδομένων. Για το λόγο αυτόν είναι γνωστή ως διαδικασία μη εποπτευόμενης μάθησης (η κατηγοριοποίηση είναι μια διαδικασία ανάθεσης ενός αντικειμένου από το σύνολο των δεδομένων σε μια προκαθορισμένη κατηγορία). Η συσταδοποίηση παράγει τις αρχικές κατηγορίες στις οποίες οι τιμές ενός συνόλου δεδομένων μπορούν να κατηγοριοποιηθούν κατά τη διαδικασία της κατηγοριοποίησης. Σελίδα 20 από 83

22 Η διαδικασία συσταδοποίησης μπορεί να οδηγήσει σε διαφορετικές τμηματοποιήσεις ενός συνόλου δεδομένων, ανάλογα με το κριτήριο που χρησιμοποιείται για τη συσταδοποίηση. Κατά συνέπεια, υπάρχει ανάγκη προεπεξεργασίας των δεδομένων προτού να εφαρμοστεί η διεργασία της συσταδοποίησης σε ένα σύνολο δεδομένων. Τα βασικά βήματα για την ανάπτυξη της διαδικασίας της συσταδοποίησης παρουσιάζονται στο Σχήμα 1.4 και μπορούν να συνοψιστούν στα εξής: S Επιλογή χαρακτηριστικών γνωρισμάτων. Ο στόχος είναι να επιλεγούν κατάλληλα τα γνωρίσματα στα οποία πρόκειται να εφαρμοστεί η συσταδοποίηση ώστε να κωδικοποιηθεί όσο το δυνατόν περισσότερη πληροφορία σχετικά με την εργασία που ενδιαφέρει. Κατά συνέπεια, η προεπεξεργασία των δεδομένων μπορεί να είναι απαραίτητη πριν από τη χρησιμοποίησή τους στη διαδικασία της συσταδοποίησης. S Αλγόριθμος συσταδοποίησης. Αυτό το βήμα αναφέρεται στην επιλογή ενός αλγορίθμου που οδηγεί στον καθορισμό ενός καλού σχήματος συσταδοποίησης (clustering scheme) για ένα σύνολο δεδομένων. Το μέτρο γειτνίασης και το κριτήριο συσταδοποίησης που θα χρησιμοποιηθούν, χαρακτηρίζουν ουσιαστικά τον αλγόριθμο συσταδοποίησης καθώς και τη δυνατότητά του να καθορίσει ένα σχήμα συσταδοποίησης που να ταιριάζει στο σύνολο δεδομένων. Συνεπώς το βήμα αυτό βασίζεται στα εξής: Στο μέτρο γειτνίασης (proximity measure) το οποίο προσδιορίζει πόσο «όμοια» είναι δύο αντικείμενα (δηλαδή διανύσματα γνωρισμάτων). Στις περισσότερες από τις περιπτώσεις πρέπει να εξασφαλιστεί ότι όλα τα επιλεγμένα γνωρίσματα συμβάλλουν εξίσου στον υπολογισμό του μέτρου εγγύτητας και δεν υπάρχει κανένα γνώρισμα που να υπερισχύει των άλλων. Κριτήριο συσταδοποίησης. Στο βήμα αυτό, πρέπει να καθοριστεί το κριτήριο συσταδοποίησης, το οποίο μπορεί να εκφραστεί μέσω μιας συνάρτησης κόστους ή κάποιου άλλου τύπου κανόνων. Πρέπει να τονιστεί ότι πρέπει να ληφθεί υπόψη ο τύπος των συστάδων που αναμένεται να εμφανιστούν στο σύνολο δεδομένων. Κατά συνέπεια, Σελίδα 21 από 83

23 πρέπει να καθοριστεί «ένα καλό» κριτήριο συσταδοποίησης που να οδηγεί σε μια τμηματοποίηση που να ταιριάζει καλά στο σύνολο δεδομένων. ^ Επικύρωση αποτελεσμάτων. Η ακρίβεια των αποτελεσμάτων του αλγορίθμου συσταδοποίησης εξακριβώνεται χρησιμοποιώντας τα κατάλληλα κριτήρια και τεχνικές. Εφόσον οι αλγόριθμοι συσταδοποίησης καθορίζουν τις συστάδες που δεν είναι γνωστές εκ των προτέρων, ανεξάρτητα από τις μεθόδους συσταδοποίησης, η τελική τμηματοποίηση των δεδομένων απαιτεί κάποιου είδους αξιολόγηση στις περισσότερες εφαρμογές. ^ Ερμηνεία των αποτελεσμάτων. Σε πολλές περιπτώσεις, οι εμπειρογνώμονες στην περιοχή της εφαρμογής που αναφέρεται η συσταδοποίηση πρέπει να ενσωματώσουν τα αποτελέσματα της συσταδοποίησης με άλλα πειραματικά στοιχεία καθώς και αποτελέσματα προηγούμενης ανάλυσης των υπό μελέτη στοιχείων, προκειμένου να προκύψει το σωστό συμπέρασμα. Ερμηνεία Εγκυρου: κ ι αποτελεσμάτων συσταδοποιησης Γνώση / μπιλ Επιλογή αλγορίθμου συσταδοποιησης V 0 Τελικές συστάδες Επιλογή χαρακτηριστικών Αποτελέσματα αλγορίθμων Δεδομένα προς ανάλυση Δεδομένα Σχήμα 1.4: Βήματα της διαδικασίας συσταδοποιησης Σελίδα 22 από 83

24 1.4.3 Κανόνες συσχέτισης Οι κανόνες συσχέτισης (association rules) αποτελούν μια σύγχρονη μέθοδο για την εξαγωγή γνώσης από μεγάλες βάσεις δεδομένων, καθότι πρωτοεμφανίστηκε το Οι κανόνες συσχέτισης (association rules) θεωρούνται μια από τις σημαντικότερες διεργασίες εξόρυξης δεδομένων. Έχει προσελκύσει ιδιαίτερο ενδιαφέρον καθώς παρέχουν έναν συνοπτικό τρόπο για να εκφραστούν οι ενδεχομένως χρήσιμες πληροφορίες που γίνονται εύκολα κατανοητές από τους τελικούς χρήστες. Οι κανόνες συσχέτισης ανακαλύπτουν κρυμμένες «συσχετίσεις» μεταξύ των γνωρισμάτων ενός συνόλου των δεδομένων. Αυτοί οι συσχετισμοί παρουσιάζονται στην ακόλουθη μορφή: Α^-Β όπου το Α και το Β αναφέρονται στα σύνολα γνωρισμάτων που υπάρχουν στα υπό ανάλυση δεδομένα. Αν υποτεθεί ότι δίνεται ένα σύνολο συναλλαγών S = {S1,S2,...,Sn}, όπου κάθε συναλλαγή St, είναι ένα υποσύνολο του A={A1,A2,...,AJ (At, i = \,...,k είναι οι ιδιότητες του συνόλου δεδομένων). Για ένα δεδομένο σύνολο A ca, η υποστήριξη του A, sup(a), καθορίζεται ώστε να είναι ο αριθμός συναλλαγών στο S που είναι υπερσύνολα του Α (δηλαδή το Α εμφανίζεται σε αυτές τις συναλλαγές). Εάν η υποστήριξη ενός συνόλου αντικειμένων Α είναι μεγαλύτερη από ένα καθορισμένο από το χρήστη κατώτατο όριο υποστήριξης Τ, τότε ονομάζουμε το Α ως συχνό σύνολο. Με βάση τα προηγούμενα, το πρόβλημα της εξαγωγής κανόνων συσχέτισης μπορεί να περιγραφεί ως εξής (Agrawal,Srikant, 1994, Agrawalet.al., 1996). Λαμβάνοντας υπόψη ένα σύνολο από n συναλλαγές S, κάθε υποσύνολο ενός συνόλου Α = {Α..., A}, ένα κατώτατο όριο υποστήριξης Τ και ένα κατώτατο όριο εμπιστοσύνης s, παράγονται όλοι οι κανόνες Α ^Β, όπου AcA, BcA, AH Β = 0, sup (Al B) > Τ, και Sup (ALB) / sup Σελίδα 23 από 83

25 (A) >s. Η σημασία ενός τέτοιου κανόνα, είναι ότι οι συναλλαγές στο σύνολο δεδομένων, που περιέχουν τις ιδιότητες του Α, τείνουν επίσης να περιέχουν τις ιδιότητες του Β (Srikant, Agrawal, 1995). Σημειωτέον ότι οι κανόνες συσχέτισης που εξάγονται πρέπει να μπορούν επίσης να ικανοποιούν κι άλλους περιορισμούς που καθορίζονται από το χρήστη, σχετικούς με τα μέτρα των κανόνων συσχέτισης. Λαμβάνοντας υπόψη την ανωτέρω περιγραφή, μια σημαντική δευτερεύουσα λειτουργία που συνήθως λύνεται πρώτη, είναι αυτή του υπολογισμού των συχνών συνόλων. Δηλαδή, λαμβάνοντας υπόψη ένα σύνολο συναλλαγών S, υπολογίζονται όλα τα συχνά υποσύνολα του Α (για το δεδομένο κατώτατο όριο υποστήριξης Τ). Μόλις βρεθούν τα συχνά σύνολα, το πρόβλημα του υπολογισμού των κανόνων συσχέτισης από αυτά γίνεται πολύ απλό. Για κάθε συχνό σύνολο Α, και για κάθε ΒΑ μπορεί να εξεταστεί η εμπιστοσύνη του κανόνα Α/Β ^ Β. Ο υπολογισμός (Agrawal,Srikant, 1994, Agrawalet.al., 1996) όλων των συχνών συνόλων ξεκινά με τον υπολογισμό του συνόλου των συχνών συνόλων με αριθμό στοιχείων ίσο με 1. Κατόπιν, υποθέτοντας ότι όλα τα συχνά σύνολα με πλήθος στοιχείων i είναι γνωστά, ο αλγόριθμος υπολογίζει ένα σύνολο υποψηφίων συχνών συνόλων: σύνολα στοιχείων με πλήθος στοιχείων i + 1, έτσι ώστε όλα τα υποσύνολά τους να είναι συχνά υποσύνολα. Για καθένα από τα υποψήφια συχνά σύνολα, υπολογίζει τη συχνότητά του. Αυτή η επαναληπτική διαδικασία εκτελείται έως ότου δεν βρίσκονται άλλα συχνά σύνολα. Η ακρίβεια του αλγορίθμου προκύπτει από τη φθίνουσα μονοτονία της συνάρτησης υποστήριξης: if BcAthensup(B) >sup(a). Αυτός ο αλγόριθμος έχει χρησιμοποιηθεί με διάφορες μορφές στην εύρεση των κανόνων συσχέτισης, των ακολουθιακών κανόνων (sequential rules), και των επεισοδίων. Αποδεικνύεται ότι είναι βέλτιστος για τον υπολογισμό όλων των συχνών συνόλων (Gunopulos, et.al, 1997). Οι πρόσφατες μελέτες έχουν επικεντρωθεί στους αποδοτικούς αλγορίθμους για τα μέγιστα συχνά Σελίδα 24 από 83

26 σύνολα (δηλαδή συχνά σύνολα που δεν έχουν συχνά υπερσύνολα). Δεδομένου ότι ο αριθμός μέγιστων συχνών συνόλων μπορεί να είναι εκθετικά μικρότερος από τον αριθμό συχνών συνόλων, μέχρι στιγμής τα μέγιστα συχνά σύνολα μπορούν να χαρακτηρίσουν όλα τα συχνά σύνολα, αφού τέτοιοι αλγόριθμοι μπορούν να προσφέρουν ουσιαστικές βελτιώσεις για σύνολα δεδομένων που έχουν συχνά σύνολα μεγάλου πληθικού αριθμού. Οι πρόσφατοι αλγόριθμοι εύρεσης των μέγιστων συχνών συνόλων περιλαμβάνουν τον MaxMiner (Bayardo, 1998), την Dualize-and- Advance (Gunopulos, et.al, 1997), τον FPGrowth (Han, et.al., 2000) και τον MAFIA (Budrick, et.al., 2001) Πρότυπ α Α κολουθιώ ν Η εξόρυξη προτύπων ακολουθιών (sequential patterns) είναι η εξόρυξη των συχνά εμφανιζομένων προτύπων σχετικών με το χρόνο ή άλλες ακολουθίες. Οι περισσότερες μελέτες στα πρότυπα ακολουθιών επικεντρώνονται στα συμβολικά πρότυπα. Το πρόβλημα των προτύπων ακολουθιών μπορεί να οριστεί ως εξής (Agrawal, Srikant, 1996, Mannila, et.al., 1997): Λαμβάνοντας υπόψη ένα ενδεχομένως μεγάλο πρότυπο (συμβολοσειρά) S, ενδιαφερόμαστε για τα πρότυπα ακολουθιών της μορφής a ^ b, όπου τα a, b, ab είναι υποσυμβολοσειρές μέσα στο S, τέτοιες ώστε η συχνότητα του ab να μην είναι μικρότερη από κάποια ελάχιστη υποστήριξη και η πιθανότητα ότι το a ακολουθείται αμέσως από το b να μην είναι μικρότερη από την ελάχιστη εμπιστοσύνη. Επίσης ο χρήστης μπορεί να προσδιορίσει τους περιορισμούς στα είδη των προτύπων ακολουθιών που εξάγονται με την παροχή των προσχεδίων προτύπων (template patterns) υπό μορφή σειριακών επεισοδίων, παράλληλων επεισοδίων, ή κανονικών εκφράσεων (Han, et.al., 2001). Ένα σειριακό επεισόδιο είναι ένα σύνολο γεγονότων που εμφανίζεται σε μια συνολική κατάταξη ενώ ένα παράλληλο επεισόδιο είναι Σελίδα 25 από 83

27 ένα σύνολο γεγονότων του οποίου η κατάταξη των γεγονότων είναι ασήμαντη. Για παράδειγμα, η ακολουθία Α^ Β είναι ένα σειριακό επεισόδιο που υπονοεί ότι το γεγονός Β ακολουθεί το γεγονός Α, ενώ το Α&Β είναι ένα παράλληλο επεισόδιο που δείχνει ότι τα γεγονότα Α και Β εμφανίζονται στα στοιχεία μας αλλά η κατάταξή τους δεν είναι σημαντική. Ο χρήστης μπορεί επίσης να προσδιορίσει τους περιορισμούς υπό τη μορφή κανονικών εκφράσεων. Για παράδειγμα, το template (A B)C*(D E) δείχνει ότι ο χρήστης θα επιθυμούσε να βρει πρότυπα όπου πρώτα πραγματοποιούνται τα γεγονότα Α και Β, η σχετική κατάταξή τους δεν είναι σημαντική, ακολουθούνται από το γεγονός C, το οποίο ακολουθείται από τα γεγονότα D και Ε (το D μπορεί να είναι πριν από ή μετά από το Ε). Τα ακολουθιακά δεδομένα είναι διαθέσιμα και χρησιμοποιούνται παντού στην καθημερινή και επιστημονική ζωή. Μερικά αντιπροσωπευτικά παραδείγματα είναι τα κείμενα, οι μουσικές νότες, τα δεδομένα καιρού, η ροή δεδομένων από δορυφόρους, οι επιχειρησιακές συναλλαγές, τα αρχεία τηλεπικοινωνιών, οι πειραματικές εκτελέσεις προγραμμάτων, οι ακολουθίες DNA, τα αρχεία ιατρικών ιστορικών. Η ανακάλυψη ενός προτύπου ακολουθίας μπορεί να ωφελήσει το χρήστη της επιστήμης με την πρόβλεψη των εισερχόμενων δραστηριοτήτων, την ερμηνεία των επαναλαμβανόμενων φαινομένων ή την εξαγωγή των ομοιοτήτων (Χαλκίδη, Βαζιργιάννης, 2005). Σελίδα 26 από 83

28 Σχήμα 1.5: Δικτυωτό πλέγμα που προκαλείται από τις μέγιστες ακολουθίες Τ 1 ^ Η 3 Ρ 1 ^ Ρ 2 και Η 2 ^ Ϊ 2 ^ Ϊ Π αλινδρόμηση Η Παλινδρόμηση (regression) (Berry, 1996) αναφέρεται στην εκμάθηση μιας λειτουργίας που εκχωρεί τα δεδομένα σε μια μεταβλητή η οποία παίρνει πραγματικές τιμές. Υπάρχουν πολλές εφαρμογές της οπισθοδρόμησης. Για παράδειγμα, η παλινδρόμηση μπορεί να χρησιμοποιηθεί για να υπολογίσει την πιθανότητα με την οποία ένας ασθενής θα αναρρώσει βασισμένος στα αποτελέσματα της διάγνωσης. Ένα άλλο παράδειγμα είναι η πρόβλεψη της ζήτησης για ένα νέο προϊόν σαν συνάρτηση των δαπανών διαφήμισης Συνοπτική παρουσίαση πληροφορίας Η συνοπτική παρουσίαση πληροφορίας περιλαμβάνει τη διαδικασία ανεύρεσης μιας συμπαγούς περιγραφής για ένα σύνολο δεδομένων (Barbara, et.al., 1996). Για παράδειγμα, η περιληπτική παρουσίαση της πληροφορίας θα μπορούσε να χρησιμοποιηθεί για να υπολογίσει τη μέση Σελίδα 27 από 83

29 τιμή και τη σταθερή απόκλιση για όλες τις ιδιότητες ενός συνόλου δεδομένων. Άλλες πιο περίπλοκες εφαρμογές της περιληπτικής παρουσίασης της πληροφορίας είναι η παραγωγή των συνοπτικών κανόνων, τεχνικών απεικόνισης πολλών μεταβλητών. Οι τεχνικές περιληπτικής παρουσίασης της πληροφορίας εφαρμόζονται συχνά στη διαλογική διερευνητική ανάλυση δεδομένων και την αυτοματοποιημένη παραγωγή εκθέσεων (Ρ8γγ8ά, θί.8!., 1996). Σελίδα 28 από 83

30 ΚΕΦΑΛΑΙΟ 2 ΔΕΝΔΡΑ ΑΠΟΦΑΣΕΩΝ 2.1 ΤΙ ΕΙΝΑΙ ΤΑ ΔΕΝΔΡΑ ΑΠΟΦΑΣΕΩΝ Τα δένδρα αποφάσεων (ϋθοίβιοπ ΤΓθθ8)είναι μια από τις ευρέως χρησιμοποιούμενες τεχνικές για την κατηγοριοποίηση και την πρόβλεψη. Διάφοροι δημοφιλείς κατηγοριοποιητές κατασκευάζουν τα δένδρα αποφάσεων ως μοντέλα κατηγοριοποίησης (Χαλκίδη, Βαζιργιάννης, 2005). Η μάθηση των Δένδρων Αποφάσεων, που χρησιμοποιούνται στην εξόρυξη δεδομένων, χρησιμοποιεί ένα δένδρο απόφασης ως μοντέλο πρόβλεψης, που χαρτογραφεί παρατηρήσεις σχετικά με ένα στοιχείο σε συμπεράσματα σχετικά με την τιμή στόχο του στοιχείου. Σε αυτές τις δενδρικές δομές, τα φύλλα αντιπροσωπεύουν ταξινομήσεις και τα κλαδιά αντιπροσωπεύουν συνδέσμους χαρακτηριστικών που οδηγούν σε αυτές τις ταξινομήσεις. Ο στόχος είναι να δημιουργηθεί ένα μοντέλο που προβλέπει την τιμή μιας μεταβλητής στόχου βασισμένο σε διάφορες μεταβλητές εισόδου (Nisbet, et.al., 2009). Το δένδρο απόφασης έχει τρεις τύπους κόμβων: Ο κόμβος ρίζα που δεν έχει εισερχόμενες ακμές και μηδέν ή περισσότερες εξερχόμενες. Εσωτερικοί κόμβοι καθένας από τους οποίους έχει ακριβώς μια εισερχόμενη ακμή και δύο ή περισσότερες εξερχόμενες. Φύλλα ή τερματικοί κόμβοι καθένας από τους οποίους έχει ακριβώς μία εισερχόμενη ακμή και καμία εξερχόμενη. Σελίδα 29 από 83

31 Σχήμα 2.1: Δομή Δένδρου Απόφασης Επεξήγηση Σχήματος: ΚΑ είναι ένας κόμβος απόφασης (τετράγωνο). ΚΠ1 και ΚΠ2 είναι κόμβοι πιθανότητας (κύκλος). Οι δεσμοί α1, α2 συμβολίζουν τις εναλλακτικές ενέργειες. Ρ1, Ρ2 είναι οι πιθανότητες να εμφανιστούν τα γεγονότα Γ1 και Γ2 αντίστοιχα. Οι τερματικοί κόμβοι ΚΤ1,...,ΚΤ4 συμβολίζουν τα αποτελέσματα (κέρδη) που θα προκύψουν από τα αντίστοιχα γεγονότα (τρίγωνο). ΑΧΚ είναι το αναμενόμενο χρηματικό κέρδος (expected monetary value). Κάθε εσωτερικός κόμβος αντιστοιχεί σε μία από τις μεταβλητές εισόδου: υπάρχουν άκρες σε κάθε μία από τις πιθανές τιμές αυτής της μεταβλητής εισόδου. Κάθε φύλλο αντιπροσωπεύει μια τιμή της μεταβλητής στόχου δεδομένων των τιμών των μεταβλητών εισόδου που αντιπροσωπεύεται από το μονοπάτι από τη ρίζα ως το φύλλο(nisbet, et.al., 2009). Οι μη τερματικοί κόμβοι, οι οποίοι περιλαμβάνουν τη ρίζα και άλλους εσωτερικούς κόμβους, περιέχουν συνθήκες ελέγχου χαρακτηριστικών για να διαχωρίζουν τις εγγραφές που έχουν διαφορετικά γνωρίσματα. Ένα δένδρο μπορεί να «μάθει» από τη διάσπαση της πηγής σε υποσύνολα, με βάση ένα τεστ τιμής παραμέτρου. Αυτή η διαδικασία επαναλαμβάνεται σε κάθε υποσύνολο και ονομάζεται αναδρομική Σελίδα 30 από 83

32 διαμέριση. Η αναδρομή ολοκληρώνεται όταν το υποσύνολο σε έναν κόμβο, έχει την ίδια τιμή με την τιμή της μεταβλητής στόχου, ή όταν η επιπλέον διάσπαση δεν προσθέτει αξία στις προβλέψεις. Στην ανάλυση αποφάσεων, ένα δένδρο απόφασης μπορεί αν χρησιμοποιηθεί για να αντιπροσωπεύσει οπτικά και ρητά τις αποφάσεις και τη λήψη αποφάσεων. Στην εξόρυξη δεδομένων, το δένδρο απόφασης περιγράφει τα δεδομένα αλλά όχι τις αποφάσεις (Νίβόθί, θί.8!., 2009). Η κατηγοριοποίηση μιας εγγραφής ελέγχου είναι απλή από τη στιγμή που δημιουργείται το δένδρο απόφασης. Ξεκινώντας από τον κόμβο ρίζα, εφαρμόζεται η συνθήκη ελέγχου στην εγγραφή και ακολουθείται η κατάλληλη διακλάδωση με βάση τα αποτελέσματα του ελέγχου. Αυτό θα οδηγήσει είτε σε έναν άλλο εσωτερικό κόμβο, για τον οποίο εφαρμόζεται μια νέα συνθήκη ελέγχου, είτε σε ένα φύλλο. Η ετικέτα κατηγορίας που σχετίζεται με τον κόμβο φύλλο αποδίδεται στη συνέχεια στην εγγραφή. 2.2 ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΚΑΙ ΜΕΙΟΝΕΚΤΗΜΑΤΑ ΔΕΝΔΡΩΝ ΑΠΟΦΑΣΕΩΝ Υπάρχουν πολλά πλεονεκτήματα των δένδρων αποφάσεων ως εργαλείο ταξινόμησης. Πιο συγκεκριμένα: ^ Τα δένδρα αποφάσεων είναι αυτονόητα και ακόμη και συμπιεσμένα μπορούν εύκολα να ακολουθηθούν. Με άλλα λόγια, εάν ένα δένδρο έχει έναν λογικό αριθμό φύλλων, μπορεί να γίνει αντιληπτό από μη επαγγελματίες χρήστες. Επιπλέον, τα δένδρα αποφάσεων μπορούν να μετατραπούν σε σύνολο κανόνων. ^ Τα δένδρα αποφάσεων μπορούν να χειριστούν τόσο ονομαστικά όσο και αριθμητικά χαρακτηριστικά εισόδου. ^ Η αναπαράσταση των δένδρων αποφάσεων είναι αρκετά πλούσια ώστε να αντιπροσωπεύουν οποιοδήποτε ταξινομητή διακριτής αξίας. ^ Τα δένδρα αποφάσεων είναι σε θέση να χειρίζονται σύνολα δεδομένων που μπορεί να έχουν λάθη. Σελίδα 31 από 83

33 ^ Τα δένδρα αποφάσεων είναι σε θέση να χειρίζονται σύνολα δεδομένων από τα οποία μπορεί να λείπουν τιμές. ^ Τα δένδρα αποφάσεων θεωρούνται ως μία μη παραμετρική μέθοδος. Αυτό σημαίνει ότι τα δένδρα αποφάσεων δεν έχουν παραδοχές σχετικά με την κατανομή χώρου και τη δομή του ταξινομητή. Αφετέρου, τα δένδρα αποφάσεων έχουν και μειονεκτήματα, όπως: οι περισσότεροι από τους αλγορίθμους ^ 4.5 και ^ 3 ) απαιτούν το χαρακτηριστικό προορισμού να έχει μόνο διακριτές τιμές. δένδρα αποφάσεων έχουν την τάση να εκτελούνται καλά εάν υπάρχουν μερικά πολύ σημαντικά χαρακτηριστικά, αλλά όχι τόσο καλά εάν είναι παρούσες πολλές πολύπλοκες αλληλεπιδράσεις. Μία από τις αιτίες είναι ότι άλλοι ταξινομητές μπορούν να περιγράψουν συμπαγώς έναν ταξινομητή που θα ήταν πολύ δύσκολο να εκπροσωπηθεί με τη χρήση ενός δένδρου απόφασης. το άπληστο χαρακτηριστικό των δένδρων αποφάσεων οδηγεί σε ένα άλλο μειονέκτημα που είναι η υπερευαισθησία τους στο σετ εκπαίδευσης, σε άσχετα χαρακτηριστικά και στον θόρυβο (Νίβόθί, θί.8!., 2009). 2.3 ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΑΣΚΕΥΗΣ ΔΕΝΔΡΩΝ ΑΠΟΦΑΣΕΩΝ Κατά τη διάρκεια των τελευταίων ετών έχουν αναπτυχθεί διάφοροι αλγόριθμοι κατασκευής των δένδρων αποφάσεων. Μερικοί από τους πιο γνωστούς αλγορίθμους που προτείνονται στη βιβλιογραφία είναι οι: ID3 (Mitchell, 1997), C4.5 (Quinlan, 1993), SPRINT (Shafer,et.al., 1996), SLIQ (Melta, 1996), CHAID, CART (Breiman, et.al., 1984),, κ.λπ. Γενικά, οι περισσότεροι από τους αλγόριθμους έχουν δύο διακριτές φάσεις: τη φάση οικοδόμησης (building phase,) και τη φάση περικοπής (pruning phase) (Mitchell, 1997). Στη φάση οικοδόμησης, το σύνολο των δεδομένων εκπαίδευσης χωρίζεται κατ επανάληψη μέχρις ότου όλα τα δείγματα σε Σελίδα 32 από 83

34 ένα τμήμα (partition) να ανήκουν στην ίδια κατηγορία. Το αποτέλεσμα είναι ένα δένδρο που κατηγοριοποιεί κάθε στοιχείο του συνόλου εκπαίδευσης. Ωστόσο, το δένδρο που κατασκευάζεται μπορεί να είναι ευαίσθητο στις στατιστικές παρατυπίες (irregularities) του συνόλου κατάρτισης. Κατά συνέπεια, οι περισσότεροι από τους αλγορίθμους εκτελούν μια φάση περικοπής μετά από τη φάση κατασκευής του δένδρου, στην οποία οι κόμβοι περικόπτονται για να αποτραπούν οι επικαλύψεις και για να δημιουργηθεί ένα δένδρο με υψηλότερη ακρίβεια (Χαλκίδη, Βαζιργιάννης, 2005). Οι διάφοροι αλγόριθμοι κατασκευής δένδρων αποφάσεων χρησιμοποιούν διαφορετικούς αλγορίθμους για την επιλογή του κριτηρίου ελέγχου για την κατηγοριοποίηση ενός συνόλου δεδομένων (Rastori, 1998). Ένας από τους πιο πρόσφατους αλγορίθμους, ο CLS, εξετάζει όλα τα δυνατά δένδρα αποφάσεων σ ένα συγκεκριμένο βάθος (Rastori, 1998). Στη συνέχεια επιλέγει τον έλεγχο που ελαχιστοποιεί το υπολογιστικό κόστος κατηγοριοποίησης ενός στοιχείου. Ο ορισμός αυτού του κόστους αποτελείται από το κόστος καθορισμού των τιμών των χαρακτηριστικών για έλεγχο καθώς και το κόστος λανθασμένης κατηγοριοποίησης. Οι αλγόριθμοι ID3 (Mitchell, 1997) και C4.5 (Quinlan, 1993), βασίζονται σε μια στατιστική ιδιότητα, καλούμενη κέδρος πληροφορίας (information gain), προκειμένου να επιλέξουμε το γνώρισμα που θα ελέγξουμε σε κάθε κόμβο του δένδρου. Ο ορισμός του μέτρου βασίζεται στην εντροπία, η οποία χαρακτηρίζει την καθαρότητα μιας αφηρημένης επιλογής των δειγμάτων. Εναλλακτικά οι αλγόριθμοι όπως ο SLIQ (Melta, 1996), SPRINT (Shafer,et.al., 1996), επιλέγουν το γνώρισμα που θα ελεγχθεί με βάση το δείκτη GINI και όχι το μέτρο εντροπίας. Το καλύτερο γνώρισμα για τον έλεγχο (δηλαδή το γνώρισμα που δίνει την καλύτερη τμηματοποίηση) δίνει τη χαμηλότερη τιμή για το δείκτη GINI. Στη συνέχεια θα αναλυθούν οι κυριότεροι αλγόριθμοι των δένδρων αποφάσεων. Σελίδα 33 από 83

35 2.3.1 Αλγόριθμος ID3 Ο αλγόριθμος ID3 θεωρείται ένας από τους βασικούς αλγορίθμους κατηγοριοποίησης. Στη συνέχεια παρουσιάζονται τα βασικά βήματα για τη δημιουργία ενός δένδρου απόφασης με βάση τον αλγόριθμο ID3. Είσοδος: Δείγματα εκπαίδευσης τα οποία παρουσιάζονται με διακριτές τιμές γνωρισμάτων. Έξοδος: Δένδρο Απόφασης Διαδικασία: Βήμα 1ο: Το δένδρο ξεκινάει με ένα μόνο κόμβο που αντιπροσωπεύει ολόκληρο το σύνολο των δεδομένων εκπαίδευσης. Βήμα 2ο: Αν τα δείγματα είναι όλα της ίδιας κατηγορίας, τότε ο κόμβος γίνεται φύλλο και προστίθεται η ετικέτα της κατηγορίας. Βήμα 3ο: Ο αλγόριθμος χρησιμοποιεί ένα μέτρο εντροπίας, γνωστό σαν κέρδος πληροφορίας, για την επιλογή των γνωρισμάτων που διαχωρίζουν καλύτερα τα δείγματα στις διαφορετικές κατηγορίες. Στη συνέχεια το κέρδος πληροφορίας υπολογίζεται για κάθε γνώρισμα. Το γνώρισμα με το μέγιστο κέρδος πληροφορίας επιλέγεται σαν γνώρισμα ελέγχου. S Επιλογή γνωρίσματος. Έστω S το σύνολο των s δειγμάτων δεδομένων. Υποθέτοντας ένα σύνολο m κατηγοριών Ο, (για i = 1,2,..., m), η αναμενόμενη πληροφορία που απαιτείται για την κατηγοριοποίηση του ενός δείγματος δίνεται από την εξίσωση: m i =1 όπου β, είναι ο αριθμός των δειγμάτων στην κατηγορία Ο, και ρ είναι η πιθανότητα ένα δείγμα να ανήκει στην κατηγορία Ο,, ρ = 5. /β. Έστω Α ένα γνώρισμα που έχει ν διακριτές τιμές {αι α2,..., αν}. Το Α μπορεί να χρησιμοποιηθεί για το διαχωρισμό του β σε ν υποσύνολα {βΐ;82,..., 8ν}, όπου β] περιέχει εκείνα τα δείγματα του β που έχουν την Σελίδα 34 από 83

36 τιμή η για το γνώρισμα Α. Η αναμενόμενη πληροφορία που με βάση το διαχωρισμό του β σε υποσύνολα από την Α ορίζεται ως εξής: και, Σ»» (Λ ) = ϊ,,) 1 =1 Μ ( \ όπου βή είναι ο αριθμός των δειγμάτων στο Ο,, σε ένα υποσύνολο ^ και β είναι ο αριθμός των δειγμάτων στο β. Η σχέση βι/ι^! είναι η πιθανότητα ότι ένα δείγμα στο ^ ανήκει στην κατηγορία Ο,. Η πληροφορία που κερδίζεται με τη διακλάδωση του Α είναι: Βήμα 4ο: Ένας κόμβος δημιουργείται και χαρακτηρίζεται γνώρισμα ελέγχου (ΐΘβΐ8ΚπόϋΐΘ), όσο δημιουργούνται κλαδιά για κάθε τιμή του. Στη συνέχεια το δείγμα δεδομένων διαχωρίζεται αναλόγως. Βήμα 5ο: Ο αλγόριθμος εφαρμόζεται συνεχώς για τη μορφοποίηση ενός δένδρου απόφασης με βάση τα δείγματα σε κάθε προκαθορισμένη κατηγορία. Ο συνεχής διαχωρισμός σταματάει μόνο όταν κάποια από τις παρακάτω συνθήκες ικανοποιείται: Όλα τα δείγματα του δοσμένου κόμβου ανήκουν στην ίδια κατηγορία, ή Δεν υπάρχουν άλλα γνωρίσματα με βάση τα οποία τα δείγματα θα μπορούσαν να διαχωριστούν περαιτέρω, ή Δεν υπάρχουν μη κατηγοριοποιημένα δείγματα για το κλαδί του γνωρίσματος ελέγχου (ΜΙίοήΘ!!, 1997). Σελίδα 35 από 83

37 2.3.2 Αλγόριθμος C4.5 Ο αλγόριθμός αυτός εφαρμόζει μια απλή κατά βάθος μέθοδο για την κατασκευή του δένδρου. Τα γνωρίσματα κάθε κόμβου του δένδρου μπορούν να έχουν συνεχείς τιμές. Ωστόσο, για να λειτουργήσει σωστά χρειάζεται ολοκληρωμένα δεδομένα. Ο αλγόριθμός C4.5 (Quinlan, 1993) κρίνεται ακατάλληλος για μεγάλα σύνολα δεδομένων, αφού η ακρίβεια (accuracy) που παρουσιάζει είναι πολύ μικρή Αλγόριθμος SPRINT Το σύνολο των γνωρισμάτων προ-κατηγοριοποιούνται. Η κατηγοριοποίηση αυτή διατηρείται σε όλη τη διάρκεια του διαχωρισμού. Το δένδρο απόφασης αυξάνεται με μια κατά-εύρος μέθοδο και τα γνωρίσματα διαχωρίζονται μεταξύ των κόμβων. Η καθοριστική φάση του διαχωρισμού είναι μια γραμμική ανίχνευση των καταλόγων σε κάθε κόμβο και για το σκοπό αυτό χρησιμοποιείται ένα hashing σχήμα. Ακολουθούν τα κυριότερα μειονεκτήματα του αλγορίθμου: S Το μέγεθος του hash πίνακα είναι συνήθως Ο(Ν) για τα επάνω επίπεδα του δένδρου. S Αν ο hash πίνακας δεν χωράει στη μνήμη, γεγονός το οποίο είναι πολύ πιθανό για μεγάλες βάσεις δεδομένων, τότε διασπάται σε μικρότερα κομμάτια. Αυτό έχει σαν αποτέλεσμα πολλαπλά και ακριβά περάσματα εισόδου - εξόδου από ολόκληρη τη βάση δεδομένων (Shafer,et.al., 1996) Αλγόριθμος βυθ Σύμφωνα με την προσέγγιση αυτή εφαρμόζεται ένα αρχικό στάδιο κατηγοριοποίησης των γνωρισμάτων (προ-κατηγοριοποίηση). Το δένδρο κατηγοριοποίησης αυξάνεται με μια κατα-εύρος μέθοδο. Αρχικά ορίζεται ο Σελίδα 36 από 83

38 κόμβος ρίζα του δένδρου. Κατά τη διάρκεια της φάσης του διαχωρισμού, γίνεται χρήση της λίστας κατηγοριών προκειμένου να υπολογιστεί ο καλύτερος δυνατός διαχωρισμός για κάθε γνώρισμα. Ο κατάλογος του τρέχοντος κάθε φορά γνωρίσματος χρησιμοποιείται για να ενημερώσει τις αντίστοιχες ετικέτες των φύλλων (οι οποίες αντιστοιχούν στις κατηγορίες). Αφού διαχωριστεί ένας κόμβος, οι είσοδοι της λίστας κατηγοριών τροποποιούνται για να υποδείξουν τον κόμβο στον οποίον ανήκει η εγγραφή. Ο αλγόριθμος αυτός έχει το μειονέκτημα, ότι γίνεται συχνή προσπέλαση των κατηγοριών και μάλιστα με τυχαίο τρόπο και από τις δύο φάσεις της επαγωγής του δένδρου. Για το λόγο αυτόν, πρέπει να βρίσκεται στη μνήμη συνεχώς προκειμένου να επιτευχθεί μια καλή απόδοση. Αυτό, όμως, περιορίζει το μέγιστο επιτρεπτό μέγεθος του συνόλου εκπαίδευσης (trainingset) (Melta, 1996) Αλγόριθμος CHAID Chi-Squared Automatic Interaction Detection (CHAID) είναι μια τεχνική του δένδρου απόφασης ή δένδρου παλινδρόμησης. Είναι το καλύτερο εργαλείο που χρησιμοποιείται για να ανακαλύψει τη σχέση μεταξύ των μεταβλητών. Η ανάλυση CHAID καθορίζει πως οι μεταβλητές συνδυάζονται καλύτερα για να εξηγήσουν το αποτέλεσμα στις δεδομένες εξαρτημένες μεταβλητές. Χρησιμοποιεί κατηγορικά ή τακτικά δεδομένα. Η τεχνική CHAID μετατρέπει συνεχή δεδομένα σε τακτικά δεδομένα κατά τη διάρκεια της ανάλυσης. Η καλύτερη χρήση της ανάλυσης CHAID στους πίνακες έκτακτης ανάγκης είναι να αποφασιστεί ποια μεταβλητή έχει τη μέγιστη ανικανότητα στην κατάταξη. Έχει επίσης τη δυνατότητα να χτίσει μη-δυαδικά δένδρα ταξινόμησης. Αυτό είναι που πάνω από δύο κλάδοι μπορούν να περάσουν από τον κόμβο. Στην τεχνική CHAID, μπορούμε να δούμε οπτικά τη σχέση μεταξύ της μεταβλητής και του συνδεδεμένου σχετικού παράγοντα με ένα δένδρο (Nisbet, et.al., 2009). Σελίδα 37 από 83

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ. Μοντέλο 3 Μ οοποοιοης. Αξιολόγηση αποτελεσμάτων συσταδοποίησης. Μπαμπαλιάρης Αθανάσιος.

ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ. Μοντέλο 3 Μ οοποοιοης. Αξιολόγηση αποτελεσμάτων συσταδοποίησης. Μπαμπαλιάρης Αθανάσιος. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΊΔΡΥΜΑ ΚΑΒΑΛΑΣ Σχολή Διοίκησης & Οικονομίας ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ Νέα δεδομένα Μοντέλο 3 Μ οοποοιοης Σύνολο δεδομένων δοκιμής Αξιολόγηση αποτελεσμάτων συσταδοποίησης Ακρίβεια

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ Η Έρευνα Μάρκετινγκ ως εργαλείο ανάπτυξης νέων προϊόντων ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ.

Διαβάστε περισσότερα

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου ΠΡΟΛΟΓΟΣ Η γραμμική παλινδρόμηση χρησιμοποιείται για την μελέτη των σχέσεων μεταξύ μετρήσιμων μεταβλητών. Γενικότερα, η γραμμική στατιστική συμπερασματολογία αποτελεί ένα ευρύ πεδίο της στατιστικής ανάλυσης

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Αναλυτικό Πρόγραμμα Μαθηματικών

Αναλυτικό Πρόγραμμα Μαθηματικών Αναλυτικό Πρόγραμμα Μαθηματικών Σχεδιασμός... αντιμετωπίζει ενιαία το πλαίσιο σπουδών (Προδημοτική, Δημοτικό, Γυμνάσιο και Λύκειο), είναι συνέχεια υπό διαμόρφωση και αλλαγή, για να αντιμετωπίζει την εξέλιξη,

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική ΕΕΟ 11 Η χρήση στατιστικών εργαλείων στην εκτιμητική 1. Εισαγωγή 2. Προϋποθέσεις χρήσης των Αυτοματοποιημένων Εκτιμητικών Μοντέλων (ΑΕΜ) 3. Περιορισμοί στη χρήση των ΑΕΜ εφόσον έχουν πληρωθεί οι προϋποθέσεις

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ Μ. Γρηγοριάδου Ρ. Γόγουλου Ενότητα: Η Διδασκαλία του Προγραμματισμού Περιεχόμενα Παρουσίασης

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ ΜΕΡΟΣ ΙΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ Πολλές από τις αποφάσεις

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΓΙΑΝΝΗΣ ΦΑΝΟΥΡΓΙΑΚΗΣ ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΣΥΝΕΡΓΑΤΗΣ ΤΕΙ ΚΡΗΤΗΣ ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ 1. Εισαγωγή

Διαβάστε περισσότερα

E [ -x ^2 z] = E[x z]

E [ -x ^2 z] = E[x z] 1 1.ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτήν την διάλεξη θα πάμε στο φίλτρο με περισσότερες λεπτομέρειες, και θα παράσχουμε μια νέα παραγωγή για το φίλτρο Kalman, αυτή τη φορά βασισμένο στην ιδέα της γραμμικής

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ Συνδυασμένη χρήση μοντέλων προσομοίωσης βελτιστοποίησης. Η μέθοδος του μητρώου μοναδιαίας απόκρισης Νικόλαος

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ . ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ (RANK REGRESSION).1 Μονότονη Παλινδρόμηση (Monotonic Regression) Από τη γραφική παράσταση των δεδομένων του προηγουμένου προβλήματος παρατηρούμε ότι τα ζευγάρια (Χ i, i )

Διαβάστε περισσότερα

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων Γιάννης Λιαπέρδος TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Η έννοια του συνδυαστικού

Διαβάστε περισσότερα

E[ (x- ) ]= trace[(x-x)(x- ) ]

E[ (x- ) ]= trace[(x-x)(x- ) ] 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) Των σπουδαστών Σκλαβενίτης Αργύρης (Α.Μ. 535) Στασινός

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα Τµήµα Διοίκησης Επιχειρήσεων Τει Δυτικής Ελλάδας Μεσολόγγι Δρ. Α. Στεφανή Διάλεξη 5 2 Εγκυροποίηση Λογισµικού Εγκυροποίηση Λογισµικού

Διαβάστε περισσότερα

Ο Ι ΚΟ Ν Ο Μ Ι Κ Α / Σ ΤΑΤ Ι Σ Τ Ι Κ Η

Ο Ι ΚΟ Ν Ο Μ Ι Κ Α / Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ο Ι ΚΟ Ν Ο Μ Ι Κ Α / Σ ΤΑΤ Ι Σ Τ Ι Κ Η Σ χ ε τ ι κ ά μ ε τ ι ς ε κ τ ι μ ή σ ε ι ς - σ υ ν ο π τ ι κ ά Σεμινάριο Εκτιμήσεων Ακίνητης Περιουσίας, ΣΠΜΕ, 2018 ΣΤΑΤΙΣΤΙΚΗ Σ Χ Ε Τ Ι Κ Α Μ Ε Τ Ι Σ Ε Κ Τ Ι Μ

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ 3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ Πρόβλημα: Ένας ραδιοφωνικός σταθμός ενδιαφέρεται να κάνει μια ανάλυση για τους πελάτες του που διαφημίζονται σ αυτόν για να εξετάσει την ποσοστιαία μεταβολή των πωλήσεων

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

Οργάνωση και Διοίκηση Πωλήσεων

Οργάνωση και Διοίκηση Πωλήσεων Οργάνωση και Διοίκηση Πωλήσεων Ενότητα 4: Η ΠΡΟΒΛΕΨΗ ΠΩΛΗΣΕΩΝ Αθανασιάδης Αναστάσιος Τμήμα Εφαρμογών Πληροφορικής στη Διοίκηση και Οικονομία Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

Στόχος της ψυχολογικής έρευνας:

Στόχος της ψυχολογικής έρευνας: Στόχος της ψυχολογικής έρευνας: Συστηματική περιγραφή και κατανόηση των ψυχολογικών φαινομένων. Η ψυχολογική έρευνα χρησιμοποιεί μεθόδους συστηματικής διερεύνησης για τη συλλογή, την ανάλυση και την ερμηνεία

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

6. Διαχείριση Έργου. Έκδοση των φοιτητών

6. Διαχείριση Έργου. Έκδοση των φοιτητών 6. Διαχείριση Έργου Έκδοση των φοιτητών Εισαγωγή 1. Η διαδικασία της Διαχείρισης Έργου 2. Διαχείριση κινδύνων Επανεξέταση Ερωτήσεις Αυτοαξιολόγησης Διαχείριση του έργου είναι να βάζεις σαφείς στόχους,

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

Εισαγωγή στη Σχεδίαση Λογισμικού

Εισαγωγή στη Σχεδίαση Λογισμικού Εισαγωγή στη Σχεδίαση Λογισμικού περιεχόμενα παρουσίασης Τι είναι η σχεδίαση λογισμικού Έννοιες σχεδίασης Δραστηριότητες σχεδίασης Σχεδίαση και υποδείγματα ανάπτυξης λογισμικού σχεδίαση Η σχεδίαση του

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ 1 Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται

Διαβάστε περισσότερα

ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ

ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ ΠΑΡΑ ΟΤΕΟ 9 ΠΛΑΤΦΟΡΜΑ ΥΠΟΛΟΓΙΣΜΟΥ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ Συγγραφείς: ημήτρης Παρώνης, Αδριανός Ρετάλης, Φίλιππος Τύμβιος,

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ Ενότητα # 7: Δειγματοληψία Μιλτιάδης Χαλικιάς Τμήμα Διοίκησης Επιχειρήσεων Άδειες Χρήσης

Διαβάστε περισσότερα

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Ένα από τα γνωστότερα παραδείγματα των ΕΑ είναι ο Γενετικός

Διαβάστε περισσότερα

Δομές Δεδομένων & Αλγόριθμοι

Δομές Δεδομένων & Αλγόριθμοι Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν

Διαβάστε περισσότερα

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ Ενότητα: Αναγνώριση Διεργασίας - Προσαρμοστικός Έλεγχος (Process Identification) Αλαφοδήμος Κωνσταντίνος

Διαβάστε περισσότερα

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο Copyright 2009 Cengage Learning 15.1 Ένα Κοινό Θέμα Τι πρέπει να γίνει; Τύπος Δεδομένων; Πλήθος Κατηγοριών; Στατιστική Μέθοδος; Περιγραφή ενός πληθυσμού Ονομαστικά Δύο ή

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

ΑΝΤΙΚΕΙΜΕΝΟ Ι. ΓΙΑΝΝΑΤΣΗΣ

ΑΝΤΙΚΕΙΜΕΝΟ Ι. ΓΙΑΝΝΑΤΣΗΣ ΣΧΕΔΙΑΣΜΟΣ ΣΥΣΤΗΜΑΤΩΝ ΠΑΡΑΓΩΓΗΣ ΜΕΤΡΗΣΗ ΕΡΓΑΣΙΑΣ Ι. ΓΙΑΝΝΑΤΣΗΣ ΑΝΤΙΚΕΙΜΕΝΟ Η Μέτρηση Εργασίας (Work Measurement ή Time Study) έχει ως αντικείμενο τον προσδιορισμό του χρόνου που απαιτείται από ένα ειδικευμένο

Διαβάστε περισσότερα

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ Δομή παρουσίασης Εισαγωγή Βασικές Έννοιες Σχετικές μελέτες Εφαρμογή Δεδομένων Συμπεράσματα Εισαγωγή Μελέτη και προσαρμογή των διάφορων

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η

Διαβάστε περισσότερα

Μαθηματικά. Ενότητα 2: Διαφορικός Λογισμός. Σαριαννίδης Νικόλαος Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)

Μαθηματικά. Ενότητα 2: Διαφορικός Λογισμός. Σαριαννίδης Νικόλαος Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη) Μαθηματικά Ενότητα 2: Διαφορικός Λογισμός Σαριαννίδης Νικόλαος Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο Εισαγωγικές Έννοιες ημήτρης Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις ΔΕΟ - Επαναληπτικές Εξετάσεις Λύσεις ΘΕΜΑ () Το Διάγραμμα Διασποράς εμφανίζεται στο επόμενο σχήμα. Από αυτό προκύπτει καταρχήν μία θετική σχέση μεταξύ των δύο μεταβλητών. Επίσης, από το διάγραμμα φαίνεται

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

Εφαρμοσμένη Βελτιστοποίηση

Εφαρμοσμένη Βελτιστοποίηση Εφαρμοσμένη Βελτιστοποίηση Ενότητα 1: Το πρόβλημα της βελτιστοποίησης Καθηγητής Αντώνιος Αλεξανδρίδης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Σημείωμα Αδειοδότησης Το

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET Το Μοντέλο της Συμπεριφοράς των Καταναλωτών στο Η.Ε. Τύποι Καταναλωτών ανεξάρτητοι και μεμονωμένοι καταναλωτές, στους οποίους στοχεύουν τα ΜΜΕ οργανισμοί-αγοραστές αγοραστές

Διαβάστε περισσότερα