ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ Τμήμα Μαθηματικών και Τμημα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ «Data Mining στην Χρηματοοικονομική Ανάλυση» Μεταπτυχιακός Φοιτητής: Παγουρόπουλος Απόστολος ΑΜ: 150 Επιβλέπων Καθηγητής: Βουτσινάς Βασίλης Πάτρα 17 Οκτωβρίου 2006

2 ΠΕΡΙΕΧOΜΕΝΑ ΕΡΓΑΣΙΑΣ Πρόλογος σελ 2 0. Εισαγωγή σελ 3 Ά μέρος 1. Λίγα για την Τεχνητή Νοημοσύνη σελ 4 2. Η τεχνική Data Mining / Εξόρυξη από Δεδομένα σελ Τα στάδια της διαδικασίας Data Mining σελ Μέθοδοι της τεχνικής Data Mining σελ Ταξινόμηση (Classification) σελ Ομαδοποίηση (Clustering) σελ Oμαδοποιώντας μεγάλα σύνολα / Clustering large datasets σελ Συσχέτιση (Dependency Modeling) σελ Άλλες μέθοδοι Data Mining σελ Εφαρμογές της μεθόδου Data Mining σε διάφορα επιστημονικά πεδία σελ 44 Β μέρος Εφαρμογές Data Mining στο χρηματοοικονομικό περιβάλλον Ενότητα Ά 1. Δημιουργώντας ένα μοντέλο πρόβλεψης σελ Σημαντικές μορφές μοντέλων πρόβλεψης Data Mining σελ Το στατιστικό μοντέλο ARIMA, ARIMA model σελ Relational Data Mining σελ 61

3 2.3. Αξιοποιώντας χρονοσειρές που αφορούν την συμπεριφορά μετοχών / Stock time series pattern matching: Template-based vs. Rule-based approaches σελ Μοντέρνες μεθοδολογίες για την Ανεύρεση Γνώσης στα χρηματοοικονομικά σελ 70 Ενότητα Β 3. Προκλήσεις που πηγάζουν από τα χρηματοοικονομικά σελ Πτώχευση σελ Πιστωτικός κίνδυνος επιχειρήσεων σελ Διαχείριση και επιλογή χαρτοφυλακίου σελ Μεταβλητότητα σελ Διαχείριση πιστώσεων (εμπορικές πιστώσεις) σελ Βιωσιμότητα των επιχειρήσεων σελ 88 Γ μέρος Πειραματικά αποτελέσματα σε πραγματικά δεδομένα Α. Εφαρμόζοντας την μέθοδο της Συσχέτισης για θέματα Διαχείρισης Χαρτοφυλακίου σελ 93 Β. Εφαρμόζοντας τις μεθόδους Ταξινόμησης και Ομαδοποίησης στην Χρηματοοικονομική Ανάλυση για θέματα Βιωσιμότητας και Πτώχευσης των επιχειρήσεων σελ 119 Β1. Εφαρμόζοντας την μέθοδο της Ταξινόμησης στην Χρηματοοικονομική Ανάλυση σελ 123 Β2. Εφαρμόζοντας την μέθοδο της Ομαδοποίησης στην Χρηματοοικονομική Ανάλυση σελ Συμπεράσματα, μελλοντικές προκλήσεις σελ 162 Βιβλιογραφία / Πηγές σελ 163

4

5 Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών «Μαθηματικά των Υπολογιστών και των Αποφάσεων» Επιβλέπων: Βασίλης Βουτσινάς Τριμελής επιτροπή: Βασίλης Βουτσινάς, Ιωάννης Χατζηλυγερούδης, Κωνσταντίνος Τσεκούρας Μεταπτυχιακός: Παγουρόπουλος Απόστολος ΑΜ:150 Περίληψη της διπλωματικής εργασίας: Data Mining στην Xρηματοοικονομική Ανάλυση Η εργασία με τίτλο Data Mining στην Χρηματοοικονομική Ανάλυση, έχει σαν στόχο να αναδείξει τον βαθμό που μπορούν οι μέθοδοι Data Mining να αξιοποιήσουν τα οποιαδήποτε οικονομικά δεδομένα και να εξάγουν χρήσιμα συμπεράσματα και γνώση. Στο περιεχόμενο της εργασίας παρουσιάζεται η σημασία και η έννοια της τεχνικής Data Mining, περιγράφονται οι σημαντικότερες μέθοδοι (Ταξινόμηση, Ομαδοποίηση, Συσχέτιση) καθώς και πληροφορίες για τα διάφορα πεδία που εφαρμόζεται. Στην συνέχεια παραθέτονται στοιχεία σχετικά με την εφαρμογή της μεθόδου σε οικονομικά δεδομένα καθώς και στους τρόπους επεξεργασίας αυτών των δεδομένων και εστιάζουμε σε ζητήματα που απασχολούν την σύγχρονη οικονομία και στο πως αντιμετωπίζονται. Τέλος έχουν συλλεχθεί οικονομικά στοιχεία από εταιρείες οι οποίες έχουν πτωχεύσει και από εταιρείες που συνεχίζουν να λειτουργούν, καθώς και από μετοχές τραπεζών τα οποία θα χρησιμοποιηθούν για την εκπαίδευση αλγορίθμων Ταξινόμησης, Ομαδοποίησης και Συσχέτισης όπου από τους ελέγχους που θα διενεργηθούν, θα εξαχθούν συμπεράσματα σχετικά με το πόσο ικανοποιητικά είναι τα αποτελέσματα που λάβαμε για την αντιμετώπιση θεμάτων όπως η πτώχευση, η βιωσιμότητα οικονομικών οργανισμών και η μελέτη στοιχείων που αφορούν την συμπεριφορά των μετοχών. Λέξεις κλειδιά: Data Mining, Ταξινόμηση, Ομαδοποίηση, Συσχέτιση, αλγόριθμοι, μετοχές, πτώχευση, βιωσιμότητα, αριθμοδείκτες. Summary of project: Data Mining in Financial Analysis This project is about Data Mining methods and how we can use them in Financial Analysis. We describe the most popular methods, such as Classification, Clustering and Association. In addition, we focus on ways of financial data preprocessing and on topics that concern finance in general. Finally we use real financial data in order to train algorithms of all methods to extract knowledge and test the quality of results we earn, in topics that concern enterprises like financial / economic failure, viability, and stock market analysis. Keywords: Data Mining, Classification, Clustering / Cluster Analysis, Association, algorithms, financial / economic failure, viability, stock market analysis.

6

7 Η εργασία αυτή υλοποιήθηκε ώστε να διερευνηθεί η σχέση που μπορεί να υπάρξει μεταξύ των τεχνικών Data Mining / Εξόρυξη από Δεδομένα και της Χρηματοοικονομικής Ανάλυσης. Συλλέχτηκαν πληροφορίες για την θεωρητική θεμελίωση την τεχνικής Data Mining, από διάφορα επιστημονικά συγγράμματα, ώστε να γίνει μία όσο το δυνατόν πληρέστερη παρουσίασή της. Στην συνέχεια επελέγησαν κάποια πεδία της οικονομίας γενικότερα, τα οποία θεωρήθηκαν ως πρωταρχικής σημασίας για έρευνα, όπως η πτώχευση, η βιωσιμότητα επιχειρήσεων, και η διαχείριση χαρτοφυλακίου, η διαχείριση πιστώσεων κα τα οποία αναλύθηκαν και παρουσιάστηκαν πληροφορίες γύρω από αυτά. Κατέστει δυνατή η συλλογή ικανοποιητικών δεδομένων μόνο για την πτώχευση, την βιωσιμότητα και την διαχείριση χαρτοφυλακίου και επομένως οι εφαρμογές που έγιναν εστιάστηκαν στα πεδία αυτά. Άλλωστε από οικονομικής φύσεως θεωρούνται και από τα σημαντικότερα. Αυτά τα στοιχεία αξιοποιήθηκαν και επεξεργάστηκαν βάσει κάποιων τεχνικών και ενός αλγορίθμου κατηγοριοποίησης. Στόχος και πρόκληση ήταν να δούμε πόσο καλά μπορούν να αξιοποιηθούν αυτά μέσω των ανάλογων τεχνικών, (Ομαδοποίηση, Συσχέτιση, Ταξινόμηση), να εντοπιστούν σχέσεις και τάσεις που μπορεί να φαντάζουν παράξενες και πρωτόγνωρες, και τέλος να εξαχθούν χρήσιμα συμπεράσματα και γνώση, καθώς και να διαπιστωθεί ο βαθμός που τα αποτελέσματα συμβαδίζουν με την υπάρχουσα χρηματοοικονομική θεωρία.

8 Πρόλογος Η εργασία αυτή έχει ως στόχο να αναδείξει την σχέση που μπορεί να υπάρξει ανάμεσα στην Χρηματοοικονομική και Διοικητική επιστήμη και σε αυτήν της Τεχνητής Νοημοσύνης, εστιάζοντας κυρίως στο κατά πόσο η δεύτερη μπορεί να δώσει λύσεις σε καίρια ζητήματα, προβλήματα αλλά και προκλήσεις που παρουσιάζονται στο σύγχρονο οικονομικό περιβάλλον. Το μέσο για την εκπλήρωση αυτού του στόχου είναι οι τεχνικές Data Mining, που στα ελληνικά σαν όρος, αποδίδονται ως Τεχνικές Εξόρυξης Δεδομένων. Για την υλοποίηση της εργασίας αυτής, σαν πηγές χρησιμοποιήθηκαν πολλά επιστημονικά βιβλία που σχετίζονται με την Διοίκηση των Επιχειρήσεων, τα Χρηματοοικονομικά, την Τεχνητή Νοημοσύνη και τις μεθόδους Data Mining, τις Πολυκριτήριες Τεχνικές Ταξινόμησης αλλά και την Στατιστική. Το αποτέλεσμα από τον συνδυασμό των παραπάνω θα παρουσιαστεί στις σελίδες που θα ακολουθήσουν. Δεδομένου ότι δεν υπήρχε πλούσιο υλικό σχετικά με την εργασία έγινε η καλύτερη δυνατή προσπάθεια για την ενοποίηση των πληροφοριών και την όσο το δυνατό ικανοποιητικότερη σύνδεση μεταξύ τους, ώστε να είναι σε θέση ο κάθε ενδιαφερόμενος που θα μελετήσει την εργασία να αποκομίσει χρήσιμες πληροφορίες και γνώση. 2

9 0. Εισαγωγή Ο 20 Ος αιώνας έχει χαρακτηριστεί από πολλούς, ειδικούς και μη, συγκεκριμένα και άλλες φορές αυθαίρετα, ως ο αιώνας της πληροφορίας. Εκείνοι οι οποίοι είναι σε θέση και έχουν την ικανότητα να συλλέγουν πληροφορίες και δεδομένα, και έπειτα να τα αναλύουν και να τα αξιοποιούν, μοιραία είναι σε θέση να πρωταγωνιστήσουν σε όποιο πεδίο δραστηριοποιούνται. Η πληροφορία και η αξιοποίησή της, καθώς και η ανάλυση διάφορων δεδομένων τα οποία μπορούν να συλλεχθούν δίνουν την δυνατότητα σε κάθε ενδιαφερόμενο να αποκτήσει ένα ανταγωνιστικό πλεονέκτημα στον χώρο στον οποίο δραστηριοποιείται και να πάρει τις βέλτιστες αποφάσεις σε θέματα και διλήμματα που τον αφορούν. Αυτού του είδους οι αναλύσεις, που λαμβάνουν χώρα σε ποιοτικά αλλά και αριθμητικά δεδομένα γίνονται, ανάμεσα σε άλλες και με την βοήθεια της επιστήμης της Τεχνητής Νοημοσύνης, και πιο συγκεκριμένα με την χρήση των τεχνικών Data Mining, οι οποίες δίνουν την δυνατότητα εξαγωγής κανόνων μέσω των ηλεκτρονικών υπολογιστών. Στην συγκεκριμένη εργασία θα δούμε πως μπορούν οι τεχνικές αυτές να αποδώσουν στο χρηματοοικονομικό περιβάλλον, αλλά και γενικότερα στην οικονομία και να αντιμετωπίσουν προβλήματα όπως η πτώχευση των επιχειρήσεων, θέματα διαχείρισης χαρτοφυλακίου και πρόβλεψης της πορείας (όσον αφορά την τιμή) χρηματοοικονομικών προϊόντων, καθώς και πληροφορίες γύρω από την βιωσιμότητα των επιχειρήσεων. Η εργασία αρχικά θα αναφερθεί συνοπτικά στην επιστήμη της Τεχνητής Νοημοσύνης, έπειτα θα εστιάσει στις τεχνικές Data Mining, και στην συνέχεια θα επικεντρώσει σε θέματα οικονομίας που είναι ζωτικής σημασίας για οικονομικούς οργανισμούς αναφέροντας και παρουσιάζοντας έννοιες και στοιχεία που χαρακτηρίζουν αυτά, θα επισημάνει τρόπους και μεθόδους επίλυσης και αντιμετώπισης που προέρχονται από άλλα επιστημονικά πεδία, και τέλος μέσω κάποιων εφαρμογών με την βοήθεια αλγορίθμων οι οποίοι θα εφαρμοστούν σε οικονομικά στοιχεία που έχουν συλλεχθεί, θα καταλήξουμε στο κατά πόσο είναι ικανές αυτές οι τεχνικές στην αντιμετώπιση τέτοιων ζητημάτων. 3

10 Ά ΜΕΡΟΣ 1. Λίγα για την Τεχνητή Νοημοσύνη Το να δοθεί ένας ακριβής ορισμός γύρω από τον όρο Τεχνητή Νοημοσύνη, δεν είναι κάτι εύκολο και απλό. Αντίθετα κατά πολλούς είναι πολύπλοκο και σύνθετο καθώς η έννοια της λέξης «νοημοσύνη», πραγματικά προσεγγίζεται από πάρα πολλά σημεία. Ο Marvin Minsky υποστήριξε πως Τεχνητή Νοημοσύνη είναι η επιστήμη του να κάνεις τις μηχανές να κάνουν πράγματα που θα απαιτούσαν αν εγένετο από έναν άνθρωπο. Ένας άλλος ορισμός αναφέρει πως Τεχνητή Νοημοσύνη είναι η μελέτη του πώς να κάνουμε τους ηλεκτρονικούς υπολογιστές να κάνουν πράγματα για τα οποία, προς το παρόν, οι άνθρωποι είναι καλύτεροι (Elaine Rich 1983). Επίσης, διάσταση απόψεων υπάρχει και στο εάν η Τεχνητή Νοημοσύνη αποτελεί επιστήμη ξεχωριστή, ή απλά είναι ένας κλάδος της επιστήμης των υπολογιστών. [.1] Εμείς εδώ, θα θεωρήσουμε ότι η Τεχνητή Νοημοσύνη αποτελεί επιστήμη η οποία έχει σαν μοναδικό μέσο πειραματισμού τους ηλεκτρονικούς υπολογιστές. Η Τεχνητή Νοημοσύνη γεννήθηκε στις αρχές της δεκαετίας του 1940, με το ενδιαφέρον να περιστρέφεται στην κατασκευή προγραμμάτων για παίξιμο παιχνιδιών και αποδείξεις θεωρημάτων. Η κυρίως έμφαση δόθηκε στην κατασκευή συστημάτων τα οποία είχαν κάποιο βαθμό γενικής ευφυΐας ή ικανότητας για την επίλυση προβλημάτων από διαφορετικά πεδία και χώρους. Στο σημείο αυτό αξίζει να επισημάνουμε ότι ώθηση στην εξέλιξη της επιστήμης έδωσε η δημιουργία της γλώσσας LISP. Η βασική κατεύθυνση της επιστήμης και βασικός της σκοπός ήταν η δημιουργία δομών που παριστάνουν τον τρόπο με τον οποίο ο ανθρώπινος εγκέφαλος αποθηκεύει δεδομένα, πληροφορία, γνώση καθώς και τρόπους επεξεργασίας αυτών και αντιστοιχία του ανθρώπινου συλλογισμού. Οι προσπάθειες όλες αφιερώθηκαν στην κατασκευή συστημάτων με περιορισμένο πεδίο εφαρμογής που κατείχαν σημαντικό όγκο γνώσης για το συγκεκριμένο πεδίο (το πεδίο προσδιορίζει το ανάλογο αντικείμενο, επιστημονικό χώρο). Στο σημείο αυτό θα αναφερθούμε σύντομα στους σπουδαιότερους τομείς της Τεχνητής Νοημοσύνης και θα δώσουμε μία μικρή περιγραφή για τον κάθε ένα από αυτούς [.1] : Παίξιμο Παιχνιδιών (Game Playing) Αναφέρεται στο παίξιμο των παιχνιδιών που απαιτούν συλλογισμό, όπως το σκάκι, και είναι από τους παλαιότερους τομείς. Αυτοποιημένος Συλλογισμός (Automated Reasoning) Θα μπορούσε κανείς να ισχυριστεί πως η αυτόματη απόδειξη θεωρημάτων (automatic theorem proving) είναι ο παλαιότερος κλάδος της Τεχνητής Νοημοσύνης που απέδωσε πολλούς καρπούς. Στάθηκε αφορμή για την τυποποίηση πολλών αλγορίθμων αναζήτησης και την ανάπτυξη του κατηγορηματικού λογισμού πρώτης τάξης (first-order predicate calculus) καθώς και της γλώσσας PROLOG. 4

11 Έμπειρα Συστήματα (Expert Systems) Αποτελεί τον πιο επιτυχημένο κλάδο με εμπορεύσιμα αποτελέσματα σε πολλά πεδία της καθημερινότητας και επιστημών. Το έμπειρο σύστημα είναι ένα πρόγραμμα το οποίο μιμείται έναν εμπειρογνώμονα για την επίλυση προβλημάτων και την λήψη αποφάσεων. Στηρίζονται στην σπουδαιότητα της εξειδικευμένης γνώσης, για ένα στενό πεδίο, που λαμβάνεται από ένα η περισσότερους εμπειρογνώμονες στο πεδίο αυτό. Η γνώση των συστημάτων βασίζεται στην εμπειρία που αποκτήθηκε. Στην ουσία τέτοια συστήματα αποτελούν την συνέννωση πολλών εμπειρογνωμόνων σε έναν όσον αφορά την γνώση. Κατανόηση Φυσικής Γλώσσας (Natural Language Understanding) Αποτελεί ένα από τα δυσκολότερα προβλήματα της επιστήμης. Υπάρχουν ελάχιστα συστήματα τα οποία κατανοούν την γλώσσα, και αναφέρονται σε περιορισμένου μεγέθους λεξιλόγια και σύνολα εννοιών. Μηχανική Μάθηση (Machine Learning) Η αυτοποιημένη μάθηση είναι και αυτή από τα δυσκολότερα προβλήματα. Αναφέρεται στο κατά πόσο μπορεί ένα πρόγραμμα να είναι ικανό για αυτομάθηση, είτε μέσω εμπειρίας, είτε μέσω παραδειγμάτων αλλά και περιγραφών σε φυσική γλώσσα. Αυτός ο τομέας εξελίσσεται δυναμικά, και σε αυτόν βασίζονται και οι τεχνικές Data Mining που θα μας απασχολήσουν στην συγκεκριμένη εργασία. Η Μηχανική Μάθηση αποσκοπεί στην διερεύνηση των μηχανισμών και των υπολογιστικών διαδικασιών μέσω των οποίων είναι δυνατή η εξαγωγή και οργάνωση της γνώσης από την υπάρχουσα εμπειρία. Μεταξύ των διαφόρων μορφών συστημάτων μάθησης, η επαγωγική μάθηση μέσω παραδειγμάτων (inductive learning) έχει γνωρίσει τη μεγαλύτερη διάδοση. Στο συγκεκριμένο πεδίο σημαντικό ρόλο παίζει και η ποιότητα των κανόνων που εξάγονται από την υπάρχουσα γνώση καθώς και η βελτίωσή της. Κατανόηση Εικόνας (Image Understanding) Ο τομέας αυτός αναφέρεται στη δυνατότητα ενός ηλεκτρονικού υπολογιστή που είναι εφοδιασμένος με κάμερα να κατανοεί. Να αναγνωρίζει δηλαδή αντικείμενα και τις σχέσεις τους στο χώρο σε μια εικόνα, όπου η εικόνα μπορεί να είναι σχέδια αλλά και φυσική. Αποτελεί έναν από τους δυσκολότερους τομείς της επιστήμης αυτής. 5

12 2. Η τεχνική Data Mining / Εξόρυξη από Δεδομένα Η διαδικασία Data Mining, η ελληνική απόδοση της οποίας είναι Εξόρυξη από Δεδομένα ή Ανεύρεση Γνώσης από Δεδομένα, είναι η αναλυτική διαδικασία η οποία έχει σχεδιαστεί για να αναλύει και να εξερευνεί δεδομένα σε μεγάλες ποσότητες και έπειτα να δημιουργεί κανόνες και σχέσεις μεταξύ των μεταβλητών που ενδιαφέρουν να ερευνηθούν. Γενικά ο όρος Data Mining αναφέρεται σε υψηλού επιπέδου εφαρμογές και μεθόδους και παρόμοια εργαλεία, που χρησιμοποιούνται για να παρουσιάσουν και να αναλύσουν δεδομένα σε πεδία λήψης αποφάσεων. Η βασική ιδέα πίσω από τον όρο Data Mining είναι η ανεύρεση εκείνης της μη μηδενικής λύσης η οποία δίνει την δυνατότητα εξαγωγής χρήσιμων και ουσιαστικών κανόνων σε δεδομένα [3]. Η όλη διαδικασία βασίζεται στην χρησιμοποίηση αλγορίθμων οι οποίοι αναζητούν κανόνες μεταξύ των μεταβλητών των δεδομένων, και έπειτα καταχωρούν τα δεδομένα σε νέες βάσεις δεδομένων. Τεχνικώς οι αλγόριθμοι αυτοί είναι τα συστατικά της διαδικασίας η οποία βρίσκει συσχετισμούς ή κανόνες μέσα από τεράστιες βάσεις αποθηκευμένων δεδομένων / πληροφοριών. Επίσης η διαδικασία Data Mining αναφέρεται συχνά και ως Computerized Technology (Πληροφοριακή Τεχνολογία) η οποία χρησιμοποιεί πολύπλοκους αλγόριθμους που δημιουργούν κανόνες και σχέσεις μέσα σε τεράστιες βάσεις δεδομένων, αναλύοντάς τες, με σκοπό την λήψη στρατηγικών αποφάσεων. Η τεχνική Data Mining, DM, ενδιαφέρει ερευνητές από διάφορα πεδία επιστημών όπως εκείνα της Μηχανικής Μάθησης (Machine Learning), Αναγνώρισης Κανόνων (Pattern Recognition), των Βάσεων Δεδομένων (Databases), την Στατιστική (Statistics), την Τεχνητή Νοημοσύνη (Artificial Intelligence ΑΙ), και τα Έμπειρα Συστήματα (Expert Systems). Οι περισσότεροι αλγόριθμοι και τεχνικές προέρχονται από αυτά τα πεδία. Η βάση όλων των παραπάνω είναι η απόσπαση κανόνων που περιέχουν γνώση, μέσα από πλήθος δεδομένων. Οι κυριότεροι στόχοι των τεχνικών DM είναι η Πρόβλεψη (Prediction) και η Περιγραφή (Description) [.3]. Η Πρόβλεψη, που αποτελεί και το σημαντικότερο είδος DM, χρησιμοποιεί υπάρχουσες μεταβλητές στις βάσεις δεδομένων ώστε να προβλέπει άγνωστες ή μελλοντικές αξίες ενδιαφέροντος. Από την άλλη μεριά, η Περιγραφή επικεντρώνεται στο να βρίσκει κανόνες περιγράφοντας δεδομένα. Οι αλγόριθμοι της κάθε τεχνικής DM αποτελούνται από τρία συστατικά στοιχεία [.3]: Model Representation (Αναπαράσταση Μοντέλου) Model Evaluation (Αποτίμηση Μοντέλου) Search Method (Μέθοδος Αναζήτησης) Επεξήγηση των σημαντικότερων στοιχείων ενός αλγορίθμου (DM): -Model Representation: Είναι η γλώσσα L η οποία περιγράφει ανακαλυφθήσες μεθόδους. Εάν η αναπαράσταση είναι μικρή και περιορισμένη αρκετά τότε τίποτε από παραδείγματα η από χρόνο εκπαίδευσης δεν θα παράγει ένα μοντέλο για τα δεδομένα. 6

13 -Model Evaluation (Μοντέλο αποτίμησης): Υπολογίζει πόσο καλά μια συγκεκριμένη μέθοδος, ένα μοντέλο με τις παραμέτρους του, συνιστούν τα κριτήρια της διαδικασίας Knowledge Discovery Databases (Ανεύρεση γνώσης σε βάσεις δεδομένων). -Search: Αποτελείται από δύο στοιχεία. Το πρώτο είναι η parameter search όπου ο αλγόριθμος πρέπει να ψάχνει για παραμέτρους που συνοψίζουν τα μοντέλα αποτίμησης που έλαβαν δεδομένα και έτοιμη αναπαράσταση του μοντέλου. Δεύτερον έχουμε την model research. Συνοπτικά, το μοντέλο της τεχνικής που θα χρησιμοποιηθεί πρέπει να αναπαριστά καθαρές υποθέσεις και συμπεράσματα, ώστε να αποσπώνται οι κανόνες που ενδιαφέρουν. Επιπρόσθετα το μοντέλο θα πρέπει να έχει έγκυρη πρόβλεψη η οποία θα μπορεί να βασιστεί στην μέθοδο Cross Validation και η αναζήτηση να συνοψίζει τα κριτήρια αποτίμησης του μοντέλου σχετικά με την αναπαράσταση των δεδομένων. Τα εργαλεία εξόρυξης (Mining Tools or Search Engines) είναι συνήθως «έξυπνα» από το πεδίο της Τεχνητής Νοημοσύνης σχετικά με βάσεις δεδομένων. Ποικίλα είναι τα είδη / τύποι των εργαλείων που χρησιμοποιούνται στην τεχνική Data Mining. Στο σημείο αυτό θα αναφέρουμε ονομαστικά τα κυριότερα αυτών: Neural Networks, (Νευρωνικά Δίκτυα) Τα Νευρωνικά Δίκτυα (Artificial neural networks), είναι μη γραμμικά μοντέλα πρόβλεψης για λήψη αποφάσεων, τα οποία χρησιμοποιούν υπάρχοντα δεδομένα τα οποία έχουν γνωστά αποτελέσματα (outcomes) για να εκπαιδεύσουν ένα μοντέλο το οποίο μπορεί μετά να χρησιμοποιηθεί για να κάνει προβλέψεις. Επειδή τα Νευρωνικά Δίκτυα αποτελούν από τα σημαντικότερα εργαλεία της τεχνικής Data Mining θα αναφερθούμε λίγο εκτενέστερα σε αυτά. Τα Νευρωνικά Δίκτυα ΝΔ, τα οποία αναφέρονται και ως Τεχνητά Νευρωνικά Δίκτυα, (Artificial Neural Networks) αναπτύχθηκαν μέσω της επιστήμης της Τεχνητής Νοημοσύνης ως μία καινοτόμος μεθοδολογία μοντελοποίησης πολύπλοκων προβλημάτων. Η κύρια μεθοδολογική τους βάση είναι η προσπάθεια εξομοίωσης του τρόπου λειτουργίας του ανθρώπινου εγκεφάλου κατά την επεξεργασία των σημάτων / μηνυμάτων που λαμβάνει από το εξωτερικό περιβάλλον. Κάθε ΝΔ, είναι ένα δίκτυο παράλληλων μονάδων επεξεργασίας οι οποίες είναι οργανωμένες σε μια σειρά επιπέδων (layers). Μια τυπική αρχιτεκτονική ενός ΝΔ περιλαμβάνει: -Ένα επίπεδο εισόδου (input layer) αποτελούμενο από μια σειρά κόμβων (επιμέρους μονάδες επεξεργασίας), έναν για κάθε είσοδο του ΝΔ. -Ένα επίπεδο εξόδου (output layer) το οποίο αποτελείται από έναν ή περισσότερους κόμβους, ανάλογα με τη μορφή που έχει το αποτέλεσμα του ΝΔ. Στην περίπτωση προβλημάτων ταξινόμησης το πλήθος των κόμβων του επιπέδου εξόδου καθορίζεται ανάλογα με το πλήθος των κατηγοριών. Έτσι στην περίπτωση των δύο κατηγοριών, το δίκτυο μπορεί να έχει μόνο έναν κόμβο εξόδου ο οποίος θα λαμβάνει την τιμή 1 για την κατηγορία C1 και 2 για την κατηγορία C2 (οι συμβολισμοί είναι αυθαίρετοι). Στην γενικότερη περίπτωση όπου υπάρχουν q κατηγορίες, τότε το πλήθος των 7

14 κόμβων στο επίπεδο εξόδου συνήθως καθορίζεται ως ο αμέσως μεγαλύτερος ακέραιος αριθμός από τον πραγματικό αριθμό log 2 q. Εναλλακτικά, μπορεί να καθοριστεί ένας κόμβος εξόδου για κάθε κατηγορία. -Μια σειρά ενδιάμεσων επιπέδων (hidden layers). Όλοι οι κόμβοι διαδοχικών επιπέδων συνδέονται πλήρως μεταξύ τους, ενώ είναι επίσης δυνατή η ανάπτυξη ΝΔ στα οποία υπάρχουν συνδέσεις ακόμα και κόμβων που δεν ανήκουν σε διαδοχικά επίπεδα. Στο σχήμα που θα ακολουθήσει παρουσιάζεται ένα ΝΔ που χρησιμοποιεί την αρχιτεκτονική αυτή (fully connected neural network model) με ένα ενδιάμεσο επίπεδο. Γενικά, δεν υπάρχει ένας συγκεκριμένος κανόνας βάσει του οποίου καθορίζεται ο αριθμός των κόμβων ενδιαμέσων επιπέδων. Κάθε σύνδεση μεταξύ δύο κόμβων του ΝΔ έχει ένα βάρος (weight), το οποίο αναπαριστά την ισχύ της σύνδεσης. Ο καθορισμός των βαρών αυτών που αποτελεί την εκμάθηση του δικτύου, επιτυγχάνεται μέσω διαδικασιών βελτιστοποίησης, με σκοπό την ελαχιστοποίηση των αποκλίσεων μεταξύ των αποτελεσμάτων του δικτύου από το πραγματικό αποτέλεσμα (προκαθορισμένη ταξινόμηση) το οποίο καθορίζεται για ένα δείγμα εκμάθησης. Ως μέτρο των αποκλίσεων συνήθως χρησιμοποιείται το άθροισμα των τετραγώνων των σφαλμάτων, κατά αναλογία με την στατιστική παλινδρόμηση. Η πλέον διαδεδομένη διαδικασία εκμάθησης του δικτύου, είναι η διαδικασία back propagation, ενώ παράλληλα σημαντική είναι και η συμβολή εξελιγμένων τεχνικών μη γραμμικής βελτιστοποίησης οι οποίες παρέχουν υψηλή υπολογιστική ισχύ και οδηγούν στον εντοπισμό του ολικού ελάχιστου (global minimum) της συνάρτησης σφάλματος. Παρακάτω παρουσιάζεται η γενική αρχιτεκτονική ενός νευρωνικού δικτύου: Έξοδος 1 Έξοδος 2 Είσοδος 1 Είσοδος 2 Είσοδος 3 8

15 Βάσει των βαρών των συνδέσεων, η είσοδος στον κάθε κόμβο του δικτύου υπολογίζεται ως ο σταθμισμένος μέσος των εξόδων όλων των κόμβων με τους οποίους συνδέεται. Στη γενικότερη περίπτωση ενός πλήρως συνδεδεμένου ΝΔ η είσοδος in ir στον κόμβο ι του επιπέδου r υπολογίζεται από τον τύπο: n j i 1 j ir = ik kj + ir j= 0 k = 1 in w o φ όπου n j είναι ο αριθμός των κόμβων στο επίπεδο j, w j ik είναι το βάρος της σύνδεσης μεταξύ του κόμβου i στο επίπεδο r και του κόμβου k στο επίπεδο j, ο kj είναι η έξοδος του κόμβου k στο επίπεδο j και φ ir είναι ένας όρος σφάλματος. Η έξοδος κάθε νευρώνα προκύπτει μέσω μιας συνάρτησης μετασχηματισμού της εισόδου του νευρώνα. Η συνηθέστερη συνάρτηση μετασχηματισμού που χρησιμοποιείται είναι η λογιστική συνάρτηση: o = 1 ir in ir T 1+ e όπου Τ μία σταθερά. Βασικό πλεονέκτημα των ΝΔ είναι η δυνατότητα παράλληλης επεξεργασίας που παρέχουν, και κυρίως η δυνατότητα αναπαράστασης έντονα μη γραμμικών συμπεριφορών. Από την άλλη μεριά, χαρακτηρίζονται από μειονεκτήματα όπως ο αυξημένος υπολογιστικός φόρτος που απαιτείται κατά την φάση της εκμάθησης του δικτύου και η μη επεξήγηση των αποτελεσμάτων που δίνει [.2]. Decision Trees, (Δένδρα Αποφάσεων) Τα δέντρα αποφάσεων είναι μοντέλα υποστήριξης λήψης αποφάσεων τα οποία δημιουργούν κανόνες για να ταξινομούν ένα σύνολο δεδομένων όπου το κάθε δέντρο αναπαριστά σύνολα από αποφάσεις. 9

16 Rule Induction, (Εισαγωγή Κανόνων) Είναι η χρησιμοποίηση if-then κανόνων σε σύνολα από δεδομένα, τα οποία βασίζονται κυρίως σε στατιστικά μοντέλα. Data Visualization, (Απεικόνιση Δεδομένων) Αποτελεί την εικονική αναπαράσταση σχέσεων μεταξύ δεδομένων. Genetic Algorithms, (Γενετικοί Αλγόριθμοι) Οι Γενετικοί Αλγόριθμοι είναι μία τεχνική η οποία βασίζεται σε στοιχεία / συστατικά natural evolution χρησιμοποιώντας γενετικούς συνδυασμούς. Nearest Neighbor Method, (Μέθοδος Γειτνίασης) Είναι μία τεχνική ταξινόμησης δεδομένων που βασίζεται σε ομοειδείς εγγραφές μέσα από προηγούμενες (historical) βάσεις δεδομένων. 2.1 Τα στάδια της διαδικασίας Data Mining Πριν αναφερθούμε στα στάδια της διαδικασίας Data Mining, είναι χρήσιμο να επισημάνουμε πως πολλοί αναφέρουν ότι η διαδικασία Data Mining αποτελεί μία στατιστική διαδικασία η οποία αναλύει δεδομένα αποθηκευμένα μέσα σε Data Warehouses. Τα Data Warehouses αποτελούν τεράστια πεδία με αποθηκευμένα δεδομένα, όπου εκεί περιέχονται ποικίλες πληροφορίες για όλες τις λειτουργίες ενός οργανισμού (είτε πρόκειται για ιδιωτική επιχείρηση, νοσοκομείο, δημόσια υπηρεσία κ.α). Τα δεδομένα αυτά είναι επεξεργασμένα κατά τέτοιο τρόπο που διευκολύνουν τα εργαλεία της μεθόδου Data Mining να τα επεξεργάζονται καλύτερα. Μικρότερες σε μέγεθος εκδόσεις των Data Warehouses είναι τα Data Marts τα οποία επικεντρώνονται και εστιάζονται σε συγκεκριμένες περιοχές / ομάδες ενδιαφέροντος, είναι οικονομικότερα και λειτουργούν σε μικρότερο περιβάλλον. Στην συνέχεια ακολουθεί ένα παράδειγμα σύγκρισης μεταξύ Data Warehouse και Data Mart σε πίνακα: 10

17 DATA WAREHOUSE DATA MART Total company sales information Πληροφορίες για τις συνολικές πωλήσεις Store sales / Hourly sales Συνολικό ποσοστό πωλήσεων Customer profiles Εικόνα / Προφίλ πελατών Sales for a simple location Πωλήσεις για μία τοποθεσία,εστία της αγοράς Credit card sales only Πωλήσεις / αγορές που έγιναν με πιστωτική κάρτα Credit card customer profiles Εικόνα πελατών σχετικά με την χρησιμοποίηση της πιστωτικής κάρτας Credit card purchasing history Πορεία πιστωτικής κάρτας Η διαδικασία Εξόρυξης από δεδομένα αποτελείται από τρία στάδια [.3] : Το στάδιο της «εξερεύνησης» των δεδομένων (initial exploration) Το στάδιο δημιουργίας και κατασκευής του κατάλληλου μοντέλου πρόβλεψης (model building and validation) Τέλος, το στάδιο της περαιτέρω ανάπτυξης της διαδικασίας (deployment) Στο σημείο αυτό θα ακολουθήσει μια περιγραφή του κάθε σταδίου της διαδικασίας με όσο το δυνατό πιο σαφή και κατανοητό τρόπο [.3] : Αναζήτηση και «Εξερεύνηση» των δεδομένων (initial exploration) Αυτό το στάδιο συνήθως ξεκινάει με την προετοιμασία των δεδομένων (data preparation), που περιλαμβάνει καθαρισμό από πιθανούς θορύβους που υπάρχουν μέσα στα δεδομένα, μετασχηματισμούς δεδομένων και επιλογή των κατάλληλων υποσυνόλων εγγραφών και καθορισμό ομάδων δεδομένων με μεγάλους αριθμούς μεταβλητών και πεδίων (fields) διεξάγοντας μία επιλογή χαρακτηριστικών (feature selections). Έπειτα, ανάλογα με την φύση του προβλήματος αυτό το στάδιο της διαδικασίας μπορεί να περιλαμβάνει μία απλή επιλογή από μεθόδους πρόβλεψης για ένα μοντέλο ανάλυσης, ώστε να βγάλει κάποια συμπεράσματα χρησιμοποιώντας μία μεγάλη ποικιλία από στατιστικές μεθόδους (EDA Exploratory Data Analysis) για να αναγνωρίσει τις πιο σχετικές μεταβλητές και να εξαλείψει την πολυπλοκότητα από το επόμενο στάδιο υλοποίησης της διαδικασίας. 11

18 Δημιουργία του κατάλληλου μοντέλου πρόβλεψης (model building and validation) Tο συγκεκριμένο στάδιο περιλαμβάνει την επεξεργασία πολλών και ποικίλων μοντέλων και την επιλογή εκείνου που βασίζεται στην άριστη / βέλτιστη απόδοση της πρόβλεψης. Αυτό ίσως ακούγεται σαν μια απλή διαδικασία, αλλά είναι γεγονός ότι μερικές φορές αποτελεί μία πολύπλοκη και δύσκολη διαδικασία. Είναι μία μεγάλη γκάμα τεχνικών που αναπτύχθηκαν για να επιτύχουν το στόχο αυτού του σταδίου και έχουν την προσωνυμία Competitive Evaluation Models.Ο σκοπός είναι να απευθυνόμαστε σε διαφορετικά μοντέλα με το ίδιο σύνολο δεδομένων και συγκρίνοντας την απόδοση της μεθόδου να επιλέγουμε την καλύτερη. Αυτές οι τεχνικές οι οποίες αποτελούν την «αφρόκρεμα» του Predictive Data Mining είναι οι εξής: Bagging (Voting,Averaging), Boosting, Stacking (Stacked Generalizations), και τέλος η τεχνική Meta-Learning. Ανάπτυξη (Deployment) Στο τελικό στάδιο χρησιμοποιούμε το μοντέλο που επιλέχθηκε σαν το καλύτερο από το στάδιο της δημιουργίας του μοντέλου της κάθε διαδικασίας και το εφαρμόζουμε σε νέα δεδομένα, ώστε να παράγει προβλέψεις ή να εκτιμήσει το νέο αποτέλεσμα. Να εξάγει δηλαδή νέους κανόνες. 2.2 Μέθοδοι της τεχνικής Data Mining Οι κυριότερες μέθοδοι της τεχνικής Εξόρυξης από Δεδομένα οι οποίες χρησιμοποιούν κανόνες Μηχανικής Μάθησης είναι [.4] : Κανόνες Ταξινόμησης Κανόνες Ομαδοποίησης Κανόνες Συσχέτισης Υπάρχουν βέβαια και άλλα πεδία τέτοιων κανόνων, όπως στατιστικής ανάλυσης (statistical analysis) της αριθμητικής ταξινόμησης (numerical taxonomy), της παλινδρόμησης (regression analysis) και άλλων αρκετών. Στην συνέχεια θα παρουσιάσουμε αναλυτικά τον τρόπο λειτουργίας και δομής των κανόνων ταξινόμησης,ομαδοποίησης και συσχέτισης. 12

19 2.2.1 Ταξινόμηση (Classification) Ίσως η πιο δημοφιλής και αποτελεσματική τεχνική. Οι αλγόριθμοι ταξινόμησης εφαρμόζονται σε δεδομένα τα οποία έχουν προταξινομηθεί σε συγκεκριμένες κλάσεις με στόχο την εξαγωγή κανόνων οι οποίοι μπορεί μετέπειτα να χρησιμοποιηθούν για ταξινόμηση νέων δεδομένων στις ίδιες κλάσεις. Ένα σύνολο εξαγόμενων κανόνων ονομάζεται ταξινομητής (classifier). Η λειτουργία των αλγορίθμων ταξινόμησης έχει ως εξής [.4]: (1) Δίνουμε ένα σύνολο από δεδομένα σαν είσοδο σε έναν αλγόριθμο ταξινόμησης (2) Ο αλγόριθμος έπειτα με την σειρά του «μαθαίνει» από το πώς αυτά τα δεδομένα έχουν ταξινομηθεί. Δηλαδή κατανοεί τους κανόνες βάσει των οποίων ταξινομήθηκαν τα δεδομένα (3) Έπειτα βάσει των συγκεκριμένων κανόνων έχει την ικανότητα να ταξινομήσει νέα δεδομένα Υπάρχουν δύο βασικοί τύποι αλγόριθμων ταξινόμησης ανάλογα με το είδος του ταξινομητή που παράγουν: (a) Οι αλγόριθμοι που παράγουν λίστες αποφάσεων [πχ Clark] (b) Οι αλγόριθμοι που παράγουν δένδρα αποφάσεων [πχ Quinlan] Οι κανόνες που παράγουν λίστες αποφάσεων έχουν την μορφή λογικών κανόνων που βγάζουν ανάλογα συμπεράσματα και είναι μία σχετικά νέα μορφή αλγόριθμων. Από την άλλη μεριά οι αλγόριθμοι που παράγουν δένδρα αποφάσεων είναι εκείνοι που αποτελούν ίσως την πιο παλιά μορφή και έκφραση της τεχνικής Data Mining. Οι αλγόριθμοι που παράγουν δένδρα αποφάσεων έχουν στην ρίζα τους και στους ενδιάμεσους κόμβους τιμές των διάφορων πεδίων και στα φύλλα τους τιμές του πεδίου κλάσης. Ο κάθε κόμβος διακλαδώνεται προς τα κάτω έχοντας ένα κλαδί για κάθε διακριτή τιμή του πεδίου. Σε περίπτωση συνεχούς αριθμητικού πεδίου, χωρίζεται το εύρος του πεδίου σε διαστήματα και ο κόμβος διακλαδώνεται με βάση αυτά. Τέλος ένας αλγόριθμος που παράγει δένδρα αποφάσεων ακολουθεί συνήθως αναλυτική προσέγγιση (top-down), δημιουργεί δηλαδή το δένδρο από την ρίζα και προχωράει προς τα κάτω. Στην συνέχεια θα περιγραφεί αναλυτικά ένας από τους βασικότερους αλγόριθμους ταξινόμησης που παράγει δένδρα αποφάσεων, ο ID3. Ο αλγόριθμος αυτός παρουσιάστηκε ολοκληρωμένα από τον J.R Quinlan στο περιοδικό Machine Learning το Η αρχική του έκδοση είχε δημοσιευτεί από τον ίδιο το Το όνομά του προκύπτει από τα αρχικά Induction of Decision Trees. Ο αλγόριθμος αυτός θεωρήθηκε πρωτοποριακός την εποχή εκείνη εξαιτίας της πληρότητας της μελέτης και της αποτελεσματικότητάς του. Ο ID3 ανήκει στην οικογένεια των συστημάτων μάθησης TDIDT (Top-Down Inductuon of Decision Trees), ακολουθώντας την αναλυτική προσέγγιση. Δέχεται σαν είσοδο ένα σύνολο εκπαίδευσης οι εγγραφές του οποίου έχουν προταξινομηθεί σε κλάσεις. Ο αλγόριθμος, στην αρχική του μορφή, θεωρεί δύο διακριτές τιμές κλάσης 13

20 οι οποίες συμβολίζονται στην βιβλιογραφία ως P (positive) και N (negative). Βέβαια ο αλγόριθμος μπορεί να επεκταθεί και σε περισσότερες από δύο τιμές κλάσης. Αντί να εξάγεται το δένδρο αποφάσεων από ολόκληρο το σύνολο εκπαίδευσης, χρησιμοποιείται ένα «παράθύρο», δηλαδή ένα υποσύνολο εγγραφών. Με το δένδρο που προκύπτει ταξινομείται ολόκληρο το σύνολο εκπαίδευσης και ελέγχεται η ακρίβεια της ταξινόμησης. Αν όλες οι εγγραφές έχουν ταξινομηθεί σωστά, τότε το υπάρχον δένδρο γίνεται αποδεκτό και ο αλγόριθμος τερματίζει. Διαφορετικά, προστίθενται οι άλλες εγγραφές στο «παράθυρο» και η διαδικασία επαναλαμβάνεται. Αυτό συνεχίζεται μέχρι όλες οι εγγραφές να ταξινομηθούν σωστά από το δένδρο. Για να εξασφαλιστεί η επιτυχής κατάληξη του αλγορίθμου, πρέπει να υπάρχει δυνατότητα το «παράθυρο» να μεγαλώσει τόσο που να περιέχει όλο το σύνολο των εγγραφών. Επομένως μία σημαντική παράμετρος του αλγορίθμου είναι το ποσοστό εγγραφών που θα περιέχει το «παράθυρο» και με τι ρυθμό θα μεγαλώνει εφόσον δεν είναι επαρκές. Επόμενη και σημαντική παράμετρος είναι το κριτήριο επιλογής κάθε κόμβου, με το οποίο θα γίνει η διακλάδωση. Χρησιμοποιείται ως κριτήριο επιλογής ένα μέγεθος δανεισμένο από την Θεωρία της Πληροφορίας η Εντροπία. Το μέγεθος Εντροπία, ως αντίθετο στο μέγεθος Πληροφορία, δίνει μία εκτίμηση του πόσο λανθασμένα χωρίζεται κάθε φορά το σύνολο εκπαίδευσης, με βάση το συγκεκριμένο πεδίο. Άρα το πεδίο με την μικρότερη Εντροπία χωρίζει καλύτερα το σύνολο εκπαίδευσης. Σε αυτό το σημείο θα αναφερθούμε στα βήματα του αλγορίθμου ID3, τα οποία έχουν ως εξής: I. Διάλεξε ένα πεδίο για ρίζα του δένδρου απόφασης και σχημάτισε διακλάδωση με ένα φύλλο για κάθε διαφορετική τιμή (ή διάστημα) αυτού του πεδίου II. Το δένδρο απόφασης που έχει μέχρι στιγμής κατασκευασθεί χρησιμοποιείται για να ταξινομήσει το σύνολο εκπαίδευσης. Αν όλες οι εγγραφές που ταξινομούνται σε ένα συγκεκριμένο φύλλο ανήκουν στην ίδια κλάση, ονόμασε το φύλλο αυτό με την κλάση αυτή. Αν όλα τα φύλλα έχουν ονομασθεί με κάποια κλάση ο αλγόριθμος τελειώνει III. Διαφορετικά, για κάθε φύλλο που δεν έχει ονομαστεί με κάποια κλάση, διάλεξε ένα πεδίο που δεν έχει προηγουμένως επιλεγεί στο μονοπάτι από το φύλλο έως την ρίζα, ονόμασε το φύλλο (κόμβος πλέον) με αυτό το πεδίο και σχημάτισε διακλάδωση με ένα φύλλο για κάθε διαφορετική τιμή (ή διάστημα) αυτού του πεδίου. Έπειτα συνέχισε στο Βήμα ΙΙ. Στο σημείο αυτό θα παρουσιάσουμε ακόμη έναν αλγόριθμο ταξινόμησης, τον C4.5. Ο αλγόριθμος αυτός αποτελεί μία από τις πλέον γνωστές τεχνικές στο χώρο της μηχανικής μάθησης, ο οποίος αναπτύσσει δένδρα αποφάσεων που παρουσιάζονται και ως κανόνες απόφασης της μορφής [.2]: Εάν στοιχειώδεις συνθήκες Τότε συμπεράσματα 14

21 Ο C4.5 αναπτύχθηκε από τον Quinlan (1993) και αποτελεί εξέλιξη του αλγορίθμου ID3. Ο καινούργιος αλγόριθμος σε σχέση με τον προκάτοχό του έχει τα εξής βασικά πλεονεκτήματα 1. Δυνατότητα επεξεργασίας και διαχείρισης ποσοτικών κριτηρίων 2. Δυνατότητα διαχείρισης δεδομένων με ελλιπή στοιχεία 3. Αποφυγή της μεγάλης προσαρμογής στα δεδομένα του δείγματος εκμάθησης (overfitting) Ο αλγόριθμος ξεκινώντας από ένα σύνολο παραδειγμάτων τα οποία διαμορφώνουν το δείγμα εκμάθησης, οδηγεί στην ανάπτυξη ενός συνόλου κανόνων αποφάσεων για την ταξινόμηση εναλλακτικών δραστηριοτήτων. Οι κανόνες αυτοί με την σειρά τους οργανώνονται και δημιουργούν ένα δέντρο αποφάσεων. Ο κάθε κόμβος του δέντρου περιλαμβάνει το κριτήριο αξιολόγησης το οποίο ελέγχεται βάσει των συνθηκών που καθορίζουν τα κλαδιά του δέντρου. Τα φύλλα με την σειρά τους υποδεικνύουν την κατηγορία στην οποία πρέπει να ενταχθεί μια εναλλακτική δραστηριότητα η οποία επαληθεύει την συνθήκη του κλάδου που καταλήγει στο φύλλο. Εδώ παραθέτουμε ένα τέτοιο δέντρο: G1 1 >1 G2 G3 >0,3 0,3 >1,2 1,2 C1 C2 C1 C2 15

22 Αυτό το δέντρο απόφασης, αναπτύσσεται μέσω μίας επαναληπτικής διαδικασίας όπου κάθε στάδιο αυτής περιλαμβάνει τα παρακάτω τρία βήματα: -Αξιολόγηση της διακριτικής ικανότητας των κριτηρίων αξιολόγησης στην ταξινόμηση των εναλλακτικών δραστηριοτήτων. -Επιλογή του κριτηρίου αξιολόγησης με την υψηλότερη διακριτική ικανότητα -Διαχωρισμός των εναλλακτικών δραστηριοτήτων σε υποσύνολα αντίστοιχα με το πλήθος των τιμών του επιλεγμένου κριτηρίου αξιολόγησης (στην περίπτωση ποιοτικών κριτηρίων) ή των σημείων διαχωρισμού (cut-points, εάν τα κριτήρια είναι ποσοτικά). Η παραπάνω διαδικασία επαναλαμβάνεται για κάθε υποσύνολο εναλλακτικών δραστηριοτήτων που σχηματίζεται στο τρίτο βήμα, μέχρι τελικά να επιτευχθεί η σωστή ταξινόμηση όλων των εναλλακτικών δραστηριοτήτων του δείγματος εκμάθησης. Ο έλεγχος της διακριτικής ικανότητας κάθε κριτηρίου αξιολόγησης κατά το πρώτο βήμα της παραπάνω διαδικασίας, πραγματοποιείται βάσει της πληροφορίας που εισάγει το κριτήριο αξιολόγησης στην ταξινόμηση των εναλλακτικών δραστηριοτήτων. Ως μέτρο χρησιμοποιείται η εντροπία της ταξινόμησης που εισάγει το κάθε κριτήριο. Εάν ένα κριτήριο χωρίζει τις m εξεταζόμενες εναλλακτικές δραστηριότητες σε t υποσύνολα D 1,D 2,..,D t, καθένα από τα οποία περιλαμβάνει ν h εναλλακτικές δραστηριότητες (h=1,2,..,t), τότε η εντροπία του διαχωρισμού που πραγματοποιεί το κριτήριο αξιολόγησης υπολογίζεται βάσει της σχέσης: t q vh I ( D) = p( Dh / Ck)log[ p( Dh / Ck)] m h= 1 k= 1 όπου, ως p( D h / C k) συμβολίζεται το πλήθος των εναλλακτικών δραστηριοτήτων του συνόλου Dh τα οποία ανήκουν στην κατηγορία C k. Το κριτήριο που παρουσιάζει την μικρότερη εντροπία επιλέγεται ως εκείνο που παρέχει την υψηλότερη νέα πληροφορία στην ταξινόμηση των εναλλακτικών δραστηριοτήτων. Η παραπάνω διαδικασία μπορεί να οδηγήσει στην δημιουργία ενός περίπλοκου και εξειδικευμένου δέντρου κάθε φύλλο του οποίου θα αφορά μόνο μία εναλλακτική δραστηριότητα. Η αντιμετώπιση του προβλήματος αυτού πραγματοποιείται σε ένα δεύτερο στάδιο του αλγορίθμου μέσο της τεχνικής pruning έτσι ώστε να αποφεύγεται η περίπτωση υπερταιριάσματος, (overfitting), που οφείλεται στην μεγάλη προσαρμογή του αναπτυσσόμενου δέντρου στα δεδομένα του δείγματος εκμάθησης. Στην λογική του αλγορίθμου C4.5 αλλά και του ID3 κινούνται πολλοί νέοι αλγόριθμοι που έχουν αναπτυχθεί στα πλαίσια της επαγωγικής μάθησης όπως ο CN2, αλγόριθμοι της οικογένειας AQ και άλλοι πολλοί. Τελειώνοντας με τους αλγόριθμους ταξινόμησης, τα κύρια πλεονεκτήματά τους είναι τα ακόλουθα: 16

23 -Παρέχουν δυνατότητα διαχείρισης ποιοτικών δεδομένων -Έχουν τη δυνατότητα διαχείρισης δεδομένων με ελλιπή στοιχεία -Δυνατότητα διαχείρισης τεράστιων συνόλων δεδομένων αποτελεσματικά -Ευκατανόητη μορφή του αναπτυσσόμενου υποδείγματος ταξινόμησης. Στο σημείο αυτό θα κάνουμε μία μικρή αναφορά γύρω από την τεχνική pruning για τους αλγόριθμους ταξινόμησης Με τον όρο Pruning Decision Trees ονομάζουμε εκείνη την διαδικασία στο πεδίο των δέντρων αποφάσεων (Decision trees) κατά την οποία «κλαδεύουμε» ένα δέντρο απόφασης, με σκοπό να καταφέρουμε να αποφύγουμε την περίπτωση «υπερταιριάσματος» (overfitting) των δεδομένων / εγγραφών που έχουμε με το πεδίο εκπαίδευσης, έτσι ώστε να πετύχουμε μία γενικοποίηση με την δημιουργία ενός δέντρου καταλληλότερου για ταξινόμηση νέων εγγραφών. Στόχος της διαδικασίας είναι να μην είναι το δέντρο υπερβολικά εξειδικευμένο στην ταξινόμηση νέων εγγραφών, αλλά αντίθετα να είναι ευέλικτο ως προς την ταξινόμηση νέων εγγραφών με την καλύτερη δυνατή ακρίβεια (accuracy). Οι αλγόριθμοι που χρησιμοποιούν την μέθοδο pruning είναι εκείνοι που παράγουν δέντρα απόφασης και συνήθως είναι ο αλγόριθμος ID3 και ο αλγόριθμος C4.5 Οι δύο αυτοί αλγόριθμοι χρησιμοποιούν την μέθοδο pruning αλλά με διαφορετική δομή και λειτουργία. Βέβαια ο σκοπός και στους δύο είναι ο ίδιος, δηλαδή να αποφύγουν την περίπτωση overfitting και να δημιουργήσουν ένα ιδανικό δέντρο ταξινόμησης ID3 / Rule post pruning Με την μέθοδο Rule post-pruning πετυχαίνουμε υψηλή ακρίβεια στην ταξινόμηση των νέων εγγραφών (high accuracy hypothesis) Τα βήματα αυτής της μεθόδου είναι τα ακόλουθα : -Απομονώνουμε το δέντρο απόφασης από το πεδίο εκπαίδευσης (training set), το αναλύουμε μέχρι το τελικό φύλλο, μέχρι τα δεδομένα εκπαίδευσης να ταιριάζουν όσο το δυνατόν καλύτερα με τα κλαδιά του δέντρου, και επιτρέπουμε το overfitting -Μετατρέπουμε το δέντρο σε ένα ισοδύναμο πεδίο από κανόνες δημιουργώντας ένα κανόνα για κάθε μονοπάτι, από την ρίζα μέχρι το φύλλο κόμβο. -Κλαδεύω κάθε κανόνα μετακινώντας τις προηγούμενες συνθήκες, και έτσι πετυχαίνω καλύτερη ακρίβεια (estimated accuracy) -Κόβω τους κλαδεμένους κανόνες ανάλογα με την ακρίβειά τους και τους έχω για ταξινομητές στην συνέχεια. 17

24 Παράδειγμα Rule Post Pruning Σχήμα Outlook Sunny Humidity Overcast Yes Rain Wind High Normal Strong Weak No Yes No Yes Ο αριστερότερος κανόνας που προκύπτει από το δέντρο είναι ο : IF Then (Outlook = Sunny) and (Humidity = High) PlayTennis = No Με την μέθοδο Post pruning θα μετακινούσαμε τις προσυνθήκες, (Outlook = Sunny) και (Humidity = High) και θα βλέπαμε ποια από τις δύο θα πετύχαινε υψηλότερη ακρίβεια στον κανόνα. Σε περίπτωση που δεν γινόταν κάτι τέτοιο κανένα «κλάδεμα» δεν θα γινόταν. Pruning ID3 Reduced error pruning Στην μέθοδο Reduced error pruning, θεωρούμε κάθε κόμβο από το δέντρο απόφασης να είναι υποψήφιος για αποκοπή. Αυτό γίνεται μετακινώντας το υποδέντρο του κόμβου, δημιουργώντας ένα φύλλο κόμβο, και θεωρώντας τον κατάλληλο για την ταξινόμηση νέων εγγραφών. Οι κόμβοι μετακινούνται μόνο εάν το νέο δέντρο αποδίδει όχι χειρότερα από το πρωτότυπο πάνω σε ένα πεδίο εγκυρότητας (validation set). Αυτό έχει το αποτέλεσμα ότι κάθε κόμβος φύλλο, που προστίθεται στο training set είναι υποψήφιος και πιθανόν να αποκοπεί, επειδή τα χαρακτηριστικά που θα έχει είναι δύσκολο να συμβαδίζουνε με το τεστ εγκυρότητας. Οι κόμβοι 18

25 κλαδεύονται, διαλέγοντας εκείνον του οποίου η αποκοπή αυξάνει την ακρίβεια της ταξινόμησης στο validation set. Pruning C4.5 Ο αλγόριθμος C4.5 επιτρέπει την αντικατάσταση ενός υποδέντρου με ένα από τα παιδιά του. Υποθέτουμε ότι μπορούμε να προβλέψουμε το ποσοστό λάθους error rate ενός δέντρου και των υποδέντρων του. Θα έχω: -Υποθέτουμε ότι μπορούμε να προβλέψουμε το ποσοστό λάθους ενός δέντρου και των υποδέντρων του. -Ξεκινάμε από την κορυφή του δέντρου και εξετάζουμε κάθε μη φύλλο (nonleaf subtree). -Εάν η αντικατάσταση του υποδέντρου με ένα δέντρο ή με το ποιο κοινά χρησιμοποιούμενο κλαδί οδηγεί σε ένα χαμηλότερο αναμενόμενο ποσοστό λάθους, τότε κλαδεύουμε το δέντρο γνωρίζοντας ότι το αναμενόμενο ποσοστό σφάλματος για όλα τα δέντρα που περιέχουν το συγκεκριμένο θα επηρεαστούνε. Όσο το ποσοστό σφάλματος για όλο το δέντρο μειώνεται καθώς το ίδιο συμβαίνει και για τα υποδέντρα, αυτή η διαδικασία θα οδηγήσει σε ένα δέντρο του οποίου το αναμενόμενο ποσοστό λάθους είναι μικρότερο. Pessimistic pruning / C4.5 Με την μέθοδο αυτή αυξάνουμε τον αριθμό των σφαλμάτων που παρατηρούνται σε κάθε φύλλο. Λειτουργία: Έχω Ν περιπτώσεις εκπαίδευσης οι οποίες αναφέρονται σε ένα φύλλο, εκ των οποίων οι Ε είναι λανθασμένες. Το σφάλμα σε αυτήν την περίπτωση ισούται με τον λόγο Ε/Ν. Ο λόγος αυτός μας δείχνει ότι έχουμε Ε γεγονότα σε Ν προσπάθειες. Εάν αυτό το πεδίο των Ν περιπτώσεων θεωρηθεί σαν δείγμα θα μπορούμε να αναρωτηθούμε τι πληροφορία μας δίνει αυτό το αποτέλεσμα, σχετικά με την πιθανότητα λάθους πάνω σε έναν πληθυσμό του φύλλου που είμαστε. 19

26 ΕΥΡΕΣΗ ΣΦΑΛΜΑΤΟΣ / ERROR ESTIMATION Ο υπολογισμός του σφάλματος μπορεί να ορισθεί βάση του υψηλότερου ορίου με τα όρια αξιοπιστίας, και γράφεται UCF(E,N)ª όπου a=6. Ο αλγόριθμος υπολογίζει το σφάλμα σε ένα φύλλο με το μεγαλύτερο όριο αξιοπιστίας, έχοντας ως κανόνα ότι το δέντρο έχει σκοπό να ελαχιστοποιήσει το ποσοστό σφάλματος. Ο τύπος που μας δίνει το ποσοστό σφάλματος σε ένα πεδίο εκπαίδευσης είναι ο ακόλουθος: Error = N X UCF (E,N) όπου Ν είναι οι περιπτώσεις που έχω και UCF(E,N) το αναμενόμενο ποσοστό σφάλματος. Παράδειγμα C4.5 Pessimistic / Pruning Υποθέτουμε ότι έχουμε το υποδέντρο education spending = n: democrat (6) education spending = y: democrat (9) education spending = u: republican (1) Για το πρώτο φύλλο έχω Ν=6 και Ε=0 και με το επίπεδο αξιοπιστίας (confidence level) CL=25% έχω U25%(0,6)= Έτσι εάν είχα να ταξινομήσω 6 περιπτώσεις θα είχα 6 Χ Ομοίως, για τα υπόλοιπα φύλλα έχω: U25%(0.1)= 0,750, U25%(0.9)= Επομένως ο αριθμός των προβλευθέντων σφαλμάτων του υποδέντρου θα ισούται με 6 Χ Χ Χ = Στην περίπτωση που θα επιλεγεί το φύλλο democrat για αντικατάσταση του υποδέντρου, θα έχουμε 16 περιπτώσεις με 1 σφάλμα και σύμφωνα με τα παραπάνω το αναμενόμενο σφάλμα θα ισούται με 16 Χ U25%(1.16) = 16 X = Όσο το υποδέντρο που εξετάζουμε θα έχει υψηλότερο αριθμό προβλευθέντων σφαλμάτων, θα κλαδεύεται σε φύλλο για καλύτερη λειτουργία ταξινόμησης. Το υποδέντρο έχει την μορφή : adoption of the budget resolution = y: democrat (151) adoption of the budget resolution = u:democrat (1) adoption of the budget resolution = n: democrat (16/1) με προβλεπόμενο αριθμό σφαλμάτων: 151 X U25%(0.151) + 1 X U25%(0,1) = Εάν αυτό το υποδέντρο αντικαθήστατω από το φύλλο democrat τα προβλευθέντα σφάλματα θα ήταν 168 Χ U25%(1.168) = που είναι μικρότερο του σφάλματος του υποδέντρου και άρα μας συμφέρει να κλαδέψουμε το υποδέντρο σε φύλλο. 20

27 Εκτιμώντας τα επίπεδα λάθους για δέντρα αποφάσεων Ν = αριθμός περιπτώσεων εκπαίδευσης Ε = προβλεπόμενα σφάλματα σε ένα σύνολο Ν νέων περιπτώσεων Ο λόγος του αριθμού προβλεπόμενων σφαλμάτων στα φύλλα προς τον αριθμό των περιπτώσεων σε ένα σύνολο εκπαίδευσης μας δίνει μία εκτίμηση του ποσοστού σφάλματος ενός κλαδεμένου δέντρου σε μη γνωστές περιπτώσεις ταξινόμησης Error Rate = E / N Ομαδοποίηση (Clustering) Οι κανόνες Ομαδοποίησης επίσης είναι αρκετά διαδεδομένοι. Διαφέρουν από εκείνους της ταξινόμησης στο ότι τα δεδομένα που χρησιμοποιούνται για μάθηση δεν είναι προταξινομημένα, λείπει δηλαδή η κλάση του πεδίου. Η τεχνική ομαδοποίησης χωρίζει ουσιαστικά ένα σύνολο εγγραφών σε ομάδες έτσι ώστε οι εγγραφές που βρίσκονται στην ίδια ομάδα να έχουν περισσότερες ομοιότητες μεταξύ τους, με βάση ορισμένα προκαθορισμένα κριτήρια, απ ότι με εγγραφές άλλων ομάδων [.4]. Σήμερα είναι ιδιαίτερα σημαντικό για της επιχειρήσεις να μπορούν να ομαδοποιούν τους πελάτες τους σε συγκεκριμένες κατηγορίες. Με βάση αυτές τις κατηγορίες μπορούν να αξιολογούν έναν νέο πελάτη με βάση την ομάδα στην οποία κατατάσσεται ή ακόμα να προσδιορίσουν τα χαρακτηριστικά των πελατών που αποφέρουν μεγάλα κέρδη στην εταιρεία. Με βάση αυτόν τον διαχωρισμό των πελατών μπορούν να προσανατολίσουν την στρατηγική της εταιρείας στην εξειδικευμένη εξυπηρέτηση ορισμένων πελατειακών ομάδων. Για παράδειγμα, από την ανάλυση ενός πολύ μεγάλου συνόλου πελατών, μπορεί να μειωθεί το κόστος μίας διαφημιστικής εκστρατείας που βασίζεται στην αποστολή διαφημιστικών φυλλαδίων. Αυτό γίνεται περιορίζοντας το πλήθος των πελατών στους οποίους απευθύνεται, επιλέγοντας αυτούς με μεγαλύτερη πιθανότητα να αντιδράσουν θετικά. Για να μπορέσει να γίνει η επιλογή του κατάλληλου αλγορίθμου απαραίτητη προϋπόθεση είναι η μελέτη των δεδομένων που θα χρησιμοποιηθούν για τον προσδιορισμό κυρίως του κριτηρίου ομοιότητας των εγγραφών μίας ομάδας. Γενικά η τεχνική της ομαδοποίησης μπορεί να είναι: Στατιστική ή Αριθμητική (statistical/numerical clustering) Σε αυτήν την περίπτωση χρησιμοποιούνται διάφορα αριθμητικά κριτήρια ομοιότητας. Έτσι οι ομάδες που προκύπτουν περιγράφονται από αριθμητικές τιμές Εννοιολογική (conceptual clustering) Σε αυτήν την περίπτωση ο προσδιορισμός των ομάδων βασίζεται στο νόημα και στις έννοιες που τα διάφορα αριθμητικά στοιχεία 21

28 αντιπροσωπεύουνε. Έτσι οι τιμές που έχουμε είναι κατηγορικές και όχι αριθμητικές. Πολλοί από τους αλγόριθμους ομαδοποίησης απαιτούν τo σύνολο εκπαίδευσης που επεξεργάζονται να είναι αριθμητικό (πχ k- means) είτε κατηγορικό (πχ k-modes).υπάρχουν και αλγόριθμοι βέβαια που επιτρέπουν μικτό σύνολο εκπαίδευσης (πχ ο k-prototypes). Στην συνέχεια θα περιγραφεί αναλυτικά ένας από τους βασικότερους αλγόριθμους ομαδοποίησης ο k-means, ο οποίος παρουσιάστηκε αρχικά το 1967 [.4]. Ο k-means διαχωρίζει τα δεδομένα του συνόλου εκπαίδευσης σε k ομάδες, όπου το k καθορίζεται από τον χρήστη. Η λειτουργία του βασίζεται σε διαδοχικές επαναλήψεις κατά τις οποίες τα δεδομένα κατατάσσονται σε κάποια ομάδα με βάση την ομοιότητα που παρουσιάζουν με το μέσο αυτής της ομάδας. Ο αλγόριθμος στηρίζεται ουσιαστικά σε κάποια αντιπροσωπευτικά δείγματα (means) κάθε ομάδας. Κάθε μία από τις k ομάδες που θα δημιουργηθούν θα περιέχει ένα αντιπροσωπευτικό δείγμα το οποίο ουσιαστικά θα αντιπροσωπεύει την ομάδα, καθώς θα αποτελεί μια μέση περιγραφή της ομάδας. Επίσης το αντιπροσωπευτικό δείγμα θεωρείται ότι είναι το κέντρο βάρους της ομάδας. Ο αλγόριθμος προσπαθεί να κατατάξει τις εγγραφές στις διάφορες ομάδες έτσι ώστε μετά τον τερματισμό, κάθε εγγραφή να ανήκει σε εκείνη την ομάδα από της οποίας το αντιπροσωπευτικό δείγμα απέχει λιγότερο σε σχέση με αυτά των άλλων ομάδων. Τα βήματα του αλγορίθμου είναι τα εξής: 1. Προσδιόρισε το k 2. Πάρε τα αρχικά k αντιπροσωπευτικά δείγματα (πχ πάρε τις πρώτες k αντιπροσωπευτικές εγγραφές) 3. Επανέλαβε 4. Για κάθε εγγραφή βρες την απόστασή της από τα αντιπροσωπευτικά δείγματα και θεώρησε ότι ανήκει στην ομάδα του πιο κοντινότερου αντιπροσωπευτικού δείγματος 5. Υπολόγισε τα νέα αντιπροσωπευτικά δείγματα (κέντρα βάρους) των ομάδων 6. Μέχρι να μην γίνονται αλλαγές. Μία βελτιωμένη έκδοση του αλγορίθμου k-means αποτελεί ο αλγόριθμος K-modes πάνω στον οποίο θα γίνει και η εφαρμογή μας για Ομαδοποίηση στο πρακτικό κομμάτι της εργασίας. Για τον λόγο αυτό κρίνουμε σκόπιμο να παρουσιάσουμε κάποια στοιχεία που αφορούν τον συγκεκριμένο αλγόριθμο. Ο αλγόριθμος K-modes Ο αλγόριθμος K-modes είναι ένας αλγόριθμος κατηγοριοποίησης δεδομένων [.17]. Πραγματεύεται και εφαρμόζεται σε κατηγορικά δεδομένα και αποτελεί θα μπορούσαμε να πούμε μία βελτιωμένη έκδοση του αλγορίθμου k-means. Ο συγκεκριμένος αλγόριθμος απαιτεί από τον χρήστη να καθορίσει από την αρχή τον αριθμό των ομάδων που επιθυμεί να εξαχθούν και να παραχθούν και ο αλγόριθμος με την σειρά του προχωράει σε αυτό. Κάθε ομάδα (cluster) έχει ένα κέντρο ή αλλιώς μέσο (mode) που σχετίζεται με αυτήν. Υποθέτουμε ότι τα αντικείμενα του συνόλου 22

29 που έχουμε στην διάθεσή μας περιγράφονται από m κατηγορικά πεδία, το κέντρο της κάθε ομάδας είναι ένα διάνυσμα Q = (q 1,q 2,.,q m ) όπου το στοιχείο q i είναι εκείνο με την μεγαλύτερη συχνότητα όσον αφορά την τιμή του για το iοστό πεδίο στην ομάδα των αντικειμένων. Δοθέντος ενός συνόλου δεδομένων και ορίζοντας τον αριθμό των ομάδων, ο αλγόριθμος λειτουργεί ως εξής: 1. Επέλεξε αρχικά k κέντρα για k ομάδες (clusters) 2. Για κάθε στοιχείο Χ -Υπολόγισε την ομοιότητα μεταξύ του αντικειμένου / στοιχείου Χ και των κέντρων όλων των ομάδων -Εισήγαγε το στοιχείο Χ στην ομάδα c της οποίας το κέντρο / μέσο είναι το πιο κοντινό, όμοιο με το Χ -Κάνε update στο κέντρο της ομάδας c 3. Επανεξέτασε την ομοιότητα των στοιχείων σε σχέση με τα υπάρχοντα κέντρα των ομάδων (modes). Στην περίπτωση που ένα στοιχείο είναι κοντύτερα σε ένα κέντρο / mode που ανήκει σε άλλη ομάδα παρά στην δική του, επανατοποθέτησε το σε εκείνη την ομάδα και επαναπροσδιόρισε τα κέντρα / modes των ομάδων. Επανέλαβε το βήμα 3 έως ότου κανένα ή ελάχιστα αντικείμενα να αλλάζουν ομάδες. Για την ομοιότητα χρειαζόμαστε μία μετρική ώστε να επιλέγουμε την κοντινότερη ομάδα για κάθε αντικείμενο. Έστω Χ = {x 1,x 2,.x m } είναι ένα στοιχείο, όπου x i είναι η τιμή του iοστού πεδίου, και Q = (q 1,q 2,.,q m ) είναι το κέντρο της ομάδας. Το μέτρο ομοιότητας (similarity measure) μεταξύ του X και του Q μπορεί να προσδιοριστεί ως: similarity( X, Q) = δ ( xi, qi) m i= 1 όπου δ ( x, q ) = i i 1 (xi = qi) 0 (xi qi) Στην συνέχεια θα παρουσιάσουμε περισσότερα στοιχεία για την ομαδοποίηση (Cluster Analysis) [.8]. Οι αλγόριθμοι που χρησιμοποιούνται για clustering / ομαδοποίηση ανήκουν σε πέντε κατηγορίες όπως αυτές αναφέρονται παρακάτω: 23

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική ΕΕΟ 11 Η χρήση στατιστικών εργαλείων στην εκτιμητική 1. Εισαγωγή 2. Προϋποθέσεις χρήσης των Αυτοματοποιημένων Εκτιμητικών Μοντέλων (ΑΕΜ) 3. Περιορισμοί στη χρήση των ΑΕΜ εφόσον έχουν πληρωθεί οι προϋποθέσεις

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 11: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Εξαγωγή Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων Από Δεδομένα-

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: μέθοδοι μονοδιάστατης ελαχιστοποίησης Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 6 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΚΩΔΙΚΟΣ ΠΑΡΑΔΟΤΕΟΥ: Π18 ΑΡΙΘΜΟΣ ΠΡΩΤΟΚΟΛΛΟΥ ΈΡΓΟΥ: ΤΠΕ/ΟΡΖΙΟ/0308(ΒΕ)/03 ΤΙΤΛΟΣ ΕΡΓΟΥ: ΓΕΝΙΚΕΥΜΕΝΟ ΣΥΣΤΗΜΑ ΑΣΑΦΟΥΣ ΓΝΩΣΤΙΚΟΥ ΧΑΡΤΗ

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης. Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού

Πληροφοριακά Συστήματα Διοίκησης. Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού Πληροφοριακά Συστήματα Διοίκησης Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού Σημασία μοντέλου Το μοντέλο δημιουργεί μια λογική δομή μέσω της οποίας αποκτούμε μια χρήσιμη άποψη

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ Ενότητα: Αναγνώριση Διεργασίας - Προσαρμοστικός Έλεγχος (Process Identification) Αλαφοδήμος Κωνσταντίνος

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6.1 Το Πρόβλημα του Ελέγχου Υποθέσεων Ενός υποθέσουμε ότι μία φαρμακευτική εταιρεία πειραματίζεται πάνω σε ένα νέο φάρμακο για κάποια ασθένεια έχοντας ως στόχο, τα πρώτα θετικά

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Διοίκησης Συστημάτων Εφοδιασμού Μάθημα: Εισαγωγή στην Εφοδιαστική (Εργαστήριο) Ανάλυση του άρθρου με τίτλο: «Intelligent Decision Support Systems» των Stephanie Guerlain,

Διαβάστε περισσότερα

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2

Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ. Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 Εισαγωγή Στις Αρχές Της Επιστήμης Των Η/Υ Η έννοια του Προβλήματος - ΚΕΦΑΛΑΙΟ 2 2. Η έννοια του προβλήματος 2 2. Η έννοια του προβλήματος 2.1 Το πρόβλημα στην επιστήμη των Η/Υ 2.2 Κατηγορίες προβλημάτων

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/ Τεχνητή Νοημοσύνη 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία: Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ Ενότητα # 7: Δειγματοληψία Μιλτιάδης Χαλικιάς Τμήμα Διοίκησης Επιχειρήσεων Άδειες Χρήσης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 17η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Artificia Inteigence A Modern Approach των S. Russe και

Διαβάστε περισσότερα

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Γλώσσες & Τεχνικές 4 ο Εξάμηνο. - Ενότητα 1 - Δημοσθένης Σταμάτης http://www.it.teithe.gr/~demos

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Γλώσσες & Τεχνικές 4 ο Εξάμηνο. - Ενότητα 1 - Δημοσθένης Σταμάτης http://www.it.teithe.gr/~demos Γλώσσες & Τεχνικές 4 ο Εξάμηνο - Ενότητα 1 - Εισαγωγή στην Τεχνητή Νοημοσύνη Δημοσθένης Σταμάτης http://www.it.teithe.gr/~demos Τμήμα Πληροφορικής A.T.E.I. ΘΕΣΣΑΛΟΝΙΚΗΣ Rethinking University Teaching!!!

Διαβάστε περισσότερα

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ & ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ:

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Το Πολυεπίπεδο Perceptron. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Το Πολυ Perceptron Δίκτυα Πρόσθιας Τροφοδότησης (feedforward) Tο αντίστοιχο γράφημα του δικτύου δεν περιλαμβάνει κύκλους: δεν υπάρχει δηλαδή ανατροφοδότηση της εξόδου ενός νευρώνα προς τους νευρώνες από

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ Συνδυασμένη χρήση μοντέλων προσομοίωσης βελτιστοποίησης. Η μέθοδος του μητρώου μοναδιαίας απόκρισης Νικόλαος

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Περιεχόμενα ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Πρόλογος 15

Περιεχόμενα ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Πρόλογος 15 Περιεχόμενα Πρόλογος 15 ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ 1 Τεχνητή νοημοσύνη 21 1.1 Εισαγωγή 21 1.2 Ιστορική εξέλιξη 22 1.3 Εφαρμογές Τεχνητής Νοημοσύνης 25 2 Επίλυση Προβλημάτων 29 2.1 Διαμόρφωση

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Ενότητα 1: Εισαγωγή. Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Ενότητα 1: Εισαγωγή. Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Λογική Ενότητα 1: Εισαγωγή Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται στην άδεια χρήσης Creative Commons

Διαβάστε περισσότερα

ΕΠΛ 003.3: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Για οικονομολόγους

ΕΠΛ 003.3: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Για οικονομολόγους ΕΠΛ 003.3: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Για οικονομολόγους Στόχοι 1 Να εξετάσουμε γιατί η Πληροφορική είναι χρήσιμη στην οικονομική επιστήμη. Να μάθουμε πώς χρησιμοποιείται η Πληροφορική

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2 (ΨΥΧ-122) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: lzabetak@dpem.tuc.gr Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ 28210 37323 Διάλεξη 2 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (# 252) Ε ΕΞΑΜΗΝΟ 9 η ΕΙΣΗΓΗΣΗ ΣΗΜΕΙΩΣΕΙΣ ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΛΙΓΗ ΘΕΩΡΙΑ Στην προηγούμενη διάλεξη μάθαμε ότι υπάρχουν διάφορες μορφές έρευνας

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2017-2018 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Εισήγηση 4A: Έλεγχοι Υποθέσεων και Διαστήματα Εμπιστοσύνης Διδάσκων: Δαφέρμος Βασίλειος ΤΜΗΜΑ ΠΟΛΙΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΣΧΟΛΗΣ ΚΟΙΝΩΝΙΚΩΝ

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 1: ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΜΕΘΟΔΟΥΣ ΕΡΕΥΝΑΣ - ΠΕΡΙΓΡΑΜΜΑ

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 1: ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΜΕΘΟΔΟΥΣ ΕΡΕΥΝΑΣ - ΠΕΡΙΓΡΑΜΜΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΧΩΡΟΤΑΞΙΑΣ, ΠΟΛΕΟΔΟΜΙΑΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ ΠΜΣ «ΕΠΕΝΔΥΣΕΙΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗ ΑΝΑΠΤΥΞΗ» ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 1: ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΜΕΘΟΔΟΥΣ

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

Ο Ι ΚΟ Ν Ο Μ Ι Κ Α / Σ ΤΑΤ Ι Σ Τ Ι Κ Η

Ο Ι ΚΟ Ν Ο Μ Ι Κ Α / Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ο Ι ΚΟ Ν Ο Μ Ι Κ Α / Σ ΤΑΤ Ι Σ Τ Ι Κ Η Σ χ ε τ ι κ ά μ ε τ ι ς ε κ τ ι μ ή σ ε ι ς - σ υ ν ο π τ ι κ ά Σεμινάριο Εκτιμήσεων Ακίνητης Περιουσίας, ΣΠΜΕ, 2018 ΣΤΑΤΙΣΤΙΚΗ Σ Χ Ε Τ Ι Κ Α Μ Ε Τ Ι Σ Ε Κ Τ Ι Μ

Διαβάστε περισσότερα

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Περιγραφική Ανάλυση ποσοτικών μεταβλητών Περιγραφική Ανάλυση ποσοτικών μεταβλητών Στο data file Worldsales.sav (αρχείο υποθετικών πωλήσεων ανά ήπειρο και προϊόν) Analyze Descriptive Statistics Frequencies Επιλογή μεταβλητής Revenue Πατάμε στο

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΓΙΑΝΝΗΣ ΦΑΝΟΥΡΓΙΑΚΗΣ ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΣΥΝΕΡΓΑΤΗΣ ΤΕΙ ΚΡΗΤΗΣ ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ 1. Εισαγωγή

Διαβάστε περισσότερα

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s

Διαβάστε περισσότερα