ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ Διπλωματική Εργασία της Στεργιοπούλου Φωτεινής (ΑΕΜ: 129) Επιβλέποντες Καθηγητές: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ ΚΟΥΣΕΝΙΔΗΣ ΔΗΜΗΤΡΙΟΣ ΘΕΣΣΑΛΟΝΙΚΗ 2007

2

3 Πρόλογος Η παρούσα μελέτη πραγματοποιήθηκε στα πλαίσια εκπόνησης της διπλωματικής εργασίας, με θέμα: «Δημιουργία Μοντέλου Έγκρισης Πιστωτικής Κάρτας από Ιστορικά Δεδομένα» Η εργασία εκπονήθηκε κατά το Ακαδημαϊκό έτος στα πλαίσια του Διατμηματικού Μεταπτυχιακού Προγράμματος Σπουδών «Πληροφορική και Διοίκηση». Στη συγκεκριμένη εργασία επιχειρείται η κατασκευή συστημάτων στήριξης απόφασης τα οποία, χρησιμοποιώντας μοντέλα που προκύπτουν από διάφορους αλγόριθμους εξόρυξης δεδομένων από την επεξεργασία αρχείου με ιστορικά δεδομένα, αξιολογούν την πιστοληπτική ικανότητα των υποψηφίων πελατών κατά την διαδικασία έγκρισης χορήγησης πιστωτικής κάρτας. Σε αυτό το σημείο θα ήθελα να εκφράσω τις θερμές ευχαριστίες μου στον επιβλέποντα Καθηγητή του Τμήματος Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης κ. Ιωάννη Βλαχάβα για την εμπιστοσύνη που μου επέδειξε στην ανάθεση του θέματος, την πολύτιμη καθοδήγησή του κατά τη διάρκεια εκπόνησης της εργασίας, καθώς και για την ευκαιρία που μου έδωσε να ασχοληθώ με το συγκεκριμένο γνωστικό αντικείμενο. Θα ήθελα, επίσης, να ευχαριστήσω τον κ. Δημήτριο Κουσενίδη, Επίκουρο Καθηγητή του Τμήματος Οικονομικών Επιστημών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, για τη συμβολή του κατά τη διάρκεια των μεταπτυχιακών μου σπουδών. Ιδιαίτερα θα ήθελα να ευχαριστήσω τον διδάκτορα του τμήματος Πληροφορικής κ. Φώτη Κόκκορα για την απαράμμιλη και εποικοδομητική συνεργασία μας, την προσφορά των απαιτούμενων στοιχείων καθώς και τις πολύτιμές υποδείξεις του, παράγοντες οι οποίοι συντέλεσαν αποφασιστικά στην άρτια διεκπεραίωση της εργασίας. Στεργιοπούλου Φωτεινή Μάρτιος 2007

4 -ii-

5 Περιεχόμενα ΠΡΟΛΟΓΟΣ... I ΠΕΡΙΕΧΟΜΕΝΑ...III 1 ΕΙΣΑΓΩΓΗ ΟΡΙΟΘΕΤΗΣΗ ΤΗΣ ΠΕΡΙΟΧΗΣ ΜΕΛΕΤΗΣ ΕΠΙΣΚΟΠΗΣΗ ΠΕΡΙΕΧΟΜΕΝΩΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Η ΠΟΡΕΙΑ ΠΡΟΣ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΤΙ ΕΙΝΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Η ΔΙΑΔΙΚΑΣΙΑ ΤΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ (KDD) Η ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΤΑΞΙΝΟΜΗΣΗ ΤΩΝ ΜΕΘΟΔΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΕΠΙΣΚΟΠΗΣΗ ΤΩΝ ΒΑΣΙΚΟΤΕΡΩΝ ΤΕΧΝΙΚΩΝ ΕΔ Κατηγοριοποίηση Παρεμβολή Ομαδοποίηση Κανόνες Συσχέτισης ΣΚΟΠΟΣ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑΣ ΔΕΔΟΜΕΝΩΝ Καθαρισμός Δεδομένων Μετασχηματισμός Δεδομένων ΟΡΙΟΘΕΤΗΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΠΙΣΤΩΤΙΚΕΣ ΚΑΡΤΕΣ Οι Βασικές Κατηγορίες Πιστωτικών Καρτών Η Χαρτογράφηση της Αγοράς Πιστωτικών Καρτών ΠΙΣΤΩΤΙΚΕΣ ΚΑΡΤΕΣ ΚΑΙ ΠΙΣΤΩΤΙΚΟΣ ΚΙΝΔΥΝΟΣ Επισκόπηση Τεχνικών Αξιολόγησης Πελατών ΤΟ ΠΡΟΒΛΗΜΑ ΜΕΛΕΤΗΣ...53

6 4 ΤΟ ΠΡΟΓΡΑΜΜΑ WEKA ΠΛΑΤΦΟΡΜΑ ΕΦΑΡΜΟΓΗΣ WEKA Τα αρχεία στο WEKA Το περιβάλλον Explorer ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΤΑ ΔΕΔΟΜΕΝΑ ΤΟ ΣΥΝΟΛΟ ΔΕΔΟΜΕΝΩΝ Τα Χαρακτηριστικά του Προβλήματος ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΑΛΓΟΡΙΘΜΩΝ Πίνακας Σύγχυσης Ακρίβεια Ορθότητα Ανάκληση Μέτρο F ΕΠΙΛΟΓΉ ΑΛΓΟΡΊΘΜΩΝ Ο αλγόριθμος J O αλγόριθμος JRIP Ο αλγόριθμος ΡΑRT Ο αλγόριθμος ΙΒk Ο αλγόριθμος Naϊve Bayes Ο αλγόριθμος BayesNet Ο αλγόριθμος Multilayer Perceptron Ο αλγόριθμος SMO O αλγόριθμος Simple Logistic ΣΎΓΚΡΙΣΗ ΑΛΓΟΡΊΘΜΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΑΝΑΦΟΡΕΣ iv-

7 1 Εισαγωγή Ζούμε στην εποχή της πληροφορικής επανάστασης, η οποία στηρίζεται στην αποτελεσματική συλλογή, διαχείριση και επεξεργασία πληροφοριών και αποτελεί κρίσιμο παράγοντα για την επιτυχία της επιστημονικής έρευνας, των επιχειρηματικών δράσεων και γενικότερα της κοινωνικής εξέλιξης. Η διαρκής συσσώρευση δεδομένων μέσω καταγραφής συναλλαγών, παρακολούθησης φαινομένων και συλλογής μετρήσεων είναι πλέον ευρύτατα διαδεδομένη. Η ικανότητα συλλογής και αποθήκευσης δεδομένων έχει προ πολλού ξεπεράσει την ικανότητα διαχείρισης και αξιοποίησής τους, με αποτέλεσμα συχνά να εγκαταλείπεται η πιθανότητα αξιοποίησης τους, είτε στα πλαίσια της επιστημονικής έρευνας, είτε στα πλαίσια των επιχειρηματικών δραστηριοτήτων. Προκύπτει, δηλαδή, ότι δεν υπάρχει αντίστοιχη βελτίωση της ικανότητας των ανθρώπων για κατανόηση και αξιοποίηση των αποθηκευμένων πληροφοριών. Οι τεχνικές εξόρυξης δεδομένων (data mining), αξιοποιούν μεθόδους και εργαλεία τα οποία παρέχονται από τις τεχνικές µηχανικής µάθησης (machine learning) και τα οποία αυτοµατοποιούν σύνθετες και χρονοβόρες διαδικασίες επαγωγής γνώσης από δεδοµένα, έτσι ώστε να καθίσταται εφικτή η ανάλυση µεγάλου όγκου δεδοµένων και να συνάγονται χρήσιμα συµπεράσµατα. Στόχος της παρούσας διπλωματικής εργασίας είναι η αντιμετώπιση ενός πραγματικού προβλήματος, συγκεκριµένα της έγκαιρης, επιτυχούς και αξιόπιστης αξιολόγησης των πελατών ενός χρηματοπιστωτικού ιδρύματος κατά τη διαδικασία έγκρισης πιστωτικής κάρτας, εφαρμόζοντας τεχνικές εξόρυξης δεδομένων. Κύριο κριτήριο για την αξιολόγηση των αποτελεσµάτων της λύσης που δίδεται στο πρόβληµα είναι η δυνατότητα επιχειρησιακής αξιοποίησης της γνώσης που προκύπτει. 1.1 Οριοθέτηση της Περιοχής Μελέτης Η αγορά πιστωτικών καρτών, τα τελευταία χρόνια, παρουσιάζει μεγάλη ανάπτυξη στη χώρα μας. Ωστόσο, είναι γεγονός, ότι η πιστωτική κάρτα είναι ένα προϊόν υψηλού κινδύνου, γι αυτό άλλωστε και τα επιτόκια των πιστωτικών καρτών διατηρούνται σε υψη- -1-

8 λά επίπεδα. Αναμενόμενο είναι λοιπόν, από τη στιγμή που οι χρηματοδοτικοί οργανισμοί αποβλέπουν στη μεγιστοποίηση των κερδών τους, να επιδιώκουν τον περιορισμό των επισφαλειών που προέρχονται από τους αφερέγγυους πελάτες. Το σύνολο των πιστωτικών κινδύνων, που περιλαμβάνει τις καθυστερήσεις και τις επισφάλειες εκτιμάται ότι στη χώρα μας φθάνει το 15% περίπου του χαρτοφυλακίου των δανείων των τραπεζών, όταν ο αντίστοιχος ευρωπαϊκός μέσος όρος κινείται στο 10,5%, μέγεθος που περιλαμβάνει και τις απάτες που πραγματοποιούνται μέσω των πιστωτικών καρτών. Στο επίκεντρο του προβληματισμού των τραπεζών έχει τεθεί ο έλεγχος του υψηλού πιστωτικού κινδύνου που συνεπάγεται η διάδοση των πιστωτικών καρτών. Οι υψηλές επισφάλειες που συνεπάγεται η ανάπτυξη της αγοράς της πιστωτικής κάρτας, ανέδειξε και την αδυναμία που υπάρχει στη χώρα μας στο θέμα της αξιολόγησης της πιστωτικής ποιότητας των υποψηφίων πελατών. Η παρούσα διπλωματική εργασία πραγματεύεται την επεξεργασία δεδομένων που αφορούν χαρακτηριστικά πελατών που τους χορηγήθηκε πιστωτική κάρτα, εφαρμόζοντας μεθόδους εξόρυξης γνώσης και τη δημιουργία μοντέλων που να μπορούν να προβλέπουν την πιστοληπτική ικανότητα των υποψηφίων πελατών. Για την επεξεργασία τους και την εξαγωγή πολύτιμης γνώσης από αυτά χρησιμοποιήθηκε το λογισμικό Weka, το οποίο περιέχει υλοποιημένους τους σημαντικότερους αλγορίθμους εξόρυξης γνώσης. 1.2 Επισκόπηση Περιεχομένων Η εργασία, εκτός της Εισαγωγής που αποτελεί και το 1 ο Κεφάλαιο, περιλαμβάνει ακόμα πέντε κεφάλαια και ολοκληρώνεται με το Παράρτημα. Το 2 ο Κεφάλαιο αναφέρεται στον επιστημονικό τομέα της εξόρυξης γνώσης. Παρουσιάζονται συγγενή με αυτή αντικείμενα και περιγράφονται οι κυριότερες τεχνικές ανακάλυψης γνώσης από βάσεις δεδομένων και οι σημαντικότεροι αλγόριθμοι εξόρυξης γνώσης. Πιο συγκεκριμένα, αναλύονται τεχνικές όπως δέντρα απόφασης, Bayesian κατηγοριοποίηση, μάθηση εννοιών, μάθηση κατά περίπτωση, νευρωνικά δίκτυα, μηχανές διανυσμάτων υποστήριξης, κανόνες συσχέτισης, ομαδοποίηση, κτλ. Στο 3 ο Κεφάλαιο δίνονται αρχικά κάποιες γενικές πληροφορίες για την αγορά των πιστωτικών καρτών και στη συνέχεια ακολουθεί η αναλυτική περιγραφή του προβλήματος της εργασίας. -2-

9 Στο 4 ο Κεφάλαιο παρουσιάζεται το λογισμικό Weka που χρησιμοποιήθηκε για την επίλυση του προβλήματος της εργασίας. Περιγράφεται το γραφικό του κομμάτι (GUI) και η παρουσίαση εστιάζεται στο περιβάλλον Explorer του συστήματος, καθώς αυτό χρησιμοποιήθηκε κυρίως κατά την επίλυση του προβλήματος. Στο 5 ο Κεφάλαιο παρουσιάζεται το σύνολο δεδομένων και οι αλγόριθμοι εξόρυξης γνώσης που χρησιμοποιήθηκαν. Συγκεκριμένα, γίνεται μια εκτενή αναφορά στο μέγεθος και στα χαρακτηριστικά των δεδομένων που χρησιμοποιήθηκαν. Έπειτα, παρουσιάζονται οι αλγόριθμοι που χρησιμοποιήθηκαν στο πρόγραμμα Weka και καταγράφονται τα μοντέλα που προέκυψαν σε κάθε περίπτωση, καθώς και η ακρίβειά τους. Το 6 ο Κεφάλαιο περιλαμβάνει τα συμπεράσματα που προέκυψαν μετά την ολοκλήρωση της εργασίας. Καταγράφονται, επίσης, κάποια θέματα που θα μπορούσαν μελλοντικά να αντιμετωπιστούν. Ακολουθούν οι αναφορές στις πηγές που χρησιμοποιήθηκαν για τη συγγραφή της διπλωματικής εργασίας. -3-

10

11 2 Εξόρυξη Δεδομένων Η πρωτοφανής έκρηξη δεδομένων που πυροδοτήθηκε από την ανάπτυξη εργαλείων αυτόματης συλλογής τους και την μείωση του κόστους της μνήμης, έκανε επιτακτική την ανάγκη για επεξεργασία και ερμηνεία του μεγάλου αυτού όγκου δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές, όπως είναι η τεχνητή νοημοσύνη, η στατιστική, οι αποθήκες δεδομένων, η διαδραστική ανάλυση και επεξεργασία δεδομένων, τα έμπειρα συστήματα και η οπτικοποίηση δεδομένων, με αποτέλεσμα να δημιουργηθεί ένας νέος ερευνητικός τομέας, γνωστός ως Εξόρυξη Δεδομένων και Γνώσης (Data and Knowledge Mining). 2.1 Η πορεία προς την Εξόρυξη Δεδομένων Ο βασικότερος λόγος για τον οποίο η εξόρυξη δεδομένων έχει εξελιχθεί σε τεχνολογία αιχμής είναι η διαθεσιμότητα και η πρόσβαση σε τεράστιες ποσότητες δεδομένων, σε συνδυασμό με την επιτακτική ανάγκη τα δεδομένα αυτά να μετατραπούν σε γνώση. Η εξόρυξη δεδομένων μπορεί να θεωρηθεί ως η φυσική εξέλιξη της Τεχνολογίας της Πληροφορίας (Information Technology). Παρακολουθώντας την πορεία της στο χρόνο (Εικόνα 2.1), τη δεκαετία του 60 γίνεται το πρώτο επαναστατικό βήμα με τη συλλογή δεδομένων (data collection), ενώ τη δεκαετία του 70 αναπτύσσεται το πρώτο Σχεσιακό Σχήμα Βάσεων Δεδομένων (RDBMS). Κατά τη δεκαετία του 80 αναπτύσσεται η τεχνολογία της προσπέλασης δεδομένων, με την εφαρμογή του σχεσιακού μοντέλου και την ανάπτυξη σχετικών γλωσσών προγραμματισμού [6]. Σε μικρό χρονικό διάστημα (δεκαετία 90) ακολουθεί και το επόμενο ρηξικέλευθο βήμα στο χώρο της διαχείρισης δεδομένων, η ανάπτυξη των Αποθηκών Δεδομένων (Data Warehouses) και των Συστημάτων Στήριξης Αποφάσεων (Decision Support Systems DSS) [12]. Ωστόσο, παρά τα εντυπωσιακά αποτελέσματα των συστημάτων στήριξης αποφάσεων, κρίνεται αναγκαία η ανάπτυξη μιας νέας γενιάς εργαλείων και τεχνικών για ευφυή ανάλυση βάσεων δεδομένων, έτσι ώστε να επιτευχθεί η επίλυση του πλέον κύριου προβλήματος στις μεγάλες βάσεις δεδομένων, του data-rich but information-poor. Αυτή η αδυναμία της ανθρώπινης αντίληψης να εξάγει συμπεράσματα από τα δεδομένα -5-

12 ενός συστήματος, τα οποία αυξάνονται με ιλιγγιώδεις ρυθμούς, σε συνδυασμό με την ανάγκη ερμηνείας όλων αυτών των δεδομένων, οδήγησε σε αυτό που σήμερα ονομάζουμε Εξόρυξη Δεδομένων (Data Mining). Data Μining (00 s) Data Access (80 s) Data Warehousing & DSS (90 s) Επεξεργασία ανακεφαλαιωτικών & δυναμικών δεδομένων σε πολλαπλά επίπεδα Data Management (70 s) Επεξεργασία ανακεφαλαιωτικών & δυναμικών δεδομένων σε επίπεδο εγγράφων Data Collection (60 s) Δημιουργία DBMS & RDBMS Επεξεργασία στατικών & ανακεφαλαιωτικών δεδομένων Εικόνα 2.1: Η εξέλιξη των τεχνολογιών προς την εξόρυξη δεδομένων 2.2 Τι είναι Εξόρυξη Δεδομένων Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, των μηχανών γνώσης, της στατιστικής, καθώς επίσης και ως μια σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Λογικό είναι, λοιπόν, μέθοδοι παρόμοιες ή παραπλήσιες με την εξόρυξη δεδομένων να ταυτίζονται, λανθασμένα, με αυτήν. Ορισμένες από τις μεθόδους αυτές είναι: Η ανάλυση προτύπων δεδομένων (data/ pattern analysis) Η αρχαιολογία δεδομένων (data archeology) Η συγκομιδή πληροφοριών (information harvesting) Η ευφυΐα συστημάτων επιχειρήσεων (business intelligence). -6-

13 Ο όρος εξόρυξη δεδομένων προέρχεται από τις ομοιότητες που υπάρχουν μεταξύ της αναζήτησης σημαντικής πληροφορίας σε μια μεγάλη βάση δεδομένων και της εξόρυξης σε ένα όρος για κάποιο πολύτιμο μετάλλευμα. Και οι δύο διαδικασίες απαιτούν είτε την εξέταση με προσοχή μια τεράστιας ποσότητας υλικού είτε την ευφυή έρευνά της, προκειμένου να βρεθεί αξία. Η εξόρυξη δεδομένων είναι στενά συνδεδεμένη με την ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases KDD) και πολλές φορές οι ορισμοί των δύο αυτών διαδικασιών ταυτίζονται. Ωστόσο, η KDD αναφέρεται σε ολόκληρη τη διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων. Ένας γενικός ορισμός, που παρουσιάζει με περισσότερη σαφήνεια την έννοια της KDD δόθηκε από τους Fayyad, Piatetsky-Shapiro, & Smyth [13], σύμφωνα με τον οποίο: Η ανακάλυψη γνώσης σε βάσεις δεδομένων είναι η ντετερμινιστική διαδικασία της αναγνώρισης προτύπων σχέσεων μέσα στα δεδομένα μιας βάσης, για τα οποία πρότυπα ισχύει ότι είναι καινούρια, έγκυρα, πιθανώς χρήσιμα και απόλυτα κατανοητά. Με τον όρο πρότυπο εννοούμε ένα μοντέλο το οποίο εφαρμόζεται στα δεδομένα, έτσι ώστε να τους προσδίδει ορισμένα κοινά χαρακτηριστικά. Το εξαγόμενο πρότυπο πρέπει να είναι έγκυρο, δηλαδή συνεπές σε νέα δεδομένα με κάποιον βαθμό βεβαιότητας και κατανοητό, ώστε να μπορεί να οδηγήσει ακόμη και τους μη ειδικούς σε χρήσιμα συμπεράσματα για τη λήψη αποφάσεων. Ο όρος διαδικασία συνεπάγεται ότι η ΚDD αποτελείται από πολλά βήματα, όπως η προ-επεξεργασία των δεδομένων, η έρευνα για πρότυπα και η αξιολόγηση ερμηνεία των αποτελεσμάτων. Η εξόρυξη δεδομένων είναι ένα από τα βήματα της KDD διαδικασίας, η οποία ενδιαφέρεται κυρίως για τις μεθοδολογίες και τις τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από τις μεγάλες αποθήκες δεδομένων. Για να διαφοροποιηθούμε μεταξύ της διαδικασίας και των εργαλείων θα χρησιμοποιήσουμε τον όρο, KDD, για να περιγράψουμε ολόκληρη τη διαδικασία ανάλυσης ε- νός συνόλου δεδομένων, και τον όρο, εξόρυξη δεδομένων, για να αναφερθούμε κυρίως στις μεθόδους και τις τεχνικές που χρησιμοποιούνται στη διαδικασία ανάλυσης. -7-

14 2.3 Η Διαδικασία της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων (KDD) Η ανακάλυψη γνώσης από βάσεις δεδομένων (KDD) είναι μια διαδραστική και επαναληπτική διαδικασία, η οποία περιλαμβάνει τα ακόλουθα βήματα: 1. Την ανάπτυξη και κατανόηση του χώρου της εφαρμογής και την αναγνώριση των στόχων της KDD διαδικασία από την σκοπιά του τελικού χρήστη. 2. Την ολοκλήρωση των δεδομένων. Υπάρχουν διαφορετικά είδη αποθηκών πληροφοριών που μπορούν να χρησιμοποιηθούν στη διαδικασία εξόρυξης γνώσης. Κατά συνέπεια, απαιτείται η εξαγωγή των δεδομένων από αυτές και η οργάνωσή τους σε απλούστερες δομές. 3. Τη δημιουργία του στόχου συνόλου δεδομένων (target data set). Επιλογή του συνόλου δεδομένων στο οποίο θα γίνει η εφαρμογή της εξόρυξης. 4. Τον καθαρισμό και την προ-επεξεργασία των δεδομένων. Σ αυτό το βήμα αντιμετωπίζονται περιπτώσεις, όπως η αφαίρεση του θορύβου ή των outliers, η λήψη αποφάσεων για το χειρισμό πεδίων τα οποία δεν έχουν τιμές κ.λπ. 5. Τον μετασχηματισμό των δεδομένων. Τα δεδομένα μετασχηματίζονται για να διευκολυνθεί η διαδικασία της ανακάλυψης γνώσης. Χρήση των μεθόδων της μείωσης των διαστάσεων των δεδομένων (data reduction), της ομοιόμορφης κωδικοποίησης της ποιοτικά ίδιας πληροφορίας, της εύρεσης κατάλληλης αντιπροσώπευσης των δεδομένων χωρίς μεταβλητές, της μετατροπής συνεχόμενων αριθμητικών τιμών σε διακριτές τιμές (διακριτοποίηση) κλπ. 6. Την επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων. Σ αυτό το στάδιο αποφασίζουμε το στόχο της διαδικασίας ανακάλυψης γνώσης, δηλαδή καθορίζεται τι είδους γνώση θα αναζητηθεί, κάτι που έμμεσα προσδιορίζει και την κατηγορία αλγορίθμων που θα χρησιμοποιηθούν. Τα παράγωγα της διαδικασίας ανακάλυψης γνώσης μπορεί να είναι: Πρότυπα πληροφόρησης (μάθηση χωρίς επίβλεψη), όπου στόχος είναι η ανακάλυψη πιθανών συσχετίσεων ή ομάδων στα δεδομένα. Μοντέλα πρόβλεψης (μάθηση με επίβλεψη), όπου στόχος είναι η μάθηση μιας συνάρτησης που συνδέει ένα σύνολο δεδομένων εισόδου εξόδου. 7. Την εφαρμογή της εξόρυξης δεδομένων. Είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική αναζήτηση της γνώσης στα δεδομένα. -8-

15 8. Την αξιολόγηση των προτύπων. Τα ευρεθέντα πρότυπα αξιολογούνται προκειμένου να προσδιοριστούν τα αληθινά ενδιαφέροντα πρότυπα, δηλαδή αυτά που αντιπροσωπεύουν τη γνώση. Πιθανή επιστροφή σε ένα από τα βήματα 1-7 για περαιτέρω επανάληψη. 9. Την σταθεροποίηση και παρουσίαση της γνώσης. Αυτό μπορεί να σημαίνει είτε επικύρωση/ αναβάθμιση παλιότερα εξαγόμενων συμπερασμάτων, είτε παρουσίαση των συμπερασμάτων αυτών στους άμεσα ενδιαφερόμενους. Η KDD διαδικασία αναπαρίσταται στην Εικόνα 2.2 Εικόνα 2.2: Τα βήματα της διαδικασίας KDD 2.4 Η διαδικασία Εξόρυξης Δεδομένων Η εξόρυξη δεδομένων έχει ως στόχο την εύρεση προτύπων και σχέσεων μεταξύ των δεδομένων. Υπάρχει μια μεγάλη ποικιλία αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς, όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση και οι βάσεις δεδομένων. Δύο συνιστώσες μπορούν να οδηγήσουν σε επιτυχημένα αποτελέσματα εξόρυξης δεδομένων. Από τη μία ο σωστός προσδιορισμός του προβλήματος που θέλουμε να α- ντιμετωπίσουμε και από την άλλη η χρησιμοποίηση των κατάλληλων δεδομένων. Είναι πολύ σημαντικό πριν τη δημιουργία του μοντέλου, να εξεταστούν προσεκτικά τα δεδομένα ώστε να γίνουν κατανοητά [3]. -9-

16 Ο στόχος της εξόρυξης δεδομένων είναι η παραγωγή νέας γνώσης. Πριν ξεκινήσει, λοιπόν, η διαδικασία της εξόρυξης πρέπει να ληφθούν αποφάσεις σχετικά με τα παρακάτω θέματα: Σκοπός για τον οποίο γίνεται η εξόρυξη. Ποιος αλγόριθμος θα επιλεχθεί. Πλατφόρμα εφαρμογής, το εργαλείο δηλαδή που θα χρησιμοποιηθεί για την ε- ξόρυξη των δεδομένων. 2.5 Ταξινόμηση των Μεθόδων Εξόρυξης Δεδομένων Από την παραπάνω ανάλυση μπορεί να γίνει αντιληπτό ότι η εξόρυξη δεδομένων είναι μια διαδικασία πολύπλευρη και σύνθετη, μέρος μιας άλλης επαναληπτικής διαδικασίας, με σκοπό την εξαγωγή γνώσης και συμπερασμάτων. Επιπλέον, είναι ένας διεπιστημονικός τομέας που συνδυάζει τομείς όπως βάσεις δεδομένων, μηχανική μάθηση, στατιστική και ανάκτηση πληροφοριών. Εμπεριέχει, λοιπόν, τεχνολογίες αιχμής χωρίς να τις υποβαθμίζει, αλλά αντιθέτως τις συνδυάζει με διάφορους τρόπους (Εικόνα 2.3) Ανάλογα με τον τρόπο με τον οποίο οι διάφορες τεχνολογίες συμμετέχουν στην ε- ξόρυξη δεδομένων, υλοποιούνται και διαφορετικά συστήματα εξόρυξης δεδομένων. Η κατηγοριοποίηση των συστημάτων εξόρυξης δεδομένων μπορεί να γίνει με βάση τα ακόλουθα κριτήρια [3]: ΣΤΑΤΙΣΤΙΚΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΤΕΧΝΟΛΟΓΙΑ ΠΛΗΡΟΦΟΡΙΑΣ ΟΠΤΙΚΟΠΟΙΗΣΗ ΑΛΛΕΣ ΤΕΧΝΟΛΟΓΙΕΣ Εικόνα 2.3: Οι συγγενείς τεχνολογίες με την Εξόρυξη Δεδομένων Σύμφωνα με το είδος της βάσης δεδομένων που χρησιμοποιείται: Όπως αναφέρθηκε προηγουμένως, είναι δυνατή η εξόρυξη δεδομένων από διάφορους τύπους -10-

17 αποθήκευσης πληροφορίας (π.χ. τα σχεσιακά δεδομένα, τα αντικειμενοστραφή συστήματα βάσεων δεδομένων, οι χωροχρονικές βάσεις δεδομένων, τα συστήματα βάσεων δεδομένων πολυμέσων κ.λπ.). Για παράδειγμα, ένα σύστημα που χρησιμοποιείται για την εξαγωγή γνώσης από αντικειμενοστραφείς βάσεις δεδομένων καλείται αντικειμενοστραφές σύστημα εξόρυξης δεδομένων. Επιπλέον, όλοι οι αλγόριθμοι εξόρυξης δεδομένων δεν είναι εφαρμόσιμοι σε όλους τους τύπους δεδομένων. Σύμφωνα με τον τύπο της γνώσης που εξάγεται: Από ένα σύστημα εξόρυξης δεδομένων μπορούν να προκύψουν είτε πρότυπα πληροφόρησης (informative patterns), όπου περιγράφουν συσχετίσεις μεταξύ των δεδομένων και προκύπτουν με μάθηση χωρίς επίβλεψη, είτε μοντέλα πρόβλεψης (predictive models), όπου προβλέπουν την τιμή μιας μεταβλητής και προκύπτουν με μάθηση με επίβλεψη. Στα πρότυπα πληροφόρησης περιλαμβάνονται οι κανόνες συσχέτισης (association rules), τα ακολουθιακά πρότυπα (sequential patterns) και οι ομάδες (clusters), ενώ στα μοντέλα πρόβλεψης ανήκουν οι κανόνες κατηγοριοποίησης (classification rules), τα δέντρα απόφασης (decision trees), η μάθηση κανόνων (concept learning), η μάθηση με βάση τα παραδείγματα, η μάθηση με βάση την θεωρία του Bayes κλπ. Παράλληλα, ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί ανάλογα με το επίπεδο γενίκευσης της εξορυγμένης γνώσης (γενική, πρώτου επιπέδου ή πολυεπίπεδη γνώση). Σύμφωνα με την τεχνική που θα χρησιμοποιηθεί: Οι τεχνικές μπορούν να περιγραφούν είτε από το βαθμό παρέμβασης του χρήστη (αυτόνομα συστήματα, συστήματα οδηγούμενα από ερωτήματα, διαλογικά συστήματα κ.λπ.) είτε από την μέθοδο ανάλυσης των δεδομένων (συστήματα γενικής εξόρυξης, εξόρυξης βασισμένης στα πρότυπα, OLAP, εξόρυξης βασισμένης στη στατιστική ή στα μαθηματικά, νευρωνικά δίκτυα, κ.λπ.). Σύμφωνα με το πεδίο εφαρμογής της εξόρυξης δεδομένων: Είναι δυνατή η ανάπτυξη συστημάτων εξόρυξης δεδομένων μόνο για συγκεκριμένου τύπου εφαρμογές, όπως για παράδειγμα οικονομικές, χρηματιστηριακές, γενετικές κ.λπ. 2.6 Επισκόπηση των Βασικότερων Τεχνικών ΕΔ Ο σκοπός της KDD διαδικασίας καθορίζεται κατά περίπτωση από τον χρήστη. Γενικά, διακρίνονται δύο είδη σκοπών: α) Επαλήθευση, όπου το σύστημα καλείται να επιβεβαι- -11-

18 ώσει την υπόθεση που έχει κάνει ο χρήστης (DSS) και β) Ανακάλυψη, όπου το σύστημα βρίσκει αυτόνομα νέα πρότυπα (Data Mining). Η Ανακάλυψη μπορεί να χωριστεί σε Πρόβλεψη και σε Περιγραφή. Η Πρόβλεψη στοχεύει στον υπολογισμό της μελλοντικής αξίας ή στην εύρεση μοντέλων με σκοπό την πρόβλεψη της μελλοντικής συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και εξαρτώνται από τη συμπεριφορά άλλων μεταβλητών. Η Περιγραφή στοχεύει στην ανακάλυψη προτύπων με σκοπό την παρουσίαση των δεδομένων μιας πολύπλοκης βάσης δεδομένων σε κάποιο χρήστη σε κατανοητή μορφή. Ένας μεγάλος αριθμός εργαλείων εξόρυξης δεδομένων έχουν αναπτυχθεί για να ι- κανοποιήσουν τις απαιτήσεις διαφορετικών εφαρμογών. Στη συνέχεια παρουσιάζονται οι βασικότερες διεργασίες εξόρυξης δεδομένων Κατηγοριοποίηση H κατηγοριοποίηση (classification) αποτελεί μία από τις σημαντικότερες διεργασίες ε- ξόρυξης δεδομένων. Στόχος είναι η δημιουργία ενός μοντέλου το οποίο θα ταξινομεί ένα νέο αντικείμενο (μη κατηγοριοποιημένο), εξετάζοντας τα χαρακτηριστικά του, σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν αναπαρίστανται από τις εγγραφές της βάσης δεδομένων και η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες. Ο ακριβής ορισμός της κατηγοριοποίησης είναι η διαδικασία εύρεσης κοινών χαρακτηριστικών σε ένα σύνολο οντοτήτων μιας βάσης δεδομένων και, στη συνέχεια, ο διαχωρισμός τους σε κλάσεις σύμφωνα με ένα μοντέλο ομαδοποίησης. Οι βασικές απαιτήσεις για την σωστή εφαρμογή των αλγορίθμων κατηγοριοποίησης είναι: i. Η ύπαρξη ή εξαγωγή ενός καλά ορισμένου συνόλου κλάσεων, και ii. Ένα σύνολο εκπαίδευσης από προ-ταξινομημένα δεδομένα τα οποία θα είναι αντιπροσωπευτικά της απαιτούμενης ταξινόμησης. Πιο συγκεκριμένα, η κατηγοριοποίηση μπορεί να περιγραφεί ως μια διαδικασία δύο βημάτων: 1 ο Βήμα: Mάθηση (Learning): Σε αυτό το βήμα, ένα αντιπροσωπευτικό δείγμα της βάσης δεδομένων, το οποίο καλείται σύνολο εκπαίδευσης (training data), αναλύεται από έναν αλγόριθμο κατηγοριοποίησης για να αναπτυχθεί ένα μοντέλο προκαθορισμένων -12-

19 κλάσεων (ομάδων) χρησιμοποιώντας τα γνωρίσματα τα οποία είναι διαθέσιμα στο σύνολο. Τα στοιχεία αυτού του υποσυνόλου επιλέγονται τυχαία από έναν πληθυσμό δεδομένων και ανήκουν σε μία από τις προκαθορισμένες κατηγορίες. Το μοντέλο που προκύπτει, γνωστό και ως κατηγοριοποιητής (classifier), αναπαρίσταται με τη μορφή κανόνων κατηγοριοποίησης (classification rules) ή δέντρων απόφασης (decision trees) ή μαθηματικών τύπων (mathematical formulas). 2 ο Βήμα: Κατηγοριοποίηση (Classification): Στο δεύτερο βήμα της διαδικασίας χρησιμοποιούνται τα δοκιμαστικά δεδομένα (test data) για να εκτιμηθεί η ακρίβεια του μοντέλου. Υπάρχουν διάφορες μέθοδοι για τον υπολογισμό της ακρίβειας του κατηγοριοποιητή (classifier). Η ακρίβεια του μοντέλου είναι το ποσοστό των δειγμάτων δοκιμής που κατηγοριοποιήθηκαν σωστά από το υπό εκπαίδευση μοντέλο. Εάν η ακρίβεια του μοντέλου θεωρείται αποδεκτή, το μοντέλο μπορεί να χρησιμοποιηθεί για την ταξινόμηση κάθε νέου συνόλου δεδομένων, δηλαδή δεδομένων των οποίων η κατηγοριοποίηση είναι άγνωστη. Οι πιο διαδεδομένες μέθοδοι κατηγοριοποίησης είναι: Η Bayesian κατηγοριοποίηση Τα δέντρα απόφασης Η μάθηση εννοιών Η μάθηση κατά περίπτωση Τα νευρωνικά δίκτυα Οι μηχανές διανυσμάτων υποστήριξης (Support Vector Machines) Bayesian κατηγοριοποίηση Η Bayesian κατηγοριοποίηση προβλέπει τις πιθανότητες μια νέα εγγραφή να ανήκει σε μια από τις προκαθορισμένες κατηγορίες. Όπως είναι προφανές, στηρίζεται στο στατιστικό θεώρημα ταξινόμησης του Bayes, το οποίο υπολογίζει την μεταγενέστερη πιθανότητα ενός γεγονότος δεσμευμένου σε κάποιο άλλο. Πρόκειται για μια προσέγγιση η οποία στηρίζεται στην υπόθεση ότι οι ποσότητες που μας ενδιαφέρουν διέπονται από κατανομές πιθανοτήτων και ότι η εξαγωγή συμπερασμάτων με αυτές τις πιθανότητες σε συνδυασμό με δεδομένα που παρατηρούνται μπορούν να οδηγήσουν στη λήψη βέλτιστων αποφάσεων. Οι απαιτήσεις για την ανάπτυξη και εφαρμογή μιας κατηγοριοποίησης είναι: 1. Η γνώση της πρότερης πιθανότητας (prior probability) p(c i ) για κάθε κλάση c i. -13-

20 2. Η γνώση της συνάρτησης πυκνότητας πιθανότητας υπό συνθήκη για p(x c i ) [0,1]. Με τον τρόπο αυτό είναι δυνατή η εξαγωγή της μεταγενέστερης πιθανότητας q(c i x), χρησιμοποιώντας τον τύπο του Bayes: q(c i x) = p(x c i ) p(c i ) p(x) όπου p(x) είναι η πρότερη πιθανότητα του δείγματος. Κατά τη διάρκεια της ταξινόμησης κατά Bayes, για κάθε νέα περίπτωση υπολογίζεται η πιθανότητα να ανήκει σε μία από τις κλάσεις c 1, c 2,,c n και κατατάσσεται στην κλάση με την υψηλότερη μεταγενέστερη πιθανότητα. Στην κατηγοριοποίηση, κάθε παράδειγμα μπορεί προοδευτικά να αυξήσει ή να μειώσει την πιθανότητα μια υπόθεση να είναι σωστή, γεγονός που παρέχει έναν πιο ευέλικτο τρόπο μάθησης σε σχέση με άλλους αλγορίθμους που διαγράφουν τελείως μια υπόθεση αν δεν είναι συμβατή έστω και με ένα μόνο παράδειγμα. Επιπλέον προϋπάρχουσα γνώση μπορεί να συνδυαστεί με τα δεδομένα εκπαίδευσης με τη μορφή αρχικών τιμών πιθανότητας για τις υπό εξέταση υποθέσεις. Τα μειονεκτήματα της μεθόδου αυτής είναι ότι είναι απαραίτητη η γνώση όλων των πιθανοτήτων των κλάσεων εκ των προτέρων και το ιδιαίτερα μεγάλο υπολογιστικό κόστος. Αν δεν υπάρχει αυτή η γνώση, τότε πρέπει να υπολογιστεί κατ εκτίμηση από παλαιότερα δεδομένα, εμπειρική γνώση, υποθέσεις για τη μορφή της κατανομής αυτών των πιθανοτήτων, κτλ. Μια σημαντική απλουστευμένη εκδοχή της μάθησης κατά Bayes είναι ο απλός ταξινομητής Bayes, γνωστός και ως Naϊve Bayesian κατηγοριοποιητής. Αυτός υποθέτει ότι το αποτέλεσμα της τιμής ενός χαρακτηριστικού για μια συγκεκριμένη κατηγορία είναι ανεξάρτητο από τις τιμές των άλλων χαρακτηριστικών. Αυτή η υπόθεση γίνεται για να απλοποιήσει τους υπολογισμούς που εμπλέκονται και καλείται υπό συνθήκη ανεξαρτησία (class conditional independence) κατηγορίας. Μελέτες έχουν δείξει ότι η απόδοση του Naϊve Bayes είναι συγκρίσιμη με αυτή των δέντρων απόφασης και των νευρωνικών δικτύων. Ένας άλλος Bayesian κατηγοριοποιητής είναι τα Bayesian Belief Νetworks. Είναι γραφικά μοντέλα όπου χρησιμοποιούμενα, αντίθετα με τους Naϊve Bayesian κατηγο- -14-

21 ριοποιητές, επιτρέπουν την παρουσίαση των εξαρτήσεων μεταξύ των υποσυνόλων των χαρακτηριστικών. Δέντρα απόφασης Τα δέντρα απόφασης είναι μία από τις πιο διαδεδομένες μεθόδους ταξινόμησης, γι αυτό και ονομάζονται και δέντρα ταξινόμησης (classification trees), και χρησιμοποιούνται συχνά για την επίλυση προβλημάτων πρόβλεψης. Είναι μία μέθοδος που χρησιμοποιείται για να προσεγγίσει συναρτήσεις στόχους που έχουν σαν έξοδο μόνο διακριτές τιμές. Ένα δέντρο απόφασης επάγεται από ένα σύνολο εκπαίδευσης, που αποτελείται από αντικείμενα. Κάθε αντικείμενο περιγράφεται πλήρως από ένα σύνολο χαρακτηριστικών και από μια ετικέτα κλάσης (class label). Ο στόχος ενός αλγορίθμου αναφορικά με την κατασκευή ενός μοντέλου από ένα σύνολο δεδομένων, είναι η όσο το δυνατόν μεγαλύτερη προσέγγιση της πραγματικής αντιστοίχισης ανάμεσα στο σύνολο των ιδιοτήτων και στην ετικέτα κλάσης. Υπάρχουν δύο βασικά βήματα στην επίλυση ενός προβλήματος ταξινόμησης χρησιμοποιώντας την τεχνική των δέντρων απόφασης [12]: 1. Κατασκευή του δέντρου: Τα δεδομένα εκπαίδευσης χωρίζονται αναδρομικά με βάση κάποιο χαρακτηριστικό τους μέχρις ότου όλα τα στιγμιότυπα μιας ομάδας να ανήκουν στην ίδια κλάση. 2. Για κάθε νέα περίπτωση, εφαρμόζεται το δέντρο απόφασης προκειμένου να οριστεί η κατηγορία στην οποία ανήκει. Τα βασικά χαρακτηριστικά ενός δέντρου απόφασης είναι: Ρίζα: Το γνώρισμα που επιλέγεται ως η βάση, πάνω στην οποία χτίζεται το δέντρο. Εσωτερικός κόμβος: Ένα γνώρισμα το οποίο βρίσκεται στο εσωτερικό του δέντρου. Κλάδος: Μια από τις πιθανές τιμές του γνωρίσματος που βρίσκεται στον κόμβο από τον οποίο ξεκινά ο κλάδος. Φύλλο: Μια από τις καθορισμένες κλάσεις. Επομένως, κάθε κόμβος στο δέντρο ορίζει μια συνθήκη που ελέγχει την τιμή κάποιου χαρακτηριστικού των δεδομένων εκπαίδευσης και κάθε κλαδί που ξεκινά από τον κόμβο αυτό αντιστοιχεί σε μια διαφορετική διακριτή τιμή του συγκεκριμένου χαρακτηριστικού. Η διαδικασία για την κατηγοριοποίηση (πρόβλεψη) μια νέας περίπτωσης με βάση ένα δέντρο απόφασης είναι η ακόλουθη: Ξεκινώντας από τη ρίζα του δέντρου και εξε- -15-

22 τάζοντας τις ιδιότητες που καθορίζονται από τον κόμβο αυτό προσδιορίζονται διαδοχικά οι εσωτερικοί κόμβοι που θα επισκεφτούμε έως ότου καταλήξουμε σε ένα φύλλο. Σε κάθε κόμβο ελέγχεται η τιμή της νέας περίπτωσης για το χαρακτηριστικό του κόμβου. Ο έλεγχος αυτός θα καθορίσει και το κλαδί που θα διασχίσουμε στη συνέχεια καθώς και τον επόμενο κόμβο που θα επισκεφτούμε. Ένα παράδειγμα ταξινομείται λανθασμένα από ένα δέντρο (misclassified), αν η τιμή του φύλλου όπου καταλήγει είναι διαφορετική με την κατηγορία που πραγματικά ανήκει το συγκεκριμένο παράδειγμα. Το ποσοστό των παραδειγμάτων που ταξινομούνται σωστά καλείται ακρίβεια (accuracy), ενώ το ποσοστό των παραδειγμάτων που ταξινομούνται λανθασμένα ονομάζεται σφάλμα (error). Η αναπαράσταση που χρησιμοποιείται από τα δέντρα απόφασης είναι η διάζευξη, η οποία αποτελείται από συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών. Συγκεκριμένα, κάθε μονοπάτι από τη ρίζα προς κάποιο φύλλο αντιστοιχεί σε συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών, ενώ το δέντρο συνολικά εκφράζει τη διάζευξη αυτών των συζεύξεων, αφού αποτελείται από όλα τα εναλλακτικά μονοπάτια [1]. Συγκριτικά με τις υπόλοιπες τεχνικές εξόρυξης δεδομένων, τα δέντρα απόφασης παρουσιάζουν αρκετά πλεονεκτήματα. Πιο συγκεκριμένα, τα δέντρα απόφασης [32]: Είναι εύκολα στην κατανόηση και στην ερμηνεία. Μπορούν να χρησιμοποιηθούν εύκολα και αποτελεσματικά. Η αναγνωσιμότητα τους μπορεί να βελτιωθεί αν αναπαρασταθούν ως σύνολα κανόνων if-then που αποκαλούνται κανόνες κατηγοριοποίησης (classification rules). Μπορούν να χρησιμοποιηθούν με επιτυχία σε μεγάλες βάσεις δεδομένων και αυτό επειδή το μέγεθος της βάσης δεδομένων είναι ανεξάρτητο από το μέγεθος του δέντρου. Το μοντέλο που προκύπτει με βάση το δέντρο απόφασης μπορεί εύκολα να αξιολογηθεί με τη βοήθεια στατιστικών ελέγχων. Συνεπώς, μπορούμε εύκολα να εκτιμήσουμε την ακρίβεια του μοντέλου. Παρουσιάζουν ευρωστία και αρκετά μεγάλη ακρίβεια κατηγοριοποίησης ακόμη και σε μεγάλες βάσεις δεδομένων. Από την άλλη πλευρά, οι αλγόριθμοι μάθησης δέντρων απόφασης παρουσιάζουν και μειονεκτήματα. Κατ αρχάς, ορισμένοι αλγόριθμοι δεν μπορούν να χειριστούν σε ικανοποιητικό βαθμό δεδομένα με συνεχείς τιμές και συνεπώς απαιτείται διακριτοποίη- -16-

23 ση, δηλαδή ο μετασχηματισμός τους σ ένα πεπερασμένο σύνολο διακριτών κατηγοριών. Ωστόσο, η εφαρμογή της παραπάνω πρακτικής εισάγει υποκειμενικότητα που ε- πηρεάζει την τελική μορφή του δέντρου, καθώς υπάρχουν αρκετοί τρόποι με τους οποίους μπορεί να οριστούν οι κατηγορίες. Επιπρόσθετα, ο χειρισμός πεδίων με κενές τιμές είναι δύσκολος, καθώς σωστά κλαδιά στο δέντρο μπορεί να μην ακολουθηθούν. Παράλληλα, υπάρχει ο κίνδυνος της υπερμοντελοποίησης (overfitting) ως απόρροια της κατασκευής του δέντρου με βάση τα δεδομένα εκπαίδευσης. O κίνδυνος αυτός, όμως, μπορεί να περιοριστεί σε μεγάλο βαθμό ή ακόμη και να υπερκεραστεί με κλάδεμα (pruning) του δέντρου. Η φάση του κλαδέματος αφαιρεί κάποιες περιττές συγκρίσεις ή διαγράφει κάποια υποδέντρα με στόχο την επίτευξη καλύτερης απόδοσης. Τέλος, δεν λαμβάνονται υπόψη ενδεχόμενες συσχετίσεις μεταξύ των χαρακτηριστικών. Οι βασικοί παράγοντες που επηρεάζουν την απόδοση των αλγορίθμων μάθησης δέντρων απόφασης είναι το μέγεθος του συνόλου εκπαίδευσης και ο τρόπος επιλογής του καλύτερου χαρακτηριστικού για διαχωρισμό (best splitting attribute). Αναφορικά με το μέγεθος του συνόλου εκπαίδευσης, αν αυτό είναι πολύ μικρό, τότε το εξαγόμενο δέντρο ίσως να μη μπορεί να εφαρμοστεί σε γενικά δεδομένα. Αντιθέτως, αν είναι πολύ μεγάλο, ελλοχεύει ο κίνδυνος της υπερμοντελοποίησης. Γι αυτό κρίνεται πρωταρχικής σημασίας ο καθορισμός τόσο του κριτηρίου βάσει του οποίου θα σταματά η ανάπτυξη του δέντρου, όσο και του τρόπου με τον οποίο θα πραγματώνεται η τεχνική του κλαδέματος. Επιπλέον, σημαντικά θέματα θεωρούνται η επιλογή των χαρακτηριστικών που θα χρησιμοποιηθούν για το διαχωρισμό, αφού κάποια χαρακτηριστικά είναι καλύτερα από κάποια άλλα, η σειρά με την οποία θα επιλεγούν αυτά τα χαρακτηριστικά, ο αριθμός των διασπάσεων (splits) που θα χρησιμοποιηθούν, καθώς και η δομή του δέντρου (τα μικρότερα σε βάθος δέντρα συνήθως προτιμώνται έναντι των μεγάλων δέντρων). Υπάρχουν διάφοροι τρόποι κατασκευής δέντρων απόφασης, οι οποίοι χρησιμοποιούν διαφορετικούς αλγόριθμους επιλογής του κριτηρίου διαχωρισμού του συνόλου των δεδομένων. Οι δημοφιλέστεροι από αυτούς είναι [3]: Ο ID3 και ο C4.5: Αλγόριθμοι κέρδους πληροφορίας. Ο DBLearn: Αλγόριθμος ο οποίος δημιουργεί περιγραφές προκαθορισμένων υποσυνόλων μιας σχεσιακής βάσης δεδομένων χρησιμοποιώντας γνώση του πεδίου ορισμού της εκάστοτε εφαρμογής. -17-

24 -18- CLS: Αλγόριθμος ο οποίος εξετάζει όλα τα πιθανά δέντρα αποφάσεων μέχρι ε- νός συγκεκριμένου βάθους. Τελικά, επιλέγει αυτό το οποίο ελαχιστοποιεί το υ- πολογιστικό κόστος της ταξινόμησης ενός στοιχείου. Οι SLIQ και SPRINT: Αλγόριθμοι που επιλέγουν το χαρακτηριστικό που θα ε- λεγχθεί με βάση το δείκτη GINI και όχι το μέτρο εντροπίας. Το καλύτερο χαρακτηριστικό είναι αυτό που δίνει τη χαμηλότερη τιμή για το δείκτη GINI. Ο Αλγόριθμος ID3 Ο ID3 αναπτύχθηκε από τον J. Ross Quinlan στο Πανεπιστήμιο του Sydney και παρουσιάστηκε για πρώτη φορά στο βιβλίο του Machine Learning το Υπήρξε ο κυριότερος εκπρόσωπος των δέντρων απόφασης που η κατασκευή τους ξεκινά από την κορυφή προς τα κάτω(top Down Induction of Decision Trees TDIDT) μέχρι την έ- λευση του C4.5. Ήταν ο πρώτος αλγόριθμος που χρησιμοποίησε για κριτήριο διαχωρισμού (split criterion) το Κέρδος Πληροφορίας (Information Gain). Ο αλγόριθμος εφαρμόζεται μόνο σε κατηγορικά δεδομένα και στη γενική του μορφή περιγράφεται ως εξής [1]: 1. Εύρεση του χαρακτηριστικού το οποίο αν χρησιμοποιηθεί ως κριτήριο διαχωρισμού των δεδομένων εκπαίδευσης θα οδηγήσει σε όσο το δυνατόν πιο διαφορετικούς μεταξύ τους κόμβους σε σχέση με την εξαρτημένη μεταβλητή. 2. Πραγματοποίηση του διαχωρισμού. 3. Επανάληψη της διαδικασίας διαχωρισμού στους κόμβους που προέκυψαν έως ότου να μην είναι δυνατός περαιτέρω διαχωρισμός. Ο ID3 είναι αναδρομικός και κατασκευάζει το δέντρο άπληστα από πάνω προς τα κάτω ξεκινώντας με την επιλογή του πιο κατάλληλου χαρακτηριστικού για έλεγχο στη ρίζα. Η επιλογή αυτή στηρίζεται σε κάποιο στατιστικό μέτρο που υπολογίζεται από τα δεδομένα. Στη συνέχεια, για κάθε δυνατή τιμή του χαρακτηριστικού δημιουργούνται οι αντίστοιχοι απόγονοι της ρίζας και τα δεδομένα μοιράζονται στους νέους κόμβους ανάλογα με την τιμή που έχουν για το χαρακτηριστικό που ελέγχεται στη ρίζα. Η παραπάνω διαδικασία επαναλαμβάνεται για κάθε νέο κόμβο. Η επιλογή, όμως, του πιο κατάλληλου χαρακτηριστικό σε νέο κόμβο βασίζεται μόνο στα δεδομένα που ανήκουν σε αυτόν τον κόμβο. Η όλη διαδικασία περατώνει όταν οι κόμβοι γίνουν τερματικοί (ή φύλλα). Ένας κόμβος γίνεται φύλλο όταν όλα τα δεδομένα που ανήκουν σε αυτόν εντάσσονται στην ίδια κατηγορία. Οπότε, η κατηγορία αυτή γίνεται και η τιμή του φύλλου και ο κόμβος ονομάζεται αμιγής κόμβος (pure node). Επιπλέον, αν σε κά-

25 ποιο βάθος του δέντρου τελειώσουν τα χαρακτηριστικά προς έλεγχο, τότε ο κόμβος γίνεται τερματικός και λαμβάνει για τιμή την κατηγορία στην οποία ανήκει η πλειοψηφία των δεδομένων του κόμβου αυτού. Για την επιλογή του καταλληλότερου χαρακτηριστικού ως κόμβου χρησιμοποιείται το στατιστικό μέτρο, το Κέρδος Πληροφορίας. Το κέρδος πληροφορίας μετρά τη μείωση της εντροπίας που θα προκληθεί αν τα δείγματα ενός συνόλου χωριστούν σε ομάδες, με βάση κάποιο χαρακτηριστικό τους. Βασίζεται, λοιπόν, στην ποσότητα της Εντροπίας (Entropy), η οποία αναφέρεται στην ανομοιογένεια μιας συλλογής αντικειμένων. Όταν μειώνεται η πληροφοριακή εντροπία, αυξάνεται η πυκνότητα πληροφορίας και άρα η περιγραφή γίνεται περισσότερο συμπαγής. Έστω S ένα σύνολο που περιέχει θετικά και αρνητικά δείγματα δεδομένων που α- φορούν μια έννοια στόχο. Αν ρ + είναι το ποσοστό των θετικών και ρ - των αρνητικών παραδειγμάτων στο σύνολο S, τότε η εντροπία του συνόλου Ε(S) είναι: Ε(S) = - ρ + log 2 (p + ) - ρ - log 2 (p - ) Στην περίπτωση όπου ρ i το ποσοστό των παραδειγμάτων του S που ανήκουν στην κατηγορία i, η γενική σχέση υπολογισμού της εντροπίας για c διαφορετικές κατηγορίες είναι: Εάν Α ένα χαρακτηριστικό με σύνολο τιμών V(Α), τότε το κέρδος πληροφορίας σε σχέση με αυτό το χαρακτηριστικό είναι: E(S) είναι η εντροπία πληροφορίας του υπό εξέταση κόμβου, ενώ ο όρος αθροίσματος Σ είναι η εντροπία των παραδειγμάτων μετά το διαχωρισμό τους ανάλογα με την τιμή του χαρακτηριστικού Α και αποτελείται από το άθροισμα της εντροπίας για το κάθε σύνολο που προκύπτει μετά το διαχωρισμό, όπου u είναι μια από τις δυνατές τιμές του Α, Su είναι το πλήθος των εγγραφών με Α=u και Ε(Su) η εντροπία πληροφορίας του υπό εξέταση κόμβου ως προς την τιμή. Κατά την κατασκευή του δέντρου, ως ρίζα του δέντρου επιλέγεται το χαρακτηριστικό με το μέγιστο κέρδος πληροφορίας συνολικά, ενώ ως κόμβος επιλέγεται το χαρα- -19-

26 κτηριστικό που παρουσιάζει το μέγιστο κέρδος πληροφορίας στο τρέχον σημείο κατασκευής. Η στρατηγική αναζήτησης που ακολουθεί ο αλγόριθμος ID3 είναι η αναρρίχηση λόφων (hill climbing) και κατευθύνεται με βάση το κέρδος πληροφορίας. Ο ΙD3 κάνει αναζήτηση σε έναν χώρο υποθέσεων που απαρτίζεται από όλα τα πιθανά δέντρα αποφάσεων. Οπότε, δεν διατρέχει τον κίνδυνο να μην υπάρχει η έννοια στόχος στον χώρο αυτό και σε κάθε βήμα της αναζήτησης χρησιμοποιεί όλα τα δεδομένα εκπαίδευσης για να υπολογίσει το κέρδος πληροφορίας για τα εναλλακτικά χαρακτηριστικά. Από την άλλη πλευρά, ο ID3 διατηρεί μόνο μια συμβατή υπόθεση με τα δεδομένα κατά την αναζήτηση και επομένως, δεν είναι σε θέση να βρει όλα τα δέντρα που είναι συμβατά με τα δεδομένα. Επιπλέον, δεν έχει τη δυνατότητα οπισθοδρόμησης (backtracking) κατά τη διάρκεια της αναζήτησης. Από τη στιγμή που επιλέξει ένα χαρακτηριστικό για έλεγχο σε κάποιο κόμβο, δεν μπορεί να επιστρέψει για να αλλάξει την επιλογή αυτή. Αυτό σημαίνει ότι διατρέχει τον κίνδυνο να βρει τοπικά βέλτιστα δέντρα. Για την καλύτερη κατανόηση των παραπάνω, ακολουθεί ένα παράδειγμα του αλγορίθμου ID3. Το παράδειγμα αναφέρεται στη διεξαγωγή ενός αγώνα golf και ο Πίνακας 2.1 συνοψίζει κάποια ενδεικτικά δεδομένα. Για την επιλογή της ρίζας υπολογίζουμε το κέρδος για κάθε ένα από τα χαρακτηριστικά του συνόλου (καιρός, θερμοκρασία, υγρασία, άνεμος). Πίνακας 2.1: Δεδομένα εφαρμογής του ID3 αλγόριθμου Καιρός Θερμοκρασία Υγρασία Άνεμος Play_golf Ηλιοφάνεια Υψηλή Υψηλή Ασθενής Όχι Ηλιοφάνεια Υψηλή Υψηλή Ισχυρός Όχι Συννεφιά Υψηλή Υψηλή Ασθενής Ναι Βροχή Κανονική Υψηλή Ασθενής Ναι Βροχή Χαμηλή Κανονική Ασθενής Ναι Βροχή Χαμηλή Κανονική Ισχυρός Όχι Συννεφιά Χαμηλή Κανονική Ισχυρός Ναι Ηλιοφάνεια Κανονική Υψηλή Ασθενής Όχι Ηλιοφάνεια Χαμηλή Κανονική Ασθενής Ναι Βροχή Κανονική Κανονική Ασθενής Ναι Ηλιοφάνεια Κανονική Κανονική Ισχυρός Ναι Συννεφιά Κανονική Υψηλή Ισχυρός Ναι Συννεφιά Υψηλή Κανονική Ασθενής Ναι Βροχή Κανονική Υψηλή Ισχυρός Όχι Οπότε έχουμε: -20-

27 Gain (S, καιρός) = 0,246 Gain (S, θερμοκρασία) = 0,029 Gain (S, υγρασία) = 0,151 Gain (S, άνεμος) = 0,048 Το χαρακτηριστικό καιρός έχει το μεγαλύτερο κέρδος πληροφορίας. Οπότε, είναι το χαρακτηριστικό που ορίζεται ως ρίζα του δέντρου (Εικόνα 2.4). Κλαδιά είναι οι τιμές του χαρακτηριστικού αυτού. Εικόνα 2.4: Επιλογή ρίζας Το επόμενο βήμα είναι η επιλογή του επόμενου κόμβου. Για κάθε μία από τις τιμές τις ρίζας και καθένα από τα υπόλοιπα χαρακτηριστικά ακολουθούμε την ίδια διαδικασία, με αποτέλεσμα το τελικό δέντρο απόφασης που φαίνεται στην Εικόνα 2.5. Εικόνα 2.5: Η γραφική αναπαράσταση του δέντρου απόφασης. -21-

28 Οι Αλγόριθμοι C4.5 και C5.0 Ο αλγόριθμος C4.5 αποτελεί επέκταση του ΙD3 και επιτυγχάνει καλύτερη διαχείριση κενών πεδίων και αριθμητικών δεδομένων, καλύτερο κλάδεμα των δέντρων και αποτελεσματικότερη εξαγωγή κανόνων. Πιο συγκεκριμένα, ο αλγόριθμος C4.5 βελτιώνει τον αλγόριθμο ID3 ως εξής: Ελλιπή δεδομένα: Κατά τη κατασκευή του δέντρου απόφασης, ο αλγόριθμος αγνοεί τα ελλιπή δεδομένα. Αυτό σημαίνει ότι το κέρδος υπολογίζεται λαμβάνοντας υπόψη μόνο τις εγγραφές που έχουν τιμή. Επίσης, κατά την κατηγοριοποίηση ενός παράδειγμα με ελλιπή τιμή σε ένα χαρακτηριστικό, γίνεται πρόβλεψη αυτής της τιμής με βάση τις τιμές των υπολοίπων παραδειγμάτων για το συγκεκριμένο χαρακτηριστικό. Συνεχή δεδομένα: Τα χαρακτηριστικά που λαμβάνουν συνεχείς τιμές, χωρίζονται σε διαστήματα. Κλάδεμα: Υπάρχουν δύο σημαντικές στρατηγικές κλαδέματος στον C4.5: Αντικατάσταση του υποδέντρου (subtree replacement): Ένα υποδέντρο αντικαθίσταται από ένα φύλλο αν αυτή η αντικατάσταση έχει ως αποτέλεσμα σφάλμα κοντά σε αυτό του αρχικού υποδέντρου. Η τεχνική αυτή εφαρμόζεται ξεκινώντας από τα φύλλα και ανεβαίνοντας προς τη ρίζα. Ανύψωση υποδέντρου (subtree raising): Αντικαθιστά ένα υποδέντρο με το περισσότερο χρησιμοποιούμενο υποδέντρό του. Έτσι, ένα υποδέντρο ανυψώνεται αφού αντικαθιστά ένα υπδέντρο που βρίσκεται σε ψηλότερο επίπεδο. Και σε αυτή την περίπτωση πρέπει να λάβουμε υπόψη την αύξηση στη συχνότητα λαθών. Κανόνες: Ο C4.5 επιτρέπει την κατηγοριοποίηση είτε μέσω δέντρων απόφασης είτε μέσω κανόνων που δημιουργούνται από αυτό. Επίσης, προτείνονται κάποιες τεχνικές που απλουστεύουν τους πολύπλοκους κανόνες. Διάσπαση: Ο ID3 προτιμά τα χαρακτηριστικά με πολλές διαιρέσεις. Ωστόσο, αυτό μπορεί να οδηγήσει σε υπερπροσαρμογή. Μια οριακή περίπτωση είναι να έχουμε ένα χαρακτηριστικό που έχει μια μοναδική τιμή για κάθε παράδειγμα. Το χαρακτηριστικό αυτό θα είναι το καλύτερο αφού θα υπήρχε μόνο μία κατηγορία για κάθε διαίρεση. Μια βελτίωση θα μπορούσε να γίνει αν λάβουμε υπόψη την πληθικότητα της κάθε διαίρεσης. Αυτή η προσέγγιση χρησιμοποιεί τον Λόγο Κέρδους (Gain Ratio) αντί του Κέρδους Πληροφορίας. Ο λόγος κέρδους βασίζεται στο χαρακτηριστικό Πληροφορία -22-

29 Διαχωρισμού (Split Information), το οποίο είναι ευαίσθητο στο εύρος και την ομοιομορφία διαχωρισμού των δεδομένων από ένα χαρακτηριστικό. Ο C5.0 είναι μια εμπορική έκδοση του C4.5 που χρησιμοποιείται πολύ συχνά στα πακέτα λογισμικού εξόρυξης δεδομένων. Χρησιμοποιείται κυρίως για μεγάλα σύνολα δεδομένων. Η φάση της επαγωγής είναι όμοια με αυτή του C4.5, αλλά η δημιουργία κανόνων είναι διαφορετική. Τα αποτελέσματα που έχουν δημοσιευτεί αποδεικνύουν ότι ο C5.0 βελτιώνει τη χρήση της μνήμης κατά 90%, τρέχει πολύ πιο γρήγορα από τον C4.5 (μπορεί να τρέξει από 5,7 μέχρι και 240 φορές πιο γρήγορα) και παράγει πιο ακριβείς κανόνες. Μια πολύ σημαντική βελτίωση στην ακρίβεια του C5.0 βασίζεται στην ενίσχυση (boosting), η οποία είναι μια τεχνική που συνδυάζει διάφορους κατηγοριοποιητές. Μάθηση εννοιών Με τον όρο έννοια εννοούμε ένα υποσύνολο αντικειμένων, τα οποία ορίζονται σε σχέση με ένα μεγαλύτερο σύνολο. Εναλλακτικά, μπορούμε να θεωρήσουμε ότι η έννοια είναι μια συνάρτηση που επιστρέφει λογική τιμή: αληθή για τα αντικείμενα ενός συνόλου που ανήκουν σε αυτή και ψευδή για όλα τα άλλα. Το σύστημα, λοιπόν, τροφοδοτείται με παραδείγματα που ανήκουν (θετικά παραδείγματα) ή δεν ανήκουν (αρνητικά παραδείγματα) σε κάποια έννοια/ κατηγορία. Στη συνέχεια μοντελοποιεί κάποια γενικευμένη περιγραφή της, ώστε να μπορεί να διακρίνει αν μια νέα περίπτωση εντάσσεται σε αυτήν την έννοια [1]. Για παράδειγμα, ένα πρόβλημα θα μπορούσε να είναι ο προσδιορισμός της έννοιας «καλός πελάτης» για τη χορήγηση πιστωτικής κάρτας. Τροφοδοτώντας το σύστημα με διάφορα χαρακτηριστικά καλών και κακών πελατών, ζητείται η δημιουργία ενός μοντέλου που θα επιτρέπει την πρόβλεψη σχετικά με ένα νέο πελάτη. Ο πιο διαδεδομένος αλγόριθμος μάθησης εννοιών είναι ο αλγόριθμος απαλοιφής υ- ποψηφίων. Ο αλγόριθμος απαλοιφής υποψηφίων Ο αλγόριθμος απαλοιφής υποψηφίων (candidate elimination algorithm) περιορίζει το χώρο αναζήτησης κάνοντας γενικεύσεις και εξειδικεύσεις σε κάποιες αρχικές υποθέσεις (έννοιες) με βάση τα δεδομένα εκπαίδευσης. Χρησιμοποιεί δύο σύνολα [1]: G: είναι το σύνολο των πιο γενικών υποψήφιων υποθέσεων (Σύνορο G) S: είναι το σύνολο των πιο ειδικών υποψήφιων υποθέσεων (Σύνορο S) -23-

30 Ο αλγόριθμος απαλοιφής υποψηφίων χρησιμοποιεί και τα θετικά και τα αρνητικά παραδείγματα: επεκτείνει το S με βάση τα θετικά παραδείγματα κάνοντας γενικεύσεις και περιορίζει το G με βάση τα αρνητικά παραδείγματα κάνοντας εξειδικεύσεις έως ότου εξαντληθούν τα στοιχεία των δύο αυτών συνόλων. Όταν εξετάσει όλα τα παραδείγματα τότε τα σύνολα S και G περιέχουν όλες τις υποθέσεις που ταξινομούν σωστά τα παραδείγματα. Μια σχηματική περιγραφή του αλγόριθμου δίνεται στην Εικόνα 2.6. Τα σύνολα G και S διαχωρίζουν το χώρο των εννοιών σε περιοχές με θετικά, αρνητικά και απροσδιόριστης φύσης παραδείγματα. Κατά την εκπαίδευση το Σύνορο S επεκτείνεται, ενώ το Σύνορο G συρρικνώνεται μέχρις ότου εξαντληθούν τα παραδείγματα. Εικόνα 2.6: Σχηματική περιγραφή του αλγόριθμου απαλοιφής υποψηφίων Μάθηση κατά περίπτωση Στη μάθηση κατά περίπτωση (instance-based learning IBL) τα δεδομένα εκπαίδευσης αποθηκεύονται αυτούσια. Όταν μια νέα περίπτωση πρέπει να ταξινομηθεί, εξετάζεται η σχέση της με τα ήδη αποθηκευμένα παραδείγματα. Η μέθοδος αυτή αναβάλλει τη μάθηση μέχρι τη στιγμή που θα εμφανιστεί ένα νέο στιγμιότυπο για ταξινόμηση. Για το λόγο αυτό οι αλγόριθμοι της κατηγορίας αυτής λέγονται και αναβλητικοί (lazy learners). Οι πιο γνωστοί αλγόριθμοι αυτής της κατηγορίας είναι: Κοντινότερου γείτονα (Nearest Neighbor, NN) k- κοντινότερου γείτονα (k-nearest Neighbor, knn) Κοντινότερου γείτονα σταθμισμένης απόστασης (Distance Weighted Nearest Neighbor) Τοπικά σταθμισμένη παλινδρόμηση (Locally Weighted Regression, LWR) Συνάρτηση ακτινωτής βάσης (Radial Basis Function, RBF) -24-

31 Συλλογιστική βασισμένη σε παραδείγματα (Case Based Reasoning, CBR) Στις μεθόδους IBL το κόστος για την ταξινόμηση ενός νέου στιγμιότυπου είναι ι- διαίτερα υψηλό καθώς οι περισσότεροι υπολογισμοί πραγματοποιούνται τη στιγμή της ταξινόμησης και όχι τη στιγμή της εισαγωγής των παραδειγμάτων εκπαίδευσης. Όταν εισάγεται ένα νέο στιγμιότυπο, ελέγχεται η σχέση του με τα ήδη αποθηκευμένα παραδείγματα προκειμένου να υπολογιστεί η τιμή της συνάρτησης στόχος για το παράδειγμα αυτό. Στη χειρότερη περίπτωση, μπορεί να ελεγχθούν όλα τα παραδείγματα εκπαίδευσης. Επιπλέον, οι μέθοδοι IBL και κυρίως οι αλγόριθμοι του κοντινότερου γείτονα λαμβάνουν υπ όψη όλα τα χαρακτηριστικά των στιγμιότυπων. Έτσι, σε περίπτωση που η εξαρτημένη μεταβλητή εξαρτάται μόνο από λίγα από αυτά, υπάρχει η πιθανότητα κάποια κοντινά παραδείγματα να θεωρηθούν μακρινά [1]. Ο αλγόριθμος των k-κοντινότερων γειτόνων Τα στιγμιότυπα θεωρούνται σημεία στο n-διάστατο χώρο R n, όπου n ο αριθμός των χαρακτηριστικών (ανεξάρτητων μεταβλητών). Κάθε νέα περίπτωση τοποθετείται στο χώρο ως νέο σημείο και η τιμή του προσδιορίζεται με βάση την τιμή των k γειτονικών σημείων. Οι κοντινότεροι γείτονες ενός σημείου υπολογίζονται με βάση την Ευκλείδεια απόσταση. Έστω ένα τυχαίο στιγμιότυπο x, το οποίο περιγράφεται από ένα σύνολο χαρακτηριστικών [a 1 (x), a 2 (x),., a n (x)], όπου το a r (x) είναι το r χαρακτηριστικό του στιγμιότυπου x. Η απόσταση μια νέας περίπτωσης x που περιγράφεται από το σύνολο χαρακτηριστικών [a 1 (x ), a 2 (x ),., a n (x )]από το στιγμιότυπο x δίνεται από τον τύπο: Η τιμή της νέας περίπτωσης προκύπτει λαμβάνοντας υπόψη τις τιμές των κοντινότερων γειτόνων, βάση της απόστασης που προκύπτει από τον προηγούμενο τύπο. -25-

32 Εικόνα 2.7: Προσδιορισμός κατηγορίας με βάση τους κοντινότερους γείτονες Στην Εικόνα 2.7, όπου υπάρχουν παραδείγματα δύο κατηγοριών, η νέα περίπτωση x χαρακτηρίζεται ως θετική, αν ληφθεί υπ όψη μόνο ο κοντινότερος γείτονας (1- Nearest Neighbor) και ως αρνητική αν ληφθούν υπ όψη οι πέντε κοντινότεροι γείτονες (5-Nearest Neighbors) καθώς η πλειοψηφία αυτών έχει αρνητικό χαρακτηρισμό. Νευρωνικά δίκτυα Τα νευρωνικά δίκτυα είναι μη γραμμικά μοντέλα πρόβλεψης τα οποία μαθαίνουν μέσα από παραδείγματα. Μοντελοποιούνται σύμφωνα με τον τρόπο που λειτουργεί ο ανθρώπινος εγκέφαλος και αποτελούνται από πολλά συνδεδεμένα τμήματα επεξεργασίας. Παρέχουν ένα πρακτικό και εύκολο τρόπο για την εκμάθηση αριθμητικών και διανυσματικών συναρτήσεων με συνεχή ή διακριτά μεγέθη. Χρησιμοποιούνται τόσο για κατηγοριοποίηση όσο και για παρεμβολή [1]. Ένα νευρωνικό δίκτυο είναι είναι δομημένο σαν ένας κατευθυνόμενος γράφος με πολλούς κόμβους (nodes, τμήματα επεξεργασίας) και βέλη (arcs, διασυνδέσεις) ανάμεσα στους κόμβους. Κάθε κόμβος του γράφου είναι σαν ανεξάρτητοι νευρώνες, ενώ τα βέλη είναι σύνδεσμοι των νευρώνων Κάθε κόμβος λειτουργεί αυτόνομα (ανεξάρτητα από τους άλλους) και χρησιμοποιεί μόνο τοπικά δεδομένα (είσοδο και έξοδο στον κόμβο) για να καθοδηγήσει την επεξεργασία. Ένας τεχνητός νευρώνας α i όπως παρουσιάζεται στην Εικόνα 2.8,επιτελεί τα αμέσως ακόλουθα: Δέχεται ένα αριθμό από j εισόδους α k είτε από πραγματικά δεδομένα εισόδoυ, είτε από εξόδους από άλλους νευρώνες του νευρωνικού δικτύου. Κάθε είσοδος έχει μία τιμή βάρους w k (weight). Το σώμα του χωρίζεται σε δύο μέρη: -26-

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ. Σπουδάστρια Αρχοντοπούλου Ελένη. Εισηγητής Καθηγητής

ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ. Σπουδάστρια Αρχοντοπούλου Ελένη. Εισηγητής Καθηγητής ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ Σπουδάστρια Αρχοντοπούλου Ελένη Εισηγητής Καθηγητής Ρ γ. Γκούμας Στέφανος Καβάλα 2009 Περιεχόμενα 1. Εισαγωγή... 1 1.1.

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για 2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Διακριτά Μαθηματικά. Ενότητα 4: Εισαγωγή / Σύνολα

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Διακριτά Μαθηματικά. Ενότητα 4: Εισαγωγή / Σύνολα Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Διακριτά Μαθηματικά Ενότητα 4: Εισαγωγή / Σύνολα Αν. Καθηγητής Κ. Στεργίου e-mail: kstergiou@uowm.gr Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών Άδειες

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

Παράδειγμα 2. Λύση & Επεξηγήσεις. Τέλος_επανάληψης Εμφάνισε "Ναι" Τέλος Α2

Παράδειγμα 2. Λύση & Επεξηγήσεις. Τέλος_επανάληψης Εμφάνισε Ναι Τέλος Α2 Διδακτική πρόταση ΕΝΟΤΗΤΑ 2η, Θέματα Θεωρητικής Επιστήμης των Υπολογιστών Κεφάλαιο 2.2. Παράγραφος 2.2.7.4 Εντολές Όσο επανάλαβε και Μέχρις_ότου Η διαπραγμάτευση των εντολών επανάληψης είναι σημαντικό

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE) ΔΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE) ΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE). Εισαγωγή Οι στατιστικές δοκιμασίες που μελετήσαμε μέχρι τώρα ονομάζονται παραμετρικές (paramtrc) διότι χαρακτηρίζονται από υποθέσεις σχετικές είτε για

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/ Τεχνητή Νοημοσύνη 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία: Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας

Διαβάστε περισσότερα

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΓΙΑΝΝΗΣ ΦΑΝΟΥΡΓΙΑΚΗΣ ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΣΥΝΕΡΓΑΤΗΣ ΤΕΙ ΚΡΗΤΗΣ ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ 1. Εισαγωγή

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα.

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα. i Π Ρ Ο Λ Ο Γ Ο Σ Το βιβλίο αυτό αποτελεί μια εισαγωγή στα βασικά προβλήματα των αριθμητικών μεθόδων της υπολογιστικής γραμμικής άλγεβρας (computational linear algebra) και της αριθμητικής ανάλυσης (numerical

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θ.Ε. ΠΛΗ31 (2004-5) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #3 Στόχος Στόχος αυτής της εργασίας είναι η απόκτηση δεξιοτήτων σε θέματα που αφορούν τα Τεχνητά Νευρωνικά Δίκτυα και ποιο συγκεκριμένα θέματα εκπαίδευσης και υλοποίησης.

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER» Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ 1.1 Να δοθεί ο ορισμός του προβλήματος καθώς και τρία παραδείγματα

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Λήψη αποφάσεων κατά Bayes

Λήψη αποφάσεων κατά Bayes Λήψη αποφάσεων κατά Bayes Σημειώσεις μαθήματος Thomas Bayes (1701 1761) Στυλιανός Χατζηδάκης ECE 662 Άνοιξη 2014 1. Εισαγωγή Οι σημειώσεις αυτές βασίζονται στο μάθημα ECE662 του Πανεπιστημίου Purdue και

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ ΔΙΑΔΙΚΑΣΙΕΣ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ Διδάσκων: Γ. Χαραλαμπίδης,

Διαβάστε περισσότερα

Περιεχόμενο του μαθήματος

Περιεχόμενο του μαθήματος ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Απαιτήσεις Λογισμικού Περιπτώσεις χρήσης Δρ Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου Εαρινό Εξάμηνο 2012-2013 1 Περιεχόμενο του μαθήματος

Διαβάστε περισσότερα

Διδακτικές Τεχνικές (Στρατηγικές)

Διδακτικές Τεχνικές (Στρατηγικές) Διδακτικές Τεχνικές (Στρατηγικές) Ενδεικτικές τεχνικές διδασκαλίας: 1. Εισήγηση ή διάλεξη ή Μονολογική Παρουσίαση 2. Συζήτηση ή διάλογος 3. Ερωταποκρίσεις 4. Χιονοστιβάδα 5. Καταιγισμός Ιδεών 6. Επίδειξη

Διαβάστε περισσότερα

Γεώργιος Φίλιππας 23/8/2015

Γεώργιος Φίλιππας 23/8/2015 MACROWEB Προβλήματα Γεώργιος Φίλιππας 23/8/2015 Παραδείγματα Προβλημάτων. Πως ορίζεται η έννοια πρόβλημα; Από ποιους παράγοντες εξαρτάται η κατανόηση ενός προβλήματος; Τι εννοούμε λέγοντας χώρο ενός προβλήματος;

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 19 Hashing - Κατακερματισμός 1 / 23 Πίνακες απευθείας πρόσβασης (Direct Access Tables) Οι πίνακες απευθείας

Διαβάστε περισσότερα

2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ

2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΔΟΜΗ ΕΠΙΛΟΓΗΣ 1) Ποιοι είναι οι τελεστές σύγκρισης και

Διαβάστε περισσότερα

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων Γιάννης Λιαπέρδος TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Η έννοια του συνδυαστικού

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 6 ΟΥ ΚΕΦΑΛΑΙΟΥ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 6.1 Τι ονοµάζουµε πρόγραµµα υπολογιστή; Ένα πρόγραµµα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή ΜΕΡΟΣ Α ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 1 Εξόρυξη Δεδομένων 22 Η επανάσταση του ΚΡΙΟΥ 1.1 Εισαγωγή Το Data Mining αποτελεί μια νέα ερευνητική περιοχή, ραγδαία εξελισσόμενη, που είναι η τομή πολλών θεωριών και επιστημών,

Διαβάστε περισσότερα

Κεφάλαιο 6. Ικανοποίηση Περιορισµών. Τεχνητή Νοηµοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 6. Ικανοποίηση Περιορισµών. Τεχνητή Νοηµοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 6 Ικανοποίηση Περιορισµών Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Ικανοποίηση Περιορισµών Ένα πρόβληµα ικανοποίησης περιορισµών (constraint

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ιδάσκων:

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων. Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων. Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Περιεχόμενα. Δομές δεδομένων. Τεχνικές σχεδίασης αλγορίθμων. Εισαγωγή στον προγραμματισμό. Υποπρογράμματα. Επαναληπτικά κριτήρια αξιολόγησης

Περιεχόμενα. Δομές δεδομένων. Τεχνικές σχεδίασης αλγορίθμων. Εισαγωγή στον προγραμματισμό. Υποπρογράμματα. Επαναληπτικά κριτήρια αξιολόγησης Περιεχόμενα Δομές δεδομένων 37. Δομές δεδομένων (θεωρητικά στοιχεία)...11 38. Εισαγωγή στους μονοδιάστατους πίνακες...16 39. Βασικές επεξεργασίες στους μονοδιάστατους πίνακες...25 40. Ασκήσεις στους μονοδιάστατους

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες Χρήσης Το

Διαβάστε περισσότερα

Ενδεικτικές ασκήσεις ΔΙΠ 50

Ενδεικτικές ασκήσεις ΔΙΠ 50 Ενδεικτικές ασκήσεις ΔΙΠ 50 Άσκηση 1 (άσκηση 1 1 ης εργασίας 2009-10) Σε ένα ράφι μιας βιβλιοθήκης τοποθετούνται με τυχαία σειρά 11 διαφορετικά βιβλία τεσσάρων θεματικών ενοτήτων. Πιο συγκεκριμένα, υπάρχουν

Διαβάστε περισσότερα

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται

Διαβάστε περισσότερα

Περιεχόμενο του μαθήματος

Περιεχόμενο του μαθήματος ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Η Αντικειμενοστρεφής Τεχνολογία Δρ Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου Εαρινό Εξάμηνο 202-203 Περιεχόμενο του μαθήματος Η έννοια

Διαβάστε περισσότερα

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΣΤΑΤΙΣΤΙΚΕΣ ΕΚΤΙΜΗΣΕΙΣ Οι συναρτήσεις πιθανότητας ή πυκνότητας πιθανότητας των διαφόρων τυχαίων μεταβλητών χαρακτηρίζονται από κάποιες

Διαβάστε περισσότερα

Προγράμματα Κατάρτισης από την ITMC A.E.

Προγράμματα Κατάρτισης από την ITMC A.E. Ι Τ Μ C Α. Ε. Σ Υ Μ Β Ο Υ Λ Ο Ι Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν INNOVATION, TECHNOLOGY & MAΝAGEMENT CONSULTANTS «Στόχος μας είναι ο μετασχηματισμός των εταιρικών πελατών μας σε δυναμικούς, αποτελεσματικούς και

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες ΕΙΣΑΓΩΓΗ Βασικές έννοιες Σε ένα ερωτηματολόγιο έχουμε ένα σύνολο ερωτήσεων. Μπορούμε να πούμε ότι σε κάθε ερώτηση αντιστοιχεί μία μεταβλητή. Αν θεωρήσουμε μια ερώτηση, τα άτομα δίνουν κάποιες απαντήσεις

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Όπως θα δούμε αργότερα στη Στατιστική Συμπερασματολογία, λέγοντας ότι «από έναν πληθυσμό παίρνουμε ένα τυχαίο δείγμα μεγέθους» εννοούμε ανεξάρτητες τυχαίες μεταβλητές,,..., που

Διαβάστε περισσότερα

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr I ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ i e ΜΕΡΟΣ Ι ΟΡΙΣΜΟΣ - ΒΑΣΙΚΕΣ ΠΡΑΞΕΙΣ Α Ορισμός Ο ορισμός του συνόλου των Μιγαδικών αριθμών (C) βασίζεται στις εξής παραδοχές: Υπάρχει ένας αριθμός i για τον οποίο ισχύει i Το σύνολο

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ Μ. Γρηγοριάδου Ρ. Γόγουλου Ενότητα: Η Διδασκαλία του Προγραμματισμού Περιεχόμενα Παρουσίασης

Διαβάστε περισσότερα

4.3.3 Ο Έλεγχος των Shapiro-Wilk για την Κανονική Κατανομή

4.3.3 Ο Έλεγχος των Shapiro-Wilk για την Κανονική Κατανομή 4.3.3 Ο Έλεγχος των Shapro-Wlk για την Κανονική Κατανομή Ένας άλλος πολύ γνωστός έλεγχος καλής προσαρμογής για την κανονική κατανομή, ο οποίος μπορεί να χρησιμοποιηθεί στην θέση του ελέγχου Lllefors, είναι

Διαβάστε περισσότερα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

5.1. Προσδοκώμενα αποτελέσματα

5.1. Προσδοκώμενα αποτελέσματα 5.1. Προσδοκώμενα αποτελέσματα Όταν θα έχεις ολοκληρώσει τη μελέτη αυτού του κεφαλαίου θα έχεις κατανοήσει τις τεχνικές ανάλυσης των αλγορίθμων, θα μπορείς να μετράς την επίδοση των αλγορίθμων με βάση

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ ΜΟΝΤΕΛΑ ΣΥΣΤΗΜΑΤΟΣ Διδάσκων: Γ. Χαραλαμπίδης, Επ. Καθηγητής

Διαβάστε περισσότερα

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες Πινάκες συνάφειας εξερεύνηση σχέσεων μεταξύ τυχαίων μεταβλητών. Είναι λογικό λοιπόν, στην ανάλυση των κατηγορικών δεδομένων να μας ενδιαφέρει η σχέση μεταξύ δύο ή περισσότερων κατηγορικών μεταβλητών. Έστω

Διαβάστε περισσότερα

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ 1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ Τα δεδομένα που θα επεξεργασθούμε στη διάρκεια του εργαστηρίου παραχωρήθηκαν από την εταιρεία ICAP ειδικά για τις ανάγκες του μαθήματος. Τα δεδομένα αυτά αντλήθηκαν από την

Διαβάστε περισσότερα

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ ΕΝΟΤΗΤΑ 1.1 ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ ΔΙΔΑΚΤΙΚΟI ΣΤOΧΟΙ Στο τέλος της ενότητας αυτής πρέπει να μπορείτε: να επεξηγείτε τις έννοιες «βάση δεδομένων» και «σύστημα διαχείρισης βάσεων δεδομένων» να αναλύετε

Διαβάστε περισσότερα

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0 ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0 Η Θεωρία Πιθανοτήτων είναι ένας σχετικά νέος κλάδος των Μαθηματικών, ο οποίος παρουσιάζει πολλά ιδιαίτερα χαρακτηριστικά στοιχεία. Επειδή η ιδιαιτερότητα

Διαβάστε περισσότερα

1ο ΣΤΑΔΙΟ ΓΕΝΕΣΗ ΜΕΤΑΚΙΝΗΣΕΩΝ

1ο ΣΤΑΔΙΟ ΓΕΝΕΣΗ ΜΕΤΑΚΙΝΗΣΕΩΝ ΠΡΟΒΛΗΜΑ 1ο ΣΤΑΔΙΟ ΓΕΝΕΣΗ ΜΕΤΑΚΙΝΗΣΕΩΝ πόσες μετακινήσεις δημιουργούνται σε και για κάθε κυκλοφοριακή ζώνη; ΟΡΙΣΜΟΙ μετακίνηση μετακίνηση με βάση την κατοικία μετακίνηση με βάση άλλη πέρα της κατοικίας

Διαβάστε περισσότερα

Α2. Να γράψετε στο τετράδιό σας τους αριθμούς της Στήλης Α και δίπλα τα γράμματα της Στήλης Β που τους αντιστοιχούν.

Α2. Να γράψετε στο τετράδιό σας τους αριθμούς της Στήλης Α και δίπλα τα γράμματα της Στήλης Β που τους αντιστοιχούν. ΜΑΘΗΜΑ / ΤΑΞΗ : ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ /Γ ΕΠΑΛ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 03-11-2013 ΘΕΜΑ Α Α1. Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από τις παρακάτω προτάσεις 1-8 και δίπλα τη λέξη Σωστό, αν είναι

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Εισαγωγή Η µάθηση σε

Διαβάστε περισσότερα

Διοίκηση Επιχειρήσεων

Διοίκηση Επιχειρήσεων 10 η Εισήγηση Δημιουργικότητα - Καινοτομία 1 1.Εισαγωγή στη Δημιουργικότητα και την Καινοτομία 2.Δημιουργικό Μάνατζμεντ 3.Καινοτομικό μάνατζμεντ 4.Παραδείγματα δημιουργικότητας και καινοτομίας 2 Δημιουργικότητα

Διαβάστε περισσότερα

ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ B ΤΑΞΗΣ. χρησιμοποιήσουμε καθημερινά φαινόμενα όπως το θερμόμετρο, Θετικοί-Αρνητικοί αριθμοί.

ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ B ΤΑΞΗΣ. χρησιμοποιήσουμε καθημερινά φαινόμενα όπως το θερμόμετρο, Θετικοί-Αρνητικοί αριθμοί. ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ B ΤΑΞΗΣ ΑΛΓΕΒΡΑ (50 Δ. ώρες) Περιεχόμενα Στόχοι Οδηγίες - ενδεικτικές δραστηριότητες Οι μαθητές να είναι ικανοί: Μπορούμε να ΟΙ ΑΚΕΡΑΙΟΙ ΑΡΙΘΜΟΙ χρησιμοποιήσουμε καθημερινά φαινόμενα

Διαβάστε περισσότερα

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της; 1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες (μορφές) της; Η δομή επανάληψης χρησιμοποιείται όταν μια σειρά εντολών πρέπει να εκτελεστεί σε ένα σύνολο περιπτώσεων, που έχουν κάτι

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ασκήσεις και ερωτήσεις

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ασκήσεις και ερωτήσεις ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ασκήσεις και ερωτήσεις 1) Ερωτήσεις Σωστού/Λάθους (ΣΛ) Το πακέτο λογισμικού Excel της Microsoft είναι λογισμικό διαχείρισης ΒΔ (ΣΛ) Το πακέτο λογισμικού Access της Microsoft είναι λογισμικό

Διαβάστε περισσότερα

OptiplanFlex. Χαρακτηριστικά

OptiplanFlex. Χαρακτηριστικά OptiplanFlex Η σειρά OptiplanFlex είναι µια προσεκτική προσέγγιση στις πραγµατικές ανάγκες του επιχειρηµατία και του διοικητικού στελέχους για να επιτυγχάνει τη βέλτιστη λειτουργία. Βασισµένο πάνω σε τεχνολογία

Διαβάστε περισσότερα

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack Χλης Νικόλαος-Κοσμάς Περιγραφή παιχνιδιού Βlackjack: Σκοπός του παιχνιδιού είναι ο παίκτης

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

Εκπαιδευτική Μονάδα 10.2: Εργαλεία χρονοπρογραμματισμού των δραστηριοτήτων.

Εκπαιδευτική Μονάδα 10.2: Εργαλεία χρονοπρογραμματισμού των δραστηριοτήτων. Εκπαιδευτική Μονάδα 10.2: Εργαλεία χρονοπρογραμματισμού των δραστηριοτήτων. Στην προηγούμενη Εκπαιδευτική Μονάδα παρουσιάστηκαν ορισμένα χρήσιμα παραδείγματα διαδεδομένων εργαλείων για τον χρονοπρογραμματισμό

Διαβάστε περισσότερα

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων Τεχνικές Σχεδιασμού Αλγορίθμων Αλγοριθμικές Τεχνικές Παύλος Εφραιμίδης, Λέκτορας http://pericles.ee.duth.gr Ορισμένες γενικές αρχές για τον σχεδιασμό αλγορίθμων είναι: Διαίρει και Βασίλευε (Divide and

Διαβάστε περισσότερα

«ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΣΤΗ ΛΟΓΙΣΤΙΚΗ-ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ

«ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΣΤΗ ΛΟΓΙΣΤΙΚΗ-ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΙΟΙΚΗΣΗ» Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α «ΕΞΟΡΥΞΗ

Διαβάστε περισσότερα

Λειτουργικά. Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Σιώζιος Κων/νος - Πληροφορική Ι

Λειτουργικά. Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Σιώζιος Κων/νος - Πληροφορική Ι Λειτουργικά Συστήματα 1 Λογισμικό του Υπολογιστή Για να λειτουργήσει ένας Η/Υ εκτός από το υλικό του, είναι απαραίτητο και το λογισμικό Το σύνολο των προγραμμάτων που συντονίζουν τις λειτουργίες του υλικού

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

Predicting the Choice of Contraceptive Method using Classification

Predicting the Choice of Contraceptive Method using Classification ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΣΣΑΛΟΝΙΚΗ Predicting the Choice of Contraceptive Method using Classification ΠΑΠΑΔΟΠΟΥΛΟΣ ΧΡΗΣΤΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Νικόλαος Σαμαράς ΕΞΕΤΑΣΤΗΣ:

Διαβάστε περισσότερα

Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους. του Σταύρου Κοκκαλίδη. Μαθηματικού

Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους. του Σταύρου Κοκκαλίδη. Μαθηματικού Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους του Σταύρου Κοκκαλίδη Μαθηματικού Διευθυντή του Γυμνασίου Αρχαγγέλου Ρόδου-Εκπαιδευτή Στα προγράμματα Β Επιπέδου στις ΤΠΕ Ορισμός της έννοιας του σεναρίου.

Διαβάστε περισσότερα

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων Β. Μεγαλοοικονόμου Εισαγωγή στην Εξόρυξη Δεδομένων Γενική Επισκόπηση- Σχεσιακό μοντέλο Σχεσιακό Μοντέλο -SQL Συναρτησιακές εξαρτήσεις & Κανονικοποίηση Φυσικός

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ ΔΕΔΟΜΕΝΑ ΔΕΔΟΜΕΝΑ ΠΛΗΡΟΦΟΡΙΑ ΑΡΙΘΜΟΙ ΣΥΜΒΟΛΑ - ΛΕΞΕΙΣ ΟΠΟΙΑΔΗΠΟΤΕ ΔΡΑΣΤΗΡΙΟΤΗΤΑ ΣΥΜΒΑΙΝΕΙ ΣΕ ΜΙΑ ΟΙΚΟΝΟΜΙΚΗ ΜΟΝΑΔΑ ΠΡΕΠΕΙ ΝΑ ΜΕΤΡΕΙΤΑΙ ΚΑΙ ΝΑ ΚΑΤΑΓΡΑΦΕΤΑΙ ΟΡΓΑΝΩΣΗ ΚΑΤΑΓΡΑΦΗΣ

Διαβάστε περισσότερα

Βασικές έννοιες της Στατιστικής: Πληθυσμός - Δείγμα

Βασικές έννοιες της Στατιστικής: Πληθυσμός - Δείγμα Βασικές έννοιες της Στατιστικής: Πληθυσμός - Δείγμα Στατιστική είναι ο κλάδος των μαθηματικών που εμβαθύνει σε μεθόδους συλλογής δεδομένων, οργάνωσης, παρουσίασης των δεδομένων και εξαγωγής συμπερασμάτων

Διαβάστε περισσότερα

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλονίκης Τμήμα Πληροφορικής Εργαστήριο «Θεωρία Πιθανοτήτων και Στατιστική» ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Περιεχόμενα 1. Συσχέτιση μεταξύ δύο ποσοτικών

Διαβάστε περισσότερα

1. ΓΕΝΙΚΟΙ ΚΑΝΟΝΕΣ ΚΑΙ ΠΡΟΥΠΟΘΕΣΕΙΣ ΛΗΨΗΣ ΠΤΥΧΙΟΥ

1. ΓΕΝΙΚΟΙ ΚΑΝΟΝΕΣ ΚΑΙ ΠΡΟΥΠΟΘΕΣΕΙΣ ΛΗΨΗΣ ΠΤΥΧΙΟΥ 1. ΓΕΝΙΚΟΙ ΚΑΝΟΝΕΣ ΚΑΙ ΠΡΟΥΠΟΘΕΣΕΙΣ ΛΗΨΗΣ ΠΤΥΧΙΟΥ Ισχύει ένα πρόγραμμα σπουδών από τον Οκτώβριο του 2013. Για να πάρει κάποιος πτυχίο από το 2014 κι έπειτα απαιτείται να πληροί όλους τους παρακάτω όρους:

Διαβάστε περισσότερα

Στρατηγική Αξιολόγησης κατά την Υλοποίηση Εκπαιδευτικού Λογισμικού

Στρατηγική Αξιολόγησης κατά την Υλοποίηση Εκπαιδευτικού Λογισμικού Στρατηγική Αξιολόγησης κατά την Υλοποίηση Εκπαιδευτικού Λογισμικού Μαρία Καραβελάκη, Γεώργιος Παπαπαναγιώτου, Γιάννα Κοντού INTE*LEARN Αγν.Στρατιώτη 46, Καλλιθέα τηλ. 95 91 853, fax. 95 72 098, e-mail:

Διαβάστε περισσότερα

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse

Διαβάστε περισσότερα