ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ Διπλωματική Εργασία της Στεργιοπούλου Φωτεινής (ΑΕΜ: 129) Επιβλέποντες Καθηγητές: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ ΚΟΥΣΕΝΙΔΗΣ ΔΗΜΗΤΡΙΟΣ ΘΕΣΣΑΛΟΝΙΚΗ 2007

2

3 Πρόλογος Η παρούσα μελέτη πραγματοποιήθηκε στα πλαίσια εκπόνησης της διπλωματικής εργασίας, με θέμα: «Δημιουργία Μοντέλου Έγκρισης Πιστωτικής Κάρτας από Ιστορικά Δεδομένα» Η εργασία εκπονήθηκε κατά το Ακαδημαϊκό έτος στα πλαίσια του Διατμηματικού Μεταπτυχιακού Προγράμματος Σπουδών «Πληροφορική και Διοίκηση». Στη συγκεκριμένη εργασία επιχειρείται η κατασκευή συστημάτων στήριξης απόφασης τα οποία, χρησιμοποιώντας μοντέλα που προκύπτουν από διάφορους αλγόριθμους εξόρυξης δεδομένων από την επεξεργασία αρχείου με ιστορικά δεδομένα, αξιολογούν την πιστοληπτική ικανότητα των υποψηφίων πελατών κατά την διαδικασία έγκρισης χορήγησης πιστωτικής κάρτας. Σε αυτό το σημείο θα ήθελα να εκφράσω τις θερμές ευχαριστίες μου στον επιβλέποντα Καθηγητή του Τμήματος Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης κ. Ιωάννη Βλαχάβα για την εμπιστοσύνη που μου επέδειξε στην ανάθεση του θέματος, την πολύτιμη καθοδήγησή του κατά τη διάρκεια εκπόνησης της εργασίας, καθώς και για την ευκαιρία που μου έδωσε να ασχοληθώ με το συγκεκριμένο γνωστικό αντικείμενο. Θα ήθελα, επίσης, να ευχαριστήσω τον κ. Δημήτριο Κουσενίδη, Επίκουρο Καθηγητή του Τμήματος Οικονομικών Επιστημών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, για τη συμβολή του κατά τη διάρκεια των μεταπτυχιακών μου σπουδών. Ιδιαίτερα θα ήθελα να ευχαριστήσω τον διδάκτορα του τμήματος Πληροφορικής κ. Φώτη Κόκκορα για την απαράμμιλη και εποικοδομητική συνεργασία μας, την προσφορά των απαιτούμενων στοιχείων καθώς και τις πολύτιμές υποδείξεις του, παράγοντες οι οποίοι συντέλεσαν αποφασιστικά στην άρτια διεκπεραίωση της εργασίας. Στεργιοπούλου Φωτεινή Μάρτιος 2007

4 -ii-

5 Περιεχόμενα ΠΡΟΛΟΓΟΣ... I ΠΕΡΙΕΧΟΜΕΝΑ...III 1 ΕΙΣΑΓΩΓΗ ΟΡΙΟΘΕΤΗΣΗ ΤΗΣ ΠΕΡΙΟΧΗΣ ΜΕΛΕΤΗΣ ΕΠΙΣΚΟΠΗΣΗ ΠΕΡΙΕΧΟΜΕΝΩΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Η ΠΟΡΕΙΑ ΠΡΟΣ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΤΙ ΕΙΝΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Η ΔΙΑΔΙΚΑΣΙΑ ΤΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ (KDD) Η ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΤΑΞΙΝΟΜΗΣΗ ΤΩΝ ΜΕΘΟΔΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΕΠΙΣΚΟΠΗΣΗ ΤΩΝ ΒΑΣΙΚΟΤΕΡΩΝ ΤΕΧΝΙΚΩΝ ΕΔ Κατηγοριοποίηση Παρεμβολή Ομαδοποίηση Κανόνες Συσχέτισης ΣΚΟΠΟΣ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑΣ ΔΕΔΟΜΕΝΩΝ Καθαρισμός Δεδομένων Μετασχηματισμός Δεδομένων ΟΡΙΟΘΕΤΗΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΠΙΣΤΩΤΙΚΕΣ ΚΑΡΤΕΣ Οι Βασικές Κατηγορίες Πιστωτικών Καρτών Η Χαρτογράφηση της Αγοράς Πιστωτικών Καρτών ΠΙΣΤΩΤΙΚΕΣ ΚΑΡΤΕΣ ΚΑΙ ΠΙΣΤΩΤΙΚΟΣ ΚΙΝΔΥΝΟΣ Επισκόπηση Τεχνικών Αξιολόγησης Πελατών ΤΟ ΠΡΟΒΛΗΜΑ ΜΕΛΕΤΗΣ...53

6 4 ΤΟ ΠΡΟΓΡΑΜΜΑ WEKA ΠΛΑΤΦΟΡΜΑ ΕΦΑΡΜΟΓΗΣ WEKA Τα αρχεία στο WEKA Το περιβάλλον Explorer ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΤΑ ΔΕΔΟΜΕΝΑ ΤΟ ΣΥΝΟΛΟ ΔΕΔΟΜΕΝΩΝ Τα Χαρακτηριστικά του Προβλήματος ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΑΛΓΟΡΙΘΜΩΝ Πίνακας Σύγχυσης Ακρίβεια Ορθότητα Ανάκληση Μέτρο F ΕΠΙΛΟΓΉ ΑΛΓΟΡΊΘΜΩΝ Ο αλγόριθμος J O αλγόριθμος JRIP Ο αλγόριθμος ΡΑRT Ο αλγόριθμος ΙΒk Ο αλγόριθμος Naϊve Bayes Ο αλγόριθμος BayesNet Ο αλγόριθμος Multilayer Perceptron Ο αλγόριθμος SMO O αλγόριθμος Simple Logistic ΣΎΓΚΡΙΣΗ ΑΛΓΟΡΊΘΜΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΑΝΑΦΟΡΕΣ iv-

7 1 Εισαγωγή Ζούμε στην εποχή της πληροφορικής επανάστασης, η οποία στηρίζεται στην αποτελεσματική συλλογή, διαχείριση και επεξεργασία πληροφοριών και αποτελεί κρίσιμο παράγοντα για την επιτυχία της επιστημονικής έρευνας, των επιχειρηματικών δράσεων και γενικότερα της κοινωνικής εξέλιξης. Η διαρκής συσσώρευση δεδομένων μέσω καταγραφής συναλλαγών, παρακολούθησης φαινομένων και συλλογής μετρήσεων είναι πλέον ευρύτατα διαδεδομένη. Η ικανότητα συλλογής και αποθήκευσης δεδομένων έχει προ πολλού ξεπεράσει την ικανότητα διαχείρισης και αξιοποίησής τους, με αποτέλεσμα συχνά να εγκαταλείπεται η πιθανότητα αξιοποίησης τους, είτε στα πλαίσια της επιστημονικής έρευνας, είτε στα πλαίσια των επιχειρηματικών δραστηριοτήτων. Προκύπτει, δηλαδή, ότι δεν υπάρχει αντίστοιχη βελτίωση της ικανότητας των ανθρώπων για κατανόηση και αξιοποίηση των αποθηκευμένων πληροφοριών. Οι τεχνικές εξόρυξης δεδομένων (data mining), αξιοποιούν μεθόδους και εργαλεία τα οποία παρέχονται από τις τεχνικές µηχανικής µάθησης (machine learning) και τα οποία αυτοµατοποιούν σύνθετες και χρονοβόρες διαδικασίες επαγωγής γνώσης από δεδοµένα, έτσι ώστε να καθίσταται εφικτή η ανάλυση µεγάλου όγκου δεδοµένων και να συνάγονται χρήσιμα συµπεράσµατα. Στόχος της παρούσας διπλωματικής εργασίας είναι η αντιμετώπιση ενός πραγματικού προβλήματος, συγκεκριµένα της έγκαιρης, επιτυχούς και αξιόπιστης αξιολόγησης των πελατών ενός χρηματοπιστωτικού ιδρύματος κατά τη διαδικασία έγκρισης πιστωτικής κάρτας, εφαρμόζοντας τεχνικές εξόρυξης δεδομένων. Κύριο κριτήριο για την αξιολόγηση των αποτελεσµάτων της λύσης που δίδεται στο πρόβληµα είναι η δυνατότητα επιχειρησιακής αξιοποίησης της γνώσης που προκύπτει. 1.1 Οριοθέτηση της Περιοχής Μελέτης Η αγορά πιστωτικών καρτών, τα τελευταία χρόνια, παρουσιάζει μεγάλη ανάπτυξη στη χώρα μας. Ωστόσο, είναι γεγονός, ότι η πιστωτική κάρτα είναι ένα προϊόν υψηλού κινδύνου, γι αυτό άλλωστε και τα επιτόκια των πιστωτικών καρτών διατηρούνται σε υψη- -1-

8 λά επίπεδα. Αναμενόμενο είναι λοιπόν, από τη στιγμή που οι χρηματοδοτικοί οργανισμοί αποβλέπουν στη μεγιστοποίηση των κερδών τους, να επιδιώκουν τον περιορισμό των επισφαλειών που προέρχονται από τους αφερέγγυους πελάτες. Το σύνολο των πιστωτικών κινδύνων, που περιλαμβάνει τις καθυστερήσεις και τις επισφάλειες εκτιμάται ότι στη χώρα μας φθάνει το 15% περίπου του χαρτοφυλακίου των δανείων των τραπεζών, όταν ο αντίστοιχος ευρωπαϊκός μέσος όρος κινείται στο 10,5%, μέγεθος που περιλαμβάνει και τις απάτες που πραγματοποιούνται μέσω των πιστωτικών καρτών. Στο επίκεντρο του προβληματισμού των τραπεζών έχει τεθεί ο έλεγχος του υψηλού πιστωτικού κινδύνου που συνεπάγεται η διάδοση των πιστωτικών καρτών. Οι υψηλές επισφάλειες που συνεπάγεται η ανάπτυξη της αγοράς της πιστωτικής κάρτας, ανέδειξε και την αδυναμία που υπάρχει στη χώρα μας στο θέμα της αξιολόγησης της πιστωτικής ποιότητας των υποψηφίων πελατών. Η παρούσα διπλωματική εργασία πραγματεύεται την επεξεργασία δεδομένων που αφορούν χαρακτηριστικά πελατών που τους χορηγήθηκε πιστωτική κάρτα, εφαρμόζοντας μεθόδους εξόρυξης γνώσης και τη δημιουργία μοντέλων που να μπορούν να προβλέπουν την πιστοληπτική ικανότητα των υποψηφίων πελατών. Για την επεξεργασία τους και την εξαγωγή πολύτιμης γνώσης από αυτά χρησιμοποιήθηκε το λογισμικό Weka, το οποίο περιέχει υλοποιημένους τους σημαντικότερους αλγορίθμους εξόρυξης γνώσης. 1.2 Επισκόπηση Περιεχομένων Η εργασία, εκτός της Εισαγωγής που αποτελεί και το 1 ο Κεφάλαιο, περιλαμβάνει ακόμα πέντε κεφάλαια και ολοκληρώνεται με το Παράρτημα. Το 2 ο Κεφάλαιο αναφέρεται στον επιστημονικό τομέα της εξόρυξης γνώσης. Παρουσιάζονται συγγενή με αυτή αντικείμενα και περιγράφονται οι κυριότερες τεχνικές ανακάλυψης γνώσης από βάσεις δεδομένων και οι σημαντικότεροι αλγόριθμοι εξόρυξης γνώσης. Πιο συγκεκριμένα, αναλύονται τεχνικές όπως δέντρα απόφασης, Bayesian κατηγοριοποίηση, μάθηση εννοιών, μάθηση κατά περίπτωση, νευρωνικά δίκτυα, μηχανές διανυσμάτων υποστήριξης, κανόνες συσχέτισης, ομαδοποίηση, κτλ. Στο 3 ο Κεφάλαιο δίνονται αρχικά κάποιες γενικές πληροφορίες για την αγορά των πιστωτικών καρτών και στη συνέχεια ακολουθεί η αναλυτική περιγραφή του προβλήματος της εργασίας. -2-

9 Στο 4 ο Κεφάλαιο παρουσιάζεται το λογισμικό Weka που χρησιμοποιήθηκε για την επίλυση του προβλήματος της εργασίας. Περιγράφεται το γραφικό του κομμάτι (GUI) και η παρουσίαση εστιάζεται στο περιβάλλον Explorer του συστήματος, καθώς αυτό χρησιμοποιήθηκε κυρίως κατά την επίλυση του προβλήματος. Στο 5 ο Κεφάλαιο παρουσιάζεται το σύνολο δεδομένων και οι αλγόριθμοι εξόρυξης γνώσης που χρησιμοποιήθηκαν. Συγκεκριμένα, γίνεται μια εκτενή αναφορά στο μέγεθος και στα χαρακτηριστικά των δεδομένων που χρησιμοποιήθηκαν. Έπειτα, παρουσιάζονται οι αλγόριθμοι που χρησιμοποιήθηκαν στο πρόγραμμα Weka και καταγράφονται τα μοντέλα που προέκυψαν σε κάθε περίπτωση, καθώς και η ακρίβειά τους. Το 6 ο Κεφάλαιο περιλαμβάνει τα συμπεράσματα που προέκυψαν μετά την ολοκλήρωση της εργασίας. Καταγράφονται, επίσης, κάποια θέματα που θα μπορούσαν μελλοντικά να αντιμετωπιστούν. Ακολουθούν οι αναφορές στις πηγές που χρησιμοποιήθηκαν για τη συγγραφή της διπλωματικής εργασίας. -3-

10

11 2 Εξόρυξη Δεδομένων Η πρωτοφανής έκρηξη δεδομένων που πυροδοτήθηκε από την ανάπτυξη εργαλείων αυτόματης συλλογής τους και την μείωση του κόστους της μνήμης, έκανε επιτακτική την ανάγκη για επεξεργασία και ερμηνεία του μεγάλου αυτού όγκου δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές, όπως είναι η τεχνητή νοημοσύνη, η στατιστική, οι αποθήκες δεδομένων, η διαδραστική ανάλυση και επεξεργασία δεδομένων, τα έμπειρα συστήματα και η οπτικοποίηση δεδομένων, με αποτέλεσμα να δημιουργηθεί ένας νέος ερευνητικός τομέας, γνωστός ως Εξόρυξη Δεδομένων και Γνώσης (Data and Knowledge Mining). 2.1 Η πορεία προς την Εξόρυξη Δεδομένων Ο βασικότερος λόγος για τον οποίο η εξόρυξη δεδομένων έχει εξελιχθεί σε τεχνολογία αιχμής είναι η διαθεσιμότητα και η πρόσβαση σε τεράστιες ποσότητες δεδομένων, σε συνδυασμό με την επιτακτική ανάγκη τα δεδομένα αυτά να μετατραπούν σε γνώση. Η εξόρυξη δεδομένων μπορεί να θεωρηθεί ως η φυσική εξέλιξη της Τεχνολογίας της Πληροφορίας (Information Technology). Παρακολουθώντας την πορεία της στο χρόνο (Εικόνα 2.1), τη δεκαετία του 60 γίνεται το πρώτο επαναστατικό βήμα με τη συλλογή δεδομένων (data collection), ενώ τη δεκαετία του 70 αναπτύσσεται το πρώτο Σχεσιακό Σχήμα Βάσεων Δεδομένων (RDBMS). Κατά τη δεκαετία του 80 αναπτύσσεται η τεχνολογία της προσπέλασης δεδομένων, με την εφαρμογή του σχεσιακού μοντέλου και την ανάπτυξη σχετικών γλωσσών προγραμματισμού [6]. Σε μικρό χρονικό διάστημα (δεκαετία 90) ακολουθεί και το επόμενο ρηξικέλευθο βήμα στο χώρο της διαχείρισης δεδομένων, η ανάπτυξη των Αποθηκών Δεδομένων (Data Warehouses) και των Συστημάτων Στήριξης Αποφάσεων (Decision Support Systems DSS) [12]. Ωστόσο, παρά τα εντυπωσιακά αποτελέσματα των συστημάτων στήριξης αποφάσεων, κρίνεται αναγκαία η ανάπτυξη μιας νέας γενιάς εργαλείων και τεχνικών για ευφυή ανάλυση βάσεων δεδομένων, έτσι ώστε να επιτευχθεί η επίλυση του πλέον κύριου προβλήματος στις μεγάλες βάσεις δεδομένων, του data-rich but information-poor. Αυτή η αδυναμία της ανθρώπινης αντίληψης να εξάγει συμπεράσματα από τα δεδομένα -5-

12 ενός συστήματος, τα οποία αυξάνονται με ιλιγγιώδεις ρυθμούς, σε συνδυασμό με την ανάγκη ερμηνείας όλων αυτών των δεδομένων, οδήγησε σε αυτό που σήμερα ονομάζουμε Εξόρυξη Δεδομένων (Data Mining). Data Μining (00 s) Data Access (80 s) Data Warehousing & DSS (90 s) Επεξεργασία ανακεφαλαιωτικών & δυναμικών δεδομένων σε πολλαπλά επίπεδα Data Management (70 s) Επεξεργασία ανακεφαλαιωτικών & δυναμικών δεδομένων σε επίπεδο εγγράφων Data Collection (60 s) Δημιουργία DBMS & RDBMS Επεξεργασία στατικών & ανακεφαλαιωτικών δεδομένων Εικόνα 2.1: Η εξέλιξη των τεχνολογιών προς την εξόρυξη δεδομένων 2.2 Τι είναι Εξόρυξη Δεδομένων Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, των μηχανών γνώσης, της στατιστικής, καθώς επίσης και ως μια σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Λογικό είναι, λοιπόν, μέθοδοι παρόμοιες ή παραπλήσιες με την εξόρυξη δεδομένων να ταυτίζονται, λανθασμένα, με αυτήν. Ορισμένες από τις μεθόδους αυτές είναι: Η ανάλυση προτύπων δεδομένων (data/ pattern analysis) Η αρχαιολογία δεδομένων (data archeology) Η συγκομιδή πληροφοριών (information harvesting) Η ευφυΐα συστημάτων επιχειρήσεων (business intelligence). -6-

13 Ο όρος εξόρυξη δεδομένων προέρχεται από τις ομοιότητες που υπάρχουν μεταξύ της αναζήτησης σημαντικής πληροφορίας σε μια μεγάλη βάση δεδομένων και της εξόρυξης σε ένα όρος για κάποιο πολύτιμο μετάλλευμα. Και οι δύο διαδικασίες απαιτούν είτε την εξέταση με προσοχή μια τεράστιας ποσότητας υλικού είτε την ευφυή έρευνά της, προκειμένου να βρεθεί αξία. Η εξόρυξη δεδομένων είναι στενά συνδεδεμένη με την ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases KDD) και πολλές φορές οι ορισμοί των δύο αυτών διαδικασιών ταυτίζονται. Ωστόσο, η KDD αναφέρεται σε ολόκληρη τη διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων. Ένας γενικός ορισμός, που παρουσιάζει με περισσότερη σαφήνεια την έννοια της KDD δόθηκε από τους Fayyad, Piatetsky-Shapiro, & Smyth [13], σύμφωνα με τον οποίο: Η ανακάλυψη γνώσης σε βάσεις δεδομένων είναι η ντετερμινιστική διαδικασία της αναγνώρισης προτύπων σχέσεων μέσα στα δεδομένα μιας βάσης, για τα οποία πρότυπα ισχύει ότι είναι καινούρια, έγκυρα, πιθανώς χρήσιμα και απόλυτα κατανοητά. Με τον όρο πρότυπο εννοούμε ένα μοντέλο το οποίο εφαρμόζεται στα δεδομένα, έτσι ώστε να τους προσδίδει ορισμένα κοινά χαρακτηριστικά. Το εξαγόμενο πρότυπο πρέπει να είναι έγκυρο, δηλαδή συνεπές σε νέα δεδομένα με κάποιον βαθμό βεβαιότητας και κατανοητό, ώστε να μπορεί να οδηγήσει ακόμη και τους μη ειδικούς σε χρήσιμα συμπεράσματα για τη λήψη αποφάσεων. Ο όρος διαδικασία συνεπάγεται ότι η ΚDD αποτελείται από πολλά βήματα, όπως η προ-επεξεργασία των δεδομένων, η έρευνα για πρότυπα και η αξιολόγηση ερμηνεία των αποτελεσμάτων. Η εξόρυξη δεδομένων είναι ένα από τα βήματα της KDD διαδικασίας, η οποία ενδιαφέρεται κυρίως για τις μεθοδολογίες και τις τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από τις μεγάλες αποθήκες δεδομένων. Για να διαφοροποιηθούμε μεταξύ της διαδικασίας και των εργαλείων θα χρησιμοποιήσουμε τον όρο, KDD, για να περιγράψουμε ολόκληρη τη διαδικασία ανάλυσης ε- νός συνόλου δεδομένων, και τον όρο, εξόρυξη δεδομένων, για να αναφερθούμε κυρίως στις μεθόδους και τις τεχνικές που χρησιμοποιούνται στη διαδικασία ανάλυσης. -7-

14 2.3 Η Διαδικασία της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων (KDD) Η ανακάλυψη γνώσης από βάσεις δεδομένων (KDD) είναι μια διαδραστική και επαναληπτική διαδικασία, η οποία περιλαμβάνει τα ακόλουθα βήματα: 1. Την ανάπτυξη και κατανόηση του χώρου της εφαρμογής και την αναγνώριση των στόχων της KDD διαδικασία από την σκοπιά του τελικού χρήστη. 2. Την ολοκλήρωση των δεδομένων. Υπάρχουν διαφορετικά είδη αποθηκών πληροφοριών που μπορούν να χρησιμοποιηθούν στη διαδικασία εξόρυξης γνώσης. Κατά συνέπεια, απαιτείται η εξαγωγή των δεδομένων από αυτές και η οργάνωσή τους σε απλούστερες δομές. 3. Τη δημιουργία του στόχου συνόλου δεδομένων (target data set). Επιλογή του συνόλου δεδομένων στο οποίο θα γίνει η εφαρμογή της εξόρυξης. 4. Τον καθαρισμό και την προ-επεξεργασία των δεδομένων. Σ αυτό το βήμα αντιμετωπίζονται περιπτώσεις, όπως η αφαίρεση του θορύβου ή των outliers, η λήψη αποφάσεων για το χειρισμό πεδίων τα οποία δεν έχουν τιμές κ.λπ. 5. Τον μετασχηματισμό των δεδομένων. Τα δεδομένα μετασχηματίζονται για να διευκολυνθεί η διαδικασία της ανακάλυψης γνώσης. Χρήση των μεθόδων της μείωσης των διαστάσεων των δεδομένων (data reduction), της ομοιόμορφης κωδικοποίησης της ποιοτικά ίδιας πληροφορίας, της εύρεσης κατάλληλης αντιπροσώπευσης των δεδομένων χωρίς μεταβλητές, της μετατροπής συνεχόμενων αριθμητικών τιμών σε διακριτές τιμές (διακριτοποίηση) κλπ. 6. Την επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων. Σ αυτό το στάδιο αποφασίζουμε το στόχο της διαδικασίας ανακάλυψης γνώσης, δηλαδή καθορίζεται τι είδους γνώση θα αναζητηθεί, κάτι που έμμεσα προσδιορίζει και την κατηγορία αλγορίθμων που θα χρησιμοποιηθούν. Τα παράγωγα της διαδικασίας ανακάλυψης γνώσης μπορεί να είναι: Πρότυπα πληροφόρησης (μάθηση χωρίς επίβλεψη), όπου στόχος είναι η ανακάλυψη πιθανών συσχετίσεων ή ομάδων στα δεδομένα. Μοντέλα πρόβλεψης (μάθηση με επίβλεψη), όπου στόχος είναι η μάθηση μιας συνάρτησης που συνδέει ένα σύνολο δεδομένων εισόδου εξόδου. 7. Την εφαρμογή της εξόρυξης δεδομένων. Είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική αναζήτηση της γνώσης στα δεδομένα. -8-

15 8. Την αξιολόγηση των προτύπων. Τα ευρεθέντα πρότυπα αξιολογούνται προκειμένου να προσδιοριστούν τα αληθινά ενδιαφέροντα πρότυπα, δηλαδή αυτά που αντιπροσωπεύουν τη γνώση. Πιθανή επιστροφή σε ένα από τα βήματα 1-7 για περαιτέρω επανάληψη. 9. Την σταθεροποίηση και παρουσίαση της γνώσης. Αυτό μπορεί να σημαίνει είτε επικύρωση/ αναβάθμιση παλιότερα εξαγόμενων συμπερασμάτων, είτε παρουσίαση των συμπερασμάτων αυτών στους άμεσα ενδιαφερόμενους. Η KDD διαδικασία αναπαρίσταται στην Εικόνα 2.2 Εικόνα 2.2: Τα βήματα της διαδικασίας KDD 2.4 Η διαδικασία Εξόρυξης Δεδομένων Η εξόρυξη δεδομένων έχει ως στόχο την εύρεση προτύπων και σχέσεων μεταξύ των δεδομένων. Υπάρχει μια μεγάλη ποικιλία αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς, όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση και οι βάσεις δεδομένων. Δύο συνιστώσες μπορούν να οδηγήσουν σε επιτυχημένα αποτελέσματα εξόρυξης δεδομένων. Από τη μία ο σωστός προσδιορισμός του προβλήματος που θέλουμε να α- ντιμετωπίσουμε και από την άλλη η χρησιμοποίηση των κατάλληλων δεδομένων. Είναι πολύ σημαντικό πριν τη δημιουργία του μοντέλου, να εξεταστούν προσεκτικά τα δεδομένα ώστε να γίνουν κατανοητά [3]. -9-

16 Ο στόχος της εξόρυξης δεδομένων είναι η παραγωγή νέας γνώσης. Πριν ξεκινήσει, λοιπόν, η διαδικασία της εξόρυξης πρέπει να ληφθούν αποφάσεις σχετικά με τα παρακάτω θέματα: Σκοπός για τον οποίο γίνεται η εξόρυξη. Ποιος αλγόριθμος θα επιλεχθεί. Πλατφόρμα εφαρμογής, το εργαλείο δηλαδή που θα χρησιμοποιηθεί για την ε- ξόρυξη των δεδομένων. 2.5 Ταξινόμηση των Μεθόδων Εξόρυξης Δεδομένων Από την παραπάνω ανάλυση μπορεί να γίνει αντιληπτό ότι η εξόρυξη δεδομένων είναι μια διαδικασία πολύπλευρη και σύνθετη, μέρος μιας άλλης επαναληπτικής διαδικασίας, με σκοπό την εξαγωγή γνώσης και συμπερασμάτων. Επιπλέον, είναι ένας διεπιστημονικός τομέας που συνδυάζει τομείς όπως βάσεις δεδομένων, μηχανική μάθηση, στατιστική και ανάκτηση πληροφοριών. Εμπεριέχει, λοιπόν, τεχνολογίες αιχμής χωρίς να τις υποβαθμίζει, αλλά αντιθέτως τις συνδυάζει με διάφορους τρόπους (Εικόνα 2.3) Ανάλογα με τον τρόπο με τον οποίο οι διάφορες τεχνολογίες συμμετέχουν στην ε- ξόρυξη δεδομένων, υλοποιούνται και διαφορετικά συστήματα εξόρυξης δεδομένων. Η κατηγοριοποίηση των συστημάτων εξόρυξης δεδομένων μπορεί να γίνει με βάση τα ακόλουθα κριτήρια [3]: ΣΤΑΤΙΣΤΙΚΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΤΕΧΝΟΛΟΓΙΑ ΠΛΗΡΟΦΟΡΙΑΣ ΟΠΤΙΚΟΠΟΙΗΣΗ ΑΛΛΕΣ ΤΕΧΝΟΛΟΓΙΕΣ Εικόνα 2.3: Οι συγγενείς τεχνολογίες με την Εξόρυξη Δεδομένων Σύμφωνα με το είδος της βάσης δεδομένων που χρησιμοποιείται: Όπως αναφέρθηκε προηγουμένως, είναι δυνατή η εξόρυξη δεδομένων από διάφορους τύπους -10-

17 αποθήκευσης πληροφορίας (π.χ. τα σχεσιακά δεδομένα, τα αντικειμενοστραφή συστήματα βάσεων δεδομένων, οι χωροχρονικές βάσεις δεδομένων, τα συστήματα βάσεων δεδομένων πολυμέσων κ.λπ.). Για παράδειγμα, ένα σύστημα που χρησιμοποιείται για την εξαγωγή γνώσης από αντικειμενοστραφείς βάσεις δεδομένων καλείται αντικειμενοστραφές σύστημα εξόρυξης δεδομένων. Επιπλέον, όλοι οι αλγόριθμοι εξόρυξης δεδομένων δεν είναι εφαρμόσιμοι σε όλους τους τύπους δεδομένων. Σύμφωνα με τον τύπο της γνώσης που εξάγεται: Από ένα σύστημα εξόρυξης δεδομένων μπορούν να προκύψουν είτε πρότυπα πληροφόρησης (informative patterns), όπου περιγράφουν συσχετίσεις μεταξύ των δεδομένων και προκύπτουν με μάθηση χωρίς επίβλεψη, είτε μοντέλα πρόβλεψης (predictive models), όπου προβλέπουν την τιμή μιας μεταβλητής και προκύπτουν με μάθηση με επίβλεψη. Στα πρότυπα πληροφόρησης περιλαμβάνονται οι κανόνες συσχέτισης (association rules), τα ακολουθιακά πρότυπα (sequential patterns) και οι ομάδες (clusters), ενώ στα μοντέλα πρόβλεψης ανήκουν οι κανόνες κατηγοριοποίησης (classification rules), τα δέντρα απόφασης (decision trees), η μάθηση κανόνων (concept learning), η μάθηση με βάση τα παραδείγματα, η μάθηση με βάση την θεωρία του Bayes κλπ. Παράλληλα, ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί ανάλογα με το επίπεδο γενίκευσης της εξορυγμένης γνώσης (γενική, πρώτου επιπέδου ή πολυεπίπεδη γνώση). Σύμφωνα με την τεχνική που θα χρησιμοποιηθεί: Οι τεχνικές μπορούν να περιγραφούν είτε από το βαθμό παρέμβασης του χρήστη (αυτόνομα συστήματα, συστήματα οδηγούμενα από ερωτήματα, διαλογικά συστήματα κ.λπ.) είτε από την μέθοδο ανάλυσης των δεδομένων (συστήματα γενικής εξόρυξης, εξόρυξης βασισμένης στα πρότυπα, OLAP, εξόρυξης βασισμένης στη στατιστική ή στα μαθηματικά, νευρωνικά δίκτυα, κ.λπ.). Σύμφωνα με το πεδίο εφαρμογής της εξόρυξης δεδομένων: Είναι δυνατή η ανάπτυξη συστημάτων εξόρυξης δεδομένων μόνο για συγκεκριμένου τύπου εφαρμογές, όπως για παράδειγμα οικονομικές, χρηματιστηριακές, γενετικές κ.λπ. 2.6 Επισκόπηση των Βασικότερων Τεχνικών ΕΔ Ο σκοπός της KDD διαδικασίας καθορίζεται κατά περίπτωση από τον χρήστη. Γενικά, διακρίνονται δύο είδη σκοπών: α) Επαλήθευση, όπου το σύστημα καλείται να επιβεβαι- -11-

18 ώσει την υπόθεση που έχει κάνει ο χρήστης (DSS) και β) Ανακάλυψη, όπου το σύστημα βρίσκει αυτόνομα νέα πρότυπα (Data Mining). Η Ανακάλυψη μπορεί να χωριστεί σε Πρόβλεψη και σε Περιγραφή. Η Πρόβλεψη στοχεύει στον υπολογισμό της μελλοντικής αξίας ή στην εύρεση μοντέλων με σκοπό την πρόβλεψη της μελλοντικής συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και εξαρτώνται από τη συμπεριφορά άλλων μεταβλητών. Η Περιγραφή στοχεύει στην ανακάλυψη προτύπων με σκοπό την παρουσίαση των δεδομένων μιας πολύπλοκης βάσης δεδομένων σε κάποιο χρήστη σε κατανοητή μορφή. Ένας μεγάλος αριθμός εργαλείων εξόρυξης δεδομένων έχουν αναπτυχθεί για να ι- κανοποιήσουν τις απαιτήσεις διαφορετικών εφαρμογών. Στη συνέχεια παρουσιάζονται οι βασικότερες διεργασίες εξόρυξης δεδομένων Κατηγοριοποίηση H κατηγοριοποίηση (classification) αποτελεί μία από τις σημαντικότερες διεργασίες ε- ξόρυξης δεδομένων. Στόχος είναι η δημιουργία ενός μοντέλου το οποίο θα ταξινομεί ένα νέο αντικείμενο (μη κατηγοριοποιημένο), εξετάζοντας τα χαρακτηριστικά του, σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν αναπαρίστανται από τις εγγραφές της βάσης δεδομένων και η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες. Ο ακριβής ορισμός της κατηγοριοποίησης είναι η διαδικασία εύρεσης κοινών χαρακτηριστικών σε ένα σύνολο οντοτήτων μιας βάσης δεδομένων και, στη συνέχεια, ο διαχωρισμός τους σε κλάσεις σύμφωνα με ένα μοντέλο ομαδοποίησης. Οι βασικές απαιτήσεις για την σωστή εφαρμογή των αλγορίθμων κατηγοριοποίησης είναι: i. Η ύπαρξη ή εξαγωγή ενός καλά ορισμένου συνόλου κλάσεων, και ii. Ένα σύνολο εκπαίδευσης από προ-ταξινομημένα δεδομένα τα οποία θα είναι αντιπροσωπευτικά της απαιτούμενης ταξινόμησης. Πιο συγκεκριμένα, η κατηγοριοποίηση μπορεί να περιγραφεί ως μια διαδικασία δύο βημάτων: 1 ο Βήμα: Mάθηση (Learning): Σε αυτό το βήμα, ένα αντιπροσωπευτικό δείγμα της βάσης δεδομένων, το οποίο καλείται σύνολο εκπαίδευσης (training data), αναλύεται από έναν αλγόριθμο κατηγοριοποίησης για να αναπτυχθεί ένα μοντέλο προκαθορισμένων -12-

19 κλάσεων (ομάδων) χρησιμοποιώντας τα γνωρίσματα τα οποία είναι διαθέσιμα στο σύνολο. Τα στοιχεία αυτού του υποσυνόλου επιλέγονται τυχαία από έναν πληθυσμό δεδομένων και ανήκουν σε μία από τις προκαθορισμένες κατηγορίες. Το μοντέλο που προκύπτει, γνωστό και ως κατηγοριοποιητής (classifier), αναπαρίσταται με τη μορφή κανόνων κατηγοριοποίησης (classification rules) ή δέντρων απόφασης (decision trees) ή μαθηματικών τύπων (mathematical formulas). 2 ο Βήμα: Κατηγοριοποίηση (Classification): Στο δεύτερο βήμα της διαδικασίας χρησιμοποιούνται τα δοκιμαστικά δεδομένα (test data) για να εκτιμηθεί η ακρίβεια του μοντέλου. Υπάρχουν διάφορες μέθοδοι για τον υπολογισμό της ακρίβειας του κατηγοριοποιητή (classifier). Η ακρίβεια του μοντέλου είναι το ποσοστό των δειγμάτων δοκιμής που κατηγοριοποιήθηκαν σωστά από το υπό εκπαίδευση μοντέλο. Εάν η ακρίβεια του μοντέλου θεωρείται αποδεκτή, το μοντέλο μπορεί να χρησιμοποιηθεί για την ταξινόμηση κάθε νέου συνόλου δεδομένων, δηλαδή δεδομένων των οποίων η κατηγοριοποίηση είναι άγνωστη. Οι πιο διαδεδομένες μέθοδοι κατηγοριοποίησης είναι: Η Bayesian κατηγοριοποίηση Τα δέντρα απόφασης Η μάθηση εννοιών Η μάθηση κατά περίπτωση Τα νευρωνικά δίκτυα Οι μηχανές διανυσμάτων υποστήριξης (Support Vector Machines) Bayesian κατηγοριοποίηση Η Bayesian κατηγοριοποίηση προβλέπει τις πιθανότητες μια νέα εγγραφή να ανήκει σε μια από τις προκαθορισμένες κατηγορίες. Όπως είναι προφανές, στηρίζεται στο στατιστικό θεώρημα ταξινόμησης του Bayes, το οποίο υπολογίζει την μεταγενέστερη πιθανότητα ενός γεγονότος δεσμευμένου σε κάποιο άλλο. Πρόκειται για μια προσέγγιση η οποία στηρίζεται στην υπόθεση ότι οι ποσότητες που μας ενδιαφέρουν διέπονται από κατανομές πιθανοτήτων και ότι η εξαγωγή συμπερασμάτων με αυτές τις πιθανότητες σε συνδυασμό με δεδομένα που παρατηρούνται μπορούν να οδηγήσουν στη λήψη βέλτιστων αποφάσεων. Οι απαιτήσεις για την ανάπτυξη και εφαρμογή μιας κατηγοριοποίησης είναι: 1. Η γνώση της πρότερης πιθανότητας (prior probability) p(c i ) για κάθε κλάση c i. -13-

20 2. Η γνώση της συνάρτησης πυκνότητας πιθανότητας υπό συνθήκη για p(x c i ) [0,1]. Με τον τρόπο αυτό είναι δυνατή η εξαγωγή της μεταγενέστερης πιθανότητας q(c i x), χρησιμοποιώντας τον τύπο του Bayes: q(c i x) = p(x c i ) p(c i ) p(x) όπου p(x) είναι η πρότερη πιθανότητα του δείγματος. Κατά τη διάρκεια της ταξινόμησης κατά Bayes, για κάθε νέα περίπτωση υπολογίζεται η πιθανότητα να ανήκει σε μία από τις κλάσεις c 1, c 2,,c n και κατατάσσεται στην κλάση με την υψηλότερη μεταγενέστερη πιθανότητα. Στην κατηγοριοποίηση, κάθε παράδειγμα μπορεί προοδευτικά να αυξήσει ή να μειώσει την πιθανότητα μια υπόθεση να είναι σωστή, γεγονός που παρέχει έναν πιο ευέλικτο τρόπο μάθησης σε σχέση με άλλους αλγορίθμους που διαγράφουν τελείως μια υπόθεση αν δεν είναι συμβατή έστω και με ένα μόνο παράδειγμα. Επιπλέον προϋπάρχουσα γνώση μπορεί να συνδυαστεί με τα δεδομένα εκπαίδευσης με τη μορφή αρχικών τιμών πιθανότητας για τις υπό εξέταση υποθέσεις. Τα μειονεκτήματα της μεθόδου αυτής είναι ότι είναι απαραίτητη η γνώση όλων των πιθανοτήτων των κλάσεων εκ των προτέρων και το ιδιαίτερα μεγάλο υπολογιστικό κόστος. Αν δεν υπάρχει αυτή η γνώση, τότε πρέπει να υπολογιστεί κατ εκτίμηση από παλαιότερα δεδομένα, εμπειρική γνώση, υποθέσεις για τη μορφή της κατανομής αυτών των πιθανοτήτων, κτλ. Μια σημαντική απλουστευμένη εκδοχή της μάθησης κατά Bayes είναι ο απλός ταξινομητής Bayes, γνωστός και ως Naϊve Bayesian κατηγοριοποιητής. Αυτός υποθέτει ότι το αποτέλεσμα της τιμής ενός χαρακτηριστικού για μια συγκεκριμένη κατηγορία είναι ανεξάρτητο από τις τιμές των άλλων χαρακτηριστικών. Αυτή η υπόθεση γίνεται για να απλοποιήσει τους υπολογισμούς που εμπλέκονται και καλείται υπό συνθήκη ανεξαρτησία (class conditional independence) κατηγορίας. Μελέτες έχουν δείξει ότι η απόδοση του Naϊve Bayes είναι συγκρίσιμη με αυτή των δέντρων απόφασης και των νευρωνικών δικτύων. Ένας άλλος Bayesian κατηγοριοποιητής είναι τα Bayesian Belief Νetworks. Είναι γραφικά μοντέλα όπου χρησιμοποιούμενα, αντίθετα με τους Naϊve Bayesian κατηγο- -14-

21 ριοποιητές, επιτρέπουν την παρουσίαση των εξαρτήσεων μεταξύ των υποσυνόλων των χαρακτηριστικών. Δέντρα απόφασης Τα δέντρα απόφασης είναι μία από τις πιο διαδεδομένες μεθόδους ταξινόμησης, γι αυτό και ονομάζονται και δέντρα ταξινόμησης (classification trees), και χρησιμοποιούνται συχνά για την επίλυση προβλημάτων πρόβλεψης. Είναι μία μέθοδος που χρησιμοποιείται για να προσεγγίσει συναρτήσεις στόχους που έχουν σαν έξοδο μόνο διακριτές τιμές. Ένα δέντρο απόφασης επάγεται από ένα σύνολο εκπαίδευσης, που αποτελείται από αντικείμενα. Κάθε αντικείμενο περιγράφεται πλήρως από ένα σύνολο χαρακτηριστικών και από μια ετικέτα κλάσης (class label). Ο στόχος ενός αλγορίθμου αναφορικά με την κατασκευή ενός μοντέλου από ένα σύνολο δεδομένων, είναι η όσο το δυνατόν μεγαλύτερη προσέγγιση της πραγματικής αντιστοίχισης ανάμεσα στο σύνολο των ιδιοτήτων και στην ετικέτα κλάσης. Υπάρχουν δύο βασικά βήματα στην επίλυση ενός προβλήματος ταξινόμησης χρησιμοποιώντας την τεχνική των δέντρων απόφασης [12]: 1. Κατασκευή του δέντρου: Τα δεδομένα εκπαίδευσης χωρίζονται αναδρομικά με βάση κάποιο χαρακτηριστικό τους μέχρις ότου όλα τα στιγμιότυπα μιας ομάδας να ανήκουν στην ίδια κλάση. 2. Για κάθε νέα περίπτωση, εφαρμόζεται το δέντρο απόφασης προκειμένου να οριστεί η κατηγορία στην οποία ανήκει. Τα βασικά χαρακτηριστικά ενός δέντρου απόφασης είναι: Ρίζα: Το γνώρισμα που επιλέγεται ως η βάση, πάνω στην οποία χτίζεται το δέντρο. Εσωτερικός κόμβος: Ένα γνώρισμα το οποίο βρίσκεται στο εσωτερικό του δέντρου. Κλάδος: Μια από τις πιθανές τιμές του γνωρίσματος που βρίσκεται στον κόμβο από τον οποίο ξεκινά ο κλάδος. Φύλλο: Μια από τις καθορισμένες κλάσεις. Επομένως, κάθε κόμβος στο δέντρο ορίζει μια συνθήκη που ελέγχει την τιμή κάποιου χαρακτηριστικού των δεδομένων εκπαίδευσης και κάθε κλαδί που ξεκινά από τον κόμβο αυτό αντιστοιχεί σε μια διαφορετική διακριτή τιμή του συγκεκριμένου χαρακτηριστικού. Η διαδικασία για την κατηγοριοποίηση (πρόβλεψη) μια νέας περίπτωσης με βάση ένα δέντρο απόφασης είναι η ακόλουθη: Ξεκινώντας από τη ρίζα του δέντρου και εξε- -15-

22 τάζοντας τις ιδιότητες που καθορίζονται από τον κόμβο αυτό προσδιορίζονται διαδοχικά οι εσωτερικοί κόμβοι που θα επισκεφτούμε έως ότου καταλήξουμε σε ένα φύλλο. Σε κάθε κόμβο ελέγχεται η τιμή της νέας περίπτωσης για το χαρακτηριστικό του κόμβου. Ο έλεγχος αυτός θα καθορίσει και το κλαδί που θα διασχίσουμε στη συνέχεια καθώς και τον επόμενο κόμβο που θα επισκεφτούμε. Ένα παράδειγμα ταξινομείται λανθασμένα από ένα δέντρο (misclassified), αν η τιμή του φύλλου όπου καταλήγει είναι διαφορετική με την κατηγορία που πραγματικά ανήκει το συγκεκριμένο παράδειγμα. Το ποσοστό των παραδειγμάτων που ταξινομούνται σωστά καλείται ακρίβεια (accuracy), ενώ το ποσοστό των παραδειγμάτων που ταξινομούνται λανθασμένα ονομάζεται σφάλμα (error). Η αναπαράσταση που χρησιμοποιείται από τα δέντρα απόφασης είναι η διάζευξη, η οποία αποτελείται από συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών. Συγκεκριμένα, κάθε μονοπάτι από τη ρίζα προς κάποιο φύλλο αντιστοιχεί σε συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών, ενώ το δέντρο συνολικά εκφράζει τη διάζευξη αυτών των συζεύξεων, αφού αποτελείται από όλα τα εναλλακτικά μονοπάτια [1]. Συγκριτικά με τις υπόλοιπες τεχνικές εξόρυξης δεδομένων, τα δέντρα απόφασης παρουσιάζουν αρκετά πλεονεκτήματα. Πιο συγκεκριμένα, τα δέντρα απόφασης [32]: Είναι εύκολα στην κατανόηση και στην ερμηνεία. Μπορούν να χρησιμοποιηθούν εύκολα και αποτελεσματικά. Η αναγνωσιμότητα τους μπορεί να βελτιωθεί αν αναπαρασταθούν ως σύνολα κανόνων if-then που αποκαλούνται κανόνες κατηγοριοποίησης (classification rules). Μπορούν να χρησιμοποιηθούν με επιτυχία σε μεγάλες βάσεις δεδομένων και αυτό επειδή το μέγεθος της βάσης δεδομένων είναι ανεξάρτητο από το μέγεθος του δέντρου. Το μοντέλο που προκύπτει με βάση το δέντρο απόφασης μπορεί εύκολα να αξιολογηθεί με τη βοήθεια στατιστικών ελέγχων. Συνεπώς, μπορούμε εύκολα να εκτιμήσουμε την ακρίβεια του μοντέλου. Παρουσιάζουν ευρωστία και αρκετά μεγάλη ακρίβεια κατηγοριοποίησης ακόμη και σε μεγάλες βάσεις δεδομένων. Από την άλλη πλευρά, οι αλγόριθμοι μάθησης δέντρων απόφασης παρουσιάζουν και μειονεκτήματα. Κατ αρχάς, ορισμένοι αλγόριθμοι δεν μπορούν να χειριστούν σε ικανοποιητικό βαθμό δεδομένα με συνεχείς τιμές και συνεπώς απαιτείται διακριτοποίη- -16-

23 ση, δηλαδή ο μετασχηματισμός τους σ ένα πεπερασμένο σύνολο διακριτών κατηγοριών. Ωστόσο, η εφαρμογή της παραπάνω πρακτικής εισάγει υποκειμενικότητα που ε- πηρεάζει την τελική μορφή του δέντρου, καθώς υπάρχουν αρκετοί τρόποι με τους οποίους μπορεί να οριστούν οι κατηγορίες. Επιπρόσθετα, ο χειρισμός πεδίων με κενές τιμές είναι δύσκολος, καθώς σωστά κλαδιά στο δέντρο μπορεί να μην ακολουθηθούν. Παράλληλα, υπάρχει ο κίνδυνος της υπερμοντελοποίησης (overfitting) ως απόρροια της κατασκευής του δέντρου με βάση τα δεδομένα εκπαίδευσης. O κίνδυνος αυτός, όμως, μπορεί να περιοριστεί σε μεγάλο βαθμό ή ακόμη και να υπερκεραστεί με κλάδεμα (pruning) του δέντρου. Η φάση του κλαδέματος αφαιρεί κάποιες περιττές συγκρίσεις ή διαγράφει κάποια υποδέντρα με στόχο την επίτευξη καλύτερης απόδοσης. Τέλος, δεν λαμβάνονται υπόψη ενδεχόμενες συσχετίσεις μεταξύ των χαρακτηριστικών. Οι βασικοί παράγοντες που επηρεάζουν την απόδοση των αλγορίθμων μάθησης δέντρων απόφασης είναι το μέγεθος του συνόλου εκπαίδευσης και ο τρόπος επιλογής του καλύτερου χαρακτηριστικού για διαχωρισμό (best splitting attribute). Αναφορικά με το μέγεθος του συνόλου εκπαίδευσης, αν αυτό είναι πολύ μικρό, τότε το εξαγόμενο δέντρο ίσως να μη μπορεί να εφαρμοστεί σε γενικά δεδομένα. Αντιθέτως, αν είναι πολύ μεγάλο, ελλοχεύει ο κίνδυνος της υπερμοντελοποίησης. Γι αυτό κρίνεται πρωταρχικής σημασίας ο καθορισμός τόσο του κριτηρίου βάσει του οποίου θα σταματά η ανάπτυξη του δέντρου, όσο και του τρόπου με τον οποίο θα πραγματώνεται η τεχνική του κλαδέματος. Επιπλέον, σημαντικά θέματα θεωρούνται η επιλογή των χαρακτηριστικών που θα χρησιμοποιηθούν για το διαχωρισμό, αφού κάποια χαρακτηριστικά είναι καλύτερα από κάποια άλλα, η σειρά με την οποία θα επιλεγούν αυτά τα χαρακτηριστικά, ο αριθμός των διασπάσεων (splits) που θα χρησιμοποιηθούν, καθώς και η δομή του δέντρου (τα μικρότερα σε βάθος δέντρα συνήθως προτιμώνται έναντι των μεγάλων δέντρων). Υπάρχουν διάφοροι τρόποι κατασκευής δέντρων απόφασης, οι οποίοι χρησιμοποιούν διαφορετικούς αλγόριθμους επιλογής του κριτηρίου διαχωρισμού του συνόλου των δεδομένων. Οι δημοφιλέστεροι από αυτούς είναι [3]: Ο ID3 και ο C4.5: Αλγόριθμοι κέρδους πληροφορίας. Ο DBLearn: Αλγόριθμος ο οποίος δημιουργεί περιγραφές προκαθορισμένων υποσυνόλων μιας σχεσιακής βάσης δεδομένων χρησιμοποιώντας γνώση του πεδίου ορισμού της εκάστοτε εφαρμογής. -17-

24 -18- CLS: Αλγόριθμος ο οποίος εξετάζει όλα τα πιθανά δέντρα αποφάσεων μέχρι ε- νός συγκεκριμένου βάθους. Τελικά, επιλέγει αυτό το οποίο ελαχιστοποιεί το υ- πολογιστικό κόστος της ταξινόμησης ενός στοιχείου. Οι SLIQ και SPRINT: Αλγόριθμοι που επιλέγουν το χαρακτηριστικό που θα ε- λεγχθεί με βάση το δείκτη GINI και όχι το μέτρο εντροπίας. Το καλύτερο χαρακτηριστικό είναι αυτό που δίνει τη χαμηλότερη τιμή για το δείκτη GINI. Ο Αλγόριθμος ID3 Ο ID3 αναπτύχθηκε από τον J. Ross Quinlan στο Πανεπιστήμιο του Sydney και παρουσιάστηκε για πρώτη φορά στο βιβλίο του Machine Learning το Υπήρξε ο κυριότερος εκπρόσωπος των δέντρων απόφασης που η κατασκευή τους ξεκινά από την κορυφή προς τα κάτω(top Down Induction of Decision Trees TDIDT) μέχρι την έ- λευση του C4.5. Ήταν ο πρώτος αλγόριθμος που χρησιμοποίησε για κριτήριο διαχωρισμού (split criterion) το Κέρδος Πληροφορίας (Information Gain). Ο αλγόριθμος εφαρμόζεται μόνο σε κατηγορικά δεδομένα και στη γενική του μορφή περιγράφεται ως εξής [1]: 1. Εύρεση του χαρακτηριστικού το οποίο αν χρησιμοποιηθεί ως κριτήριο διαχωρισμού των δεδομένων εκπαίδευσης θα οδηγήσει σε όσο το δυνατόν πιο διαφορετικούς μεταξύ τους κόμβους σε σχέση με την εξαρτημένη μεταβλητή. 2. Πραγματοποίηση του διαχωρισμού. 3. Επανάληψη της διαδικασίας διαχωρισμού στους κόμβους που προέκυψαν έως ότου να μην είναι δυνατός περαιτέρω διαχωρισμός. Ο ID3 είναι αναδρομικός και κατασκευάζει το δέντρο άπληστα από πάνω προς τα κάτω ξεκινώντας με την επιλογή του πιο κατάλληλου χαρακτηριστικού για έλεγχο στη ρίζα. Η επιλογή αυτή στηρίζεται σε κάποιο στατιστικό μέτρο που υπολογίζεται από τα δεδομένα. Στη συνέχεια, για κάθε δυνατή τιμή του χαρακτηριστικού δημιουργούνται οι αντίστοιχοι απόγονοι της ρίζας και τα δεδομένα μοιράζονται στους νέους κόμβους ανάλογα με την τιμή που έχουν για το χαρακτηριστικό που ελέγχεται στη ρίζα. Η παραπάνω διαδικασία επαναλαμβάνεται για κάθε νέο κόμβο. Η επιλογή, όμως, του πιο κατάλληλου χαρακτηριστικό σε νέο κόμβο βασίζεται μόνο στα δεδομένα που ανήκουν σε αυτόν τον κόμβο. Η όλη διαδικασία περατώνει όταν οι κόμβοι γίνουν τερματικοί (ή φύλλα). Ένας κόμβος γίνεται φύλλο όταν όλα τα δεδομένα που ανήκουν σε αυτόν εντάσσονται στην ίδια κατηγορία. Οπότε, η κατηγορία αυτή γίνεται και η τιμή του φύλλου και ο κόμβος ονομάζεται αμιγής κόμβος (pure node). Επιπλέον, αν σε κά-

25 ποιο βάθος του δέντρου τελειώσουν τα χαρακτηριστικά προς έλεγχο, τότε ο κόμβος γίνεται τερματικός και λαμβάνει για τιμή την κατηγορία στην οποία ανήκει η πλειοψηφία των δεδομένων του κόμβου αυτού. Για την επιλογή του καταλληλότερου χαρακτηριστικού ως κόμβου χρησιμοποιείται το στατιστικό μέτρο, το Κέρδος Πληροφορίας. Το κέρδος πληροφορίας μετρά τη μείωση της εντροπίας που θα προκληθεί αν τα δείγματα ενός συνόλου χωριστούν σε ομάδες, με βάση κάποιο χαρακτηριστικό τους. Βασίζεται, λοιπόν, στην ποσότητα της Εντροπίας (Entropy), η οποία αναφέρεται στην ανομοιογένεια μιας συλλογής αντικειμένων. Όταν μειώνεται η πληροφοριακή εντροπία, αυξάνεται η πυκνότητα πληροφορίας και άρα η περιγραφή γίνεται περισσότερο συμπαγής. Έστω S ένα σύνολο που περιέχει θετικά και αρνητικά δείγματα δεδομένων που α- φορούν μια έννοια στόχο. Αν ρ + είναι το ποσοστό των θετικών και ρ - των αρνητικών παραδειγμάτων στο σύνολο S, τότε η εντροπία του συνόλου Ε(S) είναι: Ε(S) = - ρ + log 2 (p + ) - ρ - log 2 (p - ) Στην περίπτωση όπου ρ i το ποσοστό των παραδειγμάτων του S που ανήκουν στην κατηγορία i, η γενική σχέση υπολογισμού της εντροπίας για c διαφορετικές κατηγορίες είναι: Εάν Α ένα χαρακτηριστικό με σύνολο τιμών V(Α), τότε το κέρδος πληροφορίας σε σχέση με αυτό το χαρακτηριστικό είναι: E(S) είναι η εντροπία πληροφορίας του υπό εξέταση κόμβου, ενώ ο όρος αθροίσματος Σ είναι η εντροπία των παραδειγμάτων μετά το διαχωρισμό τους ανάλογα με την τιμή του χαρακτηριστικού Α και αποτελείται από το άθροισμα της εντροπίας για το κάθε σύνολο που προκύπτει μετά το διαχωρισμό, όπου u είναι μια από τις δυνατές τιμές του Α, Su είναι το πλήθος των εγγραφών με Α=u και Ε(Su) η εντροπία πληροφορίας του υπό εξέταση κόμβου ως προς την τιμή. Κατά την κατασκευή του δέντρου, ως ρίζα του δέντρου επιλέγεται το χαρακτηριστικό με το μέγιστο κέρδος πληροφορίας συνολικά, ενώ ως κόμβος επιλέγεται το χαρα- -19-

26 κτηριστικό που παρουσιάζει το μέγιστο κέρδος πληροφορίας στο τρέχον σημείο κατασκευής. Η στρατηγική αναζήτησης που ακολουθεί ο αλγόριθμος ID3 είναι η αναρρίχηση λόφων (hill climbing) και κατευθύνεται με βάση το κέρδος πληροφορίας. Ο ΙD3 κάνει αναζήτηση σε έναν χώρο υποθέσεων που απαρτίζεται από όλα τα πιθανά δέντρα αποφάσεων. Οπότε, δεν διατρέχει τον κίνδυνο να μην υπάρχει η έννοια στόχος στον χώρο αυτό και σε κάθε βήμα της αναζήτησης χρησιμοποιεί όλα τα δεδομένα εκπαίδευσης για να υπολογίσει το κέρδος πληροφορίας για τα εναλλακτικά χαρακτηριστικά. Από την άλλη πλευρά, ο ID3 διατηρεί μόνο μια συμβατή υπόθεση με τα δεδομένα κατά την αναζήτηση και επομένως, δεν είναι σε θέση να βρει όλα τα δέντρα που είναι συμβατά με τα δεδομένα. Επιπλέον, δεν έχει τη δυνατότητα οπισθοδρόμησης (backtracking) κατά τη διάρκεια της αναζήτησης. Από τη στιγμή που επιλέξει ένα χαρακτηριστικό για έλεγχο σε κάποιο κόμβο, δεν μπορεί να επιστρέψει για να αλλάξει την επιλογή αυτή. Αυτό σημαίνει ότι διατρέχει τον κίνδυνο να βρει τοπικά βέλτιστα δέντρα. Για την καλύτερη κατανόηση των παραπάνω, ακολουθεί ένα παράδειγμα του αλγορίθμου ID3. Το παράδειγμα αναφέρεται στη διεξαγωγή ενός αγώνα golf και ο Πίνακας 2.1 συνοψίζει κάποια ενδεικτικά δεδομένα. Για την επιλογή της ρίζας υπολογίζουμε το κέρδος για κάθε ένα από τα χαρακτηριστικά του συνόλου (καιρός, θερμοκρασία, υγρασία, άνεμος). Πίνακας 2.1: Δεδομένα εφαρμογής του ID3 αλγόριθμου Καιρός Θερμοκρασία Υγρασία Άνεμος Play_golf Ηλιοφάνεια Υψηλή Υψηλή Ασθενής Όχι Ηλιοφάνεια Υψηλή Υψηλή Ισχυρός Όχι Συννεφιά Υψηλή Υψηλή Ασθενής Ναι Βροχή Κανονική Υψηλή Ασθενής Ναι Βροχή Χαμηλή Κανονική Ασθενής Ναι Βροχή Χαμηλή Κανονική Ισχυρός Όχι Συννεφιά Χαμηλή Κανονική Ισχυρός Ναι Ηλιοφάνεια Κανονική Υψηλή Ασθενής Όχι Ηλιοφάνεια Χαμηλή Κανονική Ασθενής Ναι Βροχή Κανονική Κανονική Ασθενής Ναι Ηλιοφάνεια Κανονική Κανονική Ισχυρός Ναι Συννεφιά Κανονική Υψηλή Ισχυρός Ναι Συννεφιά Υψηλή Κανονική Ασθενής Ναι Βροχή Κανονική Υψηλή Ισχυρός Όχι Οπότε έχουμε: -20-

27 Gain (S, καιρός) = 0,246 Gain (S, θερμοκρασία) = 0,029 Gain (S, υγρασία) = 0,151 Gain (S, άνεμος) = 0,048 Το χαρακτηριστικό καιρός έχει το μεγαλύτερο κέρδος πληροφορίας. Οπότε, είναι το χαρακτηριστικό που ορίζεται ως ρίζα του δέντρου (Εικόνα 2.4). Κλαδιά είναι οι τιμές του χαρακτηριστικού αυτού. Εικόνα 2.4: Επιλογή ρίζας Το επόμενο βήμα είναι η επιλογή του επόμενου κόμβου. Για κάθε μία από τις τιμές τις ρίζας και καθένα από τα υπόλοιπα χαρακτηριστικά ακολουθούμε την ίδια διαδικασία, με αποτέλεσμα το τελικό δέντρο απόφασης που φαίνεται στην Εικόνα 2.5. Εικόνα 2.5: Η γραφική αναπαράσταση του δέντρου απόφασης. -21-

28 Οι Αλγόριθμοι C4.5 και C5.0 Ο αλγόριθμος C4.5 αποτελεί επέκταση του ΙD3 και επιτυγχάνει καλύτερη διαχείριση κενών πεδίων και αριθμητικών δεδομένων, καλύτερο κλάδεμα των δέντρων και αποτελεσματικότερη εξαγωγή κανόνων. Πιο συγκεκριμένα, ο αλγόριθμος C4.5 βελτιώνει τον αλγόριθμο ID3 ως εξής: Ελλιπή δεδομένα: Κατά τη κατασκευή του δέντρου απόφασης, ο αλγόριθμος αγνοεί τα ελλιπή δεδομένα. Αυτό σημαίνει ότι το κέρδος υπολογίζεται λαμβάνοντας υπόψη μόνο τις εγγραφές που έχουν τιμή. Επίσης, κατά την κατηγοριοποίηση ενός παράδειγμα με ελλιπή τιμή σε ένα χαρακτηριστικό, γίνεται πρόβλεψη αυτής της τιμής με βάση τις τιμές των υπολοίπων παραδειγμάτων για το συγκεκριμένο χαρακτηριστικό. Συνεχή δεδομένα: Τα χαρακτηριστικά που λαμβάνουν συνεχείς τιμές, χωρίζονται σε διαστήματα. Κλάδεμα: Υπάρχουν δύο σημαντικές στρατηγικές κλαδέματος στον C4.5: Αντικατάσταση του υποδέντρου (subtree replacement): Ένα υποδέντρο αντικαθίσταται από ένα φύλλο αν αυτή η αντικατάσταση έχει ως αποτέλεσμα σφάλμα κοντά σε αυτό του αρχικού υποδέντρου. Η τεχνική αυτή εφαρμόζεται ξεκινώντας από τα φύλλα και ανεβαίνοντας προς τη ρίζα. Ανύψωση υποδέντρου (subtree raising): Αντικαθιστά ένα υποδέντρο με το περισσότερο χρησιμοποιούμενο υποδέντρό του. Έτσι, ένα υποδέντρο ανυψώνεται αφού αντικαθιστά ένα υπδέντρο που βρίσκεται σε ψηλότερο επίπεδο. Και σε αυτή την περίπτωση πρέπει να λάβουμε υπόψη την αύξηση στη συχνότητα λαθών. Κανόνες: Ο C4.5 επιτρέπει την κατηγοριοποίηση είτε μέσω δέντρων απόφασης είτε μέσω κανόνων που δημιουργούνται από αυτό. Επίσης, προτείνονται κάποιες τεχνικές που απλουστεύουν τους πολύπλοκους κανόνες. Διάσπαση: Ο ID3 προτιμά τα χαρακτηριστικά με πολλές διαιρέσεις. Ωστόσο, αυτό μπορεί να οδηγήσει σε υπερπροσαρμογή. Μια οριακή περίπτωση είναι να έχουμε ένα χαρακτηριστικό που έχει μια μοναδική τιμή για κάθε παράδειγμα. Το χαρακτηριστικό αυτό θα είναι το καλύτερο αφού θα υπήρχε μόνο μία κατηγορία για κάθε διαίρεση. Μια βελτίωση θα μπορούσε να γίνει αν λάβουμε υπόψη την πληθικότητα της κάθε διαίρεσης. Αυτή η προσέγγιση χρησιμοποιεί τον Λόγο Κέρδους (Gain Ratio) αντί του Κέρδους Πληροφορίας. Ο λόγος κέρδους βασίζεται στο χαρακτηριστικό Πληροφορία -22-

29 Διαχωρισμού (Split Information), το οποίο είναι ευαίσθητο στο εύρος και την ομοιομορφία διαχωρισμού των δεδομένων από ένα χαρακτηριστικό. Ο C5.0 είναι μια εμπορική έκδοση του C4.5 που χρησιμοποιείται πολύ συχνά στα πακέτα λογισμικού εξόρυξης δεδομένων. Χρησιμοποιείται κυρίως για μεγάλα σύνολα δεδομένων. Η φάση της επαγωγής είναι όμοια με αυτή του C4.5, αλλά η δημιουργία κανόνων είναι διαφορετική. Τα αποτελέσματα που έχουν δημοσιευτεί αποδεικνύουν ότι ο C5.0 βελτιώνει τη χρήση της μνήμης κατά 90%, τρέχει πολύ πιο γρήγορα από τον C4.5 (μπορεί να τρέξει από 5,7 μέχρι και 240 φορές πιο γρήγορα) και παράγει πιο ακριβείς κανόνες. Μια πολύ σημαντική βελτίωση στην ακρίβεια του C5.0 βασίζεται στην ενίσχυση (boosting), η οποία είναι μια τεχνική που συνδυάζει διάφορους κατηγοριοποιητές. Μάθηση εννοιών Με τον όρο έννοια εννοούμε ένα υποσύνολο αντικειμένων, τα οποία ορίζονται σε σχέση με ένα μεγαλύτερο σύνολο. Εναλλακτικά, μπορούμε να θεωρήσουμε ότι η έννοια είναι μια συνάρτηση που επιστρέφει λογική τιμή: αληθή για τα αντικείμενα ενός συνόλου που ανήκουν σε αυτή και ψευδή για όλα τα άλλα. Το σύστημα, λοιπόν, τροφοδοτείται με παραδείγματα που ανήκουν (θετικά παραδείγματα) ή δεν ανήκουν (αρνητικά παραδείγματα) σε κάποια έννοια/ κατηγορία. Στη συνέχεια μοντελοποιεί κάποια γενικευμένη περιγραφή της, ώστε να μπορεί να διακρίνει αν μια νέα περίπτωση εντάσσεται σε αυτήν την έννοια [1]. Για παράδειγμα, ένα πρόβλημα θα μπορούσε να είναι ο προσδιορισμός της έννοιας «καλός πελάτης» για τη χορήγηση πιστωτικής κάρτας. Τροφοδοτώντας το σύστημα με διάφορα χαρακτηριστικά καλών και κακών πελατών, ζητείται η δημιουργία ενός μοντέλου που θα επιτρέπει την πρόβλεψη σχετικά με ένα νέο πελάτη. Ο πιο διαδεδομένος αλγόριθμος μάθησης εννοιών είναι ο αλγόριθμος απαλοιφής υ- ποψηφίων. Ο αλγόριθμος απαλοιφής υποψηφίων Ο αλγόριθμος απαλοιφής υποψηφίων (candidate elimination algorithm) περιορίζει το χώρο αναζήτησης κάνοντας γενικεύσεις και εξειδικεύσεις σε κάποιες αρχικές υποθέσεις (έννοιες) με βάση τα δεδομένα εκπαίδευσης. Χρησιμοποιεί δύο σύνολα [1]: G: είναι το σύνολο των πιο γενικών υποψήφιων υποθέσεων (Σύνορο G) S: είναι το σύνολο των πιο ειδικών υποψήφιων υποθέσεων (Σύνορο S) -23-

30 Ο αλγόριθμος απαλοιφής υποψηφίων χρησιμοποιεί και τα θετικά και τα αρνητικά παραδείγματα: επεκτείνει το S με βάση τα θετικά παραδείγματα κάνοντας γενικεύσεις και περιορίζει το G με βάση τα αρνητικά παραδείγματα κάνοντας εξειδικεύσεις έως ότου εξαντληθούν τα στοιχεία των δύο αυτών συνόλων. Όταν εξετάσει όλα τα παραδείγματα τότε τα σύνολα S και G περιέχουν όλες τις υποθέσεις που ταξινομούν σωστά τα παραδείγματα. Μια σχηματική περιγραφή του αλγόριθμου δίνεται στην Εικόνα 2.6. Τα σύνολα G και S διαχωρίζουν το χώρο των εννοιών σε περιοχές με θετικά, αρνητικά και απροσδιόριστης φύσης παραδείγματα. Κατά την εκπαίδευση το Σύνορο S επεκτείνεται, ενώ το Σύνορο G συρρικνώνεται μέχρις ότου εξαντληθούν τα παραδείγματα. Εικόνα 2.6: Σχηματική περιγραφή του αλγόριθμου απαλοιφής υποψηφίων Μάθηση κατά περίπτωση Στη μάθηση κατά περίπτωση (instance-based learning IBL) τα δεδομένα εκπαίδευσης αποθηκεύονται αυτούσια. Όταν μια νέα περίπτωση πρέπει να ταξινομηθεί, εξετάζεται η σχέση της με τα ήδη αποθηκευμένα παραδείγματα. Η μέθοδος αυτή αναβάλλει τη μάθηση μέχρι τη στιγμή που θα εμφανιστεί ένα νέο στιγμιότυπο για ταξινόμηση. Για το λόγο αυτό οι αλγόριθμοι της κατηγορίας αυτής λέγονται και αναβλητικοί (lazy learners). Οι πιο γνωστοί αλγόριθμοι αυτής της κατηγορίας είναι: Κοντινότερου γείτονα (Nearest Neighbor, NN) k- κοντινότερου γείτονα (k-nearest Neighbor, knn) Κοντινότερου γείτονα σταθμισμένης απόστασης (Distance Weighted Nearest Neighbor) Τοπικά σταθμισμένη παλινδρόμηση (Locally Weighted Regression, LWR) Συνάρτηση ακτινωτής βάσης (Radial Basis Function, RBF) -24-

31 Συλλογιστική βασισμένη σε παραδείγματα (Case Based Reasoning, CBR) Στις μεθόδους IBL το κόστος για την ταξινόμηση ενός νέου στιγμιότυπου είναι ι- διαίτερα υψηλό καθώς οι περισσότεροι υπολογισμοί πραγματοποιούνται τη στιγμή της ταξινόμησης και όχι τη στιγμή της εισαγωγής των παραδειγμάτων εκπαίδευσης. Όταν εισάγεται ένα νέο στιγμιότυπο, ελέγχεται η σχέση του με τα ήδη αποθηκευμένα παραδείγματα προκειμένου να υπολογιστεί η τιμή της συνάρτησης στόχος για το παράδειγμα αυτό. Στη χειρότερη περίπτωση, μπορεί να ελεγχθούν όλα τα παραδείγματα εκπαίδευσης. Επιπλέον, οι μέθοδοι IBL και κυρίως οι αλγόριθμοι του κοντινότερου γείτονα λαμβάνουν υπ όψη όλα τα χαρακτηριστικά των στιγμιότυπων. Έτσι, σε περίπτωση που η εξαρτημένη μεταβλητή εξαρτάται μόνο από λίγα από αυτά, υπάρχει η πιθανότητα κάποια κοντινά παραδείγματα να θεωρηθούν μακρινά [1]. Ο αλγόριθμος των k-κοντινότερων γειτόνων Τα στιγμιότυπα θεωρούνται σημεία στο n-διάστατο χώρο R n, όπου n ο αριθμός των χαρακτηριστικών (ανεξάρτητων μεταβλητών). Κάθε νέα περίπτωση τοποθετείται στο χώρο ως νέο σημείο και η τιμή του προσδιορίζεται με βάση την τιμή των k γειτονικών σημείων. Οι κοντινότεροι γείτονες ενός σημείου υπολογίζονται με βάση την Ευκλείδεια απόσταση. Έστω ένα τυχαίο στιγμιότυπο x, το οποίο περιγράφεται από ένα σύνολο χαρακτηριστικών [a 1 (x), a 2 (x),., a n (x)], όπου το a r (x) είναι το r χαρακτηριστικό του στιγμιότυπου x. Η απόσταση μια νέας περίπτωσης x που περιγράφεται από το σύνολο χαρακτηριστικών [a 1 (x ), a 2 (x ),., a n (x )]από το στιγμιότυπο x δίνεται από τον τύπο: Η τιμή της νέας περίπτωσης προκύπτει λαμβάνοντας υπόψη τις τιμές των κοντινότερων γειτόνων, βάση της απόστασης που προκύπτει από τον προηγούμενο τύπο. -25-

32 Εικόνα 2.7: Προσδιορισμός κατηγορίας με βάση τους κοντινότερους γείτονες Στην Εικόνα 2.7, όπου υπάρχουν παραδείγματα δύο κατηγοριών, η νέα περίπτωση x χαρακτηρίζεται ως θετική, αν ληφθεί υπ όψη μόνο ο κοντινότερος γείτονας (1- Nearest Neighbor) και ως αρνητική αν ληφθούν υπ όψη οι πέντε κοντινότεροι γείτονες (5-Nearest Neighbors) καθώς η πλειοψηφία αυτών έχει αρνητικό χαρακτηρισμό. Νευρωνικά δίκτυα Τα νευρωνικά δίκτυα είναι μη γραμμικά μοντέλα πρόβλεψης τα οποία μαθαίνουν μέσα από παραδείγματα. Μοντελοποιούνται σύμφωνα με τον τρόπο που λειτουργεί ο ανθρώπινος εγκέφαλος και αποτελούνται από πολλά συνδεδεμένα τμήματα επεξεργασίας. Παρέχουν ένα πρακτικό και εύκολο τρόπο για την εκμάθηση αριθμητικών και διανυσματικών συναρτήσεων με συνεχή ή διακριτά μεγέθη. Χρησιμοποιούνται τόσο για κατηγοριοποίηση όσο και για παρεμβολή [1]. Ένα νευρωνικό δίκτυο είναι είναι δομημένο σαν ένας κατευθυνόμενος γράφος με πολλούς κόμβους (nodes, τμήματα επεξεργασίας) και βέλη (arcs, διασυνδέσεις) ανάμεσα στους κόμβους. Κάθε κόμβος του γράφου είναι σαν ανεξάρτητοι νευρώνες, ενώ τα βέλη είναι σύνδεσμοι των νευρώνων Κάθε κόμβος λειτουργεί αυτόνομα (ανεξάρτητα από τους άλλους) και χρησιμοποιεί μόνο τοπικά δεδομένα (είσοδο και έξοδο στον κόμβο) για να καθοδηγήσει την επεξεργασία. Ένας τεχνητός νευρώνας α i όπως παρουσιάζεται στην Εικόνα 2.8,επιτελεί τα αμέσως ακόλουθα: Δέχεται ένα αριθμό από j εισόδους α k είτε από πραγματικά δεδομένα εισόδoυ, είτε από εξόδους από άλλους νευρώνες του νευρωνικού δικτύου. Κάθε είσοδος έχει μία τιμή βάρους w k (weight). Το σώμα του χωρίζεται σε δύο μέρη: -26-

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ. Σπουδάστρια Αρχοντοπούλου Ελένη. Εισηγητής Καθηγητής

ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ. Σπουδάστρια Αρχοντοπούλου Ελένη. Εισηγητής Καθηγητής ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ Σπουδάστρια Αρχοντοπούλου Ελένη Εισηγητής Καθηγητής Ρ γ. Γκούμας Στέφανος Καβάλα 2009 Περιεχόμενα 1. Εισαγωγή... 1 1.1.

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 - Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) - 1 - Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα, όπως γίνεται αντιληπτή στην καθημερινή ζωή, μπορεί να συνδεθεί με δύο βασικές ιδιότητες: την ικανότητά στην

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

Υπολογιστικό Πρόβληµα

Υπολογιστικό Πρόβληµα Υπολογιστικό Πρόβληµα Μετασχηµατισµός δεδοµένων εισόδου σε δεδοµένα εξόδου. Δοµή δεδοµένων εισόδου (έγκυρο στιγµιότυπο). Δοµή και ιδιότητες δεδοµένων εξόδου (απάντηση ή λύση). Τυπικά: διµελής σχέση στις

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ. Μοντέλο 3 Μ οοποοιοης. Αξιολόγηση αποτελεσμάτων συσταδοποίησης. Μπαμπαλιάρης Αθανάσιος.

ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ. Μοντέλο 3 Μ οοποοιοης. Αξιολόγηση αποτελεσμάτων συσταδοποίησης. Μπαμπαλιάρης Αθανάσιος. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΊΔΡΥΜΑ ΚΑΒΑΛΑΣ Σχολή Διοίκησης & Οικονομίας ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ Νέα δεδομένα Μοντέλο 3 Μ οοποοιοης Σύνολο δεδομένων δοκιμής Αξιολόγηση αποτελεσμάτων συσταδοποίησης Ακρίβεια

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 11: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Εξαγωγή Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων Από Δεδομένα-

Διαβάστε περισσότερα

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη.

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. 4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. Η μετατροπή μιας εντολής επανάληψης σε μία άλλη ή στις άλλες δύο εντολές επανάληψης, αποτελεί ένα θέμα που αρκετές φορές έχει εξεταστεί σε πανελλαδικό

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ Ενότητα 3: Ασυμπτωτικός συμβολισμός Μαρία Σατρατζέμη Τμήμα Εφαρμοσμένης Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Επίλυση Προβλημάτων 1

Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων Περιγραφή Προβλημάτων Αλγόριθμοι αναζήτησης Αλγόριθμοι τυφλής αναζήτησης Αναζήτηση πρώτα σε βάθος Αναζήτηση πρώτα σε πλάτος (ΒFS) Αλγόριθμοι ευρετικής αναζήτησης

Διαβάστε περισσότερα

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Διακριτά Μαθηματικά. Ενότητα 4: Εισαγωγή / Σύνολα

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Διακριτά Μαθηματικά. Ενότητα 4: Εισαγωγή / Σύνολα Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Διακριτά Μαθηματικά Ενότητα 4: Εισαγωγή / Σύνολα Αν. Καθηγητής Κ. Στεργίου e-mail: kstergiou@uowm.gr Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών Άδειες

Διαβάστε περισσότερα

Πληροφορική 2. Δομές δεδομένων και αρχείων

Πληροφορική 2. Δομές δεδομένων και αρχείων Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η Μονοδιάστατοι Πίνακες Τι είναι ο πίνακας γενικά : Πίνακας είναι μια Στατική Δομή Δεδομένων. Δηλαδή συνεχόμενες θέσεις μνήμης, όπου το πλήθος των θέσεων είναι συγκεκριμένο. Στις θέσεις αυτές καταχωρούμε

Διαβάστε περισσότερα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων ..?????? Εργαστήριο ΒΑΣΕΙΣ????????? ΔΕΔΟΜΕΝΩΝ Βάσεων Δεδομένων?? ΙΙ Εισαγωγικό Μάθημα Βασικές Έννοιες - . Γενικά Τρόπος Διεξαγωγής Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 4 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης.

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης. Ανάλογα με το αν ένας αλγόριθμος αναζήτησης χρησιμοποιεί πληροφορία σχετική με το πρόβλημα για να επιλέξει την επόμενη κατάσταση στην οποία θα μεταβεί, οι αλγόριθμοι αναζήτησης χωρίζονται σε μεγάλες κατηγορίες,

Διαβάστε περισσότερα

Μηχανική Μάθηση. Η έννοια της µάθησης σε ένα γνωστικό σύστηµα µπορεί να συνδεθεί µε δύο βασικές ιδιότητες:

Μηχανική Μάθηση. Η έννοια της µάθησης σε ένα γνωστικό σύστηµα µπορεί να συνδεθεί µε δύο βασικές ιδιότητες: Μηχανική Μάθηση Η έννοια της µάθησης σε ένα γνωστικό σύστηµα µπορεί να συνδεθεί µε δύο βασικές ιδιότητες: Την ικανότητά του στην πρόσκτηση επιπλέον γνώσης κατά την αλληλεπίδρασή του µε το περιβάλλον στο

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/ Τεχνητή Νοημοσύνη 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία: Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο

Διαβάστε περισσότερα

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων .. Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Μάθημα Βασικές Έννοιες - . Ύλη Εργαστηρίου ΒΔ Ύλη - 4 Ενότητες.1 - Σχεδιασμός Βάσης Δεδομένων.2 Δημιουργία Βάσης Δεδομένων Δημιουργία Πινάκων Εισαγωγή/Ανανέωση/Διαγραφή

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

3. Προσομοίωση ενός Συστήματος Αναμονής.

3. Προσομοίωση ενός Συστήματος Αναμονής. 3. Προσομοίωση ενός Συστήματος Αναμονής. 3.1. Διατύπωση του Προβλήματος. Τα συστήματα αναμονής (queueing systems), βρίσκονται πίσω από τα περισσότερα μοντέλα μελέτης της απόδοσης υπολογιστικών συστημάτων,

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER» Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για

Διαβάστε περισσότερα

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή ΜΕΡΟΣ Α ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 1 Εξόρυξη Δεδομένων 22 Η επανάσταση του ΚΡΙΟΥ 1.1 Εισαγωγή Το Data Mining αποτελεί μια νέα ερευνητική περιοχή, ραγδαία εξελισσόμενη, που είναι η τομή πολλών θεωριών και επιστημών,

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE) ΔΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE) ΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE). Εισαγωγή Οι στατιστικές δοκιμασίες που μελετήσαμε μέχρι τώρα ονομάζονται παραμετρικές (paramtrc) διότι χαρακτηρίζονται από υποθέσεις σχετικές είτε για

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ ΔΙΑΔΙΚΑΣΙΕΣ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ Διδάσκων: Γ. Χαραλαμπίδης,

Διαβάστε περισσότερα

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα.

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα. i Π Ρ Ο Λ Ο Γ Ο Σ Το βιβλίο αυτό αποτελεί μια εισαγωγή στα βασικά προβλήματα των αριθμητικών μεθόδων της υπολογιστικής γραμμικής άλγεβρας (computational linear algebra) και της αριθμητικής ανάλυσης (numerical

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1 Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 2016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 4 ης διάλεξης 4.1. (α) Αποδείξτε ότι αν η h είναι συνεπής, τότε h(n

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Οικονόμου Παναγιώτης.

Οικονόμου Παναγιώτης. Οικονόμου Παναγιώτης panawths@gmail.com poikonomou@teilam.gr Οικονόμου Παναγιώτης 1 Παπαγεωργίου. 2 Αθήνα-Ελλάδα χρόνου 460 π.χ.? Ένας νεαρός άνδρας σκεπτόμενος το ενδεχόμενο γάμου, ζητά από τον Σωκράτη

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Μονάδων Υγείας και Πρόνοιας -ΤΕΙ Καλαμάτας

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Μονάδων Υγείας και Πρόνοιας -ΤΕΙ Καλαμάτας ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Μονάδων Υγείας και Πρόνοιας -ΤΕΙ Καλαμάτας Σχηματική παρουσίαση της ερευνητικής διαδικασίας ΣΚΟΠΟΣ-ΣΤΟΧΟΣ ΘΕΩΡΙΑ ΥΠΟΘΕΣΕΙΣ ΕΡΓΑΣΙΑΣ Ερευνητικά

Διαβάστε περισσότερα

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για 2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου Σχηματική παρουσίαση της ερευνητικής διαδικασίας ΣΚΟΠΟΣ-ΣΤΟΧΟΣ ΘΕΩΡΙΑ ΥΠΟΘΕΣΕΙΣ ΕΡΓΑΣΙΑΣ Ερευνητικά

Διαβάστε περισσότερα

Περιεχόμενο του μαθήματος

Περιεχόμενο του μαθήματος ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Απαιτήσεις Λογισμικού Περιπτώσεις χρήσης Δρ Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου Εαρινό Εξάμηνο 2012-2013 1 Περιεχόμενο του μαθήματος

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θ.Ε. ΠΛΗ31 (2004-5) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #3 Στόχος Στόχος αυτής της εργασίας είναι η απόκτηση δεξιοτήτων σε θέματα που αφορούν τα Τεχνητά Νευρωνικά Δίκτυα και ποιο συγκεκριμένα θέματα εκπαίδευσης και υλοποίησης.

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Ερωτηματολόγιο. Τρόποι χορήγησης: α) Με αλληλογραφία β) Με απευθείας χορήγηση γ) Τηλεφωνικά

Ερωτηματολόγιο. Τρόποι χορήγησης: α) Με αλληλογραφία β) Με απευθείας χορήγηση γ) Τηλεφωνικά Ερωτηματολόγιο Το ερωτηματολόγιο αποτελείται από μια σειρά ερωτήσεων, οι οποίες έχουν ως στόχο την καταγραφή των απόψεων, γνώσεων ή στάσεων μιας ομάδας ατόμων. Τρόποι συμπλήρωσης: α) άμεσος (ο ίδιος ο

Διαβάστε περισσότερα

Παράδειγμα 2. Λύση & Επεξηγήσεις. Τέλος_επανάληψης Εμφάνισε "Ναι" Τέλος Α2

Παράδειγμα 2. Λύση & Επεξηγήσεις. Τέλος_επανάληψης Εμφάνισε Ναι Τέλος Α2 Διδακτική πρόταση ΕΝΟΤΗΤΑ 2η, Θέματα Θεωρητικής Επιστήμης των Υπολογιστών Κεφάλαιο 2.2. Παράγραφος 2.2.7.4 Εντολές Όσο επανάλαβε και Μέχρις_ότου Η διαπραγμάτευση των εντολών επανάληψης είναι σημαντικό

Διαβάστε περισσότερα

Δομές Δεδομένων. Ενότητα 13: B-Δέντρα/AVL-Δέντρα. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής. Δομές Δεδομένων

Δομές Δεδομένων. Ενότητα 13: B-Δέντρα/AVL-Δέντρα. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής. Δομές Δεδομένων Ενότητα 13: B-Δέντρα/AVL-Δέντρα Καθηγήτρια Μαρία Σατρατζέμη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΕΥΑΓΓΕΛΙΑΣ Π. ΛΟΥΚΟΓΕΩΡΓΑΚΗ Διπλωματούχου Πολιτικού Μηχανικού ΟΛΟΚΛΗΡΩΜΕΝΟ

Διαβάστε περισσότερα

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής Νίκος Βασιλειάδης, Αναπλ. Καθηγητής Άδειες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών

Διαβάστε περισσότερα

Τεχνικές Προβλέψεων. Προβλέψεις

Τεχνικές Προβλέψεων. Προβλέψεις ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων Προβλέψεις http://www.fsu.gr - lesson@fsu.gr

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Βάσεις Δεδομένων - Γενικά Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα. Τα περιεχόμενα

Διαβάστε περισσότερα

E[ (x- ) ]= trace[(x-x)(x- ) ]

E[ (x- ) ]= trace[(x-x)(x- ) ] 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες Χρήσης Το

Διαβάστε περισσότερα

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων Γιάννης Λιαπέρδος TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Η έννοια του συνδυαστικού

Διαβάστε περισσότερα

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ Δομή παρουσίασης Εισαγωγή Βασικές Έννοιες Σχετικές μελέτες Εφαρμογή Δεδομένων Συμπεράσματα Εισαγωγή Μελέτη και προσαρμογή των διάφορων

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Μαθησιακές δραστηριότητες με υπολογιστή

Μαθησιακές δραστηριότητες με υπολογιστή ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Μαθησιακές δραστηριότητες με υπολογιστή Κατευθυντήριες γραμμές σχεδίασης μαθησιακών δραστηριοτήτων Διδάσκων: Καθηγητής Αναστάσιος Α. Μικρόπουλος Άδειες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Στάδιο Εκτέλεσης

Στάδιο Εκτέλεσης 16 ΚΕΦΑΛΑΙΟ 1Ο 1.4.2.2 Στάδιο Εκτέλεσης Το στάδιο της εκτέλεσης μίας έρευνας αποτελεί αυτό ακριβώς που υπονοεί η ονομασία του. Δηλαδή, περιλαμβάνει όλες εκείνες τις ενέργειες από τη στιγμή που η έρευνα

Διαβάστε περισσότερα

Κεφάλαιο 6. Ικανοποίηση Περιορισµών. Τεχνητή Νοηµοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 6. Ικανοποίηση Περιορισµών. Τεχνητή Νοηµοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 6 Ικανοποίηση Περιορισµών Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Ικανοποίηση Περιορισµών Ένα πρόβληµα ικανοποίησης περιορισµών (constraint

Διαβάστε περισσότερα

Ενότητα 3: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ

Ενότητα 3: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ Ενότητα 3: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΔΕΔΟΜΕΝΑ ΑΛΓΟΡΙΘΜΟΙ -ΠΛΗΡΟΦΟΡΙΑ: Δεδομένα: Αναπαράσταση της Πραγματικότητας Μπορούν να γίνουν αντιληπτά με μια από τις αισθήσεις μας Πληροφορία: Προκύπτει από

Διαβάστε περισσότερα

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΣΤΑΤΙΣΤΙΚΕΣ ΕΚΤΙΜΗΣΕΙΣ Οι συναρτήσεις πιθανότητας ή πυκνότητας πιθανότητας των διαφόρων τυχαίων μεταβλητών χαρακτηρίζονται από κάποιες

Διαβάστε περισσότερα

Περιεχόμενα. Δομές δεδομένων. Τεχνικές σχεδίασης αλγορίθμων. Εισαγωγή στον προγραμματισμό. Υποπρογράμματα. Επαναληπτικά κριτήρια αξιολόγησης

Περιεχόμενα. Δομές δεδομένων. Τεχνικές σχεδίασης αλγορίθμων. Εισαγωγή στον προγραμματισμό. Υποπρογράμματα. Επαναληπτικά κριτήρια αξιολόγησης Περιεχόμενα Δομές δεδομένων 37. Δομές δεδομένων (θεωρητικά στοιχεία)...11 38. Εισαγωγή στους μονοδιάστατους πίνακες...16 39. Βασικές επεξεργασίες στους μονοδιάστατους πίνακες...25 40. Ασκήσεις στους μονοδιάστατους

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μαρίνος Θεμιστοκλέους Email: mthemist@unipi.gr Ανδρούτσου 150 Γραφείο 206 Τηλ. 210 414 2723 Ώρες Γραφείου: Δευτέρα 11-12 AM Πληροφοριακά Συστήματα (ΠΣ) Information Systems (IS) Ορισμός

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Διδακτικές Τεχνικές (Στρατηγικές)

Διδακτικές Τεχνικές (Στρατηγικές) Διδακτικές Τεχνικές (Στρατηγικές) Ενδεικτικές τεχνικές διδασκαλίας: 1. Εισήγηση ή διάλεξη ή Μονολογική Παρουσίαση 2. Συζήτηση ή διάλογος 3. Ερωταποκρίσεις 4. Χιονοστιβάδα 5. Καταιγισμός Ιδεών 6. Επίδειξη

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ιδάσκων:

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Δομές Δεδομένων. Ενότητα 1 - Εισαγωγή. Χρήστος Γκουμόπουλος. Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων

Δομές Δεδομένων. Ενότητα 1 - Εισαγωγή. Χρήστος Γκουμόπουλος. Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Δομές Δεδομένων Ενότητα 1 - Εισαγωγή Χρήστος Γκουμόπουλος Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Αντικείμενο μαθήματος Δομές Δεδομένων (ΔΔ): Στην επιστήμη υπολογιστών

Διαβάστε περισσότερα

ΣΥΣΤHΜΑΤΑ ΑΠΟΦAΣΕΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓH

ΣΥΣΤHΜΑΤΑ ΑΠΟΦAΣΕΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓH ΣΥΣΤHΜΑΤΑ ΑΠΟΦAΣΕΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓH Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Η/Υ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Διοίκηση Παραγωγής & Συστημάτων Υπηρεσιών ΕΡΓΑΣΤΗΡΙΟ ΣΥΣΤΗΜΑΤΩΝ ΑΠΟΦΑΣΕΩΝ ΚΑΙ ΔΙΟΙΚΗΣΗΣ Περιεχόμενα

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 6 ΟΥ ΚΕΦΑΛΑΙΟΥ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 6.1 Τι ονοµάζουµε πρόγραµµα υπολογιστή; Ένα πρόγραµµα

Διαβάστε περισσότερα

Εισαγωγή στην πληροφορική

Εισαγωγή στην πληροφορική Εισαγωγή στην πληροφορική Ενότητα 5: ΑΛΓΟΡΙΘΜΟΙ Πασχαλίδης Δημοσθένης Τμήμα Διαχείρισης Εκκλησιαστικών Κειμηλίων Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

OptiplanFlex. Χαρακτηριστικά

OptiplanFlex. Χαρακτηριστικά OptiplanFlex Η σειρά OptiplanFlex είναι µια προσεκτική προσέγγιση στις πραγµατικές ανάγκες του επιχειρηµατία και του διοικητικού στελέχους για να επιτυγχάνει τη βέλτιστη λειτουργία. Βασισµένο πάνω σε τεχνολογία

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων. Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων. Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ενότητα 1: Εισαγωγή στις Βάσεις Δεδομένων Αθανάσιος Σπυριδάκος Διοίκηση Επιχειρήσεων Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα