ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ Διπλωματική Εργασία της Στεργιοπούλου Φωτεινής (ΑΕΜ: 129) Επιβλέποντες Καθηγητές: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ ΚΟΥΣΕΝΙΔΗΣ ΔΗΜΗΤΡΙΟΣ ΘΕΣΣΑΛΟΝΙΚΗ 2007

2

3 Πρόλογος Η παρούσα μελέτη πραγματοποιήθηκε στα πλαίσια εκπόνησης της διπλωματικής εργασίας, με θέμα: «Δημιουργία Μοντέλου Έγκρισης Πιστωτικής Κάρτας από Ιστορικά Δεδομένα» Η εργασία εκπονήθηκε κατά το Ακαδημαϊκό έτος στα πλαίσια του Διατμηματικού Μεταπτυχιακού Προγράμματος Σπουδών «Πληροφορική και Διοίκηση». Στη συγκεκριμένη εργασία επιχειρείται η κατασκευή συστημάτων στήριξης απόφασης τα οποία, χρησιμοποιώντας μοντέλα που προκύπτουν από διάφορους αλγόριθμους εξόρυξης δεδομένων από την επεξεργασία αρχείου με ιστορικά δεδομένα, αξιολογούν την πιστοληπτική ικανότητα των υποψηφίων πελατών κατά την διαδικασία έγκρισης χορήγησης πιστωτικής κάρτας. Σε αυτό το σημείο θα ήθελα να εκφράσω τις θερμές ευχαριστίες μου στον επιβλέποντα Καθηγητή του Τμήματος Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης κ. Ιωάννη Βλαχάβα για την εμπιστοσύνη που μου επέδειξε στην ανάθεση του θέματος, την πολύτιμη καθοδήγησή του κατά τη διάρκεια εκπόνησης της εργασίας, καθώς και για την ευκαιρία που μου έδωσε να ασχοληθώ με το συγκεκριμένο γνωστικό αντικείμενο. Θα ήθελα, επίσης, να ευχαριστήσω τον κ. Δημήτριο Κουσενίδη, Επίκουρο Καθηγητή του Τμήματος Οικονομικών Επιστημών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, για τη συμβολή του κατά τη διάρκεια των μεταπτυχιακών μου σπουδών. Ιδιαίτερα θα ήθελα να ευχαριστήσω τον διδάκτορα του τμήματος Πληροφορικής κ. Φώτη Κόκκορα για την απαράμμιλη και εποικοδομητική συνεργασία μας, την προσφορά των απαιτούμενων στοιχείων καθώς και τις πολύτιμές υποδείξεις του, παράγοντες οι οποίοι συντέλεσαν αποφασιστικά στην άρτια διεκπεραίωση της εργασίας. Στεργιοπούλου Φωτεινή Μάρτιος 2007

4 -ii-

5 Περιεχόμενα ΠΡΟΛΟΓΟΣ... I ΠΕΡΙΕΧΟΜΕΝΑ...III 1 ΕΙΣΑΓΩΓΗ ΟΡΙΟΘΕΤΗΣΗ ΤΗΣ ΠΕΡΙΟΧΗΣ ΜΕΛΕΤΗΣ ΕΠΙΣΚΟΠΗΣΗ ΠΕΡΙΕΧΟΜΕΝΩΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Η ΠΟΡΕΙΑ ΠΡΟΣ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΤΙ ΕΙΝΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Η ΔΙΑΔΙΚΑΣΙΑ ΤΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ (KDD) Η ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΤΑΞΙΝΟΜΗΣΗ ΤΩΝ ΜΕΘΟΔΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΕΠΙΣΚΟΠΗΣΗ ΤΩΝ ΒΑΣΙΚΟΤΕΡΩΝ ΤΕΧΝΙΚΩΝ ΕΔ Κατηγοριοποίηση Παρεμβολή Ομαδοποίηση Κανόνες Συσχέτισης ΣΚΟΠΟΣ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑΣ ΔΕΔΟΜΕΝΩΝ Καθαρισμός Δεδομένων Μετασχηματισμός Δεδομένων ΟΡΙΟΘΕΤΗΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΠΙΣΤΩΤΙΚΕΣ ΚΑΡΤΕΣ Οι Βασικές Κατηγορίες Πιστωτικών Καρτών Η Χαρτογράφηση της Αγοράς Πιστωτικών Καρτών ΠΙΣΤΩΤΙΚΕΣ ΚΑΡΤΕΣ ΚΑΙ ΠΙΣΤΩΤΙΚΟΣ ΚΙΝΔΥΝΟΣ Επισκόπηση Τεχνικών Αξιολόγησης Πελατών ΤΟ ΠΡΟΒΛΗΜΑ ΜΕΛΕΤΗΣ...53

6 4 ΤΟ ΠΡΟΓΡΑΜΜΑ WEKA ΠΛΑΤΦΟΡΜΑ ΕΦΑΡΜΟΓΗΣ WEKA Τα αρχεία στο WEKA Το περιβάλλον Explorer ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΤΑ ΔΕΔΟΜΕΝΑ ΤΟ ΣΥΝΟΛΟ ΔΕΔΟΜΕΝΩΝ Τα Χαρακτηριστικά του Προβλήματος ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΑΛΓΟΡΙΘΜΩΝ Πίνακας Σύγχυσης Ακρίβεια Ορθότητα Ανάκληση Μέτρο F ΕΠΙΛΟΓΉ ΑΛΓΟΡΊΘΜΩΝ Ο αλγόριθμος J O αλγόριθμος JRIP Ο αλγόριθμος ΡΑRT Ο αλγόριθμος ΙΒk Ο αλγόριθμος Naϊve Bayes Ο αλγόριθμος BayesNet Ο αλγόριθμος Multilayer Perceptron Ο αλγόριθμος SMO O αλγόριθμος Simple Logistic ΣΎΓΚΡΙΣΗ ΑΛΓΟΡΊΘΜΩΝ ΣΥΜΠΕΡΑΣΜΑΤΑ ΑΝΑΦΟΡΕΣ iv-

7 1 Εισαγωγή Ζούμε στην εποχή της πληροφορικής επανάστασης, η οποία στηρίζεται στην αποτελεσματική συλλογή, διαχείριση και επεξεργασία πληροφοριών και αποτελεί κρίσιμο παράγοντα για την επιτυχία της επιστημονικής έρευνας, των επιχειρηματικών δράσεων και γενικότερα της κοινωνικής εξέλιξης. Η διαρκής συσσώρευση δεδομένων μέσω καταγραφής συναλλαγών, παρακολούθησης φαινομένων και συλλογής μετρήσεων είναι πλέον ευρύτατα διαδεδομένη. Η ικανότητα συλλογής και αποθήκευσης δεδομένων έχει προ πολλού ξεπεράσει την ικανότητα διαχείρισης και αξιοποίησής τους, με αποτέλεσμα συχνά να εγκαταλείπεται η πιθανότητα αξιοποίησης τους, είτε στα πλαίσια της επιστημονικής έρευνας, είτε στα πλαίσια των επιχειρηματικών δραστηριοτήτων. Προκύπτει, δηλαδή, ότι δεν υπάρχει αντίστοιχη βελτίωση της ικανότητας των ανθρώπων για κατανόηση και αξιοποίηση των αποθηκευμένων πληροφοριών. Οι τεχνικές εξόρυξης δεδομένων (data mining), αξιοποιούν μεθόδους και εργαλεία τα οποία παρέχονται από τις τεχνικές µηχανικής µάθησης (machine learning) και τα οποία αυτοµατοποιούν σύνθετες και χρονοβόρες διαδικασίες επαγωγής γνώσης από δεδοµένα, έτσι ώστε να καθίσταται εφικτή η ανάλυση µεγάλου όγκου δεδοµένων και να συνάγονται χρήσιμα συµπεράσµατα. Στόχος της παρούσας διπλωματικής εργασίας είναι η αντιμετώπιση ενός πραγματικού προβλήματος, συγκεκριµένα της έγκαιρης, επιτυχούς και αξιόπιστης αξιολόγησης των πελατών ενός χρηματοπιστωτικού ιδρύματος κατά τη διαδικασία έγκρισης πιστωτικής κάρτας, εφαρμόζοντας τεχνικές εξόρυξης δεδομένων. Κύριο κριτήριο για την αξιολόγηση των αποτελεσµάτων της λύσης που δίδεται στο πρόβληµα είναι η δυνατότητα επιχειρησιακής αξιοποίησης της γνώσης που προκύπτει. 1.1 Οριοθέτηση της Περιοχής Μελέτης Η αγορά πιστωτικών καρτών, τα τελευταία χρόνια, παρουσιάζει μεγάλη ανάπτυξη στη χώρα μας. Ωστόσο, είναι γεγονός, ότι η πιστωτική κάρτα είναι ένα προϊόν υψηλού κινδύνου, γι αυτό άλλωστε και τα επιτόκια των πιστωτικών καρτών διατηρούνται σε υψη- -1-

8 λά επίπεδα. Αναμενόμενο είναι λοιπόν, από τη στιγμή που οι χρηματοδοτικοί οργανισμοί αποβλέπουν στη μεγιστοποίηση των κερδών τους, να επιδιώκουν τον περιορισμό των επισφαλειών που προέρχονται από τους αφερέγγυους πελάτες. Το σύνολο των πιστωτικών κινδύνων, που περιλαμβάνει τις καθυστερήσεις και τις επισφάλειες εκτιμάται ότι στη χώρα μας φθάνει το 15% περίπου του χαρτοφυλακίου των δανείων των τραπεζών, όταν ο αντίστοιχος ευρωπαϊκός μέσος όρος κινείται στο 10,5%, μέγεθος που περιλαμβάνει και τις απάτες που πραγματοποιούνται μέσω των πιστωτικών καρτών. Στο επίκεντρο του προβληματισμού των τραπεζών έχει τεθεί ο έλεγχος του υψηλού πιστωτικού κινδύνου που συνεπάγεται η διάδοση των πιστωτικών καρτών. Οι υψηλές επισφάλειες που συνεπάγεται η ανάπτυξη της αγοράς της πιστωτικής κάρτας, ανέδειξε και την αδυναμία που υπάρχει στη χώρα μας στο θέμα της αξιολόγησης της πιστωτικής ποιότητας των υποψηφίων πελατών. Η παρούσα διπλωματική εργασία πραγματεύεται την επεξεργασία δεδομένων που αφορούν χαρακτηριστικά πελατών που τους χορηγήθηκε πιστωτική κάρτα, εφαρμόζοντας μεθόδους εξόρυξης γνώσης και τη δημιουργία μοντέλων που να μπορούν να προβλέπουν την πιστοληπτική ικανότητα των υποψηφίων πελατών. Για την επεξεργασία τους και την εξαγωγή πολύτιμης γνώσης από αυτά χρησιμοποιήθηκε το λογισμικό Weka, το οποίο περιέχει υλοποιημένους τους σημαντικότερους αλγορίθμους εξόρυξης γνώσης. 1.2 Επισκόπηση Περιεχομένων Η εργασία, εκτός της Εισαγωγής που αποτελεί και το 1 ο Κεφάλαιο, περιλαμβάνει ακόμα πέντε κεφάλαια και ολοκληρώνεται με το Παράρτημα. Το 2 ο Κεφάλαιο αναφέρεται στον επιστημονικό τομέα της εξόρυξης γνώσης. Παρουσιάζονται συγγενή με αυτή αντικείμενα και περιγράφονται οι κυριότερες τεχνικές ανακάλυψης γνώσης από βάσεις δεδομένων και οι σημαντικότεροι αλγόριθμοι εξόρυξης γνώσης. Πιο συγκεκριμένα, αναλύονται τεχνικές όπως δέντρα απόφασης, Bayesian κατηγοριοποίηση, μάθηση εννοιών, μάθηση κατά περίπτωση, νευρωνικά δίκτυα, μηχανές διανυσμάτων υποστήριξης, κανόνες συσχέτισης, ομαδοποίηση, κτλ. Στο 3 ο Κεφάλαιο δίνονται αρχικά κάποιες γενικές πληροφορίες για την αγορά των πιστωτικών καρτών και στη συνέχεια ακολουθεί η αναλυτική περιγραφή του προβλήματος της εργασίας. -2-

9 Στο 4 ο Κεφάλαιο παρουσιάζεται το λογισμικό Weka που χρησιμοποιήθηκε για την επίλυση του προβλήματος της εργασίας. Περιγράφεται το γραφικό του κομμάτι (GUI) και η παρουσίαση εστιάζεται στο περιβάλλον Explorer του συστήματος, καθώς αυτό χρησιμοποιήθηκε κυρίως κατά την επίλυση του προβλήματος. Στο 5 ο Κεφάλαιο παρουσιάζεται το σύνολο δεδομένων και οι αλγόριθμοι εξόρυξης γνώσης που χρησιμοποιήθηκαν. Συγκεκριμένα, γίνεται μια εκτενή αναφορά στο μέγεθος και στα χαρακτηριστικά των δεδομένων που χρησιμοποιήθηκαν. Έπειτα, παρουσιάζονται οι αλγόριθμοι που χρησιμοποιήθηκαν στο πρόγραμμα Weka και καταγράφονται τα μοντέλα που προέκυψαν σε κάθε περίπτωση, καθώς και η ακρίβειά τους. Το 6 ο Κεφάλαιο περιλαμβάνει τα συμπεράσματα που προέκυψαν μετά την ολοκλήρωση της εργασίας. Καταγράφονται, επίσης, κάποια θέματα που θα μπορούσαν μελλοντικά να αντιμετωπιστούν. Ακολουθούν οι αναφορές στις πηγές που χρησιμοποιήθηκαν για τη συγγραφή της διπλωματικής εργασίας. -3-

10

11 2 Εξόρυξη Δεδομένων Η πρωτοφανής έκρηξη δεδομένων που πυροδοτήθηκε από την ανάπτυξη εργαλείων αυτόματης συλλογής τους και την μείωση του κόστους της μνήμης, έκανε επιτακτική την ανάγκη για επεξεργασία και ερμηνεία του μεγάλου αυτού όγκου δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές, όπως είναι η τεχνητή νοημοσύνη, η στατιστική, οι αποθήκες δεδομένων, η διαδραστική ανάλυση και επεξεργασία δεδομένων, τα έμπειρα συστήματα και η οπτικοποίηση δεδομένων, με αποτέλεσμα να δημιουργηθεί ένας νέος ερευνητικός τομέας, γνωστός ως Εξόρυξη Δεδομένων και Γνώσης (Data and Knowledge Mining). 2.1 Η πορεία προς την Εξόρυξη Δεδομένων Ο βασικότερος λόγος για τον οποίο η εξόρυξη δεδομένων έχει εξελιχθεί σε τεχνολογία αιχμής είναι η διαθεσιμότητα και η πρόσβαση σε τεράστιες ποσότητες δεδομένων, σε συνδυασμό με την επιτακτική ανάγκη τα δεδομένα αυτά να μετατραπούν σε γνώση. Η εξόρυξη δεδομένων μπορεί να θεωρηθεί ως η φυσική εξέλιξη της Τεχνολογίας της Πληροφορίας (Information Technology). Παρακολουθώντας την πορεία της στο χρόνο (Εικόνα 2.1), τη δεκαετία του 60 γίνεται το πρώτο επαναστατικό βήμα με τη συλλογή δεδομένων (data collection), ενώ τη δεκαετία του 70 αναπτύσσεται το πρώτο Σχεσιακό Σχήμα Βάσεων Δεδομένων (RDBMS). Κατά τη δεκαετία του 80 αναπτύσσεται η τεχνολογία της προσπέλασης δεδομένων, με την εφαρμογή του σχεσιακού μοντέλου και την ανάπτυξη σχετικών γλωσσών προγραμματισμού [6]. Σε μικρό χρονικό διάστημα (δεκαετία 90) ακολουθεί και το επόμενο ρηξικέλευθο βήμα στο χώρο της διαχείρισης δεδομένων, η ανάπτυξη των Αποθηκών Δεδομένων (Data Warehouses) και των Συστημάτων Στήριξης Αποφάσεων (Decision Support Systems DSS) [12]. Ωστόσο, παρά τα εντυπωσιακά αποτελέσματα των συστημάτων στήριξης αποφάσεων, κρίνεται αναγκαία η ανάπτυξη μιας νέας γενιάς εργαλείων και τεχνικών για ευφυή ανάλυση βάσεων δεδομένων, έτσι ώστε να επιτευχθεί η επίλυση του πλέον κύριου προβλήματος στις μεγάλες βάσεις δεδομένων, του data-rich but information-poor. Αυτή η αδυναμία της ανθρώπινης αντίληψης να εξάγει συμπεράσματα από τα δεδομένα -5-

12 ενός συστήματος, τα οποία αυξάνονται με ιλιγγιώδεις ρυθμούς, σε συνδυασμό με την ανάγκη ερμηνείας όλων αυτών των δεδομένων, οδήγησε σε αυτό που σήμερα ονομάζουμε Εξόρυξη Δεδομένων (Data Mining). Data Μining (00 s) Data Access (80 s) Data Warehousing & DSS (90 s) Επεξεργασία ανακεφαλαιωτικών & δυναμικών δεδομένων σε πολλαπλά επίπεδα Data Management (70 s) Επεξεργασία ανακεφαλαιωτικών & δυναμικών δεδομένων σε επίπεδο εγγράφων Data Collection (60 s) Δημιουργία DBMS & RDBMS Επεξεργασία στατικών & ανακεφαλαιωτικών δεδομένων Εικόνα 2.1: Η εξέλιξη των τεχνολογιών προς την εξόρυξη δεδομένων 2.2 Τι είναι Εξόρυξη Δεδομένων Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, των μηχανών γνώσης, της στατιστικής, καθώς επίσης και ως μια σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Λογικό είναι, λοιπόν, μέθοδοι παρόμοιες ή παραπλήσιες με την εξόρυξη δεδομένων να ταυτίζονται, λανθασμένα, με αυτήν. Ορισμένες από τις μεθόδους αυτές είναι: Η ανάλυση προτύπων δεδομένων (data/ pattern analysis) Η αρχαιολογία δεδομένων (data archeology) Η συγκομιδή πληροφοριών (information harvesting) Η ευφυΐα συστημάτων επιχειρήσεων (business intelligence). -6-

13 Ο όρος εξόρυξη δεδομένων προέρχεται από τις ομοιότητες που υπάρχουν μεταξύ της αναζήτησης σημαντικής πληροφορίας σε μια μεγάλη βάση δεδομένων και της εξόρυξης σε ένα όρος για κάποιο πολύτιμο μετάλλευμα. Και οι δύο διαδικασίες απαιτούν είτε την εξέταση με προσοχή μια τεράστιας ποσότητας υλικού είτε την ευφυή έρευνά της, προκειμένου να βρεθεί αξία. Η εξόρυξη δεδομένων είναι στενά συνδεδεμένη με την ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases KDD) και πολλές φορές οι ορισμοί των δύο αυτών διαδικασιών ταυτίζονται. Ωστόσο, η KDD αναφέρεται σε ολόκληρη τη διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων. Ένας γενικός ορισμός, που παρουσιάζει με περισσότερη σαφήνεια την έννοια της KDD δόθηκε από τους Fayyad, Piatetsky-Shapiro, & Smyth [13], σύμφωνα με τον οποίο: Η ανακάλυψη γνώσης σε βάσεις δεδομένων είναι η ντετερμινιστική διαδικασία της αναγνώρισης προτύπων σχέσεων μέσα στα δεδομένα μιας βάσης, για τα οποία πρότυπα ισχύει ότι είναι καινούρια, έγκυρα, πιθανώς χρήσιμα και απόλυτα κατανοητά. Με τον όρο πρότυπο εννοούμε ένα μοντέλο το οποίο εφαρμόζεται στα δεδομένα, έτσι ώστε να τους προσδίδει ορισμένα κοινά χαρακτηριστικά. Το εξαγόμενο πρότυπο πρέπει να είναι έγκυρο, δηλαδή συνεπές σε νέα δεδομένα με κάποιον βαθμό βεβαιότητας και κατανοητό, ώστε να μπορεί να οδηγήσει ακόμη και τους μη ειδικούς σε χρήσιμα συμπεράσματα για τη λήψη αποφάσεων. Ο όρος διαδικασία συνεπάγεται ότι η ΚDD αποτελείται από πολλά βήματα, όπως η προ-επεξεργασία των δεδομένων, η έρευνα για πρότυπα και η αξιολόγηση ερμηνεία των αποτελεσμάτων. Η εξόρυξη δεδομένων είναι ένα από τα βήματα της KDD διαδικασίας, η οποία ενδιαφέρεται κυρίως για τις μεθοδολογίες και τις τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από τις μεγάλες αποθήκες δεδομένων. Για να διαφοροποιηθούμε μεταξύ της διαδικασίας και των εργαλείων θα χρησιμοποιήσουμε τον όρο, KDD, για να περιγράψουμε ολόκληρη τη διαδικασία ανάλυσης ε- νός συνόλου δεδομένων, και τον όρο, εξόρυξη δεδομένων, για να αναφερθούμε κυρίως στις μεθόδους και τις τεχνικές που χρησιμοποιούνται στη διαδικασία ανάλυσης. -7-

14 2.3 Η Διαδικασία της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων (KDD) Η ανακάλυψη γνώσης από βάσεις δεδομένων (KDD) είναι μια διαδραστική και επαναληπτική διαδικασία, η οποία περιλαμβάνει τα ακόλουθα βήματα: 1. Την ανάπτυξη και κατανόηση του χώρου της εφαρμογής και την αναγνώριση των στόχων της KDD διαδικασία από την σκοπιά του τελικού χρήστη. 2. Την ολοκλήρωση των δεδομένων. Υπάρχουν διαφορετικά είδη αποθηκών πληροφοριών που μπορούν να χρησιμοποιηθούν στη διαδικασία εξόρυξης γνώσης. Κατά συνέπεια, απαιτείται η εξαγωγή των δεδομένων από αυτές και η οργάνωσή τους σε απλούστερες δομές. 3. Τη δημιουργία του στόχου συνόλου δεδομένων (target data set). Επιλογή του συνόλου δεδομένων στο οποίο θα γίνει η εφαρμογή της εξόρυξης. 4. Τον καθαρισμό και την προ-επεξεργασία των δεδομένων. Σ αυτό το βήμα αντιμετωπίζονται περιπτώσεις, όπως η αφαίρεση του θορύβου ή των outliers, η λήψη αποφάσεων για το χειρισμό πεδίων τα οποία δεν έχουν τιμές κ.λπ. 5. Τον μετασχηματισμό των δεδομένων. Τα δεδομένα μετασχηματίζονται για να διευκολυνθεί η διαδικασία της ανακάλυψης γνώσης. Χρήση των μεθόδων της μείωσης των διαστάσεων των δεδομένων (data reduction), της ομοιόμορφης κωδικοποίησης της ποιοτικά ίδιας πληροφορίας, της εύρεσης κατάλληλης αντιπροσώπευσης των δεδομένων χωρίς μεταβλητές, της μετατροπής συνεχόμενων αριθμητικών τιμών σε διακριτές τιμές (διακριτοποίηση) κλπ. 6. Την επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων. Σ αυτό το στάδιο αποφασίζουμε το στόχο της διαδικασίας ανακάλυψης γνώσης, δηλαδή καθορίζεται τι είδους γνώση θα αναζητηθεί, κάτι που έμμεσα προσδιορίζει και την κατηγορία αλγορίθμων που θα χρησιμοποιηθούν. Τα παράγωγα της διαδικασίας ανακάλυψης γνώσης μπορεί να είναι: Πρότυπα πληροφόρησης (μάθηση χωρίς επίβλεψη), όπου στόχος είναι η ανακάλυψη πιθανών συσχετίσεων ή ομάδων στα δεδομένα. Μοντέλα πρόβλεψης (μάθηση με επίβλεψη), όπου στόχος είναι η μάθηση μιας συνάρτησης που συνδέει ένα σύνολο δεδομένων εισόδου εξόδου. 7. Την εφαρμογή της εξόρυξης δεδομένων. Είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική αναζήτηση της γνώσης στα δεδομένα. -8-

15 8. Την αξιολόγηση των προτύπων. Τα ευρεθέντα πρότυπα αξιολογούνται προκειμένου να προσδιοριστούν τα αληθινά ενδιαφέροντα πρότυπα, δηλαδή αυτά που αντιπροσωπεύουν τη γνώση. Πιθανή επιστροφή σε ένα από τα βήματα 1-7 για περαιτέρω επανάληψη. 9. Την σταθεροποίηση και παρουσίαση της γνώσης. Αυτό μπορεί να σημαίνει είτε επικύρωση/ αναβάθμιση παλιότερα εξαγόμενων συμπερασμάτων, είτε παρουσίαση των συμπερασμάτων αυτών στους άμεσα ενδιαφερόμενους. Η KDD διαδικασία αναπαρίσταται στην Εικόνα 2.2 Εικόνα 2.2: Τα βήματα της διαδικασίας KDD 2.4 Η διαδικασία Εξόρυξης Δεδομένων Η εξόρυξη δεδομένων έχει ως στόχο την εύρεση προτύπων και σχέσεων μεταξύ των δεδομένων. Υπάρχει μια μεγάλη ποικιλία αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς, όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση και οι βάσεις δεδομένων. Δύο συνιστώσες μπορούν να οδηγήσουν σε επιτυχημένα αποτελέσματα εξόρυξης δεδομένων. Από τη μία ο σωστός προσδιορισμός του προβλήματος που θέλουμε να α- ντιμετωπίσουμε και από την άλλη η χρησιμοποίηση των κατάλληλων δεδομένων. Είναι πολύ σημαντικό πριν τη δημιουργία του μοντέλου, να εξεταστούν προσεκτικά τα δεδομένα ώστε να γίνουν κατανοητά [3]. -9-

16 Ο στόχος της εξόρυξης δεδομένων είναι η παραγωγή νέας γνώσης. Πριν ξεκινήσει, λοιπόν, η διαδικασία της εξόρυξης πρέπει να ληφθούν αποφάσεις σχετικά με τα παρακάτω θέματα: Σκοπός για τον οποίο γίνεται η εξόρυξη. Ποιος αλγόριθμος θα επιλεχθεί. Πλατφόρμα εφαρμογής, το εργαλείο δηλαδή που θα χρησιμοποιηθεί για την ε- ξόρυξη των δεδομένων. 2.5 Ταξινόμηση των Μεθόδων Εξόρυξης Δεδομένων Από την παραπάνω ανάλυση μπορεί να γίνει αντιληπτό ότι η εξόρυξη δεδομένων είναι μια διαδικασία πολύπλευρη και σύνθετη, μέρος μιας άλλης επαναληπτικής διαδικασίας, με σκοπό την εξαγωγή γνώσης και συμπερασμάτων. Επιπλέον, είναι ένας διεπιστημονικός τομέας που συνδυάζει τομείς όπως βάσεις δεδομένων, μηχανική μάθηση, στατιστική και ανάκτηση πληροφοριών. Εμπεριέχει, λοιπόν, τεχνολογίες αιχμής χωρίς να τις υποβαθμίζει, αλλά αντιθέτως τις συνδυάζει με διάφορους τρόπους (Εικόνα 2.3) Ανάλογα με τον τρόπο με τον οποίο οι διάφορες τεχνολογίες συμμετέχουν στην ε- ξόρυξη δεδομένων, υλοποιούνται και διαφορετικά συστήματα εξόρυξης δεδομένων. Η κατηγοριοποίηση των συστημάτων εξόρυξης δεδομένων μπορεί να γίνει με βάση τα ακόλουθα κριτήρια [3]: ΣΤΑΤΙΣΤΙΚΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΤΕΧΝΟΛΟΓΙΑ ΠΛΗΡΟΦΟΡΙΑΣ ΟΠΤΙΚΟΠΟΙΗΣΗ ΑΛΛΕΣ ΤΕΧΝΟΛΟΓΙΕΣ Εικόνα 2.3: Οι συγγενείς τεχνολογίες με την Εξόρυξη Δεδομένων Σύμφωνα με το είδος της βάσης δεδομένων που χρησιμοποιείται: Όπως αναφέρθηκε προηγουμένως, είναι δυνατή η εξόρυξη δεδομένων από διάφορους τύπους -10-

17 αποθήκευσης πληροφορίας (π.χ. τα σχεσιακά δεδομένα, τα αντικειμενοστραφή συστήματα βάσεων δεδομένων, οι χωροχρονικές βάσεις δεδομένων, τα συστήματα βάσεων δεδομένων πολυμέσων κ.λπ.). Για παράδειγμα, ένα σύστημα που χρησιμοποιείται για την εξαγωγή γνώσης από αντικειμενοστραφείς βάσεις δεδομένων καλείται αντικειμενοστραφές σύστημα εξόρυξης δεδομένων. Επιπλέον, όλοι οι αλγόριθμοι εξόρυξης δεδομένων δεν είναι εφαρμόσιμοι σε όλους τους τύπους δεδομένων. Σύμφωνα με τον τύπο της γνώσης που εξάγεται: Από ένα σύστημα εξόρυξης δεδομένων μπορούν να προκύψουν είτε πρότυπα πληροφόρησης (informative patterns), όπου περιγράφουν συσχετίσεις μεταξύ των δεδομένων και προκύπτουν με μάθηση χωρίς επίβλεψη, είτε μοντέλα πρόβλεψης (predictive models), όπου προβλέπουν την τιμή μιας μεταβλητής και προκύπτουν με μάθηση με επίβλεψη. Στα πρότυπα πληροφόρησης περιλαμβάνονται οι κανόνες συσχέτισης (association rules), τα ακολουθιακά πρότυπα (sequential patterns) και οι ομάδες (clusters), ενώ στα μοντέλα πρόβλεψης ανήκουν οι κανόνες κατηγοριοποίησης (classification rules), τα δέντρα απόφασης (decision trees), η μάθηση κανόνων (concept learning), η μάθηση με βάση τα παραδείγματα, η μάθηση με βάση την θεωρία του Bayes κλπ. Παράλληλα, ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί ανάλογα με το επίπεδο γενίκευσης της εξορυγμένης γνώσης (γενική, πρώτου επιπέδου ή πολυεπίπεδη γνώση). Σύμφωνα με την τεχνική που θα χρησιμοποιηθεί: Οι τεχνικές μπορούν να περιγραφούν είτε από το βαθμό παρέμβασης του χρήστη (αυτόνομα συστήματα, συστήματα οδηγούμενα από ερωτήματα, διαλογικά συστήματα κ.λπ.) είτε από την μέθοδο ανάλυσης των δεδομένων (συστήματα γενικής εξόρυξης, εξόρυξης βασισμένης στα πρότυπα, OLAP, εξόρυξης βασισμένης στη στατιστική ή στα μαθηματικά, νευρωνικά δίκτυα, κ.λπ.). Σύμφωνα με το πεδίο εφαρμογής της εξόρυξης δεδομένων: Είναι δυνατή η ανάπτυξη συστημάτων εξόρυξης δεδομένων μόνο για συγκεκριμένου τύπου εφαρμογές, όπως για παράδειγμα οικονομικές, χρηματιστηριακές, γενετικές κ.λπ. 2.6 Επισκόπηση των Βασικότερων Τεχνικών ΕΔ Ο σκοπός της KDD διαδικασίας καθορίζεται κατά περίπτωση από τον χρήστη. Γενικά, διακρίνονται δύο είδη σκοπών: α) Επαλήθευση, όπου το σύστημα καλείται να επιβεβαι- -11-

18 ώσει την υπόθεση που έχει κάνει ο χρήστης (DSS) και β) Ανακάλυψη, όπου το σύστημα βρίσκει αυτόνομα νέα πρότυπα (Data Mining). Η Ανακάλυψη μπορεί να χωριστεί σε Πρόβλεψη και σε Περιγραφή. Η Πρόβλεψη στοχεύει στον υπολογισμό της μελλοντικής αξίας ή στην εύρεση μοντέλων με σκοπό την πρόβλεψη της μελλοντικής συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και εξαρτώνται από τη συμπεριφορά άλλων μεταβλητών. Η Περιγραφή στοχεύει στην ανακάλυψη προτύπων με σκοπό την παρουσίαση των δεδομένων μιας πολύπλοκης βάσης δεδομένων σε κάποιο χρήστη σε κατανοητή μορφή. Ένας μεγάλος αριθμός εργαλείων εξόρυξης δεδομένων έχουν αναπτυχθεί για να ι- κανοποιήσουν τις απαιτήσεις διαφορετικών εφαρμογών. Στη συνέχεια παρουσιάζονται οι βασικότερες διεργασίες εξόρυξης δεδομένων Κατηγοριοποίηση H κατηγοριοποίηση (classification) αποτελεί μία από τις σημαντικότερες διεργασίες ε- ξόρυξης δεδομένων. Στόχος είναι η δημιουργία ενός μοντέλου το οποίο θα ταξινομεί ένα νέο αντικείμενο (μη κατηγοριοποιημένο), εξετάζοντας τα χαρακτηριστικά του, σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν αναπαρίστανται από τις εγγραφές της βάσης δεδομένων και η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες. Ο ακριβής ορισμός της κατηγοριοποίησης είναι η διαδικασία εύρεσης κοινών χαρακτηριστικών σε ένα σύνολο οντοτήτων μιας βάσης δεδομένων και, στη συνέχεια, ο διαχωρισμός τους σε κλάσεις σύμφωνα με ένα μοντέλο ομαδοποίησης. Οι βασικές απαιτήσεις για την σωστή εφαρμογή των αλγορίθμων κατηγοριοποίησης είναι: i. Η ύπαρξη ή εξαγωγή ενός καλά ορισμένου συνόλου κλάσεων, και ii. Ένα σύνολο εκπαίδευσης από προ-ταξινομημένα δεδομένα τα οποία θα είναι αντιπροσωπευτικά της απαιτούμενης ταξινόμησης. Πιο συγκεκριμένα, η κατηγοριοποίηση μπορεί να περιγραφεί ως μια διαδικασία δύο βημάτων: 1 ο Βήμα: Mάθηση (Learning): Σε αυτό το βήμα, ένα αντιπροσωπευτικό δείγμα της βάσης δεδομένων, το οποίο καλείται σύνολο εκπαίδευσης (training data), αναλύεται από έναν αλγόριθμο κατηγοριοποίησης για να αναπτυχθεί ένα μοντέλο προκαθορισμένων -12-

19 κλάσεων (ομάδων) χρησιμοποιώντας τα γνωρίσματα τα οποία είναι διαθέσιμα στο σύνολο. Τα στοιχεία αυτού του υποσυνόλου επιλέγονται τυχαία από έναν πληθυσμό δεδομένων και ανήκουν σε μία από τις προκαθορισμένες κατηγορίες. Το μοντέλο που προκύπτει, γνωστό και ως κατηγοριοποιητής (classifier), αναπαρίσταται με τη μορφή κανόνων κατηγοριοποίησης (classification rules) ή δέντρων απόφασης (decision trees) ή μαθηματικών τύπων (mathematical formulas). 2 ο Βήμα: Κατηγοριοποίηση (Classification): Στο δεύτερο βήμα της διαδικασίας χρησιμοποιούνται τα δοκιμαστικά δεδομένα (test data) για να εκτιμηθεί η ακρίβεια του μοντέλου. Υπάρχουν διάφορες μέθοδοι για τον υπολογισμό της ακρίβειας του κατηγοριοποιητή (classifier). Η ακρίβεια του μοντέλου είναι το ποσοστό των δειγμάτων δοκιμής που κατηγοριοποιήθηκαν σωστά από το υπό εκπαίδευση μοντέλο. Εάν η ακρίβεια του μοντέλου θεωρείται αποδεκτή, το μοντέλο μπορεί να χρησιμοποιηθεί για την ταξινόμηση κάθε νέου συνόλου δεδομένων, δηλαδή δεδομένων των οποίων η κατηγοριοποίηση είναι άγνωστη. Οι πιο διαδεδομένες μέθοδοι κατηγοριοποίησης είναι: Η Bayesian κατηγοριοποίηση Τα δέντρα απόφασης Η μάθηση εννοιών Η μάθηση κατά περίπτωση Τα νευρωνικά δίκτυα Οι μηχανές διανυσμάτων υποστήριξης (Support Vector Machines) Bayesian κατηγοριοποίηση Η Bayesian κατηγοριοποίηση προβλέπει τις πιθανότητες μια νέα εγγραφή να ανήκει σε μια από τις προκαθορισμένες κατηγορίες. Όπως είναι προφανές, στηρίζεται στο στατιστικό θεώρημα ταξινόμησης του Bayes, το οποίο υπολογίζει την μεταγενέστερη πιθανότητα ενός γεγονότος δεσμευμένου σε κάποιο άλλο. Πρόκειται για μια προσέγγιση η οποία στηρίζεται στην υπόθεση ότι οι ποσότητες που μας ενδιαφέρουν διέπονται από κατανομές πιθανοτήτων και ότι η εξαγωγή συμπερασμάτων με αυτές τις πιθανότητες σε συνδυασμό με δεδομένα που παρατηρούνται μπορούν να οδηγήσουν στη λήψη βέλτιστων αποφάσεων. Οι απαιτήσεις για την ανάπτυξη και εφαρμογή μιας κατηγοριοποίησης είναι: 1. Η γνώση της πρότερης πιθανότητας (prior probability) p(c i ) για κάθε κλάση c i. -13-

20 2. Η γνώση της συνάρτησης πυκνότητας πιθανότητας υπό συνθήκη για p(x c i ) [0,1]. Με τον τρόπο αυτό είναι δυνατή η εξαγωγή της μεταγενέστερης πιθανότητας q(c i x), χρησιμοποιώντας τον τύπο του Bayes: q(c i x) = p(x c i ) p(c i ) p(x) όπου p(x) είναι η πρότερη πιθανότητα του δείγματος. Κατά τη διάρκεια της ταξινόμησης κατά Bayes, για κάθε νέα περίπτωση υπολογίζεται η πιθανότητα να ανήκει σε μία από τις κλάσεις c 1, c 2,,c n και κατατάσσεται στην κλάση με την υψηλότερη μεταγενέστερη πιθανότητα. Στην κατηγοριοποίηση, κάθε παράδειγμα μπορεί προοδευτικά να αυξήσει ή να μειώσει την πιθανότητα μια υπόθεση να είναι σωστή, γεγονός που παρέχει έναν πιο ευέλικτο τρόπο μάθησης σε σχέση με άλλους αλγορίθμους που διαγράφουν τελείως μια υπόθεση αν δεν είναι συμβατή έστω και με ένα μόνο παράδειγμα. Επιπλέον προϋπάρχουσα γνώση μπορεί να συνδυαστεί με τα δεδομένα εκπαίδευσης με τη μορφή αρχικών τιμών πιθανότητας για τις υπό εξέταση υποθέσεις. Τα μειονεκτήματα της μεθόδου αυτής είναι ότι είναι απαραίτητη η γνώση όλων των πιθανοτήτων των κλάσεων εκ των προτέρων και το ιδιαίτερα μεγάλο υπολογιστικό κόστος. Αν δεν υπάρχει αυτή η γνώση, τότε πρέπει να υπολογιστεί κατ εκτίμηση από παλαιότερα δεδομένα, εμπειρική γνώση, υποθέσεις για τη μορφή της κατανομής αυτών των πιθανοτήτων, κτλ. Μια σημαντική απλουστευμένη εκδοχή της μάθησης κατά Bayes είναι ο απλός ταξινομητής Bayes, γνωστός και ως Naϊve Bayesian κατηγοριοποιητής. Αυτός υποθέτει ότι το αποτέλεσμα της τιμής ενός χαρακτηριστικού για μια συγκεκριμένη κατηγορία είναι ανεξάρτητο από τις τιμές των άλλων χαρακτηριστικών. Αυτή η υπόθεση γίνεται για να απλοποιήσει τους υπολογισμούς που εμπλέκονται και καλείται υπό συνθήκη ανεξαρτησία (class conditional independence) κατηγορίας. Μελέτες έχουν δείξει ότι η απόδοση του Naϊve Bayes είναι συγκρίσιμη με αυτή των δέντρων απόφασης και των νευρωνικών δικτύων. Ένας άλλος Bayesian κατηγοριοποιητής είναι τα Bayesian Belief Νetworks. Είναι γραφικά μοντέλα όπου χρησιμοποιούμενα, αντίθετα με τους Naϊve Bayesian κατηγο- -14-

21 ριοποιητές, επιτρέπουν την παρουσίαση των εξαρτήσεων μεταξύ των υποσυνόλων των χαρακτηριστικών. Δέντρα απόφασης Τα δέντρα απόφασης είναι μία από τις πιο διαδεδομένες μεθόδους ταξινόμησης, γι αυτό και ονομάζονται και δέντρα ταξινόμησης (classification trees), και χρησιμοποιούνται συχνά για την επίλυση προβλημάτων πρόβλεψης. Είναι μία μέθοδος που χρησιμοποιείται για να προσεγγίσει συναρτήσεις στόχους που έχουν σαν έξοδο μόνο διακριτές τιμές. Ένα δέντρο απόφασης επάγεται από ένα σύνολο εκπαίδευσης, που αποτελείται από αντικείμενα. Κάθε αντικείμενο περιγράφεται πλήρως από ένα σύνολο χαρακτηριστικών και από μια ετικέτα κλάσης (class label). Ο στόχος ενός αλγορίθμου αναφορικά με την κατασκευή ενός μοντέλου από ένα σύνολο δεδομένων, είναι η όσο το δυνατόν μεγαλύτερη προσέγγιση της πραγματικής αντιστοίχισης ανάμεσα στο σύνολο των ιδιοτήτων και στην ετικέτα κλάσης. Υπάρχουν δύο βασικά βήματα στην επίλυση ενός προβλήματος ταξινόμησης χρησιμοποιώντας την τεχνική των δέντρων απόφασης [12]: 1. Κατασκευή του δέντρου: Τα δεδομένα εκπαίδευσης χωρίζονται αναδρομικά με βάση κάποιο χαρακτηριστικό τους μέχρις ότου όλα τα στιγμιότυπα μιας ομάδας να ανήκουν στην ίδια κλάση. 2. Για κάθε νέα περίπτωση, εφαρμόζεται το δέντρο απόφασης προκειμένου να οριστεί η κατηγορία στην οποία ανήκει. Τα βασικά χαρακτηριστικά ενός δέντρου απόφασης είναι: Ρίζα: Το γνώρισμα που επιλέγεται ως η βάση, πάνω στην οποία χτίζεται το δέντρο. Εσωτερικός κόμβος: Ένα γνώρισμα το οποίο βρίσκεται στο εσωτερικό του δέντρου. Κλάδος: Μια από τις πιθανές τιμές του γνωρίσματος που βρίσκεται στον κόμβο από τον οποίο ξεκινά ο κλάδος. Φύλλο: Μια από τις καθορισμένες κλάσεις. Επομένως, κάθε κόμβος στο δέντρο ορίζει μια συνθήκη που ελέγχει την τιμή κάποιου χαρακτηριστικού των δεδομένων εκπαίδευσης και κάθε κλαδί που ξεκινά από τον κόμβο αυτό αντιστοιχεί σε μια διαφορετική διακριτή τιμή του συγκεκριμένου χαρακτηριστικού. Η διαδικασία για την κατηγοριοποίηση (πρόβλεψη) μια νέας περίπτωσης με βάση ένα δέντρο απόφασης είναι η ακόλουθη: Ξεκινώντας από τη ρίζα του δέντρου και εξε- -15-

22 τάζοντας τις ιδιότητες που καθορίζονται από τον κόμβο αυτό προσδιορίζονται διαδοχικά οι εσωτερικοί κόμβοι που θα επισκεφτούμε έως ότου καταλήξουμε σε ένα φύλλο. Σε κάθε κόμβο ελέγχεται η τιμή της νέας περίπτωσης για το χαρακτηριστικό του κόμβου. Ο έλεγχος αυτός θα καθορίσει και το κλαδί που θα διασχίσουμε στη συνέχεια καθώς και τον επόμενο κόμβο που θα επισκεφτούμε. Ένα παράδειγμα ταξινομείται λανθασμένα από ένα δέντρο (misclassified), αν η τιμή του φύλλου όπου καταλήγει είναι διαφορετική με την κατηγορία που πραγματικά ανήκει το συγκεκριμένο παράδειγμα. Το ποσοστό των παραδειγμάτων που ταξινομούνται σωστά καλείται ακρίβεια (accuracy), ενώ το ποσοστό των παραδειγμάτων που ταξινομούνται λανθασμένα ονομάζεται σφάλμα (error). Η αναπαράσταση που χρησιμοποιείται από τα δέντρα απόφασης είναι η διάζευξη, η οποία αποτελείται από συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών. Συγκεκριμένα, κάθε μονοπάτι από τη ρίζα προς κάποιο φύλλο αντιστοιχεί σε συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών, ενώ το δέντρο συνολικά εκφράζει τη διάζευξη αυτών των συζεύξεων, αφού αποτελείται από όλα τα εναλλακτικά μονοπάτια [1]. Συγκριτικά με τις υπόλοιπες τεχνικές εξόρυξης δεδομένων, τα δέντρα απόφασης παρουσιάζουν αρκετά πλεονεκτήματα. Πιο συγκεκριμένα, τα δέντρα απόφασης [32]: Είναι εύκολα στην κατανόηση και στην ερμηνεία. Μπορούν να χρησιμοποιηθούν εύκολα και αποτελεσματικά. Η αναγνωσιμότητα τους μπορεί να βελτιωθεί αν αναπαρασταθούν ως σύνολα κανόνων if-then που αποκαλούνται κανόνες κατηγοριοποίησης (classification rules). Μπορούν να χρησιμοποιηθούν με επιτυχία σε μεγάλες βάσεις δεδομένων και αυτό επειδή το μέγεθος της βάσης δεδομένων είναι ανεξάρτητο από το μέγεθος του δέντρου. Το μοντέλο που προκύπτει με βάση το δέντρο απόφασης μπορεί εύκολα να αξιολογηθεί με τη βοήθεια στατιστικών ελέγχων. Συνεπώς, μπορούμε εύκολα να εκτιμήσουμε την ακρίβεια του μοντέλου. Παρουσιάζουν ευρωστία και αρκετά μεγάλη ακρίβεια κατηγοριοποίησης ακόμη και σε μεγάλες βάσεις δεδομένων. Από την άλλη πλευρά, οι αλγόριθμοι μάθησης δέντρων απόφασης παρουσιάζουν και μειονεκτήματα. Κατ αρχάς, ορισμένοι αλγόριθμοι δεν μπορούν να χειριστούν σε ικανοποιητικό βαθμό δεδομένα με συνεχείς τιμές και συνεπώς απαιτείται διακριτοποίη- -16-

23 ση, δηλαδή ο μετασχηματισμός τους σ ένα πεπερασμένο σύνολο διακριτών κατηγοριών. Ωστόσο, η εφαρμογή της παραπάνω πρακτικής εισάγει υποκειμενικότητα που ε- πηρεάζει την τελική μορφή του δέντρου, καθώς υπάρχουν αρκετοί τρόποι με τους οποίους μπορεί να οριστούν οι κατηγορίες. Επιπρόσθετα, ο χειρισμός πεδίων με κενές τιμές είναι δύσκολος, καθώς σωστά κλαδιά στο δέντρο μπορεί να μην ακολουθηθούν. Παράλληλα, υπάρχει ο κίνδυνος της υπερμοντελοποίησης (overfitting) ως απόρροια της κατασκευής του δέντρου με βάση τα δεδομένα εκπαίδευσης. O κίνδυνος αυτός, όμως, μπορεί να περιοριστεί σε μεγάλο βαθμό ή ακόμη και να υπερκεραστεί με κλάδεμα (pruning) του δέντρου. Η φάση του κλαδέματος αφαιρεί κάποιες περιττές συγκρίσεις ή διαγράφει κάποια υποδέντρα με στόχο την επίτευξη καλύτερης απόδοσης. Τέλος, δεν λαμβάνονται υπόψη ενδεχόμενες συσχετίσεις μεταξύ των χαρακτηριστικών. Οι βασικοί παράγοντες που επηρεάζουν την απόδοση των αλγορίθμων μάθησης δέντρων απόφασης είναι το μέγεθος του συνόλου εκπαίδευσης και ο τρόπος επιλογής του καλύτερου χαρακτηριστικού για διαχωρισμό (best splitting attribute). Αναφορικά με το μέγεθος του συνόλου εκπαίδευσης, αν αυτό είναι πολύ μικρό, τότε το εξαγόμενο δέντρο ίσως να μη μπορεί να εφαρμοστεί σε γενικά δεδομένα. Αντιθέτως, αν είναι πολύ μεγάλο, ελλοχεύει ο κίνδυνος της υπερμοντελοποίησης. Γι αυτό κρίνεται πρωταρχικής σημασίας ο καθορισμός τόσο του κριτηρίου βάσει του οποίου θα σταματά η ανάπτυξη του δέντρου, όσο και του τρόπου με τον οποίο θα πραγματώνεται η τεχνική του κλαδέματος. Επιπλέον, σημαντικά θέματα θεωρούνται η επιλογή των χαρακτηριστικών που θα χρησιμοποιηθούν για το διαχωρισμό, αφού κάποια χαρακτηριστικά είναι καλύτερα από κάποια άλλα, η σειρά με την οποία θα επιλεγούν αυτά τα χαρακτηριστικά, ο αριθμός των διασπάσεων (splits) που θα χρησιμοποιηθούν, καθώς και η δομή του δέντρου (τα μικρότερα σε βάθος δέντρα συνήθως προτιμώνται έναντι των μεγάλων δέντρων). Υπάρχουν διάφοροι τρόποι κατασκευής δέντρων απόφασης, οι οποίοι χρησιμοποιούν διαφορετικούς αλγόριθμους επιλογής του κριτηρίου διαχωρισμού του συνόλου των δεδομένων. Οι δημοφιλέστεροι από αυτούς είναι [3]: Ο ID3 και ο C4.5: Αλγόριθμοι κέρδους πληροφορίας. Ο DBLearn: Αλγόριθμος ο οποίος δημιουργεί περιγραφές προκαθορισμένων υποσυνόλων μιας σχεσιακής βάσης δεδομένων χρησιμοποιώντας γνώση του πεδίου ορισμού της εκάστοτε εφαρμογής. -17-

24 -18- CLS: Αλγόριθμος ο οποίος εξετάζει όλα τα πιθανά δέντρα αποφάσεων μέχρι ε- νός συγκεκριμένου βάθους. Τελικά, επιλέγει αυτό το οποίο ελαχιστοποιεί το υ- πολογιστικό κόστος της ταξινόμησης ενός στοιχείου. Οι SLIQ και SPRINT: Αλγόριθμοι που επιλέγουν το χαρακτηριστικό που θα ε- λεγχθεί με βάση το δείκτη GINI και όχι το μέτρο εντροπίας. Το καλύτερο χαρακτηριστικό είναι αυτό που δίνει τη χαμηλότερη τιμή για το δείκτη GINI. Ο Αλγόριθμος ID3 Ο ID3 αναπτύχθηκε από τον J. Ross Quinlan στο Πανεπιστήμιο του Sydney και παρουσιάστηκε για πρώτη φορά στο βιβλίο του Machine Learning το Υπήρξε ο κυριότερος εκπρόσωπος των δέντρων απόφασης που η κατασκευή τους ξεκινά από την κορυφή προς τα κάτω(top Down Induction of Decision Trees TDIDT) μέχρι την έ- λευση του C4.5. Ήταν ο πρώτος αλγόριθμος που χρησιμοποίησε για κριτήριο διαχωρισμού (split criterion) το Κέρδος Πληροφορίας (Information Gain). Ο αλγόριθμος εφαρμόζεται μόνο σε κατηγορικά δεδομένα και στη γενική του μορφή περιγράφεται ως εξής [1]: 1. Εύρεση του χαρακτηριστικού το οποίο αν χρησιμοποιηθεί ως κριτήριο διαχωρισμού των δεδομένων εκπαίδευσης θα οδηγήσει σε όσο το δυνατόν πιο διαφορετικούς μεταξύ τους κόμβους σε σχέση με την εξαρτημένη μεταβλητή. 2. Πραγματοποίηση του διαχωρισμού. 3. Επανάληψη της διαδικασίας διαχωρισμού στους κόμβους που προέκυψαν έως ότου να μην είναι δυνατός περαιτέρω διαχωρισμός. Ο ID3 είναι αναδρομικός και κατασκευάζει το δέντρο άπληστα από πάνω προς τα κάτω ξεκινώντας με την επιλογή του πιο κατάλληλου χαρακτηριστικού για έλεγχο στη ρίζα. Η επιλογή αυτή στηρίζεται σε κάποιο στατιστικό μέτρο που υπολογίζεται από τα δεδομένα. Στη συνέχεια, για κάθε δυνατή τιμή του χαρακτηριστικού δημιουργούνται οι αντίστοιχοι απόγονοι της ρίζας και τα δεδομένα μοιράζονται στους νέους κόμβους ανάλογα με την τιμή που έχουν για το χαρακτηριστικό που ελέγχεται στη ρίζα. Η παραπάνω διαδικασία επαναλαμβάνεται για κάθε νέο κόμβο. Η επιλογή, όμως, του πιο κατάλληλου χαρακτηριστικό σε νέο κόμβο βασίζεται μόνο στα δεδομένα που ανήκουν σε αυτόν τον κόμβο. Η όλη διαδικασία περατώνει όταν οι κόμβοι γίνουν τερματικοί (ή φύλλα). Ένας κόμβος γίνεται φύλλο όταν όλα τα δεδομένα που ανήκουν σε αυτόν εντάσσονται στην ίδια κατηγορία. Οπότε, η κατηγορία αυτή γίνεται και η τιμή του φύλλου και ο κόμβος ονομάζεται αμιγής κόμβος (pure node). Επιπλέον, αν σε κά-

25 ποιο βάθος του δέντρου τελειώσουν τα χαρακτηριστικά προς έλεγχο, τότε ο κόμβος γίνεται τερματικός και λαμβάνει για τιμή την κατηγορία στην οποία ανήκει η πλειοψηφία των δεδομένων του κόμβου αυτού. Για την επιλογή του καταλληλότερου χαρακτηριστικού ως κόμβου χρησιμοποιείται το στατιστικό μέτρο, το Κέρδος Πληροφορίας. Το κέρδος πληροφορίας μετρά τη μείωση της εντροπίας που θα προκληθεί αν τα δείγματα ενός συνόλου χωριστούν σε ομάδες, με βάση κάποιο χαρακτηριστικό τους. Βασίζεται, λοιπόν, στην ποσότητα της Εντροπίας (Entropy), η οποία αναφέρεται στην ανομοιογένεια μιας συλλογής αντικειμένων. Όταν μειώνεται η πληροφοριακή εντροπία, αυξάνεται η πυκνότητα πληροφορίας και άρα η περιγραφή γίνεται περισσότερο συμπαγής. Έστω S ένα σύνολο που περιέχει θετικά και αρνητικά δείγματα δεδομένων που α- φορούν μια έννοια στόχο. Αν ρ + είναι το ποσοστό των θετικών και ρ - των αρνητικών παραδειγμάτων στο σύνολο S, τότε η εντροπία του συνόλου Ε(S) είναι: Ε(S) = - ρ + log 2 (p + ) - ρ - log 2 (p - ) Στην περίπτωση όπου ρ i το ποσοστό των παραδειγμάτων του S που ανήκουν στην κατηγορία i, η γενική σχέση υπολογισμού της εντροπίας για c διαφορετικές κατηγορίες είναι: Εάν Α ένα χαρακτηριστικό με σύνολο τιμών V(Α), τότε το κέρδος πληροφορίας σε σχέση με αυτό το χαρακτηριστικό είναι: E(S) είναι η εντροπία πληροφορίας του υπό εξέταση κόμβου, ενώ ο όρος αθροίσματος Σ είναι η εντροπία των παραδειγμάτων μετά το διαχωρισμό τους ανάλογα με την τιμή του χαρακτηριστικού Α και αποτελείται από το άθροισμα της εντροπίας για το κάθε σύνολο που προκύπτει μετά το διαχωρισμό, όπου u είναι μια από τις δυνατές τιμές του Α, Su είναι το πλήθος των εγγραφών με Α=u και Ε(Su) η εντροπία πληροφορίας του υπό εξέταση κόμβου ως προς την τιμή. Κατά την κατασκευή του δέντρου, ως ρίζα του δέντρου επιλέγεται το χαρακτηριστικό με το μέγιστο κέρδος πληροφορίας συνολικά, ενώ ως κόμβος επιλέγεται το χαρα- -19-

26 κτηριστικό που παρουσιάζει το μέγιστο κέρδος πληροφορίας στο τρέχον σημείο κατασκευής. Η στρατηγική αναζήτησης που ακολουθεί ο αλγόριθμος ID3 είναι η αναρρίχηση λόφων (hill climbing) και κατευθύνεται με βάση το κέρδος πληροφορίας. Ο ΙD3 κάνει αναζήτηση σε έναν χώρο υποθέσεων που απαρτίζεται από όλα τα πιθανά δέντρα αποφάσεων. Οπότε, δεν διατρέχει τον κίνδυνο να μην υπάρχει η έννοια στόχος στον χώρο αυτό και σε κάθε βήμα της αναζήτησης χρησιμοποιεί όλα τα δεδομένα εκπαίδευσης για να υπολογίσει το κέρδος πληροφορίας για τα εναλλακτικά χαρακτηριστικά. Από την άλλη πλευρά, ο ID3 διατηρεί μόνο μια συμβατή υπόθεση με τα δεδομένα κατά την αναζήτηση και επομένως, δεν είναι σε θέση να βρει όλα τα δέντρα που είναι συμβατά με τα δεδομένα. Επιπλέον, δεν έχει τη δυνατότητα οπισθοδρόμησης (backtracking) κατά τη διάρκεια της αναζήτησης. Από τη στιγμή που επιλέξει ένα χαρακτηριστικό για έλεγχο σε κάποιο κόμβο, δεν μπορεί να επιστρέψει για να αλλάξει την επιλογή αυτή. Αυτό σημαίνει ότι διατρέχει τον κίνδυνο να βρει τοπικά βέλτιστα δέντρα. Για την καλύτερη κατανόηση των παραπάνω, ακολουθεί ένα παράδειγμα του αλγορίθμου ID3. Το παράδειγμα αναφέρεται στη διεξαγωγή ενός αγώνα golf και ο Πίνακας 2.1 συνοψίζει κάποια ενδεικτικά δεδομένα. Για την επιλογή της ρίζας υπολογίζουμε το κέρδος για κάθε ένα από τα χαρακτηριστικά του συνόλου (καιρός, θερμοκρασία, υγρασία, άνεμος). Πίνακας 2.1: Δεδομένα εφαρμογής του ID3 αλγόριθμου Καιρός Θερμοκρασία Υγρασία Άνεμος Play_golf Ηλιοφάνεια Υψηλή Υψηλή Ασθενής Όχι Ηλιοφάνεια Υψηλή Υψηλή Ισχυρός Όχι Συννεφιά Υψηλή Υψηλή Ασθενής Ναι Βροχή Κανονική Υψηλή Ασθενής Ναι Βροχή Χαμηλή Κανονική Ασθενής Ναι Βροχή Χαμηλή Κανονική Ισχυρός Όχι Συννεφιά Χαμηλή Κανονική Ισχυρός Ναι Ηλιοφάνεια Κανονική Υψηλή Ασθενής Όχι Ηλιοφάνεια Χαμηλή Κανονική Ασθενής Ναι Βροχή Κανονική Κανονική Ασθενής Ναι Ηλιοφάνεια Κανονική Κανονική Ισχυρός Ναι Συννεφιά Κανονική Υψηλή Ισχυρός Ναι Συννεφιά Υψηλή Κανονική Ασθενής Ναι Βροχή Κανονική Υψηλή Ισχυρός Όχι Οπότε έχουμε: -20-

27 Gain (S, καιρός) = 0,246 Gain (S, θερμοκρασία) = 0,029 Gain (S, υγρασία) = 0,151 Gain (S, άνεμος) = 0,048 Το χαρακτηριστικό καιρός έχει το μεγαλύτερο κέρδος πληροφορίας. Οπότε, είναι το χαρακτηριστικό που ορίζεται ως ρίζα του δέντρου (Εικόνα 2.4). Κλαδιά είναι οι τιμές του χαρακτηριστικού αυτού. Εικόνα 2.4: Επιλογή ρίζας Το επόμενο βήμα είναι η επιλογή του επόμενου κόμβου. Για κάθε μία από τις τιμές τις ρίζας και καθένα από τα υπόλοιπα χαρακτηριστικά ακολουθούμε την ίδια διαδικασία, με αποτέλεσμα το τελικό δέντρο απόφασης που φαίνεται στην Εικόνα 2.5. Εικόνα 2.5: Η γραφική αναπαράσταση του δέντρου απόφασης. -21-

28 Οι Αλγόριθμοι C4.5 και C5.0 Ο αλγόριθμος C4.5 αποτελεί επέκταση του ΙD3 και επιτυγχάνει καλύτερη διαχείριση κενών πεδίων και αριθμητικών δεδομένων, καλύτερο κλάδεμα των δέντρων και αποτελεσματικότερη εξαγωγή κανόνων. Πιο συγκεκριμένα, ο αλγόριθμος C4.5 βελτιώνει τον αλγόριθμο ID3 ως εξής: Ελλιπή δεδομένα: Κατά τη κατασκευή του δέντρου απόφασης, ο αλγόριθμος αγνοεί τα ελλιπή δεδομένα. Αυτό σημαίνει ότι το κέρδος υπολογίζεται λαμβάνοντας υπόψη μόνο τις εγγραφές που έχουν τιμή. Επίσης, κατά την κατηγοριοποίηση ενός παράδειγμα με ελλιπή τιμή σε ένα χαρακτηριστικό, γίνεται πρόβλεψη αυτής της τιμής με βάση τις τιμές των υπολοίπων παραδειγμάτων για το συγκεκριμένο χαρακτηριστικό. Συνεχή δεδομένα: Τα χαρακτηριστικά που λαμβάνουν συνεχείς τιμές, χωρίζονται σε διαστήματα. Κλάδεμα: Υπάρχουν δύο σημαντικές στρατηγικές κλαδέματος στον C4.5: Αντικατάσταση του υποδέντρου (subtree replacement): Ένα υποδέντρο αντικαθίσταται από ένα φύλλο αν αυτή η αντικατάσταση έχει ως αποτέλεσμα σφάλμα κοντά σε αυτό του αρχικού υποδέντρου. Η τεχνική αυτή εφαρμόζεται ξεκινώντας από τα φύλλα και ανεβαίνοντας προς τη ρίζα. Ανύψωση υποδέντρου (subtree raising): Αντικαθιστά ένα υποδέντρο με το περισσότερο χρησιμοποιούμενο υποδέντρό του. Έτσι, ένα υποδέντρο ανυψώνεται αφού αντικαθιστά ένα υπδέντρο που βρίσκεται σε ψηλότερο επίπεδο. Και σε αυτή την περίπτωση πρέπει να λάβουμε υπόψη την αύξηση στη συχνότητα λαθών. Κανόνες: Ο C4.5 επιτρέπει την κατηγοριοποίηση είτε μέσω δέντρων απόφασης είτε μέσω κανόνων που δημιουργούνται από αυτό. Επίσης, προτείνονται κάποιες τεχνικές που απλουστεύουν τους πολύπλοκους κανόνες. Διάσπαση: Ο ID3 προτιμά τα χαρακτηριστικά με πολλές διαιρέσεις. Ωστόσο, αυτό μπορεί να οδηγήσει σε υπερπροσαρμογή. Μια οριακή περίπτωση είναι να έχουμε ένα χαρακτηριστικό που έχει μια μοναδική τιμή για κάθε παράδειγμα. Το χαρακτηριστικό αυτό θα είναι το καλύτερο αφού θα υπήρχε μόνο μία κατηγορία για κάθε διαίρεση. Μια βελτίωση θα μπορούσε να γίνει αν λάβουμε υπόψη την πληθικότητα της κάθε διαίρεσης. Αυτή η προσέγγιση χρησιμοποιεί τον Λόγο Κέρδους (Gain Ratio) αντί του Κέρδους Πληροφορίας. Ο λόγος κέρδους βασίζεται στο χαρακτηριστικό Πληροφορία -22-

29 Διαχωρισμού (Split Information), το οποίο είναι ευαίσθητο στο εύρος και την ομοιομορφία διαχωρισμού των δεδομένων από ένα χαρακτηριστικό. Ο C5.0 είναι μια εμπορική έκδοση του C4.5 που χρησιμοποιείται πολύ συχνά στα πακέτα λογισμικού εξόρυξης δεδομένων. Χρησιμοποιείται κυρίως για μεγάλα σύνολα δεδομένων. Η φάση της επαγωγής είναι όμοια με αυτή του C4.5, αλλά η δημιουργία κανόνων είναι διαφορετική. Τα αποτελέσματα που έχουν δημοσιευτεί αποδεικνύουν ότι ο C5.0 βελτιώνει τη χρήση της μνήμης κατά 90%, τρέχει πολύ πιο γρήγορα από τον C4.5 (μπορεί να τρέξει από 5,7 μέχρι και 240 φορές πιο γρήγορα) και παράγει πιο ακριβείς κανόνες. Μια πολύ σημαντική βελτίωση στην ακρίβεια του C5.0 βασίζεται στην ενίσχυση (boosting), η οποία είναι μια τεχνική που συνδυάζει διάφορους κατηγοριοποιητές. Μάθηση εννοιών Με τον όρο έννοια εννοούμε ένα υποσύνολο αντικειμένων, τα οποία ορίζονται σε σχέση με ένα μεγαλύτερο σύνολο. Εναλλακτικά, μπορούμε να θεωρήσουμε ότι η έννοια είναι μια συνάρτηση που επιστρέφει λογική τιμή: αληθή για τα αντικείμενα ενός συνόλου που ανήκουν σε αυτή και ψευδή για όλα τα άλλα. Το σύστημα, λοιπόν, τροφοδοτείται με παραδείγματα που ανήκουν (θετικά παραδείγματα) ή δεν ανήκουν (αρνητικά παραδείγματα) σε κάποια έννοια/ κατηγορία. Στη συνέχεια μοντελοποιεί κάποια γενικευμένη περιγραφή της, ώστε να μπορεί να διακρίνει αν μια νέα περίπτωση εντάσσεται σε αυτήν την έννοια [1]. Για παράδειγμα, ένα πρόβλημα θα μπορούσε να είναι ο προσδιορισμός της έννοιας «καλός πελάτης» για τη χορήγηση πιστωτικής κάρτας. Τροφοδοτώντας το σύστημα με διάφορα χαρακτηριστικά καλών και κακών πελατών, ζητείται η δημιουργία ενός μοντέλου που θα επιτρέπει την πρόβλεψη σχετικά με ένα νέο πελάτη. Ο πιο διαδεδομένος αλγόριθμος μάθησης εννοιών είναι ο αλγόριθμος απαλοιφής υ- ποψηφίων. Ο αλγόριθμος απαλοιφής υποψηφίων Ο αλγόριθμος απαλοιφής υποψηφίων (candidate elimination algorithm) περιορίζει το χώρο αναζήτησης κάνοντας γενικεύσεις και εξειδικεύσεις σε κάποιες αρχικές υποθέσεις (έννοιες) με βάση τα δεδομένα εκπαίδευσης. Χρησιμοποιεί δύο σύνολα [1]: G: είναι το σύνολο των πιο γενικών υποψήφιων υποθέσεων (Σύνορο G) S: είναι το σύνολο των πιο ειδικών υποψήφιων υποθέσεων (Σύνορο S) -23-

30 Ο αλγόριθμος απαλοιφής υποψηφίων χρησιμοποιεί και τα θετικά και τα αρνητικά παραδείγματα: επεκτείνει το S με βάση τα θετικά παραδείγματα κάνοντας γενικεύσεις και περιορίζει το G με βάση τα αρνητικά παραδείγματα κάνοντας εξειδικεύσεις έως ότου εξαντληθούν τα στοιχεία των δύο αυτών συνόλων. Όταν εξετάσει όλα τα παραδείγματα τότε τα σύνολα S και G περιέχουν όλες τις υποθέσεις που ταξινομούν σωστά τα παραδείγματα. Μια σχηματική περιγραφή του αλγόριθμου δίνεται στην Εικόνα 2.6. Τα σύνολα G και S διαχωρίζουν το χώρο των εννοιών σε περιοχές με θετικά, αρνητικά και απροσδιόριστης φύσης παραδείγματα. Κατά την εκπαίδευση το Σύνορο S επεκτείνεται, ενώ το Σύνορο G συρρικνώνεται μέχρις ότου εξαντληθούν τα παραδείγματα. Εικόνα 2.6: Σχηματική περιγραφή του αλγόριθμου απαλοιφής υποψηφίων Μάθηση κατά περίπτωση Στη μάθηση κατά περίπτωση (instance-based learning IBL) τα δεδομένα εκπαίδευσης αποθηκεύονται αυτούσια. Όταν μια νέα περίπτωση πρέπει να ταξινομηθεί, εξετάζεται η σχέση της με τα ήδη αποθηκευμένα παραδείγματα. Η μέθοδος αυτή αναβάλλει τη μάθηση μέχρι τη στιγμή που θα εμφανιστεί ένα νέο στιγμιότυπο για ταξινόμηση. Για το λόγο αυτό οι αλγόριθμοι της κατηγορίας αυτής λέγονται και αναβλητικοί (lazy learners). Οι πιο γνωστοί αλγόριθμοι αυτής της κατηγορίας είναι: Κοντινότερου γείτονα (Nearest Neighbor, NN) k- κοντινότερου γείτονα (k-nearest Neighbor, knn) Κοντινότερου γείτονα σταθμισμένης απόστασης (Distance Weighted Nearest Neighbor) Τοπικά σταθμισμένη παλινδρόμηση (Locally Weighted Regression, LWR) Συνάρτηση ακτινωτής βάσης (Radial Basis Function, RBF) -24-

31 Συλλογιστική βασισμένη σε παραδείγματα (Case Based Reasoning, CBR) Στις μεθόδους IBL το κόστος για την ταξινόμηση ενός νέου στιγμιότυπου είναι ι- διαίτερα υψηλό καθώς οι περισσότεροι υπολογισμοί πραγματοποιούνται τη στιγμή της ταξινόμησης και όχι τη στιγμή της εισαγωγής των παραδειγμάτων εκπαίδευσης. Όταν εισάγεται ένα νέο στιγμιότυπο, ελέγχεται η σχέση του με τα ήδη αποθηκευμένα παραδείγματα προκειμένου να υπολογιστεί η τιμή της συνάρτησης στόχος για το παράδειγμα αυτό. Στη χειρότερη περίπτωση, μπορεί να ελεγχθούν όλα τα παραδείγματα εκπαίδευσης. Επιπλέον, οι μέθοδοι IBL και κυρίως οι αλγόριθμοι του κοντινότερου γείτονα λαμβάνουν υπ όψη όλα τα χαρακτηριστικά των στιγμιότυπων. Έτσι, σε περίπτωση που η εξαρτημένη μεταβλητή εξαρτάται μόνο από λίγα από αυτά, υπάρχει η πιθανότητα κάποια κοντινά παραδείγματα να θεωρηθούν μακρινά [1]. Ο αλγόριθμος των k-κοντινότερων γειτόνων Τα στιγμιότυπα θεωρούνται σημεία στο n-διάστατο χώρο R n, όπου n ο αριθμός των χαρακτηριστικών (ανεξάρτητων μεταβλητών). Κάθε νέα περίπτωση τοποθετείται στο χώρο ως νέο σημείο και η τιμή του προσδιορίζεται με βάση την τιμή των k γειτονικών σημείων. Οι κοντινότεροι γείτονες ενός σημείου υπολογίζονται με βάση την Ευκλείδεια απόσταση. Έστω ένα τυχαίο στιγμιότυπο x, το οποίο περιγράφεται από ένα σύνολο χαρακτηριστικών [a 1 (x), a 2 (x),., a n (x)], όπου το a r (x) είναι το r χαρακτηριστικό του στιγμιότυπου x. Η απόσταση μια νέας περίπτωσης x που περιγράφεται από το σύνολο χαρακτηριστικών [a 1 (x ), a 2 (x ),., a n (x )]από το στιγμιότυπο x δίνεται από τον τύπο: Η τιμή της νέας περίπτωσης προκύπτει λαμβάνοντας υπόψη τις τιμές των κοντινότερων γειτόνων, βάση της απόστασης που προκύπτει από τον προηγούμενο τύπο. -25-

32 Εικόνα 2.7: Προσδιορισμός κατηγορίας με βάση τους κοντινότερους γείτονες Στην Εικόνα 2.7, όπου υπάρχουν παραδείγματα δύο κατηγοριών, η νέα περίπτωση x χαρακτηρίζεται ως θετική, αν ληφθεί υπ όψη μόνο ο κοντινότερος γείτονας (1- Nearest Neighbor) και ως αρνητική αν ληφθούν υπ όψη οι πέντε κοντινότεροι γείτονες (5-Nearest Neighbors) καθώς η πλειοψηφία αυτών έχει αρνητικό χαρακτηρισμό. Νευρωνικά δίκτυα Τα νευρωνικά δίκτυα είναι μη γραμμικά μοντέλα πρόβλεψης τα οποία μαθαίνουν μέσα από παραδείγματα. Μοντελοποιούνται σύμφωνα με τον τρόπο που λειτουργεί ο ανθρώπινος εγκέφαλος και αποτελούνται από πολλά συνδεδεμένα τμήματα επεξεργασίας. Παρέχουν ένα πρακτικό και εύκολο τρόπο για την εκμάθηση αριθμητικών και διανυσματικών συναρτήσεων με συνεχή ή διακριτά μεγέθη. Χρησιμοποιούνται τόσο για κατηγοριοποίηση όσο και για παρεμβολή [1]. Ένα νευρωνικό δίκτυο είναι είναι δομημένο σαν ένας κατευθυνόμενος γράφος με πολλούς κόμβους (nodes, τμήματα επεξεργασίας) και βέλη (arcs, διασυνδέσεις) ανάμεσα στους κόμβους. Κάθε κόμβος του γράφου είναι σαν ανεξάρτητοι νευρώνες, ενώ τα βέλη είναι σύνδεσμοι των νευρώνων Κάθε κόμβος λειτουργεί αυτόνομα (ανεξάρτητα από τους άλλους) και χρησιμοποιεί μόνο τοπικά δεδομένα (είσοδο και έξοδο στον κόμβο) για να καθοδηγήσει την επεξεργασία. Ένας τεχνητός νευρώνας α i όπως παρουσιάζεται στην Εικόνα 2.8,επιτελεί τα αμέσως ακόλουθα: Δέχεται ένα αριθμό από j εισόδους α k είτε από πραγματικά δεδομένα εισόδoυ, είτε από εξόδους από άλλους νευρώνες του νευρωνικού δικτύου. Κάθε είσοδος έχει μία τιμή βάρους w k (weight). Το σώμα του χωρίζεται σε δύο μέρη: -26-

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ. Σπουδάστρια Αρχοντοπούλου Ελένη. Εισηγητής Καθηγητής

ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ. Σπουδάστρια Αρχοντοπούλου Ελένη. Εισηγητής Καθηγητής ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ Σπουδάστρια Αρχοντοπούλου Ελένη Εισηγητής Καθηγητής Ρ γ. Γκούμας Στέφανος Καβάλα 2009 Περιεχόμενα 1. Εισαγωγή... 1 1.1.

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Βασισμένης σε Περιπτώσεις (Case Based Reasoning): Το σύστημα PAS (Property Appraisal System) ΣΤΑΥΡΟΥΛΑ ΠΡΑΝΤΣΟΥΔΗ

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Βασισμένης σε Περιπτώσεις (Case Based Reasoning): Το σύστημα PAS (Property Appraisal System) ΣΤΑΥΡΟΥΛΑ ΠΡΑΝΤΣΟΥΔΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Εκτίμηση αξίας ακινήτων με χρήση Συλλογιστικής Βασισμένης σε Περιπτώσεις (Case Based

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 5 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο Εισαγωγικές Έννοιες ημήτρης Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Υπολογιστικό Πρόβληµα

Υπολογιστικό Πρόβληµα Υπολογιστικό Πρόβληµα Μετασχηµατισµός δεδοµένων εισόδου σε δεδοµένα εξόδου. Δοµή δεδοµένων εισόδου (έγκυρο στιγµιότυπο). Δοµή και ιδιότητες δεδοµένων εξόδου (απάντηση ή λύση). Τυπικά: διµελής σχέση στις

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 - Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) - 1 - Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα, όπως γίνεται αντιληπτή στην καθημερινή ζωή, μπορεί να συνδεθεί με δύο βασικές ιδιότητες: την ικανότητά στην

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Διπλωματική Εργασία με θέμα: Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού Καραγιάννης Ιωάννης Α.Μ.

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Αναζήτηση Γνώσης σε Βάσεις Δεδομένων

Αναζήτηση Γνώσης σε Βάσεις Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΙΟΙΚΗΣΗ» Αναζήτηση Γνώσης σε Βάσεις Δεδομένων Εξόρυξη Δεδομένων

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη.

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. 4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. Η μετατροπή μιας εντολής επανάληψης σε μία άλλη ή στις άλλες δύο εντολές επανάληψης, αποτελεί ένα θέμα που αρκετές φορές έχει εξεταστεί σε πανελλαδικό

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 17η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Artificia Inteigence A Modern Approach των S. Russe και

Διαβάστε περισσότερα

Μηχανική Μάθηση. Η µηχανική µάθηση ως πρόβληµα αναζήτησης

Μηχανική Μάθηση. Η µηχανική µάθηση ως πρόβληµα αναζήτησης Μηχανική Μάθηση! Η έννοια της µάθησης σε ένα γνωστικό σύστηµα µπορεί να συνδεθεί µε δύοβασικές ιδιότητες: # Την ικανότητά του στην πρόσκτηση επιπλέον γνώσης κατά την αλληλεπίδρασή του µε το περιβάλλον

Διαβάστε περισσότερα

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής Βασισμένο σε μια εργασία των Καζαρλή, Καλόμοιρου, Μαστοροκώστα, Μπαλουκτσή, Καλαϊτζή, Βαλαή, Πετρίδη Εισαγωγή Η Εξελικτική Υπολογιστική

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Παραγώγιση Εισαγωγή Ορισμός 7. Αν y f x είναι μια συνάρτηση ορισμένη σε ένα διάστημα

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη ( )

Τεχνητή Νοημοσύνη ( ) Εβδομάδα Διάλεξη Ενδεικτικά θέματα διαλέξεων Ενδεικτικά θέματα εργαστηρίων/φροντιστηρίων 1 1 1 2 2 3 2 4 3 5 3 6 4 7 4 8 5 9 Τεχνητή Νοημοσύνη (2017-18) Γενικές πληροφορίες για το μάθημα. Εισαγωγή στην

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) 1 Προέλευση και ιστορία της Επιχειρησιακής Έρευνας Αλλαγές στις επιχειρήσεις Τέλος του 19ου αιώνα: βιομηχανική

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

Μεθοδική Ανάπτυξη Δικτυακής Υποδομής. Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής

Μεθοδική Ανάπτυξη Δικτυακής Υποδομής. Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής Μεθοδική Ανάπτυξη Δικτυακής Υποδομής Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής 14-01-2006 1 Περιεχόμενα Η ανάγκη για μεθοδικό σχεδιασμό δικτύων Μία δομημένη

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης.

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης. Ανάλογα με το αν ένας αλγόριθμος αναζήτησης χρησιμοποιεί πληροφορία σχετική με το πρόβλημα για να επιλέξει την επόμενη κατάσταση στην οποία θα μεταβεί, οι αλγόριθμοι αναζήτησης χωρίζονται σε μεγάλες κατηγορίες,

Διαβάστε περισσότερα

Λήψη αποφάσεων υπό αβεβαιότητα. Παίγνια Αποφάσεων 9 ο Εξάμηνο

Λήψη αποφάσεων υπό αβεβαιότητα. Παίγνια Αποφάσεων 9 ο Εξάμηνο Λήψη αποφάσεων υπό αβεβαιότητα Παίγνια Αποφάσεων 9 ο Εξάμηνο Επιχειρηματική Αβεβαιότητα Αβεβαιότητα είναι, η περίπτωση η οποία τα ενδεχόμενα μελλοντικά γεγονότα είναι αόριστα και αδύνατον να υπολογιστούν

Διαβάστε περισσότερα

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Περιγραφική Ανάλυση ποσοτικών μεταβλητών Περιγραφική Ανάλυση ποσοτικών μεταβλητών Στο data file Worldsales.sav (αρχείο υποθετικών πωλήσεων ανά ήπειρο και προϊόν) Analyze Descriptive Statistics Frequencies Επιλογή μεταβλητής Revenue Πατάμε στο

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 6 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2017-2018 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Διακριτά Μαθηματικά. Ενότητα 4: Εισαγωγή / Σύνολα

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Διακριτά Μαθηματικά. Ενότητα 4: Εισαγωγή / Σύνολα Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Διακριτά Μαθηματικά Ενότητα 4: Εισαγωγή / Σύνολα Αν. Καθηγητής Κ. Στεργίου e-mail: kstergiou@uowm.gr Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών Άδειες

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: μέθοδοι μονοδιάστατης ελαχιστοποίησης Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 6 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 16 ης διάλεξης

Ασκήσεις μελέτης της 16 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 16 ης διάλεξης 16.1. (α) Έστω ένα αντικείμενο προς κατάταξη το οποίο

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ Ενότητα 3: Ασυμπτωτικός συμβολισμός Μαρία Σατρατζέμη Τμήμα Εφαρμοσμένης Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΘΕΜΑ: Αναζήτηση γνώσης σε Νοσοκομειακά Δεδομένα ΤΟΡΤΟΠΙΔΗΣ ΓΕΩΡΓΙΟΣ Μηχανικός Η/Υ & Πληροφορικής Επιβλέπων: ΒΛΑΧΑΒΑΣ Π. ΙΩΑΝΝΗΣ Καθηγητής Τμ. Πληροφορικής

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 13: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Αξιολόγηση Βάσης Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο Εφαρμογές Ανάλυσης Σήματος στη Γεωδαισία Παρουσίαση η : Αρχές εκτίμησης παραμέτρων Μέρος ο Βασίλειος Δ. Ανδριτσάνος Αναπληρωτής Καθηγητής Γεώργιος Χλούπης Επίκουρος Καθηγητής Τμήμα Μηχανικών Τοπογραφίας

Διαβάστε περισσότερα

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Διαχωριστικές συναρτήσεις Ταξινόμηση κανονικών

Διαβάστε περισσότερα

ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ. Μοντέλο 3 Μ οοποοιοης. Αξιολόγηση αποτελεσμάτων συσταδοποίησης. Μπαμπαλιάρης Αθανάσιος.

ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ. Μοντέλο 3 Μ οοποοιοης. Αξιολόγηση αποτελεσμάτων συσταδοποίησης. Μπαμπαλιάρης Αθανάσιος. ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΊΔΡΥΜΑ ΚΑΒΑΛΑΣ Σχολή Διοίκησης & Οικονομίας ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ Νέα δεδομένα Μοντέλο 3 Μ οοποοιοης Σύνολο δεδομένων δοκιμής Αξιολόγηση αποτελεσμάτων συσταδοποίησης Ακρίβεια

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης 1 ΕΙΣΑΓΩΓΗ (1) Ταξινόμηση ΠΣ ανάλογα με τις λειτουργίες που υποστηρίζουν: Συστήματα Επεξεργασίας Συναλλαγών ΣΕΣ (Transaction

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων -Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a) Create

Διαβάστε περισσότερα

Συστήματα Πληροφοριών Διοίκησης

Συστήματα Πληροφοριών Διοίκησης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Συστήματα Πληροφοριών Διοίκησης Ενότητα 2: Γενική θεώρηση και κατάταξη συστημάτων πληροφοριών διοίκησης Διονύσιος Γιαννακόπουλος, Καθηγητής Τμήμα

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

Οικονόμου Παναγιώτης.

Οικονόμου Παναγιώτης. Οικονόμου Παναγιώτης panawths@gmail.com poikonomou@teilam.gr Οικονόμου Παναγιώτης 1 Παπαγεωργίου. 2 Αθήνα-Ελλάδα χρόνου 460 π.χ.? Ένας νεαρός άνδρας σκεπτόμενος το ενδεχόμενο γάμου, ζητά από τον Σωκράτη

Διαβάστε περισσότερα

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η Μονοδιάστατοι Πίνακες Τι είναι ο πίνακας γενικά : Πίνακας είναι μια Στατική Δομή Δεδομένων. Δηλαδή συνεχόμενες θέσεις μνήμης, όπου το πλήθος των θέσεων είναι συγκεκριμένο. Στις θέσεις αυτές καταχωρούμε

Διαβάστε περισσότερα

Πληρότητα της μεθόδου επίλυσης

Πληρότητα της μεθόδου επίλυσης Πληρότητα της μεθόδου επίλυσης Λήμμα: Αν κάθε μέλος ενός συνόλου όρων περιέχει ένα αρνητικό γράμμα, τότε το σύνολο είναι ικανοποιήσιμο. Άρα για να είναι μη-ικανοποιήσιμο, θα πρέπει να περιέχει τουλάχιστον

Διαβάστε περισσότερα

ΗΥ180: Λογική Διδάσκων: Δημήτρης Πλεξουσάκης. Φροντιστήριο 8 Επίλυση για Horn Clauses Λογικός Προγραμματισμός Τετάρτη 9 Μαΐου 2012

ΗΥ180: Λογική Διδάσκων: Δημήτρης Πλεξουσάκης. Φροντιστήριο 8 Επίλυση για Horn Clauses Λογικός Προγραμματισμός Τετάρτη 9 Μαΐου 2012 ΗΥ180: Λογική Διδάσκων: Δημήτρης Πλεξουσάκης Φροντιστήριο 8 Επίλυση για Horn Clauses Λογικός Προγραμματισμός Τετάρτη 9 Μαΐου 2012 Πληρότητα της μεθόδου επίλυσης Λήμμα: Αν κάθε μέλος ενός συνόλου όρων περιέχει

Διαβάστε περισσότερα

Επίλυση Προβλημάτων 1

Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων Περιγραφή Προβλημάτων Αλγόριθμοι αναζήτησης Αλγόριθμοι τυφλής αναζήτησης Αναζήτηση πρώτα σε βάθος Αναζήτηση πρώτα σε πλάτος (ΒFS) Αλγόριθμοι ευρετικής αναζήτησης

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 4η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται κυρίως στα βιβλία Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β.

Διαβάστε περισσότερα

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα