Μελέτη Του Τρόπου Διαβίωσης Ενός Φοιτητή Του Πανεπιστημίου Αιγαίου Και Συσχέτιση Με Την Αθλητικο-Ιατρική Του Κατάσταση Με Χρήση Μηχανικής Μάθησης

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Μελέτη Του Τρόπου Διαβίωσης Ενός Φοιτητή Του Πανεπιστημίου Αιγαίου Και Συσχέτιση Με Την Αθλητικο-Ιατρική Του Κατάσταση Με Χρήση Μηχανικής Μάθησης"

Transcript

1 Μελέτη Του Τρόπου Διαβίωσης Ενός Φοιτητή Του Πανεπιστημίου Αιγαίου Και Συσχέτιση Με Την Αθλητικο-Ιατρική Του Κατάσταση Με Χρήση Μηχανικής Μάθησης Η Διπλωματική Εργασία παρουσιάστηκε ενώπιον του Διδακτικού Προσωπικού του Πανεπιστημίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το Δίπλωμα του Μηχανικού Πληροφοριακών και Επικοινωνιακών Συστημάτων του Βογιατζόγλου Κωνσταντίνου και Παπαναστασίου Αντρέα ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ 2012 I

2 Η ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ ΔΙΔΑΣΚΟΝΤΩΝ ΕΠΙΚΥΡΩΝΕΙ ΤΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΤΟΥ ΒΟΓΙΑΤΖΟΓΛΟΥ ΚΩΝΣΤΑΝΤΙΝΟΥ ΚΑΙ ΠΑΠΑΝΑΣΤΑΣΙΟΥ ΑΝΤΡΕΑ : Εμμανουήλ Μαραγκουδάκης, Επιβλέπων Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Καβαλλιεράτου Εργίνα, Μέλος Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Σταματάτος Ευστάθιος, Μέλος Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ

3 ΠΕΡΙΛΗΨΗ Η διπλωματική εργασία στοχεύει στην συλλογή δεδομένων διαβίωσης και αθλητικής κατάστασης των φοιτητών στο Καρλόβασι Σάμου και στη δημιουργία ενός ευφυούς συστήματος ανακάλυψης κανόνων συσχετίσεων μεταξύ τους. Ο μεσογειακός τρόπος διατροφής/ διαβίωσης είναι αναντίρρητα συνιστώμενος από μια μεγάλη κοινότητα ιατρών, αθλίατρων, διατροφολόγων. Συνάμα, η μεγάλη πλειοψηφία των φοιτητών που διαμένουν στο Καρλόβασι προέρχεται από αστικές οικογένειες, που λόγω των γοργών ρυθμών διαβίωσης δύσκολα ακολουθούν πιστά το Μεσογειακό πρωτόκολλο διατροφής. Η προτεινόμενη έρευνα αφορά στην αποτύπωση των διατροφικών συνθηκών, του τρόπου διαβίωσης των φοιτητών στο Καρλόβασι και τη συσχέτιση με τις επιπτώσεις στις αθλητικές τους επιδόσεις και ιατρική τους κατάσταση. Σε συνεργασία με έμπειρους του συγκεκριμένου χώρου (αθλίατρους, γυμναστές, διατροφολόγους, κτλ) θα δημιουργηθεί ένα σύστημα συλλογής ανώνυμων δεδομένων και με χρήση τεχνικών Μηχανικής Μάθησης θα αξιολογηθούν τα εξαγόμενα συμπεράσματα για το βαθμό επιρροής των μεν με τα δε. Πιο συγκεκριμένα το σύστημα που θα δημιουργηθεί, θα είναι σε θέση, χρησιμοποιώντας τεχνικές εξόρυξης γνώσης όπως η Καθοδηγούμενη Εκμάθηση χρησιμοποιώντας την Κατηγοριοποίηση και η Μη Καθοδηγούμενη Εκμάθηση χρησιμοποιώντας την Συσταδοποίηση,, να προβλέπει ορισμένα στοιχεία που αφορούν την υγεία των φοιτητών, δοσμένης μιας συγκεκριμένης εισαγωγής στοιχείων που αφορούν τον τρόπο διαβίωσης και αθλητικής κατάστασης των φοιτητών στο Καρλόβασι. Οι Αλγόριθμοι που θα χρησιμοποιηθούν για την εξαγωγή των αποτελεσμάτων θα είναι ο Decision Tree, Naïve Bayes, Neural Network 2012 του Βογιατζόγλου Κωνσταντίνου και Παπαναστασίου Αντρέα Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ - 3 -

4 ABSTRACT The thesis aims in collecting data from the living and sporting life situation of the students in Karlovasi in Samos and in creating an intelligent system in order to discover the association between them. The Mediteranean way of living and eating is unquestionably recommended by a large community of physicians, athliatrons and nutritionists. At the same time, the vast majority of students which live in Karlovasi come from local familys, who find it difficult to follow the Mediterranean diet protocol because of their lifestyle. The proposed research is about the capture of dietery conditions, the way of life of sudents in Karlovasi and the correlation with the impact on athletic performance and health status of each student. In collaboration with experienced people in the same field (athliatrous, trainers, nutritionists, etc) will create a system of anonymous data collection and with the use of a machine with learning techniques will evaluate the conclusions drawn about the degree of influence with each other. More specifically the system that will be created, will be able, using data extract techniques such as Guided Learning using the classification and unstructured learning using clustering to predict certain INFORMATION concerning the health of the students based on a particular input on the lifestyle and athletic status of students in Karlovasi.The algorithms to be used to extract the results will be Decision Tree, Naive Bayes, Neural Network 2012 Vogiatzoglou Konstantinos & Andreas Papanastasiou Department of Information and Communication Systems Engineering UNIVERSITY OF THE AEGEAN - 4 -

5 ΕΥΧΑΡΙΣΤΙΕΣ ΑΦΙΕΡΩΣΕΙΣ Θα θέλαμε να ευχαριστήσουμε τον επιβλέποντα της διπλωματικής μας εργασίας καθηγητή κ. Μανώλη Μαραγκουδάκη για την πολύτιμη υποστήριξη και βοήθεια που μας προσέφερε καθόλη την περίοδο της εκπόνησης της πτυχιακής μας. Θα θέλαμε να ευχαριστήσουμε επίσης τον γιατρό, κ. Σκούτα για τις πολύ χρήσιμες συμβουλές και οδηγίες που μας έδωσε. Ευχαριστούμε το Θεόδωρος Γεωργίου, Ph.D Βιολόγος στο Ινστιτούτο Νευρολογίας και Γενετικής Κύπρου που μας βοήθησε και μας εξήγησε τους παράγοντες που επηρεάζουν τον τρόπο ζωής και την υγεία μας

6 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ 3 ABSTRACT 4 ΕΥΧΑΡΙΣΤΙΕΣ ΑΦΙΕΡΩΣΕΙΣ 5 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ 6 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ 8 ΚΑΤΑΛΟΓΟΣ ΕΙΚΟΝΩΝ 9 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 10 ΚΑΤΑΛΟΓΟΣ ΧΑΡΤΩΝ 11 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ Λίγα λόγια για τους παράγοντες που επηρεάζουν τον τρόπο ζωής και την υγεία μας Παχυσαρκία ενηλίκων (Συνθετική Εκτίμηση) Αλόγιστη Κατανάλωση αλκοόλ (Συνθετική Εκτίμηση) Κάπνισμα (Συνθετική Εκτίμηση) Ναρκωτικά Περιγραφή Σκοπός εργασίας Χρησιμότητα της εφαρμογής και παρουσίαση ενδεχομένων προβλημάτων 21 ΚΕΦΑΛΑΙΟ 2 ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ Η εξόρυξη ως στάδιο της ανακάλυψης γνώσης σε βάσεις δεδομένων Η Ανάπτυξη της Εξόρυξης γνώσης από δεδομένα Θέματα εξόρυξης γνώσης από δεδομένα Στρατηγικές εξόρυξης γνώσης Καθοδηγούμενη Εκμάθηση Κατηγοριοποίηση (classification) Αλγόριθμοι Βασισμένοι στην απόσταση Αλγόριθμοι κατηγοριοποίησης Στατιστικής Αλγόριθμοι κατηγοριοποίησης Δένδρων Αποφάσεων Αλγόριθμοι κατηγοριοποίησης Νευρωνικών Δικτύων Πρόβλεψη Μη καθοδηγούμενη εκμάθηση Συσταδοποίηση (clustering) Μέτρα αξιολόγησης της εξόρυξης γνώσης από δεδομένα Κοινωνικές επιπτώσεις της εξόρυξης γνώσης 54 ΚΕΦΑΛΑΙΟ 3 ΔΙΚΤΥΑ BAYES Εισαγωγή στην Συμπερασματική Στατιστική Εισαγωγή στη Μπεϋζιανή συμπερασματολογίας Θεώρημα του Bayes Εφαρμογή του θεωρήματος του Bayes Ορισμός ενός Δικτύου Bayes Παράδειγμα ενός δικτύου Bayes Χρήση των δικτύων Bayes στην ταξινόμηση Χρήση των δικτύων Bayes στην ταξινόμηση δεδομένων πολλαπλών ετικετών Περιορισμοί των δικτύων Bayes Εφαρμογές των δικτύων Bayes 68 ΚΕΦΑΛΑΙΟ 4 - ΠΕΙΡΑΜΑΤΙΚΕΣ ΑΞΙΟΛΟΓΗΣΕΙΣ KAI ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΕΙΡΑΜΑΤΟΣ Πειραματικες Αξιολογήσεις Decision Trees

7 Decision Tree Dependency Network Naive Bayes Dependency Network Attribute Profiles Neural Network Εκτέλεση Αλγορίθμων συστήματος Στιγμιότυπα εκτέλεσης Classification Decision Trees Στιγμιότυπα εκτέλεσης Clustering Κατασκεύη web site Home Page About Page Login Page Doctor Menu Student Menu Συμπλήρωση Αιματολογικών Εξετάσεων και προφίλ φοιτητή με το HUGIN Researcher Κατασκευή Bayesian Network Παραγωγή δεδομένων βάση Bayesian Network Εισαγωγή των τυχαίων δεδομένων στη βάση μας Δημιουργία ιστοσελίδων για μοντέλα εξόρυξης ClassificationPage Ιστοσελίδα Ομαδοποίησης Clustering Page Αποτελέσματα εκτέλεσης (Charts) Αποτελέσματα εκτέλεσης (πληροφορίες ανα εγγραφή) Δημιουργία εξομοιωτή με τη χρήση του εργαλείου Infer.net για το Bayesian Network 105 ΚΕΦΑΛΑΙΟ 5 ΕΠΙΛΟΓΟΣ Συμπεράσματα Μελλοντικές Επεκτάσεις 109 ΒΙΒΛΙΟΓΡΑΦΕΙΑ 110 ΠΑΡΑΡΤΗΜΑ 1 ΚΩΔΙΚΑΣ ΕΦΑΡΜΟΓΗΣ

8 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ ΠΙΝΑΚΑΣ 2.1: Παράδειγμα confusion matrix 34 ΠΙΝΑΚΑΣ 2.2: Πίνακας δεδομένων 38 ΠΙΝΑΚΑΣ 2.3: Παράδειγμα Bayesian κατηγοριοποίησης στα δεδομένα του παραδείγματος του ύψους 39 ΠΙΝΑΚΑΣ 3.1: Σχετικές αναλογίες των 10 δειγμάτων από έναν πληθυσμό των ΠΙΝΑΚΑΣ 3.2: Ποσοστά νέων επιχειρήσεων που καταλαμβάνουν δεδομένο μερίδιο αγοράς 56 ΠΙΝΑΚΑΣ 3.3: Πιθανότητα να βρεθεί ο επενδυτής σε κάθε κατάσταση δεδομένου x=5 και n=20 57 ΠΙΝΑΚΑΣ 3.4: Περιθώριες και από κοινού πιθανότητες να βρέξει και σήμερα και αύριο 60 ΠΙΝΑΚΑΣ 3.5: Κατανομή Πιθανοτήτων για τον κόμβο Συναγερμός δοσμένων των γεγονότων Ε="Σεισμός" και Δ="Διάρρηξη"

9 ΚΑΤΑΛΟΓΟΣ ΕΙΚΟΝΩΝ Εικόνα 2.1 Γενική προσέγγιση για την επίλυση προβλημάτων κατηγοριοποίησης 33 Εικόνα 4.1 Lift Chart για τη μεταβλητή Predict Aimatokriti 73 Εικόνα 4.2: Classification Matrix για τη μεταβλητή Predict Aimatokriti 73 Εικόνα 4.3 Confusion Matrix για τη μεταβλητή Predict Aimatokriti 73 Εικόνα 4.4: Decision Tree για τη μεταβλητή Predict Aimatokriti 74 Εικόνα 4.5 Αναλυτική κατηγοριοποίηση των τιμών της μεταβλητής Predict Aimatokriti 75 Εικόνα 4.6 Dependency Network 75 Εικόνα 4.7 Dependency Network 76 Εικόνα 4.8 Attribute Profiles για μεταβλητή Predict Aimatokriti 77 Εικόνα 4.9 Neural Network Results 78 Εικόνα 4.10 Στιγμιότυπο Decision Trees για τη μεταβλητή Αιματοκρίτης 79 Εικόνα 4.11 Στιγμιότυπο εκτέλεσης Clustering 81 Εικόνα 4.12 Στιγμιότυπο εκτέλεσης Clustering 82 Εικόνα 4.13 Σύνδεση πινάκων 83 Εικόνα 4.14 Πίνακας με όλα τα στοιχεία 85 Εικόνα 4.15 Όλοι οι πίνακες που δημιουργήσαμε για κάθε τιμή πρόβλεψης 86 Εικόνα 4.16: Home Page 87 Εικόνα 4.17: About Page 88 Εικόνα 4.18: Login Page 89 Εικόνα 4.19: Doctor Menu 89 Εικόνα 4.20: Γενική Αίματος 90 Εικόνα 4.21: Βιοχημικές Εξετάσεις 91 Εικόνα 4.22: Student Menu 92 Εικόνα 4.23: Προφίλ Φοιτητη 93 Εικόνα 4.24: Κόμβος Ζωή 95 Εικόνα 4.22: Κόμβος Αλκοόλ 96 Εικόνα 4.23: Κόμβος Health Type (1-5 τσιγάρα) 97 Εικόνα 4.24: Κόμβος Health Type (10-20 τσιγάρα) 97 Εικόνα 4.25: Κόμβος Health Type (καθόλου τσιγάρα) 97 Εικόνα 4.26: Κόμβος Κάπνισμα 98 Εικόνα 4.27: Κόμβος Αλκοόλ 98 Εικόνα 4.28:ClassificationPage 101 Εικόνα 4.29: Clustering Page 102 Εικόνα 4.30: Αποτελέσματα εκτέλεσης (Charts) 103 Εικόνα 4.31: Αποτελέσματα εκτέλεσης (πληροφορίες ανα εγγραφή) 104 Εικόνα 4.32: Οθόνη αποτελεσμάτων του infer.net

10 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ ΣΧΗΜΑ 2.1 Διαδικασία KDD 23 ΣΧΗΜΑ 2.2: Ιστορική άποψη της εξόρυξης γνώσης από δεδοµένα. 25 ΣΧΗΜΑ 2.3 Ιεραρχία στρατηγικών datamining 30 ΣXHMA 2.4: Αλγόριθμος διάσχισης δένδρου απόφασης 41 ΣΧΗΜΑ 2.5 Δέντρο απόφασης για τα δεδομένα του πίνακα 2.2 (κατηγοριοποίηση 2) 41 ΣΧΗΜΑ 2.6 Ισοζυγισμένο δένδρο 43 ΣΧΗΜΑ 2.7 Βαθύ δένδρο 43 ΣΧΗΜΑ 2.8 Θαμπώδες δένδρο 43 ΣΧΗΜΑ 2.9 Δένδρο χωρίς το χαρακτηριστικό «φύλο» 43 ΣΧΗΜΑ 2.10 Γενικός αλγόριθμος κατασκευής δένδρου απόφασης 44 ΣΧΗΜΑ 2.11: Νευρωνικό δίκτυο για τα δεδομένα του πίνακα ΣΧΗΜΑ 3.1: Δίκτυο Bayes για την πιθανότητα βροχής σήμερα και αύριο 61 ΣΧΗΜΑ 3.2: Παράδειγμα δικτύου Bayes 62 ΣΧΗΜΑ 3.3: Αναπαράσταση του απλού ταξινομητή Bayes με δίκτυο Bayes 64 ΣΧΗΜΑ 3.4: Κάλυμμα Markov της μεταβλητής Α 67 ΣΧΗΜΑ 3.5: Ένα τμήμα του δικτύου Bayes του συστήματος Pathfinder. Οι ακμές από τον κεντρικό κόμβο (Diseases) προς τα χαρακτηριστικά αναπαριστούν την επιρροή που έχει η ασθένεια στη εμφάνιση των χαρακτηριστικών. Οι ακμές ανάμεσα στα χαρακτηριστικά υποδεικνύουν εξαρτήσεις των τιμών των πιθανοτήτων στα χαρακτηριστικά. 69 ΣΧΗΜΑ 3.6: Παράδειγμα στρατηγικής επιλογής ερωτήσεων 70 ΣΧΗΜΑ 3.7: Μοντέλο μαθητή όπου περιγράφονται οι σχέσεις μεταξύ των δεξιοτήτων και των παρανοήσεων. 71 ΣΧΗΜΑ 3.8: Δίκτυο με 4 κόμβους που θα προσομειώσουμε στο infer.net 92 ΣΧΗΜΑ 4.1: Σχήμα λειτουργίας βάσης 83 ΣΧΗΜΑ 4.2: Κατευθυνόμενοι Άκυκλοι Γράφοι 94 ΣΧΗΜΑ 4.3: το Bayesian Network που αφορά το προφίλ του φοιτητή. 95 ΣΧΗΜΑ 4.4: Δίκτυο με 4 κόμβους που θα προσομειώσουμε στο infer.net

11 ΚΑΤΑΛΟΓΟΣ ΧΑΡΤΩΝ Χάρτης 1: Ενήλικη Παχυσαρκία 14 Χάρτης 2: Ενήλικη άμετρη κατανάλωση οινοπνεύματος 16 Χάρτης 3 : Ενήλικη Επικράτηση του Καπνίσματος 18 Χάρτης 4: Επαφή με ναρκωτικά

12 Κεφάλαιο 1 - Εισαγωγή 1.1 Λίγα λόγια για τους παράγοντες που επηρεάζουν τον τρόπο ζωής μας και την υγεία μας. (Παχυσαρκία, κατανάλωση αλκοόλ, κάπνισμα, ναρκωτικά ) Ο αντίκτυπος της συμπεριφοράς στην υγεία. Μια ποικιλία συνηθειών του καθημερινού τρόπου ζωής ή άλλων σχετικών συνηθειών που αφορούν την υγεία, (παράγοντες συμπεριφοράς), υλικοί παράγοντες (όπως το περιβάλλον και το βιοτικό επίπεδο), και ψυχολογικοί παράγοντες (για παράδειγμα το άγχος και ανάληψη ευθύνης και ρίσκου) μπορεί να έχουν σημαντικές επιπτώσεις στην υγεία ενός ατόμου. Παράγοντες που συχνά διαπλέκονται μεταξύ τους, για παράδειγμα όταν μια συγκεκριμένη κοινωνική ομάδα, ζει σε μια γειτονιά, παράγοντας ανισότητες που οδηγούν σε προβλήματα υγείας. Τέτοιες συμπεριφορές και κοινωνικά ζητήματα που έχουν επιπτώσεις στην υγεία περιλαμβάνουν το κάπνισμα, τη διατροφή, το αλκοόλ (τα οποία πολλές φορές είναι υπαίτια για θανάτους από καρκίνο και της στεφανιαίας νόσου). Η κακή διατροφή οδηγεί στην παχυσαρκία (μείωση του προσδοκώμενου ορίου ζωής) ή εναλλακτικά, ο υποσιτισμός, η έλλειψη σωματικής άσκησης, σεξουαλική συμπεριφορά, (για παράδειγμα που οδηγεί σε μολύνσεις ή εφηβική εγκυμοσύνη) και προβλήματα που προκύπτουν από τη λήψη ναρκωτικών. Εκτιμήσεις των παραγόντων του τρόπου ζωής σε μικρές περιοχές, δεν είναι διαθέσιμες. Ωστόσο, μια σειρά από τεχνικές μπορούν να χρησιμοποιηθούν για την εκτίμηση των τοπικών τιμών, από δεδομένα εθνικών ερευνών, ειδικά από την Αγγλική Έρευνα Υγείας. Οι χάρτες 1 έως 3, παρέχουν τοπικές γεωγραφικές εκτιμήσεις σχετικά με παράγοντες συμπεριφοράς που αφορούν την υγεία, παρουσιάζοντας σε πεμπτημόρια το αναμενόμενο ποσοστό των ενηλίκων που είναι παχύσαρκοι, που καπνίζουν ή πίνουν αλκοόλ με πιθανές συνέπειες στην υγεία τους. Τα δεδομένα έχουν παραταχθεί με τη μορφή συνθετικών εκτιμήσεων του Οργανισμού Πρωτοβάθμιας Φροντίδας, βάση εθνικών ερευνών. Ο χάρτης 4 συνοψίζει αποκλίσεις στα ποσοστά επαφής για υπηρεσίες θεραπείας από ουσιοεξαρτήσεις Παχυσαρκία ενηλίκων (Συνθετική Εκτίμηση) Το υπερβολικό βάρος μπορεί να συμβάλλει ή να οδηγήσει σε μια σειρά από παθήσεις όπως: καρδιακές παθήσεις, υψηλή πίεση αίματος, δυσπεψία και ορισμένων μορφών καρκίνου. Τα επίπεδα της παιδικής παχυσαρκίας και ο αυξημένος αριθμός των ενηλίκων που παρουσιάζουν προβλήματα βάρους, κακής διατροφής ή ανεπαρκής σωματικής αύξησης γίνονται όλο και περισσότερο θέμα για τις υπηρεσίες υγείας. Η παχυσαρκία μετράται με τη φόρμουλα του Δείκτη Μάζας Σώματος (ΔΜΣ), η οποία βασίζεται στο ύψος και το βάρος ενός ατόμου. Άτομο με ΔΜΣ μεταξύ 25 και 29,9 θεωρείται υπέρβαρο, 30 ή περισσότερο θεωρείται παχύσαρκο. Οι συνθετικές εκτιμήσεις της παχυσαρκίας έχουν περιορισμούς. Οι αναλύσεις των στοιχείων για τα επίπεδα παχυσαρκίας το 2005 δείχνουν ότι Βορειοδυτικά, οι φτωχότερες γυναίκες κερδίζουν βάρος ενώ οι φτωχότεροι άντρες είναι όλο και πιο λεπτοί. Οι συσχετίσεις

13 μεταξύ παχυσαρκίας και στέρησης, όπως παρουσιάζονται ιστορικά, δεν είναι πλέον σαφείς, ιδίως μεταξύ των νέων, όπου τα ποσοστά παχυσαρκίας αυξάνονται με ταχείς ρυθμούς. Ο χάρτης 1 δείχνει το ποσοστό των ενήλικων κατοίκων (ηλικίας 16 ετών και άνω), από το πεμπτημόριο banding, σε όλες τις βορειοδυτικές τοποθεσίες, των οποίων ο ΔΜΣ υπολογίζεται ότι είναι πάνω από 30. Τα υψηλά συνθετικά ποσοστά του ΔΜΣ διάσπαρτα σε όλη την περιοχή, μέσα σε αστικές και αγροτικές περιοχές. Μια ασυνήθιστη ομάδα σε σύγκριση με πολλές περιλήψεις υγείας, εμφανίζεται σε τοποθεσίες στην ανατολική Cumbria και Eden Valley. Αλλού, τα υψηλότερα ποσοστά παχυσαρκίας συνήθως εμφανίζονται μέσα στις τσέπες πολλών αστικών πόλεων. Ωστόσο, σε ορισμένες αστικές περιοχές, όπως Sefton και κεντρικό Liverpool, όπου τα τοπικά επίπεδα στέρησης συχνά είναι σχετικά υψηλότερα από τους περιφερειακούς μέσους όρους, σημειώνονται πολύ χαμηλότερα επίπεδα παχυσαρκίας. Στη Βορειοδυτική Τοπική Αυτοδιοίκηση τα υψηλότερα εκτιμώμενα ποσοστά παχυσαρκίας των ενηλίκων είναι: Allerdale (26,6%), Eden (25,6%) και Coopeland (24,4%), σε σύγκριση με το 22,1% της εθνικής εκτίμηση. Τα χαμηλότερα ποσοστά απαντώνται στο Liverpool (19,6%) και Manchester (20,4%)

14 Χάρτης 1: Ενήλικη Παχυσαρκία

15 1.1.2 Αλόγιστη Κατανάλωση αλκοόλ (Συνθετική Εκτίμηση) Προβλήματα αλκοολισμού μπορούν να οδηγήσουν σε προβλήματα υγείας και προώρου θανάτου, ιδίως κίρρωση του ήπατος, και μέσω της βίας που σχετίζεται με το αλκοόλ με αποτέλεσμα την επείγουσα εισαγωγή σε νοσοκομείο. Καθώς η προσοχή εστιάζεται στο ποιες ασθένειες συνδέονται με τον αλκοολισμό σε άτομα μέσης ηλικίας, γίνεται όλο και πιο ανησυχητική η τάση των νέων προς τον αλκοολισμό,κάτι το οποίο έγινε ένας πολύ συνηθισμένος τρόπος για τις βραδινές τους εξόδους. Ο αλκοολισμός, εκτός από τροχαία ατυχήματα, που συχνά οδηγούν στα τμήματα Επειγόντων Περιστατικών, σχετίζεται με την εγκληματικότητα και πολλά κοινωνικά προβλήματα. Ο χάρτης 2 παρουσιάζει το ποσοστό των ενηλίκων (ηλικίας 16 ετών και άνω), σε όλες τις Βορειοδυτικές τοποθεσίες με βάση συνθετικές εκτιμήσεις για την αμέριστη κατανάλωση αλκοόλ. Η Εθνική Στατιστική Υπηρεσία ορίζει την αμέριστη κατανάλωση αλκοόλ όπως τη λήψη οκτώ ή περισσότερων μονάδων αλκοόλ για τους άντρες και έξι ή περισσότερες μονάδες αλκοόλ για τις γυναίκες για τουλάχιστον μια μέρα της προηγούμενης βδομάδας. Οι ευρύτερες περιοχές του Merseyside και Greater Manchester βρίσκονται στο υψηλότερο πεμπτημόριο στην κατανάλωση αλκοόλ. Άλλες περιοχές που παρουσιάζουν υψηλά ποσοστά αλκοολισμού εντοπίζονται στις περιοχές τις βορειοδυτικής Cubria, Barrow και κεντρικό Blackpool και Blackburn. Στη Βορειοδυτική Τοπική Αυτοδιοίκηση τα υψηλότερα εκτιμώμενα ποσοστά της αμέριστης κατανάλωσης αλκοόλ είναι Liverpool (27,8%), Knowsley (24,9%), και Manchester (24,8%) σε σύγκριση με το 18,2% της εθνικής εκτίμησης. Τα χαμηλότερα ποσοστά απαντώνται στο Blackburn μαζί με Darwen (18,6%), Wigan (18,7%) και High Peak (18,9%)

16 Χάρτης 2: Ενήλικη άμετρη κατανάλωση οινοπνεύματος

17 1.1.3 Κάπνισμα (Συνθετική Εκτίμηση) Το κάπνισμα είναι μια σημαντική αιτία του καρκίνου του πνεύμονα, καρδιαγγειακών παθήσεων και χρόνιας αποφρακτικής πνευμονοπάθειας (COPD). Επιπλέον το κάπνισμα μπορεί να είναι ή να συμβάλλει σε πολλές άλλες μορφές καρκίνου, ή και να είναι η προϋπόθεση άλλων ασθενειών όπως άσθμα και υψηλή αρτηριακή πίεση. Έρευνες υποδεικνύουν ότι το κάπνισμα μπορεί να μειώσει το προσδόκιμο όριο ζωής κατά επτά έως οκτώ χρόνια. Ο χάρτης 3 παρουσιάζει το ποσοστό των ενηλίκων (ηλικίας 16 ετών και άνω) στα Βορειοδυτικά, με ζώνες πεμπτημορίων και με βάση συνθετικών εκτιμήσεων για τα άτομα που καπνίζουν αυτή τη στιγμή. Η κατανομή των υψηλότερων ποσοστών καπνίσματος σε πεμπτημόρια είναι πολύ παρόμοια με εκείνα της κατανάλωσης αλκοόλ, με υψηλότερα επίπεδα καπνίσματος σε Merseyside, Greater Manchester, east Lancashire, όπως επίσης και σε άλλες περιοχές όπως Blackpool, Lancaster, Preston και Crewe. Όλα έχουν αντίκτυπο στην γενική υγεία των ατόμων. Στη Βορειοδυτική Τοπική Αυτοδιοίκηση τα υψηλότερα εκτιμώμενα ποσοστά καπνίσματος είναι Knowsley (35,4%), Manchester (33,3%) και Liverpool (33,1%) και τα χαμηλότερα ποσοστά είναι στο Ribble Valley (19.7%), Macclesfield (20.4%) και Congleton (20.6%)

18 Χάρτης 3 : Ενήλικη Επικράτηση του Καπνίσματος

19 1.1.4 Ναρκωτικά Η λήψη ναρκωτικών και ιδίως ο εθισμός μπορεί να έχει καταστροφικές συνέπειες στην προσωπική υγεία του ατόμου και συνθήκες ζωής, όπως επίσης έχουν αντίκτυπο στην οικογένεια, στους φίλους και στην κοινότητα μέσα στην οποία το άτομο ζει. Η βορειοδυτική περιοχή της Αγγλίας έχει τους περισσότερους ανθρώπους που έρχονται σε επαφή με θεραπευτικές υπηρεσίες από οποιαδήποτε άλλη περιοχή. Μεταξύ του Απρίλη 2003 και Μάρτη 2004, περίπου 28,000 άτομα ήρθαν σε επαφή με δομημένες υπηρεσίες απεξάρτησης στη βορειοδυτική περιοχή. Η πλειοψηφία των ατόμων που έρχονται σε επαφή με δομημένες θεραπευτικές υπηρεσίες αναφέρουν προβλήματα που προκύπτουν από τη χρήση οπιούχων. Ο χάρτης 4 δείχνει των αριθμών των ατόμων ανά άτομα (ηλικίας 16-44), για κάθε ταχυδρομικό κώδικα στη βορειοδυτική περιοχή της Αγγλίας, που ήρθαν σε επαφή με θεραπευτικές υπηρεσίες κατά τη διάρκεια του 2003/04. Ο χάρτης παρουσιάζει υψηλές συγκεντρώσεις ανθρώπων που ζουν στις αστικές περιοχές της περιφέρειας. Ιδίως στο Merseyside και Greater Manchester. Οι άντρες αντιπροσωπεύουν τα δυο τρίτα των ατόμων, με τη συντριπτική πλειοψηφία να ανήκουν στις ομάδες απογραφής των Λευκών Βρετανών

20 Χάρτης 4: Επαφή με ναρκωτικά

21 1.2 Περιγραφή Σκοπός εργασίας Όπως διαπιστώνουμε από τα παραπάνω, οι παράγοντες οι οποίοι επηρεάζουν τον τρόπο ζωής μας και την υγεία μας είναι αρκετοί. Η διπλωματική εργασία στοχεύει στην συλλογή δεδομένων διαβίωσης και αθλητικής κατάστασης των φοιτητών στο Καρλόβασι Σάμου και στη δημιουργία ενός ευφυούς συστήματος ανακάλυψης κανόνων συσχετίσεων μεταξύ τους. Ο μεσογειακός τρόπος διατροφής/ διαβίωσης είναι αναντίρρητα συνιστώμενος από μια μεγάλη κοινότητα ιατρών, αθλίατρων, διατροφολόγων. Συνάμα, η μεγάλη πλειοψηφία των φοιτητών που διαμένουν στο Καρλόβασι προέρχεται από αστικές οικογένειες, που λόγω των γοργών ρυθμών διαβίωσης δύσκολα ακολουθούν πιστά το Μεσογειακό πρωτόκολλο διατροφής. Η προτεινόμενη έρευνα αφορά στην αποτύπωση των διατροφικών συνθηκών, του τρόπου διαβίωσης των φοιτητών στο Καρλόβασι και τη συσχέτιση με τις επιπτώσεις στις αθλητικές τους επιδόσεις και ιατρική τους κατάσταση. 1.3 Χρησιμότητα της εφαρμογής και παρουσίαση ενδεχομένων προβλημάτων Με την συγκεκριμένη εφαρμογή, σε γενικές γραμμές, ο κάθε φοιτητής θα έχει την δυνατότητα να δει μια αρκετά σημαντική εκτίμηση των μελλοντικών του συμπτωμάτων που μπορεί να παρουσιάσει με βάση τις διατροφικές συνήθειες και του τρόπου ζωής που κάνει. Βάση αυτής της εκτίμησης, θα μπορεί ο κάθε ένας να προσαρμόσει από εκεί και πέρα τον τρόπο διαβίωσής του έτσι ώστε να αποφευχθούν όποια πιθανά προβλήματα υγείας και όχι μόνο. Για να είναι όσο το δυνατό πιο έγκυρη και επιτυχημένη αυτή η εκτίμηση, θα πρέπει η συμπλήρωση των απαραίτητων στοιχείων τόσο από την πλευρά των φοιτητών, όσο αφορά τα προσωπικά τους στοιχεία για τον τρόπο ζωής τους, να γίνεται με προσεκτικότητα και σοβαρότητα όσο και από την πλευρά του Γιατρού να γίνεται με προσεκτικότητα για την αποφυγή τυχόν απροσεξιών. Εάν αυτό δεν συμβεί θα υπάρξει το πρόβλημα της λανθασμένης πληροφορίας βάση της οποίας η εφαρμογή μας θα αντλεί τις πληροφορίες της και τα αποτελέσματά της δεν θα είναι τόσο έγκυρα και υπολογίσιμα από κανέναν. Ένα άλλο πρόβλημα επίσης που υπάρχει είναι η δυσκολία στο να βρεθούν οι φοιτητές οι οποίοι θα κάνουν τις απαραίτητες αιματολογικές εξετάσεις έτσι ώστε να έχουμε τόσο πιο πλούσια και έγκυρη την βάση δεδομένων μας

22 Κεφάλαιο 2 Εξόρυξη γνώσης 2.1 Η εξόρυξη ως στάδιο της ανακάλυψης γνώσης σε βάσεις δεδομένων Οι όροι ανακάλυψη γνώσης σε βάσεις δεδοµένων (Κnowledge Discovery in Databases - σε συντοµία, ΚDD) και εξόρυξη γνώσης από δεδοµένα (data mining) συχνά χρησιµοποιούνται εναλλακτικά για την ίδια έννοια, στην πραγµατικότητα, έχουν δοθεί πολλές διαφορετικές ονοµασίες σε αυτήν τη διαδικασία ανακάλυψης χρήσιµων (κρυµµένων) προτύπων από τα δεδοµένα: εξαγωγή γνώσης, ανακάλυψη πληροφοριών, εξερευνητική ανάλυση δεδοµένων, συγκοµιδή πληροφοριών, µη επιβλεπόµενη αναγνώριση προτύπου. Στα τελευταία χρόνια, ο όρος KDD έχει χρησιµοποιηθεί για να εκφράσει µια διαδικασία που αποτελείται από πολλά βήµατα, ένα από τα οποία είναι η εξόρυξη γνώσης από δεδοµένα. ΟΡΙΣΜΟΣ 2.1. Η ανακάλυψη γνώσης σε βάσεις δεδοµένων (ΚDD) είναι η διαδικασία εύρεσης χρήσιµων πληροφοριών και προτύπων στα δεδοµένα. ΟΡΙΣΜΟΣ 2.2. Η εξόρυξη γνώσης από δεδοµένα είναι η χρήση αλγορίθµων για την εξαγωγή των πληροφοριών και προτύπων που παράγονται µε τη διαδικασία ΚDD. Η διαδικασία ΚDD συχνά θεωρείται πολύπλοκη, ωστόσο εµείς τη θεωρούµε στην πιο γενική της µορφή που περιλαµβάνει συγκεκριµένα απλούστερα βήµατα. Μία τυπική ερώτηση SQL σε µία βάση δεδοµένων µπορεί να θεωρηθεί σαν το τµήµα της εξόρυξης γνώσης από δεδοµένα µιας ΚDD διαδικασίας, Πράγµατι, αυτό µπορεί να θεωρηθεί σαν κάτι απλό και συνηθισµένο. Όµως, δεν ίσχυε κάτι τέτοιο πριν από 30 χρόνια. Εάν ήταν να µεταφερθούμε 03χρόνια μπροστά στο μέλλον,τις διαδικασίες που σήμερα βρίσκουμε δύσκολες και πολύπλοκες θα τις θεωρούσαμε εξίσου απλές.ο ορισμός της KDD περιλαμβάνει τη λέξηκλειδί χρήσιμο.εάν και μερικοί ορισμοί περιλαμβάνουν τον όρο «εν δυνάμει χρήσιμο», πιστεύουμε ότι,εάν οι πληροφορίες που βρίσκονται σε αυτή τη διαδικασία δεν είναι χρήσιμες,τότε δεν είναι στην πραγματικότητα πληροφορίες.φυσικά το αν κάτι είναι χρήσιμο ή όχι,είναι σχετική έννοια και εξαρτάται από τα άτομα που εμπλέκονται. Η KDD είναι μία διαδικασία που περιλαμβάνει πολλά διαφορετικά βήματα.η είσοδος σε αυτή τη διαδικασία είναι τα δεδομένα,και οι χρήσιμες πληροφορίες που επιθυμούν οι χρήστες είναι η έξοδος.όμως,ο αντικειμενικός σκοπός δεν είναι από την αρχή ξεκάθαρος.η διαδικασία από μόνη της είναι διαδραστική και συνήθως απαιτείται πολύς χρόνος για την ολοκλήρωσή της.για να διασφαλιστεί η χρησιμότητα και η ακρίβεια των αποτελεσμάτων αυτής της διαδικασίας,συνήθως χρειάζεται η συνεργασία ειδικών του πεδίου εφαρμογής με ειδικούς της διαδικασίας KDD καθ 'όλη τη διάρκεια της διαδικασίας αυτής

23 Το Σχήμα 2.1 επεξηγεί τη συνολική διαδικασία της ανακάλυψης γνώσης σε βάσεις δεδομένων. ΣΧΗΜΑ 2.1 Διαδικασία KDD Η KDD διαδικασία αποτελείται από τα επόμενα πέντε βήματα: Επιλογή: Τα δεδομένα που χρειάζονται για τη διαδικασία της ανακάλυψης γνώσης μπορούν να προέλθουν από πολλές διαφορετικές και ετερογενείς πηγές δεδομένων.σε αυτό το πρώτο βήμα συλλέγονται δεδομένα από διάφορες βάσεις δεδομένων, αρχεία και μη ηλεκτρονικές πηγές. Προεπεξεργασία: Τα δεδομένα που πρόκειται να χρησιμοποιηθούν κατά την διαδικασία,ίσως να είναι λανθασμένα ή ελλιπή.ίσως υπάρχουν ανώμαλα δεδομένα από πολλαπλές πηγές που περιλαμβάνουν διαφορετικούς τύπους δεδομένων και διαφορετικές μονάδες μέτρησης.σε αυτό το βήμα μπορούν να πραγματοποιηθούν πολλές και διαφορετικές δραστηριότητες.τα λανθασμένα δεδομένα μπορεί να διορθωθούν ή να αφαιρεθούν,ενώ τα ελλιπή δεδομένα πρέπει να συλλεχθούν ή να εκτιμηθούν )συχνά χρησιμοποιώντας εργαλεία εξόρυξης γνώσης από δεδομένα). Μετασχηματισμός: Τα δεδομένα που προέρχονται από διαφορετικές πηγές χρειάζεται να μετατραπούν σε ένα κοινό σχήμα για την περαιτέρω επεξεργασία τους. Μερικά δεδομένα ίσως απαιτείται να κωδικοποιηθούν ή να μετασχηματιστούν σε πιο χρήσιμα σχήματα.μπορεί να μειωθούν τα δεδομένα για να ελαττωθεί ο αριθμός των πιθανών τιμών των δεδομένων που θα ληφθούν υπόψη. Εξόρυξη γνώσης από δεδομένα : Με βάση το είδος της εξόρυξης που είναι να εκτελεστεί, σε αυτό το βήµα εφαρµόζονται αλγόριθµοι στα τροποποιηµένα δεδοµένα για να προκύψουν τα επιθυµητά αποτελέσµατα. Ερμηνεία / αξιολόγηση: Είναι πολύ σηµαντικό το πώς θα παρουσιαστούν στους χρήστες τα αποτελέσµατα της εξόρυξης γνώσης, επειδή η χρησιμότητα ή µη των αποτελεσµάτων µπορεί να εξαρτάται ακριβώς από αυτήν την παρουσίαση. Σε αυτό το τελευταίο βήµα χρησιµοποιούνται διάφορες στρατηγικές οπτικοποίησης και γραφικές διεπαφές χρήστη (GUI)

24 Για να προετοιµαστούν τα δεδοµένα για εξόρυξη γνώσης και να παραχθούν αποτελέσµατα µε περισσότερο νόηµα χρησιµοποιούνται τεχνικές µετασχηµατισµού. Για να διευκολυνθεί η χρήση αυτών των τεχνικών που απαιτούν ειδικούς τύπους κατανοµής δεδοµένων µπορεί να τροποποιηθεί η πραγµατική κατανοµή των δεδοµένων. Μπορούν να συνδυαστούν τιµές γνωρισµάτων για να δώσουν νέες τιµές, µειώνοντας έτσι την πολυπλοκότητα των δεδοµένων. Για παράδειγµα, η σηµερινή ηµεροµηνία και η ηµεροµηνία γέννησης, θα µπορούσαν να αντικατασταθούν από την ηλικία. Ένα γνώρισµα, θα µπορούσε να αντικατασταθεί από ένα άλλο. Ένα παράδειγµα θα ήταν η αντικατάσταση µίας ακολουθίας που περιέχει τις πραγµατικές τιµές ενός γνωρίσµατος, µε τις διαφορές µεταξύ των διαδοχικών τιµών. Μπορούµε να χειριστούµε ευκολότερα τις τιµές των γνωρισµάτων διαµερίζοντάς τις σε διαστήµατα και χρησιµοποιώντας αυτά τα διακριτά διαστήµατα τιµών. Μερικές τιµές δεδοµένων µπορούν και να αφαιρεθούν. Οι ακραίες τιµές, που εµφανίζονται σπάνια, µπορούν να αφαιρεθούν. Αν εφαρµοστεί µια µεταβλητή στις τιµές µπορούν να τροποποιηθούν τα δεδοµένα. Μία συνηθισµένη συνάρτηση µετασχηµατισµού είναι η χρήση του λογάριθµου της τιµής παρά της ίδιας της τιµής. Αυτές οι τεχνικές κάνουν την διαδικασία της εξόρυξης γνώσης από δεδοµένα ευκολότερη µε τη µείωση των διαστάσεων (του πλήθους των γνωρισµάτων) ή τη µείωση της µεταβλητότητας των τιµών των δεδοµένων. Η αφαίρεση των ακραίων τιµών µπορεί πραγµατικά να βελτιώσει την ποιότητα των αποτελεσµάτων. Όµως, η τροποποίηση δεδοµένων πρέπει να γίνει µε προσοχή, όπως µε προσοχή πρέπει να γίνουν και όλα τα άλλα βήµατα της διαδικασίας KDD. Εάν η τροποποίηση γίνει µε λανθασµένο τρόπο τότε θα αλλάξουν ριζικά τα δεδοµένα και τα αποτελέσµατα από την εξόρυξη γνώσης από δεδοµένα θα είναι ανακριβή. Η οπτικοποίηση (visualization) αναφέρεται ως η οπτική παρουσίαση των δεδοµένων. Η κλασική έκφραση που λέει ότι «µία εικόνα αξίζει όσο χίλιες λέξεις» βεβαίως και είναι σωστή όταν εξετάζουµε τη δοµή των δεδοµένων. Για παράδειγµα, µία γραφική παράσταση που δείχνει την κατανοµή µιας µεταβλητή ς δεδοµένων είναι πιο κατανοητή και ίσως πιο κατατοπιστική από έναν τύπο για την αντίστοιχη κατανοµή. Η χρήση των τεχνικών οπτικοποίησης επιτρέπει στους χρήστες να συνοψίζουν, να εξάγουν και να αντιλαµβάνονται πιο πολύπλοκα αποτελέσµατα από αυτά που τους επιτρέπουν να αντιλαµβάνονται οι πιο µαθηµατικοί και πιο περιγραφικοί τρόποι παρουσίασης των αποτελεσµάτων. Οι τεχνικές οπτικοποίησης µπορεί να είναι: Γραφικές: Μπορούν να χρησιµοποιηθούν οι παραδοσιακές γραφικές παραστάσεις, όπως τα ραβδογράµµατα, οι πίτες, τα ιστογράµµατα και τα γραµµογράµµατα.(lift chart όπου παρουσιάζει το ποσοστό επιτυχίας ) Γεωμετρικές: Οι γεωμετρικές τεχνικές περιλαμβάνουν θηκογράµµατα και διαγράµµατα διασποράς. Βασισμένες σε εικονίδια: Χρησιµοποιώντας σχήµατα, χρώµατα, ή εικονίδια µπορούµε να βελτιώσουµε την παρουσίαση των αποτελεσµάτων

25 Βασισµένες σε εικονοστοιχεία: Με αυτές τις τεχνικές, κάθε τιµή που αντιστοιχεί σε δεδοµένο παρουσιάζεται σαν ένα εικονοστοιχείο χρωµατισµένο µε µοναδικό τρόπο. Ιεραρχικές: Αυτές οι τεχνικές διαιρούν ιεραρχικά το χώρο παρουσίασης (οθόνη) σε περιοχές, βασιζόµενες στις τιµές των δεδοµένων. Υβριδικές: Οι προηγούµενες τεχνικές µπορούν να συνδυαστούν σε µία ενιαία παρουσίαση. Οποιαδήποτε από τις παραπάνω προσεγγίσεις µπορεί να είναι 2-διάστατη ή 3- διάστατη. Μπορούν να χρησιµοποιηθούν εργαλεία οπτικοποίησης, για να συνοψίσουν τα δεδοµένα, όπως θα έκανε από µόνη της µία τεχνική εξόρυξης γνώσης. Επιπρόσθετα, µπορεί να χρησιµοποιηθεί η οπτικοποίηση για να εµφανίσει τα πολύπλοκα αποτελέσµατα των εργασιών της εξόρυξης γνώσης από δεδοµένα. _ Η διαδικασία εξόρυξης γνώσης είναι από µόνη της πολύπλοκη. Όπως θά δούµε σε επόµενα κεφάλαια, υπάρχουν πολλοί αλγόριθµοι και πολλές εφαρµογές της εξόρυξης γνώσης από δεδοµένα. Αυτοί οι αλγόριθµοι πρέπει να εφαρµοστούν προσεκτικά για να είναι αποτελεσµατικοί. Τα πρότυπα που ανακαλύπτονται πρέπει να ερµηνεύονται και να αξιολογούνται σωστά για να προκύπτουν πληροφορίες που να είναι ακριβείς και να έχουν κάποια ιδιαίτερη σηµασία. 2.2 Η Ανάπτυξη της Εξόρυξης γνώσης από δεδομένα Η σηµερινή εξέλιξη στις λειτουργίες και στα προϊόντα της εξόρυξης γνώσης από δεδοµένα είναι αποτέλεσµα πολλών χρόνων επιρροής από πολλούς επιστηµονικούς κλάδους, όπως είναι οι βάσεις δεδοµένων, η ανάκτηση πληροφοριών, η στατιστική, οι αλγόριθµοι, και η µηχανική µάθηση (Σχήµα 2.2). ΣΧΗΜΑ 2.2: Ιστορική άποψη της εξόρυξης γνώσης από δεδοµένα

26 Μία άλλη περιοχή της πληροφορικής, που επηρέασε σηµαντικά τη διαδικασία ΚDD είναι η περιοχή των πολυµέσων και των γραφικών. Ένας βασικός στόχος είναι να µπορέσει να δοθεί µία περιγραφή µε νόηµα στα αποτελέσµατα της διαδικασίας KDD. Επειδή προκύπτουν συχνά πολλά διαφορετικά αποτελέσµατα, είναι πολύπλοκο πρόβληµα να δοθεί µία τέτοια περιγραφή. Οι τεχνικές οπτικοποίησης συχνά περιλαµβάνουν εξειδικευµένα πολυµέσα και γραφικές παρουσιάσεις. Επιπλέον, οι τεχνικές εξόρυξης γνώσης από δεδοµένα µπορούν να εφαρµοστούν σε εφαρµογές πολυµέσων. Αντίθετα µε τη µέχρι τώρα έρευνα σε αυτές τις διαφορετικές περιοχές, µία µεγάλη τάση στην περιοχή των βάσεων δεδοµένων θέλει να συνδυάζονται τα αποτελέσµατα από αυτούς τους, διαφορετικούς κατά τα φαινόµενα, επιστηµονικούς κλάδους σε µία ενοποιηµένη προσέγγιση µε βάση τα δεδοµένα ή τους αλγορίθµους. Αν και η εξέλιξη αυτή βρίσκεται σε νηπιακό στάδιο, ο τελικός της στόχος είναι να δηµιουργήσει µία σφαιρική εικόνα της περιοχής η οποία θα διευκολύνει την ολοκλήρωση, των διάφορων τύπων των εφαρµογών σε υπάρχοντα πεδία για το χρήστη. Η Τεχνητής Νοηµοσύνης (ΤΝ), της Ανάκτησης Πληροφοριών (ΑΠ), των Βάσεων Δεδοµένων (ΒΔ), και της Στατιστικής κυριαρχούν στη σύγχρονη εικόνα της εξόρυξης γνώσης από δεδοµένα. Αυτές οι διαφορετικές επιρροές από το παρελθόν, οι οποίες οδήγησαν στην ανάπτυξη της περιοχής της εξόρυξης γνώσης από δεδοµένα, συντέλεσαν στη δηµιουργία διαφορετικών απόψεων για το τι είναι στην πραγµατικότητα οι λειτουργίες της εξόρυξης γνώσης : Η επαγωγή χρησιµοποιείται για να οδηγηθούµε από µία πολύ εξειδικευµένη γνώση σε πιο γενικές πληροφορίες. Αυτό το είδος της τεχνικής συχνά υπάρχει στις εφαρµογές της ΤΝ. Επειδή ο πρωταρχικός αντικειµενικός στόχος της εξόρυξης γνώσης από δεδοµένα είναι να περιγράψει µερικά χαρακτηριστικά ενός συνόλου δεδοµένων από ένα γενικό µοντέλο, αυτή η προσέγγιση µπορεί να θεωρηθεί σαν ένα είδος συµπίεσης. Εδώ, τα λεπτοµερή δεδοµένα της βάσης δεδοµένων «αφαιρούνται» και συµπιέζονται σε µία µικρότερη περιγραφή των χαρακτηριστικών των δεδοµένων που βρίσκονται στο µοντέλο. Όπως διατυπώθηκε προηγουµένως, η διαδικασία της εξόρυξης γνώσης από δεδοµένα µπορεί να θεωρηθεί από µόνη της σαν ένας τύπος διαδικασίας υποβολής ερωτήσεων στη σχετική βάση δεδοµένων. Πράγµατι, η έρευνα στην εξόρυξη γνώσης από δεδοµένα τείνει προς την κατεύθυνση εκείνη όπου αναζητείται ο τρόπος ορισµού µιας ερώτησης εξόρυξης γνώσης και το κατά πόσο µπορεί να αναπτυχθεί µία γλώσσα ερωτήσεων (σαν την SQL) που να περιλαµβάνει τόσους πολλούς διαφορετικούς τύπους επερωτήσεων εξόρυξης γνώσης

27 Η περιγραφή µιας µεγάλης βάσης δεδοµένων µπορεί να θεωρηθεί σαν να χρησιµοποιούµε προσέγγιση προκειµένου να αποκαλυφθούν κρυµµένες πληροφορίες σχετικές µε τα δεδοµένα. Όταν εργαζόµαστε µε µεγάλες βάσεις δεδοµένων, η επίδραση του µεγέθους και η ικανότητα ανάπτυξης ενός αφηρηµένου µοντέλου µπορούν να θεωρηθούν σαν ένας τύπος προβλήµατος αναζήτησης. Έχει ενδιαφέρον να σκεφτούµε τα διαφορετικά προβλήµατα εξόρυξης γνώσης από δεδοµένα και πώς αυτά µπορούν να ειδωθούν από διαφορετικές σκοπιές ανάλογα µε την οπτική γωνία και το επιστηµονικό υπόβαθρο του ερευνητή ή του σχεδιαστή. Αναφέρουµε αυτές τις διαφορετικές απόψεις µόνο και µόνο για να δώσουµε στον αναγνώστη την «πλήρη εικόνα» της εξόρυξης γνώσης. Συχνά, λόγω διαφορετικού επιστηµονικού υπόβαθρου, µπορούµε να βρούµε τα ίδια προβλήµατα (και ίσως ακόµα και τις ίδιες λύσεις) να περιγράφονται µε διαφορετικό τρόπο. Πράγµατι, οι διαφορετικές ορολογίες µπορούν να οδηγήσουν σε παρανοήσεις και δυσαρέσκεια µεταξύ των εµπλεκοµένων. Μπορούµε να δούµε στατιστικούς να εκφράζουν τις ανησυχίες τους όταν γενικεύονται εκτιµήσεις (προσεγγίσεις), ενώ δεν θα έπρεπε να γενικεύονται. Οι ερευνητές των βάσεων δεδοµένων εκφράζουν την ανησυχία τους για τη µη αποδοτικότητα πολλών από τους προτεινόµενους αλγορίθµους ΤΝ, ιδίως όταν οι τελευταίοι χρησιµοποιούνται σε πολύ µεγάλες βάσεις δεδοµένων. Η ΑΠ και όσοι ενδιαφέρονται για την εξόρυξη γνώσης από δεδοµένα - κείµενα ανησυχούν για το ότι πολλοί αλγόριθµοι στοχεύουν µόνο σε αριθµητικά δεδοµένα. Η προσέγγιση που υιοθετείται σε αυτό το βιβλίο είναι να εξεταστούν οι συνεισφορές όλων αυτών των επιστηµονικών κλάδων στην εξόρυξη γνώσης από δεδοµένα. Υπάρχουν τουλάχιστον δύο θέµατα που χαρακτηρίζουν µία προσέγγιση εξέτασης των εννιών της εξόρυξης γνώσης από τη σκοπιά των βάσεων δεδοµένων: η αποτελεσµατικότητα και η κλιµάκωση. Όλες οι λύσεις των προβληµάτων πρέπει να είναι ικανές να εφαρµόζονται στις βάσεις δεδοµένων του πραγµατικού κόσµου. Όσον αφορά στην αποτελεσµατικότητα, ενδιαφερόµαστε για τους αλγορίθµους και τις δοµές δεδοµένων που χρησιµοποιούνται. Θα µπορούσε να χρησιµοποιηθεί παραλληλισµός για να βελτιωθεί η αποτελεσµατικότητα. Επιπλέον, είναι σηµαντικό πώς συµπεριφέρονται οι προτεινόµενοι αλγόριθµοι καθώς τροποποιείται η βάση δεδοµένων. Πολλοί αλγόριθµοι εξόρυξης γνώσης που έχουν προταθεί µπορούν να δουλέψουν καλά σε µία στατική βάση δεδοµένων, αλλά είναι ιδιαίτερα αναποτελεσµατικοί όταν γίνονται αλλαγές στη βάση δεδοµένων. Ενδιαφερόµαστε κυρίως για το πώς αποδίδουν οι αλγόριθµοι σε πολύ µεγάλες βάσεις δεδοµένων παρά για το πώς λειτουργούν σε απλοϊκά προβλήµατα. Επίσης υποθέτουµε ότι τα δεδοµένα αποθηκεύονται στο δίσκο και ότι ενδεχοµένως είναι κατανεµηµένα

28 2.3 Θέματα εξόρυξης γνώσης από δεδομένα Υπάρχουν πολλά σηµαντικά θέµατα υλοποίησης που σχετίζονται µε την εξόρυξη γνώσης από δεδοµένα: Ανθρώπινη αλληλεπίδραση: Αφού τα προβλήµατα της εξόρυξης γνώσης από δεδοµένα συνήθως δεν ορίζονται µε ακρίβεια, µπορεί να είναι αναγκαία µια αλληλεπίδραση µεταξύ των ειδικών του πεδίου εφαρµογής µε τους ειδικούς της συγκεκριµένης τεχνικής εξόρυξης γνώσης. Οι δεύτεροι χρησιµοποιούνται προκειµένου να µορφοποιήσουν τις ερωτήσεις και να βοηθήσουν στην ερµηνεία των αποτελεσµάτων. Οι πρώτοι είναι απαραίτητοι για να ταυτοποιήσουν τα δεδοµένα εκπαίδευσης και να ορίσουν τα επιθυµητά αποτελέσµατα. Υπερπροσαρµογή: Όταν προκύπτει ένα µοντέλο που συσχετίζεται µε µία δεδοµένη κατάσταση µίας βάσης δεδοµένων, είναι επιθυµητό αυτό το µοντέλο να ταιριάζει επίσης και σε µελλοντικές καταστάσεις της βάσης δεδοµένων. Η υπερπρσσαρµσγή (oνerfιtting) εµφανίζεται όταν το µοντέλο δεν ταιριάζει σε µελλοντικές καταστάσεις. Αυτό µπορεί να συµβαίνει εξαιτίας υποθέσεων που γίνονται για τα δεδοµένα ή απλά µπορεί να συµβαίνει εξαιτίας του µικρού µεγέθους των δεδοµένων εκπαίδευσης. Έστω, για παράδειγµα, ένα µοντέλο κατηγοριοποίησης που κατατάσσει τους υπαλλήλους σε 'κοντούς', 'µέτριους' ή 'ψηλούς', σε µια βάση δεδοµένων που αφορά εργαζοµένους. Εάν τα δεδοµένα εκπαίδευσης είναι αρκετά λίγα, το µοντέλο ίσως λανθασµένα δείξει ότι κάθε άτοµο µε ύψος κάτω από 1.80 είναι 'κοντό' επειδή στη βάση µε τα δεδοµένα εκπαίδευσης υπάρχει µόνο µία καταχώριση για ύψος κάτω από Σε αυτήν την περίπτωση, πολλοί υπάλληλοι λανθασµένα θα καταχωρηθούν σαν 'κοντοί'. Η υπερπροσαρµογή µπορεί επίσης να εµφανιστεί και σε άλλες περι- πτώσεις, ακόµα και όταν δεν αλλάζουν τα δεδοµένα. Ακραίες τιµές: Υπάρχουν συχνά πολλές καταχωρήσεις δεδοµένων που δεν ταιριάζουν σωστά στο µοντέλο που έχει αναπτυχθεί. Αυτό συµβαίνει συχνά στις πολύ µεγάλες βάσεις δεδοµένων. Εάν το µοντέλο που θα δηµιουργηθεί περιλαµβάνει αυτές τις ακραίες τιµές (outliers), τότε ίσως να µη συµπεριφέρεται σωστά για τα µη ακραία δεδοµένα. Ερµηνεία των αποτελεσµάτων: Με τα σηµερινά δεδοµένα, τα αποτελέσµατα από την εξόρυξη γνώσης πρέπει να ερµηνεύονται από ειδικούς του πεδίου, αλλιώς θα είναι χωρίς νόηµα για το µέσο χρήστη. Οπτικοποίηση των αποτελεσµάτων: Η οπτικοποίηση των αποτελεσµάτων των αλγορίθµων εξόρυξης γνώσης είναι χρήσιµη για να δούµε και να κατανοήσουµε ευκολότερα τα αποτελέσµατα αυτά. Μεγάλα σύνολα δεδοµένων: Τα ογκώδη σύνολα δεδοµένων δηµιουργούν προβλήµατα όταν εφαρµόζονται αλγόριθµοι εξόρυξης γνώσης που έχουν σχεδιαστεί για µικρά σύνολα δεδοµένων. Πολλές εφαρµογές µοντελοποίησης αυξάνονται εκθετικά στον αριθµό των δεδοµένων και γι'αυτόν το λόγο οι εφαρµογές αυτές είναι αναποτελεσµατικές στα µεγαλύτερα σύνολα δεδοµένων. Αποτελεσµατικά εργαλεία

29 για να αντιµετωπιστεί το πρόβληµα της κλιµάκωσης είναι η δειγµατοληψία και ο παραλληλισµός. Υψηλές διαστάσεις: Το σχήµα µίας συµβατικής βάσης δεδοµένων µπορεί να αποτελείται από πολλά διαφορετικά γνωρίσµατα. Το πρόβληµα εδώ είναι ότι ίσως δεν χρειάζονται όλα τα γνωρίσµατα για να λυθεί ένα συγκεκριµένο πρόβληµα εξόρυξης γνώσης. Στην πράξη, αν χρησιµοποιήσουµε κάποια γνωρίσµατα µπορεί να εµποδίσουµε τη σωστή ολοκλήρωση µίας εργασίας. Η χρήση άλλων γνωρισµάτων µπορεί απλά να αυξήσει τη συνολική πολυπλοκότητα και να µειώσει την απόδοση ενός αλγορίθµου. Αυτό το πρόβληµα µερικές φορές αναφέρεται σαν η κατάρά των υψηλών διαστάσεων (dimensionality curse), εwοώντας ότι υπάρχουν πολλά γνωρίσµατα (διαστάσεις) που εµπλέκονται και είναι δύσκολο να καθοριστεί ποια γνωρίσµατα πρέπει να χρησιµοποιηθούν. Μία λύση στο πρόβληµα των υψηλών διαστάσεων είναι να µειωθούν τα γνωρίσµατα, κάτι που αναφέρεται ως µείωση των υψηλών διαστάσεων (dimensionality reduction). Όµως, δεν είναι πάντα εύκολο να προσδιοριστούν τα γνωρίσµατα που δεν χρειάζονται. Δεδοµένα πολυµέσων: Οι περισσότεροι από τους αλγορίθµους που έχουν προταθεί κατά καιρούς στοχεύουν στα παραδοσιακά είδη δεδοµένων (αριθµητικά, χαρακτήρες, κείµενο, κ.λπ.). Η χρήση των δεδοµένων πολυµέσων, σαν και αυτά που βρίσκουµε στις γεωγραφικές βάσεις δεδοµένων, περιπλέκει ή καθιστά ακατάλληλους πολλούς από τους αλγορίθµους αυτούς. Ελλιπή δεδοµένα: Κατά τη διάρκεια της φάσης της προεπεξεργασίας στη διαδικασία KDD, τα δεδοµένα που λείπουν µπορούν να συµπληρωθούν µε κατ' εκτίµηση τιµές. Αυτή η προσέγγιση, καθώς και άλλες προσεγγίσεις που αντιµετωπίζουν το πρόβληµα των ελλιπών δεδοµένων, ενδεχοµένως οδηγούν σε λανθασµένα αποτελέ- σµατα κατά την εξόρυξη γνώσης από δεδοµένα. Άσχετα δεδοµένα: Μερικά γνωρίσµατα στη βάση δεδοµένων ίσως να µην έχουν ενδιαφέρον όσον αφορά στη συγκεκριµένη εργασία εξόρυξης γνώσης που πραγµατοποιείται. Δεδοµένα µε θόρυβο: Μερικές τιµές των γνωρισµάτων µπορεί να είναι άκυρες ή λανθασµένες. Αυτές οι τιµές συνήθως διορθώνονται πριν τρέξουµε την εφαρµογή της εξόρυξης γνώσης από δεδοµένα. Δεδοµένα που αλλάζουν: Οι βάσεις δεδοµένων δεν µπορεί να θεωρηθούν ότι είναι στατικές. Όµως, οι περισσότεροι αλγόριθµοι εξόρυξης γνώσης υποθέτουν ότι η βάση δεδοµένων είναι στατική. Αυτό απαιτεί ο αλγόριθµος να ξανατρέχει από την αρχή κάθε φορά που αλλάζει η βάση δεδοµένων. Ολοκλήρωση: Η διαδικασία KDD σήµερα δεν αποτελεί µέρος των συνηθισµένων εργασιών επεξεργασίας των δεδομένων.οι απαιτήσεις της DKKμπορεί να αντιμετωπίζονται σαν ιδιαίτερες,ασυνήθιστες,ή σαν απαιτήσεις της «μιας φοράς.» Οι απαιτήσεις αυτές γίνονται άρα αναποτελεσματικές και όχι αρκετά γενικές για να χρησιμοποιούνται σε συνεχή βάση.φυσικά ένας επιθυμητός στόχος είναι η

30 ενσωμάτωση των λειτουργιών της εξόρυξης γνώσης σε παραδοσιακά συστήματα διαχείρισης βάσεων δεδομένων. Εφαρμογή : Αποτελεί πρόκληση το να προσδιοριστεί η ενδεικνυόμενη χρήση για μια πληροφορία που προήλθε από τη λειτουργία της εξόρυξης γνώσης.πράγματι,η αποτελεσματική ερμηνεία των αποτελεσμάτων θεωρείται μερικές φορές,από τα στελέχη μιας επιχείρησης,πιο δύσκολο έργο από το τρέξιμο ενός αλγορίθμου.επειδή τα δεδομένα είναι πληροφορίες που δεν ήταν γνωστές στο παρελθόν,οι τεχνικές των επιχειρήσεων πρέπε~ι να τροποποιηθούν για να καθορίσουν τον τρόπο με τον οποίο θα χρησιμοποιήσουν τις κρυμμένες πληροφορίες. Αυτά τα θέματα πρέπει να αντιμετωπιστούν από τους αλγόριθμους και τα προϊόντα της εξόρυξης γνώσης από δεδομένα. 2.4 Στρατηγικές εξόρυξης γνώσης Οι στρατηγικές του data mining μπορούν να χωριστούν σε δύο γενικές κατηγορίες, στην καθοδηγούμενη και στη μη καθοδηγούμενη εκμάθηση. Η καθοδηγούμενη εκμάθηση δημιουργεί μοντέλα χρησιμοποιώντας χαρακτηριστικά εισόδου για να προβλέψει τις τιμές των χαρακτηριστικών εξόδου. Πολλοί αλγόριθμοι καθοδηγούμενης εκμάθησης επιτρέπουν μόνο ένα χαρακτηριστικό εξόδου. Άλλα εργαλεία καθοδηγούμενης εκμάθησης μας επιτρέπουν να καθορίσουμε ένα ή περισσότερα χαρακτηριστικά εξόδου. Τα χαρακτηριστικά εξόδου ονομάζονται αλλιώς εξαρτημένες μεταβλητές, επειδή το αποτέλεσμα τους εξαρτάται από τις τιμές εισόδου. Τα χαρακτηριστικά εισόδου ονομάζονται και ανεξάρτητες μεταβλητές. Όταν έχουμε μη καθοδηγούμενη εκμάθηση, δεν υπάρχει χαρακτηριστικό εξόδου. Κατά συνέπεια, όλα τα χαρακτηριστικά που χρησιμοποιούνται για να δημιουργηθούν μοντέλα είναι ανεξάρτητες μεταβλητές. Στρατηγηκές Datamining Μη Καθοδηγούμενη Εκμάθηση Καθοδηγούμενη Εκμάθηση Ανάλυση Καλαθιού Νοικοκυράς Κατηγοροποί ηση Εκτίμηση Πρόβλεψη ΣΧΗΜΑ 2.3 Ιεραρχία στρατηγικών datamining

31 2.4.1 Καθοδηγούμενη Εκμάθηση Οι στρατηγικές της καθοδηγούμενης εκμάθησης μπορούν να χωριστούν περαιτέρω ανάλογα με το αν οι μεταβλητές εξόδου είναι αριθμητικές ή κατηγορικές, καθώς και με το αν το μοντέλο έχει σχεδιαστεί για να εξακριβώσει μια υπάρχουσα κατάσταση ή να προβλέψει ένα αποτέλεσμα εξόδου Κατηγοριοποίηση (classification) Η κατηγοριοποίηση είναι πιθανό η πιο κατανοητή από όλες τις στρατηγικές data mining. Βάσει αυτής της τεχνικής, κάθε στιγμιότυπο αντιστοιχίζεται σε μία από τις προκαθορισμένες κατηγορίες ή κλάσεις. Οι αλγόριθμοι κατηγοριοποίησης απαιτούν τον καθορισμό κατηγοριών (κλάσεων) βάσει των τιμών που έχουν κάποια χαρακτηριστικά και εφαρμόζονται σε κατηγορικά δεδομένα. Οι αλγόριθμοι αυτοί έχουν μια εξαρτημένη μεταβλητή, οι τιμές της οποίας είναι διακριτές και ορισμένες και αναζητούν τον καθορισμό μιας τρέχουσας και όχι μελλοντικής συμπεριφοράς. Η κατηγοριοποίηση έχει τρία κοινά χαρακτηριστικά: Η γνώση είναι καθοδηγούμενη Η εξαρτημένη μεταβλητή είναι κατηγορική Δίνει έμφαση στο να δημιουργεί μοντέλα ικανά να μπορούν να προσθέτουν νέα στιγμιότυπα σε ένα από τα σύνολα των καλά χωρισμένων κλάσεων. Τα δεδομένα εισόδου για προβλήματα κατηγοριοποίησης είναι ένα πλήθος από εγγραφές. Κάθε εγγραφή, που καλείται επίσης και στιγμιότυπο ή χαρακτηριστικό, απεικονίζεται από μία πλειάδα (χ, y), όπου χ είναι το σύνολο των χαρακτηριστικών και y είναι ένα ιδιαίτερο χαρακτηριστικό, που ονομάζεται ετικέτα κλάσης ή χαρακτηριστικό εξόδου. Η πλειάδα των χ χαρακτηριστικών μπορεί να έχουν τιμές διακριτές ή και συνεχόμενες, ενώ η ετικέτα κλάσης πρέπει να έχει μόνο κατηγορικές διακριτές τιμές. Η κατηγοριοποίηση είναι μια διαδικασία δημιουργίας μιας συνάρτησης f η οποία αντιστοιχεί κάθε σύνολο των χαρακτηριστικών χ σε μία τιμή της κλάσης y. Η συνάρτηση αυτή ονομάζεται αλλιώς μοντέλο κατηγοριοποίησης. Ένα μοντέλο κατηγοριοποίησης είναι πολύ χρήσιμο για τους παρακάτω λόγους: Περιγραφική μοντελοποίηση: Ένα μοντέλο κατηγοριοποίησης μπορεί να χρησιμοποιηθεί ως επεξηγηματικό εργαλείο για τη διάκριση μεταξύ αντικειμένων διαφορετικής κλάσης. Παραδείγματα: Προσδιόρισε τα χαρακτηριστικά που διαφοροποιούν τα άτομα που πάσχουν από καρδιακή προσβολή από εκείνα που είναι υγιή. Ανέπτυξε το προφίλ του "επιτυχημένου" ατόμου. Κατηγοριοποίησε το ρίσκο για ένα άτομο που είναι υποψήφιο για δάνειο

32 Ανέπτυξε το προφίλ που διαφοροποιεί τους άντρες από τις γυναίκες ως θύματα χτυπημάτων Μοντέλο πρόβλεψης: Ένα μοντέλο κατηγοριοποίησης μπορεί να χρησιμοποιηθεί επίσης και για την πρόβλεψη της κλάσης ενός άγνωστου στιγμιότυπου. Παραδείγματα: Προσδιόρισε αν η απόκτηση πιστωτικής κάρτας ενός ατόμου είναι ριψοκίνδυνη Προσδιόρισε την πιθανή πάθηση ενός ασθενή. Οι τεχνικές κατηγοριοποίησης είναι καταλληλότερες για να προβλέπουν ή να περιγράφουν δεδομένα με δυαδικές ή κατηγορικές τιμές στα δεδομένα. Είναι λιγότερο αποτελεσματικοί για συνεχή τιμές στα δεδομένα, όπου για να εφαρμοστεί το μοντέλο θα πρέπει να γίνει διαχωρισμός των τιμών σε ένα συγκεκριμένο πλήθος κατηγοριών. Η τεχνική κατηγοριοποίησης είναι μια συστηματική προσέγγιση για τη δημιουργία των μοντέλων από τα δεδομένα εισόδου. Τέτοια παραδείγματα είναι δέντρα αποφάσεων, κατηγοριοποιητές βασισμένοι σε κανόνες, νευρωνικά δίκτυα, μηχανισμοί υποστήριξης διανύσματος (support vector machines) και κατηγοριοποιητές naïve Bayes. Κάθε τεχνική εφαρμόζει έναν αλγόριθμο για να προσδιορίσει ένα μοντέλο που εφαρμόζει καλύτερα στη σχέση μεταξύ δεδομένων εισόδου και δεδομένων κλάσης. Το μοντέλο που θα δημιουργηθεί από τον αλγόριθμο εκμάθησης θα πρέπει επίσης να ταιριάζει τα δεδομένα εισόδου και να προβλέπει σωστά την έξοδο και για εγγραφές οι οποίες δεν χρησιμοποιήθηκαν στην κατασκευή του μοντέλου. Επομένως ο στόχος ενός τέτοιου αλγορίθμου είναι το να δημιουργεί μοντέλα με ικανότητα γενίκευσης, π.χ., μοντέλα που προβλέπουν την έξοδο για άγνωστη προς το μοντέλο εγγραφή. Η Εικόνα 2.1 δείχνει μια γενική προσέγγιση για την επίλυση προβλημάτων κατηγοριοποίησης. Πρώτα πρέπει να εφοδιαστούν τα δεδομένα εκπαίδευσης που περιλαμβάνουν εγγραφές που οι κλάσεις τους είναι γνωστές, Το σύνολο αυτών των δεδομένων χρησιμοποιείται για να δημιουργηθεί το μοντέλο κατηγοριοποίησης, το οποίο στη συνέχεια εφαρμόζεται στο σύνολο των δεδομένων εκπαίδευσης, το οποίο περιλαμβάνει εγγραφές με άγνωστες τιμές κλάσης

33 Αλγόριθμος Εκμάθησης Δεδομένα Εκπαίδευσης Μοντέλο Εκμάθησης Μοντελο Δεδομένα Ελέγχου Εφαρμογή του μοντέλου Εικόνα 2.1 Γενική προσέγγιση για την επίλυση προβλημάτων κατηγοριοποίησης. Η αξιολόγηση εκτέλεσης του μοντέλου κατηγοριοποίησης βασίζεται στον αριθμό των εγγραφών των δεδομένων ελέγχου που προβλέπονται σωστά ή όχι από το μοντέλο. Αυτός ο αριθμός τοποθετείται σε έναν πίνακα, γνωστό ως confusion matrix. Ο Πίνακας 2.1 εφαρμόζεται για προβλήματα με δυαδικά δεδομένα εξόδου. Κάθε στιγμιότυπο fij στον πίνακα δείχνει τον αριθμό των εγγραφών από την κλάση i που προβλέπεται να ανήκει στην κλάση j. Για το στιγμιότυπο foi είναι ο αριθμός των εγγραφών από την κλάση 0 που εσφαλμένα με την πρόβλεψη τοποθετήθηκα στην κλάση 1. Βασισμένο στα στιγμιότυπα, ο αριθμός τελικά που προβλέπονται σωστά είναι το άθροισμα των foo και f11, ενώ αυτά που προβλέπονται λάθος είναι τα fo1 και f

34 ΠΙΝΑΚΑΣ 2.1: Παράδειγμα confusion matrix Προβλεπόμενη κλάση Κλάση = 1 Κλάση = o Πραγματική κλάση Κλάση = 1 f 11 f 10 Κλάση = 0 fo1 foo Παρόλο που ο παραπάνω πίνακας παρέχει την πληροφορία που χρειαζόμαστε για να εκτιμήσουμε το μοντέλο, μπορούμε να συνοψίσουμε την πληροφορία με έναν μοναδικό αριθμό που θα είναι πιο εύχρηστο για τις συγκρίσεις μεταξύ διαφόρων μοντέλων. Αυτό μπορεί να πραγματοποιηθεί χρησιμοποιώντας μια μετρική επίδοσης όπως η ακρίβεια, η οποία ορίζεται ως ακολούθως: Ισοδύναμα, η εκτίμηση του μοντέλου μπορεί να εκφραστεί και με το ποσοστό σφάλματος, που ορίζεται ως ακολούθως: Διακρίνουμε τέσσερα είδη κατηγοριών αλγορίθμων κατηγοριοποίησης. Συγκεκριμένα, υπάρχουν οι: Στατιστικοί αλγόριθμοι κατηγοριοποίησης Αλγόριθμοι κατηγοριοποίησης βασισμένοι στην απόσταση Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα δένδρα απόφασης Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα Νευρωνικά Δίκτυα

35 Αλγόριθμοι Βασισμένοι στην απόσταση Η βασική ιδέα αυτών των αλγορίθμων είναι ότι κάθε στοιχείο του συνόλου δεδομένων που απεικονίζεται στην ίδια κατηγορία θεωρείται ότι είναι πιο κοντά σε στοιχεία της ίδιας κατηγορίας από όσο είναι σε στοιχεία τα οποία ανήκουν σε άλλες κατηγορίες. Έτσι, μπορούν να χρησιμοποιηθούν μέτρα ομοιότητας (ή απόστασης) ώστε να οριστεί η «ομοιότητα» των διαφορετικών στοιχείων της Βάσης Δεδομένων. ΟΡΙΣΜΟΣ 2.3: Η ομοιότητα ανάμεσα σε δύο πλειάδες ti, και tj, sim (ti, tj), σε μια Βάση Δεδομένων είναι μια απεικόνιση από το D x D στο διάστημα [0, 1]. Έτσι sim (ti, t) e [0, 1]. Ο Αντικειμενικός σκοπός είναι να οριστεί η απεικόνιση της ομοιότητας με τρόπο ώστε οι πλειάδες που μοιάζουν μεταξύ τους περισσότερο να έχουν μεγαλύτερη τιμή ομοιότητας. Έτσι τα παρακάτω είναι επιθυμητά χαρακτηριστικά ενός καλού μέτρου ομοιότητας: Vt i e D, sim(t i, t j) = 1 Vt i, tj e D, sim(t i, tj) = 0 αν τα t i και tj δεν μοιάζουν καθόλου μεταξύ τους Vt i,, tj, t k e D, sim(t i, tj) < sim(t i, t k ) αν το t i μοιάζει περισσότερο με το t k παρά με το tj Η δυσκολία στην εφαρμογή των μέτρων ομοιότητας είναι το πώς αυτά θα εφαρμοστούν στα στοιχεία της Βάσης Δεδομένων και αυτό γιατί τα περισσότερα μέτρα ομοιότητας υποθέτουν ότι οι τιμές είναι αριθμητικές (και συχνά διακριτές) και ίσως είναι δύσκολο να χρησιμοποιηθούν σε περισσότερα γενικά και αφηρημένα είδη δεδομένων. Θα πρέπει να αναφερθεί το ότι η χρήση ενός μέτρου ομοιότητας για μια κατηγοριοποίηση οπού οι κατηγορίες έχουν προκαθοριστεί (εποπτευμένη μάθηση), είναι κάπως απλούστερη από την χρήση ενός μέτρου ομοιότητας σε μια συσταδοποίηση (clustering - μη εποπτευμένη μάθηση), όπου οι κατηγορίες δεν είναι γνωστές εκ των προτέρων. Τώρα, ας δούμε μερικά είδη αποστάσεων που χρησιμοποιούνται σαν μέτρα ομοιότητας ανάμεσα σε πλειάδες μιας Βάσης Δεδομένων. Το κάθε πεδίο μιας εγγραφής θεωρείται και μια διαφορετική διάσταση. Έτσι μια πλειάδα θεωρείται ένα σημείο στο χώρο το ν διαστάσεων. α. Ευκλείδεια απόσταση dij p k 1 x ik x jk 2 β. Σταθμισμένη Ευκλείδεια απόσταση dij p k 1 w 2 k x ik x jk 2 Όπου wk είναι κάποια βάρη που χρησιμοποιούνται για να εξισορροπήσουν την σημαντικότητα των χαρακτηριστικών (διαστάσεων)

36 γ. Απόσταση Manhattan dij p xik x jk k 1 δ. Απόσταση Minkowski dij xik x jk k 1 1 όπου λ είναι ένας ακέραιος. Αν λ=1, τότε έχουμε την απόσταση Manhattan. Αν λ=2, τότε έχουμε την απόσταση Ευκλείδεια απόσταση. Ο ρόλος του λ, όταν αυξάνεται, είναι να μεγεθύνει την απόσταση ανάμεσα στο πιο ανόμοια στοιχεία σε σχέση με τα πιο όμοια. Υπάρχουν και άλλες, λιγότερο γνωστές, αποστάσεις που έχουν εμφανιστεί στην βιβλιογραφία. Συγκεκριμένα, έχουν προταθεί ως μέτρα ομοιότητας η απόσταση Canberra, ο συντελεστής Czekanowski, απόσταση Chebychev ή Maximum. Θα ήταν λάθος να θεωρήσουμε ότι ως μέτρα ομοιότητας χρησιμοποιούνται μόνο οι διάφοροι μαθηματικοί τύποι αποστάσεων. Υπάρχουν και άλλα μέτρα ομοιότητας που έχουν εφαρμοστεί σε συστήματα ανάκτησης πληροφορίας και στις μηχανές αναζήτησης στο διαδίκτυο. Μερικά από τα μέτρα αυτά είναι το μέτρο Dice, Jaccard, Συνημίτονο, Επικάλυψη Αλγόριθμοι κατηγοριοποίησης Στατιστικής (Bayesian κατηγοριοποίηση) Η Bayesian κατηγοριοποίηση προβλέπει τις πιθανότητες έτσι ώστε μια νέα πλειάδα να ανήκει σε μια από τις προκαθορισμένες κατηγορίες. Η απόδοση αυτού του είδους κατηγοριοποίησης είναι αρκετά υψηλή και χαρακτηρίζεται από την μεγάλη ταχύτητα της διαδικασίας κατηγοριοποίησης σε μεγάλες Βάσεις Δεδομένων. Θεωρώντας ότι η συνεισφορά όλων των χαρακτηριστικών του συνόλου εκπαίδευσης είναι ανεξάρτητη και ότι κάθε ένα συνεισφέρει εξίσου στο πρόβλημα της κατηγοριοποίησης, έχει προταθεί μια απλή μέθοδος κατηγοριοποίησης η οποία είναι γνωστή ως κατηγοριοποίηση κατά Bayes και βασίζεται στον κανόνα του Bayes για την υπό συνθήκη πιθανότητα. Ο κανόνας Bayes, ο οποίος δίνεται στο ορισμό 2.4, είναι μια τεχνική που εκτιμά την πιθανοφάνεια μιας ιδιότητας παίρνοντας το σύνολο των δεδομένων σαν είσοδο. Υποθέσουμε ότι πρέπει να συμβεί είτε η υπόθεση h1 είτε η υπόθεση h2, αλλά όχι και οι δύο μαζί. Επίσης υποθέτουμε ότι το x, είναι το γεγονός που έχει παρατηρηθεί. Ο κανόνας Bayes μας επιτρέπει να προσδιορίζουμε τις πιθανότητες των υποθέσεων, με δεδομένη την τιμή κάποιου δεδομένου, P(hj xi). Εδώ μιλάμε για πλειάδες όπου στην πραγματικότητα κάθε x, μπορεί να είναι τιμή ενός χαρακτηριστικού των δεδομένων. Κάθε h, μπορεί να είναι η τιμή ενός γνωρίσματος, ένα σύνολο από τιμές χαρακτηριστικών ή ακόμη ένας συνδυασμός από τιμές χαρακτηριστικών

37 ΟΡΙΣΜΟΣ 2.4 κανόνας Bayes ή θεώρημα Bayes είναι: P( h 1 x ) i P( x i P( x h ) P( h ) h ) P( h ) P( x 1 i 1 1 i 1 h 2 ) P( h 2 ) P ( h 1 i x ) Εδώ το ονομάζεται εκ των υστέρων πιθανότητα, ενώ το P(h1) είναι η εκ των προτέρων πιθανότητα που σχετίζεται με την υπόθεση h1 * P(xi) είναι η πιθανότητα να συμβεί το δεδομένο με τιμή xi και P(xi h1) είναι η υπό συνθήκη πιθανότητα να ικανοποιείται από την πλειάδα η δεδομένη πιθανότητα. Αναλύοντας την συνεισφορά κάθε ενός «ανεξάρτητου» χαρακτηριστικού, καθορίζεται μια υπό συνθήκη πιθανότητα. Η κατηγοριοποίηση γίνεται με τον συνδυασμό της συνέπειας που έχουν τα διαφορετικά χαρακτηριστικά στην πρόβλεψη που γίνεται. Η προσέγγιση ονομάζεται απλοϊκή επειδή θεωρεί ότι υπάρχει ανεξαρτησία μεταξύ των τιμών των διαφόρων χαρακτηριστικών. Δεδομένο μιας τιμής για ένα δεδομένο xi, η πιθανότητα ότι μια σχετική πλειάδα, ti, ανήκει στην κατηγορία Cj περιγράφεται από την πιθανότητα P(Cj xi). Τα δεδομένα εκπαίδευσης μπορούν να χρησιμοποιηθούν για να καθορίσουν τις P(xi), P(xi Cj) και P(Cj). Από αυτές τις τιμές, το θεώρημα Bayes μας επιτρέπει να εκτιμήσουμε της εκ των υστέρων την πιθανότητα P(Cj xi) και στην συνέχεια την P(Cj ti) Δοθέντος ενός συνόλου εκπαίδευσης, ο αλγόριθμος Bayes αρχικά εκτιμά την εκ των προτέρων πιθανότητα P(Cj) για κάθε κατηγορία μετρώντας το πόσο συχνά κάθε κατηγορία εμφανίζεται στα δεδομένα εκπαίδευσης. Για κάθε χαρακτηριστικό, xi μπορεί να μετρηθεί ο αριθμός των εμφανίσεων κάθε τιμής του χαρακτηριστικού xi για να καθορίσει την P(xi). Παρόμοια, η πιθανότητα P(xi Cj) μπορεί να εκτιμηθεί μετρώντας πόσο συχνά κάθε τιμή εμφανίζεται στην κατηγορία στα δεδομένα εκπαίδευσης. Αξίζει να σημειωθεί ότι κοιτάμε όλες τις τιμές των χαρακτηριστικών. Μια πλειάδα στα δεδομένα εκπαίδευσης μπορεί να έχει πολλά διαφορετικά χαρακτηριστικά, κάθε ένα με πολλές τιμές. Αυτό πρέπει να γίνει για όλα τα χαρακτηριστικά και για όλες τις τιμές των χαρακτηριστικών. Στην συνέχεια χρησιμοποιούμε τις πιθανότητες που έχουν παραχθεί με τον παραπάνω τρόπο όταν πρέπει να κατηγοριοποιηθεί μια νέα πλειάδα. Οι πιθανότητες είναι περιγραφικές και χρησιμοποιούνται ώστε να προβλεφτεί η συμμετοχή σε μια κατηγορία για την υπό μελέτη πλειάδα. Όταν κατηγοριοποιούμε μια νέα πλειάδα, η υπό συνθήκη και η εκ των προτέρων πιθανότητες που δημιουργήθηκαν από το σύνολο εκπαίδευσης, χρησιμοποιούνται για την πρόβλεψη. Αυτό γίνεται με τον συνδυασμό των αποτελεσμάτων των διαφόρων τιμών των χαρακτηριστικών της πλειάδας. Ας υποθέσουμε ότι η πλειάδα ti έχει p διαφορετικές τιμές χαρακτηριστικών xi1, xi2,... xip. Από τη φάση της περιγραφής ξέρουμε την τιμή της πιθανότητας P(xik C) Συνεχίζουμε υπολογίζοντας την τιμή της πιθανότητας P(ti Cj) με την χρήση του τύπου:

38 P( t C ) i j p k 1 P( x ik C ) j Έτσι, τώρα έχουμε τις εκ των προτέρων πιθανότητες P(Cj) για κάθε κατηγορία και την υπό συνθήκη πιθανότητα P(ti Cj). Για να υπολογιστεί το Ρ(ti), μπορούμε να υπολογίσουμε την πιθανοφάνεια για το ότι το ti ανήκει στην κάθε κατηγορία. Αυτό μπορεί να γίνει με την εύρεση της πιθανοφάνειας ότι αυτή η πλειάδα ανήκει στην συγκεκριμένη κατηγορία και στη συνέχεια προσθέτουμε όλες αυτές τις τιμές. Η πιθανότητα ότι η ti ανήκει σε μια κατηγορία είναι το γινόμενο των υπό συνθήκη πιθανοτήτων για κάθε τιμή του χαρακτηριστικού. Στην συνέχεια υπολογίζεται η εκ των υστέρων πιθανότητα P(Cj ti) για κάθε κατηγορία. Η κατηγορία με την υψηλότερη πιθανότητα είναι αυτή που επιλέγεται για την πλειάδα. Γι την καλύτερη κατανόση της Bayesian κατηγοριοποίηση θα δούμε το παράδειγμα 1. Παράδειγμα 1 ΠΙΝΑΚΑΣ 2.2 Πίνακας δεδομένων Λαμβάνοντας υπόψη τα αποτελέσματα της κατηγοριοποίησης 1 του πίνακα 2.2, υπάρχουν τέσσερις πλειάδες που τοποθετούνται στην κατηγορία των κοντών, οκτώ στην κατηγορία των μέτριων και τρεις στην κατηγορία ψηλός. Για να διευκολύνουμε την κατηγοριοποίηση, χωρίζουμε τις τιμές των χαρακτηριστικών του ύψους σε έξι διαστήματα: (0, 1.6], (1.6, 1.7], (1.7, 1.8], (1.8, 1.9], (1.9, 2.0], (2.0, )

39 Ο πίνακας 2.4 παρουσιάζει τις μετρήσεις και τις πιθανότητες που σχετίζονται με τις τιμές αυτών των χαρακτηριστικών. Με αυτά τα δεδομένα είναι εύκολο να υπολογίσουμε τις εκ των προτέρων πιθανότητες: Ρ(κοντός) = 4/15 = 0.267, Ρ(μέτριος) = 8/15 = 0.533, Ρ(ψηλός) = 3/15 = 0.2 ΠΙΝΑΚΑΣ 2.3: Παράδειγμα Bayesian κατηγοριοποίησης στα δεδομένα του παραδείγματος του ύψους Χαρακτηριστικό Τιμή Πλήθος Πιθανότητα Κοντός Μέτριος Ψηλός Κοντός Μέτριος Ψηλός Φύλο Α /4 2/8 3/3 Θ /4 6/8 0/3 Ύψος (0, 1.6] /4 0 0 (1.6, 1.7] /4 0 0 (1.7, 1.8] /8 0 (1.8, 1.9] /8 0 (1.9, 2.0] /8 1/3 (2.0, ) /3 Τώρα, έστω ότι θέλουμε να κατηγοριοποιήσουμε μια νέα πλειάδα. π.χ. έστω ότι η νέα πλειάδα είναι η t = <Adam, A, 1.95>. Χρησιμοποιώντας τις τιμές του πίνακα 2.3 καταλήγουμε στις εκτιμήσεις που ακολουθούν: P(t κοντός) = Ρ(κοντός Α) * Ρ(κοντός (1.9, 2.0]) = 1/4 * 0 = 0 P(t μέτριος) = Ρ(μέτριος Α) * Ρ(μέτριος (1.9, 2.0]) = 2/8 * 1/8 =0.031 Ρ(t ψηλός) = Ρ(ψηλός Α) * Ρ(ψηλός (1.9, 2.0]) = 3/3 * 1/3 = Συνδυάζοντας αυτές τις εκτιμήσεις έχουμε: Πιθανόφάνεια να είναι κοντός = Ρ(t κοντός) * Ρ(κοντός) = 0 * = 0 Πιθανόφάνεια να είναι μέτριος = Ρ(t μέτριος) * Ρ(μέτριος) = * = Πιθανόφάνεια να είναι ψηλός = Ρ(t ψηλός) * (ψηλός) = * 0.2 = Εκτιμούμε την Ρ(t) αθροίζοντας αυτές τις τιμές πιθανοφάνειας: Ρ(t) = = Έτσι καταλείγουμε στις πραγματικές πιθανότητες για κάθε κατηγορία: P( t kontos)* P( kontos) 0* P( kontos t) 0 P( t)

40 P( t metrios )* P( metrios ) *0.533 P( metrios t) 0.2 P( t) P( t psilos)* P( psilos) *0.2 P( psilos t) P( t) Επομένως, σύμφωνα με τις παραπάνω πιθανότητες, κατηγοριοποιούμε την πλειάδα <Adam, A, 1.95>. στην κατηγορία των ψηλών και αυτό γιατί αυτή παρουσιάζει την υψηλότερη πιθανότητα Αλγόριθμοι κατηγοριοποίησης Δένδρων Αποφάσεων Μια άλλη κατηγορία αλγορίθμων που χρησιμοποιούνται για την επίλυση προβλημάτων κατηγοριοποίησης είναι αυτή των Δένδρων Απόφασης (Decision Trees). Το μοντέλο κατηγοριοποίησης αυτής της κατηγορίας αλγορίθμων είναι μια δενδρική δομή. Μόλις χτιστεί η δενδρική δομή, εφαρμόζεται σε κάθε πλειάδα της Βάσης Δεδομένων και καταλήγει για κάθε μια από αυτές σε μια κατηγοριοποίηση. H διαδικασία κατηγοριοποίησης χωρίζεται σε δύο φάσεις: (α) η κατασκευή του δένδρου και (β) η εφαρμογή του στη Βάση Δεδομένων. Η τεχνικές δένδρων αποφάσεων βασίζονται στη διαίρεση του χώρου αναζήτησης σε ορθογώνιες περιοχές (χρήση της τεχνικής του «διαίρει και βασίλευε»). Κάθε πλειάδα της Βάσης Δεδομένων τοποθετείται με βάση την περιοχή όπου ανήκει. Παρακάτω ακολουθεί ένα ορισμός (ορισμός 2.5) για τα δένδρα απόφασης που χρησιμοποιούνται για κατηγοριοποίηση. ΟΡΙΣΜΟΣ 2.5: Έστω μια Βάση Δεδομένων D = [t1, t2,...,tn, όπου ti = t i1, ti2,..., tih και έστω ότι το σχήμα της Βάσης Δεδομένων περιέχει τα εξής χαρακτηριστικά (πεδία) Αι, Α2,..., Ah. Επίσης, έστω ότι έχουμε ένα σύνολο κατηγοριών C = C1 C2,..., Cm. Ένα δένδρο απόφασης ή δένδρο κατηγοριοποίησης είναι μια δενδρική δομή που συσχετίζεται με το D και έχει τις εξής ιδιότητες: Κάθε εσωτερικός κόμβος παίρνει το όνομα του από ένα χαρακτηριστικό, A i Κάθε τόξο παίρνει το όνομα του από ένα κατηγόρημα που μπορεί να εφαρμοστεί στο χαρακτηριστικό που συνδέεται με τον πατέρα - κόμβο. Κάθε φύλλο έχει ως όνομα μια κατηγορία Cj Η λύση του προβλήματος κατηγοριοποίησης, με τη χρήση δένδρων αποφάσεων είναι μια διαδικασία δύο βημάτων: Επαγωγή δένδρου απόφασης: Η κατασκευή του δένδρου απόφασης χρησιμοποιώντας δεδομένα εκπαίδευσης Για κάθε t i e D, εφαρμογή του δένδρου απόφασης που κατασκευάστηκε στο βήμα της επαγωγής για τον προσδιορισμό της κατηγορίας του. Η εφαρμογή των t i, πραγματοποιείται βάσει του αλγόριθμου του σχήματος

41 Είσοδος: Τ //Δένδρο απόφασης D //Βάση Δεδομένων Έξοδος: Μ //Κατηγοριοποίηση Αλγόριθμος DTProc Για κάθε t D επανέλαβε n = ρίζα του Τ; Όσο το n δεν είναι κόμβος φύλλο επανέλαβε Επίλεξε την απάντηση στην ερώτηση του κόμβου n όπου εφαρμόζεται το t; Αναγνώρισε το τόξο που περιέχει την σωστή απάντηση; n = κόμβος που καταλήγει το τόξο; Τέλος _ επανάληψης Τοποθέτησε το t στην κατηγορία που ορίζει ο κόμβος n; Τέλος _ επανάληψης Τέλος _ αλγορίθμου ΣXHMA 2.4: Αλγόριθμος διάσχισης δένδρου απόφασης Ένας άλλος, πιο γενικός ορισμός για τα δένδρα απόφασης δίνεται από τον ορισμό 2.6. ΟΡΙΣΜΟΣ 2.6: Ένα δένδρο απόφασης, είναι ένα δένδρο όπου η ρίζα και κάθε εσωτερικός κόμβος έχει χαρακτηριστεί με μια ερώτηση. Τα τόξα που προέρχονται από κάθε κόμβο αντιπροσωπεύουν κάθε πιθανή απάντηση στη σχετική ερώτηση. Κάθε φύλλο αντιπροσωπεύει μια πρόβλεψη της λύσης στο πρόβλημα που εξετάζεται. Στα προβλήματα κατηγοριοποίηση, η πρόβλεψη είναι η κατηγορία της πλειάδας που εξετάζεται. Ένα δένδρο απόφασης κατασκευάζεται συνήθως σε δύο φάσεις: Στην πρώτη φάση, τη φάση της ανάπτυξης, κατασκευάζεται ένα μεγάλο δένδρο. Το δένδρο αυτό απεικονίζει τις πλειάδες τις Βάσης Δεδομένων με μεγάλη ακρίβεια. Για παράδειγμα, το δένδρο μπορεί να περιέχει φύλλα για μεμονωμένες πλειάδες της Βάσης Δεδομένων. Στη δεύτερη φάση, η οποία ονομάζεται φάση κλαδέματος, προσδιορίζεται το τελικό μέγεθος του δένδρου. Οι κανόνες που μπορούν να παραχθούν από το δένδρο πριν τη φάση του κλαδέματος είναι αρκετά εξειδικευμένοι. Περιορίζοντας το μέγεθος του δένδρου, παράγουμε μικρότερο αριθμό γενικότερων κανόνων το οποίο είναι καλύτερο από το να έχουμε πολλούς και εξειδικευμένους κανόνες. Ένα πιθανό δένδρο απόφασης για τα δεδομένα εκπαίδευσης που παρουσιάζονται στον πίνακα 2.2 φαίνεται στο σχήμα 2.5. Οι τιμές της στήλης της κατηγοριοποίησης 2 του συγκεκριμένου πίνακα, έχουν προέλθει από την εφαρμογή του συγκεκριμένου δένδρου απόφασης. Για τα ίδια δεδομένα εκπαίδευσης θα μπορούσε να δημιουργηθεί ένα άλλο δένδρο απόφασης, με όπως είναι φυσικό, διαφορετική κατηγοριοποίηση

42 ΣΧΗΜΑ 2.5 Δέντρο απόφασης για τα δεδομένα του πίνακα 2.3 (κατηγοριοποίηση 2) Τα δένδρα απόφασης, ως τεχνική κατηγοριοποίησης, έχουν αρκετά πλεονεκτήματα. Ένα από τα πιο βασικά πλεονεκτήματα είναι το ότι μπορούν να χρησιμοποιηθούν εύκολα και αποτελεσματικά. Επίσης, ένα δένδρο απόφασης μπορεί να εξάγει κανόνες οι οποίοι μπορούν εύκολα να κατανοηθούν και να ερμηνευτούν από το χρήστη. Ένα ακόμη βασικό πλεονέκτημα των δένδρων απόφασης είναι το ότι μπορούν να χρησιμοποιηθούν με επιτυχία σε μεγάλες Βάσεις Δεδομένων και αυτό επειδή το μέγεθος της Βάσης Δεδομένων είναι ανεξάρτητο από το μέγεθος του δένδρου. Κάθε πλειάδα προς κατηγοριοποίηση πρέπει να περάσει από το δένδρο. Η διαδικασία αυτή παίρνει χρόνο ανάλογο με το ύψος του δένδρου. Τέλος, είναι δυνατό να κατασκευάσουμε δένδρα για δεδομένα με πολλά χαρακτηριστικά. Από την άλλη πλευρά, υπάρχουν και αρκετά μειονεκτήματα όταν εφαρμόζουμε τα δένδρα απόφασης για να επιλύσουμε προβλήματα κατηγοριοποίησης. Ένα από τα βασικά μειονεκτήματα τους είναι ότι δεν μπορούν να χειριστούν συνεχή δεδομένα. Λύση σε αυτό το πρόβλημα, όπως και στην τεχνική κατηγοριοποίησης κατά Bayes, είναι να χωρίσουμε αυτού του είδους τα χαρακτηριστικά σε διαστήματα. Επίσης, τα δένδρα απόφασης προϋποθέτουν ότι ο χώρος του πεδίου διαιρείται σε ορθογώνιες περιοχές. Άλλου είδους σχήματα δε μπορούν να χειριστούν από αυτή την τεχνική. Τα ελλιπή δεδομένα είναι ένα ακόμη πρόβλημα για τα δένδρα απόφασης και αυτό γιατί δε μπορούν να βρεθούν οι σωστές διακλαδώσεις για να ακολουθηθούν. Επιπρόσθετα, το φαινόμενο της υπερπροσαρμογής είναι πιθανό να εμφανιστεί στα δένδρα απόφασης αφού αυτό δημιουργείται βάσει των δεδομένων εκπαίδευσης. Τέλος, τα δένδρα απόφασης δε λαμβάνουν υπόψη τις πιθανές συσχετίσεις που υπάρχουν μεταξύ των χαρακτηριστικών. Όπως έχει ήδη αναφερθεί, μπορούμε να έχουμε διαφορετικά δένδρα απόφασης με διαφορετική απόδοση στην κατηγοριοποίηση, για το ίδιο σύνολο εκπαίδευσης. Τα διαφορετικά δένδρα προκύπτουν από τις επιλογές των χαρακτηριστικών που θα χρησιμοποιηθούν ως ρίζα και ως κόμβοι - γονείς. Τα χαρακτηριστικά που θα χρησιμοποιηθούν στους κόμβους του δένδρου και γύρω από τα οποία θα πραγματοποιηθούν οι διαιρέσεις, ονομάζονται χαρακτηριστικά διάσπασης (splitting predicates). Στα δένδρα απόφασης που παρουσιάζονται στα 2.6, 2.7, 2.8 και 2.9, τα χαρακτηριστικά διάσπασης είναι τα φύλο (gender), ύψος (height). Τα κατηγορήματα διάσπασης για το χαρακτηριστικό «φύλο» είναι male, female, ενώ αυτά για το χαρακτηριστικό «ύψος» είναι <1.3, >1.8, <1.5, >2. Τα κατηγορήματα

43 διάσπασης για το «ύψος» διαφέρουν ανάλογα με το αν η πλειάδα είναι για male ή female

44 Ο αλγόριθμος του σχήματος 2.10 παρουσιάζει έναν γενικό και απλό τρόπο κατασκευής του δένδρου απόφασης. Ο αλγόριθμος αυτός είναι αναδρομικός και χτίζει το δένδρο με τρόπο «από πάνω προς τα κάτω» εξετάζοντας τα δεδομένα εκπαίδευσης. Χρησιμοποιώντας τα αρχικά δεδομένα εκπαίδευσης, το καλύτερο χαρακτηριστικό διάσπασης επιλέγεται πρώτο ώστε να γίνει ρίζα του δένδρου. Οι αλγόριθμοι κατασκευής δένδρων απόφασης διαφέρουν στο πώς καθορίζουν το «καλύτερο» χαρακτηριστικό και τα αντίστοιχα «καλύτερα» κατηγορήματα. Με το που θα καθοριστεί αυτό, ο κόμβος με τα τόξα του τοποθετούνται στο δένδρο. Ο αλγόριθμος συνεχίζει αναδρομικά, κάνοντας την ίδια διαδικασία για τους κόμβους των υποδένδρων. Ο αλγόριθμος φτάνει στο τέλος όταν ικανοποιούνται κάποια κριτήρια τερματισμού. Και πάλι κάθε αλγόριθμος έχει τα δικά του κριτήρια τερματισμού. Μια απλή προσέγγιση είναι να σταματήσει ο αλγόριθμος όταν οι πλειάδες του συνόλου εκπαίδευσης ανήκουν όλες στην ίδια κατηγορία. Αυτή η κατηγορία, στην συνέχεια, ονομάζει το φύλλο που δημιουργείται. Πρέπει να υπογραμμιστεί ότι οι κυριότεροι παράγοντες που επηρεάζουν την απόδοση ενός αλγορίθμου που κατασκευάζει ένα δένδρο απόφασης είναι το μέγεθος του συνόλου εκπαίδευσης και το πώς επιλέγεται το καλύτερο χαρακτηριστικό διάσπασης. Είσοδος: D //Δεδομένα εκπαίδευσης Έξοδος: T // Δένδρο απόφασης Αλγόριθμος DTBuild T Ø; Καθόρισε το καλύτερο κριτήριο διάσπασης; T Δημιούργησε τον κόμβο ρίζα και ονόμασέ τον με το όνομα του χαρακτηριστικού διάσπασης; Τ Πρόσθεσε τόσα τόξα από τον κόμβο ρίζα όσα και τα κατηγορήματα διάσπασης (τιμές χαρακτηριστικού) και ονόμασε τα Για κάθε τόξο επανέλαβε D Δεδομένα εκπαίδευσης που παραμένουν εφαρμόζοντας το κατηγόρημα διάσπασης στο D Αν ικανοποιείται το κριτήριο τερματισμού για αυτό το μονοπάτι τότε Τ Δημιούργησε έναν κόμβο φύλλο και ονόμασε τον με το όνομα της κλάσης Αλλιώς T DTBuild (D); Τέλος _ αν Τ = πρόσθεσε τόξο στο Τ τέλος _ επανάληψης Τέλος _ αλγορίθμου ΣΧΗΜΑ 2.10 Γενικός αλγόριθμος κατασκευής δένδρου απόφασης

45 Παρακάτω ακολουθούν κάποια ζητήματα σχετικά με την διαδικασία κατασκευής των δένδρων αποφάσεων που λαμβάνονται υπόψη από τους περισσότερους αλγορίθμους κατασκευής. Επιλογή των χαρακτηριστικών διάσπασης: Όπως έχει ήδη αναφερθεί σε αυτή την εργασία, το ποια χαρακτηριστικά χρησιμοποιούνται ως χαρακτηριστικά διάσπασης, επηρεάζει την απόδοση του δένδρου απόφασης αφού μερικά χαρακτηριστικά είναι καλύτερα από τα άλλα. Η επιλογή του χαρακτηριστικού περιλαμβάνει όχι μόνο την εξέταση των δεδομένων του συνόλου εκπαίδευσης, αλλά και την εμπεριστατωμένη άποψη των ειδικών του συγκεκριμένου τομέα. Διάταξη των χαρακτηριστικών διάσπασης: Η σειρά με την οποία επιλέγονται τα χαρακτηριστικά διάσπασης είναι κάτι πολύ σημαντικό. Στο σχήμα 2.6, το χαρακτηριστικό «φύλο» επιλέγεται πρώτα. Εναλλακτικά, θα μπορούσε να χρησιμοποιηθεί πρώτα το χαρακτηριστικό «ύψος». Στο σχήμα 2.7, το χαρακτηριστικό «ύψος» εξετάζεται δύο φορές, κάτι που απαιτεί επιπλέον συγκρίσεις και περισσότερο χρόνο. Διασπάσεις: Ο αριθμός των διασπάσεων που έχουμε σχετίζεται με τη διάταξη των χαρακτηριστικών. Σε μερικά χαρακτηριστικά, το πεδίο είναι μικρό, πράγμα που σημαίνει ότι ο αριθμός των διασπάσεων είναι μικρός (όπως και στο χαρακτηριστικό «φύλο»). Αντίθετα, αν το πεδίο είναι συνεχές ή έχει μεγάλο πλήθος διαφορετικών τιμών, ο αριθμός των διασπάσεων που θα γίνουν δεν είναι απλή διαδικασία. Δομή του δένδρου: Για να έχουμε καλύτερη απόδοση στην κατηγοριοποίηση, είναι επιθυμητό να έχουμε ένα ισοζυγισμένο δένδρο απόφασης με τα λιγότερα δυνατά επίπεδα. Ωστόσο, κάτι τέτοιο ίσως απαιτούσε πολύπλοκες συγκρίσεις με πολλές διακλαδώσεις. Κριτήρια τερματισμού: Έχει ήδη αναφερθεί ότι ο κάθε αλγόριθμος παραγωγής ενός δένδρου απόφασης έχει διαφορετικό κριτήριο τερματισμού. Η κατασκευή του δένδρου, όπως είναι φυσικό, τερματίζει όταν τα δεδομένα εκπαίδευσης, δοκιμάζονται και κατηγοριοποιούνται τέλεια. Ωστόσο, ένα μεγάλο δένδρο απόφασης ίσως δεν είναι τόσο αποδοτικό. Έτσι, υπάρχουν περιπτώσεις που σταματάμε την κατασκευή του δένδρου. Κάτι τέτοιο αποτελεί συμβιβασμό μεταξύ ακρίβειας στην κατηγοριοποίηση και στην απόδοση. Επίσης, είναι επιθυμητό να σταματήσουμε την ανάπτυξη του δένδρου ώστε να αποφύγουμε φαινόμενα υπερπροσαρμογής. Δεδομένα εκπαίδευσης: Η δομή του δένδρου απόφασης εξαρτάται στο μεγαλύτερο ποσοστό, στα δεδομένα εκπαίδευσης που χρησιμοποιούνται. Αν το σύνολο αυτό είναι πολύ μικρό, τότε ίσως το δένδρο να μην είναι αρκετά συγκεκριμένο ώστε να μπορεί να εφαρμοστεί σε γενικά δεδομένα. Από την άλλη πλευρά, αν το σύνολο εκπαίδευσης είναι μεγάλο, τότε υπάρχουν αυξημένες πιθανότητες να έχουμε φαινόμενα υπερπροσαρμογής. Κλάδεμα: Αφού κατασκευαστεί ένα δένδρο, είναι πιθανό να χρειάζονται κάποιες τροποποιήσεις σε αυτό, ώστε να βελτιωθεί η απόδοση του. Η φάση του κλαδέματος (pruning) αφαιρεί κάποιες περιττές συγκρίσεις ή να διαγράφει κάποια υποδένδρα με στόχο την επίτευξη καλύτερης απόδοσης

46 Οι παραπάνω σχεδιαστικές αποφάσεις για την κατασκευή του δένδρου μπορούν να κατανοηθούν πιο εύκολα, παρατηρώντας τα σχήματα 2.6, 2.7,2.8 και 2.9. Τα τρία πρώτα δένδρα εκτελούν την ίδια ακριβώς κατηγοριοποίηση, όλα όμως με διαφορετικό τρόπο. Κάτω από κάθε δένδρο παρουσιάζεται ένας πίνακας που δείχνει τις λογικές διαιρέσεις που χρησιμοποιούνται από το αντίστοιχο δένδρο. Ένα χαρακτηριστικό του πρώτου δένδρου σε αντίθεση με τα άλλα δύο, είναι ότι αυτό είναι ισοζυγισμένο, δηλαδή χρειάζεται τον ίδιο αριθμό βημάτων ώστε να διασχίσει όλα τα μονοπάτια από την ρίζα στα φύλα. Από την άλλη, το χαρακτηριστικό του δεύτερου δένδρου είναι ότι έχει το μεγαλύτερο ύψος, πράγμα που σημαίνει ότι θα έχει μια ελαφρώς χειρότερη συμπεριφορά όταν αυτό χρησιμοποιείται για κατηγοριοποίηση. Παρόλα αυτά, τα παραπάνω χαρακτηριστικά δεν επηρεάζουν την ακρίβεια της κατηγοριοποίησης αλλά τον χρόνο που αυτή απαιτεί. Ωστόσο, ο χρόνος μπορεί να μην ακούγεται κάτι τόσο άσχημο αλλά όταν μιλάμε για μεγάλες Βάσεις Δεδομένων είναι ένα πολύ σημαντικό χαρακτηριστικό της κατηγοριοποίησης. Έτσι, όταν χειριζόμαστε μεγάλες Βάσεις Δεδομένων, είναι απαραίτητη η χρήση ενός ισοζυγισμένου και μικρού ύψους δένδρο. Οι τεχνικές κλαδέματος χρησιμοποιούνται, όπως είπαμε, μετά από την κατασκευή του δένδρου με στόχο να βελτιώσουν την συνολικά απόδοση της κατηγοριοποίησης. Οι τεχνικές κλαδέματος αφαιρούν τμήματα του δένδρου τα οποία σχετίζονται με ένα μη σημαντικό χαρακτηριστικό. Σε περίπτωση που το δένδρο αντιμετωπίζει προβλήματα υπερπροσαρμογής, τότε θα πρέπει να αφαιρεθούν χαμηλότερου επιπέδου υποδένδρα. Οι τεχνικές κλαδέματος μπορεί να εφαρμοστούν όχι μόνο μετά το χτίσιμο του δένδρου αλλά και κατά τη διάρκεια κατασκευής του. Με τον τρόπο αυτό αποτρέπουμε την άσκοπη ανάπτυξη του δένδρου. Γενικά, η πολυπλοκότητα σε χρόνο και χώρο των αλγορίθμων δένδρων απόφασης εξαρτάται από το μέγεθος του συνόλου εκπαίδευσης, από τον αριθμό των χαρακτηριστικών και από το σχήμα του δένδρου Αλγόριθμοι κατηγοριοποίησης Νευρωνικών Δικτύων Τα Νευρωνικά Δίκτυα (Neural Networks) μοντελοποιούνται με βάση τις λειτουργίες του ανθρώπινου εγκεφάλου. Στην πραγματικότητα, τα νευρωνικά δίκτυα είναι συστήματα επεξεργασίας πληροφορίας που αποτελούνται από ένα γράφο και διάφορους αλγόριθμους που προσπελαύνουν αυτόν το γράφο. Κάθε κόμβος του γράφου είναι σαν ανεξάρτητοι νευρώνες, ενώ τα τόξα είναι σύνδεσμοι των νευρώνων. Κάθε ένας από τους κόμβους είναι στοιχείο επεξεργασίας που λειτουργεί ανεξάρτητα από τους άλλους και χρησιμοποιεί μονό τοπικά δεδομένα που καθοδηγούν την επεξεργασία. ΣΧΗΜΑ 2.11: Νευρωνικό δίκτυο για τα δεδομένα του πίνακα

47 Ένα νευρωνικό δίκτυο μπορεί να θεωρηθεί σαν ένας κατευθυνόμενος γράφος με πηγή (είσοδος), καταβόθρα (έξοδος) και εσωτερικούς (κρυμμένους) κόμβους. Οι κόμβοι εισόδου και εξόδου περιέχονται στα αντίστοιχα στρώματα, στρώμα εισόδου και στρώμα εξόδου. Οι κρυμμένοι κόμβοι βρίσκονται σε ένα ή περισσότερα κρυμμένα στρώματα. Πρέπει να αναφερθεί ότι τα νευρωνικά δίκτυα δεν είναι κατάλληλα για εφαρμογές πραγματικού χρόνου αφού αυτά απαιτούν μακρύ χρόνο εκπαίδευσης. Το σχήμα 2.11 παρουσιάζει ένα νευρωνικό δίκτυο για τα δεδομένα του πίνακα 2.3. Επειδή υπάρχουν δύο σημαντικά χαρακτηριστικά, έχουμε δύο κόμβος εισόδου. Επίσης, αφού έχουμε τρεις κατηγορίας, έχουμε τρεις κόμβους εξόδου. Αντίθετα, ο αριθμός των κρυμμένων στρωμάτων δεν είναι εύκολο να καθοριστεί. Κάθε κόμβος έχει το όνομα μιας συνάρτησης που δείχνει τη λειτουργία του. Οι συναρτήσεις του στρώματος εισόδου απλά δέχονται τις τιμές των χαρακτηριστικών και τις αναπαράγουν στις εξόδους τους. Οι συναρτήσεις των άλλων στρωμάτων εκτελούν πιο σύνθετες λειτουργίες. Η έξοδος κάθε κόμβου μεταδίδεται σε όλα τα τόξα εξόδου του κόμβου. Όλα τα τόξα του γράφου έχουν ονόματα βαρών τα οποία λαμβάνονται υπόψη κατά την επεξεργασία του κάθε κόμβου. Τα βάρη στα νευρωνικά δίκτυα μπορούν να είναι καθορισμένα από ειδικούς του πεδίου ή να καθορίζονται αυτόματα από την διαδικασία της εκπαίδευσης. Η συνάρτηση του κάθε κόμβου εφαρμόζεται σε κάθε είσοδό του λαμβάνοντας υπόψη και το αντίστοιχο βάρος. ΟΡΙΣΜΟΣ 2.7: Ένα νευρωνικό δίκτυο είναι ένας κατευθυνόμενος γράφος F=<V,A> με κορυφές V=1,2,,ν και τόξα Α = <i,j> 1 i, j n, με τους παρακάτω περιορισμούς: Το V χωρίζεται σε ένα σύνολο από κόμβους εισόδου Vi, κρυμμένους κόμβους Vh και κόμβους εξόδου Vo. Οι κορυφές χωρίζονται σε στρώματα (1,2,,k) με όλους τους κόμβους εισόδου στο πρώτο στρώμα, όλους τους κρυμμένους κόμβους στα στρώματα 2,,k-1 (κρυμμένα στρώματα) και όλους τους κόμβους εξόδους στο στρώμα k. Κάθε τόξο <i,j> πρέπει να έχει τον κόμβο i στο στρώμα h-1 και τον κόμβο j στο στρώμα h. Το τόξο <i,j> έχει σαν ετικέτα την αριθμητική τιμή wij. Ο κόμβος i έχει για ετικέτα τη συνάρτηση fi. Υπάρχουν και άλλοι πιο γενική ορισμοί νευρωνικών δικτύων οι οποίοι επιτρέπουν την ύπαρξη τόξων μεταξύ κόμβων οποιοδήποτε στρωμάτων. ΟΡΙΣΜΟΣ 2.8: Ένα μοντέλο νευρωνικού δικτύου είναι ένα υπολογιστικό μοντέλο που αποτελείται από τρία μέρη: Το γράφο του νευρωνικού δικτύου, ο οποίος ορίζει τη δομή δεδομένων Τον αλγόριθμο μάθησης που δείχνει με ποιον τρόπο γίνεται η μάθηση Τις τεχνικές ανάκλησης που καθορίζουν πώς η πληροφορία παρέχεται από το δίκτυο. Η έξοδος κάθε κόμβου βασίζεται στην συνάρτηση ενεργοποίησης (activation function). Η συνάρτηση εφαρμόζεται σε σύνολο των τιμών των εισόδων που έρχονται μέσω τον τόξων εισόδου λαμβάνοντας υπόψη και τα αντίστοιχα βάρη. Έχουν γίνει πολλές προτάσεις σχετικά με τις συναρτήσεις ενεργοποίησης όπως για παράδειγμα αυτές του

48 κατωφλιού, σιγμοειδείς, συμμετρικές σιγμοειδείς και Gaussian. Μια συνάρτηση ενεργοποίησης καλείται και κανόνας διέγερσης παραπέμποντας στη λειτουργία του ανθρώπινου εγκεφάλου. Όταν η είσοδος σε έναν νευρώνα είναι μεγάλη, τότε αυτός διεγείρεται στέλνοντας ένα ηλεκτρικό σήμα στο νευρίτη (έξοδος). Τα νευρωνικά δίκτυα, μιμούνται την παραπάνω διαδικασία παράγοντας έξοδο σε έναν κόμβο μόνο όταν η συνάρτηση ενεργοποίησης δίνει μια αρκετά μεγάλη τιμή. Τα νευρωνικά δίκτυα εφαρμόζεται σε πολλές τεχνικές εξόρυξης γνώσης. Όταν χρησιμοποιούνται σε προβλήματα κατηγοριοποίησης αποτελούν μοντέλα που αναπαριστούν τον τρόπο που κατηγοριοποιείται κάθε πλειάδα της Βάσης Δεδομένων. Οι συναρτήσεις ενεργοποίησης συνήθως είναι σιγμοειδείς. Όταν μια πλειάδα πρέπει να κατηγοριοποιηθεί, συγκεκριμένες τιμές από χαρακτηριστικά για αυτή την πλειάδα εισέρχονται στον γράφο μέσω των εισόδων. Συνήθως υπάρχει ένας κόμβος εξόδου για κάθε κατηγορία. Η τιμή της κάθε εξόδου δείχνει την πιθανότητα της πλειάδας να ανήκει στην αντίστοιχη κατηγορία. Η πλειάδα θα τοποθετηθεί στην κατηγορία με την υψηλότερη πιθανότητα. Η διαδικασία της μάθησης τροποποιεί τις τιμές των τόξων έτσι ώστε να έχουμε κατηγοριοποίηση με μεγαλύτερη ακρίβεια. Η διαδικασία της μάθησης συνεχίζεται μέχρις ότου η ακρίβεια φτάσει σε ικανοποιητικά επίπεδα ή τελειώσουν τα δεδομένα εκπαίδευσης. Η επίλυση των προβλημάτων κατηγοριοποίησης χρησιμοποιώντας νευρωνικά δίκτυα περιλαμβάνει τα εξής βήματα: Καθορισμός του αριθμού των εξόδων και των χαρακτηριστικών που θα χρησιμοποιηθούν σαν είσοδοι. Καθορισμός του αριθμού των κρυμμένων στρωμάτων. Το βήμα αυτό εκτελείται από τον ειδικό του τομέα. Καθορισμός των βαρών και των συναρτήσεων που θα χρησιμοποιηθούν. Μετάδοση της κάθε πλειάδας του συνόλου εκπαίδευσης μέσω του δικτύου και αξιολόγηση της εξόδου ως προς το πραγματικό αποτέλεσμα. Αν η κατηγοριοποίηση είναι ακριβής, οι ετικέτες προσαρμόζονται κατάλληλα ώστε να σιγουρευτεί το ότι αυτή η κατηγοριοποίηση έχει υψηλότερο βάρος για την έξοδο την επόμενη φορά. Από την άλλη, αν η κατηγοριοποίηση δεν είναι σωστή, τα βάρη πρέπει να προσαρμοστούν ώστε να δώσουν μια χαμηλότερη τιμή για αυτή την κατηγορία. Μετάδοση κάθε πλειάδας ti μέσα στο δίκτυο για να γίνει η κατηγοριοποίηση. Όπως είπαμε, υπάρχουν αρκετά θέματα που πρέπει να μελετηθούν από κάποιον ειδικό του πεδίου. Συγκεκριμένα, ο ειδικός θα πρέπει να μελετήσει τα εξής θέματα: Χαρακτηριστικά (αριθμός κόμβων εισόδου): Το θέμα αυτό είναι παρόμοιο με την επιλογή χαρακτηριστικών διάσπασης στα δένδρα απόφασης. Αριθμός κρυμμένων στρωμάτων: Στην πιο απλή περίπτωση υπάρχει μόνο ένα κρυμμένο στρώμα. Αριθμός κρυμμένων κόμβων: Αυτό είναι ένα αρκετά δύσκολο ζήτημα. Έχουν γίνει πολλές μελέτες που προσπαθούν να απαντήσουν σε αυτή την ερώτηση. Αυτό που είναι σίγουρο είναι ότι ο αριθμός των κρυμμένων κόμβων εξαρτάτε από τη δομή του νευρωνικού δικτύου, το είδος των συναρτήσεων ενεργοποίησης, τον αλγόριθμο εκπαίδευσης και το πρόβλημα που λύνεται. Αν αυτός ο αριθμός είναι μικρός, έχουμε αυξημένες πιθανότητες να συναντήσουμε το φαινόμενο της υποπροσαρμογής και η συνάρτηση να μη μαθευτεί. Αντίθετα, αν χρησιμοποιήσουμε πολλούς κόμβους έχουμε αντίστοιχες πιθανότητες να συναντήσουμε υπερπροσαρμογή. Οι εμπειρικοί κανόνες στηρίζονται στο μέγεθος του συνόλου εκπαίδευσης

49 Δεδομένα εκπαίδευσης: Αν έχουμε πολλά δεδομένα εκπαίδευσης, τότε μπορεί το μοντέλο να αντιμετωπίζει προβλήματα υπερπροσαρμογής ενώ με λίγα δεδομένα μπορεί να μην είναι ικανό να εκτελεί την κατηγοριοποίηση με μεγάλη ακρίβεια. Αριθμός εξόδων: Συνήθως έχουμε τόσους κόμβους εξόδου όσες είναι οι κατηγορίες. Ωστόσο αυτό δε γίνεται πάντα στην πράξη. π.χ. αν έχουμε δύο κατηγορίες, μπορούμε να έχουμε μόνο έναν κόμβο με την τιμή του αποτελέσματος να δείχνει την πιθανότητα της αντίστοιχης κατηγορίας. Εύκολα μπορούμε να υπολογίσουμε την πιθανότητα της άλλης κατηγορίας. Διασυνδέσεις: Στην πιο απλή περίπτωση κάθε κόμβος συνδέεται με όλους τους κόμβους του επόμενου επιπέδου. Βάρη: Το βάρος ενός τόξου δείχνει το σχετικό βάρος μεταξύ των κόμβων που συνδέει. Τα αρχικά βάρη είναι μικροί, θετικοί και τυχαίοι αριθμοί. Συναρτήσεις ενεργοποίησης: Μπορούν να χρησιμοποιηθούν διάφορες συναρτήσεις. Τεχνική μάθησης: Η τεχνική που χρησιμοποιείται για τον καθορισμό των βαρών λέγεται τεχνική μάθησης. Η πιο γνωστές τεχνικές μάθησης είναι κάποια μορφή οπισθοδρόμησης (bαckpropαgαtion). Η οπισθοδρόμηση είναι μια τεχνική μάθησης που προσαρμόζει τα βάρη με το να μεταδίδει τις αλλαγές προς τα πίσω, δηλαδή από τους κόμβους εξόδου στους κόμβους εισόδου. Τερματισμός: Η μάθηση τερματίζει είτε όταν τελειώσουν τα δεδομένα εκπαίδευσης είτε χρησιμοποιώντας κάποιες ενδείξεις του χρόνου ή του ρυθμού εμφάνισης λαθών. Πλεονεκτήματα χρήσης νευρωνικών δικτύων σε προβλήματα κατηγοριοποίησης: Τα νευρωνικά δίκτυα είναι πιο ισχυρά από τα δένδρα απόφασης εξαιτίας των βαρών Τα νευρωνικά δίκτυα βελτιώνονται από την μάθηση. Αυτό μπορεί να συνεχιστεί ακόμη και μετά την εφαρμογή του συνόλου εκπαίδευσης Η χρήση των νευρωνικών δικτύων μπορεί να παραλληλοποιηθεί εύκολα και με καλύτερη απόδοση. Υπάρχει μεγάλη ακρίβεια όταν εφαρμόζεται το κατάλληλο σύνολο εκπαίδευσης. Τα νευρωνικά δίκτυα δεν επηρεάζονται τόσο πολύ όσο τα δένδρα απόφασης από την ύπαρξη θορύβου. Μειονεκτήματα χρήσης νευρωνικών δικτύων σε προβλήματα κατηγοριοποίησης: Τα νευρωνικά δίκτυα είναι δύσκολα στην κατανόηση από το χρήστη. Αντίθετα, τα δένδρα απόφασης κατανοούνται εύκολα. Η δημιουργία κανόνων από νευρωνικά δίκτυα δεν είναι απλή διαδικασία. Οι τιμές των χαρακτηριστικών εισόδου πρέπει να είναι αριθμητικές Δοκιμές Επαλήθευση Μπορεί να εμφανιστούν φαινόμενα υπερπροσαρμογής. Η φάση της μάθησης μπορεί να αποτύχει να συγκλίνει. Τα νευρωνικά δίκτυα μπορεί να είναι αρκετά ακριβά στη χρήση τους

50 Πρόβλεψη (Prediction) Δεν είναι εύκολο να διαφοροποιήσεις την πρόβλεψη από την κατηγοριοποίηση ή την εκτίμηση. Ωστόσο, αντίθετα με τα παραπάνω μοντέλα, ο σκοπός του μοντέλου πρόβλεψης είναι να καθορίζει μελλοντικά αποτελέσματα αντί για την τρέχουσα συμπεριφορά. Το χαρακτηριστικό ή τα χαρακτηριστικά εξόδου σε ένα μοντέλο πρόβλεψης μπορούν να είναι είτε κατηγορικά είτε αριθμητικά. Ορισμένα παραδείγματα για μοντέλα πρόβλεψης: Προσδιόρισε αν ένα πελάτης πιστωτικής κάρτας είναι πιθανό να εκμεταλλευτεί μια προσφορά που θα είναι διαθέσιμη με τον λογαριασμό της πιστωτικής κάρτας. Προβλέψτε την τιμή κλεισίματος του χρηματιστηριακού δείκτη Dow Jones Προβλέψτε πιο ιδιωτικό τηλεφωνικό δίκτυο αναμένεται να αλλάξει παροχέα μέσα στο επόμενο τρίμηνο. Οι περισσότερες τεχνικές data mining που είναι κατάλληλες για κατηγοριοποίηση ή για εκτίμηση μπορούν να δημιουργήσουν μοντέλα πρόβλεψης. Στην πραγματικότητα, είναι η φύση των δεδομένων που καθορίζει πιο μοντέλο είναι κατάλληλο για κατηγοριοποίηση, εκτίμηση, ή πρόβλεψη Μη καθοδηγούμενη εκμάθηση Με την μη καθοδηγούμενη εκμάθηση πρέπει να οδηγήσουμε την διαδικασία χωρίς εξαρτημένη μεταβλητή. Σε αντίθεση με τις τεχνικές που προαναφέραμε, η μη καθοδηγούμενη εκμάθηση εκτελεί εφαρμογές data mining χωρίς να γνωρίζει εκ των προτέρων τις ομάδες που θα προκύψουν, οι οποίες καθορίζονται οι ίδιες από τα δεδομένα κατά τη διάρκεια της εφαρμογής. Η καθοδηγούμενη εκμάθηση εφαρμόζεται με τη συσταδοποίηση (clustering) Συσταδοποίηση (clustering) Η συσταδοποίηση προϋποθέτει τον προσδιορισμό ενός πεπερασμένου πλήθους από κατηγορίες (συστάδες) για να περιγραφούν τα δεδομένα. Οι συστάδες είναι ξεχωριστές, ιεραρχικές ή επικαλυπτόμενες. Κάθε μέλλος μιας συστάδας μπορεί να είναι κοινό με ένα άλλο μέλος της ίδιας συστάδας και διαφορετικό από άλλες συστάδες. Τεχνικές για την δημιουργία συστάδων είναι η κατάτμηση (συχνά χρησιμοποιείται ο αλγόριθμος k- means), ιεραρχικές μέθοδοι (του οποίου οι ομάδες στοχεύουν σε ένα δέντρο από συστάδες), καθώς και το δικτυακό μοντέλο, και μέθοδοι βασισμένες στην πυκνότητα. Ο k-means είναι ένας από τους πιο γνωστούς και πιο απλούς αλγόριθμους που λύνουν το πρόβλημα του clustering. ημοσιεύτηκε για πρώτη φορά από τον McQueen το Φυσικά ανήκει στην κατηγορία του unsupervised learning δηλαδή τα δεδομένα μας δεν έχουν καμία ετικέτα και δεν γνωρίζουμε τίποτα για αυτά. Ο αλγόριθμος ακολουθεί μια απλή και εύκολη διαδικασία για να κατηγοριοποιήσειτα δοσμένα δεδομένα σε έναν συγκεκριμένο αριθμό από clusters. Η κύρια ιδέα του αλγορίθμου είναι να καθορίσουμε εμείς έναν συγκεκριμένο αριθμό από k κέντρα των clusters (centroids) όταν θα ξεκινάει ο αλγόριθμος, που θα

51 συμβολίζουν φυσικά και τον αριθμό των τελικών clusters που θα έχουμε ως έξοδο του αλγορίθμου. Το επόμενο βήμα που κάνει ο αλγόριθμος είναι να αναθέσει κάθε δεδομένο (datum) στο κοντινότερο του centroid. Όταν ανατεθούν όλα τα δεδομένα, ένα πρώιμο clustering έχει γίνει. Σε αυτό το σημείο επαναϋπολογίζουμε τα centroids με βάση τα καινούργια clusters που έχουν δημιουργηθεί και τα τοποθετούμε έτσι ώστε να κατοπτρίζουν το κέντρο των δεδομένων που ανήκουν στο cluster τους. Έτσι όταν έχουμε k καινούργια centroids επαναϋπολογίζουμε τις θέσεις των δεδομένων και τα εναποθέτουμε στο κοντινότερο σε αυτά κέντρο. Με τον τρόπο αυτό βλέπουμε πως έχει δημιουργηθεί ένας βρόχος ο οποίος τερματίζετε όταν πλέον τα κέντρα δεν κουνιούνται από την θέση τους. 2.5 Μέτρα αξιολόγησης της εξόρυξης γνώσης από δεδομένα Η μέτρηση της αποτελεσματικότητας και της χρησιμότητας μιας τεχνικής εξόρυξης γνώσης από δεδομένα δεν είναι πάντα απλή διαδικασία.στην πράξη,μπορούν να χρησιμοποιηθούν διαφορετικά μέτρα αξιολόγησης για διαφορετικές τεχνικές και επίσης ανάλογα με το επίπεδο ενδιαφέροντος.για να αξιολογηθεί συνολικά μία επιχείρηση ή να αξιολογηθεί η χρησιμότητα της τεχνικής μπορεί να χρησιμοποιηθεί σαν μέτρο αξιολόγησης η απόδοση της επένδυσης(return on investment - ROI). Το μέτρο ROI εξετάζει τη διαφορά ανάμεσα στο κόστος εφαρμογής της τεχνικής από τη μία και στην εξοικονόμηση ή στα κέρδη από την άλλη που προκύπτουν από τη χρήση της τεχνικής αυτής.φυσικά,η διαφορά αυτή ίσως είναι κάτι δύσκολα μετρήσιμο αφού η απόδοση δύσκολα ποσοτικοποιείται. Η διαφορά αυτή θα μπορούσε να μετρηθεί σαν αύξηση στις πωλήσεις,σαν μείωση στις δαπάνες διαφήμισης,ή σαν το άθροισμα αυτών των δύο.σε μια συγκεκριμένη διαφημιστική καμπάνια,η οποία υλοποιείται μέσω διαφημιστικών καταλόγων που θα σταλούν ταχυδρομικά,το ποσοστό των ατόμων που θα πάρουν τον κατάλογο και ο αριθμός των αγορών ανά άτομο.θα μπορούσε να παρέχει ένα μέτρο υπολογισμού της αποτελεσματικότητας της ταχυδρομικής αποστολής των καταλόγων. Σε αυτή την εργασία χρησιμοποιούμε μία προσέγγιση περισσότερο σχετική με την επιστήμη των υπολογιστών και τις βάσεις δεδομένων για να αξιολογήσουμε διάφορες τεχνικές εξόρυξης γνώσης από δεδομένα.υποθέτουμε ότι η διοίκηση της επιχείρησης έχει καθορίσει ότι θα γίνει μία συγκεκριμένη εφαρμογή εξόρυξης γνώσης από δεδομένα.στη συνέχεια θα καθορίσει τη συνολική αποτελεσματικότητα της προσέγγισης χρησιμοποιώντας το IOR ή ένα ανάλογο μέτρο.ο αντικειμενικός μας σκοπός είναι να συγκρίνουμε τις εναλλακτικές λύσεις που υπάρχουν για την υλοποίηση μιας εργασίας εξόρυξης γνώσης.τα μέτρα αξιολόγησης που χρησιμοποιούνται περιλαμβάνουν τα τυπικά μέτρα αξιολόγησης ως προς χώρο και ως προς χρόνο,βάσει της ανάλυσης πολυπλοκότητας.σε μερικές περιπτώσεις,όπως στην περίπτωση της ακρίβειας στην κατηγοριοποίηση,χρησιμοποιούνται πιο ειδικά μέτρα για την αξιολόγηση της εργασίας εξόρυξης γνώσης

52 2.6 Κοινωνικές επιπτώσεις της εξόρυξης γνώσης Η ενσωµάτωση των τεχνικών εξόρυξης γνώσης από στις καθηµερινές δραστηριότητες αποτελεί πια συνηθισµένη δραστηριότητα. Καθηµερινά ερχόµαστε αντιµέτωποι µε διαφηµίσεις, και οι επιχειρήσεις έχουν γίνει πιο αποτελεσµατικές στο να µειώσουν τα έξοδά τους µε χρήση της διαδικασίας KDD. Όµως, οι «εχθροί» της εξόρυξης γνώσης από δεδοµένα ανησυχούν ότι αυτές οι πληροφορίες παρέχονται µε κόστος την καταπάτηση της ιδιωτικής ζωής. Οι εφαρµογές εξόρυξης γνώσης µπορούν να εξάγουν πολλές δηµογραφικές πληροφορίες που αφορούν πελάτες, οι οποίες ήταν πριν άγνωστες ή κρυµµένες στα δεδοµένα. Η µη εξουσιοδοτηµένη χρήση αυτών των δεδοµένων θα µπορούσε να οδηγήσει στην αποκάλυψη πληροφοριών που θεωρούνται εµπιστευτικές. Πρόσφατα έχουµε παρατηρήσει ένα αυξανόµενο ενδιαφέρον στις τεχνικές εξόρυξης γνώσης από δεδοµένα που χρησιµοποιούνται σε εφαρµογές όπως είναι η ανίχνευση απάτης, η αναγνώριση υπόπτων για εγκλήµατα και η πρόβλεψη των πιθανών τροµοκρατών. Αυτά µπορούν να θεωρηθούν σαν τύποι προβληµάτων κατηγοριοποίησης. Η προσέγγιση που συχνά χρησιµοποιείται εδώ είναι η δηµιουργία ενός «προφίλ», µε µια τυπική συµπεριφορά και τα κατάλληλα χαρακτηριστικά. Πράγµατι, πολλές τεχνικές κατηγοριοποίησης λειτουργούν αναγνωρίζοντας τις τιµές των γνωρισµάτων που εµφανίζονται συχνά για την υπό εξέταση κατηγορία - κλάση. Στη συνέχεια, κατηγοριοποιούνται οι καταγραφέξ µε βάση αυτές τις τιµές των γνωρισµάτων. Ας µην ξεχνάµε ότι αυτές οι προσεγγίσεις της κατηγοριοποίησης δεν είναι τέλει ες. Μπορεί να γίνουν λάθη. Το ότι κάποιος αγοράζει µε πιστωτική κάρτα µια σειρά από προϊόντα που συνήθως αγοράζονται όταν η πιστωτική κάρτα είναι κλεµµένη, δεν σηµαίνει ότι η κάρτα του είναι κλεµµένη ή ότι ο συγκεκριµένος καταναλωτής είναι εγκληµατίας. Οι χρήστες των τεχνικών εξόρυξης γνώσης πρέπει να είναιευαισθητοποιηµένοι σε αυτά τα θέµατα και δεν θα πρέπει να παραβιάζουν κατευθύνσεις ή οδηγίες σχετικές µε θέµατα προστασίας προσωπικών δεδοµένων

53 Κεφάλαιο 3 Δίκτυα Bayes Όπως αναφέραμε και στην αρχή, η εφαρμογή στοχεύει στην συλλογή δεδομένων διαβίωσης και αθλητικής κατάστασης των φοιτητών και στη δημιουργία ενός ευφυούς συστήματος ανακάλυψης κανόνων συσχετίσεων μεταξύ τους. Σε αυτή τη φάση είναι που χρειάζονται τα δίκτυα Bayes. Στη συσχέτιση δηλαδή των δεδομένων που αφορούν τον τρόπο διαβίωσης με την κατάσταση της υγείας των φοιτητών. Ουσιαστικά τα δίκτυα Bayes μας επιτρέπουν να μοντελοποιήσουμε τις σχέσεις μεταξύ των δεδομένων μας και να οδηγηθούμε βάση αυτών σε λογικά συμπεράσματα. Τα δίκτυα Bayes είναι μία περιοχή έρευνας και εφαρμογών στο πεδίο της Τεχνητής Νοημοσύνης με διαρκώς αυξανόμενη σημασία. Στην ενότητα αυτή θα εξετάσουμε τη φύση και τις εφαρμογές των δικτύων Bayes ξεκινώντας από μία περίληψη της Συμπερασματικής Στατιστικής και του θεωρήματος του Bayes. Θα συνεχίσουμε με τον τυπικό ορισμό ενός δικτύου Bayes, την παρουσίαση ενός δικτύου και του πως μπορούμε να χρησιμοποιήσουμε τα δίκτυα Bayes ώστε να μας βοηθήσουν στη μάθηση. Τέλος θα παρουσιάσουμε κάποια συστήματα τα οποία χρησιμοποιούν δίκτυα Bayes. 3.1 Εισαγωγή στην Συμπερασματική Στατιστική Η Συμπερασματική Στατιστική είναι ένας κλάδος της Στατιστικής που ασχολείται με τη διερεύνηση, ανάλυση και εξαγωγή συμπερασμάτων, βασιζόμενοι σε ένα δείγμα ενός πληθυσμού. Για παράδειγμα ας φανταστούμε ένα σάκο από βόλους. Κάποιοι από αυτούς είναι λευκοί και κάποιοι είναι μαύροι, αλλά τα ακριβή ποσοστά αυτών των χρωμάτων μας είναι άγνωστα. Δεν είναι αναγκαίο να μετρηθούν όλοι οι βόλοι για να κάνουμε μια δήλωση σχετικά με αυτό το ποσοστό. Ένα τυχαία επιλεγμένο δείγμα βόλων μπορεί να αρκεί ώστε να βγάλουμε ένα συμπέρασμα σχετικά με το ποσοστό των μαύρων και λευκών μαρμάρων σε ολόκληρο τον πληθυσμό. Εάν το 40% του δείγματός μας είναι λευκά, τότε ίσως να μπορούμε να συμπεράνουμε ότι περίπου το 40% του πληθυσμού είναι επίσης λευκό. Η διαδικασία αυτή μοιάζει μάλλον απλή. Στην πραγματικότητα, θα μπορούσε να υποτεθεί ότι δεν υπάρχει καμία ανάγκη να ληφθεί ακόμα και ένα δείγμα των βόλων. Ένα δείγμα των 100 ή ακόμη και 10 βόλων θα μπορούσε να αρκέσει. Αυτή είναι η παραδοχή όμως δεν είναι απαραίτητα σωστή. Καθώς το μέγεθος του δείγματος γίνεται μικρότερο, το ενδεχόμενο σφάλματος αυξάνεται. Για το λόγο αυτό, στην Συμπερασματική Στατιστική έχουν αναπτυχθεί πολλές τεχνικές μέσω των οποίων μπορούμε να ποσοτικοποιήσουμε το μέγεθος της εμπιστοσύνης που μπορούμε να δείξουμε στα αποτελέσματα. Εάν παίρναμε δέκα δείγματα των 100 βόλων το κάθε ένα, θα μπορούσαμε να βρούμε τα αποτελέσματα που παρουσιάζονται στον πίνακα 3.1:

54 Αριθμός Αριθμός των Αριθμός των Δείγματος λευκών μαύρων ΠΙΝΑΚΑΣ 3.1: Σχετικές αναλογίες των 10 δειγμάτων από έναν πληθυσμό των Στο παράδειγμα μας ο μέσος αριθμός λευκών βόλων είναι x 38,4 Θα μπορούσαμε να μπούμε στον πειρασμό να πούμε ότι περίπου το 40% των βόλων είναι λευκοί, αλλά δεν είμαστε σε θέση να υποστηρίξουμε αυτή την υπόθεση με οποιοδήποτε βαθμό βεβαιότητας. Για να το κάνουμε αυτό θα πρέπει να υπολογίσουμε αρχικά την τυπική απόκλιση για αυτά τα δείγματα: n x 1 2 όπου 2 x ( είναι το άθροισμα των τετραγώνων οπότε η εξίσωση αναπτύσσεται σε: 1 _ ) 2 ( 2 ) 2 n 1... ( ) n _ 2 όπου n είναι o αριθμός των δειγμάτων. Χρησιμοποιώντας την εξίσωση παραπάνω, μπορούμε να διαπιστώσουμε ότι η τυπική απόκλιση είναι 11,15. Πρέπει τώρα να υπολογίσουμε το δειγματικό σφάλμα του μέσου : s s x n

55 Η εμπιστοσύνη που μπορούμε να έχουμε στην υπόθεση μας ότι u=40 από τους 100 βόλους είναι λευκοί μπορεί να βρεθεί με ένα στατιστικό ελέγχου που ονομάζεται z-test: z x s x Χρησιμοποιώντας έναν πίνακα z-test βρίσκουμε την τιμή z = , και διαπιστώνουμε ότι το 32% της περιοχής κάτω από την καμπύλη της κανονικής κατανομής βρίσκεται κάτω από αυτήν τιμή ζ. Με άλλα λόγια, στο 32% των δειγμάτων, δοσμένου του, το είναι μικρότερο από 38,4. Δεδομένου ότι η κατανομή είναι δίπλευρη (δηλαδή ο μέσος όρος του δείγματος θα μπορούσε επίσης να είναι μεγαλύτερος από τον μέσο όρο του πληθυσμού), θα περιμένουμε το να είναι μεγαλύτερο του 41,6 που προκύπτει από το (40 x ) + 40 σε 32% ακόμη των περιπτώσεων. Εν ολίγοις, αν περιμένουμε το 40% του συνόλου των βόλων στο σάκο να είναι λευκό, τότε μια σειρά δέκα δειγμάτων με μόνο 38,4% των βόλων να είναι λευκά θα ήταν αναμενόμενο στο (100-64% =) 36% των περιπτώσεων. Είναι προφανές ότι η εμπιστοσύνη μπορούμε να δείξουμε στο συμπέρασμά μας δεν είναι τόσο καλή όσο ήταν κατά την πρώτη ματιά. Αυτή η έλλειψη εμπιστοσύνης οφείλεται στην υψηλή μεταβλητότητα ανάμεσα στα δείγματα. Εάν παίρναμε περισσότερα ή μεγαλύτερα δείγματα, η εμπιστοσύνη μας στο συμπέρασμά μας θα μπορούσε να αυξηθεί. s x x x 3.2 Εισαγωγή στη Μπεϋζιανή συμπερασματολογία Τα κλασικά μοντέλα Συμπερασματικής Στατιστικής δεν επιτρέπουν την εισαγωγή της πρότερης γνώσης στους υπολογισμούς. Για τους αυστηρούς κανόνες της επιστημονικής μεθόδου, αυτή είναι μια κατάλληλη απάντηση για την πρόληψη της εισαγωγής ξένων στοιχείων που θα μπορούσαν να παραποιήσουν τα πειραματικά αποτελέσματα. Ωστόσο, υπάρχουν πολλές περιπτώσεις όπου η χρήση της πρότερης γνώσης θα μπορούσε να συμβάλει θετικά στην εξαγωγή συμπερασμάτων. Ας υποθέσουμε μια κατάσταση στην οποία ένας επενδυτής εξετάζει το ενδεχόμενο να ανοίξει μια επιχείρηση σε μια δεδομένη γεωγραφική επικράτεια. Το επιχειρηματικό σχέδιο του δείχνει ότι πρέπει να επιτύχει μερίδιο αγοράς της τάξης του 25% για να είναι η επιχείρηση κερδοφόρα. Για αυτό το σκοπό προσλαμβάνει μια εταιρεία δημοσκοπήσεων για να διεξάγει μία μελέτη. Τα αποτελέσματα καταλήγουν στο συμπέρασμα ότι από ένα τυχαίο δείγμα 20 καταναλωτών, το 25% του πληθυσμού θα είναι πράγματι διατεθειμένοι να αγοράσουν τις υπηρεσίες της επιχείρησης. Είναι αυτό επαρκές στοιχείο για να προχωρήσει με την επένδυση; Αν αυτή ήταν όλη η πληροφορία που έχει στη διάθεση του ο επενδυτής, όντας ακριβώς στο όριο στο οποίο η επιχείρηση του θα είναι κερδοφόρα, μπορεί να τελικά να ζημιωθεί. Είναι πιθανό να μην έχει αρκετή εμπιστοσύνη στη μελέτη ή στο επιχειρηματικό του σχέδιο ώστε να προχωρήσει. Θα μπορούσε όμως να είχε στη διάθεση του ιστορικά στοιχεία που δείχνουν την επιτυχία επιχειρήσεων, ίδιων με αυτήν που προτίθεται να ανοίξει, σε νέες αγορές. Έστω

56 ότι τα στοιχεία αυτά δείχνουν πως στο 20% των περιπτώσεων, οι νέες επιχειρήσεις καταλαμβάνουν 25% της αγοράς, ενώ στο 40% των περιπτώσεων, οι νέες επιχειρήσεις καταλαμβάνουν 30% της αγοράς. Έστω ότι τα στοιχεία ήταν αυτά στον παρακάτω πίνακα: Μερίδιο Αγοράς Ποσοστό επιχειρήσεων Σύνολο = 1.00 ΠΙΝΑΚΑΣ 3.2: Ποσοστά νέων επιχειρήσεων που καταλαμβάνουν δεδομένο μερίδιο αγοράς Η ερώτηση του επενδυτή είναι απλή: "Ποια είναι η πιθανότητα ότι η επιχείρηση μου θα καταλάβει μερίδιο της αγοράς άνω του 25% δεδομένων της μελέτης που έγινε και των αποτελεσμάτων που προέκυψαν σε άλλες περιπτώσεις;" Στην πραγματικότητα, αυτό που πρέπει να προσδιοριστεί είναι η πιθανότητα ότι η επιχείρηση του θα ανήκει στο 70% των περιπτώσεων, οι οποίες πέτυχαν μερίδιο της αγοράς μεγαλύτερο ή ίσο με το 25%. Έχει τώρα την πληροφορία που χρειάζεται για να κάνει μια Μπευζιανή ανάλυση της κατάστασής του. Πριν το κάνουμε αυτό ας κάνουμε μια μικρή παρουσίαση του θεωρήματος του Bayes. 3.3 Θεώρημα του Bayes To θεώρημα του Bayes, που αναπτύχθηκε από τον Άγγλο μαθηματικό και θεολόγο, του 18ου αιώνα, Thomas Bayes, εκδόθηκε για πρώτη φορά το 1764, τρία χρόνια μετά το θάνατο του. Στην παρούσα μορφή του διαμορφώθηκε από τον Γάλλο μαθηματικό Pierre-Simon de Laplace. Μπορούμε να το εκφράσουμε μαθηματικά ως εξής: P( A B) P( B A) P( A) P( B) που είναι η απλούστερη εκδοχή του. Το Ρ (Α) είναι η εκ των προτέρων πιθανότητα. Προηγείται με την έννοια ότι την γνωρίζουμε πριν την εκτέλεση του πειράματος, αποτελεί δηλαδή την υπόθεση μας. Το Ρ (Α Β ) είναι η υπό συνθήκη πιθανότητα του Α δεδομένου του Β. Καλείται επίσης και εκ των υστέρων πιθανότητα επειδή εξαρτάται από την δεδομένη τιμή του Β. Το Ρ ( Β Α) είναι η υπό συνθήκη πιθανότητα του Β δεδομένου του Α. Τέλος το Ρ (Β) είναι ανεξάρτητο του Α και μπορεί να θεωρηθεί ως ένας

57 παράγοντας εξομάλυνσης. Σε αυτή τη μορφή το θεώρημα μας δίνει μια μαθηματική περιγραφή του πως η υπό συνθήκη πιθανότητα του γεγονότος Α δεδομένου του Β σχετίζεται με την αντίστροφη υπό συνθήκη πιθανότητα του Β δεδομένου του Α. 3.4 Εφαρμογή του θεωρήματος του Bayes Ας επιστρέψουμε στο παράδειγμα του επενδυτή. Από τη θεωρία της διωνυμικής κατανομής, εάν η πιθανότητα κάποιου γεγονότος να συμβαίνει σε κάθε δοκιμή είναι ρ, τότε η πιθανότητα να συμβούν x τέτοια γεγονότα κατά τη διεξαγωγή n δοκιμών εκφράζεται ως: P( x) n x n x p ( a p) x Για παράδειγμα, η πιθανότητα ότι 5 από τα 20 άτομα θα αγοράσουν τα προϊόντα της επιχείρησης του, εφόσον η επιχείρηση εμπίπτει στην κατηγορία του 20% των επιχειρήσεων που καταλαμβάνουν το 25% της αγοράς είναι: P(x = 5 p ) 5 0,25 0, ,20233 H πιθανότητα των άλλων καταστάσεων μπορεί επίσης να καθοριστεί: Γεγονός (Μερίδιο Αγοράς) p i Εκ των Πιθανότητα προτέρων Κατάστασης πιθανότητα P(x=5 ) P ( p 0 i ) p i Τομή πιθανοτήτων P(x=5 p i ) p i ) 0 των Εκ των υστέρων πιθανότητα P ( Ρ ( χ = 5 ) Ρ ο ( p i ) Ρ(χ = 5) Σύνολα = P(x=5) ΠΙΝΑΚΑΣ 3.3: Πιθανότητα να βρεθεί ο επενδυτής σε κάθε κατάσταση δεδομένου x=5 και n=20 p i

58 Το άθροισμα των τομών όλων των πιθανοτήτων μαςδίνει τον παράγοντα εξομάλυνσης που βρίσκεται στον παρονομαστή του τύπου του Bayes και σχετίζεται τελικά με το μέγεθος του δείγματος. Εάν το δείγμα ήταν μεγαλύτερο από 20, η σχετική στάθμιση μεταξύ της πρότερης γνώσης και τις υπάρχουσες αποδείξεις θα ευνοούσε τις τελευταίες. Η στήλη «Εκ των υστέρων πιθανότητα» του πίνακα 3.3 δείχνει τα αποτελέσματα της εφαρμογής του θεωρήματος του Bayes για το παράδειγμα. Προσθέτοντας τις σχετικές εκ των υστέρων πιθανότητες για τις περιπτώσεις όπου η επιχείρηση καταλαμβάνει μερίδιο αγοράς >25%, θα δούμε ότι υπάρχει περίπου 75% πιθανότητα ότι επιχείρηση θα είναι επικερδής, σίγουρα μια πιο ελκυστική κατάσταση όσον αφορά τη βάση μιας επενδυτικής απόφασης, σε σχέση με την πληροφορία που είχε διαθέσιμη ο επενδυτής πριν από την Μπεϋζιανή ανάλυση. 3.5 Ορισμός ενός Δικτύου Bayes Η έννοια της υπό συνθήκη πιθανότητας είναι ιδιαίτερα χρήσιμη. Υπάρχουν αμέτρητα παραδείγματα στον πραγματικό κόσμο, όπου η πιθανότητα ενός γεγονότος εξαρτάται από την πιθανότητα ενός άλλου. Ενώ ο αθροιστικός και ο πολλαπλασιαστικός κανόνας της θεωρίας πιθανοτήτων μπορεί να προβλέψουν αυτόν τον παράγοντα των προϋποθέσεων, σε πολλές περιπτώσεις οι απαιτούμενοι υπολογισμοί είναι NPδύσκολοι. Η προοπτική της διαχείρισης ενός συστήματος με 5 διακριτές τυχαίες μεταβλητές (2 5-1 = 31 διακριτές παραμέτρους) μπορεί να είναι διαχειρίσιμη. Ένα έμπειρο σύστημα για την παρακολούθηση ασθενών όμως, που μπορεί να έχει 37 μεταβλητές με αποτέλεσμα μια από κοινού κατανομή πιθανοτήτων με πάνω από 2 37 παραμέτρους, δεν θα είναι διαχειρίσιμο. Σε τέτοια προβλήματα έρχονται να δώσουν λύση τα δίκτυα Bayes. Τα δίκτυα Bayes (Bayes Networks), γνωστά και ως δίκτυα πεποίθησης (belief networks), ανήκουν στην οικογένεια των πιθανοτικών γραφικών μοντέλων (graphical models). Αυτές οι γραφικές δομές χρησιμοποιούνται για την αναπαράσταση γνώσης σχετικά με την δομή των υπό συνθήκη εξαρτήσεων μεταξύ τυχαίων μεταβλητών. Ειδικότερα, κάθε κόμβος στο γράφημα αντιπροσωπεύει μια τυχαία μεταβλητή, ενώ οι ακμές μεταξύ των κόμβων αντιπροσωπεύουν πιθανοτικές εξαρτήσεις μεταξύ των αντίστοιχων τυχαίων μεταβλητών. Αυτές οι υπό όρους εξαρτήσεις στο γράφημα συχνά υπολογίζονται με τη χρήση γνωστών στατιστικών και υπολογιστικών μεθόδων. Ως εκ τούτου, τα δίκτυα Bayes συνδυάζουν αρχές από την θεωρία γράφων, τη θεωρία πιθανοτήτων και τη στατιστική. Τα γραφικά μοντέλα με μη κατευθυνόμενες ακμές ονομάζονται τυχαία πεδία Markov ή δίκτυα Markov στα οποία η ιδιότητα Markov 1 μέσα σε ένα σύνολο από τυχαίες μεταβλητές αναπαρίσταται από ένα μη κατευθυνόμενο γράφο. Τα δίκτυα Markov είναι δημοφιλή σε τομείς όπως η στατιστική φυσική και η μηχανική όραση. Τα δίκτυα Bayes αντιστοιχούν σε μια άλλη δομή γράφου που είναι γνωστή ως κατευθυνόμενος άκυκλος γράφος (Directed Acyclic Graph, DAG), η οποία είναι δημοφιλής στη στατιστική, τη μηχανική μάθηση, καθώς και στη τεχνητή νοημοσύνη. Τα δίκτυα Bayes χαρακτηρίζονται από μαθηματική αυστηρότητα ενώ παράλληλα είναι κατανοητά διαισθητικά. Δίνουν τη δυνατότητα της αποτελεσματικής αναπαράστασης και υπολογισμού της από κοινού κατανομής πιθανοτήτων (Joint Probability Distribution) σε ένα σύνολο τυχαίων μεταβλητών

59 Η δομή ενός κατευθυνόμενου άκυκλου γράφου καθορίζεται από δύο σύνολα: το σύνολο των κόμβων (κορυφές) και το σύνολο των κατευθυνόμενων ακμών. Οι κόμβοι αντιστοιχούν στις τυχαίες μεταβλητές, σχεδιάζονται ως κύκλοι και έχουν ως ετικέτες τα ονόματα των μεταβλητών. Οι ακμές αναπαριστούν μια άμεση εξάρτηση μεταξύ των μεταβλητών και σχεδιάζονται με βέλη μεταξύ των κόμβων. Ειδικότερα, μια ακμή από τον κόμβο Xi στον κόμβο Xj αναπαριστά μια στατιστική εξάρτηση μεταξύ των αντίστοιχων μεταβλητών. Έτσι, το βέλος δείχνει ότι η τιμή που λαμβάνεται από τη μεταβλητή Xj εξαρτάται από την τιμή που πήρε η μεταβλητή Xi ή χονδρικά ότι η μεταβλητή Xi "επηρεάζει" την Xj. O κόμβος X; στη συνέχεια αναφέρεται ως γονέας του Xj και παρομοίως, ο Xj αναφέρεται ως το παιδί του Xi. Μία επέκταση των εν λόγω γενεαλογικών όρων χρησιμοποιείται συχνά για τον καθορισμό των συνόλων των "απογόνων", δηλαδή το σύνολο των κόμβων που μπορεί να προσεγγισθούν σε ένα (κατευθυνόμενο) μονοπάτι από τον κόμβο, ή "πρόγονοι" κόμβοι, το σύνολο των κόμβων από τους οποίους μπορεί να ξεκινήσει ένα μονοπάτι το οποίο καταλήγει στον κόμβο. Η δομή των κατευθυνόμενων άκυκλων γράφων εγγυάται ότι δεν υπάρχει κόμβος που μπορεί να είναι πρόγονος ή απόγονος του εαυτού του. Μια τέτοια προϋπόθεση είναι ζωτικής σημασίας για την παραγοντοποίηση της από κοινού πιθανότητας ενός συνόλου κόμβων. Ας σημειώσουμε ότι αν και τα βέλη αντιπροσωπεύουν άμεση αιτιώδη σχέση μεταξύ των μεταβλητών, η συλλογιστική μπορεί να λειτουργήσει σε δίκτυα Bayes διαδίδοντας πληροφορία προς κάθε κατεύθυνση. Ένα δίκτυο Bayes αποτελεί μια απλή δήλωση ανεξαρτησίας υπό όρους. Συγκεκριμένα ότι κάθε μεταβλητή είναι ανεξάρτητη από του μη-απογόνους της στο γράφο δεδομένης της κατάστασης των γονέων της. Αυτή η ιδιότητα χρησιμοποιείται για τη μείωση, ενίοτε σημαντικά, του αριθμού των παραμέτρων που απαιτούνται για τον χαρακτηρισμό της από κοινού κατανομής πιθανοτήτων των μεταβλητών. Η μείωση αυτή παρέχει έναν αποτελεσματικό τρόπο για να υπολογιστούν οι εκ υστέρων πιθανότητες με βάση τα στοιχεία που είναι διαθέσιμα. Εκτός από τη δομή κατευθυνόμενου άκυκλου γράφου, η οποία θεωρείται συχνά ως το «ποιοτικό» μέρος του μοντέλου, πρέπει να διευκρινιστούν και οι «ποσοτικές» παράμετροι του μοντέλου. Οι παράμετροι περιγράφονται κατά τρόπο που να είναι σύμφωνος με μια Μαρκοβιανή ιδιότητα, όπου η υπό συνθήκη κατανομή πιθανοτήτων (conditional probability distribution) σε κάθε κόμβο εξαρτάται μόνο από τους γονείς του. Για διακριτές τυχαίες μεταβλητές, αυτή η υπό συνθήκη πιθανότητα συχνά αναπαρίσταται από έναν πίνακα, όπου παρατίθεται η τοπική πιθανότητα που ένας κόμβος-παιδί παίρνει σε κάθε μία από τις αποδεκτές τιμές, για κάθε συνδυασμό των τιμών των γονέων του. Η κοινή κατανομή από μια συλλογή μεταβλητών μπορεί να προσδιοριστεί μοναδικά με αυτούς τους πίνακες τοπικών υπό συνθήκη πιθανοτήτων. Μπορούμε τώρα να δώσουμε ένα πιο επίσημο ορισμό των δικτύων Bayes. Ένα δίκτυο Bayes, έστω B, είναι ένας άκυκλος γράφος που αναπαριστά μία κοινή κατανομή πιθανοτήτων σε ένα σύνολο τυχαίων μεταβλητών V. Το δίκτυο ορίζεται από ένα ζεύγος Β = ( G, Θ), όπου G είναι ο κατευθυνόμενος άκυκλος γράφος του οποίου οι κόμβοι x i, X2,..., Xn αντιπροσωπεύουν τυχαίες μεταβλητές, και του οποίου οι ακμές αναπαριστούν τις άμεσες εξαρτήσεις μεταξύ αυτών των μεταβλητών. Ο γράφος G κωδικοποιεί υποθέσεις ανεξαρτησίας, σύμφωνα με τις οποίες κάθε μεταβλητή x i είναι ανεξάρτητη από τις μη-απογόνους της, δεδομένων των γονέων της στο G. Η δεύτερη συνιστώσα Θ υποδηλώνει το σύνολο των παραμέτρων του δικτύου. Αυτό το σύνολο περιέχει την παράμετρο θχί πί = Ρβ(Χί πί)για κάθε x του x που εξαρτάται από το πi, όπου πi το i i

60 σύνολο των γονέων του Xi στο G. Έτσι, το Β ορίζει μια μοναδική κοινή κατανομή πιθανοτήτων στο V, και συγκεκριμένα: P n n B ( x1, x2,..., xn ) PB ( xi i ) i 1 i Παράδειγμα ενός δικτύου Bayes Σε μια κατάσταση στην οποία θα μπορούσε να βρέξει σήμερα και θα μπορούσε βρέξει και αύριο, ποια είναι η πιθανότητα ότι θα βρέξει και τις δύο ημέρες; Το να βρέξει σε δύο διαδοχικές ημέρες δεν είναι ανεξάρτητα γεγονότα. Αν βρέξει μία μέρα, είναι πιο πιθανό να βρέξει και την επόμενη. Η επίλυση ενός τέτοιου προβλήματος συνίσταται στον καθορισμό της πιθανότητας να βρέξει σήμερα, και στη συνέχεια στον καθορισμό της πιθανότητας ότι θα βρέξει αύριο εξαρτώμενη από την πιθανότητα να βρέξει σήμερα. Ας υποθέσουμε ότι η P (βροχή σήμερα) = 0,20 και P (βροχή αύριο, δεδομένου ότι βρέχει σήμερα) = 0,70. Η πιθανότητα τέτοιων κοινών γεγονότων καθορίζεται από τον τύπο: P( R 1 R ) 2 = P( R 1 ) P R 2 R ) ( 1 ο οποίος μπορει να εκφραστεί και ως: P( R 2 R ) 1 P( R 1 P( R ) 1 R 2 ) όπου Κι=(Βροχή Σήμερα, Κ2=Βροχή Αύριο Αφού υπολογίσουμε τις πιθανότητες για όλες τις περιπτώσεις έχουμε τον πίνακα: Βροχής Αύριο Απουσία Βροχής Αύριο Περιθώρια πιθανότητα να βρέξει σήμερα Βροχή Σήμερα Απουσία Βροχής Σήμερα Περιθώρια πιθανότητα να βρέξει αύριο ΠΙΝΑΚΑΣ 3.4: Περιθώριες και από κοινού πιθανότητες να βρέξει και σήμερα και αύριο

61 Το ίδιο μπορεί να εκφραστεί χρησιμοποιώντας ένας δίκτυο Bayes: ΣΧΗΜΑ 3.1: Δίκτυο Bayes για την πιθανότητα βροχής σήμερα και αύριο Ένα από τα ελκυστικά χαρακτηριστικά των δικτύων Bayes είναι η αποδοτικότητα τους καθώς αρκεί να διασχίσουμε μόνο ένα κλαδί του δένδρου για να βρούμε την πιθανότητα που μας ενδιαφέρει (P(R2HR1)). Στην πραγματικότητα μας ενδιαφέρουν μόνο τα P(R1), P(R2 R1) και P(R2HR1). Μπορούμε να αξιοποιήσουμε επίσης το διάγραμμα τόσο οπτικά όσο και αλγοριθμικά ώστε να καθορίσουμε ποιες παράμετροι είναι ανεξάρτητες μεταξύ τους. Αντί του υπολογισμού τεσσάρων από κοινού πιθανοτήτων, μπορούμε να χρησιμοποιήσουμε την ανεξαρτησία των παραμέτρων για τον περιορισμό των υπολογισμών μας σε δύο. Είναι αυτονόητο ότι η πιθανότητα βροχής κατά τη δεύτερη ημέρα υπό τη συνθήκη ότι έβρεξε την πρώτη, είναι εντελώς ανεξάρτητη από την πιθανότητα βροχής τη δεύτερη μέρα δεδομένου ότι δεν έβρεξε την πρώτη. Εκτός από το να μας δείχνουν το ποιες παράμετροι μας ενδιαφέρουν πραγματικά, τα δίκτυα Bayes αποτελούν επίσης μια αναπαράσταση των εξαρτήσεων μεταξύ των παραμετρικών σχέσεων. Ενώ η πιθανότητα βροχής σήμερα και η πιθανότητα βροχής αύριο είναι δύο διακριτά γεγονότα (δεν μπορεί να βρέχει ταυτόχρονα σήμερα και αύριο), υπάρχει μια υπό συνθήκη σχέση μεταξύ τους (αν βρέχει σήμερα, τα παραμένοντα καιρικά συστήματα και η παρατεταμένη υγρασία καθιστούν πιο πιθανό το να βρέξει αύριο). Για αυτόν τον λόγο, οι κατευθυνόμενες ακμές του γράφου συνδέονται με τέτοιον τρόπο ώστε να δείχνουν αυτήν την εξάρτηση. Στην κατανόηση της λειτουργίας των δικτύων Bayes, μπορεί να βοηθήσει η εξέταση τους ως μια «ιστορία». Ας πάρουμε ένα παράδειγμα που χρησιμοποιείται συχνά κατά την παρουσίαση των δικτύων Bayes και περιλαμβάνει πέντε τυχαίες μεταβλητές: Δ="Διάρρηξη", Ε="Σεισμός", Σ= Μ Συναγερμός Μ, Τ= "Τηλεφώνημα Γείτονα", και Α="Ανακοίνωση στο Ραδιόφωνο". Σε μια τέτοια ιστορία, η Διάρρηξη και ο Σεισμός είναι ανεξάρτητες μεταβλητές, δηλαδή δεν υπάρχει κάποιο συμβάν το οποίο να επιδρά τόσο στις διαρρήξεις όσο και στους σεισμούς. Επίσης, "Διάρρηξη" και " Ανακοίνωση στο Ραδιόφωνο " είναι ανεξάρτητες δεδομένου ότι ισχύει το "Σεισμός", που σημαίνει ότι ενώ μία ραδιοφωνική ανακοίνωση θα

62 μπορούσε να προκύψει από ένα σεισμό, δεν θα προκύψει ως επίπτωση από μια διάρρηξη. Εξαιτίας της ανεξαρτησίας μεταξύ των μεταβλητών αυτών, η πιθανότητα P ( P E ) (Η από κοινού πιθανότητα ενός συναγερμού, ραδιοφωνικής ανακοίνωσης, σεισμού και διάρρηξης) μπορεί να μειωθεί από: P ( P E ) = P( P E )* P( P E )* P( E )* P( ) όπου έχουμε 15 παραμέτρους σε μορφή που έχει μόνο 8: P ( P E ) = P( E )* P( P E)* P( E)* P( ) Μειώσαμε έτσι σημαντικά τον αριθμό των από κοινού πιθανοτήτων. Αυτό μπορούμε να το αναπαραστήσουμε με ένα Δίκτυο Bayes: ΣΧΗΜΑ 3.2: Παράδειγμα δικτύου Bayes Η χρήση ενός δικτύου Bayes προσφέρει πολλά πλεονεκτήματα έναντι των παραδοσιακών μεθόδων για τον καθορισμό αιτιωδών σχέσεων. Η ανεξαρτησία μεταξύ των μεταβλητών είναι εύκολο να αναγνωριστεί και να απομονωθεί, ενώ οι υπό συνθήκη σχέσεις είναι σαφώς οριοθετημένες από μια κατευθυνόμενη ακμή του γράφου: δύο μεταβλητές είναι ανεξάρτητες εάν όλα τα μονοπάτια μεταξύ τους μπλοκάρονται (δεδομένου ότι οι ακμές είναι κατευθυνόμενες). Δεν είναι αναγκαίο να υπολογιστούν όλες οι από κοινού πιθανότητες για να παρθεί μια απόφαση, ξένα κλαδιά και σχέσεις μπορούν να αγνοηθούν (μπορούμε να κάνουμε μια πρόβλεψη μιας ραδιοφωνικής ανακοίνωσης, ανεξάρτητα από το αν είναι ενεργοποιημένος ή όχι ένας συναγερμός). Με τη βελτιστοποίηση του γράφου, κάθε κόμβος μπορεί να αποδειχθεί ότι έχει το πολύ k γονείς. Η αλγόριθμοι που απαιτούνται μπορούν επομένως να k τρέξουν σε χρόνο Ο ( 2 n) αντί Ο ( 2 n ). Στην ουσία, ο αλγόριθμος μπορεί να τρέξει

63 σε γραμμικό χρόνο (με βάση τον αριθμό των ακμών), αντί του εκθετικού χρόνου (με βάση τον αριθμό των παραμέτρων). Όπως αναφέραμε όταν μιλούσαμε για τις ποσοτικές παραμέτρους ενός μοντέλου κάθε κόμβος είναι συνδεδεμένος με ένα σύνολο από υπό συνθήκη κατανομές πιθανοτήτων. Για παράδειγμα, ο κόμβος "Συναγερμός" θα μπορούσε να έχει την ακόλουθη κατανομή πιθανοτήτων: Ε Δ P( A E B) P( A E B) Ε Δ Ε E E Δ ΠΙΝΑΚΑΣ 3.5: Κατανομή Πιθανοτήτων για τον κόμβο Συναγερμός δοσμένων των γεγονότων Ε="Σεισμός" και Δ="Διάρρηξη" Στο παράδειγμα μας, σε περίπτωση που συμβαίνει ένας σεισμός και μια διάρρηξη ταυτόχρονα, ο συναγερμός έχει 99% πιθανότητα να ενεργοποιηθεί. Με μόνο ένα σεισμό και χωρίς διάρρηξη, θα ενεργοποιηθεί μόνο στο 20% των περιπτώσεων. Μια διάρρηξη χωρίς να συνοδεύεται από σεισμό, θα ενεργοποιήσει το συναγερμό το 90% των περιπτώσεων, και η πιθανότητα να ενεργοποιηθεί ο συναγερμός χωρίς κάποιο συμβάν να το προκαλέσει είναι 1%. 3.7 Χρήση των δικτύων Bayes στην ταξινόμηση Ο απλός ταξινομητής Bayes είναι ένας αρκετά αποτελεσματικός ταξινομητής, ο οποίος μαθαίνει από τα δεδομένα εκπαίδευσης την υπό συνθήκη κατανομή πιθανότητας για κάθε χαρακτηριστικό δεδομένης της κλάσης C. Η ταξινόμηση γίνεται στη συνέχεια εφαρμόζοντας τον κανόνα Bayes με τον οποίο υπολογίζουμε την πιθανότητα του C δεδομένων των χαρακτηριστικών,..., A n για κάθε παράδειγμα (instance) και τέλος προβλέπουμε την κλάση με την υψηλότερη εκ των υστέρων πιθανότητα. P ( c a) P( c)* P( a i c) i A i όπου α=(αι,...,αη) οι τιμές των χαρακτηριστικών A =( A i,..., A n ) και c η τιμή της κλάσης C Λυτός ο υπολογισμός καθίσταται δυνατός κάνοντας μια ισχυρή υπόθεση ανεξαρτησίας: υποθέτουμε ότι όλα τα χαρακτηριστικά Λ; είναι ανεξάρτητα δεδομένης της τιμής της κλάσης C. Λν και η υπόθεση αυτή είναι μη ρεαλιστική, η απόδοση του απλού ταξινομητή Bayes είναι σε αρκετά καλά επίπεδα και παρόμοια με A i

64 αυτά των δένδρων απόφασης C 3.5. Η απόδοση τους όμως θα μπορούσε να βελτιωθεί αποφεύγοντας τις αυθαίρετες υποθέσεις για την ανεξαρτησία. Σε αυτό ακριβώς το σημείο μπορούν να βοηθήσουν τα δίκτυα Bayes. Αν αναπαραστήσουμε τον απλό ταξινομητή Bayes ως ένα δίκτυο Bayes έχει την απλή δομή που απεικονίζεται στο Σχήμα 3.3, που μας δείχνει την κύρια υπόθεση, ότι δηλαδή κάθε χαρακτηριστικό (κάθε φύλλο στο δίκτυο) είναι ανεξάρτητο από τα υπόλοιπα χαρακτηριστικά, δεδομένης τις τιμής της μεταβλητής της κλάσης (ρίζα στο δίκτυο) ΣΧΗΜΑ 3.3: Αναπαράσταση του απλού ταξινομητή Bayes με δίκτυο Bayes Υπάρχουν μέθοδοι που μας επιτρέπουν να μάθουμε τη δομή ενός δικτύου Bayes από ένα σύνολο δεδομένων, πολλές από τις οποίες έχουν υλοποιηθεί και στο λογισμικό ανοιχτού κώδικα WEKA. Αυτό μας επιτρέπει να ξεφύγουμε από το περιορισμένο δίκτυο και να χρησιμοποιήσουμε το νέο δίκτυο Bayes ώστε να δημιουργήσουμε πιο αποδοτικούς ταξινομητές. Μερικές επεκτάσεις που έχουν προταθεί είναι: Επαυξημένα απλά δίκτυα Bayes: Όπως αναφέραμε ένας ταξινομητής μπορεί να βελτιωθεί αν λάβουμε υπ όψιν την ιδιαίτερη σημασία που έχει ο κόμβος της κλάσης και τις σχέσεις ανάμεσα στα χαρακτηριστικά. Ένας εύκολος τρόπος να γίνει αυτό είναι να εισάγουμε στο δίκτυο μεροληψία έτσι ώστε να υπάρχει μία ακμή από την κλάση σε κάθε χαρακτηριστικό και εισάγοντας ακμές ανάμεσα στα χαρακτηριστικά, όπου χρειάζεται, εξαλείφοντας έτσι τις υποθέσεις για ανεξαρτησία μεταξύ τους. Με την επιβολή κάποιων περιορισμών στη μορφή των επιτρεπόμενων αλληλεπιδράσεων, μπορούμε να μάθουμε το βέλτιστο σύνολο των επιπλέον ακμών σε πολυωνυμικό χρόνο. Πολλαπλά δίκτυα Bayes: Η προηγούμενη προσέγγιση εξαναγκάζει τις σχέσεις μεταξύ των χαρακτηριστικών να είναι ίδιες για όλες τις διαφορετικές τιμές της μεταβλητής κλάσης C. Μία γενίκευση θα ήταν να έχουμε διαφορετικές επιπλέον ακμές για κάθε κλάση, και μια συλλογή από δίκτυα ως τον ταξινομητή. Αυτό γίνεται διαχωρίζοντας το σύνολο εκπαίδευσης ανά κλάση και στην συνέχεια για κάθε κλάση κατασκευάζουμε ένα δίκτυο Bayes για τα χαρακτηριστικά, τα οποία καλούμε τοπικά δίκτυα. Στη συνέχεια ταξινομούμε και πάλι επιλέγοντας την κλάση που μεγιστοποιεί την εκ των υστέρων πιθανότητα

65 3.8 Χρήση των δικτύων Bayes στην ταξινόμηση δεδομένων πολλαπλών ετικετών Στην τυπική ταξινόμηση οι προσπάθειες των ερευνητών όσον αφορά τα δίκτυα Bayes έχουν επικεντρωθεί στην εύρεση εξαρτήσεων μεταξύ των χαρακτηριστικών οι οποίες μπορεί να επηρεάσουν την απόδοση του ταξινομητή. Στην ταξινόμηση δεδομένων πολλαπλών ετικετών όμως έχουμε την επιπλέον δυσκολία της εξάρτησης ανάμεσα στις ετικέτες. Για παράδειγμα σε ένα σύνολο δεδομένων που περιγράφει μουσικά κομμάτια και έχει ετικέτες όπως Κύριο όργανο και Είδος Μουσικής αν ένα κομμάτι έχει την ηλεκτρική κιθάρα ως κύριο όργανο είναι πολύ πιθανό να ανήκει στην είδος μουσικής Rock και αντιθέτως αν ένα κομμάτι έχει ως είδος τη Μπαρόκ μουσική είναι μάλλον απίθανο να έχει την ηλεκτρική κιθάρα ως κύριο όργανο. Αυτές είναι οι εξαρτήσεις που ενδιαφέρουν τους ερευνητές και τα δίκτυα Bayes προσφέρονται ως ένας πολύ καλός τρόπος αναπαράστασης των εξαρτήσεων αυτών με τρόπο συγκεντρωμένο και εύκολα κατανοητό. Στον έναν από τους αλγορίθμους που υλοποιήθηκαν στα πλαίσια της εργασίας μάλιστα οι ερευνητές προσπαθούν να εξαλείψουν τις επιπτώσεις που έχουν τα χαρακτηριστικά στις ετικέτες και στη συνέχεια να ανακαλύψουν τις υπό συνθήκη εξαρτήσεις που υπάρχουν ανάμεσα στις ετικέτες. Εφόσον έχουμε το δίκτυο Bayes που περιγράφει τις εξαρτήσεις ανάμεσα στις ετικέτες υπάρχει ένας σχετικά απλός αλγόριθμος που μας επιτρέπει να διαπιστώσουμε αν δύο ετικέτες (ή γενικότερα μεταβλητές) είναι υπό συνθήκη ανεξάρτητες και ονομάζεται d-διαχωρισμός. Λέμε ότι δύο μεταβλητές (ή σύνολα μεταβλητών) X, Y είναι d-διαχωρισμένες (dseparated) από ένα σύνολο μεταβλητών Ζ εάν και μόνον εάν κάθε μη κατευθυνόμενο μονοπάτι ανάμεσα στο X και το Y μπλοκάρεται, όπου ένα μονοπάτι είναι μπλοκαρισμένο αν μία ή περισσότερες από τις ακόλουθες συνθήκες είναι αληθής: Υπάρχει μία μεταβλητή V στο μονοπάτι τέτοια ώστε o ανήκει στο σύνολο Ζ o και οι δύο ακμές μέσω των οποίων το V περιλαμβάνεται στο μονοπάτι έχουν το V ως αφετηρία Υπάρχει μία μεταβλητή V στο μονοπάτι τέτοια ώστε ο ανήκει στο σύνολο Ζ ο οι ακμές μέσω των οποίων το V περιλαμβάνεται στο μονοπάτι έχουν μία το V ως αφετηρία και η άλλη ως προορισμό Υπάρχει μία μεταβλητή V στο μονοπάτι τέτοια ώστε ο ΔΕΝ ανήκει στο σύνολο Ζ ο επίσης κανένας από τους απογόνους της δεν ανήκει στο Ζ ο και οι δύο ακμές μέσω των οποίων το V περιλαμβάνεται στο μονοπάτι έχουν το V ως προορισμό

66 Στις δύο πρώτες περιπτώσεις είναι αρκετά εμφανές το πώς ο κόμβος V επηρεάζει την τιμή και των δύο μεταβλητών, κάνοντας τις τιμές τους να εξαρτώνται. Η Τρίτη περίπτωση μπορεί να γίνει καλύτερα κατανοητή δίνοντας ένα παράδειγμα από το όπου έχουμε ένα αμάξι το οποίο δεν ξεκινά λόγω δύο ανεξάρτητων αιτιών: δεν υπάρχει βενζίνη και η μπαταρία έχει αδειάσει. Άδεια Μπαταρία Αυτοκίνητο δεν ξεκινά Άδειο Ντεπόζιτο Η γνώση για το αν η μπαταρία είναι γεμάτη δε μας δίνει καμία πληροφορία για το αν υπάρχει βενζίνη, αλλά αν γνωρίζουμε ότι η μπαταρία είναι γεμάτη αφού έχουμε μάθει ότι το αυτοκίνητο δεν ξεκινά μας δείχνει ότι το ντεπόζιτο πρέπει να είναι άδειο. Έτσι οι ανεξάρτητες αιτίες γίνονται εξαρτημένες αφού επηρεάζουν ένα κοινό γεγονός. Το ελάχιστο σύνολο κόμβων που d-διαχωρίζει ένα κόμβο Α από όλους τους άλλους κόμβους ονομάζεται κάλυμμα Markov (Markov blanket). Το κάλυμμα Markov MB(A) ενός κόμβου είναι το σύνολο των κόμβων που αποτελούν οι γονείς του Α, τα παιδιά του και όλοι οι γονείς των παιδιών του. Σχήμα 3.4: Κάλυμμα Markov της μεταβλητής Α

67 Η χρησιμότητα του d-διαχωρισμού έχει αποδειχθεί από τον Pearl και μας δείνχει ότι εάν ένα σύνολο μεταβλητών Ζ d-διαχωρίζει τα X, Y σε ένα δίκτυο Bayes τότε τα X, Y είναι ανεξάρτητα δεδομένου του Ζ. Ο d-διαχωρισμός μπορεί να υπολογιστεί σε γραμμικό χρόνο χρησιμοποιώντας ένα αλγόριθμο παρόμοιο με την κατά βάθος πρώτα αναζήτηση (depth first search). Έχουμε έτσι ένα γρήγορο αλγόριθμο ώστε να μπορούμε να συμπεράνουμε αυτόματα το εάν μαθαίνοντας την τιμή μιας μεταβλητής θα μπορούσαμε 2 να έχουμε επιπλέον πληροφορία για μια άλλη μεταβλητή, δεδομένων αυτών που ξέρουμε ήδη. 3.9 Περιορισμοί των δικτύων Bayes Παρά την αξιοσημείωτη δύναμη και την δυνατότητα να αντιμετωπίζουν αποτελεσματικά μεγάλους αριθμούς μεταβλητών, υπάρχουν ορισμένοι εγγενείς περιορισμοί και μειονεκτήματα στα δίκτυα Bayes. Το βασικότερο πρόβλημα προέρχεται από το γεγονός ότι το να βρίσκουμε τις υπό συνθήκη πιθανότητες απαριθμώντας όλες τις περιπτώσεις που ταιριάζουν στην από κοινού κατανομή είναι πολύ ακριβή διαδικασία. Συγκεκριμένα ο χρόνος αυξάνει εκθετικά μαζί με τον αριθμό των μεταβλητών. Η διαδικασία της ανακάλυψης του δικτύου είναι μία NP-δύσκολη διαδικασία στη γενική περίπτωση, ενώ έχει αποδειχθεί ότι η μάθηση ενός δικτύου Bayes ανήκει στην κατηγορία των NP-πλήρων προβλημάτων. Αυτό κάνει την διαδικασία μάθησης ενός δικτύου με πολλές μεταβλητές είτε υπερβολικά δαπανηρή για να εκτελεστεί, ή αδύνατη, δεδομένου του αριθμού των συνδυασμών των μεταβλητών. Αυτό έχει οδηγήσει τους ερευνητές στο να αναζητήσουν πιο αποδοτικούς αλγορίθμους κάνοντας υποθέσεις και παραδοχές όπως το μέγιστο αριθμό γονέων που μπορεί να έχει ο κάθε κόμβος καθώς όπως αναφέραμε οι αλγόριθμοι γενικά τρέχουν σε χρόνο Ο ( 2 k n) όπου k ο αριθμός γονέων που έχει ο κόμβος με τους περισσότερους γονείς στο γράφο. Ακόμα, για να υπολογίσουμε την πιθανότητα οποιοδήποτε κλάδου του δικτύου, πρέπει να υπολογιστούν όλοι οι κλάδοι. Κάνοντας όμως την υπόθεση ότι ένα δίκτυο είναι πολυ-δένδρο(ροly-tree), δηλαδή ένας κατευθυνόμενος άκυκλος γράφος στον όποιο δεν υπάρχουν δύο κόμβοι με πάνω από ένα μονοπάτι ανάμεσα τους, υπάρχει γραμμικός αλγόριθμος για λάβουμε τις πιθανότητες. Πολλοί αλγόριθμοι γενικής περίπτωσης μετατρέπουν ένα τυπικό δίκτυο σε πολυ-δένδρο και καλούν τον αλγόριθμο πολυ-δένδρου. Μια άλλη δημοφιλής και πρακτική προσέγγιση είναι η στοχαστική προσομοίωση (Stochastic Simulation) όπου ανάλογα με την πιθανότητα που αναζητούμε, διαλέγουμε τυχαία κάποια δείγματα από τα δεδομένα και βρίσκουμε προσεγγίσεις των κατανομών

68 3.10 Εφαρμογές των δικτύων Bayes Τα δίκτυα Bayes έχουν πλέον εφαρμογή την πλειοψηφία των τομέων της έρευνας, από την ρομποτική και επιστήμη των υπολογιστών, μέχρι τη βιολογία και την μετεωρολογία. Εδώ θα αναφερθούμε σε δύο από αυτές, το Pathfinder ένα η έμπειρο σύστημα διάγνωσης ασθενειών παθολογίας του αίματος (hematopathology) και σε ένα σύστημα δημιουργίας αυτόματα προσαρμοζόμενων τεστ. Το σύστημα Pathfinder γεννήθηκε από την ανάγκη για την επίλυση προβλημάτων που έχουν οι παθολόγοι στο να κάνουν διαγνώσεις παθολογίας του αίματος. Πιο συγκεκριμένα στόχος ήταν η δημιουργία ενός συστήματος που θα βοηθάει τους παθολόγους στην ερμηνεία αρκετών εκατοντάδων ιστολογικών χαρακτηριστικών που εμφανίζονται σε τμήματα των λεμφαδένων. Η μικροσκοπική ερμηνεία των βιοψιών σε λεμφαδένες έχει χαρακτηριστεί ως μία από τις πιο δύσκολες και επιρρεπής σε λάθη διαδικασίες της χειρουργικής παθολογίας. Η πολυπλοκότητα της παθολογίας των λεμφαδένων έχει οδηγήσει σε σημαντικά προβλήματα στη διάγνωση των ασθενειών που τους προσβάλλουν. Πολλές από τις καλοήθεις παθήσεις των λεμφαδένων μοιάζουν πολύ με τα κακοήθη νοσήματα. Η ακριβής διάγνωση των ασθενειών που εμφανίζονται ως σύνθετες οπτικές διατάξεις στον ιστό των λεμφαδένων είναι ζωτικής σημασίας για τον καθορισμό της πρόγνωσης και της θεραπείας. Τα κακοήθη λεμφώματα συνήθως έχουν χαρακτηριστικές αντιδράσεις σε μια θεραπεία και διαφορετικά ποσοστά επιβίωσης. Το σύστημα Pathfinder λοιπόν βοηθάει με το να προσφέρει εξειδικευμένη γνώση και εμπειρία σε μη ειδικευμένους παθολόγους, μειώνοντας έτσι τη διαφορά στην ποιότητα των διαγνώσεων που γίνονται σε ένα τοπικό νοσοκομείο και αυτών που γίνονται από τους λίγους παθολόγους που ειδικεύονται σε διαγνώσεις ασθενειών των λεμφαδένων. Το Pathfinder μπορεί να ανιχνεύσει πάνω από 60 τύπους ασθενειών που μπορεί να προσβάλλουν τους λεμφαδένες χρησιμοποιώντας πάνω από 130 χαρακτηριστικά για να κάνει τη διάγνωση ενώ ο αριθμός των πιθανοτήτων που χρειάζεται το δίκτυο Bayes του Pathfinder ανέρχονται στις Για την κατασκευή του δικτύου, τμήμα του οποίου απεικονίζεται παρακάτω, οι ερευνητές συμβουλεύτηκαν ειδικούς πάνω στο θέμα οι οποίοι χρειάστηκαν 8 ώρες για να καθορίσουν τις μεταβλητές, 35 ώρες για να ορίσουν την τοπολογία του δικτύου και 40 ώρες για να δώσουν τιμές στους πίνακες πιθανοτήτων. Σύμφωνα με τους ειδικούς ήταν αρκετά εύκολο να ανακαλύψουν τις αιτιώδεις σχέσεις ανάμεσα στις μεταβλητές και να βρουν τις πιθανότητες. Ο τρόπος με τον οποίο η χρήση ενός δικτύου Bayes κάνει το Pathfinder να ξεχωρίζει σε απόδοση είναι ότι πριν από αυτό, σχεδόν όλα τα συστήματα έκαναν την υπόθεση ότι δεδομένης της ασθένειας, όλα τα χαρακτηριστικά είναι ανεξάρτητα το ένα από το άλλο. Το δίκτυο Bayes επιτρέπει τη μοντελοποίηση των σχέσεων ανάμεσα στα χαρακτηριστικά με αποτέλεσμα το Pathfinder να ξεπερνά πλέον στην ακρίβεια των διαγνώσεων ακόμα και τους διεθνώς αναγνωρισμένους ειδικούς πάνω στο θέμα και να επεκτείνεται τώρα σε δεκάδες άλλους τομείς της ιατρικής

69 Σχήμα 3.5: Ένα τμήμα του δικτύου Bayes του συστήματος Pathfinder. Οι ακμές από τον κεντρικό κόμβο (Diseases) προς τα χαρακτηριστικά αναπαριστούν την επιρροή που έχει η ασθένεια στη εμφάνιση των χαρακτηριστικών. Οι ακμές ανάμεσα στα χαρακτηριστικά υποδεικνύουν εξαρτήσεις των τιμών των πιθανοτήτων στα χαρακτηριστικά. Τα τεστ που προσαρμόζονται αυτόματα στο επίπεδο των εξεταζομένων ονομάζονται προσαρμοζόμενα τεστ. Μετά από κάθε απάντηση σε ένα ερώτημα το σύστημα επιλέγει την επόμενη ερώτηση με βάση τις απαντήσεις των προηγούμενων ερωτήσεων. Ένα απλό παράδειγμα ενός προσαρμοστικού τεστ παρουσιάζεται στο Σχήμα

70 Σχήμα 3.6: Παράδειγμα στρατηγικής επιλογής ερωτήσεων Δεδομένου ότι αυτή η προσέγγιση απαιτεί υπολογιστές για τη διαδικασία της εξέτασης αναφέρεται συχνά ως ηλεκτρονικά προσαρμοζόμενη εξέταση(computerized adaptive testing, CAT). Οι Almond & Mislevy πρότειναν στο τη χρήση γραφικών μοντέλων για τα CAT. Το μοντέλο τους αποτελείται από ένα μοντέλο μαθητή και πολλά μοντέλα ενδείξεων, ένα για κάθε εργασία ή ερώτηση. Συνήθως, ένας σχεδιαστής τεστ καθορίζει το σύνολο των δεξιοτήτων που θα εξεταστούν Y = (Y1,..., YK) και μια συλλογή ερωτήσεων X = (X1,..., Xm). Το μοντέλο μαθητή περιγράφει τις σχέσεις ανάμεσα στις δεξιότητες, τις δυνατότητες και τις παρανοήσεις του μαθητή. Οι γνώσεις για ένα μαθητή εκφράζονται με τη χρήση μιας κατανομής από κοινού πιθανοτήτων P (Y1,..., YK) που καθορίζεται από τις μεταβλητές του μοντέλου μαθητή. Ερευνητές στο Πανεπιστήμιο του Άαλμποργκ χρησιμοποίησαν ένα δίκτυο Bayes για να εξετάσουν βασικές πράξεις με κλάσματα. Αρχικά έδωσαν γραπτά test στους μαθητές ενός γυμνασίου από τα οποία μπόρεσαν να ανακαλύψουν διάφορες κοινές παρανοήσεις οι οποίες συμπεριλήφθηκαν ως μεταβλητές στο δίκτυο. Στη συνέχεια δημιούργησαν ένα δίκτυο το οποίο παρείχε μια πρώτη εικόνα για τις σχέσεις που υπήρχαν ανάμεσα στις δεξιότητες και τις παρανοήσεις. Ύστερα με τη βοήθεια ενός ειδικού εξήγησαν μερικές από τις σχέσεις και εισήγαγαν κάποιους περιορισμούς στις ακμές και νέες μεταβλητές ώστε να δημιουργήσουν ένα πιο ολοκληρωμένο δίκτυο. Ο ειδικός βοήθησε επίσης καθορίζοντας το ποιες ερωτήσεις απευθύνονται σε ποιες από τις δεξιότητες του μαθητή, όπως η πρόσθεση και ο πολλαπλασιασμός των κλασμάτων, σύνθετα κλάσματα, μετατροπή ετερώνυμων κλασμάτων σε ομώνυμα κ.α. Μπορούμε να δούμε το τελικό δίκτυο στο Σχήμα 3.7. Για παράδειγμα για να μπορεί ένας μαθητής να απαντήσει στην ερώτηση υποθέτουμε ότι θα ακολουθήσει τη διαδικασία: Για να είναι σε θέση να λύσει την άσκηση ο μαθητής θα πρέπει να έχει γνώσεις αφαίρεσης (κόμβος SB στο σχήμα), απαλοιφής (ACL), κοινού διαιρέτη (CD), εφαρμογή κοινού διαιρέτη(acd) και δεν θα πρέπει να έχει μια παρανόηση στην ?

71 αφαίρεση(msb). Το δίκτυο Bayes επιτρέπει εδώ στους ερευνητές να μοντελοποιήσουν και την περίπτωση που ο μαθητής έχει τις απαιτούμενες δεξιότητες αλλά κάνει λάθος ή το να μη τις έχει αλλά να βρει το σωστό αποτέλεσμα μέσα από μια από κοινού κατανομή πιθανοτήτων P ( X i Ti ) ), όπου X i οι ερωτήσεις και T i sμια από τις μεταβλητές στο σχήμα, η οποία εκτιμήθηκε από τα δεδομένα που συγκέντρωσαν οι ερευνητές με το πρώτο τεστ. Η χρήση των δικτύων Bayes για τη δημιουργία των τεστ αντικατοπτρίζει καλύτερα τον τρόπο σκέψης των μαθητών και αφού το μοντέλο μαθητή κωδικοποιεί την εξάρτηση ανάμεσα στις δεξιότητες, τα τεστ μπορούν να είναι αρκετά μικρότερα ενώ διατηρείται η ακρίβεια τους. Σχήμα 3.7: Μοντέλο μαθητή όπου περιγράφονται οι σχέσεις μεταξύ των δεξιοτήτων και των παρανοήσεων

72 ΚΕΦΑΛΑΙΟ 4 ΠΕΙΡΑΜΑΤΙΚΕΣ ΑΞΙΟΛΟΓΗΣΕΙΣ ΚΑΙ ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΕΙΡΑΜΑΤΟΣ 4.1 Πειραματικες Αξιολογήσεις Σε αυτή την ενότητα θα παραθέσουμε τα αποτελέσματα καθώς και το σχολιασμό αυτών, όπως αυτά ανέκυψαν από το SQL Server Business Intelligence Development Studio καθώς και από τις σελίδες στο Website όπου εκτελούνται αλγόριθμοι Data Mining. Εφόσον θα μιλήσουμε για το SQL Server Business Intelligence Development Studio, καλό είναι να πούμε και λίγα λόγια για το Microsoft SQL Server Analysis Services (SSAS). Το Analysis Services, γενικά, μας αφήνει να σχεδιάσουμε, να δημιουργήσουμε και να διαχειριστούμε τις πολυδιάστατες δομές που περιέχουν τα στοιχεία που αθροίζονται από διαφορετικές πηγές στοιχείων, όπως οι σχεσιακές βάσεις δεδομένων. Για τις εφαρμογές εξόρυξης δεδομένων που εμας ενδιαφέρουν, το Analysis Services μας αφήνει να σχεδιάσουμε, να δημιουργήσουμε και να απεικονίσουμε κάποια πρότυπα εξόρυξης δεδομένων που κατασκευάζονται από διαφορετικές πηγές στοιχείων με τη χρησιμοποίηση μιας ευρείας ποικιλίας αλγορίθμων εξόρυξης δεδομένων. Έγινε κατασκευή ενός Project με το SQL Server Business Intelligence Development Studio, δηλαδή κατασκευάστηκαν: Data Source, Data Source View. Στη συνεχεία έγινε η κατασκευή σε C# του Mining Structure και του Mining Model όσον αφορά το Clustering. Για τα Decision Trees, Naive Bayes και Neural Network έγινε κατασκευή του Mining Structure και των Mining Models μέσω του SQL Server Business Intelligence Development Studio. Θα αφιερώσουμε μια υποενότητα σε καθένα από τους τρεις αλγορίθμους για να μπορέσουμε να κατανοήσουμε τα αποτελέσματα, καθώς και τις δυνατότητες αυτών. Όμως προτού προχωρήσουμε παραπέρα θα δούμε μια σύγκριση των αλγορίθμων με σετ δεδομένων ίδιο με αυτό που χρησιμοποιήθηκε για την εκπαίδευση του μοντέλου μάθησης. Το παρακάτω γράφημα, γνωστό ως Lift Chart, αφορά την μεταβλητή Predict Aimatokriti

73 Εικόνα 4.1 Lift Chart για τη μεταβλητή Predict Aimatokriti Όπως βλέπουμε, υψηλότερα ποσοστά πρόβλεψης επετεύχθησαν από τον Decision Trees (ροζ καμπύλη). Από κει και πέρα αναφορικά με τους υπόλοιπους, βλέπουμε ότι δεύτερος σε σειρά έρχεται ο Naive Bayes (τιρκουάζ καμπύλη), μέχρι και το 36% του πληθυσμού, ενώ τρίτος τερμάτισε ο Neural Network. Η κατάταξη των αλγορίθμων, σύμφωνα με τα ποσοστά επιτυχίας των υπολοίπων μεταβλητών ύστερα από μετρήσεις, είναι παρόμοια με αυτή της μεταβλητής Predict Aimatokriti. Στο Classification Matrix βλέπουμε και αριθμητικά τα ποσοστά επιτυχίας του κάθε αλγορίθμου. Εικόνα 4.2 Classification Matrix για τη μεταβλητή Predict Aimatokriti Αντίστοιχα γραφήματα έχουμε και για τις υπόλοιπες μεταβλητές πρόβλεψης

74 Όσο αφορά το confusion matrix και τη μεταβλητή Predict Aimatokriti βλέπουμε παρακάτω πίνακα τα ποσοστά επιτυχίας της πρόβλεψης για τον αλγόριθμο Decision Tree. Εικόνα 4.3 Confusion Matrix για τη μεταβλητή Predict Aimatokriti Στη συνεχεία θα επικεντρωθούμε σε κάθε αλγόριθμο και θα κάνουμε μια εμπεριστατωμένη ανάλυση των προβλέψεων που ανακύπτουν ανά περίπτωση Decision Trees Από τη στιγμή που επιλέξουμε τον αλγόριθμο Decision Trees μας εμφανίζονται οι επιλογές Decision Tree και Dependency Network Decision Tree Στην παρακάτω εικόνα φαίνονται οι μεταβλητές κατηγοριοποίησης που επιλέχτηκαν για το διαχωρισμό των εγγραφών στο Decision Tree. Η διαδικασία είναι αναδρομική και σταματά όταν φτάσουμε σε ένα minimum επίπεδο support ή maximum confidence ή πλήρως ομοιογενή

75 Εικόνα 4.4 Decision Tree για τη μεταβλητή Predict Aimatokriti Η πρώτη μεταβλητή (η οποία είναι η μοναδική όπως φαίνεται) κατηγοριοποίησης που είναι και το βέλτιστο κριτήριο (= βέλτιστη ανεξάρτητη μεταβλητή και συνθήκη διαχωρισμού του αρχικού συνόλου δεδομένων μάθησης) είναι το Health Type, το οποίο διαιρεί το αρχικό μας σύνολο δεδομένων σε τρία όσο το δυνατόν ομοιογενέστερα υποσύνολα ως προς την εξαρτημένη μεταβλητή Predict Aimatokritis. Οι εγγραφές χωρίζονται σε 166, 287 και 247 για Health Type=Critical, Risky και Normal αντίστοιχα. Παρακάτω στον πίνακα φαίνεται και πιο αναλυτικά η κατηγοριοποίηση των τιμών της μεταβλητής. Εικόνα 4.5 Αναλυτική κατηγοριοποίηση των τιμών της μεταβλητής Predict Aimatokriti

76 Dependency Network To Dependency Network εμφανίζει τις σχέσεις μεταξύ των χαρακτηριστικών που συμβάλλουν στην προγνωστική ικανότητα του μοντέλου εξόρυξης. Παρακάτω φαίνεται πως και ποιες μεταβλητές επηρεάζονται και αλληλοεπηρεάζονται. Εικόνα 4.6 Dependency Network Naive Bayes Από τη στιγμή που επιλέξουμε τον αλγόριθμο Naïve Bayes μας εμφανίζονται οι επιλογές: Dependency Network, Attribute Profiles, Attribute Characteristics και Attribute Discrimination Dependency Network Εικόνα 4.7 Dependency Network

77 Attribute Profiles Παρουσιάζουν την κατανομή κάθε κατάστασης χαρακτηριστικού εισόδου με την κατάσταση της μεταβλητής πρόβλεψης με τη μορφή πίνακα. Εικόνα 4.8 Attribute Profiles για μεταβλητή Predict Aimatokriti Neural Network Από τη στιγμή που επιλέξουμε τον αλγόριθμο Neural Network και επιλέξουμε ως είσοδο όλα τα attributes και ως έξοδο δύο συγκεκριμένες τιμές της μεταβλητής, τότε για αυτές τις δύο τιμές έχουμε :

78 Εικόνα 4.9 Neural Network Results Εκτέλεση Αλγορίθμων συστήματος Σε αυτήν την ενότητα θα παραθέσουμε στιγμιότυπα εκτέλεσης των αλγορίθμων Classification και Clustering. Πρώτα θα παραθέσουμε για τους αλγορίθμους Classification και στην επόμενη υποενότητα για αυτούς του Clustering

79 Στιγμιότυπα εκτέλεσης Classification Decision Trees Ύστερα από συμπλήρωση υποχρεωτικών πεδίων της παρακάτω φόρμας, η πρόβλεψη της μεταβλητής Αιματοκρίτης είναι 9. Εικόνα 4.10 Στιγμιότυπο Decision Trees για τη μεταβλητή Αιματοκρίτης

80 Στιγμιότυπα εκτέλεσης Clustering Στο Clustering σκοπός μας είναι να διαπιστώσουμε πως ομαδοποιούνται οι εγγραφές στα Cluster, των αριθμό των οποίων καθορίζει ο χρήστης. Επιλέγουμε κάθε φορά διαφορετικά κριτήρια βάση των οποίων θα γίνει η ομαδοποίηση και διαφορετικό αριθμό Cluster. Να σημειωθεί ότι και τα δύο (κριτήρια και αριθμός Cluster) είναι υποχρεωτικά πεδία. Όπως φαίνεται παρακάτω στο στιγμιότυπο πέρας της ομαδοποίησης, γίνεται και μια σχετική οπτικοποίηση αυτής για τρία συγκεκριμένα κριτήρια τα οποία είναι το Αλκοόλ, η Νυχτερινή Διασκέδαση και ο Αιματοκρίτης με τη χρήση των Charts

81 Εικόνα 4.11 Στιγμιότυπο εκτέλεσης Clustering

82 Έπειτα εάν πατήσουμε σε κάποια τιμή μέσα σε κάποιο Cluster, τότε μας εμφανίζονται γενικά στοιχεία και τιμές για τη συγκεκριμένη τιμή που επιλέξαμε. Εικόνα 4.12 Στιγμιότυπο εκτέλεσης Clustering

83 4.2 Κατασκεύη web site Σε αυτήν την ενότητα γίνεται λόγος για τα δεδομένα που συλλέχτηκαν για τις αιματολογικές εξετάσεις που θα συμπληρωθούν από το γιατρό για την συμπλήρωση των προφίλ των φοιτητών για την εξαγωγή προτύπων και συσχετίσεων από τα δεδομένα. Εν συνεχεία, κατασκευάσαμε ιστότοπο (website) με χρήση της πλατφόρμας Microsoft Visual Studio Για την κατασκευή του website έγινε χρήση του.net Framework 4,της γλώσσας προγραμματισμού C#, καθώς και της σχεσιακής Βάσης Δεδομένων SQL Server 2008 R2. Πρώτο βήμα μας ήταν η κατασκευή του site.master, έτσι ώστε όλες οι σελίδες να έχουν την ίδια διάταξη (layout), και του site.css, για τον καθορισμό της διάταξης των στοιχείων της σελίδας. Ακολούθως έγινε η κατασκευή του HOME των σελίδων που θα διαχειρίζεται ο γιατρός και αντίστοιχα οι φοιτητές. Ακολούθησε η κατασκευή των σελίδων που αφορούν το datamining (clusification, clustering). Τέλος καθορίστηκαν τα δικαιώματα των χρηστών, ώστε να καθοριστεί ποιος θα έχει πρόσβαση σε ποιες σελίδες. Όσο αναφορά την βάση μας, πιο αναλυτικά έχουμε δύο πίνακες που αφορούν τον γιατρό και που εκεί αποθηκεύονται τα δεδομένα που καταχωρεί ο γιατρός για τις εξετάσεις αίματος (ένας πίνακας για την Γενική Αίματος και ένας για τις Βιοχημικές Εξετάσεις), και έχουμε ένα πίνακα για τον φοιτητή που εκεί αποθηκεύονται τα δεδομένα που αφορούν το προφίλ του. Γενική Αίματος Προφίλ Γιατρός Βιοχημικές Εξετάσεις Φοιτητής Φοιτητή Σχήμα 4.1 Σχήμα λειτουργίας βάσης

84 Εικόνα 4.13 Σύνδεση πινάκων Στη συνέχεια αποθηκεύουμε όλα τα δεδομένα που αφορούν τον κάθε φοιτητή (σε μία εγγραφή όλα) σε ένα νέο πίνακα ο οποίος χρησιμοποιείται κατά τη διαδικασία της Συσταδοποίησης για την δημιουργία των συστάδων βάση των κριτηρίων που θα επιλεχθούν

85 Εικόνα 4.14 Πίνακας με όλα τα στοιχεία Για την υλοποίηση της διαδικασίας Κατηγοριοποίησης δημιουργήσαμε πέντε νέους πίνακες (ένας για κάθε μία τιμή πρόβλεψης) ο καθένας από τους οποίους περιέχει όλα τα στοιχεία του πίνακα Προφίλ Φοιτητή και την τιμή για την οποία γίνεται η πρόβλεψη

86 Εικόνα 4.15 Όλοι οι πίνακες που δημιουργήσαμε για κάθε τιμή πρόβλεψης Home Page Το Home Page είναι η σελίδα που φορτώνεται με την είσοδο ενός οποιουδήποτε ανώνυμου χρήστη στο website και η μορφή του φαίνεται στην εικόνα

87 Εικόνα 4.16: Home Page

88 4.2.2 About Page Η σελίδα που αναφέρει πληροφορίες σχετικά με το σύστημα, τους υπεύθυνους υλοποίησης, καθώς και το λόγο υλοποίησης του εν λόγο συστήματος. Εικόνα 4.17: About Page Login Page Το Login Page είναι η σελίδα μέσω της οποίας αυθεντικοποιείται ο χρήστης στο website εισάγοντας τα προσωπικά τους στοιχεία. Υπάρχει η δυνατότητα να επιλέξει το checkbox keep me logged in και να θυμάται ο περιηγητής (browser) τα στοιχεία κάθε φορά που επισκέπτεται το συγκεκριμένο website, αφού έχει δημιουργηθεί ένα μόνιμο HTTP cookie αυθεντικοποίησης. Μέσα στο website υπάρχουν πολλές σελίδες, οι οποίες είναι διαθέσιμες μόνο σε αυθεντικοποιημένους χρήστες, γιατί σε περίπτωση που επιχειρηθεί η είσοδος σε μια τέτοια σελίδα τότε αυτομάτως γίνεται ανακατεύθυνση εισόδου στο Login Page. Αν ο χρήστης εισάγει επιτυχώς τα στοιχεία και έχει τα απαραίτητα δικαιώματα, τότε γίνεται ανακατεύθυνση στην σελίδα που ζήτησε αρχικά να περιηγηθεί. Σε περίπτωση που κάποιος χρήστης δεν είναι εγγεγραμμένος μπορεί να κάνει εγγραφή μέσω της επιλογής register

89 Εικόνα 4.18: Login Page Doctor Menu Στην περίπτωση του γιατρού αφού κανει επιτυχημένο login έχει πρόσβαση στην καρτέλλα «doctor» μέσω της οποίας μπορεί να κάνει μία καινούρια καταχώρηση για γενική αίματος και βιοχημικές εξετάσεις για το κάθε φοιτητή ξεχωριστα. Ποιο κάτω φένεται το menu στο οποίο έχει πρόσβαση ο γιατρός και οι καρτέλες της γρνικής αίματος και των βιοχημικών εξετάσεων. Εικόνα 4.19: Doctor Menu

90 Εικόνα 4.20: Γενική Αίματος

91 Εικόνα 4.21: Βιοχημικές Εξετάσεις

92 4.2.5 Student Menu Στην περίπτωση του φοιτητή αφού κανει επιτυχημένο login έχει πρόσβαση στην καρτέλλα «student» μέσω της οποίας μπορεί να σημπληρώσει το προφίλ του. Ποιο κάτω φένεται το menu στο οποίο έχει πρόσβαση ο φοιτητής και οι καρτέλα με το προφίλ του φοιτητή. Εικόνα 4.22: Student Menu

93 Εικόνα 4.23: Προφίλ Φοιτητη

94 4.3 Συμπλήρωση Αιματολογικών Εξετάσεων και προφίλ φοιτητή με το HUGIN Researcher Λόγω του ότι ο αριθμός των διαθέσιμων φοιτητών είναι ελάχιστος δεν έχουμε την δυνατότητα να προχωρήσουμε σε εξόρυξη δεδομένων από δεδομένα, καθώς χρειαζόμαστε μεγαλύτερο όγκο δεδομένων. Για τον λόγο αυτό, χρησιμοποιήσαμε το εργαλείο Hugin Researcher, το οποίο είναι κατάλληλο για τη δημιουργία Bayesian Networks. Τα Bayesian Network ανήκουν στην οικογένεια των πιθανοτικών γραφικών μοντέλων (GMs). Αυτές οι γραφικές δομές χρησιμοποιούνται για την αναπαράσταση γνώσης σε ένα αβέβαιο περιβάλλον, το οποίο περικλείεται από πιθανότητες. Ειδικότερα κάθε κόμβος του δικτύου αναπαριστά μια τυχαία μεταβλητή, ενώ οι ακμές μεταξύ των κόμβων αναπαριστούν πιθανοτικές σχέσεις ανάμεσα στις αντίστοιχες μεταβλητές. Αυτές οι εξαρτησιακές συνθήκες στο γράφημα μπορούν να υπολογιστούν χρησιμοποιώντας στατιστικές και υπολογιστικές μεθόδους. Τα Bayesian Network αντιστοιχούν σε μια άλλη δομή GM, γνωστή ως Κατευθυνόμενοι Άκυκλοι Γράφοι (DAG). Η δομή ενός DAG χωρίζεται σε δύο ομάδες: την ομάδα των κόμβων και την ομάδα των κατευθυνόμενων ακμών. Οι κόμβοι αντιπροσωπεύουν τυχαίες μεταβλητές και αναπαριστώνται υπό τη μορφή κύκλων, οι οποίοι έχουν ταμπέλες τα ονόματα των τυχαίων μεταβλητών. Η ακμή αντιπροσωπεύει απευθείας σχέση ανάμεσα σε μεταβλητές και αναπαριστάται ως βέλος μεταξύ κόμβων. Ειδικότερα, μια ακμή από τον κόμβο Χ1 στον κόμβο Χ2 αντιπροσωπεύει μια στατιστική εξάρτηση ανάμεσα στις προαναφερθείσες μεταβλητές. Για αυτό το λόγο, το βέλος αντιπροσωπεύει ότι η τιμή στον κόμβο Χ2 εξαρτάται από την τιμή του κόμβου Χ1, η χοντρικά ο κόμβος Χ1 επηρεάζει τον κόμβο Χ2. Ο κόμβος Χ1 αναφέρεται ως πατρικός κόμβος και αντίστοιχα ο κόμβος Χ2 ως παιδί του Χ1. Σχλημα 4.2: Κατευθυνόμενοι Άκυκλοι Γράφοι

95 4.3.1 Κατασκευή Bayesian Network Με βάση τα προαναφερθέντα κατασκευάσαμε το Bayesian Network που αφορά το προφίλ του φοιτητή. Σχλημα 4.3: το Bayesian Network που αφορά το προφίλ του φοιτητή. Στο παραπάνω δίκτυο φαίνονται όλες οι σχέσεις και όλες οι αλληλοεξαρτήσεις μεταξύ των κόμβων για το προφίλ του φοιτητή Στο συγκεκριμένο δίκτυο οι κόμβοι χωρίς πατερά δεν επηρεάζονται από άλλους κόμβους οπότε οι πιθανότητες παρατίθενται σε μια στήλη. Εικόνα 4.24: Κόμβος Ζωή

96 Οι κόμβοι με έναν ή περισσότερους πατέρες έχουν πολυδιάστατους πίνακες,οι οποίοι ονομάζονται αιτιώδεις πίνακες πιθανοτήτων (CPT). Εικόνα 4.25: Κόμβος Αλκοόλ Παραγωγή δεδομένων βάση Bayesian Network Σε αυτό το σημείο, αφού έγινε η κατασκευή των κόμβων και των συσχετίσεων, αφού προστέθηκαν ενδεχόμενα στους κόμβους και πιθανότητες σε αυτά, καθώς και πιθανότητες στους CPT, κάνουμε generate cases με το εργαλείο Hugin Researcher για να πάρουμε τα τυχαία δεδομένα. Όσο αναφορά αυτή την παραγωγή των τυχαίων δεδομένων, οφείλουμε να πούμε ότι για να είναι όσο το δυνατό πιο αξιόπιστα τα δεδομένα μας, θεωρήσαμε σωστό να χωρήσουμε τους φοιτητές σε τρείς κατηγορίες βάση της κατάστασης της υγείας τους. Οι κατηγορίες αυτές είναι η Critical, Risky και Normal. Επομένως για το ίδιο το δίκτυο Bayes, έχουμε διαφορετικές πιθανότητες για κάθε μια κατηγορία φοιτητή. Πιο συγκεκριμένα, η κατηγορία Normal αναφέρεται στους φοιτητές στους οποίους τα στοιχεία των εξετάσεών τους είναι μέσα στα επιτρεπτά όρια, ούτε πάνω ούτε κάτω από αυτά. Στην κατηγορία Critical ανήκουν οι φοιτητές των οποίων τα στοιχεία των εξετάσεών τους βρίσκονται κατά ένα ποσοστό της τάξης του 10% κάτω από το ελάχιστο όριο ή 10% πάνω από το μέγιστο. Και αντίστοιχα στη κατηγορία Risky ανήκουν οι φοιτητές των οποίων τα στοιχεία των εξετάσεών τους βρίσκονται κατά ένα ποσοστό της τάξης του 20% κάτω από το ελάχιστο όριο ή 20% πάνω από το μέγιστο. Έστι με αυτό τον τρόπο, καταφέρνουμε να έχουμε μια μεγάλη και σχετικά αξιόπιστη ποικιλία δεδομένων για το σύστημά μας. Από το σχήμα 4.2, βλέπουμε ότι ο κόμβος ο οποίος μας δείχνει τις κατηγορίες της υγείας των φοιτητών (Normal, Critical, Risky) είναι τελικός κόμβος και οι πιθανότητες αυτού προκύπτουν από τις τιμές που έχουν οι προηγούμενοι κόμβοι

97 Για παράδειγμα, όπως φαίνεται στον παρακάτω πίνακα, εάν ένας φοιτητής καπνίζει 1 εως 5 τσιγάρα, πίνει αλκοόλ και το ΒΜΙ του είναι κανονικό (normal), τότε η κατάσταση της υγείας του θα είναι με πιθανότητα 0.2 κανονική (Normal), με πιθανότητα 0.5 επικίνδυνη (Risky) και με πιθανότητα 0.3 κρίσιμη (Critical). Αντίστοιχα φαίνονται από τους παρακάτω πίνακες και οι υπόλοιπες πιθανότητες για την κατάσταση υγείας των φοιτητών, για διαφορετικές τιμές των κόμβων Αλκοόλ, ΒΜΙ και ποσότητα καπνίσματος. Εικόνα 4.23: Κόμβος Health Type (1-5 τσιγάρα) Εικόνα 4.24: Κόμβος Health Type (10-20 τσιγάρα) Εικόνα 4.25: Κόμβος Health Type (καθόλου τσιγάρα) Για τον υπολογισμό των πιθανοτήτων των κόμβων που επηρεάζουν τον διαχωρισμό των κατηγοριών του Healthtype, όπως για παράδειγμα του κόμβου Alkool, οι πιθανότητες αυτού προκείπτουν από τους κόμβους fylo και nyxterini diaskedasi και αντίστοιχα του κόμβου

98 kapnisma, προκείπτουν μόνο από τον κόμβο nyxterini diaskedasi. Οι πίνακες πιθανοτήτων αυτών των κόμβων είναι οι παρακάτω : Εικόνα 4.26: Κόμβος Κάπνισμα Εικόνα 4.27: Κόμβος Αλκοόλ Επομένως καταλαβαίνουμε ότι ο υπολογισμός των πιθανοτήτων του τελικού κόμβου Healthtype δεν εξαρτάται μόνο από τους κόμβους που δείχνουν σε αυτόν, αλλά και από τους κόμβους που δείχνουν στους τελευταίους και ούτω κάθε ξη Εισαγωγή των τυχαίων δεδομένων στη βάση μας Αφού αποθηκεύσαμε τα τυχαία δεδομένα που παράγαμε σε ένα αρχείο excell στην συνέχεια φορτώσαμε αυτό το αρχείο στην βάση δεδομένων μας. Στο προηγούμενο βήμα είδαμε πως δημιουργήθηκαν οι εγγραφές που αφορούν το προφίλ του φοιτητή με το εργαλείο Hugin Researcher και πως αυτές εισήχθηκαν στην βάση δεδομένων μας. Σε αυτό το στάδιο θα δούμε πως έγινε η δημιουργία Project με το εργαλείο SQL Server Business Intelligence Development Studio. Πρώτη ενεργεία, αφού γίνει η δημιουργία του Analysis Services Project, είναι ο καθορισμός του Data Source, για την σύνδεση με την επιθυμητή ΒΔ. Επιλεγούμε για Provider τον Native OLE DB\SQL Server Native Client 10.0, γραφούμε το όνομα του Server μας και διαλέγουμε τον τρόπο που θα συνδεόμαστε σε αυτόν, δηλαδή είτε μέσω Windows Authentication είτε μέσω SQL Server Authentication δίνοντας και τα αντίστοιχα credentials εισόδου. Τέλος μπορούμε να δοκιμάσουμε αν είναι εφικτή η σύνδεση που καθορίσαμε παραπάνω. Αν είναι επιτυχής, τότε προχωράμε παρακάτω. Επόμενο βήμα είναι ο καθορισμός του Data Source View. Το Data Source View είναι κτισμένο πάνω στο Data Source και ορίζει ένα υποσύνολο δεδομένων που θα συμπληρώνει την αποθήκη δεδομένων. Όμως ο κυρίως λόγος που χρησιμοποιήθηκε είναι για να γίνει η τροποποίηση της δομής των δεδομένων, έτσι αυτά να είναι όσο πιο σχετικά γίνεται με το Project μας. Αφού λοιπόν γίνει η επιλογή του Data Source, που καθορίσαμε στο πρώτο βήμα, γίνεται η επιλογή του πίνακα που χρηαζόμαστε και στο οποίο πάνω θα δουλέψουμε για την εξαγωγή συμπερασμάτων. Στη συνέχεια δημιουργούμε το Mining Structure και το Mining Model. Πρώτο βήμα σε αυτό το στάδιο είναι η δημιουργία του Mining Structure, δηλαδή των στηλών κλειδιών, των στηλών εισόδου και των στηλών πρόβλεψης του μοντέλου. Καταρχάς επιλέγεται η δημιουργία Mining

99 Structure με χρήση της τεχνικής εξόρυξης δεδομένων Δέντρων Απόφασης (Decision Trees). Εν συνεχεία επιλέγεται το Data Source View, πάνω στο οποίο θα οριστεί το Mining Structure και θα εφαρμοστεί ο αλγόριθμος Decision Trees. Στο επόμενο στάδιο γίνεται η δήλωση πίνακα περιπτώσεων και ακολούθως γίνεται η δήλωση των στηλών κλειδιών, των στηλών εισόδου και των στηλών πρόβλεψης του μοντέλου. Επιλέγουμε την στήλη κλειδί όπως και τις στήλες εισόδου καθώς και τις στήλες πρόβλεψης. Στη συνέχεια δηλώνουμε τον τύπο του περιεχομένου, δηλαδή κλειδί ή διακριτός ή διακριτοποιημένος ή συνεχής ή κυκλικός ή διατεταγμένος, και τον τύπο δεδομένου. Στο επόμενο βήμα δηλώνουμε το ποσοστό των δεδομένων έλεγχου σε 30% και τον μέγιστο αριθμό των περιπτώσεων στο σετ δεδομένων ελέγχου σε κενό. Στο επόμενο βήμα δηλώνουμε το ποσοστό των δεδομένων έλεγχου σε 30% και τον μέγιστο αριθμό των περιπτώσεων στο σετ δεδομένων ελέγχου σε κενό. Στο επόμενο βήμα δηλώνουμε το ποσοστό των δεδομένων έλεγχου σε 30% και τον μέγιστο αριθμό των περιπτώσεων στο σετ δεδομένων ελέγχου σε κενό. Στο επόμενο βήμα δηλώνουμε το ποσοστό των δεδομένων έλεγχου σε 30% και τον μέγιστο αριθμό των περιπτώσεων στο σετ δεδομένων ελέγχου σε κενό. Στο επόμενο βήμα δηλώνουμε το ποσοστό των δεδομένων έλεγχου σε 30% και τον μέγιστο αριθμό των περιπτώσεων στο σετ δεδομένων ελέγχου σε κενό. Στο επόμενο βήμα δηλώνουμε το ποσοστό των δεδομένων έλεγχου σε 30% και τον μέγιστο αριθμό των περιπτώσεων στο σετ δεδομένων ελέγχου σε κενό. Στο επόμενο βήμα δηλώνουμε το ποσοστό των δεδομένων έλεγχου σε 30% και τον μέγιστο αριθμό των περιπτώσεων στο σετ δεδομένων ελέγχου σε κενό. Στο επόμενο βήμα δηλώνουμε το ποσοστό των δεδομένων έλεγχου σε 30% και τον μέγιστο αριθμό των περιπτώσεων στο σετ δεδομένων ελέγχου σε κενό. Στο επόμενο βήμα δηλώνουμε το ποσοστό των δεδομένων έλεγχου σε 30% και τον μέγιστο αριθμό των περιπτώσεων στο σετ δεδομένων ελέγχου σε κενό. Η δομή εξόρυξης που κατασκευάστηκε στο προηγούμενο στάδιο περιέχει μόνο ένα μοντέλο εξόρυξης, το οποίο βασίζεται στον αλγόριθμο Δέντρων Απόφασης. Σε αυτό το στάδιο θα γίνει η δημιουργία, η επεξεργασία, καθώς και η ανάπτυξη του συγκεκριμένου μοντέλου εξόρυξης. Θα δημιουργήσουμε μοντέλα εξόρυξης και για τους αλγορίθμους: Δέντρων Απόφασης (Decision Trees), Neural Network και Naive Bayes. Αφού έγινε η κατασκευή των μοντέλων εξόρυξης πρέπει τώρα να γίνει η επεξεργασία τους επιλέγοντας Επεξεργασία δομής εξόρυξης και όλων των μοντέλων εξόρυξης. Εν συνεχεία επιλέγουμε Τρέξιμο για να γίνει η ανάπτυξη των μοντέλων εξόρυξης και να πάρουμε τα αποτελέσματα μας. Από αυτό το στάδιο και μετά βλέπουμε τα αποτελέσματα που προέκυψαν από την ανάπτυξη των μοντέλων εξόρυξης στον εργαλείο SQL Server Business Intelligence Development Studio. Παράλληλα έχει δημιουργηθεί ΒΔ, με όνομα ίδιο με αυτό του Project που δημιουργήσαμε στο προηγούμενο στάδιο, και στον SQL Server Analysis Services

100 4.4 Δημιουργία ιστοσελίδων για μοντέλα εξόρυξης Όπως προείπαμε, είναι επιτακτική η ανάγκη να δημιουργήσουμε μια ιστοσελίδα για κάθε μοντέλο εξόρυξης, έτσι ώστε να δώσουμε την ευκαιρία στον φοιτητή να εισάγει τα στοιχεία του και να γίνει η πρόβλεψη της μεταβλητής που έχει επιλέξει. Ως μεταβλητή πρόβλεψη,ύστερα από συνεννόηση με το γιατρό έχουν οριστεί ο αιματοκρίτης, το σάγχαρο, η ουρία, η χολυστερίνη και τα τριγλικαιρίδια. Να σημειώσουμε ότι οι αλγόριθμοι που χρησιμοποιούμε για την πρόβλεψη είναι ο Decision Trees και Naïve Bayes και ο Neural Network

101 4.4.1 ClassificationPage

102 Εικόνα 4.28:ClassificationPage Ιστοσελίδα Ομαδοποίησης Στην σελίδα του Ψλθστερινγ Παγε αρχικά επιθλέγουμε τα κριτήρια βαση των οποίων θα γίνει η ομαδοποίηση και στην συνέχεια επιλέγεται ο αριθμός των cluster σύμφωνα με τον οποίο χωρίζονται οι εγγραφές σε ομάδες Clustering Page Εικόνα 4.29: Clustering Page Εφόσον γίνουν τα παραπάνω εμφανίζονται τα Clusters, ο αριθμός των εγγράφων ανά Cluster, καθώς και οι εγγραφές ανά Cluster και επιπλέον δίνεται η δυνατότητα, αφού επιλέξει μια εγγραφή, να του εμφανιστούν επιπλέον πληροφορίες σχετικά με αυτήν. Επιπλέον εμφανίζονται τρεία διαγράμματα που αφορούν τις μεταβλητές αλκοόλ, νυχτερινή διασκέδαση και αιματοκρίτη

103 Αποτελέσματα εκτέλεσης (Charts) Εικόνα 4.30: Αποτελέσματα εκτέλεσης (Charts)

104 Αποτελέσματα εκτέλεσης (πληροφορίες ανα εγγραφή) Εικόνα 4.31: Αποτελέσματα εκτέλεσης (πληροφορίες ανα εγγραφή)

105 4.5 Δημιουργία εξομοιωτή με τη χρήση του εργαλείου Infer.net για το Bayesian Network Στην αναζήτηση ενός καλού εργαλείου ή της βιβλιοθήκης προγραμματισμού για Bayesian δίκτυα χρησιμοποιήσαμε το Infer.NET από τη Microsoft Research. Αυτή η βιβλιοθήκη είναι πολύ υποσχόμενη. Είναι μια σύγχρονη βιβλιοθήκη και είναι χτισμένη σε μια καλή πλατφόρμα (. ΝΕΤ). Υποστηρίζει διάφορες γλώσσες (C #, C / C + +, F #, VB, Python, βασικά οποιαδήποτε γλώσσα, που λειτουργεί βάσει της. NET πλατφόρμα). Το Infer.NET είναι ένα πλαίσιο για τη λειτουργία της Μπεϋζιανή συμπερασματολογίας σε γραφικά μοντέλα.. Το Infer.NET μπορούμε να το χρησιμοποιήσουμε για να λύσουμε πολλά διαφορετικά είδη προβλημάτων μηχανικής μάθησης, από συνηθισμένα προβλήματα όπως η ταξινόμηση ή ομαδοποίηση έως και προσαρμοσμένες λύσεις σε συγκεκριμένους τομείς προβλημάτων. Το Infer.NET έχει χρησιμοποιηθεί σε ένα ευρύ φάσμα τομέων συμπεριλαμβανομένων της αφαίρεσης πληροφοριών, της βιοπληροφορικής, της επιδημιολογίας και πολλούς άλλους. Βασική χρήση Όπως και άλλα εργαλεία BN, θα κατασκευάσει ένα ΒΝ από τον πρώτο καθορισμό τυχαίων μεταβλητών και στη συνέχεια πριν από την ανάθεση διανομής (επιλέγει ανάμεσα σε μια λίστα των υποστηριζομένων τύπων διανομής) σε ορισμένα από αυτά. Ωστόσο, σε αντίθεση με πολλά εργαλεία ΒΝ όπου οι δεσμευμένες κατανομές πιθανότητας περιορίζονται σε ορισμένες μορφές (της CPT και γραμμική Gaussians), το Infer.NET φαίνεται αρκετά ευέλικτο καθώς αξιοποιεί την πλήρη δυνατότητα του αντικειμενοστραφούς προγραμματισμού, γενικού προγραμματισμύ, και φυσικά χειριστή υπερφόρτωσης. Στη θεωρία, μπορούμε να δημιουργήσουμε εύκολα προσαρμοσμένες για εκφράσεις του CPD's. Στο Infer.NET, μπορούμε να καθορίσουμε ένα γραμμικό όρο Gaussian p (y x) ~ N (A * X + β, sigma ^ 2) στη φυσική του μορφή ως Variable.GaussianWithMeanAndVariance (A * X + β, sigma ^ 2), αντί κάτι σαν LinearGaussian (Α, β, sigma ^ 2), μετά τη διευκρίνιση ότι το Υ εξαρτάται από το Χ (Χ παρατηρούμε ότι κρύβεται στην έκφραση της p (y x)). Συγκεκριμένα εμείς χρησιμοποιήσαμε αυτό το εργαλείο για να προσομοιώσουμε ένα απλό κομμάτι του παραδείγματος μας το οποίο αποτελείτε από 4 κόμβους όπως φαίνεται χαρακτηριστικά στην εικόνα (η εικόνα είναι από το Hugin αφού βάση του hugin προχωρήσαμε στην δημιουργία του προσομοιωτή)

106 Σχήμα 4.4: Δίκτυο με 4 κόμβους που θα προσομειώσουμε στο infer.net Όπως φαίνετε και στην εικόνα ποιο πάνω πήραμε 4 κόμβους: NIGHT_LIFE, ALCOHOL, SMOKING, HEALTH TYPE όπως είναι και στο hugin με τις ίδιες τιμές. Κατασκευάσαμε τον εξομοιωτή με τα ποιο πάνω στοιχεία. Γράψαμε κώδικα σε c# και τρέξαμε τον κώδικα

107 Τα αποτελέσματα μετά την εκτέλεση είναι τα ακόλουθα. Εικόνα 4.32: Οθόνη αποτελεσμάτων του infer.net Τα αποτελέσματα που βγάζει τα ορίζουμε εμείς από τον κώδικα που γράφουμε στο εργαλείο infer.net και γι αυτό το λόγο μπορούμε να παρουσιάσουμε οποιοδήποτε αποτέλεσμα που μας είναι χρήσιμο. Όπως βλέπουμε στην εικόνα των αποτελεσμάτων ο κώδικας που γράψαμε είναι βάση πιθανοτήτων που ζητάμε να μας παρουσιάζει βάση των τριών κόμβων (nightlife, alcohol, smoking). Το τελικό αποτέλεσμα που θέλουμε να πάρουμε είναι αν το health type είναι NORMAL, RISKY ή CRITICAL και τις αντίστοιχες πιθανότητες τους. Δηλαδή βάση του nightlife, alcohol, smoking μας παρουσιάζει και για τα τρία αποτελέσματα του health type την αντίστοιχη πιθανότητα για την υγεία του φοιτητή

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Μελέτες ασθενών-μαρτύρων

Μελέτες ασθενών-μαρτύρων Μελέτες ασθενών-μαρτύρων Η πρώτη ΜΑΜ δημοσιεύθηκε το 1920 και αφορούσε τη σχέση καπνιστικής συνήθειας και επιθηλιώματος των χειλιών (μορφή καρκίνου του δέρματος) Το 1950, δημοσιεύθηκαν οι πρώτες 4 μελέτες

Διαβάστε περισσότερα

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο ρ. Η. Μαγκλογιάννης Πανεπιστήµιο Αιγαίου Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΔΙΔΑΣΚΑΛΙΑ ΓΝΩΣΤΙΚΗΣ ΣΤΡΑΤΗΓΙΚΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ Δρ. Ζαφειριάδης Κυριάκος Οι ικανοί αναγνώστες χρησιμοποιούν πολλές στρατηγικές (συνδυάζουν την

ΔΙΔΑΣΚΑΛΙΑ ΓΝΩΣΤΙΚΗΣ ΣΤΡΑΤΗΓΙΚΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ Δρ. Ζαφειριάδης Κυριάκος Οι ικανοί αναγνώστες χρησιμοποιούν πολλές στρατηγικές (συνδυάζουν την 1 ΔΙΔΑΣΚΑΛΙΑ ΓΝΩΣΤΙΚΗΣ ΣΤΡΑΤΗΓΙΚΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ Δρ. Ζαφειριάδης Κυριάκος Οι ικανοί αναγνώστες χρησιμοποιούν πολλές στρατηγικές (συνδυάζουν την παλαιότερη γνώση τους, σημειώνουν λεπτομέρειες, παρακολουθούν

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

ΑΝΤΡΕΣ (%) ΓΥΝΑΙΚΕΣ ΣΥΝΟΛΟ (%)

ΑΝΤΡΕΣ (%) ΓΥΝΑΙΚΕΣ ΣΥΝΟΛΟ (%) Αποτελέσματα από «Επιδημιολογική έρευνα για το ποσοστό της παχυσαρκίας και υπερβάλλοντος βάρους στην Κύπρο και διαπίστωση των διατροφικών συνηθειών του Κύπριου πολίτη" του Συνδέσμου ιαιτολόγων και ιατροφολόγων

Διαβάστε περισσότερα

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) ρ. ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ xalkias@hua.gr Χ. Χαλκιάς - Εισαγωγή στα GIS 1 Ορισµοί ΓΠΣ Ένα γεωγραφικό πληροφοριακό σύστηµα Geographic Information

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Dr. Anthony Montgomery Επίκουρος Καθηγητής Εκπαιδευτικής & Κοινωνικής Πολιτικής antmont@uom.gr Ποιός είναι ο σκοπός του μαθήματος μας? Στο τέλος του σημερινού μαθήματος,

Διαβάστε περισσότερα

. Τι πρακτική αξία έχουν αυτές οι πιθανότητες; (5 Μονάδες)

. Τι πρακτική αξία έχουν αυτές οι πιθανότητες; (5 Μονάδες) Εργαστήριο Μαθηματικών & Στατιστικής Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ η Πρόοδος στο Μάθημα Στατιστική //7 ο Θέμα α) Περιγράψτε τη σχέση Θεωρίας Πιθανοτήτων και Στατιστικής. β) Αν Α, Β ενδεχόμενα του δειγματικού χώρου Ω

Διαβάστε περισσότερα

Εκπαιδευτική Μονάδα 10.2: Εργαλεία χρονοπρογραμματισμού των δραστηριοτήτων.

Εκπαιδευτική Μονάδα 10.2: Εργαλεία χρονοπρογραμματισμού των δραστηριοτήτων. Εκπαιδευτική Μονάδα 10.2: Εργαλεία χρονοπρογραμματισμού των δραστηριοτήτων. Στην προηγούμενη Εκπαιδευτική Μονάδα παρουσιάστηκαν ορισμένα χρήσιμα παραδείγματα διαδεδομένων εργαλείων για τον χρονοπρογραμματισμό

Διαβάστε περισσότερα

ΣΧΕΔΙΟ ΜΑΘΗΜΑΤΟΣ: ΜΑΘΗΜΑΤΙΚΑ ΣΤ ΔΗΜΟΤΙΚΟΥ «ΤΑ ΚΛΑΣΜΑΤΑ»

ΣΧΕΔΙΟ ΜΑΘΗΜΑΤΟΣ: ΜΑΘΗΜΑΤΙΚΑ ΣΤ ΔΗΜΟΤΙΚΟΥ «ΤΑ ΚΛΑΣΜΑΤΑ» ΣΧΕΔΙΟ ΜΑΘΗΜΑΤΟΣ: ΜΑΘΗΜΑΤΙΚΑ ΣΤ ΔΗΜΟΤΙΚΟΥ «ΤΑ ΚΛΑΣΜΑΤΑ» Νικόλαος Μπαλκίζας 1. ΕΙΣΑΓΩΓΗ Σκοπός του σχεδίου μαθήματος είναι να μάθουν όλοι οι μαθητές της τάξης τις έννοιες της ισοδυναμίας των κλασμάτων,

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Θεμελιώδεις Αρχές Επιστήμης και Μέθοδοι Έρευνας

Θεμελιώδεις Αρχές Επιστήμης και Μέθοδοι Έρευνας Θεμελιώδεις Αρχές Επιστήμης και Μέθοδοι Έρευνας Dr. Anthony Montgomery Επίκουρος Καθηγητής Εκπαιδευτικής & Κοινωνικής Πολιτικής antmont@uom.gr Θεμελιώδεις Αρχές Επιστήμης και Μέθοδοι Έρευνας Αυτό το μάθημα

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΣΥΜΒΟΥΛΕΥΤΙΚΗ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

ΕΡΓΑΣΤΗΡΙΟ ΣΥΜΒΟΥΛΕΥΤΙΚΗ ΤΗΣ ΔΙΑΤΡΟΦΗΣ ΤΜΗΜΑ ΔΙΑΤΡΟΦΗΣ ΚΑΙ ΔΙΑΙΤΟΛΟΓΙΑΣ ΑΛΕΞΑΝΔΡΕΙΟ ΤΕΙ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΣΥΜΒΟΥΛΕΥΤΙΚΗ ΤΗΣ ΔΙΑΤΡΟΦΗΣ ΑΠΡΙΛΙΟΣ 2013 Τμήμα Διατροφής και Διαιτολογίας Σελίδα 1 ΠΕΡΙΕΧΟΜΕΝΑ ΑΣΚΗΣΕΙΣ: 1. Αξιολόγηση της προσωπικής

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΓΙΑΝΝΗΣ ΦΑΝΟΥΡΓΙΑΚΗΣ ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΣΥΝΕΡΓΑΤΗΣ ΤΕΙ ΚΡΗΤΗΣ ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ 1. Εισαγωγή

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------

----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ----------Εισαγωγή στη Χρήση του SPSS for Windows ------------- Σελίδα: 0------------ ΚΕΦΑΛΑΙΟ 9 ο 9.1 ηµιουργία µοντέλων πρόβλεψης 9.2 Απλή Γραµµική Παλινδρόµηση 9.3 Αναλυτικά για το ιάγραµµα ιασποράς

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

ΕΛΤΙΟ ΤΥΠΟΥ. Προσδόκιµο Ζωής και Υγείας 2012

ΕΛΤΙΟ ΤΥΠΟΥ. Προσδόκιµο Ζωής και Υγείας 2012 ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ Πειραιάς, 03 / 07 / 2015 ΕΛΤΙΟ ΤΥΠΟΥ Προσδόκιµο και Υγείας 2012 Η Ελληνική Στατιστική Αρχή (ΕΛΣΤΑΤ), σε συνεργασία µε την Ευρωπαϊκή Κοινή ράση για την καθιέρωση

Διαβάστε περισσότερα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΟΜΑΔΑ Λ Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τι είναι η βιοπληροφορική; Αποκαλείται ο επιστημονικός κλάδος ο οποίος προέκυψε από

Διαβάστε περισσότερα

ΔΕΣΜΕΥΜΕΝΕΣ Ή ΥΠΟ ΣΥΝΘΗΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΔΕΣΜΕΥΜΕΝΕΣ Ή ΥΠΟ ΣΥΝΘΗΚΗ ΠΙΘΑΝΟΤΗΤΕΣ ΔΕΣΜΕΥΜΕΝΕΣ Ή ΥΠΟ ΣΥΝΘΗΚΗ ΠΙΘΑΝΟΤΗΤΕΣ Έστω ότι επιθυμούμε να μελετήσουμε ένα τυχαίο πείραμα με δειγματικό χώρο Ω και έστω η πιθανότητα να συμβεί ένα ενδεχόμενο Α Ω Υπάρχουν περιπτώσεις όπου ενώ δεν γνωρίζουμε

Διαβάστε περισσότερα

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων Γιάννης Λιαπέρδος TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Η έννοια του συνδυαστικού

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) για την υποστήριξη ιατρικών πράξεων σε νησιωτικές περιοχές στο Αιγαίο Δρ. Η. Μαγκλογιάννης Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών

Διαβάστε περισσότερα

ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΓΕΩΡΓΙΟΣ ΛΑΓΟΥΜΙΝΤΖΗΣ, ΒΙΟΧΗΜΙΚΟΣ, PHD ΙΑΤΡΙΚΗΣ

ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΓΕΩΡΓΙΟΣ ΛΑΓΟΥΜΙΝΤΖΗΣ, ΒΙΟΧΗΜΙΚΟΣ, PHD ΙΑΤΡΙΚΗΣ ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΓΕΩΡΓΙΟΣ ΛΑΓΟΥΜΙΝΤΖΗΣ, ΒΙΟΧΗΜΙΚΟΣ, PHD ΙΑΤΡΙΚΗΣ ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ Οι τεχνικές δειγματοληψίας είναι ένα σύνολο μεθόδων που επιτρέπει να μειώσουμε το μέγεθος των δεδομένων που

Διαβάστε περισσότερα

Διδακτικές Τεχνικές (Στρατηγικές)

Διδακτικές Τεχνικές (Στρατηγικές) Διδακτικές Τεχνικές (Στρατηγικές) Ενδεικτικές τεχνικές διδασκαλίας: 1. Εισήγηση ή διάλεξη ή Μονολογική Παρουσίαση 2. Συζήτηση ή διάλογος 3. Ερωταποκρίσεις 4. Χιονοστιβάδα 5. Καταιγισμός Ιδεών 6. Επίδειξη

Διαβάστε περισσότερα

Περιγραφική Στατιστική. Ακαδ. Έτος 2012-2013 1 ο εξάμηνο. Κ. Πολίτης

Περιγραφική Στατιστική. Ακαδ. Έτος 2012-2013 1 ο εξάμηνο. Κ. Πολίτης Περιγραφική Στατιστική Ακαδ. Έτος 2012-2013 1 ο εξάμηνο Κ. Πολίτης 1 2 Η στατιστική ασχολείται με τη συλλογή, οργάνωση, παρουσίαση και ανάλυση πληροφοριών. Οι πληροφορίες αυτές, πολύ συχνά αριθμητικές,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΟΙΚΟΝΟΜΙΑΣ ΔΙΟΙΚΗΣΗΣ και ΠΛΗΡΟΦΟΡΙΚΗΣ. ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ και ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΟΔΗΓΟΣ ΜΕΤΑΒΑΤΙΚΩΝ ΔΙΑΤΑΞΕΩΝ 2014 2015

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΟΙΚΟΝΟΜΙΑΣ ΔΙΟΙΚΗΣΗΣ και ΠΛΗΡΟΦΟΡΙΚΗΣ. ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ και ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΟΔΗΓΟΣ ΜΕΤΑΒΑΤΙΚΩΝ ΔΙΑΤΑΞΕΩΝ 2014 2015 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΟΙΚΟΝΟΜΙΑΣ ΔΙΟΙΚΗΣΗΣ και ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ και ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΟΔΗΓΟΣ ΜΕΤΑΒΑΤΙΚΩΝ ΔΙΑΤΑΞΕΩΝ 2014 2015 Επιτροπή προπτυχιακών σπουδών: Κ. Βασιλάκης Κ. Γιαννόπουλος

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΆΣΚΗΣΗ 1 Η διάμεσος τιμή της ηλικίας των Ελλήνων το 1990 ήταν 30 έτη. Το 2001, η διάμεσος τιμή ήταν 33,1 (Πηγή:Ε.Σ.Υ.Ε.).

ΆΣΚΗΣΗ 1 Η διάμεσος τιμή της ηλικίας των Ελλήνων το 1990 ήταν 30 έτη. Το 2001, η διάμεσος τιμή ήταν 33,1 (Πηγή:Ε.Σ.Υ.Ε.). ΛΥΜΕΝΕΣ ΣΚΗΣΕΙΣ ΆΣΚΗΣΗ 1 Η διάμεσος τιμή της ηλικίας των Ελλήνων το 1990 ήταν 30 έτη. Το 2001, η διάμεσος τιμή ήταν 33,1 (Πηγή:Ε.Σ.Υ.Ε.). a. Τι μπορεί να συνέβη όταν η διάμεσος αυξήθηκε; Το γεγονός ότι

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών

Εισαγωγή στην επιστήμη των υπολογιστών Εισαγωγή στην επιστήμη των υπολογιστών Υπολογιστές και Δεδομένα Κεφάλαιο 3ο Αναπαράσταση Αριθμών www.di.uoa.gr/~organosi 1 Δεκαδικό και Δυαδικό Δεκαδικό σύστημα 2 3 Δεκαδικό και Δυαδικό Δυαδικό Σύστημα

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Όπως θα δούμε αργότερα στη Στατιστική Συμπερασματολογία, λέγοντας ότι «από έναν πληθυσμό παίρνουμε ένα τυχαίο δείγμα μεγέθους» εννοούμε ανεξάρτητες τυχαίες μεταβλητές,,..., που

Διαβάστε περισσότερα

Εισαγωγή στη Στατιστική

Εισαγωγή στη Στατιστική Εισαγωγή στη Στατιστική Μετεκπαιδευτικό Σεμινάριο στην ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΑΠΟΚΑΤΑΣΤΑΣΗ ΨΥΧΟΚΟΙΝΩΝΙΚΕΣ ΘΕΡΑΠΕΥΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ Δημήτρης Φουσκάκης, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων

Διαβάστε περισσότερα

Ερευνητικές Εργασίες

Ερευνητικές Εργασίες Ερευνητικές Εργασίες 1. Οδηγίες μεθοδολογίας της έρευνας, συλλογής δεδομένων και εξαγωγής συμπερασμάτων. 2. Συγγραφή της ερευνητικής εργασίας. Απόστολος Ντάνης Σχολικός Σύμβουλος Η ΜΕΘΟΔΟΣ PROJECT Επιλογή

Διαβάστε περισσότερα

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS)

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS) Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών (Geographical Information Systems GIS) ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ, ΤΜΗΜΑ ΓΕΩΓΡΑΦΙΑΣ ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ Εισαγωγή στα GIS 1 Ορισµοί ΣΓΠ Ένα σύστηµα γεωγραφικών πληροφοριών

Διαβάστε περισσότερα

ΦΥΣΙΚΗ ΑΓΩΓΗ ΚΑΙ ΥΓΕΙΑ. Σακελλαρίου Κίμων Πανεπιστήμιο Θεσσαλίας ΤΕΦΑΑ, Τρίκαλα

ΦΥΣΙΚΗ ΑΓΩΓΗ ΚΑΙ ΥΓΕΙΑ. Σακελλαρίου Κίμων Πανεπιστήμιο Θεσσαλίας ΤΕΦΑΑ, Τρίκαλα ΕΠΕΑΕΚ: ΑΝΑΜΟΡΦΩΣΗ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΤΟΥ ΤΕΦΑΑ, ΠΘ - ΑΥΤΕΠΙΣΤΑΣΙΑ ΦΥΣΙΚΗ ΑΓΩΓΗ ΚΑΙ ΥΓΕΙΑ Σακελλαρίου Κίμων Πανεπιστήμιο Θεσσαλίας ΤΕΦΑΑ, Τρίκαλα ΘΕΜΑΤΑ ΤΗΣ ΠΑΡΟΥΣΙΑΣΗΣ Φυσική αγωγή και προαγωγή

Διαβάστε περισσότερα

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ ΜΕΡΟΣ ΙΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ Πολλές από τις αποφάσεις

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Σ Ε Μ Ι Ν Α Ρ Ι Ο ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ: ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΧΡΗΣΤΟΥ ΚΩΝΣΤΑΝΙΝΟΣ. Υπεύθυνες Εκπόνησης Εργασίας ΟΝΟΜΑ: ΦΩΤΕΙΝΗ ΕΠΩΝΥΜΟ: ΛΙΟΣΗ Α.

Σ Ε Μ Ι Ν Α Ρ Ι Ο ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ: ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΧΡΗΣΤΟΥ ΚΩΝΣΤΑΝΙΝΟΣ. Υπεύθυνες Εκπόνησης Εργασίας ΟΝΟΜΑ: ΦΩΤΕΙΝΗ ΕΠΩΝΥΜΟ: ΛΙΟΣΗ Α. Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Κ Ρ Η Τ Η Σ Π Α Ι Δ Α Γ Ω Γ Ι Κ Ο Τ Μ Η Μ Α Δ Η Μ Ο Τ Ι Κ Η Σ Ε Κ Π Α Ι Δ Ε Υ Σ Η Σ Σ Ε Μ Ι Ν Α Ρ Ι Ο ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ (Β06Σ03) ΤΙΤΛΟΣ

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. 4.1 Τρόποι Προσέλκυσης Νέων...21 4.2 Προτάσεις Πολιτικής των Νέων...22 ΣΥΜΠΕΡΑΣΜΑΤΑ...24 ΠΑΡΑΡΤΗΜΑ...26 ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΦΟΡΕΩΝ...

ΠΕΡΙΕΧΟΜΕΝΑ. 4.1 Τρόποι Προσέλκυσης Νέων...21 4.2 Προτάσεις Πολιτικής των Νέων...22 ΣΥΜΠΕΡΑΣΜΑΤΑ...24 ΠΑΡΑΡΤΗΜΑ...26 ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΦΟΡΕΩΝ... Cities for Peace and Democracy in Europe Ε Ρ Ε ΤΟΠΙΚΗ ΒΙΩΣΙΜΗ ΑΝΑΠΤΥΞΗ ΠΡΟΩΘΩΝΤΑΣ ΤΗΝ ΦΩΝΗ ΤΩΝ ΝΕΩΝ Υ Ν Α με την υποστήριξη Ιανουάριος 2007 ΠΕΡΙΕΧΟΜΕΝΑ ΕΥΡΕΤΗΡΙΟ ΓΡΑΦΗΜΑΤΩΝ...3 ΕΙΣΑΓΩΓΗ...4 ΜΕΘΟΔΟΛΟΓΙΑ...6

Διαβάστε περισσότερα

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται:

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται: 4.4 Ερωτήσεις διάταξης Στις ερωτήσεις διάταξης δίνονται:! µία σειρά από διάφορα στοιχεία και! µία πρόταση / κανόνας ή οδηγία και ζητείται να διαταχθούν τα στοιχεία µε βάση την πρόταση αυτή. Οι ερωτήσεις

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα Κεφάλαιο 7. 7.1 ομές εδομένων για Γραφικά Υπολογιστών. Οι δομές δεδομένων αποτελούν αντικείμενο της επιστήμης υπολογιστών. Κατά συνέπεια πρέπει να γνωρίζουμε πώς οργανώνονται τα γεωμετρικά δεδομένα, προκειμένου

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες ΕΙΣΑΓΩΓΗ Βασικές έννοιες Σε ένα ερωτηματολόγιο έχουμε ένα σύνολο ερωτήσεων. Μπορούμε να πούμε ότι σε κάθε ερώτηση αντιστοιχεί μία μεταβλητή. Αν θεωρήσουμε μια ερώτηση, τα άτομα δίνουν κάποιες απαντήσεις

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2015-2016 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία Η ΚΑΤΑΘΛΙΨΗ ΣΕ ΕΦΗΒΟΥΣ ΜΕ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 1

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία Η ΚΑΤΑΘΛΙΨΗ ΣΕ ΕΦΗΒΟΥΣ ΜΕ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 1 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή εργασία Η ΚΑΤΑΘΛΙΨΗ ΣΕ ΕΦΗΒΟΥΣ ΜΕ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 1 ΑΝΔΡΕΑΣ ΑΝΔΡΕΟΥ Φ.Τ:2008670839 Λεμεσός 2014 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 6. Πιθανότητες

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 6. Πιθανότητες ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για 2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο

Διαβάστε περισσότερα

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ Μ. Γρηγοριάδου Ρ. Γόγουλου Ενότητα: Η Διδασκαλία του Προγραμματισμού Περιεχόμενα Παρουσίασης

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή Εργασία ΙΕΡΕΥΝΗΣΗ ΤΩΝ ΕΠΙΠΕ ΩΝ ΘΝΗΣΙΜΟΤΗΤΑΣ ΚΑΙ ΤΩΝ ΚΥΡΙΟΤΕΡΩΝ ΑΙΤΙΩΝ ΠΡΟΚΛΗΣΗΣ ΘΑΝΑΤΟΥ ΑΤΟΜΩΝ ΜΕ ΨΥΧΟΓΕΝΗ ΑΝΟΡΕΞΙΑ Γεωργία Χαραλάµπους Λεµεσός

Διαβάστε περισσότερα

Κεφάλαιο Ένα Τι είναι η Στατιστική;

Κεφάλαιο Ένα Τι είναι η Στατιστική; Κεφάλαιο Ένα Τι είναι η Στατιστική; Copyright 2009 Cengage Learning 1.1 Τι είναι η Στατιστική; «Στατιστική είναι ένας τρόπος για την αναζήτηση πληροφοριών μέσα σε δεδομένα» Copyright 2009 Cengage Learning

Διαβάστε περισσότερα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

4 Πιθανότητες και Στοιχεία Στατιστικής για Μηχανικούς

4 Πιθανότητες και Στοιχεία Στατιστικής για Μηχανικούς Πρόλογος Ο μηχανικός πρέπει να συνεχίσει να βελτιώνει την ποιότητα της δουλειάς του εάν επιθυμεί να είναι ανταγωνιστικός στην αγορά της χώρας του και γενικότερα της Ευρώπης. Μία σημαντική αναλογία σε αυτήν

Διαβάστε περισσότερα

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων Ελλιπή δεδομένα Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 75 ατόμων Εδώ έχουμε δ 75,0 75 5 Ηλικία Συχνότητες f 5-4 70 5-34 50 35-44 30 45-54 465 55-64 335 Δεν δήλωσαν 5 Σύνολο 75 Μπορεί

Διαβάστε περισσότερα

Η οικολογία μάθησης για τους υπολογιστές ΙII: Η δική σας οικολογία μάθησης

Η οικολογία μάθησης για τους υπολογιστές ΙII: Η δική σας οικολογία μάθησης Η οικολογία μάθησης για τους υπολογιστές ΙII: Η δική σας οικολογία μάθησης Παλαιγεωργίου Γιώργος Τμήμα Μηχανικών Η/Υ, Τηλεπικοινωνιών και Δικτύων Πανεπιστήμιο Θεσσαλίας Ιανουάριος 2011 Ψυχομετρία Η κατασκευή

Διαβάστε περισσότερα

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

Λήψη αποφάσεων κατά Bayes

Λήψη αποφάσεων κατά Bayes Λήψη αποφάσεων κατά Bayes Σημειώσεις μαθήματος Thomas Bayes (1701 1761) Στυλιανός Χατζηδάκης ECE 662 Άνοιξη 2014 1. Εισαγωγή Οι σημειώσεις αυτές βασίζονται στο μάθημα ECE662 του Πανεπιστημίου Purdue και

Διαβάστε περισσότερα

ΣΧΟΛΙΑΤΡΙΚΗ ΥΠΗΡΕΣΙΑ

ΣΧΟΛΙΑΤΡΙΚΗ ΥΠΗΡΕΣΙΑ ΣΧΟΛΙΑΤΡΙΚΗ ΥΠΗΡΕΣΙΑ ΥΠΟΥΡΓΕΙΟ ΥΓΕΙΑΣ ΙΑΤΡΙΚΕΣ ΥΠΗΡΕΣΙΕΣ ΚΑΙ ΥΠΗΡΕΣΙΕΣ ΔΗΜΟΣΙΑΣ ΥΓΕΙΑΣ 1449 ΛΕΥΚΩΣΙΑ ΔΙΑΛΕΞΕΙΣ ΚΑΙ ΠΡΟΓΡΑΜΜΑΤΑ ΔΗΜΟΤΙΚΗΣ ΚΑΙ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΠΟΥ ΕΦΑΡΜΟΖΟΝΤΑΙ ΑΠΟ ΣΧΟΛΙΑΤΡΙΚΗ ΥΠΗΡΕΣΙΑ

Διαβάστε περισσότερα

ΟΡΓΑΝΩΣΗ ΤΗΣ Ι ΑΣΚΑΛΙΑΣ ΑΠΑΙΤΟΥΜΕΝΗ ΥΛΙΚΟΤΕΧΝΙΚΗ ΥΠΟ ΟΜΗ

ΟΡΓΑΝΩΣΗ ΤΗΣ Ι ΑΣΚΑΛΙΑΣ ΑΠΑΙΤΟΥΜΕΝΗ ΥΛΙΚΟΤΕΧΝΙΚΗ ΥΠΟ ΟΜΗ ΤΙΤΛΟΣ «Ο κύκλος του νερού» ΕΜΠΛΕΚΟΜΕΝΕΣ ΓΝΩΣΤΙΚΕΣ ΠΕΡΙΟΧΕΣ Το σενάριο µάθησης περιλαµβάνει δραστηριότητες που καλύπτουν όλα τα γνωστικά αντικείµενα που προβλέπονται από το ΕΠΠΣ νηπιαγωγείου. Συγκεκριµένα

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ Ενότητα 2: Επαγωγική-περιγραφική στατιστική, παραµετρικές

Διαβάστε περισσότερα

o AND o IF o SUMPRODUCT

o AND o IF o SUMPRODUCT Πληροφοριακά Εργαστήριο Management 1 Information Συστήματα Systems Διοίκησης ΤΕΙ Τμήμα Ελεγκτικής Ηπείρου Χρηματοοικονομικής (Παράρτημα Πρέβεζας) και Αντικείµενο: Μοντελοποίηση προβλήµατος Θέµατα που καλύπτονται:

Διαβάστε περισσότερα

Περιγραφική και πειραματική έρευνα

Περιγραφική και πειραματική έρευνα 1 Ο ΓΥΜΝΑΣΙΟ ΠΕΥΚΩΝ Γ ΓΥΜΝΑΣΙΟΥ ΜΑΘΗΜΑ : ΤΕΧΝΟΛΟΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΟΣ : Τρασανίδης Γεώργιος, διπλ. Ηλεκ/γος Μηχανικός Μsc ΠΕ12 05 Περιγραφική και πειραματική έρευνα Σε μια έρευνα που περιλαμβάνει δύο μεταβλητές

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή Εργασία Η ΣΧΕΣΗ ΤΗΣ ΠΑΧΥΣΑΡΚΙΑΣ ΜΕ ΤΟ ΣΑΚΧΑΡΩΔΗ ΔΙΒΗΤΗ ΚΥΗΣΗΣ Χρυστάλλα, Γεωργίου Λεμεσός 2014 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες Χρήσης Το

Διαβάστε περισσότερα

Περιεχόμενο του μαθήματος

Περιεχόμενο του μαθήματος ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Απαιτήσεις Λογισμικού Περιπτώσεις χρήσης Δρ Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου Εαρινό Εξάμηνο 2012-2013 1 Περιεχόμενο του μαθήματος

Διαβάστε περισσότερα

Εξ αποστάσεως υποστήριξη του έργου των Εκπαιδευτικών μέσω των δικτύων και εργαλείων της Πληροφορικής

Εξ αποστάσεως υποστήριξη του έργου των Εκπαιδευτικών μέσω των δικτύων και εργαλείων της Πληροφορικής Εξ αποστάσεως υποστήριξη του έργου των Εκπαιδευτικών μέσω των δικτύων και εργαλείων της Πληροφορικής Ε. Κολέζα, Γ. Βρέταρος, θ. Δρίγκας, Κ. Σκορδούλης Εισαγωγή Ο εκπαιδευτικός κατά τη διάρκεια της σχολικής

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 1 Εισαγωγή

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 1 Εισαγωγή (ΨΥΧ-122) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com Διαλέξεις αναρτημένες στο: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ Διάλεξη 1 Εισαγωγή ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 4 ΤΑΞΙΝΟΜΗΣΕΙΣ ΤΩΝ ΟΡΓΑΝΙΣΜΩΝ

ΚΕΦΑΛΑΙΟ 4 ΤΑΞΙΝΟΜΗΣΕΙΣ ΤΩΝ ΟΡΓΑΝΙΣΜΩΝ ΚΕΦΑΛΑΙΟ 4 ΤΑΞΙΝΟΜΗΣΕΙΣ ΤΩΝ ΟΡΓΑΝΙΣΜΩΝ 1. Η ΠΡΟΣΕΓΓΙΣΗ 203. Η προσέγγιση εστιάζει στις χαρακτηριστικές ιδιότητες της καινοτοµικής επιχείρησης και όλα τα χαρακτηριστικά των δραστηριοτήτων καινοτοµίας και

Διαβάστε περισσότερα

Κατασκευή Μαθησιακών Στόχων και Κριτηρίων Επιτυχίας: Αξιολόγηση για Μάθηση στην Πράξη

Κατασκευή Μαθησιακών Στόχων και Κριτηρίων Επιτυχίας: Αξιολόγηση για Μάθηση στην Πράξη Κατασκευή Μαθησιακών Στόχων και Κριτηρίων Επιτυχίας: Αξιολόγηση για Μάθηση στην Πράξη Μαργαρίτα Χριστοφορίδου 25 Απριλίου 2015 ΕΚΠΑΙΔΕΥΤΙΚΗ ΗΜΕΡΙΔΑ «ΑΞΙΟΛΟΓΗΣΗ ΤΟΥ ΜΑΘΗΤΗ- ΣΥΓΧΡΟΝΕΣ ΤΑΣΕΙΣ-ΠΡΑΚΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ»

Διαβάστε περισσότερα

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ και ΔΟΜΗ ΑΚΟΛΟΥΘΙΑΣ 2.1 Να δοθεί ο ορισμός

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ 1.1 Να δοθεί ο ορισμός του προβλήματος καθώς και τρία παραδείγματα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ- ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Εργασία για το σεµινάριο «Στατιστική περιγραφική εφαρµοσµένη στην ψυχοπαιδαγωγική(β06σ03)» ΤΙΤΛΟΣ: «ΜΕΛΕΤΗ ΠΕΡΙΓΡΑΦΙΚΗΣ

Διαβάστε περισσότερα

Φύλλο Εργασίας Μαθητή Τίτλος: Γίνομαι Ερευνητής/Ερευνήτρια

Φύλλο Εργασίας Μαθητή Τίτλος: Γίνομαι Ερευνητής/Ερευνήτρια Φύλλο Εργασίας Μαθητή Τίτλος: Γίνομαι Ερευνητής/Ερευνήτρια Τάξη: Γ Γυμνασίου Ενότητα: Επικοινωνώ και Συνεργάζομαι σε Διαδικτυακά Περιβάλλοντα Λύνω Προβλήματα με Υπολογιστικά Φύλλα Μάθημα: Επεξεργασία Ηλεκτρονικού

Διαβάστε περισσότερα

ΕΛΤΙΟ ΤΥΠΟΥ. ΕΘΝΙΚΗ ΕΡΕΥΝΑ ΥΓΕΙΑΣ: Έτος 2009

ΕΛΤΙΟ ΤΥΠΟΥ. ΕΘΝΙΚΗ ΕΡΕΥΝΑ ΥΓΕΙΑΣ: Έτος 2009 ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ ΕΛΛΗΝΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΡΧΗ Πειραιάς, 15 Ιουλίου 2011 ΕΛΤΙΟ ΤΥΠΟΥ ΕΘΝΙΚΗ ΕΡΕΥΝΑ ΥΓΕΙΑΣ: Έτος 2009 Η Εθνική Έρευνα Υγείας πραγµατοποιήθηκε το τελευταίο τρίµηνο του έτους 2009 σε ολόκληρη

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή διατριβή

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή διατριβή ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή διατριβή 3Δ ΑΠΕΙΚΟΝΙΣΗ ΕΙΚΟΝΩΝ DICOM ΚΑΙ ΕΣΤΙΩΝ ΠΟΛΛΑΠΛΗΣ ΣΚΛΗΡΥΝΣΗΣ ΣΕ ΕΙΚΟΝΕΣ ΕΓΚΕΦΑΛΟΥ ΜΑΓΝΗΤΙΚΗΣ ΤΟΜΟΓΡΑΦΙΑΣ Νικολάου Φοίβια

Διαβάστε περισσότερα

Εκπαιδευτική Μονάδα 1.1: Τεχνικές δεξιότητες και προσόντα

Εκπαιδευτική Μονάδα 1.1: Τεχνικές δεξιότητες και προσόντα Εκπαιδευτική Μονάδα 1.1: Τεχνικές δεξιότητες και προσόντα Πέρα από την τυπολογία της χρηματοδότησης, των εμπλεκόμενων ομάδων-στόχων και την διάρκεια, κάθε project διακρατικής κινητικότητας αποτελεί μια

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΕΝΟΤΗΤΕΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ (One-Way Analyss of Varance) Η ανάλυση

Διαβάστε περισσότερα

Δρ. Ευριπιδου Πολυκαρπος Παθολογος-Διαβητολογος C.D.A. College Limassol

Δρ. Ευριπιδου Πολυκαρπος Παθολογος-Διαβητολογος C.D.A. College Limassol Δρ. Ευριπιδου Πολυκαρπος Παθολογος-Διαβητολογος C.D.A. College Limassol ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ 2014 ΘΕΜΑ:Παραγοντες που επηρεαζουν την υγεια. Το 1948 με την ιδρυση του Π.Ο.Υ. τεθηκαν επισημως τα θεμελια για

Διαβάστε περισσότερα

Πρόληψη και θεραπεία εκφυλιστικών παθήσεων

Πρόληψη και θεραπεία εκφυλιστικών παθήσεων Συµµαχία για την υγεία:διατροφη Πρόληψη και θεραπεία εκφυλιστικών παθήσεων Χασαπίδου Μαρία Καθηγήτρια Διατροφής ΑΤΕΙΘ -. Σχέδιο δράσης για την εφαρµογή της ευρωπαϊκής στρατηγικής για την πρόληψη και τον

Διαβάστε περισσότερα

Μάθημα Αστικής Γεωγραφίας

Μάθημα Αστικής Γεωγραφίας Μάθημα Αστικής Γεωγραφίας Διδακτικό Έτος 2015-2016 Παραδόσεις Διδακτικής Ενότητας: Πληθυσμιακή πρόβλεψη Δούκισσας Λεωνίδας, Στατιστικός, Υποψ. Διδάκτορας, Τμήμα Γεωγραφίας, Χαροκόπειο Πανεπιστήμιο Σελίδα

Διαβάστε περισσότερα

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται

Διαβάστε περισσότερα

Συγχρονισµός πολυµέσων

Συγχρονισµός πολυµέσων Συγχρονισµός πολυµέσων Έννοια του συγχρονισµού Απαιτήσεις παρουσίασης Ποιότητα υπηρεσίας συγχρονισµού Πλαίσιο αναφοράς συγχρονισµού Κατανεµηµένος συγχρονισµός Προδιαγραφές συγχρονισµού Τεχνολογία Πολυµέσων

Διαβάστε περισσότερα

Νοσηλευτική Σεμινάρια

Νοσηλευτική Σεμινάρια Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου Νοσηλευτική Σεμινάρια Ενότητα 6: Τρόποι Συγγραφής της Μεθόδου και των Αποτελεσμάτων μιας επιστημονικής εργασίας Μαίρη Γκούβα 1 Ανοιχτά Ακαδημαϊκά

Διαβάστε περισσότερα

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες Πινάκες συνάφειας εξερεύνηση σχέσεων μεταξύ τυχαίων μεταβλητών. Είναι λογικό λοιπόν, στην ανάλυση των κατηγορικών δεδομένων να μας ενδιαφέρει η σχέση μεταξύ δύο ή περισσότερων κατηγορικών μεταβλητών. Έστω

Διαβάστε περισσότερα

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας. 7 ο ΜΑΘΗΜΑ ΚΕΦΑΛΑΙΟ 2 ΣΤΑΤΙΣΤΙΚΗ Σκοπός Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας. Προσδοκώμενα αποτελέσματα Όταν θα έχετε ολοκληρώσει τη μελέτη αυτού του κεφαλαίου

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ ΜΟΝΤΕΛΑ ΣΥΣΤΗΜΑΤΟΣ Διδάσκων: Γ. Χαραλαμπίδης, Επ. Καθηγητής

Διαβάστε περισσότερα