ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ"

Transcript

1 ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ Μεταπτυχιακή Εργασία ΟΝΑΤΟΣ ΠΑΠΑΝΙΚΟΛΑΟΥ Επιβλέπων: ΚΑΘΗΓΗΤΗΣ ΠΑΝΑΓΙΩΤΗΣ ΠΙΝΤΕΛΑΣ Σεπτέµβριος 2010 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΟΜΕΑΣ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΚΠΑΙ ΕΥΤΙΚΟΥ ΛΟΓΙΣΜΙΚΟΥ (ESD Lab)

2 - 2 -

3 Τριµελής Εξεταστική Επιτροπή Παναγιώτης Πιντέλας, Καθηγητής του Τµήµατος Μαθηµατικών του Πανεπιστηµίου Πατρών (Επιβλέπων) Όµηρος Ράγγος, Επίκουρος Καθηγητής του Τµήµατος Μαθηµατικών του Πανεπιστηµίου Πατρών ηµήτριος Καββαδίας, Επίκουρος Καθηγητής του Τµήµατος Μαθηµατικών του Πανεπιστηµίου Πατρών - 3 -

4

5 Περίληψη Στην παρούσα διπλωµατική εργασία θα µελετήσουµε µε ποιο τρόπο µπορούν να εφαρµοστούν οι διάφορες τεχνικές Εξόρυξης Γνώσης (Data Mining) στην εκπαίδευση. Αυτός ο επιστηµονικός τοµέας o οποίος ερευνά και αναπτύσσει τεχνικές προκειµένου να ανακαλύψει γνώση από δεδοµένα τα οποία προέρχονται από την εκπαίδευση ονοµάζεται Εξόρυξη Γνώσης από Εκπαιδευτικά εδοµένα (Educational Data Mining EDM) και αποτελεί ένα νέο κλάδο, όπου οι πρώτες δηµοσιεύσεις επιστηµονικών ερευνών έγιναν µετά το 2000, το 2008 έγινε το πρώτο διεθνές συνέδριο (First International Conference on Educational Data Mining) στο Μόντρεαλ του Καναδά και από τότε διεξάγεται κάθε χρόνο, ενώ από το 2009 ξεκίνησε την έκδοση του το περιοδικό (JEDM Journal of Educational Data Mining) το οποίο ασχολείται αποκλειστικά µε το αντικείµενο. Στην εργασία αυτή εκτός από την θεωρητική µελέτη των αλγορίθµων και των τεχνικών που διέπουν την εξόρυξη γνώσης από δεδοµένα γενικά (Κεφάλαιο 2), θα γίνει µια λεπτοµερέστερη µελέτη και παρουσίαση της κατηγορίας των αλγορίθµων κατηγοριοποίησης (Classification) (Κεφάλαιο 3), διότι αυτούς θα χρησιµοποιήσουµε στην φάση της υλοποίησης/αξιολόγησης. Στην συνέχεια η εργασία θα επικεντρωθεί στον τρόπο µε τον οποίο µπορούν να εφαρµοστούν αυτοί οι αλγόριθµοι σε εκπαιδευτικά δεδοµένα, τι εφαρµογές έχουµε στην εκπαίδευση, ενώ θα αναφερθούµε και σε µια πληθώρα ερευνών που έχουν πραγµατοποιηθεί πάνω στο συγκεκριµένο αντικείµενο (Κεφάλαιο 4). Στην συνέχεια (Κεφάλαιο 5) θα διερευνήσουµε την εφαρµογή τεχνικών κατηγοριοποίησης στην πρόγνωση της επίδοσης µαθητών ευτεροβάθµιας Εκπαίδευσης στα µαθήµατα της Γεωγραφίας Α και Β Γυµνασίου. Συγκεκριµένα θα υλοποιήσουµε και θα αξιολογήσουµε έξι αλγορίθµους οι οποίοι ανήκουν στην οµάδα των αλγορίθµων κατηγοριοποίησης(classification) και είναι αντιπροσωπευτικοί των σηµαντικότερων τεχνικών κατηγοριοποίησης. Από την οικογένεια των ταξινοµητών µε χρήση δένδρων απόφασης (Decision Tree Classifiers) θα υλοποιήσουµε τον J48, από τους αλγορίθµους κανόνων ταξινόµησης (Rule-based Classification ) τον Ripper, από τους αλγόριθµους στατιστικής κατηγοριοποίησης τον Naïve Bayes, από την µέθοδο των Κ πλησιέστερων γειτόνων (KNN) τον 3-ΝΝ, από την κατηγορία των τεχνητών νευρωνικών δικτύων τον Back Propagation και τέλος από τις µηχανές διανυσµάτων υποστήριξης (Support Vector Machines SVM) τον SMO (Sequental Minimal Optimazation). Όλες οι παραπάνω υλοποιήσεις και αξιολογήσεις έγιναν µε το ελεύθερο λογισµικού Weka το οποίο είναι υλοποιηµένο σε Java και το οποίο προσφέρει µια πληθώρα αλγορίθµων µηχανικής µάθησης για να κάνουµε εξόρυξη γνώσης. Τέλος και αφού καταλήξουµε βάση της αξιολόγησης που κάναµε ότι ο αλγόριθµος 3-ΝΝ είναι ο καταλληλότερος, αναπτύξαµε ένα λογισµικό εργαλείο σε Java το οποίο και χρησιµοποιήσαµε για την πρόγνωση της επίδοσης των µαθητών στα παραπάνω µαθήµατα της Γεωγραφίας.

6 - 6 -

7 Ευχαριστίες Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή µου, κ. Παναγιώτη Πιντέλα για την ευκαιρία που µου έδωσε να ασχοληθώ µε ένα τόσο ενδιαφέρον και σύγχρονο θέµα. καθώς και για την καθοδήγηση και βοήθεια που µου παρείχε καθ όλη τη διάρκεια εκπόνησης της εργασίας. Τον σύµβουλο καθηγητή µου στο Μεταπτυχιακό και µέλος της τριµελούς εξεταστικής επιτροπής κ. Όµηρο Ράγγο γιατί µε εξυπηρέτησε όποτε χρειάστηκα την βοήθεια του, καθώς και τον κ. ηµήτριο Καββαδία καθηγητή του Μεταπτυχιακού και µέλους της τριµελούς επιτροπής. Τέλος ευχαριστώ ιδιαίτερα τον διδάκτορα κ. Σωτήρη Κωτσιαντή για την ουσιαστική και καθοριστική συµβολή και αµέριστη βοήθειά του στην εκπόνηση της εργασίας καθώς και για την άριστη συνεργασία που είχαµε. Πάτρα, Σεπτέµβριος 2010 ονάτος Παπανικολάου - 7 -

8 - 8 -

9 Περιεχόµενα ΠΕΡΙΛΗΨΗ...5 ΕΥΧΑΡΙΣΤΙΕΣ...7 ΠΕΡΙΕΧΟΜΕΝΑ...9 ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ...12 ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ...14 ΕΙΣΑΓΩΓΗ ΑΝΤΙΚΕΙΜΕΝΟ ΤΗΣ ΕΡΓΑΣΙΑΣ ΣΤΟΧΟΙ ΤΗΣ ΕΡΓΑΣΙΑΣ ΙΑΘΡΩΣΗ ΤΗΣ ΕΡΓΑΣΙΑΣ...21 ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΚΑΙ ΑΠΟΘΗΚΕΣ Ε ΟΜΕΝΩΝ ΕΙΣΑΓΩΓΗ ΓΕΝΙΚΕΣ ΑΡΧΕΣ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ Ορισµός Εξόρυξης Γνώσης Εξόρυξη Γνώσης και Ανακάλυψη Γνώσης ΟΙ ΕΠΙΣΤΗΜΕΣ ΠΟΥ ΣΧΕΤΙΖΟΝΤΑΙ ΜΕ ΤΗΝ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΚΑΙ ΤΗΣ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΤΕΧΝΙΚΕΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ Κατηγοριοποίηση Συσταδοποίηση Κανόνες Συσχέτισης Πρότυπα Ακολουθιών Παλινδρόµηση ΣΥΜΠΕΡΑΣΜΑΤΑ...36 ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΣΤΗΝ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΕΙΣΑΓΩΓΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΚΑΙ ΠΡΟΓΝΩΣΗ ΕΠΙΤΗΡΟΥΜΕΝΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΒΑΣΙΚΕΣ ΈΝΝΟΙΕΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΤΑΞΙΝΟΜΗΤΕΣ ΜΕ ΧΡΗΣΗ ΕΝ ΡΩΝ ΑΠΟΦΑΣΗΣ (DECISION TREE CLASSIFIERS) Παράδειγµα Χρήσης ένδρου Αποφάσεων σε Εκπαιδευτικά εδοµένα Αλγόριθµος ID Αλγόριθµοι C4.5 και C ΚΑΝΟΝΕΣ ΤΑΞΙΝΟΜΗΣΗΣ (RULE-BASED CLASSIFICATION) ΑΛΓΟΡΙΘΜΟΙ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ Baysian Μέθοδος Αφελής Ταξινοµητής Bayes Παράδειγµα χρήσης αφελή κατηγοριοποιητη bayes στην εκπαίδευση ίκτυα Bayes Χρήση των κατηγοριοποιητων Bayesian στον τοµέα της εκπαίδευσης Παράδειγµα χρήσης Bayesian δικτύων στην εκπαίδευση ΜΑΘΗΣΗ ΒΑΣΙΣΜΕΝΗ ΣΤΑ ΣΤΙΓΜΙΟΤΥΠΑ - ΜΕΘΟ ΟΣ Κ ΠΛΗΣΙΕΣΤΕΡΩΝ ΓΕΙΤΟΝΩΝ (Κ-ΝΝ) Παράδειγµα Χρήσης k-nn Αλγορίθµου ΤΕΧΝΗΤΑ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Εκπαίδευση Νευρωνικού ικτυού ΜΗΧΑΝΕΣ ΙΑΝΥΣΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ (SUPPORT VECTOR MACHINES - SVMS) ΣΥΜΠΕΡΑΣΜΑΤΑ...72 ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΕΚΠΑΙ ΕΥΤΙΚΑ Ε ΟΜΕΝΑ...75

10 4.1 ΕΙΣΑΓΩΓΗ ΙΑΦΟΡΕΣ ΤΩΝ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΤΟ ΗΛΕΚΤΡΟΝΙΚΟ ΕΜΠΟΡΙΟ ΚΑΙ ΣΤΗΝ ΗΛΕΚΤΡΟΝΙΚΗ ΜΑΘΗΣΗ ΠΟΙΟΥΣ ΩΦΕΛΕΙ Η ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΕΚΠΑΙ ΕΥΤΙΚΑ Ε ΟΜΕΝΑ ΕΦΑΡΜΟΓΕΣ ΤΩΝ ΜΕΘΟ ΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ Βελτίωση Μαθητικών Μοντέλων Βελτίωση της Γνωσιολογικής οµής ενός Εκπαιδευτικού Αντικειµένου Βελτίωση των Μεθόδων ιδασκαλίας Βοήθεια στις Εκπαιδευτικές Θεωρίες Προσωποποιηµένη Εκπαίδευση ΕΚΠΑΙ ΕΥΤΙΚΑ ΣΥΣΤΗΜΑΤΑ ΚΑΙ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ Παραδοσιακή Τάξη - ιδασκαλία Πρόσωπο µε Πρόσωπο Εξ Αποστάσεως Εκπαίδευση Ειδικευµένα µαθήµατα βασισµένα στο παγκόσµιο ιστό (HTML Web-based Courses ) Συστήµατα διαχείρισης εκπαιδευτικού περιεχοµένου (Learning content management systems) Προσαρµοστικά και ευφυή εκπαιδευτικά συστήµατα (Adaptive and intelligent web-based educational systems) ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ ΤΕΧΝΙΚΕΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ Στατιστική Εξόρυξη Γνώσης από τον Παγκόσµιο Ιστό (Web mining) Οµαδοποίηση, ταξινόµηση και εύρεση ακραίων σηµείων Κανόνες συσχέτισης και ανακάλυψη σειριακών προτύπων Εξόρυξη γνώσης από κείµενο ΑΞΙΟΛΟΓΗΣΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ Holdout Μέθοδος Cross validation Μέθοδος ΠΑΡΑ ΕΙΓΜΑΤΑ ΕΦΑΡΜΟΓΗΣ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ Πρόγνωση Επίδοσης Φοιτητών µε την Μέθοδο CHAID Εφαρµογές στο Πεδίο της Ακαδηµαϊκής Εκπαίδευσης Εφαρµογή των Τεχνικών Εξόρυξης Γνώσης στην Συνεργατική Μάθηση Εξόρυξη Γνώσης από τον Τρόπο Πλοήγησης σε Ένα Εκπαιδευτικό Σύστηµα Βασισµένο στο ιαδίκτυο ΠΡΟΒΛΕΨΗ ΤΗΣ ΕΠΙ ΟΣΗΣ ΜΑΘΗΤΩΝ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ Εφαρµογή των έντρων Απόφασης σε Εκπαιδευτικά εδοµένα για την Πρόβλεψη της Επίδοσης Μαθητών Εφαρµογή Αλγορίθµων Κατηγοριοποίησης για την Πρόγνωση Βαθµολογίας Προβλέποντας την Βαθµολογία Μαθητών από τα Αρχεία Καταγραφής του Moodle ΣΥΜΠΕΡΑΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗ ΑΛΓΟΡΙΘΜΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΕΚΠΑΙ ΕΥΤΙΚΑ Ε ΟΜΕΝΑ ΕΙΣΑΓΩΓΗ ΜΕΘΟ ΟΛΟΓΙΑ ΤΑ Ε ΟΜΕΝΑ ΜΑΣ ΠΡΟΕΤΟΙΜΑΣΙΑ ΤΩΝ Ε ΟΜΕΝΩΝ Στατιστική Ανάλυση εδοµένων ΚΑΤΑΣΚΕΥΗ ΤΟΥ ΠΡΟΤΕΙΝΟΜΕΝΟΥ ΜΟΝΤΕΛΟΥ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ Τεχνικές Εξόρυξης Γνώσης ΑΞΙΟΛΟΓΗΣΗ ΤΟΥ ΜΟΝΤΕΛΟΥ Αξιολόγηση Αλγορίθµων µε Χρήση της Ακρίβειας τους Αξιολόγηση Αλγορίθµων µε Χρήση του Πίνακα Ενδεχοµένων ΕΝΤΡΑ ΑΠΟΦΑΣΗΣ ΚΑΙ ΚΑΝΟΝΕΣ ΣΥΜΠΕΡΑΣΜΑΤΑ ΑΠΟ ΤΗΝ ΑΞΙΟΛΟΓΗΣΗ ΚΑΙ ΤΗΝ ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ ΤΩΝ ΑΛΓΟΡΙΘΜΩΝ ΚΑΤΑΣΚΕΥΗ ΕΡΓΑΛΕΙΟΥ ΠΡΟΓΝΩΣΗΣ ΕΠΙΛΟΓΟΣ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ-ΒΕΛΤΙΩΣΕΙΣ ΛΕΞΙΚΟ ΌΡΩΝ

11 ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΗΓΕΣ - ΑΝΑΦΟΡΕΣ

12 Ευρετήριο Εικόνων Εικόνα 1 : Τα βήµατα της διαδικασίας εξόρυξης γνώσης από βάσεις δεδοµένων...25 Εικόνα 2 : Επιστήµες που σχετίζονται µε την εξόρυξη γνώσης από δεδοµένα...27 Εικόνα 3 :Ένα απλό γραµµικό όριο κατηγοριοποίησης για το σύνολο των στοιχείων δανείου Η διαµορφωµένη περιοχή δείχνει την κατηγορία, όχι δάνειο (Usama Fayyad, Gregory Piatetsky-Shapiro G, Smyth P., 1996)...32 Εικόνα 4 : Μία απλή συσταδοποιηση του συνόλου δεδοµένων δανείου σε τρεις συστάδες Σηµειώστε ότι οι αρχικές ετικέτες αντικαθίστανται από τα Εικόνα 5 : Μία απλή γραµµική οπισθοδρόµηση για το σύνολο δεδοµένων δανείου..36 Εικόνα 6 : Η διαδικασία της επιτηρούµενης µηχανικής µάθησης (Kotsiantis SB.,2007) Εικόνα 7 : Η λογική της κατηγοριοποίησης...44 Εικόνα 8 : Η τεχνική της κατηγοριοποίησης...44 Εικόνα 9 : Μεθοδολογία κατηγοριοποίησης...45 Εικόνα 10 : έντρο Απόφασης...46 Εικόνα 11 : Παραγωγή κανόνων από ένα δένδρο απόφασης...47 Εικόνα 12 : έντρο Απόφασης...49 Εικόνα 13 : Το πρόβληµα του αποκλειστικού Ή...54 Εικόνα 14 : Απλό Bayesian ίκτυο...59 Εικόνα 15 : Απλός Γράφος...60 Εικόνα 16 : Παράγοντες που επηρεάζουν το µοντέλο µάθησης...62 Εικόνα 17 : Bayesian δίκτυο µε πίνακα πιθανοτήτων...62 Εικόνα 18 : Παράδειγµα χρήσης k-nn αλγορίθµου κατηγοριοποίησης...65 Εικόνα 19 : Παράδειγµα Νευρωνικού ικτύου...66 Εικόνα 20 : Γενική περιγραφή εκπαίδευση νευρωνικού δικτύου (Κωτσιαντής Σ.)...68 Εικόνα 21 : Παράδειγµα εµφάνισης του φαινοµένου του υπερταιριάσµατος στους ταξινοµητές SVM...72 Εικόνα 22 : Ο κύκλος εφαρµογής της εξόρυξης γνώσης από εκπαιδευτικά δεδοµένα78 Εικόνα 23 : Προσαρµοστικό σύστηµα για µάθηση βασισµένη στο παγκόσµιο ιστό..88 Εικόνα 24 : Οι κατηγορίες του Web mining (Πηνελόπη Θ. Μαρκέλλου, 2005) Εικόνα 25 : Αξιολόγηση κατηγοριοποιητών χρησιµοποιώντας σύνολα εκπαίδευσης και σύνολα ελέγχου...99 Εικόνα 26 : Αξιολόγηση κατηγοριοποιητων χρησιµοποιώντας την 4-fold Cross Validation Εικόνα 27 : Στατιστική κατανοµή βαθµολογίας µαθητών στο µάθηµα Γεωγραφία Α τάξης Εικόνα 28 : Κατανοµή µαθητών σε µια δυαδική κατηγοριοποίηση Εικόνα 29 : Κατανοµή µαθητών µε µια κατηγοριοποίηση 3-επιπεδων Εικόνα 30: Στατιστική κατανοµή βαθµολογίας µαθητών στο µάθηµα Γεωγραφία Β τάξης Εικόνα 31 : Κατανοµή µαθητών σε µια δυαδική κατηγοριοποίηση Εικόνα 32 : Κατανοµή µαθητών µε µια κατηγοριοποίηση 3-επιπεδων Εικόνα 33 : έντρο απόφασης για την Γεω. Α. Γυµν. µε δυαδική κατηγοριοποίηση Εικόνα 34 : έντρο απόφασης για την Γεω. Α. Γυµν. µε κατηγοριοποίηση 3-επιπεδων

13 Εικόνα 35 : έντρο απόφασης για την Γεω. Α. Γυµν. µε κατηγοριοποίηση 3-επιπεδων Εικόνα 36 : έντρο απόφασης για την Γεω. Β. Γυµν. µε δυαδική κατηγοριοποίηση130 Εικόνα 37 : έντρο απόφασης για την Γεω. Α. Γυµν. µε κατηγοριοποίηση 3-επιπεδων Εικόνα 38 : έντρο απόφασης για την Γεω. Α. Γυµν. µε κατηγοριοποίηση 3-επιπεδων Εικόνα 39 : Λειτουργία λογισµικού πρόγνωσης Εικόνα 40 : Αρχική οθόνη της εφαρµογής Εικόνα 41 : Οθόνη του εργαλείου που µας ζητά δεδοµένα για να κάνει την πρόγνωση Εικόνα 42 : Παράδειγµα χρήσης του λογισµικού για έναν µαθητή

14 Ευρετήριο Πινάκων Πίνακας 1 : εδοµένα εκπαίδευσης...49 Πίνακας 2 : εδοµένα για εκπαίδευση του συστήµατος...57 Πίνακας 3 : Τιµές του Πίνακα Πιθανοτήτων...60 Πίνακας 4: Ερωτήσεις που αφορούν τον επιχειρηµατικό και εκπαιδευτικό τοµέα...77 Πίνακας 5 : Χαρακτηριστικά γνωρίσµατα για την έρευνα των (Castro, Vellido, Nebot and Minguillon, 2005)...94 Πίνακας 6 : Κατανοµή στιγµιότυπων της βάσης δεδοµένων Πίνακας 7 : Κατηγοριοποίηση µαθητών σε 3 επίπεδα Πίνακας 8 : Οι µεταβλητές του προτεινόµενου µοντέλου Πίνακας 9 : Ακρίβεια των αλγορίθµων για κάθε σύνολο Α, Β, C, και Μέσος Όρος 122 Πίνακας 10 : Ακρίβεια των αλγορίθµων για κάθε σύνολο Α, Β, C, και Μέσος Όρος για κατηγοριοποίηση 3-επιπεδων Πίνακας 11 : Πίνακας ενδεχοµένων για το µάθηµα Γεωγραφία Α Γυµνασίου Πίνακας 12 : Πίνακας ενδεχοµένων για το µάθηµα Γεωγραφίας Β Γυµνασίου Πίνακας 13 : Πίνακας ενδεχοµένων για το µάθηµα Γεωγραφίας Α Γυµνασίου Πίνακας 14 : Πίνακας ενδεχοµένων για το µάθηµα Γεωγραφίας Α Γυµνασίου Πίνακας 15 : Κανόνες για τα µοντέλα όπως τους έδωσε ο αλγόριθµος JRip

15

16

17

18

19 Κεφάλαιο 1 Εισαγωγή 1.1 Αντικείµενο της Εργασίας Στην παρούσα εργασία θα πραγµατευτούµε την χρήση τεχνικών Μηχανικής Μάθησης ή εξόρυξης γνώσης στον τοµέα της εκπαίδευσης. Αυτός ο επιστηµονικός κλάδος ο οποίος είναι σχετικά καινούργιος (από το 2000) ονοµάζεται educational data mining (EDM) δηλαδή εξόρυξη γνώσης από εκπαιδευτικά δεδοµένα. Οι αλγόριθµοι Μηχανικής Μάθησης επιτρέπουν στους εκπαιδευτές να προβλέπουν την επίδοση των µαθητών τους µε ικανοποιητική ακρίβεια πολύ πριν τις τελικές εξετάσεις. Σκοπός αυτών των τεχνικών είναι η βελτίωση της εκπαίδευσης σε επίπεδο παρεχόµενης βοήθειας προς τους µαθητές (εξατοµικευµένη βοήθεια) αλλά και τις πρόωρης διαπίστωσης κάποιων προβληµάτων που αντιµετωπίζουν οι µαθητές µας στην µάθηση τους, τα οποία πιθανόν να τους οδηγήσουν σε αποτυχία. Θα µελετήσουµε/υλοποιήσουµε/αξιολογήσουµε διάφορους αλγορίθµους οι οποίοι ανήκουν στην οµάδα των αλγορίθµων κατηγοριοποίησης(classification) όπως οι ταξινοµητές µε χρήση δένδρων απόφασης (Decision Tree Classifiers), αλγόριθµοι κανόνων ταξινόµησης (Rule-based Classification), οι αλγόριθµοι στατιστικής κατηγοριοποίησης όπως ο Naïve Bayes, τα δίκτυα Bayes, η µέθοδος των Κ πλησιέστερων γειτόνων (KNN), τα τεχνητά νευρωνικά δίκτυα και τέλος οι µηχανές διανυσµάτων υποστήριξης (Support Vector Machines SVM). Οι αλγόριθµοι εξόρυξης γνώσης έχουν χρησιµοποιηθεί κυρίως στην εξαποστάσεως εκπαίδευση και κατά κύριο λόγο σε µαθήµατα πανεπιστηµιακού επιπέδου, για την πρόγνωση της βαθµολογίας των µαθητών. Αυτό είναι λογικό αφού

20 οι εκπαιδευτές σε αυτού του τύπου την εκπαίδευση είναι αναγκασµένοι να έχουν τους µαθητές τους µακριά. Στην παρούσα εργασία θα ερευνήσουµε κατά πόσο µπορούµε να εφαρµόσουµε αυτούς τους αλγόριθµους και στην κατά µέτωπο διδασκαλία και µάλιστα σε µαθητές δευτεροβάθµιας εκπαίδευσης. Τα πλεονεκτήµατα από την επιτυχή και ικανοποιητική πρόγνωση της επίδοσης τον µαθητών στο τέλος του έτους, όπου και θα χαρακτηριστεί η παρουσία τους στο µάθηµα ως επιτυχής ή ανεπιτυχής είναι προφανής. Αν καταφέρουµε να εντοπίσουµε έναν µαθητή ο οποίος οδηγείται προς την αποτυχία τότε το επόµενο βήµα είναι να τον βοηθήσουµε µε παραπάνω ασκήσεις, ποιο αναλυτικές οδηγίες, δίνοντας του περισσότερες ευκαιρίες µέσα στο µάθηµα κ.λ.π. Χρησιµοποιηθήκαν δεδοµένα από την δευτεροβάθµια εκπαίδευση, συγκεκριµένα για την κατασκευή του µοντέλου µας χρησιµοποιήσαµε στοιχειά από 307 µαθητές στο σύνολο προερχόµενα από δυο µαθήµατα. Ο λόγος που επιλέξαµε δυο µαθήµατα είναι ότι θέλαµε να κάνουµε διασταύρωση των αποτελεσµάτων. Αφού φτιάξαµε τα αντίστοιχα µοντέλα µε την βοήθεια του εργαλείου Weka τα αξιολογήσαµε τόσο ποσοτικά ως προς την ακρίβεια τους, όσο και ποιοτικά χρησιµοποιώντας τους πίνακες ενδεχοµένων. Βασικό αντικείµενο της εργασίας είναι και η εύρεση εκείνων των χαρακτηριστικών των µαθητών τα οποία θα επιλέξουµε για να φτιάξουµε το µοντέλο πρόγνωσης. ηλαδή θα πρέπει να βρούµε κατά την διάρκεια της προεπεξεργασιας των δεδοµένων µας εκείνα τα χαρακτηριστικά τα οποία είναι τα σηµαντικότερα ώστε οι αλγόριθµοι να έχουν µεγαλύτερη ακρίβεια αλλά και η εφαρµογή της µεθόδου να είναι ποιο απλή, αφού αν ζητούνται πολλά στοιχεία τότε η εφαρµογή της τεχνικής δεν θα είναι και τόσο εύκολη. Αφού επιλέξουµε τα χαρακτηριστικά που µας ενδιαφέρουν θα κατασκευάσουµε µοντέλα για δυαδική και 3-επιπεδων κατηγοριοποίηση των µαθητών. Θα αξιολογήσουµε την ακρίβεια και τα χαρακτηριστικά της πρόγνωσης όλων των αλγορίθµων που αναφέραµε παραπάνω ώστε να επιλέξουµε τον κατάλληλο αλγόριθµο για το τελικό βήµα της εργασίας µας την κατασκευή του εργαλείου λογισµικού. Τέλος, θα γίνει η κατασκευή ενός πρωτότυπου εργαλείου υποστήριξης της όλης διαδικασίας για την κατηγοριοποίηση των µαθητών υλοποιώντας τον αλγόριθµο 3-NN ο οποίος βάση των πειραµάτων αποδείχτηκε ο καταλληλότερος για χρήση στην περίπτωση που µελετήσαµε. Η υλοποίηση αυτή θα γίνει σε Java µε χρήση του ελεύθερου λογισµικού ανάπτυξης Eclipse. 1.2 Στόχοι της Εργασίας Συνοπτικά οι στόχοι αυτής της εργασίας είναι : Να αναζητήσουµε στην διεθνή βιβλιογραφία µε ποιον τρόπο µπορούµε να εφαρµόσουµε τεχνικές εξόρυξης γνώσης στον τοµέα της εκπαίδευσης (Educational Data Mining - EDM)και παρουσίαση εκείνων των τεχνικών που έχουν την καλύτερη εφαρµογή στο πεδίο της εκπαίδευσης

21 Να ερευνήσουµε την χρήση των τεχνικών µηχανικής µάθησης σε ένα σχολικό περιβάλλον δευτεροβάθµιας εκπαίδευσης για την πρόγνωση της επίδοσης µαθητών. Για τον λόγο αυτό έγιναν πειραµατικές µετρήσεις χρησιµοποιώντας έξι από τους ποιο γνωστούς αλγορίθµους εξόρυξης γνώσης. Να αξιολογήσουµε τους κυριότερους αλγόριθµους κατηγοριοποίησης(classification) µε τη χρήση του λογισµικού εργαλείου (WEKA) και να υλοποιήσουµε τον πιο αποδοτικό στην δική µας περίπτωση. Να αποτιµήσουµε την ακρίβεια των αλγορίθµων κατηγοριοποίησης τόσο ποσοτικά όσο και ποιοτικά µε κατάλληλο εργαλείο. Να επιλέξουµε τον καταλληλότερο αλγόριθµο βάση των µετρήσεων που κάναµε στους έξι αλγόριθµους που υλοποιήσαµε µε σύνολα εκπαίδευσης από το µάθηµα της Γεωγραφίας Α και Β Γυµνασίου. Να κατασκευάσουµε ένα εργαλείο λογισµικού το οποίο θα εκπαιδεύει ένα µοντέλο πρόγνωσης µε χρήση του αλγόριθµου που επιλέξαµε και κατόπιν δίνοντας του τα κατάλληλα δεδοµένα θα κατηγοριοποιεί τους µαθητές στην αντίστοιχη κλάση (Fail/Pass) ή (Fail/Good/Very Good). 1.3 ιάθρωση της Εργασίας Η εργασία έχει την ακόλουθη δοµή. Στο δεύτερο κεφάλαιο παρουσιάζεται η εξόρυξη γνώσης σαν επιστηµονικό πεδίο. ηλαδή γίνεται µια αναφορά στην επιστήµη του Data Mining (εξόρυξη γνώσης) και του Knowledge Discovery Data Mining (KDD). Μελετάµε πως γίνεται η εξόρυξη γνώσης από βάσεις δεδοµένων, τι διαδικασία ακολουθούµε αλλά και ποια είναι η βασική µεθοδολογία εφαρµογής αυτών των τεχνικών. Αναφέρουµε ποιοι είναι οι βασικοί αλγόριθµοι της εξόρυξης γνώσης αλλά και τι εφαρµογές βρίσκει στα διάφορα επιστηµονικά πεδία. Στο τρίτο κεφάλαιο γίνεται µια αναλυτική παρουσίαση του Educational Data Mining (EDM) ή αλλιώς του επιστηµονικού κλάδου της εξόρυξης γνώσης από εκπαιδευτικά δεδοµένα. Θα δούµε µε ποιον τρόπο είναι δυνατόν να εφαρµοστούν οι τεχνικές εξόρυξης γνώσης στην εκπαίδευση, ποιούς ωφελεί η εξόρυξη γνώσης σε εκπαιδευτικά δεδοµένα, πως µπορεί να εφαρµοστεί στα διάφορα εκπαιδευτικά συστήµατα, ποιες από τις γενικές τεχνικές εξόρυξης γνώσης έχουν µεγαλύτερη εφαρµογή σε αυτό τον κλάδο, ενώ τέλος θα δούµε και κάποια παραδείγµατα χρήσης τεχνικών εξόρυξης γνώσης σε εκπαιδευτικά δεδοµένα. Στο τέταρτο κεφάλαιο θα κάνουµε µια µαθηµατική ανάλυση στους βασικούς αλγόριθµους εξόρυξης γνώσης που ανήκουν στην κατηγορία των αλγορίθµων κατηγοριοποίησης (classification). Συγκεκριµένα θα δούµε τους ταξινοµητές µε χρήση δένδρων απόφασης (Decision Tree Classifiers) και κάποια παραδείγµατα που κάνουν χρήση των αλγορίθµων ID3 και C4.5 οι οποίοι ανήκουν στην κατηγορία των δένδρων απόφασης. Επίσης το θεωρητικό υπόβαθρο των αλγορίθµων µε κανόνες ταξινόµησης (Rule-based Classification), των αλγορίθµων στατιστικής κατηγοριοποίησης (Baysian, Naïve Bayes, ικτυα Bayes) καθώς και κάποιες µελέτες περίπτωσης αυτών των αλγορίθµων στην εκπαίδευση. Θα συνεχίσουµε µε τις τεχνικές των κοντινότερων γειτόνων Κ-ΝΝ, µε τους αλγόριθµους των τεχνιτών

22 νευρωνικών δικτύων και θα κλείσουµε µε τους SVM (Support Vector Machines) ή µηχανές διανυσµάτων υποστήριξης. Στο τελευταίο κεφάλαιο θα κάνουµε την πειραµατική εφαρµογή διαφόρων αντιπροσωπευτικών αλγορίθµων κατηγοριοποίησης σε εκπαιδευτικά δεδοµένα. Συγκεκριµένα θα αξιολογήσουµε τους αλγόριθµους C4.5, Ripper, Back Propagation, SMO, 3-NN και Naïve Bayes σε δεδοµένα που αφορούν τις επιδόσεις των µαθητών A και Β Γυµνασίου στο µάθηµα της Γεωγραφίας. Τα δεδοµένα αυτά υπήρχαν σε ηλεκτρονική µορφή και προέρχονται από το προσωπικό µου αρχείο. Αφορούν τα µαθήµατα που δίδαξα στο Γυµνάσιο Μεσαριάς στην Σαντορίνη κατά τα σχολικά έτη , και Όπως αναφέραµε και πριν θα εφαρµόσουµε τους αλγόριθµους κατασκευάζοντας τα αντίστοιχα µοντέλα και κατόπι θα κάνουµε αξιολόγηση της ακρίβειας αλλά και της ποιότητας των προγνώσεων αυτών των µοντέλων. Προκειµένου να υλοποιήσουµε τα παραπάνω πειράµατα θα χρησιµοποιήσουµε το εργαλείο Weka το οποίο είναι ένα ελεύθερο εργαλείο εφαρµογής και αξιολόγησης τεχνικών εξόρυξης γνώσης. Αφού κάνουµε τις πειραµατικές µας µετρήσεις θα καταλήξουµε στον αλγόριθµο 3-ΝΝ. Ακολούθως θα κατασκευάσουµε το εργαλείο λογισµικού το οποίο θέλουµε να κατηγοριοποιεί τους µαθητές στην σωστή κλάση ανάλογα µε την επίδοση των µαθητών στο Α τρίµηνο. Η κατασκευή αυτού του λογισµικού θα γίνει σε Java και µε χρήση του Eclipse, το οποίο είναι επίσης ένα ελεύθερο λογισµικό ανάπτυξης λογισµικού που υποστηρίζει διάφορες γλώσσες προγραµµατισµού

23 Κεφάλαιο 2 Εξόρυξη Γνώσης από Βάσεις και Αποθήκες εδοµένων 2.1. Εισαγωγή Η ραγδαία ανάπτυξη στην συλλογή της πληροφορίας καθώς και στην τεχνολογία αποθήκευσης αυτών των πληροφοριών έχει επιτρέψει σε οργανισµούς και ερευνητές να συγκεντρώσουν τεράστιο όγκο δεδοµένων. Συχνά, τα παραδοσιακά εργαλεία και οι τεχνικές επεξεργασίας αυτών των δεδοµένων δε µπορούν να χρησιµοποιηθούν, ακριβώς γιατί ο όγκος της πληροφορίας είναι τεράστιος. Κάποιες φορές µάλιστα, η ίδια η ιδιαιτερότητα της φύσης των δεδοµένων, δεν επιτρέπει την παραδοσιακή προσέγγιση, ακόµα και αν ο όγκος των δεδοµένων είναι σχετικά µικρός. Σε κάποιες άλλες περιπτώσεις, τα ερωτήµατα στα οποία καλούνται να δώσουν απαντήσεις οι ερευνητές δε µπορούν να απαντηθούν µε την χρήση των γνωστών τεχνικών ανάλυσης δεδοµένων, οπότε, νέες µέθοδοι χρειάζεται να αναπτυχθούν. Η εξόρυξη γνώσης από δεδοµένα (Data Mining), είναι µια νέα και δυναµική τεχνολογία που βοηθάει τις επιχειρήσεις να επικεντρωθούν στην σηµαντική πληροφορία που βρίσκεται µέσα στις αποθήκες δεδοµένων τους (data warehouses). Οι τεχνικές της, είναι σε θέση να ψάξουν γρήγορα και λεπτοµερειακά βάσεις δεδοµένων για την αναζήτηση κρυµµένων προτύπων (patterns), ανακαλύπτοντας πληροφορίες που οι ειδικοί µπορεί να χάσουν ή να παραβλέψουν. Μπορούµε να πούµε ότι η εξόρυξη γνώσης είναι η διαδικασίας της αυτόµατης εξόρυξης γνώσης από µεγάλα αποθέµατα δεδοµένων. Οι τεχνικές εξόρυξης γνώσης αναπτύχθηκαν για την συστηµατοποίηση βάσεων δεδοµένων µε στόχο την εύρεση

24 προτύπων που µπορεί να φανούν χρήσιµα, τα οποία ειδάλλως θα έµεναν άγνωστα. Σηµαντική χρησιµότητα των τεχνικών του εξόρυξης γνώσης είναι ότι προσφέρουν τη δυνατότητα να προβλεφθεί το αποτέλεσµα µιας µελλούµενης διεργασίας. Για παράδειγµα µπορεί να προβλεφθεί αν ένας νέος πελάτης σε ένα πολυκατάστηµα θα ξοδέψει περισσότερο από ένα συγκεκριµένο ποσό, ή η τελική τιµή που θα καταλήξει µια δηµοπρασία που βρίσκεται εν εξελίξει. Γενικότερα, οι διεργασίες της εξόρυξης γνώσης διακρίνονται σε δύο κατηγορίες, στις διεργασίες παραστατικοποίησης και πρόβλεψης. Στην πρώτη κατηγορία, ο σκοπός είναι να εξαχθεί η γενική εικόνα των δεδοµένων (πρότυπα, συσχέτιση, cluster, ανωµαλίες). Στην δεύτερη κατηγορία ο σκοπός είναι να προβλεφθεί η τιµή κάποιου µεγέθους (εξαρτηµένη µεταβλητή), µε τη βοήθεια των τιµών κάποιων άλλων µεγεθών (ανεξάρτητες µεταβλητές). Τελικός στόχος των µεθόδων αυτών είναι η δηµιουργία του µοντέλου πρόβλεψης, το οποίο θα ελαχιστοποιεί το σφάλµα ανάµεσα στην προβλεπόµενη και την πραγµατική τιµή της εξαρτηµένης µεταβλητής. Στις επόµενες παραγράφους θα γίνει αναφορά στις γενικές αρχές της εξόρυξης δεδοµένων. 2.2 Γενικές Αρχές της Εξόρυξης Γνώσης Ορισµός Εξόρυξης Γνώσης Η εξόρυξη γνώσης είναι µια διαδικασία εξαγωγής κρυµµένης πληροφορίας από µεγάλες βάσεις δεδοµένων. Υπάρχουν προφανώς πολλοί ορισµοί για την εξόρυξη γνώσης παρακάτω δίνουµε δυο από αυτούς : «Εξόρυξη γνώσης είναι η ανάλυση συνήθως τεράστιων παρατηρούµενων συνόλων δεδοµένων, έτσι ώστε να βρεθούν µη παρατηρηθείσες σχέσεις και να συνοψιστούν τα δεδοµένα µε καινοφανείς τρόπους οι οποίοι να είναι κατανοητοί και χρήσιµοι στον κάτοχο των δεδοµένων.» (David Hand, Heikki Mannila, and Padhraic Smyth, 2001) Ένας πιο αυστηρός και τυπικός ορισµός της εξόρυξης γνώσης, είναι ο εξής: «Εξόρυξη γνώσης είναι η διαδικασία εξαγωγής υπονοούµενης και εν πολλοίς άγνωστης, αλλά ενδεχοµένως χρήσιµης γνώσης, υπό την µορφή συσχετίσεων, προτύπων και τάσεων, µέσω της εξέτασης, ανάλυσης και επεξεργασίας βάσεων δεδοµένων, συνδυάζοντας και χρησιµοποιώντας τεχνικές από την µηχανική µάθηση, την αναγνώριση προτύπων, την στατιστική, τις βάσεις δεδοµένων και την οπτικοποίηση». (Larose DT., 2004)

25 2.2.2 Εξόρυξη Γνώσης και Ανακάλυψη Γνώσης Ο Όρος εξόρυξη γνώσης (Data Mining) δεν ταυτίζεται µε τον όρο ανακάλυψη γνώσης σε βάσεις δεδοµένων (Knowledge Discovery in Databases KDD). Η ανακάλυψη γνώσης σε βάσεις δεδοµένων αναφέρεται ως ένα σύνολο βηµάτων, ενώ η εξόρυξη σε δεδοµένα αποτελεί ένα από τα βήµατα αυτής της διαδικασίας. Ένας ορισµός της KDD είναι ο παρακάτω: «Η ανακάλυψη γνώσης σε βάσεις δεδοµένων είναι µια ντετερµινιστικοί διαδικασία αναγνώρισης έγκυρων, καινοτόµων, ενδεχοµένως χρήσιµων και εν τέλει κατανοητών προτύπων στα δεδοµένα.» (Usama Fayyad, Gregory Piatetsky-Shapiro G, Smyth P., 1996) Η διαδικασία της εξόρυξης γνώσης από βάσεις δεδοµένων είναι µια διαλογική και επαναληπτική διαδικασία που αποτελείται από µια σειρά από τα ακόλουθα βήµατα : Εικόνα 1 Εικόνα 1 : Τα βήµατα της διαδικασίας εξόρυξης γνώσης από βάσεις δεδοµένων Η ανακάλυψη γνώσης σε βάσεις δεδοµένων είναι µία σύνθετη διαδικασία για τον προσδιορισµό έγκυρων, νέων, χρήσιµων και κατανοητών σχέσεων-προτύπων σε δεδοµένα. Αν και ως όρος είναι σχετικά πρόσφατος, αποτελεί µία σηµαντική εφαρµογή σε πραγµατικές συνθήκες και σε µεγάλη κλίµακα των ερευνητικών αποτελεσµάτων της µηχανικής µάθησης και της στατιστικής. Η διαδικασία ανακάλυψης γνώσης είναι µία ολοκληρωµένη διαδικασία που περιλαµβάνει την επεξεργασία των δεδοµένων, την εφαρµογή των αλγορίθµων ανακάλυψης γνώσης και τέλος την ερµηνεία των αποτελεσµάτων. Χρησιµοποιεί τεχνικές από πολλούς τοµείς, όπως στατιστική, µηχανική µάθηση, βάσεις δεδοµένων, αναγνώριση προτύπων, πράκτορες, επεξεργασία φυσικής γλώσσας κτλ. Κάτι σηµαντικό, το οποίο πρέπει να ληφθεί σοβαρά υπόψη είναι ότι πολλές φορές µπορεί να χρειαστεί κάποια από τα επιµέρους βήµατα να επαναληφθούν. Αυτό µπορεί να συµβεί, γιατί στην πορεία πιθανώς να εµφανιστούν προβλήµατα που να έχουν σχέση µε τις αρχικές επιλογές και τα οποία δεν ήταν δυνατόν να εντοπιστούν από την αρχή της διαδικασίας. Είναι, δηλαδή, µία διαδραστική και επαναληπτική

26 διαδικασία, η οποία περιλαµβάνει πολυάριθµα βήµατα µε πολλές από τις αποφάσεις να λαµβάνονται από το χρήστη. Παρακάτω περιγράφονται µερικά από τα βασικά βήµατά της. Επιλογή δεδοµένων Στο στάδιο αυτό δηµιουργείται το σύνολο δεδοµένων, πάνω στο οποίο θα εφαρµοστεί η αναζήτηση γνώσης. Οι αλγόριθµοι που εκτελούν την ανακάλυψη γνώσης, συνήθως, δεν µπορούν να χρησιµοποιήσουν τα δεδοµένα µε την µορφή στην οποία είναι εξ αρχής οργανωµένα. Γι αυτόν ακριβώς το λόγο απαιτείται η εξαγωγή τους από τους πολλαπλούς πίνακες και η οργάνωσή τους σε απλούστερες και πιο ευκολόχρηστες δοµές. Συνήθως, η ανάγκη αυτή ικανοποιείται µε τη χρήση των συστηµάτων αποθήκευσης δεδοµένων (data warehouse), τα οποία παρέχουν στους αλγόριθµους ανακάλυψης γνώσης µία πιο εύκολα προσβάσιµη οπτική των δεδοµένων. Προεπεξεργασία (preprocessing) δεδοµένων Στο στάδιο αυτό αντιµετωπίζονται περιπτώσεις ελλιπών δεδοµένων (όπως άδεια πεδία), πεδίων µε τιµές που ουσιαστικά τα καθιστούν κενά, (όπως Οδός = Άγνωστο), πεδίων µε τιµές που υπονοούν (κατά σύµβαση) κάτι άλλο (όπως καταχώριση της ηµεροµηνίας "1/1/1900" σε πεδίο ηµεροµηνίας που απαιτούσε τιµή, αλλά αυτή δεν ήταν διαθέσιµη), κλπ. Το στάδιο αυτό µπορεί να ονοµαστεί και στάδιο καθαρισµού των δεδοµένων (data cleaning), εξαιτίας των διαδικασιών που λαµβάνουν χώρα σε αυτό. Στο στάδιο αυτό περιλαµβάνεται ακόµα, η αφαίρεση του θορύβου από τα δεδοµένα, όταν αυτό χρειάζεται, συλλέγοντας τις απαραίτητες πληροφορίες για τη διαµόρφωση ή την περιεκτικότητα του θορύβου, παίρνοντας έτσι αποφάσεις για τις στρατηγικές όσον αφορά τη διαχείριση των ελλειπών πεδίων δεδοµένων. Μετασχηµατισµός δεδοµένων (transformation) Τα δεδοµένα µετασχηµατίζονται έτσι ώστε να διευκολύνουν την ανακάλυψη γνώσης. Τέτοιοι µετασχηµατισµοί µπορεί να περιλαµβάνουν για παράδειγµα, τη µείωση του αριθµού των υπό εξέταση χαρακτηριστικών (dimensionality reduction) µε επιλογή ορισµένων εξ αυτών (feature selection ή attribute selection), την οµοιόµορφη κωδικοποίηση της ποιοτικά ίδιας πληροφορίας, τη µετατροπή συνεχόµενων αριθµητικών τιµών σε διακριτές τιµές (διακριτοποίηση) και πολλά άλλα. Οι µετασχηµατισµοί αυτοί γίνονται ανάλογα µε τον στόχο της διεργασίας. Εξόρυξη Στο στάδιο αυτό καθορίζονται οι στόχοι της διαδικασίας KDD και γίνεται η επιλογή του αλγορίθµου µηχανικής µάθησης που θα χρησιµοποιήσουµε, κάτι το οποίο έµµεσα προσδιορίζει και την κατηγορία αλγορίθµου που θα χρησιµοποιηθεί. Αν θα είναι αλγόριθµος ταξινόµησης, οµαδοποίησης, οπισθοδρόµησης και ούτω καθεξής. Η εφαρµογή του αλγορίθµου είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική αναζήτηση της γνώσης από τα δεδοµένα. Περιγράφεται και µε τον όρο εξόρυξη δεδοµένων (data mining), ο οποίος πολλές φορές χρησιµοποιείται καταχρηστικά για να περιγράψει ολόκληρη τη διαδικασία ανακάλυψης γνώσης

27 Ερµηνεία (interpretation) Αξιολόγηση (evaluation) Στο πέµπτο και τελευταίο στάδιο της διαδικασίας ανακάλυψης γνώσης γίνεται ερµηνεία και αξιολόγηση των ευρεθέντων προτύπων, πιθανώς µε υποβοήθηση γραφικών απεικονίσεων των προτύπων ή/και των δεδοµένων, τα οποία περιγράφονται από το πρότυπο (pattern/data visualization). Η γνώση που παράγεται µπορεί να χρησιµοποιηθεί σε ένα σύστηµα γνώσης, όµως στην περίπτωση αυτή είναι πολύ πιθανόν να υπάρξουν κάποιες συγκρούσεις (conflicts) µεταξύ της υπάρχουσας γνώσης και της παραγόµενης. 2.3 Οι Επιστήµες που Σχετίζονται µε την Εξόρυξη Γνώσης Ο όρος «εξόρυξη γνώσης» όπως αναφέραµε και στην εισαγωγή είναι σχετικά καινούργιος και εµφανίστηκε στη δεκαετία του 90. Ωστόσο, παρεµφερείς τάσεις και έρευνες είναι ακόµα πιο παλιές. Ο τοµέας της εξόρυξης γνώσης σχετίζεται µε πολλούς άλλους τοµείς όπως την στατιστική (statistics), την τεχνητή νοηµοσύνη (artificial intelligence), τη µηχανική µάθησης (machine learning), τις βάσεις δεδοµένων (data bases), τις µηχανές αναζήτησης (search engines), τα συστήµατα υποστήριξης αποφάσεων (decision support systems), τα συστήµατα άµεσης ανάλυσης δεδοµένων (OLAP) και του ταιριάσµατος προτύπων (pattern matching) Εικόνα 2 Εικόνα 2 : Επιστήµες που σχετίζονται µε την εξόρυξη γνώσης από δεδοµένα Παρακάτω θα αναλύσουµε τη σχέση που έχει η εξόρυξη γνώσης µε µερικούς από τους πιο βασικούς τοµείς που µόλις αναφέρθηκαν

28 Στατιστική: Είναι γνωστό πως ένα µεγάλο µέρος της ερευνητικής βάσης της εξόρυξης δεδοµένων βασίζεται στη στατιστική. Αυτό είναι λογικό µιας και η στατιστική έχει ανάλογους σκοπούς µε την εξόρυξη δεδοµένων αφού αποσκοπούν στην αναγνώριση χρήσιµων πληροφοριών και προτύπων στα δεδοµένα. Μέρος των διαδικασιών σε ένα µοντέλο εξόρυξης δεδοµένων µπορεί να αποτελεί η αναζήτηση των δεδοµένων και η εξαγωγή συµπερασµάτων από τα αποτελέσµατα µιας αναζήτησης. Μια συχνά χρησιµοποιούµενη τεχνική στην εξόρυξη γνώσης είναι αυτή της δειγµατοληψίας. Αυτός ο τρόπος στη στατιστική λέγεται «στατιστική εξαγωγή συµπεράσµατος». Ακόµα και σήµερα, ένα σηµαντικό τµήµα των νέων υλοποιηµένων αλγόριθµων εξόρυξης γνώσης αποτελούν στην ουσία στατιστικές τεχνικές που έχουν προσαρµοστεί στις απαιτήσεις των αλγορίθµων και των υπολογισµών. Όπως και µε τις κλασικές τεχνικές στατιστικής στην εξόρυξη γνώσης ακολουθούµε ανάλυση παλινδρόµησης (regression analysis), ανάλυση συστάδων (cluster analysis) κ.α. Ακόµα και όταν οι αλγόριθµοι εξόρυξης γνώσης δεν χρησιµοποιούν άµεσα τεχνικές στατιστικής, πολλές φορές οι βασικές τους ιδέες έχουν ως αρχική επιρροή την στατιστική. Τεχνητή Νοηµοσύνη: ύο άλλοι τοµείς που σχετίζονται µε αυτόν της εξόρυξης γνώσης είναι η τεχνητή νοηµοσύνη και η µηχανική µάθηση. Σκοπός της τεχνητής νοηµοσύνης είναι να βγάζει λογικά συµπεράσµατα από ανεπεξέργαστα δεδοµένα, κάτι που κάνει και ο τοµέας της εξόρυξης γνώσης. Επίσης ο τοµέας της εξόρυξης γνώσης κάνει εκτεταµένη χρήση εργαλείων τεχνητής νοηµοσύνης και µηχανικής µάθησης. Μερικά παραδείγµατα είναι τα νευρωνικά δίκτυα, δέντρα απόφασης και µηχανές διανυσµάτων (vector machines). Γενικά ο τοµέας της τεχνητής νοηµοσύνης είναι πιο γενικός και εµπεριέχει περιοχές εκτός των κλασικών µεθόδων εξόρυξης γνώσης. Επίσης εφαρµογές τεχνητής νοηµοσύνης µπορεί να µην σχετίζονται µε κλιµάκωση δεδοµένων µιας και ο όγκος τους µπορεί να είναι αρκετά µικρός. Βάσεις δεδοµένων: Μια βάση δεδοµένων είναι µια συλλογή από δεδοµένα. Αντίθετα µε ένα απλό σύνολο, τα δεδοµένα σε µια βάση έχουν µια ορισµένη δοµή ή σχήµα µε το οποίο είναι σχετιζόµενα. Έτσι τα δεδοµένα σε µια βάση αναπαρίστανται µε ένα πιο θεωρητικό τρόπο ή µοντέλο δεδοµένων. Αυτό το µοντέλο χρησιµοποιείται για να περιγράψει τα δεδοµένα, τα χαρακτηριστικά τους, και τις σχέσεις µεταξύ τους. Ένα µεγάλο µέρος των σηµερινών ερευνητών στην εξόρυξη δεδοµένων είναι άτοµα προερχόµενα από τον τοµέα των βάσεων δεδοµένων. Η σχέση των δύο αυτών τοµέων είναι εµφανής µια και πριν επεξεργαστούµε τα δεδοµένα µας πρέπει πρώτα να µπορούµε να τα διαχειριστούµε ορθά. Έτσι χωρίς καλά συστήµατα διαχείρισης δεδοµένων δεν µπορούµε να εφαρµόσουµε αλγόριθµους εξόρυξης γνώσης. Οι δύο τοµείς ακόµη µοιράζονται πολλά, όπως διαδικτυακές βάσεις δεδοµένων (Web databases), προσωρινές ή χωρικές βάσεις δεδοµένων κ.α. Ένα αξιοσηµείωτο παράδειγµα ενός πετυχηµένου συνδυασµού εξόρυξης δεδοµένων και βάσεων δεδοµένων είναι η µηχανή αναζήτησης Google η οποία εκτελεί εργασίες πολύ γρήγορα, αποδοτικά και µε ακριβή αποτελέσµατα σε οποιοδήποτε ερώτηµα

29 2.4 Εφαρµογές της Μηχανικής Μάθησης και της Εξόρυξη Γνώσης Οι τεχνικές της εξόρυξης γνώσης έχουν εφαρµογές σε πολλούς τοµείς της επιστήµης µερικές από αυτά τα πεδία είναι: Παγκόσµιος ιστός: Ο τοµέας της εξόρυξης γνώσης είχε άµεση εφαρµογή µε επιτυχία στο ιαδίκτυο. Το πιο δηµοφιλές παράδειγµα εξόρυξης γνώσης στο διαδίκτυο είναι η Google. Για να γίνει πιο κατανοητή η σηµαντικότητα της συνεισφοράς αυτής θα πρέπει να αντιληφθούµε πως ο όγκος της πληροφορίας που υπάρχει µέχρι τώρα στο διαδίκτυο είναι αδύνατο να µετρηθεί µε ακρίβεια. Κάθε ερώτηµα στην µηχανή αναζήτησης δεν ξεπερνά σε χρόνο τα δυο δευτερόλεπτα. Η Google και γενικά ο τοµέας της εξόρυξης γνώσης στο ιαδίκτυο έχουν σήµερα τεράστια επιτυχία γιατί έχουν εκπληρώσει δυο σηµαντικούς στόχους. Πρώτα, µπορούν να κάνουν αναζήτηση (µε κάθε ερώτηµα) σε τόσα πολλά δεδοµένα σε πολύ σύντοµο χρόνο. εύτερον, µπορούν να επιστρέψουν σε κάθε ερώτηµα τα πρώτα αποτελέσµατα που είναι πιο χρήσιµα. Έτσι τελικά ο χρήστης λαµβάνει γρήγορα και εύκολα µόνο την ουσιώδη πληροφορία που θέλει. Μάρκετινγκ: Μια κατηγορία πολύ γνωστών εφαρµογών εξόρυξης γνώσης είναι αυτή του µάρκετινγκ. Αυτό είναι αναµενόµενο µιας και µεγάλες εταιρίες χρησιµοποιούν µεγάλα συστήµατα διαχείρισης δεδοµένων για να διαχειρίζονται µεγάλο αριθµό πελατών και οικονοµικών στοιχείων. Τα τελευταία χρόνια οι τάσεις του µάρκετινγκ ορίζουν µια πολιτική έρευνας των αναγκών των πελατών. Αναζητούν απαντήσεις σε ερωτήµατα όπως, τι είναι αυτό που θέλουν οι πελάτες, ποιες είναι οι ανάγκες τους κ.α. Ο τοµέας της εξόρυξης γνώσης έχει συνεισφέρει σηµαντικά σε αυτή την κατεύθυνση από την ανάλυση δεδοµένων µια επιχείρησης και την εξαγωγή χρήσιµων συµπερασµάτων για την συµπεριφορά των πελατών. Ένας αρκετά γνωστός αλγόριθµος εξόρυξης δεδοµένων είναι ο A-Priori. Ο αλγόριθµος αυτός κάνει ανάλυση δεδοµένων αγοράς, όπου υπάρχουν δεδοµένα σχετικά µε πελάτες ή αγορές σε καταστήµατα. Ο A-Priori µπορεί αποδοτικά να δώσει συµπεράσµατα όπως «κάθε πελάτης που αγοράζει βαµβακερά υφάσµατα θα αγοράσει και µπίρα µε µεγάλη πιθανότητα». Άλλα παραδείγµατα εξόρυξης δεδοµένων στο µάρκετινγκ είναι η ανάλυση της συµπεριφοράς των πελατών ηλεκτρονικών καταστηµάτων χρησιµοποιώντας τα log αρχεία ή η πρόβλεψη εάν ένας πελάτης θα αγοράσει ένα συγκεκριµένο προϊόν χρησιµοποιώντας παρελθοντικές του κινήσεις. Επένδυση-Οικονοµική Ανάλυση: Πολυάριθµες χρηµατιστηριακές εταιρίες χρησιµοποιούν τεχνικές εξόρυξης γνώσης έτσι ώστε να µπορούν να γνωρίζουν που να επενδύσουν. Στην πραγµατικότητα µια µεγάλη µερίδα έρευνας στο τοµέα εξόρυξης γνώσης έχει γίνει έχοντας ως αφετηρία χρηµατιστηριακές εφαρµογές. Μια άλλη χρήση των τεχνικών εξόρυξης γνώσης είναι οι εφαρµογές εξόρυξης δεδοµένων από κείµενα. Για παράδειγµα αλγόριθµοι που εξάγουν χρήσιµη πληροφορία από µη δοµηµένα κείµενα, έτσι ώστε να προβλεφθούν οι τάσεις σε µετοχές. Πρόληψη και Ασφάλεια: Η εξόρυξη γνώσης έχει µε επιτυχία εφαρµοστεί και στην πρόληψη και αποφυγή διάφορων τύπων απάτης. Από την αναγνώριση κακόβουλων ενεργειών σε συναλλαγές κάποιος µπορεί να αντιληφθεί συναλλαγές που µπορεί να σχετίζονται µε οικονοµικές παρανοµίες ή άλλου είδους απάτες. Ωστόσο τα τελευταία χρόνια, όπως βλέπουµε και ακούµε, υπάρχει µια τάση για πρόληψη σε κακόβουλες

30 ενέργειες. Οι κινήσεις µας σε δηµόσιους χώρους καταγράφεται όπως και αυτές που έχουν να κάνουν µε τον παγκόσµιο ιστό. Για παράδειγµα µια πρόσφατη εφαρµογή µπορούσε να αναγνωρίζει ανώµαλα πρότυπα χρησιµοποιώντας κανόνες σε δεδοµένα νοσοκοµείων έτσι ώστε να αναγνωρίζει, σε πραγµατικό χρόνο, εµφάνιση ασθενειών. Spam filtering: Άλλη µια πολύ σηµαντική εφαρµογή των τεχνικών µάθησης είναι το αυτόµατο φιλτράρισµα της ανεπιθύµητης αλληλογραφίας (spam mails). ηλαδή η κατηγοριοποίηση ενός µηνύµατος του ηλεκτρονικού ταχυδροµείου ως ανεπιθύµητου. Τα αυτόκλητα µηνύµατα (spam) του ηλεκτρονικού ταχυδροµείου είναι µηνύµατα συνήθως εµπορικού ή διαφηµιστικού περιεχοµένου τα οποία στέλνονται µαζικά στους παραλήπτες εκµεταλλευόµενοι το γεγονός ότι η ηλεκτρονική αλληλογραφία είναι δωρεάν. Τα µηνύµατα αυτά δεν έχουν ζητηθεί από τους παραλήπτες και δηµιουργούν πολύ «θόρυβο» - «σκουπίδια» στην ηλεκτρονική λίστα µε τα µηνύµατα του κάθε χρήστη. Οι αλγόριθµοι κατηγοριοποίησης χρησιµοποιούνται για να χαρακτηρίσουν ένα µήνυµα ως spam και να το διαγράψουν ή να το βάλουν σε ειδικό φάκελο. Ανακάλυψη φαρµάκων και Βιοπληροφορική : Η εξόρυξη δεδοµένων βοηθά τη φαρµακευτική έρευνα µε την ανάλυση των τεράστιων αποθηκών δεδοµένων, έχοντας ως αποτέλεσµα την αυξανόµενη αυτοµατοποίηση των εργαστηρίων. Τα µοντέλα οµαδοποίησης και ταξινόµησης του ODBC που χρησιµοποιείται, βοηθούν στο να εξαχθούν κάποια συµπεράσµατα από τις σύνθετες βιβλιοθήκες, ενώ η ανίχνευση ακολουθίας βοηθά στην ανακάλυψη συγκεκριµένων τύπων δεδοµένων Εµείς σε αυτή την διπλωµατική θα ερευνήσουµε την εφαρµογή αυτών των τεχνικών στην εκπαίδευση (Educational Data Mining EDM). ηλαδή θα δούµε ποιο αναλυτικά τι είναι το EDM, τι χαρακτηριστικά εχει και ποιοι αλγόριθµοι εξόρυξης γνώσης µπορούν να εφαρµοστούν όσο αφορά σε δεδοµένα τα οποία προέρχονται από τον χώρο της εκπαίδευσης θα το δούµε στο Kεφάλαιο Τεχνικές Εξόρυξης Γνώσης Οι βασικοί στόχοι της εξόρυξης γνώσης όπως αναφέραµε και στην εισαγωγή είναι η εφαρµογή τεχνικών πρόβλεψης (prediction) και περιγραφής (description) σε µεγάλες βάσεις δεδοµένων (Usama Fayyad, Gregory Piatetsky-Shapiro G, Smyth P., 1996). Ποιο συγκεκριµένα: Η πρόβλεψη περιλαµβάνει την χρήση µερικών µεταβλητών ή χαρακτηριστικών µιας βάσης δεδοµένων για την πρόβλεψη άγνωστων ή µελλοντικών τιµών χρήσιµων µεταβλητών. Με άλλα λόγια, οι διαδικασίες πρόβλεψης της εξόρυξης γνώσης (predictive data mining tasks), προσπαθούν να κάνουν εκτιµήσεις βγάζοντας συµπεράσµατα από τα διαθέσιµα δεδοµένα. Η περιγραφή επικεντρώνεται στην ανακάλυψη προτύπων και αναπαριστά τα δεδοµένα µιας πολύπλοκης βάσης δεδοµένων µε όσο το δυνατό πιο

31 κατανοητό και αξιοποιήσιµο τρόπο. Με άλλα λόγια, οι περιγραφικές διαδικασίες της εξόρυξης γνώσης (descriptive data mining tasks) περιγράφουν τις γενικές ιδιότητες των υπαρχόντων διαθέσιµων δεδοµένων. Αν και τα όρια µεταξύ της πρόβλεψης και της περιγραφής δεν είναι απολύτως ξεκάθαρα (µερικά από τα πρότυπα πρόβλεψης µπορούν να είναι περιγραφικά, στο βαθµό που είναι κατανοητά και αντίστροφα), η διάκριση είναι χρήσιµη για την κατανόηση του γενικού στόχου ανακάλυψης. Η σχετική σηµασία της πρόβλεψης και της περιγραφής για συγκεκριµένες εφαρµογές εξόρυξης, µπορεί να ποικίλει αρκετά. Για να επιτύχουµε τους παραπάνω στόχους της εξόρυξης γνώσης µπορούµε να εφαρµόσουµε διάφορες τεχνικές, µερικές από τις οποίες είναι οι εξής: Κατηγοριοποίησης Συσταδοποίησης Κανόνες συσχέτισης Πρότυπα ακολουθιών Παλινδρόµηση έντρα απόφασης Στην συνέχεια αναλύουµε τις ποιο πάνω κατηγορίες τεχνικών ανακάλυψης γνώσης Κατηγοριοποίηση Η κατηγοριοποίηση (classification) αποτελεί µια από τις βασικές εργασίες (tasks) εξόρυξης γνώσης. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειµένου το οποίο µε βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισµένο σύνολο κλάσεων χρησιµοποιώντας µεθόδους µάθησης µε επίβλεψη (supervised learning methods). Οι τεχνικές της κατηγοριοποίησης χρησιµοποιούν κατά κανόνα ένα σύνολο εκπαίδευσης (training set), όπου όλα τα αντικείµενα είναι ήδη συνδεδεµένα µε γνωστές κλάσεις. Ο αλγόριθµος ταξινόµησης «µαθαίνει» από αυτό το σύνολο, χρησιµοποιώντας την µάθηση αυτή για την κατασκευή ενός µοντέλου. Το µοντέλο αυτό στην συνέχεια ταξινοµεί νέα αντικείµενα στις κατάλληλες κλάσεις (Kotsiantis SB., 2007). Άρα µπορούµε να πούµε ότι η κατηγοριοποίηση µαθαίνει σε µία λειτουργία να χαρτογραφεί (ταξινοµεί) ένα στοιχείο δεδοµένων σε µία από τις διάφορες προκαθορισµένες κατηγορίες. Παραδείγµατα µεθόδων ταξινόµησης, οι οποίες χρησιµοποιούνται ως τµήµα των εφαρµογών της ανακάλυψης γνώσης, περιλαµβάνουν την ταξινόµηση των τάσεων στις χρηµατοοικονοµικές αγορές και τον αυτοµατοποιηµένο προσδιορισµό των αντικειµένων ενδιαφέροντος για τις µεγάλες βάσεις δεδοµένων. Η Εικόνα 3 παρουσιάζει έναν απλό διαχωρισµό των στοιχείων δανείου σε δύο περιοχές κατηγοριών. Η τράπεζα πιθανώς να θελήσει να

32 χρησιµοποιήσει τις περιοχές ταξινόµησης για να αποφασίσει, εάν θα δοθεί δάνειο ή όχι, στους µελλοντικούς υποψηφίους. Εικόνα 3 :Ένα απλό γραµµικό όριο κατηγοριοποίησης για το σύνολο των στοιχείων δανείου Η διαµορφωµένη περιοχή δείχνει την κατηγορία, όχι δάνειο (Usama Fayyad, Gregory Piatetsky-Shapiro G, Smyth P., 1996) Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισµένο ορισµό των κατηγοριών και το σύνολο που χρησιµοποιείται για την εκπαίδευση του µοντέλου αποτελείται από προ-κατηγοριοποιηµένα παραδείγµατα. Η βασική εργασία είναι να δηµιουργηθεί ένα µοντέλο το οποίο θα µπορούσε να εφαρµοστεί για να κατηγοριοποιήσει δεδοµένα που δεν έχουν ακόµα κατηγοριοποιηθεί (να ανατεθεί σε κάποια από τις κατηγορίες). Στις περισσότερες περιπτώσεις, υπάρχει ένα περιορισµένος αριθµός κατηγοριών και εµείς θα πρέπει να αναθέσουµε κάθε εγγραφή στην κατάλληλη κατηγορία. Για αυτό το σκοπό χρησιµοποιούνται κάποιες τεχνικές, τις οποίες µπορούµε να κατατάξουµε σε δύο κατηγορίες. Η πρώτη χρησιµοποιεί δέντρα απόφασης (decision trees) και η δεύτερη νευρωνικά δίκτυα (neural networks). Οι ποιο γνωστές µέθοδοι κατηγοριοποίησης είναι τα δέντρα απόφασης (Decision Trees), η µάθηση κατά Bayes, η κατηγοριοποίηση κοντινότερων γειτόνων (Nearest neighbor), τα νευρωνικά δίκτυα (Neaural Networks). Περισσότερα για αυτήν την τεχνική θα δούµε στο επόµενο κεφάλαιο, όπου και θα δούµε αναλυτικά τους περισσότερους αλγόριθµους αυτής της κατηγορίας τόσο από θεωρητικής άποψης όσο και από την πλευρά της εφαρµογής τους στο πεδίο της εκπαίδευσης

33 2.5.2 Συσταδοποίηση Η συσταδοποίηση ή οµαδοποίηση (clustering) είναι ένας κοινός περιγραφικός στόχος, όπου κάποιος επιδιώκει να προσδιορίσει ένα πεπερασµένο σύνολο κατηγοριών ή οµάδων (clusters) για να περιγράψει τα δεδοµένα (Jain AK, Murty NM, Flynn JP., 1999). Σύµφωνα µε τους (Han & Kamber, 2001), διακρίνονται τρεις βασικές κατηγορίες µεθόδων clustering: Μέθοδοι διαχωρισµού (partitioning methods): δηµιουργoύν k οµάδες από ένα δεδοµένο αρχικό σύνολο n αντικειµένων µε κάθε οµάδα να αντιπροσωπεύει ένα cluster και να ικανοποιούνται οι εξής δύο συνθήκες: (α) κάθε cluster περιέχει τουλάχιστον ένα αντικείµενο και (β) κάθε αντικείµενο ανήκει σε ένα µόνο cluster. Ιεραρχικές µέθοδοι (hierarchical methods): διασπούν το αρχικό σύνολο δεδοµένων δηµιουργώντας µια ιεραρχική δοµή από clusters και διακρίνονται σε agglomerative (bottom-up) ή divisive (top-down) ανάλογα µε τον τρόπο που γίνεται η διάσπαση. Μέθοδοι βασισµένες σε µοντέλα (model-based methods): υποθέτουν ότι καθένα από τα clusters περιγράφεται από ένα µαθηµατικό µοντέλο και εντοπίζουν τα αντικείµενα που ανήκουν σε κάθε cluster, ώστε να ικανοποιούν το αντίστοιχο µοντέλο. Πολύ συχνά, οι τεχνικές clustering αυτής Αυτό που διαφοροποιεί τη συσταδοποίηση από την κατηγοριοποίηση είναι ότι η συσταδοποίηση δε βασίζεται σε προκαθορισµένες κατηγορίες. Στην κατηγοριοποίηση, ο πληθυσµός διαιρείται σε κατηγορίες αναθέτοντας κάθε στοιχείο ή εγγραφή σε µια προκαθορισµένη κατηγορία µε βάση ένα µοντέλο που αναπτύσσεται µέσω της εκπαίδευσης του µε παραδείγµατα που έχουν κατηγοριοποιηθεί εκ των προτέρων. Όπως και στην κατηγοριοποίηση έτσι και στη συσταδοποίηση υπάρχουν πολλές εφαρµογές. Για παράδειγµα, ας θεωρήσουµε πως έχουµε διαθέσιµα τα δεδοµένα πελατών µιας εταιρίας πωλήσεων. Χρησιµοποιώντας τεχνικές συσταδοποίησης, µπορούµε να βρούµε τον καταµερισµό των πελατών και της αγοράς, π.χ. µπορούµε να δούµε ποιοι πελάτες αγοράζουν για την οικογένεια τους και ποιοι για τον εαυτό τους ή ποιοι έχουν µεγάλο εισόδηµα και ποιοι όχι. Άλλο παραδείγµατα των εφαρµογών συσταδοποίησης σε ένα πλαίσιο ανακάλυψης γνώσης, περιλαµβάνουν την ανακάλυψη οµοιογενών υποσυνόλων πληθυσµού για τους καταναλωτές που υπάρχουν στις βάσεις δεδοµένων του τοµέα του µάρκετινγκ και τον προσδιορισµό των υποκατηγοριών των φασµάτων µε χρήση υπέρυθρων µετρήσεων του ουρανού. Η Εικόνα 4 παρουσιάζει µία πιθανή οµαδοποίηση του συνόλου των δεδοµένων δανείου, σε τρεις συστάδες. Αξίζει να σηµειωθεί ότι οι συστάδες επικαλύπτονται, επιτρέποντας στα σηµεία των δεδοµένων να ανήκουν σε περισσότερες από µία συστάδες. Οι αρχικές ετικέτες κατηγορίας (που υποδεικνύονται από τα x και τα ο στα προηγούµενα σχήµατα) έχουν αντικατασταθεί από τα +, για να δείξουν ότι η ιδιότητα µέλους κατηγορίας δεν θεωρείται πλέον γνωστή

34 Εικόνα 4 : Μία απλή συσταδοποίηση του συνόλου δεδοµένων δανείου σε τρεις συστάδες Σηµειώστε ότι οι αρχικές ετικέτες αντικαθίστανται από τα Κανόνες Συσχέτισης Η εξαγωγή κανόνων συσχέτισης (association rules) θεωρείται µια από τις σηµαντικότερες διεργασίες εξόρυξης γνώσης. Έχει προσελκύσει µεγάλο ενδιαφέρον γιατί παρέχουν έναν συνοπτικό τρόπο για να εκφραστούν οι ενδεχοµένως χρήσιµες πληροφορίες που γίνονται εύκολα κατανοητές από τους τελικούς χρήστες. Οι κανόνες συσχέτισης ανακαλύπτουν κρυµµένες «συσχετίσεις» µεταξύ των γνωρισµάτων ενός συνόλου των δεδοµένων. Αυτοί οι συσχετισµοί παρουσιάζονται στην ακόλουθη µορφή Α Β όπου το Α και το Β αναφέρονται στα σύνολα γνωρισµάτων που υπάρχουν στα υπό ανάλυση δεδοµένα. Οι κανόνες συσχέτισης χρησιµοποιούνται για τον υπολογισµό της πιθανότητας να συµβεί το Β, µε δεδοµένο το ότι συνέβη το Α. Η επιλογή ενός κανόνα συσχέτισης και η αποτίµησή του ως ενδιαφέροντα εξαρτάται από τις τιµές των µεγεθών support (συχνότητα εµφάνισης του itemset AUB στην αρχική συλλογή) και confidence (την υπο-συνθήκη προβλεψιµότητα του Β µε δεδοµένο το Α). Ο πλέον δηµοφιλής αλγόριθµος για την ανακάλυψη κανόνων συσχέτισης είναι ο Apriori

35 2.5.4 Πρότυπα Ακολουθιών Η εξόρυξη πρότυπων ακολουθιών (sequential patterns) είναι η εξόρυξη των συχνά εµφανιζόµενων προτύπων σχετικών µε το χρόνο ή άλλες ακολουθίες. Οι περισσότερες µελέτες στα πρότυπα ακολουθιών επικεντρώνονται στα συµβολικά πρότυπα. Ο χρήστης εδώ µπορεί να προσδιορίσει τους περιορισµούς στα είδη των προτύπων ακολουθιών που εξάγονται µε την παροχή των προσχεδίων προτύπων (template patterns) υπό µορφή σειριακών επεισοδίων, παράλληλων επεισοδίων ή κανονικών εκφράσεων. Παραδείγµατα προτύπων ακολουθιών έχουµε στην καθηµερινή µας ζωή όπως τα κείµενα, οι µουσικές νότες, τα δεδοµένα του καιρού και οι ακολουθίες του DNA Παλινδρόµηση Η παλινδρόµηση (regression) είναι η παλαιότερη και η πλέον γνωστή στατιστική τεχνική που υλοποιείται εντός των πλαισίων της εξόρυξης γνώσης και εχει εφαρµογή τόσο στην στατιστική όσο και στα νευρωνικά δίκτυα. Κύριος σκοπός εδώ είναι η πρόβλεψη της τιµής µιας µεταβλητής µελετώντας τις τιµές που είχε στο παρελθόν. Συγκεκριµένα η παλινδρόµηση, χρησιµοποιώντας µια βάση αριθµητικών δεδοµένων, αναπτύσσει µια µαθηµατική σχέση που ταιριάζει στα δεδοµένα αυτά. Στην συνέχεια, η µαθηµατική αυτή σχέση χρησιµοποιείται για την πρόβλεψη µελλοντικής συµπεριφοράς, εφαρµόζοντας σε αυτήν νέα αριθµητικά δεδοµένα. Ο βασικός περιορισµός της συγκεκριµένης τεχνικής είναι ότι εφαρµόζεται καλά µόνο σε συνεχή ποσοτικά δεδοµένα (όπως π.χ. βάρος, ταχύτητα ή ηλικία). Αντίθετα, η παλινδρόµηση δεν λειτουργεί καλά µε κατηγορικά δεδοµένα (Kotsiantis SB, Kanellopoulos D, Pintelas P., 2006). Η Εικόνα 5 δείχνει το αποτέλεσµα της απλής γραµµικής παλινδρόµησης, όπου το συνολικό χρέος εγκαθίσταται ως γραµµική λειτουργία του εισοδήµατος. Το παρακάτω γράφηµα είναι φτωχό, επειδή µόνο ένας αδύναµος συσχετισµός υπάρχει µεταξύ των δύο µεταβλητών

36 Εικόνα 5 : Μία απλή γραµµική οπισθοδρόµηση για το σύνολο δεδοµένων δανείου. 2.6 Συµπεράσµατα Σε αυτό το κεφάλαιο αναφέρθηκαν κάποιες βασικές έννοιες οι οποίες αφορούν την εξόρυξη γνώσης από δεδοµένα. Είδαµε τα στάδια της διαδικασίας ανακάλυψης γνώσης σε βάσεις δεδοµένων ενώ αναφέρθηκε ότι η εξόρυξη γνώσης είναι ένα από αυτά τα στάδια. Επίσης είδαµε σε ποια πεδία των επιστήµων µπορούν να εφαρµοστούν οι τεχνικές εξόρυξης γνώσης εκτός από την εκπαίδευση κάτι το οποίο θα δούµε αναλυτικά στο Κεφάλαιο 4. Τέλος κάναµε µια σύντοµη αναφορά στις κατηγορίες των αλγορίθµων οι οποίοι βρίσκουν εφαρµογή στην εξόρυξη γνώσης. Όσο αφορά τους αλγορίθµους κατηγοριοποίησης (Classification) αυτούς θα τους αναλύσουµε στο Κεφάλαιο 3, όπου θα αναφερθεί η θεωρητική τους βάση καθώς και οι εφαρµογές τους στην εκπαίδευση

ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΕ ΟΙΚΟΝΟΜΙΚΑ Ε ΟΜΕΝΑ

ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΕ ΟΙΚΟΝΟΜΙΚΑ Ε ΟΜΕΝΑ ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΕ ΟΙΚΟΝΟΜΙΚΑ Ε ΟΜΕΝΑ Μεταπτυχιακή Εργασία ΓΕΩΡΓΙΟΣ Ν. ΡΑΥΤΟΠΟΥΛΟΣ Επιβλέπων: ΚΑΘΗΓΗΤΗΣ ΠΑΝΑΓΙΩΤΗΣ ΠΙΝΤΕΛΑΣ Ιανουάριος 2012 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ-ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ-ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ-ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Μεταπτυχιακό πρόγραμμα Τμήμα: Τεχνολογίες Διαχείρισης Πληροφορίας και Παγκόσμιου Ιστού Κατηγοριοποίηση

Διαβάστε περισσότερα

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER» Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Διαβάστε περισσότερα

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ

Διαβάστε περισσότερα

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Μεταπτυχιακή Εργασία Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα Ειρήνη Ντούτση Μηχανικός Η/Υ και Πληροφορικής

Διαβάστε περισσότερα

Κατασκευή μοντέλων Data Mining με Γενικευμένα Νευρωνικά Δίκτυα Παλινδρόμησης GRNN σε βάσεις δεδομένων Oracle

Κατασκευή μοντέλων Data Mining με Γενικευμένα Νευρωνικά Δίκτυα Παλινδρόμησης GRNN σε βάσεις δεδομένων Oracle ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τµήµα Πληροφορικής και Επικοινωνιών ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Κατασκευή μοντέλων Data Mining με Γενικευμένα Νευρωνικά Δίκτυα Παλινδρόμησης GRNN

Διαβάστε περισσότερα

«Αφιερωμένο στους γονείς μου Νικογιάννη και Ευγενία, στα αδέρφια μου Διονύση και Μπέσσυ αλλά και σε όσους ήταν μαζί μου αυτά τα χρόνια...

«Αφιερωμένο στους γονείς μου Νικογιάννη και Ευγενία, στα αδέρφια μου Διονύση και Μπέσσυ αλλά και σε όσους ήταν μαζί μου αυτά τα χρόνια... ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΠΛΗΡΟΦΟΡΙΚΗΣ Διδακτορική Διατριβή Εφαρμογή Τεχνικών Data Mining σε Συστήματα Ηλεκτρονικού Εμπορίου Κουρής Ν. Γιάννης ΠΑΤΡΑ

Διαβάστε περισσότερα

ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ

ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ Ανάλυση Οικονομικών Δεδομένων με Χρήση Τεχνικών Εξόρυξης Μεταπτυχιακός φοιτητής: Ζαβουδάκης

Διαβάστε περισσότερα

Τμήμα Εφαρμοσμένης Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών Ειδίκευσης Συστήματα Υπολογιστών ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Τμήμα Εφαρμοσμένης Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών Ειδίκευσης Συστήματα Υπολογιστών ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Τμήμα Εφαρμοσμένης Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών Ειδίκευσης Συστήματα Υπολογιστών ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Δημιουργία μοντέλου γνώσης από βάση δεδομένων βλαβών ΑDSL με την χρήση εργαλείων DATA

Διαβάστε περισσότερα

ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ. Σπουδάστρια Αρχοντοπούλου Ελένη. Εισηγητής Καθηγητής

ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ. Σπουδάστρια Αρχοντοπούλου Ελένη. Εισηγητής Καθηγητής ΤΕΙ ΚΑΒΑΛΑΣ ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ Σπουδάστρια Αρχοντοπούλου Ελένη Εισηγητής Καθηγητής Ρ γ. Γκούμας Στέφανος Καβάλα 2009 Περιεχόμενα 1. Εισαγωγή... 1 1.1.

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Κατασκευή ταξινομητών weighted knn με metric ball trees για εφαρμογές ανακάλυψης γνώσης από βάσεις δεδομένων Oracle

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Κατασκευή ταξινομητών weighted knn με metric ball trees για εφαρμογές ανακάλυψης γνώσης από βάσεις δεδομένων Oracle ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τμήμα Πληροφορικής και Επικοινωνιών ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Κατασκευή ταξινομητών weighted knn με metric ball trees για εφαρμογές ανακάλυψης

Διαβάστε περισσότερα

«Τεχνικές Οπτικοποίησης Δεδομένων από Οικονομικές Ειδήσεις και Χρηματιστηριακές Αναλύσεις»

«Τεχνικές Οπτικοποίησης Δεδομένων από Οικονομικές Ειδήσεις και Χρηματιστηριακές Αναλύσεις» -ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ-ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ «Τεχνικές Οπτικοποίησης Δεδομένων από Οικονομικές Ειδήσεις και Χρηματιστηριακές Αναλύσεις» Διπλωματική

Διαβάστε περισσότερα

ΕΠΕΞΕΡΓΑΣΙΑ ΣΕΙΣΜΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ ΤΕΧΝΙΚΕΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ

ΕΠΕΞΕΡΓΑΣΙΑ ΣΕΙΣΜΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ ΤΕΧΝΙΚΕΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας Θεσσαλονίκη ΕΠΕΞΕΡΓΑΣΙΑ ΣΕΙΣΜΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ ΤΕΧΝΙΚΕΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΙΩΑΝΝΗΣ ΑΠΟΣΤΟΛΟΥ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ Επιβλέπων Καθηγητής: Νικόλαος

Διαβάστε περισσότερα

Μεταπτυχιακή Διπλωματική Εργασία

Μεταπτυχιακή Διπλωματική Εργασία Πανεπιστήμιο Πατρών Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Μεταπτυχιακό Πρόγραμμα: «Επιστήμη και Τεχνολογία Υπολογιστών» Μεταπτυχιακή Διπλωματική Εργασία «Υλοποίηση εφαρμογής εξόρυξης

Διαβάστε περισσότερα

Η ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ (Data Mining) ΣΤΗ ΛΟΓΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΚΤΙΚΗ

Η ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ (Data Mining) ΣΤΗ ΛΟΓΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΚΤΙΚΗ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΙΟΙΚΗΣΗ» Η ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ (Data Mining) ΣΤΗ ΛΟΓΙΣΤΙΚΗ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗ ΣΥΣΤΗΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ ΑΠΟΦΑΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗ ΣΥΣΤΗΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ ΑΠΟΦΑΣΕΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗ ΣΥΣΤΗΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ ΑΠΟΦΑΣΕΩΝ Επιβλέπων: Βίρβου Μαρία ιπλωµατική εργασία E-learning µε χρήση

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Πρόγραµµα Μεταπτυχιακών Σπουδών «Προηγµένα Συστήµατα Πληροφορικής» Τίτλος ιατριβής Ονοµατεπώνυµο Φοιτητή Αριθµός Μητρώου Κατεύθυνση Επιβλέπων «Εξόρυξη Γνώσης στην

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΣΥΓΚΡΙΣΗ ΜΕΘΟΔΩΝ ΠΡΟΒΛΕΨΗΣ ΨΗΦΟΥ ΣΤΙΣ ΗΛΕΚΤΡΟΝΙΚΕΣ ΠΛΑΤΦΟΡΜΕΣ ΣΥΜΒΟΥΛΩΝ ΨΗΦΟΥ" Αρίστη Μακρή

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΣΥΓΚΡΙΣΗ ΜΕΘΟΔΩΝ ΠΡΟΒΛΕΨΗΣ ΨΗΦΟΥ ΣΤΙΣ ΗΛΕΚΤΡΟΝΙΚΕΣ ΠΛΑΤΦΟΡΜΕΣ ΣΥΜΒΟΥΛΩΝ ΨΗΦΟΥ Αρίστη Μακρή ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΕΠΙΚΟΙΝΩΝΙΑΣ ΚΑΙ ΣΠΟΥΔΩΝ ΔΙΑΔΙΚΤΥΟΥ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΣΥΓΚΡΙΣΗ ΜΕΘΟΔΩΝ ΠΡΟΒΛΕΨΗΣ ΨΗΦΟΥ ΣΤΙΣ ΗΛΕΚΤΡΟΝΙΚΕΣ ΠΛΑΤΦΟΡΜΕΣ ΣΥΜΒΟΥΛΩΝ ΨΗΦΟΥ" Αρίστη Μακρή Επιβλέπων καθηγητής:

Διαβάστε περισσότερα

Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα

Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα Διδακτορική Διατριβή Γεώργιος Τζανής Πτυχιούχος Τμήματος Πληροφορικής Α.Π.Θ. ΘΕΣΣΑΛΟΝΙΚΗ 2011 Γεώργιος

Διαβάστε περισσότερα

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Εφαρμογή τεχνικών Data Mining σε δεδομένα κυκλοφορίας οδικού δικτύου

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Εφαρμογή τεχνικών Data Mining σε δεδομένα κυκλοφορίας οδικού δικτύου ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Εφαρμογή τεχνικών Data Mining σε δεδομένα κυκλοφορίας οδικού δικτύου ΦΟΙΤΗΤΗΣ : ΓΑΚΟΠΟΥΛΟΣ ΕΥΘΥΜΙΟΣ Α.Μ.: 1010 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΕΥΑΓΓΕΛΙΔΗΣ ΓΕΩΡΓΙΟΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

Διαβάστε περισσότερα

Μελέτη Του Τρόπου Διαβίωσης Ενός Φοιτητή Του Πανεπιστημίου Αιγαίου Και Συσχέτιση Με Την Αθλητικο-Ιατρική Του Κατάσταση Με Χρήση Μηχανικής Μάθησης

Μελέτη Του Τρόπου Διαβίωσης Ενός Φοιτητή Του Πανεπιστημίου Αιγαίου Και Συσχέτιση Με Την Αθλητικο-Ιατρική Του Κατάσταση Με Χρήση Μηχανικής Μάθησης Μελέτη Του Τρόπου Διαβίωσης Ενός Φοιτητή Του Πανεπιστημίου Αιγαίου Και Συσχέτιση Με Την Αθλητικο-Ιατρική Του Κατάσταση Με Χρήση Μηχανικής Μάθησης Η Διπλωματική Εργασία παρουσιάστηκε ενώπιον του Διδακτικού

Διαβάστε περισσότερα

Διπλωματική Εργασία ΚΩΝΣΤΑΝΤΙΝΟΣ ΜΗΤΣΑΡΑΚΗΣ. Επιβλέπων Καθηγητής: Νικόλαος Σαμαράς

Διπλωματική Εργασία ΚΩΝΣΤΑΝΤΙΝΟΣ ΜΗΤΣΑΡΑΚΗΣ. Επιβλέπων Καθηγητής: Νικόλαος Σαμαράς ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΙΔΙΚΕΥΣΗΣ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΤΜΗΜΑ ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική Εργασία Ανάπτυξη διαδικτυακού εργαλείου

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΜΕ ΕΞΑΓΩΓΗ ΚΑΝΟΝΩΝ ΣΕ ΚΑΡΔΙΑΓΓΕΙΑΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ

ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΜΕ ΕΞΑΓΩΓΗ ΚΑΝΟΝΩΝ ΣΕ ΚΑΡΔΙΑΓΓΕΙΑΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ 1 ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΜΕ ΕΞΑΓΩΓΗ ΚΑΝΟΝΩΝ ΣΕ ΚΑΡΔΙΑΓΓΕΙΑΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Μηνάς Καραολής Πανεπιστήμιο Κύπρου, 2010 Εκτιμήσεις του παγκόσμιου οργανισμού υγείας δείχνουν ότι οι καρδιακές παθήσεις είναι και

Διαβάστε περισσότερα

Πανεπιστήμιο Αιγαίου Σχολή Θετικών Επιστημών Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων

Πανεπιστήμιο Αιγαίου Σχολή Θετικών Επιστημών Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Πανεπιστήμιο Αιγαίου Σχολή Θετικών Επιστημών Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Θέμα: Ανάλυση Χώρο-χρονικών Περιβαλλοντολογικών Δεδομένων Ακαδημαϊκό έτος: 2010-2011 Σπουδαστής

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΚΑΙ ΑΕΡΟΝΑΥΠΗΓΩΝ ΜΗΧΑΝΙΚΩΝ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ «ΙΑΧΕΙΡΙΣΗ ΣΥΝ ΥΑΣΜΕΝΩΝ ΜΕΤΑΦΟΡΙΚΩΝ ΣΥΝΑΛΛΑΓΩΝ ΜΕΣΩ ΤΗΣ ΟΛΟΚΛΗΡΩΣΗΣ ΥΒΡΙ ΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΣΥΣΤΑΣΕΩΝ

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Εισαγωγή Η µάθηση σε

Διαβάστε περισσότερα

ΣΥΣΤΗΜΑΤΑ ΥΠΟΣΤΗΡΙΞΗΣ ΑΠΟΦΑΣΕΩΝ

ΣΥΣΤΗΜΑΤΑ ΥΠΟΣΤΗΡΙΞΗΣ ΑΠΟΦΑΣΕΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΚΡΗΤΗΣ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΣΥΣΤΗΜΑΤΑ ΥΠΟΣΤΗΡΙΞΗΣ ΑΠΟΦΑΣΕΩΝ ΕΙΣΗΓΗΤΡΙΑ: ΕΛΕΝΗ ΓΙΑΝΝΑΚΟΠΟΥΛΟΥ ΣΠΟΥ ΑΣΤΡΙΑ: ΠΑΓΩΝΑ ΚΟΥΡΟΥΘΙΑΝΑΚΗ Α.Μ.:

Διαβάστε περισσότερα

ΑΥΤΟΜΑΤΗ ΑΝΑΓΝΩΡΙΣΗ ΕΙ ΩΝ ΤΗΣ ΜΟΥΣΙΚΗΣ ME ΧΡΗΣΗ ΜΕΘΟ ΩΝ ΜΑΘΗΣΗΣ

ΑΥΤΟΜΑΤΗ ΑΝΑΓΝΩΡΙΣΗ ΕΙ ΩΝ ΤΗΣ ΜΟΥΣΙΚΗΣ ME ΧΡΗΣΗ ΜΕΘΟ ΩΝ ΜΑΘΗΣΗΣ ΑΥΤΟΜΑΤΗ ΑΝΑΓΝΩΡΙΣΗ ΤΩΝ ΕΙ ΩΝ ΤΗΣ ΜΟΥΣΙΚΗΣ ME ΧΡΗΣΗ ΜΕΘΟ ΩΝ ΜΑΘΗΣΗΣ ΜΑΚΡΗΣ Ε. ΑΘΑΝΑΣΙΟΣ Α.Μ. 86 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ Π. ΠΙΝΤΕΛΑΣ ΠΑΤΡΑ ΕΤΟΣ 2004-2005 ΠΡΟΛΟΓΟΣ Η εργασία που παρουσιάζεται αποτελεί µια προσπάθεια

Διαβάστε περισσότερα

Εθνικό Μετσόβιο Πολυτεχνείο. Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ» με χρήση τεχνικών μη-επιβλεπόμενης μάθησης

Εθνικό Μετσόβιο Πολυτεχνείο. Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ» με χρήση τεχνικών μη-επιβλεπόμενης μάθησης Εθνικό Μετσόβιο Πολυτεχνείο Σχολη Ηλεκτρολογων Μηχανικων και Μηχανικων Υπολογιστων Τομεας Τεχνολογιας Πληροφορικης και Υπολογιστων Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ»

Διαβάστε περισσότερα

Δηµιουργία Ιστότοπου αγγελιών για τους φοιτητές. Joomla!

Δηµιουργία Ιστότοπου αγγελιών για τους φοιτητές. Joomla! ΑΤΕΙ ΘΕΣΣΑΛΙΑΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τµήµα Μηχανικών Πληροφορικής ΤΕ Δηµιουργία Ιστότοπου αγγελιών για τους φοιτητές του ΤΕΙ µε τη χρήση του Joomla! ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Τσιώτα Ιωάννα-Ζωή (ΑΜ: Τ-1620)

Διαβάστε περισσότερα