6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα Στέφανος Ουγιάρογλου, M.Sc. Εκπαιδευτικός Πληροφορικής* Υπ. Διδάκτορας, Τμ. Εφ. Πληροφορικής, Πανεπιστήμιο Μακεδονίας stoug@{uom,sch}.gr *Σε εκπαιδευτική άδεια από το ΓΕΛ Θέρμου Αιτ/νίας, με την υποστήριξη υποτροφίας του Ι.Κ.Υ.
Περίγραμμα παρουσίασης - Εισαγωγή Βασικές έννοιες - Στόχος της εργασίας - Η διαδικτυακή εφαρμογή ESOG - Κανόνες συσχέτισης Ο αλγόριθμος Apriori - Το λογισμικό εξόρυξης πληροφορίας WEKA - Ανακάλυψη κανόνων συσχέτισης από τα εκπαιδευτικά δεδομένα του ESOG - Ερωτήσεις
Εισαγωγή Βασικές έννοιες (1/4) Data Mining (Εξόρυξη δεδομένων) Στόχος Η ανακάλυψη ενδιαφερόντων ή πρότυπων σχημάτων από ένα σύνολο δεδομένων Περιοχές - Βάσεις Δεδομένων - Τ.Ν. / Μηχανική Μάθηση
Εισαγωγή Βασικές έννοιες (2/4) Αλγόριθμοι Εξόρυξης Δεδομένων - Συσταδοποίηση ή Ομαδοποίηση (Clustering) - Κατηγοριοποίηση (Classification) - Κανόνες Συσχέτισης (Αssociation Rules) - Πρότυπα Ακολουθιών (Sequential Patterns)
Εισαγωγή Βασικές έννοιες (3/4) Διαδικασία KDD (Knowledge Discovery in Databases)
Εισαγωγή Βασικές έννοιες (4/4) Educational Data Mining - Ανακάλυψη κρυμμένης πληροφορίας από Βάσεις Δεδομένων, αρχεία, log files κ.τ.λ που περιέχουν εκπαιδευτικά δεδομένα (π.χ. Εκπαιδευτικά λογισμικά, πλατφόρμες τηλ εκπαίδευσης κ.τ.λ.) - International Working Group on Educational Data Mining http://educationaldatamining.org/
Περίγραμμα παρουσίασης - Εισαγωγή Βασικές έννοιες - Στόχος της εργασίας - Η διαδικτυακή εφαρμογή ESOG - Κανόνες συσχέτισης Ο αλγόριθμος Apriori - Το λογισμικό εξόρυξης πληροφορίας WEKA - Ανακάλυψη κανόνων συσχέτισης από τα εκπαιδευτικά δεδομένα του ESOG - Συμπεράσματα - Ερωτήσεις
Στόχος της εργασίας Στόχος της εργασίας είναι η εκτέλεση των 4 σταδίων της διαδικασίας KDD με σκοπό την ανακάλυψη κρυμμένων συσχέτισεων από τα εκπαιδευτικά δεδομένα της ΒΔ της διαδικτυακής εφαρμογής επαγγελματικού προσανατολισμού ESOG
Περίγραμμα παρουσίασης - Εισαγωγή Βασικές έννοιες - Στόχος της εργασίας - Η διαδικτυακή εφαρμογή ESOG - Κανόνες συσχέτισης Ο αλγόριθμος Apriori - Το λογισμικό εξόρυξης πληροφορίας WEKA - Ανακάλυψη κανόνων συσχέτισης από τα εκπαιδευτικά δεδομένα του ESOG - Συμπεράσματα - Ερωτήσεις
Η διαδικτυακή εφαρμογή ESOG (1/6) - Είναι μια web based εφαρμογή βοήθειας των μαθητών στον επαγγελματικό προσανατολισμό τους - Συμβάλλει στην προσπάθεια των μαθητών να προσδιορίσουν τα τμήματα της Α.Ε. όπου θα συναντήσουν Π.Σ. με μαθήματα που θα σχετίζονται με τα ενδιαφέροντά τους - Βασίζεται στην μέθοδο στήριξης αποφάσεων πολλαπλών κριτηρίων Electra
Η διαδικτυακή εφαρμογή ESOG (5/6) - http://users.sch.gr/stoug/esog - Σ. Ουγιάρογλου, Ι. Μπότσαρης Ι., Ο. Παπαδοπούλου (2008). Διαδικτυακή εφαρμογή βοήθειας των μαθητών στον επαγγελματικό προσανατολισμό τους, με τη συμβολή της μεθόδου στήριξης αποφάσεων Electra. Πρακτικά του 1ου Πανελλήνιου Εκπαιδευτικού Συνεδρίου Ημαθίας, σσ. 282-290, Τόμος Β, Νάουσα Ημαθίας
Η διαδικτυακή εφαρμογή ESOG (6/6) - Η ΒΔ της εφαρμογής ESOG Όνομα Πίνακα Πεδία Εγγραφές ΜΑΘΗΜΑ ID,Λεκτικό 24 ΟΜΑΔΑ_ΤΜΗ ΜΑΤΩN_ΑΕ ID, Λεκτικό 12 ΜΑΘΗΤΗΣ ID, Φύλο, Τάξη, ID_ΣΧΟΛΕΙΟY* 511 ΣΧΟΛΕΙΟ ΣΧΕΤΙΖΕΤΑΙ_1 ID, E-Mail, Όνομα_Διαχ, Τηλέφωνο, Ονομασία, Κωδικός, Όνομα Χρήστη ID_ΜΑΘΗΜΑΤΟΣ, ID_ΟΜΑΔΑ ΤΜΗΜΑΤΩΝ ΑΕ, Συντελεστής Σχέσης ΑΡΕΣΕΙ ID_ΜΑΘΗΤΗ, ID_ΜΑΘΗΜΑΤΟΣ, Βαθμός αρεσκείας 10665 ΣΧΕΤΙΖΕΤΑΙ_2 ID_ΜΑΘΗΤΗ, ID_ΟΜΑΔΑ ΤΜΗΜΑΤΩΝ ΑΕ, Βαθμός Σχέσης 4839 14 288
Περίγραμμα παρουσίασης - Εισαγωγή Βασικές έννοιες - Στόχος της εργασίας - Η διαδικτυακή εφαρμογή ESOG - Κανόνες συσχέτισης Ο αλγόριθμος Apriori - Το λογισμικό εξόρυξης πληροφορίας WEKA - Ανακάλυψη κανόνων συσχέτισης από τα εκπαιδευτικά δεδομένα του ESOG - Συμπεράσματα - Ερωτήσεις
Κανόνες συσχέτισης - Apriori (1/2) - Οι Κ.Σ. εμφανίστηκαν για τις ανάγκες ανάλυσης του καλαθιού αγοράς - Οι ΚΣ είναι το αποτέλεσμα της ανάλυσης χιλιάδων καλαθιών αγοράς των πελατών και αναπαριστούν συσχετίσεις ανάμεσα σε χαρακτηριστικά μιας ΒΔ - π.χ.: Γάλα => Ψωμί (70%) - Apriori: Ο πιο σημαντικός αλγόριθμος ανακάλυψης ΚΣ
Κανόνες συσχέτισης Apriori (2/2) - Πρόβλημα: Εκθετική αύξηση των πιθανών συναλλαγών (συνδυασμών) 5 Προϊόντα => 31 πιθανοί συνδυασμοί 30 Προϊόντα => 1.073.741.823 συνδυασμοί - Στόχος των αλγορίθμων ΚΣ είναι ο περιορισμός του αριθμού των πιθανών συνδυασμών (Χρήση των μέτρων της Υποστήριξης και της Εμπιστοσύνης)
Περίγραμμα παρουσίασης - Εισαγωγή Βασικές έννοιες - Στόχος της εργασίας - Η διαδικτυακή εφαρμογή ESOG - Κανόνες συσχέτισης Ο αλγόριθμος Apriori - Το λογισμικό εξόρυξης πληροφορίας WEKA - Ανακάλυψη κανόνων συσχέτισης από τα εκπαιδευτικά δεδομένα του ESOG - Συμπεράσματα - Ερωτήσεις
Το λογισμικό WEKA - WEKA (Waikato Environment for Knowledge Analysis) Διαθέτει υλοποιήσεις αλγορίθμων data mining Free & Open source (GNU) Γραμμένο σε Java (Portability) Φιλικό GUI προς το χρήστη Προϋποθέτει την ύπαρξη των δεδομένων σε ένα αρχείο όπου τα γνωρίσματα κάθε εγγραφής είναι χωρισμένα με κόμμα (CSV ή arff) http://www.cs.waikato.ac.nz/ml/weka/
Περίγραμμα παρουσίασης - Εισαγωγή Βασικές έννοιες - Στόχος της εργασίας - Η διαδικτυακή εφαρμογή ESOG - Κανόνες συσχέτισης Ο αλγόριθμος Apriori - Το λογισμικό εξόρυξης πληροφορίας WEKA - Ανακάλυψη κανόνων συσχέτισης από τα εκπαιδευτικά δεδομένα του ESOG - Συμπεράσματα - Ερωτήσεις
Ανακάλυψη Κ.Σ. από τα δεδομένα του ESOG (1/7) - Διαδικασία KDD Στάδιο Α (Ποιοι πίνακες της ΒΔ μας ενδιαφέρουν;) Όνομα Πίνακα Πεδία Εγγραφές ΜΑΘΗΜΑ ID,Λεκτικό 24 ΜΑΘΗΤΗΣ ID, Φύλο, Τάξη, ID_ΣΧΟΛΕΙΟY* 511 ΣΧΟΛΕΙΟ ID, Ονομασία 14 ΑΡΕΣΕΙ ID_ΜΑΘΗΤΗ, ID_ΜΑΘΗΜΑΤΟΣ, Βαθμός αρεσκείας 10665
Ανακάλυψη Κ.Σ. από τα δεδομένα του ESOG (2/7) Στάδιο Β (Προεπεξεργασία Δημιουργία του coma separated αρχείου για το WEKA) Χρονοβόρο Δύσκολο στάδιο (80% χρόνου) Χειρισμός κενών τιμών SQL ερωτήματα για την ανάκτηση των δεδομένων Αποθήκευση αποτελεσμάτων σε αρχεία κειμένου Ανάπτυξη μιας μικρο-εφαρμογής σε C για την συνένωση των αρχείων κειμένου
Ανακάλυψη Κ.Σ. από τα δεδομένα του ESOG (3/7) Συνενωμένο αρχείο αρχείο εισόδου WEKA: 512 εγγραφές της μορφής: <Γ>, <Κορίτσι>, <ΓΕΛ Θέρμου>, <πολύ>, <καθόλου>, <καθόλου>, <?>, <πάρα πολύ>, <πολύ>, <καθόλου>, <καθόλου>, <πολύ>, <καθόλου>, <πολύ>, <καθόλου>, <καθόλου>, <πολύ>, <πάρα πολύ>, <μέτρια>, <?>, μέτρια>, <μέτρια>, <πάρα πολύ>, <μέτρια>, <καθόλου>, <καθόλου>, <καθόλου>
Ανακάλυψη Κ.Σ. από τα δεδομένα του ESOG (4/7) - Στάδιο Γ (Εφαρμογή του αλγορίθμου Apriori) Εκτέλεση του Apriori μέσω του WEKA - Εύκολο στάδιο Εμπιστοσύνη Ε=70% Αποτέλεσμα: Παραγωγή 127 κανόνων συσχέτισης της μορφής: Μαθηματικά = Πάρα πολύ, Λατινικά = Λίγο τότε Πληροφορική = Πάρα πολύ
Ανακάλυψη Κ.Σ. από τα δεδομένα του ESOG (5/7) - Στάδιο Δ (Αξιολόγηση) Πολλοί ΚΣ όπου συμμετέχουν τα στοιχεία: Γεωπονία = Καθόλου και Λατινικά = Καθόλου π.χ. Κοινωνιολογία=Καθόλου, Λατινικά=Καθόλου, 76 τότε Γεωπονία=Καθόλου, 59 (78%) Ανακάλυψη ΚΣ που επιβεβαιώνουν την τάση των μαθητών να διαχωρίζονται σε Θετικών (και οικονομικών) και Θεωρητικών επιστημών π.χ. Φυσική=Καθόλου, Στατιστική=Καθόλου, 84 τότε Μαθηματικά=Καθόλου, 66 (79%) Περιττοί κανόνες π.χ. Σχολείο = ΓΕΛ Αγίου Μύρωνα 70 τότε Τάξη = Α' 52 (74%)
Ανακάλυψη Κ.Σ. από τα δεδομένα του ESOG (6/7) Σε κανέναν κανόνα η Πληροφορική ή το ΑΕΠΠ μαζί με το μάθημα της Τεχνολογίας Ανακάλυψη του κανόνα: Προγραμματισμός = Πάρα πολύ 85 τότε Πληροφορική = Πάρα πολύ 62 (73%) Τα ενδιαφέροντα των αγοριών συμμετέχουν μόνο σε 4 κανόνες ενώ των κοριτσιών σε 25. Τα ενδιαφέροντα των κοριτσιών μοιάζουν μεταξύ τους Κορίτσια: Ενδιαφέρονται για τα θεωρητικά μαθήματα Αντιπαθούν τα Θετικά Αγόρια: Αντιπαθούν τα θεωρητικά Ενδιαφέρονται για την Τεχνολογία
Ανακάλυψη Κ.Σ. από τα δεδομένα του ESOG (7/7) Μαθηματικά = Καθόλου, Ψυχολογία = Πάρα πολύ 64 τότε Φύλλο = Κορίτσι 52 (81%) Φυσική = Καθόλου, Γεωγραφία - Αστρονομία = Καθόλου, 66 τότε Φύλλο = Κορίτσι 53 (80%) Φυσική = Καθόλου, 139 τότε Φύλλο = Κορίτσι 111 (80%) Τάξη = Γ' Μαθηματικά = Καθόλου, 71 τότε Φύλλο = Κορίτσι 56 (79%) Φύλλο = Κορίτσι Οικονομία = Καθόλου, 83 τότε Στατιστική = Καθόλου, 65 (78%) Γεωπονία = Καθόλου, Ψυχολογία = Πάρα πολύ 73 τότε Φύλλο = Κορίτσι 57 (78%) Φυσική = Καθόλου, Μαθηματικά = Καθόλου, 88 τότε Φύλλο = Κορίτσι 68 (77%) Φυσική = Καθόλου, Τεχνολογία = Καθόλου, 66 τότε Φύλλο = Κορίτσι 51 (77%) Ψυχολογία = Πάρα πολύ 150 τότε Φύλλο = Κορίτσι 112 (75%) Κοινωνιολογία = Πολύ, 73 τότε Φύλλο = Κορίτσι 53 (73%) Φύλλο = Αγόρι Αρχαία Ελληνικά = Καθόλου, 96 τότε Λατινικά = Καθόλου, 73 (76%) Οικονομία = Καθόλου, Δίκαιο = Καθόλου 64 τότε ΑΟΔΕ = Καθόλου, 55 (86%)
Περίγραμμα παρουσίασης - Εισαγωγή Βασικές έννοιες - Στόχος της εργασίας - Η διαδικτυακή εφαρμογή ESOG - Κανόνες συσχέτισης Ο αλγόριθμος Apriori - Το λογισμικό εξόρυξης πληροφορίας WEKA - Ανακάλυψη κανόνων συσχέτισης από τα εκπαιδευτικά δεδομένα του ESOG - Συμπεράσματα - Ερωτήσεις
Συμπεράσματα - Εφαρμογή αλγορίθμων data mining σε ΒΔ εκπαιδευτικού περιεχομένου - Μελλοντικές κατευθύνσεις: Εφαρμογή αλγορίθμων κατηγοριοποίησης ή ομαδοποίησης σε εκπαιδευτικά δεδομένα - Η χρήση εκπαιδευτικών λογισμικών, λογισμικών διαχείρισης της εκπαίδευσης, πλατφορμών σύγχρονης / ασύγχρονης τηλεκπαίδευσης εμπλουτίζει τα log files και τις ΒΔ. Τα δεδομένα αυτά μπορούν να να διερευνηθούν από αλγόριθμους εξόρυξης πληροφορίας, ώστε να ανακαλυφθεί η «γνώση» που κρύβουν
Ευχαριστώ για την προσοχή σας! Ερωτήσεις;