Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα Στέφανος Ουγιάρογλου M.Sc., Εκπαιδευτικός πληροφορικής Υπ. Διδάκτορας, Τμ. Εφαρμοσμένης Πληροφορικής, Πανεπιστήμιο Μακεδονίας stoug@{sch, uom}.gr Ο συγγραφέας βρίσκεται σε εκπαιδευτική άδεια από το ΓΕΛ Θέρμου Αιτ/νίας με την υποστήριξη υποτροφίας του Ι.Κ.Υ. ΠΕΡΙΛΗΨΗ Τα τελευταία χρόνια πολλοί ερευνητές εκπαιδευτικής τεχνολογίας επικεντρώνουν το ενδιαφέρον τους στην εφαρμογή αλγορίθμων εξόρυξης δεδομένων (data mining) σε εκπαιδευτικά δεδομένα (educational data), τα οποία είναι αποθηκευμένα σε βάσεις δεδομένων εκπαιδευτικών λογισμικών και συστημάτων μάθησης. Αυτές οι ερευνητικές προσπάθειες έχουν στόχο την εξαγωγή χρήσιμων συμπερασμάτων που μπορούν να βοηθήσουν τους εκπαιδευτικούς στην αποτελεσματική διαχείριση εκπαιδευτικών μονάδων καθώς και στον κατάλληλο σχεδιασμό του εκπαιδευτικού έργου. Μια βασική τεχνική εξόρυξης δεδομένων αφορά την ανακάλυψη κανόνων συσχέτισης (association rules) από τα δεδομένα, δηλαδή, κρυμμένων συσχετίσεων που υπάρχουν μεταξύ των γνωρισμάτων ενός συνόλου δεδομένων. Στόχος της εργασίας αυτής είναι η εφαρμογή του αλγορίθμου Apriori, ο οποίος είναι ο πιο γνωστός αλγόριθμος ανακάλυψης τέτοιου είδους συσχετίσεων, στα εκπαιδευτικά δεδομένα της βάσης δεδομένων της διαδικτυακής εφαρμογής ESOG. ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Εξόρυξη δεδομένων, κανόνες συσχέτισης, Αλγόριθμος apriori ΕΙΣΑΓΩΓΗ Οι τεχνικές εξόρυξης δεδομένων (data mining) έχουν ως στόχο την ανακάλυψη ενδιαφερόντων ή προτύπων σχημάτων μέσα σε σύνολα δεδομένων. Τα αποτελέσματα της διαδικασίας εξόρυξης λαμβάνονται υπόψη από ειδικούς σε σημαντικές μελλοντικές αποφάσεις. Διάφορες περιοχές της πληροφορικής συνδέονται με τις τεχνικές και τους αλγορίθμους εξόρυξης δεδομένων. Οι σημαντικότερες είναι οι Βάσεις Δεδομένων και η Τεχνητή Νοημοσύνη. Οι τεχνικές εξόρυξης δεδομένων εφαρμόζονται ώστε να απαντήσουν σύνθετα ερωτήματα, που δε μπορούν να απαντηθούν γράφοντας εντολές SQL. Η εφαρμογή τέτοιων τεχνικών, συνήθως, δεν είναι μια απλή διαδικασία, αλλά απαιτεί τη διαδοχική εκτέλεση τεσσάρων σταδίων, γνωστή ως διαδικασία KDD (Knowledge Discovery in Databases). Το πρώτο στάδιο αφορά την επιλογή των δεδομένων και των γνωρισμάτων (attributes). Το επόμενο στάδιο, το οποίο καλείται καθαρισμός των δεδομένων, αφορά την προετοιμασία των δεδομένων ώστε οι τεχνικές εξόρυξης να μπορούν να εφαρμοστούν. Το στάδιο αυτό περιλαμβάνει την απομάκρυνση του θορύβου, τον χειρισμό των κενών τιμών, πιθανούς μετασχηματισμούς κ.α. Το τρίτο στάδιο της διαδικασίας KDD είναι η εφαρμογή των αλγορίθμων εξόρυξης ενώ το τελευταίο στάδιο είναι αυτό της ερμηνείας και αξιολόγησης των αποτελεσμάτων. Οι αλγόριθμοι εξόρυξης δεδομένων, ανάλογα με το είδος της πληροφορίας που καλούνται να ανακαλύψουν, ομαδοποιούνται σε τέσσερις βασικές κατηγορίες. Οι κατηγορίες αυτές είναι: Συσταδοποίηση (clustering): οργάνωση των δεδομένων σε ομάδες και αναζήτηση και ανάλυση ακραίων τιμών (outliers analysis), Κατηγοριοποίηση (classification): εξέταση των τιμών των γνωρισμάτων νέων αντικειμένων και ένταξη τους σε ένα προκαθορισμένο σύνολο κατηγοριών, Κανόνες συσχέτισης (association rules): Ανακάλυψη κρυμμένων συσχετίσεων που υπάρχουν μεταξύ των γνωρισμάτων του συνόλου δεδομένων και Πρότυπα ακολουθιών (Sequential Patterns): Ανακάλυψη των πιο συχνά εμφανιζόμενων ακολουθιών (χρονικές σειρές, αλυσίδες DNA κ.α.). Ο αναγνώστης μπορεί να αναζητήσει περισσότερες πληροφορίες σχετικά με τις τεχνικές και τους αλγορίθμους εξόρυξης δεδομένων στις αναφορές (Dunham, 2003), (Νανόπουλος & Μανωλόπουλος, 2008) καθώς και σε πληθώρα ακόμη βιβλία και ηλεκτρονικές πηγές. Η εργασία αυτή επικεντρώνεται στην εφαρμογή αλγορίθμων εξαγωγής κανόνων συσχέτισης από εκπαιδευτικά δεδομένα. Όπως έχει ήδη αναφερθεί, στόχος αυτών των αλγορίθμων είναι η ανακάλυψη σχέσεων που υπάρχουν μεταξύ γνωρισμάτων σε μεγάλα σύνολα δεδομένων. Για να γίνει καλύτερα Κ. Γλέζου & Ν. Τζιμόπουλος (Επιμ.), Πρακτικά Εργασιών 6 ου Πανελλήνιου Συνεδρίου των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη», σ. 1-5 Σύρος, 6-8 Μαΐου 2011
2 6 ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ αντιληπτό τι εννοούμε με τον όρο συσχετίσεις μεταξύ γνωρισμάτων θα γίνει χρήση ενός παραδείγματος (R. Agrawal et al., 1993): Έστω ότι ενδιαφερόμαστε για την εύρεση συσχετίσεων προϊόντων σε supermarket. Αυτό προϋποθέτει την ύπαρξη μιας βάσης δεδομένων συναλλαγών πελατών. Οι αλγόριθμοι ανακάλυψης κανόνων συσχέτισης βρίσκουν κανόνες της μορφής: {ντομάτες, ζαμπόν} {ψωμί του τοστ} Αυτό σημαίνει ότι οι πελάτες που αγοράζουν τα προϊόντα «ντομάτες» και «ζαμπόν» είναι πολύ πιθανό να αγοράσουν και το προϊόν «ψωμί του τοστ». Ο στόχος της εργασίας είναι η εξαγωγή κανόνων συσχέτισης που είναι πολύ πιθανό να υπάρχουν στα δεδομένα της διαδικτυακής εφαρμογής ESOG (Ουγιάρογλου κ.α., 2007). Τα δεδομένα αυτά συλλέχθηκαν από τη χρήση της συγκεκριμένης εφαρμογής από μαθητές λυκείων από διάφορα μέρη της Ελλάδας. Συγκεκριμένα, κατά την διάρκεια εκπόνησης της εργασίας αυτής, εκτελείται η διαδικασία KDD στα εκπαιδευτικά δεδομένα του ESOG. Στο τρίτο στάδιο εφαρμόζεται ο αλγόριθμος Apriori που είναι ο πιο δημοφιλής αλγόριθμος ανακάλυψης συσχετίσεων σε δεδομένα (Rakesh Agrawal & Ramakrishnan Srikant, 1994). Ο εν λόγω αλγόριθμος εκτελείται χρησιμοποιώντας το γνωστό ελεύθερου λογισμικό εξόρυξης πληροφορίας WEKA (Ian H. Witten & Eibe Frank, 2005). Να σημειωθεί ότι οι προσπάθειες εξόρυξης πληροφορίας από εκπαιδευτικά δεδομένα ολοένα αυξάνονται. Αξιοσημείωτη είναι η σύσταση του International Working Group on Educational Data Mining (http://educationaldatamining.org/). Η ομάδα αυτή, από το 2008, έχει διοργανώσει τρία συνέδρια, ενώ έχει προγραμματιστεί το τέταρτο το οποίο θα γίνει τον Ιούλιο του 2011 στο Eindhoven. Το υπόλοιπο της εργασίας είναι δομημένο ως εξής: Στην επόμενη παράγραφο γίνεται μια συνοπτική περιγραφή της εφαρμογής ESOG καθώς και των δεδομένων που διαχειρίζεται. Στην συνέχεια, η εργασία εμβαθύνει σε θέματα της εξόρυξης κανόνων συσχέτισης και παρουσιάζεται αναλυτικά ο αλγόριθμος Apriori. Η επόμενη παράγραφος παρουσιάζει συνοπτικά τα χαρακτηριστικά του WEKA. Στη συνέχεια παρουσιάζεται η διαδικασία KDD για την εξαγωγή κανόνων συσχέτισης από τα δεδομένα του ESOG χρησιμοποιώντας τον αλγόριθμο Apriori μέσω του WEKA. Η εργασία ολοκληρώνεται συνοψίζοντας την όλη προσπάθεια και ορίζοντας κάποιες μελλοντικές κατευθύνσεις. Η ΔΙΑΔΙΚΤΥΑΚΗ ΕΦΑΡΜΟΓΗ ESOG Το ESOG (Ουγιάρογλου κ.α., 2007) είναι μια web based εφαρμογή που προσπαθεί να βοηθήσει τους μαθητές στο σχολικό επαγγελματικό προσανατολισμό τους. Συγκεκριμένα, η εφαρμογή συμβάλλει στην προσπάθεια των μαθητών να προσδιορίσουν τα τμήματα της Ανώτατης Εκπαίδευσης (ΑΕ) όπου θα κληθούν να φέρουν εις πέρας προγράμματα σπουδών που θα αποτελούνται από μαθήματα που θα σχετίζονται με τα ενδιαφέροντά τους. Αυτό γίνεται με βάση το ενδιαφέρον που επιδεικνύουν οι μαθητές στα μαθήματα των εγκύκλιων σπουδών τους. Το ESOG, το όνομα του οποίου προκύπτει από το ακρωνύμιο της φράσης «Electra in School Occupational Guidance», είναι πλήρως παραμετροποιήσιμη, διαδραστική εφαρμογή η οποία βασίζεται στην μέθοδο στήριξης αποφάσεων, πολλαπλών κριτηρίων Electra (Figueira et al., 2005). Η εφαρμογή λειτουργεί ως εξής: μέσω ενός ερωτηματολογίου, ο ενδιαφερόμενος δηλώνει τον βαθμό ενδιαφέροντος του για διάφορα μαθήματα και στη συνέχεια το ESOG χρησιμοποιώντας τη μέθοδο Electra, παρουσιάζει μια πιθανή, ταξινομημένη με βάση τα ενδιαφέροντα του λίστα κατηγοριών τμημάτων ΑΕ Η εφαρμογή ESOG χρησιμοποιεί μια βάση δεδομένων MySQL για τη διαχείριση των δεδομένων της. Τα δεδομένα αυτά θα χρησιμοποιηθούν στη διαδικασία KDD και έτσι θεωρείται θεμιτό η παρουσίαση του σχεσιακού σχήματος της βάσης δεδομένων (Πίνακας 1). Στην τελευταία στήλη του Πίνακα 1, παρουσιάζεται το πλήθος των εγγραφών του κάθε πίνακα. Παρατηρώντας τον πίνακα, γίνεται εύκολα αντιληπτό ότι το ερωτηματολόγιο της εφαρμογής το έχουν απαντήσει 511 μαθητές από 14 λύκεια της Ελλάδας. Κάθε μαθητής, μέσω του ερωτηματολογίου, εκδήλωσε το ενδιαφέρων για τα 24 μαθήματα (το πολύ για 24 μαθήματα είναι πιθανό για κάποια μαθήματα να μην εκδήλωσε το ενδιαφέρον του, αφήνοντας κενή την αντίστοιχη ερώτηση). Έτσι, συλλέχτηκαν οι 10665 εγγραφές του πίνακα «ΑΡΕΣΕΙ». Στην συνέχεια το ESOG, λαμβάνοντας υπόψη τις 288 εγγραφές του πίνακα «ΣΧΕΤΙΖΕΤΑΙ_1», όπου είναι καταχωρημένοι οι συντελεστές βαρύτητας των 24 μαθημάτων για τις 12 ομάδες τμημάτων ΑΕ και εκτελώντας τον αλγόριθμο Electra, δημιούργησε για κάθε μαθητή 12 εγγραφές στο πίνακα «ΣΧΕΤΙΖΕΤΑΙ_2». Το πεδίο «Βαθμός Σχέσης» των εγγραφών αυτών ορίζει το κατά πόσο η ομάδα τμημάτων ΑΕ ταιριάζει στα ιδιαίτερα ενδιαφέροντα του μαθητή. Λόγω τεχνικού προβλήματος στη βάση δεδομένων, έχουν χαθεί κάποιες εγγραφές του συγκεκριμένου πίνακα και έτσι www.e-diktyo.eu
«Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» 3 δεν περιλαμβάνει 511 * 12 = 6132 εγγραφές που θα έπρεπε αλλά 4839. Ωστόσο, το πρόβλημα αυτό, όπως θα δούμε σε επόμενη παράγραφο, δεν επηρεάζει τη διαδικασία εξόρυξης δεδομένων. Τέλος, πρέπει να σημειωθεί ότι η εφαρμογή ESOG αναπτύχθηκε χρησιμοποιώντας την τεχνολογία PHP/MySQL, φιλοξενείται σε εξυπηρετητή ιστοσελίδων (web server) του Πανελλήνιου Σχολικού Δικτύου (ΠΣΔ) και είναι προσπελάσιμη από το URL: http://users.sch.gr/stoug/esog. Η Βάση Δεδομένων υλοποιήθηκε χρησιμοποιώντας την υπηρεσία phpmyadmin του ΠΣΔ. Περισσότερες πληροφορίες για τα τεχνικά χαρακτηριστικά της εφαρμογής και του αλγόριθμου Electra είναι διαθέσιμες στην αναφορά (Ουγιάρογλου κ.α., 2007). Όνομα Πίνακα Πεδία Εγγραφές ΜΑΘΗΜΑ ID,Λεκτικό 24 ΟΜΑΔΑ_ΤΜΗΜΑΤΩN_ΑΕ ID, Λεκτικό 12 ΜΑΘΗΤΗΣ ID, Φύλο, Τάξη, ID_ΣΧΟΛΕΙΟY* 511 ΣΧΟΛΕΙΟ ID, E-Mail, Όνομα_Διαχ, Τηλέφωνο, Ονομασία, Κωδικός, Όνομα Χρήστη 14 ΣΧΕΤΙΖΕΤΑΙ_1 ID_ΜΑΘΗΜΑΤΟΣ, ID_ΚΑΤΗΓΟΡΙΑ ΤΜΗΜΑΤΩΝ ΤΕ, Συντελεστής Σχέσης 288 ΑΡΕΣΕΙ ID_ΜΑΘΗΤΗ, ID_ΜΑΘΗΜΑΤΟΣ, Βαθμός αρεσκείας 10665 ΣΧΕΤΙΖΕΤΑΙ_2 ID_ΜΑΘΗΤΗ, ID_ΚΑΤΗΓΟΡΙΑ ΤΜΗΜΑΤΩΝ ΤΕ, Βαθμός Σχέσης 4839 Πίνακας 1: Σχεσιακό σχήμα Β.Δ. ESOG ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Όπως έχει ήδη αναφερθεί, η εφαρμογή αλγορίθμων ανακάλυψης κανόνων συσχέτισης έχει ως στόχο την εύρεση σχέσεων ανάμεσα στα δεδομένα που ανιχνεύουν μια συνηθισμένη χρήση τους. Στην παράγραφο αυτή θα χρησιμοποιηθεί το παράδειγμα της βάσης δεδομένων συναλλαγών σε supermarket για την παρουσίαση εννοιών σχετικά με τους κανόνες συσχέτισης. Το παράδειγμα αυτό εμπεριέχεται στο βιβλίο της αναφοράς (Dunham, 2003). Μια βάση δεδομένων όπου θα εκτελεσθεί η διαδικασία ανακάλυψης κανόνων μπορεί να θεωρηθεί ως ένα σύνολο από εγγραφές που περιέχουν ένα σύνολο από στοιχεία. Έχοντας υπόψη τις συναλλαγές στην ταμειακή μηχανή του supermarket, κάθε στοιχείο αποτελεί ένα προϊόν που αγοράστηκε, ενώ κάθε εγγραφή είναι η λίστα προϊόντων που αγοράστηκαν σε μια φορά. Έστω ότι το supermarket εμπορεύεται πέντε προϊόντα: ψωμί, ζάχαρη, βούτυρο, γάλα και μπύρα. Άρα, στο supermarket μπορούν να πραγματοποιηθούν 31 διαφορετικές συναλλαγές (συνδυασμοί). Η εκθετική αύξηση του πλήθους των συνδυασμών είναι ένα θέμα που χρίζει αντιμετώπισης. Έστω ότι στο supermarket εκτελέστηκαν οι πέντε συναλλαγές του Πίνακα 2. Η υποστήριξη (support) ενός στοιχείου ή ενός συνόλου στοιχείων είναι το ποσοστό των συναλλαγών όπου εμφανίζεται αυτό το στοιχείο. Έτσι, η υποστήριξη του στοιχείου {ψωμί} είναι 80%. Το ίδιο ποσοστό υποστήριξης αντιστοιχεί και στο σύνολο στοιχείων {ψωμί, βούτυρο}. Αντίστοιχα το στοιχείο {μπύρα} έχει υποστήριξη 40% κοκ. Συναλλαγή Σ1 Σ2 Σ3 Σ4 Σ5 Στοιχεία ψωμί, ζάχαρη, βούτυρο ψωμί, βούτυρο ψωμί, γάλα, βούτυρο μπύρα, ψωμί μπύρα, γάλα Πίνακας 2: Συναλλαγές Κανόνας Υποστήριξη Εμπιστοσύνη Ψωμί Βούτυρο 60% 75% Βούτυρο Ψωμί 60% 100% Μπύρα Ψωμί 20% 50% Βούτυρο Ζάχαρη 20% 33,3% Ζάχαρη Βούτυρο 20% 100% Ζάχαρη Γάλα 0% 0% Πίνακας 3: Μέτρα σημαντικότητας κανόνων Ένας ορισμός για την έννοια κανόνας συσχέτισης θα μπορούσε να είναι ο εξής: Με δεδομένο ένα σύνολο στοιχείων Ι={Ι 1,Ι 2, I μ } και μια βάση δεδομένων από συναλλαγές Σ = {σ 1, σ 2, σ 3,, σ μ } όπου σ i = {Ι i1, I i2, I i3,, I ik } και Ι ij ανήκει στο Ι, ένας κανόνας συσχέτισης είναι ένα επαγωγικό συμπέρασμα της μορφής Χ Υ, όπου Χ και Υ είναι σύνολα στοιχείων (στοιχειοσύνολα) και Χ U Y=Ø. Οι αλγόριθμοι κανόνων συσχέτισης προσπαθούν να ανακαλύψουν τις σημαντικές συσχετίσεις. Για να κρίνουν το πόσο σημαντικός είναι ένας κανόνας υπολογίζονται δύο μέτρα, η υποστήριξη του κανόνα (support) και η εμπιστοσύνη (confidence). Η υποστήριξη για έναν κανόνα X Y είναι το ποσοστό των συναλλαγών που περιέχουν το X U Y. Η εμπιστοσύνη του κανόνα, η οποία υποδεικνύει την ισχύ του, είναι το κλάσμα του πλήθους των συναλλαγών που περιέχουν το X U Y προς το πλήθος των συναλλαγών που περιέχουν το Χ. Τα μέτρα αυτά, για κάποιους κανόνες που προκύπτουν από τις συναλλαγών του Πίνακα 2, παρουσιάζονται στον Πίνακα 3. Για παράδειγμα, ο κανόνας βούτυρο ψωμί έχει εμπιστοσύνη 100%. Αυτό σημαίνει ότι ο κανόνας είναι πολύ ισχυρός αφού κάθε πελάτης που αγοράζει βούτυρο αγοράζει και ψωμί. Επίσης, ο κανόνας αυτός έχει υποστήριξη 60% αυτό σημαίνει ότι τα προϊόντα που συνθέτουν τον κανόνα, εμφανίζονται στο 60% των συναλλαγών. Η www.epyna.gr
4 6 ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ Αλγόριθμος Παραγωγή_Κανόνων_Συσχέτισης Είσοδος: ΒΔ!Βάση συναλλαγών Ι!Σύνολο στοιχείων Σ!Σύνολο συχνών στοιχειοσυνόλων ε!εμπιστοσύνη Έξοδος: ΚΣ!Κανόνες Συσχέτισης Αρχή 1. Βρες τα συχνά στοι 2. ΚΣ Ø 3. Για κάθε στοιχειοσύνολο σ που ανήκει στο Σ 4. Για κάθε στοιχείο χ του σ 5. Αν υποστή ριξη( σ ) τότε ε υποστήριξη( χ) 6. ΚΣ ΚΣ + {χ (σ-χ)} Τέλος Σχήμα 1: Αλγόριθμος παραγωγής κανόνων εξόρυξη τέτοιου είδους κανόνων μπορεί να βοηθήσει τη διεύθυνση του supermarket στην σωστή χωροθέτηση των προϊόντων, στον αποτελεσματικό σχεδιασμό μια διαφημιστικής καμπάνιας κοκ. Οι αλγόριθμοι ανακάλυψης συσχετίσεων επιλύουν το πρόβλημα της εύρεσης των κανόνων διασπώντας το σε δύο μέρη: α) εύρεση των συχνών στοιχειοσύνολων, β) δημιουργία κανόνων από τα συχνά στοιχειοσύνολα. Ένα συχνό στοιχειοσύνολο είναι ένα σύνολο στοιχείων του οποίου το πλήθος των εμφανίσεων ξεπερνά ένα προκαθορισμένο κατώφλι. Η διαδικασία εύρεσης των συχνών στοιχειοσύνολων θεωρείται αρκετά απλή αλλά πολύ δαπανηρή (για 5 στοιχεία έχουμε 31 πιθανά στοιχειοσύνολα, για 30 προϊόντα έχουμε 1073741823). Οι αλγόριθμοι κανόνων συσχέτισης διαφέρουν μεταξύ τους στον τρόπο που ανακαλύπτουν τα συχνά στοιχειοσύνολα. Όταν έχουν βρεθεί όλα τα συχνά στοιχειοσύνολα, η δημιουργία κανόνων είναι μια απλή διαδικασία και παρουσιάζεται στο Σχήμα 1. Ορίζοντας ως κατώφλι υποστήριξης υ=30% και εμπιστοσύνης ε=50% και χρησιμοποιώντας τις συναλλαγές του Πίνακα 2, λαμβάνουμε τα ακόλουθα συχνά στοιχειοσύνολα που ικανοποιούν το υ (δηλ., αριθμός των εμφανίσεων στη βάση δεδομένων είναι πάνω από 30%): Σ = {μπύρα, 40%}, {ψωμί, 60%}, {γάλα, 40%}, {βούτυρο, 60%}, {ψωμί, βούτυρο, 60%} Εκτελώντας τον αλγόριθμο του Σχήματος 1, προκύπτουν δύο κανόνες: ψωμί βούτυρο και βούτυρο ψωμί που ικανοποιούν το κατώφλι εμπιστοσύνης ε. Ο πρώτος κανόνας έχει εμπιστοσύνη 75% ενώ ο δεύτερος έχει 100%: υποστ ήριξη{ ψωµ ί, βούτυρο} 60 = = 0, 75, υποστή ριξη{ ψωµ ί, βούτυρο} 60 = = 1 υποστήριξη{ ψωµ ί} 80 υποστήριξη{ βούτυρο} 60 Ο ΑΛΓΟΡΙΘΜΟΣ APRIORI Ο αλγόριθμος Apriori είναι ο πιο δημοφιλής αλγόριθμος ανακάλυψης κανόνων συσχέτισης (Rakesh Agrawal & Ramakrishnan Srikant, 1994). Ο αλγόριθμος αυτός για την επιλογή των συχνών στοιχειοσυνόλων βασίζεται στον εξής κανόνα: Όλα τα πιθανά υποσύνολα ενός συχνού στοιχειοσυνόλου πρέπει να είναι επίσης συχνά. Με αυτό τον τρόπο μειώνουμε το πλήθος τους αφού είμαστε σίγουροι ότι αυτά δεν είναι συχνά. Αυτό συμβαίνει επειδή αν κάποιο στοιχειοσύνολο δεν είναι συχνό, δε σχηματίζουμε κανένα υπερσύνολο του αφού και αυτό αποκλείεται να είναι συχνό. Η βασική ιδέα του αλγορίθμου είναι η εξής: αρχικά δημιουργεί υποψήφια στοιχειοσύνολα ενός συγκεκριμένου μεγέθους και στη συνέχεια σαρώνει τη βάση δεδομένων για να διαπιστώσει αν τα στοιχειοσύνολα αυτά είναι συχνά. Κατά τη διάρκεια του πρώτου περάσματος, ο αλγόριθμος ψάχνει για συχνά στοιχειοσύνολα μεγέθους 1, ενώ κατά τη διάρκεια του δεύτερου περάσματος, μεγέθους 2 κοκ. Σε κάθε πέρασμα χρησιμοποιούνται τα συχνά στοιχειοσύνολα του προηγούμενου περάσματος για την εύρεση νέων που είναι μεγαλύτερα κατά ένα στοιχείο. Για τη δημιουργία υποψήφιων στοιχειοσυνόλων μεγέθους i+1, συνενώνονται αυτά των προηγούμενων περασμάτων. Η διαδικασία αυτή, χρησιμοποιώντας τα δεδομένα του Πίνακα 2 και για τιμές υποστήριξης και εμπιστοσύνης 30% και 50% αντίστοιχα, συνοψίζεται στον πίνακα 4. Ο αλγόριθμος Apriori παρουσιάζεται στο Σχήμα 2. Στη γραμμή 15 καλείται η συνάρτηση που είναι υπεύθυνη για την δημιουργία των υποψήφιων στοιχειοσυνόλων που θα είναι υπερσύνολο των συχνών στοιχειοσυνόλων του προηγούμενου περάσματος. Η συνάρτηση αυτή δέχεται τα συχνά στοιχειοσύνολα του τελευταίου περάσματος και δημιουργεί τα υποψήφια (που είναι αυξημένα κατά ένα στοιχείο) για το επόμενο πέρασμα. Η διαδικασία δημιουργίας και εξέτασης υποψήφιων στοιχειοσυνόλων τερματίζεται όταν η συνάρτηση αυτή επιστρέψει το κενό σύνολο, δηλαδή δεν ικανοποιείται ο κανόνας που θέλει όλα τα υποσύνολα ενός συχνού στοιχειοσυνόλου να είναι συχνά. Πέρασμα Υποψήφια στοιχειοσύνολα Συχνά στοιχειοσύνολα 1 {γάλα}, {ζάχαρη}, {μπύρα}, {ψωμί}, {βούτυρο} {γάλα}, {μπύρα}, {ψωμί}, {βούτυρο} 2 {μπύρα, ψωμί}, {μπύρα, γάλα}, {μπύρα, βούτυρο}, {ψωμί, γάλα}, {ψωμί, βούτυρο}, {γάλα, βούτυρο} {ψωμί, βούτυρο} Πίνακας 4: Εφαρμογή του αλγόριθμου Apriori www.e-diktyo.eu
«Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» 5 Αλγόριθμος Apriori Είσοδος: ΒΔ!Βάση συναλλαγών Ι!Σύνολο στοιχείων Έξοδος: υ!υποστήριξη ΥΣ i!υποψήφια στοιχειοσύνολα Έξοδος: Σ!Συχνά στοιχειοσύνολα Αρχή 1. κ 0 2. Σ Ø 3. ΥΣ 1 Ι!Τα υποψήφια στοιχειοσύνολα είναι τα στοιχεία 4. Αρχή _ επανάληψης 5. κ κ+1 6. Σ κ Ø 7. Για κάθε συναλλαγή τ j της ΒΔ 8. Για κάθε υποψήφιο στοιχειοσύνολο Ι i του ΥΣ κ 9. Αν Ι i ανήκει στην συναλλαγή τ j τότε 10. μ i μ i +1 11. Για κάθε υποψήφιο στοιχειοσύνολο Ι i του ΥΣ κ 12. Αν ο μετρητής μ i ικανοποιεί την παράμετρο υ τότε 13. Σ κ Σ κ U Ι i! το στοιχειοσύνολο Ι i είναι συχνό 14. Σ Σ U Σ κ 15. Σ κ+1 παραγωγή_υποψήφιων_στοιχειοσυνόλων (Σ κ ) 16. Μεχρις _ ότου Σ κ+1 = Ø Τέλος Σχήμα 2: Αλγόριθμος Apriori Συνάρτηση παραγωγή_υποψήφιων_στοιχειοσυνόλων Είσοδος: Σ ι-1!συχνά στοιχειοσύνολα μεγέθους i-1 Αρχή 1. ΥΣ i Ø 2. Για κάθε συχνό στοιχειοσύνολο Ι που ανήκει στο Σ ι-1 3. Για κάθε συχνό στοιχειοσύνολο J που ανήκει στο Σ ι-1, I J 4. Αν i-2 στοιχεία των στοιχειοσυνόλων I και J είναι ίδια τότε 5. ΥΣ i ΥΣ i U {Ι U J}!συνένωση Τέλος ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ WEKA Στο σημείο αυτό παρουσιάζουμε συνοπτικά το λογισμικό WEKA το οποίο χρησιμοποιείται στην εργασία αυτή για την παραγωγή κανόνων συσχέτισης από τα δεδομένα του ESOG. Συγκεκριμένα, το λογισμικό αυτό διαθέτει μια υλοποίηση του αλγόριθμου Apriori για την παραγωγή κανόνων συσχέτισης. Το μόνο που απαιτείται από τη μεριά των χρηστών είναι η κατάλληλη προετοιμασία του αρχείου του συνόλου δεδομένων το οποίο θα διερευνηθεί για τυχόν συσχετίσεις. Το λογισμικό WEKA (Waikato Environment for Knowledge Analysis) είναι ένα από τα πιο δημοφιλής εργαλεία εξόρυξης πληροφορίας κυρίως στον ακαδημαϊκό χώρο (Ian Witten & Eibe Frank, 2005). Έχει αναπτυχθεί σε Java από ερευνητική ομάδα του πανεπιστημίου Waikato της Νέας Ζηλανδίας. Το WEKA είναι ελεύθερο λογισμικό / λογισμικό ανοικτού κώδικα και διανέμεται με άδεια χρήσης GNU από το url: http://www.cs.waikato.ac.nz/ml/weka/. Η εφαρμογή περιλαμβάνει υλοποιήσεις διάφορων αλγόριθμων εξόρυξης πληροφορίας καθώς και τεχνικές προεπεξεργασίας, μοντελοποίησης αλλά και τεχνικές οπτικοποίησης των δεδομένων. Η διεπαφή της εφαρμογής χαρακτηρίζεται από την φιλικότητα προς το χρήστη ενώ η ανάπτυξη σε Java διασφαλίζει την μεταφερσιμότητα (portability) σε διαφορετικές πλατφόρμες. Η εφαρμογή προϋποθέτει την ύπαρξη των δεδομένων σε ένα απλό αρχείο (αρχείο της μορφής CSV ή arff όπου τα γνωρίσματα (πεδία) κάθε εγγραφής (γραμμής) είναι χωρισμένα με κόμμα). Το WEKA δε μπορεί να χειριστεί απευθείας δεδομένα σχεσιακών βάσεων (απαιτείται κατάλληλος μετασχηματισμός). Το WEKA περιλαμβάνει τέσσερις διεπαφές. Η βασική γραφική διεπαφή είναι η Explorer, ωστόσο, οι ίδιες λειτουργίες μπορούν να εκτελεσθούν από το γραφικό περιβάλλον knowledge flow αλλά και από περιβάλλον γραμμής εντολών (command line). Η τέταρτη διεπαφή που προσφέρει το WEKA είναι η Experimenter, η οποία διαθέτει εργαλεία σύγκρισης της απόδοσης των αλγορίθμων. Η διεπαφή Explorer διαθέτει τις εξής ενότητες: α) προεπεξεργασίας, β) κατηγοριοποίησης, γ) συσχέτισης, δ) συσταδοποίησης, ε) επιλογής γνωρισμάτων και ζ) οπτικοποίησης. ΑΝΑΚΑΛΥΨΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ ΑΠΟ ΤΑ ΔΕΔΟΜΕΝΑ ΤΟΥ ESOG Η παράγραφος αυτή παρουσιάζει αναλυτικά τη διαδικασία εξόρυξης δεδομένων ή διαδικασία KDD από τα δεδομένα της βάσης δεδομένων της διαδικτυακής εφαρμογής ESOG. Συγκεκριμένα, η παράγραφος παρουσιάζει τα τέσσερα στάδια της διαδικασίας KDD. Στο τρίτο στάδιο της διαδικασίας εφαρμόζεται ο αλγόριθμος Apriori μέσω της εφαρμογής WEKA. ΣΤΑΔΙΟ Α: ΕΠΙΛΟΓΗ ΔΕΔΟΜΕΝΩΝ Το πρώτο στάδιο της διαδικασίας είναι το πιο βασικό. Από το στάδιο αυτό εξαρτάται το είδος της πληροφορίας που θα ανακαλυφθεί αφού στο σημείο αυτό επιλέγονται τα δεδομένα που θα χρησιμοποιηθούν. Μελετώντας τον Πίνακα 1, όπου παρουσιάζεται το σχεσιακό σχήμα του ESOG www.epyna.gr
6 6 ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ καταλήγουμε στα εξής: Μας ενδιαφέρει να ανακαλύψουμε κανόνες συσχέτισης μεταξύ των μαθημάτων. Συγκεκριμένα, θέλουμε να εξετάσουμε το κατά πόσο το ενδιαφέρον για ένα μάθημα σχετίζεται με το ενδιαφέρον που επιδεικνύουν οι μαθητές σε άλλο ή άλλα μαθήματα. Επίσης, θέλουμε να διερευνήσουμε τις σχέσεις που υπάρχουν μεταξύ του πόσο ενδιαφέρον οι μαθητές θεωρούν κάποιο μάθημα και του σχολείου που αυτοί φοιτούν, την τάξη που παρακολουθούν ή του φύλο τους. Βάσει των παραπάνω, κρατάμε τους πίνακες ΜΑΘΗΤΗΣ, ΣΧΟΛΕΙΟ, ΜΑΘΗΜΑ και ΑΡΕΣΕΙ. Οι υπόλοιποι πίνακες της βάσης δεδομένων δε θα ληφθούν υπόψη κατά τη διαδικασία KDD αφού περιέχουν δεδομένα που δεν παρουσιάζουν ενδιαφέρον στο να ανακαλύψουμε συσχετίσεις. Μπορεί να υποστηρίξει κανείς, ότι είναι ενδιαφέρον το να αναζητηθούν συσχετίσεις μεταξύ των ομάδων τμημάτων ΑΕ και των απαντήσεων μαθητών, του φύλλου, του σχολείου ή της τάξης τους. Αυτό μπορεί να αναθεωρηθεί λαμβάνοντας υπόψη ότι οι κατατάξεις των μαθητών σε ομάδες τμημάτων ΑΕ, δεν ορίστηκαν από τους μαθητές αλλά από τον αλγόριθμο Electra που χρησιμοποιεί το ESOG και τους συντελεστές βαρύτητας μαθημάτων σε ομάδες τμημάτων ΑΕ που έχουν οριστεί σε αυτό. Από το πίνακα ΣΧΟΛΕΙΟ μας ενδιαφέρει μόνο το πεδίο που περιέχει το όνομα του σχολείου, το ίδιο ισχύει και για τον πίνακα ΜΑΘΗΜΑ. Ο πίνακας ΑΡΕΣΕΙ περιέχει τις απαντήσεις των μαθητών στο ερώτημα «Πόσο ενδιαφέρον θεωρείς το μάθημα». Οι πιθανές απαντήσεις είναι πέντε: «πάρα πολύ», «πολύ», «μέτρια», «λίγο», «καθόλου». Το βασικό πρόβλημα που το δεύτερο στάδιο της διαδικασίας KDD θα κληθεί να αντιμετωπίσει είναι ότι ο πίνακας αυτός αποτελεί μια σχέση πολλά προς πολλά μεταξύ του πίνακα ΜΑΘΗΜΑ και ΜΑΘΗΤΗΣ. Αυτό σημαίνει ότι περιλαμβάνει πολλές εγγραφές (απαντήσεις για κάθε μάθημα) για κάθε μαθητή. ΣΤΑΔΙΟ Β: ΠΡΟΕΤΟΙΜΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Το δεύτερο στάδιο της διαδικασίας KDD έχει ως στόχο τη δημιουργία ενός αρχείου που θα περιέχει τα δεδομένα όπου θα πραγματοποιηθεί η εξόρυξη. Το στάδιο αυτό είναι το πιο δύσκολο, αφού η προετοιμασία των δεδομένων για εξόρυξη, όπως στις περισσότερες διαδικασίες KDD, απαιτεί τον περισσότερο χρόνο. Το αρχείο αυτό θα περιέχει 511 γραμμές (μια για κάθε μαθητή) κάθε μια από τις οποίες θα διαθέτει 27 γνωρίσματα (πεδία). Πιο συγκεκριμένα, κάθε γραμμή του αρχείου θα έχει 24 γνωρίσματα που σχετίζονται με τις απαντήσεις των μαθητών στο ερωτηματολόγιο μαθημάτων του ESOG (ένα πεδίο για κάθε μάθημα). Αν ο μαθητής δεν απαντήσει κάποια ερώτηση (δε δηλώσει ενδιαφέρον για κάποιο μάθημα), τότε το αντίστοιχο πεδίου θα παίρνει την τιμή «?». Τα άλλα τρία πεδία της γραμμής είναι το φύλλο του μαθητή, το σχολείο και η τάξη του. Για να γίνει ευκολότερα κατανοητή η δομή της γραμμής του αρχείου ακολουθεί η μορφή της καθώς και ένα παράδειγμα: <Τάξη>, <Φύλλο>, <Σχολείο>, <Θρησκευτικά>, <Φυσική>, <Χημεία>, <Βιολογία>, <Ξένες γλώσσες>, <Πληροφορική>, <Προγραμματισμός>, <Τεχνολογία>, <Κοινωνιολογία>, <Οικονομία>, <Σχέδιο>, <Μαθηματικά>, <Στατιστική>, <Ιστορία>, <Αρχαία>, <Νέα Ελληνικά - Έκθεση>, <Λατινικά>, <Δίκαιο>, <Γεωγραφία - Αστρονομία>, <Φυσική αγωγή>, <Αισθητική αγωγή>, <ΑΟΔΕ>, <Γεωπονία>, <Ψυχολογία> <Γ>, <Κορίτσι>, <ΓΕΛ Θέρμου>, <πολύ>, <καθόλου>, <καθόλου>, <?>, <πάρα πολύ>, <πολύ>, <καθόλου>, <καθόλου>, <πολύ>, <καθόλου>, <πολύ>, <καθόλου>, <καθόλου>, <πολύ>, <πάρα πολύ>, <μέτρια>, <?>, μέτρια>, <μέτρια>, <πάρα πολύ>, <μέτρια, <καθόλου>, <καθόλου>, <καθόλου> Για τη δημιουργία του αρχείου αυτού απαιτήθηκε η συγγραφή μερικών εντολών SQL στο περιβάλλον phpmyadmin του Πανελλήνιου Σχολικού Δικτύου που ανακτούν τα δεδομένα από τους αντίστοιχους πίνακες της βάσης δεδομένων καθώς και η ανάπτυξη μιας μικρο-εφαρμογής σε C που θα συνενώνει τα αποτελέσματα των ερωτημάτων SQL. Αναλυτικά, αρχικά ανακτήθηκαν τα ονόματα των μαθημάτων από πίνακα ΜΑΘΗΜΑ και αποθηκεύτηκαν σε ένα αρχείο κειμένου. Στην συνέχεια ανακτήθηκαν τα περιεχόμενα του πίνακα ΑΡΕΣΕΙ από το παρακάτω SQL Query: SELECT Μ.ID, M.Τάξη, Μ.Φύλλο Σ.Ονομασία, Α.ID_Μάθηματος, Βαθμός _ αρέσκειας FROM ΣΧΟΛΕΙΟ Σ, ΜΑΘΗΤΗΣ Μ, ΑΡΕΣΕΙ Α WHERE Α.ID_ΜΑΘΗΤΗ = Μ.ID (1) AND Μ.ID_ΣΧΟΛΕΙΟΥ = Σ.ID ORDER BY Α.ID_ΜΑΘΗΤΗ Τα αποτελέσματα του ερωτήματος αποθηκεύτηκαν επίσης σε ένα αρχείο κειμένου. Στο αρχείο αυτό υπάρχουν τόσες εγγραφές όσες αυτές που περιέχει ο πίνακας ΑΡΕΣΕΙ. (σε κάθε μαθητή αντιστοιχούν περισσότερες από μια εγγραφές αφού δίνει περισσότερες από μια απαντήσεις μια για κάθε μάθημα). Οι εγγραφές του αρχείου έχουν τη μορφή του παρακάτω παραδείγματος: <228>, <Γ>, <Κορίτσι>, <ΓΕΛ_Θέρμου>, <4>,<Πάρα πολύ> www.e-diktyo.eu
«Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» 7 Το πρώτο γνώρισμα αντιστοιχεί στον κωδικό του μαθητή, ενώ το πέμπτο γνώρισμα αντιστοιχεί στον κωδικό του μαθήματος (τιμές από το 1 έως το 24). Η παραπάνω γραμμή δηλώνει ότι ο μαθητής με κωδικό 228 είναι κορίτσι, παρακολουθεί την Γ τάξη του λυκείου Θέρμου και του αρέσει πάρα πολύ το μάθημα με κωδικό 4 (αντιστοιχεί στο μάθημα της βιολογίας). Τέλος, δημιουργήθηκε ένα ακόμη αρχείο το οποίο περιλαμβάνει 511 εγγραφές με δύο πεδία η κάθε μία. Το πρώτο πεδίο είναι ο κωδικός του μαθητή και το δεύτερο είναι το πλήθος των απαντήσεων του στις ερωτήσεις για το πόσο ενδιαφέρον θεωρεί το κάθε μάθημα. Υπενθυμίζουμε ότι το ερωτηματολόγιο αποτελείται από 24 ερωτήσεις (μια για κάθε μάθημα) και ο μαθητής είναι δυνατό να μην απαντήσει σε όλες. Οι εγγραφές ανακτήθηκαν από το παρακάτω SQL query: SELECT M.ID, COUNT(*) FROM ΜΑΘΗΤΗΣ M GROUP BY M.ID Μετά τη δημιουργία των τριών αρχείων, αναπτύχθηκε ένα πρόγραμμα σε C που συνδυάζει την πληροφορία που περιέχουν τα αρχεία και δημιουργεί ένα ενιαίο αρχείο, το οποίο έχει τη μορφή που προαναφέραμε (511 έγγραφές, 27 γνωρίσματα), που αποτελεί την είσοδο του τρίτου σταδίου της διαδικασίας. Το Σχήμα 3 παρουσιάζει αλγοριθμικά την λειτουργικότητα αυτής της μικρο - εφαρμογής. Μελετώντας τις γραμμές 6-18 του αλγορίθμου γίνεται αντιληπτό ότι για κάθε μαθητή ανακτώνται οι απαντήσεις του για κάθε μάθημα (πάρα πολύ, πολύ κοκ). Αν για κάποιο από τα 24 μαθήματα δεν εκδήλωσε ενδιαφέρον, τότε το κελί του πίνακα απαντήσεων που αντιστοιχεί σε αυτό μάθημα παραμένει με την τιμή αρχικοποίησης του που είναι το ερωτηματικό (?). Αλγόριθμος Συνένωση _ αρχείων Είσοδος: Αρχείο κειμένου Μάθημα!περιλαμβάνει τα 24 ονόματα των μαθημάτων Αρχείο κειμένου Απαντήσεις!περιλαμβάνει τις απαντήσεις των μαθητών (SQL Query 1) Αρχείο κειμένου group_by!περιλαμβάνει το πλήθος των απαντήσεων κάθε μαθητή (SQL Query 2) Εξοδος: Αρχείο κειμένου output!αποτελεί το αρχείο όπου θα γίνει η εξόρυξη Αρχή 1. Διάβασε τα δεδομένα του αρχείου Μάθημα και αποθήκευσε τα σε πίνακα Μαθήματα[24] στη μνήμη 2. Διάβασε τα δεδομένα του group_by και αποθήκευσε τα σε πίνακα GroupBy[511][2] στη μνήμη!η πρώτη γραμμή του αρχείου output θα περιλαμβάνει τα ονόματα των γνωρισμάτων 3. Γράψε Τάξη, Φύλλο, Σχολείο στο αρχείο output 4. Για κάθε μάθημα i (i<=24) 5. Γράψε το όνομα του μαθήματος Μάθημα[i] στο αρχείο output 6. Για κάθε μαθητή i (i<=511) 7. Διάβασε από το αρχείο Απαντήσεις τα πεδία: τάξη φύλλο, σχολείο για τον μαθητή i 8. Για κάθε μάθημα j (j<=24) 9. Απάντηση[j]?!αρχικά, ο μαθητής δεν έχει απαντήσει σε καμία από τις 24 ερωτήσεις 10. Για κάθε απάντηση τ του μαθητή i (i<= GroupBy[i][2])!το πεδίο GroupBy[i][2] περιέχει το πλήθος των απαντήσεων 11. Διάβασε τον κωδικό κωδ (1<=κωδ<=24) του μαθήματος της απάντησης τ 12. Διάβασε τον βαθμό αρέσκειας βαθ που επιδεικνύει ο μαθητής i για το μάθημα με κωδικό κωδ στην απάντηση τ 13. Απάντηση[κωδ] βαθ!όσες απαντήσεις δεν απαντήθηκαν παρέμειναν σημειωμένες με? 14. Τέλος _ επανάληψης!αποθήκευση της εγγραφής στο αρχείο output για τον μαθητή i 15. Γράψε στο αρχείο output τα πεδία τάξη φύλλο, σχολείο για τον μαθητή i 16. Για κάθε μάθημα j (j<=24) 17. Γράψε στο αρχείο output το κελί Απάντηση[j] 18. Τέλος _ επανάληψης Τέλος Σχήμα 3: Δημιουργία του αρχείου όπου θα γίνει η εξόρυξη των κανόνων συσχέτισης ΣΤΑΔΙΟ Γ: ΕΞΟΡΥΞΗ ΚΑΝΩΝΩΝ ΣΥΣΧΕΤΙΣΗΣ Αφού έχει δημιουργηθεί το αρχείο από όπου θα γίνει η εξόρυξη των κανόνων έχει ολοκληρωθεί το δεύτερο στάδιο της διαδικασίας KDD. Το τρίτο στάδιο τροφοδοτεί το WEKA και τον αλγόριθμο Apriori, με το αρχείο που δημιουργήθηκε. Το τρίτο στάδιο, από την στιγμή που υπάρχει διαθέσιμη η υλοποίηση του αλγορίθμου που πρόκειται να χρησιμοποιηθεί δε χαρακτηρίζεται ως δύσκολο. Στόχος του τρίτου σταδίου είναι η ανακάλυψη κανόνων συσχέτισης της μορφής: Μαθηματικά = Πάρα πολύ, Λατινικά = Λίγο Πληροφορική = Πάρα πολύ Ο κανόνας αυτός σημαίνει ότι αν στους μαθητές αρέσουν πάρα πολύ τα μαθηματικά και λίγο τα λατινικά, τότε τους αρέσει και το μάθημα της πληροφορικής πάρα πολύ. Για την παραγωγή τέτοιου είδους κανόνων, το μόνο που απαιτεί τo WEKA από τον χρήστη, είναι η εισαγωγή της παραμέτρου (2) www.epyna.gr
8 6 ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ που ορίζει το κατώφλι εμπιστοσύνης. Ορίσαμε αυτή την παράμετρο ε=0,7. Αυτό σημαίνει ότι θα ανακαλυφθούν κανόνες με εμπιστοσύνη πάνω από 70%. Το παράρτημα της εργασίας παρουσιάζει τους 127 κανόνες συσχέτισης που ανακαλύφθηκαν, ταξινομημένους βάσει της εμπιστοσύνης τους, με φθίνουσα σειρά. Η τιμή εμπιστοσύνης κάθε κανόνα παρουσιάζεται στο τέλος κάθε κανόνα εντός παρενθέσεων. Δίπλα από κάθε στοιχείο του κάθε κανόνα εμφανίζεται η υποστήριξη του. Όπως έχει αναφερθεί, από τη διαίρεση των τιμών υποστήριξης προκύπτει η τιμή της εμπιστοσύνης. Να σημειωθεί ότι μεγάλο ενδιαφέρον θα παρουσίαζε η παρουσίαση περισσότερων κανόνων συσχέτισης που θα προέκυπταν ορίζοντας μικρότερο κατώφλι εμπιστοσύνης, ωστόσο αυτό δεν είναι εφικτό εξαιτίας των περιορισμών στο μέγεθος της εργασίας. ΣΤΑΔΙΟ Δ: ΑΞΙΟΛΟΓΗΣΗ Το τέταρτο και τελευταίο στάδιο της διαδικασίας περιλαμβάνει τη διερεύνηση των κανόνων που προέκυψαν με στόχο την λήψη εκπαιδευτικών αποφάσεων όπως για παράδειγμα κατάταξη μαθητών σε ομάδες με παρεμφερή ενδιαφέροντα, επανασχεδιασμός του ερωτηματολογίου της εφαρμογής ESOG, διερεύνηση των ενδιαφερόντων των αγοριών και κοριτσιών κ.α. Σίγουρα, κάποιοι από τους κανόνες δεν παρουσιάζουν ενδιαφέρον. Για παράδειγμα, ο κανόνας 83, ο οποίος αναφέρει «Αν είσαι μαθητής του ΓΕΛ Αγίου Μύρωνα, τότε είσαι μαθητής της Α Λυκείου» είναι περιττός, για ευνόητους λόγους. Επίσης, πρέπει να σημειωθεί ότι η τάση των μαθητών να δηλώνουν την «αντιπάθεια» τους για τα μαθήματα «Λατινικά» και «Γεωπονία» απαντώντας «καθόλου» στις αντίστοιχες ερωτήσεις του ερωτηματολογίου, αποτελεί το βασικό παράγοντα δημιουργίας πολλών κανόνων για αυτά τα μαθήματα. Επίσης, οι κανόνες που ανακαλύφθηκαν, επιβεβαιώνουν την κατά κοινή ομολογία τάση των μαθητών να διαχωρίζονται σε θετικών (συμπεριλαμβανομένων των οικονομικών επιστημών) και θεωρητικών επιστημών (π.χ. κανόνες 47). Εντύπωση προκαλεί το γεγονός ότι το μάθημα της τεχνολογίας δεν εμφανίζεται σε κανέναν κανόνα μαζί με το μάθημα της πληροφορικής ή του προγραμματισμού. Επίσης, ο κανόνας 93, υποδεικνύει στους υπεύθυνους σχεδιασμού του ερωτηματολογίου ότι οι ερωτήσεις για το μάθημα της πληροφορικής και του προγραμματισμού ίσως πρέπει να συγχωνευθούν. Εντύπωση προκαλεί, επίσης, το γεγονός ότι τα ενδιαφέροντα των αγοριών συμμετέχουν μόνο σε 4 κανόνες (64, 73, 82, 95) ενώ των κοριτσιών σε 25 (17, 27, 33, 36, 44, 51, 53, 61, 62, 68, 70, 71, 72, 74, 79, 81, 86, 96, 108, 111, 115, 118, 123, 124, 126). Αυτό σημαίνει ότι τα ενδιαφέροντα των κοριτσιών μοιάζουν περισσότερο μεταξύ τους από ότι των αγοριών. Συγκεκριμένα, μελετώντας τους παραπάνω κανόνες γίνεται κατανοητό ότι τα κορίτσια ενδιαφέρονται λιγότερο για τα μαθήματα θετικών επιστημών από ότι των θεωρητικών. Αντίθετα, τα αγόρια χαρακτηρίζονται από το ενδιαφέρον τους προς την τεχνολογία (κανόνας 93) και για την «αντιπάθεια» τους προς τα θεωρητικά μαθήματα (κανόνες 64, 73, 82). ΕΠΙΛΟΓΟΣ ΜΕΛΛΟΝΤΙΚΕΣ ΚΑΤΕΥΘΥΝΣΕΙΣ Η εργασία αυτή αποτελεί ένα παράδειγμα αξιοποίησης των αλγορίθμων εξόρυξης δεδομένων από βάσεις δεδομένων εκπαιδευτικού περιεχομένου, για την παραγωγή συμπερασμάτων που είναι πιθανό να βοηθήσουν εκπαιδευτικούς και γενικότερα ανθρώπους που εμπλέκονται στη διαχείριση και διοίκηση της εκπαίδευσης να λάβουν αποφάσεις. Πιο αναλυτικά, η εργασία, αφού έκανε μια μικρή ανασκόπηση σε θέματα εξόρυξης δεδομένων και κανόνων συσχέτισης και μιας συνοπτικής παρουσίασης της διαδικτυακής εφαρμογής ESOG, παρουσίασε αναλυτικά τον αλγόριθμο Apriori και το λογισμικό εξόρυξης πληροφορίας WEKA. Στην συνέχεια παρουσίασε τη διαδικασία KDD για την ανακάλυψη κανόνων συσχέτισης από τη βάση δεδομένων του ESOG. Η διαδικασίας αυτή παρήγαγε 127 κανόνες οι οποίοι παρουσιάζονται στο Παράρτημα της εργασίας. Κατά τη διάρκεια εκπόνησης της εργασίας προέκυψαν ερωτήματα που υποδεικνύουν κατευθύνσεις για μελλοντική έρευνα. Μια από αυτές τις κατευθύνσεις είναι η εφαρμογή άλλου είδους αλγορίθμων εξόρυξης πληροφορίας στα δεδομένα της εφαρμογής ESOG, όπως για παράδειγμα αλγορίθμους κατηγοριοποίησης ή συσταδοποίησης. Τέλος, σημειώνεται ότι η ολοένα και αυξανόμενη χρήση εκπαιδευτικών λογισμικών, λογισμικών διαχείρισης της εκπαίδευσης, πλατφόρμων σύγχρονης και ασύγχρονης τηλεκπαίδευσης στα πλαίσια εκπαιδευτικών διαδικασιών, εκτός από τα αδιαμφισβήτητα πλεονεκτήματα που επιφέρει στη μάθηση, εμπλουτίζει τα log files και τις βάσεις δεδομένων των εφαρμογών. Τα δεδομένα αυτά μπορούν να διερευνηθούν από τεχνικές και αλγόριθμους εξόρυξης πληροφορίας, ώστε να ανακαλυφθεί η «γνώση» που πιθανότατα κρύβουν. www.e-diktyo.eu
«Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» 9 ΑΝΑΦΟΡΕΣ 1. Ουγιάρογλου Σ., Μπότσαρης Ι., Παπαδοπούλου Ο. (2008). Διαδικτυακή εφαρμογή βοήθειας των μαθητών στον επαγγελματικό προσανατολισμό τους, με τη συμβολή της μεθόδου στήριξης αποφάσεων Electra. Πρακτικά του 1ου Πανελλήνιου Εκπαιδευτικού Συνέδριου Ημαθίας, σσ. 282-290, Τόμος Β, Νάουσα Ημαθίας 2. Νανόπουλος Αλέξανδρος, Μανωλόπουλος Ιωάννης (2008). Εισαγωγή στην Εξόρυξη Δεδομένων και στις Αποθήκες Δεδομένων, Εκδόσεις Νέων Τεχνολογιών 3. Dunham H. Margaret (2003). Data Mining: Introductory and Advanced Topics. Prentice Hall 4. Rakesh Agrawal, Ramakrishnan Srikant (1994). Fast algorithms for mining association rules in large databases. Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, Santiago, Chile pp. 487-499 5. R. Agrawal; T. Imielinski; A. Swami (1993). Mining Association Rules between Sets of Items in Large Databases. SIGMOD Conference 1993. pp. 207-216 6. Ian H. Witten, Eibe Frank (2005). Data Mining: Practical machine learning tools and techniques, 2nd Edition. Morgan Kaufmann, San Francisco 7. J. Figueira, V. Mousseau, and B. Roy (2005). ELECTRE methods. In Multiple Criteria Decision Analysis: State of the Art Surveys, pp. 133-162. Springer Verlag. ΠΑΡΑΡΤΗΜΑ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ 1. Ιστορία = Καθόλου, Αρχαία Ελληνικά = Καθόλου, Γεωπονία = Καθόλου, 56 Λατινικά = Καθόλου, 53 (0.95) 2. Θρησκευτικά = Καθόλου, Αρχαία Ελληνικά = Καθόλου, Γεωπονία = Καθόλου, 56 Λατινικά = Καθόλου, 52 (0.93) 3. Σχέδιο = Καθόλου, Αρχαία Ελληνικά = Καθόλου, 69 Λατινικά = Καθόλου, 62 (0.9) 4. Αρχαία Ελληνικά = Καθόλου, Γεωπονία = Καθόλου, 87 Λατινικά = Καθόλου, 78 (0.9) 5. Σχέδιο = Καθόλου, Στατιστική = Καθόλου, 66 Γεωπονία = Καθόλου, 59 (0.89) 6. Τεχνολογία = Καθόλου, Γεωγραφία - Αστρονομία = Καθόλου, 63 Γεωπονία = Καθόλου, 55 (0.87) 7. Τεχνολογία = Καθόλου, Οικονομία = Καθόλου, 70 Στατιστική = Καθόλου, 61 (0.87) 8. Θρησκευτικά = Καθόλου, Γεωγραφία - Αστρονομία = Καθόλου, 60 Γεωπονία = Καθόλου, 52 (0.87) 9. Οικονομία = Καθόλου, Δίκαιο = Καθόλου, 64 ΑΟΔΕ = Καθόλου, 55 (0.86) 10. Στατιστική = Καθόλου, Γεωγραφία - Αστρονομία = Καθόλου, 64 Γεωπονία = Καθόλου, 55 (0.86) 11. Τεχνολογία = Καθόλου, Μαθηματικά = Καθόλου, 63 Στατιστική = Καθόλου, 54 (0.86) 12. Χημεία = Καθόλου, Στατιστική = Καθόλου, 61 Γεωπονία = Καθόλου, 52 (0.85) 13. Φυσική = Καθόλου, Οικονομία = Καθόλου, 67 Στατιστική = Καθόλου, 57 (0.85) 14. Χημεία = Καθόλου, Μαθηματικά = Καθόλου, 60 Φυσική = Καθόλου, 51 (0.85) 15. Κοινωνιολογία = Καθόλου, Αρχαία Ελληνικά = Καθόλου, 70 Λατινικά = Καθόλου, 59 (0.84) 16. Αρχαία Ελληνικά = Καθόλου, Δίκαιο = Καθόλου, 81 Λατινικά = Καθόλου, 68 (0.84) 17. Τάξη = Γ' Φυσική = Καθόλου, 82 Φύλλο = Κορίτσι 68 (0.83) 18. Ιστορία = Καθόλου, Λατινικά = Καθόλου, Γεωπονία = Καθόλου, 64 Αρχαία Ελληνικά = Καθόλου, 53 (0.83) 19. Τεχνολογία = Καθόλου, Σχέδιο = Καθόλου, 75 Γεωπονία = Καθόλου, 62 (0.83) 20. Θρησκευτικά = Καθόλου, Αρχαία Ελληνικά = Καθόλου, 86 Λατινικά = Καθόλου, 71 (0.83) 21. Θρησκευτικά = Καθόλου, Σχέδιο = Καθόλου, 63 Γεωπονία = Καθόλου, 52 (0.83) 22. Θρησκευτικά = Καθόλου, Λατινικά = Καθόλου, Γεωπονία = Καθόλου, 63 Αρχαία Ελληνικά = Καθόλου, 52 (0.83) 23. Οικονομία = Καθόλου, Μαθηματικά = Καθόλου, 74 Στατιστική = Καθόλου, 61 (0.82) 24. Σχέδιο = Καθόλου, Γεωγραφία - Αστρονομία = Καθόλου, 73 Γεωπονία = Καθόλου, 60 (0.82) 25. Φυσική = Καθόλου, Τεχνολογία = Καθόλου, 66 Στατιστική = Καθόλου, 54 (0.82) 26. Ιστορία = Καθόλου, Αρχαία Ελληνικά = Καθόλου, 92 Λατινικά = Καθόλου, 75 (0.82) 27. Μαθηματικά = Καθόλου, Ψυχολογία = Πάρα πολύ 64 Φύλλο = Κορίτσι 52 (0.81) 28. Μαθηματικά = Καθόλου, ΑΟΔΕ = Καθόλου, 64 Στατιστική = Καθόλου, 52 (0.81) 29. Τεχνολογία = Καθόλου, ΑΟΔΕ = Καθόλου, 69 Στατιστική = Καθόλου, 56 (0.81) 30. Ιστορία = Καθόλου, Γεωπονία = Καθόλου, 79 Λατινικά = Καθόλου, 64 (0.81) 31. Τεχνολογία = Καθόλου, Λατινικά = Καθόλου, 63 Γεωπονία = Καθόλου, 51 (0.81) 32. Φυσική = Καθόλου, Οικονομία = Καθόλου, 67 Μαθηματικά = Καθόλου, 54 (0.81) 33. Φυσική = Καθόλου, Γεωγραφία - Αστρονομία = Καθόλου, 66 Φύλλο = Κορίτσι 53 (0.8) 34. Στατιστική = Καθόλου, ΑΟΔΕ = Καθόλου, 81 Οικονομία = Καθόλου, 65 (0.8) 35. Σχέδιο = Καθόλου, Δίκαιο = Καθόλου, 70 Λατινικά = Καθόλου, 56 (0.8) 36. Φυσική = Καθόλου, 139 Φύλλο = Κορίτσι 111 (0.8) 37. Θρησκευτικά = Καθόλου, Λατινικά = Καθόλου, 89 Αρχαία Ελληνικά = Καθόλου, 71 (0.8) 38. Ιστορία = Καθόλου, Δίκαιο = Καθόλου, 74 Λατινικά = Καθόλου, 59 (0.8) 39. Τεχνολογία = Καθόλου, ΑΟΔΕ = Καθόλου, 69 Οικονομία = Καθόλου, 55 (0.8) 40. Λατινικά = Καθόλου, Γεωγραφία - Αστρονομία = Καθόλου, 69 Γεωπονία = Καθόλου, 55 (0.8) 41. Μαθηματικά = Καθόλου, ΑΟΔΕ = Καθόλου, 64 Οικονομία = Καθόλου, 51 (0.8) 42. Τεχνολογία = Καθόλου, Στατιστική = Καθόλου, 87 Γεωπονία = Καθόλου, 69 (0.79) 43. Θρησκευτικά = Καθόλου, Ιστορία = Καθόλου, 72 Λατινικά = Καθόλου, 57 (0.79) 44. Τάξη = Γ' Μαθηματικά = Καθόλου, 71 Φύλλο = Κορίτσι 56 (0.79) 45. Φυσική = Καθόλου, Τεχνολογία = Καθόλου, 66 Γεωπονία = Καθόλου, 52 (0.79) 46. Προγραμματισμός = Καθόλου, Στατιστική = Καθόλου, 66 Γεωπονία = Καθόλου, 52 (0.79) 47. Φυσική = Καθόλου, Στατιστική = Καθόλου, 84 Μαθηματικά = Καθόλου, 66 (0.79) 48. Τεχνολογία = Καθόλου, Οικονομία = Καθόλου, 70 ΑΟΔΕ = Καθόλου, 55 (0.79) 49. Φυσική = Καθόλου, Χημεία = Καθόλου, 65 Μαθηματικά = Καθόλου, 51 (0.78) 50. Μαθηματικά = Καθόλου, Γεωγραφία - Αστρονομία = Καθόλου, 65 Φυσική = Καθόλου, 51 (0.78) 51. Φύλλο = Κορίτσι Οικονομία = Καθόλου, 83 Στατιστική = Καθόλου, 65 (0.78) www.epyna.gr
10 6 ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ 52. Γεωπονία = Καθόλου, Ψυχολογία = Πάρα πολύ 73 Φύλλο = Κορίτσι 57 (0.78) 53. Τάξη = Γ' Ψυχολογία = Πάρα πολύ 81 Φύλλο = Κορίτσι 63 (0.78) 54. Θρησκευτικά = Καθόλου, Ιστορία = Καθόλου, 72 Αρχαία Ελληνικά = Καθόλου, 56 (0.78) 55. Οικονομία = Καθόλου, Γεωπονία = Καθόλου, 85 Στατιστική = Καθόλου, 66 (0.78) 56. Κοινωνιολογία = Καθόλου, Λατινικά = Καθόλου, 76 Αρχαία Ελληνικά = Καθόλου, 59 (0.78) 57. Κοινωνιολογία = Καθόλου, Λατινικά = Καθόλου, 76 Γεωπονία = Καθόλου, 59 (0.78) 58. Κοινωνιολογία = Καθόλου, Ιστορία = Καθόλου, 67 Λατινικά = Καθόλου, 52 (0.78) 59. Οικονομία = Καθόλου, ΑΟΔΕ = Καθόλου, 84 Στατιστική = Καθόλου, 65 (0.77) 60. Ιστορία = Καθόλου, Λατινικά = Καθόλου, 97 Αρχαία Ελληνικά = Καθόλου, 75 (0.77) 61. Φυσική = Καθόλου, Μαθηματικά = Καθόλου, 88 Φύλλο = Κορίτσι 68 (0.77) 62. Φυσική = Καθόλου, Τεχνολογία = Καθόλου, 66 Φύλλο = Κορίτσι 51 (0.77) 63. Φυσική = Καθόλου, Γεωγραφία - Αστρονομία = Καθόλου, 66 Μαθηματικά = Καθόλου, 51 (0.77) 64. Φύλλο = Αγόρι Σχέδιο = Καθόλου, 70 Λατινικά = Καθόλου, 54 (0.77) 65. Θρησκευτικά = Καθόλου, Δίκαιο = Καθόλου, 73 Αρχαία Ελληνικά = Καθόλου, 56 (0.77) 66. Βιολογία = Καθόλου, 77 Γεωπονία = Καθόλου, 59 (0.77) 67. Στατιστική = Πάρα πολύ 68 Μαθηματικά = Πάρα πολύ 52 (0.76) 68. Λατινικά = μέτρια 72 Φύλλο = Κορίτσι 55 (0.76) 69. Δίκαιο = Καθόλου, ΑΟΔΕ = Καθόλου, 72 Οικονομία = Καθόλου, 55 (0.76) 70. Τάξη = Γ' Στατιστική = Καθόλου, 84 Φύλλο = Κορίτσι 64 (0.76) 71. Φυσική = Καθόλου, Στατιστική = Καθόλου, 84 Φύλλο = Κορίτσι 64 (0.76) 72. Φυσική = Καθόλου, Γεωπονία = Καθόλου, 84 Φύλλο = Κορίτσι 64 (0.76) 73. Φύλλο = Αγόρι Αρχαία Ελληνικά = Καθόλου, 96 Λατινικά = Καθόλου, 73 (0.76) 74. Μαθηματικά = Καθόλου, Στατιστική = Καθόλου, 91 Φύλλο = Κορίτσι 69 (0.76) 75. Τεχνολογία = Καθόλου, Οικονομία = Καθόλου, 70 Γεωπονία = Καθόλου, 53 (0.76) 76. Τεχνολογία = Καθόλου, ΑΟΔΕ = Καθόλου, 69 Γεωπονία = Καθόλου, 52 (0.75) 77. Στατιστική = Καθόλου, Δίκαιο = Καθόλου, 69 ΑΟΔΕ = Καθόλου, 52 (0.75) 78. Θρησκευτικά = Καθόλου, Δίκαιο = Καθόλου, 73 Λατινικά = Καθόλου, 55 (0.75) 79. Νέα Ελληνικά - Έκθεση = Πάρα πολύ 85 Φύλλο = Κορίτσι 64 (0.75) 80. Φυσική = Καθόλου, Μαθηματικά = Καθόλου, 88 Στατιστική = Καθόλου, 66 (0.75) 81. Ψυχολογία = Πάρα πολύ 150 Φύλλο = Κορίτσι 112 (0.75) 82. Φύλλο = Αγόρι Δίκαιο = Καθόλου, 71 Λατινικά = Καθόλου, 53 (0.75) 83. Σχολείο = ΓΕΛ Αγίου Μύρωνα 70 Τάξη = Α' 52 (0.74) 84. Σχέδιο = Καθόλου, Δίκαιο = Καθόλου, 70 Γεωπονία = Καθόλου, 52 (0.74) 85. Τάξη = Γ' Σχέδιο = Καθόλου, 81 Γεωπονία = Καθόλου, 60 (0.74) 86. Φύλλο = Κορίτσι Σχέδιο = Καθόλου, 77 Γεωπονία = Καθόλου, 57 (0.74) 87. Κοινωνιολογία = Καθόλου, Γεωπονία = Καθόλου, 80 Λατινικά = Καθόλου, 59 (0.74) 88. Μαθηματικά = Καθόλου, Γεωπονία = Καθόλου, 87 Στατιστική = Καθόλου, 64 (0.74) 89. Τεχνολογία = Καθόλου, Γεωπονία = Καθόλου, 94 Στατιστική = Καθόλου, 69 (0.73) 90. Θρησκευτικά = Καθόλου, Αρχαία Ελληνικά = Καθόλου, Λατινικά = Καθόλου, 71 Γεωπονία = Καθόλου, 52 (0.73) 91. Αρχαία Ελληνικά = Καθόλου, 174 Λατινικά = Καθόλου, 127 (0.73) 92. Οικονομία = Καθόλου, Μαθηματικά = Καθόλου, 74 Φυσική = Καθόλου, 54 (0.73) 93. Προγραμματισμός = Πάρα πολύ 85 Πληροφορική = Πάρα πολύ 62 (0.73) 94. Προγραμματισμός = Καθόλου, 103 Γεωπονία = Καθόλου, 75 (0.73) 95. Τεχνολογία = Πάρα πολύ 84 Φύλλο = Αγόρι 61 (0.73) 96. Κοινωνιολογία = Πολύ, 73 Φύλλο = Κορίτσι 53 (0.73) 97. Θρησκευτικά = Καθόλου, Δίκαιο = Καθόλου, 73 Γεωπονία = Καθόλου, 53 (0.73) 98. Μαθηματικά = Καθόλου, Στατιστική = Καθόλου, 91 Φυσική = Καθόλου, 66 (0.73) 99. Τάξη = Γ' Ιστορία = Καθόλου, 76 Αρχαία Ελληνικά = Καθόλου, 55 (0.72) 100. Κοινωνιολογία = Καθόλου, Λατινικά = Καθόλου, 76 Δίκαιο = Καθόλου, 55 (0.72) 101. Γεωγραφία - Αστρονομία = Καθόλου, 137 Γεωπονία = Καθόλου, 99 (0.72) 102. Δίκαιο = Καθόλου, ΑΟΔΕ = Καθόλου, 72 Στατιστική = Καθόλου, 52 (0.72) 103. Σχέδιο = Καθόλου, 147 Γεωπονία = Καθόλου, 106 (0.72) 104. Τάξη = Γ' Γεωγραφία - Αστρονομία = Καθόλου, 74 Γεωπονία = Καθόλου, 53 (0.72) 105. Τάξη = Γ' Αρχαία Ελληνικά = Καθόλου, 102 Λατινικά = Καθόλου, 73 (0.72) 106. Φυσική = Καθόλου, Γεωπονία = Καθόλου, 84 Στατιστική = Καθόλου, 60 (0.71) 107. Φυσική = Καθόλου, Στατιστική = Καθόλου, 84 Γεωπονία = Καθόλου, 60 (0.71) 108. Μαθηματικά = Καθόλου, 143 Φύλλο = Κορίτσι 102 (0.71) 109. Κοινωνιολογία = Καθόλου, Γεωπονία = Καθόλου, 80 Δίκαιο = Καθόλου, 57 (0.71) 110. ΑΟΔΕ = Καθόλου, Γεωπονία = Καθόλου, 80 Στατιστική = Καθόλου, 57 (0.71) 111. Τεχνολογία = Καθόλου, 134 Φύλλο = Κορίτσι 95 (0.71) 112. Ιστορία = Καθόλου, Γεωπονία = Καθόλου, 79 Αρχαία Ελληνικά = Καθόλου, 56 (0.71) 113. Θρησκευτικά = Καθόλου, Λατινικά = Καθόλου, 89 Γεωπονία = Καθόλου, 63 (0.71) 114. Ιστορία = Καθόλου, Αρχαία Ελληνικά = Καθόλου, Λατινικά = Καθόλου, 75 Γεωπονία = Καθόλου, 53 (0.71) 115. Στατιστική = Καθόλου, ΑΟΔΕ = Καθόλου, 81 Φύλλο = Κορίτσι 57 (0.7) 116. Στατιστική = Καθόλου, ΑΟΔΕ = Καθόλου, 81 Γεωπονία = Καθόλου, 57 (0.7) 117. Μαθηματικά = Καθόλου, Στατιστική = Καθόλου, 91 Γεωπονία = Καθόλου, 64 (0.7) 118. Οικονομία = Καθόλου, Μαθηματικά = Καθόλου, 74 Φύλλο = Κορίτσι 52 (0.7) 119. Ιστορία = Καθόλου, Δίκαιο = Καθόλου, 74 Αρχαία Ελληνικά = Καθόλου, 52 (0.7) 120. Φυσική = Καθόλου, Γεωπονία = Καθόλου, 84 Μαθηματικά = Καθόλου, 59 (0.7) 121. Οικονομία = Καθόλου, Στατιστική = Καθόλου, 94 Γεωπονία = Καθόλου, 66 (0.7) 122. Τεχνολογία = Καθόλου, 134 Γεωπονία = Καθόλου, 94 (0.7) 123. Τεχνολογία = Καθόλου, Στατιστική = Καθόλου, 87 Φύλλο = Κορίτσι 61 (0.7) 124. Μαθηματικά = Καθόλου, Γεωπονία = Καθόλου, 87 Φύλλο = Κορίτσι 61 (0.7) 125. Τεχνολογία = Καθόλου, Στατιστική = Καθόλου, 87 Οικονομία = Καθόλου, 61 (0.7) 126. Στατιστική = Καθόλου, 157 Φύλλο = Κορίτσι 110 (0.7) 127. Θρησκευτικά = Καθόλου, Γεωπονία = Καθόλου, 90 Λατινικά = Καθόλου, 63 (0.7) www.e-diktyo.eu