Πανεπιστήμιο Πατρών Τμήμα Διοίκησης Επιχειρήσεων

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Πανεπιστήμιο Πατρών Τμήμα Διοίκησης Επιχειρήσεων"

Transcript

1 Πανεπιστήμιο Πατρών Τμήμα Διοίκησης Επιχειρήσεων ΠΑΡΑΓΟΝΤΕΣ ΠΟΥ ΕΠΗΡΕΑΖΟΥΝ ΤΗΝ ΠΙΣΤΟΠΟΙΗΣΗ ΓΝΩΣΕΩΝ ΚΑΙ ΔΕΞΙΟΤΗΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕ ΧΡΗΣΗ ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΩΝ ΣΥΣΤΗΜΑΤΩΝ ΕΞΕΤΑΣΗΣ Διατριβή που υπεβλήθη για τη μερική ικανοποίηση των απαιτήσεων για την απόκτηση Διδακτορικού Διπλώματος Χριστακούδης Ξ. Χρήστος Διπλωματούχος Μηχανικός Η/Υ & Πληροφορικής Απρίλιος 2013

2 (c) Copyright by Χρήστος Ξ. Χριστακούδης 2013 All Rights Reserved ~ii~

3 Η παρούσα Διδακτορική Διατριβή του Χρήστου Ξ. Χριστακούδη με τίτλο «Παράγοντες που επηρεάζουν την πιστοποίηση γνώσεων και δεξιοτήτων πληροφορικής με χρήση αυτοματοποιημένων συστημάτων εξέτασης» εξετάστηκε και εγκρίθηκε από την ακόλουθη Επταμελή Εξεταστική Επιτροπή: Γεώργιος Ανδρουλάκης Επίκουρος Καθηγητής - Επιβλέπων Ζαγούρας Χαράλαμπος Καθηγητής Μέλος Τριμελούς Επιτροπής Αλεβίζος Φίλιππας Αναπληρωτής Καθηγητής Μέλος Τριμελούς Επιτροπής Βουτσινάς Βασίλειος Αναπληρωτής Καθηγητής Σταματίου Ιωάννης Αναπληρωτής Καθηγητής Κόμης Βασίλειος Καθηγητής Δαγδιλέλης Βασίλειος Καθηγητής ~iii~

4 Περίληψη Η πιστοποίηση των ικανοτήτων που διαθέτουν οι πολίτες αποτελεί τη βάση πάνω στην οποία στηρίζεται η σύγχρονη κοινωνία για την προσαρμογή της στις έντονα μεταλλασσόμενες συνθήκες της αγοράς και της εργασίας. Στο πλαίσιο αυτό προκύπτει επιτακτικά η ανάγκη εφαρμογής μετρικών για την εκτίμηση της διάχυσης των ικανοτήτων σε μεγάλες ομάδες πληθυσμών. Πολλά εργαλεία διερεύνησης χρησιμοποιούνται σε μεγάλη κλίμακα και βασίζονται κυρίως στο χαρτί-μολύβι αλλά με την πάροδο του χρόνου όλο και ποιο έντονα επηρεάζονται από τη χρήση εργαλείων πληροφορικής τόσο για την ανάλυση όσο και για τη διάθεσή των διαγωνισμάτων (Chalhoub Deville & Deville, 1999; Ripley, 2007; Gardner,, Holmes,, & Leitch,, 2009; OECD, 2010). Στο πλαίσιο της παρούσας διδακτορικής διατριβής παρουσιάζονται τα βασικά χαρακτηριστικά ενός αυτοματοποιημένου συστήματος εξέτασης που χρησιμοποιείται για την πιστοποίηση εκπαιδευτικών πρωτοβάθμιας και δευτεροβάθμιας εκπαίδευσης στη βασική χρήση εργαλείων πληροφορικής και αξιολογείται η εφαρμογή του συστήματος στον ελλαδικό χώρο για μεγάλο χρονικό διάστημα (~10 έτη), σε μεγάλο δείγμα εκπαιδευτικών (~ ) που καλύπτει με πληρότητα το φάσμα ειδικοτήτων (δάσκαλοι, φιλόλογοι, μαθηματικοί, φυσικοί κ.α) της πρωτοβάθμιας και δευτεροβάθμιας εκπαίδευσης και τις γεωγραφικές περιοχές της Ελλάδος (αστικές και μη αστικές περιοχές, νησιωτική ελλάδα κλπ). Στο πλαίσιο της έρευνας προτείνεται ένα μοντέλο για τη σχεδίαση, οργάνωση και συντήρηση τράπεζας δοκιμασιών που υποστηρίζει την παραγωγή διαχρονικά ισοδύναμων ηδιαγωνισμάτων, παρουσιάζονται εργαλεία για την καταγραφή των επιμέρους ιδιοτήτων και την αξιολόγηση ενός συστήματος αυτοματοποιημένης εξέτασης, αξιοποιούνται ποσοτικές μέθοδοι ανάλυσης και τεκμηριώνεται κώδικας για την αποδοτική στατιστική ανάλυση μεγάλου πλήθους δεδομένων που αφορούν στις αποκρίσεις εξεταζόμενων σε διαδοχικά ηδιαγωνίσματα. ~iv~

5 Abstract Certification of skills is the basis upon which modern society is organized in order to adapt to the highly changing market conditions and labor. Due to this context, the need for measures to estimate the diffusion of skills in large population groups is rised. Many measures are used in large scale assessment that are mainly based on paper-pencil. Over the time all these measures are strongly affected by the use of ICT tools for item analysis and for the test delivering as well.(chalhoub Deville & Deville, 1999; Ripley, 2007; Gardner,, Holmes,, & Leitch,, 2009; OECD, 2010). This Phd thesis presents the main features of a Computer Based Testing system used for the certification of teachers in primary and secondary education concerning the basic use of ICT tools. A detailed evaluation of the project has been taken place based on data concerning a long time (~ 10 years), large number of teachers (~ 100,000) with wide dispersion on cognitive objects (religious teachers, mathematicians, physicists, philogists etc.) and on geographic areas (urban and non-urban areas, insular Greece etc). The current research proposes a model for designing, organizing and maintaining an item bank in order to support the production of equivalent tests, a set of tools for estimating the properties of a Computer Based System system is presented, a number of statistical process algorithms is implemented and scripts for efficient statistical analysis of large amount of data is documented. ~v~

6 Την ερευνητική μου εργασία την αφιερώνω στους μέντορες και στους συνεργάτες που είχα την τιμή να γνωρίσω στο ITYE στη διάρκεια των χρόνων ~vi~

7 Η συνεισφορά της διατριβής και του συγγραφέα Χριστακούδης Ξ. Χρήστος Το επιστημονικό πεδίο στο οποίο εντάσσεται η παρούσα διδακτορική διατριβή αφορά στα Αυτοματοποιημένα Συστήματα Εξέτασης (Computer Based Assessment CBA) όπου οι αποκρίσεις των εξεταζόμενων καταγράφονται ηλεκτρονικά και βαθμολογούνται χωρίς τη διαμεσολάβηση του ανθρώπου. Η συγκεκριμένη διατριβή συνεισφέρει στην τεκμηρίωση ενός συνόλου από θεωρητικές και πρακτικές μεθόδους που μπορούν να εφαρμοστούν κατά τη διαχείριση εξετάσεων μεγάλης κλίμακας. Αναλυτικότερα, η συμβολή της διατριβής στο συγκεκριμένο επιστημονικό πεδίο περιλαμβάνει: την αναλυτική περιγραφή ενός μοντέλου για τη σχεδίαση, οργάνωση και συντήρηση της τράπεζας θεμάτων ενός Αυτοματοποιημένου Συστήματος Εξέτασης (Computer Based Assessment, Computer Based Testing) τη σχεδίαση ενός εργαλείου αξιολόγησης αυτοματοποιημένων συστημάτων εξέτασης για διαχείριση εξετάσεων μεγάλης κλίμακας που μπορεί να αξιοποιηθεί για την εκτίμηση της συμμόρφωσης ενός ΑΣΕ με τις διεθνείς προδιαγραφές ή για τη σχεδίαση τέτοιων συστημάτων την αξιολόγηση του αυτοματοποιημένου συστήματος που χρησιμοποιείται για την πιστοποίηση των ελλήνων εκπαιδευτικών πρωτοβάθμιας και δευτεροβάθμιας εκπαίδευσης ( ) στις βασικές ικανότητες πληροφορικής τον προσδιορισμό των παραγόντων που επηρέασαν διαχρονικά τη συμπεριφορά των ελλήνων εκπαιδευτικών κατά τη διάρκεια των εξετάσεων αλλά και των ερωτημάτων της σχετικής τράπεζας θεμάτων την περιγραφή μεθοδολογίας για τη διερμήνευση των στατιστικών αποκλίσεων που παρατηρούνται σε οικογένειες ερωτημάτων που μοιράζονται το χαρακτηριστικό του αμοιβαίου αποκλεισμού η οποία βασίζεται στη σύγχρονη θεωρία ανάλυσης αποκρίσεων (Item Response Theory IRT) την τεκμηριωμένη παράθεση μιας σειράς από κανόνες που πρέπει να ακολουθούνται ώστε να εξασφαλίζεται η διαχρονική ισοδυναμία ηδιαγωνισμάτων στο πλαίσιο εξετάσεων πιστοποίησης ικανοτήτων σε μεγάλη κλίμακα την τεκμηριωμένη παράθεση κώδικα και συναρτήσεων που υλοποιούν πρωτότυπους αλγορίθμους ανάλυσης μεγάλου όγκου δεδομένων αξιοποιώντας πακέτα (packages) που διατίθονται ελεύθερα στην επιστημονική κοινότητα μέσω της εφαρμογής στατιστικής επεξεργασίας R. ~vii~

8 Οι επιστημονικές εργασίες που τεκμηριώνουν τα αποτελέσματα και τα συμπεράσματα της διατριβής έχουν εκτεθεί στην κρίση της επιστημονικής κοινότητας, έχουν ανακοινωθεί σε ελληνικά και διεθνή συνέδρια με κριτές και έχουν δημοσιευτεί σε έγκριτα διεθνή περιοδικά: Christakoudis, X. C., Androulakis, S. G., & Zagouras, C. (2012). Teachers Certification on Basic Computer Skills. International Journal of Cyber Ethics in Education, vol 2, No.2, Christakoudis, C., Androulakis, S. G., & Zagouras, C. (2012). Παράγοντες που Επηρεάζουν την Αυτοματοποιημένη Εξέταση Σπουδαστών (σσ ). Παρουσιάστηκε στο 6ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής», ΦΛΩΡΙΝΑ. Christakoudis, C., Panoutsou, A., Androulakis, S. G., & Zagouras, C. (2012). Αυτοματοποιημένη Εξέταση Μαθητών στο Μάθημα της Πληροφορικής. 6ο Πανελλήνιο Συνέδριο Καθηγητών Πληροφορικής «Πληροφορική και Νέο Σχολείο». Παρουσιάστηκε στο 6ο Πανελλήνιο Συνέδριο Καθηγητών Πληροφορικής «Πληροφορική και Νέο Σχολείο», ΠΑΤΡΑ: Πανελλήνια Ένωση Καθηγητών Πληροφορικής - ΠΕΚΑΠ. Christakoudis, C., Androulakis, S. G., & Zagouras, C. (2011). Prepare items for Large Scale Computer Based Assessment: Case study for Teachers Certification on Basic Computer Skills. Procedia - Social and Behavioral Sciences, 29(0), Christakoudis, C., Androulakis, S. G., & Zagouras, C. (2011). Teachers Certification on Basic Computer Skills. Education and Technology: Innovation and Research (σσ ). Παρουσιάστηκε στο International Conference on Information Communication Technologies in Education, Rhodos. Christakoudis, C., & Androulakis, S. G. (2010). Αυτοματοποιημένο Σύστημα Αξιολόγησης αξιοποιώντας το λογισμικό TCExam. Παρουσιάστηκε στο Συνέδριο ΕΛΛΑΚ, Πάτρα. Christakoudis, C., Androulakis, S. G., & Zagouras, C. (2010). Πιστοποίηση Εκπαιδευτικών σε Γνώσεις και Δεξιότητες Πληροφορικής: Προκαταρκτική έρευνα. Πρακτικά Εργασιών 5ου Πανελλήνιου Συνεδρίου Διαδακτική της Πληροφορικής. Παρουσιάστηκε στο 5ο Πανελλήνιο Συνέδριο Διδακτικής της Πληροφορικής, Athens. Christakoudis, C., Androulakis, S. G., & Zagouras, C. (2010). Κατασκευή ισοδύναμων ερωτημάτων για την πιστοποίηση εκπαιδευτικών στις βασικές δεξιότητες πληροφορικής. Πρακτικά Εργασιών 7ου Πανελλήνιου Συνεδρίου με Διεθνή Συμμετοχή «Οι ΤΠΕ στην Εκπαίδευση» (Τ. II, σσ ). Παρουσιάστηκε στο 7ο Πανελλήνιου Συνεδρίου με Διεθνή Συμμετοχή «Οι ΤΠΕ στην Εκπαίδευση», Korinthos. ~viii~

9 Christakoudis, C., Androulakis, S. G., & Zagouras, C. (2010). Πιστοποίηση Εκπαιδευτικών σε Γνώσεις και Δεξιότητες πληροφορικής: η περίπτωση της Αθμιας. Πρακτικά Εργασιών 7ου Πανελλήνιου Συνεδρίου ΕΕΕΠ-ΔΤΠΕ (σσ ). Παρουσιάστηκε στο 7ο Πανελλήνιο Συνέδριο Το μέλλον της μάθησης, Πειραιας: ΕΠΙΣΤΗΜΟΝΙΚΗ ΕΝΩΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΠΡΩΤΟΒΑΘΜΙΑΣ ΓΙΑ ΤΗ ΔΙΑΔΟΣΗ ΤΩΝ Τ.Π.Ε. ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ (ΕΕΕΠ ΔΤΠΕ). Χριστακούδης, Χρήστος, & Πανούτσου, Αντωνία. (2008). Ανάπτυξη βασικών δεξιοτήτων χρήσης υπολογιστών μέσα από δραστηριότητες δημιουργίας υλικού αυτοαξιολόγησης. Πρακτικά 1ου Πανελλήνιου Εκπαιδευτικού Συνέδριου Ημαθίας με θέμα : Ψηφιακό Υλικό για την Υποστήριξη του Παιδαγωγικού Εργου των Εκπαιδευτικών Π/θμιας & Δ/θμιας Εκπαίδευσης, ΝΑΟΥΣΑ. Χριστακούδης, Χρήστος, & Κορδάκη, Μαρία. (2004). Αντιλήψεις Καθηγητών για τα Ουσιώδη και Βασικά στη Διδασκαλία της Πληροφορικής στο Γυμνάσιο (σσ ). Παρουσιάστηκε στο 4ο Συνέδριο ΕΤΠΕ- Οι ΤΠΕ στην Εκπαίδευση, Αθήνα. Το ευρύτερο πεδίο της αξιολόγησης των βασικών δεξιοτήτων πληροφορικής εντάσσεται στον τομέα της διδακτικής της πληροφορικής. Οι επιστημονικές εργασίες στις οποίες συμμετείχε ο συγγραφέας στο χώρο της διδακτικής της πληροφορικής παρατίθονται στη συνέχεια: Καραγιάννη, Ερμιόνη, Χριστακούδης, Χρήστος, Αθανασόπουλος, Δημήτριος, Παπαδάκης, Σπύρος, & Ζαγούρας, Χαράλαμπος. (2009). Η επιμόρφωση των καθηγητών πληροφορικής. Στοιχεία υλοποίησης και συμπεράσματα από την επιμόρφωση 3200 εκπαιδευτικών ΠΕ Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη. Παρουσιάστηκε στο 5ο Πανελλήνιο Συνέδριο των εκπαιδευτικών για τις ΤΠΕ-Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη, ΣΥΡΟΣ. Χριστακούδης, Χρήστος, Καραγιάννη, Ερμιόνη, Αθανασόπουλος, Δημήτριος, Παπαδάκης, Σπύρος, & Ζαγούρας, Χαράλαμπος. (2009). Ο Αλγόριθμος Ανάπτυξης Επιμορφωτικού Υλικού για Καθηγητές Πληροφορικής. Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη. Παρουσιάστηκε στο 5ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ, ΣΥΡΟΣ. Χριστακούδης, Χρήστος, Εγκαρχου, Δήμητρα, & Ζαγούρας, Χαράλαμπος. (2008). Εμπειρίες από την αξιοποίηση εργαλείων web 2.0 για την αναζωογόνηση σχολείων και την ενίσχυση της δια βίου μάθησης σε απομακρυσμένες περιοχές της Ευρώπης. Πρακτικά 6ου Πανελλήνιου Συνέδριου Εκπαιδευτικών για τις ΤΠΕ-Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη. ~ix~

10 Παπαδάκης, Σπύρος, Αθανασόπουλος, Δημήτριος, Χριστακούδης, Χρήστος, & Καραγιάννη, Ερμιόνη. (2007). Πώς μπορούμε να δώσουμε κίνητρα και να ενθαρρύνουμε τη συμμετοχή στη δια βίου μάθηση ατόμων από ευάλωτες κοινωνικές ομάδες; Παρουσιάστηκε στο 4o Διεθνές Συνέδριο για την Ανοικτή και εξ Αποστάσεως Εκπαίδευση Μορφές Δημοκρατίας στην Εκπαίδευση: Ανοικτή Πρόσβαση και εξ Αποστάσεως Εκπαίδευση, Πειραιάς. Χριστακούδης, Χρήστος, & Πανούτσου, Αντωνία. (2005). Ιστοεξερεύνηση για τη Διδασκαλία της Ενότητας «Ο Υπολογιστής στη Ζωή μας». Πρακτικά Εργασιών 3ου Πανελλήνιου Συνεδρίου «Διδακτική της Πληροφορικής». Παρουσιάστηκε στο 3ο Συνέδριο Διδακτική της Πληροφορικής, Κόρινθος: Πανεπιστήμιο Πελοποννήσου. Χριστακούδης, Χρήστος. (2005). Στρεβλώσεις από τη χρήση των ΤΠΕ στη διοίκηση της εκπαίδευσης. Παρουσιάστηκε στο 2ο Πανελλήνιο Συνέδριο με θέμα Διοίκηση Αθμιας και Βθμιας Εκπαίδευσης, ΑΡΤΑ. Χριστακούδης, Χρήστος. (2005). Η τεχνική της Ιστοεξερεύνησης (WebQuest) στη διδασκαλία της Πληροφορικής στο Γυμνάσιο". Παρουσιάστηκε στο Διδακτική της Πληροφορικής. Χριστακούδης, Χρήστος. (2004). Διδακτική προσέγγιση των διαγραμμάτων ροής σε περιβάλλον συνεργατικής μάθησης στο Γυμνάσιο. Παρουσιάστηκε στο 2η Πανελλήνια Διημερίδα με Διεθνή συμμετοχή Διδακτική της Πληροφορικής, ΒΟΛΟΣ: Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης. Παπαδάκης, Σπύρος, Χριστακούδης, Χρήστος, & Αθανασόπουλος, Δημήτριος. (2005). ΔΙΑΔΙΚΤΥΑΚΗ ΚΟΙΝΟΤΗΤΑ ΜΑΘΗΣΗΣ ΚΑΙ ΑΥΤΟ-ΕΠΙΜΟΡΦΩΣΗΣ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ. 3ο ΣΥΝΕΔΡΙΟ ΣΤΗ ΣΥΡΟ-ΤΠΕ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ (σσ ). Παρουσιάστηκε στο 3ο ΣΥΝΕΔΡΙΟ ΣΤΗ ΣΥΡΟ-ΤΠΕ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ, Σύρος. Βογιατζάκη, Ελένη, Χριστακούδης, Χρήστος, & Μαργαρίτης, Μελέτης. (2005). ΣΧΕΔΙΑΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΔΡΑΣΤΗΡΙΟΤΗΤΩΝ ΑΠΟ ΕΚΠΑΙΔΕΥΤΙΚΟΥΣ: ΣΥΝΕΡΓΑΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΕ ΣΥΓΧΡΟΝΑ ΚΑΙ ΑΣΥΓΧΡΟΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ ΣΥΝΕΡΓΑΣΙΑΣ ΥΠΟΣΤΗΡΙΖΟΜΕΝΑ ΑΠΟ ΥΠΟΛΟΓΙΣΤΗ. 3ο Συνέδριο Σύρου στις ΤΠΕ (σσ ). Παρουσιάστηκε στο 3ο Συνέδριο Σύρου στις ΤΠΕ, ΣΥΡΟΣ. Βογιατζάκη, Ελένη, & Χριστακούδης, Χρήστος. (2004). Conceptual Change in Algorithms Teaching: A Collaborative Approach. Παρουσιάστηκε στο Οι ΤΠΕ στην Εκπαίδευση, ΑΘΗΝΑ. Βογιατζάκη, Ελένη, Χριστακούδης, Χρήστος, & Μαργαρίτης, Μελέτης. (2004). Διδασκαλία αλγορίθμων σε περιβάλλον συνεργασίας με υπολογιστή. Πρακτικά 4ου Συνέδριο ΕΤΠΕ Οι ΤΠΕ στην Εκπαίδευση (σσ ). Παρουσιάστηκε στο 4ο Συνέδριο ΕΤΠΕ Οι ΤΠΕ στην Εκπαίδευση. ~x~

11 Χριστακούδης, Χρήστος, Βογιατζάκη, Ελένη, & Βαμβακά, Κυριακή. (2004). Σχεδίαση διαθεματικών δραστηριοτήτων επικοινωνίας στα πλαίσια του ευρωπαϊκού έργου MULTIVERSUM: Ο ρόλος της Πληροφορικής (σσ ). Παρουσιάστηκε στο 2η Πανελλήνια Διημερίδα με διεθνή συμμετοχή «Διδακτική της Πληροφορικής». Χριστακούδης, Χρήστος. (2004). Επαναχρησιμοποίηση Ιστοσελίδων Σχολείων μέσα από αυθεντικές και Διαθεματικές Δραστηριότητες Επικοινωνίας. Παρουσιάστηκε στο 2ο ΠΑΝΕΛΛΗΝΙΟ Συνέδριο Πληροφορικής με θέμα Πληροφορική και Εκπαίδευση, ΘΕΣΣΑΛΟΝΙΚΗ: Πανεπιστήμιο Μακεδονίας. Χριστακούδης, Χρήστος. (2004). Εμπειρίες από την εισαγωγή καινοτομιών στο Ελληνικό Σχολείο. Το πρόγραμμα Σωκράτης Comenius 3.1 Multiversum. Παρουσιάστηκε στο Εκπαιδευτική Συνάντηση για την Παιδεία με θέμα: Εκπαιδευτικοί Προβληματισμοί - Καινοτομίες, ΠΑΤΡΑ. Χριστακούδης, Χρήστος. (2004). Δραστηριότητα Ηλεκτρονικής Συνεργασίας. Η εμπειρία του Γυμνάσιου Βραχνεΐκων στο πλαίσιο του Ευρωπαϊκού Προγράμματος Comenius 3.1 Multiversum. Παρουσιάστηκε στο e-collaboration for Students and Teachers: Tools, Methods and Exambles of Good Practice, ΠΑΤΡΑ. Γάκης, Παναγιώτης, & Χριστακούδης, Χρήστος. (2000). Η ΟΔΥΣΣΕΙΑ ΕΝΟΣ ΕΠΙΜΟΡΦΩΤΗ ΤΗΣ ΟΔΥΣΣΕΙΑΣ... 1ο ΣΥΝΕΔΡΙΟ ΣΤΗ ΣΥΡΟ ΤΠΕ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ (σσ ). Παρουσιάστηκε στο 1ο ΣΥΝΕΔΡΙΟ ΣΤΗ ΣΥΡΟ ΤΠΕ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ, Σύρος. ~xi~

12 Πίνακας Περιεχομένων Η συνεισφορά της διατριβής και του συγγραφέα... vii Ευχαριστίες Εισαγωγή Αυτοματοποιημένα Συστήματα Εξέτασης και ηαξιολόγηση Εξετάσεις μεγάλης κλίμακας στην Ελλάδα Περιγραφή του ερευνητικού προβλήματος Θεωρητικό Πλαίσιο Κατηγορίες εξετάσεων Προδιαγραφές ανάπτυξης Αυτοματοποιημένων Συστημάτων Εξέτασης Η σημασία της κατασκευής ισοδύναμων ηδιαγωνισμάτων Τα βασικά χαρακτηριστικά μιας Τράπεζας Θεμάτων (item bank) Ανάλυση ερωτημάτων (item analysis) και ηδιαγωνισμάτων (test analysis) Κλασσική Θεωρία Ανάλυσης Διαγωνισμάτων (Classical Test Theory - CTT) Ανάλυση διαγωνίσματος (test analysis) στο πλαίσιο της Κλασσικής θεωρίας Αξιοπιστία διαγωνίσματος (reliability): Εγκυρότητα διαγωνίσματος (validity): Ανάλυση ερωτημάτων (item analysis) στο πλαίσιο της Κλασσικής θεωρίας Δείκτης δυσκολίας Δείκτης διακριτικότητας (item discrimination) Συγκρισιμότητα της βαθμολογίας των εξεταζόμενων Θεωρία Ανάλυσης Αποκρίσεων (Item Response Theory) Ανάλυση ερωτημάτων (item analysis) στο πλαίσιο της IRT Ανάλυση η-διαγωνισμάτων (test analysis) στο πλαίσιο της IRT Χαρακτηριστική Καμπύλη Διαγωνίσματος (Test Characteristic Curve TCC) Συνάρτηση Πληροφορίας Διαγωνίσματος (Test Information Function TIF) Έλεγχος διαφοροποιήσεων (Differential Item Functioning - DIF) Εκτίμηση της σημαντικότητας των διαφορών δύο χαρακτηριστικών εξισώσεων Εκτίμηση της λανθάνουσας ικανότητας των εξεταζόμενων... 57

13 2.6 Ποιοι παράγοντες επηρεάζουν τις ικανότητες χειρισμού ενός υπολογιστή; Αρχές σχεδίασης ΑΣΕ για πιστοποίηση βασικών ικανοτήτων πληροφορικής Πίνακας εξεταζόμενης ύλης (syllabus) Οργάνωση της τράπεζας θεμάτων Ο κύκλος ανάπτυξης των ερωτημάτων Οι ρόλοι των ανθρώπων που εμπλέκονται Οι ενδιάμεσες καταστάσεις ενός ερωτήματος Η διαδικασία της κλωνοποίησης δοκιμασιών για τη δημιουργία οικογενειών (families) Γεννήτορας παραγωγής η-διαγωνισμάτων Υποστηρικτικά Εργαλεία Διαδικασίες πιστοποίησης Ερευνητική εργασία Έλεγχος συμμόρφωσης του ΑΣΕ εκπαιδευτικών με τις διεθνείς προδιαγραφές Α. Τεχνολογικές προδιαγραφές Β. Προδιαγραφές ποιότητας Γ. Προδιαγραφές πρόσβασης και ελέγχου Δ. Προδιαγραφές ασφάλειας Το προφίλ των καταγεγραμμένων δεδομένων του δείγματος Άξονας ηδιαγωνισματα Μεθοδολογία ανάλυσης ηδιαγωνισματων Ανάλυση του ΧΡΟΝΟΥ ολοκλήρωσης των ηδιαγωνισματων Ανάλυση της πληροφορίας (information) που εμπεριέχουν τα ηδιαγωνίσματα Έκθεση των κόμβων εξεταζόμενης ύλης από τα ηδιαγωνίσματα Άξονας ΕΡΩΤΗΜΑΤΑ Μεθοδολογία ανάλυσης ΕΡΩΤΗΜΑΤΩΝ Ανάλυση χρόνου απόκρισης ανά επίπεδο δυσκολίας ερωτήματος Χρόνος απόκρισης ανά γνωστικό αντικείμενο Χρόνος απόκρισης ανά τύπο ερώτησης Χρόνος απόκρισης σωστών και λανθασμένων ερωτημάτων Σταδιακή έκθεση των ερωτημάτων Εκτίμηση της ποιότητας των ερωτημάτων Δείκτης δυσκολίας των ερωτημάτων Δείκτης διακριτικής ικανότητας P a g e

14 4.8.8 Μελέτη οικογενειών Άξονας ΕΞΕΤΑΖΟΜΕΝΟΙ Μεθοδολογία ανάλυσης για ΕΞΕΤΑΖΟΜΕΝΟΥΣ Αποτελέσματα παραγοντικής ανάλυσης για ΕΞΕΤΑΖΟΜΕΝΟΥΣ Το προφίλ ομάδων εξεταζόμενων Ανάλυση της συμπεριφοράς των κλάδων Συμπεράσματα ΠΑΡΑΡΤΗΜΑΤΑ Παράρτημα Α (πίνακας εξεταζόμενης ύλης syllabus) Παράρτημα Β (δείγματα ερωτημάτων) Παράρτημα Γ (εργαλείο αξιολόγησης ΑΣΕ) Α. Τεχνολογικές προδιαγραφές Β. Προδιαγραφές ποιότητας Γ. Προδιαγραφές πρόσβασης και ελέγχου Δ. Προδιαγραφές ασφάλειας Παράρτημα Δ (ερωτήματα με μεγάλο δείκτη έκθεσης) Παράρτημα Ε (ερωτήματα με μη-αποδεκτό δείκτη δυσκολίας) Παράρτημα Ζ (ερωτήματα με μη-αποδεκτό δείκτη διακριτικής ικανότητας) Παράρτημα Η (δείγμα κώδικα για IRT ανάλυση) Παράρτημα Θ (κώδικας για αυτοματοποιημένη ανάλυση ερωτημάτων) Πίνακας όρων ΒΙΒΛΙΟΓΡΑΦΙΑ P a g e

15 Κατάλογος Πινακων Πίνακας 1: Πως τεκμηριώνεται η εγκυρότητα ενός διαγωνίσματος Πίνακας 2: Πίνακας αξιολόγησης ερωτήματος (Ebel & Frisbie, 1991) Πίνακας 3: Συναρτήσεις πληροφορίας για τα βασικά μοντέλα IRT Πίνακας 4: Ποσότητες SA kl και UA kl για μοντέλο μιας παραμέτρου (1PL) Πίνακας 5: Ποσότητες SA 2l και UA 2l για μοντέλο δύο παραμέτρων (2PL) Πίνακας 6: Ποσότητες SA 3l και UA 3l για μοντέλο τριών παραμέτρων (3PL) Πίνακας 7: Εκτίμηση της σημαντικότητας των παρατηρούμενων διαφορών σε ICCs Πίνακας 8 : Τύποι ερωτήσεων που συμμετέχουν στις εξετάσεις πιστοποίησης Πίνακας 9: Το προφίλ ενός ηδιαγωνίσματος Πίνακας 10: Κάλυψη προδιαγραφών του ΑΣΕ εκπαιδευτικών Πίνακας 11: Κάλυψη προδιαγραφών του ΑΣΕ Πίνακας 12: Προτάσεις βελτίωσης του ΑΣΕ εκπαιδευτικών Πίνακας 13: Αποτελέσματα πιστοποιήσεων στη διάρκεια των χρόνων Πίνακας 14: Εκτίμηση της μέσης έκθεσης των ενοτήτων στα ηδιαγωνίσματα Πίνακας 15: Εκτίμηση της έκθεσης των υποενοτήτων στα ηδιαγωνίσματα Πίνακας 16: Εκτίμηση της έκθεσης των θεμάτων στα ηδιαγωνίσματα Πίνακας 17: Μέτρα θέσης και απόκλισης για το χρόνο απόκρισης στα ερωτήματα Πίνακας 18: Στατιστικά στοιχεία ερωτημάτων με τη μεγαλύτερη έκθεση Πίνακας 19: Αξιολόγηση ερωτημάτων με την κλίμακα των Ebel & Frisbie Πίνακας 20: Διαφορές στα στατιστικά χαρακτηριστικά οικογενειών Πίνακας 21:Τιμές pvalues μονοπαραγοντικών, μη-παραμετρικών ελέγχων Kruskal-Wallis Πίνακας 22: Προφίλ επιτυχιών Πίνακας 23: Προφίλ εγκαταλείψεων (give ups) Πίνακας 24: Μέτρα θέσης μεταβλητών Πίνακας 25: Αντιστοίχιση κλάδων με ειδικότητες εκπαιδευτικών Πίνακας 26: Χρόνος απόκρισης ανά ειδικότητα εξεταζόμενου Πίνακας 27: Χρόνος απόκρισης ανά ηλικία εξεταζόμενου Πίνακας 28: Η γραμμογράφιση του αρχείου με τις απαντήσεις των εξεταζόμενων P a g e

16 Κατάλογος Σχημάτων Σχήμα 1: Η μορφή της χαρακτηριστικής καμπύλης ενός ερωτήματος (ICC) Σχήμα 2: H μορφή μιας χαρακτηριστικής καμπύλης διαγωνίσματος Σχήμα 3: Συνάρτηση Πληροφορίας Διαγωνίσματος (Test Information Function) Σχήμα 4: Παράδειγμα χαρακτηριστικών ενός ερωτήματος (α) P(θ) και (β) Q=1-P(θ) Σχήμα 5: Μέγιστο σημείο της συνάρτηση L Σχήμα 6: Διαχείριση του πίνακα εξεταζόμενης ύλης στο εργαλείο συγγραφής δοκιμασιών Σχήμα 7: Τυπικό δείγμα μεικτού ερωτήματος (τύπου ΙΙΙ) Σχήμα 8: Παράδειγμα ερωτήματος εφαρμογής (τύπου ΙΙ) Σχήμα 9: Η μορφή του προγράμματος βαθμολόγησης για ένα ερώτημα εφαρμογής Σχήμα 10: Η εσωτερική δομή ενός ερωτήματος Σχήμα 11: Τα στάδια ανάπτυξης ενός ερωτήματος Σχήμα 12: Τα βασικά εργαλεία που αναπτύχθηκαν και χρησιμοποιήθηκαν Σχήμα 13: Κατανομή ηλικίας ανά βαθμίδα εκπαίδευσης Σχήμα 14: Μέσος χρόνος ολοκλήρωσης των ηδιαγωνισμάτων Σχήμα 15: Κατανομή του χρόνου που επιτυγχάνεται η βάση εξέτασης Σχήμα 16: Χαρακτηριστικές Καμπύλες Διαγωνισμάτων δείγματος Σχήμα 17: Μέση πληροφορία των ηδιαγωνισμάτων του δείγματος Σχήμα 18: Η έκθεση των γνωστικών αντικειμένων σε κάθε ηδιαγώνισμα Σχήμα 19: Θηκογράμματα της έκθεσης των κόμβων του πίνακα εξεταζόμενης ύλης Σχήμα 20: Αλγόριθμος ανάλυσης οικογενειών Σχήμα 21: Αντιπαραβολή ερωτημάτων μιας οικογένειας βασισμένη στο IRT προφίλ τους Σχήμα 22: Μέσος χρόνος απόκρισης στα ερωτήματα (α) ιστόγραμμα (β) θηκόγραμμα Σχήμα 23: Μέσος χρόνος απόκρισης στα ερωτήματα Σχήμα 24: Θηκογράμματα ανά γνωστικό αντικείμενο Σχήμα 25: θηκογράμματα χρόνου απόκρισης Σχήμα 26: θηκογράμματα μέσου χρόνου απόκρισης Σχήμα 27: Έκθεση ερωτημάτων σε εξεταζόμενους Σχήμα 28: Τα ερωτήματα με το μεγαλύτερο βαθμό έκθεσης Σχήμα 29: Σχέση του βαθμού έκθεσης με το ποσοστό επιτυχίας P a g e

17 Σχήμα 30: Δείκτης δυσκολίας (difficulty index) Σχήμα 31: Κατανομή των μη-αποδεκτών ερωτημάτων με βάση το δείκτη δυσκολίας Σχήμα 32: Παραδείγματα ερωτήσεων που εμφανίζουν ακραία ποσοστά επιτυχίας/αποτυχίας 119 Σχήμα 33: Διακριτική ισχύς των ερωτημάτων Σχήμα 34: Δείκτης διακριτικότητας ανά γνωστικό αντικείμενο Σχήμα 35: Το προφίλ ομάδων ανάλογα με το χρόνο ολοκλήρωσης και το αποτέλεσμα P a g e

18 18 P a g e

19 Ευχαριστίες Χριστακούδης Ξ. Χρήστος Το ταξίδι στην έρευνα δεν είναι (ή δεν πρέπει να είναι) ποτέ μοναχικό. Τα αποτελέσματα συνήθως στηρίζονται στη γόνιμη συνεργασία καθηγητών, συναδέλφων και φίλων που μοιράζονται την καθημερινότητά τους στο χώρο εργασίας και διδασκαλίας. Η παρούσα διδακτορική διατριβή βασίζεται στην εμπειρία που συνδιαμορφώθηκε από πλειάδα συνεργατών στη Διεύθυνση Εκπαίδευσης και Πιστοποίησης του Ινστιτούτου Τεχνολογίας Υπολογιστών και Εκδόσεων - Διόφαντος, στο πλαίσιο έργων πιστοποίησης εκπαιδευτικών σε ένα χρονικό παράθυρο δέκα ετών. Στο πλαίσιο αυτής της μακράς πορείας αισθάνομαι την υποχρέωση να ευχαριστήσω και να αναφερθώ σύντομα στους ανθρώπους που με στήριξαν, με βοήθησαν και με παρότρυναν να συνεχίσω την έρευνα. Ο επιβλέπων της διατριβής μου, επίκουρος καθηγητής στο τμήμα Διοίκησης Επιχειρήσεων του Πανεπιστήμιου Πατρών κος Γεώργιος Ανδρουλάκης, με καθοδήγησε αποτελεσματικά με την απλότητα και την αμεσότητά που τον διακρίνει σε όλα τα βήματα της έρευνάς μου. Ο καθηγητής του τμήματος Μαθηματικών του Πανεπιστήμιου Πατρών και διευθυντής της Διεύθυνσης Εκπαίδευσης και Κατάρτισης του ΙΤΥΕ κος Χαράλαμπος Ζαγούρας με εμπιστεύτηκε και με διευκόλυνε στην προσπάθεια ανάληψης πρωτοβουλιών στο πλαίσιο της ερευνητικής μου εργασίας. Ο αναπληρωτής καθηγητής του τμήματος Μαθηματικών στο Πανεπιστήμιο της Πατρών κος Αλεβίζος Φίλιππος, με την ιδιότητα του μέλους της τριμελούς επιτροπής, με βοήθησε στο να βελτιώσω τα στατιστικά μοντέλα που εφάρμοσα στην πρωτογενή έρευνα με τις καίριες επισημάνσεις του. Ο αναπληρωτής διευθυντής της Διεύθυνσης Εκπαίδευσης και Κατάρτισης του ΙΤΥΕ κος Παναγιώτης Σκοινιώτης μοιράστηκε μαζί μου ατέλειωτες ώρες γόνιμων συζητήσεων γύρω από μεθόδους και τεχνικές ανάλυσης δεδομένων διερύνοντας έτσι τους γνωστικούς μου ορίζοντες. Ιδιαίτερες ευχαριστίες οφείλω στους συνεργάτες μου Αναστάσιο Τριάντη, Γιάννη Λαμπρινό και Χρήστο Ροδοσθένους που μου παρείχαν αμέριστη συμπαράσταση σε κάθε εξειδικευμένο θέμα που απαιτούσε ειδική λύση στη διάρκεια των χρόνων. Δεν μπορώ να ξεχάσω την Αναστασία Κολιού, την Ασημίνα Χρυσοφάκη, την Χριστίνα Μαρκέα και τον Γιώργο Πανόπουλο που με τις εύστοχες παρατηρήσεις τους βοήθησαν στο να βελτιωθεί η τράπεζα θεμάτων του αυτοματοποιημένου συστήματος εξέτασης. Ευχαριστώ επίσης τους νεώτερους συνεργάτες μου Νένα Καραγιάννη, Ιωάννη Κάτσενο, Γεώργιο Ζαγούρα, Λεωνίδα Σιούτη, Σπύρο Χριστοδούλου, Μυρτώ Πυρλή, Τσουραπούλη Μαρία, Μπούρου Αναστασία και Βαρβάρα Γιαννούλη που με τις ικανότητές τους αλλά και τον κρυστάλλινο χαρακτήρα τους δημιουργούν καθημερινά ένα ευχάριστο κλίμα συνεργασίας. 19 P a g e

20 Ιδιαίτερη αναφορά oφείλω στους αγαπητούς φίλους και συνεργάτες Δημήτρη Αθανασόπουλο και Σπύρο Παπαδάκη που αξιολόγησαν τα ερωτήματα τόσο από εκπαιδευτική όσο και από τεχνική σκοπιά, στην Ντίνα Πλέσσα και στην Κωνσταντίνα Νικολαϊδη που συνέβαλαν καθοριστικά στη συγγραφή των ερωτημάτων της τράπεζας θεμάτων και στον μαθηματικό κο Παναγιώτη Τάγιο που με παρέσυρε στον όμορφο κόσμο της στατιστικής ανάλυσης με το R. Αναγνωρίζω με ευγνωμοσύνη τη βοήθεια και την αμέριστη υποστήριξη της γυναίκας μου Αντωνίας Πανούτσου που επωμίστηκε αγόγγυστα τα οικογενειακά βάρη και εύχομαι η προσπάθειά μου να αποτελέσει παράδειγμα για τις κόρες μου Αναστασία και Μαργαρίτα και να παρακινήσει τα δικά τους βήματα στο στίβο της μάθησης και της επιστήμης αργότερα. Η βάση πάνω στην οποία στηρίχθηκε η παρούσα διατριβή είναι προηγούμενες επιστημονικές έρευνες και ιδέες συνεργατών αλλά, όπως συμβαίνει σε κάθε συγγραφικό έργο, η τελική ευθύνη για το αποτέλεσμα βαρύνει εμένα προσωπικά. 20 P a g e

21 1. Εισαγωγή Χριστακούδης Ξ. Χρήστος Η πιστοποίηση των ικανοτήτων που διαθέτουν οι πολίτες αποτελεί τη βάση πάνω στην οποία στηρίζεται η σύγχρονη κοινωνία στο πλαίσιο ενός αγώνα για την προσαρμογή της στις έντονα μεταλλασσόμενες συνθήκες της αγοράς και της εργασίας. Τα τελευταία χρόνια στο πλαίσιο της ενιαίας Ευρωπαϊκής πολιτικής έχει οριστεί ένα σύνολο ικανοτήτων που είναι επιθυμητό να κατέχουν οι Ευρωπαίοι πολίτες. Στο πλαίσιο αυτό προσδιορίζεται με σαφήνεια το τι πρέπει να ξέρει (knowledge), το τι μπορεί να κάνει (skills) και το ποιες στάσεις πρέπει να έχει (attitudes) ο πολίτης. Το πλαίσιο αυτό ορίζει οκτώ βασικές ικανότητες: 1. ικανότητα επικοινωνίας στη μητρική γλώσσα 2. ικανότητα επικοινωνίας χρησιμοποιώντας άλλες γλώσσες (γλωσσομάθεια) 3. ικανότητα εφαρμογής μαθηματικών και τεχνολογικών γνώσεων 4. ικανότητα διαχείρισης του ψηφιακού κόσμου 5. ικανότητα να μαθαίνει 6.ικανότητα κοινωνικής συνύπαρξης 7. ικανότητα ανάληψης πρωτοβουλιών και επιχειρηματικότητα 8. ικανότητα έκφρασης και πολιτιστικής συνείδησης Όλες αυτές οι ικανότητες θεωρούνται πλέον ισοδύναμες και αποτελούν το αντικείμενο καλλιέργειας και ανάπτυξης των εκπαιδευτικών συστημάτων στο χώρο της Ευρώπης. Στο πλαίσιο αυτό προκύπτει επιτακτικά η ανάγκη εφαρμογής μετρικών για την εκτίμηση της διάχυσης των ικανοτήτων σε μεγάλες ομάδες πληθυσμών. Πολλά εργαλεία διερεύνησης χρησιμοποιούνται σε μεγάλη κλίμακα και βασίζονται κυρίως στο χαρτί-μολύβι αλλά με την πάροδο του χρόνου όλο και ποιο έντονα επηρεάζονται από τη χρήση εργαλείων πληροφορικής τόσο για την ανάλυση όσο και για τη διάθεσή των διαγωνισμάτων (Chalhoub Deville & Deville, 1999; Ripley, 2007; Gardner,, Holmes,, & Leitch,, 2009; OECD, 2010) 1.1 Αυτοματοποιημένα Συστήματα Εξέτασης και ηαξιολόγηση Η διαδικασία αξιολόγησης των γνώσεων, δεξιοτήτων και στάσεων ενός εκπαιδευόμενου μπορεί να εξυπηρετεί δύο διακριτούς σκοπούς: (α) αξιολόγηση με σκοπό την υποστήριξη της μαθησιακής διαδικασίας (τυπική αξιολόγηση) και αξιολόγηση των μαθησιακών αποτελεσμάτων (αθροιστική αξιολόγηση). Στο πλαίσιο αυτό η μέτρηση των εκπαιδευτικών αποτελεσμάτων αποκτά ιδιαίτερη σημασία όταν αφορά μεγάλες ομάδες πληθυσμών. Οι διαδικασίες αποτίμησης του εκπαιδευτικού αποτελέσματος έχουν επηρεαστεί τις τελευταίες δεκαετίες από την έντονη χρήση εργαλείων πληροφορικής. Τις διάφορες τεχνικές αποτίμησης της εκπαιδευτικής απόδοσης μπορούμε να τις 21 P a g e

22 οργανώσουμε στις παρακάτω γενικές κατηγορίες: (α) εξετάσεις με υπολογιστή όπου έχουμε απλή μεταφορά των παραδοσιακών διαγωνισμάτων σε ηλεκτρονική μορφή (β) προσαρμοστικά διαγωνίσματα όπου η προβολή των δοκιμασιών δεν είναι προκαθορισμένη από την αρχή και προσαρμόζεται ανάλογα με τις απαντήσεις του εξεταζόμενου (γ) συνολική αποτίμηση της πορείας ενός εξεταζόμενου καθώς εκπαιδεύεται μέσα από τη δημιουργία ενός φακέλου που διαμορφώνει το μαθησιακό του προφίλ (portfolios) και (δ) ευέλικτες πολιτικές βαθμολόγησης με απώτερο στόχο την ανατροφοδότηση της εκπαιδευτικής διαδικασίας (Bunderson & And Others, 1988) Η έντονη χρήση της πληροφορικής στην εκπαίδευση (και όχι μόνο) οδήγησε στην καθιέρωση νέων μορφών δραστηριότητας που συχνά χαρακτηρίζονται σαν ηλεκτρονικές δηλώνοντας την αξιοποίηση εφαρμογών και εργαλείων πληροφορικής (elearning, eassessment κλπ). Στο πλαίσιο αυτό η ηαξιολόγηση (eassessment) αφορά στη χρήση της τεχνολογίας για την ψηφιοποίηση του παρεχόμενου υλικού, τη διάθεσή του μέσα από υπολογιστικές συσκευές και την αναδιοργάνωση των διαδικασιών εξέτασης-αξιολόγησης (JISC, 2006). Η εφαρμογή τέτοιων μορφών εξέτασης μπορεί να αφορά σε τυπικές εξετάσεις μέσα στο σχολείο ή στην τάξη αλλά και σε μεγάλα έργα αξιολόγησηςπιστοποίησης σε εθνική ή διεθνη κλίμακα που δεν έχουν απαραίτητα σχέση με το τυπικό εκπαιδευτικό σύστημα και απλά αποσκοπούν στην πιστοποίηση μιας σειράς προσόντων. Τα τελευταία χρόνια παρατηρείται έντονη τάση για εφαρμογή Αυτοματοποιημένων Συστημάτων Εξέτασης ΑΣΕ (Computer Based Assessment - CBA, Computer Based Testing - CBT) στη διαχείριση εξετάσεων ευρείας κλίμακας (large scale certification). Τα ΑΣΕ είναι ολοκληρωμένες εφαρμογές για την υλοποίηση της ηαξιολόγησης κυρίως μέσα από τη διαχείριση ηδιαγωνισμάτων όπου οι αποκρίσεις των εξεταζόμενων καταγράφονται ηλεκτρονικά, οργανώνονται σε μεγάλες βάσεις δεδομένων και τα τελικά αποτελέσματα υπόκεινται σε μαζική επεξεργασία. Συνήθως οι δοκιμασίες από τις οποίες αποτελούνται τα ηδιαγωνίσματα οργανώνονται σε μεγάλες τράπεζες θεμάτων (item banks) και η στάθμιση των επιμέρους ερωτημάτων γίνεται με ποσοτικές μεθόδους ανάλυσης. Τα ΑΣΕ έχουν μερικά πολύ σημαντικά πλεονεκτήματα σε σχέση με τις παραδοσιακές εξετάσεις σε χαρτί-μολύβι: αποδοτική συλλογή δεδομένων, ευελιξία στη βαθμολόγηση, εύκολη παραγωγή αναφορών, αυτοματοποιημένη επεξεργασία, ευελιξία στην εφαρμογή κανόνων βαθμολόγησης, καταλληλότητα για αποδοτική εξέταση μεγάλου πλήθους εξεταζόμενων κ.α. Τα ιδιαίτερα πλεονεκτήματα των συστημάτων αυτών βρίσκουν εφαρμογή στη διαχείριση εξετάσεων μεγάλης κλίμακας και πολλά επιτυχή συστήματα έχουν αναπτυχθεί τα τελευταία χρόνια (Asuni, 2008; Funke, 2002). Παρόλα αυτά, κατά την αξιοποίηση τέτοιων συστημάτων μια σειρά από παράγοντες συνεχίζουν 22 P a g e

23 να επηρεάζουν τη διαδικασία της εξέτασης όπως είναι η διαχρονική ισοδυναμία των εξετάσεων ή ο βαθμός έκθεσης των δοκιμασιών σε μεγάλες ομάδες εξεταζόμενων (MARTIN, 2003). Οι μέθοδοι που προτείνονται για τη στατιστική ανάλυση των δοκιμασιών πολλές φορές συνοδεύονται από όρια και προϋποθέσεις (για παράδειγμα στατιστική ανεξαρτησία ανάμεσα στις επιμέρους δοκιμασίες τις οποίες αντιμετωπίζει ο εξεταζόμενος). Παρά τη μεγάλη αποδοχή της επιστημονικής κοινότητας για τη συνεισφορά της πληροφορικής στη διαδικασία αποτίμησης της εκπαιδευτικής απόδοσης μέσα από αυτοματοποιημένα ηδιαγωνίσματα, ενστάσεις εγείρονται για το ότι προσπαθούμε να εκτιμήσουμε ποσοτικά μια καθαρά ποιοτική διαδικασία όπως είναι η διαδικασία της μάθησης. Έτσι, αντί για την οργάνωση τεράστιων βάσεων δεδομένων με δοκιμασίες που ελέγχουν στοιχειώδεις γνώσεις ή δεξιότητες αντιπροτείνεται η αξιοποίηση υπολογιστικών συστημάτων για την αξιολόγηση σύνθετων γνωστικών σχημάτων μέσα από την αντιμετώπιση πραγματικών προβλημάτων που μπορούν να παρουσιαστούν ή να προσομοιαστούν με τη χρήση υπολογιστών. Στο πλαίσιο τέτοιων σύνθετων έργων ο εξεταζόμενος καλείται να ακολουθήσει ένα σύνολο από μη στοιχειώδη βήματα που έχουν άμεση σχέση με το γνωστικό αντικείμενο στο οποίο εξετάζεται και παράλληλα πρέπει να εκτελεί κάποιες νοητικές λειτουργίες. Έτσι, η αξιολόγηση των μεμονωμένων λύσεων που δίνει ο εξεταζόμενος αντιμετωπίζονται σαν ένα ενιαίο και ανεξάρτητο σύνολο για το οποίο δεν μπορούμε να βασιστούμε στην υπόθεση της στατιστικής ανεξαρτησίας (Williamson, Mislevy, & Bejar, 2006). Στο πλαίσιο αυτό γίνεται προσπάθεια να ενσωματωθεί η διαδικασία της αξιολόγησης μέσα στη διαδικασία της μάθησης έτσι ώστε να συνεισφέρει στη διαμορφωτική αξιολόγηση. Παρόλα αυτά, υπάρχουν περιπτώσεις όπου η ανάγκη για πιστοποίηση ικανοτήτων δε σχετίζεται απαραίτητα με μια φάση τυπικής εκπαίδευσης. Η δυνατότητα αυτοματοποιημένης καταγραφής των αποκρίσεων των εξεταζόμενων σε συνδυασμό με την ανάπτυξη νέων μορφών δοκιμασιών που αξιοποιούν την παρουσία των υπολογιστών καθώς και οι αλγόριθμοι παραγωγής ηδιαγωνισμάτων συνεχίζουν να αποτελούν αντικείμενο έρευνας που ξεπερνά τα όρια της πληροφορικής και αγγίζει τα όρια των γνωστικών επιστημών. 1.2 Εξετάσεις μεγάλης κλίμακας στην Ελλάδα Κλασσικό παράδειγμα εξετάσεων μεγάλης κλίμακας αποτελούν οι εξετάσεις για την πιστοποίηση του επιπέδου γνώσης μιας ξένης γλώσσας. Οι εξετάσεις αυτές οργανώνονται συνήθως από πανεπιστήμια που εδρεύουν στη χώρα που ομιλείται η πιστοποιούμενη γλώσσα αξιοποιώντας ένα διεθνές δίκτυο συνεργαζόμενων φορέων σε κάθε χώρα. Πολλές φορές οι εξετάσεις αυτές οργανώνονται από κρατικούς φορείς όπως είναι το παράδειγμα του Κρατικού Πιστοποιητικού Γλωσσομάθειας (ΚΠΓ) στην Ελλάδα. Αν και υπάρχουν εξετάσεις που γίνονται με αυτοματοποιημένα 23 P a g e

24 συστήματα στη μεγάλη πλειοψηφία των περιπτώσεων οι εξετάσεις αυτές γίνονται ακόμη με χαρτίμολύβι. Τα τελευταία χρόνια γίνεται προσπάθεια να αξιοποιηθούν αυτοματοποιημένα συστήματα εξέτασης στο πλαίσιο του Κρατικού Πιστοποιητικού Γλωσσομάθειας (Αρβανίτης & Παναγιωτίδης, 2003). Το Υπουργείο Παιδείας & Θρησκευμάτων, Πολιτισμού & Αθλητισμού (ΥΠAIΘΠΑ) προωθεί και το Πιστοποιητικό Μαθητών στην Πληροφορική το οποίο θα βασίζεται επίσης σε αυτοματοποιημένο σύστημα εξέτασης και θα είναι συνδεδεμένο με την παρεχόμενη εκπαίδευση στη δευτεροβάθμια εκπαίδευση, με το ωρολόγιο πρόγραμμα στο μάθημα της Πληροφορικής αλλά και τη γενικότερη αξιοποίηση της πληροφορικής ως μέσου διδασκαλίας και άσκησης σε άλλα μαθήματα ή γνωστικά αντικείμενα όπως αυτή παρέχεται μέσω του σχολικού συστήματος των γυμνασίων και των λυκείων (PLANNER, 2010). Ευρέως διαδεδομένη είναι και η πιστοποίηση πολιτών σε γνώσεις και δεξιότητες πληροφορικής μέσα από ένα διεθνές σύστημα πιστοποιητικών. Τα πιστοποιητικά αυτά τα διαχειρίζονται συνήθως ιδιωτικοί φορείς ενώ σχετικά πρόσφατα θεσμοθετήθηκαν κριτήρια για το ποιος και με ποιον τρόπο μπορεί να πιστοποιεί τους πολίτες σε δεξιότητες πληροφορικής. Η πιστοποίηση γνώσεων και δεξιοτήτων πληροφορικής στην Ελλάδα πραγματοποιείται από φορείς που έχουν πιστοποιηθεί από τον Εθνικό Οργανισμό Πιστοποίησης Προσόντων και Επαγγελματικού Προσανατολισμού (Ε.Ο.Π.Π.Ε.Π., 2012a) ο οποίος εποπτεύεται από τον Υπουργό Παιδείας & Θρησκευμάτων, Πολιτισμού και Αθλητισμού. Τα τελευταία χρόνια στο πλαίσιο στοχευόμενων δράσεων του υπουργείου παιδείας για την ενσωμάτωση των υπολογιστών στην καθημερινή μαθησιακή διαδικασία έχει θεσμοθετηθεί η παροχή δύο πιστοποιητικών που έχουν σχέση με την αξιοποίηση των υπολογιστών. Το πιστοποιητικό Α επιπέδου αφορά στις βασικές ικανότητες χρήσης ενός υπολογιστή που πρέπει να έχει ο εκπαιδευτικός που διδάσκει στο σύγχρονο σχολείο. Το πιστοποιητικό Β επιπέδου πιστοποιεί τις ικανότητες εκείνες που πρέπει να έχει ο εκπαιδευτικός προκειμένου να αξιοποιεί εκπαιδευτικό λογισμικό για να ενισχύσει το διδακτικό του έργο. Τα δύο αυτά πιστοποιητικά παρέχονται μέσα από αντικειμενικές διαδικασίες αξιολόγησης που καλύπτουν όλο τον ελλαδικό χώρο και έχουν διαχρονική εφαρμογή. Στο πλαίσιο του πιστοποιητικού Α επιπέδου σχεδιάστηκε ένα σύστημα αυτοματοποιημένης αξιολόγησης βασικών δεξιοτήτων πληροφορικής που καλύπτει τις ανάγκες του έργου πιστοποίησης για τα τελευταία δέκα χρόνια ( ). Τα δεδομένα που έχουν συγκεντρωθεί κατά τη λειτουργία του αυτοματοποιημένου συστήματος εξέτασης παρουσιάζουν ιδιαίτερο ερευνητικό ενδιαφέρον για το χώρο της εκπαίδευσης γιατί: (α) αφορούν σε μεγάλο δείγμα ανθρώπων από όλες τις γνωστικές 24 P a g e

25 περιοχές της ανώτατης εκπαίδευσης (δάσκαλοι, μαθηματικοί, φιλόλογοι, θεολόγοι, γυμναστές κλπ) (β) η γεωγραφική κατανομή των εξεταζόμενων καλύπτει με πληρότητα ολόκληρο τον Ελλαδικό χώρο (γ) αφορούν σε αποτελέσματα πιστοποίησης για μια ποικιλία γνωστικών αντικειμένων που σχετίζονται με τις βασικές δεξιότητες πληροφορικής (επεξεργασία κειμένου, υπολογιστικά φύλλα, διαδίκτυο κλπ) (δ) καταγράφουν χρονικές (πχ μέρα, ώρα) και χωρικές (πχ. νομός, πόλη) παραμέτρους για τις απόπειρες πιστοποίησης που έχουν πραγματοποιηθεί (Christakoudis, Androulakis, & Zagouras, 2010a). 1.3 Περιγραφή του ερευνητικού προβλήματος Ακολουθώντας τη σύγχρονη τάση, η χώρα μας προσπαθεί να αναδιοργανώσει παραδοσιακές εξετάσεις μεγάλης κλίμακας που βασίζονται στην παρέμβαση του ανθρώπινου παράγοντα (βαθμολογητής, επιτηρητής κλπ) έτσι ώστε όχι μόνο να αξιοποιηθούν πληροφοριακά συστήματα για την αυτοματοποίηση των διαδικασιών εξέτασης αλλά και να αυξηθεί η αποδοτικότητα και η αντικειμενικότητα τέτοιων εξετάσεων με χρήση αυτοματοποιημένων συστημάτων εξέτασης. Τα ερευνητικά ερωτήματα στα οποία απαντά η παρούσα εργασία είναι: ποιο μοντέλο μπορεί να ακολουθηθεί για την παραγωγή, οργάνωση και συντήρηση μιας τράπεζας θεμάτων που υποστηρίζει την παραγωγή διαχρονικά ισοδύναμων ηδιαγωνισμάτων σε εξετάσεις ευρείας κλίμακας; πώς επηρεάζουν τα ιδιαίτερα χαρακτηριστικά των εξεταζόμενων (π.χ φύλο, ηλικία, γνωστικό αντικείμενο-σπουδές κλπ) τη συμπεριφορά τους κατά τη διάρκεια των εξετάσεων; πως επηρεάζουν τα ιδιαίτερα χαρακτηριστικά των δοκιμασιών (π.χ βαθμός δυσκολίας, εκφωνήσεις, αρχεία εργασίας κλπ) την απόδοση των εξεταζόμενων; Η συσσωρευμένη δεκαετής εμπειρία που αναπτύχθηκε στη Διεύθυνση Εκπαίδευσης και Κατάρτισης του Ινστιτούτου Τεχνολογίας Υπολογιστών & Εκδόσεων ΔΙΟΦΑΝΤΟΣ (ITYE - ΔΕΚ, 2012) στο πλαίσιο έργων για την πιστοποίηση εκπαιδευτικών σε δεξιότητες πληροφορικής μπορεί να αποτελέσει τη βάση για την ανάπτυξη συστημάτων αυτοματοποιημένης εξέτασης σε μεγάλη κλίμακα στον ευρύτερο χώρο της εκπαίδευσης. Για να προσεγγιστούν τα ερευνητικά ερωτήματα μελετήθηκε σε βάθος και αξιολογήθηκε το μοντέλο πιστοποίησης εκπαιδευτικών σε βασικές δεξιότητες πληροφορικής και έγινε ανάλυση των αποκρίσεων που έχουν καταγραφεί και αφορούν σε πολύ μεγάλο δείγμα Ελλήνων εκπαιδευτικών κατά τη διάρκεια ενός 10ετούς έργου πιστοποίησης. Στο πλαίσιο της παρούσας διατριβής: αξιοποιούνται ποσοτικές μέθοδοι για την ανάλυση μεγάλου όγκου δεδομένων και την αξιολόγηση του μοντέλου ανάπτυξης δοκιμασιών που ακολουθήθηκε για την πιστοποίηση των Ελλήνων εκπαιδευτικών 25 P a g e

26 προτείνεται ένας πρακτικός οδηγός για τη σχεδίαση, οργάνωση και συντήρηση τράπεζας δοκιμασιών και την παραγωγή διαχρονικά ισοδύναμων ηδιαγωνισμάτων προτείνονται εργαλεία για την καταγραφή των επιμέρους ιδιοτήτων και την αξιολόγηση ενός συστήματος αυτοματοποιημένης εξέτασης (πίνακας προδιαγραφών) παρουσιάζεται και τεκμηριώνεται κώδικας για την αποδοτική στατιστική ανάλυση μεγάλου πλήθους δεδομένων που αφορούν στις αποκρίσεις εξεταζόμενων σε διαδοχικά ηδιαγωνίσματα (βιβλιοθήκες με ελεύθερο κώδικα για στατιστική ανάλυση) 2. Θεωρητικό Πλαίσιο Η ραγδαία ανάπτυξη των Τεχνολογιών Πληροφορίας και Επικοινωνίας (ΤΠΕ) τις τελευταίες δεκαετίες επηρεάζει το εκπαιδευτικό, κοινωνικό και εργασιακό περιβάλλον και αναδεικνύει μια σειρά από ιδιαίτερα προσόντα και ικανότητες που πρέπει να έχει ο σύγχρονος άνθρωπος. Η έννοια της ικανότητας (competence) ενός ατόμου ορίζεται με διαφορετικό τρόπο και ανάλογα με το επιστημονικό, επαγγελματικό, εκπαιδευτικό ή κοινωνικό πεδίο στο οποίο αναφέρεται. Αρχικά με τον όρο ικανότητα χαρακτηρίστηκε η συμπεριφορά εκπαιδευτικών μετά την ολοκλήρωση ενός εκπαιδευτικού προγράμματος (Bowden & Masters, 1993). Για να αναγνωρίσουμε και να αξιολογήσουμε τις ικανότητες ενός ατόμου μπορούμε να αναζητήσουμε ενδείξεις είτε για την απόδοσή του (competence performance) όταν αναφερόμαστε κυρίως στα αποτελέσματα (outputs) μιας διαδικασίας που σκοπό έχει την κατάρτισή του σε κάποιο γνωστικό αντικείμενο είτε για τα χαρακτηριστικά (competence s attributes) που διαθέτει το άτομο ώστε να μπορεί να αποδώσει ικανοποιητικά. Έτσι, η έννοια της ικανότητας μπορεί να προσεγγιστεί με διαφορετικούς τρόπους ανάλογα με το περιβάλλον στο οποίο αξιοποιείται ή ελέγχεται. Οι παραπάνω παραλλαγές χρησιμοποιούνται για να αποδώσουν την έννοια της ικανότητας και σε ατομικό επίπεδο και σε επίπεδο συλλογικό ή επίπεδο ενός οργανισμού (organizational competencies) (Hoffmann, 1999) Η ικανότητα ενός ατόμου δεν αποτελεί μια σταθερή ιδιότητα που κάποιος την έχει ή δεν την έχει αλλά είναι η ενορχηστρωμένη αξιοποίηση γνωστικών, κοινωνικών, και συμπεριφοριστικών δεξιοτήτων ώστε το άτομο να μπορεί να αντιμετωπίσει συγκεκριμένες καταστάσεις. Πολλές φορές είναι διαφορετικό το να έχει κάποιος γνώσεις και δεξιότητες και διαφορετικό να μπορεί να τις εφαρμόζει στο πλαίσιο αντιμετώπισης ρεαλιστικών καταστάσεων. Σε πρακτικό επίπεδο η ικανότητα ενός ατόμου μπορεί να αναφέρεται: (α) στην παρατηρήσιμη συμπεριφορά του (Boam & Sparrow, 1992) (β) στα πρότυπα συμπεριφοράς που ακολουθεί και στην ποιότητα της απόδοσής του (Hager, 26 P a g e

27 Athanasou, & Gonczi, 1994; Rutherford & Rutherford, 1995) και (γ) στα λανθάνοντα χαρακτηριστικά του (Boyatzis, 1982; Kolligian & Sternberg, 1990). Οι δεξιότητες και γενικότερα οι ικανότητες των εργαζομένων αναμένεται να είναι η βασική πηγή οικονομικής δραστηριότητας στο πλαίσιο της Κοινωνίας της Γνώσης. Στον τομέα της εργασίας πλήθος από νέες μορφές επαγγελματικής δραστηριότητας έχουν διαμορφωθεί μέσα από τη χρήση των ΤΠΕ. Οι νέες μορφές εργασίας προσδιορίζουν και μια σειρά από νέες δεξιότητες που ορίζουν τελικά το περιεχόμενο του κάθε επαγγέλματος (professionalism). Η επίδραση των ΤΠΕ στην επαγγελματική δραστηριότητα ενισχύεται και λόγω της εξωστρέφειας που χαρακτηρίζει την επαγγελματική δραστηριότητα των επιχειρήσεων στο πλαίσιο μιας παγκοσμιοποιημένης οικονομίας. Στο πλαίσιο αυτό προκύπτει έντονα η ανάγκη για ανάπτυξη τεχνικών, μεθόδων και διαδικασιών με τις οποίες να είναι δυνατή η αποδοτική αξιολόγηση των επαγγελματικών προσόντων ( γνώσεις, δεξιότητες και στάσεις) όχι μόνο σε εθνικό αλλά και σε διεθνές επίπεδο (Hacquebard, Dijkxhoorn, & Erkelens, 2005; IFIP, WITSA, OECD, 2002). Μια από τις σημαντικότερες παραμέτρους της Δια Βίου Εκπαίδευσης και της Επαγγελματικής Κατάρτισης αποτελεί η πιστοποίηση προσόντων μια και επηρεάζει δυο πολύ σημαντικά πεδία της ανθρώπινης δραστηριότητας: την εκπαίδευση και την εργασία. Mε τον όρο προσόντα εννοούμε πτυχία, διπλώματα, τίτλους σπουδών που προέρχονται από το τυπικό εκπαιδευτικό σύστημα όσο και από δραστηριότητες που εντάσσονται στη μη τυπική και άτυπη μάθηση και έχουν πιστοποιηθεί ως προς το περιεχόμενό τους ( Ε.Ο.Π.Π.Ε.Π., 2012b). Τόσο στην εργασία όσο και στην εκπαίδευση μια σειρά από πιστοποιητικά μπορούν να χορηγηθούν προκειμένου ένας εκπαιδευόμενος ή ένας εργαζόμενος να αποδείξει ότι κατέχει μια σειρά από προσόντα (Defining Features of Quality Certification and Assessment-Based Certificate Programs, 2012): Πιστοποίηση συμμετοχής: Το πιστοποιητικό συμμετοχής χορηγείται σε όσους παρακολούθησαν ένα πρόγραμμα εκπαίδευσης (μάθημα, συνέδριο, σεμινάριο κλπ) που έχει πραγματοποιηθεί είτε δια ζώσης είτε από απόσταση και δεν απαιτεί την εμπλοκή τους σε κάποια διαδικασία εξέτασης που να σχετίζεται με το περιεχόμενο του προγράμματος. Πιστοποιητικό παρακολούθησης: Τα πιστοποιητικά παρακολούθησης εστιάζουν στην εκπαίδευση ή στην κατάρτιση των συμμετεχόντων και χορηγούνται μετά την ολοκλήρωση ενός εκπαιδευτικού κύκλου που στοχεύει στην ανάπτυξη μιας σειράς ικανοτήτων. Η χορήγησή τους βεβαιώνει ότι οι κάτοχοί τους συμμετείχαν σε ειδικά σχεδιασμένες εξετάσεις που αξιολόγησαν συγκεκριμένα μαθησιακά αποτελέσματα και τις πέρασαν με επιτυχία. Το ιδιαίτερο χαρακτηριστικό τέτοιων 27 P a g e

28 πιστοποιητικών είναι ότι δε λήγει η ισχύς τους μετά την παρέλευση κάποιου εύλογου χρονικού διαστήματος. Πιστοποίηση προσόντων: Με τον όρο πιστοποίηση προσόντων αναφερόμαστε σε μια ανεξάρτητη διαδικασία αξιολόγησης όπου οι εξεταζόμενοι αποδεικνύουν ότι κατέχουν ένα συγκεκριμένο επίπεδο ικανοτήτων και όχι απλά μια σειρά από συγκεκριμένα μαθησιακά αποτελέσματα που είναι απόρροια μιας εκπαιδευτικής διαδικασίας. Η συμμετοχή σε μια διαδικασία πιστοποίησης είναι συνήθως εθελοντική, πραγματοποιείται με αυστηρούς κανόνες επίβλεψης ενώ η ισχύς του πιστοποιητικού έχει περιορισμένη διάρκεια και πρέπει να επικαιροποιείται σε εύλογο διάστημα. 2.1 Κατηγορίες εξετάσεων Σύμφωνα με τη Διεθνή Επιτροπή Εξετάσεων (International Test Commission-ITT) μπορούμε να διακρίνουμε τέσσερις μεγάλες κατηγορίες εξετάσεων σε σχέση με τον τρόπο διαχείρισης των διαγωνισμάτων στα οποία βασίζονται ( International Guidelines on Computer-Based and Internet Delivered Testing - Scope, 2005): (α) τα ανοικτά διαγωνίσματα (open mode) όπου δεν απαιτείται η ανθρώπινη παρουσία για τον έλεγχο της διαδικασίας εξέτασης. Διαγωνίσματα τα οποία διατίθενται ελεύθερα στο διαδίκτυο χωρίς να απαιτούν κάποια διαδικασία εγγραφής ανήκουν στην κατηγορία αυτή, (β) τα ελεγχόμενα διαγωνίσματα (controlled mode) στα οποία μπορούν να απαντήσουν μόνο πιστοποιημένοι υποψήφιοι. Συνήθως τα διαγωνίσματα αυτά δίνουν μόνο μια ευκαιρία στον εξεταζόμενο να απαντήσει σε ένα σύνολο ερωτημάτων και δεν είναι επαναλαμβανόμενα, (γ) τα εποπτευόμενα διαγωνίσματα (supervision mode) όπου στην εξέταση των υποψηφίων εμπλέκονται άνθρωποι που έχουν την ευθύνη να ελέγξουν τη συμπεριφορά και να πιστοποιήσουν την ταυτότητα του εξεταζόμενου και (δ) τα διαγωνίσματα υψηλής διαχείρισης (managed mode) όπου η παρουσία του ανθρώπινου παράγοντα είναι ιδιαίτερα έντονη κατά τη διαδικασία της εξέτασης. Οι εξετάσεις πραγματοποιούνται συνήθως σε ειδικά, πιστοποιημένα κέντρα με αυστηρό έλεγχο και επιτήρηση της εξεταστική διαδικασίας. Η μεγάλη εξάπλωση των υπολογιστικών συστημάτων και των εφαρμογών ΤΠΕ δεν άφησε ανεπηρέαστη τη διαδικασία των εξετάσεων. Σήμερα με τον ευρύ όρο ηαξιολόγηση (eassessment) αναφερόμαστε σε κάθε απόπειρα εξέτασης γνώσεων, δεξιοτήτων ή στάσεων στις οποίες ο εξεταζόμενος χρησιμοποιεί υπολογιστή για να καταχωρίσει τις απαντήσεις του. Στο πλαίσιο της ηαξιολόγησης ο εξεταζόμενος μπορεί να απαντά σε μια σειρά από ερωτήματα που διατίθενται μέσω ειδικού λογισμικού εξέτασης (etesting) ή να τροφοδοτεί το προσωπικό του χαρτοφυλάκιο με έργα που πραγματοποιεί χρησιμοποιώντας υπολογιστές (eportfolios). 28 P a g e

29 Στην πράξη, η υλοποίηση της διαδικασίας της ηαξιολόγησης απαιτεί δύο πολύ κρίσιμα στοιχεία: (α) το Αυτοματοποιημένο Σύστημα Εξέτασης - ΑΣΕ (Computer Based Testing-CBT) που περιλαμβάνει τόσο το υλικό (hardware) όσο και το λογισμικό (software) με το οποίο τα ηδιαγωνίσματα διατίθενται στους εξεταζόμενους και (β) την τράπεζα θεμάτων (item bank) που περιλαμβάνει όλες εκείνες τις δοκιμασίες από τις οποίες συντίθενται τα ηδιαγωνίσματα. Τα πλεονεκτήματα της αξιοποίησης ΑΣΕ για την ηαξιολόγηση των εξεταζόμενων είναι πολλά συγκρινόμενα με τις παραδοσιακές εξετάσεις που τις περισσότερες φορές πραγματοποιούνται με χαρτί-μολύβι (pen and paper). Μερικά από τα σημαντικότερα είναι το μειωμένο κόστος ανά εξεταζόμενο, η άμεση απόκριση και ενημέρωση των εξεταζόμενων, η ευελιξία στη διαχείριση των εξετάσεων (επιλογή τόπου και χρόνου), η αξιόπιστη βαθμολόγηση, η μεγάλη χωρητικότητα για υποστήριξη εξετάσεων ευρείας κλίμακας, η ποικιλία ερωτημάτων που μπορούν να χρησιμοποιηθούν κ.α. (Asuni, 2008; Linden & Glas, 2000). Στο πλαίσιο της ηαξιολόγησης μπορούμε να διακρίνουμε δύο μεγάλες κατηγορίες διαγωνισμάτων που χρησιμοποιούνται για την αξιολόγηση προσόντων ή ικανοτήτων: (α) ηδιαγωνίσματα σταθερής μορφής (Computerized Fixed Tests CFT) στα οποία ο εξεταζόμενος καλείται να αντιμετωπίσει μια σειρά από δοκιμασίες που έχουν σταθερό πλήθος και σταθερή μορφή. Στο πλαίσιο αυτό όλοι οι εξεταζόμενοι απαντούν στο ίδιο πλήθος και στο ίδιο είδος ερωτημάτων ενώ η σύνθεσή του ηδιαγωνίσματος οριστικοποιείται πριν από την εξέταση και δεν αλλάζει κατά την εξέταση (Parshall κ.ά., 2002a) και (β) προσαρμοστικά ηδιαγωνίσματα (Computer Adaptive Tests) όπου το σύστημα αξιολόγησης επιλέγει κάθε φορά την επόμενη ερώτηση ή δοκιμασία στην οποία πρέπει να απαντήσει ο εξεταζόμενος λαμβάνοντας υπόψη την τρέχουσα απάντησή του και αφού έχει εκτιμήσει τη λανθάνουσα ικανότητα που αξιολογείται κάθε φορά. Αυτό έχει σαν άμεσο αποτέλεσμα ότι κάθε εξεταζόμενος αντιμετωπίζει διαφορετικό πλήθος και πιθανόν διαφορετικά είδη ερωτημάτων αντιμετωπίζοντας στην ουσία διαφορετικά ηδιαγωνίσματα. Στα προσαρμοστικά συστήματα η βαθμολογία που επιτυγχάνουν οι εξεταζόμενοι αναλύεται συνήθως στο πλαίσιο της θεωρίας αποκρίσεων (Item Response Theory) και η λειτουργία τους βασίζεται στην ύπαρξη μιας σταθμισμένης τράπεζας θεμάτων, σε έναν αλγόριθμο για την επιλογή της πρώτης δοκιμασίας που θα εκτεθεί στον εξεταζόμενο, στον τρόπο επιλογής της κατάλληλης ερώτησης κάθε φορά, στη διαδικασία της βαθμολόγησης και τέλος στον προσδιορισμό του κριτηρίου τερματισμού της εξέτασης (Linden & Glas, 2000; Parshall κ.ά., 2002b; Gershon, 2005). Οι σχεδιαστές ενός ΑΣΕ -ιδίως αν αφορά σε μεγάλη κλίμακα- πρέπει να ακολουθούν μια σειρά από προδιαγραφές προκειμένου οι εξετάσεις που οργανώνουν να εξασφαλίζουν μια σειρά από 29 P a g e

30 επιθυμητά χαρακτηριστικά όπως αξιοπιστία, αμεροληψία, εγκυρότητα κ.α. Όταν ένας φορέας επιθυμεί να οργανώσει εξετάσεις μεγάλης κλίμακας θα πρέπει να λάβει υπόψη του ότι το βασικό κόστος κατά την ανάπτυξη του συστήματος αυτοματοποιημένης εξέτασης είναι η παραγωγή, οργάνωση και συντήρηση καλά σχεδιασμένων και κατάλληλων δοκιμασιών που έχουν την ιδιότητα να αξιολογούν αξιόπιστα και έγκυρα τις ικανότητες των εξεταζόμενων. 2.2 Προδιαγραφές ανάπτυξης Αυτοματοποιημένων Συστημάτων Εξέτασης Τα αυτοματοποιημένα συστήματα που αποσκοπούν στη διαχείριση εξετάσεων πρέπει να ακολουθούν μια σειρά από προδιαγραφές ανάλογα με το είδος της εξέτασης. Η ανάπτυξη, η αξιολόγηση αλλά και η προαγωγή αποτελεσματικών τεχνικών εξέτασης μπορεί να γίνεται σε διεθνές επίπεδο μέσα από την καθιέρωση ενός διαρκώς εξελισσόμενου συνόλου προδιαγραφών που να αφορά (α) στη συνολική διαχείριση εξετάσεων μικρής ή μεγάλης κλίμακας (β) στην προετοιμασία και διάθεση προσαρμοστικών διαγωνισμάτων (γ) στη διαχείριση διαγωνισμάτων που βασίζονται σε αυτοματοποιημένα συστήματα εξέτασης (Computer Based Testing) ή διατίθενται μέσω του διαδικτύου και (δ) σε διαδικασίες που εξασφαλίζουν τον ποιοτικό έλεγχο τόσο στη βαθμολόγηση όσο και στην ανάλυση των αποτελεσμάτων. Στην περίπτωση των ηδιαγωνισμάτων (διαγωνίσματα στα οποία ο εξεταζόμενος απαντά με τη βοήθεια υπολογιστή) που βασίζονται στη λειτουργία αυτοματοποιημένων συστημάτων εξέτασης οι προδιαγραφές έχουν οργανωθεί σε τέσσερις μεγάλες κατηγορίες και αφορούν (α) τεχνολογικές προδιαγραφές (π.χ προδιαγραφές υλικού και λογισμικού, θέματα ευρωστίας των εφαρμογών, τεχνικές υποστήριξης και βοήθειας των εξεταζόμενων κ.α.), (β) προδιαγραφές ποιότητας (π.χ εξασφάλιση εξέτασης των επιθυμητών ικανοτήτων, ψυχομετρικά χαρακτηριστικά του συστήματος εξέτασης, ισοδυναμία των διαγωνισμάτων, τρόποι βαθμολόγησης και παραγωγή σχετικών αναφορών, ίσες ευκαιρίες πρόσβασης σε σχετικές πληροφορίες κ.α.) (γ) προδιαγραφές ελέγχου (π.χ πιστοποιημένη πρόσβαση, ελεγχόμενη έκθεση ερωτημάτων, προστασία προσωπικών δεδομένων κ.α.) και (δ) προδιαγραφές ασφάλειας ( π.χ ασφάλεια θεμάτων, ασφάλεια στη διακίνηση πληροφοριών μέσω διαδικτύου, εμπιστευτικότητα κ.α.). Οι προδιαγραφές αυτές εξειδικεύονται ανάλογα με τους ρόλους των ανθρώπων οι οποίοι εμπλέκονται στην κατασκευή και τη διάθεση των ηδιαγωνισμάτων (π.χ φορείς εξέτασης, κατασκευαστές ηδιαγωνισμάτων, εξεταζόμενοι) (Bartram & Coyne, 2005). Στον πυρήνα κάθε συστήματος εξέτασης ή πιστοποίησης βρίσκεται το διαγώνισμα που δεν είναι τίποτε άλλο παρά ένα σύνολο από δοκιμασίες στις οποίες πρέπει να απαντήσει ο εξεταζόμενος μέσα σε συγκεκριμένο χρόνο. Τα διαγωνίσματα μπορούν να είναι σταθερά (fixed) ή να προσαρμόζονται 30 P a g e

31 (adaptive) στις ικανότητες του κάθε εξεταζόμενου. Σε κάθε περίπτωση το διαγώνισμα στο πλαίσιο μιας εξέτασης μεγάλης κλίμακας πρέπει να έχει μια σειρά από ιδιότητες (Davey, 2011): Αποδοτική μέτρηση (measurement efficiency): ένα από τα ποιο επιθυμητά χαρακτηριστικά ενός διαγωνίσματος είναι η αξιοπιστία (reliability) με την οποία κατατάσσει ή αξιολογεί τους υποψήφιους εξεταζόμενους. Είναι λογική η υπόθεση ότι τα διαγωνίσματα που έχουν μικρό πλήθος δοκιμασιών δεν καταφέρνουν εύκολα να επιτύχουν υψηλή αξιοπιστία. Από την άλλη, σε μια εξέταση θα ήταν επιθυμητό να αναζητηθούν τρόποι ώστε να επιτυγχάνεται η μέγιστη αξιοπιστία με τον ελάχιστο αριθμό δοκιμασιών. Υπό αυτή την έννοια, ένα διαγώνισμα μπορεί να θεωρείται αποδοτικότερο σε σχέση με ένα άλλο αν επιτυγχάνει μεγαλύτερη ακρίβεια μέτρησης ανά δοκιμασία. Η σύγκριση δύο διαγωνισμάτων μπορεί να γίνει και με βάση την ικανότητα μέτρησης στη μονάδα του χρόνου όταν αναφερόμαστε σε διαγωνίσματα που αποτελούνται από διαφορετικό πλήθος δοκιμασιών. Ασφάλεια (test security): η βασική υπόθεση που γίνεται κατά την εξέταση ενός υποψηφίου σε μια σειρά δοκιμασιών είναι ότι οι απαντήσεις του καθορίζονται αποκλειστικά από την ικανότητά του να διαχειριστεί τις συγκεκριμένες δοκιμασίες και δεν απαντά αντιγράφοντας από τους διπλανούς του ή έχοντας εξασφαλίσει τις απαντήσεις εκ των προτέρων (π.χ διαρροή θεμάτων). Η διάθεση των διαγωνισμάτων πρέπει να γίνεται με τέτοιο τρόπο ώστε να εξασφαλίζεται η ασφάλειά του (π.χ ανακάτεμα απαντήσεων, διαφοροποιημένη σειρά σε κάθε υποψήφιο, κρυπτογράφηση των διακινούμενων πληροφοριών). Απαιτήσεις της τράπεζας θεμάτων (item development requirements): για την υποστήριξη ενός συστήματος εξέτασης σε μεγάλη κλίμακα είναι απαραίτητη η οργάνωση των δοκιμασιών σε μεγάλες βάσεις δεδομένων. Οι διαδικασίες ανάπτυξης των δοκιμασιών καθορίζουν και την ποιότητα των παραγόμενων διαγωνισμάτων. Η προετοιμασία μεγάλης τράπεζας δεδομένων αποτελεί μια κρίσιμη αλλά και ιδιαίτερα χρονοβόρα διαδικασία. Σχεδιαστική πολυπλοκότητα (design complexity): Ο σχεδιασμός ενός συστήματος για την εξέταση υποψηφίων σε μεγάλη κλίμακα δεν περιορίζεται μόνο στην παραγωγή και διάθεση ενός διαγωνίσματος. Χρειάζεται να οριστούν μια σειρά από διαδικασίες για τη διαχείριση των εξετάσεων και τη βαθμολόγηση των υποψηφίων. Όταν μια εξέταση αφορά σε μεγάλο χρονικό διάστημα τότε η ανανέωση της τράπεζας θεμάτων μπορεί να οδηγεί και σε διαφοροποίηση της μορφής που έχουν οι δοκιμασίες (π.χ νέα είδη ερωτημάτων). Έτσι, σε εξετάσεις μεγάλης κλίμακας και μεγάλης χρονικής διάρκειας αποτελεί κρίσιμο παράγοντα σχεδιασμού η εξασφάλιση της διαχρονικής ισοδυναμίας των παραγόμενων διαγωνισμάτων. 31 P a g e

32 Κόστος εξέτασης (cost assessment): Η παράμετρος του κόστους αφορά κυρίως στον κύκλο ζωής μιας δοκιμασίας και τη συντήρηση της υποστηρικτικής υποδομής. Στο κόστος επίσης συμμετέχουν και άλλες λειτουργίες που αποτελούν αναπόσπαστο κομμάτι ενός συστήματος εξέτασης (π.χ η στατιστική ανάλυση των αποκρίσεων των εξεταζόμενων, η αναθεώρηση των δοκιμασιών κλπ) 2.3 Η σημασία της κατασκευής ισοδύναμων ηδιαγωνισμάτων Η ισοδυναμία των ηδιαγωνισμάτων στα οποία βασίζεται ένα σύστημα εξέτασης μεγάλης κλίμακας αποτελεί έναν κρίσιμο παράγοντα σχεδιασμού γιατί παρέχει τη δυνατότητα σύγκρισης της βαθμολογίας (comparability of scores) μεταξύ των διαγωνιζομένων. Η πεποίθηση ότι τα αποτελέσματα μιας εξέτασης είναι συγκρίσιμα τόσο στη διάρκεια των χρόνων όσο και ανάμεσα στους εξεταζόμενους σε μια συγκεκριμένη χρονική στιγμή αποτελεί τη βάση για την επιλογή των κατάλληλων αποφάσεων ανάλογα με το σκοπό που έρχεται να υπηρετήσει μια εξέταση (προαγωγή στο χώρο εργασίας, πρόσληψη, πιστοποίηση γνώσεων κλπ)(brennan & Education, 2006). Έτσι, ένα σύστημα πιστοποίησης δεν μπορεί να βασίζεται απλά στην πεποίθηση ότι τα διαγωνίσματα είναι ισοδύναμα αλλά πρέπει να ενσωματώνει όλες εκείνες τις διαδικασίες που εξασφαλίζουν ή μεγιστοποιούν το βαθμό συγκρισιμότητας ή ισοδυναμίας των διαγωνισμάτων. Η αξιολόγηση του σχεδιαστικού μοντέλου μπορεί να γίνει εκ των υστέρων αναλύοντας τις αποκρίσεις των εξεταζόμενων στη διάρκεια του χρόνου με ποσοτικές μεθόδους. Η ανάλυση των αποτελεσμάτων της εξέτασης μπορεί να οδηγήσει στη βελτίωση των τεχνικών και των πρακτικών που χρησιμοποιήθηκαν για τη δημιουργία των δοκιμασιών και τη σύνθεση των τελικών διαγωνισμάτων. 2.4 Τα βασικά χαρακτηριστικά μιας Τράπεζας Θεμάτων (item bank) Στην κλασσική προσέγγιση ενός συστήματος εξέτασης η βασική μονάδα είναι το ίδιο το διαγώνισμα (test) και όχι το κάθε ερώτημα (item) χωριστά. Αφού γίνει η σύνθεση ενός διαγωνίσματος ακολουθεί μια φάση ελέγχου όπου το διαγώνισμα διατίθεται σε επιλεγμένες ομάδες ελέγχου με σκοπό τον εντοπισμό διαφόρων ανεπιθύμητων παραμέτρων (π.χ μη αποδεκτά επίπεδα δυσκολίας, διαφοροποιήσεις ανάλογα με τα ψυχομετρικά χαρακτηριστικά των εξεταζόμενων κλπ). Μετά τον προσδιορισμό της τελικής έκδοσης του διαγωνίσματος ακολουθεί η φάση της κανονικοποίησης και στάθμισης (calibration) πριν διατεθεί το διαγώνισμα στους εξεταζόμενους. Αν στη πορεία υπάρξουν διαφοροποιήσεις στο διαγώνισμα (π.χ εισαγωγή ή διαγραφή ενός ερωτήματος) όλη η διαδικασία πρέπει να επαναληφθεί. Είναι φανερό ότι η παραπάνω προσέγγιση δεν είναι αποδοτική όταν θέλουμε να διαθέσουμε ηδιαγωνίσματα σε μεγάλη κλίμακα και σε διαφορετικές χρονικές περιόδους. Για το σκοπό αυτό συνήθως χρησιμοποιείται η προσέγγιση της τράπεζας θεμάτων (item bank) όπου βασικό στοιχείο ανάλυσης αποτελεί το κάθε ερώτημα χωριστά. Η διαθέσιμη τράπεζα 32 P a g e

33 ερωτημάτων (item pool or item bank) αποτελεί τη βασικότερη παράμετρο ενός Aυτοματοποιημένου Συστήματος Εξέτασης. Η τράπεζα ερωτημάτων δεν είναι μια απλή αποθήκη ερωτήσεων αλλά μια οργανωμένη συλλογή οντοτήτων όπου κάθε στοιχείο της χαρακτηρίζεται από ένα καλά ορισμένο σύνολο χαρακτηριστικών (attributes). Ο αλγόριθμος παραγωγής του ηδιαγωνίσματος επεξεργάζεται τα χαρακτηριστικά της κάθε ερώτησης προκειμένου να δημιουργήσει τα διαγωνίσματα που ικανοποιούν συγκεκριμένα κριτήρια. Τα χαρακτηριστικά των ερωτημάτων διακρίνονται σε τρεις κατηγορίες (Linden, 2005): ποσοτικά χαρακτηριστικά: τα ποσοτικά χαρακτηριστικά μιας ερώτησης αντιστοιχούν συνήθως σε αριθμητικές τιμές με άγνωστο πεδίο τιμών. Χαρακτηριστικά παραδείγματα τέτοιων ιδιοτήτων είναι ο αναμενόμενος χρόνος απάντησης της ερώτησης, τα στατιστικά δεδομένα που έχουν σχέση με την ερώτηση όπως ο μέσος χρόνος απάντησης, η συχνότητα εμφάνισης της ερώτησης κλπ. κατηγορικά χαρακτηριστικά: τα κατηγορικά χαρακτηριστικά ορίζουν κατηγορίες στις οποίες ανήκει μια ερώτηση (π.χ τύπος ερώτησης, δυσκολία, γνωστικό αντικείμενο, θεματική ενότητα κλπ). Τα χαρακτηριστικά αυτής της κατηγορίας αξιοποιούνται από τον αλγόριθμο παραγωγής του ηδιαγωνίσματος έτσι ώστε να εξασφαλιστεί η αναμενόμενη διασπορά κατά την επιλογή των ερωτημάτων (κάλυψη του θεματικού καταλόγου, κατανομή ερωτημάτων ανάλογα με το βαθμό δυσκολίας ή με τον τύπο της ερώτησης κλπ). λογικά χαρακτηριστικά: τα λογικά χαρακτηριστικά ορίζουν λογικούς περιορισμούς ανάμεσα σε ομάδες ερωτήσεων. Έτσι, αν μια ερώτηση επιλεγεί να συμμετέχει σε ένα διαγώνισμα τότε ένα σύνολο ερωτημάτων μπορεί να αποκλείεται επειδή οι ερωτήσεις που το απαρτίζουν έχουν το χαρακτηριστικό του αποκλεισμού (exclusive). Τέτοια σύνολα αναφέρονται συχνά στη βιβλιογραφία σαν ερωτήσεις εχθροί (enemies). Αντίθετα, ένα σύνολο ερωτήσεων μπορεί να έχει το χαρακτηριστικό της αναγκαστικής επιλογής (inclusion) έτσι ώστε αν μια ερώτηση του συνόλου αυτού επιλεγεί τότε πρέπει να επιλεγούν μία ή περισσότερες ερωτήσεις από το ίδιο σύνολο. 2.5 Ανάλυση ερωτημάτων (item analysis) και ηδιαγωνισμάτων (test analysis) Η στατιστική ανάλυση των δεδομένων που έχουν καταγραφεί σε ένα σύστημα εξέτασης βασίζεται στην απλή παραδοχή ότι οι «κακές» δοκιμασίες θα έχουν και «κακή» στατιστική συμπεριφορά. Μέσα από τη διαδικασία της στατιστικής ανάλυσης των ερωτημάτων (item analysis) με βάση τις καταγεγραμμένες απαντήσεις των εξεταζόμενων μπορούμε να εκτιμήσουμε την ποιότητα τόσο των δοκιμασιών όσων και των ηδιαγωνισμάτων στο σύνολό τους. Η ανάλυση αυτή παίζει καθοριστικό ρόλο στην απόφαση αναθεώρησης ή και απόρριψης ενός ερωτήματος από τη διαδικασία των εξετάσεων. Τα αποτελέσματα μπορούν να φανούν ιδιαίτερα χρήσιμα στους ανθρώπους που 33 P a g e

34 κατασκευάζουν ερωτήματα (συγγραφείς-authors) μια και μπορούν να τους τροφοδοτήσουν με καλά και κακά παραδείγματα βελτιώνοντας την ικανότητά τους στη διατύπωση ερωτημάτων (Lunz, 2010). Άλλα χαρακτηριστικά των ερωτημάτων (attributes) μπορούν να εκτιμηθούν με στατιστικές μεθόδους και άλλα πρέπει να οριστούν από τους συγγραφείς. Στο πλαίσιο της ανάλυσης των ερωτημάτων που έχουν συμμετάσχει σε κάποιο διαγώνισμα τα βασικά στατιστικά χαρακτηριστικά που συνήθως υπολογίζονται έχουν σχέση με: (α) τη δυσκολία (difficulty) της ερώτησης για τη συγκεκριμένη ομάδα των εξεταζόμενων (β) τη διακριτική ικανότητα (discrimination) της ερώτησης να διαχωρίζει τους ικανούς από τους λιγότερο ικανούς εξεταζόμενους (γ) την τυχαιότητα (guessing) που αφορά συνήθως ερωτήματα επιλογής και εκφράζει την πιθανότητα ένας εξεταζόμενος που δεν έχει γνώση του θέματος να απαντήσει σωστά και (δ) τη διαφοροποίηση των απαντήσεων (differential performance) ανάλογα με την υποομάδα στην οποία ανήκει ο κάθε εξεταζόμενος. Για την ανάλυση των ερωτημάτων που χρησιμοποιούνται σε μια εξέταση έχουν προταθεί διάφοροι τρόποι και μεθοδολογίες όπως η κλασσική θεωρία ανάλυσης διαγωνισμάτων (Classical Test Theory-CTT) και η ανάλυση αποκρίσεων (Item Response Theory-IRT) Κλασσική Θεωρία Ανάλυσης Διαγωνισμάτων (Classical Test Theory - CTT) Στο πλαίσιο της κλασσικής θεωρίας θεωρείται ότι η παρατηρήσιμη συμπεριφορά των εξεταζόμενων -όπως αποτυπώνεται στις απαντήσεις τους στα διάφορα ερωτήματα- δεν αποτελεί την ακριβή μέτρηση της ικανότητας ή των ικανοτήτων που εξετάζονται αλλά το αποτέλεσμα της επίδρασης μιας σειράς παραγόντων. Οι διάφοροι παράγοντες που επηρεάζουν τον πραγματικό βαθμό (S T - true score) και δεν έχουν σχέση με την ικανότητα που εξετάζεται (συνθήκες εξέτασης, τυχαία επιλογή, προσωπικά προβλήματα του εξεταζόμενου κλπ) είτε αυξάνουν είτε μειώνουν το πραγματικό σκορ του εξεταζόμενου δημιουργώντας έτσι μια περιοχή λάθους στη μέτρηση που πραγματοποιείται με το διαγώνισμα. Βασική υπόθεση στη θεωρία αυτή είναι ότι το λάθος που παρατηρείται στη μέτρηση κατανέμεται κανονικά γύρω από το πραγματικό σκορ του εξεταζόμενου. Η μαθηματική σχέση που εκφράζει την παρατηρήσιμη συμπεριφορά των εξεταζόμενων δίνεται στην εξίσωση 1. S x = S T + e (εξ.1) όπου η ποσότητα S x εκφράζει τη συνολική βαθμολογία του εξεταζόμενου που έχει καταγραφεί, η ποσότητα S T είναι η πραγματική βαθμολογία που αντιστοιχεί στο επίπεδο ικανότητας του συγκεκριμένου εξεταζόμενου και e είναι το λάθος που προέρχεται από την επίδραση μιας σειράς παραγόντων (Lord & Novick, 1968). 34 P a g e

35 Ανάλυση διαγωνίσματος (test analysis) στο πλαίσιο της Κλασσικής θεωρίας Οι βασικές έννοιες που εμπλέκονται στο πλαίσιο της κλασσικής θεωρίας ανάλυσης διαγωνισμάτων είναι (α) η αξιοπιστία (reliability) και (β) η εγκυρότητα (validity). Αξιοπιστία διαγωνίσματος (reliability): Με τον όρο αξιοπιστία ενός διαγωνίσματος αναφερόμαστε στην ιδιότητά του να συγκεντρώνει παρόμοια σκορ αν επαναληφθεί από τον ίδιο εξεταζόμενο πολλές φορές. Η εκτίμηση της αξιοπιστίας ενός διαγωνίσματος μπορεί να γίνει : (α) με επανάληψη του διαγωνίσματος σε διαφορετικές χρονικές στιγμές χρησιμοποιώντας είτε παράλληλα διαγωνίσματα (parallel test) που βασίζονται σε διαφορετικές μορφές (π.χ χαρτί-μολύβι και μέσω υπολογιστή) είτε με εξέταση/επανεξέταση (test/retest) συγκρίνοντας τα αποτελέσματα διαγωνισμάτων που έχουν καταγραφεί από την ίδια ομάδα εξεταζόμενων σε διαφορετικές χρονικές στιγμές (β) με μία εξέταση σε μία χρονική στιγμή είτε χρησιμοποιώντας μισά διαγωνίσματα (half tests) μελετώντας τη συμπεριφορά των αποκρίσεων στα δύο μισά τμήματα της εξέτασης είτε την εσωτερική συνοχή (internal consistency) συγκρίνοντας τη συμπεριφορά των ερωτημάτων μέσα στο ίδιο το διαγώνισμα. Στην περίπτωση που χρησιμοποιηθούν παράλληλα διαγωνίσματα για τον έλεγχο της αξιοπιστίας πρέπει να δοθεί ιδιαίτερη βαρύτητα στην τεκμηρίωση της ισοδυναμίας των διαφορετικών μορφών του διαγωνίσματος. Τα μέτρα θέσης των αποκρίσεων στα παράλληλα διαγωνίσματα πρέπει να είναι παρόμοια (μέσο σκορ, τυπική απόκλιση κλπ) ενώ ο βαθμός συσχέτισης της βαθμολογίας στα δύο παράλληλα διαγωνίσματα αποτελεί ένδειξη αξιοπιστίας του διαγωνίσματος. Στην περίπτωση της επανεξέτασης το ίδιο διαγώνισμα δίνεται στην ίδια ομάδα εξεταζόμενων αλλά σε διαφορετικές χρονικές στιγμές. Αν η επανεξέταση γίνει σε πολύ μικρή απόσταση από την εξέταση μπορεί οι εξεταζόμενοι να θυμούνται τις προηγούμενες απαντήσεις τους ενώ αν η χρονική απόσταση είναι μεγάλη μπορεί οι απαντήσεις των εξεταζόμενων να επηρεαστούν από τη διαδικασία της μάθησης που έχει συντελεστεί ενδιάμεσα. Το πόσο απέχει χρονικά η εξέταση από την επανεξέταση καθορίζει και το πόσο αξιόπιστη θα είναι η μέτρηση της αξιοπιστίας. Η μέθοδος της διαίρεσης είναι πιο αποδοτική σε σχέση με την μέθοδο διάθεσης παράλληλων διαγωνισμάτων μια και βασίζεται σε ένα μόνο διαγώνισμα. Το διαγώνισμα διαχωρίζεται σε δύο μικρότερα σύνολα ερωτήσεων που πρέπει να έχουν το ίδιο μήκος αλλά και την ίδια δυσκολία. Στη συνέχεια υπολογίζεται ο βαθμός συσχέτισης του σκορ στα δύο μισά-διαγωνίσματα. Από τον εκτιμούμενο βαθμό αξιοπιστίας των μισών-διαγωνισμάτων μπορούμε να εκτιμήσουμε την αξιοπιστία του συνολικού διαγωνίσματος με την μέθοδο Spearman Brown (Spearman, 1910). Η μέθοδος της εσωτερικής συνοχής βασίζεται στην ιδέα ότι κάθε ένα ερώτημα μπορεί να θεωρηθεί σαν ένα ξεχωριστό διαγώνισμα που εξετάζει μια συγκεκριμένη ικανότητα. Ο ποιο διαδεδομένος τρόπος εφαρμογής της μεθόδου είναι ο υπολογισμός ενός συντελεστή που ονομάζεται 35 P a g e

36 cronbach alpha (Cronbach, 1984). Ο συντελεστής αυτός βασίζεται στον υπολογισμό της συσχέτισης που παρουσιάζουν οι απαντήσεις που έχουν καταγραφεί στα διαφορετικά ερωτήματα. Τα ερωτήματα που εμφανίζουν μεγάλο βαθμό συσχέτισης θεωρείται ότι εξετάζουν παρόμοιες ικανότητες. Είναι λογικό ότι όταν σε ένα διαγώνισμα συμμετέχουν πολλά ερωτήματα με μεγάλο βαθμό συσχέτισης τότε ο δείκτης εσωτερικής συνοχής του διαγωνίσματος αυξάνει. Παρόλα αυτά οι σχεδιαστές ενός διαγωνίσματος πρέπει να επιδιώκουν υψηλό βαθμό εσωτερικής συνοχής αλλά με όσο γίνεται μικρότερο αριθμό ερωτημάτων που έχουν βέβαια μεγάλη συσχέτιση μεταξύ τους. Εγκυρότητα διαγωνίσματος (validity): Διαχρονικά έχουν αποδοθεί διάφοροι ορισμοί στην έννοια της εγκυρότητας ενός διαγωνίσματος (Goodwin & Leech, 2003). Για μεγάλο χρονικό διάστημα η εγκυρότητα προσδιοριζόταν από τρεις επιμέρους παραμέτρους: (α) την εγκυρότητα περιεχομένου (π.χ αν το διαγώνισμα αποτελείται από ερωτήματα που καλύπτουν όλη τη διαθέσιμη ύλη που πρέπει να εξεταστεί) (β) την εγκυρότητα κριτηρίου (π.χ αν αποδεικνύεται ότι το διαγώνισμα μετρά μια γνωστή κατάσταση του εξεταζόμενου) και (γ) την κατασκευαστική εγκυρότητα (π.χ αν αποδεικνύεται η συσχέτιση του σκορ που έχουν επιτύχει οι εξεταζόμενοι με την ικανότητα που αξιολογείται). Στη νέα έκδοση για τα Πρότυπα Εκπαιδευτικής και Ψυχομετρικής Αξιολόγησης (Standards for Educational and Psychological Testing) η εγκυρότητα ενός διαγωνίσματος αναφέρεται πλέον στο βαθμό κατά τον οποίο οι πειραματικές ενδείξεις και η θεωρία ερμηνεύουν τα αποτελέσματα μιας εξέτασης. Η διαδικασία που αξιολογεί την εγκυρότητα ενός διαγωνίσματος (validation process) οδηγεί στην ανάπτυξη μιας σειράς από επιστημονικά έγκυρες διαδικασίες ανάλυσης που στοχεύουν στην αποδοτική ερμηνεία των αποτελεσμάτων σε ένα διαγώνισμα. Ουσιαστικά αξιολογούνται τα μετρήσιμα αποτελέσματα που έχουν καταγραφεί και όχι το ίδιο το διαγώνισμα. Όταν μάλιστα τα αποτελέσματα ενός διαγωνίσματος χρησιμοποιούνται με διαφορετικούς τρόπους θα πρέπει να ελέγχεται η εγκυρότητα του κάθε τρόπου αξιοποίησης χωριστά. Το σύνολο των επιστημονικών ενδείξεων που συγκεντρώνονται για το σκοπό αυτό αποτελούν διαφορετικές πτυχές της εγκυρότητας αλλά δεν μπορούν να θεωρηθούν σαν διαφορετικοί τύποι εγκυρότητας. Η έννοια της εγκυρότητας ενός διαγωνίσματος θεωρείται πλέον ενιαία και αναφέρεται τελικά στο βαθμό κατά τον οποίο όλες οι επιμέρους ενδείξεις υποστηρίζουν και ερμηνεύουν ικανοποιητικά τα καταγεγραμμένα και μετρήσιμα αποτελέσματα (AERA, APA, & JCSEPT, 1999). Για να προσεγγίσει κάποιος την έννοια της εγκυρότητας θα πρέπει να αναζητήσει ενδείξεις που αφορούν: (α) στο περιεχόμενο του διαγωνίσματος (test content) (β) στη διαδικασία απόκρισης (response process) (γ) στην εσωτερική δομή (internal structure) (δ) στη σχέση με άλλες μεταβλητές 36 P a g e

37 (relations to other variables) και (ε) στις συνέπειες του διαγωνίσματος (consequences of testing) όπως περιγράφεται στον πίνακα P a g e

38 Πίνακας 1: Πως τεκμηριώνεται η εγκυρότητα ενός διαγωνίσματος Ενδείξεις περιεχομένου (evidence based on test content) Σύντομη περιγραφή Στο πλαίσιο της αναζήτησης ενδείξεων που αφορούν στο περιεχόμενο του διαγωνίσματος γίνεται τεκμηρίωση των μετρικών που χρησιμοποιούνται για την ανάλυση των θεμάτων (π.χ μορφή ερωτημάτων, ποιότητα και σαφήνεια εκφωνήσεων, αντιστοιχία ερωτημάτων με τους κόμβους του πίνακα εξεταζόμενης ύλης κλπ) μέσα από αναφορές ειδικών (expert groups) Ενδείξεις απόκρισης (evidence based on response process) Σύντομη περιγραφή Αφορά στη συγκέντρωση ενδείξεων ότι οι ενέργειες που απαιτούνται από τους εξεταζόμενους συμβαδίζουν με το επιθυμητό σύνολο ικανοτήτων που ελέγχει το διαγώνισμα. Ουσιαστικά ελέγχονται οι τρόποι με τους οποίους οι εξεταζόμενοι διαχειρίζονται τα θέματα και οδηγούνται στις απαντήσεις τους μέσα από συγκεκριμένες συμπεριφορές (Goodwin, 2002) Ενδείξεις εσωτερικής δομής (evidence based on internal structure) Σύντομη περιγραφή Στο πλαίσιο αυτό συγκεντρώνονται ενδείξεις που τεκμηριώνουν τη συμμόρφωση των επιμέρους στοιχείων ενός διαγωνίσματος με το υπό εξέταση περιεχόμενο. Η συγκέντρωση τέτοιων ενδείξεων βασίζεται κυρίως στην παραγοντική ανάλυση (factor analysis) και στην ανάλυση διαφορετικών αποκρίσεων (Differential Item Function DIF) μέσω της οποίας εξετάζεται το αν εξεταζόμενοι που έχουν την ίδια ικανότητα αλλά ανήκουν σε διαφορετικές ομάδες έχουν διαφορετική πιθανότητα επιτυχίας σε ένα ερώτημα (Hattie, Jaeger, & Bond, 1999) Ενδείξεις συσχέτισης (evidence based on relation to other variables) Σύντομη περιγραφή Στο πλαίσιο αυτό συγκεντρώνονται ενδείξεις που βασίζονται στη συσχέτιση των αποτελεσμάτων των εξεταζόμενων με άλλες ομάδες που έχουν μελετηθεί στο παρελθόν και έχουν γνωστά στατιστικά χαρακτηριστικά ή με άλλες μεταβλητές που μετριούνται με διαφορετικά εργαλεία μέτρησης. Ενδείξεις συνεπειών (evidence based on consequences of testing) Σύντομη περιγραφή Κάθε εξέταση ή πιστοποίηση ικανοτήτων στοχεύει στη διερμήνευση των αποτελεσμάτων ώστε να παρθούν κάποιες αποφάσεις σε επαγγελματικό, εκπαιδευτικό ή κοινωνικό επίπεδο. Στο πλαίσιο αυτό αναζητούνται ενδείξεις που τεκμηριώνουν ότι οι συνέπειες που θα έχει το διαγώνισμα στην επαγγελματική, εκπαιδευτική ή κοινωνική ζωή των εξεταζόμενων είναι συνεπείς με τις προδιαγραφές που έχουν τεθεί. Χριστακούδης Ξ. Χρήστος Σχόλιο Μια σειρά από χρήσιμες οδηγίες για την οργάνωση της διαδικασίας αυτής (π.χ βέλτιστος αριθμός ειδικών, τρόπος εκπαίδευσης κλπ) έχουν καταγραφεί στη βιβλιογραφία (Berk, 1990; Grant & Davis, 1997, 1997) Σχόλιο Για την καταγραφή τέτοιων ενδείξεων συχνά ακολουθείται η μέθοδος της παρατήρησης (κατά τη διάρκεια της εξέτασης) ή η διεξαγωγή συνεντεύξεων των εξεταζόμενων μετά την ολοκλήρωση του διαγωνίσματος Σχόλιο Η μελέτη των διαφορετικών αποκρίσεων (DIF) μπορεί να υλοποιηθεί είτε με τεχνικές της κλασσικής θεωρίας ανάλυσης διαγωνισμάτων (Classical Test Theory) είτε με τεχνικές ανάλυσης αποκρίσεων (Item Response Theory) (Nunnally & Bernstein, 1994) Σχόλιο Σε γενικές γραμμές το σύνολο των ενδείξεων που καταγράφονται στην κατηγορία αυτή βασίζεται στην έννοια της συσχέτισης (correlation) με διάφορες μεταβλητές (Goodwin & Leech, 2003) Σχόλιο Η μελέτη των συνεπειών που έχει μια εξέταση μεγάλης κλίμακας μπορεί να γίνει με μεθοδική παρατήρηση σε εστιασμένες ομάδες (focus groups) η με άλλες τεχνικές παρατήρησης (Chudowsky & Behuniak, 1998; Millman, 1998) Από την παραπάνω ανάλυση συνάγεται ότι η εγκυρότητα ενός διαγωνίσματος δεν μπορεί να εκτιμηθεί με ένα μόνο συντελεστή αλλά εμπεριέχει μια σειρά από στοιχεία που πρέπει να διερευνηθούν. 38 P a g e

39 Ανάλυση ερωτημάτων (item analysis) στο πλαίσιο της Κλασσικής θεωρίας Στο πλαίσιο της κλασσικής ανάλυσης ενός διαγωνίσματος η παρατηρήσιμη βαθμολογία ενός εξεταζόμενου εξαρτάται κυρίως από τη σύνθεση του διαγωνίσματος και δεν μας δίνει πληροφορίες για τη λανθάνουσα ικανότητα του εξεταζόμενου. Η βαθμολογία ενός εξεταζόμενου παράγεται σαν το άθροισμα των αποκρίσεων του εξεταζόμενου σε μια σειρά από επιμέρους ερωτήματα που συνθέτουν το διαγώνισμα. Έτσι, σημαντικό μέρος της ανάλυσης παίζουν τα στατιστικά χαρακτηριστικά κάθε ξεχωριστού ερωτήματος. Τα βασικά χαρακτηριστικά που αφορούν στα ερωτήματα είναι: (α) ο δείκτης ευκολίας/δυσκολίας (item facility or difficulty) και (β) ο δείκτης διακριτικής ικανότητας (item discrimination). Δείκτης δυσκολίας (item difficulty). Ο δείκτης αυτός υπολογίζεται με το λόγο ανάμεσα στο πλήθος των εξεταζόμενων που απάντησαν σωστά στο ερώτημα προς το σύνολο των ατόμων στα οποία εκτέθηκε το ερώτημα στη διάρκεια του χρόνου (διχοτομικά δεδομένα). Όσο μεγαλύτερη είναι η δυσκολία με την οποία οι εξεταζόμενοι αντιμετωπίζουν το ερώτημα τόσο μικρότερος εμφανίζεται ο δείκτης αυτός και το ανάποδο (Wood, 1965) ενώ μπορεί να υπολογιστεί από την εξίσωση 2 (Crocker, 1986). (εξ. 2) όπου C orrect είναι το πλήθος των σωστών απαντήσεων ενώ T otal το συνολικό πλήθος εμφανίσεων του ερωτήματος. Όσο μεγαλύτερη είναι η βαρύτητα μιας ερώτησης τόσο η επιθυμητή τιμή του δείκτη αυτού θα πρέπει να τείνει στο 0.5. Στην πράξη ο δείκτης δυσκολίας των επιμέρους δοκιμασιών μπορεί να κυμαίνεται από 0.2 μέχρι 0.8. Όταν μάλιστα έχουμε ένα διαγώνισμα με πολλές ερωτήσεις τότε είναι επιθυμητό να συμμετέχουν ερωτήματα διαφορετικής δυσκολίας ώστε να εξετάζεται όλο το πιθανό φάσμα ικανοτήτων. Δοκιμασίες με πολύ μεγάλο (>0.8) η πολύ μικρό (<0.2) δείκτη δυσκολίας πρέπει να αποφεύγονται γιατί δεν συνεισφέρουν ικανοποιητικά στην αξιολόγηση των εξεταζόμενων (McAlpine, 2002a). Είναι εύλογο ότι ο δείκτης αυτός εξαρτάται πολύ από το επίπεδο των εξεταζόμενων. Για παράδειγμα αν ο δείκτης υπολογιστεί πάνω σε μια ομάδα ιδιαίτερα ικανών εξεταζόμενων τότε θα έχει υψηλή τιμή με αποτέλεσμα να θεωρηθεί η ερώτηση εύκολη και το ανάποδο. Αν και έχουν προταθεί διάφοροι τρόποι για να αντιμετωπιστεί το πρόβλημα της έντονης συσχέτισης ανάμεσα στις τιμές του δείκτη ευκολίας και του δείγματος των εξεταζόμενων (Nuttall & Willmott, 1972) αυτό συνεχίζει να αποτελεί το βασικό μειονέκτημα της κλασσικής ανάλυσης ερωτημάτων. 39 P a g e

40 Δείκτης διακριτικότητας (item discrimination). Εκφράζει το βαθμό στον οποίο η δοκιμασία καταφέρνει να διαμερίσει τους εξεταζόμενους και αποτελεί ένα μέτρο της παρεχόμενης πληροφορίας (information) για την ομάδα των υποψηφίων. Ο δείκτης διακριτικότητας συσχετίζει την απόδοση σε ένα ερώτημα με τη συνολική απόδοση στο διαγώνισμα. Όταν έχουμε ένα ερώτημα το οποίο εξετάζει την ίδια γνώση, δεξιότητα ή στάση με ολόκληρο το διαγώνισμα περιμένουμε ότι ένας εξεταζόμενος με μεγάλη ικανότητα θα έχει μεγάλη πιθανότητα να απαντήσει σωστά στο ερώτημα ενώ αντίθετα ένας εξεταζόμενος με χαμηλή ικανότητα θα έχει μικρή πιθανότητα επιτυχίας. Έτσι, ένα "καλό" ερώτημα θα περιμέναμε να διαχωρίζει καλά τους ικανούς από τους μη ικανούς εξεταζόμενους. Η διακριτική ισχύς ενός ερωτήματος μπορεί να προσεγγιστεί είτε από τον δείκτη διακριτικότητας (discrimination index) είτε από τους συντελεστές διακριτικής ικανότητας (discrimination coefficients). Για να υπολογιστεί ο δείκτης διακριτικότητας ενός ερωτήματος πρέπει να ταξινομηθούν τα δεδομένα των εξεταζόμενων με βάση το συνολικό σκορ στο διαγώνισμα και στη συνέχεια να οριστούν δύο ομάδες στα άκρα που περιέχουν το 27% των απαντήσεων η κάθε μία. Ο τύπος για τον υπολογισμό του δείκτη διακριτικότητας δίνεται από την εξίσωση 3. (εξ. 3) όπου U correct είναι το πλήθος των εξεταζόμενων που απάντησαν σωστά στο ερώτημα από τους 27% εξεταζόμενους με το μεγαλύτερο σκορ, D correct είναι το πλήθος των εξεταζόμενων που απάντησαν σωστά στο ερώτημα από τους 27% εξεταζόμενους με το μικρότερο σκορ και Ν είναι το μέγιστο πλήθος εξεταζόμενων στις δύο ομάδες. Αν όλοι οι εξεταζόμενοι που ανήκουν στην ομάδα U correct απάντησαν σωστά στο ερώτημα και αντίστοιχα όλοι οι εξεταζόμενοι στην ομάδα D correct απάντησαν λάθος τότε η τιμή του δείκτη διακριτικότητας γίνεται D=+1.0 που αποτελεί και την μεγαλύτερη τιμή. Το ανάποδο φαινόμενο θα οδηγούσε σε δείκτη διακριτικότητας D = -1.0 που είναι και η χαμηλότερη τιμή του. Ανάλογα με την τιμή του δείκτη διακριτικότητας θα μπορούσαμε να χαρακτηρίσουμε και την ποιότητα του ερωτήματος σαν εξαιρετική (excellent), καλή (good), μέτρια (mediocre), μικρή (poor) και κακή (worst) όπως φαίνεται στον πίνακα P a g e

41 Πίνακας 2: Πίνακας αξιολόγησης ερωτήματος (Ebel & Frisbie, 1991) Δείκτης Διακριτικότητας D Ποιότητα Ερωτήματος Χριστακούδης Ξ. Χρήστος Προτεινόμενες Ενέργειες > 0.39 εξαιρετική (excellent) διατήρηση του ερωτήματος καλή ( good) υπάρχουν πιθανότητες βελτίωσης του ερωτήματος μέτρια (mediocre) το ερώτημα πρέπει να ελεγχθεί και πιθανόν να αναθεωρηθεί μικρή (poor) απόρριψη ερωτήματος ή αναθεώρησή του σε βάθος < 0.0 κακή ( worst) οριστική απόρριψη του ερωτήματος Η σχέση ανάμεσα στο ερώτημα και το συνολικό σκορ μπορεί να είναι θετική ή αρνητική. Στην πράξη, ο βαθμός διακριτικής ικανότητας των ερωτημάτων που συμμετέχουν σε ένα διαγώνισμα πρέπει να είναι θετικός αριθμός από 0.2 μέχρι 1.0. Τα ερωτήματα που εμφανίζουν δείκτη διακριτικής ικανότητας κάτω από 0.2 θεωρούνται αδύναμα (weak) ενώ η επιθυμητή τιμή του δείκτη είναι πάνω από 0.4 Όσο μεγαλύτερος είναι ο βαθμός διακριτικής ικανότητας τόσο "καλύτερη" θεωρείται η ερώτηση (McAlpine, 2002a). Πρέπει να τονιστεί όμως ότι όταν το διαγώνισμα δεν είναι μονοδιάστατο (δηλαδή περιέχει ομάδες ερωτημάτων που εξετάζουν επιμέρους ικανότητες multidimentional test) τότε ο δείκτης πρέπει να υπολογίζεται σε σχέση με το συνολικό σκορ στα ερωτήματα της ίδιας ομάδας. Ένας άλλος τρόπος για την εκτίμηση της διακριτικής ισχύος ενός ερωτήματος είναι με τον υπολογισμό ενός σημείου συσχέτισης (biserial correlation) που χρησιμοποιείται όταν συσχετίζεται μια διχοτομική μεταβλητή (1-σωστή και 0-λάθος απάντηση σε ένα συγκεκριμένο ερώτημα) με μια ποσοτική μεταβλητή (το συνολικό σκορ των εξεταζόμενων στο διαγώνισμα). Για τον υπολογισμό της συσχέτισης ανάμεσα στις απαντήσεις των εξεταζόμενων στο ερώτημα και στο συνολικό του σκορ μπορεί να χρησιμοποιηθεί η εξίσωση 4 (Gupta, 1960). (εξ. 4) όπου X 1 είναι το μέσο συνολικό σκορ που έχουν επιτύχει οι εξεταζόμενοι που έχουν απαντήσει σωστά στην ερώτηση, X 0 είναι το μέσο συνολικό σκορ που έχουν επιτύχει οι εξεταζόμενοι που έχουν απαντήσει λανθασμένα, σ x είναι η διακύμανση του συνολικού σκορ που έχουν επιτύχει οι εξεταζόμενοι στο διαγώνισμα και p είναι το ποσοστό των εξεταζόμενων που απάντησαν σωστά. Η ποιότητα ενός ερωτήματος μπορεί να τεκμηριωθεί και από άλλες στατιστικές παραμέτρους όπως είναι η διασπορά (variance) των απαντήσεων. Ο υπολογισμός των στατιστικών χαρακτηριστικών των ερωτημάτων που συμμετέχουν σε ένα διαγώνισμα μπορεί να αξιοποιηθεί από τους κατασκευαστές των ερωτημάτων στο πλαίσιο της βελτίωσης της τράπεζας θεμάτων. Για παράδειγμα ερωτήματα στα 41 P a g e

42 οποία αποτυγχάνουν οι ικανοί εξεταζόμενοι ή το αντίθετο δεν είναι επιθυμητά. Αν και η ανάλυση των ερωτημάτων δεν μπορεί να εξηγήσει το γιατί παρουσιάζεται μια μη ομαλή συμπεριφορά μπορεί να εντοπίσει με αποδοτικό τρόπο εκείνα τα ερωτήματα που πρέπει να αναθεωρηθούν (McAlpine, 2002b) Συγκρισιμότητα της βαθμολογίας των εξεταζόμενων Κατά τη φάση σχεδίασης ενός διαγωνίσματος πρέπει να ληφθούν υπόψη όλες εκείνες οι παράμετροι που θα ενισχύσουν την αξιοπιστία (π.χ την εσωτερική συνοχή των ερωτημάτων που χρησιμοποιούνται στο διαγώνισμα) και την εγκυρότητα (π.χ την ικανότητα μέτρησης και αξιολόγησης των ικανοτήτων για τις οποίες έχει σχεδιαστεί το διαγώνισμα). Για να εξασφαλιστεί όμως η δυνατότητα σύγκρισης του σκορ που έχουν πετύχει οι εξεταζόμενοι σε διάφορα διαγωνίσματα πρέπει να ελεγχθούν και μια σειρά εξωτερικών παραγόντων που μπορεί να επηρεάζουν τις αποκρίσεις των εξεταζόμενων. Για το σκοπό αυτό, η οργάνωση εξετάσεων μεγάλης κλίμακας πρέπει να γίνεται με συγκεκριμένους κανόνες ώστε να διασφαλίζονται ομοιόμορφες συνθήκες εξέτασης ανεξάρτητα από το χώρο και το χρόνο υλοποίησης του διαγωνίσματος (De Klerk, 2008). Επιπλέον, όταν τα διαγωνίσματα είναι διαφορετικά ως προς τις γνώσεις ή τις ικανότητες που αξιολογούν μπορούν να συγκριθούν μεταξύ τους μετά από την απαραίτητη κανονικοποίηση. Το ποιο δημοφιλές μέτρο κανονικοποίησης αποτελούν οι σταθεροί βαθμοί z που εκφράζουν το πόσες τυπικές αποκλίσεις απέχει η συνολική βαθμολογία ενός εξεταζόμενου από τη μέση βαθμολογία που έχει καταγραφεί με την προϋπόθεση της κανονικής κατανομής των βαθμολογιών. Η μαθηματική σχέση που μπορεί να χρησιμοποιηθεί για την κανονικοποίηση των τελικών βαθμολογιών δίνεται από την εξίσωση 5: (εξ.5) όπου x είναι η βαθμολογία που έχει καταγραφεί (row score), μ είναι η μέση τιμή των βαθμολογιών στο συγκεκριμένο διαγώνισμα και σ είναι η τυπική απόκλιση των βαθμολογιών. Επειδή όμως στην πράξη τα στατιστικά χαρακτηριστικά του πληθυσμού (μ,σ) δεν είναι γνωστά μπορούν να αντικατασταθούν από τις αντίστοιχες εκτιμήσεις των ποσοτήτων αυτών από επαρκή δείγματα του πληθυσμού (Ley, 2007). Η πρακτική σημασία της ανάλυσης των ερωτημάτων και της στατιστικής τους συμπεριφοράς είναι η αναζήτηση ενδείξεων που θα οδηγήσουν τους σχεδιαστές των διαγωνισμάτων στην απόρριψη ερωτημάτων και στη βελτίωση της τράπεζας θεμάτων με απώτερο σκοπό την παραγωγή διαγωνισμάτων που έχουν καλύτερη συμπεριφορά με βάση μια σειρά από καλά ορισμένα κριτήρια όπως αξιοπιστία, εγκυρότητα, δυσκολία, διακριτική ικανότητα κλπ. Στην πράξη μπορούν να 42 P a g e

43 συντρέχουν διάφοροι λόγοι για τους οποίους μια δοκιμασία δε συμπεριφέρεται σωστά. Για παράδειγμα, για ένα δεδομένο σύνολο εξεταζόμενων θα πρέπει να επιλέγουμε δοκιμασίες αντίστοιχης δυσκολίας καθώς και δοκιμασίες που έχουν την ικανότητα να διακρίνουν τους αδύνατους από τους πολύ ικανούς. Όταν η δοκιμασία βασίζεται σε ερωτήματα κλειστού τύπου όπου δίνονται οι πιθανές απαντήσεις (δολώματα) μπορεί να υπολογιστεί και το ποσοστό των υποψηφίων που έχουν επιλέξει το κάθε δόλωμα και η συσχέτισή του με τον τελικό βαθμό στο ηδιαγώνισμα. Η αναμενόμενη τιμή αυτού του δείκτη συσχέτισης είναι θετική και υψηλή για τις σωστές απαντήσεις σε μια δοκιμασία και αρνητική για τα δολώματα. Ο δείκτης αυτός μας αποκαλύπτει αν όσοι έχουν μεγάλο βαθμό στο ηδιαγώνισμα τείνουν να απαντούν σωστά στο συγκεκριμένο ερώτημα. Ένα σημαντικό μειονέκτημα της κλασσικής ανάλυσης διαγωνισμάτων (CTT) είναι ότι τα συμπεράσματα τα οποία εξάγονται από την μελέτη των παραπάνω δεικτών εξαρτώνται πάρα πολύ από το δείγμα που χρησιμοποιείται για την ανάλυση (McAlpine, 2003). Η τάση που επικρατεί σήμερα είναι η ανάλυση των ερωτημάτων και των διαγωνισμάτων να βασίζεται σε μια σύγχρονη, συνεκτική και κομψή θεωρία που ονομάζεται Θεωρία Ανάλυσης Αποκρίσεων (Item Response Theory-IRT) Θεωρία Ανάλυσης Αποκρίσεων (Item Response Theory) Η θεωρία ανάλυσης αποκρίσεων (Item Response Theory IRT) μπορεί επίσης να χρησιμοποιηθεί για τη σχεδίαση, την ανάλυση και τη βαθμολόγηση ηδιαγωνισμάτων που προσπαθούν να μετρήσουν κάποιες λανθάνουσες ικανότητες των υποψηφίων. Βασίζεται σε μαθηματικά μοντέλα που προσπαθούν να περιγράψουν τη σχέση που έχουν οι αποκρίσεις των εξεταζόμενων με μια σειρά από λανθάνουσες μεταβλητές με τη βασική προϋπόθεση ότι η απόκριση των εξεταζόμενων στο ηδιαγώνισμα οφείλεται πράγματι σε αυτές τις λανθάνουσες ικανότητες (Baker & Kim, 2004; Linden & Hambleton, 1997; Lord, 1980a) Ανάλυση ερωτημάτων (item analysis) στο πλαίσιο της IRT Στο πλαίσιο της θεωρίας αυτής, η απόκριση των εξεταζόμενων σε μια δοκιμασία μπορεί να μοντελοποιηθεί από μια μονότονα αύξουσα συνάρτηση που ονομάζεται χαρακτηριστική εξίσωση της δοκιμασίας (Item Characteristic Curve ICC). Έτσι, η πιθανότητα ένας εξεταζόμενος να απαντήσει σωστά σε μια δοκιμασία δίνεται από μια μαθηματική συνάρτηση παραμέτρων που αφορούν είτε στον εξεταζόμενο είτε στη δοκιμασία. Συνήθως η παράμετρος που αφορά στον εξεταζόμενο ονομάζεται ικανότητα (ability) ενώ οι παράμετροι που αφορούν στην ίδια τη δοκιμασία μπορούν να είναι ο βαθμός δυσκολίας, ο βαθμός διακριτικής ικανότητας και ο βαθμός τυχαιότητας στην καταχώριση της απάντησης. Ένα γενικό μαθηματικό μοντέλο που αναπαριστά τη σχέση ανάμεσα στη λανθάνουσα μεταβλητή και στις παραμέτρους της δοκιμασίας δίνεται στην εξίσωση P a g e

44 P i (θ) = c i + (1 c i )g{a i (θ b i )} (εξ.6) όπου θ εκφράζει την ικανότητα του εξεταζόμενου, P i (θ) είναι η πιθανότητα ένας εξεταζόμενος με ικανότητα θ να απαντήσει σωστά στην ερώτηση i ενώ a i είναι ο βαθμός διακριτικότητας, b i ο βαθμός δυσκολίας και c i είναι ο παράγοντας τυχαιότητας της ερώτησης. Οι βασικές προϋποθέσεις που πρέπει να ισχύουν προκειμένου να εφαρμοστεί η θεωρία IRT για την ανάλυση των αποκρίσεων που έχουν δώσει οι εξεταζόμενοι είναι (Hambleton, 1991): η παρατηρούμενη συμπεριφορά των εξεταζόμενων να ερμηνεύεται μόνο από μια απλή λανθάνουσα μεταβλητή όπως είναι η ικανότητα σε ένα γνωστικό αντικείμενο (unidimensionality) για δύο ή περισσότερους εξεταζόμενους που έχουν την ίδια ικανότητα, οι απαντήσεις τους σε οποιοδήποτε ζευγάρι δοκιμασιών να είναι στατιστικά ανεξάρτητες (local independent ) η πιθανότητα σωστής απάντησης P i (θ) σε μια δοκιμασία να μην εξαρτάται από το δείγμα των εξεταζόμενων που χρησιμοποιήθηκε για να εκτιμηθούν οι παράμετροι του μοντέλου όταν ένας τυχαίος εξεταζόμενος αποτυγχάνει να απαντήσει σωστά σε μια δοκιμασία αυτό να οφείλεται στη χαμηλή ικανότητά του και όχι επειδή δεν είχε αρκετό χρόνο για να απαντήσει (speededness) Διάφορα μοντέλα έχουν προταθεί στο πλαίσιο της IRT αλλά τα μαθηματικά μοντέλα που χρησιμοποιούνται πιο συχνά στη διεθνή βιβλιογραφία είναι: (α) το μοντέλο μιας παραμέτρου (one parameter model) ή μοντέλο Rasch (Rasch, 1981) όπου μόνο η δυσκολία της δοκιμασίας συμμετέχει (β) το μοντέλο δύο παραμέτρων (two parameters model) στο οποίο συμμετέχει τόσο ο βαθμός δυσκολίας όσο και η διακριτική ικανότητα της δοκιμασίας και (γ) το μοντέλο τριών παραμέτρων (three parameters model) όπου κάθε δοκιμασία χαρακτηρίζεται από τη δυσκολία, το βαθμό διακριτικής ικανότητας και το βαθμό τυχαίας επιλογής. Στην πράξη, η χαρακτηριστική εξίσωση μιας δοκιμασίας που ακολουθεί το πιο γενικό μοντέλο τριών παραμέτρων ορίζεται από την εξίσωση 7 : Dai ( bi) e Pi( ) ci (1 ci) Dai ( bi) 1 e i =1, 2, 3,...n items (εξ.7) όπου D είναι μια σταθερά που επιλέγεται να έχει την τιμή D=1.7 (Lord & Novick, 1968). Το μοντέλο μιας παραμέτρου ή μοντέλο Rasch βασίζεται στην υπόθεση ότι η πιθανότητα να απαντήσει σωστά ένας τυχαίος εξεταζόμενος σε μια συγκεκριμένη ερώτηση εξαρτάται μόνο από το βαθμό δυσκολίας του ερωτήματος. Έτσι αν η ικανότητα του εξεταζόμενου είναι μεγαλύτερη από το βαθμό δυσκολίας της δοκιμασίας τότε η αναμενόμενη πιθανότητα είναι μεγαλύτερη από P a g e

45 Αντίστοιχα, αν η ικανότητα είναι μικρότερη από το βαθμό δυσκολίας τότε η αναμενόμενη πιθανότητα σωστής απόκρισης είναι και αυτή κάτω από.5. Όταν η ικανότητα του εξεταζόμενου ταυτίζεται με το βαθμό δυσκολίας μιας δοκιμασίας τότε η αντίστοιχη πιθανότητα αναμένεται να είναι 0.5. Η έκφραση που μοντελοποιεί τα παραπάνω δίνεται στην εξίσωση 8: log( Pn i /(1-Pn i ))=log(pn i ) log(1-pn i ) (εξ.8) όπου P ni είναι η πιθανότητα ο εξεταζόμενος (n) να απαντήσει σωστά στη δοκιμασία (i). Οι μονάδες που προκύπτουν από την εξίσωση αυτή είναι γνωστές σαν logint και κυμαίνονται από -0.3 μέχρι και +0.3 πάνω σε μια λογαριθμική κλίμακα με μέση τιμή το μηδέν. Μια δοκιμασία που φαίνεται να έχει αρνητικές τιμές τείνει να θεωρείται εύκολη ενώ μια δοκιμασία με θετικές τιμές θεωρείται δύσκολη. Η αποτύπωση των χαρακτηριστικών εξισώσεων όλων των δοκιμασιών σε μια τέτοια κλίμακα μπορεί να μας δώσει πληροφορίες για τη σχετική δυσκολία της κάθε δοκιμασίας σε σχέση με όλες τις άλλες δοκιμασίες που συμμετέχουν σε ένα ηδιαγώνισμα. Οι διάφορες δοκιμασίες διατηρούν τη σχετική τους διάταξη ανεξάρτητα από τους πληθυσμούς εξεταζόμενων οι οποίοι καλούνται να τις απαντήσουν κάθε φορά. Από την ανάλυση των χαρακτηριστικών εξισώσεων που αντιστοιχούν στις διάφορες δοκιμασίες ενός ηδιαγωνίσματος όταν ακολουθούμε το μοντέλο Rasch μπορούμε να χαρακτηρίσουμε τις δοκιμασίες σαν εύκολες-μέτριες-δύσκολες ανάλογα με τις αποκρίσεις των εξεταζόμενων σε αυτές. Η συμπεριφορά όμως μιας δοκιμασίας μπορεί να ερμηνεύεται από διάφορους παράγοντες που πιθανόν να ισχύουν κάθε φορά όπως: μια δοκιμασία μπορεί να χαρακτηρίζεται σαν ιδιαίτερα δύσκολη (τιμές +2 μέχρι +3) γιατί o αναφέρεται σε γνώσεις και δεξιότητες που δεν αντιστοιχούν στους εξεταζόμενους o η επιλογή των δολωμάτων δεν είναι η βέλτιστη (ασάφειες, όχι μοναδική απάντηση, χρήση δολωμάτων που πιθανόν είναι ευαίσθητα στο χρόνο κλπ) μια δοκιμασία μπορεί να χαρακτηρίζεται σαν ιδιαίτερα εύκολη (τιμές -2 μέχρι -3) γιατί o έχει προφανείς απαντήσεις ή προφανή λύση o η απάντηση στη δοκιμασία μπορεί να εξαρτάται ή να καθορίζεται από άλλες δοκιμασίες στις οποίες έχει απαντήσει ο εξεταζόμενος νωρίτερα Κατά την ανάλυση με βάση το συγκεκριμένο μοντέλο υπεισέρχεται συχνά και η έννοια της συνάρτησης ταιριάσματος (fit statistic) η οποία προσπαθεί να μετρήσει πόσο καλά ταιριάζουν τα δεδομένα μιας εξέτασης με τις αναμενόμενες αποκρίσεις που προβλέπονται από το μοντέλο. Τα 45 P a g e

46 ηδιαγωνίσματα μπορούν να αντιμετωπιστούν σαν ένα σύνολο από επιμέρους δοκιμασίες οι οποίες καταλήγουν σε μια καταγεγραμμένη απόκριση από τους εξεταζόμενους. Το σύνολο αυτών των αποκρίσεων διαμορφώνει το τελικό αποτέλεσμα στο ηδιαγώνισμα (σκορ) και αποτελεί στην ουσία μια εκτίμηση για το επίπεδο ικανότητας (ability) που έχει ο κάθε διαγωνιζόμενος. Η σχέση όμως ανάμεσα στην απόκριση των εξεταζόμενων (συνολικό σκορ) και στις ικανότητές τους εξαρτάται από την κατανομή των δοκιμασιών στο ηδιαγώνισμα και δεν είναι απαραίτητα γραμμική όπως φαίνεται και στο σχήμα 1. Σχήμα 1: Η μορφή της χαρακτηριστικής καμπύλης ενός ερωτήματος (ICC) Όπως σε όλες τις μαθηματικές μοντελοποιήσεις, η αξιοποίηση των μοντέλων IRT για την ανάλυση της συμπεριφοράς μιας δοκιμασίας πρέπει να λαμβάνει υπόψη της και το πιθανό λάθος που μπορεί να εμφανίζεται κάθε φορά. Μέσα από διαδικασίες αναθεώρησης των δοκιμασιών μπορούμε να ελέγξουμε ή να μειώσουμε το λάθος αυτό αλλά σίγουρα δεν μπορούμε να το εξαλείψουμε σε πραγματικές συνθήκες (Cox, 1958) Ανάλυση η-διαγωνισμάτων (test analysis) στο πλαίσιο της IRT Αν και η θεωρία IRT βασίζεται στη μελέτη των ερωτημάτων ενός διαγωνίσματος, δύο έννοιες εμπλέκονται κυρίως όταν η ανάλυση περιστρέφεται γύρω από ολόκληρο το διαγώνισμα: (α) Χαρακτηριστική Καμπύλη Διαγωνίσματος (Test Characteristic Curve-TCC) που αφορά στον υπολογισμό της σχέσης που υπάρχει ανάμεσα στις ικανότητες των εξεταζόμενων και το πραγματικό τους σκορ και (β) Συνάρτηση Πληροφορίας του Διαγωνίσματος (Test Information Function-TIF) που αφορά σε μια εκτίμηση της ακρίβειας με την οποία εκτιμά το διαγώνισμα την ικανότητα των εξεταζόμενων. Οι δύο παραπάνω ιδιότητες ενός διαγωνίσματος υπολογίζονται με βάση τα αντίστοιχα χαρακτηριστικά των επιμέρους ερωτημάτων. Χαρακτηριστική Καμπύλη Διαγωνίσματος (Test Characteristic Curve TCC) 46 P a g e

47 Η θεωρία IRT βασίζεται στη μοντελοποίηση της συμπεριφοράς κάθε ερωτήματος που συμμετέχει σε ένα διαγώνισμα. Στην περίπτωση των διχοτομικών ερωτημάτων η επιτυχής απόκριση του εξεταζόμενου σε ένα ερώτημα βαθμολογείται με (1) ενώ η αποτυχία με (0). Έτσι, η συνολική βαθμολογία του εξεταζόμενου στο διαγώνισμα προκύπτει από το άθροισμα των διχοτομικών αποτελεσμάτων σε κάθε επιμέρους ερώτημα. Το τελικό αποτέλεσμα της βαθμολόγησης θα κυμαίνεται από το 0 (όταν ο εξεταζόμενος δεν έδωσε καμία σωστή απάντηση) μέχρι το ν (όταν ο εξεταζόμενος έχει απαντήσει σωστά σε όλα τα ερωτήματα). Αν υποθέσουμε ότι ένας συγκεκριμένος εξεταζόμενος επαναλάβει ένα συγκεκριμένο διαγώνισμα πολλές φορές και οι απαντήσεις του στις διαδοχικές απόπειρες δεν επηρεάζονται μεταξύ τους τότε αναμένουμε ότι σε κάθε απόπειρα θα συγκεντρώνει και μια ελαφρώς διαφορετική βαθμολογία η οποία όμως θα κυμαίνεται με μικρές αποκλίσεις γύρω από μια συγκεκριμένη μέση τιμή. Αυτή η αναμενόμενη βαθμολογία ονομάζεται πραγματικό σκορ (true score) και προσδιορίζεται ανάλογα με την τεχνική μέτρησης που εφαρμόζεται κάθε φορά. Στο πλαίσιο της IRT το πραγματικό σκορ ενός εξεταζόμενου ορίζεται από την εξίσωση 9. (εξ.9) όπου TS j εκφράζει το πραγματικό σκορ του εξεταζόμενου (j) που έχει επίπεδο ικανότητας θ j ενώ η ποσότητα P i (θ j ) εκφράζει την πιθανότητα ένας εξεταζόμενος που έχει την ικανότητα θ j να απαντήσει σωστά στο ερώτημα i. Με βάση τα παραπάνω είναι εμφανές ότι για να υπολογίσουμε το πραγματικό σκορ που αντιστοιχεί σε μια δεδομένη ικανότητα αρκεί να προσθέσουμε τις πιθανότητες σωστής απάντησης για όλα τα ερωτήματα του διαγωνίσματος. Αν επαναλάβουμε τους υπολογισμούς για όλο το εύρος ικανοτήτων τότε μπορούμε να εκτιμήσουμε το πραγματικό σκορ σαν συνάρτηση της ικανότητας των εξεταζόμενων και αυτό ορίζεται σαν η χαρακτηριστική καμπύλη του ηδιαγωνίσματος (Test Characteristic Curve). Ένα παράδειγμα της μορφής που μπορεί να έχει η χαρακτηριστική εξίσωση ενός διαγωνίσματος δίνεται στο σχήμα P a g e

48 Σχήμα 2: H μορφή μιας χαρακτηριστικής καμπύλης διαγωνίσματος (TCC) (Baker, 2001, σελ. 70, σχήμα 4-5) Για τη μελέτη της συμπεριφοράς ενός διαγωνίσματος που αποτελείται από Ν ερωτήματα μπορεί να χρησιμοποιηθεί η χαρακτηριστική καμπύλη (TCC) ώστε να αποτυπωθεί η σχέση του πραγματικού σκορ με τις ικανότητες των εξεταζόμενων. Όταν η ανάλυση βασίζεται στο μοντέλο μιας ή δύο παραμέτρων (1PL/2PL models) τότε όταν η ικανότητα των εξεταζόμενων τείνει στο - σκορ τείνει στο 0 ενώ όταν η ικανότητα τείνει στο + το πραγματικό το πραγματικό σκορ τείνει στον αριθμό Ν που εκφράζει το πλήθος των ερωτημάτων στο διαγώνισμα. Όταν το διαγώνισμα περιλαμβάνει ερωτήματα κλειστού τύπου με πιθανές απαντήσεις και χρησιμοποιείται το μοντέλο τριών παραμέτρων (3PL) τότε η αναμενόμενη τιμή του πραγματικού σκορ όταν η ικανότητα τείνει στο - δεν τείνει στο μηδέν γιατί στο πλαίσιο αυτού του μοντέλου ακόμη και ένας εξεταζόμενος με πολύ μικρή ικανότητα έχει πιθανότητα να εντοπίσει τη σωστή απάντηση στην τύχη. Παρόλα αυτά, το πάνω όριο της χαρακτηριστικής καμπύλης συνεχίζει να τείνει στο Ν όταν η ικανότητα τείνει στο +. Η πρακτική σημασία του υπολογισμού της χαρακτηριστικής εξίσωσης ενός διαγωνίσματος οφείλεται στην αξιοποίησή της για τον μετασχηματισμό της παρατηρήσιμης απόδοσης των εξεταζόμενων σε πραγματικό σκoρ και για την εξίσωση διαγωνισμάτων (equating tests). H μορφή της καμπύλης που χαρακτηρίζει ένα διαγώνισμα εξαρτάται: (α) από το πλήθος των ερωτημάτων στο διαγώνισμα (Ν), (β) το μαθηματικό μοντέλο στο οποίο βασίζεται η ανάλυση (1PL/2PL/3PL) και (γ) στις τιμές των παραμέτρων του μοντέλου για κάθε ξεχωριστό ερώτημα. Συνήθως η μορφή της χαρακτηριστικής καμπύλης ενός διαγωνίσματος έχει το σχήμα S και μοιάζει με την χαρακτηριστική καμπύλη των ερωτημάτων (ICCs). Μπορεί όμως να εμφανίζει στην αρχή μια ομαλή αύξηση, στη 48 P a g e

49 συνέχεια να παρουσιάζει μια σταθερή σχεδόν εικόνα και στο τέλος να παρουσιάζει και πάλι μια πολύ ομαλή αυξητική τάση. Σε κάθε περίπτωση όμως η καμπύλη αυτή θα τείνει στο πλήθος των ερωτημάτων του διαγωνίσματος Ν. Συνάρτηση Πληροφορίας Διαγωνίσματος (Test Information Function TIF) Η αξιοπιστία (reliability) ενός διαγωνίσματος αφορά κυρίως στην ακρίβεια με την οποία το διαγώνισμα κατατάσσει τους εξεταζόμενους. Στο πλαίσιο της κλασσικής ανάλυσης ενός διαγωνίσματος ο δείκτης αξιοπιστίας του διαγωνίσματος υπολογίζεται με διάφορες τεχνικές σαν μια αριθμητική τιμή και χρησιμοποιείται κυρίως για τη σύγκριση δύο ή περισσοτέρων διαγωνισμάτων. Στο πλαίσιο όμως της IRT η έννοια της αξιοπιστίας μπορεί να αντικατασταθεί από την έννοια της πληροφορίας (information) η οποία μάλιστα δεν έχει μια ομοιόμορφη κατανομή κατά μήκος όλων των πιθανών ικανοτήτων των εξεταζόμενων. Η πληροφορία ενός διαγωνίσματος εκφράζει την ακρίβεια με την οποία μπορεί να εκτιμηθεί η ικανότητα των εξεταζομένων και μπορεί να υπολογιστεί από τη διακύμανση των παρατηρήσιμων τιμών της βαθμολογίας. Η πληροφορία που κρύβει ένα ερώτημα σε συνάρτηση με την ικανότητα των εξεταζόμενων εξαρτάται από το μοντέλο που χρησιμοποιείται για την ανάλυση των επιμέρους δοκιμασιών και δίνεται στον πίνακα 3. Πίνακας 3: Συναρτήσεις πληροφορίας για τα βασικά μοντέλα IRT (Baker, 2001, κεφάλαιο 6, σελ.107). Μοντέλο IRT Συνάρτηση Πληροφορίας μοντέλο μιας παραμέτρου 1PL μοντέλο δύο παραμέτρων 2PL μοντέλο τριών παραμέτρων 3PL Όπως ορίστηκε η χαρακτηριστική εξίσωση ενός διαγωνίσματος έτσι μπορεί να οριστεί και το σύνολο πληροφορίας που περικλείει ένα διαγώνισμα για κάθε τιμή της ικανότητας θ των εξεταζόμενων. Η συνολική πληροφορία του διαγωνίσματος μπορεί να υπολογιστεί σαν το άθροισμα της πληροφορίας που συνεισφέρει το κάθε ερώτημα όπως δίνεται από την εξίσωση 10. (εξ.10) 49 P a g e

50 όπου θ είναι η ικανότητα των εξεταζόμενων, Ν είναι το πλήθος των ερωτημάτων στο διαγώνισμα, Ι i (θ) είναι η πληροφορία που συνεισφέρει το ερώτημα i για όλους τους εξεταζόμενους που έχουν ικανότητα θ και I(θ) είναι η πληροφορία που χαρακτηρίζει το συγκεκριμένο διαγώνισμα. Από τον ορισμό της έννοιας της πληροφορίας είναι εμφανές ότι όσο περισσότερα ερωτήματα χρησιμοποιούμε σε ένα διαγώνισμα τόσο αυξάνουμε την πληροφορία, δηλαδή την ακρίβεια με την οποία μετράμε την ικανότητα του κάθε εξεταζόμενου. Από τη μορφή της αντίστοιχης γραφικής παράστασης μπορούμε να βγάλουμε χρήσιμα συμπεράσματα σχετικά με την ιδιότητα του διαγωνίσματος να εκτιμά συγκεκριμένες ικανότητες εξεταζόμενων όπως φαίνεται στο σχήμα 3. Σχήμα 3: Συνάρτηση Πληροφορίας Διαγωνίσματος (Test Information Function) (Baker, 2001, σελ. 110, σχήμα 6-3) Για παράδειγμα, στο σχήμα 3 παρουσιάζεται ένα διαγώνισμα που μετρά με σχετική ακρίβεια μόνο την ικανότητα των εξεταζόμενων που βρίσκονται ακριβώς στη μέση της κλίμακας ικανοτήτων. Καθώς απομακρυνόμαστε από τη μέση ικανότητα η ιδιότητα του διαγωνίσματος να εκτιμά την ικανότητα των εξεταζόμενων μειώνεται ομαλά ενώ η ακρίβεια εκτίμησης για τους πολύ «καλούς» ή τους πολύ «κακούς» εξεταζόμενους είναι πολύ μικρή. Σε ένα διαγώνισμα που διαχωρίζει τους εξεταζόμενους σε επιτυχόντες και αποτυχόντες θα ήταν επιθυμητό η συνάρτηση πληροφορίας να είναι μέγιστη κοντά στο σημείο της βάσης. Έλεγχος διαφοροποιήσεων (Differential Item Functioning - DIF) Ένα ερώτημα ή ένα διαγώνισμα δεν πρέπει να επηρεάζεται από τα ιδιαίτερα χαρακτηριστικά των εξεταζόμενων (π.χ φύλο, εθνικότητα κλπ) που δεν έχουν σχέση με τις ικανότητες που αξιολογούνται. Όταν έχουμε ενδείξεις ότι η απάντηση σε ένα ερώτημα ή σε ένα διαγώνισμα απαιτεί γνώσεις και 50 P a g e

51 δεξιότητες που διαφέρουν από αυτές που εξετάζονται τότε η καταγραφόμενη απόδοση των εξεταζόμενων πιθανόν να διαφέρει ανάμεσα σε διαφορετικές ομάδες εξεταζόμενων. Η διαδικασία με την οποία ελέγχεται το αν η πιθανότητα επιτυχούς απάντησης διαφοροποιείται σε σχέση με τα ιδιαίτερα χαρακτηριστικά των εξεταζόμενων ονομάζεται έλεγχος διαφοροποιήσεων (Differential Item Functioning) και αποτελεί ένδειξη απρόβλεπτης συμπεριφοράς είτε για ένα μεμονωμένο ερώτημα είτε για ένα σύνολο ερωτημάτων που συνιστούν ένα διαγώνισμα (Penfield & Lam, 2000). Υπάρχουν διάφοροι τρόποι με τους οποίους μπορεί να εκτιμηθεί η διαφορετική συμπεριφορά ενός ερωτήματος ή ενός διαγωνίσματος όπως είναι ο αλγόριθμος Mantel-Haentzel (Wainer & Braun, 1988), η μέθοδος της παλινδρόμησης (logistic regression) (Swaminathan & Rogers, 1990), η μέθοδος εκτίμησης της διακύμανσης (DIF effect variance estimators) (Camilli & Penfield, 1997). Μια σύντομη αναφορά των μεθόδων μπορεί να αναζητηθεί στην εργασία με τίτλο Differential Functioning of Items and Tests (Oshima & Morris, 2008). Στο πλαίσιο της θεωρίας IRT, μια σειρά από μεθόδους που ελέγχουν τις διαφοροποιήσεις που παρατηρούνται στις παραμέτρους δυσκολίας (b), διακριτικής ικανότητας (a) και τυχαιότητας (c) έχουν επίσης αναπτυχθεί (Clauser & Mazor, 1998; Cohen, Kim, & Baker, 1993; Lord, 1980b; Roju, Linden, & Fleer, 1995). Συνήθως ορίζονται δύο ομάδες εξεταζόμενων: (α) ομάδα αναφοράς (reference group) που είναι συνήθως η ομάδα με τους περισσότερους εξεταζόμενους και (β) ομάδα εστίασης (focal group) που είναι συνήθως η ομάδα με τους λιγότερους εξεταζόμενους. Αν δεν υπάρχουν διαφοροποιήσεις που να οφείλονται στα χαρακτηριστικά των δύο ομάδων τότε είναι αναμενόμενο ότι οι χαρακτηριστικές εξισώσεις τους θα είναι παρόμοιες. Αν όμως εντοπιστούν διαφοροποιήσεις τότε αυτό συνεπάγεται ότι η σύγκριση των αποτελεσμάτων ανάμεσα στις δύο ομάδες δεν είναι έγκυρη μια και εμπεριέχει θόρυβο που προέρχεται από ικανότητες ή ιδιότητες που δεν έχουν σχέση με αυτές που αξιολογούνται. Ακόμη όμως και αν δεν υπάρχουν διαφοροποιήσεις ανάμεσα στις δύο ομάδες ελέγχου επειδή η εκτίμηση των παραμέτρων του μοντέλου (a, b, c) γίνεται πάνω σε διαφορετικό σύνολο δεδομένων πιθανόν οι χαρακτηριστικές εξισώσεις να μη βρίσκονται στην ίδια κλίμακα. Η διαδικασία που στοχεύει στην εξισορρόπηση της κλίμακας ώστε να είναι άμεσα συγκρίσιμες οι χαρακτηριστικές εξισώσεις των δύο ομάδων ονομάζεται εξισορρόπηση (equating). Η διαδικασία της εξισορρόπησης βασίζεται στον εντοπισμό των σταθερών ερωτημάτων (anchor items) που δεν παρουσιάζουν διαφοροποιήσεις ανάμεσα στις ομάδες. Αρχικά οι κλίμακες των δύο ομάδων συνδέονται θεωρώντας όλα τα ερωτήματα σαν σταθερά ερωτήματα (anchor items) ενώ ακολουθώντας την ανάλυση διαφοροποιήσεων (DIF analysis) εντοπίζονται εκείνα τα ερωτήματα που εμφανίζουν μεγάλες διαφοροποιήσεις. Σε ένα 51 P a g e

52 δεύτερο στάδιο επιχειρείται η εκτίμηση των συντελεστών εξισορρόπησης έχοντας σαν βάση μόνο τα εναπομείναντα ερωτήματα μετά την απόρριψη εκείνων που έχουν χαρακτηριστεί σαν ερωτήματα με διαφοροποιήσεις (DIF items) από το πρώτο στάδιο ανάλυσης. Ακόμα όμως και μετά την ολοκλήρωση της εξισορρόπησης οι χαρακτηριστικές εξισώσεις δεν θα είναι ακριβώς ίδιες μια και πάντα υπάρχει κάποιο σφάλμα στη μέτρηση διαφορετικών ομάδων. Διάφορες τεχνικές έχουν προταθεί ώστε να μπορεί να εκτιμηθεί το αν η διαφοροποίηση στις χαρακτηριστικές εξισώσεις είναι στατιστικά σημαντική ώστε να οδηγεί στο συμπέρασμα της διαφοροποίησης ανάμεσα στην ομάδα αναφοράς και στην ομάδα εστίασης (Kim & Nering, 2007; N. S. Raju, 1990; Nambury S. Raju, 1988). Εκτίμηση της σημαντικότητας των διαφορών δύο χαρακτηριστικών εξισώσεων Έστω ότι F 1 (θ) και F 2 (θ) εκφράζουν τις χαρακτηριστικές εξισώσεις του ίδιου ερωτήματος όπως έχουν εκτιμηθεί κατά την έκθεσή του σε δύο διαφορετικές ομάδες εξεταζόμενων (ομάδα1 και ομάδα2). Σύμφωνα με το γενικό μοντέλο περιγραφής της θεωρίας IRT οι ποσότητες F 1 (θ) και F 2 (θ) που εκφράζουν την πιθανότητα σωστής απόκρισης σε συνάρτηση με την ικανότητα των εξεταζόμενων εκφράζονται από τις σχέσεις: 1 (εξ.11) 2 (εξ.12) όπου οι ποσότητες P 1 (θ) και P 2 (θ) δίνονται από τις σχέσεις 1 (εξ.13) 2 (εξ.14) με α i να εκφράζει το συντελεστή διακριτικότητας, b i το συντελεστή δυσκολίας, c i το συντελεστή τυχαιότητας και D να εκφράζει μια σταθερά που τίθεται συνήθως στην τιμή D=1.7 (Lord, 1980b). Το εμβαδόν μεταξύ των δύο χαρακτηριστικών εξισώσεων μπορεί να αναπαρασταθεί είτε από την προσημασμένη διαφορά (SA - signed area) είτε από την απόλυτη τιμή της διαφοράς (UA - unsigned area) σύμφωνα με τις παρακάτω εκφράσεις: (εξ. 15) (εξ. 16) 52 P a g e

53 Σύμφωνα με την ανάλυση του Raju (1988) η εκτίμηση των ποσοτήτων SA και UA διαφοροποιείται ανάλογα με το μοντέλο που ακολουθείται κάθε φορά και ανάλογα με τη σχέση που έχουν οι αντίστοιχες παράμετροι του μοντέλου. Ετσι, οι ποσότητες που περιγράφουν την απόσταση των δύο χαρακτηριστικών εξισώσεων μπορούν να αναπαρασταθούν σύμφωνα με τις εκφράσεις: (εξ. 17) (εξ. 18) όπου ο δείκτης k εκφράζει το μοντέλο που χρησιμοποιείται (1PL, 2PL, 3PL) ενώ ο δείκτης l εκφράζει την σύνθεση του μοντέλου όπως φαίνεται και στην παρακάτω σχέση: (εξ. 19) Για την εκτίμηση των ποσοτήτων SA kl και UA kl μια σειρά από μαθηματικές εκφράσεις αξιοποιούνται για την εκτίμηση της αναμενόμενης τιμής και της διασποράς τους. Οι εκφράσεις αυτές διαφοροποιούνται ανάλογα με το μοντέλο που αξιοποιείται κάθε φορά. Για την εκτίμηση της αναμενόμενης τιμής και της διασποράς των ποσοτήτων SA kl και UA kl όταν χρησιμοποιείται το μοντέλο μιας παραμέτρου ή μοντέλο Rasch μπορούν να αξιοποιηθούν οι σχέσεις που πίνακα 4. Πίνακας 4: Ποσότητες SA kl και UA kl για μοντέλο μιας παραμέτρου (1PL) δείκτες Signed Area SA 1l Unsigned Area - UA 1l αναμενόμενη τιμή διασπορά βοηθητικές εκφράσεις όπου Ν i είναι το πλήθος των εξεταζόμενων στην ομάδα i, θ j είναι το επίπεδο ικανότητας του εξεταζόμενου j, Q i =1-P i εκφράζει την πιθανότητα αποτυχίας ενώ μια σειρά από υποθέσεις έχουν ληφθεί υπόψη όπως η σύγκλιση της ποσότητας στην ποσότητα b i, η ανεξαρτησία των δύο δειγμάτων και η κανονικότητα της απόστασης (Wright & Stone, 1979) 53 P a g e

54 Όταν τα ερωτήματα μοντελοποιούνται με το μοντέλο δύο παραμέτρων (2PL) τότε στο μοντέλο συμμετέχει εκτός από το βαθμό δυσκολίας (b) και η παράμετρος που εκφράζει τη διακριτική ικανότητας του ερωτήματος (a). Στην περίπτωση αυτή τα στατιστικά χαρακτηριστικά της απόστασης μεταξύ των χαρακτηριστικών εξισώσεων των δύο ερωτημάτων μπορούν να εκτιμηθούν με βάση το σύνολο των εκφράσεων που παρατίθενται στον πίνακα P a g e

55 δείκτες Χριστακούδης Ξ. Χρήστος Πίνακας 5: Ποσότητες SA 2l και UA 2l για μοντέλο δύο παραμέτρων (2PL) Signed Area SA 1l Unsigned Area - UA 1l με Η =UA 22 αναμενόμενη τιμή όταν ισχύει όταν ισχύει διασπορά όταν ισχύει όταν ισχύει βοηθητικές εκφράσεις - όπου Ν i είναι το πλήθος των εξεταζόμενων στην ομάδα i, θ j είναι το επίπεδο ικανότητας του εξεταζόμενου j, Q i =1-P i εκφράζει την πιθανότητα αποτυχίας ενώ μια σειρά από υποθέσεις έχουν ληφθεί υπόψη όπως η σύγκλιση των ποσοστήτων και στις ποσότητες α i και b i αντίστοιχα, η ανεξαρτησία των δύο δειγμάτων και γενικά η αξιοποίηση των εκτιμήσεων των ποσοτήτων α i, b i και θ από το δείγμα (Hambleton & Swaminathan, 1984) 55 P a g e

56 Οταν συγκρίνουμε τη στατιστική συμπεριφορά ερωτημάτων κλειστού τύπου (σωστού-λάθους, πολλαπλής επιλογής κ.α) είναι γνωστό ότι οι απαντήσεις των εξεταζόμενων εμπεριέχουν και την πιθανότητα να καταχωρίζεται η σωστή απάντηση κατά τύχη. Σε αυτές τις περιπτώσεις τα ερωτήματα μπορούν υπό προυποθέσεις να προσεγγιστούν με το μοντέλο 3 παραμέτρων (3PL) στο οποίο συμμετέχει και ο παράγοντας τυχαιότητας c i εκτός από το βαθμό δυσκολίας b i και διακριτικής ικανότητας a i. Όταν τα δύο ερωτήματα έχουν διαφορετικό δείκτη τυχαίας επιλογής ( γνωρίζουμε ότι η περιοχή μεταξύ των χαρακτηριστικών εξισώσεων μπορεί να είναι άπειρη (Nambury S. Raju, 1988) και για το λόγω αυτό περιοριζόμαστε μόνο στην περίπτωση όπου τα δύο ερωτήματα έχουν τον ίδιο δείκτη τυχαιότητας (. Στην περίπτωση του μοντέλου τριών παραμέτρων οι ποσότητες SA 3l και UA 3l μπορούν να εκτιμηθούν με βάση το σύνολο των τύπων που παρατίθενται στον πίνακα 6. Πίνακας 6: Ποσότητες SA 3l και UA 3l για μοντέλο τριών παραμέτρων (3PL) δείκτες Signed Area SA 1l Unsigned Area - UA 1l αναμενόμενη τιμή διασπορά βοηθητικές εκφράσεις Για να εκτιμηθεί αν η παρατηρήσιμη διαφοροποίηση των χαρακτηριστικών εξισώσεων είναι στατιστικά σημαντική έχει προταθεί ένα ζευγάρι ελέγχων υποθέσεων για τις ποσότητες SA και UA. (N. S. Raju, 1990) όπως περιγράφεται στον πίνακα P a g e

57 Πίνακας 7: Εκτίμηση της σημαντικότητας των παρατηρούμενων διαφορών σε ICCs έλεγχος υπόθεσης Signed Area SA 1l H 0 : SA=0...δηλαδή οι δύο ομάδες δεν διαφέρουν H 0 : UA=0 Unsigned Area - UA 1l...δηλαδή οι δύο ομάδες δε διαφέρουν H 1 : SA 0...δηλαδή οι δύο ομάδες H 1 : UA 0... δηλαδή οι δύο ομάδες διαφέρουν διαφέρουν στατιστικός δείκτης κρίσιμο σημείο z=1.96 για έλεγχο σημαντικότητας α=0.05 (*) με την προυπόθεση της κανονικότητας στις ελεγχόμενες ποσότητες Αν ο στατιστικός δείκτη του ελέγχου Ζ βρεθεί στην περιοχή απόρριψης (π.χ Z<-z ή Z>z) τότε μπορούμε να ισχυριστούμε ότι υπάρχουν επαρκείς στατιστικές ενδείξεις στο δείγμα μας ότι η συμπεριφορά των ερωτημάτων όπως αυτή εκτιμήθηκε με βάση τις χαρακτηριστικές εξισώσεις είναι στατιστικά σημαντική. Στην πράξη για να υπολογίσουμε τις παραπάνω ποσότητες χρησιμοποιούμε εκτιμήσεις των συντελεστών a, b, c των διαφόρων μοντέλων καθώς και εκτιμήσεις για την πραγματική ικανότητα των εξεταζόμενων (Hambleton & Swaminathan, 1984; Lord, 1980b) Εκτίμηση της λανθάνουσας ικανότητας των εξεταζόμενων Στο πλαίσιο της θεωρίας IRT η ικανότητα του εξεταζόμενου δεν αξιολογείται με βάση το πλήθος των σωστών απαντήσεών του αλλά με την εκτίμηση της θέσης που κατέχει ο εξεταζόμενος στην καμπύλη κατανομής ικανοτήτων για όλους τους εξεταζόμενους. Η χαρακτηριστική εξίσωση ενός ερωτήματος P(θ) αναπαριστά την πιθανότητα σωστής απάντησης σε σχέση με την ικανότητα του εξεταζόμενου ενώ ορίζεται και η συμπληρωματική της συνάρτηση Q(θ)=1-P(θ) όπως φαίνεται στο σχήμα 4. (α) (β) Σχήμα 4: Παράδειγμα χαρακτηριστικών ενός ερωτήματος (α) P(θ) και (β) Q=1-P(θ) 57 P a g e

58 Αν γνωρίζουμε το διάνυσμα απαντήσεων ενός εξεταζόμενου u και με δεδομένο οτι αναφερόμαστε σε διχοτομικά δεδομένα (1-σωστή απάντηση, 0-λανθασμένη απάντηση) μπορούμε να υπολογίσουμε για κάθε πιθανή τιμή της ικανότητας θ ποια είναι η πιθανότητα εμφάνισης της συγκεκριμένης απόκρισης πολλαπλασιάζοντας της συναρτήσεις P(θ) και Q(θ) δημιουργώντας έτσι τη συνάρτηση πιθανοφάνειας L όπως φαίνεται στην εξίσωση 20. (εξ. 20) Ετσι, από την ανάλυση του διανύσματος απαντήσεων μπορούμε να υπολογίσουμε εκείνο το σημείο θ στο οποίο η συνάρτηση πιθανοφάνειας εμφανίζει τη μέγιστη τιμής όπως φαίνεται και στο σχήμα 5. Σχήμα 5: Μέγιστο σημείο της συνάρτηση L Με δεδομένο το διάνυσμα των απαντήσεων ενός εξεταζόμενου μπορούμε να εκτιμήσουμε την ικανότητά του με τους εξής τρόπους: (α) μέγιστη πιθανοφάνεια όπου απλά υπολογίζουμε το σημείο που εμφανίζει μέγιστο η συνάρτηση L και επιστρέφουμε το σημείο θ που εκφράζει την ικανότητα του εξεταζόμενου (β) μέγιστη a posteriori πιθανότητα (MAP) όπου η συνάρτηση πιθανοφάνειας L πολλαπλασιάζεται με μια καμπύλη που εκφράζει την κατανομή ενός υποθετικού πληθυσμού εξεταζόμενων και (γ) αναμενόμενη a posteriori πιθανότητα (ΕAP) όπου η συνάρτηση L πολλαπλασιάζεται και πάλι με μια καμπύλη που εκφράζει την αναμενόμενη κατανομή ενός πληθυσμού αλλά αντί για εύρεση του μέγιστου σημείου υπολογίζεται η μέση τιμή της τροποποιημένης συνάρτησης L. Οι διάφορες μέθοδοι χαρακτηρίζονται από πλεονεκτήματα και μειονεκτήματα και μπορούν να αξιοποιηθούν κατά περίπτωση (Thompson,, 2009). Ο υπολογισμός του σημείου μέγιστης πιθανοφάνειας αποτελεί την καρδιά των περισσότερων αλγορίθμων που προσπαθούν να εκτιμήσουν την ικανότητα ενός εξεταζόμενου με βάση το διάνυσμα απαντήσεών του. Η ευθεία μέθοδος υπολογισμού (brute force) αφορά στον υπολογισμό των τιμών της 58 P a g e

59 συνάρτησης L για κάθε πιθανή τιμή της μεταβλητής θ (π.χ με ένα βήμα 0.01) και εύρεση της μέγιστης τιμής από το παραγόμενο διάνυσμα. Η μέθοδος αυτή είναι ιδιαίτερα ακριβής μια και υπολογίζει όλες τις πιθανές τιμές της συνάρτησης L αλλά ταυτόχρονα απαιτεί μεγάλη υπολογιστική ισχύ. Αυτός είναι και ο βασικός λόγος που στο πλαίσιο της αριθμητικής ανάλυσης έχουν αναπτυχθεί εναλλακτικές μέθοδοι όπως η μέθοδος της διχοτόμησης ή η μέθοδος Newton-Raphson. Σήμερα, με δεδομένη την ύπαρξη πολυπήρηνων επεξεργαστών που χρονίζονται με ρολόγια της τάξεως των πολλών GHz, το μειονέκτημα της ευθείας μεθόδου υπολογισμού έχει αδυνατίσει. Εξάλλου, και οι εναλλακτικές μέθοδοι πάσχουν από μειονεκτήματα όπως είναι ο εγκλωβισμός της μεθόδου σε κάποιο τοπικό μέγιστο ή η ευαισθησία της μεθόδου όταν η κατανομή της συνάρτησης δεν είναι συμμετρική. 2.6 Ποιοι παράγοντες επηρεάζουν τις ικανότητες χειρισμού ενός υπολογιστή; Στη διεθνή βιβλιογραφία η εκτίμηση των δεξιοτήτων που κατέχουν τα υποκείμενα μιας έρευνας βασίζεται συχνά στη χρήση εργαλείων διερεύνησης (ερωτηματολόγια) στα οποία οι εξεταζόμενοι καλούνται να εκτιμήσουν οι ίδιοι το επίπεδο δεξιοτήτων που κατέχουν σε σχέση με τη χρήση εργαλείων πληροφορικής. Η μέτρηση όμως που βασίζεται σε ερωτηματολόγια αυτοαξιολόγησης των εξεταζόμενων παρουσιάζει προβλήματα εγκυρότητας (Hargittai, 2002; Merritt, Smith, & Renzo, 2005; Talja, 2005). Ο καλύτερος τρόπος για να μετρήσουμε τις δεξιότητες ενός ανθρώπου είναι μέσα από ειδικά σχεδιασμένα ηδιαγωνίσματα που αποτελούνται από κατάλληλα σχεδιασμένες δοκιμασίες τις οποίες πρέπει να φέρει σε πέρας ο εξεταζόμενος. Οι δεξιότητες που αφορούν στον ψηφιακό εγγραμματισμό (digital literacy) δεν περιορίζονται μόνο σε ικανότητα χειρισμού ενός λογισμικού ή μιας ψηφιακής συσκευής. Περιλαμβάνουν μια μεγάλη ποικιλία από σύνθετες δεξιότητες (γνωστικές, κινητικές, κοινωνιολογικές, συναισθηματικές) που πρέπει να έχουν οι εξεταζόμενοι προκειμένου να χρησιμοποιούν αποτελεσματικά τα ψηφιακά περιβάλλοντα. Οι ψηφιακές ικανότητες μπορούν να ταξινομηθούν σε: (α) φωτο-οπτικές δεξιότητες (π.χ ικανότητα ανάγνωσης της εκφώνησης και των οδηγιών, διερμήνευση των γραφικών απεικονίσεων κλπ), (β) αναπαραγωγικές δεξιότητες (π.χ κατασκευή νέων οντοτήτων χρησιμοποιώντας ψηφιακά εργαλεία, κατασκευή νέων αντικειμένων χρησιμοποιώντας πρωτογενές ψηφιακό υλικό), (γ) δεξιότητες διακλάδωσης (π.χ αναζήτηση πληροφοριών μέσα από τη μη-γραμμική πλοήγηση υπερκειμένου), (δ) δεξιότητες διαχείρισης της πληροφορίας (π.χ αξιολόγηση της ποιότητας και της εγκυρότητας των πληροφοριών), (ε) κοινωνικοσυναισθηματικές δεξιότητες (π.χ κατανόηση των «κανόνων» που επικρατούν στον κυβερνοχώρο, πρότυπα ψηφιακής συμπεριφοράς κλπ) (Eshet-Alkali & Amichai-Hamburger, 2004). Η ηλικία φαίνεται να αποτελεί έναν καθοριστικό παράγοντα στην εξοικείωση των ανθρώπων με τη βασική χρήση υπολογιστών μια και οι νεώτεροι εκπαιδευόμενοι εμφανίζουν καλύτερη συμπεριφορά 59 P a g e

60 τόσο κατά τη φάση της εκπαίδευσης όσο και κατά τη φάση της εξέτασης (Gist, Rosen, & Schwoerer, 1988). Έχουν καταγραφεί ενδείξεις ότι οι νέοι εξεταζόμενοι τα καταφέρνουν καλύτερα με δοκιμασίες που βασίζονται σε φωτο-οπτικές δεξιότητες ή δεξιότητες διακλάδωσης ενώ οι μεγαλύτεροι σε ηλικία εξεταζόμενοι έχουν καλύτερη απόδοση σε δοκιμασίες που απαιτούν αναπαραγωγικές δεξιότητες ή δεξιότητες διαχείρισης πληροφοριών (Eshet-Alkali & Amichai-Hamburger, 2004). Οι διαφοροποιήσεις που παρατηρούνται λόγω της ηλικίας οφείλονται σε μια σειρά ψυχολογικών και γνωστικών παραγόντων που προσδίδουν στους νεώτερους εξεταζόμενους ένα σαφές πλεονέκτημα τόσο στην ταχύτητα καταχώρισης των απαντήσεων όσο και στην ορθότητα των απαντήσεων. Μελέτες έχουν αναδείξει ότι οι διαφοροποιήσεις αυτές παραμένουν ανεξάρτητα από την ύπαρξη ή όχι φάση εκπαίδευσης πριν την αξιολόγηση των δεξιοτήτων. Ο μόνος τρόπος ώστε να εξισωθούν οι διαφορές ανάμεσα στις ηλικιακές ομάδες είναι με μεγαλύτερη εξάσκηση των εξεταζόμενων μεγάλης ηλικίας (Westerman & Davies, 2000). Ο διαφορετικός τρόπος με τον οποίο μαθαίνουν και αντιδρούν οι άνθρωποι μεγαλύτερης ηλικίας θα πρέπει να λαμβάνεται υπόψη τόσο κατά τη σχεδίαση εκπαιδευτικών παρεμβάσεων όσο και κατά τη σχεδίαση συστημάτων αξιολόγησης ή πιστοποίησης γνώσεων και δεξιοτήτων πληροφορικής (Mruk, 1987). Στις περισσότερες χώρες του ΟΟΣΑ οι εκπαιδευτικές ευκαιρίες όχι μόνο παρέχονται με ίσους όρους ανάμεσα στα φύλα αλλά πολλές φορές τα κορίτσια εμφανίζουν κατά μέσο όρο καλύτερους βαθμούς και συχνά ξεπερνούν τα αγόρια στην απόδοση τόσο στο σχολείο όσο και στην τριτοβάθμια εκπαίδευση(oecd, 2011). Το φύλο δε φαίνεται να επηρεάζει σε μεγάλο βαθμό τη στάση και τις απόψεις των ανθρώπων απέναντι στους υπολογιστές -ειδικά μετά την αποφοίτησή τους από το σχολείο- αλλά φαίνεται ότι οι άνδρες διατηρούν μια ποιο θετική στάση απέναντι στη χρήση της τεχνολογίας εμφανίζοντας μεγαλύτερη συχνότητα και διαφορετική χρήση (Vekiri & Chronaki, 2008; Volman, van Eck, Heemskerk, & Kuiper, 2005; Whitley Jr., 1997). Σύμφωνα με τα αποτελέσματα που έχουν καταγραφεί από το Διεθνές Πρόγραμμα Μαθητικής Αξιολόγησης (PISA) οι διαφοροποιήσεις που καταγράφονται στο μαθητικό πληθυσμό σε σχέση με το φύλο δεν οφείλονται σε διαφορετικές ικανότητες των μαθητών αλλά έχουν σχέση με το εκάστοτε γνωστικό αντικείμενο (π.χ πόσο τους αρέσει το γνωστικό αντικείμενο, τί κίνητρα έχουν για να μελετήσουν κλπ)(oecd, 2011). 60 P a g e

61 3. Αρχές σχεδίασης ΑΣΕ για πιστοποίηση βασικών ικανοτήτων πληροφορικής Για να πιστοποιηθεί με έγκυρο και αξιόπιστο τρόπο η ικανότητα υποψηφίων στη χρήση και αξιοποίηση βασικών εργαλείων ΤΠΕ σε μεγάλη κλίμακα πρέπει να αναπτυχθούν μια σειρά από εφαρμογές (λογισμικό) που θα υποστηρίξουν όλες τις φάσεις οργάνωσης, προετοιμασίας και υλοποίησης των εξετάσεων. Σημαντικές παράμετροι της συνολικής διαδικασίας είναι: (α) ο πίνακας εξεταζόμενης ύλης (syllabus) (μια καλά οργανωμένη δομή που προσδιορίζει με σαφήνεια το τί πρέπει να ξέρει, το τί πρέπει να μπορεί να κάνει και πως να συμπεριφέρεται ένας υποψήφιος που επιθυμεί να πιστοποιηθεί) (β) η τράπεζα θεμάτων (ένα σύνολο δοκιμασιών που συνοδεύονται από μια σειρά ποσοτικών, κατηγορικών και λογικών χαρακτηριστικών) (γ) ο κύκλος ανάπτυξης των δοκιμασιών (οι διαδικασίες με τις οποίες προετοιμάζονται οι δοκιμασίες καθώς και οι ρόλοι των ανθρώπων που εμπλέκονται σε όλες τις φάσεις ανάπτυξης) (δ) ο γεννήτορας παραγωγής των ηδιαγωνισμάτων (το υποσύστημα για την αυτοματοποιημένη παραγωγή ισοδύναμων ηδιαγωνισμάτων με βάση μια σειρά κριτηρίων επιλογής των επιμέρους ερωτημάτων) (ε) τα υποστηρικτικά εργαλεία σχεδίασης, ανάπτυξης και εφαρμογής (π.χ το εργαλείο συγγραφής δοκιμασιών, το λογισμικό εξέτασης, πληροφοριακό σύστημα υποστήριξης της εξέτασης με μια σειρά από υπηρεσίες ενημέρωσης και διαχείρισης κλπ) (ζ) οι διαδικασίες πιστοποίησης (ένα σύνολο διαδικασιών που πρέπει να ακολουθούνται από όσους εμπλέκονται στη διαδικασία των εξετάσεων). Στη συνέχεια θα περιγραφεί με συντομία το μοντέλο με το οποίο οργανώθηκαν οι εξετάσεις πιστοποίησης εκπαιδευτικών στη χρήση και αξιοποίηση βασικών δεξιοτήτων πληροφορικής σε μεγάλη κλίμακα από το Υπουργείου Παιδείας & Θρησκευμάτων, Αθλητισμού και Πολιτισμού σε συνεργασία με το Ινστιτούτο Τεχνολογίας Υπολογιστών & Εκδόσεων - Διόφαντος. 3.1 Πίνακας εξεταζόμενης ύλης (syllabus) Στον πυρήνα της διαδικασίας που πιστοποιεί μια σειρά από ικανότητες βρίσκεται ο πίνακας εξεταζόμενης ύλης (syllabus). Με τον όρο αυτό αναφερόμαστε σε μια δενδρική δομή (συνήθως) που περιγράφει με πληρότητα τις γνώσεις (τί πρέπει να ξέρει), τις δεξιότητες (τι πρέπει να μπορεί να κάνει) και τις στάσεις (πως πρέπει να συμπεριφέρεται) που πρέπει να έχει ο πιστοποιούμενος. Στο συγκεκριμένο έργο αναφερόμαστε λοιπόν σε έναν πίνακα που περιγράφει όλες εκείνες τις ικανότητες που αναμένεται να έχουν αναπτύξει οι εκπαιδευτικοί και έχουν σχέση με τις βασικές δεξιότητες πληροφορικής. Ο πίνακας εξεταζόμενης ύλης αναπτύσσεται σε τέσσερα αντικείμενα (β) ενότητες (γ) υποενότητες και (δ) θέματα. το επίπεδα: (α) γνωστικά 61 P a g e

62 (α) Γνωστικά αντικείμενα (cognitive objects): Το πρώτο επίπεδο του πίνακα εξεταζόμενης ύλης αφορά στα διαφορετικά αντικείμενα που συμμετέχουν στις εξετάσεις. Συνολικά οι εξετάσεις αφορούν στα παρακάτω γνωστικά αντικείμενα: (α) Εισαγωγικές έννοιες (Θεωρία,MS Windows) (β) Επεξεργασία Κειμένου (MS Word) (γ) Υπολογιστικά φύλλα (MS Excel) (δ) Διαδίκτυο και ηλεκτρονικό ταχυδρομείο (internet explorer & MS Outlook) (ε) Παρουσιάσεις (MS powerpoint). Κάθε επιμέρους γνωστικό αντικείμενο συνεισφέρει στο ηδιαγώνισμα διαφορετικό αριθμό από δοκιμασίες ανάλογα με την βαρύτητά του στις εξετάσεις. (β) Ενότητες (unities): Η ανάλυση ενός γνωστικού αντικειμένου σε μια σειρά από ενότητες. Η ανάλυση των γνωστικών αντικειμένων σε ενότητες καθορίστηκε και από το περιεχόμενο του αναλυτικού προγράμματος σπουδών της αντίστοιχης επιμόρφωσης. Για παράδειγμα οι ενότητες που αφορούν στα υπολογιστικά φύλλα είναι: (3.1) Διαχείριση περιβάλλοντος (MS Excel), (3.2) Επεξεργασία δεδομένων και αντικειμένων, (3.3) Μορφοποίηση, (3.4) Γραφήματα, (3.5) Τύποι υπολογισμού και Συναρτήσεις και (3.6) Προχωρημένη ανάλυση δεδομένων (γ) Υποενότητες (subunities): Το τρίτο επίπεδο του πίνακα εξεταζόμενης ύλης αναλύει ακόμη περισσότερο κάθε ενότητα. Για παράδειγμα η ενότητα (3.5) Τύποι υπολογισμού και Συναρτήσεις αναλύεται στις υποενότητες: (3.5.1) Απλοί τύποι υπολογισμού, (3.5.2) Συναρτήσεις, (3.5.3) Μακροεντολές, (3.5.4) Έλεγχος τύπων και συχνά προβλήματα (δ) θέματα (topics): Το τελευταίο επίπεδο περιλαμβάνει όλα εκείνα τα θέματα που συνθέτουν μια υποενότητα. Για παράδειγμα μερικά από τα θέματα που περιγράφουν την υποενότητα (3.5.1) Απλοί τύποι υπολογισμού είναι: ( ) Αριθμητικές εκφράσεις, ( ) Αναφορές, ( ) Άλλες εκφράσεις (π.χ συναρτήσεις κειμένου, λογικές κλπ) Τα θέματα (4 ο επίπεδο) αποτελούν τα φύλλα του δέντρου που περιγράφει τον πίνακα εξεταζόμενης ύλης και είναι οι κόμβοι στους οποίους αντιστοιχίζονται οι δοκιμασίες της πιστοποίησης. Έτσι, μια δοκιμασία εξετάζει πάντα μια συγκεκριμένη γνώση, δεξιότητα ή στάση που περιγράφεται από κάποιο θέμα του τετάρτου επιπέδου. Ο πλήρης πίνακας εξεταζόμενης ύλης παρουσιάζεται στο παράρτημα Α. Το εργαλείο συγγραφής των δοκιμασιών δίνει τη δυνατότητα στους συγγραφείς να προσπελαύνουν τον πίνακα εξεταζόμενης ύλης και να διαχειρίζονται τις δοκιμασίες που έχουν συγγραφεί σε κάθε θέμα όπως φαίνεται στο σχήμα 6: 62 P a g e

63 Σχήμα 6: Διαχείριση του πίνακα εξεταζόμενης ύλης στο εργαλείο συγγραφής δοκιμασιών Η οργάνωση της εξεταζόμενης ύλης και η αντιστοίχιση σε αυτή των δοκιμασιών έγινε με τέτοιο τρόπο ώστε μια οποιαδήποτε ερώτηση να μπορεί να αντιστοιχηθεί με μοναδικό τρόπο σε κάποιο φύλλο του δέντρου (κόμβος 4 ου επιπέδου). Έτσι οι δοκιμασίες από τις οποίες αποτελούνται τα ηδιαγωνίσματα είναι απλές και εξετάζουν μία μόνο συγκεκριμένη δεξιότητα, γνώση ή στάση. 3.2 Οργάνωση της τράπεζας θεμάτων Οι ερωτήσεις που χρησιμοποιούνται παραδοσιακά σε εξετάσεις μεγάλης κλίμακας (π.χ εξετάσεις γλωσσομάθειας, διεθνείς εξετάσεις PISA κλπ) είναι κυρίως κλειστού τύπου. Από την άλλη, στις εξετάσεις για την πιστοποίηση γνώσεων και δεξιοτήτων πληροφορικής πρέπει να χρησιμοποιούνται δοκιμασίες με τις οποίες να ελέγχεται αν ο υποψήφιος έχει πράγματι την ικανότητα να ολοκληρώνει κάποιο συγκεκριμένο έργο χρησιμοποιώντας εργαλεία πληροφορικής. Η τράπεζα ερωτήσεων στην οποία βασίστηκαν οι εξετάσεις πιστοποίησης των ελλήνων εκπαιδευτικών στις βασικές δεξιότητες πληροφορικής αποτελείται από ερωτήσεις: (Ι) κλειστού Τύπου (σωστού λάθους, πολλαπλής επιλογής, συμπλήρωσης κενού κλπ) (ΙΙ) εφαρμογής (ο πιστοποιούμενος εκτελεί μια ενέργεια η οποία αξιολογείται αυτόματα από κατάλληλο κώδικα ελέγχου (grading script) ) και (ΙΙΙ) μεικτές ή ψευδο-εφαρμογής (ο πιστοποιούμενος εκτελεί ενέργειες στο περιβάλλον του λογισμικού προκειμένου να επιλέξει τελικά τη σωστή/στές απάντηση/σεις από ένα σύνολο προτεινόμενων απαντήσεων) όπως φαίνεται στον πίνακα 8. Στο σχήμα 7 παρουσιάζεται ένα τυπικό δείγμα μεικτού ερωτήματος (τύπος ΙΙΙ). 63 P a g e

64 Πίνακας 8 : Τύποι ερωτήσεων που συμμετέχουν στις εξετάσεις πιστοποίησης Τύπος Ερωτήματος Ι ΙΙ ΙΙΙ Τίτλος κλειστού τύπου (closed items) εφαρμογής (inapplication items) μεικτές ή ψευδο-εφαρμογής (pseudo-inapplication items) Σύντομη περιγραφή κλασσικές ερωτήσεις κλειστού τύπου όπως ερωτήσεις σωστού/λάθους, πολλαπλής επιλογής, μίας επιλογής από πολλά κλπ ο πιστοποιούμενος εκτελεί μια ενέργεια η οποία αξιολογείται αυτόματα από κατάλληλο κώδικα ελέγχου ο πιστοποιούμενος εκτελεί ενέργειες στο περιβάλλον του λογισμικού προκειμένου να επιλέξει τελικά τη σωστή/στές απάντηση/σεις από ένα σύνολο προτεινόμενων απαντήσεων Σχήμα 7: Τυπικό δείγμα μεικτού ερωτήματος (τύπου ΙΙΙ) Ιδιαίτερη σημασία για τις εξετάσεις πιστοποίησης έχουν τα ερωτήματα εφαρμογής (τύπου ΙΙ) όπου ο εξεταζόμενος καλείται να κάνει κάποια ενέργεια χρησιμοποιώντας μια εφαρμογή και στο τέλος το σύστημα αξιολογεί αυτόματα την προσπάθειά του μέσω ειδικού προγράμματος βαθμολόγησης. Ένα χαρακτηριστικό παράδειγμα ερωτήματος εφαρμογής δίνεται στο σχήμα P a g e

65 Σχήμα 8: Παράδειγμα ερωτήματος εφαρμογής (τύπου ΙΙ) 65 P a g e

66 Κάθε ερώτημα εφαρμογής συνοδεύεται και από το κατάλληλο πρόγραμμα ελέγχου της απόκρισης του εξεταζόμενου. Τα προγράμματα βαθμολόγησης βασίζονται στα Application Program Interfaces (APIs) των εφαρμογών γραφείου αλλά θα μπορούσαν να υποστηρίξουν εξίσου οποιαδήποτε άλλη εφαρμογή που διαθέτει κατάλληλο API (π.χ εκπαιδευτικό λογισμικό). Ένα παράδειγμα κώδικα βαθμολόγησης (grading script) δίνεται στο σχήμα 9. '********************************** 'Get the name of the worksheet ***** sworksheet=trim(xworkbook.work '* This is the Script for Question sheets(1).name) '* The question is: Grade="0 Λάθος ενέργεια" '* : Να μετονομάσετε το φύλλο If sworksheet ="ΑΛΓΕΒΡΑ" Then εργασίας Τμήμα Α1 σε ΑΛΓΕΒΡΑ Grade="1 Σωστή ενέργεια" '*(με Κεφαλαίους Ελληνικούς χαρακτήρες, Else χωρίς τόνους) Grade="0 Λάθος ενέργεια. '********************************** Χρησιμοποιήθηκαν μικροί χαρακτήρες" ***** End If Option Explicit ShutDown xworkbook,xexcel Function Grade(szDestinationPath) End Function Dim sfilename Dim xexcel Function Dim xworkbook ShutDown(xWorkbook,xExcel) Dim sworksheet 'Exit Function 'Initialize local vars 'Shut Down Excel Completely Set xexcel = Nothing On Error Resume Next Set xworkbook = Nothing xworkbook.activate 'Begin error trapping for each xworkbook in On Error Resume Next xexcel.workbooks Set xworkbook = xworkbook.saved=true GetObject(sFileName) Next If Err.Number <> 0 Then xexcel.workbooks.close Σχήμα Grade 9: Η = μορφή "0 ΤΟ του ΑΡΧΕΙΟ προγράμματος ["& βαθμολόγησης Set για xworkbook ένα ερώτημα = Nothing εφαρμογής sfilename & "] ΔΕΝ ΒΡΕΘΗΚΕ;"& "Error:" & if (xexcel.visible = true) then err.number & ":" & err.description xexcel.quit Err.Clear end if Exit Function Set xexcel = Nothing End If Set 66 P a g e Set xexcel=xworkbook.application xexcel=getobject(,"excel.application") If Err.Number <> 0 Then If Err.Number = 0 Then Grade="0 ΔΕΝ ΒΡΕΘΗΚΕ Η xexcel.workbooks.close

67 Οι ερωτήσεις της τράπεζας θεμάτων είναι οργανωμένες σε ομάδες (οικογένειες) που μοιράζονται το χαρακτηριστικό του αποκλεισμού (exclusive). Χαρακτηριστικά παραδείγματα δοκιμασιών παρατίθενται στο παράρτημα Β. Η εσωτερική δομή ενός ερωτήματος περιγράφεται στο σχήμα 10. Σχήμα 10: Η εσωτερική δομή ενός ερωτήματος (α) Σώμα Δοκιμασίας (body): Το σώμα της δοκιμασίας αποτελείται από ένα σύντομο κείμενο με την εκφώνηση (item s stem) και μπορεί να περιέχει μια σειρά από πολυμεσικά στοιχεία όπως κείμενο, βίντεο και εικόνες. Η εκφώνηση περιγράφει με συντομία και σαφήνεια τον τρόπο με τον οποίο ο υποψήφιος θα αποδείξει ότι κατέχει μια συγκεκριμένη δεξιότητα. Η εκφώνηση αποθηκεύεται σε HTML μορφή και βασίζεται σε συγκεκριμένα πρότυπα (Cascade Style Sheets CSS) ώστε να επιτυγχάνεται η απαραίτητη ομοιομορφία. Τα πολυμεσικά στοιχεία της εκφώνησης δεν μπορούν να ενσωματωθούν στο κείμενο της εκφώνησης και γιαυτό επισυνάπτονται με τη μορφή υποστηρικτικών αρχείων (supporting files). Στο σώμα της δοκιμασίας μπορεί να υπάρχει μια σύντομη βοήθεια (hint) που αποσαφηνίζει το ζητούμενο της εκφώνησης ή κάποια προκαθορισμένη πρόταση με οδηγίες (guidelines) ανάλογα με τον τύπο της ερώτησης. (β) Αρχεία εργασίας (working files): Ένα ερώτημα συνοδεύεται συνήθως και από ένα ή περισσότερα αρχεία εργασίας (working files) πάνω στα οποία ο εξεταζόμενος πρέπει να ενεργήσει. Το περιεχόμενο των αρχείων αυτών σχετίζεται με τη σχολική ζωή (π.χ υπηρεσιακά έγγραφα, φόρμες διαγωνισμάτων κλπ). Αξιοποιώντας τα αρχεία εργασίας και βασιζόμενος στην εκφώνηση της ερώτησης ο υποψήφιος πρέπει να δημιουργήσει ένα συγκεκριμένο ψηφιακό αποτελέσματα (ερωτήματα 67 P a g e

68 εφαρμογής τύπου ΙΙ) ή να εντοπίσει τη σωστή απάντηση εκτελώντας ισοδύναμες ενέργειες στο περιβάλλον της εφαρμογής που εξετάζεται κάθε φορά (μεικτά ερωτήματα τύπου ΙΙΙ). (γ) Πιθανές απαντήσεις (destructors): Οι πιθανές απαντήσεις δίνονται επίσης σαν ένα σύνολο πολυμεσικών στοιχείων. Στο υπάρχον μοντέλο οι πιθανές απαντήσεις δεν συνοδεύονται από κανένα είδος χαρακτηρισμού κατά τη φάση ανάπτυξης της δοκιμασίας και συνοδεύουν τις δοκιμασίες κλειστού τύπου (δοκιμασίες τύπου Ι και ΙΙΙ). (δ) Κανόνες Βαθμολόγησης (grading rules): Ανάλογα με τον τύπο της ερώτησης μπορεί να εφαρμοστεί και ένα διαφορετικό σύνολο κανόνων βαθμολόγησης που αξιοποιεί το σύνολο των χαρακτηριστικών της κάθε δοκιμασίας. Στο έργο της πιστοποίησης των εκπαιδευτικών η απόκριση ενός εξεταζόμενου σε ένα ερώτημα μπορεί να είναι απόλυτα σωστή ή απόλυτα λανθασμένη (1 ή 0 αντίστοιχα) με αποτέλεσμα τα δεδομένα που καταγράφονται να ανήκουν στην κατηγορία των διχοτομικών στοιχείων (dichotomous data). (ε) Χαρακτηριστικά (attributes): Μια δοκιμασία χαρακτηρίζεται από ένα σύνολο κατηγορικών, ποσοτικών και λογικών χαρακτηριστικών. Τα χαρακτηριστικά αυτά αποδίδονται στην κάθε δοκιμασία από τον εκάστοτε συγγραφέα (author) αλλά υπόκεινται σε αναθεώρηση στο πλαίσιο ποιοτικού ελέγχου που αποτελείται από δύο φάσεις (βλ. παρακάτω - κύκλος ανάπτυξης ερωτημάτων). (ζ) Κώδικας ελέγχου (grading script): Στην περίπτωση των δοκιμασιών εφαρμογής το τελικό αποτέλεσμα του εξεταζόμενου αξιολογείται από ένα μικρό πρόγραμμα ελέγχου που βασίζεται στο Application Program Interface (API) της εφαρμογής που εξετάζεται και έχει συγγραφεί ειδικά για την κάθε δοκιμασία. 3.3 Ο κύκλος ανάπτυξης των ερωτημάτων Εκτός από τη σύνθεση των ηδιαγωνισμάτων, ιδιαίτερη σημασία έχει και ο τρόπος ανάπτυξης των δοκιμασιών σε ένα σύστημα αυτοματοποιημένης εξέτασης. Η σαφήνεια των εκφωνήσεων, η ποιότητα των αρχείων εργασίας, ο κατάλληλος χαρακτηρισμός των ερωτημάτων, η σωστή βαθμολόγηση των απαντήσεων που δίνουν οι εξεταζόμενοι εξασφαλίζεται μέσα από ένα σύνολο διαδικασιών που ορίζουν τον κύκλο ζωής μιας δοκιμασίας (Christakoudis, Androulakis, & Zagouras, 2011a). Οι ρόλοι των ανθρώπων καθώς και οι διαδικασίες παραγωγής των τελικών δοκιμασιών αναλύονται στη συνέχεια Οι ρόλοι των ανθρώπων που εμπλέκονται Τα στάδια από τα οποία περνάει ένα ερώτημα μέχρι να είναι έτοιμο για να χρησιμοποιηθεί στις εξετάσεις περιλαμβάνουν : (α) τη συγγραφή (authoring) του ερωτήματος (β) τον προγραμματισμό (programming) των σεναρίων βαθμολόγησης όπου αυτό απαιτείται και (γ) την ποιοτική αξιολόγηση 68 P a g e

69 του ερωτήματος από εκπαιδευτική και τεχνική πλευρά. Διαφορετικές ομάδες ανθρώπων εμπλέκονται σε κάθε φάση της διαδικασίας ανάπτυξης. Οι ρόλοι αυτοί περιγράφονται στη συνέχεια: (α) icons (item s constructors): Είναι οι συγγραφείς των ερωτημάτων και έχουν εκτεταμένη γνώση του πίνακα εξεταζόμενης ύλης (power users). Μια και η συγκεκριμένη πιστοποίηση στοχεύει σε εκπαιδευτικούς, η ομάδα των icons βασίστηκε σε ειδικούς (experts) εν ενεργεία καθηγητές πληροφορικής στη δευτεροβάθμια εκπαίδευση. (β) ScrCons (script constructors): Είναι έμπειροι προγραμματιστές που έχουν την ικανότητα να συγγράφουν μικρά προγράμματα με τα οποία να ελέγχεται το αποτέλεσμα των ενεργειών του εξεταζόμενου χρησιμοποιώντας το API της εφαρμογής που εξετάζεται κάθε φορά. (γ) ievals (item s evaluators): Είναι έμπειροι καθηγητές πληροφορικής που όχι μόνο γνωρίζουν σε βάθος τα λειτουργικά χαρακτηριστικά των εφαρμογών (power users) αλλά έχουν επιστημονική και εμπειρική γνώση για το πως ένας τυπικός εκπαιδευτικός ενεργεί χρησιμοποιώντας τον υπολογιστή. Ο ρόλος του ieval είναι ιδιαίτερα σημαντικός στο πλαίσιο ανάπτυξης της τράπεζας θεμάτων μια και πρέπει να μπορεί να εντοπίζει τα προβλήματα ενός ερωτήματος σε όλα τα επίπεδα (παιδαγωγικά και τεχνικά). Επιπλέον πρέπει να διαθέτει δεξιότητες οργάνωσης και επικοινωνίας ώστε να καθοδηγεί τις υπόλοιπες ομάδες (icons, ScrCons, itestrs κλπ). (δ) itesters (item s testers): Είναι οι εξωτερικοί ελεγκτές των δοκιμασιών. Ελέγχουν την κάθε δοκιμασία από εκπαιδευτική σκοπιά (σαφήνεια της εκφώνησης, καταλληλότητα των εναλλακτικών απαντήσεων, επίπεδο δυσκολίας κλπ) και από τεχνική σκοπιά ( συνολική εμφάνιση της δοκιμασίας, αρχεία εργασίας, διαχείριση απρόβλεπτων ενεργειών των εξεταζόμενων κλπ). Στο πλαίσιο της πιστοποίησης εκπαιδευτικών η ομάδα των itesters δεν αποτελείται ούτε από ισχυρούς χρήστες των εφαρμογών ούτε από εκπαιδευτικούς. Παρέχουν μια δεύτερη και αντικειμενική ματιά στο πλαίσιο της βελτίωσης των ερωτημάτων της τράπεζας θεμάτων Οι ενδιάμεσες καταστάσεις ενός ερωτήματος Όλες οι φάσεις ανάπτυξης των δοκιμασιών βασίστηκαν σε ένα εργαλείο συγγραφής (authoring tool) που αναπτύχθηκε για το σκοπό αυτό και είναι διαθέσιμο μέσω διαδικτύου. Το εργαλείο συγγραφής αποτέλεσε τη βάση για την επικοινωνία και τη συνεργασία μεταξύ όλων των ομάδων που συμμετείχαν στη διαδικασία ανάπτυξης. Η πρόσβαση στις δοκιμασίες γίνεται με βάση ένα σύνολο κανόνων και εξουσιοδοτήσεων ανάλογα με την κατάσταση στην οποία βρίσκεται το κάθε ερώτημα. Το σύνολο των καταστάσεων στις οποίες μπορεί να βρεθεί μια δοκιμασία είναι: (α) ipend (item pending): η κατάσταση στην οποία βρίσκεται ένα ερώτημα μόλις ο συγγραφέας (icon) την ανεβάσει στο σύστημα συγγραφής. Η δοκιμασία δεν μπορεί να προχωρήσει στο επόμενο 69 P a g e

70 στάδιο επεξεργασίας παρά μόνο αν ο συγγραφέας (icon) δηλώσει με σαφήνεια ότι η δοκιμασία έχει ολοκληρωθεί από την πλευρά του (πλήρης εκφώνηση, οδηγίες, αρχεία εργασίας κλπ). (β) edupend (pending for educational evaluation): η δοκιμασία έχει ολοκληρωθεί από την πλευρά του συγγραφέα (icon) και είναι διαθέσιμη πλέον για έλεγχο. Ο αντίστοιχος αξιολογητής (ieval) θα πρέπει να ελέγξει τη δοκιμασία (σαφήνεια εκφώνησης, καταλληλότητα πιθανών απαντήσεων, επίπεδο δυσκολίας κλπ) στο πλαίσιο του πρώτου κύκλου ποιοτικού ελέγχου του ερωτήματος. (γ) eduacc (educational accepted): το ερώτημα έχει ελεγχθεί και μπορεί να μετακινηθεί στο επόμενο στάδιο επεξεργασίας. Αν ο τύπος της δοκιμασίας είναι εφαρμογής ή ψεύδο-εφαρμογής (τύπος ΙΙ ή ΙΙΙ) τότε θα μετακινηθεί στην κατάσταση techpend και θα ανατεθεί αυτόματα στον κατάλληλο προγραμματιστή (iscr). Αν η δοκιμασία είναι κλειστού τύπου τότε μπορεί άμεσα να προχωρήσει στην κατάσταση testpend ώστε ο κατάλληλος ελεγκτής (itester) να προβεί στο δεύτερο κύκλο ποιοτικού ελέγχου. (δ) edudeny (educational deny): στην κατάσταση αυτή μεταφέρονται τα ερωτήματα στα οποία εντοπίστηκαν προβλήματα (ασάφειες στην εκφώνηση, προβλήματα μορφοποίησης, μεγάλη ή μικρή δυσκολία κλπ). Ο αξιολογητής (ieval) αφού εντοπίσει ποια είναι τα προβλήματα επιστρέφει τη δοκιμασία στην κατάσταση edudeny και ενημερώνει τον αντίστοιχο συγγραφέα (icon) για τις διορθώσεις που πρέπει να γίνουν. Το εργαλείο συγγραφής δεν επιτρέπει στον αξιολογητή (ieval) να κάνει μόνος του τις αλλαγές και παρέχει τα κατάλληλα εργαλεία για να υποστηρίξει τη σχετική διαπραγμάτευση ανάμεσα στον ieval και τον icon. (ε) techpend (pending for technical evaluation): Η δοκιμασία θεωρείται κατάλληλη για τις εξετάσεις από εκπαιδευτική πλευρά και πλέον μπορεί να αναπτυχθεί το σχετικό πρόγραμμα βαθμολόγησης. Ο αντίστοιχος προγραμματιστής (iscr) μπορεί να συμβουλευτεί όλο το ιστορικό συνομιλίας που έχει προηγηθεί και με βάση αυτή την πληροφορία να προχωρήσει στη συγγραφή του προγράμματος βαθμολόγησης (grading script). (ζ) techacc (technical accepted): Τα προγράμματα για τη φόρτωση των αρχείων εργασίας ή για τον έλεγχο της απόκρισης του εξεταζόμενου έχουν ολοκληρωθεί. Ο αντίστοιχος αξιολογητής (ieval) μπορεί να προχωρήσει στον τεχνικό έλεγχο της δοκιμασίας (για παράδειγμα υπάρχουν σωστές ενέργειες που χαρακτηρίζονται λανθασμένες ή το αντίθετο, πως ανταποκρίνεται ο κώδικας σε απρόσμενες ενέργειες των εξεταζόμενων κλπ) ολοκληρώνοντας έτσι τον πρώτο κύκλο της ποιοτικής αξιολόγησης του ερωτήματος. (η) techdeny (techical deny): o αξιολογητής (ieval) διαπίστωσε τεχνικά προβλήματα στον τρόπο με τον οποίο εμφανίζεται και αξιολογείται η απάντηση στο ερώτημα. Η δοκιμασία επιστρέφει με τον τρόπο αυτό στον αντίστοιχο προγραμματιστή (iscr) ο οποίος μπορεί να ενημερωθεί για τις 70 P a g e

71 σχετικές παρατηρήσεις του αξιολογητή (ieval) διαβάζοντας τα σχόλια που έχουν καταχωρηθεί στον αντίστοιχο χώρο συζήτησης για το ερώτημα. (θ) testpend (pending for testing): ο πρώτος κύκλος ποιοτικού ελέγχου του ερωτήματος έχει ολοκληρωθεί από τον αξιολογητή (ieval). Η δοκιμασία μπορεί πλέον να ελεγχθεί από τον αντίστοιχο ελεγκτή (itester) στο πλαίσιο ενός δεύτερου ελέγχου τόσο από εκπαιδευτική όσο και από τεχνική πλευρά. (ι) testdeny (test deny): είναι πιθανόν ο ελεγκτής (itester) να εντοπίσει προβλήματα που δεν είχαν καταγραφεί στις προηγούμενες φάσεις από τις οποίες πέρασε το ερώτημα. Στην περίπτωση αυτή η δοκιμασία επιστρέφει στον αξιολογητή (ieval) και ταυτόχρονα συμπληρώνεται μια αναλυτική φόρμα που περιγράφει με λεπτομέρεια τα προβλήματα που παρουσιάστηκαν. Αν ο αξιολογητής (ieval) κρίνει ότι υπάρχουν πράγματι προβλήματα που αφορούν την εκπαιδευτική πλευρά του ερωτήματος μεταφέρει τη δοκιμασία σε κατάσταση edudeny ώστε να επιληφθεί των διορθώσεων ο αντίστοιχος συγγραφέας. Αν όμως κρίνει ότι υπάρχουν μόνο τεχνικά προβλήματα μεταφέρει τη δοκιμασία σε κατάσταση techdeny ώστε να επιληφθεί ο αντίστοιχος προγραμματιστής. Αν όμως ο αξιολογητής (ieval) κρίνει ότι τα σχόλια του ελεγκτή (itester) οφείλονται σε κάποια παρανόηση και δεν υπάρχουν προβλήματα με τη δοκιμασία τότε έχει τη δυνατότητα να μεταφέρει τη δοκιμασία στην τελευταία κατάσταση (icmpl). (κ) icmpl (item completion): το ερώτημα έχει ολοκληρωθεί μετά από δύο φάσεις ποιοτικού ελέγχου και μπορεί να επιλεγεί από τον γεννήτορα παραγωγής των ηδιαγωνισμάτων ώστε να συμμετέχει στις εξετάσεις. Κανένας πλέον δεν μπορεί να αλλάξει οτιδήποτε στη δοκιμασία αυτή. Η επιστροφή μιας δοκιμασίας από κατάσταση icmpl σε κάποια προηγούμενη κατάσταση μπορεί να γίνει (πολύ σπάνια) μόνο από κάποιον χρήστη με δικαιώματα supeadministrator στο σύστημα συγγραφής. Η πορεία που ακολουθεί μια δοκιμασία μέχρι να είναι έτοιμη ώστε να συμμετάσχει σε κάποιο ηδιαγώνισμα περιγράφεται στο σχήμα 11 και τείνει να παράγει ερωτήματα που δεν έχουν λάθη ή παραλείψεις τόσο από εκπαιδευτική όσο και από τεχνική πλευρά. 71 P a g e

72 Σχήμα 11: Τα στάδια ανάπτυξης ενός ερωτήματος Η διαδικασία της κλωνοποίησης δοκιμασιών για τη δημιουργία οικογενειών (families) Σε μια εξέταση μεγάλης κλίμακας που επαναλαμβάνεται πολλές φορές μέσα στο χρόνο πρέπει να ληφθούν μέτρα για την αντιμετώπιση της μεγάλης έκθεσης των δοκιμασιών. Για να μειωθούν οι παρενέργειες από την έκθεση των ερωτημάτων (πιθανές διαρροές, αντιγραφή κατά τη διάρκεια των εξετάσεων κλπ) εμπλουτίστηκε η τράπεζα θεμάτων με δοκιμασίες που είναι ίδιες (ως προς τη διακριτική τους ικανότητα, το επίπεδο δυσκολίας, τον κόμβο εξεταζόμενης ύλης κλπ) αλλά και διαφορετικές (ως προς εκφώνηση, πιθανές απαντήσεις, αρχεία εργασίας κλπ). Η τράπεζα θεμάτων οργανώθηκε σε οικογένειες (families) που μοιράζονται το χαρακτηριστικό της αποκλειστικής επιλογή (exclusive). Αυτό σημαίνει ότι αν μια δοκιμασία επιλεγεί να συμμετέχει σε ένα ηδιαγώνισμα καμιά άλλη δοκιμασία της ίδιας οικογένειας δεν μπορεί να συμπεριληφθεί στο ίδιο ηδιαγώνισμα. Μια νέα διαδικασία προστέθηκε στο μοντέλο ανάπτυξης των δοκιμασιών που ονομάστηκε κλωνοποίηση (cloning). Η διαδικασία της κλωνοποίησης αφορά στην παραγωγή οικογενειών που αποτελούνται από δοκιμασίες που μοιράζονται το χαρακτηριστικό της αποκλειστικής επιλογής και θεωρούνται ισοδύναμες. 72 P a g e

73 Για την παραγωγή μιας οικογένειας από ερωτήματα ακολουθούνται τα παρακάτω βήματα (Christakoudis, Androulakis, & Zagouras, 2010b; Christakoudis κ.ά., 2011a): η ομάδα των icons συγγράφει τις πρωτότυπες δοκιμασίες για κάθε τέτοια οικογένεια κάθε πρωτότυπο ελέγχεται εξονυχιστικά στο πλαίσιο ποιοτικού ελέγχου δύο επιπέδων από εκπαιδευτική και τεχνική σκοπιά το πρωτότυπο περνά στην κατάσταση icmpl ένα αντίγραφο του πρωτότυπου ερωτήματος δημιουργείται και τοποθετείται στην κατάσταση ipend το αντίγραφο (κλώνος) ακολουθεί όλο τον κύκλο ζωής όπως περιγράφεται στο σχήμα 11 Μια σειρά από κανόνες και προδιαγραφές ακολουθούνται κατά την κλωνοποίηση των ερωτημάτων στο πλαίσιο δημιουργίας των οικογενειών: ένα ερώτημα πρέπει να βρίσκεται στην κατάσταση icmpl προκειμένου να μπορεί να κλωνοποιηθεί ένας icon πρέπει να έχει τη δυνατότητα να αντιγράψει και να επικολλήσει πολλές φορές ένα ερώτημα που έχει συγγράψει και βρίσκεται στην κατάσταση icmpl οι κλώνοι ενός ερωτήματος αντιστοιχίζονται στον ίδιο κόμβο του πίνακα εξεταζόμενης ύλης (4 ο επίπεδο θέματα) και μεταφέρονται στην κατάσταση ipend ο αντίστοιχος icon πρέπει να τροποποιήσει τους κλώνους έτσι ώστε να διαφέρουν μεταξύ τους και με το αντίστοιχο πρωτότυπο είτε στην εκφώνηση είτε στα αρχεία εργασίας είτε στις πιθανές απαντήσεις (γενικά να φαίνονται διαφορετικά αλλά να ελέγχουν ακριβώς την ίδια γνώση ή δεξιότητα) οι δοκιμασίες σε μια οικογένεια πρέπει να έχουν το ίδιο επίπεδο δυσκολίας Οι συγγραφείς των δοκιμασιών ακολουθώντας τις παραπάνω οδηγίες δημιούργησαν οικογένειες δοκιμασιών για κάθε φύλλο του δέντρου εξεταζόμενης ύλης. Με βάση αυτό το μοντέλο παραγωγής δοκιμασιών θεωρήθηκε ότι ο γεννήτορας παραγωγής των ηδιαγωνισμάτων μπορεί να κατασκευάσει ισοδύναμα διαγωνίσματα ενώ οι εξεταζόμενοι αναμένεται να αντιμετωπίζουν με παρόμοιο τρόπο τα ερωτήματα μιας οικογένειας. 3.4 Γεννήτορας παραγωγής η-διαγωνισμάτων Όσες δοκιμασίες έχουν προχωρήσει στην κατάσταση icmpl, σύμφωνα με το παραπάνω μοντέλο, μπορούν να χρησιμοποιηθούν για την παραγωγή των ηδιαγωνισμάτων. Στο πλαίσιο της πιστοποίησης 73 P a g e

74 των εκπαιδευτικών κάθε ηδιαγώνισμα αποτελείται από 60 ερωτήματα που έχουν όμως μια συγκεκριμένη κατανομή με βάση: το επίπεδο δυσκολίας (1-εύκολες, 2-μέτριες, 3-δύσκολες) το είδος (Ι-κλειστές, ΙΙ-εφαρμογής, ΙΙΙ-μεικτές) τους κόμβους του πίνακα εξεταζόμενης ύλης που καλύπτουν Κάθε ηδιαγώνισμα καλύπτει με πληρότητα τις πέντε βασικές ενότητες του πίνακα εξεταζόμενης ύλης. Το προφίλ ενός ηδιαγωνίσματος παρουσιάζεται στον πίνακα 9. Πίνακας 9: Το προφίλ ενός ηδιαγωνίσματος Διαδίκτυο Εισαγωγικές Επεξεργασία Υπολογιστικά Παρουσι & έννοιες Κειμένου Φύλλα άσεις ηλ.αλλ. Σύνολο Εύκολες Εφαρμογής Μέτριες (τύπου ΙΙ) Δύσκολες Κλειστού τύπου ή μεικτές (τύπου Ι ή ΙΙΙ) Εύκολες Μέτριες Δύσκολες Σύνολο Η πιθανότητα ένα ερώτημα x i να συμμετάσχει σε ένα ηδιαγώνισμα T j δίνεται από την εξίσωση 21 (Androulakis, Zagouras, & Skiniotis, 2006): P 4 xi Tj j k 1 όπου, β ki το βάρος των αντίστοιχων κόμβων του πίνακα εξεταζόμενης ύλης και λ j είναι ένας συντελεστής που εξαρτάται: (α) από τη διασπορά των κληρωθέντων ερωτήσεων σε θέματα και (β) το πλήθος των εννοιών που θέλουμε να συμμετέχουν στο ηδιαγώνισμα. Ο γεννήτορας παραγωγής επιλέγει ερωτήματα με βάση ένα πιθανοτικό μοντέλο διαμορφώνοντας ηδιαγωνίσματα και στη συνέχεια ελέγχει αν ικανοποιούνται μια σειρά από κριτήρια ώστε να κρατήσει τα «καλύτερα». Τα ηδιαγωνίσματα που παράγονται με τον τρόπο αυτό θεωρούνται ισοδύναμα γιατί (α) έχουν την ίδια σύνθεση (τύποι δοκιμασιών, βαθμός δυσκολίας κλπ) (β) καλύπτουν με πληρότητα το σύνολο 74 P a g e ki (εξ. 21)

75 της εξεταζόμενης ύλης και (γ) εμφανίζονται στους εξεταζόμενους με γραμμικό τρόπο ανάλογα με το γνωστικό αντικείμενο που καλύπτουν. 3.5 Υποστηρικτικά Εργαλεία Μια σειρά από εργαλεία αναπτύχθηκαν για να υποστηρίζουν τη συνεργασία των ανθρώπων που εμπλέκονται στη διαδικασία των εξετάσεων όπως φαίνεται και στο σχήμα 12. Σχήμα 12: Τα βασικά εργαλεία που αναπτύχθηκαν και χρησιμοποιήθηκαν (α) Εργαλείο συγγραφής (authoring tool): Το εργαλείο συγγραφής αποτελεί τη βάση επικοινωνίας και συνεργασίας όλων των ομάδων που εμπλέκονται στη διαδικασία ανάπτυξης των ερωτημάτων (συγγραφείς, αξιολογητές, ελεγκτές, προγραμματιστές κλπ). Οι βασικές λειτουργίες του υποσυστήματος αυτού είναι: (α) διαχείριση πρωτότυπων ερωτημάτων (πατέρες), (β) κλωνοποίηση και (γ) ποιοτικός έλεγχος των ερωτημάτων (β) Εργαλείο εξέτασης (testing application): Το υποσύστημα εξέτασης είναι μια εφαρμογή που είναι εγκατεστημένη στον υπολογιστή του εξεταζόμενου (standalone application) και παρέχει τις 75 P a g e

76 παρακάτω λειτουργίες: (α) διάθεση των δοκιμασιών στους εξεταζόμενους, (β) καταγραφή των απαντήσεων του κάθε εξεταζόμενου και (γ) αυτόματη αξιολόγηση και βαθμολόγηση (γ) Πληροφοριακό σύστημα πιστοποίησης (Information Management System): Η διαχείριση των εξετάσεων μεγάλης κλίμακας προϋποθέτει και τη λειτουργία ενός πληροφοριακού συστήματος έτσι ώστε να μπορεί να γίνει η διαχείριση των διαδικασιών που εμπλέκονται (καταχώριση των κέντρων πιστοποίησης, συγκέντρωση των αποτελεσμάτων του κάθε εξεταζόμενου, πληροφορίες ενημέρωσης κλπ) 3.6 Διαδικασίες πιστοποίησης Η πιστοποίηση μεγάλου αριθμού εξεταζόμενων μπορεί να αντιμετωπιστεί με την οργάνωση πολλαπλών περιόδων πιστοποίησης. Σε κάθε περίοδο πιστοποίησης μια σειρά από προγράμματα πιστοποίησης εγκρίνονται και διατίθενται στους εξεταζόμενους προς επιλογή. Από την πλευρά του εξεταζόμενου, μια περίοδος πιστοποίησης μπορεί να περιλαμβάνει τις παρακάτω φάσεις: (α) ενημέρωση και προετοιμασία, (β) διεξαγωγή εξετάσεων και (γ) διαχείριση αποτελεσμάτων. Ο ορισμός των διαδικασιών που απαιτούνται για την ολοκλήρωση κάθε περιόδου πιστοποίησης και η οργάνωσή τους με τη βοήθεια ενός πληροφοριακού συστήματος αποτελεί σημαντικό παράγοντα για την ομαλή διεξαγωγή των εξετάσεων (ορισμός κέντρων πιστοποίησης, επιλογή επιτηρητών, αιτήσεις κλπ). 76 P a g e

77 4. Ερευνητική εργασία Χριστακούδης Ξ. Χρήστος Η σχεδίαση και η υλοποίηση εξετάσεων μεγάλης κλίμακας με αυτοματοποιημένα συστήματα εξέτασης για την πιστοποίηση ικανοτήτων επηρεάζεται από μια σειρά παραγόντων που έχουν σχέση με τον τρόπο οργάνωσης και παραγωγής των δοκιμασιών αλλά και τα ιδιαίτερα χαρακτηριστικά των εξεταζόμενων (φύλο, ηλικία, επίπεδο σπουδών κλπ). Τα ερευνητικά ερωτήματα στα οποία καλείται να απαντήσει η παρούσα έρευνα είναι: ποιο μοντέλο μπορεί να ακολουθηθεί για την παραγωγή, οργάνωση και συντήρηση μιας τράπεζας θεμάτων για την παραγωγή διαχρονικά ισοδύναμων ηδιαγωνισμάτων σε εξετάσεις μεγάλης κλίμακας; πώς επηρέασαν τα ιδιαίτερα χαρακτηριστικά των εξεταζόμενων (π.χ φύλο, ηλικία, γνωστικό αντικείμενο-σπουδές κλπ) τη συμπεριφορά τους κατά τη διάρκεια εξετάσεων πιστοποίησης; πως επηρέασαν τα ιδιαίτερα χαρακτηριστικά των δοκιμασιών (π.χ βαθμός δυσκολίας, εκφωνήσεις, αρχεία εργασίας κλπ) την απόδοση των εξεταζόμενων; Η απάντηση στα ερευνητικά ερωτήματα επιχειρείται μέσα από τη διεξοδική μελέτη και την αξιολόγηση του συστήματος πιστοποίησης των Ελλήνων εκπαιδευτικών σε βασικές ικανότητες πληροφορικής αξιοποιώντας ποσοτικές μεθόδους ανάλυσης. Στο πλαίσιο αυτό, κατασκευάστηκε ένα εργαλείο με το οποίο εκτιμήθηκε ο βαθμός κάλυψης του συστήματος αυτοματοποιημένης εξέτασης των προδιαγραφών που έχουν τεθεί από τη Διεθνή Οργάνωση για την Αξιολόγηση (International Test Commission). Στο εργαλείο αυτό καταγράφηκαν όλες οι προδιαγραφές που πρέπει να πληροί ένα αυτοματοποιημένο σύστημα εξέτασης ταξινομημένες σε τέσσερις βασικές κατηγορίες: (α) τεχνολογικές προδιαγραφές (β) προδιαγραφές ποιότητας (γ) προδιαγραφές ελέγχου και (δ) προδιαγραφές ασφάλειας. Για κάθε επιμέρους κατηγορία προδιαγραφών εκτιμήθηκε ο βαθμός κάλυψης (0-Καθόλου, 1-Μέτρια, 3-Πλήρως) και προστέθηκε ένα σύντομο σχόλιο που τεκμηριώνει το χαρακτηρισμό. Μέσω της διαδικασίας αυτής εντοπίστηκαν τα στοιχεία που λείπουν καθώς και εκείνα που θα μπορούσαν να βελτιωθούν ενώ ορίστηκαν με σαφήνεια τα ιδιαίτερα χαρακτηριστικά που πρέπει να έχει ένα παρόμοιο σύστημα που αξιολογεί ικανότητες με αυτοματοποιημένες διαδικασίες. Στη συνέχεια μελετήθηκαν οι αποκρίσεις των εξεταζόμενων εκπαιδευτικών που έχουν καταγραφεί σε ένα παράθυρο έξη ετών ( ) και αναλύθηκαν αξιοποιώντας το στατιστικό πακέτο επεξεργασίας R που διατίθεται ελεύθερο για χρήση στην επιστημονική κοινότητα και είναι ανοικτού κώδικα (free and open source) (R Development Core Team, 2009). 77 P a g e

78 Η ανάλυση των πρωτογενών δεδομένων έγινε ακολουθώντας ποσοτικές μεθόδους επεξεργασίας και εστίασε στην ανάλυση τριών αξόνων: (α) ηδιαγωνισματα όπου μελετήθηκε η συνολική απόδοση των ηδιαγωνισμάτων που χρησιμοποιήθηκαν στις εξετάσεις (β) ΕΞΕΤΑΖΟΜΕΝΟΙ όπου μελετήθηκε το προφίλ των εξεταζόμενων εκπαιδευτικών καθώς και ο τρόπος με τον οποίο τα ψυχομετρικά χαρακτηριστικά τους επηρέασαν τις αποκρίσεις τους (γ) ΕΡΩΤΗΜΑΤΑ όπου υπολογίστηκαν μια σειρά από στατιστικές παράμετροι για κάθε επιμέρους δοκιμασία και μελετήθηκε ο τρόπος με τον οποίο επηρέασαν τις αποκρίσεις των εξεταζόμενων. Το σύνολο των ενδείξεων που καταγράφηκαν οργανώθηκε με βάση το θεωρητικό πλαίσιο ώστε να συνεισφέρουν τόσο στην αξιολόγηση του υπάρχοντος συστήματος πιστοποίησης όσο και στη διαμόρφωση ενός μοντέλου για την κατασκευή, οργάνωση και συντήρηση τράπεζας θεμάτων που μπορεί να υποστηρίξει εξετάσεις μεγάλης κλίμακας. Επιλεγμένα τμήματα κώδικα στη γλώσσα σεναρίων του στατιστικού πακέτου R τεκμηριώθηκαν κατάλληλα δημιουργώντας μια βιβλιοθήκη για την αποδοτική στατιστική επεξεργασία διχοτομικών αποκρίσεων σε διαγωνίσματα. Στη συνέχεια αναλύεται η συμμόρφωση του συστήματος πιστοποίησης με τις προδιαγραφές ανάπτυξης αυτοματοποιημένων εξετάσεων, περιγράφεται το προφίλ του δείγματος των εκπαιδευτικών στο οποίο βασίστηκε η έρευνα ενώ για κάθε άξονα ανάλυσης παρατίθεται η μεθοδολογία που ακολουθήθηκε, τα αποτελέσματα που προέκυψαν και γίνεται ένας σύντομος σχολιασμός τους. 4.1 Έλεγχος συμμόρφωσης του ΑΣΕ εκπαιδευτικών με τις διεθνείς προδιαγραφές Η Διεθνής οργάνωση για την αξιολόγηση (International Τest Commision - ΙΤC) προωθεί μεθόδους και τεχνικές για την αποδοτική αξιολόγηση ικανοτήτων και θέτει προδιαγραφές για την ανάπτυξη κατάλληλων εργαλείων μέτρησης. Στο πλαίσιο της διεθνούς συνεργασίας τους διάφοροι φορείς που ειδικεύονται στην αξιολόγηση αναπτύσσουν συνεργατικά κείμενα προδιαγραφών που πρέπει να ακολουθούν τα συστήματα εξέτασης είτε ακολουθούν παραδοσιακές μεδόδους διάθεσης (χαρτί-μολύβι) είτε βασίζονται σε αυτοματοποιημένα εργαλεία (αυτοματοποιημένα συστήματα εξέτασης). Μια σειρά από κείμενα που καθορίζουν τις επιθυμητές προδιαγραφές συστημάτων έχουν αναπτυχθεί (π.χ προδιαγραφές για προσαρμοστικά διαγωνίσματα, για αυτοματοποιημένα διαγωνίσματα ή για διαγωνίσματα που διατίθονται μέσω διαδικτύου, προδιαγραφές για την ανάλυση του σκορ των εξεταζόμενων κλπ). (ITC Directory, 2001). Οι προδιαγραφές που πρέπει να πληροί ένα αυτοματοποιημένο σύστημα εξέτασης μπορούν να ταξινομηθούν σε τέσσερις βασικές κατηγορίες: (α) τεχνολογικές προδιαγραφές (β) προδιαγραφές ποιότητας (γ) προδιαγραφές ελέγχου και (δ) προδιαγραφές ασφάλειας. Για κάθε επιμέρους κατηγορία προδιαγραφών εκτιμήθηκε ο βαθμός κάλυψης (0-Καθόλου, 1-Μέτρια, 3-Πλήρως) του ΑΣΕ 78 P a g e

79 Καθόλου 1-Μέτρια 2-Πλήρως Χριστακούδης Ξ. Χρήστος εκπαιδευτικών. Στον πίνακα 10 ελέγχεται ο βαθμός συμμόρφωσης του ΑΣΕ εκπαιδευτικών με τις διεθνείς προδιαγραφές. Πίνακας 10: Κάλυψη προδιαγραφών του ΑΣΕ εκπαιδευτικών 4.2 Α. Τεχνολογικές προδιαγραφές Κάλυψη Τεκμηρίωση Υλικό και λογισμικό Προσδιορισμός των ελάχιστων προδιαγραφών του ΑΣΕ (π.χ προτεινόμενη σύνθεση των σταθμών εργασίας, προτεινόμενοι φυλλομετρητές, εκδόσεις εφαρμογών κλπ) Διασφάλιση της συνοχής και της ομοιομορφίας στην παρουσίαση των ερωτημάτων Φειδωλή ενσωμάτωση πολυμεσικών χαρακτηριστικών με στόχο την αποδοτικότερη εκτέλεση στους σταθμούς εργασίας των εξεταζόμενων Υπάρχει πλήρης οδηγός αναφοράς που αφορά στα Κέντρα Στήριξης της Πιστοποίησης (ΚεΠΙΣ) στον οποίο αναφέρονται με λεπτομέρεια οι ελάχιστες προδιαγραφές που πρέπει να πληροί ένα εργαστήριο προκειμένου να χρησιμοποιηθεί για την πιστοποίηση εκπαιδευτικών. Στο πλαίσιο της πιστοποίησης των ΚεΠΙΣ γίνονται επιτόπιοι έλεγχοι αλλά και έλεγχοι των προδιαγραφών από απόσταση. Η εμφάνιση των ερωτημάτων πραγματοποιείται μέσω ειδικής εφαρμογής (TeCert) και είναι ομοιόμορφη για όλους τους εξεταζόμενους Aν και υπάρχει η τεχνική δυνατότητα για ύπαρξη πολυμεσικών στοιχείων τόσο στις εκφωνήσεις των ερωτημάτων όσο και στα πιθανά δολώματα (destructors) τα περισσότερα ερωτήματα βασίζονται σε απλές εκφωνήσεις που περιέχουν κείμενο. Προσοχή πρέπει να δοθεί στα επισυναπτόμενα αρχεία εργασίας σχετικά με το μέγεθός τους (π.χ συμπίεση εικόνων, ελάχιστο μέγεθος αρχείου εργασίας κλπ) Ενσωμάτωση σύγχρονων τεχνολογιών κατά τη διάθεση H εφαρμογή εξέτασης αναπτύχθηκε σαν 79 P a g e

80 των ηδιαγωνισμάτων στους εξεταζόμενους standalone εφαρμογή βασιζόμενη σε Σχεδίαση που να λαμβάνει υπόψη της την κυμαινόμενη πρόσβαση στο σύστημα εξέτασης ή τις διαφορετικές ταχύτητες πρόσβασης στο διαδίκτυο Διασφάλιση ότι οι εξεταζόμενοι έχουν επαρκείς οδηγίες χρήσης της εφαρμογής Ελαχιστοποίηση των εκδόσεων που συνοδεύουν το λογισμικό εξέτασης Σχεδίαση που λαμβάνει υπόψη τις διαφορετικές ταχύτητες πρόσβασης στο διαδίκτυο ανάλογα με την περιοχή Ευρωστία εφαρμογής (robustness) Διαδικασίες που εξασφαλίζουν την ευρωστία της εφαρμογής εξέτασης (π.χ ανάνηψη από κρίσιμα σφάλματα) τεχνολογίες που ήταν διαθέσιμες πριν από μια δεκαετία. Κατά την εξέταση των εκπαιδευτικών δεν είναι απαραίτητη η πρόσβαση στο διαδίκτυο. Τα δεδομένα καταγράφονται τοπικά και συγχρονίζονται με την κεντρική βάση δεδομένων μετά το πέρας της εξέτασης και σε χρόνο που δεν επιβαρύνει την όλη διαδικασία Ο οδηγός του εκπαιδευτικού περιλαμβάνει οδηγίες που καλύπτουν με πληρότητα όλες τις λεπτομέρειες που σχετίζονται με τη χρήση της εφαρμογής εξέτασης. Στη διάρκεια των χρόνων ελάχιστες αλλαγές έχουν γίνει στο λογισμικό εξέτασης χωρίς να επηρεαστεί η διεπαφή του χρήστη (Graphical User Interface- GUI) Tο σύστημα εξέτασης δεν επηρεάζεται καθόλου από τις ταχύτητες πρόσβασης μια και τα διαγωνίσματα κατεβαίνουν στο ΚεΠΙΣ πριν την έναρξη της εξέτασης και η λειτουργία του συστήματος βασίζεται στο τοπικό δίκτυο Σε περίπτωση εμφάνισης κρίσιμου σφάλματος (π.χ διακοπή ρεύματος, επανεκκίνηση υπολογιστή κλπ) η εφαρμογή εξέτασης επιστρέφει στο σημείο πριν την κατάρρευση επαναφέροντας όλες τις απαντήσεις του εξεταζόμενου και ρυθμίζοντας κατάλληλα το χρονόμετρο της εξέτασης 80 P a g e

81 Ελαχιστοποίηση της επίδρασης διαφόρων παραγόντων Χριστακούδης Ξ. Χρήστος Αν και οι εκφωνήσεις βασίστηκαν σε που μπορεί να επηρεάσουν την απόκριση των πρότυπα μορφοποίησης (Cascade Style εξεταζόμενων (π.χ μορφή και περιεχόμενο Sheets-CSS), σε πολλές περιπτώσεις εκφωνήσεων, αποτροπή τυχαίας εξόδου από το ακολουθήθηκαν διαφορετικές σύστημα εξέτασης, συνέπεια στη χρήση χρωμάτων, μορφοποιήσεις χαρακτήρων (π.χ χρήση μορφών, προτύπων κλπ) έντονης ή πλάγιας γραφής) ανάλογα με τον εκάστοτε συγγραφέα Ελαχιστοποίηση των καθυστερήσεων κατά την Αν και η εφαρμογή εξέτασης εκτελείται πλοήγηση του εξεταζόμενου σαν αυτόνομη εφαρμογή χωρίς να εισάγει καθυστερήσεις (π.χ λόγω σύνδεσης δικτύου) ο εξεταζόμενος πλοηγείται σειριακά στις δοκιμασίες που έχει να αντιμετωπίσει επιστρέφοντας από την τελευταία δοκιμασία στην πρώτη Καταγραφή του καθαρού χρόνου εξέτασης Αν και το σύστημα καταγράφει το χρόνο που περνά από την είσοδο σε μια δοκιμασία μέχρι την καταχώρησή της δεν μπορεί να διακρίνει το χρόνο που πραγματικά ο εξεταζόμενος ασχολείται με τη δοκιμασία Αντιμετώπιση εκτάκτων καταστάσεων (π.χ απώλεια Τα ΚεΠΙΣ διαθέτουν εναλλακτικούς σύνδεσης, χαμηλή ταχύτητα πρόσβασης, ανεπάρκεια σταθμού εργασίας κλπ) σταθμούς εργασίας που μπορούν να χρησιμοποιηθούν σε περίπτωση έκτακτων συνθηκών. Παροχή οδηγιών για την αντιμετώπιση αναμενόμενων Ο οδηγός αναφοράς για τα ΚεΠΙΣ ή συχνών προβλημάτων περιλαμβάνει πλήρη καταγραφή όλων των συχνών και αναμενόμενων προβλημάτων καθώς και προτεινόμενες μεθόδους αντιμετώπισης του κάθε προβλήματος. Επιπλέον ένας χώρος συζήτησης (forum) είναι διαρκώς διαθέσιμος για την καταγραφή και αντιμετώπιση των προβλημάτων Θέματα διεπαφής ανθρώπου-μηχανής σχεδίαση του συστήματος εξέτασης με βάση διεθνή Αν και η σχεδίαση της οθόνης που βλέπει 81 P a g e

82 πρότυπα που αφορούν στη διάδραση ανθρώπουυπολογιστή όπως: διασφάλιση ότι όλες οι οθόνες έχουν την απαιτούμενη ανάλυση και βάθος χρώματος χρήση συγκεκριμένων θέσεων και χρωμάτων για την παρουσίαση οδηγιών και κειμένου σχεδίαση όλων των οθονών της εφαρμογής με συνέπεια διάκριση ανάμεσα στην παρουσίαση των εκφωνήσεων και των οδηγιών σχεδίαση λιτών οθονών που περιέχουν μόνο τις απαραίτητες πληροφορίες τοποθέτηση των σημαντικών πληροφοριών στην αρχή της εκφώνησης ή του κειμένου αξιοποίηση καθαρών γραμματοσειρών και αποφυγή στοιχείων που μπορεί να αποπροσανατολίσουν τον εξεταζόμενο (π.χ εικόνες, λογότυπα κλπ) παροχή στους εξεταζόμενους της δυνατότητας επιστροφής στην αρχική σελίδα με τις αναλυτικές οδηγίες συνεπής χρήση της μορφής κειμένου (π.χ έντονα, πλάγια) ή των εικόνων (υποφωτισμένες εικόνες, έντονες εικόνες κλπ) εμφάνιση των πληροφοριακών στοιχείων (τίτλος εξέτασης, τίτλος ερωτήματος, οδηγίες, χρόνος κλπ) στις ίδιες θέσεις κάθε φορά Παραγωγή διακριτικών μηνυμάτων που καθοδηγούν τον εξεταζόμενο στην περίπτωση που κάνει κάποια λανθασμένη ενέργεια. Εξεταζόμενοι με ειδικές ανάγκες Χριστακούδης Ξ. Χρήστος ο εξεταζόμενος έγινε από εξειδικευμένο γραφίστα και ακολουθεί σε γενικές γραμμές τα γενικά πρότυπα της διεπαφής χρήστη μπορούν να βελτιωθούν διάφορα σημεία (π.χ συνέπεια στη χρήση της μορφής των γραμμάτων, πλοήγηση, πρόσβαση σε οδηγίες κλπ) Η εφαρμογή εξέτασης εξασφαλίζει την ομοιόμορφη εμφάνιση όλων των πληροφοριακών στοιχείων Αν και στις οδηγίες που δίνονται στους εξεταζόμενους περιγράφονται οι ενέργειες που πρέπει να αποφεύγονται (π.χ να μην καταχωρηθεί μια δοκιμασία στο Excel αν το φύλλο εργασίας βρίσκεται σε κατάσταση τροποποίησης ενός κελιού) δεν υπάρχει μέριμνα ώστε να ενημερώνεται δυναμικά ο εξεταζόμενος μέσω σύντομων μηνυμάτων 82 P a g e

83 σχεδίαση του συστήματος εξέτασης ώστε να διευκολύνει τη συμμετοχή εξεταζόμενων με ιδιαίτερες ανάγκες (π.χ εξεταζόμενοι με ελλιπή όραση, αχρωματοψία κλπ) σχεδίαση του συστήματος εξέτασης ώστε να μπορεί να προσαρμόζεται στις ανάγκες του εξεταζόμενου (π.χ αυξομείωση της γραμματοσειράς) Βοήθεια και εξάσκηση παροχή απλών και κατανοητών οδηγιών τεχνικής υποστήριξης που απευθύνονται στο συγκεκριμένο προφίλ εξεταζόμενων και είναι διαθέσιμες κατά τη διάρκεια εξέτασης σε ηλεκτρονική και σε έντυπη μορφή παροχή απλών και κατανοητών οδηγιών για τον τρόπο έναρξης της εφαρμογής ή τη σύνδεση στο σύστημα εξέτασης παροχή απλών και κατανοητών οδηγιών που αφορούν στην πλοήγηση στο σύστημα εξέτασης ανάπτυξη και διάθεση παραδειγμάτων που εξοικειώνουν τους εξεταζόμενους τόσο με το περιβάλλον εξέτασης όσο και με το είδος των δοκιμασιών που θα αντιμετωπίσουν Χριστακούδης Ξ. Χρήστος Δεν υπάρχει μέριμνα για τη διευκόλυνση ατόμων με ειδικές ανάγκες ούτε και πρόνοια καταγραφής τέτοιων αναγκών Με δεδομένο ότι οι εξεταζόμενοι είναι ενήλικες και πολλές φορές μεγάλης ηλικίας θα έπρεπε να δοθεί ιδιαίτερη μέριμνα ώστε το λογισμικό εξέτασης να προσαρμόζεται στις ιδιαίτερες ανάγκες του κάθε εξεταζόμενου Αν και διατίθεται ηλεκτρονικά πλήρης οδηγός για τον εκπαιδευτικό και ένα σύντομο φυλλάδιο οδηγιών κατά τη διάρκεια εξέτασης ο εξεταζόμενος δεν έχει πρόσβαση στο υλικό αυτό με ηλεκτρονικό τρόπο κατά τη διάρκεια της εξέτασης Πριν την έναρξη της εξέτασης διατίθεται στους εξεταζόμενους ένα σύντομο φυλλάδιο με πρακτικές οδηγίες και ενημερώνονται προφορικά για τα βασικά σημεία της εξέταση Αν και είναι διαθέσιμος ηλεκτρονικά πλήρης οδηγός πλοήγησης στην εφαρμογή οι οδηγίες αυτές δεν είναι διαθέσιμες κατά τη διάρκεια της εξέτασης Αν και διατίθεται ένα δείγμα του ηδιαγωνίσματος που θα αντιμετωπίσουν οι εξεταζόμενοι το περιβάλλον εργασίας μοιάζει αλλά δεν είναι ακριβώς το ίδιο 4.3 Β. Προδιαγραφές ποιότητας Κάλυψη Τεκμηρίωση 83 P a g e

84 0-Καθόλου 1-Μέτρια 2-Πλήρως Χριστακούδης Ξ. Χρήστος Συνάφεια των διαγωνισμάτων με τις δεξιότητες που πρέπει να εξεταστούν Διασφάλιση ότι το σύστημα εξετάζει τις κατάλληλες Ο πίνακας εξεταζόμενης ύλης έχει ικανότητες αξιοποιώντας υπολογιστές οργανωθεί σε 4 επίπεδα και κάθε ερώτημα αντιστοιχεί σε έναν και μόνο έναν κόμβο του 4 ου επιπέδου. Ο τρόπος επιλογής των ερωτημάτων από τον γεννήτορα και η σύνθεση του ηδιαγωνίσματος εξασφαλίζει ότι τελικά ο εξεταζόμενος εξετάζεται με επάρκεια στο σύνολο των επιθυμητών δεξιοτήτων διασφάλιση ότι όλοι οι εμπλεκόμενοι στην ανάπτυξη Αν και οι άνθρωποι που ενεπλάκησαν των ηδιαγωνισμάτων (κατασκευαστές ερωτημάτων, είχαν ιδιαίτερη εμπειρία (τεχνική, ψυχομέτρες, προγραμματιστές κλπ) έχουν επαρκή γνώση εκπαιδευτική, παιδαγωγική κλπ) δεν στην κατασκευή ηδιαγωνισμάτων υπάρχει καταγεγραμμένο το προφίλ της κάθε ομάδας καθώς και ένα σύνολο από οδηγίες για τον τρόπο που πρέπει να εργάζεται ενσωμάτωση σύγχρονων τεχνολογιών υλικού και λογισμικού Αν και το σύστημα εξέτασης βασίστηκε στη σύγχρονη τεχνολογία που ήταν διαθέσιμη στις αρχές του 2000 δεν έχει γίνει μια προσπάθεια βελτίωσής του ενσωματώνοντας σύγχρονες τεχνολογίες συμμόρφωση με τους εθνικούς, επαγγελματικούς και νομικούς κανόνες που διέπουν τη χρήση των Το σύστημα εξέτασης υλοποιείται για λογαριασμό του Υπουργείου Παιδείας και υπολογιστών στη διεξαγωγή εξετάσεων ακολουθεί όλους τους κανόνες που πρέπει να διέπουν παρόμοια έργα μεγάλης κλίμακας προστασία του παραγόμενου υλικού εξέτασης μέσα Αν και η πρόσβαση στην τράπεζα από ειδικές συμφωνίες τήρησης της εμπιστευτικότητα θεμάτων επιτρέπεται μόνο σε εξουσιοδοτημένους χρήστες και ανάλογα με το ρόλο τους οι συμμετέχοντες δεν έχουν κάνει κάποια ειδική συμφωνία 84 P a g e

85 Ψυχομετρικά χαρακτηριστικά του συστήματος εξέτασης τεκμηρίωση, σχολιασμός και διάχυση πληροφορίας σχετικά με την εγκυρότητα (validity), την αξιοπιστία (reliability) και την αμεροληψία (fairness) του συστήματος εξέτασης εξασφάλιση ότι τα ψυχομετρικά χαρακτηριστικά του συστήματος εξέτασης (εγκυρότητα, αξιοπιστία, αμεροληψία κλπ) παραμένουν αναλλοίωτα μετά από αλλαγές τόσο στον τρόπο κατασκευής των ηδιαγωνισμάτων όσο και στον τρόπο διάθεσης εξασφάλιση ότι δεν απαιτούνται ειδικές γνώσεις ή δεξιότητες προκειμένου ένας εξεταζόμενος να μπορέσει να απαντήσει στα ερωτήματα του ηδιαγωνίσματος και οι οποίες να μην έχουν σχέση με το προς εξέταση θέμα περιγραφή του αλγόριθμου παραγωγής των ηδιαγωνισμάτων σε γενικές γραμμές (π.χ με ποιον τρόπο επιλέγεται η επόμενη ερώτηση στην περίπτωση των προσαρμοστικών συστημάτων) Κάθε αλλαγή που συμβαίνει σε ένα ερώτημα πρέπει να συνοδεύεται από επανέλεγχο και μεθοδική αξιολόγηση Ενδείξεις ισοδυναμίας Χριστακούδης Ξ. Χρήστος τήρησης της εμπιστευτικότητας Αν και έχουν παρουσιαστεί σε εκπαιδευτικά συνέδρια της Ελλάδος τα αποτελέσματα του έργου της πιστοποίησης οι παρουσιάσεις αυτές έχουν κυρίως ενημερωτικό χαρακτήρα και δεν βασίζονται σε επιστημονικά τεκμηριωμένη ανάλυση Αν και κατά τη σχεδίαση του αυτοματοποιημένου συστήματος εξέτασης έχει ληφθεί μέριμνα ώστε τα ψυχομετρικά χαρακτηριστικά των ηδιαγωνισμάτων να παραμένουν αναλλοίωτα στο χρόνο, δεν έχει γίνει επαρκής έλεγχος ότι ο στόχος αυτός επιτυγχάνεται τελικά Ο κύκλος ανάπτυξης των δοκιμασιών προβλέπει σχολαστικό έλεγχο από ομάδες ειδικών εξασφαλίζοντας ότι οι δοκιμασίες είναι κατάλληλες από εκπαιδευτική σκοπιά Αν και κατά καιρούς έχει περιγραφεί ο τρόπος με τον οποίο δουλεύει ο αλγόριθμος παραγωγής των ηδιαγωνισμάτων η ενημέρωση αυτή έχει γίνει κυρίως σε εκπαιδευτικά συνέδρια στην Ελλάδα και δεν είναι άμεσα και εύκολα διαθέσιμη στην εκπαιδευτική κοινότητα αλλά και σε κάθε ενδιαφερόμενο Ο κύκλος ανάπτυξης των δοκιμασιών προβλέπει ότι μια δοκιμασία μπορεί να ξεκινήσει από την κατάσταση ipend μέχρι την κατάσταση icmpl όπου πλέον δεν επιδέχεται καμιά αλλαγή 85 P a g e

86 αν χρησιμοποιούνται διαφορετικές μορφές για τη διάθεση ενός διαγωνίσματος πρέπει να γίνεται μια αναλυτική τεκμηρίωση της ισοδυναμίας τους (π.χ με χαρτί-μολύβι και με χρήση υπολογιστή). Ειδικότερα πρέπει να γίνει αναφορά στο αν οι διαφορετικές μορφές του διαγωνίσματος: έχουν συγκρίσιμη αξιοπιστία έχουν τον αναμενόμενο βαθμό συσχέτισης όπως προκύπτει από την εκτίμηση της αξιοπιστίας τους συσχετίζονται τα αποτελέσματα με άλλα σχετικά διαγωνίσματα ή εξωτερικά κριτήρια οδηγούν σε συγκρίσιμα μέτρα θέσης (μέση τιμή, διακύμανση κλπ) κανονικοποιούν τις αποκρίσεις των εξεταζόμενων ώστε να παράγουν συγκρίσιμα αποτελέσματα αν το αυτοματοποιημένο σύστημα εξέτασης αποτελεί μετασχηματισμό ενός προηγούμενου συστήματος που δεν έκανε χρήση υπολογιστών πρέπει να εξασφαλίζεται ότι: υπάρχουν οι αντίστοιχες δυνατότητες ελέγχου της ροής παρουσίασης των πληροφοριών όπως και στην συμβατική εξέταση (π.χ δυνατότητα για παράλειψη μια ερώτηση, για ελεύθερη ή όχι μετακίνηση μπρος πίσω κλπ) ο τρόπος παρουσίασης των ερωτημάτων στο αυτοματοποιημένο σύστημα είναι ισοδύναμος με τον τρόπο παρουσίασης στο συμβατικό τρόπο εξέτασης ο τρόπος απάντησης είναι ισοδύναμος (π.χ είδη ερωτημάτων) κατά την πιλοτική δοκιμασία του συστήματος πρέπει να επικρατούν όσο γίνεται ποιο ρεαλιστικές συνθήκες όπως αυτές που θα αντιμετωπίσουν οι εξεταζόμενοι κατά την εξέταση (π.χ ρυθμίσεις τοπικού δικτύου, διαμόρφωση σταθμού ελέγχου κλπ) Χριστακούδης Ξ. Χρήστος Αν και η μορφή διάθεσης των διαγωνισμάτων είναι σταθερή στη διάρκεια των χρόνων και ο γεννήτορας συνθέτει ηδιαγωνίσματα με σταθερά κριτήρια δεν έχει γίνει μια μεθοδική αξιολόγηση για το αν πράγματι τα παραγόμενα ηδιαγωνίσματα είναι ισοδύναμα Το σύστημα εξέτασης σχεδιάστηκε από την αρχή χωρίς να βασίζεται σε προηγούμενη εμπειρία Στο πλαίσιο του κύκλου ζωής των δοκιμασιών προβλέπεται ο μεθοδικός έλεγχος των δοκιμασιών από ειδικές ομάδες ανθρώπων (ieval, itesters) ενώ σε επίπεδο πιλοτικής εφαρμογής πραγματοποιήθηκε η δοκιμαστική 86 P a g e

87 Βαθμολόγηση και παραγωγή αναφορών διασφάλιση της σωστής λειτουργίας των αλγορίθμων βαθμολόγησης τεκμηρίωση της εγκυρότητας του τρόπου βαθμολόγησης που χρησιμοποιείται σε περίπτωση που το αυτοματοποιημένο σύστημα εξέτασης κατατάσσει τους εξεταζόμενους σε κατηγορίες (π.χ "αρχάριος", "προχωρημένος", "εσωστρεφής" κλπ) να παρέχεται επαρκής τεκμηρίωση της μεθοδολογίας που οδηγεί στη συγκεκριμένη κατηγοριοποίηση περιγραφή της λογικής με την οποία το αυτοματοποιημένο σύστημα παράγει μια σειρά από πιθανές αναφορές αναλύοντας την απόκριση των εξεταζόμενων Χριστακούδης Ξ. Χρήστος λειτουργία του συστήματος σε επιλεγμένα ΚεΠΙΣ πριν την επέκταση της πιστοποίησης σε μεγάλη κλίμακα Αν και οι δοκιμασίες αξιολογούνται με τον ίδιο αυτόματο τρόπο οι διαδικασίες που θα εξασφάλιζαν ότι ο κώδικας ελέγχου των δοκιμασιών εφαρμογής μιας οικογένειας συμπεριφέρεται με παρόμοιο τρόπο δεν είναι πλήρως ορισμένες Το σύστημα βαθμολόγησης βασίζεται στην παραγωγή διχοτομικών δεδομένων και η απόκρισης σε μια δοκιμασία μπορεί να είναι είτε σωστή είτε λανθασμένη. Όταν η δοκιμασία αξιολογείται αυτόματα από κώδικα ελέγχου τότε ελέγχεται η σωστή λειτουργία του κώδικα ελέγχου από ειδικές ομάδες αξιολογητών (ieval, itesters) Αν και το σύστημα διαχωρίζει τους εξεταζόμενους σε επιτυχόντες και αποτυχόντες έχοντας σαν βάση την επιτυχημένη απόκριση στο 60% των δοκιμασιών δεν τεκμηριώνεται με επάρκεια το γιατί έχει επιλεγεί η συγκεκριμένη βάση εξέτασης Αν και το αυτοματοποιημένο σύστημα παράγει αναφορά σχετικά με το ποιες ερωτήσεις απαντήθηκαν σωστά και ποιες λανθασμένα δεν παρέχει καμιά άλλη πληροφορία που θα μπορούσε να βοηθήσει τον εξεταζόμενο να αναλύσει την απόδοσή του και να κατανοήσει τα σημεία στα οποία υστερεί ή γνωρίζει καλύτερα 87 P a g e

88 αν εισάγονται χειροκίνητα δεδομένα στο σύστημα εξέτασης πρέπει να εφαρμόζονται κανόνες ελέγχου ορθότητας ώστε να ελαχιστοποιείται η πιθανότητα λανθασμένης καταχώρισης Παροχή ανατροφοδότησης παρουσίαση και ανάλυση των πιθανών περιορισμών που εισάγει το αυτοματοποιημένο σύστημα εξέτασης (π.χ αδυναμία αντιγραφής και επικόλλησης, χρήση εφαρμογής προσομοίωσης κλπ) σχεδίαση διαφόρων προτύπων αναφορών για όλους τους εμπλεκόμενους στη διαδικασία της αυτοματοποιημένης εξέτασης παρουσίαση του τρόπου παραγωγής των αναφορών περιγράφοντας ειδικότερα: τα πολυμεσικά στοιχεία που θα περιέχουν (π.χ κείμενα, εικόνες κλπ) την πιθανή πολυπλοκότητα της κάθε αναφοράς τη συνολική δομή που θα έχει η αναφορά τους στόχους που έχει η κάθε αναφορά την ευκολία ή δυσκολία αλλαγών της αναφοράς το στυλ και τη μορφή της αναφοράς την ομάδα στην οποία απευθύνεται παροχή οδηγιών για τον τρόπο που ο κάθε χρήστης του αυτοματοποιημένου συστήματος μπορεί να λάβει μια συγκεκριμένη αναφορά ή ανατροφοδότηση Διασφάλιση ίσων ευκαιριών προσπέλασης για όλες τις ομάδες περιγραφή των μεθόδων που ακολουθήθηκαν για την αύξηση της ψυχομετρικής αμεροληψίας του συστήματος εξέτασης καθώς και για την παροχή ίσως ευκαιριών πρόσβασης Χριστακούδης Ξ. Χρήστος Τα μόνο στοιχεία που εισάγονται χειροκίνητα στο σύστημα εξέτασης είναι ο 16ψήφιος κωδικός του εξεταζόμενου και υπάρχει πρόνοια για άμεση πιστοποίηση των στοιχείων του Οι εξεταζόμενοι ενημερώνονται αναλυτικά για τους περιορισμούς που εισάγει το σύστημα εξέτασης μέσω ειδικού φυλλαδίου που μοιράζεται στην αρχή της εξέτασης Το εργαλείο συγγραφής διαθέτει λειτουργίες παραγωγής αναφορών ενώ οι αναφορές που παράγονται από το πληροφοριακό σύστημα έχουν περιγραφεί με επάρκεια και είναι διαθέσιμες ανάλογα με το ρόλο του κάθε εμπλεκόμενου Αν και το αυτοματοποιημένο σύστημα εξέτασης προσφέρει μια ποικιλία σχετικών αναφορών δεν υπάρχει μια συνολική περιγραφή όλων των διαθέσιμων αναφορών με ομοιόμορφο τρόπο Παρέχονται σχετικές πληροφορίες στους αντίστοιχους οδηγούς Δεν υπάρχει σχετική τεκμηρίωση σε επίπεδο σχεδίασης 88 P a g e

89 0-Καθόλου 1-Μέτρια 2-Πλήρως εντοπισμός ερωτημάτων που παρουσιάζουν διαφορές στις αποκρίσεις των εξεταζόμενων που οφείλονται σε παράγοντες που δεν έχουν σχέση με την εξεταζόμενη ικανότητα (π.χ διαφορές λόγω εθνικότητας, φύλλου κλπ) και διόρθωσή τους στην περίπτωση διάθεσης ηδιαγωνισμάτων σε διεθνές επίπεδο πρέπει: να ληφθεί υπόψη ότι η διείσδυση των υπηρεσιών διαδικτύου δεν είναι η ίδια στις διάφορες χώρες του κόσμου να αποφεύγονται στοιχεία (π.χ εκφράσεις, σύμβολα, εικόνες κλπ) που να έχουν άμεση σχέση με τα πολιτιστικά στοιχεία των διαφόρων χωρών αν η χρήση ερωτημάτων με αναφορές σε πολιτιστικά πρότυπα συνεισφέρει στη διαμόρφωση του ηδιαγωνίσματος τότε να εξασφαλίζεται ότι χρησιμοποιούνται με ισοδύναμο τρόπο όλα τα διαθέσιμα πρότυπα να εξασφαλίζεται η ισοδυναμία μιας προσαρμοσμένης έκδοσης (π.χ μετάφραση στα ελληνικά) του ηδιαγωνίσματος με την αρχική έκδοση Χριστακούδης Ξ. Χρήστος Δεν υπάρχουν διαδικασίες σαφώς ορισμένες που να εντοπίζουν τέτοιες διαφορές Το αυτοματοποιημένο σύστημα αφορά στην εξέταση Ελλήνων εκπαιδευτικών και δεν έχει ληφθεί καμία μέριμνα για μετάφραση της τράπεζας θεμάτων σε άλλες γλώσσες 4.4 Γ. Προδιαγραφές πρόσβασης και ελέγχου Κάλυψη Τεκμηρίωση Προσδιορισμός του επιπέδου πρόσβασης περιγραφή και τεκμηρίωση του υλικού, του λογισμικού και των διαδικασιών που απαιτούνται για τη διαχείριση του συστήματος πιστοποίησης περιγραφή των ειδικών συνθηκών κάτω από τις οποίες αναμένεται να διεξαχθούν οι εξετάσεις Η τεκμηρίωση του υλικού, του λογισμικού και των διαδικασιών που απαιτούνται καλύπτεται με επάρκεια στους σχετικούς οδηγούς που έχουν εκδοθεί Στους σχετικούς οδηγούς διαχείρισης των εξετάσεων περιγράφονται με λεπτομέρεια οι ιδιαίτερες συνθήκες των εξετάσεων, τα 89 P a g e

90 σχεδίαση του συστήματος εξέτασης ώστε να είναι συμβατό με τους κανονισμούς που ισχύουν στη χώρα εφαρμογής (π.χ κανονισμούς χρήσης εργαστηρίων, κανονισμούς υγείας, εργασίας κλπ) Διαχείριση της εξέτασης περιγραφή του τρόπου διαχείρισης της εξέτασης (οpen mode, controlled mode, supervised mode, managed mode) παροχή τεκμηρίωσης για τα σενάρια ελέγχου στα οποία βασίζεται η εξέταση Έλεγχος διαδικασίας και έκθεση ερωτημάτων όταν το ηδιαγώνισμα παράγεται αυτόματα από τράπεζα ερωτημάτων να εξασφαλίζεται η ισόρροπη έκθεση των ερωτημάτων μέσα από ειδικά σχεδιασμένους αλγορίθμους ελαχιστοποίηση των πιλοτικών ελέγχων που γίνονται σε δημόσια θέα ώστε να περιορίζεται η έκθεση των ερωτημάτων Χριστακούδης Ξ. Χρήστος πιθανά προβλήματα που μπορεί να παρατηρηθούν καθώς και τρόποι αντιμετώπισης Οι εξετάσεις πραγματοποιούνται σε ειδικά πιστοποιημένα εργαστήρια πληροφορικής ΑΕΙ και ΑΤΕΙ και ακολουθούν όλες τις διαδικασίες που προβλέπονται από τους επιμέρους κανονισμούς λειτουργίας (π.χ εύκολη εγκατάσταση, μη διατάραξη της καθημερινότητας των φοιτητών κλπ) Η πιστοποίηση των εκπαιδευτικών βασίζεται σε ένα αυτοματοποιημένο σύστημα εξέτασης που λειτουργεί σε επιτηρούμενη κατάσταση (supervised mode). Ο εξεταζόμενος προσέρχεται σε ειδικό κέντρο και εξετάζεται καθώς επιτηρείται., αναλαμβάνει να συνδεθεί στο σύστημα (login) και στο τέλος να αποσυνδεθεί (logoff) προκειμένου να ολοκληρωθεί η εξέταση. Ο τρόπος και οι διαδικασίες εξέτασης περιγράφονται με πληρότητα στους σχετικούς οδηγούς Ο γεννήτορας παραγωγής των ηδιαγωνισμάτων συνθέτει τα διαγωνίσματα βασιζόμενος σε πιθανοτικά μοντέλα ανάλογα με τη βαρύτητα και τα ιδιαίτερα χαρακτηριστικά του κάθε κόμβου της εξεταζόμενης ύλης Πραγματοποιήθηκε μόνο μία πιλοτική εφαρμογή ενώ η διαθέσιμη έκδοση μέσω διαδικτύου παραμένει σταθερή, χωρίς ανανέωση και προσθήκη νέων δειγμάτων 90 P a g e

91 διασφάλιση ότι η τράπεζα ερωτημάτων είναι επαρκώς μεγάλη ώστε να υποστηρίζεται η ανάπτυξη προσαρμοστικών διαγωνισμάτων και να ελέγχεται η έκθεση και η ακεραιότητα των θεμάτων όταν παράγονται παράλληλα ηδιαγωνίσματα πρέπει να ακολουθεί κατάλληλη ψυχομετρική ανάλυση που να επιβεβαιώνει την ισοδυναμία τους ανάπτυξη τεχνικών που δυσκολεύουν την απομνημόνευση των θεμάτων από τους εξεταζόμενους (π.χ παραγωγή διαφορετικών ηδιαγωνισμάτων για κάθε εξεταζόμενο) διαφοροποίηση των μεθόδων εποπτείας σε περιβάλλοντα που είναι επιρρεπή στο κλέψιμο (cheating) Διασφάλιση ατομικότητας και αποφυγή κλοπών σχεδίαση λειτουργιών που δίνουν τη δυνατότητα στους εξεταζόμενους να έχουν πρόσβαση στα προσωπικά τους στοιχεία και στα αποτελέσματα (π.χ προστασία με κωδικό πρόσβασης, προφίλ χρήστη κλπ) σχεδίαση λειτουργιών που δίνουν τη δυνατότητα στους διαχειριστές να έχουν πρόσβαση σε μια σειρά από Χριστακούδης Ξ. Χρήστος Υπολογίστηκε ο βέλτιστος αριθμός δοκιμασιών που πρέπει να έχει η κάθε οικογένεια ώστε τα παραγόμενα ηδιαγωνίσματα να έχουν την ελάχιστη επιθυμητή επικάλυψη και αναπτύχθηκαν οι σχετικές δοκιμασίες ώστε να εξασφαλίζεται η παραγωγή μεγάλου πλήθους ισοδύναμων διαγωνισμάτων Αν και η σύνθεση των ηδιαγωνισμάτων έγινε με τέτοιο τρόπο που θεωρούνται ισοδύναμα δεν υπάρχει διαδικασία που να τεκμηριώνει και να ελέγχει αυτή την ισοδυναμία βασιζόμενη στα ψυχομετρικά χαρακτηριστικά των καταγεγραμμένων απαντήσεων Η σχεδίαση των διαγωνισμάτων έγινε με τέτοιο τρόπο ώστε μέσα στο ίδιο ΚεΠΙΣ τα ηδιαγωνίσματα να έχουν πολύ μικρή συνάφεια μεταξύ τους δίνοντας της εντύπωση ότι κάθε εξεταζόμενος εξετάζεται και σε διαφορετικό διαγώνισμα ενώ η διαδικασία της εξέτασης επιτηρείται. Η λειτουργία των κέντρων πιστοποίησης ελέγχεται με επισκέψεις συνεργατών που ελέγχουν και πιστοποιούν ότι όλες οι διαδικασίες ακολουθούνται με συνέπεια Οι εξεταζόμενοι έχουν πρόσβαση στην προσωπική τους καρτέλα μέσω της οποίας μπορούν να ενημερωθούν για τις λεπτομέρειες του έργου της πιστοποίησης αλλά και για τα αποτελέσματά της. Η διαχείριση όλων των λειτουργιών της πιστοποίησης γίνεται μέσα από 91 P a g e

92 0-Καθόλου 1-Μέτρια 2-Πλήρως πληροφορίες για την εξέταση (π.χ όψεις με πιστοποιημένη πρόσβαση) Χριστακούδης Ξ. Χρήστος πληροφοριακό σύστημα που έχει σχεδιαστεί ειδικά για το σκοπό αυτό 4.5 Δ. Προδιαγραφές ασφάλειας Κάλυψη Τεκμηρίωση Διασφάλιση της ασφάλειας των θεμάτων σχεδίαση λειτουργιών που ελαχιστοποιούν τα κενά ασφάλειας της εφαρμογής εξέτασης και εμποδίζουν τις προσπάθειες για υποκλοπή των θεμάτων (π.χ ελεγχόμενη πρόσβαση στο διαδίκτυο, απενεργοποίηση λειτουργιών αντιγραφής και επικόλλησης κλπ) ανάπτυξη πολιτικών ασφάλειας που προστατεύουν την τηρούμενη βάση δεδομένων των θεμάτων από ανεπιθύμητες (π.χ χρήση firewalls) επιθέσεις Διασφάλιση των διακινούμενων πληροφοριών μέσω διαδικτύου μεταφορά των καταγεγραμμένων αποκρίσεων του χρήστη μέσα από ασφαλή κανάλια επικοινωνίας (π.χ κρυπτογράφηση δεδομένων) αξιοποίηση διαμεσολαβητών (proxy servers) και ενσωμάτωση συστημάτων διαχείρισης δοσοληψιών (transactions) μέσα από ασφαλή πρωτόκολλα επικοινωνίας (secure socket layers) ανάπτυξη στρατηγικών για την ασφαλή αποθήκευση των δεδομένων των εξεταζόμενων και της τράπεζας Κατά τη διάρκεια της εξέτασης μόνο τα συγκεκριμένα διαγωνίσματα κατεβαίνουν ενώ τα στοιχεία που καταγράφονται κωδικοποιούνται με ειδικούς αλγόριθμους κρυπτογράφησης ώστε να εξασφαλιστεί η ακεραιότητα και η ασφάλειά τους Η τράπεζα θεμάτων είναι εγκατεστημένη σε εξυπηρετητή που βρίσκεται στο εσωτερικό δίκτυο του Ινστιτούτου Τεχνολογίας Υπολογιστών και Εκδόσεων Διόφαντος και προστατεύεται από τις πολιτικές ασφάλειας του οργανισμού ενώ κατά τη διάρκεια της εξέτασης τα δεδομένων των εξεταζόμενων αποθηκεύονται κωδικοποιημένα Τα στοιχεία που καταγράφονται κατά την ώρα της εξέτασης αποθηκεύονται τοπικά και συγχρονίζονται με την κεντρική βάση δεδομένων μέσα από ειδικά πρωτόκολλα ασφαλούς επικοινωνίας Δεν απαιτείται καμιά διακίνηση πληροφοριών μέσω διαδικτύου κατά τη διάρκεια της εξέτασης Αν καταχωρηθεί η απάντηση του εξεταζόμενου σε μια ερώτηση τότε ακόμη 92 P a g e

93 θεμάτων (π.χ αντίγραφα ασφάλειας βάσεων δεδομένων) διασφάλιση της ακεραιότητας (integrity) των δεδομένων εμποδίζοντας την μη εξουσιοδοτημένη τροποποίησή τους Εξασφάλιση της εμπιστευτικότητας των αποτελεσμάτων Σχεδίαση λειτουργιών που εξασφαλίζουν την ασφαλή αποθήκευση των δεδομένων Διασφάλιση της ακεραιότητας των δεδομένων αξιοποίηση μηχανισμών κρυπτογράφησης και προστασία πρόσβασης με κωδικούς υψηλής ασφάλειας Χριστακούδης Ξ. Χρήστος και αν συμβεί κάποιο κρίσιμο σφάλμα (π.χ διακοπή ρεύματος) τα στοιχεία δεν χάνονται αλλά επαναφέρονται από τον τοπικό δίσκο. Ειδικές πολιτικές ασφαλείας ακολουθούνται για την τήρηση αντιγράφων ασφαλείας σε όλα τα συστήματα που έχουν σχέση με την πιστοποίηση Δεν παρέχεται η δυνατότητα τροποποίησης δοκιμασιών αν αυτές βρίσκονται στην κατάσταση icmpl ανεξάρτητα από το αν έχουν χρησιμοποιηθεί σε εξετάσεις ή όχι. Λαμβάνονται όλα τα ενδεδειγμένα μέτρα που εξασφαλίζουν την απρόσκοπτη λειτουργία τόσο του υλικού όσο και του λογισμικού Η πρόσβαση στα στοιχεία της τηρούμενης βάσης δεδομένων είναι πλήρως ελεγχόμενη εξασφαλίζοντας την ακεραιότητα των αποθηκευμένων πληροφοριών Οι κωδικοί πρόσβασης παρέχονται από το σύστημα ώστε να εξασφαλίζεται η υψηλή ασφάλεια πρόσβαση 22 Για κάθε κατηγορία προδιαγραφών υπολογίστηκε ο δείκτης κάλυψης σύμφωνα με την εξίσωση (εξ.22) όπου Δ i εκφράζει το δείκτη κάλυψης για την κατηγορία i, το β ij είναι ο επιμέρους βαθμός κάλυψης (0-Καθόλου, 1-Μέτρια, 2-Πλήρως) για το συγκεκριμένο κριτήριο j της κατηγορίας i και το ν είναι το πλήθος των επιμέρους κριτηρίων που αντιστοιχούν στην κατηγορία i. Ο δείκτης κάλυψης για κάθε επιμέρους κατηγορία των προδιαγραφών φαίνεται στον πίνακα P a g e

94 Κατηγορία προδιαγραφών Χριστακούδης Ξ. Χρήστος Πίνακας 11: Κάλυψη προδιαγραφών του ΑΣΕ ΚΑΘΟΛΟΥ (0) Κάλυψη Προδιαγραφών (β ij ) ΜΕΤΡΙΑ (1) ΠΛΗΡΗΣ Τεχνολογικές Προδιαγραφές ~70% Υλικό και λογισμικό ,8750 Ευρωστία ,7500 Ανθρώπινοι παράγοντες ,6667 Εξεταζόμενοι με ειδικές ανάγκες Βοήθεια και εξάσκηση ,6250 Προδιαγραφές ποιότητας ~67% Συνάφεια διαγωνισμάτων και δεξιοτήτων ,7000 Ψυχομετρικά χαρακτηριστικά ,7000 Ενδείξεις ισοδυναμίας ,8333 Βαθμολόγηση και παραγωγή αναφορών ,8333 Παροχή ανατροφοδότησης ,8750 Ισες ευκαιρίες πρόσβασης Προδιαγραφές πρόσβασης και ελέγχου ~96% Επίπεδα πρόσβασης Διαχείριση της εξέτασης Έλεγχος διαδικασιών και έκθεση ερωτημάτων Διασφάλιση ατομικότητας και αποφυγή κλοπών (2) , Προδιαγραφές ασφάλειας 100% Διασφάλιση της ασφάλειας των θεμάτων Διασφάλιση της διακίνησης των πληροφοριών Διασφάλιση της εμπιστευτικότητας και της ακεραιότητας των πληροφοριών Η παραπάνω ανάλυση δε στοχεύει στην αξιολόγηση του αυτοματοποιημένου συστήματος εξέτασης αλλά στο να εκτιμήσει το βαθμό στον οποίο ακολουθήθηκαν μια σειρά από προδιαγραφές από την πλευρά του φορέα σχεδίασης και υλοποίησης. Ερμηνεύοντας το δείκτη κάλυψης φαίνεται ότι το αυτοματοποιημένο σύστημα καλύπτει με πληρότητα τις προδιαγραφές ασφάλειας (100%) ενώ 94 P a g e

95 εμφανίζει μεγάλη κάλυψη και σε όλες τις προδιαγραφές που αφορούν στην πρόσβαση αλλά και στον έλεγχο της όλης διαδικασίας για την πιστοποίηση των ικανοτήτων που έχουν οι εξεταζόμενοι. Όσον αφορά στις τεχνολογικές προδιαγραφές φαίνεται ότι οι σημαντικότερες βελτιώσεις που μπορούν να γίνουν έχουν σχέση με την υποστήριξη και υποβοήθηση ομάδων εξεταζόμενων με ειδικές ανάγκες ενώ η ποιότητα του αυτοματοποιημένου συστήματος θα μπορούσε να αυξηθεί επίσης αν ληφθεί μέριμνα ώστε το σύστημα εξέτασης να προσαρμόζεται στις ιδιαίτερες ανάγκες των εξεταζόμενων παρέχοντες ίσες ευκαιρίες σε όλους. Σε αρκετές περιπτώσεις παρατηρήθηκε μερική κάλυψη των προδιαγραφών. Κάνοντας κατάλληλες παρεμβάσεις ώστε να μετατραπεί ο χαρακτηρισμός από μερική σε πλήρη κάλυψη θα βελτίωνε τη συνολική συμμόρφωση του αυτοματοποιημένου συστήματος πιστοποίησης με τις διεθνείς προδιαγραφές. Το σύνολο αυτών των παρεμβάσεων καταγράφηκε και διαχωρίστηκε σε δύο μεγάλες κατηγορίες: (α) προτάσεις βελτίωσης που αφορούν σε εκείνες τις παρεμβάσεις που θα αυξήσουν τη λειτουργικότητα του ΑΣΕ (π.χ ποια στοιχεία πρέπει να βελτιωθούν σε μια νέα έκδοση του συστήματος εξέτασης, ποιες λειτουργίες μπορούν να προστεθούν κλπ) (β) προτάσεις ανάλυσης που αφορούν σε προτάσεις για την εφαρμογή ποσοτικών μεθόδων ανάλυσης των δεδομένων προκειμένου να αναζητηθούν ενδείξεις που τεκμηριώνουν τα ιδιαίτερα χαρακτηριστικά της εξέτασης όπως φαίνεται στον πίνακα 12. Πίνακας 12: Προτάσεις βελτίωσης του ΑΣΕ εκπαιδευτικών Κατηγορία προδιαγραφών (α) Προτάσεις βελτίωσης Υλικό και Λογισμικό Ξεκάθαρες οδηγίες προς τους συγγραφείς των δοκιμασιών για τη μορφή και το μέγεθος των αρχείων εργασίας Ευρωστία Τεχνικές βελτιώσεις της εφαρμογής (καταγραφή καθαρού χρόνου εξέτασης, αποτροπή τυχαίας εξόδου, πλοήγηση κλπ) Θέματα διεπαφής ανθρώπουμηχανής Περιβάλλον Επικοινωνίας Βελτιώσεις στο Γραφικό της εφαρμογής (συνέπεια εμφάνισης, σχεδίαση οθόνης κλπ) (β) Προτάσεις ανάλυσης υπάρχουν ενδείξεις ότι η μορφή των αρχείων εργασίας (μέγεθος, μορφή κλπ) επηρεάζει τις αποκρίσεις των εξεταζόμενων; υπάρχουν ενδείξεις που τεκμηριώνουν ένα σύνολο από σαφείς οδηγίες προς τους κατασκευαστές των ερωτημάτων; υπάρχουν ενδείξεις για παράγοντες που μπορούν να επηρεάσουν την απόκριση των εξεταζόμενων (π.χ μορφή και περιεχόμενο εκφωνήσεων, συνέπεια στη χρήση χρωμάτων, μορφής γραμμάτων ή γραμματικών τύπων κλπ) 95 P a g e

96 Εξεταζόμενοι με ειδικές ανάγκες Βοήθεια και εξάσκηση Συνάφεια διαγωνισμάτων και δεξιοτήτων Ψυχομετρικά χαρακτηριστικά Βελτίωση του συστήματος ώστε να υποστηρίζει άτομα με ειδικές ανάγκες (π.χ χαμηλή όραση) ή να προσαρμόζεται στις ανάγκες του εξεταζόμενου (π.χ αυξομείωση γραμματοσειρών) Βελτίωση της πρόσβασης σε βοηθητικό υλικό κατά την εξέταση και παραγωγή demo εφαρμογής που προσομοιώνει απόλυτα τον τρόπο εξέτασης Ενσωμάτωση σύγχρονων τεχνολογιών (π.χ web based αντί για standalone) Περιγραφή του συστήματος εξέτασης ώστε να είναι γνωστές οι λεπτομέρειες της λειτουργίας του τόσο στην επιστημονική κοινότητα όσο και στους άμεσα ενδιαφερόμενους εκπαιδευτικούς Χριστακούδης Ξ. Χρήστος ποια είναι τα ψυχομετρικά χαρακτηριστικά των διαγωνισμάτων στη διάρκεια των χρόνων; Ενδείξεις ισοδυναμίας υπάρχουν ενδείξεις που τεκμηριώνουν την ισοδυναμία των διαγωνισμάτων; Βαθμολόγηση και παραγωγή αναφορών Παροχή ανατροφοδότησης Ισες ευκαιρίες πρόσβασης Τεκμηρίωση της επιλογής του 60% σαν τη βάση εξέτασης και παραγωγή περισσότερων πληροφοριών σχετικά με την απόδοση του κάθε εξεταζόμενου Τεκμηριωμένη παρουσίαση όλων των σχετικών αναφορών Περιγραφή μεθόδων για την αύξηση της αμεροληψίας και την παροχή ίσων ευκαιριών και πιθανή πρόνοια για την εύκολη μετάφραση του συστήματος σε άλλες γλώσσες Επίπεδα πρόσβασης - - Διαχείριση της εξέτασης - - Έλεγχος διαδικασιών και έκθεση ερωτημάτων υπάρχουν ενδείξεις ότι ο κώδικας αυτόματης βαθμολόγησης αξιολογεί τις δοκιμασίες με τον ίδιο τρόπο; είναι δίκαιος ο τρόπος αξιολόγησης των εξεταζόμενων; υπάρχουν ερωτήματα με «κακή» συμπεριφορά; - υπάρχουν ενδείξεις που τεκμηριώνουν διαφορές στις αποκρίσεις των εξεταζόμενων ανάλογα με διάφορα ψυχομετρικά χαρακτηριστικά (φύλο, ηλικία κλπ) - υπάρχουν ενδείξεις που να τεκμηριώνουν ότι η μεγάλη 96 P a g e

97 έκθεση των ερωτημάτων επηρεάζει τις αποκρίσεις των εξεταζόμενων; Διασφάλιση ατομικότητας και - - αποφυγή κλοπών Διασφάλιση της ασφάλειας των - - θεμάτων Διασφάλιση της διακίνησης των - - πληροφοριών Διασφάλιση της εμπιστευτικότητας - - και της ακεραιότητας των πληροφοριών Από τον παραπάνω πίνακα γίνεται σαφές ότι η ανάλυση των αποκρίσεων των εξεταζόμενων ελέγχοντας τη στατιστική συμπεριφορά των ηδιαγωνισμάτων (test analysis) και των δοκιμασιών (item analysis) αλλά και η παραγοντική τους ανάλυση (factor analysis) θα συνεισφέρει πολύ στη βελτίωση του δείκτη προσαρμογής του συστήματος αξιολόγησης προς τις επιθυμητές προδιαγραφές. Στο παράρτημα Γ δίνεται το εργαλείο διερεύνησης της κάλυψης προδιαγραφών για ένα ΑΣΕ. Στη συνέχεια της ερευνητικής εργασίας παρουσιάζεται το προφίλ του δείγματος και γίνεται ανάλυση των δεδομένων σε τρεις άξονες: (α) ηδιαγωνισματα (β) ΕΞΕΤΑΖΟΜΕΝΟΙ (γ) ΕΡΩΤΗΜΑΤΑ αξιοποιώντας ποσοτικές μεθόδους. 4.6 Το προφίλ των καταγεγραμμένων δεδομένων του δείγματος Στο πλαίσιο της ερευνητικής εργασίας αναλύθηκαν τα καταγεγραμμένα στοιχεία από 13 περιόδους πιστοποίησης που υλοποιήθηκαν μέσα σε ένα παράθυρο 6 ετών ( ) και πραγματοποιήθηκαν σε πιστοποιημένα εργαστηριακά κέντρα της τριτοβάθμιας εκπαίδευσης (πανεπιστήμια-αει και τεχνολογικά ιδρύματα-ατει). Τα ερευνητικά δεδομένα αφορούν σε απόπειρες πιστοποίησης που είχαν μέγιστη διάρκεια 2.30 ώρες η κάθε μία. Κάθε εξεταζόμενος κλήθηκε να απαντήσει σε ένα ηδιαγώνισμα που περιελάμβανε 60 ερωτήσεις. Η σωστή απάντηση σε 36 από τις 60 ερωτήσεις (60%) χαρακτηρίζει την προσπάθεια σαν επιτυχημένη. Συνολικά χρησιμοποιήθηκαν ερωτήσεις που κάλυψαν 5 γνωστικά αντικείμενα (Εισαγωγικές έννοιες, Επεξεργασία κειμένου, Υπολογιστικά φύλλα, Διαδίκτυο και η-ταχυδρομείο, Παρουσιάσεις). Το δείγμα αντιστοιχεί στις απαντήσεις περίπου εκπαιδευτικών πρωτοβάθμιας και δευτεροβάθμιας εκπαίδευσης. Η κατανομή των τελικών αποτελεσμάτων στη διάρκεια των χρόνων δίνεται στον πίνακα 13: 97 P a g e

98 ΕΤΟΣ Πλήθος Πιστοποιήσεων Χριστακούδης Ξ. Χρήστος Πίνακας 13: Αποτελέσματα πιστοποιήσεων στη διάρκεια των χρόνων (α) πρωτοβάθμια (β) δευτεροβάθμια Ποσοστό επιτυχίας (95% διάστημα εμπιστοσύνης) Συνολικός βαθμός (95% διάστημα εμπιστοσύνης) σύνολο α β σύνολο α β σύνολο α β % 63% [ ] [ ] % 56% [ ] [ ] % 56% [ ] [ ] % 56% [ ] [ ] % 54% [ ] [ ] % 55% [ ] [ ] Η μέση ηλικία των εκπαιδευτικών που πιστοποιήθηκαν είναι περίπου τα 42 έτη. Στη διαδικασία των εξετάσεων οι εκπαιδευτικοί της πρωτοβάθμιας εκπαίδευσης (δάσκαλοι και νηπιαγωγοί) που συμμετείχαν είχαν μικρότερη ηλικία και μικρότερη διασπορά σε σύγκριση με τους εκπαιδευτικούς διαφόρων κλάδων από τη δευτεροβάθμια εκπαίδευση. Η κατανομή των ηλικιών ανάλογα με τη βαθμίδα εκπαίδευσης δίνεται στο σχήμα 13. Σχήμα 13: Κατανομή ηλικίας ανά βαθμίδα εκπαίδευσης 4.7 Άξονας ηδιαγωνισματα Τα ηδιαγωνίσματα που χρησιμοποιήθηκαν για την πιστοποίηση των εκπαιδευτικών στις βασικές δεξιότητες παρήχθησαν με αυτοματοποιημένο τρόπο από το υποσύστημα παραγωγής ηδιαγωνισμάτων (γεννήτορας διαγωνισμάτων). Κάθε ηδιαγώνισμα αποτελείται από 60 ερωτήματα και ακολουθεί ένα συγκεκριμένο πρότυπο όσον αφορά τα γνωστικά αντικείμενα που καλύπτει, το επίπεδο δυσκολίας στο οποίο αντιστοιχεί και στον τύπο των ερωτημάτων που περιλαμβάνει (τύπος Ι, ΙΙ, ΙΙΙ). Τα ερωτήματα 98 P a g e

99 εμφανίζονται με γραμμικό και ομοιόμορφο τρόπο στους εξεταζόμενους και βασίζονται κυρίως σε ερωτήματα εφαρμογής (ερωτήματα τύπου ΙΙ) (Androulakis κ.ά., 2006) Μεθοδολογία ανάλυσης ηδιαγωνισματων Για να εξαχθούν αξιόπιστα στατιστικά συμπεράσματα περιορίστηκε η ανάλυση μόνο στα ηδιαγωνίσματα εκείνα για τα οποία υπάρχουν τουλάχιστον 30 εξεταζόμενοι (Aczel & Sounderpandian, 2008) που τα έχουν απαντήσει κατά το χρονικό διάστημα στο οποίο βασίστηκε η έρευνα. Για το σύνολο των ηδιαγωνισμάτων του δείγματος υπολογίστηκε και μελετήθηκε (α) ο χρόνος που απαιτήθηκε από τους εξεταζόμενους για να ολοκληρώσουν την εξέταση (β) η χαρακτηριστική καμπύλη των ηδιαγωνισμάτων του δείγματος σύμφωνα με τη θεωρία ανάλυσης αποκρίσεων (IRT) και (δ) η πληροφορία που συνεισφέρουν τα ηδιαγωνίσματα, δηλαδή η ακρίβεια με την οποία εκτίμησαν τις πραγματικές ικανότητες των εξεταζόμενων. Με βάση τις ενδείξεις που συγκεντρώθηκαν έγινε μια εκτίμηση της ισοδυναμίας των διαγωνισμάτων που χρησιμοποιήθηκαν για την πιστοποίηση των εκπαιδευτικών στη βασική χρήση ΤΠΕ. Επιπλέον, εκτιμήθηκε η έκθεση των διαφόρων κόμβων του πίνακα εξεταζόμενης ύλης στη διάρκεια των χρόνων μέσα από την πολλαπλή διάθεση των ηδιαγωνισμάτων Ανάλυση του ΧΡΟΝΟΥ ολοκλήρωσης των ηδιαγωνισματων Το δείγμα των ηδιαγωνισμάτων στο οποίο βασίστηκε η ανάλυση αποτελείται από 540 διαφορετικά διαγωνίσματα στα οποία τουλάχιστον 30 εξεταζόμενοι έχουν απαντήσει. Συνολικά αναλύθηκαν οι απαντήσεις εξεταζόμενων σε αυτά τα 540 διαγωνίσματα. Το σύνολο σχεδόν των ηδιαγωνισμάτων του δείγματος (99,7%) ολοκληρώθηκε μέσα σε ένα χρονικό παράθυρο 32 λεπτών (από 1 ώρα και 48 λεπτά ή 6480 δευτερόλεπτα μέχρι 2 ώρες και 20 λεπτά ή 8400 δευτερόλεπτα). Πραγματοποιήθηκε έλεγχος κανονικότητας της αντίστοιχης κατανομής (Shapiro & Wilk, 1965) και βρέθηκε ότι οι χρόνοι ολοκλήρωσης των ηδιαγωνισμάτων κατανέμονται κανονικά (pvalue= ) με μέση τιμή τις 2 ώρες και 4 λεπτά περίπου (7440 δευτερόλεπτα). Το ιστόγραμμα του χρόνου ολοκλήρωσης των ηδιαγωνισμάτων που αναλύθηκαν δίνεται στο σχήμα P a g e

100 Σχήμα 14: Μέσος χρόνος ολοκλήρωσης των ηδιαγωνισμάτων Ένα ηδιαγώνισμα θεωρείται ότι έχει απαντηθεί με επιτυχία αν ο εξεταζόμενος απάντησε σωστά σε 36 από τις 60 ερωτήσεις. Στο σύνολο σχεδόν των επιτυχημένων διαγωνισμάτων (95%) η 36 η ερώτηση καταχωρίστηκε σε ένα χρονικό παράθυρο 10 λεπτών. Ελέγχθηκε η κατανομή του χρόνου (Shapiro & Wilk, 1965) που απαιτήθηκε για να καταχωριστεί η 36 η σωστή ερώτηση στα διάφορα ηδιαγωνίσματα και βρέθηκε ότι ακολουθεί την κανονική κατανομή (pvalue= ) με μέση τιμή 1 ώρα και 10 λεπτά περίπου. Το ιστόγραμμα του χρόνου ολοκλήρωσης των επιτυχημένων ηδιαγωνισμάτων που αναλύθηκαν δίνεται στο σχήμα 15. Σχήμα 15: Κατανομή του χρόνου που επιτυγχάνεται η βάση εξέτασης 100 P a g e

101 Από τη μελέτη των αποτελεσμάτων προκύπτει ότι μόλις σε 1 ώρα και 30 λεπτά περίπου το αυτοματοποιημένο σύστημα θα μπορούσε να αποφασίσει αν ο εξεταζόμενος περνάει τη βάση των εξετάσεων ή όχι βελτιώνοντας κατά πολύ τη συνολική απόδοση των εξετάσεων Ανάλυση της πληροφορίας (information) που εμπεριέχουν τα ηδιαγωνίσματα Τα μεικτά ερωτήματα (τύπου ΙΙΙ) και τα ερωτήματα κλειστού τύπου (τύπου Ι) μοντελοποιήθηκαν με το μοντέλο τριών παραμέτρων (3PL) ενώ τα ερωτήματα εφαρμογής (τύπου ΙΙ) αναλύθηκαν με μοντέλο δύο παραμέτρων (2PL). Για όλα τα ερωτήματα που συμμετείχαν στα διαγωνίσματα του δείγματος υπολογίστηκαν οι IRT παράμετροι με βάση τη μεθοδολογία που περιγράφεται παρακάτω (βλ. ενότητα 4.4.1). Στη συνέχεια η τιμή της χαρακτηριστικής εξίσωσης για κάθε διαγώνισμα υπολογίστηκε. Οι αντίστοιχες γραφικές παραστάσεις δίνονται στο σχήμα 16. Σχήμα 16: Χαρακτηριστικές Καμπύλες Διαγωνισμάτων δείγματος Παρατηρούμε ότι όλα τα διαγωνίσματα εμφανίζουν παρόμοια συμπεριφορά όσον αφορά την αντιστοίχιση των ικανοτήτων με τα πραγματικά σκορ των εξεταζόμενων όπως προκύπτει από την εφαρμογή μοντέλων δύο και τριών παραμέτρων ανάλογα με τον τύπο της κάθε επιμέρους δοκιμασίας. Σύμφωνα με τα μοντέλα που χρησιμοποιήθηκαν παρατηρούμε ότι αν ένας εξεταζόμενος έχει ικανότητα θ>0 τότε περνάει με άνεση τη βάση εξέτασης ενώ σε μια μικρή περιοχή ικανοτήτων (- 1<θ<0.5) οι εξεταζόμενοι έχουν διαφορετική πιθανότητα επιτυχίας ανάλογα με το η-διαγώνισμα στο οποίο εξετάστηκαν. Επιπλέον, τα ηδιαγωνίσματα παρέχουν μεγάλη πληροφορία για τις πολύ χαμηλές ικανότητες ενώ το μέγεθος της παρεχόμενης πληροφορίας διαρκώς πέφτει μέχρι τις ικανότητες που βρίσκονται περίπου στη μέση της κλίμακας ικανοτήτων. Μια και το σημείο ελέγχου (βάση εξέτασης) βρίσκεται ποιο κάτω από το μεσαίο επίπεδο ικανοτήτων μπορούμε να θεωρήσουμε ότι τα ηδιαγωνίσματα έχουν επαρκώς μεγάλη ακρίβεια στη μέτρηση των ζητούμενων ικανοτήτων. Είναι φανερό ότι για τους 101 P a g e

102 εξεταζόμενους που έχουν μεγάλες ικανότητες η εκτίμηση που παρέχουν τα ηδιαγωνίσματα για το πραγματικό σκορ των εξεταζόμενων δεν είναι ιδιαίτερα ακριβής. Για την καλύτερη κατάταξη των εξεταζόμενων απαιτείται η κατασκευή διαγωνισμάτων που θα μπορούσαν να δώσουν μεγαλύτερη πληροφορία στις υψηλότερες ικανότητες. Η μέση πληροφορία που παρέχουν τα ηδιαγωνίσματα παρουσιάζεται στο σχήμα 17. Σχήμα 17: Μέση πληροφορία των ηδιαγωνισμάτων του δείγματος Έκθεση των κόμβων εξεταζόμενης ύλης από τα ηδιαγωνίσματα Κάθε ηδιαγώνισμα αποτελείται από συγκεκριμένο αριθμό ερωτημάτων που αντιστοιχεί σε κάθε επιμέρους γνωστικό αντικείμενο όπως φαίνεται στο σχήμα 18. Εισαγωγικές έννοιες (MS Windows) 12 ερωτ. Επεξεργασία Κειμένου (MS Word) 14 ερωτ. Υπολογιστικά Φύλλα (MS Excel) 12 items Διαδίκτυο & 16 items Παρουσιάσεις (MS Powerpoint) 6 items Σχήμα 18: Η έκθεση των γνωστικών αντικειμένων σε κάθε ηδιαγώνισμα Ο πίνακας εξεταζόμενης ύλης όμως διαρθρώνεται σε τέσσερα συνολικά επίπεδα (Γνωστικά αντικείμενα, Ενότητες, Υποενότητες και Θέματα). Οι κόμβοι αυτοί δεν έχουν όλοι την ίδια βαρύτητα. Ανάλογα με το βάρος του κάθε κόμβου διαμορφώνεται και η πιθανότητα να επιλεγεί μια ερώτηση που 102 P a g e

103 ανήκει στον κόμβο αυτό για κάποιο ηδιαγώνισμα. Για κάθε κόμβο 2 ου (ενότητες), 3 ου (υποενότητες) και 4 ου (θέματα) επιπέδου υπολογίστηκε η μέση έκθεσή του σε κάθε διαγώνισμα που χρησιμοποιήθηκε μέσα στη χρονική περίοδο της έρευνας ( ) χωρίς να λαμβάνεται υπόψη το πλήθος των εξεταζόμενων που έχουν απαντήσει στο διαγώνισμα αυτό. Όσο μεγαλύτερη είναι η έκθεση ενός κόμβου τόσο μεγαλύτερη είναι η συνεισφορά του στο πλαίσιο της εξέτασης των εκπαιδευτικών στις βασικές ικανότητες. Αντίθετα οι κόμβοι με πολύ μικρή συμμετοχή εμφάνισης στα διαγωνίσματα δεν θεωρούνται μεγάλης βαρύτητας. Από το σύνολο των ηδιαγωνισμάτων του δείγματος η έκθεση που προέκυψε για τους κόμβους του πίνακα εξεταζόμενης ύλης ανεξάρτητα από το πόσοι εξεταζόμενοι «είδαν» ένα συγκεκριμένο ηδιαγώνισμα- εμφανίζεται στο σχήμα 19. Σχήμα 19: Θηκογράμματα της έκθεσης των κόμβων του πίνακα εξεταζόμενης ύλης Από την ενότητα που αφορά στην περιήγηση στον παγκόσμιο ιστό συμμετέχουν τα περισσότερα ερωτήματα κατά μέσο όρο ενώ αρκετά ερωτήματα αφορούν στο υλικό των υπολογιστών και στο περιβάλλον του επεξεργαστή κειμένου. Αντίθετα, πολύ μικρή συμμετοχή στα διαγωνίσματα εμφανίζουν οι ενότητες που αφορούν στη διαχείριση περιφερειακών συσκευών, σε θεμελιώδεις έννοιες πληροφορικής και στη γλώσσα περιγραφής ιστοσελίδων (Html). Αναλυτικά η έκθεση των ενοτήτων στα διάφορα διαγωνίσματα δίνεται στον πίνακα P a g e

104 Πίνακας 14: Εκτίμηση της μέσης έκθεσης των ενοτήτων στα ηδιαγωνίσματα μέση εμφάνιση στα διαγωνίσματα ΜΕΓΙΣΤΗ Γνωστικό Αντικείμενο 4 ο (Διαχείριση Πληροφοριών και Επικοινωνίες) 1ο (Εισαγωγικές Έννοιες) 2ο (Επεξεργασία Κειμένου) Ενότητα Περιήγηση στον Παγκόσμιο Ιστό Έκθεση κόμβου στα διαγωνίσματα μέση τιμή διακύμανση 12,56 1,60 Υλικό Υπολογιστών 7,63 1,10 Θεμελιώδεις Έννοιες & Περιβάλλον Επεξ. Κειμένου 6,23 2,82 ΕΛΑΧΙΣΤΗ 4ο (Διαχείριση Πληροφοριών και Επικοινωνίες) 1ο (Εισαγωγικές Έννοιες) Η γλώσσα των Ιστοσελίδων 0,012 0,023 Θεμελιώδεις έννοιες στην Πληροφορική 0,006 0,007 1ο Ρυθμίσεις Συστήματος Η/Υ και 0,002 0,002 (Εισαγωγικές Έννοιες) Διαχείριση Περ. Συσκευών Οι υποενότητες που φαίνεται να εμφανίζονται συχνότερα στα διαγωνίσματα (3 με 4 ερωτήματα σε κάθε διαγώνισμα) αφορούν στις συσκευές εισόδου-εξόδου, στο περιβάλλον του φυλλομετρητή και στη διαχείριση των αγαπημένων σελίδων. Από την άλλη, ελάχιστη εμφάνιση στα διαγωνίσματα έχουν υποενότητες που αφορούν στη διαχείριση των στυλ στον επεξεργαστή κειμένου, στη συμπίεση αρχείων και στη διαχείριση φύλλων εργασίας σε ένα υπολογιστικό βιβλίο εργασίας. Αναλυτικά η έκθεση των υποενοτήτων στα διάφορα διαγωνίσματα δίνεται στον πίνακα 15. Πίνακας 15: Εκτίμηση της έκθεσης των υποενοτήτων στα ηδιαγωνίσματα μέση εμφάνιση στα διαγωνίσματα ΜΕΓΙΣΤΗ ΕΛΑΧΙΣΤΗ Γνωστ. Αντικ. 4ο 1ο 2ο 3ο 1ο 2ο Ενότητα Περιήγηση στον Παγκόσμιο Ιστό Υλικό Υπολογιστών Περιήγηση στον Παγκόσμιο Ιστό Θεμελιώδεις έννοιες και περιβάλλον υπολ. φύλλου Διαχείριση Αρχείων Μορφοποίηση χαρακτήρων και παραγράφων υποενότητα Το περιβάλλον ενός Φυλλομετρητή Συσκευές Εισόδου - Εξόδου Έκθεση κόμβου σετα διαγωνίσματα μέση τιμή διακύμανση 4,05 1,346 3,957 1,11 Αγαπημένα 3,55 0,952 Διαχείριση φύλλων εργασίας Συμπίεση αρχείων 0,001 0, Στυλ P a g e

105 Παρατηρούμε ότι υπάρχουν θέματα που παρουσιάζουν μέση εμφάνιση στα διαγωνίσματα πάνω από δύο φορές. Με βάση τον τρόπο οργάνωσης της τράπεζας ερωτημάτων σε κάθε κόμβο 4 ου επιπέδου (θέματα) αντιστοιχεί τουλάχιστον μία οικογένεια ερωτημάτων. Δεν απαγορεύεται όμως να υπάρχουν και άλλες οικογένειες στο ίδιο ΘΕΜΑ. Στην περίπτωση αυτή οι οικογένειες έχουν διαφορετικό βαθμό δυσκολίας ή διαφορετικό τύπο (Ι, ΙΙ, ΙΙΙ) και μπορούν να επιλεγούν ταυτόχρονα από το γεννήτορα. Έτσι, τα θέματα που εμφανίζουν τη μεγαλύτερη συχνότητα εμφάνισης στα διαγωνίσματα αφορούν στις εργαλειοθήκες ενός φυλλομετρητή ( γραμμή διευθύνσεων, γραμμή κατάσταση κλπ), σε απλές λειτουργίες του πληκτρολογίου και στην αντιγραφή αντικειμένων μέσα σε μια εφαρμογή υπολογιστικών φύλλων. Από την άλλη, υπάρχουν θέματα που σχεδόν δεν εμφανίζονται καθόλου στα διαγωνίσματα όπως είναι η διαχείριση των στυλ σε ένα έγγραφο κειμένου, ερωτήματα σχετικά με το ΓΠΕ διαφόρων λειτουργικών συστημάτων, δυνατότητες άμεσης αποστολής ενός βιβλίου εργασίας, μεταβολή ύψους και πλάτους στηλών πίνακα μέσα σε ένα έγγραφο κειμένου κλπ. Αναλυτικά η έκθεση των θεμάτων στα διάφορα διαγωνίσματα δίνεται στον πίνακα 16. Πίνακας 16: Εκτίμηση της έκθεσης των θεμάτων στα ηδιαγωνίσματα μέση εμφάνιση στα διαγωνίσματα ΜΕΓΙΣΤΗ ΕΛΑΧΙΣΤΗ Γνωστ. Αντικ. 4ο 1ο 3ο 2ο 1ο Ενότητα/Υποενότητα Περιήγηση στον Παγκόσμιο Ιστό (το περιβάλλον ενός Φυλλομετρητή) Υλικό Υπολογιστών (Συσκευές Εισόδου Εξόδου) Επεξεργασία δεδομένων και αντικειμένων (Διαχείριση του πρόχειρου (clipboard)) Μορφοποίηση χαρακτήρων και παραγράφων (Στυλ) Λογισμικό Υπολογιστών (Γραφικό Περιβάλλον Επικοινωνίας) Θέμα Οι εργαλειοθήκες του φυλλομετρητή Το Πληκτρολόγιο και η λειτουργία του Αντιγραφή και μετακίνηση αντικειμένων Δημιουργία, τροποποίηση, διαγραφή και εφαρμογή στυλ. Λειτουργικά συστήματα που βασίζονται σε ΓΠΕ Έκθεση κόμβου στα διαγωνίσματα μέση τιμή διακύμανση 2,571 0,79 2,205 0,548 1,376 0,384 0, , , , P a g e

106 4.8 Άξονας ΕΡΩΤΗΜΑΤΑ Η μελέτη των δοκιμασιών στηρίχθηκε τόσο στην κλασσική θεωρία ανάλυσης (classical item analysis) με τον υπολογισμό μιας σειράς από στατιστικούς δείκτες για κάθε δοκιμασία (δείκτης διακριτικότητας, βαθμός δυσκολίας κλπ) ενώ μελετήθηκε η συμπεριφορά των οικογενειών που αποτελούν την τράπεζα δοκιμασιών με βάση τη θεωρία αποκρίσεων (Item Response Theory-IRT) Μεθοδολογία ανάλυσης ΕΡΩΤΗΜΑΤΩΝ Μια σειρά από στατιστικές παράμετροι για κάθε δοκιμασία υπολογίστηκαν δημιουργώντας το στατιστικό προφίλ της τράπεζας θεμάτων. Μελετήθηκε ο μέσος χρόνος απόκρισης των εκπαιδευτικών στις διάφορες δοκιμασίες σε σχέση με μια σειρά χαρακτηριστικών της κάθε δοκιμασίας (π.χ γνωστικό αντικείμενο, επίπεδο δυσκολίας, τύπος δοκιμασίας κλπ) και υπολογίστηκαν τα ποσοστά επιτυχίας της κάθε δοκιμασίας. Μελετήθηκε η συμπεριφορά όλων των οικογενειών που συμμετείχαν στις εξετάσεις πιστοποίησης ακολουθώντας τρεις φάσεις ανάλυσης: (α) Φάση Α, προετοιμασία και υπολογισμός όλων των IRT παραμέτρων για κάθε δοκιμασία (β) Φάση Β, αναζήτηση στατιστικών διαφορών ανάμεσα στην πρωτότυπη ερώτηση κάθε οικογένειας (father-πατέρας) και στους κλώνους (children-παιδιά) (γ) Φάση Γ, ανασκόπηση όλων των οικογενειών με έλεγχο των δοκιμασιών σε ζεύγη (πρωτότυπη-κλώνος) με σκοπό τη συσχέτιση της στατιστικής συμπεριφοράς των μελών μιας οικογένειας με τα διάφορα τμήματα που συνθέτουν μια δοκιμασία (εκφώνηση, δολώματα, κώδικας αξιολόγησης, αρχεία εργασίας κλπ). Το διάγραμμα ροής που περιγράφει τον τρόπο ανάλυσης των οικογενειών δίνεται στο σχήμα 20 ενώ δείγμα του κώδικα που χρησιμοποιήθηκε για τον υπολογισμό των IRT παραμέτρων δίνεται στο παράρτημα Η και Θ. 106 P a g e

107 Σχήμα 20: Αλγόριθ&m