International Conference of Greek Linguistics. the 10th. DEMOCRITUS UNIVERSITY of THRACE

DEMOCRITUS UNIVERSITY of THRACE the 10th International Conference of Greek Linguistics Edited by Zoe Gavriilidou Angeliki Efthymiou Evangelia Thomadaki Penelope Kambakis-Vougiouklis Komotini 2012

Οργανωτική Επιτροπή Συνεδρίου O r g a n i z i n g C o m m i t t e e Z o e G a v r i i l i d o u A n g e l i k i E f t h y m i o u E v a n g e l i a T h o m a d a k i Penelop e Kambakis -Vougiou klis Γραμματειακή Υποστήριξη S e c r e t a r i a l S u p p o r t Ioannis Anagnostopoulos M a r i a G e o r g a n t a P o l y x e n i I n t z e N i k o s M a t h i o u d a k i s L i d i j a M i t i t s E l e n i P a p a d o p o u l o u A n n a S a r a f i a n o u E l i n a C h a dji p a p a ISBN 978-960-99486-7-8 Τ υ π ο γ ρ α φ ι κ ή ε π ι μ έ λ ε ι α Ν ί κ ο ς Μ α θ ι ο υ δ ά κ η ς Ε λ έ ν η Π α π α δ ο π ο ύ λ ο υ Ε λ ί ν α Χ α τ ζ η π α π ά Σ χ ε δ ι α σ μ ό ς ε ξ ώ φ υ λ λ ο υ Ν ί κ ο ς Μ α θ ι ο υ δ ά κ ης Copyright 2012 Δ η μ ο κ ρ ί τ ε ι ο Π α ν ε π ι σ τ ή μ ι ο Θ ρ ά κ η ς D e m o c r i t u s U n i v e r s i t y o f T h r a c e Ε ρ γ α σ τ ή ρ ι ο Σ ύ ν τ α ξ η ς, Μ ο ρ φ ο λ ο γ ί α ς, Φ ω ν η τ ι κή ς, Σ η μ α σ ι ο λ ο γ ί α ς, L a b o ra to r y o f S y n ta x, M o r pho l o g y, P h o n e t i c s, S e m a n t i c s, Δ ι ε θ ν έ ς Σ υ ν έ δ ρ ι ο Ε λ λ η ν ι κ ή ς Γ λ ω σ σ ο λ ο γ ί α ς I n t er n a ti o n a l C o n fe r e n c e o f G r e e k L inguist ic s www.icgl.gr +Μ όρφωση Δ Π Θ +M orp ho SE D U T H

ΕΞΕΤΑΖΟΝΤΑΣ ΤΗ «ΔΙΚΑΙΟΤΗΤΑ» ΣΤΑ ΤΕΣΤ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ Άννα Μουτή Τμήμα Ιταλικής Γλώσσας και Φιλολογίας, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης mouti@frl.auth.gr Γεώργιος Υψηλάντης Τμήμα Ιταλικής Γλώσσας και Φιλολογίας, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης ypsi@itl.auth.gr Αντώνης Τσοπάνογλου Τμήμα Ιταλικής Γλώσσας και Φιλολογίας, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης tsop@itl.auth.gr ΠΕΡΙΛΗΨΗ This study investigates degrees of incorrectness in Multiple Choice items, and examines empirically a method for increasing fairness in the evaluation of incorrect responses given by test takers. The MC test used, consisted of questions extracted from a known computer adaptive test. The subjects completed the tests in conventional printed form and three scoring methods were applied. The proposed method of scoring examined empirically seems to increase precision of scoring and enhances sensitivity in the fairness of individualized computer adaptive testing and standards setting by professional examiners. Λέξεις κλειδιά: πολλαπλή επιλογή, «δικαιότητα», βαθμολόγηση, βαθμοί ορθότητας 1. Εισαγωγή Το σκεπτικό για την ενασχόληση με την παράμετρο της δικαιότητας 1 σε γλωσσικά τεστ, προέκυψε κυρίως από το γεγονός ότι ανάλογα τεστ χρησιμοποιούνται συχνά ως κύρια όργανα, βάσει των οποίων λαμβάνονται αρκετά σημαντικές αποφάσεις για τη ζωή των αξιολογούμενων, είτε εισαγωγής σε ιδρύματα, είτε εξαγωγής συμπερασμάτων για την απόκτηση πιστοποιητικού γλωσσικής επάρκειας. Βασικός στόχος της παρούσης έρευνας είναι η διερεύνηση της βαθμολόγησης των δοκιμασιών πολλαπλής επιλογής, που χρησιμοποιούνται σε ανάλογα τεστ, με κριτήριο την παράμετρο της δικαιότητας ως προς την βαθμολόγηση και τα τελικά συμπεράσματα που εξάγονται από αυτήν. Σε αυτές τις περιπτώσεις, ειδικά όταν ο αριθμός των συμμετεχόντων είναι μεγάλος, οι αξιολογητές οδηγούνται στην υιοθέτηση, καταρχήν, δοκιμασιών που επιτρέπουν τη σύντομη βαθμολόγηση και τη δυνατότητα διεξαγωγής της εξεταστικής διαδικασίας με τη χρήση ηλεκτρονικών υπολογιστών. Παραδείγματα εξετάσεων αυτού του είδους είναι το GMAT ή το TOEFL. Οι δοκιμασίες πολλαπλής επιλογής αποτελούν ίσως την πιο διαδεδομένη, την ιδανική λύση αρκετών αξιολογητών, όπου η βαθμολόγηση ακολουθεί συχνότερα το μοντέλο 0 1, όπου το μηδέν αφορά στην λανθασμένη απάντηση και η μονάδα χρησιμοποιείται για τη σωστή ή αναμενόμενη επιλογή. Ασφαλώς, υπάρχει και το μοντέλο +1-1, γνωστό ως αρνητική βαθμολόγηση, όπου για κάθε λανθασμένη απάντηση μειώνεται το τελικό αποτέλεσμα κατά μία μονάδα. Το πρόβλημα εντοπίζεται στο γεγονός ότι οι επιλογές που προτείνονται (εκτός από τη σωστή ή αναμενόμενη απάντηση) δεν είναι εξίσου λανθασμένες. Η πιθανή αιτία, για την οποία οι αξιολογητές καταφεύγουν σε αυτήν τη λύση, είναι ότι δεν κρίνεται επιθυμητό η σωστή απάντηση να ξεχωρίζει, να γίνεται ευδιάκριτη, έτσι ώστε να μην επιλέγεται από όλους τους εξεταζόμενους. Σε μία τέτοια 1 O όρος δικαιότητα, προτείνεται ως η ελληνική απόδοση του όρου fairness, όπως εντοπίστηκε - μαζί με τον όρο αμεροληψία - στο ελληνικό κείμενο των οδηγιών καλής πρακτικής της EALTA) http://www.ealta.eu.org/documents/archive/guidelines/powerpoint/greek.ppt In Z. Gavriilidou, A. Efthymiou, E. Thomadaki & P. Kambakis-Vougiouklis (eds), 2012, Selected papers of the 10th ICGL, pp. 965-972. Komotini/Greece: Democritus University of Thrace.

[ ΑΝΝΑ ΜΟΥΤΗ, ΓΕΩΡΓΙΟΣ ΥΨΗΛΑΝΤΗΣ & ΑΝΤΩΝΗΣ ΤΣΟΠΑΝΟΓΛΟΥ ] περίπτωση, κατά την οποία η σωστή απάντηση επιλέγεται από όλους τους εξεταζόμενους, το συγκεκριμένο ερώτημα δεν θα προσέφερε καμία πληροφορία που θα βοηθούσε στην διάκριση των αξιολογούμενων και κατά συνέπεια κάτι τέτοιο δεν θα βοηθούσε στην ουσιαστική αξιολόγηση των εξεταζόμενων, καθώς όλοι θα απαντούσαν σε όλα τα ερωτήματα. Το αντίθετο, δηλαδή κανείς να μην απαντάει σωστά σε καμία ερώτηση, δεν θα ήταν επίσης επιθυμητό. Συνήθως, στις δοκιμασίες πολλαπλής επιλογής ακολουθείται μια κλίμακα όπου η μία ή δύο από τις υπόλοιπες επιλογές είναι πολύ κοντά στη σωστή απάντηση, αλλά θεωρούνται λανθασμένες λόγω πολύ μικρών λεπτομερειών. Στην κλίμακα αυτή τα άκρα θα εκτείνονταν από το σχεδόν αποδεκτή έως το εντελώς λανθασμένη με δύο ενδιάμεσες στάσεις (σχετικά αποδεκτή και λανθασμένη), στην περίπτωση που οι επιλογές είναι πέντε (μία σωστή και τέσσερις λάθος). Εδώ ακριβώς εντοπίζεται και το ηθικό δίλημμα που δημιουργεί και τα βασικά ερωτήματα: α) οι εξεταζόμενοι που επιλέγουν μία σχεδόν αποδεκτή απάντηση δεν θα έπρεπε να ξεχωρίζουν από αυτούς που επιλέγουν την εντελώς λανθασμένη; β) δεν θα έπρεπε ως εκ τούτου να επιβραβεύονται για την επιλογή τους, καθώς δείχνουν να βρίσκονται σε υψηλότερο επίπεδο κατανόησης της γλώσσας από αυτούς που επιλέγουν την εντελώς λανθασμένη απάντηση; Βέβαια, από την άλλη πλευρά δεν θα ήταν επιθυμητό αλλά ούτε και σκόπιμο το αποτέλεσμα με διαφορετική βαθμολόγηση να αλλοίωνε σημαντικά την αξιοπιστία του ίδιου του τεστ. Όπως καταλαβαίνει κανείς η γραμμή στην οποία θα πρέπει να κινηθούν οι βαθμολογητές είναι πραγματικά λεπτή. Η παρούσα μελέτη αποτελεί μόνον ένα μέρος από μία γενικότερη πιλοτική μελέτη στο θέμα της δικαιότητας (δημοσιεύονται ακόμη δύο στην αγγλική). Παράλληλος στόχος είναι και η εξέταση της μεθόδου που χρησιμοποιήθηκε για το πείραμα, όπου δοκιμάζονται οι υποθέσεις (καταγράφονται στο τέλος αυτής της παραγράφου) αλλά και τα εργαλεία που χρησιμοποιήθηκαν για την συλλογή των δεδομένων. Παράλληλα, δοκιμάζονται τα στατιστικά τεστ που επιλέχθηκαν για την ανάλυση των δεδομένων (τυπική απόκλιση, συντελεστές συσχέτισης, τεστ συσχετισμένων / σχετικών τιμών) με κύρια επιδίωξη να διευκρινιστεί αν όντως αυτά είναι τα κατάλληλα για να απαντηθούν τα βασικά ερωτήματα που τίθενται παρακάτω και εάν όντως υπάρχει έρεισμα για μία μεγαλύτερη και συστηματικότερη έρευνα στο θέμα με την συμμετοχή περισσότερων υποκειμένων. Σε αυτήν την μελέτη τα αποτελέσματα εξετάζονται μόνον συνολικά και διερευνάται η μεταξύ τους σχέση. Όπως διαφαίνεται και από τον τίτλο, ο βασικός άξονας επάνω στον οποίο θα κινηθούμε στην παρούσα μελέτη είναι η δικαιότητα στην γλωσσική αξιολόγηση και ιδιαίτερα στις δοκιμασίες πολλαπλής επιλογής. Αυτό που δεν φαίνεται από τον τίτλο, αλλά αποτελεί τον τρόπο με τον οποίο θα διερευνήσουμε τον παράγοντα δικαιότητα, είναι η διαδικασία της βαθμολόγησης των δοκιμασιών με διαφορετικές μεθόδους. Όπως και σε κάθε εμπειρική έρευνα η ακολουθία σε αυτή την εργασία είναι η θεωρητική αρχικά προσέγγιση του όρου δικαιότητα και της βαθμολόγησης στις δοκιμασίες πολλαπλής επιλογής μέσα από την σχετική βιβλιογραφία (δευτερογενής έρευνα) και στην συνέχεια το εμπειρικό μέρος, με το πείραμα που σχεδιάστηκε και εφαρμόσθηκε για τον έλεγχο των αρχικών μας υποθέσεων. Ειδικότερα, υποθέτουμε ότι υπάρχει διαφορά στο τελικό αποτέλεσμα ενός τεστ που προκύπτει από τη διαφορετική βαθμολόγηση των δοκιμασιών πολλαπλής επιλογής και εξετάζουμε εάν η διαφορά που προκύπτει από την βαθμολόγηση είναι ικανή να αντιστρέψει το τελικό αποτέλεσμα και συνεπώς τα συμπεράσματα που εξάγονται από αυτό. 2. Γλωσσική Αξιολόγηση και Δικαιότητα Η δικαιότητα μπορεί να σχετίζεται με τέσσερις μεταβλητές που ενυπάρχουν σε κάθε μορφή αξιολόγησης: α) την εξεταστική διαδικασία, β) τους υποψηφίους, γ) τα γλωσσικά τεστ και δ) τη βαθμολόγηση. Παρακάτω θα συζητηθεί η έννοια της δικαιότητας σε κάθε τομέα ξεχωριστά, αν και όπως θα γίνει φανερό κατά τη συζήτηση οι τομείς αυτοί αλληλοεπηρεάζονται: α) Εξεταστική διαδικασία. Τα χαρακτηριστικά της εξεταστικής διαδικασίας περιλαμβάνουν τα χαρακτηριστικά του περιβάλλοντος της εξεταστικής διαδικασίας (χώρος και εξοπλισμός, προσωπικό, χρόνος και φυσικές συνθήκες), τα χαρακτηριστικά των κανόνων/του τελετουργικού της εξεταστικής διαδικασίας (προδιαγραφές, κατανομή του χρόνου, βαθμολόγηση, ορθότητα και σαφήνεια των διαδικασιών και των οδηγιών), τα χαρακτηριστικά του υλικού της εξεταστικής διαδικασίας (μορφή του τεστ, ταχύτητα και ποσότητα υλικού, οργανωτικά χαρακτηριστικά, πραγματολογικά χαρακτηριστικά αλλά και κοινωνιογλωσσολογικά χαρακτηριστικά), τα χαρακτηριστικά της αναμενόμενης απάντησης (τους περιορισμούς στην απάντηση και τη σχέση ανάμεσα στο υλικό και την απάντηση) 2. Με βάση το πλαίσιο των παραπάνω χαρακτηριστικών, καταγράφονται στη διεθνή βιβλιογραφία και τα παρακάτω κριτήρια αξιολόγησης που οφείλει να πληροί η εξεταστική διαδικασία σε κάθε γλωσσικό τεστ όπου 2 Βλ. Bachman, 1990:119. [ 966 ]

[ ΕΞΕΤΑΖΟΝΤΑΣ ΤΗ «ΔΙΚΑΙΟΤΗΤΑ» ΣΤΑ ΤΕΣΤ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ ] εμφανίζεται και η έννοια της δικαιότητας: αξιοπιστία, εγκυρότητα, πρακτικότητα (test practicality), αυθεντικότητα, διαφάνεια, ανάδραση, σταθερότητα/ελαστικότητα, διαδραστικότητα, δικαιότητα/αμεροληψία (fairness). Ως συμπέρασμα θα μπορούσαμε να καταγράψουμε ότι στον τομέα της εξεταστικής διαδικασίας η δικαιότητα φαίνεται να σχετίζεται με τις εν γένει συνθήκες οι οποίες θα πρέπει να υποβοηθούν τον εξεταζόμενο να αποδώσει σύμφωνα με τις δυνατότητές του. β) Οι υποψήφιοι. Σύμφωνα με τον Bachman (1990), υπάρχουν τέσσερις (4) κατηγορίες επιρροής που αφορούν στην επίδοση σε ένα γλωσσικό τεστ και αυτές είναι: η επικοινωνιακή γλωσσική ικανότητα, τα χαρακτηριστικά του τεστ, τα χαρακτηριστικά των υποψηφίων και τυχαίοι παράγοντες. Αν εξαιρέσουμε την επικοινωνιακή γλωσσική ικανότητα, καθώς αποτελεί το χαρακτηριστικό που επιθυμούμε να αξιολογήσουμε, αλλά και τους τυχαίους παράγοντες που θα μπορούσαν ως ένα ποσοστό να εξουδετερωθούν, απομένουν τα χαρακτηριστικά του τεστ και τα χαρακτηριστικά των υποψηφίων. Καθώς για τα χαρακτηριστικά του τεστ θα μιλήσουμε παρακάτω, εδώ θα επικεντρωθούμε στα χαρακτηριστικά των υποψηφίων. Οι υποψήφιοι έρχονται στο σκηνικό της εξεταστικής διαδικασίας φέροντας μαζί τους συγκεκριμένα προσωπικά χαρακτηριστικά, τα οποία μπορεί να επηρεάσουν την επίδοσή τους στο γλωσσικό τεστ, αν και θεωρείται σήμερα ως απολύτως απαραίτητο για τον υπολογισμό της επίδοσης της γλωσσικής ικανότητας του υποψηφίου να μην παρεμβαίνουν άλλοι παράγοντες που μπορεί να επηρεάσουν το αποτέλεσμα. Αυτά τα χαρακτηριστικά μπορεί να αποδειχτούν σημαντικές ρυθμιστικές μεταβλητές της επίδοσης στο γλωσσικό τεστ. Ο Weir (2005: 48), αναφερόμενος ειδικά σε αυτό το θέμα, υποστηρίζει ότι οι κατασκευαστές, αλλά και οι χρήστες των τεστ, πρέπει να εξετάσουν το εξής ερώτημα: πώς αντιμετωπίζονται από τα τεστ τα φυσικά/φυσιολογικά, ψυχολογικά και εμπειρικά χαρακτηριστικά των υποψηφίων; Από το ερώτημα αυτό φαίνεται να προκύπτει και το επόμενο που σχετίζεται με τη δικαιότητα και ο ίδιος συγγραφέας διατυπώνει: τα χαρακτηριστικά των δραστηριοτήτων του τεστ καθώς και η όλη διεξαγωγή του είναι δίκαια για τους υποψηφίους; Η σημασία που δίνεται εδώ στην έννοια της δικαιότητας αφορά στη διασφάλιση της εγκυρότητας του αποτελέσματος σε σχέση με τα χαρακτηριστικά των υποψηφίων και την εξεταστική διαδικασία αλλά και στα χαρακτηριστικά του εργαλείου εξέτασης, του τεστ. Την επίδραση της μεθόδου που επιλέγεται για την εξεταστική διαδικασία στα χαρακτηριστικά των υποψηφίων τονίζει και ο Bachman (1990:156), καταλήγοντας ότι πρόκειται για μεταβλητή που μπορεί να επηρεάσει ευνοϊκά ή δυσμενώς την επίδοση των υποψηφίων στο γλωσσικό τεστ. Τέλος, γίνεται κατανοητό ότι εφόσον άλλοι παράγοντες παρεμβαίνουν στον υπολογισμό της επίδοσης το αποτέλεσμα μπορεί να θεωρηθεί ως μη έγκυρο. γ) Τα γλωσσικά τεστ. Τα ίδια τα τεστ παρουσιάζουν κάποια συγκεκριμένα χαρακτηριστικά, στα οποία μπορεί να οφείλεται και ένα σημαντικό μέρος της διακύμανσης (test-score variation) στην επίδοση. Οι Bachman & Palmer (1996:66) τονίζουν ότι τα τεστ πρέπει να σχεδιάζονται με τέτοιο τρόπο, ώστε να αντλούν την καλύτερη επίδοση/απόδοση των εξεταζομένων. Ο Κώδικας για Δίκαιες Εφαρμογές της Αξιολόγησης στην Εκπαίδευση (2004:2) της Επιτροπής Εφαρμογών Αξιολόγησης αναφέρει ότι τα τεστ πρέπει να είναι δίκαια απέναντι στους υποψηφίους ανεξάρτητα από ηλικία, φύλο, αναπηρία, καταγωγή, εθνικότητα, θρησκεία, σεξουαλικές προτιμήσεις, γλωσσικό υπόβαθρο και άλλα προσωπικά χαρακτηριστικά. Όταν αναφερόμαστε στη δικαιότητα σε ότι αφορά στο τεστ, οι πρώτες σκέψεις που έρχονται στο μυαλό είναι σχετικές με την αμεροληψία, την καταγωγή, τις ειδικές ανάγκες, το φύλο και την εθνικότητα. Ο Kunnan (2000) εντοπίζει τρεις βασικές περιοχές που εμπλέκονται στο θέμα της δικαιότητας και αφορούν στο τεστ. Αυτές είναι, η εγκυρότητα (κυρίως η εγκυρότητα δομής), η προσβασιμότητα και η επίδραση/ο αντίκτυπος. Παράλληλα, ο Κώδικας για Δίκαιες Εφαρμογές της Αξιολόγησης στην Εκπαίδευση του 1998 προτρέπει τους ερευνητές και τους σχεδιαστές γλωσσικών τεστ να επιβεβαιώσουν και ερευνητικά ότι οι διακυμάνσεις στη γλωσσική επίδοση σε ένα τεστ οφείλονται σε διαφοροποιήσεις στο βαθμό γνώσης της γλώσσας και όχι σε άλλους παράγοντες. δ) Βαθμολόγηση. Η μέτρηση της επικοινωνιακής γλωσσικής ικανότητας θα πρέπει να είναι όσο το δυνατό πιο ακριβής και δίκαιη και υπό αυτήν την έννοια, ο δημιουργός ενός τεστ έχει την υποχρέωση να κάνει τα πάντα για να πετύχει τα υψηλότερα ποσοστά δικαιότητας, έτσι ώστε να μην υπάρχουν υποψήφιοι που θα μειονεκτούν ή θα πλεονεκτούν έναντι των άλλων. Αυτό ακριβώς το θέμα θα μας απασχολήσει περισσότερο στο αμέσως επόμενο κεφάλαιο. Παρά το σημαντικό ενδιαφέρον που έχει για τους ερευνητές το θέμα της δικαιότητας στα γλωσσικά τεστ, δεν υπάρχει κάποιος στατιστικός τρόπος ή δείκτης που μπορεί να χρησιμοποιηθεί για να αποδείξει ότι τα ερωτήματα ενός τεστ αλλά και ολόκληρο το τεστ είναι δίκαια. Ο μόνος στατιστικός έλεγχος της δικαιότητας θα ήταν μέσα από τον έλεγχο του bias - DIF (Differential Item Functioning) σύμφωνα με συγκεκριμένες μεταβλητές, έτσι ώστε να διασφαλιστεί ότι το τεστ είναι δίκαιο ως προς κάποιες μεταβλητές κάθε φορά. Όπως προέκυψε από την σχετική βιβλιογραφική ανασκόπηση, και πιο [ 967 ]

[ ΑΝΝΑ ΜΟΥΤΗ, ΓΕΩΡΓΙΟΣ ΥΨΗΛΑΝΤΗΣ & ΑΝΤΩΝΗΣ ΤΣΟΠΑΝΟΓΛΟΥ ] συγκεκριμένα από την αναφορά του Zieky (2002:2) 3, η δικαιότητα ενός τεστ εκφράζεται με διαφορετικούς τρόπους μέσα από την κατασκευή, διεξαγωγή και βαθμολόγηση ενός τεστ. Στα πλαίσια της παρούσας μελέτης θα εξετάσουμε τη δικαιότητα μέσα από το πρίσμα της βαθμολόγησης του τεστ και όχι μέσα από την κατασκευή και τη διεξαγωγή του, και πιο συγκεκριμένα μέσα από τη διαδικασία βαθμολόγησης ερωτημάτων πολλαπλής επιλογής. 3. Τεστ Πολλαπλής Επιλογής και Βαθμολόγηση Τα εργαλεία που χρησιμοποιούνται στην γλωσσική αξιολόγηση ονομάζονται τεστ. Οι Caroll (1968) και Bachman (2004) ορίζουν το τεστ ως το εργαλείο που στοχεύει στην πρόκληση μιας συγκεκριμένης συμπεριφοράς βάσει της οποίας αξιολογούνται οι ενδιαφερόμενοι. Ένα γλωσσικό τεστ συνήθως περιέχει ένα σύνολο δοκιμασιών που κάποιος ετοίμασε είτε για να καταγράψει/μετρήσει τη γλωσσομάθεια κάποιου άλλου, είτε για να διαγνώσει/ελέγξει το βαθμό επίτευξης συγκεκριμένων στόχων ενός εκπαιδευτικού προγράμματος ενώ ο όρος δοκιμασία χρησιμοποιείται για να περιγράψει το υποσύνολο των θεμάτων εξέτασης ή γλωσσικού τεστ και αποτελείται από ένα ή περισσότερα ερωτήματα ή ζητούμενα (items) (Τσοπάνογλου & Υψηλάντης 2011:9-10). Στον Τσοπάνογλου (2010:95) παρουσιάζονται σε πίνακα οι συνηθέστεροι τύποι δοκιμασιών σε γλωσσικά τεστ που ο συγγραφέας διαχωρίζει σε δύο κατηγορίες: α) συγκλίνουσας παραγωγής λόγου όπου όλοι οι εξεταζόμενοι απαντούν με τον ίδιο ακριβώς (αναμενόμενο) τρόπο και β) αποκλίνουσας παραγωγής λόγου όπου μπορεί να υπάρξει διαφοροποίηση ως προς την απάντηση. Σωστό/ λάθος ΣΥΓΚΛΙΝΟΥΣΑ ΠΑΡΑΓΩΓΗ ΛΟΓΟΥ ΑΠΟΚΛΙΝΟΥΣΑ ΠΑΡΑΓΩΓΗ ΛΟΓΟΥ Επιλογή Συμπλήρωση Πολλαπλή επιλογή Αντιστοίχηση Εύρεση σειράς Μεταμόρφωση Συμπλήρωση Σύντομη απάντηση Cloze-test Σταυρόλεξο Μετακωδικοποίηση 4 Εκτενής/Ελεύθερη απάντηση Προσομοίωση Παιχνίδι Ρόλου Πίνακας 1 Τύποι Δοκιμασιών Γλωσσικών Τεστ από τον Τσοπάνογλου (2010:95) Οι δοκιμασίες πολλαπλής επιλογής ανήκουν στις δοκιμασίες συγκλίνουσας παραγωγής λόγου και αποτελούνται από δύο μέρη. Το πρώτο αφορά στο ερώτημα-στέλεχος (stem) και το δεύτερο στις επιλογές, ανάμεσα στις οποίες υπάρχει η σωστή ή αναμενόμενη απάντηση και οι λανθασμένες απαντήσεις που ονομάζονται παραπλανητές (distracters ή distractors), καθώς έχουν ως στόχο να παραπλανήσουν τον εξεταζόμενο. Το ερώτημα-στέλεχος μπορεί να παρουσιάζεται με τη μορφή ερωτήματος ή μιας ελλιπούς πρότασης. Οι Bachman και Palmer (1996:202) διαχώρισαν δύο τύπους αποδεκτών απαντήσεων, την καλύτερη (δυνατή) απάντηση (best answer) και τη σωστή απάντηση (correct answer), υπονοώντας στη δεύτερη περίπτωση ότι αυτή είναι η μοναδική σωστή απάντηση και 3 The best way to ensure test fairness is to build fairness into the development, administration, and scoring processes Zieky (2002: 2). 4 Ο Τσοπάνογλου (2010:92) αναφέρει ότι οι δοκιμασίες της μετακωδικοποίησης θα μπορούσαν να περιλαμβάνουν και δοκιμασίες «διαμεσολάβησης». Ο ίδιος αναφέρει ότι η μετακωδικοποίηση βρίσκεται στα όρια μεταξύ δοκιμασιών συγκλίνουσας και αποκλίνουσας παραγωγής λόγου. [ 968 ]

[ ΕΞΕΤΑΖΟΝΤΑΣ ΤΗ «ΔΙΚΑΙΟΤΗΤΑ» ΣΤΑ ΤΕΣΤ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ ] όχι αυτή που ταιριάζει καλύτερα από αυτές που προσφέρονται. Το συγκεκριμένο είδος δοκιμασίας παρουσιάζει πολλά πλεονεκτήματα καθώς θεωρείται πολύ αξιόπιστο 5, πρακτικό και οικονομικό (παρέχει εύκολη και γρήγορη διόρθωση) με την προϋπόθεση ότι τα ερωτήματα είναι σωστά. Καθώς τα ερωτήματα της πολλαπλής επιλογής στη συντριπτική τους πλειοψηφία βαθμολογούνται ως σωστάλάθος (dichotomous scoring), θα έπρεπε και γλωσσικά να είναι ξεκάθαρο από άποψη περιεχομένου ότι μόνο μια απάντηση είναι σωστή και οι υπόλοιπες το ίδιο λάθος. Για λόγους, όμως, που συζητήθηκαν στην εισαγωγή του άρθρου, αυτό δεν συμβαίνει πάντα, όπως επιβεβαιώθηκε και στο άρθρο των Tsopanoglou, Ypsilandis & Mouti (submitted1). Στο συγκεκριμένο άρθρο οι συγγραφείς εντόπισαν, σε ένα σύνολο 80 ερωτημάτων πολλαπλής επιλογής, που εξήχθησαν από ηλεκτρονικό προσαρμοστικό τεστ γνωστού εκδοτικού οίκου, 25 ερωτήματα για τα οποία θα μπορούσε να υπάρξει μία εναλλακτική περισσότερο ακριβής λύση με μερική βαθμολόγηση. Στη σχετική βιβλιογραφία προτείνεται αυτή η μερική βαθμολόγηση (partial credit scoring) για τις δοκιμασίες πολλαπλής επιλογής που απαιτούν την καλύτερη απάντηση (best answer), όπως πραγματοποιείται και στις δοκιμασίες ανοιχτού τύπου. Ένα θέμα που συζητήθηκε εκτενώς και αφορά στις δοκιμασίες πολλαπλής επιλογής είναι η πιθανότητα του εύστοχου εντοπισμού (αναφέρεται ως παράγοντας «τύχη») της σωστής απάντησης από μέρους των εξεταζόμενων κατά τη συμπλήρωση του τεστ. Καθότι η συγκεκριμένη διαδικασία δεν θεωρείται επιθυμητή, έχουν διατυπωθεί διαφορετικοί τρόποι για την αντιμετώπιση της με στόχο να την εξαλείψουν. Ιδιαίτερα: α) οι Alderson, Clapham and Wall (1995:48) προτείνουν τη χρήση περισσότερων επιλογών (τουλάχιστον τεσσάρων), καθώς η ύπαρξη περισσοτέρων επιλογών μπορεί να ελαχιστοποιήσει το φαινόμενο. β) Οι ίδιοι συγγραφείς προτείνουν την αρνητική βαθμολόγηση (+1-1), η οποία ποινικοποιεί το λάθος και αφαιρεί βαθμούς στην περίπτωση επιλογής των λανθασμένων απαντήσεων. γ) Ο Τσοπάνογλου (2010) προτείνει τη χρήση της στατιστικής. Στον αντίποδα οι Bachman και Palmer (1996:205) ξεχωρίζουν δύο είδη τυχαίου εντοπισμού: την τυφλή επιλογή, η οποία βασίζεται αποκλειστικά στον παράγοντα «τύχη» και δεν είναι επιθυμητή και ένα δεύτερο είδος το οποίο βασίζεται σε μερική γνώση του αντικειμένου και στη χρήση μεταγνωστικών στρατηγικών. Ο όρος που χρησιμοποιείται εδώ, είναι συμπερασματική στρατηγική (inferencing), η οποία χαρακτηρίζεται ως ιδιαίτερα χρήσιμη στην γλωσσική παιδεία (καθώς είναι σχεδόν αδύνατη η 100% κατάκτηση της ξένης γλώσσας). Επιπλέον, η επιτυχής ανεύρεση μίας απάντησης δείχνει ένα υψηλό βαθμό γλωσσικής επίγνωσης και οι εν λόγω συγγραφείς θεωρούν ότι οι εξεταζόμενοι ενός γλωσσικού τεστ θα πρέπει να ανταμείβονται για αυτό, μέσω της μερικής απόδοσης βαθμολογίας έτσι ώστε να ενθαρρύνονται να επιστρατεύουν τη συγκεκριμένη στρατηγική. Οι Tsopanoglou, Ypsilandis και Mouti (submitted1) προχωρώντας ένα βήμα παραπάνω καταλήγουν ότι η εντελώς τυχαία ανεύρεση είναι στην πραγματικότητα σχεδόν ανύπαρκτη καθώς όλοι οι υποψήφιοι διαβάζουν τουλάχιστον το ερώτημα και τις επιλογές και υποσυνείδητα ενεργοποιείται η γλωσσική τους επίγνωση (γνώση που διαθέτουν για την γλώσσα στόχο). Η απόδοση μερικής βαθμολογίας, σύμφωνα με τους βαθμούς ορθότητας, μπορεί να αποτελέσει έναν τρόπο αξιοποίησης του «θετικού και εποικοδομητικού» εύστοχου εντοπισμού και της μεγαλύτερης εμπλοκής των αξιολογούμενων στην διαδικασία αξιολόγησης. Αυτή η διαδικασία είναι ήδη αποδεκτή και χρησιμοποιείται στις δοκιμασίες ανοιχτού τύπου ή σε δοκιμασίες συμπλήρωσης και προτείνουμε να εφαρμοστεί και στα ερωτήματα πολλαπλής επιλογής (εδώ εξετάζεται εμπειρικά). 4. Μέθοδος Σχεδιασμός και διαδικασία: Για να ελεγχθούν οι υποθέσεις που κατεγράφησαν στο εισαγωγικό κεφάλαιο, αρχικά δημιουργήθηκε ένα τεστ με ερωτήματα πολλαπλής επιλογής, σε συμβατική έντυπη μορφή. Τα ερωτήματα εξήχθησαν από ένα ηλεκτρονικό προσαρμοστικό τεστ γνωστού εκδοτικού οίκου. Αρχικά τα ερωτήματα ταξινομήθηκαν από έναν κριτή σύμφωνα με τους βαθμούς ορθότητας των επιλογών σε μία σκάλα Likert με άκρα τη σωστή απάντηση από την μία μεριά και την εντελώς απαράδεκτη από την άλλη και ενδιάμεσες στάσεις, από αριστερά προς τα δεξιά τις: πολύ πιθανή, πιθανή και λανθασμένη. Στην συνέχεια το τεστ δόθηκε για συμπλήρωση στα υποκείμενα που έλαβαν μέρος σε αυτή την μελέτη και το τεστ βαθμολογήθηκε με τρεις διαφορετικές μεθόδους, την παραδοσιακή διχοτομική βαθμολόγηση (σωστό 1 λάθος 0), την πειραματική πολυτομική βαθμολόγηση (σωστό 2, πολύ πιθανό 1, πιθανό 0,5, λανθασμένο 0), και την αρνητική πολυτομική βαθμολόγηση (σωστό 2, πιθανό 1, λανθασμένο 0 και εντελώς λανθασμένο -1). Τα αποτελέσματα καταγράφηκαν και μελετήθηκαν στατιστικά. Για λόγους οικονομίας θα αναφερόμαστε σε αυτές ως παραδοσιακή, πειραματική και αρνητική αντίστοιχα. 5 Στην παρούσα έρευνα έμμεσα τίθεται σε αμφισβήτηση η αξιοπιστία των αποτελεσμάτων της δοκιμασίας. [ 969 ]

[ ΑΝΝΑ ΜΟΥΤΗ, ΓΕΩΡΓΙΟΣ ΥΨΗΛΑΝΤΗΣ & ΑΝΤΩΝΗΣ ΤΣΟΠΑΝΟΓΛΟΥ ] Υποκείμενα: Ως υποκείμενα της έρευνας χρησιμοποιήθηκαν 18 φοιτητές τριτοβάθμιας εκπαίδευσης που παρακολουθούσαν το ίδιο πρόγραμμα σπουδών. Η ηλικία τους κυμαίνονταν από 19 έως 21 έτη. Εργαλεία: Το εργαλείο που χρησιμοποιήθηκε για την έρευνα ήταν ένα τεστ με 80 ερωτήματα πολλαπλής επιλογής από ένα δείγμα εξετάσεων TOEFL CAT γνωστού εκδοτικού οίκου. Τα ερωτήματα προέκυψαν και κατεγράφησαν μετά από πολλαπλή και με διαφορετικούς τρόπους χρήση τους τεστ από τους ερευνητές. Το στατιστικό πρόγραμμα που χρησιμοποιήθηκε για την ανάλυση ήταν το SPSS, έκδοση 18. 5. Αποτελέσματα Σε προηγούμενα άρθρα τους, οι Tsopanoglou, Ypsilandis και Mouti (submitted1+2) επιβεβαίωσαν την ύπαρξη διχοτομικών και πολυτομικών ερωτημάτων στο τεστ που χρησιμοποιήθηκε και σε αυτή τη μελέτη ως το εργαλείο συλλογής των δεδομένων μέσω της κρίσης φυσικού ομιλητή, έμπειρου εξεταστή του Cambridge Proficiency. Στα συγκεκριμένα άρθρα ολοκληρώθηκε τόσο η περιγραφική στατιστική που αφορούσε στο σύνολο των ερωτημάτων και των απαντήσεων όσο και στις απαντήσεις που δόθηκαν από κάθε υποκείμενο ξεχωριστά. Σε αυτό το άρθρο, θα συζητηθούν μόνο τα αποτελέσματα όπως αυτά προέκυψαν από τους τρεις τρόπους βαθμολόγησης συνολικά καθώς και οι σχέσεις των τελικών αποτελεσμάτων μεταξύ τους. Mean N SD Παραδοσιακή 61,111 18 16,799 Πειραματική 64,444 18 15,523 Αρνητική 47,444 18 22,786 Πίνακας 2 Αποτελέσματα Τριών Μεθόδων Βαθμολόγησης Όπως καταγράφεται και στον πίνακα 2, οι μέσοι όροι της παραδοσιακής και της πειραματικής βαθμολόγησης είναι υψηλότεροι από αυτόν της αρνητικής. Αυτό δείχνει ότι με την αρνητική βαθμολόγηση τα υποκείμενα αμείβονται με μικρότερη βαθμολογία. Παράλληλα, γίνεται από εδώ ήδη φανερό ότι οι δύο πρώτες βαθμολογήσεις (παραδοσιακή και πειραματική) δεν διαφέρουν μεταξύ τους (61,111 και 64,444) ενώ η διαφορά αυξάνει κατά την τρίτη αρνητική βαθμολόγηση (47,44). Η τυπική απόκλιση (SD) είναι ένα μέτρο διασποράς (οι στατιστικολόγοι τη θεωρούν το σπουδαιότερο μέτρο διασποράς), μία τιμή που δείχνει πόσο κατά μέσο όρο διαφέρουν (πόσο πολύ απομακρύνονται) οι τιμές μιας μεταβλητής από τον μέσο όρο τους. Όσο μικρότερη είναι η τιμή, τόσο μικρότερη είναι η απόκλιση από τον μέσο όρο. Στις πρώτες δύο βαθμολογήσεις, οι τιμές της τυπικής απόκλισης βρίσκονται κατά μέσο όρο στο 16,7 και 15,5 αντίστοιχα, τιμές που είναι σχετικά μικρές, ενώ στην αρνητική βαθμολόγηση, η τιμή της τυπικής απόκλισης φτάνει κατά μέσο όρο το 22,7 που αν και δεν είναι μια ιδιαίτερα μεγάλη τιμή, είναι σαφώς μεγαλύτερη από τις δύο προηγούμενες. Αυτό δείχνει ότι οι βαθμολογήσεις των υποκειμένων με τις δύο πρώτες μεθόδους δεν παρουσιάζουν μεγάλη διασπορά από τον μέσο όρο. Επίσης, υπολογίστηκαν οι συντελεστές συσχέτισης (Pearson r) μεταξύ των τριών μεθόδων βαθμολόγησης. Ο συντελεστής συσχέτισης είναι ένα αριθμητικό μέτρο μεταξύ δύο συνόλων τιμών. Σε μέγεθος μπορεί να κυμανθεί από +1 έως -1. Pearson r, Correlation Παραδοσιακή Πειραματική Παραδοσιακή Πειραματική,993(,000) Αρνητική,978(,000),985(,000) Πίνακας 3 Συσχετισμοί Τριών Μεθόδων Βαθμολόγησης Όπως φαίνεται και στον παραπάνω πίνακα, σε όλες τις περιπτώσεις έχουμε μια σχεδόν απόλυτη θετική συσχέτιση πολύ κοντά στο +1 ανάμεσα στις μεθόδους βαθμολόγησης, δηλαδή, οι τιμές μίας μεταβλητής αυξάνονται όταν αυξάνονται και οι τιμές της άλλης. Αυτό το γεγονός δείχνει ότι στην αξιολόγηση βάσει νόρμας δεν θα είχαμε κάποια σημαντική διαφοροποίηση στα αποτελέσματα καθώς ο αξιολογούμενος που πήρε υψηλή βαθμολογία με τον ένα τρόπο βαθμολόγησης παίρνει υψηλή βαθμολογία και με τον άλλο. [ 970 ]

[ ΕΞΕΤΑΖΟΝΤΑΣ ΤΗ «ΔΙΚΑΙΟΤΗΤΑ» ΣΤΑ ΤΕΣΤ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ ] Παρακάτω, πραγματοποιήθηκαν συγκρίσεις δύο δειγμάτων συσχετισμένων/σχετικών τιμών (paired sample t-test). T-test, paired differences Παραδοσιακή Παραδοσιακή Πειραματική Mean= 3,333 t=6,288 DF=17 Sig.=,000 Αρνητική Mean= 13,666 t= 8,005 DF=17 Sig.=,000 Πειραματική Mean= 17,000 t=9,041 DF=17 Sig.=,000 Πίνακας 4 T-test Τριών Μεθόδων Βαθμολόγησης Ο έλεγχος αυτός (t-test) χρησιμοποιείται για την εκτίμηση της στατιστικής σημαντικότητας της διαφοράς των μέσων όρων δύο συνόλων τιμών. Με απλά λόγια μας δίνει πληροφόρηση για το αν ο μέσος όρος ενός συνόλου τιμών διαφέρει από τον μέσο όρο ενός άλλου συνόλου. Συνήθως η μηδενική υπόθεση δεν προβλέπει διαφορά μεταξύ των μέσων όρων των δειγμάτων συνεπώς με αυτό το τεστ μπορούμε να εξετάσουμε ακριβώς αυτή τη διαφορά. Όπως όμως διαφαίνεται και από τα αποτελέσματα του t-test, στην δική μας περίπτωση, ο μέσος αριθμός ανάμεσα στην παραδοσιακή και στην πειραματική βαθμολόγηση διαφέρει σημαντικά (t= 6,2, DF 6 = 17, p<0.001) όπως επίσης στατιστικά σημαντική είναι και η διαφορά για τις επόμενες δύο δυάδες, την παραδοσιακή και την αρνητική (t= 8, DF = 17, p<0.001) αλλά και στην δυάδα της πειραματικής με την αρνητική (t= 9, DF = 17, p<0.001). Στην αξιολόγηση βάσει κριτηρίου αυτό θα δημιουργούσε πρόβλημα καθώς παρατηρούμε από τα t-test, ότι έχουμε στατιστικά σημαντικές διαφοροποιήσεις που μπορεί να έπαιζαν καταλυτικό ρόλο στην περίπτωση που η απόφαση που θα έπρεπε να ληφθεί ήταν σημαντική, όπως η χορήγηση ενός πιστοποιητικού γλωσσομάθειας ή η χορήγηση μιας άδειας διαμονής. Στο παρακάτω πολύγωνο συχνοτήτων, γίνεται εμφανής η παραπάνω παρατήρηση που οδηγεί στα ίδια αποτελέσματα και με τις τρεις βαθμολογήσεις, αναφορικά με τη συγκρισιμότητα των επιδόσεων των υποψηφίων. Από το ίδιο πολύγωνο συχνοτήτων φαίνεται και η μεγάλη διαφοροποίηση ανάμεσα στην αρνητική βαθμολογία και τις άλλες δύο μεθόδους. Αντίθετα, ανάμεσα στον παραδοσιακό και τον πειραματικό τρόπο βαθμολόγησης οι διαφοροποιήσεις είναι μικρότερες ενώ σε κάποιες περιπτώσεις ταυτίζονται. 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12 S13 S14 S15 S16 S17 S18 Traditional Experimental Negative Γράφημα 1 Πολύγωνο Συχνοτήτων Τριών Τρόπων Βαθμολόγησης 6 DF είναι οι βαθμοί ελευθερίας (Degrees of Freedom) που αφορά στον αριθμό των υποκειμένων μείον 1. [ 971 ]

[ ΑΝΝΑ ΜΟΥΤΗ, ΓΕΩΡΓΙΟΣ ΥΨΗΛΑΝΤΗΣ & ΑΝΤΩΝΗΣ ΤΣΟΠΑΝΟΓΛΟΥ ] 6. Συμπεράσματα Ως προς την κύρια υπόθεση που διερευνήθηκε, θα μπορούσαμε να καταλήξουμε ότι η ανάλυση των δεδομένων δεν φαίνεται να την υποστηρίζει, καθώς και οι τρεις μέθοδοι βαθμολόγησης δεν αλλάζουν σημαντικά την σειρά των υποκειμένων με βάση τα αποτελέσματα αλλά ούτε αντιστρέφεται σημαντικά το τελικό αποτέλεσμα. Παρατηρήθηκε όμως, ότι ο τρόπος βαθμολόγησης αποτελεί ένα χαρακτηριστικό που μπορεί να επηρεάσει την αποτύπωση της επίδοσης των υποκειμένων στην αξιολόγηση βάσει κριτηρίου και συνεπώς τα αποτελέσματα που εξάγονται από αυτό. Ο προτεινόμενος πολυτομικός τρόπος βαθμολόγησης δείχνει να αποτελεί μια δικαιότερη προσέγγιση προσθέτοντας μεγαλύτερη ακρίβεια και ευαισθησία στο αποτέλεσμα, καθώς αποτυπώνει με κάθε λεπτομέρεια το γλωσσικό επίπεδο ή το βαθμό επίτευξης των γλωσσικών στόχων των υποκειμένων. Επίσης, θα μπορούσε να θεωρηθεί ότι η συγκεκριμένη μέθοδος βαθμολόγησης μπορεί να ωθήσει τους υποψηφίους να εμπλακούν περισσότερο στην διαδικασία αξιολόγησης επιστρατεύοντας την συμπερασματική στρατηγική αντί αυτήν της τυφλής επιλογής. Με αυτήν την έννοια, γίνεται χρήση οποιασδήποτε γνώσης και γλωσσικής επίγνωσης διαθέτει ο εξεταζόμενος. Υποθέτουμε ότι τo να γνωρίζουν οι υποψήφιοι ότι μπορεί να αμειφθούν βαθμολογικά για τις περιπτώσεις που επιλέξουν περισσότερο συγγενικές απαντήσεις θα τους κάνει να είναι περισσότερο προσεκτικοί στην απάντηση που θα δώσουν. Αυτό θα έχει ως αποτέλεσμα να βαθμολογείται παράλληλα όχι μόνο η γνώση των εξεταζόμενων αλλά και η γλωσσική τους επίγνωση. Τέλος, προτείνεται οι κατασκευαστές ανάλογων τεστ να επιδιώξουν την δημιουργία πολυτομικών ερωτημάτων που θα επιτρέπουν τη χρήση πολυτομικής βαθμολόγησης στα ερωτήματα πολλαπλής επιλογής. Τα στατιστικά τεστ που επιλέχθηκαν για την ανάλυση των δεδομένων (τυπική απόκλιση, συντελεστές συσχέτισης και τεστ συσχετισμένων / σχετικών τιμών) δείχνουν να είναι κατάλληλα για έρευνες όπου συγκρίνονται διαφορετικοί τρόποι βαθμολόγησης. Αν και ο αριθμός των υποκειμένων ήταν ιδιαίτερα μικρός φαίνεται να υπάρχει έρεισμα για μία συστηματικότερη έρευνα στο θέμα με μεγαλύτερο αριθμό συμμετεχόντων. Βιβλιογραφία Alderson, C., Clapham, C. & Wall, D. 1995.Language Test Construction and Evaluation. Cambridge: Cambridge University Press. Bachman, L. 2004. Statistical Analysis for Language Assessment. Cambridge: Cambridge University Press. Bachman, L. F. 2000. Modern language testing at the turn of the century: assuring that what we count counts. Language Testing 17, 1: 1-42. Bachman, L. F. 1990. Fundamental Considerations in Language Testing. Fourth Impression. Oxford University Press, Oxford. Bachman, L.F. and Palmer, S.A. 1996. Language Testing in Practice Oxford University Press. Carroll B., 1968. The psychology of language testing. In Davies A. (ed.) Davies, A. (ed.). 1968. Language Testing Symposium:A psycholinguistic approach. Oxford: Oxford University Press. Joint Committee on Testing Practices. 2004. Code of Fair Testing Practices in Education. Washington, DC. Kunnan, A. J. 2000. Fairness and justice for all. In A. J.Kunnan (Ed.), Fairnessand validation in language assessment: Selected papers from the 19th Language Testing Research Colloquium, Orlando, Florida (pp. 1-14). Cambridge, UK: Cambridge University Press. Spolsky B. 1981. Some ethical questions about language testing. In C. Klein-Braley& D. K. Stevenson (Eds.), Practice and problems in language testing (pp. 5-21). Frankfurt : PeterD. Lang. Τσοπάνογλου, Α. 2010. Μεθοδολογία της επιστημονικής έρευνας και εφαρμογές της στην αξιολόγηση της γλωσσικής κατάρτισης. Θεσσαλονίκη: ΕκδόσειςΖήτη. Tsopanoglou, A., Ypsilandis, G.S. andmouti, A. (submitted1). Investigating Incorrectness in Multiple Choice Computer Language Testing. Tsopanoglou, A., Ypsilandis, G.S. and Mouti, A. (submitted2). Measuring Incorrectness in Multiple-Choice Computer Language Testing. Tσοπάνογλου, Α. & Υψηλάντης, Γ. 2011. Αξιολόγηση Επίδοσης και Γλωσσομάθειας με χρήση Ηλεκτρονικού Υπολογιστή., Θεσσαλονίκη: Εκδόσεις Ζήτη. Weir, C.J. 2005. Language Testing and Validation: an evidence based approach. Palgrave MacMillan Zieky, M.2002. Ensuring the Fairness of Licensing Tests, Educational Testing Service Appeared inclear Exam Review, Volume XII, Number 1, Winter 2002, pp. 0-26. http://www.clearhq.org/cer.htm [ 972 ]