ΜΑΡΙΑ ΤΣΟΜΠΑΝΟΓΛΟΥ ΠΡΟΤΥΠΟ ΑΞΙΟΛΟΓΗΣΗΣ ΤΗΣ ΕΓΚΥΡΟΤΗΤΑΣ ΟΜΗΣ ΣΥΣΤΗΜΑΤΩΝ ΠΙΣΤΟΠΟΙΗΣΗΣ ΓΛΩΣΣΟΜΑΘΕΙΑΣ



Σχετικά έγγραφα
Αξιοπιστία. Η αξιοπιστία. Η αξιοπιστία αναφέρεται στη σταθερότητα των αποτελεσμάτων δύο μετρήσεων, η οποία προκύπτει όταν απουσιάζει το τυχαίο σφάλμα.

Εγκυρότητα και Αξιοπιστία. Χριστίνα Καραμανίδου, PhD

Περιεχόμενα. Πρόλογος 15 Ευχαριστίες 19. Κεφάλαιο 1 Ιστορική Αναδρομή & Ορισμός της Ψυχομετρίας

Οργανωσιακή Ψυχολογία

Μεθοδολογία Έρευνας Διάλεξη 1 η : Εισαγωγή στη Μεθοδολογία Έρευνας

Αξιολόγηση της εγκυρότητας κριτηρίου του Κρατικού Πιστοποιητικού Γλωσσομάθειας της Αγγλικής Γλώσσας

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

1. Σκοπός της έρευνας

Εισαγωγή στη χρήση ψυχομετρικών εργαλείων: Αξιοπιστία και εγκυρότητα

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Σχολιασμός ερευνητικής πρότασης

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

þÿ¼ ½ ±Â : ÁÌ» Â Ä Å ÃÄ ²µ þÿä Å ÃÇ»¹º Í Á³ Å

Παραδοτέο Π.1 (Π.1.1) Εκθέσεις για προµήθεια εκπαιδευτικού υλικού

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

Πιστοποίηση επάρκειας ικανότητας φορέων ( ΚΠΣ)

Έκθεση ανάλυσης εξέτασης

Σεμινάριο Τελειοφοίτων. 6- Εμπειρική μέτρηση & ανάλυση

Η βασική μας εκπαίδευση στο WISC-V GR αποτελείται από 2 μέρη:

ΤΟΜΕΙΣ ΗΜΟΣΙΑΣ ΠΟΛΙΤΙΚΗΣ

Στόχος της ψυχολογικής έρευνας:

Eκπαίδευση Εκπαιδευτών Ενηλίκων & Δία Βίου Μάθηση

Αναλυτική έκθεση δεδομένων και αποτελεσμάτων

ST5224: Advanced Statistical Theory II

Έκθεση ανάλυσης εξέτασης

Σύστηµα Προσαρµοστικής. Μαθητών Ε' & ΣΤ' ηµοτικού (ενότητα: Λογιστικά Φύλλα) Παρταλάς Σωκράτης M27/11

Στο εξωτερικό είναι µια καλά οργανωµένη πρακτική µε θετικά, αλλά και αρνητικά αποτελέσµατα

Αξιολόγηση. Χαρίκλεια Τσαλαπάτα 3/10/2016

Αξιολόγηση της διδακτικής πράξης

Η ΧΡΗΣΗ ΤΩΝ ΨΥΧΟΜΕΤΡΙΚΩΝ ΕΡΓΑΛΕΙΩΝ ΣΤΟΝ ΕΠΑΓΓΕΛΜΑΤΙΚΟ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟ

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Η θέση ύπνου του βρέφους και η σχέση της με το Σύνδρομο του αιφνίδιου βρεφικού θανάτου. ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ

ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΕΣΤ ΙΑΓΩΝΙΣΜΑΤΑ

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

Ο Ρόλος της Αξιολόγησης στην

Ακαδημαϊκός Λόγος Εισαγωγή

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

Ελληνοαμερικανική Ένωση

ΠΕΡΙΕΧΟΜΕΝΑ. Μέρος Α. ΣΤΑΤΙΣΤΙΚΗ Θεωρία και Εφαρµογές Υπολογιστικοί αλγόριθµοι στον MS-Excel: υπολογισµός και ερµηνεία στατιστικών ευρηµάτων

Η ΧΡΗΣΗ ΤΗΣ ΔΥΝΑΜΙΚΗΣ ΠΡΟΣΕΓΓΙΣΗΣ ΓΙΑ ΒΕΛΤΙΩΣΗ ΤΗΣ ΑΠΟΤΕΛΕΣΜΑΤΙΚΟΤΗΤΑΣ: ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΕΙΡΑΜΑΤΙΚΗΣ ΕΡΕΥΝΑΣ

Α. Ερωτήσεις Σωστού - Λάθους

Ανασκόπηση Βιβλιογραφίας. Δρ. Ιωάννης Γκιόσος

þÿ ÀÌ Ä º± µä À ¹ ¼ ½

Αξιολόγηση. Χαρίκλεια Τσαλαπάτα 11/10/2012

Μελέτη κατώτατης απαιτούμενης βαθμολογίας στις εξετάσεις πιστοποίησης για την απόκτηση του τίτλου Διεθνώς Πιστοποιημένου Συμβούλου Γαλουχίας (IBCLC )

ΠΕΡΙ ΦΥΣΗΣ ΚΑΙ ΜΑΘΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΕΝΝΟΙΩΝ. Μαρία Καλδρυμίδου

Εξ αποστάσεως υποστήριξη του έργου των Εκπαιδευτικών μέσω των δικτύων και εργαλείων της Πληροφορικής

1. Μετρήσεις και τεστ... 21

ΨΥΧΟΛΟΓΙΚΗ ΕΤΑΙΡΕΙΑ ΒΟΡΕΙΟΥ ΕΛΛΑΔΟΣ (ΨΕΒΕ) ΗΜΕΡΙΔΑ Προχωρημένες μέθοδοι ανάλυσης ποσοτικών δεδομένων στις επιστήμες της συμπεριφοράς

<5,0 5,0 6,9 7 7,9 8 8,9 9-10

Έκθεση ανάλυσης εξέτασης

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

REPORT OF PILOT TEST BEDS / ISO 17024

Διάταξη Θεματικής Ενότητας ΕΠΑ51 / Εφαρμοσμένη Εκπαιδευτική Έρευνα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

Ακαδημαϊκός Λόγος Εισαγωγή

Μέτρηση στην Εκπαίδευση (Educational Measurement) *Το υλικό βρίσκεται αναρτημένο στο

Η οικολογία μάθησης για τους υπολογιστές ΙII: Η δική σας οικολογία μάθησης

Μοντέλα Εκπαίδευσης με σκοπό τη Διδασκαλία με χρήση Ψηφιακών Τεχνολογιών

ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΕΠΙΔΟΣΗΣ ΤΩΝ ΜΑΘΗΤΩΝ

Διερευνητική μάθηση We are researchers, let us do research! (Elbers and Streefland, 2000)

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΔΟΜΗ ΤΗΣ ΓΡΑΠΤΗΣ ΕΡΓΑΣΙΑΣ. Η γραπτή εργασία θα περιλαμβάνει τα παρακάτω μέρη:

ΑΞΙΟΛΟΓΗΣΗ ΑΦΗΓΗΜΑΤΙΚΩΝ ΙΚΑΝΟΤΗΤΩΝ ΜΕΣΩ ΧΟΡΗΓΗΣΗΣ ΤΟΥ ΕΡΓΑΛΕΙΟΥ ΜΑΙΝ ΣΕ ΤΥΠΙΚΩΣ ΑΝΑΠΤΥΣΣΟΜΕΝΑ ΠΑΙΔΙΑ ΣΤΗΝ ΚΥΠΡΟ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή Η ΚΑΤΑΘΛΙΨΗ ΩΣ ΠΑΡΑΓΟΝΤΑΣ ΚΙΝΔΥΝΟΥ ΓΙΑ ΑΠΟΠΕΙΡΑ ΑΥΤΟΚΤΟΝΙΑΣ

Μηχανική Μάθηση Hypothesis Testing

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ

Συγγραφή ερευνητικής πρότασης

710 -Μάθηση - Απόδοση. Κινητικής Συμπεριφοράς: Προετοιμασία

Η ΕΠΙΔΡΑΣΗ ΤΟΥ ΗΓΕΤΙΚΟΥ ΣΤΥΛ ΚΑΙ ΤΗΣ ΚΟΥΛΤΟΥΡΑΣ ΣΤΙΣ ΕΠΔΟΣΕΙΣ ΤΩΝ ΜΑΘΗΤΩΝ ΤΩΝ ΔΗΜΟΤΙΚΩΝ ΣΧΟΛΕΙΑ ΤΗΣ ΚΥΠΡΟΥ

ΕΠΙΜΟΡΦΩΤΙΚΗ ΗΜΕΡΙΔΑ «Η ΑΞΙΟΛΟΓΗΣΗ ΤΟΥ ΜΑΘΗΤΗ ΣΥΜΦΩΝΑ ΜΕ ΤΑ ΝΕΑ ΠΡΟΓΡΑΜΜΑΤΑ ΣΠΟΥΔΩΝ»

Χρειάζεται να φέρω μαζί μου τα πρωτότυπα έγγραφα ή τα αντίγραφα; Asking if you need to provide the original documents or copies Ποια είναι τα κριτήρια

ΠΡΟΛΟΓΟΣ ΠΡΩΤΗΣ ΕΚΔΟΣΗΣ


ΕΞΕΤΑΣΕΙΣ ΚΛΙΝΙΚΩΝ ΔΕΞΙΟΤΗΤΩΝ ΣΤΗΝ ΠΡΟΠΤΥΧΙΑΚΗ ΙΑΤΡΙΚΗ ΕΚΠΑΙΔΕΥΣΗ. ΘΕΟΔΩΡΙΔΟΥ ΑΝΕΤΑ ΜΑΙΑ ΜSc PhDc ΚΑΘΗΓΗΤΡΙΑ ΕΦΑΡΜΟΓΩΝ Α.Τ.Ε.Ι.Θ

28/02/17. Σεμινάριο Εκπαιδευτικής Αξιολόγησης. Φιλοσοφία & διαδικασία της εκπαιδευτικής έρευνας & αξιολόγησης ΣΕΜ 133. Ορισμός. Ορισμός της έρευνας

Πληροφορίες για το νέο HSK

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

Η βασική μας εκπαίδευση στο WAIS-IV GR αποτελείται από 2 μέρη:

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

ΤΟ ΜΟΝΤΕΛΟ Οι Υποθέσεις Η Απλή Περίπτωση για λi = μi 25 = Η Γενική Περίπτωση για λi μi..35

Πρόγραμμα Ενδοϋπηρεσιακής Επιμόρφωσης εκπαιδευτικών, Εκπαιδευτικών Ψυχολόγων και εκπαιδευτικών Συμβουλευτικής και Επαγγελματικής Αγωγής

«Μορφές αξιολόγησης του Εκπαιδευτικού» 1. Του Μπέµπη Ιωάννη, Φιλολόγου

ΔΙΔΑΚΤΙΚΗ ΤΗΣ ΧΗΜΕΙΑΣ

Το Ευρωπαϊκό Χαρτοφυλάκιο Γλωσσών

Kριτήρια αξιολόγησης, εγκυρότητα, αξιοπιστία, συνέπεια, αντικειμενικότητα, διακριτότητα, πρακτικότητα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΗΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία ΑΝΑΠΤΥΞΗ ΔΕΙΚΤΩΝ ΠΟΙΟΤΗΤΑΣ ΕΔΑΦΟΥΣ

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων.

Μεταπτυχιακή διατριβή. Ανδρέας Παπαευσταθίου

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Η ΥΠΟΘΕΣΗ ΤΗΣ ΥΠΑΡΞΗΣ ΚΑΙ ΑΝΙΧΝΕΥΣΗΣ ΤΑΛΕΝΤΩΝ ΣΤΟΝ ΑΘΛΗΤΙΣΜΟ: ΜΥΘΟΙ ΚΑΙ ΑΛΗΘΕΙΕΣ

ΑΞΙΟΛΟΓΗΣΗ. PDF created with pdffactory Pro trial version

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 1 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

NetQues Έκθεση για το Έργο Εκπαίδευση των Λογοθεραπευτών στην Ευρώπη Ενωμένοι μέσα στην Διαφορετικότα

Η αξιολόγηση του αναλυτικού προγράµµατος

Εφαρµοσµένη ιδακτική των Φυσικών Επιστηµών (Πρακτικές Ασκήσεις Β Φάσης)

ΚΡΑΤΙΚΟ ΠΙΣΤΟΠΟΙΗΤΙΚΟ ΓΛΩΣΣΟΜΑΘΕΙΑΣ. Οδηγός για τους Γονείς

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΕΠΙΣΤΗΜΕΣ ΤΗΣ ΓΛΩΣΣΑΣ ΚΑΙ ΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ» ΜΑΡΙΑ ΤΣΟΜΠΑΝΟΓΛΟΥ ΠΡΟΤΥΠΟ ΑΞΙΟΛΟΓΗΣΗΣ ΤΗΣ ΕΓΚΥΡΟΤΗΤΑΣ ΟΜΗΣ ΣΥΣΤΗΜΑΤΩΝ ΠΙΣΤΟΠΟΙΗΣΗΣ ΓΛΩΣΣΟΜΑΘΕΙΑΣ ΕΦΑΡΜΟΓΗ ΤΟΥ ΣΤΟ ΚΡΑΤΙΚΟ ΠΙΣΤΟΠΟΙΗΤΙΚΟ ΓΛΩΣΣΟΜΑΘΕΙΑΣ ΤΟΥ ΕΠΙΠΕ ΟΥ Β2 ΤΗΣ ΑΓΓΛΙΚΗΣ ΓΛΩΣΣΑΣ ΙΑΤΡΙΒΗ ΕΠΙ Ι ΑΚΤΟΡΙΑ ΘΕΣΣΑΛΟΝΙΚΗ 2007

Η ΤΡΙΜΕΛΗΣ ΣΥΜΒΟΥΛΕΥΤΙΚΗ ΕΠΙΤΡΟΠΗ Α. ΤΣΟΠΑΝΟΓΛΟΥ, ΚΑΘΗΓΗΤΗΣ Β. ΤΟΚΑΤΛΙ ΟΥ, ΚΑΘΗΓΗΤΡΙΑ Ι. ΠΑΠΑ ΗΜΗΤΡΙΟΥ, ΚΑΘΗΓΗΤΗΣ 2

3 Στην οικογένειά µου

Πρόλογος Απαραίτητη προϋπόθεση για να είναι έγκυρα τα αποτελέσµατα µίας γλωσσικής αλλά και κάθε µορφής αξιολόγησης είναι ο έλεγχος του βαθµού εγκυρότητας του µέσου βάσει του οποίου αυτή διεξάγεται. Κάθε «σοβαρό» µέσο γλωσσικής αξιολόγησης οφείλει να παρουσιάσει µία ικανοποιητική απόδειξη της εγκυρότητάς του, αν θέλει τα αποτελέσµατά του να έχουν ισχύ. Μάλιστα, όσο πιο σηµαντικό είναι ένα τεστ, τόσο πιο επιτακτική είναι και η ανάγκη συνεχούς επιβεβαίωσης της εγκυρότητάς του από όσο το δυνατόν περισσότερες πηγές. Ωστόσο, παρά τη γενικότερη παραδοχή της σηµαντικότητας και της αναγκαιότητας της εγκυρότητας ενός τεστ, στην πραγµατικότητα ελάχιστα είναι εκείνα που όντως το αποδεικνύουν. Η παρούσα έρευνα, η οποία βασίζεται τόσο στην εφαρµοσµένη γλωσσολογία, όσο και στην ψυχοµετρία, επικεντρώνεται στην αξιολόγηση του βαθµού της εγκυρότητας δοµής µέσων γλωσσικής αξιολόγησης. Πρόκειται για µία αξιολογική έρευνα, η οποία έχει ως στόχο την αξιολόγηση ενός καινούργιου τεστ επάρκειας για την αγγλική γλώσσα, του Κρατικού Πιστοποιητικού Γλωσσοµάθειας επιπέδου Β2 για την αγγλική γλώσσα, µε βάση ένα σύγχρονο πλαίσιο ελέγχου της εγκυρότητας δοµής µέσων αξιολόγησης, το οποίο αποτελεί και την κύρια συµβολή της διατριβής στην επιστήµη. Στο σηµείο αυτό αισθάνοµαι την ανάγκη να ευχαριστήσω θερµά τον επικεφαλής της Τριµελούς Συµβουλευτικής Επιτροπής, Καθηγητή Α. Τσοπάνογλου για την επίβλεψη και τη συνεχή καθοδήγηση σε αυτήν την έρευνα. Ακόµη, θα ήθελα να ευχαριστήσω τα µέλη της Τριµελούς Συµβουλευτικής Επιτροπής, Καθηγήτρια Β. Τοκατλίδου και Καθηγητή Ι. Παπαδηµητρίου για την προσφορά τους στην ολοκλήρωση της συγγραφής της παρούσας διατριβής. Πρόσθετες ευχαριστίες οφείλω στo διδάκτορα µαθηµατικών Ε. ιαµαντόπουλο για τη σηµαντική βοήθεια που µου προσέφερε πάνω στην επεξεργασία των δεδοµένων της έρευνας, καθώς και στο γραφίστα. Κατέρη για την πολύτιµη βοήθειά του στην τελική µορφοποίηση του κειµένου. Τέλος, θα ήθελα να ευχαριστήσω τα υποκείµενα της έρευνας, γιατί χωρίς τη συνεργασία τους θα ήταν αδύνατη η πραγµατοποίηση του πειραµατικού µέρους της διατριβής. 4

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ Εισαγωγή...7 1. Θεωρητικό πλαίσιο και ανασκόπηση βιβλιογραφίας...12 1.1 Η έννοια «εγκυρότητα»...12 1.2 Η εξέλιξη της έννοιας «εγκυρότητα»...14 1.3 Ένα σύγχρονο πλαίσιο ελέγχου της εγκυρότητας δοµής µέσων αξιολόγησης...33 1.4 Κρατικό Πιστοποιητικό Γλωσσοµάθειας...38 2. Θεωρητική εγκυρότητα: Λογική απόδειξη (Theory-based validity: Logical evidence)...43 2.1 Ορισµός θεωρητικού πλαισίου και εγκυρότητα δοµής...43 2.2 Ορισµός θεωρητικού πλαισίου των τεστ επάρκειας...48 2.3 Λογική απόδειξη της θεωρητικής εγκυρότητας του ΚΠΓ...53 3. Θεωρητική εγκυρότητα: Εµπειρική απόδειξη (Theory-based validity: Empirical evidence)...59 3.1 Έλεγχος των εσωτερικών συναφειών του ΚΠΓ...60 3.2 Ανάλυση Παραγόντων (Factor Analysis)...68 4. Εγκυρότητα περιεχοµένου (Content validity)...81 4.1 Ορισµός θεωρητικού πλαισίου και περιεχόµενο του τεστ...81 4.2 Μοντέλο επικοινωνιακής γλωσσικής ικανότητας του Bachman...84 4.3 Έλεγχος εγκυρότητας περιεχοµένου του ΚΠΓ...91 5

5. Εγκυρότητα βαθµολόγησης (Scoring validity)...95 5.1 Λάθος µέτρησης και Κλασσική θεωρία µέτρησης αληθινού αποτελέσµατος...95 5.2 Μέθοδοι ελέγχου αξιοπιστίας...99 5.3 Έλεγχος αξιοπιστίας των κριτών...107 5.4 Τυπικό Λάθος Μέτρησης...110 5.5 Ανάλυση ερωτηµάτων...111 5.6 Αξιοπιστία και εγκυρότητα...115 5.7 Έλεγχος εγκυρότητας βαθµολόγησης του ΚΠΓ...118 6. Eγκυρότητα κριτηρίου (Criterion-related validity)...124 6.1 Σύγχρονη ή συνυπάρχουσα εγκυρότητα (concurrent validity)...124 6.2 Προγνωστική ή προβλεπτική εγκυρότητα (predictive validity)...126 6.3 Έλεγχος σύγχρονης εγκυρότητας του ΚΠΓ...127 6.4 Έλεγχος συγκλίνουσας και αποκλίνουσας εγκυρότητας των ΚΠΓ & FCE: Σχέδιο Πολλαπλών εξιοτήτων-πολλαπλών Μεθόδων (Multitrait-Multimethod Design)...145 7. Συµπερασµατική εγκυρότητα (Consequential validity)...161 7.1 Γενικά...161 7.2 Πλευρές συµπερασµατικής εγκυρότητας...164 7.3 Έλεγχος συµπερασµατικής εγκυρότητας του ΚΠΓ...170 8. Συµπεράσµατα της έρευνας και προτάσεις για περαιτέρω έρευνα...178 Βιβλιογραφία...184 Παραρτήµατα...194 6

Εισαγωγή Αφετηρία της έρευνας Not everything that counts can be counted and not everything that can be counted counts. Το παραπάνω απόφθεγµα του Α. Αϊνστάιν αποτελεί και την αφετηρία της παρούσας έρευνας, η οποία επικεντρώνεται στην αξιολόγηση της εγκυρότητας δοµής µέσων γλωσσικής αξιολόγησης και συγκεκριµένα του Κρατικού Πιστοποιητικού Γλωσσο- µάθειας επιπέδου Β2 για την αγγλική γλώσσα 1. Αυτό, δηλαδή, που θα επιχειρηθεί είναι η εξέταση του βαθµού στον οποίο αυτό που «µετριέται» από το συγκεκριµένο τεστ όντως «µετράει», έχει δηλαδή ικανοποιητικό βαθµό εγκυρότητας και, εποµένως, ουσιαστική υπόσταση και ισχύ. Παρά το γεγονός, όµως, ότι η συγκεκριµένη ιδιότητα αποτελεί τη σηµαντικότερη των µέσων αξιολόγησης, το δεύτερο µισό της παραπάνω ρήσης επιβεβαιώνεται πολύ συχνά από την πραγµατικότητα. Πολλά µέσα γλωσσικής αξιολόγησης, δηλαδή, αποτυγχάνουν στην προσπάθειά τους να µετρήσουν αυτό που θα έπρεπε να µετρήσουν, µε συνέπεια τα αποτελέσµατά τους να µην έχουν ισχύ. Για τους Hughes, Porter & Weir (1988: 4), κάθε «σοβαρό» τεστ οφείλει να παρουσιάσει µια ικανοποιητική απόδειξη της εγκυρότητάς του, αν θέλει τα αποτελέσµατά του να έχουν ισχύ. Ωστόσο, παρά το γεγονός ότι οι περισσότεροι «κατασκευαστές» µέσων γλωσσικής αξιολόγησης αναγνωρίζουν την ανάγκη διεξαγωγής ερευνών πάνω στην εγκυρότητα των «δηµιουργηµάτων» τους, ελάχιστοι είναι αυτοί που όντως το αποδεικνύουν, σύµφωνα και µε τον Messick (1992a: 89) 2. Η αλήθεια είναι ότι πολύ λίγα συστήµατα πιστοποίησης διεξάγουν και δηµοσιεύουν έρευνες για την εγκυρότητά τους. Οι Alderson & Buck (1993) µετά την έρευνα πολλών Αγγλικών εξεταστικών οργανισµών (Examination Boards) τόσο της Αγγλικής ως Ξένης Γλώσσας (English as a Foreign Language), όσο και της Αγγλικής ως εύτερης Γλώσσας (English as a Second Language) κατέληξαν στο συµπέρασµα ότι οι περισσότεροι δεν εµφάνιζαν αποδείξεις για µια σειρά από κριτήρια εγκυρότητας, στα 1 Από εδώ και στο εξής το Κρατικό Πιστοποιητικό Γλωσσοµάθειας επιπέδου Β2 για την αγγλική γλώσσα θα αναφέρεται για λόγους συντοµίας µε τα αρχικά ΚΠΓ. 2 Βλ. και Ellerton (1997: 80-84). 7

οποία λογικά θα έπρεπε να ανταποκρίνονται. Όπως χαρακτηριστικά αναφέρει ο Weir (2005: 11), δέκα χρόνια µετά τη συγκεκριµένη έρευνα, η κατάσταση παραµένει εξίσου απογοητευτική. Αρκετά απογοητευτικό είναι και το αποτέλεσµα µιας παρόµοιας έρευνας των Αγγλικών εξεταστικών οργανισµών, συµπεριλαµβανοµένων και αυτών της Αγγλικής ως Ξένης Γλώσσας 3. Σύµφωνα µε την έρευνα, τα περισσότερα εξεταστικά κέντρα εστίαζαν µόνο στην a priori εγκυρότητα (a priori validity) των ζητούµενών τους, «παραµελώντας» την a posteriori εγκυρότητα (a posteriori validity) των αποτελεσµάτων τους µετά τη διεξαγωγή του τεστ 4. Ένα, όµως, γλωσσικό τεστ χωρίς ισχύ είναι ουσιαστικά ένα ανύπαρκτο τεστ, στου οποίου τα αποτελέσµατα δε µπορούµε να βασιστούµε. Η εγκυρότητα ενός τεστ είναι η πιο σηµαντική του ιδιότητα. Ο βαθµός εγκυρότητάς του καθορίζει και τη «δύναµή» του. Αποτελεί, δηλαδή, το βασικό κριτήριο αξιολόγησής του, γιατί χωρίς αυτό δεν έχει λόγο ύπαρξης. Για τον Spolsky (1968: 94), «το κεντρικό πρόβληµα της αξιολόγησης µιας ξένης γλώσσας, αλλά και κάθε είδους αξιολόγησης είναι η εγκυρότητα» 5. Συγκεκριµένα, αναφέρει ότι το πρόβληµα είναι ακόµα µεγαλύτερο για τα τεστ επάρκειας από ότι για τα τεστ επίδοσης, εφόσον δεν υπάρχει µια συγκεκριµένη θεωρία που να περιγράφει τη γνώση µιας γλώσσας. Αλλά και για τον Cronbach (1970: 121), η ιδιότητα που επηρεάζει περισσότερο ένα τεστ 6 δεν είναι άλλη από την εγκυρότητά του. Το βασικό κριτήριο αποτελεσµατικότητας (efficiency) ενός τεστ αποτελεί η εγκυρότητά του, σύµφωνα µε τον Fried (1985: 349). Στην εγκυρότητα ενός τεστ ως την θεµελιώδη ιδιότητά του αναφέρεται και ο Greenberg (1986: 540). Η έννοια της εγκυρότητας εξακολουθεί να αποτελεί µέχρι σήµερα το «θεµέλιο λίθο» κάθε είδους αξιολόγησης. Ο Spolsky στο βιβλίο του Measured Words (1995:358-359) τονίζει τη σηµασία όχι µόνο της αξιοπιστίας, αλλά και της εγκυρότητας ενός τεστ, αν όπως χαρακτηριστικά λέει δε θέλουµε τα τεστ που χρησιµοποιούνται να παίζουν «ρώσικη ρουλέτα» µε τους υποψήφιους. Αντίθετα, «τα γλωσσικά τεστ, όπως τα φάρµακα, χρειάζονται ξεκάθαρες ετικέτες µε λεπτοµέρειες όσον αφορά το λάθος µέτρησης, αλλά και τον έλεγχο εγκυρότητάς τους» 7. Άλλωστε, σύµφωνα µε τον Τσοπάνογλου (2000: 167), µια συστηµατική 8 εκπαιδευτική αξιολόγηση, όπως αυτή που διεξάγεται µέσω ενός τεστ, ουσιαστικά δεν είναι 3 Για περισσότερες λεπτοµέρειες βλ. Alderson, Clapham & Wall (1995). 4 Για περισσότερες λεπτοµέρειες βλ. Κεφάλαιο 6 (6.3.1.2.5). 5 The central problem of foreign language testing, as of all testing, is validity. 6 Ο όρος τεστ στην παρούσα διατριβή χρησιµοποιείται πολλές φορές µε την έννοια του µέσου αξιολόγησης γενικότερα, και όχι αποκλειστικά του γλωσσικού τεστ. 7 Like medicines, language tests need clear labels giving details of measurement error and validation.... 8 Μία εκπαιδευτική αξιολόγηση για να είναι συστηµατική θα πρέπει να γίνεται µε βάση µία τακτική κλίµακα (ordinal scale). Τακτική είναι η κλίµακα αυτή που επιτρέπει την ταξινόµηση των υποκειµένων 8

παρά µια µορφή επιστηµονικής έρευνας και µάλιστα αξιολογικής έρευνας. Και όπως κάθε έρευνα, έτσι και κάθε εκπαιδευτική αξιολόγηση «απαιτεί πάντα κάποιον έλεγχο της εγκυρότητάς της». Στόχος της έρευνας Με αφετηρία τα παραπάνω, η ακόλουθη έρευνα επικεντρώνεται στην αξιολόγηση της εγκυρότητας του ΚΠΓ 9. Πιο συγκεκριµένα, το ΚΠΓ θα αξιολογηθεί ως προς την εγκυρότητα δοµής του (construct validity) 10, από τη στιγµή που αυτό το είδος εγκυρότητας παρουσιάζει και το µεγαλύτερο ενδιαφέρον 11. Το ΚΠΓ είναι ένα από τα τεστ του Κρατικού Πιστοποιητικού Γλωσσοµάθειας. Το συγκεκριµένο σύστηµα πιστοποίησης ξένων γλωσσών, το οποίο θεσµοθετήθηκε για πρώτη φορά το 1999 από το ΥΠ.Ε.Π.Θ. 12, είναι ένα εθνικό σύστηµα εξετάσεων µε στόχο την αξιολόγηση και πιστοποίηση του επιπέδου γλωσσοµάθειας των υποψήφιων σε µια σειρά ξένες γλώσσες. Το Κρατικό Πιστοποιητικό Γλωσσοµάθειας ανήκει στο ιεθνές ίκτυο Συστηµάτων Πιστοποίησης (International Certificate Conference ή ICC) 13, ένα διεθνή σύνδεσµο οργανισµών, ο οποίος ασχολείται µε τη διδασκαλία ξένων γλωσσών σε ενήλικες, µε βασικό στόχο τη συνεχή βελτίωση της διδασκαλίας και της µάθησης ξένων γλωσσών. Επίσης, η δηµιουργία του συγκεκριµένου πιστοποιητικού βασίζεται στους περιγραφικούς δείκτες (descriptors) του Κοινού Ευρωπαϊκού Πλαισίου Αναφοράς (Common European Framework of Reference ή CEFR) 14. Ωστόσο, το γεγονός ότι το Κρατικό Πιστοποιητικό Γλωσσοµάθειας αποτελεί ένα νέο σύστηµα πιστοποίησης ξένων γλωσσών, υπαγορεύει την ανάγκη ελέγχου της εγκυρότητάς του. Άλλωστε, πρόκειται για ένα σύστηµα πιστοποίησης µεγάλης επιρροής, ειδικά όσον αφορά την αγγλική γλώσσα, η οποία αναµφισβήτητα αποτελεί την πλέον διαδεδοµένη και ισχυρή γλώσσα. Και όπως υποστηρίζουν µεταξύ άλλων και οι Bachman & Palmer (1996: 261), όσο πιο σηµαντικό είναι ένα τεστ, τόσο πιο επιτακτική είναι και η ανάγκη επιβεβαίωσης της εγκυρότητάς του από όσο το δυνατόν περισσότερες πηγές. ως προς κάποια ιδιότητά τους µε βάση µία σειρά από ιεραρχηµένους τύπους ή τάξεις (ταξινοµία). Σε αντίθεση µε την τακτική, η ονοµατική κλίµακα (nominal scale) δεν επιτρέπει ταξινόµηση, παρά µόνο κατηγοριοποίηση των υποκειµένων ως προς κάποια ιδιότητά τους µε βάση µία σειρά από τύπους (τυπολογία). 9 Περισσότερα για το ΚΠΓ στο Κεφάλαιο 1 (1.4). 10 Περισσότερα για την εγκυρότητα δοµής στο Κεφάλαιο 1. 11 Βλ. και Bachman (1990), Davies (1984, 1988), Fulcher (1999), και Hughes (1989). 12 Βλ. και Νόµο Αρ. 2740, ο οποίος δηµοσιεύτηκε στο ΦΕΚ 186/16-9-1999. 13 Από εδώ και στο εξής το συγκεκριµένο δίκτυο συστηµάτων πιστοποίησης ξένων γλωσσών θα αναφέρεται ως ICC. 14 Από εδώ και στο εξής το Κοινό Ευρωπαικό Πλαίσιο Αναφοράς θα αναφέρεται ως CEFR. 9

Η αξιολόγηση του ΚΠΓ θα γίνει µε βάση ένα σύγχρονο πλαίσιο ελέγχου της εγκυρότητας δοµής µέσων αξιολόγησης, το οποίο στηρίζεται στις µελέτες πολλών γλωσσολόγων και ειδικών της µέτρησης (measurement specialists) 15. Σύµφωνα µε το πλαίσιο αυτό, η έρευνα εγκυρότητας ενός τεστ πλέον εστιάζεται στην εγκυρότητα δοµής του, η οποία «αντιµετωπίζεται» ως µια «συγκεντρωτική» έννοια που περικλείει τα υπόλοιπα είδη εγκυρότητας. Η νέα αυτή πολύπλευρη διάσταση του όρου εγκυρότητα απαιτεί τη συλλογή µιας σειράς αποδείξεων, καθεµία από τις οποίες στοχεύει και σε µια διαφορετική της πλευρά. Τα διαφορετικά είδη µαρτυρίας που θα συγκεντρωθούν κατά τη συνολική ερευνητική διαδικασία τόσο µε βάση τη λογική επιχειρηµατολογία, όσο και µέσα από µια σειρά ποιοτικών και ποσοτικών ερευνητικών µεθόδων, θα µας οδηγήσουν σε ένα συµπέρασµα ως προς την κατά την Chapelle (1999: 262) συνολική εγκυρότητα (validity conclusion) του ΚΠΓ. Γενικότερα, η συγκεκριµένη έρευνα στηρίζεται τόσο στην εφαρµοσµένη γλωσσολογία (applied linguistics) 16, όσο και στην ψυχοµετρία (psychometrics), εφόσον άλλωστε αυτός είναι και ο στόχος κάθε ολοκληρωµένης γλωσσικής αξιολόγησης, όπως υποστηρίζει και ο Spolsky (1995: 4). οµή της έρευνας Στο πρώτο κεφάλαιο της διατριβής, το οποίο αναφέρεται στο θεωρητικό πλαίσιο της παρούσας έρευνας, αναλύεται η έννοια της εγκυρότητας δοµής και επιχειρείται µια ιστορική αναδροµή στην εξέλιξη της συγκεκριµένης έννοιας από το 1960 µέχρι σήµερα. Επίσης, περιγράφεται ένα σύγχρονο πλαίσιο ελέγχου της εγκυρότητας δοµής µέσων αξιολόγησης, πάνω στο οποίο βασίζεται και η έρευνα. Το κεφάλαιο ολοκληρώνεται µε µια αναφορά στο Κρατικό Πιστοποιητικό Γλωσσοµάθειας, όσον αφορά την ιστορία του, τη δοµή και τον τρόπο βαθµολόγησής του, καθώς και την έκδοση των αποτελεσµάτων του. Στα κεφάλαια που ακολουθούν επιχειρείται µια ανάλυση του ΚΠΓ και αξιολόγηση του βαθµού εγκυρότητάς του. Κάθε κεφάλαιο ασχολείται και µε µια διαφορετική πλευρά της εγκυρότητας δοµής του. Το δεύτερο και το τρίτο κεφάλαιο εξετάζουν τη θεωρητική εγκυρότητα (theorybased validity) του συγκεκριµένου τεστ, ψάχνοντας το καθένα για διαφορετικού τύπου αποδείξεις. Στο δεύτερο κεφάλαιο επιχειρείται µια λογική απόδειξη (λογική επι- 15 Περισσότερα στο Κεφάλαιο 1, όπου περιγράφεται το θεωρητικό πλαίσιο της έρευνας. 16 Τη στενή αυτή σχέση ανάµεσα στην εφαρµοσµένη γλωσσολογία και τη γλωσσική αξιολόγηση τονίζει και η Clapham (2000: 148), σύµφωνα µε την οποία η γλωσσική αξιολόγηση αποτελεί ουσιαστικά µια εφαρµογή της θεωρίας στην πράξη, η οποία ωστόσο τροφοδοτεί τη γλωσσολογία µε καινούργια στοιχεία για περαιτέρω έρευνα. 10

χειρηµατολογία), ενώ στο τρίτο µια εµπειρική απόδειξη του συγκεκριµένου τύπου εγκυρότητας µέσω της ανάλυσης της εσωτερικής δοµής του ΚΠΓ. Το επόµενο κεφάλαιο εξετάζει την εγκυρότητα περιεχοµένου (content validity) του ΚΠΓ µέσω της ανάλυσης του περιεχοµένου του µε βάση το µοντέλο επικοινωνιακής γλωσσικής ικανότητας του Bachman (1990). Το πέµπτο κεφάλαιο ασχολείται µε µια ακόµη εσωτερική πλευρά της εγκυρότητας του συγκεκριµένου τεστ, την εγκυρότητα βαθµολόγησής του (scoring validity). Στα επόµενα δύο κεφάλαια αναλύονται οι δύο εξωτερικές πλευρές της εγκυρότητας ενός τεστ, η εγκυρότητα κριτηρίου (criterion-related validity) και η συµπερασµατική εγκυρότητα (consequential validity). Όσον αφορά την πρώτη, επιχειρείται µια σύγκριση των αποτελεσµάτων του ΚΠΓ µε δύο τεστ-κριτήρια, ενώ για τον έλεγχο της δεύτερης εξετάζονται οι συνέπειες της χρήσης των αποτελεσµάτων του. Στο τελευταίο κεφάλαιο συνοψίζονται τα πορίσµατα της έρευνας και διατυπώνονται προτάσεις για περαιτέρω έρευνα. 11

Κεφάλαιο 1 Θεωρητικό πλαίσιο και ανασκόπηση βιβλιογραφίας 1.1 Η έννοια «εγκυρότητα» Η σηµαντικότητα της εγκυρότητας ενός τεστ είναι προφανής. Τι ακριβώς, όµως, εννοούµε όταν λέµε ότι ένα τεστ είναι έγκυρο; Τι ακριβώς σηµαίνει η έννοια εγκυρότητα; Για τον Kelley (1927: 14), ένα τεστ είναι έγκυρο αν όντως µετράει αυτό που δηλώνει ότι µετράει. Για τον Lado (1961b: 30), ένα τεστ είναι έγκυρο, όταν η απάντηση στην ακόλουθη ερώτηση είναι θετική: «Μετράει το τεστ αυτό που σκοπεύει να µετρήσει;» 17. Στη δεκαετία του 1960 η έννοια της εγκυρότητας αντιµετωπίζονταν ως ένα «απόλυτο» χαρακτηριστικό ενός τεστ. Ένα τεστ, δηλαδή, χαρακτηρίζονταν είτε ως έγκυρο, είτε ως µη έγκυρο. Ή είχε ή δεν είχε εγκυρότητα. Αργότερα, ωστόσο, η εγκυρότητα ενός τεστ εκφράζεται µέσα από το βαθµό στον οποίο το τεστ όντως πραγµατοποιεί αυτό που ισχυρίζεται ότι κάνει. Σύµφωνα µε τον Heaton (1975: 153), «εγκυρότητα ενός τεστ είναι ο βαθµός στον οποίο το τεστ µετράει αυτό που ισχυρίζεται ότι µετράει και τίποτε άλλο» 18. Κατά τον ίδιο τρόπο η εγκυρότητα ενός τεστ ορίζεται από τον Brown (1996: 231) ως «ο βαθµός στον οποίο ένα τεστ µετράει αυτό που ισχυρίζεται, ή σκοπεύει να µετρήσει» 19. Σύµφωνα µε τον Weir (1993:19), «ένα τεστ θα πρέπει όσο είναι δυνατό να περιορίζεται αποκλειστικά στη µέτρηση των ικανοτήτων που σκοπεύει να εξετάσει, χωρίς να εξετάζει άσχετες µε το σκοπό του ικανότητες. Το τεστ είναι έγκυρο στο βαθµό που το επιτυγχάνει αυτό» 20. Αυτή, ωστόσο, η ερµηνεία του όρου της εγκυρότητας ως ένα από τα χαρακτηριστικά ενός τεστ παραµένει αρκετά γενική και ασαφής. Παρά το γεγονός ότι η έννοια εγκυρότητα έχει «εξελιχθεί» τα τελευταία χρόνια, αυτή η ερµηνεία χρησιµοποιείται 17 Does the test measure what it is intended to measure?. 18...the validity of a test is the extent to which it measures what it is supposed to measure and nothing else. 19...the degree to which a test measures what it claims, or purports, to be measuring. 20 As far as possible a test should limit itself to measuring only what it is intended to test and not extraneous or unintended abilities. To the extent that we succeed in this the test will be valid. 12

ακόµη από πολλούς τόσο σε βιβλία αξιολόγησης, όσο και σε βιβλία πάνω στη θεωρία της µέτρησης. Η συγκεκριµένη ερµηνεία της εγκυρότητας δεν «υιοθετείται» αρχικά από τους περισσότερους ερευνητές της εκπαιδευτικής µέτρησης (educational measurement), οι οποίοι µε τη σειρά τους θα επηρεάσουν αργότερα και πολλούς αξιολογητές, αλλά και εφαρµοσµένους γλωσσολόγους. Άλλωστε, οι Cronbach & Meehl από το 1955 (1955: 297), αναφέρονται στην έννοια εγκυρότητα, όχι ως ένα χαρακτηριστικό ενός τεστ, αλλά ως µια ιδιότητα των συµπερασµάτων στα οποία καταλήγει ένα τεστ. Όπως επιση- µαίνει ο Cronbach (1971: 477), όταν αξιολογείται ένα τεστ, αυτό που στην ουσία α- ξιολογείται δεν είναι άλλο από την ερµηνεία των αποτελεσµάτων του. Σύµφωνα µε τον Messick (1980, 1988) 21, η εγκυρότητα δεν έχει να κάνει ούτε µε τα τεστ αυτά καθεαυτά, ούτε µε τα αποτελέσµατά τους. Αυτό στο οποίο θα πρέπει να αναφέρεται η εγκυρότητα είναι η σωστή ερµηνεία των αποτελεσµάτων τους, καθώς και η σωστή χρήση τους. Για τον Messick (1989: 41), η έννοια της εγκυρότητας έχει να κάνει µε το βαθµό στον οποίο αποδεικνύεται τόσο εµπειρικά, όσο και θεωρητικά η καταλληλότητα των συµπερασµάτων και των πράξεων στις οποίες µας οδηγεί η ερµηνεία των αποτελεσµάτων τους. Στην τρίτη έκδοση 22 (1985: 9) των AERA/APA/NCME 23 Standards for Educational and Psychological Testing 24, η έννοια της εγκυρότητας συνδέεται µε την καταλληλότητα (appropriateness), τη σηµαντικότητα (meaningfulness), και τη χρησιµότητα (usefulness) των συµπερασµάτων (inferences) που προκύπτουν από τα αποτελέσµατα ενός τεστ. Ο Bachman (1990: 238), επηρεασµένος τόσο από τον Messick (1989), όσο και από τα Standards 25, αναφέρεται στο αντικείµενο του ελέγχου εγκυρότητας ενός τεστ. Όπως χαρακτηριστικά τονίζει, ο συγκεκριµένος έλεγχος θα πρέπει να επικεντρώνεται στον τρόπο µε τον οποίο τα αποτελέσµατα ενός τεστ χρησιµοποιούνται για να µας πουν κάτι για τις ικανότητες των υποψήφιων που πήραν µέρος σε αυτό. Το ίδιο σκεπτικό «ακολουθεί» και η τέταρτη έκδοση των Standards (1999: 9), σύµφωνα µε την οποία «η έννοια της εγκυρότητας αναφέρεται στο βαθµό κατά τον οποίο τόσο εµπειρικά, όσο και θεωρητικά, υποστηρίζεται η ερµηνεία των αποτελε- 21 Όπως αναφέρει ο Bachman (1990: 243). 22 Μία καινούργια έκδοση των AERA/APA/NCME Standards for Educational and Psychological Testing δηµοσιεύεται περίπου κάθε δεκαετία από τη δεκαετία του 1950: 1954, 1966, 1974, 1985, 1999. 23 AERA: American Educational Research Association APA: American Psychological Association NCME: National Council on Measurement in Education 24 Τα AERA/APA/NCME Standards for Educational and Psychological Testing αποτελούν τον επίσηµο κώδικα επαγγελµατικής πρακτικής (professional practice) στην Αµερική. 25 Από εδώ και στο εξής τα AERA/APA/NCME Standards for Educational and Psychological Testing θα αναφέρονται ως Standards. 13

σµάτων ενός τεστ, η οποία συνεπάγεται από τις προτεινόµενες χρήσεις του τεστ» 26. Με άλλα λόγια, πρόκειται για µια συνεχή διαδικασία συλλογής αποδείξεων όσον αφορά την προτεινόµενη ερµηνεία των αποτελεσµάτων. Την ίδια ερµηνεία δίνει και το Multilingual Glossary of Language Testing Terms (ALTE, 1998), σύµφωνα µε το οποίο, η εγκυρότητα ενός τεστ ορίζεται ως «ο βαθµός στον οποίο τα αποτελέσµατα ενός τεστ µας οδηγούν σε κατάλληλα, σηµαντικά, και χρήσιµα συµπεράσµατα δεδοµένου του σκοπού του τεστ» 27. Βέβαια, όπως αναφέρουν και οι Palmer, Groot & Trosper (1981: 1), η λέξη τεστ χρησιµοποιείται πολύ συχνά στη βιβλιογραφία µε την έννοια όχι µόνο του ίδιου του τεστ, αλλά και των συµπερασµάτων που προκύπτουν από τα αποτελέσµατα σε αυτό. Στην περίπτωση αυτή, δεν είναι λάθος η χρήση της φράσης «η εγκυρότητα ενός τεστ», εφόσον αναφερόµαστε όχι µόνο στο τεστ αυτό καθεαυτό, αλλά και στα συ- µπεράσµατα στα οποία µας οδηγεί η ερµηνεία των αποτελεσµάτων του 28. 1.2 Η εξέλιξη της έννοιας «εγκυρότητα» Η παραπάνω, όµως, δεν είναι η µόνη αλλαγή στην ερµηνεία του όρου εγκυρότητα. Με το πέρασµα του χρόνου, η συγκεκριµένη έννοια διατηρώντας πάντα τη σηµαντικότητά της έχει «εξελιχθεί» θέτοντας καινούργια «όρια» και καθορίζοντας νέες µεθόδους για τον έλεγχό της. Από την αρχή της ιστορίας της, η έννοια της εγκυρότητας είχε σηµαντική θέση τόσο στη θεωρία, όσο και στην έρευνα της γλωσσικής αξιολόγησης. Ο έλεγχος της εγκυρότητας ενός τεστ αρχίζει να απασχολεί τους δηµιουργούς µέσων γλωσσικής αξιολόγησης από την πρώτη έκδοση των Standards το 1954 29. 1.2.1 εκαετία του 1960 Η δεκαετία του 1960 ξεκινάει µε την ερµηνεία του Lado (1961a: 321), σύµφωνα µε την οποία όπως έχει ήδη αναφερθεί ένα τεστ είναι έγκυρο, αν µετράει αυτό που υποτίθεται ότι µετράει. Η απάντηση στο παραπάνω ερώτηµα είναι σύµφωνα µε τον Lado είτε θετική, είτε αρνητική δίνοντας έτσι στον όρο εγκυρότητα έναν απόλυτο χαρακτήρα. 26 Validity refers to the degree to which evidence and theory support the interpretations of test scores entailed by the proposed uses of tests. 27 The extent to which scores on a test enable inferences to be made which are appropriate, meaningful and useful, given the purpose of the test. 28 Με αυτήν την έννοια θα χρησιµοποιείται από εδώ και στο εξής ο όρος. 29 Όπως αναφέρει ο Kunnan (1999: 709). 14

Ο Lado, όπως χαρακτηριστικά αναφέρει και ο Kunnan (2004:28), είναι ο πρώτος από τους σύγχρονους γλωσσολόγους που γράφει για την αξιολόγηση ενός τεστ ως προς την εγκυρότητά του. Σύµφωνα µε τον Lado, η έννοια της εγκυρότητας περιλαµβάνει την εγκυρότητα όψης (face validity), την εγκυρότητα περιεχοµένου (validity by content), τον έλεγχο εγκυρότητας των συνθηκών που απαιτούνται για να απαντηθούν τα ερωτήµατα ενός τεστ, καθώς και την εµπειρική απόδειξη εγκυρότητάς του µέσα από τον έλεγχο της εγκυρότητας κριτηρίου (criterion-based validation). Εκτός από την εγκυρότητα όπως υποστηρίζει ο Lado ένα τεστ θα πρέπει να διαθέτει και αξιοπιστία, µια ακόµη σηµαντική ιδιότητά του, η οποία αναφέρεται στη συνέπεια και τη σταθερότητα των αποτελεσµάτων ενός τεστ. Όσον αφορά την αξιοπιστία, αν και ξεχωριστή ιδιότητα, θεωρείται ότι αποτελεί αναγκαία προϋπόθεση για την εγκυρότητα ενός τεστ. Όσον αφορά την εγκυρότητα όψης, η φράση «πολύ κακό για το τίποτα» θα ταίριαζε απόλυτα. Κι αυτό γιατί, ενώ δεν έχει αποδειχθεί ότι η συγκεκριµένη εγκυρότητα έχει ουσιαστική υπόσταση στο χώρο της γλωσσικής αξιολόγησης, έχουν γραφτεί πολλά γι αυτήν, κυρίως ωστόσο για την άσκηση κριτικής του όρου. Από την αρχή της ιστορίας του, ο όρος εγκυρότητα όψης έχει δεχθεί αυστηρή κριτική και αµφισβήτηση 30. Για τον Mosier (1947) 31, ο χαρακτηρισµός ενός τεστ ως φαινοµενικά έγκυρου κρύβει ένα µεγάλο βαθµό επικινδυνότητας και δε διστάζει να τον χαρακτηρίσει ως απατηλό, εφόσον πολλές φορές χρησιµοποιείται όταν δεν είναι δυνατή η απόδειξη εγκυρότητας του τεστ µε άλλες πιο ουσιαστικές µεθόδους, λόγω έλλειψης χρόνου, πηγών ή ακόµη και γνώσεων. Για τον Cattell (1964: 8), ο όρος εγκυρότητα όψης ή αλλιώς εγκυρότητα εµπιστοσύνης (faith validity) ανήκει µάλλον στον τοµέα της διπλωµατίας, παρά σε αυτόν της ψυχολογίας. Σύµφωνα µε τον Lado (1961a: 321), ο έλεγχος της εγκυρότητας όψης ενός τεστ χρησιµοποιείται ευρέως, διατηρώντας ωστόσο τις αδυναµίες του. Όπως χαρακτηριστικά σηµειώνει, το να αποφασίσει κανείς για την εγκυρότητα ενός τεστ µε µια απλή µατιά, µπορεί να είναι πολύ παραπλανητικό. Αξιοσηµείωτη, ωστόσο, είναι και η αντιµετώπιση του όρου από τα Standards, όπου η µοναδική αναφορά σε αυτόν γίνεται το 1974. Στη συγκεκριµένη έκδοσή τους (1974: 26) η εγκυρότητα όψης δεν αποτελεί µια αποδεκτή βάση για την ερµηνεία των αποτελεσµάτων ενός τεστ. Άλλωστε, χαρακτηριστική είναι και η απουσία του όρου από τις ακόλουθες εκδόσεις τους. Για την Anastasi (1982: 136) 32, η εγκυρότητα όψης «δεν είναι εγκυρότητα από τεχνικής πλευράς, καθώς δεν αναφέρεται στο τι µετράει πραγµατικά ένα τεστ, αλλά 30 Βλ. και Lado (1961a), Davies (1965), Ingram (1977), Palmer (1981). 31 Όπως αναφέρεται στο Bachman (1990: 286). 32 Όπως αναφέρεται στον Weir (1988b: 27). 15

στο τι φαίνεται 33 ότι µετράει. Η εγκυρότητα όψης αναφέρεται στο κατά πόσο ένα τεστ «φαίνεται έγκυρο» στους εξεταζόµενους, στο διοικητικό προσωπικό που αποφασίζει για τη χρήση του, καθώς και σε άλλους ανεκπαίδευτους παρατηρητές» 34. Ωστόσο, παρόλο που το συγκεκριµένο είδος εγκυρότητας δε θα πρέπει να αντικαθιστά τις πιο αντικειµενικές µορφές εγκυρότητας, η ύπαρξή του µπορεί να συµβάλλει θετικά στην αντιµετώπιση ενός τεστ τόσο από τους καθηγητές, όσο και από τους µαθητές οι οποίοι εξετάζονται. Όπως χαρακτηριστικά σηµειώνει και ο Weir (1988b: 27), µια αρνητική πρώτη εντύπωση µπορεί να επηρεάσει την απόδοση των υποψήφιων, ειδικά όταν πρόκειται για ενήλικες. Άλλωστε, κατά την Anastasi (1982: 136) 35, ένα τεστ ενηλίκων, δεν αρκεί να είναι αντικειµενικά έγκυρο, αλλά απαιτείται και η θετική εικόνα του προς τους εξεταζόµενους προκειµένου αυτοί να «συνεργαστούν» αρµονικά δίνοντας τον καλύτερό τους εαυτό. 1.2.2 εκαετία του 1970 Στη δεκαετία του 1970, η εγκυρότητα αποτελείται από τρία διαφορετικά είδη, την εγκυρότητα περιεχοµένου (content validity), την εγκυρότητα δοµής (construct validity) και την εγκυρότητα κριτηρίου (criterion-related validity) ή εµπειρική εγκυρότητα (empirical validity). Ωστόσο, ο τύπος εγκυρότητας που ερευνάται περισσότερο είναι η εγκυρότητα κριτηρίου µέσω του ελέγχου συνάφειας (correlation) µεταξύ του υπό αξιολόγηση τεστ και ενός ή και περισσότερων άλλων έγκυρων και αξιόπιστων τεστ. Μια πιθανή σύγκλιση των αποτελεσµάτων οδηγεί και στην επιβεβαίωση της εγκυρότητας του τεστ που αξιολογείται. Σύµφωνα µε τον Heaton (1975: 154), η εµπειρική ή αλλιώς στατιστική εγκυρότητα (statistical validity) µπορεί να ελεγχθεί συγκρίνοντας τα αποτελέσµατα του υπό αξιολόγηση τεστ µε τα αποτελέσµατα κάποιου άλλου µέτρου που θα λειτουργήσει ως κριτήριο, είτε ταυτόχρονα, είτε υστερόχρονα. Στην περίπτωση που το κριτήριο θα δοθεί ταυτόχρονα µε το τεστ που εξετάζεται, ελέγχεται η σύγχρονη ή συνυπάρχουσα εγκυρότητά του (concurrent validity), ενώ όταν το κριτήριο δίνεται µετά το τεστ αξιολογείται η προγνωστική ή προβλεπτική του εγκυρότητα (predictive validity). Στη σύγχρονη εγκυρότητα το κριτήριο µπορεί να αποτελέσει ένα ήδη υπάρχον τεστ το οποίο να θεωρείται έγκυρο, ή ακόµη και η βαθµολογία του/των καθηγητών ή 33 Η υπογράµµιση είναι δική µου. 34...is not validity in the technical sense; it refers, not to what the test actually measures, but to what it appears superficially to measure. Face validity pertains to whether the test «looks valid» to the examinees who take it, the administration personnel who decide on its use, and other technically untrained observers. 35 Όπως αναφέρεται στον Weir (1988b: 27). 16

κάποια άλλη µορφή ανεξάρτητης αξιολόγησης 36. Αντίθετα, στην προβλεπτική εγκυρότητα το κριτήριο µπορεί να είναι, είτε η µετέπειτα απόδοση των υποψήφιων σε κάποιο άλλο έγκυρο τεστ, είτε η µετέπειτα αξιολόγησή τους από τους καθηγητές τους, ή κάποια άλλη µορφή ανεξάρτητης αξιολόγησης. Μέσω αυτού του είδους εγκυρότητας εξετάζεται η «δύναµη» ενός τεστ να «προβλέψει» τη µελλοντική επιτυχία ή αποτυχία των υποψήφιων. Εφόσον, δηλαδή, τα αποτελέσµατα στο τεστ συµφωνούν µε το µελλοντικό κριτήριο σύγκρισης, το τεστ διαθέτει προβλεπτική εγκυρότητα. Ωστόσο, όπως άλλωστε θα δούµε και παρακάτω, αυτού του είδους η εγκυρότητα δεν προτιµάται τόσο λόγω πρακτικών προβληµάτων, όσο και λόγω της πιθανής µεσολάβησης παραγόντων άσχετων µε την ή τις ικανότητες που αξιολογούνται 37. Στο σηµείο αυτό θα πρέπει βέβαια να σηµειωθεί ότι στη συγκεκριµένη δεκαετία αξιολογικές έρευνες διεξάγονται αποκλειστικά σε τεστ µεγάλης κλίµακας (large-scale tests), σε αντίθεση µε τεστ µικρότερης «εµβέλειας», όπως, για παράδειγµα, τεστ επίδοσης των µαθητών µετά την παρακολούθηση µιας σειράς µαθηµάτων. Η αξιολόγηση θεωρείται γενικά αποκλειστική ευθύνη των ερευνητών και δηµιουργών τεστ υψηλών οικονοµικών συµφερόντων (high-stakes tests), η οποία δε χρειάζεται να απασχολεί κανέναν άλλο από αυτούς που το χρησιµοποιούν 38. 1.2.3 εκαετία του 1980 Στη δεκαετία του 1980, η έννοια της εγκυρότητας «εξελίσσεται» ακόµη περισσότερο, κυρίως στο χώρο της εκπαιδευτικής µέτρησης (educational measurement), όπου, σε αντίθεση µε τη γλωσσική αξιολόγηση, αποτελεί το επίκεντρο των συζητήσεων και των εξελίξεων. Αλλά και στο χώρο της γλωσσικής αξιολόγησης η έννοια της εγκυρότητας αποκτά ευρύτερο νόηµα και διαφορετικό χαρακτήρα. Το «κέντρο βάρους» του ελέγχου εγκυρότητας µετατίθεται από την έµφαση στην αξιοπιστία και την εγκυρότητα κριτηρίου, στον έλεγχο της εγκυρότητας δοµής επικοινωνιακών τεστ 39. Ο Hughes (1989) µεταξύ άλλων υποστηρίζει ότι µέσω του ελέγχου εγκυρότητας δοµής των τεστ µπορεί η γλωσσική αξιολόγηση να τεθεί σε µια πιο λογική και επιστηµονική βάση. Μια ακόµη σηµαντική εξέλιξη αποτελεί και η «επέκταση» της έννοιας της εγκυρότητας. Η εγκυρότητα κριτηρίου χωρίζεται σε σύγχρονη και σε προγνωστική, ανά- 36 Όπως, για παράδειγµα, η αυτοαξιολόγηση (self-assessment). 37 Περισσότερα τόσο για τη σύγχρονη, όσο και για την προγνωστική εγκυρότητα στο Κεφάλαιο 6. 38 Όπως θα δούµε στη συνέχεια, η αντίληψη αυτή αλλάζει καθώς η εγκυρότητα ενός τεστ δεν αποτελεί αποκλειστική ευθύνη των κατασκευαστών του, αλλά αφορά όλους τους χρήστες του. 39 Βλ. και Palmer, Groot & Trosper (eds.) 1981. The Construct Validation of Tests of Communicative Competence. 17

λογα µε το χρόνο στον οποίο διεξάγεται η σύγκριση µε το κριτήριο. Σύµφωνα µε τον Henning (1987), υπάρχουν πέντε τύποι εγκυρότητας: περιεχοµένου, δοµής, σύγχρονη, προγνωστική, καθώς και ένας νέος τύπος εγκυρότητας, η εγκυρότητα απάντησης (response validity). Όπως υποστηρίζει ο Henning, η εγκυρότητα απάντησης εξαρτάται από το βαθµό στον οποίο οι εξεταζόµενοι απαντούν µε κατάλληλο τρόπο στα ερωτήµατα ενός τεστ 40. Τέλος, αξίζει να αναφερθούµε σε µια άλλη ιδιότητα, η οποία θα απασχολήσει τους αξιολογητές κυρίως στην επόµενη δεκαετία, και θα αποτελέσει αργότερα ένα νέο είδος εγκυρότητας, τη συµπερασµατική εγκυρότητα (consequential validity) 41. Ο Canale (1987) αναλύοντας θέµατα που σχετίζονται µε την εγκυρότητα ενός τεστ όπως το τι και το πώς εξετάζεται η γλωσσική επάρκεια αναφέρεται και στο γιατί, στην ηθική (ethics), δηλαδή, της γλωσσικής αξιολόγησης. Ο Hughes (1989), εκτός από τα παραπάνω τρία βασικά είδη εγκυρότητας, αναφέρεται και σε ένα ακόµη χαρακτηριστικό ενός έγκυρου τεστ, αυτό της ανάδρασης (washback) 42 του τεστ στην όλη διαδικασία της διδασκαλίας και της µάθησης. Η σηµαντικότερη, όµως, εξέλιξη όσον αφορά την έννοια της εγκυρότητας, καθώς και τις µεθόδους ελέγχου της, σηµειώνεται από τα Standards. Σύµφωνα µε την τέταρτη έκδοσή τους (1985), «αντικαθίσταται» η προηγούµενή τους άποψη ότι υπάρχουν τρία διαφορετικά είδη εγκυρότητας περιεχοµένου, κριτηρίου, και δοµής µε µια νέα «ενιαία» αντίληψη της εγκυρότητας, όπου η εγκυρότητα δοµής είναι κεντρική. Ουσιαστικά, δηλαδή, η έρευνα εγκυρότητας ενός τεστ πλέον εστιάζεται στην εγκυρότητα δοµής του, η οποία «αντιµετωπίζεται» ως µια «συγκεντρωτική» έννοια που περικλείει τα υπόλοιπα είδη εγκυρότητας. Η νέα πολύπλευρη διάσταση του όρου απαιτεί τη συλλογή µιας σειράς πληροφοριών που να αποδεικνύουν τη συνολική εγκυρότητα ενός τεστ 43. Η έννοια της εγκυρότητας έχει ερµηνευτεί στη βιβλιογραφία µε διάφορους τρόπους. Για τον Weir (1990: 22), «η πιο κατάλληλη ερµηνεία είναι αυτή που θεωρεί την εγκυρότητα δοµής ως µια ευρύτερη έννοια που περικλείει όλους τους άλλους τύπους εγκυρότητας» 44. Σύµφωνα µε την Anastasi (1982: 153), «ο έλεγχος εγκυρότητας περιεχοµένου, κριτηρίου και δοµής δεν ανταποκρίνεται σε ξεχωριστές ούτε σε ισοδύναµες κατηγορίες. Αντίθετα, η εγκυρότητα δοµής αποτελεί µια περιεκτική έννοια, η οποία περι- 40 Περισσότερα για τη συγκεκριµένη µορφή εγκυρότητας παρακάτω. 41 Περισσότερα για αυτό το είδος εγκυρότητας στο Κεφάλαιο 7. 42 Ο όρος washback αναφέρεται ως ανάδραση ή αναδραστική επίδραση και στην Τρύφωνα- Αντωνοπούλου (2000: 282). Σε αρκετά, ωστόσο, ελληνικά συγγράµατα ως ανάδραση αποδίδεται και ο όρος feedback. Στην παρούσα διατριβή ως ανάδραση αποδίδεται ο όρος washback, ενώ, για την αποφυγή σύγχυσης, ο όρος feedback µεταφράζεται ως ανατροφοδότηση. 43 Περισσότερα για τις µεθόδους ελέγχου της εγκυρότητας ενός τεστ παρακάτω. 44 The most helpful exegesis regards construct validity as the superordinate concept embracing all other forms of validity. 18

λαµβάνει τις υπόλοιπες κατηγορίες» 45. Γι αυτό το λόγο, ο έλεγχος της εγκυρότητας δοµής απαιτεί τη συγκέντρωση πληροφοριών από διαφορετικές πηγές, όπως θα δούµε πιο αναλυτικά και παρακάτω. Η δεκαετία του 1980 «κλείνει» µε τη δηµοσίευση του θεµελιώδους άρθρου του Messick, Validity, στην τρίτη έκδοση του Educational Measurement (1989). Στο συγκεκριµένο άρθρο το οποίο και θα αποτελέσει σηµείο αναφοράς για τον έλεγχο της εγκυρότητας µέσων αξιολόγησης για τις επόµενες δεκαετίες η εγκυρότητα «αντι- µετωπίζεται» ως µια πολύπλευρη έννοια, για τον έλεγχο της οποίας προτείνεται ένα ενιαίο πλαίσιο αξιολόγησης, όπου διαφορετικές πλευρές της αξιολογούνται µε διαφορετικές µεθόδους τόσο σε θεωρητικό, όσο και σε εµπειρικό επίπεδο. Όπως έχει αναφερθεί παραπάνω, η εγκυρότητα για τον Messick (1989: 13) αποτελεί µια περιεκτική έννοια, η οποία αναφέρεται στο βαθµό στον οποίο η ερµηνεία των αποτελεσµάτων ενός τεστ, καθώς και η ακόλουθη χρήση τους, µπορεί να δικαιολογηθεί τόσο σε θεωρητικό, όσο και σε εµπειρικό επίπεδο. Με άλλα λόγια, η απάντηση στο ερώτηµα αν τα αποτελέσµατα σε ένα τεστ ερµηνεύονται σωστά και χρησιµοποιούνται κατάλληλα καθορίζει και το βαθµό εγκυρότητάς του. Ακολουθώντας τα Standards (1985), τόσο η έρευνα για την καταλληλότητα περιεχοµένου (content relevance) ενός τεστ, όσο και για την ύπαρξη συνάφειας µε ένα κριτήριο (criterion relatedness), αποτελούν για τον Messick διαφορετικούς τύπους απόδειξης της εγκυρότητας δοµής του. Συγκεκριµένα (1989: 16) αναφέρει ότι «οι διαφορετικοί τύποι τεκµηρίωσης (π.χ. απόδειξη σύγκλισης µε ένα κριτήριο) δεν αποτελούν εναλλακτικούς τρόπους απόδειξης εγκυρότητας, αλλά συµπληρωµατικούς» 46. Επίσης, εκτός από τους παραπάνω τρόπους ελέγχου της εγκυρότητας ενός τεστ, ο Messick (1989: 16), αναφέρεται και σε µια ακόµη µέθοδο, αυτήν της ανάλυσης της εσωτερικής δοµής του (internal structure) 47. Σε αντίθεση µε την εξωτερική δο- µή (external structure) ενός τεστ δηλαδή, µε τη σχέση των αποτελεσµάτων του µε άλλα µέτρα, η οποία µπορεί να µας οδηγήσει τόσο στην απόδειξη σύγχρονης, όσο και προβλεπτικής εγκυρότητας στην εσωτερική ανάλυση ενός τεστ ερευνώνται οι συνάφειες µέσα στο ίδιο το τεστ. Αλλά και η αξιοπιστία εντάσσεται από τον Messick στο γενικότερο πλαίσιο ελέγχου της εγκυρότητας ενός τεστ, καθώς σύµφωνα µε τον ίδιο κάθε έγκυρο τεστ πρέπει εξ ορισµού να είναι και αξιόπιστο. Ωστόσο, το καινοτόµο στοιχείο του ενιαίου πλαισίου αξιολόγησης της εγκυρότητας ενός τεστ που προτείνει ο Messick είναι η προσθήκη του ελέγχου των κοινωνικών 45...content, criterion-related and construct validation do not correspond to distinct or logically coordinate categories. On the contrary, construct validity is a comprehensive concept which includes the other types. 46...the varieties of evidence (e.g., criterion-related evidence) are not alternatives but rather supplements to one another. 47 Βλ. Chapelle & Douglas (1993: 11), καθώς και Chapelle, Grabe & Berns (1997: 33). 19

συνεπειών του τεστ ως µια ακόµη πλευρά της εγκυρότητάς του. Για τον Messick, οι συνέπειες ενός τεστ (test consequences) και, για την ακρίβεια, οι συνέπειες της χρήσης ενός τεστ (consequences of test use) αποτελούν ένα αναπόσπαστο κοµµάτι του ελέγχου εγκυρότητάς του. Η αναφορά στη συγκεκριµένη ιδιότητα ενός τεστ έχει ήδη γίνει τόσο από τον Canale (1987), όσο και από τον Hughes (1989), όπως αναφέρθηκε και παραπάνω. Η ηθική του Canale, σε συνδυασµό µε την ανάδραση του Hughes αποτελούν για τον Messick ένα ιδιαίτερα σηµαντικό χαρακτηριστικό ενός τεστ και «ενσωµατώνονται» στη νέα πολύπλευρη αντίληψη της εγκυρότητάς του. Στο σηµείο αυτό θα πρέπει να σηµειωθεί και το άρθρο του Cohen (1984), το οποίο επίσης αναφέρεται σε µια παρό- µοια ευρεία προσέγγιση της εγκυρότητας δοµής ενός τεστ. Εφόσον η γλωσσική αξιολόγηση λαµβάνει χώρα σε ένα εκπαιδευτικό και κοινωνικό περιβάλλον επηρεάζοντας έτσι το εκπαιδευτικό και/ή το εργασιακό µέλλον των υποψήφιων, είναι επιτακτική η ανάγκη έρευνας και της συµπερασµατικής απόδειξης εγκυρότητας (consequential validity evidence) ενός τεστ. Ένας τέτοιου είδους έλεγχος είναι δυνατό να εντοπίσει τυχόν «παρενέργειες» από τη λάθος χρήση των αποτελεσµάτων των υποψήφιων σε ένα τεστ, κάτι που είναι πιθανό να έχει αρνητικές συνέπειες (consequences) τόσο στην εκπαιδευτική, όσο και στην εργασιακή τους εξέλιξη 48. Παρόλα αυτά, δεν είναι λίγοι εκείνοι που ακόµη αµφισβητούν την παραπάνω άποψη ότι, δηλαδή, οι συνέπειες της χρήσης των αποτελεσµάτων σε ένα τεστ αποτελούν µέρος της εγκυρότητάς του καθώς δε θεωρούν ότι οι δηµιουργοί του είναι υπεύθυνοι για τις οποιεσδήποτε λάθος χρήσεις του. Σύµφωνα µε τους υποστηρικτές αυτής της θέσης, για τις λάθος χρήσεις των αποτελεσµάτων ενός τεστ αυτοί που ευθύνονται είναι αυτοί ακριβώς που τις διαπράττουν, όπως, για παράδειγµα, εργοδότες ή υπεύθυνοι εισαγωγής σε κολέγια και πανεπιστήµια. Συνεπώς, παρά τη σηµαντική επίδραση του άρθρου του Messick στον έλεγχο εγκυρότητας µέσων αξιολόγησης, ο έλεγχος των συνεπειών της χρήσης των αποτελεσµάτων σε αυτά θα καθυστερήσει να πάρει τη θέση που του αξίζει στο ευρύτερο πλαίσιο αξιολόγησής τους. Ωστόσο, στη δεκαετία του 1990 η συµπερασµατική απόδειξη της εγκυρότητας θα παίξει καθοριστικό ρόλο δικαιώνοντας έτσι τον ισχυρισµό του Messick. Άλλωστε, η δεκαετία του 1990 θα αποτελέσει µια ιδιαίτερα δηµιουργική περίοδο για τη γλωσσική αξιολόγηση, η οποία θα γίνει το αντικείµενο πολλών βιβλίων και συνεδρίων. Η µεγαλύτερη «έµφαση» στον τοµέα της γλωσσικής αξιολόγησης θα οδηγήσει και σε περισσότερες συζητήσεις πάνω στη φύση της εγκυρότητάς της, καθώς και στις µεθόδους ελέγχου της. 48 Περισσότερα για τη συµπερασµατική απόδειξη εγκυρότητας ενός τεστ στο Κεφάλαιο 7. 20

1.2.4 εκαετία του 1990 Η δεκαετία θα ξεκινήσει µε την πλέον σηµαντική συνεισφορά στον τοµέα της γλωσσικής αξιολόγησης, το βιβλίο του Bachman (1990), Fundamental Considerations in Language Testing, στο οποίο ένα ολόκληρο κεφάλαιο αφιερώνεται στην έννοια της εγκυρότητας. Ο Bachman ακολουθώντας τις κατευθυντήριες γραµµές των Standards (1985), καθώς και το άρθρο του Messick (1989), αναφέρεται στην έννοια της εγκυρότητας και στις µεθόδους ελέγχου της. Και για τον Bachman είναι παραπλανητικό να µιλάµε απλά για την εγκυρότητα ενός τεστ ή ακόµη και των αποτελεσµάτων ενός τεστ, εφόσον «στην αξιολόγηση της εγκυρότητας ενός τεστ δεν εξετάζουµε την εγκυρότητα του περιεχοµένου του, ούτε των αποτελεσµάτων του, αλλά την εγκυρότητα του τρόπου µε τον οποίο ερµηνεύουµε ή χρησιµοποιούµε τις πληροφορίες που συγκεντρώνουµε από την όλη εξεταστική διαδικασία. Συνεπώς, το να µιλάµε για την εγκυρότητα ενός τεστ ή των αποτελεσµάτων ενός τεστ, χωρίς να αναφέρουµε τη συγκεκριµένη ιδιότητα ή ιδιότητες τις οποίες το τεστ είναι σχεδιασµένο να µετρήσει καθώς και τις χρήσεις για τις οποίες το τεστ προορίζεται, είναι κάτι παραπάνω από µια ανακρίβεια» (1990: 238) 49. Σύµφωνα µε τον Bachman, κάτι τέτοιο µπορεί να µας οδηγήσει σε έναν αβάσιµο ισχυρισµό όσον αφορά την ερµηνεία καθώς και τη χρήση των αποτελεσµάτων σε ένα τεστ. Η εγκυρότητα αντιµετωπίζεται ως µια συγκεντρωτική έννοια (unitary concept) και από τον Bachman (1990: 241), ο οποίος φαίνεται να αµφισβητεί την παραδοσιακή ταξινόµηση της εγκυρότητας σε τρεις διαφορετικούς τύπους: περιεχοµένου, κριτηρίου, και δοµής. Τα διαφορετικά αυτά είδη εγκυρότητας αποτελούν πλέον διαφορετικούς τρόπους απόδειξης της συνολικής εγκυρότητας ενός τεστ. Για τον Bachman (1990: 289), η διαδικασία του ελέγχου εγκυρότητας ενός τεστ απαιτεί τη συνεχόµενη συλλογή αποδείξεων τόσο λογικών, όσο και εµπειρικών όσον αφορά την εγκυρότητα της ερµηνείας των αποτελεσµάτων του. Η τεκµηρίωση, εποµένως, των αποτελεσµάτων ενός τεστ µπορεί και επιβάλλεται να στηρίζεται σε διαφορετικά είδη µαρτυρίας. Σύµφωνα και µε τους Bachman & Palmer (1996: 22), ο έλεγχος της εγκυρότητας δοµής ενός τεστ αποτελεί µια συνεχή διαδικασία, κατά την οποία συλλέγονται µια σειρά από αποδείξεις της ερµηνείας των αποτελεσµάτων στο συγκεκριµένο τεστ. Έναν πολύ σηµαντικό τρόπο επικύρωσης ενός τεστ αποτελεί η απόδειξη καταλληλότητας του περιεχοµένου του. Η σηµαντικότητά της, ωστόσο, δεν την καθιστά και 49...in test validation we are not examining the validity of the test content or of even the test scores themselves, but rather the validity of the way we interpret or use the information gathered through the testing procedure. To refer to a test or test score as valid, without reference to the specific ability or abilities the test is designed to measure and the uses for which the test is intended, is therefore more than a terminological inaccuracy. 21

επαρκή για τον έλεγχο της εγκυρότητας ενός τεστ, λόγω ενός βασικού περιορισµού της. Όπως χαρακτηριστικά επισηµαίνει και ο Bachman (1990: 290), µια τέτοιου είδους µαρτυρία από µόνη της είναι ανεπαρκής, εφόσον «ασχολείται µόνο µε το τεστ, χωρίς να µελετά την επίδοση των εξεταζόµενων» 50. Το ίδιο ακριβώς έχει ήδη υποστηρίξει και ο Messick (1989: 41), σύµφωνα µε τον οποίο, «η λεγόµενη εγκυρότητα περιεχοµένου επικεντρώνεται στη µορφή παρά στα αποτελέσµατα ενός τεστ, στα όργανα µέτρησης, παρά στις ίδιες τις µετρήσεις» 51. «Ο κύριος περιορισµός της εγκυρότητας περιεχοµένου, εποµένως, είναι το γεγονός ότι επικεντρώνεται στο τεστ και όχι στα αποτελέσµατά του», (Bachman, 1990: 247) 52. Σύµφωνα µε τους Hambleton et al. (1978: 38-9), η εγκυρότητα περιεχοµένου είναι ένα χαρακτηριστικό του τεστ και όχι των αποτελεσµάτων του, το οποίο παραµένει σταθερό, ακόµη και αν το τεστ δοθεί σε διαφορετικές οµάδες υποκειµένων. Αντίθετα, η εγκυρότητα της ερµηνείας των αποτελεσµάτων σε ένα τεστ δεν µπορεί να είναι η ίδια όταν πρόκειται για την απόδοση διαφορετικών υποκειµένων. Ένας άλλος τύπος µαρτυρίας που µπορεί να πιστοποιήσει την έγκυρη ερµηνεία των αποτελεσµάτων σε ένα τεστ είναι η απόδειξη της συνάφειάς του µε κάποιο κριτήριο, είτε ταυτόχρονο, είτε υστερόχρονο. Ωστόσο, όσον αφορά την απόδειξη σύγχρονης εγκυρότητας υπάρχει ένας σοβαρός περιορισµός. Η αδυναµία της συγκεκριµένης µαρτυρίας οφείλεται κατά τον Bachman (1990: 250) στο γεγονός ότι ασχολείται αποκλειστικά µε τη σύγκλιση ενός τεστ µε διαφορετικά τεστ της ίδιας ιδιότητας, αγνοώντας το εξίσου σηµαντικό ερώτηµα της πιθανής απόκλισής του από τεστ διαφορετικών ιδιοτήτων. Σύµφωνα µε τον Bachman (1990: 250), «αν θέλουµε να αποδείξουµε ότι τα αποτελέσµατα ενός τεστ είναι έγκυροι δείκτες µιας συγκεκριµένης ικανότητας, θα πρέπει να δείξουµε όχι µόνο ότι σχετίζονται µε άλλους δείκτες της ίδιας ικανότητας, αλλά και το ότι δε σχετίζονται µε µέτρα άλλων ικανοτήτων... Όταν ψάχνουµε γι αυτού του είδους την απόκλιση, τότε είναι που στην πραγµατικότητα επιβιβαζόµαστε στο ταξίδι του ελέγχου της εγκυρότητας δοµής» 53. Αλλά και η απόδειξη προβλεπτικής εγκυρότητας ή αλλιώς προβλεπτικής χρησιµότητας (predictive utility) 54 εµφανίζει αρκετούς περιορισµούς. Το σηµαντικότερο πρόβληµα που µπορεί να δηµιουργηθεί οφείλεται στην πιθανή παρεµβολή µιας σειράς παραγόντων άσχετων µε την πραγµατική ικανότητα των υποκειµένων στη µελλο- 50...it looks only at the test, and does not consider the performance of test takers. 51...that so-called content validity is focused upon test forms rather than test scores, upon instruments rather than measurements. 52 The primary limitation of content validity, then, is that it focuses on tests, rather than test scores. 53...if we want to demonstrate that our test scores are valid indicators of a given language ability, we must show not only that they are related to other indicators of that same ability, but also, that they are not related to measures of other abilities... When we look for this sort of divergence, we are in fact embarking on the voyage to construct validation.... 54 Τον εναλλακτικό ορισµό δίνει ο Bachman (1990: 250). 22

ντική τους συµπεριφορά, την οποία επιθυµούµε να προβλέψουµε µέσω των αποτελεσµάτων στο τεστ υπό αξιολόγηση. Τις παραπάνω αδυναµίες των µεθόδων ελέγχου της εγκυρότητας δοµής ενός τεστ έρχεται να καλύψουν µια σειρά από λογικές και εµπειρικές µεθόδους που στοχεύουν στην «καρδιά» της εγκυρότητας δοµής του, µέσω των οποίων ελέγχονται µια σειρά από λογικές υποθέσεις (hypotheses) και αντι-υποθέσεις (counterhypotheses), µε βάση τη θεωρία στην οποία στηρίζεται το τεστ. Κατά τον Bachman, (1990: 290), ο βασικός στόχος στη διαδικασία ελέγχου της εγκυρότητας δοµής ενός τεστ είναι η έγκυρη ερµηνεία των αποτελεσµάτων του ως προς την ή τις ιδιότητες τις οποίες το τεστ υποστηρίζει ότι εξετάζει. Η έννοια, δηλαδή, της εγκυρότητας δοµής ενός τεστ σχετίζεται µε την καταλληλότητα των ερµηνειών που κάνουµε µε βάση τα αποτελέσµατά του. Όταν εξετάζουµε την εγκυρότητα δοµής ενός τεστ, αυτό που ελέγχουµε ουσιαστικά είναι αν τα συγκεκριµένα αποτελέσµατα µπορούν να ερµηνευτούν ως δείκτες της δεξιότητας ή των δεξιοτήτων τις οποίες θέλουµε να µετρήσουµε. Προσπαθούµε, δηλαδή, να ελέγξουµε αν τα αποτελέσµατα στο τεστ µας δείχνουν πράγµατι αυτό που ισχυρίζεται ότι µετράει. Όπως υποστηρίζουν και οι Bachman & Palmer (1996: 21), «για να δικαιολογήσουµε µια συγκεκριµένη ερµηνεία των αποτελεσµάτων ενός τεστ, χρειάζεται να αποδείξουµε ότι τα αποτελέσµατα αυτά αντανακλούν σχεδόν αποκλειστικά το ή τα πεδία της γλωσσικής ικανότητας που θέλουµε να µετρήσουµε. Για να αποδειχθεί κάτι τέτοιο, πρέπει να ορίσουµε το construct το οποίο επιθυµούµε να µετρήσουµε. Ως construct θεωρούµε το συγκεκριµένο ορισµό της ιδιότητας η οποία αποτελεί και τη βάση για ένα τεστ ή µια δραστηριότητά του, καθώς επίσης και για την ερµηνεία των αποτελεσµάτων σε αυτό» 55. Κατ αρχήν, λοιπόν, επιβάλλεται ο προσδιορισµός της φύσης του construct που θέλουµε να µετρήσουµε σύµφωνα πάντα µε το σκοπό του κάθε τεστ και µε βάση µια συγκεκριµένη θεωρία. Ο καθορισµός του θεωρητικού πλαισίου του τεστ αποτελεί, άλλωστε, και τα θεµέλιά του, καθώς από εκεί είναι που ξεκινούν όλα. Όπως όλων των ειδών οι κατασκευές πρέπει να βασίζονται κάπου, έτσι και η κατασκευή ενός τεστ θα πρέπει λογικά να στηρίζεται σε κάποια θεωρητική βάση, η οποία υπαγορεύεται από το σκοπό του. 56 55 In order to justify a particular score interpretation, we need to provide evidence that the test score reflects the area (s) of language ability we want to measure, and very little else. In order to provide such evidence, we must define the construct we want to measure. For our purposes, we can consider a construct to be the specific definition of an ability that provides the basis for a given test or test task and for interpreting scores derived from this task. 56 Περισσότερα για τον ορισµό του θεωρητικού πλαισίου ενός τεστ και τη σχέση του µε το σκοπό του στο Κεφάλαιο 2 (2.1). 23

Εφόσον οι δηµιουργοί ενός τεστ υποστηρίζουν ότι η κατασκευή του έχει γίνει βάσει ενός συγκεκριµένου θεωρητικού πλαισίου, αυτό που επιβάλλεται είναι να εξετάσουµε αν όντως ισχύει κάτι τέτοιο. Αυτό που εξετάζεται, δηλαδή, είναι αν τα αποτελέσµατα του τεστ µπορούν να ερµηνευτούν σύµφωνα µε το θεωρητικό του πλαίσιο. Με άλλα λόγια, αυτό που εξετάζεται είναι αν τα αποτελέσµατα στο τεστ όντως αποτελούν ένδειξη του συγκεκριµένου construct το οποίο ισχυρίζεται ότι µετράει. Για να είναι ολοκληρωµένος, εποµένως, ο έλεγχος της εγκυρότητας δοµής ενός τεστ, θα πρέπει στις παραπάνω µεθόδους να προστεθεί και η εσωτερική ανάλυση του ίδιου του τεστ που αξιολογείται. Ο έλεγχος των συναφειών µέσα στο ίδιο το τεστ µπορεί να διαλευκάνει το ερώτηµα αν το construct, το οποίο το τεστ ισχυρίζεται ότι µετράει, όντως εκπροσωπείται σωστά. Συγκεκριµένα, ιδιαίτερο ενδιαφέρον παρουσιάζει τόσο ο έλεγχος των συναφειών µεταξύ των αποτελεσµάτων των διαφορετικών εξεταστικών ενοτήτων ενός τεστ, όσο και µεταξύ των αποτελεσµάτων στα διαφορετικά ερωτήµατά του (items). Αν, για παράδειγµα, η κάθε εξεταστική ενότητα ενός τεστ είναι σχεδιασµένη, έτσι ώστε να µετράει διαφορετικά constructs, ή διαφορετικές πλευρές ενός construct, τότε αυτού του είδους η διαφοροποίηση λογικά θα πρέπει να «αντανακλάται» και στις σχέσεις µεταξύ των αποτελεσµάτων σε αυτές 57. Στην περίπτωση που ο έλεγχος των συναφειών περιλαµβάνει µεγάλο αριθµό αποτελεσµάτων, συνιστάται από τον Bachman (1990: 259) η χρήση της παραγοντικής ανάλυσης (factor analysis) 58. Ακόµη ένα σηµαντικό τρόπο ελέγχου της εγκυρότητας δοµής ενός τεστ, ο οποίος δεν περιορίζεται όπως οι προηγούµενοι στο «προϊόν» της εξεταστικής διαδικασίας, αλλά ασχολείται και µε την ίδια τη διαδικασία, αποτελεί η ανάλυση των διαφορετικών µεθόδων που χρησιµοποιούν οι υποψήφιοι κατά τη διάρκεια της εξέτασης. Η σηµασία της έρευνας των διαφορετικών αυτών τεχνικών έχει ήδη σηµειωθεί από τον Messick (1980: 54), ο οποίος αναφέρεται στο γεγονός ότι όντως διαφορετικά άτοµα µπορούν να «υιοθετήσουν» διαφορετικές τεχνικές και στρατηγικές ακόµη και όταν «αντιµετωπίζουν» τα ίδια ερωτήµατα. Όπως χαρακτηριστικά αναφέρει και ο Bachman (1990: 270), η συγκεκριµένη µέθοδος παρουσιάζει ιδιαίτερο ενδιαφέρον, εφόσον ουσιαστικά µας οδηγεί σε µια βαθύτερη κατανόηση του τι ακριβώς κάνουν οι υποψήφιοι όταν βρίσκονται σε µια εξεταστική διαδικασία, και, εποµένως, του τι ακριβώς είναι αυτό που το τεστ ουσιαστικά µετράει. Αυτό δεν είναι, άλλωστε, και το αντικείµενο του ελέγχου της εγκυρότητας δοµής ενός τεστ; Για την ανάλυση των διαφόρων στρατηγικών που βρίσκονται «πίσω» από τις απαντήσεις των υποψήφιων σε ένα τεστ χρησιµοποιούνται µια σειρά από µέθοδοι, όπως 57 Περισσότερα για την ανάλυση της εσωτερικής δοµής ενός τεστ στο Κεφάλαιο 3. 58 Τόσο η λογική, όσο και η εφαρµογή, της στατιστικής αυτής µεθόδου ως µέσο ελέγχου της εγκυρότητας δοµής ενός τεστ, αναλύονται στο Κεφάλαιο 3 (3.2). 24