Δρ Άννα Δελτσίδου, Eπίκουρος Καθηγήτρια

Μθδλ Μεθοδολογία Έρευνας Αξιοπιστία Εγκυρότητα Δρ Άννα Δελτσίδου, Eπίκουρος Καθηγήτρια

Βασική έρευνα (εξηγήσεις για τον κόσμο, ανάπτυξη θεωριών) Εφαρμοσμένη έρευνα (λύση σε προβλήματα). Βασική επιδίωξη είναι η βελτίωση στην καθημερινή πρακτική

Ποσοτική έρευνα: είναι μια: τυπική, αντικειμενική και συστηματική διαδικασία με την οποία επιδιώκουμε να αποκτήσουμε κάποια πληροφορία για τον κόσμο μας χρησιμοποιώντας αριθμητικά δεδομένα. Περιλαμβάνει: περιγραφή μεταβλητών, σχέσεις μεταξύ τους, πρόβλεψη...

Ποιοτική έρευνα Είναι μια: συστηματική και υποκειμενική προσέγγιση που χρησιμοποιούμε για να περιγράψουμε εμπειρίες ζωής και να τους δώσουμε κάποιο νόημα Η προσέγγιση αυτή πηγάζει από τις κοινωνικές επιστήμες και χρησιμοποιείται κυρίως για έννοιες που δεν μπορούν να ποσοτικοποιηθούν (φροντίδα, άνεση, ηθική...)

Ποσοτικές Ποιοτικές Περιγραφικές Συσχετίσεως Οιωνεί πειραματικές Πειραματικές Εθνογραφία Ιστορικές Φιλοσοφικές Ανάπτυξης θεωριών Φαινομενολογικές Μεθοδολογικές Κριτικές κοινωνιολογικές Άλλη ταξινόμηση: προοπτικές, αναδρομικές, διαχρονικές, κλπ

Μέθοδος triangulation=τριγωνοποίηση Χρήση πολλών μεθόδων για την μελέτη των ίδιων φαινομένων

Ο συνδυασμός των μεθόδων έχει χρησιμοποιηθεί για: την ανάπτυξη ερωτηματολογίων, την ανάπτυξη, δοκιμή, βελτίωση και διατύπωση θεωριών, την ερμηνεία και την τεκμηρίωση εννοιολογικών δομών και συσχετίσεων, την ανάπτυξη ερευνητικών ερωτημάτων και υποθέσεων. Ο συνδυασμός των μεθόδων απαιτεί ερευνητική εμπειρία και στα δύο πεδία και φυσικά αυξάνει κατά πολύ το κόστος της έρευνας.

Η εγκυρότητα της έρευνας (study validity) είναι μέτρο της αλήθειας και αφορά την ερευνητική διαδικασία στο σύνολό της. Η εγκυρότητα της έρευνας είναι το βασικό κριτήριο με βάση το οποίο θα ληφθεί η απόφαση για αξιοποίηση ή όχι των ευρημάτων. Είναι μια σύνθετη έννοια που είναι σημαντική τόσο για τον ερευνητή όσο και για εκείνους που θα διαβάσουν την έρευνα και θα σκεφθούν την εφαρμογή στην πράξη.

Οι Cook και Campell (1979) έχουν περιγράψει 4 τύπους εγκυρότητας της έρευνας: α) εγκυρότητα δομής, β) εσωτερική εγκυρότητα γ) εγκυρότητα στατιστικού συμπεράσματος και δ) εξωτερική εγκυρότητα.

Η εγκυρότητα δομής απαντά στο ερώτημα: μετρά το εργαλείο μέτρησης που χρησιμοποιήθηκε τις εννοιολογικές δομές ή τις έννοιες που υποτίθεται ότι μετράει;

Οι απειλές στην εγκυρότητα δομής πηγάζουν από: τη διαδικασία ανάπτυξης του εργαλείου μέτρησης ή/και τις τεχνικές και τη συγκεκριμένη μεθοδολογία μέτρησης που ακολουθήθηκε στη τη συγκεκριμένη μεθοδολογία μέτρησης που ακολουθήθηκε στη συγκεκριμένη έρευνα.

Η εγκυρότητα δομής αυξάνει όταν: χρησιμοποιούνται περισσότερα τους ενός εργαλεία μέτρησης ή μεθοδολογίες για τη μέτρηση της εξαρτημένης μεταβλητής.

Η εσωτερική εγκυρότητα μετρά το κατά πόσο η επίδραση της ανεξάρτητης ης στην εξαρτημένη μεταβλητή (συσχέτιση ή διαφορά) που βρέθηκε είναι αληθινή εικόνα της πραγματικότητας και όχι το αποτέλεσμα της επίδρασης εξωγενών παραγόντων. Αν και πρέπει να διασφαλίζεται σε όλες τις έρευνες, αφορά περισσότερο τις έρευνες που διερευνούν αιτιότητα, δηλαδή τις πειραματικές ή οιωνεί πειραματικές όπου έχουμε ομάδα ελέγχου και ομάδα παρέμβασης.

Σημαντικότερες είναι: 1. Ιστορικό (History). Κάποια κατάσταση ή συμβάν που δεν συνδέεται με την ερευνητική διαδικασία μπορεί να έχει επηρεάσει τα υποκείμενα (άρα και τις μετρήσεις) (π.χ. εξωτερικά γεγονότα που συμβαίνουν ταυτόχρονα με την ανεξάρτητη μεταβλητή και μπορεί να επηρεάσουν την εξαρτημένη μεταβλητή). Πως εξουδετερώνεται; Η απειλή αυτή εξουδετερώνεται με την τυχαία επιλογή και την τυχαία κατανομή σε ομάδες.

Π.χ. Μελέτη της αποτελεσματικότητας προγράμματος υιοθέτησης πρακτικών βελτίωσης της υγείας εγκύων γυναικών σε αγροτικές περιοχές: διακοπή καπνίσματος, πρώιμη προγεννητική φροντίδα, καλύτερες διατροφικές συνήθειες Σύγκριση μέσου βάρους νεογνών που γεννήθηκαν πριν 12 μήνες με αυτά που γεννήθηκαν 12 μήνες μετά την έναρξη του προγράμματος

2. Ωρίμανση (Maturation). Ορίζεται ως το φαινόμενο κατά το οποίο τα υποκείμενα μιας έρευνας με το πέρασμα του χρόνου αποκτούν εμπειρία (και έτσι γνωρίζουν περισσότερα) ή/και επέρχεται κόπωση με συνέπεια την αλλαγή συμπεριφοράς των υποκειμένων σε μια έρευνα. Επίσης μπορεί να υπάρχουν γεγονότα που συμβαίνουν ως αποτέλεσμα του χρόνου. Π.χ. σωματική ανάπτυξη, συναισθηματική ωριμότητα, κόπωση

Π.χ. Αξιολόγηση προγράμματος παρέμβασης για την κινητικοαισθητηριακή ανάπτυξη παιδιών με αναπτυξιακή καθυστέρηση Πως εξουδετερώνεται; Σε αυτή την περίπτωση συνιστάται η όσο το δυνατό μικρή χρονική διάρκεια της έρευνας.

3. Δοκιμασία (Testing). Μερικές φορές όταν υπάρχουν επανειλημμένες μετρήσεις (π.χ. πριν και μετά την παρέμβαση) τα υποκείμενα θυμούνται τις απαντήσεις και αυτό μπορεί να επηρεάσει τα αποτελέσματα. Πως μειώνεται; Η απειλή αυτή μειώνεται όταν χρησιμοποιείται ομάδα ελέγχου και ο χρόνος που μεσολαβεί μεταξύ μετρήσεων να είναι τόσος όσος απαιτείται για να μην θυμούνται τα υποκείμενα τις προηγούμενες απαντήσεις που έδωσαν (συνήθως είναι 3 4 εβδομάδες).

Π.χ. Αξιολόγηση η σεμιναρίου για τη βελτίωση της στάσης του νοσηλευτικού προσωπικού προς τους ασθενείς με AIDS (σύγκριση της στάσης πριν και μετά το σεμινάριο) Μπορεί οι ερωτώμενοι να ευαισθητοποιηθούν με την προδοκιμασία και η βελτίωση στη στάση τους να μην οφείλεται στο σεμινάριο βελτίωση στη στάση τους να μην οφείλεται στο σεμινάριο Πως θα αποφευχθεί; 4 ομάδες (2 ομάδες συμμετέχουν στην προδοκιμασία και την μεταδοκιμασία ενώ οι 2 μόνο στην μεταδοκιμασία μ η μ μ

Ομάδα Α Μέτρηση η Παρέμβαση Μέτρηση Ομάδα Β Ομάδα Γ Μέτρηση Παρέμβαση Μέτρηση Μέτρηση Ομάδα Δ Μέτρηση

4. Μεθοδολογία μέτρησης. Η απειλή αυτή παρουσιάζεται όταν κατά τη διάρκεια επανειλημμένων μετρήσεων αλλάζει η μεθοδολογία μέτρησης. Π.χ. μπορεί οι παρατηρητές/συνεντευκτές να αλλάξουν (άρα να αλλάξει και ο τρόπος με τον οποίο ρωτούν) ή ένα μηχάνημα να χαλάσει. Πως εξουδετερώνεται; Απαιτείται τυποποίηση και σχολαστική τήρηση των διαδικασιών μέτρησης. Αν υπάρχουν πολλοί παρατηρητές ή συνεντευκτές θα πρέπει να έχει γίνει εκπαίδευση αυτών ώστε να διασφαλιστεί η ακρίβεια της μέτρησης.

Π.χ. Χρήση μιας κλίμακας κατά την πρώτη μέτρηση και μιας αναθεωρημένης κλίμακας κατά το follow up Η διαφορά μπορεί να οφείλεται στην διαφορετική έκδοση του οργάνου μέτρησης

5. Επιλογή του δείγματος. Σφάλματα που προκύπτουν από προϋπάρχουσες διαφορές μεταξύ των ομάδων του πληθυσμού που μελετώνται (όχι τυχαία κατανομή τους σε ομάδες) Πως εξουδετερώνεται; Με αποφυγή εθελοντών και με τυχαία κατανομή των υποκειμένων στις ομάδες.

Π.χ. Μελέτη κατάθλιψης γυναικών με πρόβλημα γονιμότητας (σύγκριση επιπέδου κατάθλιψης γυναικών που απέκτησαν παιδιά με αυτό των γυναικών που δεν απέκτησαν παιδιά μετά την προσπάθεια) Η σύγκριση του επιπέδου κατάθλιψης των γυναικών αυτών πρέπει να γίνει πριν την έναρξη της θεραπείας (πριν το αποτέλεσμα)

6. Διαφυγή των υποκειμένων. Πολλές φορές κατά τη διάρκεια μιας έρευνας υπάρχει απώλεια των μελών του δείγματος λόγω αποχώρησης στο μέσον της έρευνας ή μη ανεύρεσή τους λόγω αλλαγής διευθύνσεως ή λόγω θανάτου.

Π.χ. Σεπεριπτώσειςμακρόχρονωνερευνών(σε ερευνών προοπτικές μελέτες) (Αποδεκτά όρια: <20%) Πως εξουδετερώνεται; Το πρόβλημα αυτό αντιμετωπίζεται με την επιλογή μεγαλύτερου δείγματος από το υπολογιζόμενο με βάση την ανάλυση δυνάμεως ή ισχύος (power analysis).

7. Παρέμβαση. Σε αυτή την περίπτωση κάποιοι ασθενείς έχουν πρόσβαση και σε άλλες συμπληρωματικές θεραπείες ή παρεμβάσεις ή υπάρχει μια αλλαγή της συμπεριφοράς και διαφυγή όσων δεν είναι ικανοποιημένοι από την εφαρμοζόμενη παρέμβαση ή θεραπεία.

Η εγκυρότητα στατιστικού συμπεράσματος μας βοηθάει στο να εκτιμήσουμε αν οι συσχετίσεις ή οι διαφορές που βρήκαμε με την στατιστική ανάλυση αποτελούν ακριβή απεικόνιση των όσων συμβαίνουν στην πραγματικότητα. Η εγκυρότητα του στατιστικού συμπεράσματος σχετίζεται κυρίως με: την επιλογή, την τήρηση των προϋποθέσεων και την εφαρμογή των στατιστικών δοκιμασιών.

1. Δεν έχει γίνει ανάλυση ισχύος (power analysis) για τον υπολογισμό του απαιτούμενου δείγματος ώστε να ανιχνευθεί μια συγκεκριμένη συσχέτιση ή διαφορά. 2. Δεν τηρούνται οι προϋποθέσεις των στατιστικών δοκιμασιών π.χ. κανονική κατανομή, κλίμακα διαστημάτων κτλ.

3. Χρησιμοποιούνται πολλαπλές αναλύσεις ή συγκρίσεις μεταξύ μεταβλητών (fishing error) π.χ. συγκρίνω τέσσερις ομάδες ως προς τη μέση τιμή ενός χαρακτηριστικού και εφαρμόζω T test για τις συγκρίσεις μεταξύ των ομάδων (6 ζεύγη) αντί να εφαρμόσω τη δοκιμασία ANOVA.

4. Δεν υπάρχει αξιοπιστία των μετρήσεων π.χ. συμφωνία μεταξύ διαδοχικών μετρήσεων ενός ερωτηματολογίου. 5. Δεν υπάρχει αξιοπιστία στην εφαρμογή της παρέμβασης π.χ. γίνεται εκπαίδευση ασθενών, αλλά από διαφορετικά άτομα και όχι με τον ίδιο ακριβώς τρόπο.

6. Υπάρχουν εξωγενείς παράγοντες που επηρεάζουν την μέτρηση της εξαρτημένης μεταβλητής π.χ. σε μελέτη μέτρησης της ποιότητας φροντίδας (εξαρτημένη μεταβλητή) υπάρχουν παράμετροι όπως: ρχ ρ μ ρ ς διαφορετικό προσωπικό, διαφορετικό σύστημα εργασίας ή ένα πρόσφατο σημαντικό γεγονός που επηρεάζει την ποιότητα της φροντίδας που μετράει ο ερευνητής.

7. Υπάρχει τυχαία ετερογένεια εια των στοιχείων του δείγματος. Δηλαδή, όταν τα μέλη της πειραματικής ομάδας διαφέρουν ως προς αυτά της ομάδας ελέγχου και η διαφορά αυτή επηρεάζει την εξαρτημένη μεταβλητή π χ εφαρμόζεται ένα πρόγραμμα ενημέρωσης σε γυναίκες πριν την π.χ. εφαρμόζεται ένα πρόγραμμα ενημέρωσης σε γυναίκες πριν την καισαρική τομή για να μελετηθεί η επίπτωση στο στρες μετά την επέμβαση, αλλά στην πειραματική ομάδα έχουν συμπεριληφθεί γυναίκες με υψηλότερο στρες σε σχέση με την ομάδα ελέγχου.

Η εξωτερική εγκυρότητα σχετίζεται με το βαθμό γενίκευσης των αποτελεσμάτων στον πληθυσμό από τον οποίο επιλέχθηκε το δείγμα. Με την ευρεία έννοια η γενίκευση μπορεί να αφορά: τα υποκείμενα, το περιβάλλον ή/και τον χρόνο.

1. Αλληλεπίδραση επιλογής και παρέμβασης. To ερώτημα που πρέπει να γίνει εδώ είναι το εξής: Ποια άτομα αποτελούν το δείγμα; Ποια τα χαρακτηριστικά τους; Υπάρχουν εθελοντές; Πόσοι αρνήθηκαν συμμετοχή στην έρευνα; Για την αξιολόγηση της εξωτερικής εγκυρότητας απαιτείται μια καλή περιγραφή των παραπάνω στοιχείων. Μήπως τα υποκείμενα επηρεάζονται και τροποποιούν τη συμπεριφορά τους επειδή γνωρίζουν ότι συμμετέχουν στην έρευνα; (επίδραση προσδοκιών).

2. Αλληλεπίδραση περιβάλλοντος και παρέμβασης. Πολλά νοσοκομεία ή τμήματα είναι πρόθυμα για την συμμετοχή σε έρευνες ενώ άλλα είναι απρόθυμα. Οι διαφορές μεταξύ των τμημάτων ή των οργανισμών είναι δυνατό να είναι μεγάλες και για αυτό η γενίκευση σε αυτά να μην είναι δυνατή. Με την αυστηρή έννοια του όρου γενίκευση σε άλλους οργανισμούς ή περιβάλλοντα δεν μπορεί να γίνει.

3. Αλληλεπίδραση ιστορίας και παρέμβασης. Κατά την διάρκεια της έρευνας είναι δυνατό να συμβούν αλλαγές (οργανωτικές, νομοθετικές κτλ.) που να μην επιτρέπουν την γενίκευση των αποτελεσμάτων. Προκειμένου να αξιολογηθεί αυτή η παράμετρος θα πρέπει να είναι γνωστές οι αλλαγές στον ευρύτερο επαγγελματικό και επιστημονικό χώρο καθώς επίσης και αν έγιναν σημαντικά κοινωνικά ή οικονομικά συμβάντα. Υπό την αυστηρή έννοια του όρου γενίκευση στο μέλλον δεν μπορεί να γίνει.

Οι στρατηγικές για την μείωση των παραγόντων που απειλούν την εγκυρότητα βασίζονται στον έλεγχο των ακόλουθων παραμέτρων: 1. Περιβάλλον. Το περιβάλλον, ειδικά όταν γίνονται συγκρίσεις δεν θα πρέπει να διαφέρει ως προς παράγοντες που μπορεί να επηρεάσουν τις μετρήσεις

2. Ισοδυναμία των υποκειμένων και των ομάδων του δείγματος. Η τυχαία δειγματοληψία και η τυχαία κατανομή σε ομάδες συνεισφέρουν σημαντικά στην μείωση αυτών των απειλών Θα πρέπει: τα κριτήρια επιλογής να είναι σαφή και τα χαρακτηριστικά των ομάδων θα πρέπει να μετρώνται, να συγκρίνονται και να αναφέρονται στην περιγραφή του δείγματος.

3. Παρέμβαση. Πρώτα από όλα πρέπει να υπάρχει ξεκάθαρη και πλήρης περιγραφή της παρέμβασης η οποία θα πρέπει να είναι ακριβώς η ίδια για όλα τα υποκείμενα χωρίς αποκλίσεις. Π.χ. Αν η παρέμβαση είναι η πληροφόρηση στον ασθενή, θα πρέπει να διασφαλιστεί ότι γίνεται με τον ίδιο τρόπο και έχουν ελεγχθεί παράγοντες μεταβλητότητας όπως η ώρα, το άγχος, ο πόνος, αλληλεπίδραση λ με άλλους ή ο χρόνος αναμονής για την παρέμβαση. Επίσης εάν η παρέμβαση είναι φαρμακευτική θα πρέπει να ελεγχθεί η αλληλεπίδραση με προηγούμενες θεραπείες.

4. Μέτρηση. Η μεθοδολογία μέτρησης θα πρέπει να είναι η ίδια. Οι οδηγίες για παράδειγμα θα πρέπει να δοθούν σε όλους με τον ίδιο τρόπο και οι παρατηρητές να έχουν εκπαιδευτεί έτσι ώστε να έχουν υψηλό βαθμό συμφωνίας. 5. Εξωγενείς μεταβλητές. Οι παράγοντες αυτοί είναι συνήθως: η ηλικία, το φύλο, το μορφωτικό επίπεδο, η κοινωνική και η οικονομική κατάσταση, η σοβαρότητα της ασθένειας και η κατάσταση του αρρώστου, το λειτουργικό επίπεδο.

η τυχαία επιλογή του δείγματος, ητυχαία κατανομή σε ομάδες, η επιλογή συγκεκριμένων ατόμων (ομοιογένεια) ή ατόμων με διαφορετικά χαρακτηριστικά (ετερογένεια) η προτύπωση, η επιλογή με συνδυασμό διαστρωμάτωσης και αναλογικής επιλογής, το ταίριασμα των μελών του δείγματος (matching) και ο στατιστικός έλεγχος (π.χ. ανάλυση της συνδιακύμανσης ή συμμεταβλητότητας). )

Αξιοπιστία μέτρησης Η αξιοπιστία (reliability) είναι μέτρο του τυχαίου σφάλματος της μέτρησης και αντανακλά την συνέπεια (consistency) με την οποία ένα εργαλείο μέτρησης μετράει ένα χαρακτηριστικό. Ένα εργαλείο μέτρησης είναι αξιόπιστο για ένα συγκεκριμένο πληθυσμό όταν σε επανειλημμένες μετρήσεις του ίδιου χαρακτηριστικού παράγει σύμφωνα αποτελέσματα, δηλαδή αποτελέσματα που δε διαφέρουν σε μεγάλο βαθμό. Η αξιοπιστία είναι δυνατό να αξιολογηθεί με βάση τρεις ιδιότητες: τη σταθερότητα (stability), την ισοδυναμία (equivalence) και την ομοιογένεια ο ο α(homogeneit (homogeneity).

Αφορά στη συμφωνία μεταξύ διαδοχικών μετρήσεων και συχνά αναφέρεται ως αξιοπιστία δοκιμασίας επαναδοκιμασίας (test retest reliability). Προκειμένου να αξιολογηθεί αυτή η ιδιότητα θα πρέπει το χαρακτηριστικό που μετράται να παραμένει το ίδιο κάτι που είναι δύσκολο σε κάποιες περιπτώσεις, όπως για παράδειγμα η ψυχολογική ή η σωματική κατάσταση σε ασθενείς που νοσηλεύονται στο νοσοκομείο. Στα μηχανήματα η επανάληψη μιας μέτρησης ης είναι δυνατό να γίνει άμεσα με το ίδιο δείγμα από την ουσία, ενώ στα ερωτηματολόγια πρέπει να μεσολαβήσει ένα διάστημα από 2 4 εβδομάδες μεταξύ των δύο μετρήσεων προκειμένου τα υποκείμενα να μη θυμούνται τις απαντήσεις που έδωσαν.

Σύμφωνα με αυτή τη μέθοδο, επαναλαμβάνουμε την ίδια δοκιμασία στα ίδια άτομα, κάτω από τις ίδιες συνθήκες και στη συνέχεια αναζητούμε συσχέτιση ανάμεσα στα αποτελέσματα. Συνήθως, όσο μικρότερος είναι ο χρόνος που μεσολαβεί για τη δεύτερη μέτρηση τόσο ισχυρή είναι η συσχέτιση μέτρηση, τόσο ισχυρή είναι η συσχέτιση. Η συμφωνία μετριέται με την συσχέτιση μεταξύ των δύο μετρήσεων και συνήθως χρησιμοποιείται ο συντελεστής συσχέτισης του Pearson ή του Spearman και ο συντελεστής αλληλοσυσχέτισης (intercorrelation coefficient, ICC), των βαθμών δύο μετρήσεων με το όργανο, του ίδιου δείγματος.

Αφορά στη συμφωνία ανάμεσα σε δύο ή περισσότερες εκδόσεις ή τύπους του εργαλείου μέτρησης, οπότε και ονομάζεται αξιοπιστία εναλλακτικών ή παράλληλων μορφών (alternate or parallel forms reliability) ή στο βαθμό συμφωνίας ανάμεσα σε δύο ή περισσότερους διαφορετικούς παρατηρητές, οπότε και ονομάζεται αξιοπιστία μεταξύ παρατηρητών (interrater reliability).

Για την αξιολόγηση των παράλληλων ή εναλλακτικών μορφών ενός εργαλείου μέτρησης ης χρησιμοποιείται η συσχέτιση όπως και προηγουμένως. Για την αξιοπιστία μεταξύ παρατηρητών, οι παρατηρητές θα πρέπει να αξιολογήσουν τουλάχιστον 10 υποκείμενα ή συμβάντα. Σ αυτή την περίπτωση η αξιολόγηση μπορεί να γίνει με απλό τρόπο με το ποσοστό συμφωνίας ή με τον υπολογισμό ειδικών συντελεστών όπως ο συντελεστής συσχέτισης Kappa (coefficient of agreement).

Σε αυτή την περίπτωση, δίνουμε έναν παράλληλο τύπο της κλίμακάς μας στα ίδια άτομα, κάτω από τις ίδιες συνθήκες και μετά ελέγχουμε τη συσχέτισή τους. Ένας εναλλακτικός τρόπος είναι να δημιουργήσουμε μ μια μεγάλη ομάδα ερωτήσεων που αντιπροσωπεύουν την ίδια κατασκευή και μετά να χωρίσουμε τυχαία τις ερωτήσεις σε δύο κατηγορίες. Δίνουμε και τις δύο κατηγορίες ερωτήσεων στους ίδιους ανθρώπους. Ο συντελεστής συσχέτισης μεταξύ αυτών των δύο κατηγοριών ερωτήσεων θεωρείται δείκτης της αξιοπιστίας της κλίμακας. Ασφαλώς, η μέθοδος αυτή έχει πολλές δυσκολίες, καθώς είναι δύσκολο να δημιουργήσει κανείς ερωτήσεις που αντανακλούν την ίδια κατασκευή και να έχει δύο κατηγορίες παράλληλων ή ισοδύναμων ερωτήσεων.

Αφορά στη συμφωνία μεταξύ των ερωτήσεων που αποτελούν το εργαλείο μέτρησης (ερωτηματολόγιο). Βασίζεται στην αρχή ότι οι ερωτήσεις που αποτελούν ένα ερωτηματολόγιο θα πρέπει να μετρούν το ίδιο χαρακτηριστικό. Το ίδιο βέβαια θα πρέπει να ισχύει και για τις επιμέρους διαστάσεις (ή κατηγορίες ερωτήσεων) ενός ερωτηματολογίου. Αν η βαθμολογία αθροίζεται, τότε εκτιμάται τόσο η ομοιογένεια των επιμέρους διαστάσεων όσο και του ερωτηματολογίου συνολικά.

Η μέθοδος της αξιοπιστίας των ημικλάστων (split half) ουσιαστικά είναι μια μέθοδος αντίστοιχη της δοκιμασίας επαναδοκιμασίας με τη διαφορά ότι δεν συγκρίνονται οι τιμές δύο μετρήσεων αλλά οι τιμές δύο τμημάτων του ερωτηματολογίου. Δηλαδή, με αυτή τη μέθοδο το ερωτηματολόγιο διαιρείται σε δύο μέρη και στη συνέχεια αξιολογείται η συμφωνία (συσχέτιση) των αποτελεσμάτων των δύο αυτών τμημάτων με τον συντελεστή Spearman Brown. Ηδ διαίρεση μπορεί να γίνει με τυχαίο τρόπο, μονά άζυγά κτλ.

Τελευταία, χρησιμοποιείται κυρίως η αξιολόγηση της ομοιογένειας των ερωτήσεων ολόκληρου του ερωτηματολογίου ή/και των διαστάσεών του με τον συντελεστή αξιοπιστίας εσωτερικής συνέπειας/συνοχής/συνάφειας (internal consistency reliability) που είναι: ο Cronbach alpha για διατάξιμα και ποσοτικά δεδομένα και ο KR 20 και 21 όταν τα δεδομένα είναι διχοτομικά (π.χ. του τύπου ναι όχι και συμφωνώ διαφωνώ).

Ο συντελεστής Cronbach alpha είναι ισοδύναμος εννοιολογικά με την μέση τιμή όλων των πιθανών τιμών της αξιοπιστίας των ημικλάστων και δείχνει κατά πόσο το εργαλείο μέτρησης έχει συμπεριλάβει όλες τις δυνατές ερωτήσεις που μετρούν την έννοια. Επίσης, θα μπορούσαμε να πούμε ότι εκφράζει τη «μέση» συσχέτιση των ερωτήσεων. Στην περίπτωση αυτή, διανέμεται η κλίμακα σε ένα δείγμα ατόμων, μία φορά, προκειμένου να εκτιμήσουμε την αξιοπιστία της, δηλαδή πόσο καλά οι ερωτήσεις αντανακλούν την ίδια κατασκευή (Kuder & Richardson, 1957)

Οι τιμές που παίρνει είναι από 0 έως 1. Τιμή ίση με τη μονάδα σημαίνει ότι όλες οι ερωτήσεις μετρούν ακριβώς το ίδιο χαρακτηριστικό. Δηλαδή κάθε υποκείμενο απαντά με τον ίδιο ακριβώς τρόπο σε όλες τις ερωτήσεις. Επομένως θα μπορούσε κάποιος να χρησιμοποιήσει μόνο μια ερώτηση. Τιμή ίση με μηδέν σημαίνει ότι οι ερωτήσεις μετρούν τελείως διαφορετικά χαρακτηριστικά. Επομένως θα πρέπει να προστεθούν ερωτήσεις για να καλυφθούν όλα τα χαρακτηριστικά της έννοιας που μετριέται. Μια τιμή από 07έως 0.7 0.9 09δείχνει ότι το ερωτηματολόγιο αντανακλά περισσότερο τις μικρές διαφορές και τα διάφορα επίπεδα της έννοιας

Κάποιοι ερευνητές προτείνουν ως αποδεκτούς τους ακόλουθους σταθμισμένους συντελεστές αξιοπιστίας: α=0,95 για την εσωτερική συνοχή/συνέπεια της κλίμακας, r(pearson coefficient) = 0,90 για επαναληπτική μέτρηση (test retest) α = 0,85 για παραλλαγές της κλίμακας. Το όριο για το χαρακτηρισμό μιας κλίμακας ως αξιόπιστης είναι ένας συντελεστής α>0 α>0,70. Ο Nunnally, ωστόσο, υποστηρίζει ότι ένας συντελεστής εσωτερικής συνάφειας Cronbach's alpha μεταξύ 0,50 και 0,60 είναι αρκετός στα αρχικά στάδια της μελέτης, ενώ όταν πρόκειται να εξαχθούν σημαντικά συμπεράσματα, το ελάχιστο είναι ένας α=0,90 με πιο επιθυμητή την τιμή α=0,95. (Nunnally, 1979, 1994; Payne, 1993)

Ιδιαίτερα σε ότι αφορά τη βιβλιογραφία για την ικανοποίηση των ασθενών, είναι συχνό φαινόμενο η αναφορά υψηλών συντελεστών εσωτερικής συνάφειας/συνέπειας/συνοχής Cronbach's alpha. O Fitzpatrick εξηγεί ότι αυτό το φαινόμενο οφείλεται στο γεγονός πως οι ασθενείς τείνουν να εκφράζουν υψηλά επίπεδα ικανοποίησης από όλες τις διαστάσεις της παρεχόμενης φροντίδας, σε σημείο που να καθίσταται προβληματική η εμπιστοσύνη στις συσχετίσεις μεταξύ των ερωτήσεων, ως δείκτη αξιοπιστίας της αντίστοιχης κλίμακας. (Fitzpatrick, 1993)

Ηχρήσηκλιμάκων κλιμάκων, όπως του τύπου Likert, αποτελεί μια κοινή πρακτική στις περισσότερες έρευνες. Ο Garner (1960), προτείνει τη χρήση κλιμάκων με πάνω από 20 κατηγορίες απαντήσεων για την άντληση της μέγιστης δυνατής πληροφορίας. Οι Green και Rao ( 1970) προτείνουν τη χρήση 6 βαθμων ή 7βαθμων κλιμάκων, πιστεύοντας ότι ηαύξηση ητου εύρους των απαντήσεων πέραν της 7βαθμης β κλίμακας δίνει λίγη παραπάνω πληροφορία.

Ο Symonds (1924) ήταν ο πρώτος που υποστήριξε τη θετική συσχέτιση της αξιοπιστίας με τη χρήση 7βαθμης κλίμακας απαντήσεων. Επίσης ο Miller (1956), υποστήριξε ότι το ανθρώπινο μυαλό έχει τη δυνατότητα να διακρίνει ένα εύρος 7 απαντήσεων με μια απόκλιση ±2. Ηχρήσητης7βαθμης κλίμακας προτάθηκε και από άλλους. Κάποιοι ερευνητές ανέφεραν υψηλότερους συντελεστές αξιοπιστίας για τις 5βαθμες κλίμακες. Nunally & Bernstein, 1994; Finn, 1972; Ramsay, 1973; Jenkins & Taber, 1977; Lissitz & Green, 1975; McKelvie, 1978; Remmers & Wart, 1941)

Αργότερα, ο Bendig διαπιστώνει: μια σταθερότητα στους συντελεστές αξιοπιστίας επαναληπτικών μετρήσεων για τις κλίμακες Likert με 2, 3, 5, 7 και 9 απαντήσεις, μια σταθερότητα στους συντελεστές αξιοπιστίας μεταξύ των παρατηρητών/βαθμολογητών (interrater) για τις κλίμακες με 3, 5, 7 απαντήσεις. Λίγοι μόνο ερευνητές συμφώνησαν με τον Bendig, ότι δηλαδή η αξιοπιστία είναι ανεξάρτητη από τον αριθμό των κατηγοριών των πιθανών απαντήσεων. (Bendig, 1953,1954; Boot, 1981; Brown et al., 1991; Komorita, 1963; Matell & Jacoby, 1971; Remington et al., 1979)

Σε μια πιο πρόσφατη έρευνα των Preston και Colman, στην οποία συμμετείχαν 149 φοιτητές ηλικίας 18 60 ετών, διαπιστώθηκε ότι: η μικρότερη τιμή του συντελεστή Cronbach's alpha αντιστοιχεί στις δυαδικές και 3βαθμες κλίμακες (α=0,86 0,88), ενώ η μέγιστη δυνατή, στην 7βαθμη, 8βαθμη, 9βαθμη και 10βαθμη κλίμακα (α=0,94). (Preston & Colman, 2000)

Η εγκυρότητα (validity) είναι μέτρο του συστηματικού σφάλματος της μέτρησης και δείχνει κατά πόσο το εργαλείο μέτρησης μετρά αυτό που υποτίθεται ότι μετρά. Μπορεί επίσης να οριστεί ως ο βαθμός που το εργαλείο μέτρησης διακρίνει αυτούς που έχουν και αυτούς που δεν έχουν το χαρακτηριστικό ή τη συμπεριφορά που μετριέται. Ο βαθμός στον οποίο το εργαλείο μέτρησης μετράει κάτι άλλο και όχι την υπό μελέτη έννοια είναι συστηματικό σφάλμα. Όσο το συστηματικό σφάλμα μειώνεται τόσο η εγκυρότητα αυξάνει.

Η αξιοπιστία και η εγκυρότητα δεν είναι ανεξάρτητες. Ένα εργαλείο μέτρησης που δεν είναι αξιόπιστο δεν μπορεί να είναι έγκυρο. Το αντίθετο όμως μπορεί να συμβεί. Δηλαδή, ένα εργαλείο μέτρησης να είναι αξιόπιστο χωρίς να είναι έγκυρο. Π.χ., ένας ερευνητής μπορεί να θέλει να μετρήσει την ικανοποίηση των χ ρ η ή μ ρ μ ρή η η η ασθενών με τον χρόνο που αφιερώνουν για να δουν τηλεόραση. Μπορεί η μέτρησή του να είναι αξιόπιστη (να υπάρχει δηλαδή συμφωνία ανάμεσα σε μετρήσεις), αλλά δεν μετράει αυτό που υποτίθεται ότι έπρεπε να μετράει.

Στην βιβλιογραφία αναφέρονται τρεις τύποι εγκυρότητας μέτρησης: η εγκυρότητα περιεχομένου η εγκυρότητα δομής και η εγκυρότητα κριτηρίου.

Παλαιότερα, ο μόνος τύπος εγκυρότητας που αναφερόταν στις περισσότερες έρευνες ήταν η εγκυρότητα όψεως ή φαινομενική (face validity) που απλά επιβεβαίωνε ότι το εργαλείο ή η τεχνική μέτρησης «έδινε την εντύπωση» ή ότι «έδειχνε» να μετρούσε το περιεχόμενο μιας έννοιας. Π.χ. αν γινόταν μια αξιολόγηση της ποιότητας της φροντίδας με ένα συγκεκριμένο εργαλείο και τα αποτελέσματα συμφωνούσαν με την άποψη των ειδικών τότε θα μιλούσαμε για ενδείξεις εγκυρότητας.

Η εγκυρότητα περιεχομένου εξετάζει τον βαθμό στον οποίο ένα εργαλείο μέτρησης (π.χ. ερωτηματολόγιο) περιλαμβάνει ερωτήσεις που αντιπροσωπεύουν όλες τις πιθανές περιοχές που συνιστούν την έννοια που μετριέται και εξαρτάται άμεσα από τον τρόπο ανάπτυξής του. Οι περιοχές αυτές καθορίζονται: μέσω της εκτεταμένης βιβλιογραφικής ανασκόπησης ή/και ή ώ θόδ ό ή άλ ώ με τη χρήση ποιοτικών μεθόδων, όπως της τεχνικής της ανάλυσης εννοιών (concept analysis).

Η εγκυρότητα περιεχομένου εφαρμόζεται τόσο: στις μετρήσεις στάσεων, συναισθημάτων και συμπεριφοράς όσο και στις μετρήσεις γνώσεων και η τεκμηρίωση μπορεί να βασιστεί: α) στην εκτεταμένη βιβλιογραφική ανασκόπηση β) στη χρησιμοποίηση εκπροσώπων από την πληθυσμό αναφοράς (representatives of the relevant populations) και γ) στην συμμετοχή ειδικών στο αντικείμενο της μελέτης.

Ένδειξη εγκυρότητας από παραγοντική ανάλυση (Factor analysis) Η μέτρηση μιας έννοιας μπορεί να περιλαμβάνει περισσότερα από ένα χαρακτηριστικά που συνιστούν τις περιοχές ή διαστάσεις της έννοιας αυτής. Η ανάλυση παραγόντων (factor analysis) είναι μια στατιστική μέθοδος ανάδειξης παραγόντων, δηλαδή ομάδων ερωτήσεων που συσχετίζονται περισσότερο μεταξύ τους παρά με τις άλλες. Επομένως ή παραγοντική ανάλυση αναδεικνύει τις διαστάσεις μιας έννοιας ή σε περίπτωση που αυτές είναι γνωστές (με βάση τη θεωρία ή άλλες έρευνες) ) δείχνει κατά πόσο το εργαλείο μέτρησης τις αντανακλά, άρα και αν το εργαλείο μέτρησης μετράει αυτό που υποτίθεται ότι μετράει

Με τη διαδικασία αυτή, ένας μεγάλος αριθμός μεταβλητών μειώνεται σε ένα μικρότερο αριθμό παραγόντων. Έτσι, η παραγοντική ανάλυση «σχεδιάστηκε για να εξετάσει τη συνδιακύμανση μιας ομάδας μεταβλητών και να ερμηνεύσει τις συσχετίσεις ανάμεσα σε αυτές τις μεταβλητές, ομαδοποιώντας τες σε παράγοντες». (Carr, 1992; Gorsuch, 1983)

Για αυτό και η παραγοντική ανάλυση μπορεί να γίνει για διερεύνηση, δηλαδή για ανάδειξη παραγόντων οπότε ονομάζεται διερευνητική παραγοντική ανάλυση (exploratory factor analysis) ή για επιβεβαίωση ενός ορισμού ή ενός μοντέλου (θεωρητικού ή εμπειρικού), οπότε ονομάζεται επιβεβαιωτική παραγοντική ανάλυση (confirmatory factor analysis). Όταν αναπτύσσεται ένα ερωτηματολόγιο, οι ερωτήσεις που δεν εντάσσονται σε κάποιο παράγοντα είναι δυνατό να παραληφθούν.

Η διερευνητική παραγοντική ανάλυση χρησιμοποιείται για τη διερεύνηση ητων δεδομένων που προσδιορίζουν τον αριθμό ή τη φύση των παραγόντων που εξηγούν τη συνδιακύμανση μεταξύ των μεταβλητών, όταν ο ερευνητής δεν έχει εκ των προτέρων την κατάλληλη μαρτυρία για να σχηματίσει μια υπόθεση για τον αριθμό των παραγόντων που ερμηνεύουν τα δεδομένα. Ως εκ τούτου, αυτό το είδος της παραγοντικής ανάλυσης προσφέρει υποστήριξη στη διάχυση μιας θεωρίας, παρά στον έλεγχο αυτής της θεωρίας. (Stevens, 1996)

Η επιβεβαιωτική παραγοντική ανάλυση συνιστά ένα μοναδικό τρόπο για τον έλεγχο μιας θεωρίας, καθώς ο ερευνητής ξεκινά με μια υπόθεση πριν από την ανάλυση. Ηυπόθεσηαυτήβασίζεταισεμιαισχυρήθεωρίαήμιαπαρατήρηση, σε ισχυρή θεωρία ή παρατήρηση, ενώ ορίζει ποιες μεταβλητές θα σχετίζονται με ποιους παράγοντες, όπως επίσης και ποιοι παράγοντες θα σχετίζονται μεταξύ τους.

Εξ ορισμού, αυτού του είδους η παραγοντική ανάλυση είναι πιο αξιόπιστη στην αξιολόγηση της εγκυρότητας εννοιολογικής κατασκευής της κλίμακας. Έχοντας προσδιορίσει ο ερευνητής εκ των προτέρων τους παράγοντες, είναι σε θέση να τους συγκρίνει με αυτούς που βρέθηκαν από μια ομάδα δεδομένων, προκειμένου να προσδιορίσει την καταλληλότητα (goodness of fit) του μοντέλου.

Σε γενικές γραμμές, παραγοντικές φορτίσεις της τάξης του: 0,71 θεωρούνται πολύ υψηλές, 0,63 υψηλές, 0,55 ικανοποιητικές, 0,45 μέτριες, 0,32 χαμηλές και κάτω από 0,30 μη αξιολογήσιμες. Οι περισσότεροι ερευνητές υποστηρίζουν ότι δεν υπάρχει κάποια συμφωνία στις τιμές, ό φ ύ ό 030ή 035 ό δ ή ή φό ωστόσο συμφωνούν στο όριο 0,30 ή 0,35 ως τη μικρότερη αποδεκτή τιμή φόρτισης. Οι Norman και Streiner δίνουν έναν εναλλακτικό τύπο για τον υπολογισμό της ελάχιστης αποδεκτής φόρτισης για δείγμα μεγαλύτερο ή ίσο των 100 ατόμων. (Cormey, 1973; Norman & Streiner, 1994)

Δεν υπάρχει επιστημονική απάντηση στην ερώτηση πόσες περιπτώσεις απαιτούνται για την εκτέλεση παραγοντικής ανάλυσης, καθώς οι απόψεις διίστανται. Από την ανασκόπηση της σχετικής βιβλιογραφίας προκύπτουν τα εξής: Ο κανόνας των 10. Θα πρέπει να υπάρχουν τουλάχιστον 10 περιπτώσεις για κάθε μία ερώτηση της κλίμακας που χρησιμοποιείται κάθε μία ερώτηση της κλίμακας που χρησιμοποιείται. Αναλογία ατόμων/μεταβλητές. Η αναλογία ατόμων προς μεταβλητές δεν πρέπει να είναι μικρότερη από 5. (Νunally, 1979; Hulka et al., 1971; Bryan & Yarnolds, 1995)

Ο κανόνας των 100. Ο αριθμός των ατόμων του δείγματος πρέπει να είναι 5 φορές μεγαλύτερος του αριθμού των μεταβλητών ή να είναι 100. Ο κανόνας των 150. Οι Hutcheson και Sofroniou προτείνουν τουλάχιστον 150 300 περιπτώσεις. Ο κανόνας των 200. Πρέπει να υπάρχουν τουλάχιστον 200 περιπτώσεις, ανεξάρτητα από την αναλογία ατόμων προς μεταβλητές. (Gorsuch, 1983; Hatcer, 1994; Hutcheson & Sofroniou, 1999)

Σε πολλές περιπτώσεις υπάρχουν διαθέσιμα άλλα εργαλεία μέτρησης που μετρούν την ίδια ή παραπλήσιες (συναφείς) έννοιες. Τότε γίνεται ταυτόχρονη μέτρηση σε ένα δείγμα με όλα τα διαθέσιμα ερωτηματολόγια. Αν οι μετρήσεις συσχετίζονται, τότε αυξάνεται η εγκυρότητα όλων των ερωτηματολογίων.

Στην περίπτωση που αναπτύσσεται ένα ερωτηματολόγιο, τότε γίνεται ταυτόχρονη μέτρηση με ένα τουλάχιστον έγκυρο ερωτηματολόγιο που μετρά την ίδια έννοια, (ή συναφή έννοια αν δεν υπάρχει). Αν οι μετρήσεις συσχετίζονται τότε επειδή το ένα είναι έγκυρο τεκμηριώνεται ότι και το άλλο είναι έγκυρο.

Αν στην προηγούμενη περίπτωση διαπιστωθεί ότι το κάθε ερωτηματολόγιο διακρίνει τις μικρές διαφορές που υπάρχουν μεταξύ των συναφών εννοιών τότε αυξάνεται η εγκυρότητα όλων των ερωτηματολογίων. Στην περίπτωση που αναπτύσσεται ένα ερωτηματολόγιο, τότε γίνεται ταυτόχρονη μέτρηση με ένα τουλάχιστον έγκυρο ερωτηματολόγιο που μετρά μια συναφή έννοια. Αν τώρα οι μετρήσεις δείξουν τις μικρές διαφορές τότε τεκμηριώνεται η εγκυρότητα του υπό ανάπτυξη εργαλείου μέτρησης.

Αν υπάρχουν διαθέσιμα εργαλεία μέτρησης που μετρούν αντίθετες έννοιες (ή αρνητικά συσχετιζόμενες) με αυτή που μετρά ένα υπό ανάπτυξη ή υπό έλεγχο εργαλείο μέτρησης τότε όπως και στην προηγούμενη περίπτωση δίνονται ταυτόχρονα στο ίδιο δείγμα και αν οι μετρήσεις επιβεβαιώσουν την αρνητική συσχέτιση τότε αυξάνεται η εγκυρότητα και των δύο εργαλείων μέτρησης ης( (σύμπτυξη μ ξημε την προηγούμενη η κατηγορία;) Συνήθως γίνεται συνδυασμός των δύο περιπτώσεων, δηλαδή της σύγκλισης και της απόκλισης, με βάση την τεχνική που είναι γνωστή ως multi trait multi matrix method (Campbell & Fiske, 1959).

Εδώ η ορολογία ποικίλλει. Σύμφωνα πάντως με τους περισσότερους ερευνητές η εγκυρότητα κριτηρίου μπορεί να διακριθεί σε προβλεπτική ή ταυτόχρονη, ανάλογα με το αν μεσολαβεί αρκετό διάστημα ανάμεσα στη μέτρηση και το κριτήριο.

Αν υπάρχουν γεγονότα που θα συμβούν στο μέλλον και είναι δυνατό να προβλεφθούν από την ύπαρξη ή μη της υπό μελέτης έννοιας, τότε γίνεται μέτρηση με το εργαλείο μέτρησης και αν οι μετρήσεις ε αυτές προβλέψουν το γεγονός, δηλαδή συμβεί το γεγονός, τότε όε για το εργαλείο μέτρησης υπάρχει ένδειξη ότι είναι έγκυρο. Κλασσική περίπτωση είναι η αξιολόγηση της γνώσης των Αγγλικών με το GRE, και η συσχέτιση (πρόβλεψη) που έχει με την επιτυχή ή όχι ολοκλήρωση των σπουδών στο εξωτερικό. Το γεγονός μπορεί βέβαια να αφορά και μια μέτρηση ενός άλλου χαρακτηριστικού στο μέλλον π.χ. επίδοσης στην εργασία.

Π.χ. το κριτήριο για την εκτίμηση της προβλεπτικής εγκυρότητας μιας κλίμακας που εκτιμά την ικανοποίηση των ασθενών από την ποιότητα της παρεχόμενης φροντίδας είναι η δυνατότητα πρόβλεψης της μελλοντικής συμπεριφοράς του ασθενούς, με την ερώτηση «θα προτείνατε αυτή την υπηρεσία σε ένα φίλο σας;», δεδομένου ότι η τάση του ανθρώπου να εκδηλώνει μια συμπεριφορά και η μελλοντική του συμπεριφορά άθεωρούνται συνώνυμοι όροι.

Αν με βάση τη θεωρία, υπάρχει μια συσχέτιση (για παράδειγμα θετική) της υπό μελέτη έννοιας Α με μια άλλη έννοια Β που έχει τεκμηριωθεί και υπάρχει έγκυρο ερωτηματολόγιο για τη Β τότε αν δοθούν και τα δύο ερωτηματολόγια και επιβεβαιωθεί η θεωρητική συσχέτιση, τότε αφού το Β είναι έγκυρο τότε και το Α είναι έγκυρο.

Ο έλεγχος της ταυτόχρονης εγκυρότητας γίνεται στη βάση της συνάφειας της αξιολογούμενης κλίμακας με ένα αντικειμενικό κριτήριο της εννοιολογικής κατασκευής για την οποία τη χρησιμοποιούμε. Π.χ. Για τον έλεγχο της εγκυρότητας της κλίμακας Self Efficacy for Exercise Scale έγινε συσχέτιση της βαθμολογίας των συμμετεχόντων με το εάν είχαν τακτική δραστηριότητα, η οποία καθορίσθηκε ως αεροβική δραστηριότητα 20 λεπτών τρεις φορές/εβδομάδα

Παραλλαγή της προηγούμενης περίπτωσης αποτελεί η ένδειξη εγκυρότητας σύγκρισης (ή αντιπαραβολής) γνωστών ομάδων (contrasted, known groups technique). Σε αυτή την περίπτωση, η εγκυρότητα ενός εργαλείου μέτρησης είναι δυνατό να αξιολογηθεί με την σύγκριση ομάδων που αναμένεται να διαφέρουν ως προς την έννοια που μελετάται άρα και να έχουν διαφορετική βαθμολογία. Αν επιλεγούν δείγματα από τις δύο αυτές ομάδες και οι μετρήσεις επιβεβαιώσουν β την αναμενόμενη μ αυτή διαφορά,, τότε θεωρείται ότι υπάρχει ένδειξη (απόδειξη, τεκμηρίωση) εγκυρότητας.

Π.χ. αν αξιολογείται ένα ερωτηματολόγιο που μετρά ικανοποίηση ασθενών και υπάρχουν δύο ομάδες που τεκμηριωμένα η μια είναι δυσαρεστημένη και η άλλη ικανοποιημένη και το ερωτηματολόγιο επιβεβαιώσει β τις αναμενόμενες μ αυτές διαφορές τότε αυτό αποτελεί ένδειξη εγκυρότητας. Π.χ. Έλεγχος εγκυρότητας μιας κλίμακας που μετρά τον φόβο από την εμπειρία του τοκετού (συγκρίνουμε τη βαθμολογία των πολυτόκων και πρωτοτόκων γυναικών)

Η αξιοπιστία και η εγκυρότητα δεν είναι ιδιότητες που υπάρχουν ή όχι, αλλά είναι θέμα βαθμού. Κανένα εργαλείο μέτρησης δεν είναι απόλυτα έγκυρο. Για αυτό το λόγο αξιολογείται ο βαθμός και όχι η ύπαρξη ή μη της εγκυρότητας. Ανεξάρτητα από τις τεχνικές που θα χρησιμοποιηθούν και το κύρος των ερευνητών, η διαδικασία αξιολόγησης της εγκυρότητας είναι μια μακροχρόνια διαδικασία που ουσιαστικά αρχίζει με την ανάπτυξη του εργαλείου μέτρησης.

Η αξιοπιστία και η εγκυρότητα δεν είναι εγγενείς ιδιότητες του εργαλείου μέτρησης, αλλά της χρήσης του σε μια χρονική στιγμή σε ένα συγκεκριμένο πληθυσμό και σε ένα συγκεκριμένο περιβάλλον Η εγκυρότητα και η αξιοπιστία θα ποικίλλει από δείγμα σε δείγμα ή από μια κατάσταση σε μια άλλη και για αυτό η αξιολόγηση της εγκυρότητας ουσιαστικά αξιολογεί την (χρήση) εγκυρότητα ενός εργαλείου για μια συγκεκριμένη ομάδα ή σκοπό παρά το ίδιο το εργαλείο μέτρησης. Με απλά λόγια ένα εργαλείο μέτρησης είναι δυνατό να είναι περισσότερο έγκυρο ή αξιόπιστο σε μια συγκεκριμένη κατάσταση σε σχέση με μια άλλη. Για αυτό το λόγο πρέπει να αξιολογείται συνεχώς σε κάθε ερευνητική προσπάθεια (χρήση του).

Επειδή ακριβώς η αξιολόγηση ενός εργαλείου μέτρησης είναι μια διαδικασία που δεν τελειώνει ποτέ, στην πράξη ισχυρή ένδειξη εγκυρότητας αποτελεί ο αριθμός των ερευνών ή η έκταση στην οποία έχει χρησιμοποιηθεί ένα εργαλείο μέτρησης

Σαχίνη Καρδάση η Α. (1997) Μεθοδολογία Έρευνας,εφαρμογές ρμ ς στο Χώρο της Υγείας, Γ Έκδοση, Εκδόσεις Βήτα, Αθήνα Παναγιωτάκος Δ. (2006) Μεθοδολογία της Έρευνας & της Ανάλυσης Δεδομένων για τις Επιστήμες της Υγείας, Εκδόσεις Β. Γ. Κωστάκη, Αθήνα Τhomas J.R. & Nelson J.K. (2003) Μέθοδοι Έρευνας στη Φυσική Δραστηριότητα (Καρτερολιώτης Κ. Επιμ.) Π.Χ. Πασχαλίδης, Αθήνα Polit F.D. & Beck T.C. (2004) Nursing Research: Principles and Methods, 7 th Ed, Lippincott Williams & Wilkins, Philadelphia Burns N. & Grove K.S. (2005) The Practice of Nursing Research. Conduct, Critique, and Utilization, 5 th Ed, Saunders, Philadelphia LoBiondo Wood G. & Haber J. (2005) Nursing Research. Methods and Critical Appraisal lfor Eid Evidence Based dpractice 6 th Ed, Mosby, Philadelphia l Μερκούρης Α. (2008) Μεθοδολογία Νοσηλευτικής Έρευνας, Εκδόσεις Έλλην, Αθήνα