4. Ανάλυση ποιοτικών δεδοµένων: συγκρίσεις µεταξύ οµάδων. Περιεχόµενα 1 Εισαγωγή 2 2 Η σύγκριση δύο αναλογιών όταν οι οµάδες είναι ανεξάρτητες. 2 2.1 Μέθοδοι σύγκρισης δύο ποσοστών. 2 2.2 Ο έλεγχος Χ 2 για τη σύγκριση δύο αναλογιών. 3 2.2.1 Ο έλεγχος Χ 2 του Pearson. 3 2.2.2 Ο έλεγχος Χ 2 µε τη διόρθωση του Yates. 5 2.2.3 Ο ακριβής έλεγχος του Fisher. 5 2.3 ιάστηµα εµπιστοσύνης για τη διαφορά δύο αναλογιών. 5 2.4 Η καταχώρηση έτοιµων πινάκων συνάφειας (Weight cases) στο SPSS 6 3 Η σύγκριση 2 αναλογιών όταν οι οµάδες σχετίζονται: ο έλεγχος του ΜcΝemar για 7 παρατηρήσεις ανά ζεύγη. 4 Πίνακες συνάφειας (contingency tables). 9 4.1 R x C πίνακες (R 2,C 2) 9 4.2 Ο έλεγχος τάσης χ 2 (chi-squared test for trend). 9 5 Σύγκριση κινδύνων 11 5.1 Εκτίµηση του σχετικού κινδύνου σε προοπτικές µελέτες 11 5.2 Odds ratio 11 5.3 Εκτίµηση του σχετικού κινδύνου σε µελέτες ασθενών-µαρτύρων 13 5.4 Μελέτες ασθενών µαρτύρων όπου υπάρχει ταίριασµα (matched case-control studies) 14 6 Σύνοψη της σύγκρισης 2 οµάδων όσον αφορά ένα ποιοτικό χαρακτηριστικό. 14 7 Η εκτίµηση & ο έλεγχος µιας αναλογίας 14 7.1 Υπολογισµός του Ε µιας αναλογίας 14 7.2 Ο έλεγχος υπόθεσης µιας αναλογίας 15 8 Βιβλιογραφία 15 9 Παραρτήµατα 16 9.1 Παράρτηµα 1. Αγγλική - Ελληνική Ορολογία 16 9.2 Παράρτηµα 2. Ο έλεγχος G και τo SPSS output για το Παράδειγµα 1. 17 9.3 Παράρτηµα 3. O έλεγχος X 2 ως κριτήριο καλής εφαρµογής (the chi-squared 17 goodness-of-fit test) 9.4 Παράρτηµα 4. SPSS Crosstabs Output στον υπολογισµό του odds ratio του Παραδείγµατος 3. 18 SPSS διαδροµές Σελίδα Σύγκριση δύο ανεξάρτητων οµάδων: chi squared test 4-5 Καταχώρηση έτοιµων πινάκων συνάφειας: weight cases 7 Σύγκριση δύο σχετιζόµενων οµάδων: McNemar s test 8 Σύγκριση δύο ποιοτικών µεταβλητών: chi squared test 10 Σύγκριση δύο ποιοτικών µεταβλητών, όταν υπάρχει κάποια «τάση»: chi squared test 10 for trend odds ratio 13 ΙΜοσχανδρέα 1
1. Εισαγωγή Συχνά τα δεδοµένα που µας ενδιαφέρουν είναι ποιοτικά, δηλαδή τα µέλη του δείγµατος κατηγοριοποιούνται σε µία από δύο ή περισσότερες αµοιβαίως εξαιρετέες (mutually exclusive) κλάσεις. Σε ένα δείγµα ατόµων, ο αριθµός των ατόµων σε µία κλάση λέγεται «συχνότητα» (frequency) και η κατάλληλη ανάλυση αυτού του είδους των δεδοµένων είναι η ανάλυση συχνοτήτων. εν µπορούµε να εφαρµόσουµε τους ελέγχους υποθέσεων που έχουµε εξετάσει µέχρι τώρα. Αν θέλουµε να συγκρίνουµε δυο ή περισσότερες οµάδες ατόµων όσον αφορά ένα ποιοτικό χαρακτηριστικό τους (π.χ. επίπεδο φυσικής δραστηριότητας: ήπια, µέτρια, έντονη), µπορούµε να δηµιουργήσουµε έναν πίνακα συχνοτήτων, όπου το κάθε κελί του πίνακα αντιστοιχεί σε έναν ορισµένο συνδυασµό των χαρακτηριστικών που είναι υπό µελέτη (π.χ. κελί 1: είναι άνδρας και έχει ήπια φυσική δραστηριότητα). Οι πίνακες συχνοτήτων ονοµάζονται και «πίνακες συνάφειας» (contingency tables). Εµείς θα ασχοληθούµε µε την περίπτωση όπου υπάρχουν δύο ποιοτικές µεταβλητές, δηλαδή µε διαξονικούς πίνακες (two-way tables). Όταν η κάθε µεταβλητή είναι δυαδική, τότε υπάρχουν 4 κελιά και ο πίνακας λέγεται τετράπτυχος ή 2 επί 2 πίνακας (2 by 2 table). Οι τρεις γενικές καταστάσεις οι οποίες περιγράφονται στις σηµειώσεις «Τεχνικές ανάλυσης ποιοτικών δεδοµένων» είναι οι εξής: 1) Υπάρχουν δύο ανεξάρτητες οµάδες (π.χ. άνδρες και γυναίκες ορισµένης ηλικίας). Σκοπός είναι να εξετασθεί εάν η αναλογία των ατόµων µε κάποιο χαρακτηριστικό (π.χ. παχυσαρκία) είναι ίδια σε κάθε οµάδα. Εξετάζεται δηλαδή η σχέση µεταξύ δύο δυαδικών µεταβλητών. Λεπτοµέρειες της κατάλληλης ανάλυσης για τη σχέση αυτή, δηλαδή για τη σύγκριση δύο αναλογιών, δίνονται στην Παράγραφο 2. Μπορεί ο σκοπός να είναι η σύγκριση των δύο οµάδων ως προς τον κίνδυνο εµφάνισης κάποιας έκβασης. Έχουν αναπτυχθεί κατάλληλες µέθοδοι, και µια σύντοµη περιγραφή τους δίνεται στην Παράγραφο 6. 2) Σκοπός της µελέτης είναι να συγκριθούν χαρακτηριστικά οµάδων οι οποίες σχετίζονται (paired data). Οι οµάδες σχετίζονται λόγω του σχεδιασµού της µελέτης. Μία τέτοια περίπτωση συµβαίνει όταν το κάθε άτοµο έχει δύο µετρήσεις κάποιου χαρακτηριστικού π.χ. πριν και µετά από θεραπεία, µετρήσεις στο δεξί και αριστερό µάτι (κά). Μία δεύτερη περίπτωση είναι αυτή όπου το κάθε άτοµο είναι ταιριασµένο µε κάποιο άλλο π.χ. ίδια ηλικία και ίδιο φύλο. Σκοπός είναι να εξετασθεί εάν η αναλογία των ατόµων µε κάποιο χαρακτηριστικό είναι ίδια σε κάθε οµάδα. Η κατάλληλη στατιστική δοκιµασία ονοµάζεται έλεγχος του McNemar και περιγράφεται στην Παράγραφο 3. 3) Μια οµάδα ατόµων ταξινοµείται µε βάση δυο χαρακτηριστικά. Σκοπός είναι να εξετασθεί εάν τα δυο χαρακτηριστικά σχετίζονται, όταν η κάθε µεταβλητή (το κάθε χαρακτηριστικό) έχει δύο ή περισσότερες κατηγορίες. Λεπτοµέρειες της κατάλληλης ανάλυσης δίνονται στην Παράγραφο 4. 2. Η σύγκριση δύο αναλογιών όταν οι οµάδες είναι ανεξάρτητες. 2.1. Μέθοδοι σύγκρισης δύο αναλογιών. Η σύγκριση δυο αναλογιών µπορεί να γίνει µε τον έλεγχο Χ 2, που ελέγχει την µηδενική υπόθεση της ανεξαρτησίας µίας µεταβλητής από µία άλλη. Η µία δυαδική µεταβλητή δηλώνει την οµάδα στην οποία ανήκει το κάθε άτοµο και η άλλη το εάν έχουν κάποιο χαρακτηριστικό/κάποια έκβαση κτλ. Αυτή η µέθοδος περιγράφεται στην παράγραφο 2.2. Το µειονέκτηµα του ελέγχου Χ 2 είναι ότι δεν δίνει κάποια εκτίµηση του µεγέθους της διαφοράς (στα ποσοστά) µεταξύ των δύο οµάδων, ούτε το αντίστοιχο διάστηµα εµπιστοσύνης ( Ε). Η δηµιουργία του Ε για τη διαφορά µεταξύ των δύο αναλογιών µπορεί να γίνει χρησιµοποιώντας τη δειγµατοληπτική κατανοµή της διαφοράς µεταξύ των δύο ποσοστών (π.χ. p 1 p 2 ), που είναι κατά προσέγγιση κανονική. Περισσότερες λεπτοµέρειες και ένα παράδειγµα δίνονται στην παράγραφο 2.3. Με την προσεγγιστική µέθοδο, µπορεί επίσης να πραγµατοποιηθεί ο έλεγχος της υπόθεσης ότι η διαφορά µεταξύ των ποσοστών είναι µηδέν (στους πληθυσµούς), δηλαδή ότι δεν υπάρχει διαφορά. Υπάρχει και ένας τρίτος τρόπος σύγκρισης δύο ΙΜοσχανδρέα 2
αναλογιών, ο οποίος συµπεριλαµβάνει τον υπολογισµό του λόγου των αναλογιών των δύο οµάδων (αντί για τη διαφορά τους). Αυτή η µέθοδος είναι ιδιαίτερα χρήσιµη σε case-control µελέτες και περιγράφεται στην παράγραφο 6. Η σύγκριση περισσότερων από δύο αναλογιών συνήθως γίνεται µε τη µορφή πινάκων συνάφειας (γενικών πινάκων συχνοτήτων), όπως περιγράφεται στην παράγραφο 4. 2.2 Ο έλεγχος Χ 2 για τη σύγκριση 2 αναλογιών. 2.2.1 Ο έλεγχος Χ 2 του Pearson. Η σύγκριση δύο αναλογιών µπορεί να γίνει χρησιµοποιώντας τον έλεγχο Χ 2 (chi-squared test). Γενικότερα, ο έλεγχος Χ 2 εφαρµόζεται όταν ο σκοπός είναι να ερευνηθεί η πιθανή σχέση µεταξύ δύο ποιοτικών µεταβλητών. Η µηδενική υπόθεση (Η 0 ) είναι ότι η µια µεταβλητή είναι ανεξάρτητη από την άλλη, δηλαδή ότι οι δύο µεταβλητές δεν σχετίζονται. Η πλήρης ονοµασία είναι έλεγχος χ 2 του Pearson ως κριτήριο ανεξαρτησίας (pearson s chi-squared test of independence). Λέγεται και έλεγχος Χ 2 ως κριτήριο σχέσης (chi-squared test of association). Όταν θέλουµε να χρησιµοποιήσουµε τον έλεγχο Χ 2 για τη σύγκριση δύο αναλογιών, η Η 0 µπορεί να εκφραστεί και ως εξής: Η 0 : οι αναλογίες των ατόµων µε το χαρακτηριστικό είναι ίσες στις δύο οµάδες. Αρχικά εξετάζουµε τις συχνότητες των κελιών (του πίνακα), δηλαδή τον αριθµό των ατόµων µε και χωρίς το χαρακτηριστικό σε κάθε οµάδα. Υπολογίζουµε ποιες θα ήταν οι συχνότητες εάν η Η0 ισχύει, δηλαδή ποιες είναι οι αναµενόµενες συχνότητες (expected frequencies). Συγκρίνουµε τις παρατηρούµενες συχνότητες (observed frequencies) µε τις αναµενόµενες και υπολογίζουµε ένα στατιστικό κριτήριο ελέγχου που µετράει κατά πόσον οι τυχόν διαφορές µεταξύ παρατηρούµενων και αναµενόµενων συχνοτήτων µπορεί να οφείλονται καθαρά σε τυχαίους παράγοντες. Όπως και στις στατιστικές δοκιµασίες σύγκρισης µέσων τιµών, µετράµε το βαθµό (το µέγεθος) της απόδειξης ότι η µηδενική υπόθεση δεν υποστηρίζεται και έτσι αποφασίζουµε αν απορρίπτεται ή όχι. ΠΑΡΑ ΕΙΓΜΑ 1. Υψηλή πρόσληψη ενέργειας από κορεσµένα λιπαρά στην εγκυµοσύνη και παχύσαρκα παιδιά {µη-πραγµατικά δεδοµένα}. Παρακολουθήσαµε στο 1 ο τρίµηνο της κύησης, 80 εγκυµονούσες (µε αρχικό ΜΣ<25 kg/m 2 ), στις οποίες τουλάχιστον 20% της πρόσληψης ενέργειας προερχόταν από κορεσµένο λίπος (στο πρώτο τρίµηνο της εγκυµοσύνης τους) και 100 γυναίκες (µε ΜΣ<25 kg/m 2 ) που είχαν µέχρι 20% της πρόσληψης ενέργειας από κορεσµένο λίπος. Κατατάξαµε τα παιδιά τους σε ηλικία 5 ετών σε οµάδα «παχύσαρκο» ή «µη-παχύσαρκο». Η µηδενική υπόθεση «δεν υπάρχει σχέση µεταξύ της υψηλής πρόσληψης ενέργειας από κορεσµένο λίπος στο πρώτο τρίµηνο της εγκυµοσύνης και της παχυσαρκίας σε ηλικία πέντε ετών» µπορεί να διατυπωθεί και ως «δεν υπάρχει διαφορά µεταξύ της αναλογίας των παχύσαρκων παιδιών από µητέρες µε υψηλή πρόσληψη ενέργειας από κορεσµένο λίπος και της αναλογίας των παχύσαρκων παιδιών από µητέρες που δεν είχαν υψηλή πρόσληψη ενέργειας από κορεσµένο λίπος». Τα παρατηρούµενα ποσοστά είναι 30% (24/80) στην µια οµάδα και 18% (18/100) στην άλλη. Τα αποτελέσµατα παρουσιάζονται στον διαξονικό πίνακα συχνοτήτων, Πίνακα 1, παρακάτω: Πίνακας 1. Παρατηρούµενες συχνότητες παχύσαρκων παιδιών ηλικίας 5 ετών ανάλογα µε τη διατροφή της µητέρας στο πρώτο τρίµηνο της κύησης. Παχύσαρκο; Υψηλή σε κορεσµένα λίπη δίαιτα; Ναι Όχι Σύνολο Ναι 24 18 42 Όχι 56 82 138 Σύνολο 80 100 180 Αν οι αναλογίες είναι πράγµατι ίδιες και στις 2 οµάδες των γυναικών, τότε η καλύτερη εκτίµηση της αναλογίας είναι η συνολική αναλογία των παχύσαρκων παιδιών, 42/180, περίπου 23,3%. Συνεπώς ΙΜοσχανδρέα 3
θα αναµέναµε ότι ο αριθµός των παχύσαρκων παιδιών θα είναι 80 επί 23,3%=19 παιδιά στη µία οµάδα και 100 επί 23,3%=23 παιδιά στην άλλη. Οι 4 αναµενόµενες συχνότητες δίνονται στον Πίνακα 2 παρακάτω. Πίνακας 2. Αναµενόµενες συχνότητες παχύσαρκων παιδιών ηλικίας 5 ετών ανάλογα µε τη διατροφή της µητέρας στο πρώτο τρίµηνο της εγκυµοσύνης. Υψηλή σε κορεσµένα λίπη δίαιτα; Ναι Όχι Σύνολο Παχυσαρκία; Ναι 19 23 42 Όχι 61 77 138 Σύνολο 80 100 180 Μπορούµε να εκφράσουµε τις αναµενόµενες συχνότητες (expected frequencies) µε τη µορφή Rα Cβ τύπου, δηλαδή e αβ = [1] Ν όπου το e αβ δείχνει την αναµενόµενη συχνότητα στο κελί που βρίσκεται στη σειρά α και στη στήλη β (α=1,2; β=1,2), το R α είναι το άθροισµα των παρατηρούµενων συχνοτήτων της α σειράς και το C β είναι το άθροισµα των παρατηρούµενων συχνοτήτων της β στήλης. είτε τον Πίνακα 3 παρακάτω. ΠΑΡΑ ΕΙΓΜΑ 1. (συν). Πίνακας 3. Αναµενόµενες συχνότητες παχύσαρκων παιδιών ηλικίας 5 ετών ανάλογα µε τη διατροφή της µητέρας στο πρώτο τρίµηνο της εγκυµοσύνης. Παχυσαρκία; Υψηλή σε κορεσµένα λίπη δίαιτα; Ναι Όχι Σύνολο Ναι 19 = e 11 23 = e 12 42 = R 1 Όχι 61 = e 21 77 = e 22 138 = R 2 Σύνολο 80 = C 1 100 = C 2 180 = N Ο στατιστικός δείκτης Χ 2 για τον έλεγχο της µηδενικής υπόθεσης (η στατιστική συνάρτηση ελέγχου) είναι: Pearson chi-squared test statistic = 2 ( oαβ eαβ ) 2 X [2] αβ eαβ όπου o αβ είναι η παρατηρούµενη συχνότητα στο κελί αβ και e αβ είναι η αναµενόµενη συχνότητα. Όταν ισχύει η µηδενική υπόθεση, ο δείκτης Χ 2 [2] ακολουθεί προσεγγιστικά µια χ 2 κατανοµή µε 1 β.ε. ΣΗΜΕΙΩΣΗ. Προϋπόθεση για να ισχύει ο έλεγχος Χ 2 είναι ότι δεν υπάρχει κάποιο κελί που έχει αναµενόµενη συχνότητα µικρότερη του 5 (λέγεται «κανόνας του Cochran»). Όταν υπάρχει αναµενόµενη συχνότητα <5, τότε πρέπει να εφαρµοστεί ο ακριβής έλεγχος του Fisher, που περιγράφεται στην 2.2.3. Στο SPSS 14.0, όταν θέλουµε να συγκρίνουµε τα ποσοστά και έχουµε 2 δυαδικές µεταβλητές (η µία δείχνει την οµάδα στην οποία ανήκει το κάθε άτοµο κι η άλλη το εάν έχει το χαρακτηριστικό ή όχι) µπορεί να εφαρµοστεί η διαδικασία: Analyze Descriptive Statistics Crosstabs... Για να δείτε τις αναµενόµενες συχνότητες, κάνετε κλικ στο κουτί Cells, και τσεκάρετε Expected. Για να εφαρµόσετε τον έλεγχο Χ 2, κάνετε κλικ στο κουτί Statistics, και τσεκάρετε Chi square. ΙΜοσχανδρέα 4
ΠΑΡΑΓΕΙΓΜΑ 1 (συν) Βρίσκουµε ότι Χ 2 =3,58. Συγκρίνοντας µε την κατανοµή χ 2 µε 1 β.ε. βρίσκουµε ότι p>0,05 [από Πίνακες] και για την ακρίβεια p =0,059 [χρησιµοποιώντας το SPSS]. Το συµπέρασµα είναι ότι δεν υπάρχει απόδειξη σε επίπεδο 5% ότι το ποσοστό παχυσαρκίας διαφέρει ανάλογα µε την υψηλή ή όχι πρόσληψη ενέργειας από κορεσµένα λίπη στην διατροφή της µητέρας κατά το 1 ο τρίµηνο της εγκυµοσύνης της. 2.2.2. Ο έλεγχος Χ 2 µε τη διόρθωση του Yates. Θα δείτε ότι στο output αρχείο (του SPSS) υπάρχει και ένα «διορθωµένο» κριτήριο Χ 2 που αντιστοιχεί σε άλλη τιµή p. Επειδή ο έλεγχος X 2 βασίζεται σε µεθόδους που είναι κατάλληλες για µεγάλα δείγµατα (large sample methods), όταν το δείγµα είναι σχετικά µικρό εφαρµόζεται µια «διόρθωση για την έλλειψη συνέχειας» (continuity correction). Ουσιαστικά, ο δείκτης Χ 2 έχει µια διακριτή κατανοµή, την οποία προσεγγίζουµε µε µια συνεχή κατανοµή χ 2, και η προσέγγιση βελτιώνεται όσο αυξάνεται το µέγεθος του δείγµατος. Η διόρθωση έχει το όνοµα του στατιστικού που την βρήκε, λέγεται Yates correction. Όταν χρησιµοποιείται η διόρθωση, η τιµή της στατιστικής συνάρτησης έλεγχου µειώνεται. ηλαδή όταν δεν εφαρµόζεται η διόρθωση, τα αποτελέσµατα τείνουν να είναι πιο «αισιόδοξα» κι οι αντίστοιχες τιµές p πιο µικρές. Όσο αυξάνεται το µέγεθος του δείγµατος, τόσο οι τιµές του κριτηρίου Χ 2 µε και χωρίς τη διόρθωση πλησιάζουν. ΠΑΡΑΓΕΙΓΜΑ 1 (συν). ιόρθωση συνέχειας. Με το SPSS βρίσκουµε ότι εφαρµόζοντας την διόρθωση για την έλλειψη συνέχειας (continuity correction) X 2 =2,938 που αντιστοιχεί σε p=0,087. To SPSS output του ελέγχου Χ 2 δίνεται στο Παράρτηµα 2. Στο Παράρτηµα 2 περιγράφεται άλλος ένας κατάλληλος έλεγχος, ο οποίος όµως δεν είναι συνηθισµένος σε βιοιατρικές δηµοσιεύσεις. 2.2.3 Ο ακριβής έλεγχος του Fisher. Όταν ο πίνακας είναι τετράπτυχος (2 επί 2) και κάποια αναµενόµενη συχνότητα είναι µικρότερη του 5, τότε πρέπει να εφαρµοστεί ο ακριβής έλεγχος του Fisher 1 (Fisher s exact test), ο οποίος περιλαµβάνει τον υπολογισµό των ακριβών πιθανοτήτων όλων των δυνατών πινάκων κρατώντας ίδιες µόνο τις συνολικές συχνότητες (στηλών και γραµµών). Σε προηγούµενες δεκαετίες, οι στατιστικοί συνιστoύσαν τη χρήση του ακριβή ελέγχου του Fisher όταν το συνολικό µέγεθος του δείγµατος Ν<20 ή όταν 20<Ν<40 και η µικρότερη αναµενόµενη τιµή ήταν µικρότερη του 5. Επειδή σήµερα ο υπολογισµός των ακριβών πιθανοτήτων όλων των δυνατών πινάκων είναι σχετικά εύκολος µε τη χρήση Η/Υ, συνιστάται η χρήση του για οποιονδήποτε πίνακα που περιέχει κάποια αναµενόµενη τιµή <5. Όταν οι συχνότητες δεν είναι µικρές, ο έλεγχος του Fisher δίνει παρόµοιες τιµές του p µε τον έλεγχο Χ 2. ΣΗΜΕΙΩΣΗ Όταν πρόκειται για έναν 2 επί 2 πίνακα, ο έλεγχος του Fisher µπορεί να εφαρµοστεί ανεξαρτήτως µεγέθους δείγµατος αλλά είναι απαραίτητο να εφαρµοστεί όταν υπάρχουν κελιά µε αναµενόµενες συχνότητες µικρότερες του 5. Η µηδενική υπόθεση στον έλεγχο του Fisher είναι, όπως και στον έλεγχο χ2, ότι δεν σχετίζονται οι δύο µεταβλητές. Ο έλεγχος του Fisher δεν µπορεί να εφαρµοστεί όταν ο πίνακας συνάφειας δεν είναι 2 επί 2. 2.3 ιάστηµα εµπιστοσύνης για τη διαφορά δύο αναλογιών Όπως αναφέρθηκε στο 2.1, η δηµιουργία του Ε για την πραγµατική διαφορά µεταξύ των δυο αναλογιών µπορεί να γίνει χρησιµοποιώντας τη δειγµατοληπτική κατανοµή της διαφοράς µεταξύ 1 Του RΑ Fisher, εφαρµόζεται από τα µέσα της δεκαετίας του 1930. ΙΜοσχανδρέα 5
των δύο ποσοστών (π.χ. p 1 p 2 ), που είναι κατά προσέγγιση κανονική εφόσον το µέγεθος του δείγµατος και οι αναλογίες δεν είναι πολύ µικρές. Η διαφορά µεταξύ των δύο ποσοστών θα έχει τυπικό σφάλµα ΤΣ(p 1 -p 2 ) όπου 2 2 p1(1 p1) p2 (1 p2 ) ΤΣ( p1 p2 ) = διακ ( p1) + διακ ( p2 ) = ( ΤΣ( p1)) + ( ΤΣ( p1)) = +. n1 n2 και το 95% Ε της διαφοράς έχει τη µορφή: Κατώτερο όριο = (p 1 p 2 ) (1,96 επί ΤΣ(p 1 -p 2 )) Ανώτερο όριο = (p 1 p 2 )+(1,96 επί ΤΣ(p 1 -p 2 )) H µέθοδος δηµιουργίας του Ε δεν είναι αξιόπιστη όταν τα δείγµατα ή οι αναλογίες είναι πολύ µικρά. ΠΑΡΑΓΕΙΓΜΑ 1 (συν). 95%.E. για τη διαφορά µεταξύ ποσοστών. Το 95% Ε για τη διαφορά µεταξύ των ποσοστών των παχύσαρκων παιδιών (π 1 -π 2 ) είναι από 0,01 έως 0,25. ηλαδή έχουµε 95% σιγουριά ότι το ποσοστό των παχύσαρκων αγοριών είναι από µία (ποσοστιαία) µονάδα µικρότερο έως 25 µονάδες µεγαλύτερο στην οµάδα των παιδιών των οποίων οι µητέρες έλαβαν >20% κορεσµένο λίπος στη δίαιτα (σε σχέση µε την οµάδα παιδιών των οποίων η µητέρα έλαβε <20%). Θα µπορούσε επίσης να πραγµατοποιηθεί ο έλεγχος της υπόθεσης ότι η διαφορά µεταξύ των ποσοστών (στους πληθυσµούς) είναι µηδέν (δηλαδή ότι τα ποσοστά είναι ίδια) χρησιµοποιώντας το p1 p2 λόγο Z =. Το στατιστικό κριτήριο ελέγχου Ζ (ονοµάζεται standard normal deviate) ΤΣ( p1 p2 ) ακολουθεί την τυπική κανονική κατανοµή όταν ισχύει η Η 0. Ο υπολογισµός του ΤΣ εδώ, όµως, διαφέρει κάπως από τον τρόπο υπολογισµού που χρησιµοποιείται στη δηµιουργία του διαστήµατος εµπιστοσύνης, διότι στον έλεγχο υπόθεσης υποθέτουµε ότι η αναλογία (p i ) είναι ίδια σε κάθε οµάδα pˆ(1 pˆ) pˆ(1 pˆ) 1 1 όποτε ΤΣ( p = + = + 1 p2 ) pˆ(1 pˆ). n1 n2 n1 n2 Αυτή η σύγκριση αναλογιών (µε τη χρήση του τυπικού σφάλµατος) ισοδυναµεί µε τη σύγκριση του ελέγχου Χ 2, δηλαδή τα αποτελέσµατά τους είναι ακριβώς τα ίδια (οι τιµές p είναι ίδιες). 2.4 Η καταχώρηση έτοιµων πινάκων συνάφειας (Weight cases) στο SPSS Συχνά διαθέτουµε έτοιµους πίνακες συνάφειας και θέλουµε να τρέξουµε την ανάλυση. π.χ. Έχουµε τον Πίνακα 1 αλλά δεν έχουµε τις πληροφορίες για το κάθε παίδι. Εδώ «περνάµε» τον πίνακα στο SPSS, όπως φαίνεται στο παρακάτω σχήµα (Σχήµα 1): Σχήµα 1. Μορφή του πίνακα συνάφειας στο SPSS. Η 1 η µεταβλητή («freq» στο παράδειγµα) περιέχει τις συχνότητες, η 2 η την κατηγορία του παιδιού (obese: 1=παχύσαρκο, 2=µη-παχύσαρκο) και η 3 η (satfat) την κατηγορία της δίαιτας. Στο SPSS 14.0, τρέχουµε το Data Weight cases... (by freq) και µετά, προχωράµε όπως περιέγραψα παραπάνω: Analyze Descriptive Statistics Crosstabs... Για να δείτε τις αναµενόµενες συχνότητες, κάνετε κλικ στο κουτί Cells, και τσεκάρετε Expected. ΙΜοσχανδρέα 6
Για να εφαρµόσετε τον έλεγχο Χ 2, κάνετε κλικ στο κουτί Statistics, και τσεκάρετε Chi square. 3. Η σύγκριση 2 αναλογιών όταν οι οµάδες σχετίζονται: ο έλεγχος του ΜcΝemar για παρατηρήσεις ανά ζεύγη. Όταν τα δεδοµένα είναι ποιοτικά αλλά είναι ζευγαρωµένα, δεν είναι κατάλληλες οι τεχνικές που περιγράφτηκαν παραπάνω (στην παράγραφο 2). Όπως είδαµε στην ενότητα «Τεχνικές ανάλυσης ποσοτικών δεδοµένων», παρατηρήσεις κατά ζεύγη µπορούν να προκύψουν από 1) µετρήσεις στο ίδιο άτοµο σε διαφορετικές χρονικές περιόδους π.χ. πριν και µετά από θεραπεία ή 2) µετρήσεις στο ίδιο άτοµο την ίδια χρονική περίοδο (αλλά π.χ. από διαφορετικά σηµεία του σώµατος) ή 3) αν το κάθε άτοµο µιας µελέτης έχει «ταιριαστεί» µε ένα άλλο π.χ. συνήθως για ηλικία και φύλο, ή δίδυµα. Όταν πάρουµε παρατηρήσεις κατά ζεύγη, µπορούµε να περιορίσουµε τη µεταβλητότητα που οφείλεται σε µη-σχετικές πηγές και έτσι να αυξήσουµε την ισχύ του στατιστικού ελέγχου (όπως µε τη χρήση του t-test for paired data όταν συγκρίνουµε µέσες τιµές). Η κατάλληλη στατιστική δοκιµασία ονοµάζεται ο έλεγχος του ΜcΝemar για παρατηρήσεις κατά ζεύγη (ΜcΝemar s test for matched-pairs designs). Η σύγκριση των «ζευγαρωµένων» αναλογιών βασίζεται στις συχνότητες των ζευγαριών µε διαφορετικές εκβάσεις. Ο Rice (σελ 443-5) δίνει ένα παράδειγµα το οποίο έχει χρησιµοποιηθεί αρκετά στη βιβλιογραφία της Βιοστατιστικής. Είναι το εξής: ΠΑΡΑΓΕΙΓΜΑ 2. Αµυγδαλεκτοµή και νόσος του Hodgkin. Το 1971 οι Vianna κ.ά. συλλέξανε δεδοµένα για να συγκρίνουν τα ποσοστά των ατόµων που είχαν κάνει αµυγδαλεκτοµή, σε µία οµάδα ασθενών µε τη νόσο του Hodgkin (101 άτοµα) και µία οµάδα ελέγχου (107 άτοµα). Βρέθηκε ότι 66% των ασθενών και 40% της οµάδας ελέγχου είχαν κάνει αµυγδαλεκτοµή. Ο έλεγχος Χ 2 είχε κριτήριο 14,26 (µε 1βε) που αντιστοιχεί σε p= 0,00016. Οι συγγραφείς θεώρησαν ότι οι αµυγδαλές προστατεύουν κατά κάποιο τρόπο από τη νόσο του Hodgkin. Το επόµενο έτος οι Johnson & Johnson δηµοσίευσαν (στο NEJM) τα αποτελέσµατα παρόµοιας µελέτης µε 85 ασθενείς µε τη νόσο του Hodgkin και αντίστοιχη οµάδα ελέγχου. Υπήρχε µία διαφορά στο σχεδιασµό της µελέτης: ο κάθε ασθενής ήταν «ταιριασµένος» µε ένα άτοµο της οµάδας ελέγχου, διότι ο κάθε ασθενής είχε έναν αδελφό/αδελφή του ίδιου φύλου, µε διαφορά ηλικίας µέχρι 5 έτη που δεν είχε τη νόσο και που ήταν στην οµάδα ελέγχου (control group). Έτσι έγινε ταίριασµα (matching) ηλικίας και φύλου (και, ως ένα βαθµό, γενετικής προδιάθεσης και επηρεασµού από το περιβάλλον). Οι ερευνητές παρουσίασαν τον ακόλουθο πίνακα (Πίνακα 4). Πίνακας 4. Συχνότητες ατόµων µε και χωρίς τη νόσο του Hodgkin, ανάλογα µε το εάν είχαν κάνει αµυγδαλεκτοµή ή όχι. Αµυγδαλεκτοµή; Ναι Όχι Hodgkin s 41 44 Control 33 52 Οι συγγραφείς βρήκαν Χ 2 =1,53, µε αντίστοιχο p= 0,22, δηλαδή η διαφορά δεν ήταν στατιστικά σηµαντική. Όµως αρκετοί επιστήµονες υπεστήριξαν εγγράφως ότι οι συγγραφείς είχαν εσφαλµένα εφαρµόσει έναν έλεγχο χ 2, διότι είχαν αγνοήσει τα «ζευγάρια». Ο κατάλληλος τρόπος παρουσίασης των δεδοµένων δίνεται παρακάτω (Πίνακα 5): Πίνακας 5. Συχνότητες ατόµων µε και χωρίς αµυγδαλεκτοµή ανάλογα µε το εάν είχαν η όχι τη νόσο του Hodgkin (ταιριασµένα ζευγάρια). ΙΜοσχανδρέα 7
Control Tonsillectomy No tonsillectomy Hodgkin s Tonsillectomy 26 15 b No tonsillectomy 7 c 37 Η µηδενική υπόθεση στον έλεγχο του McNemar είναι (όπως και στον έλεγχο Χ 2 ) ότι οι αναλογίες των ατόµων µε το χαρακτηριστικό είναι ίδιες στις δύο οµάδες ατόµων. Σ αυτήν την περίπτωση, η υπόθεση αφορά τα σύνολα των γραµµών και στηλών (εξετάζονται αυτά τα σύνολα). Μπορούµε να παρουσιάσουµε και τις αντίστοιχες πιθανότητες σε πίνακα ως εξής: Control Tonsillectomy No tonsillectomy Hodgkin s Tonsillectomy π 11 π 12 π 11 +π 12 No tonsillectomy π 21 π 22 π 21 + π 22 π 11 + π 21 π 12 +π 22 1 = π 11 +π 12 + π 21 + π 22 Η µηδενική υπόθεση είναι ότι οι αναλογίες των ατόµων µε αµυγδαλεκτοµή είναι ίδιες στις 2 οµάδες, δηλαδή π 11 +π 12 = π 11 + π 21 και π 12 +π 22 = π 21 + π 22 όπου π 11 = α /(α+β+γ+δ) κτλ [α,β,γ και δ είναι οι συχνότητες] ηλαδή H 0 : π 12 = π 21. Τώρα, π 12 = β/n και π 21 = γ/n Οπότε µας ενδιαφέρουν τα διαφωνούντα ζεύγη (discordant pairs) και η µηδενική υπόθεση είναι H 0 : β=γ. Το στατιστικό κριτήριο ελέγχου για το τεστ του McNemar παίρνει τη µορφή b c 2 X 2 ( ) = και συγκρίνεται µε την κατανοµή χ 2 µε 1 β.ε. [5] b + c Όπως αναφέρεται και στην περίπτωση όπου οι αναλογίες είναι ανεξάρτητες, έτσι κι εδώ µπορεί να εφαρµοστεί µια διόρθωση για την έλλειψη συνέχειας. ΠΑΡΑΓΕΙΓΜΑ 2 (συν). Αµυγδαλεκτοµή και νόσος του Hodgkin. Βρίσκουµε ότι Χ 2 =2,91 µε αντίστοιχη τιµή-p =0,09. Το αποτέλεσµα πάλι δεν είναι σηµαντικό σε επίπεδο 5%. Εφαρµόζοντας µάλιστα τη διόρθωση για την έλλειψη συνέχειας, βρίσκουµε Χ 2 =2,23 µε αντίστοιχη τιµή-p = 0,14. 2 Στο SPSS 14.0, όταν θέλουµε να συγκρίνουµε ταιριασµένα ποιοτικά δεδοµένα, µπορεί να εφαρµοστεί η διαδικασία: Analyze Descriptive Statistics Crosstabs... Για να εφαρµόσετε τον έλεγχο του McNemar, κάνετε κλικ στο κουτί Statistics, και τσεκάρετε McNemar (βρίσκεται κάτω δεξιά). Μπορούν επίσης να δηµιουργηθούν Ε για τη διαφορά µεταξύ δύο αναλογιών (όταν οι δύο οµάδες παρατηρήσεων δεν είναι ανεξάρτητες), και έλεγχοι της υπόθεσης ότι η διαφορά είναι µηδέν, όταν 2 Αυτά τα αποτελέσµατα βγήκαν χρησιµοποιώντας το πρόγραµµα R. Με το SPSS το αποτέλεσµα διαφέρει κάπως, διότι χρησιµοποιείται ένας ακριβής έλεγχος που βασίζεται στην αθροιστική διωνυµική κατανοµή. ΙΜοσχανδρέα 8
οι παρατηρήσεις είναι κατά ζεύγη. Περισσότερες λεπτοµέρειες υπάρχουν στην παράγραφο 10.4 (σελ 235-241) του βιβλίου του DG Altman. Όταν υπάρχουν τρεις αναλογίες, γίνεται επέκταση του ελέγχου του McNemar και ο έλεγχος ονοµάζεται Stuart-Maxwell test. Όταν υπάρχουν τουλάχιστον τρεις διαβαθµιζόµενες κατηγορίες για παρατηρήσεις που είναι κατά ζεύγη, τότε µπορεί να εφαρµοστεί ο έλεγχος Wilcoxon (matched-pairs) signed rank (ο οποίος αναφέρθηκε στις σηµειώσεις «Τεχνικές Ανάλυσης Ποσοτικών εδοµένων»). 4. Πίνακες συνάφειας (Contingency tables). 4.1 R x C πίνακες (R 2,C 2) Στην παράγραφο 2 είδαµε ότι ο έλεγχος Χ 2 είναι ο κατάλληλος έλεγχος για τη σύγκριση δύο ποσοστών. Όµως η χρήση του ελέγχου Χ 2 είναι πολύ ευρύτερη: µπορεί να χρησιµοποιηθεί για την εξέταση της σχέσης δύο ποιοτικών µεταβλητών όπου η κάθε µεταβλητή έχει περισσότερες από δύο κατηγορίες. Πίνακας 6. Πίνακας συνάφειας που δείχνει τις συχνότητες των ατόµων για κάθε ένα από εννέα πιθανούς συνδυασµούς (o αβ ). Μεταβλητή Α 1 2 3 Μεταβλητή Β 1 o 11 o 12 o 13 2 o 21 o 22 o 23 3 o 31 o 32 o 33 Το στατιστικό κριτήριο ελέγχου υπολογίζεται όπως περιγράφτηκε στην 2.2.1 µε µόνη διαφορά ότι µπαίνουν περισσότερα στοιχεία (terms) στο άθροισµα (για τον Πίνακα 6 τα στοιχεία είναι 9). Η µηδενική υπόθεση είναι ότι η µια µεταβλητή είναι ανεξάρτητη από την άλλη, δηλαδή ότι δεν υπάρχει σχέση µεταξύ των µεταβλητών. Ο στατιστικός δείκτης Χ 2 για τον έλεγχο της µηδενικής υπόθεσης (η στατιστική συνάρτηση ελέγχου) είναι, όπως το [2] στο 2.2.1: Pearson chi-squared test statistic = 2 ( oαβ eαβ ) 2 X αβ eαβ όπου o αβ είναι η παρατηρούµενη συχνότητα στο κελί αβ και e αβ είναι η αναµενόµενη συχνότητα. Όταν ισχύει η µηδενική υπόθεση, ο δείκτης Χ 2 ακολουθεί προσεγγιστικά µια χ 2 κατανοµή µε (R- 1).(C-1) β.ε., όπου (R-1)(C-1)= (αριθµός στηλών µείον 1) επί (αριθµός γραµµών µείον 1). Κανόνες µη-εσφαλµένης εφαρµογής του ελέγχου χ 2 σε έναν διαξονικό πίνακα Όταν α) η αναµενόµενη συχνότητα σε τουλάχιστον 20% των κελιών είναι µικρότερη του 5 ή β) κάποια/ες από τις αναµενόµενες συχνότητες είναι µικρότερη/ες της µονάδας, τότε δεν πρέπει να χρησιµοποιήσουµε τον έλεγχο X 2. Όταν ο πίνακας είναι τετράπτυχος, τότε µπορεί να εφαρµοστεί ο έλεγχος του Fisher. Όταν δεν είναι, µια λύση είναι να συγχωνεύσουµε διπλανές σειρές ή/και στήλες ώστε να µειωθεί ο αριθµός των κελιών και να αυξηθούν οι (παρατηρούµενες) συχνότητες. Η διαδικασία για την εφαρµογή του ελέγχου Χ 2 στο SPSS 14.0, είναι ακριβώς όπως περιγράφτηκε στο 2.2.1: Analyze Descriptive Statistics Crosstabs... Για να δείτε τις αναµενόµενες συχνότητες, κάνετε κλικ στο κουτί Cells, και τσεκάρετε Expected. ΙΜοσχανδρέα 9
Για να εφαρµόσετε τον έλεγχο Χ 2, κάνετε κλικ στο κουτί Statistics, και τσεκάρετε Chi square. 4.2 Ο έλεγχος τάσης χ 2 (chi-squared test for trend). Όταν η µία µεταβλητή δεν είναι ονοµαστική αλλά τακτική π.χ. στάδιο καρκίνου ή επίπεδο ΜΣ (κανονικό, υπέρβαρος, παχύσαρκος), τότε µπορεί να ληφθεί υπ όψιν η φυσική διαβάθµιση και να εξετασθεί το εάν υπάρχει τάση (trend) στις αναλογίες (ή στις συχνότητες) πηγαίνοντας από την πρώτη µέχρι την τελευταία κατηγορία της µεταβλητής. Ο κατάλληλος στατιστικός έλεγχος ονοµάζεται έλεγχος τάσης χ 2 (chi-squared test for trend). Για παράδειγµα, αυξάνεται η αναλογία των παιδιών που δεν κάνουν εξωσχολική φυσική δραστηριότητα όσο αυξάνεται ο βαθµός παχυσαρκίας; Όταν πραγµατικά υπάρχει µία τάση, το αποτέλεσµα του έλεγχου τάσης µπορεί να βρεθεί στατιστικά σηµαντικό ακόµα και όταν ο έλεγχος χ 2 δεν δίνει στατιστικά σηµαντικό αποτέλεσµα. Αυτό συµβαίνει διότι ο έλεγχος τάσης έχει περισσότερη ισχύ να βρει τάσεις απ ότι ο έλεγχος χ 2. Η µέθοδος είναι ουσιαστικά ισοδύναµη µε την µέθοδο της απλής γραµµικής παλινδρόµησης. Το κριτήριο ελέγχου συγκρίνεται µε την χ 2 κατανοµή µε 1 βαθµό ελευθερίας. Προϋπόθεση για την εφαρµογή του είναι να υπάρχουν τουλάχιστον 30 παρατηρήσεις. εν απαιτείται να ισχύει ο κανόνας ότι λιγότερα από το 20% των κελιών πρέπει να έχουν αναµενόµενη συχνότητα <5. Η µηδενική υπόθεση είναι ότι δεν υπάρχει τάση. Πρέπει όµως να σηµειώσουµε εδώ ότι εάν δοθούν αριθµοί 1,2,3 για τρεις κατηγορίες, τότε θα θεωρηθεί ότι η διαφορά µεταξύ των κατηγοριών είναι ίση π.χ. οι παχύσαρκοι διαφέρουν από τους υπέρβαρους στον ίδιο βαθµό στον ίδιο βαθµό που διαφέρουν οι υπέρβαροι από τους µη-υπέρβαρους. Η διαδικασία για την εφαρµογή του ελέγχου τάσης Χ 2 στο SPSS 14.0, είναι η εξής: Analyze Descriptive Statistics Crosstabs... Για να εφαρµόσετε τον έλεγχο τάσης Χ 2, κάνετε κλικ στο κουτί Statistics, και τσεκάρετε Chi square. Η τιµή αντιστοιχεί στο output στο «linear-by-linear association». Στην ανάλυση µετριέται ο βαθµός της «ευθύγραµµης τάσης» ή συσχέτισης µεταξύ δύο διαβαθµιζόµενων µεταβλητών (ordinal variables). Το στατιστικό κριτήριο ελέγχου της µηδενικής υπόθεσης της ανεξαρτησίας (έναντι της υπόθεσης ότι η πραγµατική συσχέτιση είναι µη-µηδενική) 2 2 είναι M = ( n 1) r. Το r είναι ο συντελεστής συσχέτισης του Pearson. Για µεγάλα δείγµατα, το Μ 2 έχει κατανοµή χ 2 µε 1 β.ε. ΣΗΜΕΙΩΣΗ Η µέθοδος εφαρµόζεται όταν πρόκειται για δύο διαβαθµιζόµενες µεταβλητές. Όµως, όταν µία από τις δύο µεταβλητές είναι ονοµαστική αλλά έχει µόνο δύο κατηγορίες (είναι δηλαδή δυαδική), τότε µπορεί και πάλι να χρησιµοποιηθεί η µέθοδος. Στο Παράρτηµα 3 περιγράφεται άλλος ένας έλεγχος Χ 2, ο έλεγχος Χ 2 ως κριτήριο καλής εφαρµογής ο οποίος εφαρµόζεται όταν υπάρχει µόνο µία ποιοτική µεταβλητή (δηλαδή, µετριέται ένα χαρακτηριστικό σε µία οµάδα). 5. Σύγκριση κινδύνων 3 5.1 Εκτίµηση του σχετικού κινδύνου σε προοπτικές µελέτες. Όταν πραγµατοποιείται µια προοπτική µελέτη όπου οµάδες ατόµων µε διαφορετικές εκθέσεις παρακολουθούνται για να βρεθεί εάν θα συµβεί κάποια έκβαση ή όχι, τότε οι αναλογίες των ατόµων της κάθε οµάδας που εµφανίζουν την έκβαση µπορούν να υπολογιστούν, και ο λόγος τους είναι ένδειξη του αυξηµένου κινδύνου στη µία οµάδα σε σχέση µε την άλλη. Αυτός ο λόγος ονοµάζεται σχετικός κίνδυνος (relative risk), ΣΚ. 3 Οι µέθοδοι σύγκρισης δυο οµάδων σε σχέση µε τον κίνδυνο κάποιας έκβασης αναπτύχθηκαν στην επιδηµιολογική έρευνα. ΙΜοσχανδρέα 10
Πίνακας 7. Παρουσίαση των αποτελεσµάτων µιας προοπτικής µελέτης. Είχαν το χαρακτηριστικό (την έκθεση); Ναι Όχι Σύνολο Ανέπτυξαν τη Ναι α β α+β νόσο; Όχι γ δ γ+δ Σύνολο α+γ β+δ N Στον Πίνακα 7 δίνονται οι συχνότητες των ατόµων που ανέπτυξαν κάποια νόσο ανάλογα µε το εάν είχαν ή όχι κάποιο χαρακτηριστικό (κάποια «έκθεση»). Ο κίνδυνος ότι θα αναπτύξουν τη νόσο τα α /( α + γ ) άτοµα της Α οµάδας είναι α/(α+γ) και της Β είναι β/(β+δ) οπότε ο ΣΚ είναι ΣΚ = [3] β /( β + δ ) Όταν ΣΚ=1, τότε ο κίνδυνος είναι ίδιος στις δύο οµάδες. Το ΤΣ του φυσικού λογάριθµου του ΣΚ δίνεται κατά προσέγγιση από την εξίσωση: 1 1 1 1 ΤΣ(ln ΣΚ) = + α α + γ β β + δ Η δειγµατοληπτική κατανοµή του λογάριθµου του ΣΚ είναι η κανονική, οπότε µπορούµε να δηµιουργήσουµε ένα Ε για τον ΣΚ σε λογαριθµική κλίµακα. Το 95% Ε έχει τη µορφή: Κατώτερο όριο = lnσκ (1,96 επί ΤΣ(lnΣΚ)) Ανώτερο όριο = lnσκ + (1,96 επί ΤΣ(lnΣΚ)) Για να βρεθεί το Ε του ΣΚ παίρνουµε τους αντιλογάριθµους των ορίων. 5.2 Odds ratio. Στον Πίνακα 7 παραπάνω, ο λόγος α/(α+γ) δια γ/(α+γ), δηλαδή α/γ λέγεται ο «odds» («λόγος συµπληρωµατικών πιθανοτήτων») της νόσου για κάποιον µε την έκθεση και ο λόγος β/δ είναι ο «odds» της νόσου σε άτοµο που δεν έχει εκτεθεί. Ένας λόγος συµπληρωµατικών πιθανοτήτων µπορεί να πάρει οποιαδήποτε τιµή από το µηδέν έως το άπειρο. Παραδείγµατος χάριν, εάν το 20% του πληθυσµού αναµένεται να εµφανίσει µία ασθένεια, τότε ο λόγος πιθανοτήτων είναι 0,20/(1-0,20) = ¼. ηλαδή ο odds να αναπτύξει τη νόσο είναι 1/4 προς 1 ή, αλλιώς, 1 προς 4). Ο λόγος των δύο λόγων (δηλαδή odds 1 /odds 2 = α / γ ) ονοµάζεται odds ratio, OR (µεταφράζεται β / δ «σχετικός λόγος συµπληρωµατικών πιθανοτήτων») και συχνά συµβολίζεται ψ. OR = ψ = αδ/βγ Όταν ο OR=1, τότε δεν υπάρχει σχέση µεταξύ των δύο µεταβλητών. Ένα Ε για το OR µπορεί να βρεθεί µε παρόµοιο τρόπο µε αυτόν του ΣΚ. Το ΤΣ του φυστικού λογάριθµου του odds ratio δίνεται κατά προσέγγιση από τον τύπο: 1 1 1 1 ΤΣ( λογor ) = + + + α β γ δ Το 95% Ε για το λογάριθµο του OR έχει τη µορφή: Κατώτερο όριο = lnor (1,96 επί ΤΣ(lnOR)) Ανώτερο όριο = lnor + (1,96 επί ΤΣ(lnOR)) Για να βρεθεί το 95% Ε του OR παίρνουµε τους αντιλογάριθµους των ορίων, και έχουµε: Κατώτερο όριο = εκθ(lnor (1,96 επί ΤΣ(lnOR)))=ΟR επί e 1,96ΤΣ Ανώτερο όριο = εκθ (lnor + (1,96 επί ΤΣ(lnOR)) = ΟR επί e +1,96ΤΣ ΙΜοσχανδρέα 11
Ο παραπάνω τύπος για το ΤΣ δεν ισχύει όταν οι συχνότητες είναι πολύ µικρές. Όπως θα δείτε παρακάτω (6.3), το OR µπορεί κάτω από συγκεκριµένες συνθήκες να θεωρηθεί ότι προσεγγίζει το ΣΚ. Αλλά γενικότερα, τα OR µας δίνουν µια εκτίµηση (και ένα Ε) της σχέσης µεταξύ δύο δυαδικών µεταβλητών. Οι OR µπορούν επίσης να χρησιµοποιηθούν για να εξετασθεί η επίδραση άλλων παραγόντων σ αυτήν τη σχέση, µε τη χρήση της λογιστικής παλινδρόµησης. Στο Παράδειγµα 3 παρακάτω όπου εκτιµάται η σχέση µεταξύ της µυωπίας παιδιών και της ύπαρξης µυωπίας στους γονείς τους, εκτιµούνται οι OR χρησιµοποιώντας 2 επί 2 πίνακες («univariate odds ratios») αλλά και λαµβάνοντας υπ όψιν άλλους παράγοντες («multivariate odds ratios»). Επιλέγεται ένα επίπεδο της κάθε µεταβλητής σαν επίπεδο αναφοράς (reference category). Στο παράδειγµα η µία µεταβλητή έχει 3 επίπεδα, οπότε οι συγκρίσεις γίνονται για κάθε ένα από τα δύο επίπεδο µε το επίπεδο αναφοράς. ΠΑΡΑΓΕΙΓΜΑ 3. Μελέτη µυωπίας. D.O. Mutti et al (2002) Investigative Opthalmology & Visual Science, 3633-3640. Οι Mutti κά εξέτασαν τη σχέση µεταξύ διαφόρων παραγόντων κινδύνου και την ύπαρξη µυωπίας σε εφήβους ηλικίας 13-14 ετών. Παρακάτω δίνονται οι πίνακες 3 και 4 της δηµοσίευσης. Για να υπολογιστούν οι (univariate) odds ratios, συγκρίνονται τα επίπεδα του κάθε παράγοντα µε κάποιο baseline επίπεδο (reference category). Η µορφή του πίνακα για την 1 η σειρά του Table 4 είναι η εξής: ΙΜοσχανδρέα 12
Ένας γονιός µε µυωπία Μυωπία; Ναι Όχι* Ναι 29 6 Όχι 130 89 *To «όχι» αντιστοιχεί στο να µην έχει κανένας γονιός µυωπία (reference category). Όποτε ο odds για την ύπαρξη µυωπίας όταν ο ένας γονιός έχει µυωπία είναι 29 x 89 = 3, 31 του odds 130x6 όταν κανένας γονιός δεν έχει µυωπία. Το 95%.Ε. για το φυσικό λογ OR είναι ln(3,31) ± (1,96ΤΣlnOR) = 1,99 ± (1,96 * 0,47) = από 0,28 έως 2,12. Παίρνοντας αντιλογάριθµους, επιβεβαιώνουµε ότι το 95% Ε για το OR είναι από exp(0,28)=1,3 έως exp(2,12)=8,3. Επειδή το διάστηµα δεν περιλαµβάνει το 1, συµπεραίνουµε ότι η ύπαρξη της µυωπίας σε εφήβους σχετίζεται µε την ύπαρξη µυωπίας στον γονέα. Στο SPSS 14.0, για να υπολογίσετε τον odds ratio και το 95% Ε, ακολουθήσετε τη διαδικασία: Analyze Descriptive Statistics Crosstabs... Κάνετε κλικ στο κουτί Statistics, και τσεκάρετε το κουτί Risk. Το Output του παραδείγµατος 3 δίνεται στο Παράρτηµα 4. 5.3 Εκτίµηση του σχετικού κινδύνου σε µελέτες ασθενών-µαρτύρων Όταν πραγµατοποιείται µία µελέτη ασθενών-µαρτύρων (case-control study) τα δεδοµένα µπορούν πάλι να παρουσιαστούν σε έναν πίνακα όπως στον Πίνακα 7. Η διαφορά όµως είναι ότι η επιλογή των ατόµων βασίζεται στην ύπαρξη της νόσου (στην έκβαση) ενώ σε µια προοπτική µελέτη βασίζεται στο χαρακτηριστικό που χωρίζει τα άτοµα σε οµάδες (στην έκθεση). Κι επειδή η επιλογή βασίζεται στην έκβαση, δεν µπορούµε µε άµεσο τρόπο να υπολογίσουµε τον κίνδυνο της έκβασης σε άτοµα µε και χωρίς το χαρακτηριστικό (διότι αλλάζοντας τον αριθµό των περιπτώσεων που επιλέγουµε θα αλλάζαµε και τον κίνδυνο!). Μπορεί όµως σαν µέτρο της σχέσης να υπολογιστεί το OR. Έχει αποδειχθεί ότι όταν η νόσος είναι σπάνια (στον πληθυσµό), όπως συχνά είναι σε µελέτες ασθενών-µαρτύρων τότε ο OR προσεγγίζει πολύ καλά τον ΣΚ. 5.4 Μελέτες ασθενών µαρτύρων όπου υπάρχει ταίριασµα (matched case-control studies) Όταν πρόκειται για µία µελέτη ασθενών-µαρτύρων όπου υπάρχει ταίριασµα (matching) σε ατοµικό επίπεδο, όπως απεικονίζεται στον Πίνακα 8 παρακάτω, τότε ο σχετικός λόγος δίνεται από ζ/η. Πίνακας 8. Γενική µορφή ενός πίνακα όπου τα άτοµα είναι ταιριασµένα και πρόκειται να υπολογιστεί ο OR. Μάρτυρες Σύνολο Εκτεθειµένοι Μη Εκτεθειµένοι Ασθενείς Εκτεθειµένοι ε ζ α Μη-Εκτεθειµένοι η θ γ Σύνολο β δ n ΙΜοσχανδρέα 13
6. Σύνοψη της σύγκρισης 2 οµάδων όσον αφορά ένα ποιοτικό χαρακτηριστικό. O πίνακας συνάφειας από τον οποίο υπολογίζεται η τιµή της στατιστικής συνάρτησης ελέγχου στον έλεγχο Χ 2 θα πρέπει να περιέχει συχνότητες. Ο έλεγχος X 2 δεν είναι εφαρµόσιµος όταν ο πίνακας περιέχει µέσες τιµές ή αλλά συνοπτικά δεδοµένα. O έλεγχος Χ 2 είναι εφαρµόσιµος όταν λιγότερα από το 20% των κελιών ενός πίνακα συνάφειας έχουν αναµενόµενη συχνότητα <5 (το 20% σηµαίνει 1 στα 5 κελιά). Προτιµάται να µην υπάρχει κελί µε αναµενόµενη συχνότητα <1. o ηλαδή όταν πρόκειται για 2 δυαδικές µεταβλητές, είναι εφαρµόσιµος όταν δεν υπάρχει καµία αναµενόµενη συχνότητα < 5. Όταν πρόκειται για δύο δυαδικές µεταβλητές µπορεί κάλλιστα να εφαρµοστεί ο ακριβής έλεγχος του Fisher αντί για τον έλεγχο Χ 2. Ο έλεγχος Χ 2 µπορεί να χρησιµοποιηθεί και για τη σύγκριση δύο αναλογιών, αρκεί ο πίνακας που θα δηµιουργηθεί να περιέχει συχνότητες (και όχι ποσοστά). Προτιµάται όµως η δηµιουργία διαστήµατως εµπιστοσύνης για τη διαφορά. Όταν οι παρατηρήσεις είναι κατά ζεύγη, δεν εφαρµόζεται ο έλεγχος Χ 2 αλλά ο έλεγχος του McNemar. Μπορεί να εφαρµοστεί µια διόρθωση για την έλλειψη συνέχειας (continuity correction), ειδικά όταν το µέγεθος του δείγµατος είναι µικρό. Όταν ο πίνακας είναι 2 επί 2, τότε συνήθως εφαρµόζεται η διόρθωση του Yates. Μπορεί να υπολογιστεί το odds ratio για τη εξέταση της σχέσης δύο δυαδικών µεταβλητών. Το odds ratio χρησιµοποιείται σαν εκτίµηση του σχετικού κινδύνου µόνο όταν πρόκειται για µελέτες ασθενών-µαρτύρων και µόνο εφ όσον η νόσος είναι σπάνια στον πληθυσµό. 7. Η εκτίµηση & ο έλεγχος µιας αναλογίας Μέχρι τώρα ασχοληθήκαµε µε την περίπτωση όπου συγκρίνονται δύο ή περισσότερες οµάδες. Υπάρχει όµως περίπτωση να έχουµε µία οµάδα ατόµων, ένα ποσοστό της οποίας έχει κάποιο χαρακτηριστικό. Θέλουµε να εκτιµήσουµε την (πιθανή) ακρίβεια του ποσοστού, να εκτιµήσουµε δηλαδή την αναλογία στον αντίστοιχο πληθυσµό (7.1) ή να ελέγξουµε εάν το ποσοστό στον πληθυσµό διαφέρει από κάποια συγκεκριµένη τιµή (7.2). 7.1 Υπολογισµός του Ε µιας αναλογίας. Η δειγµατοληπτική κατανοµή για µια αναλογία είναι η διωνυµική. Αλλά µπορούµε συνήθως να χρησιµοποιήσουµε την κανονική προσέγγιση στη διωνυµική κατανοµή για να βρούµε το τυπικό σφάλµα της παρατηρούµενης αναλογίας, και έτσι να δηµιουργήσουµε ένα διάστηµα εµπιστοσύνης για την αναλογία στον πληθυσµό 4. Θεωρούµε ότι η παρατηρούµενη αναλογία είναι η «µέση τιµή». Η κανονική προσέγγιση χρησιµοποιείται όταν το δείγµα είναι αρκετά µεγάλο και το ποσοστό δεν είναι πολύ µικρό (ή πολύ µεγάλο). Λέµε ότι πρέπει να ισχύουν τα ακόλουθα: α) np>5 και β) n(1-p)>5. 4 είτε τη δειγµατοληπτική κατανοµή και την κανονική προσέγγιση στο: http://www.ruf.rice.edu/~lane/stat_sim/normal_approx/index.html ΙΜοσχανδρέα 14
Το τυπικό σφάλµα της αναλογίας έχει τη µορφή SE ( p) = p(1 p) / n και το 95% διάστηµα εµπιστοσύνης δηµιουργείται µε τον τύπο p ± 1,96SE( p). 7.2 Ο έλεγχος υπόθεσης µιας αναλογίας. Θέλουµε να ελέγξουµε την υπόθεση ότι µία αναλογία παίρνει κάποια συγκεκριµένη τιµή στον πληθυσµό. Η0:π=p exp. Το στατιστικό κριτήριο ελέγχου (σ.κ.ε) παίρνει τη συνηθισµένη µορφή, δηλαδή (Παρατηρούµενη τιµή αναµενόµενη τιµή)/ (ΤΣ της παρατηρούµενης τιµής). Αν ισχύει η Η0, τότε το σ.κ.ε. θα ακολουθεί προσεγγιστικά την τυπική κανονική κατανοµή εφόσον το δείγµα είναι αρκετά µεγάλο και το ποσοστό δεν είναι πολύ µικρό (ή πολύ µεγάλο). Λέµε ότι πρέπει να ισχύουν τα ακόλουθα: α) np>5 και β) n(1-p)>5. p pexp Το στατιστικό κριτήριο ελέγχου είναι λοιπόν z = όπου SE ( p) = pexp (1 pexp ) / n SE( p) και p exp είναι το αναµενόµενο ποσοστό όταν ισχύει η µηδενική υπόθεση. Η εκτίµηση του τυπικού σφάλµατος διαφέρει λοιπόν απ ότι αυτή που χρησιµοποιείται στην δηµιουργία του διαστήµατος εµπιστοσύνης. Επειδή χρησιµοποιείται η συνεχής κανονική κατανοµή σαν προσέγγιση στη διακριτή διωνυµική κατανοµή 5, θεωρήται χρήσιµο να εφαρµόζεται µια διόρθωση στην παρατηρούµενη συχνότητα, επειδή η µεταβλητή παίρνει µόνο ακαίρεες τιµές. 1 p pexp z = 2n όπου SE( p) SE p) = p (1 p ) / n ( exp exp και p exp είναι το αναµενόµενο ποσοστό (όταν ισχύει η µηδενική υπόθεση). Όπως αυξάνεται το µέγεθος του δείγµατος, µειώνεται η επίδραση της διόρθωσης. Όταν δεν µπορεί να χρησιµοποιθεί η κανονική προσέγγιση, χρησιµοποιούνται οι ακριβείς πιθανότητες της διωνυµικής κατανοµής. 8. Βιβλιογραφία Agresti, A (1996) An Introduction to categorical data analysis Wiley: New York Altman D.G. (1991) Practical Statistics for Medical Research. Chapman and Hall M Bland. An Introduction to Medical Statistics 3rd ed. Oxford University Press, 2000 Petrie A, Sabin C. (2005) Medical Statistics at a glance. 2 nd ed. Blackwell Publishing: Oxford.RR Campbell MJ & Machin D (1999) Medical Statistics A Commonsense Approach 3 rd ed Wiley: Chichester. 5 Περισσότερες λεπτοµέρειες δίνονται π.χ. στο κεφάλαιο 14 των Pagano & Gauvreau «Αρχές Βιοστατιστικής». ΙΜοσχανδρέα 15
J A Rice. Mathematical Statistics & Data Analysis Wadsworth & Brooks Cole 1988 Sokal & FJ Rohlf (1995) Biometry 3rd ed. WH Freeman & Co. 9. Παραρτήµατα 9.1 Παράρτηµα 1. Αγγλική - Ελληνική Ορολογία Αγγλική Ελληνική Chi-squared test for trend Έλεγχος τάσης χ 2. Confidence interval (CI) ιάστηµα εµπιστοσύνης ( Ε) ή ιάστηµα αξιοπιστίας Contingency table, 2-way table. Πίνακας συνάφειας, διαξονικός πίνακας Continuity correction ιόρθωση για την έλλειψη συνέχειας Degrees of freedom (d.f.) Βαθµοί ελευθερίας (β.ε.) Hypothesis testing (significance testing) Έλεγχος στατιστικής υπόθεσης (έλεγχος σηµαντικότητας). ΜcΝemar s test for matchedpairs designs O έλεγχος του ΜcΝemar για παρατηρήσεις ανά ζεύγη Matched data Ταιριασµένες παρατηρήσεις Mutually exclusive Αµοιβαίως εξαιρετέα Odds Λόγος πιθανοτήτων odds ratio, OR Σχετικός λόγος συµπληρωµατικών πιθανοτήτων Outcome Έκβαση Paired data Παρατηρήσεις κατά ζεύγη Relative risk, RR Σχετικός κίνδυνος, ΣΚ Sampling distribution ειγµατοληπτική κατανοµή Standard deviation Τυπική απόκλιση (ΤΑ) ή Σταθερή απόκλιση (ΣΑ) Standard error Τυπικό σφάλµα (ΤΣ) ή Πιθανό σφάλµα (ΠΣ) Test statistic Στατιστική συνάρτηση ελέγχου ή Στατιστικό κριτήριο ελέγχου 9.2 Παράρτηµα 2. Ο έλεγχος G. Το output της ανάλυσης χ 2 του Παραδείγµατος 1 έχει την παρακάτω µορφή. Το Pearson chi Pearson Chi-Square Continuity Correction Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases 180 a. Computed only for a 2x2 table a Chi-Square Tests Asymp. Sig. Value df (2-sided) 3,578 b 1,059 2,938 1,087 3,561 1,059 3,558 1,059 b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 18,67. Exact Sig. (2-sided) Exact Sig. (1-sided),076,044 square statistic, continuity correction & Fisher s exact test συζητήθηκαν στην παράγραφο 2.2. ΙΜοσχανδρέα 16
Ο ονοµαζόµενος «λόγος πιθανοφάνειας» («Likelihood ratio») µας δίνει το likelihood ratio chisquare test (ή G-test) of independence µε στατιστικό δείκτη G, που ορίζεται ως G = 2 oij ln oij ij eij όπου ο ij είναι η συχνότητα στο κελί ij, δηλαδή στο κελί που αντιστοιχεί στη σειρά i και τη στήλη j, και e ij είναι η αναµενόµενη συχνότητα υπό την υπόθεση της ανεξαρτησίας. Ο δείκτης G έχει, προσεγγιστικά, κατανοµή χ 2 µε (R-1)*(C-1) β.ε., όπως και ο αντίστοιχος έλεγχος Χ 2. Ουσιαστικά, για την ορθή εφαρµογή της µεθόδου, χρειάζεται να τηρούνται οι προϋποθέσεις που ισχύουν για τον έλεγχο Χ 2 ως κριτήριο ανεξαρτησίας. Συνηθίζουµε να χρησιµοποιούµε τον παραδοσιακό έλεγχο Χ 2, αλλά η µέθοδος G είναι εξίσου ικανοποιητική (και µάλιστα κάποιοι όπως οι Sokal & Rohlf, σελ 686, τη θεωρούν προτιµότερη διότι έχει κάποια θεωρητικά πλεονεκτήµατα και υπολογίζεται πιο εύκολα). 9.3 Παράρτηµα 3. O έλεγχος χ 2 ως κριτήριο καλής εφαρµογής (the chi-squared goodness-of-fit test). O έλεγχος χ 2 ως κριτήριο καλής εφαρµογής (the chi-squared goodness-of-fit test) είναι ο έλεγχος που εφαρµόζεται όταν υπάρχει µια κατανοµή συχνοτήτων και θέλουµε να συγκρίνουµε τις παρατηρούµενες συχνότητες µε αυτές που θα περιµέναµε αν οι παρατηρήσεις έχουν προκύψει από µια καθορισµένη θεωρητική κατανοµή π.χ. την κανονική κατανοµή, την κατανοµή Poisson ή την πολυωνυµική κατανοµή. Υπολογίζουµε τη στατιστική συνάρτηση ελέγχου Χ 2 πάλι µε τον τύπο [2] αλλά τώρα οι αναµενόµενες συχνότητες υπολογίζονται από τις ιδιότητες της υποτιθέµενης κατανοµής και οι βαθµοί ελευθερίας στον έλεγχο X 2 καλής εφαρµογής είναι κ-1-(αριθµός των εκτιµώµενων παραµέτρων) όπου κ= αριθµός των κελιών. ΠΑΡΑ ΕΙΓΜΑ 4. Ώρα που συµβαίνουν καρδιαγγειακές προσβολές σε άνδρες ηλικίας 50-59 ετών. Καταγράφτηκε η ώρα που συνέβη καρδιαγγειακή προσβολή σε ένα διαδοχικό δείγµα 488 ανδρών που έκαναν εισαγωγή σε νοσοκοµείο (µη-πραγµατικά δεδοµένα). Τα δεδοµένα δίνονται στον Πίνακα 9 παρακάτω. Η 0 : δεν υπάρχει σχέση µεταξύ της ώρας της ηµέρας και της παρουσίας καρδιαγγειακής προσβολής. Αν ισχύει η Η 0 τότε ο χρόνος που συµβαίνουν οι καρδιαγγειακές προσβολές ακολουθεί οµοιόµορφη κατανοµή, όποτε αναµένουµε ότι θα υπάρχουν 288/12=24 περιπτώσεις κάθε δυο ώρες (δηλαδή η αναµενόµενη συχνότητα του κάθε κελιού είναι 24). Χρησιµοποιώντας τις συχνότητες που παρουσιάζονται στον Πίνακα 9, υπολογίζουµε το Χ 2 από τον τύπο [1] και βρίσκουµε ότι Χ 2 = 204,5. εν γίνεται εκτίµηση κάποιας παραµέτρου όποτε οι β.ε. εδώ είναι 12-1-0=11. Η αντίστοιχη τιµή p (από πίνακες) είναι <0,001. Συνεπώς υπάρχει ισχυρή απόδειξη ότι δεν είναι τυχαία η ώρα της ηµέρας όσον αφορά την παρουσία καρδιαγγειακής προσβολής (σε άνδρες µε εισαγωγή στο νοσοκοµείο). Πίνακας 9. Η ώρα που συνέβησαν καρδιαγγειακές προσβολές σε 488 άνδρες. Ωρα Συχνότητα Ώρα Συχνότητα 00.00-02.00 21 12.00-14.00 24 02.00-04.00 42 14.00-16.00 20 04.00-06.00 36 16.00-18.00 13 06.00-08.00 20 18.00-20.00 19 08.00-10.00 25 20.00-22.00 21 10.00-12.00 18 22.00-24.00 29 ΙΜοσχανδρέα 17
Αυτός ο έλεγχος δεν συναντάται τόσο συχνά σε βιοιατρικά δηµοσιεύµατα της όσο ο έλεγχος Χ 2 ως κριτήριο ανεξαρτησίας αλλά έχει µια ιδιαίτερα χρήσιµη και ευρεία εφαρµογή στην Γενετική: εφαρµόζεται για τον έλεγχο του «Hardy-Weinberg equilibrium». 9.4 Παράρτηµα 4. SPSS Crosstabs Output στον υπολογισµό του odds ratio του Παραδείγµατος 3. Κωδικοποιώντας την µεταβλητή «µυωπία» 1=το παιδί έχει µυωπία, 2=το παιδί δεν έχει µυωπία και την µεταβλητή «parmyop» 1 = ο ένας γονιός έχει µυωπία, 2=κανένας γονιός δεν έχει µυωπία το SPSS Output είναι: Count myopia * parmyop Crosstabulation myopia parmyop 1 2 Total 1 29 6 35 2 130 89 219 Total 159 95 254 Risk Estimate 95% Confidence Interval Value Lower Upper Odds Ratio for myopia (1 / 2) 3,309 1,319 8,299 For cohort parmyop = 0 1,396 1,159 1,682 For cohort parmyop = 1,422,200,889 N of Valid Cases 254 Ή Κωδικοποιώντας την µεταβλητή «µυωπία» 1=το παιδί έχει µυωπία, 0=το παιδί δεν έχει µυωπία και την µεταβλητή «parmyop» 1 = ο ένας γονιός έχει µυωπία, 0=κανένας γονιός δεν έχει µυωπία το SPSS Output είναι: myopia * parmyop Crosstabulation Count myopia parmyop 0 1 Total 0 89 130 219 1 6 29 35 Total 95 159 254 Risk Estimate Value 95% Confidence Interval ΙΜοσχανδρέα 18
Lower Upper Odds Ratio for myopia (0 / 1) 3,309 1,319 8,299 For cohort parmyop = 0 2,371 1,125 4,997 For cohort parmyop = 1,716,595,863 N of Valid Cases 254 Αν όµως είχαµε κωδικοποιήσει τη µεταβλητή parmyop µε 1=έχει µυωπία και 2=δεν έχει (αντί για 0), τότε το αποτέλεσµα θα ήταν το ακόλουθο. Το OR σ αυτήν την περίπτωση είναι ο odds ότι δεν θα έχει το παιδί µυωπία όταν ο ένας γονιός έχει µυωπία, σε σχέση µε το odds όταν δεν έχει κανένας γονιός µυωπία. Είναι 1/ 3,309. Count myopia * parmyop Crosstabulation myopia parmyop 1 2 Total 0 130 89 219 1 29 6 35 Total 159 95 254 Risk Estimate 95% Confidence Interval Value Lower Upper Odds Ratio for myopia (0 / 1),302,121,758 For cohort parmyop = 1,716,595,863 For cohort parmyop = 2 2,371 1,125 4,997 N of Valid Cases 254 Odds ότι έχει το παιδί µυωπία όταν δεν έχει ο γονιός = 6/95 / (89/95) = 6/89. Odds ότι έχει το παιδί µυωπία όταν έχει ο 1 γονιός = 29/159 / (130/159) = 29/130 OR ότι έχει το παιδί µυωπία όταν δεν έχει ο γονιός = (6/89) / (29/130) = 6*130 / (89 * 29). Odds ότι δεν έχει το παιδί µυωπία όταν έχει ο γονιός = 130/159 / (29/159) = 130/29. Odds ότι δεν έχει το παιδί µυωπία όταν δεν έχει ο 1 γονιός = 89/95 / (6/95) = 89/6. OR ότι δεν έχει το παιδί µυωπία όταν έχει ο γονιός = (130/29) / (89/6) = 6*130 / (89 * 29). ΙΜοσχανδρέα 19