Ιωάννης Ντζούφρας Ενότητα 4 Συγκρίσεις για 1 & 2 είγματα (II) Έλεγχοι υποθέσεων για 2 εξαρτημένα Ανάλυση εδομένων ιαφάνεια 4-30 Έστωότιέχουμεμετρήσειςγιαταίδιαάτομα Σε 2 παρόμοιες μεταβλητές (π.χ. Με ίδιες μονάδες μέτρησης) Της ίδιας μεταβλητής στην ίδια μονάδα μελέτης αλλά σε διαφορετικές χρονικές στιγμές Της ίδιας μεταβλητής αλλά σε διαφορετικά σημεία της ίδιας μονάδας μελέτης Της ίδιας μεταβλητής σε διαφορετικές μονάδες μελέτης που σχετίζονται (δίδυμα, συγγενείς, φίλοι) Αναφέρεται σε ζεύγη τιμών (pairs) Μονάδα μέτρησης Στην R => 2 στήλες / ποσοτικές μεταβλητές Στην πράξη εξετάζει τη σχέση μεταξύ 1 Ποσοτικής και 1 κατηγορικής μεταβλητής ιαφάνεια 4-31
ΠΑΡΑ ΕΙΓΜΑΤΑ Επίδοση σε 2 διαφορετικά μαθήματα Μέτρηση χοληστερίνης πριν και μετά από μια θεραπεία Πωλήσεις πριν και μετά από την εφαρμογή μιας επιχειρηματικής στρατηγικής Επίδραση θεραπείας στο δεξί και αριστερό χέρι ενός ασθενή Μελέτη συμπεριφοράς διδύμων υπό διαφορετικών συνθηκών Εξετάζει τη σχέση Επίδοσης + μαθήματος χοληστερίνης +θεραπείας Πωλήσεις + στρατηγικής Νόσου + Θεραπείας Συμπεριφορά + συνθήκες ιαφάνεια 4-32 Μας ενδιαφέρει να ελέγξουμε διαφορές μεταξύ των δύο εξαρτημένων τιμών μετρήσεων Για να αφαιρέσουμε τη συσχέτιση υπολογίζουμε τη διάφορα κάθε ζεύγους: i =X 1i X 2i Και ελέγχουμε αν ο μέσος των διαφορών είναι μηδέν ή όχι (δηλαδή κάνουμε one sample t-test για τις διαφορές) : Η 0 : μ = 0 έναντι της Η 1 : μ 0. Ο έλεγχος αυτός λέγεται t-test ανά ζεύγη ή για εξαρτημένα (paired t-test/ depended samples t-test) Ανάλυση εδομένων ιαφάνεια 4-33
ΠΡΟΫΠΟΘΕΣΗ: Η διαφορά να ακολουθεί την κανονική κατανομή ή το μέγεθος του δείγματος να είναι μεγάλο (n>50) Εάν δεν ισχύει η παραπάνω προϋπόθεση τότε χρησιμοποιούμε μη παραμετρικό έλεγχο Η 0 : Μ = 0 έναντι της Η 1 : Μ 0 Ανάλυση εδομένων ιαφάνεια 4-34 ΠΑΡΑ ΕΙΓΜΑ 4-4 [ex4.4] Μία εταιρεία θέλει να αγοράσει 2 προγράμματα διαχείρισης της αποθήκης της. Προκειμένου να αποφασίσει ο manager ποιο πρόγραμμα θα αγοράσει, επιλέγει 10 υπαλλήλους που θα το χρησιμοποιούν και τους βάζει να ολοκληρώσουν μια τυπική λειτουργία. Η επίδοση τους μετρήθηκε σε λεπτά που χρειάστηκαν για να ολοκληρωθεί ηδιαδικασία. Προκειμένου η σύγκριση να γίνει σωστά, ο manager πρόσεξε έτσι ώστε οι υπάλληλοι να μην γνωρίζουν το πρόγραμμα εκ-των-προτέρων. Επιπλέον, 5 άτομα τυχαία εξετάστηκαν πρώτα στο πρόγραμμα Α και μετά στο Β και 5 άτομα ανάποδα. Το ερώτημα είναι υπάρχει διαφορά στο χρόνο για τα 2 προγράμματα ; ιαφάνεια 4-35
ΠΑΡΑ ΕΙΓΜΑ 4-4 [ex4.4] Ανάλυση εδομένων ιαφάνεια 4-36 ΠΑΡΑ ΕΙΓΜΑ 4-4 [ex4.4] Μονάδα μελέτης: Υπάλληλος n=10 (γραμμές) Μεταβλητές: Επίδοσησελεπτά στα 2 προγράμματα p=3 (στήλες) μαζί με τα αρχικά ex4.4<-data.frame( id=c('cb','tf','mh','rk','mo','ds','ss','ct','kt','sz'), soft1 = c(9.98, 9.88, 9.84, 9.99, 9.94, 9.84, 9.86, 10.12, 9.90, 9.91), soft2 = c(9.88, 9.86, 9.75, 9.80, 9.87, 9.84, 9.87, 9.98,9.83, 9.86) ) Ανάλυση εδομένων ιαφάνεια 4-37
ΠΑΡΑ ΕΙΓΜΑ 4-4 [ex4.4] ΒΗΜΑΤΑ 1. Υπολογίζουμετηδιαφορά 2. Ελέγχουμε τη κανονικότητα της διαφοράς 3. Εφαρμόζουμε το κατάλληλο τεστ Ανάλυση εδομένων ιαφάνεια 4-38 ΠΑΡΑ ΕΙΓΜΑ 4-4 [ex4.4] ΒΗΜΑΤΑ 1. Υπολογίζουμετηδιαφορά diff <- ex4.4$soft2 - ex4.4$soft2 2. Ελέγχουμε τη κανονικότητα της διαφοράς Normal Q-Q Plot Sample Quantiles -0.15-0.10-0.05 0.00-1.5-1.0-0.5 0.0 0.5 1.0 1.5 Ανάλυση εδομένων ιαφάνεια 4-39 Theoretical Quantiles
ΠΑΡΑ ΕΙΓΜΑ 4-4 [ex4.4] 2. Ελέγχουμε τη κανονικότητα της διαφορά εν απορρίπτουμε την υπόθεση της κανονικότητας Ανάλυση εδομένων ιαφάνεια 4-40 ΠΑΡΑ ΕΙΓΜΑ 4-4 [ex4.4] 3. t-test για εξαρτημένα (paired t-test) <0.05 Άρα απορρίπτουμε Η 0 ότι η μέση διαφορά είναι μηδέν. Άρα ένα από τα 2 προγράμματα είναι καλύτερο (B) Ανάλυση εδομένων ιαφάνεια 4-41
ΠΑΡΑ ΕΙΓΜΑ 4-4 [ex4.4] paired t-test ίδιο με one sample t-test για τη διαφορά Ανάλυση εδομένων ιαφάνεια 4-42 ΠΑΡΑ ΕΙΓΜΑ 4-4 [ex4.4] 4. Για να δούμε τις διαφορές κάνουμε Boxplots 9.8 9.9 10.0 10.1-0.15-0.10-0.05 0.00 Soft1 Soft2 Ανάλυση εδομένων ιαφάνεια 4-43
Έλεγχοι για 2 εξαρτημένα (2 ποσοτικές μεταβλητές Στην R) Ναι Ναι (?) Είναι η διαφορά τους κανονική; (Έλεγχος Κανονικότητας) [SW αν n 50 - KS+SW αν n>50] Ναι Είναι ο μέσος κατάλληλο μέτρο περιγραφής της κεντρικής θέσης της διαφοράς; Είναι το δείγμα μεγάλο (n>50) Έλεγχος για μηδενική μέση διαφορά t-test ανά ζεύγη Απόρριψη Η 0 Απόρριψη Η 0 Έλεγχος για μηδενική διάμεσο διαφορά Wilcoxon test ανά ζεύγη Error-bar διαφοράς Box-plot διαφοράς Ανάλυση εδομένων ιαφάνεια 4-44 ΠΑΡΑ ΕΙΓΜΑ 4-5 εδομένα από Hollander & Wolfe (1973) Η κλίμακα κατάθλιψης του Hamilton για 9 ασθενείς με άνοια και κατάθλιψη για δύο επισκέψεις όπου έχει μεσολαβήσει θεραπεία με ένα ηρεμιστικό ΙΑ ΙΚΑΣΙΑ: 1. Υπολογίζουμετηδιαφορά 2. Ελέγχουμε την κανονικότητα 3. Εφαρμόζουμε κατάλληλο τεστ (μπορούμε και t-test λόγω μεγάλου δείγματος) Ανάλυση εδομένων ιαφάνεια 4-45
ΠΑΡΑ ΕΙΓΜΑ 4-5 1) εδομένα και διαφορά x <- c(1.83, 0.50, 1.62, 2.48, 1.68, 1.88, 1.55, 3.06, 1.30) y <- c(0.878, 0.647, 0.598, 2.05, 1.06, 1.29, 1.06, 3.14, 1.29) boxplot(x,y) boxplot(x-y) 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 Ανάλυση εδομένων ιαφάνεια 4-46 ΠΑΡΑ ΕΙΓΜΑ 4-5 2) Έλεγχος Κανονικότητας Normal Q-Q Plot Κανονικότητα οκ Sample Quantiles 0.0 0.2 0.4 0.6 0.8 1.0-1.5-1.0-0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles Ανάλυση εδομένων ιαφάνεια 4-47
ΠΑΡΑ ΕΙΓΜΑ 4-5 3) Επιλογή ελέγχου: t-test Απορρίπτεται Η0 Συνεπώς υπάρχει διαφορά μεταξύ των 2 επισκέψεων Άρα μάλλον η θεραπεία ήταν αποτελεσματική Ανάλυση εδομένων ιαφάνεια 4-48 ΠΑΡΑ ΕΙΓΜΑ 4-6 εδομένα από Champions League 2007-8 Μας ενδιαφέρει να δούμε αν υπάρχει home effect ΙΑ ΙΚΑΣΙΑ: 1. ιαβάζουμε τα δεδομένα και υπολογίζουμε τη διαφορά 2. Ελέγχουμε την κανονικότητα 3. Εφαρμόζουμε κατάλληλο τεστ (μπορούμε και t-test λόγω μεγάλου δείγματος) Ανάλυση εδομένων ιαφάνεια 4-49
ΠΑΡΑ ΕΙΓΜΑ 4-6: Champions League 2007-8 1. ιαβάζουμε τα δεδομένα και υπολογίζουμε τη διαφορά ιαφάνεια 4-50 ΠΑΡΑ ΕΙΓΜΑ 4-6: Champions League 2007-8 2. Ελέγχουμε την κανονικότητα Normal Q-Q Plot Απορρίπτεται η κανονικότητα Sample Quantiles -4-2 0 2 4 6 8-2 -1 0 1 2 Theoretical Quantiles Ανάλυση εδομένων ιαφάνεια 4-51
ΠΑΡΑ ΕΙΓΜΑ 4-7 3. Επιλογή ελέγχου Το δείγμα είναι μεγάλο n=116 άρα μπορούμε να κάνουμε t-test Η χρήση του μέσου ως μέτρο κεντρικής θέσης τάσης της διαφοράς έχει νόημα; Υπάρχει διαφορά μέσου - διαμέσου Η διαφορά φαίνεται να είναι σχετικά συμμετρική και λεπτόκυρτη Ανάλυση εδομένων ιαφάνεια 4-52 ΠΑΡΑ ΕΙΓΜΑ 4-7 3. Επιλογή ελέγχου Το δείγμα είναι μεγάλο n=116 άρα μπορούμε να κάνουμε t-test Η χρήση του μέσου ως μέτρο κεντρικής θέσης τάσης της διαφοράς έχει νόημα; Histogram of goaldiff Απορρίπτεται η Η 0 δηλαδή η κατανομή δεν είναι συμμετρική Ανάλυση εδομένων ιαφάνεια 4-53 Frequency 0 10 20 30 40 50-4 -2 0 2 4 6 8
ΠΑΡΑ ΕΙΓΜΑ 4-7 3. Επιλογή ελέγχου Το δείγμα είναι μεγάλο n=116 άρα μπορούμε να κάνουμε t-test Η χρήση του μέσου ως μέτρο κεντρικής θέσης τάσης της διαφοράς έχει νόημα; Histogram of goaldiff Απορρίπτεται η Η 0 δηλαδή η κατανομή δεν είναι συμμετρική Ανάλυση εδομένων ιαφάνεια 4-54 Frequency 0 10 20 30 40 50-4 -2 0 2 4 6 8 ΠΑΡΑ ΕΙΓΜΑ 4-7 3. Επιλογή ελέγχου Το δείγμα είναι μεγάλο n=116 άρα μπορούμε να κάνουμε t-test Η χρήση του μέσου ως μέτρο κεντρικής θέσης τάσης της διαφοράς έχει νόημα; Histogram of goaldiff Απορρίπτεται η Η 0 δηλαδή η κατανομή δεν είναι μεσόκυρτη Ανάλυση εδομένων ιαφάνεια 4-55 Frequency 0 10 20 30 40 50-4 -2 0 2 4 6 8
Έλεγχοι για 2 εξαρτημένα (2 ποσοτικές μεταβλητές Στην R) Ναι Ναι (?) Είναι η διαφορά τους κανονική; (Έλεγχος Κανονικότητας) [SW αν n 50 - KS+SW αν n>50] Ναι Είναι ο μέσος κατάλληλο μέτρο περιγραφής της κεντρικής θέσης της διαφοράς; Είναι το δείγμα μεγάλο (n>50) Έλεγχος για μηδενική μέση διαφορά t-test ανά ζεύγη Απόρριψη Η 0 Απόρριψη Η 0 Έλεγχος για μηδενική διάμεσο διαφορά Wilcoxon test ανά ζεύγη Error-bar διαφοράς Box-plot διαφοράς Ανάλυση εδομένων ιαφάνεια 4-56 Έλεγχοι για 2 εξαρτημένα (2 ποσοτικές μεταβλητές Στην R) Ναι Ναι (?) Είναι η διαφορά τους κανονική; (Έλεγχος Κανονικότητας) [SW αν n 50 - KS+SW αν n>50] Ναι Είναι ο μέσος κατάλληλο μέτρο περιγραφής της κεντρικής θέσης της διαφοράς; Είναι το δείγμα μεγάλο (n>50) Έλεγχος για μηδενική μέση διαφορά t-test ανά ζεύγη Απόρριψη Η 0 Απόρριψη Η 0 Έλεγχος για μηδενική διάμεσο διαφορά Wilcoxon test ανά ζεύγη Error-bar διαφοράς Box-plot διαφοράς Ανάλυση εδομένων ιαφάνεια 4-57
ΠΑΡΑ ΕΙΓΜΑ 4-7 3. Επιλογή ελέγχου Wilcoxon paired test Απορρίπτεται η Η 0 δηλαδή η διάμεσος δεν είναι ίδια => άρα υπάρχει home effect Ανάλυση εδομένων ιαφάνεια 4-58 -4-2 0 2 4 6 8 ΠΑΡΑ ΕΙΓΜΑ 4-8 Είναι ο αναμενόμενος χρόνος ζωής των ανδρών και γυναικών ίδια ανά χώρα; ΙΑ ΙΚΑΣΙΑ: 1. Υπολογίζουμε τη διαφορά 2. Ελέγχουμε την κανονικότητα 3. Εφαρμόζουμε κατάλληλο τεστ (μπορούμε και t-test λόγω μεγάλου δείγματος)
ΠΑΡΑ ΕΙΓΜΑ 4-8 2) Έλεγχος Κανονικότητας Histogram of lifeexpdiff Normal Q-Q Plot Frequency 0 10 20 30 Sample Quantiles 0 2 4 6 8 10-2 0 2 4 6 8 10 12 lifeexpdiff -2-1 0 1 2 Theoretical Quantiles ΠΑΡΑ ΕΙΓΜΑ 4-8 2) Έλεγχος Κανονικότητας
ΠΑΡΑ ΕΙΓΜΑ 4-8 3) Επιλογή ελέγχου Το δείγμα είναι μεγάλο n=109 άρα μπορούμε να κάνουμε t-test Η χρήση του μέσου ως μέτρο κεντρικής θέσης τάσης της διαφοράς έχει νόημα; Μικρή διαφορά μέσου - διαμέσου Η διαφορά φαίνεται να είναι συμμετρική και μεσόκυρτη (σαν κανονική) Έλεγχοι για 2 εξαρτημένα (2 ποσοτικές μεταβλητές στην R) Ναι Ναι (?) Είναι η διαφορά τους κανονική; (Έλεγχος Κανονικότητας) [SW αν n 50 - KS+SW αν n>50] Ναι Είναι ο μέσος κατάλληλο μέτρο περιγραφής της κεντρικής θέσης της διαφοράς; Είναι το δείγμα μεγάλο (n>50) Έλεγχος για μηδενική μέση διαφορά t-test ανά ζεύγη Απόρριψη Η 0 Απόρριψη Η 0 Έλεγχος για μηδενική διάμεσο διαφορά Wilcoxon test ανά ζεύγη Error-bar διαφοράς Box-plot διαφοράς
Έλεγχοι για 2 εξαρτημένα (2 ποσοτικές μεταβλητές Στην R) Ναι Ναι (?) Είναι η διαφορά τους κανονική; (Έλεγχος Κανονικότητας) [SW αν n 50 - KS+SW αν n>50] Ναι Είναι ο μέσος κατάλληλο μέτρο περιγραφής της κεντρικής θέσης της διαφοράς; Είναι το δείγμα μεγάλο (n>50) Έλεγχος για μηδενική μέση διαφορά t-test ανά ζεύγη Error-bar διαφοράς Απόρριψη Η 0 Απόρριψη Η 0 Έλεγχος για μηδενική διάμεσο διαφορά Wilcoxon test ανά ζεύγη Box-plot διαφοράς Ανάλυση εδομένων ιαφάνεια 4-64 ΠΑΡΑ ΕΙΓΜΑ 4-8 4) Ερμηνεία αποτελεσμάτων t-test ανά ζεύγη Απορρίπτουμε την Η0 => Άρα ο αναμενόμενος χρόνος ζωής ανδρών και γυναικών δεν είναι ίσος Μέσος της διαφοράς 95% διάστημα εμπιστοσύνης για το μέσο της διαφοράς Ανάλυση εδομένων ιαφάνεια 4-65
ΠΑΡΑ ΕΙΓΜΑ 4-8 5) ιαγραμματική απεικόνιση mean lifeexpdiff 4.8 5.0 5.2 5.4 5.6 0 2 4 6 8 10 0.6 0.8 1.0 1.2 1.4 1 Ανάλυση εδομένων ιαφάνεια 4-66 ΠΑΡΑ ΕΙΓΜΑ 4-8 5) ιαγραμματική απεικόνιση mean lifeexpdiff 0 2 4 6 8 10 0 2 4 6 8 10 0.6 0.8 1.0 1.2 1.4 1 Ανάλυση εδομένων ιαφάνεια 4-67
ΠΑΡΑ ΕΙΓΜΑ 4-8 [ΠΡΟΣΟΧΗ Ε ΛΑΜΒΑΝΕΙ ΥΠΟΨΗ ΤΟΥ ΤΗ ΣΥΣΧΕΤΙΣΗ] life 64 66 68 70 72 n=109 n=109 40 50 60 70 80 Females Males Females Males gender Ανάλυση εδομένων ιαφάνεια 4-68