Ανάλυση ποσοτικών δεδομένων ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος
Εισαγωγή στη στατιστική Στατιστική: σύνολο αρχών και μεθοδολογιών που χρησιμοποιούνται για: Το σχεδιασμό της διαδικασίας συλλογής δεδομένων. Τη συνοπτική και αποτελεσματική παρουσίασή τους. Την ανάλυση και εξαγωγή αντίστοιχων συμπερασμάτων. Δύο βασικές μορφές: Περιγραφική στατιστική, η οποία ασχολείται με την περιγραφή των δεδομένων του δείγματος. Επαγωγική στατιστική, η οποία ασχολείται με την εξαγωγή χρήσιμων συμπερασμάτων για τον πληθυσμό. 2
Εισαγωγή στη στατιστική Μεταβλητές: Τα χαρακτηριστικά ως προς τα οποία εξετάζουμε έναν πληθυσμό. Τιμές μεταβλητής: Οι δυνατές τιμές που μπορεί να πάρει μια μεταβλητή. Κατηγορίες μεταβλητών: i. Ποιοτικές ή κατηγορικές: είτε ονομαστικού τύπου (οι τιμές αναφέρονται μόνο σε κατηγορίες, π.χ. ηλικιακή ομάδα), είτε διατακτικού τύπου (οι συγκρίσεις της μορφής «μεγαλύτερη», «μικρότερη», «ίση» έχουν νόημα, π.χ. σε ερωτηματολόγιο ικανοποίησης). ii. Ποσοτικές: βάσει μέτρησής τους διακρίνονται σε αυτές που μετρώνται σε κλίμακα διαστήματος - εκτός από τη διάταξη των τιμών τους μας ενδιαφέρει και η μεταξύ τους απόσταση, π.χ. έτη ζωής και σε αυτές που μετρώνται σε κλίμακα λόγου - εκτός από τη διάταξη και το μέγεθος του διαστήματος μεταξύ των τιμών έχει έννοια και ο λόγος των τιμών, π.χ. προϊόντα. 3
Εισαγωγή στη στατιστική Δειγματοληψία. 4 Βασικές τεχνικές δειγματοληψίας: i. Απλή τυχαία δειγματοληψία: Επιλέγουμε τυχαία στοιχεία ή μονάδες (μετακινούμενους) από το σύνολο του πληθυσμού. ii. Στρωματοποιημένη δειγματοληψία: Χωρίζουμε τον πληθυσμό σε στρώματα και στη συνέχεια επιλέγουμε τυχαία τα στοιχεία (μετακινούμενους) από κάθε στρώμα. iii. Δειγματοληψία κατά ομάδες: Χωρίζουμε τον πληθυσμό σε πολλές ομάδες (όχι στρώματα) με την κάθε ομάδα να περιέχει ένα πλήθος στοιχείων, και στη συνέχεια επιλέγουμε τυχαία ομάδες από το σύνολο των ομάδων και συμπεριλαμβάνουμε στο δείγμα όλες τις μονάδες των επιλεγμένων ομάδων. iv. Συστηματική δειγματοληψία: Επιλέγουμε τυχαία ένα στοιχείο και στη συνέχεια ακολουθώντας ένα (σταθερό) «βήμα» επιλέγουμε τα υπόλοιπα στοιχεία. 4
Δειγματοληψία. Πληθυσμός: i. Αντικειμενικός πληθυσμός: το σύνολο των ατόμων ή στοιχείων των οποίων ένα ή περισσότερα χαρακτηριστικά θέλουμε να εξετάσουμε. ii. iii. Εισαγωγή στη στατιστική Υπό μελέτη πληθυσμός: είναι υποσύνολο συνήθως του αντικειμενικού πληθυσμού, μπορεί και να ταυτίζεται. Δειγματοληπτικό πλαίσιο: είναι το σύνολο των ατόμων ή στοιχείων που έχουν τη πραγματικά δυνατότητα επιλογής στο δείγμα (η πηγή του δείγματος). 5
Βασικές έννοιες. Μέση τιμή ή αριθμητικός μέσος (mean, average): Διάμεσος (median): ένα δείγμα ν παρατηρήσεων το τοποθετούμε σε αύξουσα σειρά, αν το ν είναι περιττός η διάμεσος είναι η μεσαία παρατήρηση, αν το ν είναι άρτιος η διάμεσος είναι το ημιάθροισμα των δύο μεσαίων παρατηρήσεων. Επικρατούσα τιμή (mode): στην περίπτωση μη ομαδοποιημένων παρατηρήσεων είναι η παρατήρηση με τη μεγαλύτερη συχνότητα. Εισαγωγή στη στατιστική = + + = = n i i n n t t t m t X n 1 1... 2 1 = + + + + = = k i i i n n n n n x n x n X av n x X k k k 1 1...... 2 1 2 2 1 1 6
Εισαγωγή στη στατιστική Επαγωγική στατιστική 7
Εισαγωγή στη στατιστική Επαγωγική στατιστική 8
Εισαγωγή στη στατιστική Όταν το δείγμα είναι μικρό, και η κανονικότητα δεν είναι σίγουρη δημιουργούνται διαγράμματα P-P και Q-Q έλεγχοι Shapiro-Wilk W (N<=2000), Shapiro-Francia W (N<=5000), Kolmogorov-Smirnov D (N>2000), and Jarque-Bera. Αν η κανονικότητα δεν ισχύει, τότε χρησιμοποιούνται μηπαραμετρικές μέθοδοι Kolmogorov-Smirnov, Kruscal-Wallis, Wilcoxon Rank-Sum. 9
Εισαγωγή στη στατιστική Στη μηδενική υπόθεση H o : Ο έλεγχος one sample t-test ελέγχει αν η μέση τιμή του πληθυσμού είναι ίση με μία συγκεκριμένη τιμή Ο έλεγχος two sample dependent t-test (paired t-test) ελέγχει αν η διαφορά μεταξύ τιμών ζευγών είναι ίση με το μηδέν (π.χ. Πρινμετά). Οι δύο αυτοί έλεγχοι είναι ΙΔΙΟΙ. 10
Εισαγωγή στη στατιστική Όταν τα δείγματα προέρχονται από δύο πληθυσμούς χρησιμοποιείται ο έλεγχος independent sample t-test που ελέγχει τις μέσες τιμές των δύο δειγμάτων Όταν τα δύο δείγματα έχουν την ίδια διακύμανση χρησιμοποιείται ο έλεγχος independent samples t-test με pooled variance Αν διαφέρει και η διακύμανσή τους τότε χρησιμοποιείται ο έλεγχος folded F test. 11
Εισαγωγή στη στατιστική Ενώ ο έλεγχος independent sample t-test συγκρίνει μέσες τιμές δύο δειγμάτων, ο έλεγχος oneway ANOVA συγκρίνει περισσότερες, χρησιμοποιώντας F στατιστικούς υπολογισμούς. Ο έλεγχος t-test θεωρείται one-way ANOVA με σύγκριση δύο δειγμάτων και έναν βαθμό ελευθερίας Το μέγεθος t statistic είναι η τετραγωνική ρίζα του μεγέθους F statistic της ANOVA (F=t 2 ) Ο έλεγχος folded F test είναι διαφορετικός και χρησιμοποιείται όταν ελέγχεται η ισότητα δύο διακυμάνσεων. 12
Ανάλυση χ 2 13
Ανάλυση χ 2 Ονομαστικά δεδομένα Η ανάλυση χ 2 διερευνά τη συσχέτιση μεταξύ δυο ποιοτικών μεταβλητών. Μπορεί να επεκταθεί και σε πιο σύνθετες καταστάσεις Καθορίζει αν υπάρχει σημαντική διαφορά μεταξύ των αναμενόμενων συχνοτήτων και των παρατηρηθεισών συχνοτήτων σε μια ή περισσότερες κατηγορίες Διαφέρει ο αριθμός των ατόμων ή αντικειμένων που εμπίπτουν σε κάθε κατηγορία σημαντικά από τον αριθμό που θα περιμέναμε; Η διαφορά αυτή μεταξύ των αναμενόμενων-παρατηρηθεισών συχνοτήτων οφείλεται σε στατιστικό λάθος ή είναι πραγματική διαφορά; 14
Πίνακες συμπτώσεων Όταν έχουμε δεδομένα που κατηγοριοποιούνται βάσει περισσότερων της μιας μεταβλητής, μπορούμε να αποδώσουμε τα δεδομένα στη μορφή πίνακα σύμπτωσης. Το παρακάτω είναι ένας 2 (αριθμός σειρών) x 3 (αριθμός στηλών) πίνακας σύμπτωσης. Σε κάθε κελί του πίνακα αποδίδονται οι παρατηρηθείσες τιμές. 15
Έλεγχος υπόθεσης ΒΗΜΑ 1: H0: Μηδενική υπόθεση (καμιά διαφορά) H1: Εναλλακτική υπόθεση (αυτή είναι η ερευνητική υπόθεση) ΒΗΜΑ 2: ΒΗΜΑ 3: SPSS Υπολογισμός του Test Statistic. Έλεγχος κριτικών τιμών από πίνακες ΒΗΜΑ 4: Αποδοχή H0 ή απόρριψη H0 ΒΗΜΑ 5: Συμπέρασμα (σε λέξεις) 16
ΒΗΜΑ1: Υποθέσεις Διατύπωση μηδενικής και εναλλακτικής υπόθεσης. ορισμός α = 0.05 ή 5% επίπεδο σημαντικότητας H0: δεν υπάρχει συσχέτιση μεταξύ του φύλου πότη μπύρας και προτίμησης τύπου μπύρας. H1: υπάρχει πιθανή συσχέτιση μεταξύ του φύλου πότη μπύρας και προτίμησης τύπου μπύρας. 17
ΒΗΜΑ 2: υπολογισμός χ 2 O = E 2 x 2 ( ) calc όπου O είναι η παρατηρηθείσα συχνότητα, E Και E είναι η αναμενόμενη συχνότητα Προσοχή: αν η παρατηρηθείσα συχνότητα δεν διαφέρει από την αναμενόμενη συχνότητα, τότε η μηδενική υπόθεση μας είναι αληθινή (δεν υπάρχει συσχέτιση). 18
υπολογισμός Πρώτα υπολογίζουμε την αναμενόμενη τιμή για κάθε κελί Υπάρχουν 6 κελιά στο παράδειγμά μας Αναμενόμενη συχνότητα E = ( RowTotal ) x( Column Total GrandTotal ) Έτσι, η αναμενόμενη συχνότητα για το κελί(1,1): E 80x50 150 ( 1,1) = = 26,67 19
Υπολογισμός 20
υπολογισμός E 80x50 150 ( 1,1) = = 26,67 E(1,2)= E(2,1)= E(2,2)= E(2,3)= E(1,3)= 21
υπολογισμός (0 = E E 2 2 ) x calc 2 x calc 2 20 26,67) (40 37,33) = + 26,67 37, 33 ( 2 + 22
ΒΗΜΑ 3 Αναζήτηση της κρίσιμης τιμής χ 2 RESEARCH DESIGN AND DATA ANALYSIS Dr. REMOS ARMAOS 23
Πίνακες χ 2 df (v) = (αριθμός σειρών-1) x (αριθμός στηλών-1) = (2-1) x (3-1) = 2 Έτσι, η κρίσιμη τιμή είναι χ 2 (2, 0.05) = 5.99 24
ΒΗΜΑΤΑ 4 & 5 ΒΗΜΑ 4: Αποδοχή ή απόρριψη H 0. Απορρίπτουμε την H 0 στο 5% επίπεδο σημαντικότητας. υπολογισθείσα τιμή > κρίσιμη τιμή = σημαντική υπολογισθείσα τιμή < κρίσιμη τιμή = μη σημαντική δηλ. πιθανότητα χ 2 calc να προκύψει από τύχη είναι μικρότερη από 5%. ΒΗΜΑ 5: Αναφορά. το αποτέλεσμα μας είναι σημαντικό στο 5% επίπεδο. 25
Ενδεικτικό παράδειγμα χ 2 calc = 6.13 είναι μεγαλύτερη από την κρίσιμη τιμή = χ 2 crit (0.05,5.99) Έχουμε σημαντικό αποτέλεσμα χ 2 calc = 5.98 είναι μικρότερη από την κρίσιμη τιμή = χ 2 crit (0.05,5.99) Δεν έχουμε σημαντικό αποτέλεσμα 26
Εγκυρότητα του τεστ χ 2 Το τεστ χ 2 είναι έγκυρο μόνον όταν: 1. Όλες οι αναμενόμενες συχνότητες είναι > 1. 2. Όχι περισσότερα από το 20% των κελιών έχουν λιγότερες από 5 αναμενόμενες συχνότητες. 27
ANOVA 28
Τι είναι η ANOVA? ANOVA? ANalysis Of VAriance 29
One-way ANOVA: πότε τη χρησιμοποιούμε *ANOVA είναι μια επέκταση των t-test* Το χρησιμοποιούμε όταν έχουμε: 1) Μια κατηγορική ΑΜ με 2 ή περισσότερα επίπεδα (η ANOVA είναι ταυτόσημη με το t-test όταν η ΑΜ έχει 2 επίπεδα) 2) Μια ΕΜ που είναι φυσιολογικά κατανεμημένη και επιπέδου διαστημάτων είναι παραμετρικό τεστ 3) H ANOVA θα δείξει αν τουλάχιστον δύο μ.ο. διαφέρουν σημαντικά μεταξύ τους (σημαντικό F μέσου τετραγώνου επεμβάσεων) Το αντίστοιχο μη-παραμετρικό τεστ είναι το Kruskal-Wallis Test 30
Παραδείγματα Ο ερευνητής θέλει να διερευνήσει Την επίδραση των αναλγητικών (παρακεταμόλη / ibuprofen / μορφίνη / placebo) στην ανακούφιση του πόνου Την επίδραση των συμβουλευτικών θεραπειών (CBT / ψυχοδυναμική / ελέγχου) στην κατάθλιψη One-way ANOVA είναι κατάλληλα τεστ για αυτές τις μελέτες 31
Δυο βασικές αρχές της ANOVA Δυο βασικές έννοιες καθορίζουν το επίπεδο σημαντικότητας της ANOVA : Αρχή 1. διαχείριση ή αποτέλεσμα μεταξύ ομάδων Αυτό είναι μια ποσοτική μέτρηση των μ. ό. Των διαφορών σε όλες τις ομάδες ΤΟ ΜΕΓΑΛΥΤΕΡΟ ΕΙΝΑΙ ΚΑΛΥΤΕΡΟ Αρχή 2. Σφάλμα διασποράς- διακύμανση τιμών μέσα στην κάθε ομάδα (δηλ. διακύμανση που δεν μπορεί να ερμηνευτεί από την ΑΜ) ΤΟ ΜΙΚΡΟΤΕΡΟ ΕΙΝΑΙ ΚΑΛΥΤΕΡΟ 32
Δυο βασικές αρχές της ANOVA F = αποτέλεσμα σφάλμα 33
Υπολογισμός one-way ANOVA ΒΗΜΑ 1. ορίστε την μηδενική και εναλλακτική υπόθεση ΒΗΜΑ 2. Πίνακας ANOVA ΒΗΜΑ 3. έλεγχος κριτικής F τιμής από πίνακες ΒΗΜΑ 4. αποδοχή ή απόρριψη υπόθεσης ΒΗΜΑ 5. συγγραφή αποτελεσμάτων 34
ΒΗΜΑ 1. ορίστε τη μηδενική και την εναλλακτική υπόθεση H 0 : H 1 : καμιά διαφορά μεταξύ των ομάδων [Μηδενική υπόθεση] υπάρχει διαφορά μεταξύ των ομάδων [εναλλακτική υπόθεση] Ένα παράδειγμα: ο ερευνητής συγκρίνει τις επιπτώσεις της θεραπευτικής αγωγής (viagra / placebo / όχι φαρμακευτική ουσία) στη libido Καμία διαφορά μεταξύ των 3 παρεμβάσεων H 0 : H 1 : Υπάρχει διαφορά μεταξύ των 3 παρεμβάσεων 35
ΒΗΜΑ 2. Πίνακας ANOVA Source of Variation Between-groups ( treatment effect ) Error (variation within group) Sums of Squares SS SS effect degrees of freedom df df effect [=groups 1] Mean Square MS (=SS / df) MS effect [ =SS effect ] df effect SS error df error MS error [ =SS error ] df error F MS effect MS error Total SS total df total [=N-1] N=αριθμός συμμετεχόντων 36
ΒΗΜΑ 3. Έλεγχος/ διασταύρωση με κριτική τιμή F από πίνακες έχουμε μια παρατηρηθείσα τιμή του F για τα δεδομένα μας Η τιμή F θέλουμε να είναι όσο το δυνατόν πιο μεγάλη Στην πραγματικότητα, να είναι τουλάχιστον τόσο μεγάλη όσο και η κριτική τιμή F 37
ΒΗΜΑ 4. Αποδοχή ή απόρριψη H 0 Αν η F είναι μεγαλύτερη από F crit τότε απόρριψε την μηδενική υπόθεση (έχουμε δηλαδή στατιστικά σημαντικό αποτέλεσμα/διαφορά μεταξύ των ομάδων) 38
ΒΗΜΑ 5. Συγγραφή αποτελέσματος Υπάρχει σημαντικήδιαφορά μεταξύ των 3 προγραμμάτων θεραπείας στη libido, 2 12F (, ) 6.67 = p <.05. 39
ANCOVA Αποτελεί επέκταση της ANOVA H ANOVA αναλύει την παραλλακτικότητα μεταξύ και εντός των επεμβάσεων. Η ANCOVA διερευνά περεταίρω την παραλλακτικότητα εντός των επεμβάσεων προσθέτοντας στην ανάλυση έναν η και περισσότερους συμπαράγοντες. 40
Mann-Whitney U-test Χρησιμοποιείται για τη σύγκριση διαφορών μεταξύ δύο ανεξάρτητων ομάδων Η εξαρτημένη μεταβλητή μπορεί να είναι διάταξης (ordinal) ή συνεχής (continuous) Τα δεδομένα της εξαρτημένης μεταβλητής δεν ακολουθούν κανονική κατανομή Οι κατανομές θα πρέπει ωστόσο να έχουν παρόμοια διάταξη (σχήμα) Είναι εν μέρει η μη παραμετρική προσέγγιση του t-test Μπορεί να χρησιμοποιηθεί για να μελετηθούν π.χ. οι προτιμήσεις διαφόρων ανθρώπων και πως επηρεάζονται ανά τοποθεσία. 41
Kruskal-Wallis H Test Μη παραμετρικό τεστ βασισμένο σε δεδομένα που είναι σε κατάταξη (π.χ. αύξουσα) Χρησιμοποιείται για να καθορίσει εάν υπάρχουν στατιστικά σημαντικές διαφορές μεταξύ δύο ή περισσοτέρων ομάδων μίας ανεξάρτητης μεταβλητής σε μία εξαρτημένη συνεχή μεταβλητή (continuous) ή μεταβλητή διάταξης (ordinal) Θεωρείται η μη παραμετρική προσέγγιση της ANOVA ή μια επέκταση του U-test καθώς επιτρέπει τη σύγκριση περισσότερων των δύο ομάδων 42
43