Εισαγωγή στη Στατιστική



Σχετικά έγγραφα
Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Κλωνάρης Στάθης. ΠΜΣ: Οργάνωση & Διοίκηση Επιχειρήσεων Τροφίμων και Γεωργίας

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Εισαγωγή στη Στατιστική

5. Έλεγχοι Υποθέσεων

Κλωνάρης Στάθης. ΠΜΣ: Οργάνωση & Διοίκηση Επιχειρήσεων Τροφίμων και Γεωργίας

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Αναλυτική Στατιστική

Στατιστική Συμπερασματολογία

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Στατιστικοί Έλεγχοι Υποθέσεων. Σαλαντή Γεωργία Εργαστήριο Υγιεινής και Επιδημιολογίας Ιατρική Σχολή

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική Επιχειρήσεων ΙΙ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ενδεικτικές ασκήσεις ΔΙΠ 50

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Εισαγωγή στην Ανάλυση Δεδομένων

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

X = = 81 9 = 9

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Γ. Πειραματισμός - Βιομετρία

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

Είδη Μεταβλητών. κλίµακα µέτρησης

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

3. Κατανομές πιθανότητας

Ιωάννης Ντζούφρας. Ενότητα 4 Συγκρίσεις για 1 & 2 είγματα. (II) Έλεγχοι υποθέσεων για 2 εξαρτημένα δείγματα. Ανάλυση εδομένων ιαφάνεια 4-30

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΑΣΚΗΣΕΙΣ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ. Άσκηση 1. Βρείτε δ/μα εμπιστοσύνης για τη μέση τιμή μ κανονικού πληθυσμού όταν n=20,

Έλεγχος υποθέσεων ΚΛΑΣΙΚΟΙ ΈΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ. Ημέσητιμήενόςπληθυσμούείναιίσημε δοθείσα γνωστή τιμή. Έλεγχος για τις μέσες τιμές δύο πληθυσμών.

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική Ι. Ενότητα 1: Στατιστική Ι (1/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

Ιατρικά Μαθηματικά & Βιοστατιστική

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2013 στη Στατιστική

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗΝ ΣΥΓΚΡΙΣΗ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΙ ΑΝΑΛΟΓΙΩΝ ΔΥΟ

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011

ΕΙΣΑΓΩΓΗ. Μη Παραµετρική Στατιστική, Κ. Πετρόπουλος. Τµήµα Μαθηµατικών, Πανεπιστήµιο Πατρών

Περιπτώσεις που η στατιστική συνάρτηση ελέγχου είναι η Ζ: 1. Η σ είναι γνωστή και ο πληθυσμός κανονικός.

ΣΤΟΧΟΙ ΤΗΣ ΕΝΟΤΗΤΑΣ ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΜΗ ΠΑΡΑΜΕΤΡΙΚΩΝ ΕΛΕΓΧΩΝ

Διάλεξη 1 Βασικές έννοιες

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Εισαγωγή στη Στατιστική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Το Κεντρικό Οριακό Θεώρημα

Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Οι παρατηρήσεις του δείγματος, μεγέθους n = 40, δίνονται ομαδοποιημένες κατά συνέπεια ο δειγματικός μέσος υπολογίζεται από τον τύπο:

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ. Επαγωγική στατιστική (Στατιστική Συμπερασματολογία) Εκτιμητική Έλεγχος Στατιστικών Υποθέσεων

9. Παλινδρόμηση και Συσχέτιση

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Transcript:

Εισαγωγή στη Στατιστική Μετεκπαιδευτικό Σεμινάριο στην ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΑΠΟΚΑΤΑΣΤΑΣΗ ΨΥΧΟΚΟΙΝΩΝΙΚΕΣ ΘΕΡΑΠΕΥΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ Δημήτρης Φουσκάκης, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο.

Περιεχόμενα Εισαγωγή στη Στατιστική Επιδημιολογικές Μελέτες Περιγραφική Στατιστική Στατιστική Συμπερασματολογία Ένα Δείγμα Δύο Ανεξάρτητα Δείγματα Δείγματα κατά Ζεύγη Ποσοστά Έλεγχος Καλής Προσαρμογής Πίνακες Συνάφειας 2 2. Ανάλυση Παλινδρόμησης Ανάλυση Διασποράς Στατιστική Συμπερασματολογία 2 Δημήτρης Φουσκάκης

Εισαγωγικά Όπως είδαμε και στην εισαγωγή, στην Στατιστική συνήθως ενδιαφερόμαστε να εκτιμήσουμε ένα άγνωστο μέγεθος, το οποίο καλείται παράμετρος και το οποίο συνήθως συνοψίζει κατά κάποιον τρόπο τις τιμές της υπό μελέτης μεταβλητής στον πληθυσμό, π.χ. τη μέση της τιμή. Η εκτίμησή μας γίνεται με την βοήθεια κατάλληλα επιλεγμένων δειγματοσυναρτήσεων, συναρτήσεων δηλαδή του δείγματος, οι οποίες καλούνται (σημειακές) εκτιμήτριες. Ο τρόπος επιλογής εκτιμητριών γίνεται είτε (α) με βάση την λογική, π.χ. αν θέλουμε να εκτιμήσουμε την μέση τιμή στον πληθυσμό μας ακούγεται λογικό να χρησιμοποιήσουμε ως εκτιμήτρια την μέση τιμή του δείγματος (plug in principle), είτε (β) με βάση διάφορες ιδιότητες, π.χ. η εκτιμήτρια μας θέλουμε να έχει μέση τιμή ίση με την ποσότητα όπου εκτιμά (αμεροληψία) είτε (γ) με βάση κάποιο κριτήριο κατασκευής (π.χ. εκτιμήτριες μέγιστης πιθανοφάνειας). Να υπενθυμίσουμε εδώ ότι οι εκτιμήτριες ως δειγματοσυναρτήσεις είναι τυχαίες μεταβλητές και άρα η ίδια εκτιμήτρια συνήθως παίρνει άλλη τιμή όταν παρατηρούμε άλλα δεδομένα. Συνήθως θέλουμε η εκτιμήτριά μας να έχει μικρή μεταβλητότητα (δηλαδή διασπορά), έτσι ώστε το τυπικό σφάλμα εκτίμησης (η τυπική απόκλιση της εκτιμήτριας) να είναι μικρό, δηλαδή οι τιμές της εκτιμήτριας μας να μην μεταβάλλονται πολύ από δείγμα σε δείγμα. Στατιστική Συμπερασματολογία 3 Δημήτρης Φουσκάκης

Σημειακές Εκτιμήσεις Παράμετρος Εκτιμήτρια Μέση Τιμή Πληθυσμού Δειγματικός Μέσος Διασπορά Πληθυσμού Δειγματική Διασπορά Ποσοστό Πληθυσμού Σχετική Συχνότητα Στατιστική Συμπερασματολογία 4 Δημήτρης Φουσκάκης

Διαστήματα Εμπιστοσύνης Οι (σημειακές) εκτιμήσεις δεν μας δίνουν κάποια πληροφορία σχετικά με την ακρίβεια ή το σφάλμα εκτίμησης. Είναι λοιπόν χρήσιμο να προσδιορίσουμε, μέσω των εκτιμητριών και των τυπικών τους σφαλμάτων, ένα διάστημα το οποίο θα περιέχει την άγνωστη τιμή της παραμέτρου θ με καθορισμένη πιθανότητα, έστω γ. Σκοπός μας δηλαδή είναι να βρούμε δυο ποσότητες u και v (u<v) έτσι ώστε η πιθανότητα (u θ v)=γ=1-α. Το [u,v] καλείται διάστημα εμπιστοσύνης (Δ.Ε.) με συντελεστή εμπιστοσύνης (σ.ε.) γ=1-α. Το διάστημα εμπιστοσύνης του θ προσδιορίζεται με βάση την κατανομή της εκτιμήτριας του θ από το τυχαίο δείγμα, συνεπώς οι τιμές u και v είναι τυχαίες μεταβλητές. Αυτό σημαίνει ότι από διαφορετικό δείγμα ίδιου μεγέθους ενδέχεται να προκύψουν διαφορετικά Δ.Ε. για το θ. Στατιστική Συμπερασματολογία 5 Δημήτρης Φουσκάκης

Διαστήματα Εμπιστοσύνης Το εύρος του Δ.Ε. εξαρτάται από το τυπικό σφάλμα της εκτιμήτριας του θ και τον συντελεστή εμπιστοσύνης. Όσο μεγαλύτερο είναι το τυπικό σφάλμα της εκτιμήτριας του θ τόσο μεγαλύτερο εύρος έχει το Δ.Ε. Επίσης όσο μεγαλύτερο συντελεστή εμπιστοσύνης έχουμε τόσο μεγαλύτερο εύροςέχειτοδ.ε. Το τυπικό σφάλμα των εκτιμητριών είναι αντιστρόφως ανάλογο του μεγέθους του δείγματος n. Συνεπώς όσο το n αυξάνει τόσο το εύρος του Δ.Ε. θα μειώνεται. Στατιστική Συμπερασματολογία 6 Δημήτρης Φουσκάκης

Διαστήματα Εμπιστοσύνης Η πραγματική ερμηνεία ενός Δ.Ε. με σ.ε. γ είναι η ακόλουθη. Σε μια σειρά κατασκευών διαστημάτων εμπιστοσύνης μιας παραμέτρου, με ανεξάρτητα δείγματα του αυτού μεγέθους, ένα ποσοστό 100 γ% των διαστημάτων αυτών αναμένεται να περιέχουν την αληθή τιμή της παραμέτρου θ. Στατιστική Συμπερασματολογία 7 Δημήτρης Φουσκάκης

Διαστήματα Εμπιστοσύνης Repetitions 0 20 40 60 80 100-0.4-0.2 0.0 0.2 0.4 Confidence Intervals Στατιστική Συμπερασματολογία 8 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Στατιστική υπόθεση ονομάζεται κάθε υπόθεση που αφορά στην κατανομή μιας τυχαίας μεταβλητής Χ. Συνήθως μια υπόθεση αφορά στην άγνωστη παράμετρο, έστω θ της κατανομής της τυχαίας μεταβλητής Χ. Παράδειγμα 1. Έστω Χ η συστολική πίεση υγιών γυναικών. Ενδιαφερόμαστε να ελέγξουμε αν η μέση τιμή της τυχαίας μεταβλητής Χ, έστω μ, είναι 100 mm Hg, δηλαδή να ελέγξουμε αν ισχύει η μηδενική υπόθεση Η 0 : μ=100 με εναλλακτική υπόθεση την Η 1 : μ 100. Η απόφασή μας για το αν θα απορρίψουμε ή όχι την μηδενική υπόθεση θα γίνει με βάση τα δεδομένα μας. Λογική Ελέγχου Υποθέσεων: Αθώος (Η 0 σωστή) μέχρι αποδείξεως του εναντίου (Η 0 λανθασμένη). Άρα ή θα έχουμε αρκετές ενδείξεις από τα δεδομένα για να απορρίψουμε την μηδενική υπόθεση ή δεν θα έχουμε αρκετές ενδείξεις και δεν μπορούμε να την απορρίψουμε. Στατιστική Συμπερασματολογία 9 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Ο έλεγχος καλείται αμφίπλευρος. Οι έλεγχοι H :θ H :θ H :θ H :θ = θ > θ 0 0 1 0 = θ θ 0 0 1 0 H :θ= θ H :θ< θ 0 0 1 0 καλούνται μονόπλευροι. Στατιστική Συμπερασματολογία 10 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Για τον έλεγχο μιας (στατιστικής) υπόθεσης υπολογίζουμε το στατιστικό ελέγχου (test statistic). Συνήθως το στατιστικό ελέγχου είναι της μορφής ( Εκτιμή τρια του θ) (Τιμή του θ με βάση την Η ) Τυπικό Σφάλμα Εκτιμήτριας του θ Παρατηρήστε ότι το στατιστικό ελέγχου είναι μια δειγματοσυνάρτηση. Αυτό σημαίνει ότι από διαφορετικό δείγμα ίδιου μεγέθους ενδέχεται να προκύψουν διαφορετικές τιμές για την παραπάνω παράσταση. 0 Στατιστική Συμπερασματολογία 11 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Εν συνεχεία χωρίζουμε τον παραμετρικό χώρο σε περιοχή αποδοχής (οι τιμές του στατιστικού ελέγχου για τις οποίες δεν απορρίπτουμε την Η ο ) και σε κρίσιμη περιοχή (οι τιμές του στατιστικού ελέγχου για τις οποίες απορρίπτουμε την Η ο ). Ο εν λόγω διαχωρισμός του παραμετρικού χώρου εξαρτάται πέραν της τιμής του στατιστικού ελέγχου και από μια πιθανότητα α την οποία καλούμε επίπεδο σημαντικότητας του ελέγχου και ισούται με την πιθανότητα σφάλματος τύπου Ι. Στατιστική Συμπερασματολογία 12 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Πραγματικότητα Απόφαση H 0 Αληθής H 1 Αληθής Δεν απορρίπτω H 0 Σωστή Απόφαση Σφάλμα Τύπου ΙΙ (πιθανότητα β) Απορρίπτω H 0 Σφάλμα Τύπου Ι (πιθανότητα α) Σωστή Απόφαση α = P(σφάλμα τύπου Ι) = P(απορρίπτω Η ο Η 0 σωστή) β = P(σφάλμα τύπου ΙΙ) = P(δεν απορρίπτω Η ο Η 1 σωστή) Στατιστική Συμπερασματολογία 13 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Επιλέγουμε την κρίσιμη περιοχή έτσι ώστε να ελαχιστοποιούνται οι πιθανότητες των 2 ειδών σφαλμάτων. Κάτι τέτοιο δεν είναι πάντοτε εφικτό, οπότε στην πράξη κρατάμε το α σταθερό (π.χ. α=0.05) και ελαχιστοποιούμε το β. Η πιθανότητα P(απορρίπτω Ηο Η 1 σωστή) = 1-β καλείται ισχύς του ελέγχου. Στατιστική Συμπερασματολογία 14 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων 1. Ορίζουμε τη μηδενική και την εναλλακτική υπόθεση με βάση το ερευνητικό μας ερώτημα. 2. Υπολογίζουμε το στατιστικό ελέγχου για τα δεδομένα μας. 3. Ορίζουμε την κρίσιμη περιοχή με βάση την προκαθορισμένη πιθανότητα σφάλματος τύπου Ι α. 4. Αν η τιμή του στατιστικού μας ελέγχου ανήκει στην κρίσιμη περιοχή απορρίπτουμε την μηδενική υπόθεση, αλλιώς δεν έχουμε με βάση τα δεδομένα σοβαρές ενδείξεις για να την απορρίψουμε. Στατιστική Συμπερασματολογία 15 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Στο παράδειγμα 1 θέλουμε να ελέγξουμε αν η μέση συστολική πίεση των υγιών γυναικών είναι 100 mm Hg με εναλλακτικήότιδενείναι. Έχουμε δηλαδή, σε ε.σ. έστω α, τον εξής έλεγχο: H 0 :μ = 100 H :μ 100. Από τυχαίο δείγμα 50 τέτοιων γυναικών έστω ότι η δειγματική μέση τιμή προέκυψε 107 mm Hg. Το ερώτημα λοιπόν είναι αν η διαφορά αυτή μεταξύ της τιμής του δείγματος και της υποτιθέμενης τιμής των 100 mm Hg μας δίνει σοβαρές ενδείξεις εναντίον της Η 0 ή αν πιστεύουμε ότι προήλθε στην τύχη λόγω του συγκεκριμένου τυχαίου δείγματος που επιλέξαμε. Προφανώς όσο μεγαλύτερο είναι το τυπικό σφάλμα της εκτιμήτριας που χρησιμοποιούμε τόσο πιο εύκολα πιστεύουμε ότι η παρατηρούμενη αυτή διαφορά μπορεί να προέκυψε στην τύχη. Στατιστική Συμπερασματολογία 16 Δημήτρης Φουσκάκης 1

Έλεγχοι Υποθέσεων Υπολογίζουμε λοιπόν το στατιστικό ελέγχου X 100 X 100 Z = =. SE(X) σ / n Αν υποθέσουμε ότι γνωρίζουμε την τυπική απόκλιση του πληθυσμού, έστω σ=16 mm Hg, τότε το παραπάνω στατιστικό για το συγκεκριμένο δείγμα παίρνει την τιμή x 100 107 100 z= = = 3.09. σ / n 16/ 50 Στατιστική Συμπερασματολογία 17 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Το ερώτημα λοιπόν είναι ποια είναι η πιθανότητα αν είχαμε κάποιο άλλο δείγμα να παρατηρούσαμε μια τιμή τόσο ακραία ή και ακόμα περισσότερο από το z=3.09. Επειδή ο έλεγχος μας είναι αμφίπλευρος ως ακραία θεωρούμε οποιαδήποτε τιμή που είναι >3.09 ή <-3.09. Άρα αρκεί να βρούμε την περιοχή (πιθανότητα) κάτω από την κατανομή της τ.μ. Ζδεξιάτου3.09 και αριστερά του -3.09 και να τις προσθέσουμε. Από την θεωρία Πιθανοτήτων ξέρουμε ότι κάτω από την μηδενική υπόθεση η τ.μ. Ζ ακολουθεί την τυποποιημένη Κανονική κατανομή. Στατιστική Συμπερασματολογία 18 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων ΑπότουςπίνακεςτηςΚανονικήςκατανομήςβρίσκουμεότι 0.001 0.001-3.09 3.09 Στατιστική Συμπερασματολογία 19 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Η πιθανότητα λοιπόν να παρατηρήσουμε μια τιμή τόσο ακραία ή και ακόμα περισσότερο από το z =3.09, δηλαδή η πιθανότητα της περιοχής δεξιά από το 3.09 συν την πιθανότητα της περιοχής αριστερά από το -3.09, είναι περίπου 0.002. Άρα κάτω από την μηδενική υπόθεση η τιμή του δειγματικού μέσου 93 mm Hg είναι πάρα πολύ απίθανη και άρα έχουμε πολύ σοβαρές ενδείξεις εναντίον της μηδενικής υπόθεσης, και οπότε την απορρίπτουμε. Η παραπάνω πιθανότητα καλείται P-τιμή του ελέγχου. Προσοχή! Η P-τιμή του ελέγχου δεν είναι η πιθανότητα η μηδενική υπόθεση να είναι αληθής. Η P-τιμή του ελέγχου είναι η πιθανότητα το στατιστικό ελέγχου που χρησιμοποιούμε να πάρει σε κάποιο άλλο δείγμα μία τόσο ακραία ή και ακόμα περισσότερο τιμή με αυτή που έχουμε παρατηρήσει, δεχόμενοι την μηδενική υπόθεση. Συνήθως όταν η P-τιμή < α απορρίπτουμε την μηδενική υπόθεση. Στατιστική Συμπερασματολογία 20 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Αν θέλουμε για το εν λόγω παράδειγμα να δημιουργήσουμε την κρίσιμη περιοχή σε ε.σ. έστω α=0.05 θα ήταν λογικό να είχαμε τον εξής κανόνα για το στατιστικό ελέγχου μας: Απορρίπτω την Η 0 αν: Z<-z α/2 ή z > z α/2 Στατιστική Συμπερασματολογία 21 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Κρίσιμη Περιοχή Κρίσιμη Περιοχή -z α/2 z α/2 Στατιστική Συμπερασματολογία 22 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων Για α=0.05 εύκολα βρίσκουμε από τους πίνακες της τυποποιημένης Κανονικής κατανομής ότι z 0.025 =1.96. Άρα z=-3.03<-z 0.025 =-1.96 οπότε απορρίπτουμε την μηδενική υπόθεση. Ισοδύναμα θα μπορούσαμε να κατασκευάζαμε ένα συμμετρικό 95% Δ.Ε. για το μ, το οποίο δεν είναι τίποτα άλλο από την περιοχή αποδοχής του αμφίπλευρου ελέγχου: x z σ / n, x + z σ / n = (107 1.96 16 / 50, 107 1.96 16 / 50) = ( α/2 α/2 ) = (102.56,111.44) Παρατηρούμε ότι το παραπάνω ΔΕ δεν περιέχει την υποτιθέμενη τιμή με βάση την Η 0 των 100 mm Hg και άρα οδηγούμαστε στο συμπέρασμα να απορρίψουμε την Η 0. Στατιστική Συμπερασματολογία 23 Δημήτρης Φουσκάκης

Ένα δείγμα Έλεγχος για την μέση τιμή μιας ποσοτικής μεταβλητής: Ας υποθέσουμε ότι έχουμε μια τυχαία μεταβλητή Χ από πληθυσμό με μέση τιμή μ και διασπορά σ 2 (μ, σ 2 άγνωστα) και ενδιαφερόμαστε να ελέγξουμε την υπόθεση Η 0 : μ = μ 0 έναντι της Η 1 : μ μ 0 σε ε.σ. α. Έστω Χ 1,...,Χ n τυχαίο δείγμα. Το στατιστικό ελέγχου μας τότε είναι X X Z μ μ = = SE(X) σ / n 0 0 το οποίο ακολουθεί την Ν(0,1). Επειδή το σ είναι άγνωστο το εκτιμούμε από την δειγματική τυπική απόκλιση S και το στατιστικό ελέγχου γίνεται X μ Τ = S/ n Στατιστική Συμπερασματολογία 24 Δημήτρης Φουσκάκης 0 ~St(n 1).

Ένα δείγμα Απαραίτητη προϋπόθεση για τα παραπάνω είναι τα δεδομένα μας να είναι Κανονικά κατανεμημένα ή το μέγεθος του δείγματος είναι μεγάλο (n>50). Στην περίπτωση μάλιστα που το μέγεθος του δείγματος είναι μεγάλο η κατανομή του Student προσεγγίζεται από την Κανονική κατανομή, οπότε μπορούμε να θεωρήσουμε ότι το Τ ακολουθεί την Ν(0,1). Με βάση λοιπόν τους πίνακες της Student κατανομής (ή τηςν(0,1) για μεγάλο δείγμα) μπορούμε να βρούμε την P-τιμή του παραπάνω ελέγχου. Ο εν λόγω έλεγχος καλείται one sample t-test. Αν το μέγεθος του δείγματος δεν είναι μεγάλο και δεν ισχύει η κανονικότητα, τότε ή μετασχηματίζουμε κατάλληλα τα δεδομένα ώστε να επιτευχθεί η κανονικότητα ή χρησιμοποιούμε τον αντίστοιχο μη παραμετρικό έλεγχο όπως θα δούμε παρακάτω. Ισοδύναμα με τον παραπάνω αμφίπλευρο έλεγχο θα μπορούσαμε να κατασκευάζαμε ένα συμμετρικό (1-α)% Δ.Ε. για το μ, και να ελέγχαμε αν η υποτιθέμενη τιμή μ 0 ανήκει στο εν λόγω διάστημα. ( x t ) n 1, α/2s/ n, x+ tn 1, α/2s/ n Στατιστική Συμπερασματολογία 25 Δημήτρης Φουσκάκης

Ένα δείγμα Η P-τιμή για τον εν λόγω έλεγχο προκύπτει με βάση την εναλλακτική υπόθεση: Αν Η 1 : μ μ 0 τότε η P-τιμή είναι 2 φορές η πιθανότητα δεξιά του Τ (ή ισοδύναμα2 φορές η πιθανότητα αριστερά του - Τ ). Αν Η 1 : μ > μ 0 τότε η P-τιμή είναι πιθανότητα δεξιά του Τ. Αν Η 1 : μ < μ 0 τότε η P-τιμή είναι πιθανότητα αριστερά του Τ. Στατιστική Συμπερασματολογία 26 Δημήτρης Φουσκάκης

Ένα δείγμα Παράδειγμα. Έστω Χ η συστολική πίεση υγιών γυναικών. Ενδιαφερόμαστε να ελέγξουμε αν η μέση τιμή της τυχαίας μεταβλητής Χ, έστω μ, είναι 100 mm Hg, δηλαδή αν Η 0 : μ=100 με Η 1 : μ 100, σε ε.σ. 0.05. Έστω πήραμε τις ακόλουθες παρατηρήσεις από τυχαίο δείγμα 20 τέτοιων γυναικών: 99 126 108 112 104 108 116 106 118 92 110 90 120 102 108 103 93 102 94 104 Στατιστική Συμπερασματολογία 27 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 28 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 29 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 30 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 31 Δημήτρης Φουσκάκης

Ένα δείγμα Μιας και το μέγεθος του δείγματός μας δεν είναι τόσο μεγάλο στην αρχή ελέγχουμεανηυπόθεση της κανονικότητας είναι λογική. Η υπόθεση της κανονικότητας δεν είναι παράλογη. Στατιστική Συμπερασματολογία 32 Δημήτρης Φουσκάκης

Ένα δείγμα Για να ελέγξουμε αν τα δεδομένα μας προέρχονται από την Κανονική κατανομή κάνουμε επίσης μια γραφική παράσταση των δειγματικών ποσοστημορίων ως προς τα θεωρητικά ποσοστημόρια της Κανονικής Κατανομής (QQ - PLOT). Όσο πιο κοντά στην γραμμή, που αναπαριστά τα θεωρητικά ποσοστημόρια, είναι τα σημεία, που με την σειρά τους αναπαριστούν τα δειγματικά ποσοστημόρια, τόσο καλύτερη προσαρμογή έχουμε. Ισοδύναμα υπάρχει και το PP PLOT που ελέγχει δειγματικές αθροιστικές πιθανότητες με αναμενόμενες αθροιστικές πιθανότητες με βάση την υπόθεση της κανονικής κατανομής. Και πάλι όσο πιο κοντά στην γραμμή είναι τα σημεία τόσο καλύτερη προσαρμογή έχουμε. Στατιστική Συμπερασματολογία 33 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 34 Δημήτρης Φουσκάκης

Ένα δείγμα Η υπόθεση της κανονικότητας δεν είναι παράλογη. Στατιστική Συμπερασματολογία 35 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 36 Δημήτρης Φουσκάκης

Ένα δείγμα Τιμή του στατιστικού T Βαθμοί ελευθερίας της Student κατανομής P-τιμή του αμφίπλευρου ελέγχου 95% Δ.Ε. της διαφοράς του μέσου από την υποτιθέμενη τιμή κάτω από την Η 0 (δεν περιέχει το 0) Διαφορά δειγματικού μέσου από υποτιθέμενη τιμή κάτω από την Η 0 Στατιστική Συμπερασματολογία 37 Δημήτρης Φουσκάκης

Ένα δείγμα Από τα αποτελέσματα του παραπάνω ελέγχου παρατηρούμε ότι η P-τιμή = 0.015 < 0.05, οπότε σε ε.σ. 5% έχουμε σοβαρές ενδείξεις εναντίον της μηδενικής υπόθεσης, οπότε την απορρίπτουμε, δηλαδή η μέση συστολική πίεση υγιών γυναικών είναι διάφορη του 100. Ένα 95% Δ.Ε. για την μέση συστολική πίεση υγιών γυναικών είναι (100 + 1.24, 100+10.26) = (101.24, 110.26) Στατιστική Συμπερασματολογία 38 Δημήτρης Φουσκάκης

Ένα δείγμα Όταν το μέγεθος του δείγματος είναι μικρό και δεν ισχύει η υπόθεση της κανονικότητας είτε μετασχηματίζουμε κατάλληλα τα δεδομένα, είτε εφαρμόζουμε τον αντίστοιχο μη παραμετρικό έλεγχο που καλείται Wilcoxon test. Για την εφαρμογή του παραπάνω ελέγχου στο SPSS πρέπει να κατασκευάσουμε μια καινούργια μεταβλητή (έστω value), στην οποία επαναλαμβάνουμε την υποτιθέμενη τιμή κάτω από την μηδενική υπόθεση (100 για το παράδειγμα που βρισκόμαστε) για κάθε μονάδα του δείγματός μας. Στατιστική Συμπερασματολογία 39 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 40 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 41 Δημήτρης Φουσκάκης

Ένα δείγμα Ασυμπτωτική P-τιμή Ακριβής P-τιμή για τον αμφίπλευρο έλεγχο Ακριβής P-τιμή για τον μονόπλευρο έλεγχο < 0.05, οπότε έχουμε σοβαρές ενδείξεις εναντίον μηδενικής υπόθεσης Στατιστική Συμπερασματολογία 42 Δημήτρης Φουσκάκης

Έλεγχοι για ένα δείγμα (1 ποσοτική μεταβλητή) Ναι Είναι η μεταβλητή μας κανονική ή το μέγεθος του δείγματος μεγάλο; Όχι Wilcoxon test για ένα δείγμα Έλεγχος για τη μέση τιμή - t-test για ένα δείγμα Στατιστική Συμπερασματολογία 43 Δημήτρης Φουσκάκης

Ένα δείγμα Έλεγχος ποσοστών: Ας υποθέσουμε ότι έχουμε μια κατηγορική δίτιμη τυχαία μεταβλητή Χ με τιμές 0 και 1 και P(X=1)=p (άγνωστο). Προφανώς τότε η Χ~Bernoulli(p). Ενδιαφερόμαστε να ελέγξουμε την υπόθεση Η 0 : p = p 0 έναντι της Η 1 : p p 0 σε ε.σ. α. Έστω Χ 1,...,Χ n τυχαίο δείγμα. Το στατιστικό ελέγχου μας τότε είναι p ˆ p p ˆ p SE(p) ˆ p(1 p)/n 0 0 Z = =, όπου p= X η σχετική 0 0 συχνότητα της τιμής 1 στο δείγμα μας. ˆ Στατιστική Συμπερασματολογία 44 Δημήτρης Φουσκάκης

Ένα δείγμα Με βάση το Κ.Ο.Θ., για μεγάλο n, το Ζ Ν(0,1) κάτω από την μηδενική υπόθεση. Συχνά στην προκειμένη περίπτωση για να είναι πιο ικανοποιητική η προσέγγισή μας προχωράμε σε μια διόρθωση γνωστή ως διόρθωση συνέχειας του Yates (Yates continuity correction). Το στατιστικό ελέγχου γίνεται ˆp p 1/2n 0 Z. = p(1 p)/n 0 0 Υπολογίζουμε την τιμή του Z με βάση τις παρατηρήσεις μας και με την βοήθεια του πίνακα της τυποποιημένης Κανονικής κατανομής βρίσκουμε την P-τιμή. Αντίστοιχα μπορούμε να υπολογίσουμε το Ζ 2 το οποίο ακολουθεί την Χ 2 κατανομή με 1 βαθμό ελευθερίας και να βρούμε την P-τιμή με την βοήθεια του πίνακα της Χ 2 κατανομής με 1 βαθμό ελευθερίας. Στατιστική Συμπερασματολογία 45 Δημήτρης Φουσκάκης

Ένα δείγμα Ισοδύναμα με τον παραπάνω αμφίπλευρο έλεγχο θα μπορούσαμε να κατασκευάσουμε ένα συμμετρικό (1-α)% Δ.Ε. για το p, εκτιμώντας το τυπικό σφάλμα με την βοήθεια του ˆp, και να δούμε αν η υποτιθέμενη τιμή p 0 ανήκει στο εν λόγω διάστημα. ( p ˆ z ˆ ˆ ˆ ˆ ˆ ) α/2 p(1 p)/n, p + zα/2 p(1 p)/n Στατιστική Συμπερασματολογία 46 Δημήτρης Φουσκάκης

Ένα δείγμα Η P-τιμή για τον εν λόγω έλεγχο προκύπτει και πάλι με βάση την εναλλακτική υπόθεση: Αν Η 1 : p p 0 τότε η P-τιμή είναι 2 φορές η πιθανότητα δεξιά του Z (ή ισοδύναμα 2 φορές η πιθανότητα αριστερά του - Z ). Ισοδύναμα αν δουλέψουμε με το Ζ 2 η P-τιμή είναι η πιθανότητα δεξιά του Ζ 2. Αν Η 1 : p > p 0 τότε η P-τιμή είναι πιθανότητα δεξιά του Ζ. Ισοδύναμα αν δουλέψουμε με το Ζ 2 η P-τιμή είναι το 1/2 της πιθανότητας δεξιά του Ζ 2. Αν Η 1 : p < p 0 τότε η P-τιμή είναι πιθανότητα αριστερά του Ζ. Ισοδύναμα αν δουλέψουμε με το Ζ 2 η P-τιμή είναι ίση με το συμπλήρωμα του 1/2 της πιθανότητας δεξιά του Ζ 2. Στατιστική Συμπερασματολογία 47 Δημήτρης Φουσκάκης

Ένα δείγμα Για να ισχύει το Κ.Ο.Θ. και όλα τα προηγούμενα θα πρέπει το μέγεθος του δείγματος να είναι μεγάλο. To πόσο μεγάλο πρέπει να είναι το n σχετίζεται με το πόσο συμμετρική είναι η διωνυμική κατανομή που στην πραγματικότητα έχουμε και για αυτό στην πράξη ελέγχουμε αν n p 5 0 KAI n (1 p ) 5 0 Στατιστική Συμπερασματολογία 48 Δημήτρης Φουσκάκης

Ένα δείγμα Ισοδύναμα θα μπορούσαμε να είχαμε κατασκευάσει ένα πίνακα συχνοτήτων και να ελέγχαμε αν οι παρατηρηθείσες συχνότητες (δείγμα) διαφέρουν από τις αναμενόμενες (np 0 και n(1-p 0 )) υπολογίζοντας το παρακάτω στατιστικό ελέγχου: ( ) 2 2 παρατηρηθείσες συχνότητες - αναμενόμενες συχνότητες Χ = αναμενόμενες συχνότητες, Στατιστική Συμπερασματολογία 49 Δημήτρης Φουσκάκης

Ένα δείγμα Το παραπάνω στατιστικό ελέγχου κάτω από την μηδενική υπόθεση ακολουθεί την Χ 2 με ένα βαθμό ελευθερίας, οπότε και η P-τιμή του ελέγχου προκύπτει όπως και πριν. Για να εφαρμοστεί ο παραπάνω έλεγχος πρέπει οι αναμενόμενες συχνότητες να είναι τουλάχιστον 5 (όπως και πριν). Στατιστική Συμπερασματολογία 50 Δημήτρης Φουσκάκης

Ένα δείγμα Παράδειγμα. Σε τυχαίο δείγμα n=100 Ελλήνων πολιτών βρέθηκαν κ=30 καπνιστές ( ˆp = 30 /100 ). Θέλουμε σε ε.σ. 5% να ελέγξουμε την υπόθεση ότι το 25% των Ελλήνων πολιτών καπνίζει (H 0 : p=0.25) με εναλλακτική H 1 :p 0.25. Παρατηρούμε ότι np 0 = 25 και n(1-p 0 )= 75. Στατιστική Συμπερασματολογία 51 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 52 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 53 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 54 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 55 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 56 Δημήτρης Φουσκάκης

Ένα δείγμα Συχνότητες από το δείγμα, αναμενόμενες συχνότητες με βάση την Η 0 και διαφορές τους. Χ 2 Βαθμοί ελευθερίας P-τιμή του ακριβή αμφίπλευρου ελέγχου Προϋποθέσεις OK Στατιστική Συμπερασματολογία 57 Δημήτρης Φουσκάκης

Ένα δείγμα Από τα αποτελέσματα του παραπάνω ελέγχου καταλήγουμε ότι, σε ε.σ. 5%, δεν έχουμε σοβαρές ενδείξεις εναντίον της μηδενικής υπόθεσης, οπότε δεν την απορρίπτουμε. Όταν δεν ισχύουν οι προϋποθέσεις του Κ.Ο.Θ. (οι αναμενόμενες συχνότητες δεν είναι τουλάχιστον 5) θα πρέπει να εφαρμόσουμε το Διωνυμικό κριτήριο (binomial test). Στατιστική Συμπερασματολογία 58 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 59 Δημήτρης Φουσκάκης

Ένα δείγμα Στατιστική Συμπερασματολογία 60 Δημήτρης Φουσκάκης

Ένα δείγμα Ασυμπτωτική P-τιμή μονόπλευρου ελέγχου μεβάσητηνκανονικήκατανομή. Ακριβής P-τιμή μονόπλευρου ελέγχου. Η ακριβής P-τιμή αμφίπλευρου ελέγχου είναι 2 0.15 = 0.30. Στατιστική Συμπερασματολογία 61 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Έλεγχος για την διαφορά των μέσων τιμών δύο ποσοτικών μεταβλητών: Έστω ότι έχουμε μετρήσεις της ίδιας ποσοτικής μεταβλητής σε δύο ομάδες διαφορετικών ατόμων (δύο διαφορετικούς πληθυσμούς). Είναι εύλογη τότε η αναζήτηση πιθανής τους σχέσης. Πιο συγκεκριμένα έστω το χαρακτηριστικό Χ από έναν πληθυσμό με μέση τιμή μ 1 και τυπική απόκλιση σ 1 (μ 1, σ 1 άγνωστα) και έστω Υ το ίδιο χαρακτηριστικό από έναν άλλο πληθυσμό με μέση τιμή μ 2 και τυπική απόκλιση σ 2 (μ 2, σ 2 άγνωστα). Ας θεωρήσουμε ότι Χ, Υ ανεξάρτητες, δηλαδή η τιμή που παίρνει το υπό μελέτη χαρακτηριστικό στον πρώτο πληθυσμό δεν επηρεάζει την τιμή που παίρνει το ίδιο χαρακτηριστικό στο δεύτερο πληθυσμό. Έστω Χ 1,...,Χ n1 τυχαίο δείγμα από τον πρώτο πληθυσμό και Υ 1,...,Υ n2 τυχαίο δείγμα από τον δεύτερο πληθυσμό. Για να ελέγξουμε πιθανή διαφοροποίηση του υπό μελέτη χαρακτηριστικού στους δύο πληθυσμούς είναι λογικό τότε να ελέγξουμε την υπόθεση Η 0 : μ 1 = μ 2 έναντι της Η 1 : μ 1 μ 2 σε ε.σ. α, δηλαδή να ελέγξουμε αν το υπό μελέτη χαρακτηριστικό έχει την ίδια μέση τιμή στους δύο πληθυσμούς. Στατιστική Συμπερασματολογία 62 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα ΠΑΡΑΔΕΙΓΜΑΤΑ Επίδοση στο ίδιο μάθημα σε δύο διαφορετικά έτη σπουδών (για διαφορετικούς φοιτητές). Μέτρηση χοληστερίνης σε δύο ομάδες ασθενούν που λαμβάνουν διαφορετική θεραπεία. Πωλήσεις σε 2 διαφορετικές ομάδες καταστημάτων εφαρμόσθηκε διαφορετική επιχειρηματική στρατηγική. που Μελέτη συμπεριφοράς δύο συνθηκών δοκιμασιών. ομάδων ατόμων υπό διαφορετικών Εξετάζει τη σχέση Επίδοσης + έτους. Χοληστερίνης + θεραπείας. Πωλήσεις + στρατηγικής. Νόσου + Θεραπείας. Συμπεριφοράς + συνθήκες. Δηλαδή σκοπός μας είναι να εξετάσουμε τη σχέση μιας Ποσοτικής και μίας Δίτιμης (κατηγορικής) μεταβλητής. Στο SPSS => 2 στήλες = 1 ποσοτική και μία κατηγορική μεταβλητή με 2 επίπεδα (κατηγορίες). Στατιστική Συμπερασματολογία 63 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Το στατιστικό ελέγχου μας τότε είναι ( X Y ) ( μ1 μ2) ( X Y) = SE(X Υ) σ σ + n n 2 2 1 2 1 2 Στο παραπάνω στατιστικό έλεγχο μπορούμε να αντικαταστήσουμε τις άγνωστες διασπορές των πληθυσμών στον παρονομαστή με τις αντίστοιχες δειγματικές διασπορές, οπότε το στατιστικό ελέγχου γίνεται ( X Y) Z = 2 2 S1 S2 + n n 1 2 =0 με βάση την Η 0 Στατιστική Συμπερασματολογία 64 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Όταν τα μεγέθη των 2 δειγμάτων είναι μεγάλα με βάση το Κ.Ο.Θ. το Ζ ακολουθεί προσεγγιστικά την Ν(0,1) και άρα η P-τιμή του ελέγχου είναι 2 φορές η πιθανότητα της περιοχής της Ν(0,1) δεξιά από το Ζ. Αν ο έλεγχος είναι μονόπλευρος η P-τιμή του ελέγχου είναι η πιθανότητα της περιοχής της Ν(0,1) δεξιά ή αριστερά από το Ζ ανάλογα με την εναλλακτική. Στατιστική Συμπερασματολογία 65 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Όταν τα δεδομένα προέρχονται από Κανονικούς πληθυσμούς θεωρούμε τις εξής 2 περιπτώσεις: 1. Οι πληθυσμοί έχουν ίσες τυπικές αποκλίσεις, δηλαδή σ 1 =σ 2 =σ (άγνωστη). Στην περίπτωση αυτή υπολογίζουμε την συγχωνευμένη (pooled) δειγματική διασπορά {( ) ( ) } ( ) S = n 1 S + n 1 S n + n 2 όπου S οι δύο δειγματικές διασπορές, i = 1, 2. 2 2 2 1 2 i 1 2 2 1 2 Στατιστική Συμπερασματολογία 66 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα και έχουμε το ακόλουθο στατιστικό ελέγχου ( X Υ) 1 2 ( ) T = ~St n1+ n2 2. 1 1 S + n n Υπολογίζουμε το Τ και η P-τιμή του ελέγχου είναι 2 φορές η πιθανότητα της περιοχής της St(n 1 +n 2-2) δεξιά από το T. Αν ο έλεγχος είναι μονόπλευρος η P-τιμή του ελέγχου είναι η πιθανότητα της περιοχής της St(n 1 +n 2-2) δεξιά ή αριστερά από το T ανάλογα με την εναλλακτική. Ο εν λόγω έλεγχος καλείται two sample t-test. Ισοδύναμα με τον παραπάνω αμφίπλευρο έλεγχο θα μπορούσαμε να είχαμε κατασκευάσει ένα συμμετρικό (1-α)% Δ.Ε. γιατηνδιαφοράτωνμέσωνκαιναελέγχαμεανπεριέχειτο 0. 1 1 X Υ ± tn + n 2,α /2S +. n n ( ) 1 2 1 2 Κατανομή Student Στατιστική Συμπερασματολογία 67 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα 2. Οι πληθυσμοί έχουν άνισες και άγνωστες τυπικές αποκλίσεις. Στην περίπτωση αυτή το στατιστικό ελέγχου είναι ( X Υ) T= St( ν ), 2 2 S1 S2 + n1 n2 προσεγγιστικά 2 2 S1 S2 + n1 n2 ν =. 2 2 2 2 S1 S2 n 1 n 2 + n 1 n 1 1 2 Στατιστική Συμπερασματολογία 68 Δημήτρης Φουσκάκης 2

Δύο ανεξάρτητα δείγματα Υπολογίζουμε το Τ και η P-τιμή του ελέγχου είναι 2 φορές η πιθανότητα της περιοχής της St(ν) δεξιά από το T. Αν ο έλεγχος είναι μονόπλευρος η P-τιμή του ελέγχου είναι η πιθανότητα της περιοχής της St(ν) δεξιά ή αριστερά από το T ανάλογα με την εναλλακτική. Ο τελευταίος αυτός έλεγχος δίνει προσεγγιστικά αποτελέσματα και έχει την ονομασία Welch Two Sample t-test. Το συμμετρικό (1-α)% Δ.Ε. στην προκειμένη περίπτωση είναι 1 1 2 2 2 2 2 2 S1 S2 S1 S2 X Υ t ν,α /2 + < μ1 μ2 < X Υ + t ν,α /2 +. n1 n2 n1 n2 Στατιστική Συμπερασματολογία 69 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Με ποια κριτήρια όμως αποφασίζουμε αν οι διασπορές των πληθυσμών είναι ίσες ή όχι (περίπτωση 1 ή 2); Συχνά η απόφασή μας λαμβάνεται με βάση το αποτέλεσμα του ελέγχου H :σ = σ με εναλλακτική H :σ σ, σε ε.σ. α. 2 2 2 2 0 1 2 1 1 2 Αν δεν έχουμε σοβαρές ενδείξεις από τα δεδομένα για να απορρίψουμε την παραπάνω μηδενική υπόθεση, τότε θεωρούμε ισότητα διασπορών και πηγαίνουμε με βάση την περίπτωση 1. Αν έχουμε σοβαρές ενδείξεις εναντίον της Η 0 τότε την απορρίπτουμε, θεωρούμε δηλαδή ότι οι διασπορές είναι άνισες και προχωράμε με βάση την περίπτωση 2. Στατιστική Συμπερασματολογία 70 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Κάτω από την μηδενική υπόθεση αναμένεται ο λόγος Κατανομή του 2 S1 Snedecor 2 2 ( ) F = ~F n1 1, n2 1. S Υπολογίζουμε λοιπόν το στατιστικό ελέγχου F και η P-τιμή του ελέγχου είναι 2 φορές η πιθανότητα της περιοχής της F(n 1-1,n 2-1) δεξιά από το F αν F 1 ή 2 φορές η πιθανότητα της περιοχής της F(n 1-1,n 2-1) αριστερά από το F αν F<1. Ο εν λόγω έλεγχος καλείται Variance Test ή F-test. Ισοδύναμα με τον παραπάνω αμφίπλευρο έλεγχο θα μπορούσαμε να είχαμε κατασκευάσει ένα συμμετρικό (1- α)% Δ.Ε. του λόγου των διασπορών και να ελέγχαμε αν 2 2 2 περιέχει την μονάδα. 1 S1 σ1 1 S1 < < 2 2 2 F S σ F S n 1,n 1,α /2 2 2 n 1,n 1,1 α /2 2 1 2 1 2 Στατιστική Συμπερασματολογία 71 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Παράδειγμα. Έστω ότι θέλουμε να προσδιορίσουμε διαφορές στα προ-εγχειρητικά επίπεδα ουρικού οξέος (σε mg/dl) ασθενών εγχειρισμένων στην καρδιά που ανέπτυξαν οξεία νεφρική ανεπάρκεια (type = 0) και εκείνων που δεν ανέπτυξαν. Έστω Χ το προεγχειρητικό επίπεδο ουρικού οξέος ασθενών που ανέπτυξαν οξεία νεφρική ανεπάρκεια και Υ το προεγχειρητικό επίπεδο ουρικού οξέος ασθενών δεν που ανέπτυξαν οξεία νεφρική ανεπάρκεια. Ενδιαφερόμαστε να ελέγξουμε αν η μέση τιμή της τυχαίας μεταβλητής Χ, έστω μ 1, ισούται με την μέση τιμή της τ.μ Υ, έστω μ 2, δηλαδή αν Η 0 : μ 1 =μ 2 εναλλακτική υπόθεση την Η 1 : μ 1 μ 2 σε ε.σ. 0.05. με Στατιστική Συμπερασματολογία 72 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Έστω ότι διαθέτουμε τα προεγχειρητικά επίπεδα ουρικού οξέος 81 τέτοιων ασθενών, εκ των οποίων οι 41 δεν ανέπτυξαν οξεία νεφρική ανεπάρκεια και 40 ανέπτυξαν οξεία νεφρική ανεπάρκεια μετά την εγχείρηση. Στατιστική Συμπερασματολογία 73 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 74 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Παρόλο που τα μεγέθη του κάθε δείγματος (σε κάθε ομάδα) είναι αρκετά μεγάλα (40 και 41 αντίστοιχα) ελέγχουμε γραφικά και κατά πόσο ευσταθεί η υπόθεση της κανονικότητας. Στατιστική Συμπερασματολογία 75 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 76 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Υπόθεση κανονικότητας λογική και στις 2 περιπτώσεις. Στατιστική Συμπερασματολογία 77 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στην συνέχεια με την βοήθεια δύο θηκογραφημάτων συγκρίνουμε στο δείγμα μας τα επίπεδα ουρικού οξέος για τις δύο ομάδες. Στατιστική Συμπερασματολογία 78 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 79 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 80 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Από το διπλανό γράφημα παρατηρούμε ότι στο δείγμα μας τα επίπεδα ουρικού οξέος των ασθενών που δεν ανέπτυξαν οξεία νεφρική ανεπάρκεια (controls) είναι κατά μέσο όρο χαμηλότερα από αυτά των ασθενών που οξεία νεφρική ανεπάρκεια (cases). Είναι όμως η παρατηρούμενη αυτή διαφορά στατιστικά σημαντική; Επίσης παρατηρήστε πως στα cases παρατηρείται μεγαλύτερη μεταβλητότητα (διασπορά) στις τιμές του επιπέδου του ουρικού οξέος από ότι στα controls. Είναι όμως και πάλι αυτή η διαφορά στατιστικά σημαντική ή μπορούμε να θεωρήσουμε ότι έχουμε ισότητα διασπορών; Στατιστική Συμπερασματολογία 81 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 82 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Ο παραπάνω πίνακας μας δίνει περιγραφικά στοιχεία του δείγματος ξεχωριστά για κάθε ομάδα. Παρατηρήστε πως το μέσο επίπεδο ουρικού οξέος των ασθενών που δεν ανέπτυξαν οξεία νεφρική ανεπάρκεια (controls) είναι κατά μέσο όρο χαμηλότερο από αυτό των ασθενών που οξεία νεφρική ανεπάρκεια (cases). Παρατηρήστε επίσης πως η τυπική απόκλιση του επιπέδου ουρικού οξέος των ασθενών που δεν ανέπτυξαν οξεία νεφρική ανεπάρκεια (controls) είναι χαμηλότερη από αυτήν των ασθενών που οξεία νεφρική ανεπάρκεια (cases). Στατιστική Συμπερασματολογία 83 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Απορρίπτουμε την μηδενική υπόθεση ισότητας διασπορών. Τιμή του στατιστικού T Welch Two Sample t-test Βαθμοί ελευθερίας της Student κατανομής P-τιμή του Αμφίπλευρου ελέγχου Διαφορά δειγματικού μέσου από υποτιθέμενη τιμή κάτω από την Η 0 95% Δ.Ε. της διαφοράς μέσων Στατιστική Συμπερασματολογία 84 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Καταρχήν απορρίπτουμε την μηδενική υπόθεση ισότητας διασπορών, οπότε εφαρμόζουμε το Welch Two Sample t- test. Η P-τιμή του παραπάνω ελέγχου είναι αρκετά μικρή οπότε απορρίπτουμε την μηδενική υπόθεση ισότητας των μέσων. Με την βοήθεια του Δ.Ε. συμπεραίνουμε ότι το μέσο επίπεδο ουρικού οξέος των ασθενών που δεν ανέπτυξαν οξεία νεφρική ανεπάρκεια (controls) είναι κατά μέσο όρο χαμηλότερο από αυτό των ασθενών που οξεία νεφρική ανεπάρκεια (cases). Όταν τα μεγέθη των δείγματος είναι μικρά και δεν ισχύει η υπόθεση της κανονικότητας, είτε μετασχηματίζουμε κατάλληλα τα δεδομένα, είτε εφαρμόζουμε τον αντίστοιχο μη παραμετρικό έλεγχο που καλείται Wilcoxon rank sum test ή Mann Whitney test. Στατιστική Συμπερασματολογία 85 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 86 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Ασυμπτωτική P-τιμή αμφίπλευρου ελέγχου Ακριβής P-τιμή αμφίπλευρου ελέγχου. Έχουμε σοβαρές ενδείξεις εναντίον της μηδενικής υπόθεσης Στατιστική Συμπερασματολογία 87 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων για 2 ανεξάρτητα δείγματα (1 ποσοτική και 1 δίτιμη μεταβλητή) Ναι Είναι η ποσοτική μεταβλητή Κανονική σε κάθε ομάδα; Όχι Ναι Είναι τα δείγματα μεγάλα; (π.χ. n 1 & n 2 >50) Ναι Είναι ίσες οι διασπορές; Όχι Όχι Έλεγχος για μηδενική διαφορά μέσων με ίσες διασπορές two sample t-test Έλεγχος για μηδενική διαφορά μέσων με άνισες διακυμάνσεις (Welch two sample t- test) Mann Whitney test Στατιστική Συμπερασματολογία 88 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Έλεγχοςδιαφοράςποσοστών Ας υποθέσουμε ότι έχουμε μια δίτιμη τυχαία μεταβλητή Χ με τιμές 0 και 1 και P(X=1)=p 1 (άγνωστο) και μία άλλη δίτιμη τυχαία μεταβλητή Υ, ανεξάρτητη της Χ, με τιμές 0 και 1 και P(Y=1)=p 2 (άγνωστο). Προφανώς τότε η Χ και η Υ ακολουθούν την κατανομή Bernoulli με παράμετρο p 1 και p 2 αντίστοιχα. Ενδιαφερόμαστε να ελέγξουμε την υπόθεση Η 0 : p 1 = p 2 έναντι της Η 1 : p 1 p 2 σε ε.σ. α. Έστω Χ 1,...,Χ n1 τυχαίο δείγμα από τον πρώτο πληθυσμό και Υ 1,...,Υ n2 τυχαίο δείγμα από τον δεύτερο πληθυσμό. Στατιστική Συμπερασματολογία 89 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Το στατιστικό ελέγχου μας τότε είναι 1 = ( ˆ ˆ ) SE( pˆ pˆ ) p p (p p ) 1 2 1 2 Z, 1 2 όπου pˆ = X η σχετική συχνότητα της τιμής 1 o στο 1 δείγμα και p 2 =Υ η σχετική συχνότητα o της τιμής 1 στο 2 δείγμα. ˆ =0 με βάση την Η 0 Στατιστική Συμπερασματολογία 90 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Κάτω από την μηδενική υπόθεση p = p = p και τότε 1 2 Ζ= pˆ pˆ ( ) 1 2 1 1 p(1 p) + n n 1 2. Στατιστική Συμπερασματολογία 91 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Με βάση το Κ.Ο.Θ., για μεγάλα μεγέθη δειγμάτων, το Ζ Ν(0,1) κάτω από την μηδενική υπόθεση. Για τον υπολογισμό του τυπικού σφάλματος στον παρονομαστή εκτιμούμε την κοινή αναλογία p συνδυάζοντας τις πληροφορίες των δύο δειγμάτων, υπολογίζοντας δηλαδή την συγχωνευμένη (pooled) σχετική συχνότητα της τιμής 1 από τα δύο δείγματα n n 1 2 Xi + Yi npˆ 1 1+ npˆ 2 2 i= 1 i= 1 p = =. n + n n + n 1 2 1 2 Συχνά στην προκειμένη περίπτωση για να είναι πιο ικανοποιητική η προσέγγισή μας προχωράμε όπως και στην περίπτωση του ενός δείγματος στην διόρθωση συνέχειας του Yates (Yates continuity correction). Το στατιστικό ελέγχου τότε γίνεται: Ζ= pˆ 1 2 Στατιστική Συμπερασματολογία 92 Δημήτρης Φουσκάκης 1 1 pˆ + 2n1 2n2. 1 1 p(1 p) + n1 n2

Δύο ανεξάρτητα δείγματα Υπολογίζουμε την τιμή του Z με βάση τις παρατηρήσεις μας και με την βοήθεια του πίνακα της τυποποιημένης κανονικής κατανομής βρίσκουμε την P-τιμή. Αντίστοιχα μπορούμε να υπολογίσουμε το Ζ 2 το οποίο ακολουθεί την Χ 2 κατανομή με 1 βαθμό ελευθερίας και βρίσκουμε την P-τιμή με την βοήθεια του πίνακα της Χ 2 κατανομής με 1 βαθμό ελευθερίας. Ισοδύναμα με τον παραπάνω αμφίπλευρο έλεγχο θα μπορούσαμε να κατασκευάσουμε ένα συμμετρικό (1-α)% Δ.Ε. για το p 1 -p 2 και αν δούμε αν η υποτιθέμενη τιμή της διαφοράς με βάση την μηδενική υπόθεση (το μηδέν δηλαδή) ανήκει στο εν λόγω διάστημα. 1 pˆ ( ) ( ) 2 1 1 pˆ1 pˆ 2 1 pˆ 2 ˆ ˆ p1 p2 ± z α /2 +. n1 n2 Στατιστική Συμπερασματολογία 93 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Η P-τιμή για τον εν λόγω έλεγχο προκύπτει και πάλι με βάση την εναλλακτική υπόθεση: Αν Η 1 : p 1 p 2 τότε η P-τιμή είναι 2 φορές η πιθανότητα δεξιά του Z (ή ισοδύναμα 2 φορές η πιθανότητα αριστερά του - Z ). Ισοδύναμα αν δουλέψουμε με το Ζ 2 η P-τιμή είναι η πιθανότητα δεξιά του Ζ 2. Αν Η 1 : p 1 >p 2 τότε η P-τιμή είναι πιθανότητα δεξιά του Ζ. Ισοδύναμα αν δουλέψουμε με το Ζ 2 η P-τιμή είναι το 1/2 της πιθανότητας δεξιά του Ζ 2. Αν Η 1 : p 1 <p 2 τότε η P-τιμή είναι πιθανότητα αριστερά του Ζ. Ισοδύναμα αν δουλέψουμε με το Ζ 2 η P-τιμή είναι ίση με το συμπλήρωμα του 1/2 της πιθανότητας δεξιά του Ζ 2. Στατιστική Συμπερασματολογία 94 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Για να ισχύει το ΚΟΘ και όλα τα προηγούμενα θα πρέπει τα μεγέθη των δειγμάτων να είναι μεγάλα. Στην πράξη ελέγχουμε αν n p 5 KAI όπου p = n1 n2 X i i= 1 i= 1 n + + n 1 2 Y i n (1 p ) 5 Στατιστική Συμπερασματολογία 95 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Ισοδύναμα θα μπορούσαμε τα δεδομένα μας να τα βλέπαμε υπό μορφή ενός 2 2 πίνακα συχνοτήτων (contingency table). Υ Χ 0 1 0 n 11 n 12 Παρατηρηθείσα συχνότητα στο δείγμα 1 n 21 n 22 Στατιστική Συμπερασματολογία 96 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Ισοδύναμα τότε με τον προηγούμενο αμφίπλευρο έλεγχο θα ήταν να ελέγχαμε αν οι δύο τ.μ. Χ και Υ είναι ανεξάρτητες (με εναλλακτική ότι δεν είναι). Σε τέτοιες περιπτώσεις υπολογίζουμε το στατιστικό ελέγχου ( ) 2 παρατηρηθείσες συχνότητες - αναμενόμενες συχνότητες Χ = αναμενόμενες συχνότητες 2, όπου οι αναμενόμενες συχνότητες = ( άθροισμα γραμμής) ( άθροισμα στήλης) μέγεθος δείγματος και το άθροισμα είναι ως προς όλα τα κελιά. Στατιστική Συμπερασματολογία 97 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Το στατιστικό ελέγχου Χ 2, κάτω από την μηδενική υπόθεση της ανεξαρτησίας, ακολουθεί προσεγγιστικά την Χ 2 κατανομή με 1 βαθμό ελευθερίας. Συχνά στην προκειμένη περίπτωση για να είναι πιο ικανοποιητική η προσέγγισή μας προχωράμε στην διόρθωση συνέχειας του Yates. Το στατιστικό ελέγχου τότε γίνεται: 2 ( παρατηρηθείσες συχνότητες - αναμενόμενες συχνότητες 0.5) Χ = αναμενόμενες συχνότητες 2. Στατιστική Συμπερασματολογία 98 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Υπολογίζουμε λοιπόν την τιμή του στατιστικού ελέγχου με βάση τις παρατηρήσεις μας και εν συνεχεία η P-τιμή του ελέγχου είναι η πιθανότητα δεξιά της τιμής αυτής με βάση την Χ 2 κατανομή με 1 β.ε. Απαραίτητη προϋπόθεση είναι όλες οι αναμενόμενες συχνότητες να είναι 5. Ο εν λόγω έλεγχος καλείται X 2 independence test. Όταν δεν ισχύει η παραπάνω προϋπόθεση εφαρμόζουμε τον αντίστοιχο μη παραμετρικό έλεγχο, Fisher exact test. Οι παραπάνω έλεγχοι μπορούν να εφαρμοστούν και σε περιπτώσεις όπου οι κατηγορικές μεταβλητές έχουν παραπάνω από δύο κατηγοριών (k p πίνακας συχνοτήτων). Στατιστική Συμπερασματολογία 99 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Παράδειγμα. Στο προηγούμενο παράδειγμα έστω ότι πέραν της δίτιμη τυχαίας μεταβλητής type, που μας ενημερώνει αν οι ασθενείς ανέπτυξαν οξεία νεφρική ανεπάρκεια (type = 1) ή όχι (type = 0), γνωρίζουμε και τις τιμές της δίτιμης τ.μ. φύλο για τους ασθενείς του τυχαίου δείγματος (gender = 0: άνδρας ή gender = 1: γυναίκα). Θέλουμε να ελέγξουμε αν υπάρχει διαφοροποίηση μεταξύ ανδρών και γυναικών ως την μετά-εγχειρητική ανάπτυξη οξείας νεφρικής ανεπάρκειας. Στατιστική Συμπερασματολογία 100 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 101 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 102 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 103 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 104 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 105 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Συχνότητες: 9 άνδρες στο control group. Αναμενόμενες Συχνότητες με βάση της υπόθεση ανεξαρτησίας: 13,7 άνδρες στο control group. (41*27)/81 Το 33.3% των ανδρών είναι στο control group. το 22% των ασθενών στο control group είναι άντρες. Στο δείγμα μας το 11.1% είναι άντρες και ανήκουν στο control group. Στατιστική Συμπερασματολογία 106 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστικό ελέγχου Χ 2 Στατιστικό ελέγχου Χ 2 με διόρθωση συνέχειας Βαθμοί ελευθερίας της Χ 2 κατανομής Ασυμπτωτική P-τιμή του αμφίπλευρου ελέγχου Ασυμπτωτική P-τιμή του αμφίπλευρου ελέγχου ύστερα από διόρθωση συνέχειας Ακριβής P-τιμή του Fisher exact test (αμφίπλευρος έλεγχος) Ισχύουν οι προϋποθέσεις του ελέγχου Στατιστική Συμπερασματολογία 107 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Καταρχήν παρατηρούμε ότι όλες οι αναμενόμενες συχνότητες είναι μεγαλύτερες του 5. Άρα μπορούμε να βασίσουμε την συμπερασματολογία μας στα αποτελέσματα του Χ 2 ελέγχου. Προχωρώντας σε διόρθωση συνέχειας παρατηρούμε ότι σε ε.σ. 5% έχουμε ενδείξεις εναντίον της μηδενικής υπόθεσης, δηλαδή θεωρούμε ότι υπάρχει διαφοροποίηση μεταξύ ανδρών και γυναικών ως την μετά-εγχειρητική ανάπτυξη οξείας νεφρικής ανεπάρκειας. Στατιστική Συμπερασματολογία 108 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 109 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 110 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Με την βοήθεια του 2 2 πίνακα συχνοτήτων, αλλά και από το διπλανό ραβδόγραμμα παρατηρούμε ότι στους άντρες έχουμε περισσότερα κρούσματα μετά-εγχειρητικής ανάπτυξης οξείας νεφρικής ανεπάρκειας. Στατιστική Συμπερασματολογία 111 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Τα δεδομένα του τελευταίου παραδείγματος υπάρχει περίπτωση να τα είχαμε ήδη σε υπό μορφή πίνακα συχνοτήτων. Στατιστική Συμπερασματολογία 112 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 113 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Στατιστική Συμπερασματολογία 114 Δημήτρης Φουσκάκης

Δύο ανεξάρτητα δείγματα Τώρα πλέον είμαστε σε θέση να δημιουργήσουμε τον 2 2 πίνακα συχνοτήτων καθώς και να υπολογίσουμε τα στατιστικά ελέγχου μας για τις μεταβλητές type και gender ακριβώς όπως και πριν. Στατιστική Συμπερασματολογία 115 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Αρκετές φορές στις στατιστικές μελέτες συναντάμε το φαινόμενο των εξαρτημένων δειγμάτων. Π.χ. ας υποθέσουμε ότι έχουμε μετρήσεις της ίδιας ποσοτικής μεταβλητής για τα ίδια άτομα σε 2 διαφορετικές χρονικές περιόδους. Ας καλέσουμε Χ την μεταβλητή την χρονική τιμή 1 και ας θεωρήσουμε ότι προέρχεται από πληθυσμό με άγνωστη μέση τιμή μ 1 και άγνωστη τυπική απόκλιση σ 1 και Υ την μεταβλητή την χρονική στιγμή 2 και ας θεωρήσουμε ότι προέρχεται από πληθυσμό με άγνωστη μέση τιμή μ 2 και άγνωστη τυπική απόκλιση σ 2. Έστω το τυχαίο δείγμα που αποτελείται από ζεύγη συσχετισμένων τυχαίων μεταβλητών (Χ 1,Υ 1 ),...,(Χ n,υ n ). Ενδιαφερόμαστε να δούμε αν η υπό μελέτη τυχαία μεταβλητή διαφοροποιείται κατά μέσο όρο στις 2 χρονικές περιόδους, δηλαδή να ελέγξουμε την υπόθεση Η 0 : μ 1 = μ 2 έναντι της Η 1 : μ 1 μ 2 σε ε.σ. α. Ο εν λόγω έλεγχος καλείται paired t-test. Στατιστική Συμπερασματολογία 116 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Δημιουργούμε τις διαφορές των παραπάνω ζευγών (Ζ 1 =Χ 1 -Υ 1 ),...,(Ζ n = Χ n -Υ n ) και έτσι καταλήγουμε σε ένα τυχαίο δείγμα που προέρχεται από πληθυσμό με άγνωστη μέση τιμή μ 1 -μ 2 και άγνωστη τυπική απόκλιση σ 1 +σ 2. Μπορούμε λοιπόν με βάση τα όσα είπαμε στην περίπτωση του ελέγχου για την μέση τιμή μιας ποσοτικής μεταβλητής (one sample t-test) να ελέγξουμε τώρα την υπόθεση Η 0 : μ 1 - μ 2 =0 έναντι της Η 1 : μ 1 - μ 2 0. Στατιστική Συμπερασματολογία 117 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Παραδείγματα εξαρτημένων δειγμάτων: Μετρήσεις για τα ίδια άτομα I. σε 2 παρόμοιες μεταβλητές (π.χ. με ίδιες μονάδες μέτρησης). Π.χ. Ψυχιατρικές κλίμακες. II. της ίδιας μεταβλητής στην ίδια μονάδα μελέτης αλλά σε διαφορετικές χρονικές στιγμές. III. της ίδιας μεταβλητής αλλά σε διαφορετικά σημεία της ίδιας μονάδας μελέτης (π.χ. αριστερό δεξί χέρι). IV. της ίδιας μεταβλητής σε διαφορετικές μονάδες μελέτης που σχετίζονται (δίδυμα, συγγενείς, φίλοι). Στατιστική Συμπερασματολογία 118 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα ΠΑΡΑΔΕΙΓΜΑΤΑ Επίδοση σε 2 διαφορετικά μαθήματα. Μέτρηση χοληστερίνης πριν και μετά από μια θεραπεία. Πωλήσεις πριν και μετά επιχειρηματικής στρατηγικής. από την εφαρμογή μιας Επίδραση ασθενή. θεραπείας στο δεξί και αριστερό χέρι ενός Μελέτη συμπεριφοράς συνθηκών. διδύμων υπό διαφορετικών Εξετάζει τη σχέση Επίδοσης + μαθήματος. Χοληστερίνης + θεραπείας. Πωλήσεις + στρατηγική. Νόσου + θεραπείας. Συμπεριφοράς + συνθήκες. Στατιστική Συμπερασματολογία 119 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Παράδειγμα. Σε μια παιδιατρική κλινική μία μελέτη πραγματοποιήθηκε με σκοπό να ελέγξει την αποτελεσματικότητα της ασπιρίνης. Μετρήθηκε η θερμοκρασία (σε F) δώδεκα παιδιών ηλικίας 5 ετών με πυρετό πριν και μία ώρα μετά την χορήγηση ασπιρίνης. Θέλουμε να ελέγξουμε την υπόθεση ότι η μέση θερμοκρασία είναι ίδια πριν και μία ώρα μετά την χορήγηση ασπιρίνης με εναλλακτική ότι η μέση θερμοκρασία μειώνεται μετά την χορήγηση ασπιρίνης. Στατιστική Συμπερασματολογία 120 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Στατιστική Συμπερασματολογία 121 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Στατιστική Συμπερασματολογία 122 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Μιας και το μέγεθος του δείγματος είναι μικρό ελέγχουμε γραφικά την υπόθεση της κανονικότητας για την διαφορά (μεταβλητή difference). Στατιστική Συμπερασματολογία 123 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Υπόθεση κανονικότητας λογική Στατιστική Συμπερασματολογία 124 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Εν συνεχεία εφαρμόζουμε για την νέα μεταβλητή που δηλώνει την διαφορά (difference) τον έλεγχό μας ότι η μέση τιμή της είναι 0 (μηδενική υπόθεση) με εναλλακτική ότι είναι μικρότερη του μηδενός. Στατιστική Συμπερασματολογία 125 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα P-τιμή αμφίπλευρου ελέγχου. Για τον μονόπλευρο έλεγχο η τιμή αυτή πρέπει να διαιρεθεί με το 2. Στατιστική Συμπερασματολογία 126 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Με βάση τα παραπάνω αποτελέσματα έχουμε πολύ σοβαρές ενδείξεις εναντίον της μηδενικής υπόθεσης. Άρα πράγματι η ασπιρίνη μειώνει την μέση θερμοκρασία μία ώρα μετά την χορήγηση της. Στατιστική Συμπερασματολογία 127 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Αν το μέγεθος του δείγματος δεν είναι μεγάλο και δεν ισχύει η κανονικότητα εφαρμόζουμε εναλλακτικά το Wilcoxon Signed-Rank test για εξαρτημένα δείγματα. Στατιστική Συμπερασματολογία 128 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Στατιστική Συμπερασματολογία 129 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Απορρίπτουμε την Η 0. Ακριβής P-τιμή μονόπλευρου ελέγχου Στατιστική Συμπερασματολογία 130 Δημήτρης Φουσκάκης

Έλεγχοι Υποθέσεων για 2 εξαρτημένα δείγματα (2 ποσοτικές μεταβλητές) Ναι Είναι η διαφορά Κανονικά κατανεμημένη ή το μέγεθος του δείγματος μεγάλο; Όχι Wilcoxon sign rank test για εξαρτημένα δείγματα Έλεγχος για μηδενική μέση διαφορά - t-test για ζεύγη (paired t-test) Στατιστική Συμπερασματολογία 131 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Αν θέλαμε να συγκρίνουμε ποσοστά δύο συσχετισμένων δειγμάτων θα εφαρμόζαμε το McNemar s test. Παραδείγματος χάρη μπορεί να έχουμε τις ίδιες δίτιμες μετρήσεις σε δύο διαφορετικές χρονικές στιγμές. Το McNemar s test μπορεί να εφαρμοστεί και όταν έχουμε ζευγαρωτές τιμές σε μεταβλητή με περισσότερες από 2 κατηγορίες. Παράδειγμα. Οι διαβητικοί κάνουν καθημερινή θεραπεία ινσουλίνης η οποία έχει παρενέργειες. Μία από αυτές είναι εμφάνιση διαβητικής κετονοοξέωσης (diabetic ketoacidosis - DKA). Σκοπός εδώ είναι να δούμε αν η θεραπεία επηρέασε την εμφάνιση παρενεργειών DKA. Στατιστική Συμπερασματολογία 132 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Μετά τη θεραπεία ινσουλίνης Πριν τη θεραπεία Όχι DKA DKA ΣΥΝΟΛΟ Όχι DKA 128 19 147 DKA 7 7 14 ΣΥΝΟΛΟ 135 26 161 Στατιστική Συμπερασματολογία 133 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Αρχικά κάνουμε WEIGHT CASES όπως στο παράδειγμα με τις δύο ανεξάρτητες δίτιμες τ.μ. Στατιστική Συμπερασματολογία 134 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Στατιστική Συμπερασματολογία 135 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Στατιστική Συμπερασματολογία 136 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Στατιστική Συμπερασματολογία 137 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα ΥΠΑΡΞΗ DKA ΠΡΙΝ ΤΗ ΘΕΡΑΠΕΙΑ * ΥΠΑΡΞΗ DKA ΜΕΤΑ ΤΗ ΘΕΡΑΠΕΙΑ Crosstabulation ΥΠΑΡΞΗ DKA ΠΡΙΝ ΤΗ ΘΕΡΑΠΕΙΑ Total ΟΧΙ ΝΑΙ Count % of Total Count % of Total Count % of Total ΥΠΑΡΞΗ DKA ΜΕΤΑ ΤΗ ΘΕΡΑΠΕΙΑ ΟΧΙ ΝΑΙ Total 128 19 147 79.5% 11.8% 91.3% 7 7 14 4.3% 4.3% 8.7% 135 26 161 83.9% 16.1% 100.0% Στατιστική Συμπερασματολογία 138 Δημήτρης Φουσκάκης

Δυο Εξαρτημένα Δείγματα Chi-Square Tests Exact Sig. Exact Sig. Point Value (2-sided) (1-sided) Probability McNemar Test.029 a.014 a.010 a N of Valid Cases 161 a. Binomial distribution used. Απορρίπτεται η μηδενική υπόθεση Ακριβής P-τιμή αμφίπλευρου ελέγχου Άρα η θεραπεία επηρέασε (αύξησε) την εμφάνιση παρενεργειών DKA. Στατιστική Συμπερασματολογία 139 Δημήτρης Φουσκάκης

Έλεγχος Καλής Προσαρμογής Μέχρι τώρα ο τρόπος που ελέγχαμε την καταλληλότητα του επιλεγμένου μοντέλου (Κανονικού στις περισσότερες περιπτώσεις) ήταν με την βοήθεια γραφικών παραστάσεων, π.χ. ιστογράμματα και QQ-plots. Υπάρχει δύο έλεγχοι υποθέσεων (Kolmogorov-Smirnov test και Shapiro-Wilk), κατά τους οποίους ελέγχουμε την μηδενική υπόθεση ότι τα δεδομένα ακολουθούν μια συγκεκριμένη κατανομή, με εναλλακτική ότι δεν την ακολουθούν. Με βάση λοιπόν την P-τιμή του εν λόγω ελέγχουφτάνουμεσετελικάσυμπεράσματασεσχέσημε την καταλληλότητα ή μη του μοντέλου (κατανομή) που έχουμε επιλέξει. Για τα δεδομένα, π.χ., της συστολικής πίεσης των υγιών γυναικών που είδαμε στο παράδειγμα με το ένα δείγμα έχουμε: Στατιστική Συμπερασματολογία 140 Δημήτρης Φουσκάκης

Έλεγχος Καλής Προσαρμογής Στατιστική Συμπερασματολογία 141 Δημήτρης Φουσκάκης

Έλεγχος Καλής Προσαρμογής Δεν έχουμε σοβαρές ενδείξεις εναντίον της H 0, οπότε δεχόμαστε υπόθεση κανονικότητας Όταν το μέγεθος του δείγματος είναι μικρό (<50) συνήθως χρησιμοποιούμε το Shapiro-Wilk test. Γιαμεγάλαμεγέθητα2 tests δίνουν παρόμοια αποτελέσματα. Στατιστική Συμπερασματολογία 142 Δημήτρης Φουσκάκης