ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΟΜΕΑΣ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΕΥΝΑΣ ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ Χ 2 test ανεξαρτησίας: σχέση 2 ποιοτικών μεταβλητών Μη παραμετρικοί Έλεγχοι Υποθέσεων για ένα δείγμα Έλεγχος Υπόθεσης για τη μέση τιμή πληθυσμού 4 η διάλεξη Χ 2 test ανεξαρτησίας: σχέση 2 ποιοτικών μεταβλητών Βασικά στοιχεία της θεωρίας ελέγχου υποθέσεων ΤΟ ΤΕΣΤ ΑΥΤO ΕΛΕΓΧΕΙ ΤΗΝ ΥΠΑΡΞΗ ΣΧΕΣΗΣ ΜΕΤΑΞΥ ΥΟ ΠΟΙΟΤΙΚΩΝ ΜΕΤΑΒΛΗΤΩΝ. Έλεγχος υποθέσεων: η στατιστική διαδικασία εξαγωγής συμπερασμάτων για τον πληθυσμό ελέγχοντας το δείγμα Αν οι πραγματικές τιμές των παραμέτρων του πληθυσμού ικανοποιούν τις υποθέσεις με βάση τα δεδομένα του δείγματος, μπορούμε να προχωρήσουμε στη διαδικασία λήψης αποφάσεων Επιμέλεια: Ελευθερίου Μ. & Σκουρκέας Αν. Υποχρεωτικό μάθημα 4 ου εξαμήνου 1 Στοιχεία θεωρίας ελέγχου υποθέσεων Στοιχεία θεωρίας ελέγχου υποθέσεων Ορίζουμε εκ των προτέρων 2 υποθέσεις Παρατηρήσεις Με το στατιστικό έλεγχο είτε απορρίπτουμε την Η 0 ή εάν δεν απορριφθεί ΤΟΝΙΖΟΥΜΕ ότι τα δεδομένα στα οποία στηρίζεται ο στατιστικός έλεγχος δεν επαρκούν για την απόρριψη της αρχικής υπόθεσης. Τη μηδενική υπόθεση Η 0 με σκοπό να διαψευστεί Την εναλλακτική υπόθεση Η 1. Η μηδενική υπόθεση Η 0 διατυπώνεται με σκοπό να αμφισβητηθεί. Συνήθως, το αντίθετο του συμπεράσματος στο οποίο επιθυμεί να φθάσει ο ερευνητής γίνεται μηδενική υπόθεση. Εάν απορρίψουμε την Η 0, τα δεδομένα δεν επαληθεύουν την αρχική υπόθεση και είναι συμβατά με την εναλλακτική υπόθεση Η 1. Οι υποθέσεις Η 0, Η 1 διατυπώνονται με τη βοήθεια των στατιστικών παραμέτρων του μοντέλου που υιοθετείται για την ανάλυση των δεδομένων. Η 0 : θ = θ 0 Η 1 : θ θ 0 (αμφίπλευρος στατιστικός έλεγχος) ήθ> θ 0 (θ < θ 0 )(μονόπλευρος στατιστικός έλεγχος) Ορίζεται η στατιστική συνάρτηση του ελέγχου από το δείγμα. Σφάλμα τύπου Ι (type I error) : η απόρριψη της μηδενικής υπόθεσης Η 0, ενώ είναι σωστή =a=p(απόρριψη της Η 0 / ηη 0 είναι αληθής) πόσο λάθος κάνω αν απορρίψω την Η 0 Σφάλμα τύπου ΙI (type II error) : η αποδοχή της μηδενικής υπόθεσης Η 0, ενώ είναι λάθος = β =P(αποδοχή της Η 0 / ηη 0 είναι ψευδής) πόσο λάθος κάνω αν απορρίψω την Η 1 4 1
Στοιχεία θεωρίας ελέγχου υποθέσεων φύση (πραγματικότη τα) στατιστικός (συμπέρασμα) Αληθεύει η Η 0 Αληθεύει η Η 1 ΑΠΟΔΟΧΗ της Η 0 p=1-a σφάλμα τύπου ΙΙ ΑΠΟΡΡΙΨΗ της Η 0 σφάλμα τύπου Ι p=1-β = γ α, β όσο το δυνατό μικρότερα Όταν η Η 0 αληθεύει και ο στατιστικός αποδεχθεί την Η 0 δε γίνεται σφάλμα, ενώ αν ο στατιστικός απορρίψει την Η 0 τότε γίνεται σφάλμα τύπου Ι. Όταν αληθεύει η εναλλακτική υπόθεση Η 1 και ο στατιστικός αποδεχθεί την Η 0 γίνεται σφάλμα τύπου ΙΙ, ενώ αν απορρίψει την Η 0 δε γίνεται σφάλμα. Τα δύο σφάλματα είναι τυχαία ενδεχόμενα. Η πιθανότητα a του σφάλματος τύπου Ι ονομάζεται επίπεδο σημαντικότητας του στατιστικού ελέγχου. Χ 2 test ανεξαρτησίας: σχέση 2 ποιοτικών μεταβλητών Η 0 : Τα δύο χαρακτηριστικά είναι ανεξάρτητα Η 1 : Τα δύο χαρακτηριστικά είναι εξαρτημένα ΠΡΟΫΠΟΘΕΣΕΙΣ για την εφαρμογή του ελέγχου: 1) Θ ij >= 5 ηλαδή οι αναμενόμενες (expected) παρατηρήσεις σε κάθε κελί του πίνακα συνάφειας να είναι τουλάχιστον 5 ή το πολύ 20% των θ ij <= 5. 2) Το κάθε άτομο να εμφανίζεται μόνο μια φορά σε κάθε κελί, δηλαδή να μην υπάρχει επικάλυψη στις κατηγορίες. 5 6 Χ 2 test ανεξαρτησίας (από crosstabs) Ανοίξτε το αρχείο Gss Analyze Descriptives Statistics Crosstabs Χ 2 test ανεξαρτησίας (από crosstabs) Ελέγχουμε τις προϋποθέσεις για το χ 2 τεστ. Σε 2 κελιά έχουμε: Θij<5. Το συνολικό ποσοστό τους είναι μικρότερο του 20% και άρα ικανοποιούνται οι προϋποθέσεις για το χ 2 τεστ. Sig<0.05 => Απορρίπτεται η Ηo ηλαδή δεν είναι ανεξάρτητες οι μεταβλητές. 2
Μη παραμετρικά τεστ οκιμάστε τώρα μόνοι σας : Έλεγχος τυχαιότητας (Κριτήριο Ροών) ΑΣΚΗΣΗ 3 users.auth.gr/askourke Binomial test Kolmogorov-Smirnov test προσαρμογής σε κατανομή (για ένα δείγμα) Παραμετρικά τεστ Tests κανονικότητας Τ-test για ένα δείγμα 9 Πλεονεκτήματα εν απαιτούν υποθέσεις για τους πληθυσμούς από τους οποίους προέρχονται τα δείγματα και τα μεγέθη τους. εν απαιτούν δηλ κανονικότητα ή οποιαδήποτε άλλη κατανομή. Συνεπώς εφαρμόζονται πάντα. Ελέγχει αν υπάρχει κάποιο συγκεκριμένο μοτίβο (pattern) στον τρόπο που εμφανίζονται τα δεδομένα στο αρχείο. FILE OPEN DATA gss.sav Συγκεκριμένα ελέγχει την υπόθεση Η 0 : Το δείγμα είναι τυχαίο Η 1 : Το δείγμα δεν είναι τυχαίο (υπάρχει pattern). Μειονεκτήματα Μεγαλύτερο σφάλμα τύπου β σε σχέση με τα παραμετρικά (όπου υπάρχει η προϋπόθεση της κανονικότητας). Συνεπώς είναι λιγότερο αξιόπιστα από τα παραμετρικά. Test Ροών Analyze Nonparametric Tests Runs 3
Εφαρμόζεται : είτε σε μια ποιοτική μεταβλητή με 2 κατηγορίες είτε σε μια ποσοτική που «κόβεται» σε δύο κατηγορίες με βάση κάποιο μέτρο θέσης (π.χ. τη διάμεσο). Εφαρμόζεται σε ποσοτικές μεταβλητές Ελέγχει αν η παρατηρούμενη συνάρτηση αθροιστικής κατανομής μιας μεταβλητής, συμπίπτει με κάποια εκ των γνωστών θεωρητικών F 0 (x). ηλαδή: Η 0 : F(x)=F 0 (x) H 1 : F(x) F 0 (x) ΠΑΡΑ ΕΙΓΜΑ Ακολουθεί η ηλικία των ερωτώμενων ομοιόμορφη κατανομή; Μήπως κανονική; Σημείο αποκοπής: διάμεσος p-value < 0.05 Απορρίπτουμε την H 0 άρα το δείγμα δεν είναι τυχαίο Analyze Nonparametric Tests 1-Sample K-S ΠΡΟΣΟΧΗ: Το Κ-S ΕΝ είναι αξιόπιστο για πολλές παρατηρήσεις. Ειδικά σε μεγάλα δείγματα δίνει ότι τα δεδομένα ΕΝ ακολουθούν κανονική γιατί το σφάλμα τύπου ΙΙ γίνεται πολύ μεγάλο. Για αυτό σε περιπτώσεις όπου n>30 συχνά επικαλούμαστε το Κ.Ο.Θ και υποθέτουμε κατευθείαν κανονικότητα. p-value < 0.05. Απορρίπτεται η μηδενική υπόθεση, δηλαδή υποθέτουμε ότι το δείγμα δεν προέρχεται ούτε από κανονική ούτε από ομοιόμορφη κατανομή Το K-S μας οδηγεί να απορρίψουμε την κανονικότητα, ενώ γραφικά παρατηρούμε ότι έχουμε μια καλή προσέγγιση αυτής 4
Εφαρμόζεται : είτε σε μια ποιοτική μεταβλητή με 2 κατηγορίες είτε σε μια ποιοτική μεταβλητή με περισσότερες κατηγορίες όπου επιλέγεται μια τιμή (cut point) που θα την διχοτομήσει. είτε σε μια ποσοτική που διχοτομείται σε δύο κατηγορίες με βάση κάποιο μέτρο θέσης (π.χ. τη διάμεσο). Ελέγχει αν το ποσοστό μιας κατηγορίας είναι ίσο με το ποσοστό της άλλης. ηλαδή: Η 0 : p=p 0 H 1 : p > p 0 ή p < p 0 (ανάλογα). ΠΑΡΑ ΕΙΓΜΑ Είναι το ποσοστό των αντρών ίσο 48% ; Analyze Nonparametric Tests Binomial Ο έλεγχος που γίνεται αναφέρεται στην πρώτη κατηγορία της μεταβλητής, δηλ. σε αυτήν που έχουμε δώσει το μικρότερο νούμερο στην κωδικοποίηση (εδώ άνδρες = 1, γυναίκες = 2) < ` p 0 = ποσοστό ελέγχου p-value < 0.05 Απορρίπτουμε την H 0 και δεχόμαστε ότι το ποσοστό είναι μικρότερο Η 1 :p<p 0, γιατί 0.43<0.48. Έλεγχοι βασισμένοι στην περιγραφική στατιστική (χρήση του συντελεστή λοξότητας) Explore Analyze Descriptive Statistics Explore Στατιστικοί έλεγχοι (Κ-S και Shapiro-Wilk) Οπτικοί έλεγχοι (QQ-plots) Έλεγχος κανονικότητας Explore ιεξάγει 2 ελέγχους για την υπόθεση της κανoνικότητας: Το Kolmogorov-Smirnov Το Shapiro-Wilk Παράγει και το QQ plot 5
Στατιστικοί έλεγχοι p-value < 0.05, οπότε υποθέτουμε ότι δεν υπάρχει κανονικότητα. Έλεγχοι περιγρ. στατιστικής Οπτικοί έλεγχοι Το QQ plot συγκρίνει τα ποσοστιαία σημεία της κανονικής κατανομής με τα αντίστοιχα της εκάστοτε υπό έλεγχο κατανομής Αν η κατανομή είναι περίπου κανονική θα πρέπει σχεδόν όλα τα ποσοστιαία σημεία να κείτονται επί της ευθείας y=x. Εδώ οι αποκλίσεις είναι σοβαρές. Αν το πηλίκο τότε εκτιμούμε ότι έχουμε κανονική κατανομή 0.5/0.063 = 7.94, οπότε εκτιμούμε ότι δεν έχουμε κανονικότητα Ο ίδιος έλεγχος μπορεί να γίνει ελέγχοντας την τιμή των πηλίκων της κύρτωσης ή της μέσης τιμής διά των αντίστοιχων τυπικών σφαλμάτων τους Εφαρμόζεται Στόχος Σε μια μεταβλητή όταν αυτή ακολουθεί κανονική κατανομή Να ελέγξει αν η μέση τιμή του πληθυσμού ως προς τη συγκεκριμένη μεταβλητή είναι ίση με μια προκαθορισμένη τιμή, δηλ: Η 0 : μ = μ 0 Η 1 : μ μ 0 (δίπλευρο τεστ) Υπολογίζεται από τα δεδομένα το στατιστικό: και συγκρίνεται με την κρίσιμη (θεωρητική) τιμή t n-1 (που αντιστοιχεί σε όσους β.ε. υπάρχουν στα δεδομένα). Αν t>t n-1 ηη 0 απορρίπτεται. Γενικά τα παραμετρικά test έχουν μεγαλύτερη ισχύ (μικρότερο σφάλμα τύπου β) και γι αυτό προτιμούνται έναντι των μη- παραμετρικών. FILE OPEN DATA country15.sav ΠΑΡΑ ΕΙΓΜΑ Ακολουθεί η μεταβλητή κανονική κατανομή; Μπορούμε να υποθέσουμε με ασφάλεια από το δείγμα μας (country15.sav), ότι το μέσο ποσοστό των αστικών περιοχών σε όλες τις χώρες (πληθυσμός) είναι 50% ; Analyze Descripive Statistics Explore Ακολουθεί κανονική κατανομή οπότε μπορώ να εφαρμόσω Τ test. 6
Τ test Analyze Compare Means One Sample T test 95% διάστημα εμπιστοσύνης για τη μ είναι: (-12.42+50, 11.13+50)= (37.58, 61.13) Μπορούμε να υποθέσουμε με ασφάλεια από το δείγμα μας (country15.sav), ότι το μέσο ποσοστό των αστικών περιοχών σε όλες τις χώρες (πληθυσμός) είναι μικρότερο από 50%; Επειδή η τιμή του στατιστικού t = -0.118 <0 μ-μ 0 <0 Μπορώ να ελέγξω: Η 0 : μ=μ 0, έναντι της Η 1 : μ<μ 0 (μονόπλευρο τεστ, αντίστοιχος έλεγχος όταν t>0) n-1 εκτή η Η0: μ=50 Η στάθμη σημαντικότητας του μονόπλευρου σ.σ. τεστ είναι η σ.σ. του δίπλευρου /2. ηλ. 0.908/2 = 0.454 >0.05 εν απορρίπτεται η Η 0, δηλ. μ=μ 0 οκιμάστε τώρα μόνοι σας : ΑΣΚΗΣΗ 4 users.auth.gr/askourke 27 7