Στατιστική Ι Ενότητα 2: Στατιστική Ι (2/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο TEI Δυτικής Μακεδονίας και στην Ανώτατη Εκκλησιαστική Ακαδημία Θεσσαλονίκης» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Σκοποί ενότητας Ανάλυση και εκμάθηση των ορισμών του ελέγχου υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη, τα διαστήματα εμπιστοσύνης για αναλογίες, την αναλογία πληθυσμού και το Διάστημα εμπιστοσύνης για αναλογίες. 4
Περιεχόμενα ενότητας Έλεγχος υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη. Διαστήματα Εμπιστοσύνης για αναλογίες. Αναλογία Πληθυσμού. Διάστημα εμπιστοσύνης για αναλογίες. 5
Έλεγχος υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη (1 από 9) Όταν εξετάζουμε την επίδραση μιας παρέμβασης σε έναν πληθυσμό μπορεί να έχουμε ένα δείγμα ατόμων με τιμές για μια μεταβλητή πριν και μετά την παρέμβαση. Δεν έχουμε δύο δείγματα ανεξάρτητα μεταξύ τους. Αλλά ένα δείγμα με τιμές για τα ίδια άτομα πριν και μετά: Την παρακολούθηση ενός προγράμματος. Την εφαρμογή μιας τεχνικής. Μιας θεραπείας, κλπ. 6
Έλεγχος υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη (2 από 9) Mπορεί να μην έχουμε τα ίδια άτομα πριν και μετά μια παρέμβαση. Στη μία ομάδα (που λέγεται ομάδα συμμετοχής) εφαρμόζεται η παρέμβαση ή η θεραπεία. Στην άλλη ομάδα (που λέγεται ομάδα ελέγχου) δεν εφαρμόζεται η παρέμβαση ή η θεραπεία. Μετά την εφαρμογή της παρέμβασης συγκρίνουμε τους μέσους όρους των δύο ομάδων. Κάτω από κάποιες συγκεκριμένες στατιστικές προϋποθέσεις η διαφορά ανάμεσά τους αποδίδεται στην επίδραση της παρέμβασης ή της θεραπείας. 7
Έλεγχος υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη (3 από 9) Θα πρέπει δηλαδή οι ομάδες συμμετοχής και ελέγχου να συγκροτούνται με τρόπο ώστε να μην υπάρχει μεροληπτική αντιμετώπιση ως προς κάποιο χαρακτηριστικό στη μία ή στην άλλη ομάδα. Oι παρατηρήσεις θεωρούνται ζευγαρωτές και ο έλεγχος για τη διαφορά στους μέσους όρους δεν γίνεται όπως ο αντίστοιχος σε ανεξάρτητα δείγματα. Αλλά ουσιαστικά γίνεται έλεγχος ως εάν να επρόκειτο για έναν πληθυσμό. 8
Έλεγχος υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη (4 από 9) Παράδειγμα: Έστω ότι θέλουμε να διαπιστώσουμε την επίδραση ενός προγράμματος υγιεινής διατροφής στο βάρος ενός πληθυσμού. Σε δείγμα 10 ατόμων μετράμε το βάρος πριν την έναρξη του προγράμματος και μετά τη λήξη του προγράμματος και καταγράφουμε τις διαφορές. Να ελεγχθεί σε επίπεδο σημαντικότητας 5% η υπόθεση ότι το πρόγραμμα οδηγεί σε απώλεια βάρους τουλάχιστον 3 κιλών. 9
Έλεγχος υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη (5 από 9) Πίνακας 1: Δεδομένα άσκησης. Πηγή: Διδάσκων (2015). 10
Έλεγχος υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη (6 από 9) Προσέξτε ότι έχουμε ένα ζεύγος παρατηρήσεων για κάθε άτομο και ουσιαστικά δεν μας ενδιαφέρουν οι τιμές καθαυτές αλλά η διαφορά τους. Το δείγμα μας στην πραγματικότητα είναι η διαφορά ανάμεσα στο πριν και στο μετά και θέλουμε να δούμε εάν αυτή είναι στατιστικά σημαντική. Διατυπώνουμε τις υποθέσεις: 11
Έλεγχος υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη (7 από 9) Οι υποθέσεις θα μπορούσαν να διατυπωθούν και ως εξής, θεωρώντας πληθυσμό 1 το βάρος πριν το πρόγραμμα και πληθυσμό 2 το βάρος μετά το πρόγραμμα: Στη μηδενική υπόθεση έχουμε ότι το πρόγραμμα δεν είχε την επίδραση που θεωρούμε σημαντική (απώλεια βάρους τουλάχιστον 3 κιλών), ενώ στην εναλλακτική ότι το πρόγραμμα είχε πράγματι επίδραση. 12
Έλεγχος υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη (8 από 9) Στις περισσότερες περιπτώσεις οι έλεγχοι του τύπου αυτού γίνονται με τη χρήση της κατανομής t, γιατί αφενός το δείγμα είναι μικρό και αφετέρου η τυπική απόκλιση στον πληθυσμό είναι άγνωστη. Θα υπολογίσουμε τη μέση διαφορά και την τυπική απόκλιση στο δείγμα: 13
Έλεγχος υποθέσεων για τους μέσους παρατηρήσεων κατά ζεύγη (9 από 9) Συγκρίνοντας την τιμή της στατιστικής ελέγχου με την κριτική τιμή έχουμε: Επομένως, απορρίπτουμε την και συμπεραίνουμε ότι με βάση τα στοιχεία του δείγματός μας το πρόγραμμα οδηγεί σε απώλεια βάρους μεγαλύτερη των 3 κιλών. 14
Αναλογία Πληθυσμού (1 από 4) Η αναλογία πληθυσμού, p, είναι η αναλογία τον ατόμων στον πληθυσμό που έχουν κάποιο συγκεκριμένο χαρακτηριστικό. Για παράδειγμα, η αναλογία των χρηστών Internet στον ελληνικό πληθυσμό. Η αναλογία των φοιτητών του Πανεπιστημίου Θεσσαλονίκης που κατάγονται από την Κοζάνη, κλπ. Είναι, με άλλα λόγια, ο αριθμός των ατόμων του πληθυσμού που έχουν το συγκεκριμένο χαρακτηριστικό δια του συνολικού μεγέθους του πληθυσμού. 15
Αναλογία Πληθυσμού (2 από 4) Η αναλογία στο δείγμα, είναι η αναλογία τον ατόμων στο δείγμα που έχουν κάποιο συγκεκριμένο χαρακτηριστικό. Είναι, με άλλα λόγια, ο αριθμός των ατόμων του δείγματος που έχουν το συγκεκριμένο χαρακτηριστικό δια του συνολικού μεγέθους του δείγματος. Εάν πάρουμε πολλά δείγματα θα βρούμε πολλά διαφορετικά: Επομένως, η αναλογία στο δείγμα ακολουθεί μια κατανομή, η οποία λέγεται κατανομή δειγματοληψίας της αναλογίας. 16
Αναλογία Πληθυσμού (3 από 4) Ο μέσος,, είναι ίσος με την αναλογία στον πληθυσμό. Δηλαδή, εάν 30% των ελλήνων έχει πρόσβαση στο Internet και πάρουμε διάφορα δείγματα τότε θα βρούμε σε αυτά διάφορες αναλογίες, π.χ. 28%, 33%, 31%, κλπ. Ο μέσος όλων αυτών των αναλογιών είναι ίσος με την αναλογία του πληθυσμού, 30%. 17
Αναλογία Πληθυσμού (4 από 4) Προσέξτε ότι λέγοντας αναλογία p είναι για διακριτό πληθυσμό το ίδιο με τις επιτυχίες που είχαμε στη διωνυμική κατανομή. Επομένως, εάν μας ενδιαφέρει ο αριθμός των ατόμων στο δείγμα με το χαρακτηριστικό που επιθυμούμε, τότε προσεγγίζουμε τις πιθανότητες με τη διωνυμική κατανομή. Για να έχει εφαρμογή το Κεντρικό Οριακό Θεώρημα σε αναλογίες στο δείγμα θα πρέπει να ισχύει ταυτόχρονα ότι: np>10 και n(1-p)>10. 18
Διάστημα εμπιστοσύνης για αναλογίες (1 από 11) Όταν δεν διαθέτουμε τις αναλογίες του πληθυσμού, που είναι το σύνηθες, τις εκτιμούμε. Το τυπικό σφάλμα του δειγματικού ποσοστού είναι: 19
Διάστημα εμπιστοσύνης για αναλογίες (2 από 11) Ο αριθμός των τυπικών σφαλμάτων περιθώριο σφάλματος: 20
Μέγεθος του δείγματος (1 από 2) Το ερώτημα αυτό είναι πολύ σημαντικό για κάθε είδους έρευνα. Η απάντηση δεν είναι εύκολη και οι στατιστικοί έχουν αναπτύξει αρκετά περίπλοκες σε ορισμένες περιπτώσεις τεχνικές για το σκοπό αυτό. Διαισθητικά θα έλεγε κανείς ότι όσο πιο μεγάλο είναι το δείγμα τόσο το καλύτερο. Αλλά μεγάλο δείγμα σημαίνει και μεγάλο κόστος σε χρόνο και σε χρήμα. 21
Μέγεθος του δείγματος (2 από 2) Πίνακας 2: Δεδομένα άσκησης. Πηγή: Διδάσκων (2015). 22
Διάστημα εμπιστοσύνης για αναλογίες (3 από 11) Εάν έχουμε αναλογίες ανθρώπων ή πραγμάτων με ένα συγκεκριμένο χαρακτηριστικό. Τότε δημιουργούμε διαστήματα εμπιστοσύνης για την αναλογία στον πληθυσμό. Το διάστημα εμπιστοσύνης είναι: 23
Διάστημα εμπιστοσύνης για αναλογίες (4 από 11) Έστω ότι σε δείγμα 120 ατόμων η εξέταση αίματος έδειξε ότι δεν υπάρχει κανένα πρόβλημα στους 85. Να δημιουργηθεί το 95% διάστημα εμπιστοσύνης για την εξέταση αίματος στον πληθυσμό. Απάντηση. Η αναλογία είναι: 24
Διάστημα εμπιστοσύνης για αναλογίες (5 από 11) Η τιμή για διάστημα εμπιστοσύνης 95% είναι 1,96, οπότε έχουμε: 25
Διάστημα εμπιστοσύνης για αναλογίες (6 από 11) Επομένως, μπορούμε να πούμε με 95% εμπιστοσύνη ότι το ποσοστό των εξετάσεων αίματος που δεν θα έχουν πρόβλημα στον πληθυσμό είναι ανάμεσα σε 63% και 79% με βάση το δείγμα μας. 26
Διάστημα εμπιστοσύνης για αναλογίες (7 από 11) Σε µια πειραµατική µελέτη µια νέα κλινική θεραπεία AAA δόθηκε σε τυχαίο δείγµα 100 ασθενών. Στο τέλος της µελέτης 65 ασθενείς αποθεραπεύτηκαν. Βρείτε το 95% διάστηµα εμπιστοσύνης της µέσης τιµής του ποσοστού αποθεραπείας της AAA (αποτελεσµατικότητα της ΧΤΥΖ ). 27
Διάστημα εμπιστοσύνης για αναλογίες (8 από 11) Σε µια πειραµατική µελέτη µια νέα μέθοδος διδασκαλία εφαρμόστηκε σε τυχαίο δείγµα 300 φοιτητών. Στο τέλος της µελέτης 270 φοιτητές έλαβαν προβιβάσιμο βαθμό. Βρείτε το 95% διάστηµα εμπιστοσύνης της µέσης τιµής του ποσοστού επιτυχίας της εν λόγω μεθόδου. 28
Διάστημα εμπιστοσύνης για αναλογίες (9 από 11) Εάν έχουμε αναλογίες σχετικά με ένα συγκεκριμένο χαρακτηριστικό σε έναν πληθυσμό τότε κάνουμε ελέγχους υποθέσεων για τις αναλογίες. Με τον έλεγχο βλέπουμε εάν η αναλογία του πληθυσμού που εξετάζουμε έχει πράγματι το χαρακτηριστικό. Για παράδειγμα, ελέγχουμε τον ισχυρισμό ότι 45% των μαθητών Λυκείου έχουν σύνδεση στο Internet. 29
Διάστημα εμπιστοσύνης για αναλογίες (10 από 11) Είδαμε τη διαδικασία σύγκρισης δύο μέσων με τη χρήση του ελέγχου: Και ίσως κάποιος να προτείνει ότι μπορεί αυτή η διαδικασία να εφαρμοστεί και στην περίπτωση σύγκρισης πολλών μέσων. Να γίνει δηλαδή η σύγκριση ανά δύο όλων των πιθανών συνδυασμών του συνόλου των μέσων. Ωστόσο, αυτό εκτός από χρονοβόρο οδηγεί επίσης σε αύξηση του σφάλματος τύπου Ι. Δηλαδή σε αυξημένη πιθανότητα λανθασμένης απόρριψης της μηδενικής υπόθεσης. 30
Διάστημα εμπιστοσύνης για αναλογίες (11 από 11) Η λύση στο πρόβλημα της σύγκρισης πολλών μέσων δίνεται από τη διαδικασία ανάλυσης της διασποράς. Κοινώς γνωστή ως ANOVA. Analysis Of Variance ανάλυση της διακύμανσης. Ουσιαστικά, πρόκειται για γενίκευση της διαδικασίας ελέγχου διαφοράς δύο μέσων. 31
Σημείωμα Αναφοράς Copyright ΤΕΙ Δυτικής Μακεδονίας, Νικόλαος Σαριαννίδης. «Στατιστική Ι». Έκδοση: 1.0. Κοζάνη 2015. Διαθέσιμο από τη δικτυακή διεύθυνση: 32
Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο. που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο. που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο. Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. 33
Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς. το Σημείωμα Αδειοδότησης. τη δήλωση Διατήρησης Σημειωμάτων. το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει). μαζί με τους συνοδευόμενους υπερσυνδέσμους. 34