Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο Copyright 2009 Cengage Learning 15.1
Ένα Κοινό Θέμα Τι πρέπει να γίνει; Τύπος Δεδομένων; Πλήθος Κατηγοριών; Στατιστική Μέθοδος; Περιγραφή ενός πληθυσμού Ονομαστικά Δύο ή περισσότερες έλεγχος καλής προσαρμογής Περιγραφή δύο πληθυσμών Ονομαστικά Δύο ή περισσότερες έλεγχος ενός πίνακα συνάφειας Σύγκριση δύο ή περισσοτέρων πληθυσμών Ανάλυση σχέσης μεταξύ δύο μεταβλητών Ονομαστικά -- Ονομαστικά -- έλεγχος ενός πίνακα συνάφειας έλεγχος ενός πίνακα συνάφειας Ένας τύπος δεδομένων δύο μέθοδοι Copyright 2009 Cengage Learning 15.2
Δύο Μέθοδοι Η πρώτη μέθοδος είναι ο έλεγχος καλής προσαρμογής που εφαρμόζεται σε δεδομένα που προέρχονται από ένα πολυωνυμικό πείραμα, μια γενίκευση ενός διωνυμικού πειράματος, και χρησιμοποιείται για να περιγράψει ένα πληθυσμό δεδομένων. Η δεύτερη μέθοδος χρησιμοποιεί δεδομένα που είναι διατεταγμένα σε ένα πίνακα συνάφειας για να καθορίζει εάν δύο κατηγοριοποιήσεις ενός πληθυσμό ονομαστικών δεδομένων είναι στατιστικά ανεξάρτητες. Ο έλεγχος αυτός μπορεί επίσης να ερμηνευθεί ως μια σύγκριση δύο ή περισσότερων πληθυσμών. Και στις δύο περιπτώσεις χρησιμοποιούμε την κατανομή χ-τετράγωνο ( ). Copyright 2009 Cengage Learning 15.3
Το Πολυωνυμικό Πείραμα Αντίθετα με ένα διωνυμικό πείραμα το οποίο έχει μόνο δύο πιθανά ενδεχόμενα (π.χ., κορώνα ή γράμματα), ένα πολυωνυμικό πείραμα: Αποτελείται από ένα σταθερό αριθμό, n, δοκιμών. Κάθε δοκιμή μπορεί να έχει ένα από τα k ενδεχόμενα, που ονομάζονται κελιά. Κάθε πιθανότητα p i παραμένει σταθερή. Η συνήθης ιδιότητα των πιθανοτήτων ισχύει, δηλαδή: p 1 + p 2 + + p k = 1, και Κάθε δοκιμή είναι ανεξάρτητη από τις άλλες δοκιμές. Copyright 2009 Cengage Learning 15.4
Έλεγχος Χ-Τετράγωνο Καλής Προσαρμογής Ελέγχουμε εάν υπάρχουν επαρκή στοιχεία για να απορρίψουμε ένα καθορισμένο σύνολο τιμών για την p i. Απεικονιστικά, η μηδενική μας υπόθεση είναι: H 0 : p 1 = a 1, p 2 = a 2,, p k = a k όπου a 1, a 2,, a k είναι τιμές που θέλουμε να ελέγξουμε. Η υπόθεση της έρευνάς μας είναι: H 1 : Τουλάχιστον μία p i δεν είναι ίση με την καθορισμένη τιμή της Copyright 2009 Cengage Learning 15.5
Παράδειγμα 15.1 Δύο εταιρείες, η A και η B, πραγματοποίησαν πρόσφατα επιθετικές διαφημιστικές εκστρατείες για να διατηρήσουν και πιθανώς να αυξήσουν τα μερίδιά τους στην αγορά μαλακτικών ρούχων. Οι δύο αυτές εταιρείες κατέχουν κυρίαρχη θέση στην αγορά. Πριν τις διαφημιστικές εκστρατείες τους, το μερίδιο αγοράς της εταιρείας Α ήταν 45%, ενώ της εταιρείας Β ήταν 40%. Οι άλλοι ανταγωνιστές είχαν το υπόλοιπο 15%. Copyright 2009 Cengage Learning 15.6
Example 15.1 Για να διαπιστώσει εάν αυτά τα μερίδια αγοράς μεταβλήθηκαν μετά τις διαφημιστικές εκστρατείες, ένας αναλυτής μάρκετινγκ επέλεξε ένα τυχαίο δείγμα 200 πελατών μαλακτικών ρούχων. Από τους 200 πελάτες, οι 102 έδειξαν προτίμηση για το προϊόν της εταιρείας Α, οι 82 για το προϊόν της εταιρείας Β, και οι υπόλοιποι 16 προτίμησαν τα προϊόντα ενός εκ των ανταγωνιστών. Μπορεί ο αναλυτής να συμπεράνει με 5% στάθμη σημαντικότητας ότι οι προτιμήσεις των πελατών έχουν αλλάξει συγκριτικά με την περίοδο πριν να ξεκινήσουν οι διαφημιστικές εκστρατείες; Copyright 2009 Cengage Learning 15.7
Παράδειγμα 15.1 Συγκρίνουμε το μερίδιο αγοράς πριν και μετά τη διαφημιστική εκστρατεία για να διαπιστώσουμε εάν υπάρχει διαφορά (δηλαδή, εάν η διαφήμιση ήταν αποτελεσματική βελτιώνοντας το μερίδιο αγοράς). Υποθέτουμε τιμές για τις παραμέτρους ίσες με το προηγούμενο μερίδιο αγοράς. Δηλαδή, H 0 : p 1 = 0,45, p 2 = 0,40, p 3 = 0,15 Η εναλλακτική υπόθεση αποτελεί μια άρνηση του μηδενός. Δηλαδή, H 1 : Τουλάχιστον μία p i δεν είναι ίση με την καθορισμένη τιμή της Copyright 2009 Cengage Learning 15.8
Παράδειγμα 15.1 Έλεγχος Εάν η μηδενική υπόθεση ισχύει, θα αναμέναμε ο αριθμός των πελατών που επιλέγουν τη μάρκα Α, τη μάρκα Β, και τις άλλες μάρκες να είναι 200 επί την αναλογία που καθορίζεται υπό την μηδενική υπόθεση. Δηλαδή, e 1 = 200(0.45) = 90 e 2 = 200(0.40) = 80 e 3 = 200(0.15) = 30 Γενικώς, η αναμενόμενη συχνότητα για κάθε κελί δίδεται από τη σχέση e i = np i Η έκφραση αυτή απορρέει από τον τύπο της αναμενόμενης τιμής μιας διωνυμικής τυχαίας μεταβλητής που είδαμε στην Ενότητα 7.4. Copyright 2009 Cengage Learning 15.9
Παράδειγμα 15.1 Εάν οι αναμενόμενες συχνότητες και οι παρατηρούμενες συχνότητες είναι πολύ διαφορετικές, θα συμπεράναμε ότι η μηδενική υπόθεση είναι ψευδής, και θα την απορρίπταμε. Ωστόσο, εάν οι αναμενόμενες και παρατηρούμενες συχνότητες είναι παρόμοιες, δεν θα απορρίπταμε τη μηδενική υπόθεση. Ο έλεγχος μετρά την ομοιότητα των αναμενόμενων και παρατηρούμενων συχνοτήτων. Copyright 2009 Cengage Learning 15.10
Έλεγχος Χ-Τετράγωνο Καλής Προσαρμογής Ο έλεγχος χ-τετράγωνο καλής προσαρμογής δίδεται από τον τύπο: παρατηρούμενη συχνότητα αναμενόμενη συχνότητα Σημείωση: αυτό το στατιστικό μέγεθος είναι κατά προσέγγιση χι-τετράγωνο με k 1 βαθμούς ελευθερίας, με την προϋπόθεση ότι το δείγμα είναι μεγάλο. Η περιοχή απόρριψης είναι: Copyright 2009 Cengage Learning 15.11
Παράδειγμα 15.1 ΥΠΟΛΟΓΙΣΜΟΣ Για να υπολογίσουμε τον έλεγχό μας, διατάσσουμε τα δεδομένα σε πίνακα για ευκολότερο υπολογισμό με το χέρι: Εταιρεία Παρατηρούμενη Συχνότητα Αναμενόμενη Συχνότητα Δέλτα Άθροιση Στοιχείων f i e i (f i ei) (f i e i ) 2 /e i A 102 90 12 1.60 B 82 80 2 0.05 Άλλοι 16 30-14 6.53 Σύνολο 200 200 8.18 Ελέγξτε να είναι ίσα Copyright 2009 Cengage Learning 15.12
Παράδειγμα 15.1 ΕΡΜΗΝΕΙΑ Η περιοχή απόρριψής μας είναι: Αφού ο έλεγχός μας είναι 8.18, άρα μεγαλύτερος από την κρίσιμη τιμή του χ-τετράγωνο, απορρίπτουμε την H 0 υπέρ της H 1, δηλαδή, «Υπάρχουν επαρκή στοιχεία για να συμπεράνουμε ότι οι αναλογίες έχουν μεταβληθεί από τότε που διενεργήθηκαν οι διαφημιστικές εκστρατείες» Copyright 2009 Cengage Learning 15.13
Απαιτούμενες Προϋποθέσεις Για να χρησιμοποιήσουμε αυτή τη μέθοδο, το μέγεθος του δείγματος πρέπει να είναι επαρκώς μεγάλο έτσι ώστε η αναμενόμενη τιμή για κάθε κελί να είναι 5 ή μεγαλύτερη (δηλαδή, np i 5) Εάν η αναμενόμενη συχνότητα είναι μικρότερη από πέντε, συνδυάστε την με άλλα κελιά ώστε να ικανοποιείται η συνθήκη/προϋπόθεση. Copyright 2009 Cengage Learning 15.14
Έλεγχος χ-τετράγωνο Πίνακα Συνάφειας Ο έλεγχος χ-τετράγωνο ενός πίνακα συνάφειας χρησιμοποιείται για να: καθορίσουμε εάν υπάρχουν επαρκή στοιχεία ώστε να συμπεράνουμε ότι δύο ονομαστικές μεταβλητές συνδέονται, και συμπεράνουμε ότι υπάρχουν διαφορές ανάμεσα σε δύο ή περισσότερους πληθυσμούς ονομαστικών μεταβλητών. Για να χρησιμοποιήσουμε αυτές τις τεχνικές χρειάζεται να κατηγοριοποιήσουμε τα δεδομένα σύμφωνα με δύο διαφορετικά κριτήρια. Copyright 2009 Cengage Learning 15.15
Παράδειγμα 15.2 Το πρόγραμμα MBA ενός πανεπιστημίου έχει προβλήματα με τον προγραμματισμό των μαθημάτων, καθώς οι προτιμήσεις των φοιτητών ως προς την κύρια κατεύθυνση και τα προαιρετικά μαθήματα εμφανίζουν μεγάλες διαφορές από χρόνο σε χρόνο. Ο πρύτανης της σχολής είναι σε απόγνωση και στρέφεται για βοήθεια σε ένα καθηγητή στατιστικής. Ο καθηγητής στατιστικής πιστεύει ότι το πρόβλημα μπορεί να είναι η μεταβλητότητα στο ακαδημαϊκό υπόβαθρο των φοιτητών και ότι η επιλογή της κατεύθυνσης ΜΒΑ επηρεάζεται από την κατεύθυνση των προπτυχιακών σπουδών. Copyright 2009 Cengage Learning 15.16
Παράδειγμα 15.2 Ως αρχή επέλεξε ένα τυχαίο δείγμα φοιτητών ΜΒΑ του περασμένου έτους και κατέγραψε την κατεύθυνση των προπτυχιακών σπουδών και την κατεύθυνση των σπουδών ΜΒΑ. Οι προπτυχιακές κατευθύνσεις ήταν BA, BEng, BBA, και αρκετές άλλες. Υπάρχουν τρεις πιθανές κατευθύνσεις για τους φοιτητές ΜΒΑ, η λογιστική, η οικονομία, και το μάρκετινγκ. Μπορεί ο στατιστικός να συμπεράνει ότι η κατεύθυνση ΜΒΑ που επιλέγει κάθε φοιτητής συνδέεται με την κατεύθυνση των προπτυχιακών σπουδών του; Copyright 2009 Cengage Learning 15.17
Παράδειγμα 15.2 Αρχείο Xm15-02 Τα στοιχεία αποθηκεύτηκαν σε δύο στήλες. Η πρώτη στήλη αποτελείται από ακέραιους αριθμούς 1, 2, 3, και 4 που αντιπροσωπεύουν τις προπτυχιακές κατευθύνσεις, όπου 1 = BA 2 = BEng 3 = BBA 4 = άλλη Η δεύτερη στήλη περιλαμβάνει τις κατευθύνσεις ΜΒΑ, όπου 1= Λογιστική 2 = Οικονομικά 3 = Μάρκετινγκ Copyright 2009 Cengage Learning 15.18
Παράδειγμα 15.2 ΑΝΑΓΝΩΡΙΣΗ Σκοπός του προβλήματος είναι να καθοριστεί εάν συνδέονται δύο μεταβλητές (προπτυχιακές σπουδές και κατευθύνσεις ΜΒΑ). Και οι δύο μεταβλητές είναι ονομαστικές. Επομένως, η μέθοδος που χρησιμοποιούμε είναι ο έλεγχος χ-τετράγωνο ενός πίνακα συνάφειας. Οι εναλλακτικές υποθέσεις καθορίζουν αυτό που ελέγχουμε. Δηλαδή, H 1 : Οι δύο μεταβλητές είναι εξαρτημένες Η μηδενική υπόθεση είναι μια άρνηση της εναλλακτικής υπόθεσης. H 0 : Οι δύο μεταβλητές είναι ανεξάρτητες Copyright 2009 Cengage Learning 15.19
Έλεγχος Ο έλεγχος είναι ο ίδιος με αυτόν που χρησιμοποιήσαμε για να ελέγξουμε τις αναλογίες στον έλεγχο καλής προσαρμογής. Δηλαδή, ο έλεγχος είναι ( f i e e 2 2 i ) i Σημειώστε όμως ότι υπάρχει μεγάλη διαφορά μεταξύ των δύο εφαρμογών. Στην παρούσα, το μηδέν δεν καθορίζει τις αναλογίες p i, από τις οποίες υπολογίζουμε τις αναμενόμενες τιμές e i, τις οποίες χρειαζόμαστε για να υπολογίσουμε το έλεγχο χ 2. Δηλαδή δεν μπορούμε να χρησιμοποιήσουμε το e = np i επειδή δεν γνωρίζουμε τα p i (δεν καθορίζονται από την μηδενική υπόθεση). Είναι απαραίτητο να υπολογίσουμε τις πιθανότητες από τα δεδομένα. Copyright 2009 Cengage Learning 15.20
Παράδειγμα 15.2 Το πρώτο βήμα είναι να μετρήσουμε τον αριθμό των φοιτητών σε κάθε έναν εκ των 12 συνδυασμών. Το αποτέλεσμα ονομάζεται πίνακας συνδυασμένης κατηγοριοποίησης. Copyright 2009 Cengage Learning 15.21
Παράδειγμα 15.2 Κατεύθυνση MBA Προπτυχιακή κατεύθυνση Λογιστική Οικονομία Μάρκετινγκ Σύνολο BA 31 13 16 60 BEng 8 16 7 31 BBA 12 10 17 39 Άλλο 10 5 7 22 Σύνολο 61 44 47 152 Copyright 2009 Cengage Learning 15.22
Παράδειγμα 15.2 Εάν η μηδενική υπόθεση είναι αληθής (θυμηθείτε, ότι πάντα ξεκινάμε με αυτή την παραδοχή) και οι δύο ονομαστικές μεταβλητές είναι ανεξάρτητες, τότε, για παράδειγμα, P(BA και Λογιστική) = [P(BA)] [P(Λογιστική)] Αφού δεν γνωρίζουμε τις τιμές του P(BA) ή του P(Λογιστική) θα πρέπει να χρησιμοποιήσουμε τα δεδομένα για να εκτιμήσουμε τις πιθανότητες. Copyright 2009 Cengage Learning 15.23
Έλεγχος Υπάρχουν 152 φοιτητές εκ των οποίων οι 61 έχουν επιλέξει τη Λογιστική ως κατεύθυνση ΜΒΑ. Επομένως, υπολογίζουμε την πιθανότητα της Λογιστικής ως Ομοίως P(Λογιστική) 61 152.401 P(BA) 60 152.395 Copyright 2009 Cengage Learning 15.24
Παράδειγμα 15.2 Εάν η μηδενική υπόθεση είναι αληθής P(BA και Λογιστική) = (60/152)(61/152) Τώρα που έχουμε την πιθανότητα μπορούμε να υπολογίσουμε την αναμενόμενη τιμή. Δηλαδή, E(BA και Λογιστική) = 152(60/152)(61/152) = (60)(61)/152 = 24.08 Μπορούμε να κάνουμε το ίδιο και με τα άλλα 11 κελιά. Copyright 2009 Cengage Learning 15.25
Παράδειγμα 15.2 Μπορούμε τώρα να συγκρίνουμε τις παρατηρηθείσες με τις αναμενόμενες συχνότητες. Κατεύθυνση MBA ΥΠΟΛΟΓΙΣΜΟΣ Προπτυχιακή κατεύθυνση Λογιστική Οικονομία Μάρκετινγκ BA 31 24.08 13 17.37 16 18.55 BEng 8 12.44 16 8.97 7 9.59 BBA 12 15.65 10 11.29 17 12.06 Άλλο 10 8.83 5 6.37 7 6.80 και να υπολογίσουμε τον έλεγχό μας: Copyright 2009 Cengage Learning 15.26
Παράδειγμα 15.2 ΥΠΟΛΟΓΙΣΜΟΣ Η παρακάτω εκτύπωση προήλθε από το αρχείο Xm15-02 χρησιμοποιώντας την εντολή Contingency Table (Raw Data) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A B C D E F Contingency Table Degree MBA Major 1 2 3 TOTAL 1 31 13 16 60 2 8 16 7 31 3 12 10 17 39 4 10 5 7 22 TOTAL 61 44 47 152 chi-squared Stat 14.7019 df 6 p-value 0.0227 chi-squared Critical 12.5916 Copyright 2009 Cengage Learning 15.27
Παράδειγμα 15.2 ΕΡΜΗΝΕΙΑ Η τιμή-p είναι 0.0227. Υπάρχουν επαρκή στοιχεία για να συμπεράνουμε ότι η κατεύθυνση ΜΒΑ και οι προπτυχιακές κατευθύνσεις συνδέονται. Μπορούμε επίσης να ερμηνεύσουμε τα αποτελέσματα αυτού του ελέγχου με δύο άλλους τρόπους. 1.Υπάρχουν επαρκή στοιχεία για να συμπεράνουμε ότι υπάρχουν διαφορές μεταξύ της κατεύθυνσης ΜΒΑ και των τεσσάρων προπτυχιακών κατηγοριών. 2. Υπάρχουν επαρκή στοιχεία για να συμπεράνουμε ότι υπάρχουν διαφορές στις προπτυχιακές κατευθύνσεις μεταξύ των κατευθύνσεων ΜΒΑ. Copyright 2009 Cengage Learning 15.28
Απαιτούμενη Προϋπόθεση/Συνθήκη Κανόνας των Πέντε Σε ένα πίνακα συνάφειας όπου ένα ή περισσότερα κελιά έχουν αναμενόμενες τιμές μικρότερες από 5, χρειάζεται να συνδυάσουμε σειρές ή στήλες ώστε να ικανοποιείται ο κανόνας των πέντε. Σημείωση: όταν το κάνουμε αυτό, οι βαθμοί ελευθερίας πρέπει να μεταβάλλονται επίσης. Copyright 2009 Cengage Learning 15.29