Επαγωγική στατιστική ιαφάνειες για το µάθηµα Information Management ΑθανάσιοςΝ. Σταµούλης 1 ΠΗΓΗ Κονδύλης Ε. (1999) Στατιστικές τεχνικές διοίκησης επιχειρήσεων, Interbooks 2 1
Επαγωγική στατιστική Από κάποιο δείγµα δεδοµένων µας ενδιαφέρει να εξάγουµε συµπεράσµαταγιαολόκληροτονπληθυσµό. Συνήθωςδιατυπώνουµευποθέσεις (µεβάσητοδείγµα), πιθανολογώντας το βαθµό ακρίβειας της πρόβλεψης µας µε χρήση " ιαστηµάτωνεµπιστοσύνης" (ή, συνηθέστερα, µε χρήση των αντίστοιχων Επιπέδων Σηµαντικότητας"). 3 Κατανοµή δειγµατοληψίας Εάν επιλέξουµε όλα τα θεωρητικώς δυνατά δείγµατα µεγέθους n ενός πληθυσµού µεγέθους Ν και υπολογίσουµε το µέσο όρο ενός χαρακτηριστικού (π.χ. ύψος νεοσύλλεκτων στρατιωτών) για κάθε ένα δείγµα ξεχωριστά, τότε όλες οι τιµές των µέσων όρων ακολουθούν κανονική κατανοµή µε µέσο όρο µ ΚΕΝΤΡΙΚΟ ΟΡΙΑΚΟ ΘΕΩΡΗΜΑ (n>30) Συνδυασµοί (πλήθος) δειγµάτων 4 2
Τυπικό σφάλµα εκτίµησης Ητυπικήαπόκλισητωνµέσωνόρωντωνδειγµάτων ονοµάζεται και τυπικό σφάλµα εκτίµησης. Ηδιαφοράµεταξύενόςµέσουόρουδείγµατοςκαι του µέσου όρου πληθυσµού, ονοµάζεται σφάλµα δειγµατοληψίας. Είναι το λάθος που θα κάναµε αν θεωρούσαµε τον µέσο όρο δείγµατος σαν την πιθανή τιµήτουµέσουόρουµτουπληθυσµού. 5 Παράδειγµα ΚΟΘ Έστω ότι ένα βιοµηχανικό ψαλίδι έχει κόψει καρφιά µεµέσοµήκοςµ= 47.5 mmκαιτυπικήαπόκλισησ= 2 mm. Να υπολογισθεί το τυπικό σφάλµα εκτίµησης του µέσου όρου, αν αντί για ολόκληρο τον πληθυσµό (Ν = 3,000) πάρουµεένατυχαίοδείγµααπό 64 καρφιάδηλ. n = 64) καιχρησιµοποιήσουµετοµέσο όρο αυτών των συγκεκριµένων 64 τιµών για εκτίµηση του (πραγµατικού) µέσου όρου µ ολόκληρουτουπληθυσµού, δηλ. των 3,000 καρφιών. Θα έχουµε: 6 3
Τυπικό σφάλµα στην πράξη Στηνπράξησυνήθωςδενγνωρίζουµετοσ. Σ αυτέςτιςπεριπτώσεις, καιγιαµεγάλαδείγµατα, χρησιµοποιούµε την τυπική απόκλιση s του δείγµατος αντί του σ, οπότε: Αν στο προηγούµενο δείγµα των 64 καρφιών βρέθηκε s=1.8mm, τότε το τυπικό σφάλµα εκτίµησης µε χρήση µόνο στοιχείων του δείγµατος είναι: 7 ιάστηµα εµπιστοσύνης δειγµατοληψίας Επειδή, σύµφωναµετοκοθότανέχουµε "µεγάλα" δείγµατα ο µέσος όρος τους κατανέµεται σύµφωνα µε την Κανονική Κατανοµή συµµετρικά εκατέρωθεν του µ, µπορούµε π.χ. να υπολογίσουµε ένα διάστηµα εµπιστοσύνης 95% προσθαφαιρώντας 1.96 το τυπικό σφάλµα. (Για 99% ο συντελεστής είναι 2.58) Έτσι λοιπόν, αν λάβουµε ένα µόνο τυχαίο δείγµα και υπολογίσουµε το µέσο όρο του, µπορούµε να πιθανολογήσουµε ότι: Υπάρχει πιθανότητα 95% ότι ο (πραγµατικός) µέσος όροςµτουπληθυσµούαπότονοποίοελήφθητο δείγµα να βρίσκεται µεταξύ των τιµών: 8 4
ιάστηµα εµπιστοσύνης στο παράδειγµα Με πιθανότητα 95% µπορούµε να ισχυρισθούµε ότι οµέσοςόροςµτουπληθυσµούβρίσκεταιστο διάστηµα: 48±1.96(0.225) ή48±0.441, δηλαδήµεταξύ 47.56 mmκαι 48.44 mm. Με πιθανότητα 99% µπορούµε να ισχυρισθούµε ότι οµέσοςόροςµτουπληθυσµούβρίσκεταιστο διάστηµα: 48 ± 2.58(0.225) ή 48 ± 0.581,δηλαδήµεταξύ 47.42 mmκαι 48.58 mm. 9 Μηδενική υπόθεση Η διαφορά της (εµπειρικής) παρατήρησης ενός µέσου όρου (δείγµατος) από τη θεωρητικά αναµενόµενη τιµή (µ), µπορεί να οφείλεται απλά και µόνο στη φυσιολογική διακύµανση της τυχαίας δειγµατοληψίαςαπόαυτήτηναναµενόµενητιµή, γι' αυτόονοµάζεταικαισφάλµαδειγµατοληψίας. Μπορεί όµως και να είναι σηµαντική δηλ. να µην οφείλεται απλά και µόνο στο ότι έχουµε δείγµα και όχι όλο τον πληθυσµό. Στην περίπτωση αυτή δηλ. όταν η διαφορά είναι (στατιστικά) σηµαντική λέµε ότι: ΗΜηδενικήΥπόθεση (Η 0 ), δηλ. ηυπόθεσηότιδεν υπάρχει ουσιαστική διαφορά µεταξύ της παρατηρούµενης τιµής και της θεωρητικά αναµενόµενης, πρέπει να απορριφθεί. 10 5
Επίπεδο σηµαντικότητας Η διαπίστωση του αν η παρατηρούµενη διαφορά (µέσου όρου δείγµατος, απόµέσοόροπληθυσµούµ) είναισηµαντικήήόχι, µπορεί να γίνει µόνο µε πιθανολόγηση. Γιακάθεδιάστηµα (ή, τοαντίστοιχο, επίπεδο) εµπιστοσύνης, που προεπιλεγούµε, µίας δειγµατοληπτικής κατανοµής, το ποσοστό των τιµών εκτός του επιλεγέντος διαστήµατος εµπιστοσύνης λέγεται επίπεδο σηµαντικότητας, και συµβολίζεται, διεθνώς, µεα. Για ένα Επίπεδο Εµπιστοσύνης 95%, το Επίπεδο σηµαντικότηταςείναι 5% (γιατί: 95% + 5% = 100%). Μια διαφορά εκτός του ορίου εµπιστοσύνης 95%, λέγεται "σηµαντική σε επίπεδο 5%" και είναι µια άλλη διατύπωση του ότι: "υπάρχει µόνο 5% πιθανότητα ή διαφορά να οφείλεται σε σφάλµαδειγµατοληψίας". Σ αυτήτηνπερίπτωση, µπορούµε να απορρίψουµε τη Μηδενική Υπόθεση και το δείγµα να θεωρηθείότιδενανήκειστονπληθυσµόµεµέσοόροµ. 11 Παράδειγµα Σ ένα δείγµα 36 νεοσύλλεκτων το µέσο βάρος νεοσύλλεκτου είναι 75 Kg. και η τυπική απόκλιση 8 Kg. Μια πλήρης απογραφή όλων των νεοσύλλεκτων πριν 10 χρόνια είχε δείξει µέσο βάρος 72 Κg. Να εξετασθεί η εκδοχή να έχει µεταβληθεί έκτοτε το µέσο βάρος των νεοσύλλεκτων. ΗΜηδενικήΥπόθεση (Η 0 ) είναι: ενυπάρχειµεταβολήτου βάρους ( ηλ. η παρατηρούµενη διαφορά είναι σφάλµα δειγµατοληψίας). Είναι: Οπότε έχουµε: Ητιµή z = 2.25 είναιµεγαλύτερητης 1.96 αλλάόχικαιτου 2.58. ηλαδή, η Μηδενική Υπόθεση πρέπει να απορριφθεί σε επίπεδο α = 5%, αλλά όχι και σε α = 1%!. ηλαδή µε πιθανότητα λάθους 5%, απορρίπτουµε την υπόθεση ότι δεν υπάρχει µεταβολή (και λέµε ότι: "υπάρχει στατιστικά σηµαντική διαφορά σε επίπεδο 5%), αλλά δεν µπορούµε να την απορρίψουµε σε επίπεδο α=1%. 12 6
Κρίσιµες τιµές Ανµαςενδιαφέρειηπιθανότηταοµέσοςναδιαφέρειαπότον µ παίρνουµε το άθροισµα των δύο ουρών (αµφίπλευρο). Ανµαςενδιαφέρειηπιθανότηταοµέσοςναείναιµόνο µεγαλύτερος ή µικρότερος από τον µ παίρνουµε το εµβαδό της µιας µόνο ουράς (µονόπλευρο διάστηµα). 13 Παράδειγµα Μία εταιρία παραγωγής και διανοµής ελαιολάδου εµφιαλώνει το ελαιόλαδοσεφιάλεςτου 1 lt. Σεέναδείγµα 49 φιαλώντηςαγορανοµίας, διαπιστώθηκε ότι ο µέσος όρος του περιεχοµένου ήταν 960 cc µε τυπική απόκλιση 25 cc Μπορούµε να απορρίψουµε τον ισχυρισµό της εταιρίας ότι γεµίζειπλήρωςτιςφιάλες, σεεπίπεδοσηµαντικότητας 0.005 (5% 0 ); Η µηδενική υπόθεση είναι: Η 0 : "Οιφιάλεςδενπεριέχουνλιγότεροαπό 1 lt" Η κρίσιµη τιµή z για µονόπλευρο τεστ σε επίπεδο σηµαντικότητας α= 5%ο είναι 2.58 (Ακόµη και σε επίπεδο σηµαντικότητας α = 2%ο είναι σηµαντικό γιατί η αντίστοιχη τιµή είναι 2.88). Άρα, δεν µπορούµε να αγνοήσουµε την παρατηρηθείσα απόκλιση από το 1lt του µέσου βάρους των φιαλών του δείγµατος, και, κατά συνέπεια, πρέπει να απορρίψουµε τον ισχυρισµό της εταιρίας ότι γεµίζει πλήρως τις φιάλες της. 14 7
ΣφάλµατατύπουΙκαιΙΙ Εάν η Μηδενική Υπόθεση είναι πράγµατι ορθή (δηλ. δεν υπάρχει ουσιαστική διαφορά µεταξύ της µέσης τιµής, που βρήκαµε εµπειρικά µε δειγµατοληψία από την αναµενόµενη µέση τιµή µ του πληθυσµού) αλλά τηναπορρίψουµεεξαιτίαςτουεπιπέδουσηµαντικότηταςα, πουεπιλέξαµε, λέµε ότι έχουµε κάνει σφάλµα "τύπου Ι" (µε πιθανότητα α). Αντίθετα, αν η Μηδενική Υπόθεση είναι εσφαλµένη αλλά δεν µπορούµε να την απορρίψουµε (λόγω του επιπέδου σηµαντικότητας που επιλέξαµε), λέµε ότι κάναµε σφάλµα "τύπου II" (µε πιθανότητα β). Χρήσιµο είναι, για καλύτερη εποπτεία, να θεωρούµε ότι: α = ΚίνδυνοςΠαραγωγού, και, β = ΚίνδυνοςΚαταναλωτή Πράγµατι, η απόρριψη παρτίδων µε καλή ποιότητα εξ αιτίας της δειγµατοληψίας, έχει συνέπειες που επιβαρύνουν τον παραγωγό. Ενώ η αποδοχή κακής ποιότητας έχει συνέπειες που επιβαρύνουν τον καταναλωτή. Η πιθανότητα Σφάλµατος Τύπου Ι (α, Παραγωγού), ελαττώνεται χαµηλώνοντας το επίπεδο σηµαντικότητας (π.χ. από α = 5% σε α = 1 % ή ισοδύναµα, επεκτείνοντας το διάστηµα εµπιστοσύνης, ή το αντίστοιχο επίπεδο εµπιστοσύνης π.χ. από 95% σε 99%). Ατυχώς όµως, καθώς η πιθανότητα α ελαττώνεται, η β αυξάνει. Έτσι, το επίπεδο σηµαντικότητας καθορίζεται ανάλογα µε τη βαρύτητα που δίνει κανείς στους δύο τύπους σφαλµάτων µε, συνήθως, αποδεκτά επίπεδα "α" µικρότερα ή ίσα του5%. 15 Μέγεθος δείγµατος Σφάλµα δειγµατοληψίας Εάν προκαθορίσουµε τη µέγιστη αποδεκτή τιµή του Ε, τότε για ένα επίπεδο σηµαντικότητας α (που αντιστοιχείσεµίακρίσιµητιµήζ α/2 ) µπορούµενα υπολογίσουµε το απαιτούµενο µέγεθος του δείγµατος ως εξής Γιαµεγάλαδείγµατα (n>30) όπουσθέστε s 16 8
Σφάλµα δειγµατοληψίας Είναι η απόσταση της εµπειρικά προσδιοριζόµενης τιµήςτουµέσουόρουτουδείγµατοςαπότοµέσοόρο του πληθυσµού (µ) Όπως είδαµε στην πράξη και για η > 30, ηαπόστασηαυτήεδίνεταιαπότοντύπο: Το σφάλµα της δειγµατοληψίας Ε µειώνεται όταν: Αυξάνεται το µέγεθος του δείγµατος n Μειώνεταιητυπικήαπόκλιση (δηλ. ηανοµοιογένεια) s του δείγµατος (µιας και σπάνια γνωρίζουµε το σ) Αυξάνεταιτοεπίπεδοσηµαντικότηταςαήαντίστοιχα, όταν περιορίζεται το επίπεδο εµπιστοσύνης (1 - α). 17 Εκτίµηση σηµαντικότητας διαφοράς µέσων όρων Ηδιαφοράτωνµέσωνόρων 2 µεγάλων ανεξάρτητων δειγµάτων ακολουθεί κανονική κατανοµή. Το κριτήριο z είναι: 18 9
Βαθµοί ελευθερίας Βαθµοί ελευθερίας είναι ο αριθµός των αγνώστων σε ένα (αλγεβρικό) σύστηµα µείον τον αριθµό των ανεξάρτητων εξισώσεων που συνδέουν τους αγνώστους. Ένα σύστηµα δύο εξισώσεων µε δύο αγνώστους είναι απολύτως ορισµένο και µπορούµε να βρούµε µία και µοναδική λύση. (Βαθµοί ελευθερίας 0) Αν όµως έχουµε τρείς αγνώστους και δύο εξισώσεις τότε µπορούµε να δώσουµε µια οποιαδήποτε αυθαίρετη τιµή στον έναν εξ αυτών και να προσδιορίσουµε βάσει των εξισώσεων τους δύο άλλους. Σ' αυτή την περίπτωση λέµε ότι έχουµε "ένα βαθµό ελευθερίας". Ο µέσος όρος ενός δείγµατος 4 µεταβλητών έχει 3 "βαθµούς ελευθερίας": Εάν υποτεθεί ότι γνωρίζουµε τον µέσο όρο µπορούµε να προσδιορίσουµε αυθαίρετα τρεις από τις τέσσερις µεταβλητές, οπότε η τέταρτη θα προσδιορισθεί βάσει της εξίσωσης του µέσου όρου. Γενικά, υπολογίζοντας ορισµένους στατιστικούς δείκτες πληθυσµών, ιδίως όταν τα δείγµατα είναι µικρά (η < 30), χρησιµοποιούµε "τους βαθµούς ελευθερίας" αντί του ολικού αριθµού των παρατηρήσεων. (Μπορεί κανείς να θεωρήσει ότι αυτό είναι µια διορθωτική επέµβαση για το γεγονός ότι χρησιµοποιούµε δείγµα και όχι όλο τον πληθυσµό. Συνήθως, όταν µεγαλώνει το δείγµα, µειώνεται και η σηµασία αυτής της διόρθωσης). Έτσι, η "κατ εκτίµηση" τυπικήαπόκλιση (σ) ενόςπληθυσµούβασισµένησ έναδείγµα (n) περιπτώσεων είναι: 19 Κατανοµή t-student Η κατανοµή t µοιάζει µε την Κανονική, αλλά επηρεάζεται από το µέγεθος του δείγµατος ή ακριβέστερααπότουςβαθµούςελευθερίας. (Για n > 30 η t και η κανονική ουσιαστικά ταυτίζονται). Πα µικρά δείγµατα (η<30) και για πληθυσµούς που ακολουθούν κανονική κατανοµή χρησιµοποιούµε το κριτήριο t, αντί του z. Πρέπει όµως να χρησιµοποιούµε τροποποιηµένους µαθηµατικούς τύπους για "µικρά δείγµατα" και να υπολογίσουµε την "κρίσιµη τιµή" του t βάσει των βαθµών ελευθερίας, από τους σχετικούς πίνακες της κατανοµής t. Ηκατανοµή tδίνεταιαπότησχέση: 20 10
ιαφορά µέσων όρων µικρών δειγµάτων Σ αυτή την περίπτωση, και υπό την προϋπόθεσηότιοιαντίστοιχοι (δύο) πληθυσµοίκατανέµονταικανονικά, χρησιµοποιούµε το κριτήριο t µε βαθµούς ελευθερίας n 1 +n 2-2 όπου: 21 Λήψη αποφάσεων για ποσοστά πληθυσµών Έστωέναςπληθυσµόςπουχωρίζεταισεδύο κατηγορίες. Σ αυτή που έχει µια ιδιότητα που µαςενδιαφέρεικαισεαυτήπουδενέχει (βλ. ιωνυµική Κατανοµή). Ρ= η αναλογία (%) του χαρακτηριστικού που µας ενδιαφέρειστονπληθυσµό (µε Q=1-Ρ) p= η αναλογία (%) όπως προκύπτει από ένα δείγµατουπληθυσµούµεγέθους n (µε q=1-p) n= το µέγεθος του δείγµατος x i = µιατιµήτουδείγµατος (µπορείναέχειδύο µόνοτιµές: x i = 1, ανηπαρατήρηση iέχειτην ιδιότηταπουµαςενδιαφέρεικαι x i = 0, ανδεντην έχει). 22 11
->Λήψη αποφάσεων για ποσοστά πληθυσµών Θαέχουµε: Αλλά ο συγκεκριµένος µέσος όρος εκφράζει την αναλογία (%) της ιδιότητας που µας ενδιαφέρει στο δείγµα. ηλαδή ταυτίζεται εννοιολογικά µε το p. Εποµένως, ο µέσος όρος όλων των δειγµάτων µεγέθους n (δηλαδή ό µέσος όρος της δειγµατοληπτικής κατανοµής) θα ταυτίζεται µε την αναλογία του πληθυσµού Ρ, και θα έχει τυπική απόκλισησ p (κατάτοκεντρικόοριακόθεώρηµα): 23 ->Λήψη αποφάσεων για ποσοστά πληθυσµών Στην πράξη αντί του Ρ και Q χρησιµοποιούµε το p και q ενός δείγµατος, οπότε έχουµε ότι: Το κριτήριο z είναι: ΌπουΖ α/2 και t α/2 δίνονταιαπόπίνακες (και εξαρτώνται από το επίπεδο σηµαντικότητας α). Το (µέγιστο) σφάλµα εκτίµησης είναι: 24 12
->Λήψη αποφάσεων για ποσοστά πληθυσµών Το µέγεθος του δείγµατος (n), δίνεται από την προηγούµενη σχέση αν θέσουµε: 25 ->Λήψη αποφάσεων για ποσοστά πληθυσµών Για την περίπτωση ελέγχου της σηµαντικότητας διαφοράςδύοποσοστών p 1 και p 2 µεγάλων δειγµάτωνµεγέθους n 1 και n 2, ηµηδενικήυπόθεση είναι ότι τα δείγµατα προέρχονται από τον ίδιο πληθυσµό. Η καλύτερη εκτίµηση του ποσοστού του πληθυσµού είναι: Το τυπικό σφάλµα: ΤοκριτήριοΖδίνεταιαντίστοιχααπότησχέση: 26 13
Παράδειγµα Το ποσοστό των ελαττωµατικών προϊόντων σε ένα τυχαίο δείγµα 100 τεµαχίων είναι 15%. Να βρεθεί το διάστηµα που βρίσκεται το αντίστοιχο ποσοστό στον πληθυσµό των προϊόντων (δηλ. στο σύνολο των παραχθέντων προϊόντων), σε επίπεδο σηµαντικότητας 5%. n = 100 p= 0.15 q= 1-0.15 = 0.85 α = 5%, z α/2 =1.96 Άρα: ΤοζητούµενοδιάστηµατουΡείναι: p- z α/2 *σ p <Ρ<p+ z α/2 *σ p 0.15-1.96*(0.036) <Ρ< 0.15 +1.96*(0.036) 0.15-0.069 <Ρ< 0.15 + 0.0690 081 <Ρ< 0.219 27 Παράδειγµα ύο φαρµακευτικά παρασκευάσµατα δίνονται σε δύο διαφορετικές οµάδες πειραµατόζωων, Α και Β. Από τυχαία δειγµατοληψίακαιστιςδυοοµάδες, βρέθηκεότι: από 80 πειραµατόζωα της Α οµάδας τα 60 αντέδρασαν θετικά (επιτυχία) στο παρασκεύασµα. Οµοίως για τη δεύτερη οµάδα από 100 πειραµατόζωα αντέδρασαν θετικά τα 70. Να ελεγχθεί αν υπάρχει διαφορά µεταξύ των παρασκευασµάτων σε επίπεδο σηµαντικότητας 5%. Απάντηση: Επειδή η κατανοµή είναι ιωνυµική και τα np και nq είναι µεγαλύτερα του 5 για κάθε ένα από τα δύο δείγµατα µπορούµε να χρησιµοποιήσουµε ως προσέγγιση της, την Κανονική Κατανοµή. Η µηδενική υπόθεση είναι ότι: Η 0 : p 1 = p 2 (δενυπάρχειδιαφορά), γιαα=0.05. 28 14
->Παράδειγµα Η εκτίµηση για το ποσοστό του (ενιαίου) πληθυσµού είναι: Άρα, q = 0.28 αποτυχία Επίσης, p 1 =60/80=0.75 και p 2 =70/100=0.70 Οπότε Και Z=(0.75-0.70)/0.067=0.746 Η τιµή αυτή (Ζ= 0.746), δεν είναι σηµαντική σε επίπεδο α=5%. Άρα δεν µπορούµε να απορρίψουµε την υπόθεση ότι δεν υπάρχει διαφορά στα δύο παρασκευάσµατα. 29 Κατανοµή x 2 Σύγκριση ποσοστών διαφόρων κατηγοριών Εάν µια (ποιοτική) µεταβλητή x1 µετρά µια ιδιότητα (π.χ. συνήθειακαπνίσµατος) γιασυγκεκριµένες κατηγορίεςµιαςάλληςµεταβλητής x2, (π.χ. φύλο: άνδρες-γυναίκες), τότε µπορούµε να ελέγξουµε αν υπάρχει σχέση µεταξύ τους ή όχι. Για παράδειγµα έστω ο ακόλουθος πίνακας σαν αποτέλεσµα τυχαίας δειγµατοληψίας 500 ατόµων: 30 15
->Παράδειγµα x 2 Στονανωτέρωπίνακαέχουµεέναδείγµα 300 ανδρώνκαι 200 γυναικών. Επίσης έχουµε τις συνήθειες καπνίσµατος ταξινοµηµένες σε 6 κατηγορίες. Για κάθε κατηγορία καπνίσµατος έχουµε το σύνολο του δείγµατος (π.χ. για την κατηγορία "1-10" έχουµε 50 άτοµα. Αν δεν υπάρχει συσχέτιση µεταξύ καπνίσµατος και φύλου, οι αναµενόµενες συχνότητες για άνδρες και γυναίκες θα πρέπει να είναι ίδιες µε αυτήτουσυνόλου (π.χ. στηνκατηγορία "1-10" τοσύνολο 50 αντιπροσωπεύει το 10% του γενικού συνόλου 500. Άρα θα είχαµε αντίστοιχα 30 άνδρες και 20 γυναίκες που είναι αντίστοιχα το 10% των 300 και 200). Έτσι µπορούµε να συµπληρώσουµε τα άδεια τετραγωνάκια του προηγούµενου πίνακα µε τις (θεωρητικές) "αναµενόµενες" συχνότητες ανδρών γυναικών µε βάση την υπόθεση: Η 0 : ενυπάρχειδιαφοράστιςκατηγορίεςσυνήθειας καπνίσµατος µεταξύ ανδρών και γυναικών. 31 ->Παράδειγµα x 2 Αν τώρα οι "παρατηρηθείσες" δηλ. οι πραγµατικές τιµές διαφέρουν από τις αναµενόµενες τότε χρησιµοποιούµε, σαν κριτήριο στατιστικής σηµαντικότητας των διαφορών, τιςτιµέςτηςµεταβλητής x 2 που δίνονται από τη σχέση: 32 16
->Παράδειγµα x 2 Όπου: Α= αναµενόµενη (θεωρητική) τιµή Π= παρατηρηθείσα τιµή για κάθε τετραγωνάκι (κατηγορία) Σ= τοάθροισµαόλωντων [(Π-Α) 2 /Α] γιαόλεςτιςκατηγορίες ΟικρίσιµεςτιµέςτηςµεταβλητήςΧ 2 δίνονταισεπίνακεςγια διάφορα επίπεδα σηµαντικότητας και βαθµούς ελευθερίας και είναι µόνο µίας πλευράς. Για έναν πίνακα µε r γραµµές και c στήλες, ο βαθµός ελευθερίας είναι (r-1)*(c-1). Για το προηγούµενοπαράδειγµα: r=2, c=6 είναιβ.ε=(2-1) (6-1)=5. ΤοκριτήριοΧ 2 µπορείναχρησιµοποιηθείκατ' ανάλογο τρόπο, για να ελεγχθεί αν οι παρατηρούµενες τιµές ενός φαινοµένου διαφέρουν σηµαντικά ή όχι από αυτές που θα έδινε κάποια θεωρητική κατάσταση. 33 Κατανοµή F Σύγκριση των διακυµάνσεων δυο πληθυσµών Θεωρώντας ότι οι δυο ελεγχόµενοι πληθυσµοί προσεγγίζουν αρκετά την κανονική κατανοµή και ότι οι διακυµάνσεις τους (δειγµατικές από δείγµατα µεγέθους n 1, και n 2 αντίστοιχα) είναι S 12 και S 2 2 ελέγχουµετηνυπόθεση S 12 / S 22 = 1 (δηλαδήότιοι διακυµάνσειςτωνπληθυσµώνδενδιαφέρουν) Ηκατανοµή Fείναιτοκριτήριοτουελέγχουγιατη σύγκριση των διακυµάνσεων δυο πληθυσµών και ορίζεται σαν το πηλίκο των δύο δειγµατικών διακυµάνσεων S 12 και S 2 2 34 17
Κατανοµή F Σύγκριση των διακυµάνσεων δυο πληθυσµών Εάν υποτεθεί ότι τα (ανεξάρτητα µεταξύ τους) τυχαία δείγµατα έχουν ληφθεί από πληθυσµούς που δεν διαφέρουν σηµαντικά ως προς την διακύµανση, τότε το F θα προσεγγίζει τη µονάδα. Οι "κρίσιµες τιµές" του F για διάφορα επίπεδα σηµαντικότητας εξαρτώνται από τους βαθµούς ελευθερίας των δύο δειγµάτων. (Η µεγαλύτερη διακύµανση τίθεται πάντα στον αριθµητή). Εάνηυπολογιζόµενητιµήτου Fγιαδύοδείγµαταείναι µεγαλύτερη της κρίσιµης, για κάποιο επιθυµητό επίπεδο σηµαντικότητας α (και για δύο δεδοµένους βαθµούς ελευθερίας n 1-1, και n 2-1) τότεµπορούµεναπούµεµε σιγουριά (1-α) ότι οι διακυµάνσεις των δυο ελεγχόµενων πληθυσµών διαφέρουν στατιστικά σηµαντικά. 35 18