14. Έλεγχος Χ 2 (καλής προσαρμογής, ανεξαρτησίας και ομογένειας)

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "14. Έλεγχος Χ 2 (καλής προσαρμογής, ανεξαρτησίας και ομογένειας)"

Transcript

1 Έλεγχος Χ 4. Έλεγχος Χ (καλής προσαρμογής, ανεξαρτησίας και ομογένειας Από διασταύρωση ορισμένου είδους πειραματόζωων προκύπτουν τρεις τύποι απογόνων, Α, Β και Γ. Στο πλαίσιο ενός πειράματος, από μια τέτοια διασταύρωση, προέκυψαν 64 απόγονοι από τους οποίους 4 βρέθηκαν να είναι τύπου Α, τύπου Β και τύπου Γ. Σύμφωνα με ένα μοντέλο κληρονομικότητας, οι τρεις τύποι απογόνων πρέπει να βρίσκονται σε αναλογία 9::4, αντίστοιχα. Στο Παράδειγμα 6.., είδαμε ότι αν δεχθούμε ότι το συγκεκριμένο μοντέλο κληρονομικότητας πράγματι περιγράφει την αναλογία απογόνων από μια τέτοια διασταύρωση, τότε από 64 απογόνους αναμένουμε τύπου Α να είναι οι 6, τύπου Β οι και τύπου Γ οι 6. Παρατηρείστε ότι οι αναμενόμενες (με βάση το μοντέλο κληρονομικότητας συχνότητες εμφάνισης των τριών τύπων απογόνων (6, και 6, αντίστοιχα διαφέρουν από τις αντίστοιχες συχνότητες που παρατηρήσαμε στο πείραμα (4, και, αντίστοιχα. Άραγε, αυτές οι διαφορές μεταξύ παρατηρηθέντων και αναμενόμενων συχνοτήτων, είναι στατιστικά σημαντικές; Μας δίνουν δηλαδή στατιστικά σημαντικές αποδείξεις ότι το μοντέλο κληρονομικότητας δεν περιγράφει ικανοποιητικά την αναλογία των απογόνων που προκύπτουν από μια τέτοια διασταύρωση; ταξινόμηση ενός απογόνου σε (ακριβώς έναν από τρεις τύπους απογόνων (τύπος Α, τύπος Β, τύπος Γ είναι μια πολυωνυμική δοκιμή με δυνατά αποτελέσματα και επομένως πρόκειται για ένα πείραμα ν 64 ανεξάρτητων πολυωνυμικών δοκιμών. Το πρόβλημα που τίθεται είναι προφανώς ένα πρόβλημα στατιστικού ελέγχου υποθέσεων για τις πιθανότητες (ποσοστά εμφάνισης των τιμών μιας ποιοτικής τυχαίας μεταβλητής (είδος απογόνου. Ανάλογες περιπτώσεις στατιστικών ελέγχων που ήδη γνωρίσαμε (θυμηθείτε τον έλεγχο για διωνυμικό ποσοστό, αναφέρονται βέβαια σε ποιοτικές μεταβλητές, αλλά με δύο μόνο δυνατές τιμές, επιτυχία/αποτυχία, (περιγράφουν δοκιμές Bernoull, όπως «συμφωνία με συγκεκριμένη άποψη» με τιμές, ναι, όχι «φύλο ασθενούς» με τιμές, άνδρας, γυναίκα «αποτέλεσμα διαγνωστικού test» με τιμές, θετικό, αρνητικό «ποιότητα προϊόντος» με τιμές, αποδεκτό, ελαττωματικό «αποτέλεσμα θεραπευτικής αγωγής» με τιμές, θεραπεύθηκε, δε θεραπεύθηκε «τύπος απογόνου από ορισμένη διασταύρωση» με τιμές, τύπου Α, όχι τύπου Α «γονότυπος παιδιού» με τιμές, Αα, όχι Αα «ποσότητα φυτικών ινών ανά μερίδα δημητριακών» με τιμές, < 5gr, 5gr. Σε αυτή την ενότητα, θα γνωρίσουμε τους ελέγχους Χ που όπως θα διαπιστώσουμε, μας επιτρέπουν να κάνουμε στατιστικούς ελέγχους που αφορούν πειράματα επαναλαμβανόμενων ανεξάρτητων πολυωνυμικών δοκιμών. Έτσι, θα μπορούμε πλέον να αποφασίζουμε για τη στατιστική σημαντικότητα πειραματικών ή δειγματοληπτικών δεδομένων που αναφέρονται σε ποιοτικές μεταβλητές όπως «ομάδα αίματος ασθενούς» με τιμές, Α, Β, ΑΒ, Ο «γονότυπος παιδιού» με τιμές, ΑΑ, Αα, αα «αποτέλεσμα φαρμακευτικής αγωγής» με τιμές, θετικό, θετικό με παρενέργειες, αρνητικό «στάση απέναντι στην απαγόρευση του καπνίσματος σε δημόσιους χώρους» με τιμές, πολύ αρνητική, αρνητική, αδιάφορη, θετική, πολύ θετική «οικογενειακή κατάσταση» με τιμές, παντρεμένος/η, άγαμος/η, διαζευγμένος/η, χήρος/α Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 47

2 Έλεγχος Χ «προτίμηση μεταξύ τριών υποψηφίων» με τιμές, υποψήφιος-α, υποψήφιος-β, υποψήφιος-γ, λευκό, άκυρο, αποχή «απάντηση σε αίτηση» με τιμές, θετική, θετική υπό προϋποθέσεις, αρνητική «αντίδραση πειραματόζωου σε συγκεκριμένο ερέθισμα» με τιμές, πολύ επιθετική συμπεριφορά, επιθετική συμπεριφορά, αδιάφορο «ποιότητα παραγόμενου προϊόντος» με τιμές, αποδεκτό, β διαλογής, ελαττωματικό «γραμμή παραγωγής προϊόντος» με τιμές, Γραμμή-, Γραμμή-, Γραμμή-, Γραμμή-4 ή σε ποσοτικές μεταβλητές των οποίων οι τιμές έχουν ταξινομηθεί σε κατηγορίες/κλάσεις, όπως «συστολική πίεση» με τιμές, χαμηλή, φυσιολογική, υψηλή «δείκτης μάζας σώματος» με τιμές, λιποβαρής, φυσιολογικό βάρος, υπέρβαρος/η, παχύσαρκος/η «διάμετρος διατομής σωλήνα» με τιμές, εντός προδιαγραφών, μικρότερη από την κατώτερη αποδεκτή τιμή, μεγαλύτερη από την ανώτερη αποδεκτή τιμή «βαθμός πτυχίου» με τιμές, καλώς, λίαν καλώς, άριστα ή σε διακριτές ποσοτικές μεταβλητές, όπως «αριθμός παιδιών οικογένειας» με τιμές,,,,, ν «αριθμός βακτηριδίων ανά cm μιας πλάκας Petr» με τιμές,,,,, ν «αριθμός ελαττωματικών προϊόντων ανά παρτίδα» με τιμές,,,,, ν «αριθμός δόσεων αντιγριπικού εμβολίου που έκανε ένα άτομο» με τιμές,,,. Τα δεδομένα που προκύπτουν από επαναλαμβανόμενες πολυωνυμικές δοκιμές συνοψίζονται και παρουσιάζονται σε ένα πίνακα κατανομής συχνοτήτων. Έτσι, στο παράδειγμά μας δίνεται ότι στις ν 64 επαναλήψεις, η συχνότητα εμφάνισης της τιμής τύπος Α είναι ν 4, η συχνότητα εμφάνισης της τιμής τύπος Β είναι ν και η συχνότητα εμφάνισης της τιμής Γ είναι ν. Παρατηρηθείσα συχνότητα Τύπος απογόνου Α Β Γ 4 Το ζητούμενο είναι να ελέγξουμε αν αυτές οι συχνότητες που παρατηρήθηκαν στο δείγμα, συμφωνούν με το θεωρητικό μοντέλο κληρονομικότητας, δηλαδή, αν συμφωνούν με τις αναμενόμενες, με βάση το θεωρητικό μοντέλο, συχνότητες, E 6, E, 6 E, αντίστοιχα. Αν p η πιθανότητα ένας απόγονος από μια τέτοια διασταύρωση να είναι τύπου Α, p η πιθανότητα ένας απόγονος να είναι τύπου Β και p η πιθανότητα ένας απόγονος να είναι τύπου Γ, τότε, σύμφωνα με το μοντέλο κληρονομικότητας, είναι p 9 6, p 6 και p 4 6. Είναι προφανές, ότι πρέπει να κάνουμε τον έλεγχο της μηδενικής υπόθεσης : p 9 6 και p 6 και p 4 6 έναντι της εναλλακτικής, : p 9 6 ή p 6 ή p 4 6. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 47

3 Έλεγχος Χ Πρέπει, δηλαδή, να ελέγξουμε αν τα συγκεκριμένα πειραματικά δεδομένα συμφωνούν με το μοντέλο κληρονομικότητας, ή αλλιώς, αν η εμπειρική κατανομή συχνοτήτων ν 4, ν, ν προσαρμόζεται στη θεωρητική κατανομή συχνοτήτων E 6, E, 6 E που αναμένεται/προκύπτει από την υποθετική/θεωρητική κατανομή πιθανοτήτων (θεωρητικό μοντέλο κληρονομικότητας, p 9 6, p 6, 6 p 4. Ο έλεγχος X με τον οποίο κάνουμε έναν τέτοιο έλεγχο υποθέσεων, ονομάζεται έλεγχος Χ καλής προσαρμογής. Στην ενότητα αυτή θα γνωρίσουμε, επίσης, τον έλεγχο Χ ανεξαρτησίας, που μας επιτρέπει να απαντάμε σε προβλήματα όπως το ακόλουθο, που αφορούν στον έλεγχο της ανεξαρτησίας δύο χαρακτηριστικών/μεταβλητών. Στο πλαίσιο της έρευνας που γίνεται για την πρόληψη της γρίπης, έγινε μια μελέτη για να ελεγχθεί η αποτελεσματικότητα ενός νέου αντιγριπικού εμβολίου το οποίο χορηγείται σε δύο δόσεις. Σε χίλιους τυχαία επιλεγμένους κατοίκους μιας περιοχής δόθηκε η δυνατότητα να κάνουν το εμβόλιο δωρεάν και εθελοντικά. Για κάθε κάτοικο, η ερευνητική ομάδα κατέγραψε πόσες δόσεις του εμβολίου έκανε (καμία, μία ή δύο και αν αρρώστησε ή όχι από τη γρίπη. Αριθμός δόσεων Αρρώστησε 4 9 Ανθεκτικότητα Δεν αρρώστησε Αυτά τα δεδομένα, δίνουν άραγε στατιστικά σημαντικές αποδείξεις ότι η ανθεκτικότητα των κατοίκων στον ιό της γρίπης εξαρτάται από τον αριθμό των δόσεων αντιγριπικού εμβολίου που έκαναν; Τέλος, θα δούμε πώς μπορούμε να διατυπώσουμε και να κάνουμε έναν έλεγχο Χ ομογένειας για να ελέγξουμε αν δύο ή περισσότεροι πληθυσμοί είναι ομογενείς ως προς κάποιο χαρακτηριστικό/μεταβλητή. Ας δούμε ένα παράδειγμα. Ταξινομήσαμε τους ενήλικες κατοίκους ( 8 ετών μιας περιοχής σε πέντε ηλικιακές ομάδες, 8-4, 5-4, 5-49, 5-64 και 65, και από κάθε ομάδα επιλέξαμε (με βάση ένα σχέδιο τυχαίας δειγματοληψίας, 9,,, και 7 κατοίκους, αντίστοιχα. Ρωτήσαμε καθέναν από τους κατοίκους που επιλέξαμε πόσους καφέδες καταναλώνει ημερησίως, και τις απαντήσεις που πήραμε τις ταξινομήσαμε σε τρεις κατηγορίες: λιγότερους από τρεις, ακριβώς τρεις, περισσότερους από τρεις. Τα δεδομένα που προέκυψαν από τις απαντήσεις που πήραμε, φαίνονται στον πίνακα που ακολουθεί. Ηλικιακή ομάδα Ημερήσια Λιγότερους από κατανάλωση Ακριβώς καφέ Περισσότερους από Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 47

4 Έλεγχος Χ Με βάση τα συγκεκριμένα δεδομένα, να ελέγξετε αν οι πέντε ηλικιακές ομάδες είναι ομογενείς ως προς την ημερήσια κατανάλωση καφέ, δηλαδή, αν το ποσοστό των ενηλίκων που πίνουν λιγότερους από τρεις καφέδες ημερησίως, και αντίστοιχα, το ποσοστό των ενηλίκων που πίνουν τρεις καφέδες ημερησίως και το ποσοστό των ενηλίκων που πίνουν περισσότερους από τρεις καφέδες ημερησίως, είναι ίδιο στις πέντε ηλικιακές ομάδες. Όπως θα διαπιστώσουμε στη συνέχεια, αυτό που ελέγχεται και στις τρεις περιπτώσεις ελέγχων X, είναι η στατιστική σημαντικότητα των αποκλίσεων (διαφορών μεταξύ συχνοτήτων που παρατηρήθηκαν στο δείγμα και συχνοτήτων που αναμένονται με βάση τη μηδενική υπόθεση. Δηλαδή, και στις τρεις περιπτώσεις, η λογική του ελέγχου X είναι ίδια. Ας δούμε όμως τώρα με μεγαλύτερη λεπτομέρεια αυτούς τους πράγματι ενδιαφέροντες, και με πολλές εφαρμογές, ελέγχους. 4. Έλεγχος Χ καλής προσαρμογής (ch-square goodness-of-ft test Συχνά μας ενδιαφέρει να ελέγξουμε αν τα δεδομένα μας συμφωνούν ή όχι με κάποιο μοντέλο πιθανοτήτων. Για παράδειγμα, Τα πειραματικά δεδομένα που έχουμε στη διάθεσή μας για τέσσερα είδη απογόνων που προέκυψαν από μια διασταύρωση φυτών, συμφωνούν άραγε με το μοντέλο κληρονομικότητας του Mendel, δηλαδή, υποστηρίζουν ότι η αναλογία των τεσσάρων ειδών απογόνων είναι 9:::, ή αλλιώς, υποστηρίζουν ότι τα ποσοστά των τεσσάρων ειδών απογόνων, αντίστοιχα, είναι p 9 6, p 6, 6 p, p 4 6 ; Με βάση τα δεδομένα που προέκυψαν από μια έρευνα γνώμης, οι καταναλωτές δείχνουν την ίδια προτίμηση για τα πέντε υποψήφια ονόματα ενός νέου προϊόντος ή οι προτιμήσεις τους διαφέρουν. Δηλαδή, οι πιθανότητες με τις οποίες επιλέγονται από τους καταναλωτές τα 5 υποψήφια ονόματα περιγράφονται από το μοντέλο πιθανοτήτων p p p p4 p5 5; Τα εργαστηριακά δεδομένα που έχουμε στη διάθεσή μας για τον αριθμό βακτηριδίων ανά cm μιας πλάκας Petr, υποστηρίζουν άραγε ότι ο αριθμός των βακτηριδίων ανά cm ακολουθεί μια κατανομή Posson με μέσο βακτηρίδια ανά cm ; Το τυχαίο δείγμα 8 τιμών συγκέντρωσης υδραργύρου στο συκώτι αρσενικών δελφινιών, με βάση το οποίο θέλουμε να κατασκευάσουμε ένα διάστημα εμπιστοσύνης για τη μέση συγκέντρωση υδραργύρου στο συκώτι αρσενικών δελφινιών, προέρχεται άραγε από κάποια κανονική κατανομή ή μήπως δε μπορούμε να κάνουμε μια τέτοια υπόθεση/παραδοχή; Οι στατιστικοί έλεγχοι υποθέσεων που βοηθούν να δώσουμε μια απάντηση σε τέτοια ερωτήματα, ονομάζονται έλεγχοι καλής προσαρμογής (goodness-of-ft tests. Δηλαδή, οι έλεγχοι καλής προσαρμογής μας δίνουν τη δυνατότητα να ελέγξουμε αν μια κατανομή πιθανοτήτων συμφωνεί/προσαρμόζεται σε ένα δείγμα. Από τους πλέον γνωστούς και ευρέως χρησιμοποιούμενους είναι ο έλεγχος Χ καλής προσαρμογής (ch-square goodness-of-ft test τον οποίο παρουσιάζουμε στη συνέχεια. Ένας ακόμη πολύ γνωστός και ευρέως χρησιμοποιούμενος έλεγχος καλής προσαρμογής είναι ο έλεγχος Kolmogorov-Smrnov. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 474

5 Έλεγχος Χ Από πιθανοθεωρητική σκοπιά, όλες οι προηγούμενες περιπτώσεις μεταβλητών, ποιοτικές, όπως «είδος απογόνου» ή «προτίμηση ονόματος προϊόντος», διακριτές, όπως «αριθμός βακτηριδίων ανά cm μιας πλάκας Petr» και ποσοτικές των οποίων οι τιμές ταξινομούνται σε κλάσεις, όπως «συγκέντρωση υδραργύρου στο συκώτι δελφινιών» με τιμές που ταξινομούνται, για παράδειγμα, στις κλάσεις < 8, [ 8, 7, [ 7, 6 και 6, αντιμετωπίζονται με ενιαίο τρόπο ως μεταβλητές που περιγράφουν πολυωνυμικές δοκιμές με, αμοιβαίως αποκλειόμενα, δυνατά αποτελέσματα. Επίσης, προβλήματα όπως τα προηγούμενα, που αναφέρονται σε πειραματικά δεδομένα τα οποία ταξινομούνται σε ξένες μεταξύ τους κατηγορίες, r, r, K, r, είναι προφανώς προβλήματα ανεξάρτητων επαναλήψεων μιας πολυωνυμικής δοκιμής. Ας συμβολίσουμε με p,,, την πιθανότητα μια παρατήρηση κατά την εκτέλεση μιας πολυωνυμικής δοκιμής να ταξινομηθεί στην κατηγορία r. Αν οι πιθανότητες αυτές μας είναι γνωστές, τότε, όπως είδαμε στο Α Μέρος, η πιθανότητα, σε ν ανεξάρτητες πολυωνυμικές δοκιμές να εμφανισθούν ν αποτελέσματα r, ν αποτελέσματα r, και ν αποτελέσματα r, ή αλλιώς, η πιθανότητα τα αποτελέσματα r, r, K, r να εμφανισθούν με συχνότητες ν, ν, K, ν αντίστοιχα, μας είναι γνωστή και ίση με ν! ν ν ν p p K p. ν! ν! K ν! Θυμηθείτε ότι αν X (,, τυχαία μεταβλητή που εκφράζει τη συχνότητα εμφάνισης του αποτελέσματος r σε ν ανεξάρτητες επαναλήψεις μιας πολυωνυμικής δοκιμής που έχει δυνατά αποτελέσματα, τότε το μοντέλο πιθανοτήτων που ακολουθεί η τυχαία μεταβλητή X, X, K, X μας είναι γνωστό, ονομάζεται ( p πολυωνυμική κατανομή με παραμέτρους ν, p,, K, p και ισχύει ότι ν! ν ν P( X ν, X ν, X ν p p K p ν! ν! K ν! με ν ν και p. Ισχύει επίσης, ότι για κάθε αποτέλεσμα (ή κατηγορία r, η αναμενόμενη συχνότητα εμφάνισής του σε ν δοκιμές είναι E( X E νp. Επομένως, από τη σκοπιά της Θεωρίας Πιθανοτήτων, αν οι πιθανότητες p, p, K, p μας είναι γνωστές, τότε η πιθανότητα, σε ν ανεξάρτητες πολυωνυμικές δοκιμές να εμφανισθεί η κατανομή συχνοτήτων ( ν, ν, K, ν μας είναι γνωστή. ν ή δειγματοληπτικά και δημοσκοπικά δεδομένα. παρότι προκύπτουν προφανείς υπολογιστικές δυσκολίες Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 475

6 Έλεγχος Χ Από τη σκοπιά της Στατιστικής, όπου αφετηρία μας είναι το δείγμα, το αντίστοιχο ζητούμενο είναι ο έλεγχος των παραμέτρων p, p, K, p (μιας πολυωνυμικής κατανομής με βάση ένα δείγμα που έχουμε στη διάθεσή μας. Έστω λοιπόν ότι έχουμε στη διάθεσή μας ένα δείγμα ν παρατηρήσεων από τις οποίες ν ταξινομούνται στην κατηγορία r, ν στην κατηγορία r,, και ν στην κατηγορία r, ή αλλιώς, έστω ότι σε ν ανεξάρτητες επαναλήψεις μιας πολυωνυμικής δοκιμής, παρατηρήσαμε ότι τα αποτελέσματα r, r, K, r εμφανίσθηκαν με συχνότητες ν, ν, K, ν, αντίστοιχα. Τι μπορούμε άραγε να πούμε, με βάση αυτή την εμπειρική κατανομή συχνοτήτων, για τις πιθανότητες p, p, K, p εμφάνισης των αποτελεσμάτων r, r, K, r, αντίστοιχα. Προκύπτουν από κάποιο μοντέλο (κατανομή πιθανοτήτων που υποθέτουμε (και θέτουμε ως μηδενική υπόθεση ή μήπως ακολουθούν κάποιο άλλο μοντέλο; Το υποθετικό μοντέλο πιθανοτήτων (η κατανομή πιθανοτήτων που θέτουμε ως μηδενική υπόθεση και θέλουμε να ελέγξουμε αν συμφωνεί/προσαρμόζεται στα πειραματικά δεδομένα που έχουμε στη διάθεσή μας, μπορεί να είναι τελείως ορισμένο, δηλαδή μπορεί να μην υπάρχουν άγνωστες παράμετροι, όπως στο παράδειγμα προηγουμένως που αναφέρεται στο μοντέλο κληρονομικότητας του Mendel όπου p 9 6, p 6, 6 p, p 4 6, ή όπως στο παράδειγμα που αναφέρεται στην προτίμηση ονόματος νέου προϊόντος όπου p p p p4 p5 5, ή όπως στο παράδειγμα που αναφέρεται στον αριθμό βακτηριδίων (ανά cm μια πλάκας Petr όπου p e.5, p e. 76, p e. 76, κ.ο.κ.,!!! όμως, μπορεί να υπάρχουν κάποιες άγνωστες παράμετροι που πρέπει να εκτιμηθούν, όπως στο παράδειγμα με τη συγκέντρωση υδραργύρου στο συκώτι δελφινιών. Στο παράδειγμα αυτό, ως μηδενική υπόθεση θέτουμε ότι η συγκέντρωση υδραργύρου ακολουθεί μια κανονική κατανομή χωρίς όμως να προσδιορίζονται οι παράμετροι της, μ και σ. Είναι προφανές, ότι για να υπολογίσουμε, υπό τη μηδενική υπόθεση, τις πιθανότητες p, p, p, p4, δηλαδή, για να υπολογίσουμε τις πιθανότητες μια τιμή της συγκέντρωσης υδραργύρου να ανήκει αντίστοιχα στην κλάση < 8, [ 8, 7, [ 7, 6 και 6 υπό την προϋπόθεση ότι η συγκέντρωση υδραργύρου ακολουθεί κανονική κατανομή, πρέπει να γνωρίζουμε τις παραμέτρους της, μ και σ. Ας διακρίνουμε λοιπόν αυτές τις δύο περιπτώσεις. 4.. Δεν υπάρχουν άγνωστες παράμετροι Στην περίπτωση που δεν υπάρχουν άγνωστες παράμετροι, οι πιθανότητες p, p, K, p εμφάνισης των αποτελεσμάτων r, r, K, r αντίστοιχα, μπορούν να προσδιορισθούν. Έτσι, κάνουμε τον έλεγχο της μηδενικής υπόθεσης : p p, p p,, p p έναντι της εναλλακτικής, Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 476

7 Έλεγχος Χ : p p για ένα τουλάχιστον,,, όπου p, p, K, p είναι γνωστές πιθανότητες (γνωστοί αριθμοί, με p για κάθε,,, και p. Ως στατιστική συνάρτηση ελέγχου (ελεγχοσυνάρτηση χρησιμοποιείται η στατιστική συνάρτηση Χ (Pearson s ch-square test statstc που προτάθηκε από τον Κarl Pearson το 9, και ορίζεται από τον τύπο ( O E X E όπου, O, O, K, O είναι οι παρατηρηθείσες συχνότητες (observed frequences των αποτελεσμάτων r, r, K, r αντίστοιχα, και E, E, K, E είναι οι αντίστοιχες αναμενόμενες συχνότητες (expected frequences με βάση τη μηδενική υπόθεση, ή αλλιώς, υπό την προϋπόθεση ότι η μηδενική υπόθεση είναι αληθής, δηλαδή, E νp. Με την παραδοχή ότι η μηδενική υπόθεση είναι αληθής, αποδεικνύεται (δες και Παρατήρηση 4.. ότι η τυχαία μεταβλητή X, για μεγάλα ν ακολουθεί μια χ κατανομή με βαθμούς ελευθερίας, δηλαδή, για μεγάλα ν, κατά προσέγγιση έχουμε X ~ χ. Για να διασφαλίζεται ότι το μέγεθος του δείγματος ν (ο αριθμός επαναλήψεων είναι αρκετά μεγάλο ώστε η προσέγγιση αυτή να είναι ικανοποιητική, πρέπει όλες οι αναμενόμενες συχνότητες να είναι μεγαλύτερες ή ίσες του 5, δηλαδή, πρέπει E ν p 5, για κάθε,,. Ο κανόνας αυτός είναι αρκετά συντηρητικός/αυστηρός, με την έννοια ότι έχει προταθεί και ο εξής λιγότερο αυστηρός 4 : η προσέγγιση της X από την χ μπορεί να θεωρηθεί ικανοποιητική αν όλες οι αναμενόμενες συχνότητες είναι μεγαλύτερες του, δηλαδή, αν E ν p > για κάθε,,, και μικρότερες του 5 είναι το πολύ % από αυτές. Για τη συνέχεια, προκειμένου να υπάρχει μεγαλύτερη ασφάλεια στη χρήση αυτής της προσέγγισης, υιοθετούμε τον πρώτο κανόνα/περιορισμό, δηλαδή απαιτούμε E ν p 5 για κάθε. Παρατηρείστε ότι η ελεγχοσυνάρτηση X, ποσοτικοποιεί (με ορισμένο τρόπο τις αποκλίσεις (διαφορές μεταξύ παρατηρηθέντων και αναμενόμενων συχνοτήτων. Όταν οι αποκλίσεις αυτές (ή κάποιες από αυτές είναι μεγάλες, τότε και η X παίρνει μεγάλες τιμές. Έτσι, είναι λογικό, η μηδενική υπόθεση να απορρίπτεται για μεγάλες τιμές της X. Πράγματι, σύμφωνα με τον έλεγχο X καλής προσαρμογής, έχουμε: 4 Προτάθηκε από τον Cochran. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 477

8 Έλεγχος Χ Σε επίπεδο σημαντικότητας α, η μηδενική υπόθεση : p p, p p,, p p απορρίπτεται έναντι της εναλλακτικής : p p για ένα τουλάχιστον,,, αν ( O E X χ ; α E και εφόσον E ν p 5, για κάθε,,. Η κρίσιμη τιμή, χ ; α, του ελέγχου, είναι το άνω α -ποσοστιαίο σημείο της χ κατανομής με βαθμούς ελευθερίας, δηλαδή, με τόσους βαθμούς ελευθερίας, όσες οι διαφορετικές κατηγορίες μειωμένες κατά. Αν δεν είναι όλες οι αναμενόμενες συχνότητες μεγαλύτερες ή ίσες του 5, δηλαδή, αν για κάποιο ή κάποια, είναι E ν p < 5, τότε κάνουμε κατάλληλη σύμπτυξη των κατηγοριών. Σημείωση 4..: Είναι προφανές ότι O ν. Δηλαδή, μια συγκεκριμένη πραγματοποίηση της τυχαίας μεταβλητής X (που εκφράζει τη συχνότητα εμφάνισης του αποτελέσματος r σε ν ανεξάρτητες επαναλήψεις, στο εξής θα τη συμβολίζουμε με O. Έτσι, τις παρατηρηθείσες συχνότητες, αντί με ν, ν, K, ν που τις συμβολίζαμε μέχρι τώρα, στο εξής (για να αντιδιαστέλλονται καλύτερα από τις αναμενόμενες, θα τις συμβολίζουμε με O, O, K, O. Στην ελληνική βιβλιογραφία, πολύ συχνά οι παρατηρηθείσες συχνότητες συμβολίζονται με π και οι αναμενόμενες με θ, όμως προτιμήσαμε τον επικρατέστερο διεθνή συμβολισμό που είναι O και E, αντίστοιχα. Επίσης, διευκρινίζουμε ότι λέγοντας τυχαία μεταβλητή μεταβλητή ( X νp X. νp Η ποσότητα ( O E E συνηθίζεται, βέβαια, να συμβολίζεται επίσης με αλλά συγκεκριμένη πραγματοποίηση της X νp ( νp X, εννοούμε την τυχαία X, όμως δεν είναι τυχαία μεταβλητή Ας δούμε τώρα πάλι το πρώτο εισαγωγικό παράδειγμα. Παράδειγμα 4.: Σύμφωνα με ένα μοντέλο κληρονομικότητας, οι τρεις τύποι απογόνων, Α, Β και Γ, που προκύπτουν από διασταύρωση ορισμένου είδους πειραματόζωων, πρέπει να βρίσκονται σε αναλογία 9::4, αντίστοιχα. Σε ένα σχετικό πείραμα, από 64 απογόνους που προέκυψαν, 4 βρέθηκαν να είναι τύπου A, τύπου. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 478

9 Έλεγχος Χ B, τα τύπου Γ. Σε επίπεδο σημαντικότητας %, αυτά τα πειραματικά δεδομένα δίνουν άραγε σημαντικές αποδείξεις εναντίον του μοντέλου κληρονομικότητας; Απάντηση: Όπως εξηγήσαμε στα προηγούμενα, αν p η πιθανότητα ο απόγονος να είναι τύπου Α, p η πιθανότητα να είναι «τύπος Β» και p να είναι «τύπος Γ» πρέπει, με βάση τα συγκεκριμένα πειραματικά δεδομένα, να ελέγξουμε σε επίπεδο σημαντικότητας α., τη μηδενική υπόθεση, : p 9 6 και p 6 και p 4 6 έναντι της εναλλακτικής, : p 9 6 ή p 6 ή p 4 6. Στον πίνακα που ακολουθεί, φαίνεται για κάθε τύπο απογόνου η παρατηρηθείσα συχνότητα, O, δηλαδή, πόσες φορές σε 64 επαναλήψεις, εμφανίσθηκε καθένας από τους τρεις τύπους, καθώς και η αντίστοιχη αναμενόμενη συχνότητα E 64 p,,, δηλαδή, πόσες φορές αναμένεται να εμφανισθεί σε 64 επαναλήψεις καθένας από του τρεις τύπους απογόνων αν θεωρήσουμε ότι η είναι αληθής. E Τύπος απογόνου Α Β Γ Σύνολα O 4 64 p 9/6 /6 4/6. p Επειδή για καθένα από τα τρία δυνατά αποτελέσματα, δηλαδή, για κάθε,, είναι E 64 p 5, μπορούμε να κάνουμε έλεγχο X καλής προσαρμογής. Έτσι, έχουμε ( O E (4 6 ( ( 6 X E 6 6 Η απορριπτική περιοχή του ελέγχου ορίζεται από την ανισότητα ( O E ( O E X > χ ;. ή X > 9. E E και επειδή η τιμή της στατιστικής συνάρτησης ελέγχου δεν ανήκει σε αυτήν, δηλαδή η τιμή.44 δεν είναι μεγαλύτερη της κρίσιμης τιμής χ ;. 9. (που παίρνουμε από τον πίνακα της χ κατανομής για βαθμούς ελευθερίας και α., η μηδενική υπόθεση, σε επίπεδο σημαντικότητας. δεν απορρίπτεται και επομένως τα (συγκεκριμένα πειραματικά δεδομένα, σε επίπεδο σημαντικότητας., δε δίνουν στατιστικά σημαντικές αποδείξεις εναντίον του μοντέλου κληρονομικότητας. Ας δούμε ένα ακόμη παράδειγμα. Παράδειγμα 4.: Ένα νέο φάρμακο για την αντιμετώπιση της υπέρτασης δίνεται πειραματικά σε άτομα που πάσχουν από υπέρταση. Το αποτέλεσμα της φαρμακευτικής αγωγής για κάθε ασθενή ταξινομείται σε μια από τέσσερις κατηγορίες: Α: Βαθμιαία μείωση Β: Μέτρια μείωση Γ: Μικρή μείωση Δ: Μικρή αύξηση. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 479

10 Έλεγχος Χ Οι συχνότητες των τεσσάρων κατηγοριών αποτελεσμάτων που παρατηρήθηκαν στα άτομα φαίνονται στον πίνακα που ακολουθεί. Παρατηρηθείσα Συχνότητα Αποτέλεσμα Α Β Γ Δ 5 Από σχετικές μελέτες είναι γνωστό ότι ένα αντίστοιχο φάρμακο που ήδη κυκλοφορεί και χρησιμοποιείται, δίνει τα εξής (ανά κατηγορία αποτελέσματα: Α:5%, Β:%, Γ:9% και Δ:%. Σε επίπεδο σημαντικότητας.5, δίνουν αυτά τα πειραματικά δεδομένα στατιστικά σημαντικές αποδείξεις ότι το νέο φάρμακο διαφέρει ως προς την αποτελεσματικότητά του από το φάρμακο που ήδη κυκλοφορεί; Απάντηση: Για κάθε ασθενή, το αποτέλεσμα της θεραπευτικής αγωγής ταξινομείται σε (ακριβώς μια από τις τέσσερις κατηγορίες Α, Β, Γ, Δ. Πρόκειται επομένως για ένα πείραμα ν ανεξάρτητων πολυωνυμικών δοκιμών με 4 δυνατά αποτελέσματα η καθεμία. Έστω p η πιθανότητα το αποτέλεσμα να είναι Α, p να είναι Β, p να είναι Γ και p 4 να είναι Δ. Με βάση τα (συγκεκριμένα πειραματικά δεδομένα, θα ελέγξουμε σε επίπεδο σημαντικότητας α. 5, τη μηδενική υπόθεση, : p.5 και p. και p. 9 και p. 4 έναντι της εναλλακτικής : p.5 ή p. ή 9 p. ή p. 4. Στον πίνακα που ακολουθεί φαίνεται για κάθε κατηγορία αποτελεσμάτων η παρατηρηθείσα συχνότητα, O, δηλαδή, πόσες φορές στις επαναλήψεις, εμφανίσθηκε κάθε μια από τις τέσσερις κατηγορίες, καθώς και η αντίστοιχη αναμενόμενη συχνότητα E p,,,,4 δηλαδή, πόσες φορές αναμένεται να εμφανισθεί σε επαναλήψεις κάθε μια από τις τέσσερις κατηγορίες αποτελεσμάτων αν θεωρήσουμε ότι η είναι αληθής. E Αποτέλεσμα της φαρμακευτικής αγωγής Σύνολα Α Β Γ Δ O 5 p p 6 8 Επειδή E 4. < 5, συμπτύσσουμε την κατηγορία «Δ» με την κατηγορία «Γ» σε μια, στην κατηγορία «Γ ή Δ» με O + και E Αποτέλεσμα της φαρμακευτικής αγωγής Σύνολα Α Β Γ ή Δ O 5 E p 6 4 Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 48

11 Έλεγχος Χ Επειδή πλέον για κάθε κατηγορία,, είναι E 5, μπορούμε να κάνουμε έλεγχο X καλής προσαρμογής. Έτσι, έχουμε 4 ( O E ( ( 5 6 ( 4 X E 6 4 Η απορριπτική περιοχή του ελέγχου ορίζεται από την ανισότητα 4 ( O E X > χ ; E και επειδή 8.7 > 5. 99, δηλαδή, επειδή η τιμή της στατιστικής συνάρτησης ελέγχου ανήκει στην απορριπτική περιοχή, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας.5 απορρίπτεται. Επομένως, τα συγκεκριμένα πειραματικά δεδομένα, δίνουν στατιστικά σημαντικές αποδείξεις ότι η αποτελεσματικότητα του νέου φαρμάκου διαφέρει από την αποτελεσματικότητα του φαρμάκου που ήδη κυκλοφορεί. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Επισήμανση: Οι βαθμοί ελευθερίας της κρίσιμης τιμής, χ, είναι γιατί ;.5 μετά τη σύμπτυξη οι κατηγορίες πλέον είναι και όχι 4 που ήταν πριν τη σύμπτυξη. Παρατήρηση 4..: Εύκολα αποδεικνύεται ότι ( O E O X ν. E E Πράγματι, ( + + O E O O E E O X O E E E E O O ν + ν ν. E E Έτσι, για τα δεδομένα του Παραδείγματος 4. έχουμε O 4 X ν E 6 6 Αρκετά συχνά, αυτή η έκφραση προτιμάται ως πιο εύχρηστη. Παράδειγμα 4.: (Συνέχεια του Σχολίου 5... Από τα αρχεία της Επιθεώρησης Εργασίας καταγράφηκε ο αριθμός εργατικών ατυχημάτων που συνέβησαν ανά ημέρα σε μια (συγκεκριμένη βιομηχανική ζώνη τα έξι περίπου τελευταία χρόνια (5 εργάσιμες ημέρες. Τα αποτελέσματα αυτής της καταγραφής φαίνονται στον πίνακα που ακολουθεί. Αριθμός ατυχημάτων σε μια ημέρα 4 5 Παρατηρηθείσα συχνότητα Έστω Υ η τυχαία μεταβλητή που εκφράζει τον αριθμό εργατικών ατυχημάτων που συμβαίνουν σε μια ημέρα στη συγκεκριμένη βιομηχανική ζώνη. Στο Σχόλιο 5.., είχαμε ισχυρισθεί ότι οι πιθανότητες που προκύπτουν για της τιμές της Υ από τα παραπάνω δεδομένα, περιγράφονται πολύ ικανοποιητικά από την κατανομή Posson με λ. Ας δούμε τώρα πώς μπορούμε να ελέγξουμε αυτόν τον ισχυρισμό. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 48

12 Έλεγχος Χ Θα κάνουμε, σε επίπεδο σημαντικότητας α. 5 τον έλεγχο της μηδενικής υπόθεσης : Η τυχαία μεταβλητή Υ ακολουθεί την κατανομή Posson με λ έναντι της εναλλακτικής, : Η τυχαία μεταβλητή Υ δεν ακολουθεί την κατανομή Posson με λ. Παρότι η Υ είναι ποσοτική/διακριτή και όχι ποιοτική/κατηγορίας, εντούτοις μπορούμε να εφαρμόσουμε έλεγχο X καλής προσαρμογής αν δούμε τις τιμές της ως διαφορετικές «κατηγορίες». Πράγματι, για κάθε τιμή της Υ που εμφανίσθηκε στις 5 επαναλήψεις, γνωρίζουμε την παρατηρηθείσα συχνότητά της, O, δηλαδή, γνωρίζουμε πόσες φορές εμφανίσθηκε και επίσης, μπορούμε να υπολογίσουμε τις αντίστοιχες αναμενόμενες συχνότητες E 5 p,,,,4,5,6 δηλαδή, πόσες φορές αναμένεται να εμφανισθεί σε 5 επαναλήψεις κάθε μια από τις τιμές,,,, 4 και 5 της Υ, αν θεωρήσουμε ότι η Υ ακολουθεί την κατανομή Posson με λ. Έτσι, αν θεωρήσουμε ότι η Υ ακολουθεί την κατανομή Posson με λ, έχουμε p P( Y e.679, p P( Y e. 679!! p P( Y e.89, p 4 P( Y e. 6!! 4 5 p 5 P( Y 4 e.5, p 6 P( Y 5 e.. 4! 5! Στον πίνακα που ακολουθεί φαίνεται για κάθε τιμή της Υ η παρατηρηθείσα συχνότητα O (που καταγράφηκε από τα αρχεία και η αναμενόμενη συχνότητα E (που υπολογίσαμε με την υπόθεση ότι η είναι αληθής. Επίσης, στον πίνακα φαίνεται και μια έβδομη «κατηγορία» που δημιουργήσαμε, η οποία περιλαμβάνει τις μεγαλύτερες του 5 τιμές της Υ. Η κατηγορία αυτή έχει παρατηρηθείσα συχνότητα O 7 (αφού στις 5 επαναλήψεις δεν εμφανίσθηκε τιμή της Υ μεγαλύτερη του 5 και p P( Y > 5 P( Y E 4 5 > 5 Σύνολα O p p Επειδή για την τιμή 5 και για τις τιμές που είναι μεγαλύτερες του 5, η αναμενόμενη συχνότητα αντίστοιχα είναι E και E.9 5, συμπτύσσουμε τις 6 < 7 < αντίστοιχες «κατηγορίες» σε μία με O και E Σύνολα O E 5 p Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 48

13 Έλεγχος Χ Επειδή πλέον για κάθε κατηγορία,,, 4,5, 6 είναι E 5 μπορούμε να κάνουμε έλεγχο X καλής προσαρμογής. Έτσι, έχουμε X 6 ( O E ( ( ( E K Η απορριπτική περιοχή του ελέγχου ορίζεται από την ανισότητα 6 ( O E X > χ 6 ;.5.7 E και επειδή η τιμή της στατιστικής συνάρτησης ελέγχου δεν ανήκει σε αυτήν, δηλαδή επειδή η τιμή.6 δεν είναι μεγαλύτερη της κρίσιμης τιμής χ 5 ;.5. 7 (που παίρνουμε από τον πίνακα της χ κατανομής για 6 5 βαθμούς ελευθερίας και α. 5, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας.5 δεν απορρίπτεται και επομένως τα (συγκεκριμένα δεδομένα, σε επίπεδο σημαντικότητας.5, δε δίνουν στατιστικά σημαντικές αποδείξεις ότι πρέπει να απορριφθεί η ιδέα ότι η τυχαία μεταβλητή Υ ακολουθεί την κατανομή Posson με λ, ή αλλιώς, σε επίπεδο σημαντικότητας.5, δεν απορρίπτεται η ιδέα ότι η κατανομή Posson με λ προσαρμόζεται στα συγκεκριμένα δεδομένα. 4.. Υπάρχουν άγνωστες παράμετροι Στα προηγούμενα θεωρήσαμε ότι οι πιθανότητες υπό τη μηδενική υπόθεση (δηλαδή, οι p,,,, είναι όλες γνωστές (δίνονται ή υπολογίζονται, και έτσι μπορούμε να υπολογίσουμε τις αναμενόμενες (υπό τη μηδενική υπόθεση συχνότητες E νp. Μπορεί όμως, για την υποθετική θεωρητική κατανομή που ελέγχουμε, κάποιες παράμετροι να μας είναι άγνωστες. Δηλαδή, για παράδειγμα, μπορεί να ελέγχουμε την υπόθεση ότι τα δεδομένα προέρχονται από κάποια κατανομή Posson με παράμετρο λ άγνωστη ή ότι προέρχονται από κάποια κανονική κατανομή με τις παραμέτρους μ και σ άγνωστες (ή με μία από τις δύο άγνωστες. Στην περίπτωση αυτή, πρώτα εκτιμάμε τις άγνωστες παραμέτρους από το δείγμα και στη συνέχεια εκτιμάμε τις p,,,, με τις p ˆ που υπολογίζουμε χρησιμοποιώντας τις εκτιμήσεις των παραμέτρων. Έτσι, για κάθε,,, μπορούμε να εκτιμήσουμε την αναμενόμενη συχνότητα με την E νpˆ. Εύλογα, ως στατιστική συνάρτηση ελέγχου χρησιμοποιούμε πλέον την 4 ( O ˆ E X. ˆ E Αποδεικνύεται ότι η τυχαία μεταβλητή X, για μεγάλα ν, ακολουθεί μια χ κατανομή με m βαθμούς ελευθερίας, δηλαδή, για μεγάλα ν, κατά προσέγγιση έχουμε X ~ χ m, όπου m, o αριθμός των εκτιμώμενων παραμέτρων. Η προσέγγιση αυτή είναι ικανοποιητική αν Eˆ ν pˆ 5, για κάθε,,. Έτσι: Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 48

14 Έλεγχος Χ Σε επίπεδο σημαντικότητας α, η απορριπτική περιοχή της μηδενικής υπόθεσης τώρα ορίζεται από την ανισότητα ( O ˆ E X χ m; α ˆ E και εφόσον, Eˆ ν pˆ 5, για κάθε,,. Αν παραβιάζεται αυτός ο περιορισμός, δηλαδή αν τουλάχιστον μία από τις αναμενόμενες συχνότητες έχει τιμή μικρότερη του 5, τότε κάνουμε όπως και στα προηγούμενα, κατάλληλη σύμπτυξη των αρχικών κατηγοριών. Ας δούμε όμως με ένα παράδειγμα, πώς εφαρμόζονται όλα αυτά. Έτσι θα αποσαφηνισθούν και θα διευκρινισθούν καλύτερα. Παράδειγμα 4.4: Στη στατιστική συμπερασματολογία, όπως ήδη διαπιστώσαμε όταν μιλήσαμε για την κατασκευή διαστημάτων εμπιστοσύνης και για τους στατιστικούς ελέγχους υποθέσεων, μας ενδιαφέρει να μπορούμε να αποφασίσουμε αν ένα δείγμα προέρχεται από κανονικό πληθυσμό. Ας δούμε πώς μπορούμε να εφαρμόσουμε τον έλεγχο X καλής προσαρμογής για το σκοπό αυτό. Θα χρησιμοποιήσουμε τα δεδομένα του Προβλήματος 9.8 (από την Περιγραφική Στατιστική. Δίνεται ένα τυχαίο δείγμα 8 μετρήσεων της συγκέντρωσης υδραργύρου στο συκώτι αρσενικών δελφινιών (σε mcrogr/gr Μπορούμε άραγε να ισχυρισθούμε ότι το δείγμα αυτό προέρχεται από κάποια κανονική κατανομή; Απάντηση: Έστω Υ τυχαία μεταβλητή που εκφράζει τη συγκέντρωση υδραργύρου στο συκώτι αρσενικών δελφινιών. Παρότι η Υ είναι ποσοτική και όχι ποιοτική/κατηγορίας μεταβλητή, εντούτοις μπορούμε να εφαρμόσουμε έλεγχο X καλής προσαρμογής αν ταξινομήσουμε τις τιμές της σε έναν αριθμό κλάσεων που ορίζουμε. Στον πίνακα που ακολουθεί φαίνονται 6 κλάσεις πλάτους 9mcrogr/gr η κάθε μια (εκτός από την πρώτη και την τελευταία που εκτείνονται έως το στις οποίες έχουν ταξινομηθεί οι 8 τιμές της Υ. Επίσης φαίνεται η παρατηρηθείσα συχνότητα O κάθε κλάσης, δηλαδή πόσες τιμές ταξινομήθηκαν σε κάθε κλάση. x (, 9 [ 9, 8 [ 8, 7 [ 7, 6 [ 6, 45 [ 45, + Σύνολο O Θα κάνουμε, σε επίπεδο σημαντικότητας α. 5, τον έλεγχο της μηδενικής υπόθεσης : Η τυχαία μεταβλητή Υ ακολουθεί μια κανονική κατανομή έναντι της εναλλακτικής, : Η τυχαία μεταβλητή Υ δεν ακολουθεί κάποια κανονική κατανομή. Για να υπολογίσουμε για κάθε κλάση τιμών,,,4,5, 6, την αναμενόμενη συχνότητα E 8 p, πρέπει, για κάθε κλάση, να υπολογίσουμε την αντίστοιχη Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 484

15 Έλεγχος Χ πιθανότητα να πάρει η Υ τιμή στην κλάση, με την υπόθεση ότι η είναι αληθής, δηλαδή με την υπόθεση ότι Y ~ N( μ, σ. Όμως, δε γνωρίζουμε τις τιμές των παραμέτρων μ και σ γι αυτό θα τις εκτιμήσουμε από το δείγμα. Από τα δεδομένα του δείγματος, εύκολα βρίσκουμε ότι y 6. 7 mcrogr/gr και s 4.6mcrogr/gr. Έτσι, υποθέτοντας ότι Y ~ N(6.7, 4.6, μπορούμε πλέον να εκτιμήσουμε τις πιθανότητες p. Πράγματι έχουμε Y p P( Y < 9 P( < P( Z <.4 Φ( p P(9 Y < 8 P( Y < K p P(8 Y < 7 P( Y < K p 4 P(7 Y < 6 P( Y < K p 5 P(6 Y < 45 P( Y < K p6 P( Y 45 P( y < 45 ( p + p + p + p4 + p Στον πίνακα που ακολουθεί για κάθε κλάση φαίνονται η παρατηρηθείσα συχνότητα O και η αντίστοιχη εκτιμώμενη αναμενόμενη συχνότητα E 8 ˆ p. E y (, 9 [ 9, 8 [ 8, 7 [ 7, 6 [ 6, 45 [ 45, + Σύνολα O p pˆ Επειδή για την κλάση (, 9 η (εκτιμώμενη αναμενόμενη συχνότητα είναι E ˆ < 5, τη συμπτύσσουμε με τη γειτονική της [ 9, 8 σε μία, την (, 8, με O και E ˆ Επίσης, επειδή για την κλάση [ 6, 45 και την κλάση [ 45, + η (εκτιμώμενη αναμενόμενη συχνότητα αντίστοιχα είναι E ˆ < 5 και E ˆ 6.84 < 5, τις συμπτύσσουμε επίσης σε μία, την [ 6, +, με O + 5 και E ˆ y (,8 [ 8, 7 [ 7, 6 [ 6, + Σύνολα O E Επειδή πλέον για κάθε κατηγορία,,, 4 είναι E ˆ 5 μπορούμε να κάνουμε έλεγχο X καλής προσαρμογής. Έτσι, έχουμε Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 485

16 Έλεγχος Χ X 4 ( O ˆ E Eˆ ( ( ( ( Η απορριπτική περιοχή του ελέγχου ορίζεται από την ανισότητα 4 ( ˆ O E X > χ 4 ; ˆ E και επειδή η τιμή της στατιστικής συνάρτησης ελέγχου δεν ανήκει σε αυτήν, δηλαδή επειδή η τιμή.699 δεν είναι μεγαλύτερη της κρίσιμης τιμής χ ; (που παίρνουμε από τον πίνακα της χ κατανομής για m 4 βαθμό ελευθερίας και α. 5, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας.5 δεν απορρίπτεται και επομένως τα (συγκεκριμένα δεδομένα, σε επίπεδο σημαντικότητας.5, δε δίνουν στατιστικά σημαντικές αποδείξεις ότι πρέπει να απορριφθεί η ιδέα ότι Y ~ N(6.7, 4.6, ή αλλιώς, σε επίπεδο σημαντικότητας.5, δεν απορρίπτεται η ιδέα ότι η N (6.7, 4.6 προσαρμόζεται στα δεδομένα. Σημείωση 4..: Παρότι, όπως ήδη διαπιστώσαμε, ο έλεγχος X καλής προσαρμογής εφαρμόζεται και για συνεχείς τυχαίες μεταβλητές, εντούτοις, στην περίπτωση συνεχών μεταβλητών συνήθως προτιμάται ο έλεγχος Kolmogorov-Smrnov. Αυτό συμβαίνει γιατί για να εφαρμοσθεί ο έλεγχος X σε συνεχείς μεταβλητές, απαιτείται όπως είδαμε η ομαδοποίηση των δεδομένων με συνέπεια να χάνεται πληροφορία, ενώ στον έλεγχο Kolmogorov-Smrnov στη σύγκριση συμμετέχουν αυτά καθαυτά τα δεδομένα και όχι κλάσεις στις οποίες κατανέμονται. Επίσης, όταν το δείγμα είναι μικρό, ο έλεγχος X ενδεχομένως και να μην μπορεί να εφαρμοσθεί, ενώ ο έλεγχος Kolmogorov-Smrnov σε αυτές τις περιπτώσεις είναι πιο ισχυρός έλεγχος. Παρατήρηση 4..: Ας δούμε πώς μπορούμε, για, να αποδείξουμε ότι για μεγάλα ν, κατά προσέγγιση ( X νp X ~ χ. νp Θα διαπιστώσουμε ότι πρόκειται για μια απλή απόδειξη 5. Υπενθυμίζουμε ότι με X έχουμε συμβολίσει την τυχαία μεταβλητή που εκφράζει τη συχνότητα εμφάνισης του αποτελέσματος r σε ν ανεξάρτητες επαναλήψεις μιας πολυωνυμικής δοκιμής με δυνατά αποτελέσματα 6 και με p την πιθανότητα το αποτέλεσμα σε μια δοκιμή να είναι r,,,. Αν, τα δυνατά αποτελέσματα σε κάθε δοκιμή είναι δύο (πρόκειται για δοκιμές Bernoull. Έτσι, X + X ν και επομένως X ν X. Επίσης, p p. Έτσι, έχουμε 5 Για > δε θα κάνουμε την απόδειξη. Σκοπός μας είναι, από την απόδειξη αυτή να πάρουμε μόνο μια «γεύση» ώστε να μη φαντάζουν... «βουνό» οι αποδείξεις θεωρητικών αποτελεσμάτων! 6 Μια συγκεκριμένη πραγματοποίηση της τυχαίας μεταβλητής X, τη συμβολίζουμε με O. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 486

17 Έλεγχος Χ X ( X νp νp ( X νp νp ( X + νp νp ( X ( X νp νp νp [ ν X ν ( p] + ν ( p ( p + ( X νp ( p + νp ( X νp X νp. νp( p ( νp p Επειδή προφανώς, X ~ B( ν, p, από το οριακό θεώρημα De Movre-Laplace για μεγάλα ν, κατά προσέγγιση, έχουμε X νp ~ N(,. νp( p Δείξαμε δηλαδή, ότι για μεγάλα ν, κατά προσέγγιση είναι X p X ν Z p( p ν και επομένως, X Z ~ χ. (Θυμηθείτε ότι η χι-τετράγωνο κατανομή με n βαθμούς ελευθερίας ορίζεται ως άθροισμα τετραγώνων n ανεξάρτητων τυποποιημένων κανονικών κατανομών, δηλαδή, αν Z ~ N(,,,, n τότε Z + Z +K χ. Z n ~ n Παρατήρηση 4..: Στην περίπτωση που το πείραμα που μελετάμε αποτελείται από ν ανεξάρτητες πολυωνυμικές δοκιμές με δυνατά αποτελέσματα η κάθε μια, τότε ο έλεγχος της μηδενικής υπόθεσης : p p και p p έναντι της εναλλακτικής : p p ή p p είναι προφανώς ένας έλεγχος διωνυμικού ποσοστού : p p : p p που γνωρίσαμε στην Ενότητα. Έτσι, αν λάβουμε υπόψη και την απόδειξη που δώσαμε στην Παρατήρηση 4.. (όπου δείξαμε ότι για μεγάλα ν, κατά προσέγγιση είναι X Z είναι λογικό να περιμένουμε ότι στην περίπτωση που είναι, ο έλεγχος X καλής προσαρμογής είναι ισοδύναμος με τον Ζ έλεγχο για διωνυμικό ποσοστό, δηλαδή περιμένουμε οι δύο αυτοί έλεγχοι να δίνουν ίδια αποτελέσματα. Πράγματι έτσι είναι. Ας δούμε ένα σχετικό παράδειγμα. Παράδειγμα 4.5: Η αποτελεσματικότητα του φυτοφαρμάκου που χρησιμοποιεί ένας αγρότης για την αντιμετώπιση κάποιας συγκεκριμένης ασθένειας είναι γνωστό ότι είναι 6%, δηλαδή το 6% των άρρωστων φυτών στα οποία χορηγείται το εν λόγω φάρμακο θεραπεύονται. Για να ελέγξει την αποτελεσματικότητα ενός νέου φαρμάκου που καταπολεμά την ίδια ασθένεια, ο αγρότης χορήγησε αυτό το νέο φάρμακο σε 5 άρρωστα φυτά και από αυτά θεραπεύθηκαν τα. Σε επίπεδο σημαντικότητας 5%, p Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 487

18 Έλεγχος Χ υποστηρίζουν αυτά τα πειραματικά δεδομένα ότι η αποτελεσματικότητα του νέου φαρμάκου είναι διαφορετική (από αυτήν του φαρμάκου που χρησιμοποιεί; Απάντηση: Για κάθε άρρωστο φυτό, το αποτέλεσμα της φαρμακευτικής αγωγής ταξινομείται σε (ακριβώς μια από δύο κατηγορίες: θεραπεύθηκε, δε θεραπεύθηκε. Πρόκειται επομένως για ένα πείραμα ν 5 ανεξάρτητων πολυωνυμικών δοκιμών με δυνατά αποτελέσματα η καθεμία, συνεπώς πρόκειται για ένα πείραμα ν 5 ανεξάρτητων δοκιμών Bernoull και το πρόβλημα που τίθεται είναι πρόβλημα ελέγχου ενός διωνυμικού ποσοστού, του ποσοστού των άρρωστων φυτών που θεραπεύονται με το νέο φάρμακο. Θα κάνουμε το ζητούμενο έλεγχο με δύο τρόπους ος τρόπος: Έστω p το ποσοστό των άρρωστων φυτών που θεραπεύονται με το νέο φάρμακο, ή αλλιώς, έστω p η πιθανότητα ένα άρρωστο φυτό να θεραπευθεί με το νέο φάρμακο. Σε επίπεδο σημαντικότητας α. 5, πρέπει να κάνουμε τον έλεγχο της μηδενικής υπόθεσης : p.6 έναντι της εναλλακτικής : p.6. Επειδή > 5 και 5 (.6 6 > 5, μπορούμε να εφαρμόσουμε Ζ έλεγχο με απορριπτική περιοχή pˆ.6 5 z z (.6 όπου, p ˆ. 8 το δειγματικό ποσοστό, δηλαδή, το ποσοστό των άρρωστων 5 φυτών που θεραπεύθηκαν με το νέο φάρμακο στο δείγμα των 5 άρρωστων φυτών. Έτσι, επειδή z (.6 η μηδενική υπόθεση σε επίπεδο σημαντικότητας.5 απορρίπτεται και επομένως τα πειραματικά δεδομένα δίνουν στατιστικά σημαντικές αποδείξεις ότι η αποτελεσματικότητα του νέου φάρμακου δεν είναι 6%. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. ος τρόπος: Έστω p η πιθανότητα για ένα άρρωστο φυτό το αποτέλεσμα της φαρμακευτικής αγωγής να ταξινομηθεί στην κατηγορία «θεραπεύθηκε» και p η πιθανότητα το αποτέλεσμα να ταξινομηθεί στην κατηγορία «δε θεραπεύθηκε». Με βάση τα (συγκεκριμένα πειραματικά δεδομένα, θα ελέγξουμε σε επίπεδο σημαντικότητας α. 5, τη μηδενική υπόθεση, : p.6 και p. 4 έναντι της εναλλακτικής : p. 6 ή p. 4 ή ισοδύναμα (σκεφθείτε γιατί, τη μηδενική υπόθεση, : p.6 έναντι της εναλλακτικής Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 488

19 Έλεγχος Χ : p. 6. Στον πίνακα που ακολουθεί φαίνεται για κάθε κατηγορία αποτελεσμάτων η παρατηρηθείσα συχνότητα, O, δηλαδή, πόσες φορές σε 5 επαναλήψεις, εμφανίσθηκε κάθε μια από τις δύο κατηγορίες, καθώς και η αντίστοιχη αναμενόμενη συχνότητα E 5 p,, δηλαδή, πόσες φορές αναμένεται να εμφανισθεί σε 5 επαναλήψεις κάθε μια από τις δύο κατηγορίες αποτελεσμάτων αν θεωρήσουμε ότι η είναι αληθής. E Αποτέλεσμα Σύνολα Θεραπεύθηκε Δε Θεραπεύθηκε O 5 p p Επειδή για κάθε κατηγορία, είναι E 5, μπορούμε να κάνουμε έλεγχο καλής προσαρμογής. Έτσι, έχουμε X ( O E ( 9 ( 6 X + 5. E 9 6 Η απορριπτική περιοχή του ελέγχου ορίζεται από την ανισότητα ( O E X > χ ;.5.84 E και επειδή 5 >. 84, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας.5 απορρίπτεται. Επομένως, τα συγκεκριμένα πειραματικά δεδομένα, δίνουν στατιστικά σημαντικές αποδείξεις ότι η αποτελεσματικότητα του νέου φαρμάκου δεν είναι 6%. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Πράγματι λοιπόν, το συμπέρασμα και με τους δύο ελέγχους είναι το ίδιο. Παρατηρείστε τις τιμές της στατιστικής συνάρτησης ελέγχου στις δύο περιπτώσεις. Είναι z 5 και X 5 αντίστοιχα, δηλαδή πράγματι z 5 5 X. Παρατηρείστε επίσης, ότι για τις κρίσιμες τιμές των δύο ελέγχων είναι ( z χ;.5. Ερώτηση: Έστω ότι το ερώτημα στο προηγούμενο πρόβλημα είναι «σε επίπεδο σημαντικότητας 5%, υποστηρίζουν αυτά τα πειραματικά δεδομένα ότι η αποτελεσματικότητα του νέου φαρμάκου δεν είναι 6% αλλά μεγαλύτερη;». Τι έλεγχο πρέπει τώρα να κάνουμε; Σημείωση 4..: Επειδή ο έλεγχος X βασίζεται όπως είδαμε στην προσέγγιση της X που είναι διακριτή 7 από μια συνεχή κατανομή που είναι η χ, προτείνεται, στην 7 Αν προβληματίζεσθε γιατί η X είναι διακριτή, σκεφθείτε το εξής απλό: στο παράδειγμα 4.5 η τιμή της X βρέθηκε 5. Αν θεωρήσουμε ότι αντί για θεραπεύθηκαν και αντίστοιχα δε θεραπεύθηκαν 9 (αντί, τότε η τιμή της X γίνεται Επομένως, είναι προφανές ότι δε μπορεί η X να πάρει κάποια ενδιάμεση τιμή, δηλαδή κάποια τιμή μεταξύ 5 και Είναι, δηλαδή, ασυνεχής. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 489

20 Έλεγχος Χ περίπτωση που οι βαθμοί ελευθερίας είναι μόνο ένας (όπως στο Παράδειγμα 4.5, να γίνεται «διόρθωση συνέχειας» ώστε να βελτιώνεται η προσέγγιση και να διασφαλίζεται ότι ο έλεγχος γίνεται πράγματι σε επίπεδο σημαντικότητας α και όχι σε μεγαλύτερο. Συγκεκριμένα, στην περίπτωση που οι βαθμοί ελευθερίας είναι μόνο ένας, προτείνεται ως στατιστική συνάρτηση ελέγχου να χρησιμοποιείται η ( O E. 5 X, όπου X c. E Η διόρθωση αυτή είναι γνωστή στη βιβλιογραφία ως διόρθωση συνέχειας του Yates (Yates correcton for contnuty. Βέβαια, παρότι χρησιμοποιείται ευρέως, έχει δεχθεί κριτική ότι κάνει τον έλεγχο (υπερσυντηρητικό, δηλαδή, ότι αυξάνει αρκετά την πιθανότητα σφάλματος τύπου ΙΙ. Βέβαια, αν το ν είναι πολύ μεγάλο οι επιπτώσεις της ασυνέχειας (ακόμη και για ένα βαθμό ελευθερίας είναι μικρές και η αλλαγή στην τιμή της X λόγω της διόρθωσης είναι επίσης μικρή. 4. Έλεγχος Χ ανεξαρτησίας (ch-square test of ndependence Πολύ συχνά, σε πειραματικές ή δειγματοληπτικές έρευνες, μια πειραματική/ δειγματοληπτική μονάδα ταξινομείται όχι μόνο ως προς ένα χαρακτηριστικό αλλά και ως προς ένα δεύτερο. Έτσι, προκύπτουν διδιάστατα δεδομένα (bvarate data τα οποία παρουσιάζονται σε διδιάστατους πίνακες συχνοτήτων που ονομάζονται πίνακες συνάφειας. Για παράδειγμα, για κάθε άτομο που συμμετέχει σε μια έρευνα για την πρόληψη της γρίπης, καταγράφουμε αν αρρώστησε ή όχι από γρίπη καθώς και τον αριθμό δόσεων αντιγριπικού εμβολίου που είχε κάνει. Έτσι, για κάθε άτομο τα δυνατά αποτελέσματα είναι τα έξι ζεύγη τιμών (αρρώστησε,, (αρρώστησε,, (αρρώστησε,, (δεν αρρώστησε,, (δεν αρρώστησε,, (δεν αρρώστησε, όπου, η πρώτη τιμή αντιστοιχεί στη δίτιμη ποιοτική μεταβλητή «ανθεκτικότητα στον ιό της γρίπης» με τιμές αρρώστησε, δεν αρρώστησε, και η δεύτερη στη διακριτή ποσοτική μεταβλητή «αριθμός δόσεων εμβολίου» με τιμές,,. Έτσι, κάθε πειραματική μονάδα ταξινομείται σε (ακριβώς μία από 6 διαφορετικές κατηγορίες 8. Στον πίνακα που ακολουθεί φαίνεται πώς ταξινομήθηκαν στις 6 αυτές κατηγορίες άτομα που συμμετείχαν σε μια τέτοια έρευνα. Αριθμός δόσεων Αρρώστησε 4 9 Ανθεκτικότητα Δεν αρρώστησε Παρατηρείστε ότι από τα άτομα, 4 αρρώστησαν και δεν είχαν κάνει εμβόλιο και έτσι ταξινομήθηκαν στην κατηγορία (αρρώστησε,, ή αλλιώς, η συχνότητα της κατηγορίας (αρρώστησε, είναι 4. Ομοίως, η συχνότητα της κατηγορίας (αρρώστησε, είναι 9, της κατηγορίας (αρρώστησε, είναι κ.ο.κ. Γενικά, έστω ν πειραματικές μονάδες κάθε μια από τις οποίες ταξινομείται ως προς δύο χαρακτηριστικά (τυχαίες μεταβλητές Α και Β, από τα οποία, το Α μπορεί να πάρει r διαφορετικές τιμές (κατηγορίες, A, A, K, Ar, και το Β μπορεί να πάρει c διαφορετικές τιμές (κατηγορίες, B, B, K, Bc. Προκύπτουν έτσι, r c c 8 θυμηθείτε την πολλαπλασιαστική αρχή Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 49

21 Έλεγχος Χ διαφορετικές κατηγορίες/διαφορετικά ζεύγη τιμών, A, B. Ας συμβολίσουμε με ( O τον αριθμό των πειραματικών μονάδων (από τις ν που ταξινομήθηκαν στην κατηγορία ( A, B, ή αλλιώς, έστω O η συχνότητα της κατηγορίας ( A, B. Ο Πίνακας 4.., οι γραμμές του οποίου ορίζονται από τις r κατηγορίες A, A, K, Ar του χαρακτηριστικού Α και οι στήλες του από τις c κατηγορίες B, B, K, Bc του χαρακτηριστικού Β, και ο οποίος, ως στοιχείο στη θέση (, (δηλαδή στο κελί που ορίζεται από τη γραμμή και τη στήλη έχει τη συχνότητα O της αντίστοιχης κατηγορίας, δηλαδή τη συχνότητα της κατηγορίας ( A, B, είναι ένας r x c διδιάστατος πίνακας συχνοτήτων που ονομάζεται πίνακας συνάφειας (contngency table. Χαρακτηριστικό Β B B L B c Σύνολα γραμμών A Q Q L Q c R Q A Q Q c L R Χαρακτηριστικό Α M M M M M A r Q r Qr L Q rc R r Σύνολα στηλών C C L C c ν Πίνακας 4.. Ένας τέτοιος πίνακας συχνοτήτων ονομάζεται πίνακας συνάφειας γιατί μέσω της διδιάστατης κατανομής συχνοτήτων που αναπαριστά/περιγράφει, ελέγχουμε αν τα δύο χαρακτηριστικά που ορίζουν τις διαστάσεις του έχουν κάποια συνάφεια/εξάρτηση ή αν είναι ανεξάρτητα. Γι αυτό εξάλλου γίνεται (συνήθως μια τέτοια ταξινόμηση. Για να ελέγξουμε αν δύο χαρακτηριστικά (μεταβλητές των οποίων οι τιμές ταξινομούνται σε κατηγορίες, είναι ανεξάρτητα ή μήπως παρουσιάζουν κάποια συνάφεια/εξάρτηση. Να ελέγξουμε, για παράδειγμα, αν η ανθεκτικότητα ενός ατόμου στον ιό της γρίπης (αρρώστησε, δεν αρρώστησε εξαρτάται από τον αριθμό των δόσεων αντιγριπικού εμβολίου που έκανε (,, ή αν υπάρχει συνάφεια/εξάρτηση μεταξύ φύλου (άντρας, γυναίκα και συνήθειας καπνίσματος (μη καπνιστής, πρώην καπνιστής, περιστασιακός καπνιστής, καπνιστής ή αν ο τρόπος μετάβασης των φοιτητών/τριών στο πανεπιστήμιο (με τα πόδια, με ποδήλατο, με ΙΧ αυτοκίνητο ή μοτοσυκλέτα, με τα δημόσια μέσα συγκοινωνίας, με ταξί είναι ανεξάρτητος από το φύλο (φοιτητής, φοιτήτρια ή αν η ανθεκτικότητα ενός φυτού σε μια συγκεκριμένη ασθένεια (αρρώστησε, δεν αρρώστησε εξαρτάται από το μέγεθός του (μεγάλο, μικρό. Ας δούμε λοιπόν πώς μπορούμε να κάνουμε έναν τέτοιο έλεγχο ανεξαρτησίας. Έστω ένα τυχαίο δείγμα ν παρατηρήσεων ( A, B που προέκυψαν από την ταξινόμηση ν πειραματικών/δειγματοληπτικών μονάδων ως προς δύο χαρακτηριστικά Α και Β, από τα οποία, το Α μπορεί να πάρει r διαφορετικές τιμές (κατηγορίες, A, A, K, Ar, και το Β μπορεί να πάρει c διαφορετικές τιμές (κατηγορίες, B, B, K, Bc. Είναι λογικό/εύλογο η ανεξαρτησία των Α και Β να ορίζεται μέσω της έννοιας της ανεξαρτησίας ενδεχομένων. Πράγματι, έτσι είναι. Αν θεωρήσουμε τα ενδεχόμενα A: μια πειραματική μονάδα ταξινομείται στην κατηγορία A του χαρακτηριστικού Α Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 49

22 Έλεγχος Χ B: μια πειραματική μονάδα ταξινομείται στην κατηγορία B του χαρακτηριστικού Β τότε, τα χαρακτηριστικά Α και Β είναι ανεξάρτητα αν τα ενδεχόμενα ανεξάρτητα για κάθε,, r και,, c, δηλαδή, αν P A B P( A P( B, για όλα τα και ( A και B είναι ή ισοδύναμα, αν P ( A B P( A, για όλα τα και. Αυτό σημαίνει ότι τα χαρακτηριστικά Α και Β είναι ανεξάρτητα αν, για όλα τα και, η πιθανότητα μια παρατήρηση να ανήκει στην κατηγορία A του χαρακτηριστικού Α δεν εξαρτάται/δεν επηρεάζεται από την κατηγορία B του χαρακτηριστικού Β στην οποία ανήκει, ή ισοδύναμα, αν, για όλα τα και, η πιθανότητα μια παρατήρηση να ανήκει στην κατηγορία B του χαρακτηριστικού Β δεν εξαρτάται/δεν επηρεάζεται από την κατηγορία A του χαρακτηριστικού Α στην οποία ανήκει, αφού ισοδύναμη με τις παραπάνω σχέσεις (όπως είδαμε στο Α Μέρος είναι επίσης η σχέση P B A P( B. ( Παρατήρηση 4..: Παρατηρείστε ότι τα ενδεχόμενα A, A, K, Ar αποτελούν μια διαμέριση του δειγματικού χώρου του πειράματος αφού κάθε πειραματική μονάδα ταξινομείται σε μια από τις κατηγορίες A και μάλιστα ακριβώς σε μία και έτσι U r A Ω και A A για κάθε. Αντίστοιχα, τα B, B, K, Bc αποτελούν επίσης μια άλλη διαμέριση του δειγματικού χώρου του πειράματος. Ας συμβολίσουμε με p την πιθανότητα P ( A μια πειραματική μονάδα να ταξινομηθεί στην κατηγορία A του χαρακτηριστικού Α και με q την πιθανότητα P ( B μια πειραματική μονάδα να ταξινομηθεί στην κατηγορία B του χαρακτηριστικού Β. Έστω δηλαδή, p P( A και q P( B. Έστω, επίσης p P( A B η πιθανότητα μια πειραματική μονάδα να ταξινομηθεί στην κατηγορία A του χαρακτηριστικού Α και (συγχρόνως στην κατηγορία B του χαρακτηριστικού Β. Για να ελέγξουμε αν τα χαρακτηριστικά Α και Β είναι ανεξάρτητα, πρέπει προφανώς, να κάνουμε τον έλεγχο της μηδενικής υπόθεσης : p p q, για κάθε και έναντι της εναλλακτικής, : p p q, για τουλάχιστον ένα και. Αν X,,, r,,, c τυχαίες μεταβλητές που η κάθε μια εκφράζει τον αριθμό των παρατηρήσεων που ανήκουν στην αντίστοιχη κατηγορία ( A, B, είναι προφανές ότι έχουν από κοινού κατανομή μια πολυωνυμική κατανομή με Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 49

23 Έλεγχος Χ παραμέτρους ν και p P( A B,,, r,,, c. Αυτό σημαίνει ότι ο έλεγχος της μηδενικής υπόθεσης : p p q, για κάθε και είναι ένας έλεγχος των παραμέτρων p μιας πολυωνυμικής κατανομής. Μπορούμε επομένως να εργασθούμε όπως στον έλεγχο X καλής προσαρμογής, με τις αποκλίσεις μεταξύ παρατηρηθέντων και αναμενόμενων (με βάση τη μηδενική υπόθεση συχνοτήτων. Για κάθε δυνατή κατηγορία ( A, B, η παρατηρηθείσα συχνότητα, O (η τιμή της X στο δείγμα, μας είναι γνωστή. Η αντίστοιχη, με βάση τη μηδενική υπόθεση, αναμενόμενη συχνότητα E προφανώς είναι E ν p νp p. Επειδή, κατά κανόνα, οι πιθανότητες p,,, r και q,,, c δεν είναι γνωστές, τις εκτιμάμε με τα δειγματικά ποσοστά R C p ˆ και p ˆ ν ν όπου, R το άθροισμα των στοιχείων της γραμμής του πίνακα συνάφειας, C το άθροισμα των στοιχείων της στήλης του πίνακα συνάφειας και ν το μέγεθος του δείγματος. Έτσι, οι εκτιμώμενες αναμενόμενες συχνότητες είναι R C RC E ˆ νpˆ pˆ ν ν ν ν. Ως στατιστική συνάρτηση ελέγχου (εύλογα χρησιμοποιούμε τη στατιστική συνάρτηση X με ( O Eˆ X., Eˆ Με την παραδοχή ότι η μηδενική υπόθεση είναι αληθής, αποδεικνύεται ότι η τυχαία μεταβλητή X, για μεγάλα ν ακολουθεί μια χ κατανομή με ( r ( c βαθμούς ελευθερίας. Η προσέγγιση αυτή είναι ικανοποιητική αν όλες οι (εκτιμώμενες αναμενόμενες συχνότητες είναι μεγαλύτερες ή ίσες του 5, δηλαδή, αν, ˆ E ˆ ˆ ν p p 5 για όλα τα και. Έτσι, προκύπτει ο ακόλουθος έλεγχος X ο οποίος ονομάζεται έλεγχος Χ ανεξαρτησίας (ch-square test of ndependence. Σε επίπεδο σημαντικότητας α, η μηδενική υπόθεση : p p q, για κάθε και απορρίπτεται έναντι της εναλλακτικής, : p p q, για τουλάχιστον ένα και, αν X ( O ˆ E > χ c ˆ, E και εφόσον Eˆ ν pˆ pˆ 5 για όλα τα και. ( r ( ; α Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 49

24 Έλεγχος Χ Αν ο περιορισμός Eˆ ˆ ˆ ν p p 5 παραβιάζεται για τουλάχιστον μία από τις εκτιμώμενες αναμενόμενες συχνότητες, κάνουμε κατάλληλη σύμπτυξη των αρχικών κατηγοριών. Σχόλιο 4..: Ας δούμε γιατί οι βαθμοί ελευθερίας της χ κατανομής που χρησιμοποιείται στον έλεγχο X ανεξαρτησίας είναι ( r ( c. Γενικά, οι βαθμοί ελευθερίας (β.ε σε έναν έλεγχο β.ε. αριθμός διαφορετικών κατηγοριών X είναι αριθμός εκτιμώμενων παραμέτρων. Στον έλεγχο X ανεξαρτησίας, όπως είδαμε, οι διαφορετικές κατηγορίες είναι r c και οι παράμετροι που χρειάζεται να εκτιμηθούν, όταν μας είναι άγνωστες, είναι οι πιθανότητες p και q. Συνολικά, ο αριθμός των p και q που πρέπει να εκτιμηθούν είναι r + c (και όχι r + c αφού ισχύουν οι σχέσεις p + p + K + pr και q + q + K + qr. Έτσι, έχουμε β. ε r c ( r + c r c r c + ( r ( c Αν οι παράμετροι p και q είναι όλες γνωστές, τότε οι βαθμοί ελευθερίας προφανώς είναι r c r c. Aς ολοκληρώσουμε τώρα το εισαγωγικό μας παράδειγμα που αναφέρεται στην αποτελεσματικότητα του αντιγριπικού εμβολίου. Παράδειγμα 4.6: Στο πλαίσιο της έρευνας που γίνεται για την πρόληψη την γρίπης, έγινε μια μελέτη για να ελεγχθεί η αποτελεσματικότητα ενός νέου αντιγριπικού εμβολίου το οποίο χορηγείται σε δύο δόσεις. Σε χίλιους τυχαία επιλεγμένους κατοίκους μιας περιοχής δόθηκε η δυνατότητα να κάνουν το εμβόλιο δωρεάν και εθελοντικά. Για κάθε κάτοικο, η ερευνητική ομάδα κατέγραψε πόσες δόσεις του εμβολίου έκανε (καμία, μία ή δύο και αν αρρώστησε ή όχι από τη γρίπη. Αριθμός δόσεων Αρρώστησε 4 9 Ανθεκτικότητα Δεν αρρώστησε Σε επίπεδο σημαντικότητας 5%, δίνουν αυτά τα δεδομένα σημαντικές αποδείξεις ότι η ανθεκτικότητα των κατοίκων στον ιό της γρίπης εξαρτάται από τον αριθμό των δόσεων αντιγριπικού εμβολίου που έκαναν; Απάντηση: Ζητείται να ελέγξουμε, με βάση τα συγκεκριμένα πειραματικά δεδομένα, αν το χαρακτηριστικό (τυχαία μεταβλητή Α: ανθεκτικότητα στον ιό της γρίπης, με τιμές αρρώστησε, δεν αρρώστησε και το χαρακτηριστικό (τυχαία μεταβλητή Β: αριθμός δόσεων εμβολίου, με τιμές,, είναι ανεξάρτητα ή εξαρτημένα. Ας θεωρήσουμε τα ενδεχόμενα, A : ο κάτοικος αρρώστησε, A : ο κάτοικος δεν αρρώστησε B : ο κάτοικος έκανε μηδέν δόσεις, B : ο κάτοικος έκανε μια δόση, Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 494

25 Έλεγχος Χ B : ο κάτοικος έκανε δύο δόσεις, και έστω p P, p P, q P, q P και q P. ( A ( A ( B ( B Έστω επίσης, p P( A B,, και,,. ( B Σε επίπεδο σημαντικότητας α. 5, θα ελέγξουμε τη μηδενική υπόθεση, : p p q, για κάθε και έναντι της εναλλακτικής, : p p q, για τουλάχιστον ένα και ή αλλιώς, θα ελέγξουμε τη μηδενική υπόθεση, : Η ανθεκτικότητα στον ιό της γρίπης είναι ανεξάρτητη από τον αριθμό των δόσεων εμβολίου, έναντι της εναλλακτικής, : Η ανθεκτικότητα στον ιό της γρίπης εξαρτάται (επηρεάζεται από τον αριθμό των δόσεων εμβολίου. Αν δεχθούμε ότι η είναι αληθής, δηλαδή, αν δεχθούμε ότι τα ενδεχόμενα A και B είναι για κάθε και ανεξάρτητα, τότε η εκτιμώμενη αναμενόμενη συχνότητα Ê της αντίστοιχης κατηγορίας είναι RC E ˆ ν όπου, R το άθροισμα των στοιχείων της γραμμής του πίνακα συνάφειας, C το άθροισμα των στοιχείων της στήλης του πίνακα συνάφειας και ν το μέγεθος του δείγματος. Έτσι έχουμε: 46 E ˆ , E ˆ , E ˆ 6. 6 ˆ 954 E 98.6, ˆ E , E ˆ Στον πίνακα συνάφειας που ακολουθεί, για κάθε και παρατηρηθείσα συχνότητα, εκτός από την O, μέσα σε παρένθεση φαίνεται και η αντίστοιχη Ê. Ανθεκτικότητα Αρρώστησε Δεν αρρώστησε Σύνολα στηλών ( C Αριθμός δόσεων 4 ( ( (5 (4 ( (55.4 Σύνολα γραμμών ( R Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 495

26 Έλεγχος Χ Επειδή για κάθε και είναι Eˆ ν pˆ qˆ 5, μπορούμε να κάνουμε έλεγχο X ανεξαρτησίας. Έτσι, έχουμε (4 4.4 ( X Η απορριπτική περιοχή του ελέγχου είναι ( O ˆ E ˆ ( O E X > χ ( ( ;.5 ή X ˆ >, E ˆ, E και επειδή 7.5 > 5. 99, δηλαδή, επειδή η τιμή 7.5 της στατιστικής συνάρτησης ελέγχου είναι μεγαλύτερη της κρίσιμης τιμής χ ; (που παίρνουμε από τον πίνακα της χ κατανομής για ( ( βαθμούς ελευθερίας και α. 5, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας 5%, απορρίπτεται και επομένως τα συγκεκριμένα πειραματικά δεδομένα, σε επίπεδο σημαντικότητας 5%, δίνουν στατιστικά σημαντικές αποδείξεις ότι η ανθεκτικότητα στον ιό της γρίπης δεν είναι ανεξάρτητη από τον αριθμό των δόσεων εμβολίου. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Σχόλιο 4..: Ας δούμε, με ένα παράδειγμα, πώς μπορούμε να υπολογίζουμε τις εκτιμώμενες αναμενόμενες συχνότητες Ê σκεπτόμενοι με βάση το νόημα της ανεξαρτησίας (και την κοινή λογική, χωρίς δηλαδή, να χρειάζεται να καταφύγουμε στον τύπο E ˆ RC ν. Πιστεύουμε ότι αυτό θα βοηθήσει στην καλύτερη κατανόηση του νοήματος της ανεξαρτησίας και της διαδικασίας που εφαρμόσαμε. Θα χρησιμοποιήσουμε το Παράδειγμα 4.6. Από τα άτομα αρρώστησαν 46, δηλαδή, σε όλο το δείγμα το ποσοστό αυτών που αρρώστησαν είναι ή 4.6%. Εφόσον υποθέτουμε ότι το αν θα αρρωστήσει ή όχι κάποιος κάτοικος δεν εξαρτάται από τον αριθμό των δόσεων εμβολίου που έκανε, τότε πρέπει να περιμένουμε ότι και από αυτούς που έκαναν δόσεις, και από αυτούς που έκαναν δόση, και από αυτούς που έκαναν δόσεις, θα αρρωστήσει ίδιο ποσοστό, ίσο με 4.6% (όσο στο γενικό σύνολο. Έτσι, από τους κατοίκους που έκαναν δόσεις περιμένουμε να αρρωστήσουν κάτοικοι, από τους 9 κατοίκους που έκαναν δόση περιμένουμε να αρρωστήσουν κάτοικοι και από τους 578 κατοίκους που έκαναν δόσεις περιμένουμε να αρρωστήσουν κάτοικοι. Επίσης, το ποσοστό των ατόμων σε όλο το δείγμα που δεν αρρώστησαν είναι ή 95.4%. Σκεπτόμενοι όπως προηγουμένως, περιμένουμε το ποσοστό αυτό να είναι το ίδιο και στις τρεις περιπτώσεις δόσεων εμβολίου. Έτσι, από τους κατοίκους που έκαναν δόσεις περιμένουμε να μην αρρωστήσουν κάτοικοι, από τους 9 κατοίκους που έκαναν δόση περιμένουμε να μην αρρωστήσουν κάτοικοι και από τους 578 κατοίκους που έκαναν δόσεις περιμένουμε να μην αρρωστήσουν κάτοικοι. Παρατηρείστε ότι RC ν 4.4, Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 496

27 Έλεγχος Χ RC ν 5, κ.ο.κ. Φυσικά, κάτι τέτοιο δεν μας εκπλήσσει γιατί αυτό που ουσιαστικά κάναμε είναι να ερμηνεύσουμε την ανεξαρτησία ενδεχομένων μέσω της έννοιας της δεσμευμένης πιθανότητας, δηλαδή, μέσω των σχέσεων P ( A B P( A που είναι ισοδύναμες με τις σχέσεις P ( A B P( A P( B που χρησιμοποιήσαμε για να αποδείξουμε τον τύπο E ˆ RC ν. (Θυμηθείτε και όσα είχαμε πει για την ερμηνεία της δεσμευμένης πιθανότητας με όρους ποσοστών και ξαναδείτε π.χ. το Παράδειγμα 4.4. Ερώτηση: Μόλις ολοκληρώσαμε την παρουσίαση του ελέγχου X ανεξαρτησίας. Τι λέτε, μήπως τελικά πρόκειται για έναν έλεγχο X καλής προσαρμογής; 4. Έλεγχος Χ ομογένειας (ch-square test of homogenety Ένας r x c πίνακας συνάφειας, γενικά, προκύπτει όπως είδαμε όταν ν πειραματικές 9 μονάδες (και αντίστοιχα ν παρατηρήσεις ταξινομούνται ταυτόχρονα ως προς δύο χαρακτηριστικά σε r c κατηγορίες σύμφωνα με ένα τυχαίο πείραμα (ν επαναλήψεις μιας πολυωνυμικής δοκιμής με r c διαφορετικά αποτελέσματα/κατηγορίες. Αυτό σημαίνει ότι κάθε πειραματική μονάδα μπορεί να ταξινομηθεί σε οποιαδήποτε από τις r c κατηγορίες και επομένως, πόσες πειραματικές μονάδες ταξινομούνται ανά γραμμή και πόσες ανά στήλη του πίνακα, δηλαδή, τα αθροίσματα ανά στήλη και ανά γραμμή δεν είναι προκαθορισμένοι αριθμοί αλλά τυχαίες μεταβλητές. Σε έναν τέτοιο πειραματικό σχεδιασμό, προκαθορισμένος είναι μόνο ο αριθμός επαναλήψεων ν, δηλαδή, το μέγεθος του δείγματος ν. Για παράδειγμα, στην έρευνα για την πρόληψη της γρίπης που είδαμε στο Παράδειγμα 4.6, οι ερευνητές καθόρισαν το μέγεθος, ν, του τυχαίου δείγματος που πήραν, όμως πόσοι κάτοικοι πήραν μηδέν δόσεις και πόσοι πήραν δύο ή μία, δηλαδή, το άθροισμα κάθε στήλης του πίνακα συνάφειας (όπως και το άθροισμα κάθε γραμμής δεν προκαθορίσθηκε από τους ερευνητές αλλά προέκυψε ως αποτέλεσμα του τυχαίου πολυωνυμικού πειράματος. Υπάρχουν όμως περιπτώσεις όπου ο πειραματικός σχεδιασμός που επιλέξαμε οδηγεί σε πίνακα συνάφειας με αθροίσματα γραμμών ή στηλών προκαθορισμένα. Για παράδειγμα, στην έρευνα για την πρόληψη της γρίπης, οι ερευνητές θα μπορούσαν, με βάση τον αριθμό των δόσεων, να ορίσουν τρεις ομάδες/υποπληθυσμούς και να προκαθορίσουν πόσοι κάτοικοι θα κάνουν μηδέν δόσεις του εμβολίου, πόσοι θα κάνουν μία και πόσοι δύο, δηλαδή, να πάρουν τρία δείγματα προκαθορισμένου μεγέθους (ένα από κάθε υποπληθυσμό και στη συνέχεια κάθε δείγμα να ταξινομηθεί ως προς το χαρακτηριστικό «ανθεκτικότητα στον ιό» σε δύο κατηγορίες «αρρώστησε», «δεν αρρώστησε». Σε αυτή την περίπτωση, τα αθροίσματα των τριών στηλών του πίνακα συνάφειας θα ήταν σταθεροί προκαθορισμένοι αριθμοί και όχι αποτέλεσμα τυχαίας διαδικασίας. Ένας τέτοιος πίνακας ονομάζεται πίνακας συνάφειας με καθορισμένα αθροίσματα στηλών. Όπως θα δούμε στη συνέχεια, με έναν τέτοιο πίνακα συνάφειας (και σχεδιασμό μπορούμε να ελέγξουμε την ομογένεια υποπληθυσμών ως προς ένα χαρακτηριστικό. Έτσι, στο παράδειγμα μας, μπορούμε να ελέγξουμε αν οι τρεις υποπληθυσμοί που ορίσαμε είναι ομογενείς ως προς την ανθεκτικότητα στον ιό, ή αλλιώς, να ελέγξουμε αν το ποσοστό/αναλογία όσων 9 ή δειγματοληπτικές Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 497

28 Έλεγχος Χ αρρωσταίνουν (και αντίστοιχα όσων δεν αρρωσταίνουν είναι το ίδιο στους τρεις υποπληθυσμούς (σε αυτούς που κάνουν δόσεις, σε αυτούς που κάνουν μία και σε αυτούς που κάνουν δύο. Γενικά, ένας πίνακας συνάφειας με καθορισμένα αθροίσματα γραμμών ή στηλών (Contngency table wth fxed row or column totals, όπως ο Πίνακας 4.., προκύπτει όταν από c υποπληθυσμούς παίρνουμε c τυχαία δείγματα μεγέθους ν, ν, K, ν c αντίστοιχα, για να ελέγξουμε αν οι c υποπληθυσμοί είναι ομογενείς ως προς ένα πολυωνυμικό χαρακτηριστικό Α με r κατηγορίες A, A, K, Ar. Δηλαδή, για να ελέγξουμε αν η αναλογία κάθε κατηγορίας A, είναι ίδια στους c υποπληθυσμούς. Δείγμα- (από τον υποπληθυσμό- L c Σύνολα γραμμών A Q Q L Q c R Χαρακτηριστικό Α A Q Q L Q c R M M M M M r Q r Qr L Q rc R r ν ν L ν c ν Πίνακας 4.. A Σε έναν τέτοιο σχεδιασμό, προφανώς έχουμε c πολυωνυμικά πειράματα με r διαφορετικά αποτελέσματα/κατηγορίες το καθένα (αντί για ένα πολυωνυμικό πείραμα με r c διαφορετικά αποτελέσματα/κατηγορίες. Σημειώνουμε ότι μπορούμε να θεωρήσουμε ότι οι c υποπληθυσμοί ορίζονται μέσω των c διαφορετικών κατηγοριών B, B, K, Bc ενός χαρακτηριστικού Β. Όμως, επισημαίνουμε ότι τυχαία μεταβλητή είναι μόνο το χαρακτηριστικό Α και όχι το Β, αφού το πόσες παρατηρήσεις ταξινομούνται σε κάθε κατηγορία του Β, ή αλλιώς, το μέγεθος του δείγματος από κάθε υποπληθυσμό προκαθορίζεται από τον ερευνητή. Ας δούμε όμως ένα παράδειγμα. Χρειάζεται! Παράδειγμα 4.7: Ταξινομήσαμε τους ενήλικες κατοίκους ( 8 ετών μιας περιοχής σε πέντε ηλικιακές ομάδες, 8-4, 5-4, 5-49, 5-64 και 65, και από κάθε ομάδα επιλέξαμε (με βάση ένα σχέδιο τυχαίας δειγματοληψίας, 9,,, και 7 κατοίκους, αντίστοιχα. Ρωτήσαμε καθέναν από τους κατοίκους που επιλέξαμε πόσους καφέδες καταναλώνει ημερησίως, και τις απαντήσεις που πήραμε τις ταξινομήσαμε σε τρεις κατηγορίες: λιγότερους από τρεις, ακριβώς τρεις, περισσότερους από τρεις. Τα δεδομένα που προέκυψαν από τις απαντήσεις που πήραμε, φαίνονται στον πίνακα που ακολουθεί. Ηλικιακή ομάδα Ημερήσια Λιγότερους από κατανάλωση Ακριβώς καφέ Περισσότερους από Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 498

29 Έλεγχος Χ Να ελέγξετε, με βάση τα συγκεκριμένα δεδομένα, και σε επίπεδο σημαντικότητας α.5, αν οι πέντε ηλικιακές ομάδες είναι ομογενείς ως προς την ημερήσια κατανάλωση καφέ, δηλαδή, αν το ποσοστό των ενηλίκων που πίνουν λιγότερους από τρεις καφέδες ημερησίως, και αντίστοιχα, το ποσοστό των ενηλίκων που πίνουν τρεις καφέδες ημερησίως και το ποσοστό των ενηλίκων που πίνουν περισσότερους από τρεις καφέδες ημερησίως, είναι ίδιο στις πέντε ηλικιακές ομάδες; Απάντηση: Από τις c 5 κατηγορίες του χαρακτηριστικού «ηλικιακή ομάδα» ορίζονται 5 υποπληθυσμοί και από καθέναν παίρνουμε ένα τυχαίο δείγμα μεγέθους, αντίστοιχα, ν 9, ν, ν, ν 4 και ν 5 7. Κάθε δειγματοληπτική μονάδα, σε καθένα από τα 5 δείγματα, ταξινομείται ως προς το χαρακτηριστικό «ημερήσια κατανάλωση καφέ» σε μια από τρεις δυνατές κατηγορίες, «λιγότερους από», «ακριβώς», «περισσότερους από». Δημιουργείται έτσι ένας x 5 πίνακας συνάφειας με καθορισμένα αθροίσματα στηλών. Ζητείται να κάνουμε, σε επίπεδο σημαντικότητας.5, τον έλεγχο της μηδενικής υπόθεσης : Το ποσοστό (αναλογία των ενηλίκων που πίνουν λιγότερους από τρεις καφέδες ημερησίως είναι ίδιο στις πέντε ηλικιακές ομάδες και το ποσοστό (αναλογία των ενηλίκων που πίνουν ακριβώς τρεις καφέδες ημερησίως είναι ίδιο στις πέντε ηλικιακές ομάδες και το ποσοστό (αναλογία των ενηλίκων που πίνουν περισσότερους από τρεις καφέδες ημερησίως είναι ίδιο στις πέντε ηλικιακές ομάδες έναντι της εναλλακτικής, : όχι η ή υπάρχουν δύο τουλάχιστον ηλικιακές ομάδες με διαφορετικά ποσοστά (αναλογίες σε μια τουλάχιστον κατηγορία. Αν p η πιθανότητα μια τυχαία παρατήρηση από τον πληθυσμό,,,,4, 5, να ταξινομηθεί στην κατηγορία,,, τότε, η και η προφανώς διατυπώνονται ως εξής: : p p p p4 p5, για κάθε,,, έναντι της εναλλακτικής, : όχι η ή υπάρχουν δύο τουλάχιστον ηλικιακές ομάδες με διαφορετικά ποσοστά (αναλογίες σε μια τουλάχιστον κατηγορία. Για τον έλεγχο αυτό χρησιμοποιείται η στατιστική συνάρτηση ελέγχου και η περιοχή απόρριψης που χρησιμοποιείται στον έλεγχο Χ ανεξαρτησίας. Δηλαδή, ο έλεγχος αυτός γίνεται ως να επρόκειτο για έλεγχο Χ ανεξαρτησίας. Πράγματι, αποδεικνύεται ότι: Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 499

30 Έλεγχος Χ Έστω ότι από c υποπληθυσμούς παίρνουμε c τυχαία δείγματα μεγέθους ν, ν,, ν c αντίστοιχα, για να ελέγξουμε αν οι c υποπληθυσμοί είναι ομογενείς ως προς ένα πολυωνυμικό χαρακτηριστικό Α με r κατηγορίες A, A, K, A. r K Έστω επίσης, p η πιθανότητα μια τυχαία παρατήρηση από τον πληθυσμό,,, c, να ταξινομηθεί στην κατηγορία,,, r. Σε επίπεδο σημαντικότητας α, η μηδενική υπόθεση : p p K pc, για κάθε,, r απορρίπτεται έναντι της εναλλακτικής, : όχι η αν ( O ˆ E X > χ ( r ( c ; α ˆ, E και εφόσον E ˆ R ν ν 5 για όλα τα και. Ο έλεγχος αυτός ονομάζεται έλεγχος Χ ομογένειας (ch-square test of homogenety. Σχόλιο 4..: Το ότι ο έλεγχος X ομογένειας γίνεται όπως ο έλεγχος X ανεξαρτησίας, είναι μάλλον κάτι αναμενόμενο, αν σκεφθούμε ότι η μηδενική υπόθεση του ελέγχου ομογένειας, : p p K pc, για κάθε,, r, ισοδύναμα μπορεί να γραφτεί, : για κάθε κατηγορία, η αναλογία είναι ανεξάρτητη από τον υποπληθυσμό. Θυμηθείτε επίσης την ερμηνεία της ανεξαρτησίας μέσω των σχέσεων P A B P( A. ( Ας ολοκληρώσουμε τώρα τον έλεγχο του παραδείγματός μας. Στον πίνακα συνάφειας που ακολουθεί, για κάθε και, φαίνεται η παρατηρηθείσα συχνότητα O, και μέσα σε παρένθεση φαίνεται η αντίστοιχη Ê που υπολογίζεται όπως στον έλεγχο X ανεξαρτησίας από τον τύπο RC R E ˆ ν ή E ˆ. ν ν Πράγματι, 8 9 E ˆ 8.6 8, E ˆ 6. 6, κ.ο.κ. Ημερήσια κατανάλωση καφέ < > Ηλικιακή ομάδα 4 5 Σύνολα Γραμμών (8.6 (6.6 (98.58 (7.4 ( (4.5 (89 (7.95 (.5 ( (. (47.4 (7.47 (54.5 ( Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 5

31 Έλεγχος Χ Επειδή για κάθε και είναι E ˆ 5, μπορούμε να κάνουμε έλεγχο Έτσι, έχουμε (8 8.6 (4 4.9 X X ομογένειας. Η απορριπτική περιοχή του ελέγχου είναι ( O ˆ E ˆ ( O E X > χ ( (5 ;.5 ή X ˆ >, E ˆ, E και επειδή 6.7 > 5. 57, δηλαδή, επειδή η τιμή 6.7 της στατιστικής συνάρτησης ελέγχου είναι μεγαλύτερη της κρίσιμης τιμής χ 8 ; (που παίρνουμε από τον πίνακα της χ κατανομής για ( (5 8 βαθμούς ελευθερίας και α.5, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας 5%, απορρίπτεται και επομένως τα συγκεκριμένα πειραματικά δεδομένα, σε επίπεδο σημαντικότητας 5%, δίνουν στατιστικά σημαντικές αποδείξεις ότι υπάρχουν δύο τουλάχιστον ηλικιακές ομάδες με διαφορετικά ποσοστά (αναλογίες σε μια τουλάχιστον κατηγορία, ή αλλιώς, ότι οι πέντε ηλικιακές ομάδες δεν είναι ομογενείς ως προς την ημερήσια κατανάλωση καφέ, δηλαδή, τα 5 δείγματα δεν προέρχονται από τον ίδιο πληθυσμό. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Ας δούμε ένα ακόμη παράδειγμα. Παράδειγμα 4.8: Σε μια έρευνα για τα ποσοστά δημοτικότητας ενός δημάρχου σε τέσσερα δημοτικά διαμερίσματα, επιλέξαμε με βάση ένα σχέδιο τυχαίας δειγματοληψίας (που λαμβάνει υπόψη και το μέγεθος κάθε διαμερίσματος, κατοίκους από το ο δημοτικό διαμέρισμα, 8 από το ο, 5 από το ο και από το 4 ο. Κάθε κάτοικος που επελέγη ρωτήθηκε αν κρίνει θετικά ή αρνητικά το έργο του δημάρχου. Τα δεδομένα που προέκυψαν από τις απαντήσεις που πήραμε, φαίνονται στον πίνακα που ακολουθεί. Γνώμη Δημοτικό διαμέρισμα 4 Θετική Αρνητική Με βάση αυτά τα δεδομένα, να ελέγξετε σε επίπεδο σημαντικότητας α. 5, αν το ποσοστό θετικής γνώμης για το έργο του δημάρχου είναι ίδιο στα τέσσερα δημοτικά διαμερίσματα ή υπάρχουν διαφοροποιήσεις. Απάντηση: Τα αθροίσματα των στηλών, ν, ν 8, 5 ν, ν 4, είναι προκαθορισμένα. Επομένως πρόκειται για τέσσερα πολυωνυμικά πειράματα. Ειδικότερα, πρόκειται για τέσσερα διωνυμικά πειράματα, αφού καθένα από τα δείγματα ταξινομείται σε δύο κατηγορίες: θετική γνώμη, αρνητική γνώμη. Ζητείται να κάνουμε σε επίπεδο σημαντικότητας.5, τον έλεγχο της μηδενικής υπόθεσης : Το ποσοστό (αναλογία θετικής γνώμης είναι ίδιο στα τέσσερα δημοτικά διαμερίσματα έναντι της εναλλακτικής, και επομένως και αρνητικής γνώμης Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 5

32 Έλεγχος Χ : όχι η ή σε δύο τουλάχιστον δημοτικά διαμερίσματα το ποσοστό θετικής γνώμης δεν είναι ίδιο. Αν p η πιθανότητα (ποσοστό/αναλογία θετικής γνώμης στο δημοτικό διαμέρισμα,,,,4, τότε η και η γράφονται : p p p p4 : δεν είναι όλα τα p,,,, 4 ίσα. Σημείωση 4..: Επειδή οι κατηγορίες του χαρακτηριστικού «γνώμη για το έργο του δημάρχου» είναι μόνο δύο, για να συμβολίσουμε τις πιθανότητες p (μια τυχαία παρατήρηση από τον πληθυσμό,,, c, να ταξινομηθεί στην κατηγορία,,, r, χρειάσθηκε μόνο ένας δείκτης. Οι αντίστοιχες πιθανότητες αρνητικής γνώμης συμβολίζονται με q,,,, 4. Στον πίνακα συνάφειας που ακολουθεί, για κάθε και, φαίνεται η παρατηρηθείσα συχνότητα O και μέσα σε παρένθεση φαίνεται η αντίστοιχη εκτιμώμενη αναμενόμενη (με βάση τη μηδενική υπόθεση συχνότητα Ê που υπολογίζεται από τον τύπο, E ˆ R ν ν. Πράγματι, 8 E ˆ , E ˆ , κ.ο.κ. Γνώμη Θετική Αρνητική Δημοτικό διαμέρισμα 4 Σύνολα γραμμών 6 7 (.7 (4.78 (77. ( (97. (6. (7.97 ( Επειδή για κάθε και είναι E ˆ 5, κάνουμε έλεγχο (.7 (4 5.5 X X ομογένειας. Έτσι, έχουμε Η απορριπτική περιοχή του ελέγχου είναι ( O ˆ E ˆ ( O E X > χ ( (4 ;.5 ή X ˆ >, E ˆ, E και επειδή.87 > 7. 85, δηλαδή, επειδή η τιμή.87 της στατιστικής συνάρτησης ελέγχου είναι μεγαλύτερη της κρίσιμης τιμής χ ; (που παίρνουμε από τον πίνακα της χ κατανομής για ( (4 βαθμούς ελευθερίας και α. 5, η μηδενική υπόθεση, σε επίπεδο σημαντικότητας 5%, απορρίπτεται και επομένως τα συγκεκριμένα δεδομένα, σε επίπεδο σημαντικότητας 5%, δίνουν στατιστικά σημαντικές αποδείξεις ότι υπάρχουν δύο τουλάχιστον δημοτικά διαμερίσματα με διαφορετικά ποσοστά (αναλογίες θετικής γνώμης για το Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 5

33 Έλεγχος Χ έργο του δημάρχου, ή αλλιώς, ότι τα τέσσερα δημοτικά διαμερίσματα δεν είναι ομογενή ως προς τη γνώμη των κατοίκων για το έργο του δημάρχου, δηλαδή, τα τέσσερα δείγματα δεν προέρχονται από τον ίδιο πληθυσμό. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Το συμπέρασμα θα μπορούσε επίσης να διατυπωθεί ως εξής: τα συγκεκριμένα δεδομένα, σε επίπεδο σημαντικότητας 5%, δίνουν στατιστικά σημαντικές αποδείξεις ότι το ποσοστό θετικής γνώμης για το έργο του δημάρχου δεν είναι ανεξάρτητο από το δημοτικό διαμέρισμα! Παρατήρηση 4..: Στην περίπτωση που r c, δηλαδή στην περίπτωση που μελετάμε δύο διωνυμικά πειράματα ο πίνακας συνάφειας είναι x (δες Πίνακα 4... Σύνολα Δείγμα- Δείγμα- γραμμών A :Επιτυχία Q Q R A :Αποτυχία Q Q R ν ν Πίνακα 4.. Αν συμβολίσουμε με p την πιθανότητα (ποσοστό/αναλογία επιτυχίας στον υποπληθυσμό- και με p την πιθανότητα (ποσοστό/αναλογία επιτυχίας στον υποπληθυσμό- (και επομένως με q την πιθανότητα αποτυχίας στον υποπληθυσμό- και με q την πιθανότητα αποτυχίας στον υποπληθυσμό-, τότε ο έλεγχος ομογένειας, δηλαδή, ο έλεγχος της μηδενικής υπόθεσης : p p, για κάθε, έναντι της εναλλακτικής : p p, για τουλάχιστον ένα γράφεται : p p και q q : p p ή q q ή ισοδύναμα, : p p : p p. Πρόκειται δηλαδή για έλεγχο σύγκρισης δύο διωνυμικών ποσοστών, p και p. Έτσι αν λάβουμε υπόψη μας την Παρατήρηση 4.. για την ισοδυναμία του Ζ ελέγχου για διωνυμικό ποσοστό με τον έλεγχο X καλής προσαρμογής, είναι λογικό να περιμένουμε ο Ζ έλεγχος για τη σύγκριση δύο διωνυμικών ποσοστών να είναι ισοδύναμος, με τον έλεγχο X ομογένειας. Περιμένουμε δηλαδή, οι δύο αυτοί έλεγχοι να δίνουν ίδιο αποτέλεσμα. Πράγματι έτσι είναι. Ας δούμε ένα σχετικό παράδειγμα. Παράδειγμα 4.9 (συνέχεια του Παραδείγματος.9: Στο περιοδικό ournal of Bology δημοσιεύθηκαν τα αποτελέσματα μιας έρευνας για το ποσοστό, p, των ψαριών στη Μεσόγειο και το ποσοστό, p, των ψαριών στον Ατλαντικό που έχουν προσβληθεί από παράσιτα. Στη Μεσόγειο, από 588 τυχαία επιλεγμένα ψάρια που εξετάσθηκαν Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 5

34 Έλεγχος Χ βρέθηκαν μολυσμένα από παράσιτα τα ενώ στον Ατλαντικό, από τυχαία επιλεγμένα ψάρια που εξετάσθηκαν, βρέθηκαν μολυσμένα από παράσιτα τα 6. Σε επίπεδο σημαντικότητας.5, τα ευρήματα στα δύο δείγματα δίνουν στατιστικά σημαντικές αποδείξεις ότι το ποσοστό των ψαριών στη Μεσόγειο που έχουν προσβληθεί από παράσιτα δεν είναι ίδιο με το ποσοστό των ψαριών στον Ατλαντικό που έχουν προσβληθεί από παράσιτα; Απάντηση: Πρόκειται για έλεγχο σύγκρισης δύο διωνυμικών ποσοστών. Πρέπει να κάνουμε, σε επίπεδο σημαντικότητας 5%, τον έλεγχο της μηδενικής υπόθεσης : p p έναντι της εναλλακτικής : p p. ος τρόπος: Στο Παράδειγμα.9 κάναμε τον έλεγχο αυτό με απορριπτική περιοχή pˆ ˆ p z z.5.96 pˆ ( pˆ + n n και βρήκαμε pˆ ˆ p z..96. pˆ ( pˆ + n n Έτσι, σε επίπεδο σημαντικότητας 5% απορρίψαμε τη μηδενική υπόθεση και συμπεράναμε ότι τα συγκεκριμένα ευρήματα στα δύο δείγματα δίνουν στατιστικά σημαντικές αποδείξεις ότι το ποσοστό των ψαριών στη Μεσόγειο που έχουν προσβληθεί από παράσιτα δεν είναι ίδιο με το ποσοστό των ψαριών στον Ατλαντικό που έχουν προσβληθεί από παράσιτα. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. ος τρόπος: Για τον έλεγχο των δύο ποσοστών θα κάνουμε έλεγχο X ομογένειας. Στον πίνακα συνάφειας που ακολουθεί, για κάθε και, φαίνεται η παρατηρηθείσα συχνότητα O και μέσα σε παρένθεση φαίνεται η αντίστοιχη εκτιμώμενη αναμενόμενη (με βάση τη μηδενική υπόθεση συχνότητα Ê. Μολυσμένα Όχι μολυσμένα Δείγμα- (από Μεσόγειο Δείγμα- (από Ατλαντικό Σύνολα γραμμών 6 (96 ( (9 ( Επειδή για κάθε και είναι ˆ E 5, μπορούμε να κάνουμε έλεγχο X ομογένειας, έτσι, έχουμε ( 96 (77 9 (6 4 (97 8 X Η απορριπτική περιοχή του ελέγχου είναι Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 54

35 Έλεγχος Χ ( O Eˆ ( O Eˆ X > χ ( ( ;.5 ή X. 84 ˆ >, E ˆ, E και επειδή >. 84 η μηδενική υπόθεση, σε επίπεδο σημαντικότητας 5%, απορρίπτεται και επομένως τα συγκεκριμένα ευρήματα στα δύο δείγματα, σε επίπεδο σημαντικότητας 5%, δίνουν στατιστικά σημαντικές αποδείξεις ότι το ποσοστό των ψαριών στη Μεσόγειο που έχουν προσβληθεί από παράσιτα δεν είναι ίδιο με το ποσοστό των ψαριών στον Ατλαντικό που έχουν προσβληθεί από παράσιτα. Η πιθανότητα το συμπέρασμα αυτό να είναι λάθος, είναι το πολύ.5. Πράγματι λοιπόν, το συμπέρασμα και με τους δύο ελέγχους είναι το ίδιο. Παρατηρείστε τις τιμές της στατιστικής συνάρτησης ελέγχου στις δύο περιπτώσεις. Είναι z. και X αντίστοιχα, δηλαδή z. X Παρατηρείστε επίσης, ότι για τις κρίσιμες τιμές των δύο ελέγχων είναι ( z χ;.5. Σημείωση 4..: α Στην περίπτωση που ο πίνακας συνάφειας είναι x, όπως στο προηγούμενο παράδειγμα, και άρα ο έλεγχος γίνεται με ( ( βαθμό ελευθερίας, προτείνεται να γίνεται η διόρθωση συνέχειας του Yates (όπως και στον έλεγχο X καλής προσαρμογής με ένα βαθμό ελευθερίας (Σημείωση 4... β Επίσης, όταν ο πίνακας συνάφειας είναι x και υπάρχει μία τουλάχιστον αναμενόμενη συχνότητα μικρότερη του 5 οπότε δε μπορεί να γίνει έλεγχος X, προτείνεται να γίνεται ο ακριβής έλεγχος Fsher (Fsher s exact test. Δε θα επεκταθούμε περισσότερο. Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 55

36 Έλεγχος Χ Προβλήματα και Ασκήσεις. Στη βιβλιογραφία αναφέρεται ότι τα ποσοστά των ομάδων αίματος Α, Β, ΑΒ και Ο σε έναν πληθυσμό είναι,.4,.,.4 και.45, αντίστοιχα. Μια ομάδα ερευνητών, προκειμένου να ελέγξει αν τα ποσοστά των ομάδων αίματος σε αυτόν τον πληθυσμό είναι πράγματι αυτά που αναφέρονται στην βιβλιογραφία, επέλεξε τυχαία άτομα από αυτόν τον πληθυσμό και για καθένα κατέγραψε την ομάδα αίματός του. Στον πίνακα που ακολουθεί φαίνεται η συχνότητα κάθε ομάδας αίματος που παρατηρήθηκε στο δείγμα. Παρατηρηθείσα συχνότητα Ομάδα αίματος Α Β ΑΒ Ο Σε επίπεδο σημαντικότητας 5%, τα ποσοστά που παρατηρούνται στο δείγμα συμφωνούν ή όχι, με τα αντίστοιχα ποσοστά που αναφέρονται στη βιβλιογραφία;. Ένας ερευνητής σχεδίασε και εκτέλεσε το εξής πείραμα: σε έναν κλειστό διάδρομο στο τέλος του οποίου υπήρχαν τρεις έξοδοι διαφορετικού χρώματος (πράσινου, κόκκινου και μπλε αντίστοιχα, απελευθέρωσε ένα ποντίκι 9 φορές και κατέγραψε πόσες φορές αυτό διέφυγε από την πράσινη έξοδο, πόσες από την κόκκινη και πόσες από τη μπλε. Η συχνότητα που παρατηρήθηκε για κάθε έξοδο διαφυγής φαίνεται στον πίνακα που ακολουθεί. Παρατηρηθείσα συχνότητα Έξοδος διαφυγής Πράσινη Κόκκινη Μπλε 9 Σε επίπεδο σημαντικότητας 5%, υποστηρίζουν αυτά τα πειραματικά δεδομένα ότι το ποντίκι δε δείχνει την ίδια προτίμηση και για τις τρεις εξόδους;. Μια εταιρεία προκειμένου να επιλέξει το όνομα ενός νέου προϊόντος της, έκανε μια έρευνα για να ελέγξει κατά πόσο τέσσερα ονόματα, έστω Α, Β, Γ, Δ, που έχουν προταθεί, είναι εξίσου ελκυστικά. Ρωτήθηκαν τυχαία επιλεγμένοι δυνητικοί αγοραστές του προϊόντος να δηλώσουν ποιο από τα τέσσερα ονόματα είναι κατά τη γνώμη τους το καλύτερο. Τα αποτελέσματα που προέκυψαν φαίνονται στον πίνακα που ακολουθεί. Όνομα Α Β Γ Δ Παρατηρηθείσα συχνότητα Σε επίπεδο σημαντικότητας 5%, υποστηρίζουν αυτά τα δεδομένα ότι οι καταναλωτές δε δείχνουν την ίδια προτίμηση και για τα τέσσερα υποψήφια ονόματα; 4. Μια έρευνα που έγινε πριν τρία χρόνια για την ανάλυση των προτιμήσεων των καταναλωτών στα είδη καθημερινής συντήρησης του νοικοκυριού (απορρυπαντικά, καθαριστικά, χαρτικά έδειξε ότι το 7% των σχετικών πωλήσεων ήταν προϊόντα επώνυμων εταιρειών, το % ήταν προϊόντα ιδιωτικής Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 56

37 Έλεγχος Χ ετικέτας και το 8% ήταν απομιμήσεις (no name. Προκειμένου να ελέγξετε αν αυτά τα ποσοστά ισχύουν ακόμη, επιλέξατε (με βάση ένα σχέδιο τυχαίας δειγματοληψίας 5 προϊόντα αυτής της κατηγορίας από τις πωλήσεις του τελευταίου τριμήνου και βρήκατε ότι από αυτά ήταν επώνυμων εταιρειών, ήταν ιδιωτικής εταιρείας και 6 ήταν απομιμήσεις. Τι λέτε, αυτά τα δεδομένα δίνουν, σε επίπεδο σημαντικότητας.5, στατιστικά σημαντικές αποδείξεις ότι τα ποσοστά που είχαν προκύψει από την προ τριετίας έρευνα έχουν πλέον αλλάξει; 5. Ένας ερευνητής μέτρησε την τιμή ένας αιματολογικού δείκτη ζώων, τυχαία επιλεγμένων, από μια μεγάλη κτηνοτροφική μονάδα. Τις παρατηρήσεις που πήρε τις ομαδοποίησε σε πέντε κλάσεις αφού προηγουμένως τις τυποποίησε (από κάθε μια αφαίρεσε τη μέση τιμή τους και διαίρεσε τη διαφορά που προέκυψε με την τυπική απόκλισή τους. Προέκυψε, έτσι, ο ακόλουθος πίνακας συχνοτήτων. Τιμή του δείκτη (τυποποιημένη Παρατηρηθείσα συχνότητα < [-.5, -.5 [-.5,.5 4 [.5, Σε επίπεδο σημαντικότητας 5%, μπορούμε να ισχυρισθούμε ότι οι τυποποιημένες τιμές του δείγματος προέρχονται από την τυποποιημένη κανονική κατανομή; 6. Στην εικόνα που ακολουθεί φαίνονται οι θέσεις 68 φρεατίων έρευνας για κοίτασμα πετρελαίου σε μια περιοχή του Texas. Η περιοχή έχει διαιρεθεί σε x6 6 τμήματα σχήματος τετραγώνου και εμβαδού m το καθένα. Ο πίνακας συχνοτήτων της χωροδιάταξης των φρεατίων είναι ο ακόλουθος: Αριθμός φρεατίων ανά τμήμα Παρατηρηθείσα συχνότητα Σύνολο 6 Γεωπονικό Πανεπιστήμιο Αθηνών / Γ. Παπαδόπουλος ( 57

Έλεγχοι Χ 2 (Μέρος 1 ο ) 28/4/2017

Έλεγχοι Χ 2 (Μέρος 1 ο ) 28/4/2017 Έλεγχοι Χ 2 (Μέρος 1 ο ) 28/4/2017 2 Έλεγχοι Χ 2 Οι έλεγχοι που μπορούν να πραγματοποιηθούν είναι οι εξής: 1. Έλεγχος Χ 2 καλής προσαρμογής 2. Έλεγχος Χ 2 ανεξαρτησίας 3. Έλεγχος Χ 2 ομογένειας Αυτό που

Διαβάστε περισσότερα

Έλεγχος Χ 2 (καλής προσαρμογής, ανεξαρτησίας και ομογένειας) Προβλήματα και Ασκήσεις

Έλεγχος Χ 2 (καλής προσαρμογής, ανεξαρτησίας και ομογένειας) Προβλήματα και Ασκήσεις Έλεγχος Χ -Προβλήματα και Ασκήσεις Έλεγχος Χ (καλής προσαρμογής, ανεξαρτησίας και ομογένειας) Προβλήματα και Ασκήσεις 1. Στη βιβλιογραφία αναφέρεται ότι τα ποσοστά των ομάδων αίματος Α, Β, ΑΒ και Ο σε

Διαβάστε περισσότερα

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011 Εργαστήριο Μαθηματικών & Στατιστικής Γραπτή Εξέταση Περιόδου Φεβρουαρίου για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 5//. [] Η ποσότητα, έστω Χ, ενός συντηρητικού που περιέχεται σε φιάλες αναψυκτικού

Διαβάστε περισσότερα

συγκέντρωση της ουσίας στον παραπόταμο είναι αυξημένη σε σχέση με τον ίδιο τον ποταμό;

συγκέντρωση της ουσίας στον παραπόταμο είναι αυξημένη σε σχέση με τον ίδιο τον ποταμό; Γραπτή Εξέταση Περιόδου Ιουνίου 008 στο Μάθημα Στατιστική /07/08. Η πιθανότητα να υπάρχει στο υπέδαφος μιας συγκεκριμένης περιοχής εκμεταλλεύσιμο κοίτασμα πετρελαίου είναι 50%. Μια εταιρεία, που πρόκειται

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Όπως θα δούμε αργότερα στη Στατιστική Συμπερασματολογία, λέγοντας ότι «από έναν πληθυσμό παίρνουμε ένα τυχαίο δείγμα μεγέθους» εννοούμε ανεξάρτητες τυχαίες μεταβλητές,,..., που

Διαβάστε περισσότερα

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40] Εργαστήριο Μαθηματικών & Στατιστικής η Πρόοδος στο Μάθημα Στατιστική 8// (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) ο Θέμα [4] Τα τελευταία χρόνια παρατηρείται συνεχώς αυξανόμενο ενδιαφέρον για τη μελέτη της συγκέντρωσης

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Στα προηγούμενα (σελ. 7), δώσαμε μια πρώτη, γενική, διατύπωση του Κεντρικού Οριακού Θεωρήματος (Κ.Ο.Θ.) και τη γενική ιδέα για το πώς το Κ.Ο.Θ. εξηγεί το μεγάλο εύρος εφαρμογής

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Στα προηγούμενα (σελ. 7), δώσαμε μια πρώτη, γενική, διατύπωση του Κεντρικού Οριακού Θεωρήματος (Κ.Ο.Θ.) και τη γενική ιδέα για το πώς το Κ.Ο.Θ. εξηγεί το μεγάλο εύρος εφαρμογής

Διαβάστε περισσότερα

Η Διωνυμική Κατανομή. μαθηματικών. 2 Ο γονότυπος μπορεί να είναι ΑΑ, Αα ή αα.

Η Διωνυμική Κατανομή. μαθηματικών. 2 Ο γονότυπος μπορεί να είναι ΑΑ, Αα ή αα. Η Διωνυμική Κατανομή Η Διωνυμική κατανομή συνδέεται με ένα πολύ απλό πείραμα τύχης. Ίσως το απλούστερο! Πρόκειται για τη δοκιμή Bernoulli, ένα πείραμα τύχης με μόνο δύο, αμοιβαίως αποκλειόμενα, δυνατά

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 22 Μαΐου 2017 1/32 Εισαγωγή: Τυπικό παράδειγμα στατιστικού ελέγχου υποθέσεων. Ενας νέος τύπος

Διαβάστε περισσότερα

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων 6.1 Το Πρόβλημα του Ελέγχου Υποθέσεων Ενός υποθέσουμε ότι μία φαρμακευτική εταιρεία πειραματίζεται πάνω σε ένα νέο φάρμακο για κάποια ασθένεια έχοντας ως στόχο, τα πρώτα θετικά

Διαβάστε περισσότερα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 6-7 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή: Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 7-8 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2013 στη Στατιστική

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2013 στη Στατιστική Εργαστήριο Μαθηματικών & Στατιστικής ΣΕΙΡΑ Α Γραπτή Εξέταση Περιόδου Φεβρουαρίου 013 στη Στατιστική για τα Τμήματα Ε.Τ.Τ., Γ.Β., Α.Ο.Α. και Ε.Ζ.Π.&Υ. 08/0/013 1. [0] Η ποσότητα, έστω Χ, καλίου που περιέχεται

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017 Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017 2 Η γενική ιδέα της διαδικασίας στατιστικού ελέγχου υποθέσεων Πρόκειται για μια διαδικασία απόφασης μεταξύ δύο υποθέσεων Η μια υπόθεση ονομάζεται μηδενική

Διαβάστε περισσότερα

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x Εργαστήριο Μαθηματικών & Στατιστικής η Πρόοδος στο Μάθημα Στατιστική // (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) ο Θέμα [] Επιλέξαμε φακελάκια (της μισής ουγκιάς) που περιέχουν σταφίδες από την παραγωγή μιας εταιρείας

Διαβάστε περισσότερα

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 2 Η γενική ιδέα της διαδικασίας στατιστικού ελέγχου υποθέσεων Πρόκειται για μια διαδικασία απόφασης μεταξύ δύο υποθέσεων Η μια υπόθεση ονομάζεται μηδενική (Η

Διαβάστε περισσότερα

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test)

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test) .5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test) Ο διωνυμικός έλεγχος μπορεί να χρησιμοποιηθεί για τον έλεγχο υποθέσεων αναφερομένων στα ποσοστιαία σημεία μίας τυχαίας μεταβλητής. Στην

Διαβάστε περισσότερα

και τυπική απόκλιση σ = 40mg ανά μπανάνα. α) Ποια είναι η πιθανότητα μια μπανάνα να περιέχει i)

και τυπική απόκλιση σ = 40mg ανά μπανάνα. α) Ποια είναι η πιθανότητα μια μπανάνα να περιέχει i) Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ Γραπτή Εξέταση Περιόδου Ιανουαρίου 8 στο Μάθημα Στατιστική 7..8. [] Ο ανθρώπινος οργανισμός χρειάζεται καθημερινά από έως 6 mg (mllgrams) καλίου. Η ποσότητα καλίου που περιέχεται στα τρόφιμα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 5-6 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Έλεγχος Ανεξαρτησίας x2 του Pearson x2 του Pearson

Έλεγχος Ανεξαρτησίας x2 του Pearson x2 του Pearson Έλεγχος Ανεξαρτησίας x του Parso Έστω ότι λαμβάνουμε δείγμα μεγέθους. Η πιθανότητα π εμφάνισης ενός χαρακτηριστικού να βρεθεί στο κελί (i,j) κάτω από την υπόθεση Η 0 της ανεξαρτησίας δίνεται από την σχέση

Διαβάστε περισσότερα

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο Copyright 2009 Cengage Learning 15.1 Ένα Κοινό Θέμα Τι πρέπει να γίνει; Τύπος Δεδομένων; Πλήθος Κατηγοριών; Στατιστική Μέθοδος; Περιγραφή ενός πληθυσμού Ονομαστικά Δύο ή

Διαβάστε περισσότερα

Διαστήματα Εμπιστοσύνης και Στατιστικοί Έλεγχοι Υποθέσεων Προβλήματα και Ασκήσεις

Διαστήματα Εμπιστοσύνης και Στατιστικοί Έλεγχοι Υποθέσεων Προβλήματα και Ασκήσεις Διαστήματα Εμπιστοσύνης και Στατιστικοί Έλεγχοι Υποθέσεων Προβλήματα και Ασκήσεις Για κάθε πρόβλημα που ακολουθεί, εκτός των ερωτημάτων που διατυπώνονται, να γίνουν (με τη βοήθεια κάποιου στατιστικού πακέτου)

Διαβάστε περισσότερα

α) t-test µε ίσες διακυµάνσεις β) ανάλυση διακύµανσης µε έναν παράγοντα Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις

α) t-test µε ίσες διακυµάνσεις β) ανάλυση διακύµανσης µε έναν παράγοντα Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις ΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΤΜΗΜΑ ΙΕΘΝΩΝ ΟΙΚΟΝΟΜΙΚΩΝ ΣΧΕΣΕΩΝ ΚΑΙ ΑΝΑΠΤΥΞΗΣ ΜΑΘΗΜΑ: ΣΤΑΤΙΣΤΙΚΗ IΙ ΕΙΣΗΓΗΤΡΙΑ: ΣΑΒΒΑΣ ΠΑΠΑ ΟΠΟΥΛΟΣ ΠΑΛΑΙΑ ΘΕΜΑΤΑ ********************************************************************

Διαβάστε περισσότερα

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ .4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ Η μέθοδος για τον προσδιορισμό ενός διαστήματος εμπιστοσύνης για την άγνωστη πιθανότητα =P(A) ενός ενδεχομένου A συνδέεται στενά με τον διωνυμικό έλεγχο. Ένα

Διαβάστε περισσότερα

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή: Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών

Διαβάστε περισσότερα

5. Έλεγχοι Υποθέσεων

5. Έλεγχοι Υποθέσεων 5. Έλεγχοι Υποθέσεων Υποθέσεις Η μηδενική υπόθεση Η (ή ΗΑ) εναλλακτική υπόθεση Δεχόμαστε Η Απορρίπτουμε Η Η σωστή Σωστή απόφαση -α Σφάλμα τύπου Ι α Η λάθος Σφάλμα τύπου ΙΙ β Σωστή απόφαση -β ΒΙΟ39-Έλεγχος

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test 1 Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου One-Sample t-test 2 Μια σύντομη αναδρομή Στα τέλη του 19 ου αιώνα μια μεγάλη αλλαγή για την επιστήμη ζυμώνονταν στην ζυθοποιία Guinness. Ο William Gosset

Διαβάστε περισσότερα

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ. Επαγωγική στατιστική (Στατιστική Συμπερασματολογία) Εκτιμητική Έλεγχος Στατιστικών Υποθέσεων

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ. Επαγωγική στατιστική (Στατιστική Συμπερασματολογία) Εκτιμητική Έλεγχος Στατιστικών Υποθέσεων ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ Επαγωγική στατιστική (Στατιστική Συμπερασματολογία) Εκτιμητική Έλεγχος Στατιστικών Υποθέσεων α) Σημειοεκτιμητική β) Εκτιμήσεις Διαστήματος ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ Παράδειγμα

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 2015 Πληθυσμός: Εισαγωγή Ονομάζεται το σύνολο των χαρακτηριστικών που

Διαβάστε περισσότερα

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες Πινάκες συνάφειας εξερεύνηση σχέσεων μεταξύ τυχαίων μεταβλητών. Είναι λογικό λοιπόν, στην ανάλυση των κατηγορικών δεδομένων να μας ενδιαφέρει η σχέση μεταξύ δύο ή περισσότερων κατηγορικών μεταβλητών. Έστω

Διαβάστε περισσότερα

Μέθοδος μέγιστης πιθανοφάνειας

Μέθοδος μέγιστης πιθανοφάνειας Μέθοδος μέγιστης πιθανοφάνειας Αν x =,,, παρατηρήσεις των Χ =,,,, τότε έχουμε διαθέσιμο ένα δείγμα Χ={Χ, =,,,} της κατανομής F μεγέθους με από κοινού σ.κ. της Χ f x f x Ορισμός : Θεωρούμε ένα τυχαίο δείγμα

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων ΙΙ

Στατιστική Επιχειρήσεων ΙΙ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Στατιστική Επιχειρήσεων ΙΙ Ενότητα #4: Έλεγχος Υποθέσεων Μιλτιάδης Χαλικιάς Τμήμα Διοίκησης Επιχειρήσεων Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ερωτήσεις κατανόησης

Ερωτήσεις κατανόησης Έλεγχος Υποθέσεων Ερωτήσεις κατανόησης 1. Αν σε ένα στατιστικό έλεγχο υποθέσεων η μηδενική υπόθεση απορρίπτεται για επίπεδο σημαντικότητας 5%, τότε α) απορρίπτεται για οποιοδήποτε επίπεδο σημαντικότητας,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

4.3.3 Ο Έλεγχος των Shapiro-Wilk για την Κανονική Κατανομή

4.3.3 Ο Έλεγχος των Shapiro-Wilk για την Κανονική Κατανομή 4.3.3 Ο Έλεγχος των Shapro-Wlk για την Κανονική Κατανομή Ένας άλλος πολύ γνωστός έλεγχος καλής προσαρμογής για την κανονική κατανομή, ο οποίος μπορεί να χρησιμοποιηθεί στην θέση του ελέγχου Lllefors, είναι

Διαβάστε περισσότερα

. Τι πρακτική αξία έχουν αυτές οι πιθανότητες; (5 Μονάδες)

. Τι πρακτική αξία έχουν αυτές οι πιθανότητες; (5 Μονάδες) Εργαστήριο Μαθηματικών & Στατιστικής Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ η Πρόοδος στο Μάθημα Στατιστική //7 ο Θέμα α) Περιγράψτε τη σχέση Θεωρίας Πιθανοτήτων και Στατιστικής. β) Αν Α, Β ενδεχόμενα του δειγματικού χώρου Ω

Διαβάστε περισσότερα

07/11/2016. Στατιστική Ι. 6 η Διάλεξη (Βασικές διακριτές κατανομές)

07/11/2016. Στατιστική Ι. 6 η Διάλεξη (Βασικές διακριτές κατανομές) 07/11/2016 Στατιστική Ι 6 η Διάλεξη (Βασικές διακριτές κατανομές) 1 2 Δοκιμή Bernoulli Ένα πείραμα σε κάθε εκτέλεση του οποίου εμφανίζεται ακριβώς ένα από δύο αμοιβαία αποκλειόμενα δυνατά αποτελέσματα

Διαβάστε περισσότερα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE) ΔΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE) ΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE). Εισαγωγή Οι στατιστικές δοκιμασίες που μελετήσαμε μέχρι τώρα ονομάζονται παραμετρικές (paramtrc) διότι χαρακτηρίζονται από υποθέσεις σχετικές είτε για

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 07 & ΔΙΑΛΕΞΗ 08 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 016-017 ΕΙΣΑΓΩΓΗ ΣΤΗΝ

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall 3..2 Ο Συντελεστής Συσχέτισης τ Του Kendall Ο συντελεστής συχέτισης τ του Kendall μοιάζει με τον συντελεστή ρ του Spearman ως προς το ότι υπολογίζεται με βάση την τάξη μεγέθους των παρατηρήσεων και όχι

Διαβάστε περισσότερα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17 ΚΕΦΑΛΑΙΟ 17 ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ Στο κεφάλαιο αυτό θα αναφερθούμε σε ένα άλλο πρόβλημα της Στατιστικής που έχει κυρίως (αλλά όχι μόνο) σχέση με τις παραμέτρους ενός πληθυσμού (τις παραμέτρους της κατανομής

Διαβάστε περισσότερα

6.3 Ο ΑΜΦΙΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ SMIRNOV ΓΙΑ k ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ

6.3 Ο ΑΜΦΙΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ SMIRNOV ΓΙΑ k ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ 6.3 Ο ΑΜΦΙΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ SMIRNOV ΓΙΑ k ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ Το 1965, από τον Conover και πάλι προτάθηκε ένας άλλος έλεγχος τύπου Smirnov για k ανεξάρτητα δείγματα. Ο έλεγχος αυτός διαφέρει από τον προηγούμενο

Διαβάστε περισσότερα

Η Κανονική Κατανομή κανονική κατανομή (normal distribution) Κεντρικό Οριακό Θεώρημα (Central Limit Theorem) συνδέει οποιαδήποτε άλλη κατανομή

Η Κανονική Κατανομή κανονική κατανομή (normal distribution) Κεντρικό Οριακό Θεώρημα (Central Limit Theorem) συνδέει οποιαδήποτε άλλη κατανομή Η Κανονική Κατανομή H κανονική κατανομή (ormal dstrbuto) θεωρείται η σπουδαιότερη κατανομή της Θεωρίας Πιθανοτήτων και της Στατιστικής. Οι λόγοι που εξηγούν την εξέχουσα θέση της, είναι βασικά δύο: ) Πολλές

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 2 Μαΐου 2017 1/23 Ανάλυση Διακύμανσης. Η ανάλυση παλινδρόμησης μελετά τη στατιστική σχέση ανάμεσα

Διαβάστε περισσότερα

Αναλυτική Στατιστική

Αναλυτική Στατιστική Αναλυτική Στατιστική Συμπερασματολογία Στόχος: εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού, αντλώντας πληροφορίες από ένα μικρό υποσύνολο αυτού Ορισμοί Πληθυσμός: σύνολο όλων των υπό εξέταση μονάδων

Διαβάστε περισσότερα

Σημειακή εκτίμηση και εκτίμηση με διάστημα Παραδείγματα. 12 η Διάλεξη

Σημειακή εκτίμηση και εκτίμηση με διάστημα Παραδείγματα. 12 η Διάλεξη Σημειακή εκτίμηση και εκτίμηση με διάστημα Παραδείγματα 12 η Διάλεξη 1 ο Παράδειγμα (1) Μια αυτόματη μηχανή συσκευάζει καλαμπόκι σε τσουβάλια των 25kg Το βάρος του καλαμποκιού που συσκευάζεται ανά τσουβάλι

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΕΝΟΤΗΤΕΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ (One-Way Analyss of Varance) Η ανάλυση

Διαβάστε περισσότερα

Κατανομές Τυχαίων Μεταβλητών Προβλήματα και Ασκήσεις

Κατανομές Τυχαίων Μεταβλητών Προβλήματα και Ασκήσεις Κατανομές Τυχαίων Μεταβλητών Προβλήματα και Ασκήσεις 1. Μια διακριτή τυχαία μεταβλητή Χ έχει συνάρτηση πιθανότητας 0 1 2 3 4 f () 1/16 4/16 6/16 c 1/16 Να βρεθούν α) η τιμή της σταθεράς c β) η πιθανότητα

Διαβάστε περισσότερα

& 4/12/09 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ

& 4/12/09 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ Εργαστήριο Μαθηματικών & Στατιστικής η Πρόοδος στο Μάθημα Στατιστική //9 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ ο Θέμα Μονάδες Από τα ασθενή ζώα μιας κτηνοτροφικής μονάδας, ποσοστό % έχει προσβληθεί από την ασθένεια Α, % από

Διαβάστε περισσότερα

5.1 Ο ΕΛΕΓΧΟΣ SMIRNOV

5.1 Ο ΕΛΕΓΧΟΣ SMIRNOV 5. Ο ΕΛΕΓΧΟΣ SMIRNOV Έστω δύο ανεξάρτητα τυχαία δείγματα, 2,..., n και, 2,..., m n και m παρατηρήσεων πάνω στις τυχαίες μεταβλητές και, αντίστοιχα. Έστω, επίσης, ότι F (), (, ) και F (y), y (, ) είναι

Διαβάστε περισσότερα

2. ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

2. ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ Εργαστήριο Μαθηματικών & Στατιστικής 2. ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ. Ας θεωρήσουμε ότι είναι γνωστό από στοιχεία της Παγκόσμιας Οργάνωσης Υγείας ότι οι τιμές χοληστερίνης στον πληθυσμό έχουν

Διαβάστε περισσότερα

Στατιστικός έλεγχος υποθέσεων (Μέρος 3 ο ) 10/3/2017

Στατιστικός έλεγχος υποθέσεων (Μέρος 3 ο ) 10/3/2017 Στατιστικός έλεγχος υποθέσεων (Μέρος 3 ο ) 10/3/017 Στατιστικός έλεγχος υποθέσεων σε επίπεδο σημαντικότητας α για τη διακύμανση σ ενός κανονικού πληθυσμού με ένα τυχαίο δείγμα μεγέθους n Η 0 : σ = σ 0

Διαβάστε περισσότερα

5 o Μάθημα Έλεγχοι Υποθέσεων

5 o Μάθημα Έλεγχοι Υποθέσεων 5 o Μάθημα Έλεγχοι Υποθέσεων 5 Το Πρόβλημα του Ελέγχου Υποθέσεων Ας υποθέσουμε ότι σχεδιάζονται κάποιες κυκλοφοριακές ρυθμίσεις με στόχο ο μέσος χρόνος μετακίνησης των εργαζομένων που χρησιμοποιούν το

Διαβάστε περισσότερα

Διαδικασία Ελέγχου Μηδενικών Υποθέσεων

Διαδικασία Ελέγχου Μηδενικών Υποθέσεων Διαδικασία Ελέγχου Μηδενικών Υποθέσεων Πέτρος Ρούσσος, Τμήμα Ψυχολογίας, ΕΚΠΑ Η λογική της διαδικασίας Ο σάκος περιέχει έναν μεγάλο αλλά άγνωστο αριθμό (αρκετές χιλιάδες) λευκών και μαύρων βόλων: 1 Το

Διαβάστε περισσότερα

Διαστήματα Εμπιστοσύνης και Στατιστικοί Έλεγχοι Υποθέσεων Προβλήματα και Ασκήσεις

Διαστήματα Εμπιστοσύνης και Στατιστικοί Έλεγχοι Υποθέσεων Προβλήματα και Ασκήσεις Διαστήματα Εμπιστοσύνης και Στατιστικοί Έλεγχοι Υποθέσεων Προβλήματα και Ασκήσεις. Μια μηχανή εμφιάλωσης κρασιού γεμίζει φιάλες του μισού κιλού με ποσότητα κρασιού η οποία είναι κανονική τυχαία μεταβλητή

Διαβάστε περισσότερα

Γ. Πειραματισμός - Βιομετρία

Γ. Πειραματισμός - Βιομετρία Γ. Πειραματισμός - Βιομετρία Πληθυσμοί και δείγματα Πληθυσμός Περιλαμβάνει όλες τις πιθανές τιμές μιας μεταβλητής, δηλαδή αναφέρεται σε μια παρατήρηση σε όλα τα άτομα του πληθυσμού Ο πληθυσμός προσδιορίζεται

Διαβάστε περισσότερα

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3, Συνάφεια μεταξύ ποιοτικών μεταβλητών Εκδ. #3, 19.03.2016 Ο έλεγχος ανεξαρτησίας χ 2 Ο έλεγχος ανεξαρτησίας χ 2 εφαρμόζεται για να εξετάσουμε τη συνάφεια μεταξύ δύο ποιοτικών μεταβλητών με την έννοια της

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία Στατιστική Συμπερασματολογία Διαφάνειες 2 ου κεφαλαίου Σταύρος Χατζόπουλος 20/02/2017, 06/03/2017, 13/03/2017 1 Κεφάλαιο 2. Έλεγχος Απλών Υποθέσεων Τα προβλήματα ελέγχου υποθέσεων απορρέουν από παρατηρήσεις

Διαβάστε περισσότερα

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο «Περιγραφική & Επαγωγική Στατιστική» 1. Πάνω από το 3 ο τεταρτημόριο ενός δείγματος βρίσκεται το: α) 15%

Διαβάστε περισσότερα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα Ανάλυση Διασποράς Έστω ότι μας δίνονται δείγματα που προέρχονται από άγνωστους πληθυσμούς. Πόσο διαφέρουν οι μέσες τιμές τους; Με άλλα λόγια: πόσο πιθανό είναι να προέρχονται από πληθυσμούς με την ίδια

Διαβάστε περισσότερα

Η Κανονική Κατανομή. Εργαστήριο Μαθηματικών & Στατιστικής/ Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 81

Η Κανονική Κατανομή. Εργαστήριο Μαθηματικών & Στατιστικής/ Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 81 Η Κανονική Κατανομή H κανονική κατανομή (ormal dstrbuto) θεωρείται η σπουδαιότερη κατανομή της Θεωρίας Πιθανοτήτων και της Στατιστικής Οι λόγοι που εξηγούν την εξέχουσα θέση της, είναι βασικά δύο: ) Πολλές

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ AΝΑΛΟΓΙΕΣ

ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ AΝΑΛΟΓΙΕΣ ΚΕΦΑΛΑΙΟ 5 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ AΝΑΛΟΓΙΕΣ Α. Περίπτωση Ενός Πληθυσμού Έστω ότι μελετάμε μια ακολουθία ανεξαρτήτων δοκιμών κάθε μία από τις οποίες οδηγεί είτε σε επιτυχία είτε σε αποτυχία με σταθερή

Διαβάστε περισσότερα

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ 5.1 5.8

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ 5.1 5.8 ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ 5. 5.8 5. Ένας υγειονοµικός σταθµός θέλει να ελέγξει αν ο µέσος αριθµός βακτηριδίων ανά µονάδα όγκου θαλασσινού νερού σε µια παραλία υπερβαίνει το επίπεδο ασφαλείας των 9 µονάδων. ώδεκα

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων Ι. Βασικές διακριτές κατανομές

Στατιστική Επιχειρήσεων Ι. Βασικές διακριτές κατανομές Στατιστική Επιχειρήσεων Ι Βασικές διακριτές κατανομές 2 Δοκιμή Bernoulli Ένα πείραμα σε κάθε εκτέλεση του οποίου εμφανίζεται ακριβώς ένα από δύο αμοιβαία αποκλειόμενα δυνατά αποτελέσματα Το ένα ονομάζεται

Διαβάστε περισσότερα

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα Ορισμός τυχαίας μεταβλητής Τυχαία μεταβλητή λέγεται η συνάρτηση

Διαβάστε περισσότερα

6. Βασικές Διακριτές Κατανομές

6. Βασικές Διακριτές Κατανομές 6. Η Διωνυμική Κατανομή 6. Βασικές Διακριτές Κατανομές Βασικές Διακριτές Κατανομές Η Διωνυμική κατανομή συνδέεται με ένα πολύ απλό πείραμα τύχης, ίσως το απλούστερο, τη δοκιμή Bernoull. Όπως ήδη έχουμε

Διαβάστε περισσότερα

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ A εξάμηνο 2009-2010 ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ Μεθοδολογία Έρευνας και Στατιστική ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Χειμερινό Εξάμηνο 2009-2010 Ποιοτικές και Ποσοτικές

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΟΜΕΑΣ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΕΥΝΑΣ ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ Χ 2 test ανεξαρτησίας: σχέση 2 ποιοτικών μεταβλητών

Διαβάστε περισσότερα

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος 75 Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ 1.1. Τυχαία γεγονότα ή ενδεχόμενα 17 1.2. Πειράματα τύχης - Δειγματικός χώρος 18 1.3. Πράξεις με ενδεχόμενα 20 1.3.1. Ενδεχόμενα ασυμβίβαστα

Διαβάστε περισσότερα

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ στη Ναυτιλία και τις Μεταφορές

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ στη Ναυτιλία και τις Μεταφορές ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ στη Ναυτιλία και τις Μεταφορές ΠΜΣ στη «Ναυτιλία» Τμήμα Β art time Χαράλαμπος Ευαγγελάρας hevangel@unipi.gr Η έννοια της Πιθανότητας Ο όρος πιθανότητα είναι συνδέεται άμεσα με τη μελέτη

Διαβάστε περισσότερα

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς Στατιστική Ανάλυση ιασποράς με ένα Παράγοντα One-Way Anova Χατζόπουλος Σταύρος Κεφάλαιο 8ο. Ανάλυση ιασποράς 8.1 Εισαγωγή 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς 8.3 Ανάλυση ιασποράς με

Διαβάστε περισσότερα

Εργάτης Μηχάνηµα τύπου Α Μηχάνηµα τύπου Β

Εργάτης Μηχάνηµα τύπου Α Μηχάνηµα τύπου Β Εργαστήριο Μαθηµατικών & Στατιστικής Γραπτή Εξέταση Περιόδου Σεπτεµβρίου 2009 στη Στατιστική 30/09/09 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ [20] Μια καπνοβιοµηχανία ισχυρίζεται ότι στα νέα τσιγάρα που διαφηµίζει, η ποσότητα

Διαβάστε περισσότερα

Επαναληπτικές Ασκήσεις 26/5/2017

Επαναληπτικές Ασκήσεις 26/5/2017 Επαναληπτικές Ασκήσεις 2 Άσκηση 1 η (1) Ένας ερευνητής μέτρησε τη συγκέντρωση γλυκόζης (σε mg/dl) στο αριστερό και το δεξί μάτι 35 τυχαία επιλεγμένων υγιών σκύλων συγκεκριμένης ράτσας Έστω ότι με Χ και

Διαβάστε περισσότερα

Εισαγωγή - Πειραματικοί Σχεδιασμοί. Κατσιλέρος Αναστάσιος

Εισαγωγή - Πειραματικοί Σχεδιασμοί. Κατσιλέρος Αναστάσιος Εισαγωγή - Πειραματικοί Σχεδιασμοί Κατσιλέρος Αναστάσιος 2017 Παραλλακτικότητα To φαινόμενο εμφάνισης διαφορών μεταξύ ατόμων ή αντικειμένων ή παρατηρήσεων-μετρήσεων, που ανήκουν στην ίδια ομάδα-κατηγορία,

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

3.4.1 Ο Συντελεστής ρ του Spearman

3.4.1 Ο Συντελεστής ρ του Spearman 3.4. Ο Συντελεστής ρ του Spearma Έστω (, ), (, ),..., (, ) ένα δείγμα παρατηρήσεων πάνω στο τυχαίο διάνυσμα (, ). Έστω ( ) ο βαθμός ή η τάξη μεγέθους της μεταβλητής όταν αυτή συγκρίνεται με τις άλλες Χ

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

Εργαστήριο Μαθηµατικών & Στατιστικής. 1 η Πρόοδος στο Μάθηµα Στατιστική 5/12/08 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ. 3 ο Θέµα

Εργαστήριο Μαθηµατικών & Στατιστικής. 1 η Πρόοδος στο Μάθηµα Στατιστική 5/12/08 Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ. 3 ο Θέµα Εργαστήριο Μαθηµατικών & Στατιστικής Α ΣΕΙΡΑ ΘΕΜΑΤΩΝ η Πρόοδος στο Μάθηµα Στατιστική 5//8 ο Θέµα To % των ζώων µιας µεγάλης κτηνοτροφικής µονάδας έχει προσβληθεί από µια ασθένεια. Για τη διάγνωση της συγκεκριµένης

Διαβάστε περισσότερα

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη Σημειακή εκτίμηση και εκτίμηση με διάστημα 11 η Διάλεξη Εκτιμήτρια Κάθε στατιστική συνάρτηση που χρησιμοποιείται για την εκτίμηση μιας παραμέτρου ενός πληθυσμού (π.χ. ο δειγματικός μέσος) Σημειακή εκτίμηση

Διαβάστε περισσότερα

Επανάληψη ελέγχων υποθέσεων

Επανάληψη ελέγχων υποθέσεων Επανάληψη ελέγχων υποθέσεων Ποιό το πρόβλημα; Περιγραφή ενός πληθυσμού Σύγκριση δύο πληθυσμών Είδος δεδομένων; Είδος δεδομένων Ποσοτικά Ποιοτικά Ποσοτικά Ποιοτικά Ποιά παράμετρος; Z tet & δ.ε. του p Ποιά

Διαβάστε περισσότερα

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Περιγραφική Ανάλυση ποσοτικών μεταβλητών Περιγραφική Ανάλυση ποσοτικών μεταβλητών Στο data file Worldsales.sav (αρχείο υποθετικών πωλήσεων ανά ήπειρο και προϊόν) Analyze Descriptive Statistics Frequencies Επιλογή μεταβλητής Revenue Πατάμε στο

Διαβάστε περισσότερα

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ .5. ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ Η μέθοδος κατασκευής διαστήματος εμπιστοσύνης για την πιθανότητα που περιγράφεται στην προηγούμενη ενότητα μπορεί να χρησιμοποιηθεί για την κατασκευή διαστημάτων

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Εισήγηση 4A: Έλεγχοι Υποθέσεων και Διαστήματα Εμπιστοσύνης Διδάσκων: Δαφέρμος Βασίλειος ΤΜΗΜΑ ΠΟΛΙΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΣΧΟΛΗΣ ΚΟΙΝΩΝΙΚΩΝ

Διαβάστε περισσότερα

Ανάλυση Διασποράς Προβλήματα και Ασκήσεις

Ανάλυση Διασποράς Προβλήματα και Ασκήσεις Ανάλυση Διασποράς Προβλήματα και Ασκήσεις 1. Ένας ερευνητής προκειμένου να συγκρίνει τρία σιτηρέσια εκτροφής κοτόπουλων (Σ1, Σ2 και Σ3, αντίστοιχα), σχεδίασε και εκτέλεσε το εξής πείραμα. Επέλεξε 15 νεογέννητα

Διαβάστε περισσότερα