Εισαγωγή στη Μη Παραμετρική Στατιστική

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Εισαγωγή στη Μη Παραμετρική Στατιστική"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΟΜΕΑΣ ΠΙΘΑΝΟΤΗΤΩΝ-ΣΤΑΤΙΣΤΙΚΗΣ & ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΕΥΝΑΣ Εισαγωγή στη Μη Παραμετρική Στατιστική Διδακτικές Σημειώσεις Απόστολος Δ. Μπατσίδης ΙΩΑΝΝΙΝΑ 04

2

3 Στην Όλγα

4 .

5 Περιεχόμενα Εισαγωγή... 5 Πρώτο Κεφάλαιο. Kolmogorov-Smrov τεστ Ο έλεγχος Kolmogorov για ένα δείγμα Ο έλεγχος Smrov για δύο ανεξάρτητα δείγματα X τεστ καλής προσαρμογής....3 Ασκήσεις Δεύτερο Κεφάλαιο Τεστ των ροών Τρίτο Κεφάλαιο 3. Προσημικός έλεγχος Τεστ του Wlcoxo για ένα δείγμα Τεστ του Wlcoxo για δύο εξαρτημένα δείγματα... 6 Τέταρτο Κεφάλαιο 4. Wlcoxo Sum Rak τεστ Ma-Whtey τεστ Πέμπτο Κεφάλαιο 5. Kruskal-Walls τεστ Έλεγχος ισότητας πληθυσμιακών διακυμάνσεων Έλεγχος ισότητας δύο πληθυσμιακών διακυμάνσεων Έλεγχος ισότητας περισσότερων από δύο πληθυσμιακών διακυμάνσεων Έκτο Κεφάλαιο 6. Συντελεστής συσχέτισης του Pearso... 03

6 6. Συντελεστής συσχέτισης του Spearma Συντελεστής συσχέτισης του Kedall... 5 Έβδομο Κεφάλαιο 7. Τεστ καλής προσαρμογής με το S.P.S.S Kolmogorov-Smrov τεστ για ένα δείγμα με το S.P.S.S Smrov τεστ για δύο δείγματα X τεστ καλής προσαρμογής με το S.P.S.S Τεστ των ροών με το S.P.S.S Προσημικός έλεγχος- Wlcoxo τεστ με το S.P.S.S Ένα δείγμα Δύο εξαρτημένα δείγματα Wlcoxo-Ma-Whtey με το S.P.S.S Kruskal-Walls με το S.P.S.S Συντελεστές συσχέτισης με το S.P.S.S Παράρτημα Βιβλιογραφία... 53

7 Εισαγωγή ης έκδοσης Οι παραδοσιακές μεθοδολογίες της Στατιστικής, όπως οι έλεγχοι υποθέσεων, η ανάλυση διακύμανσης κ.ά. έχουν θεμελιωθεί υπό την υπόθεση ότι τα διαθέσιμα δεδομένα μπορούν να θεωρηθούν ότι προέρχονται από έναν πληθυσμό με γνωστή κατανομή, με άγνωστες συνηθέστερα πληθυσμιακές παραμέτρους. Δηλαδή υιοθετείται γνώση της συναρτησιακής μορφής της συνάρτησης πιθανότητας ή της συνάρτησης πυκνότητας πιθανότητας. Στο πλαίσιο αυτό, λόγω του Κεντρικού Οριακού Θεωρήματος και των ιδιοτήτων του, το μοντέλο της κανονικής κατανομής είναι αυτό που κυρίως υιοθετείται. Οι μεθοδολογίες που στηρίζονται στη γνώση της συναρτησιακής μορφής της κατανομής του πληθυσμού αποτελούν τη λεγόμενη Παραμετρική Στατιστική και το πρόβλημα της εκτίμησης ανάγεται σε πρόβλημα εκτίμησης των παραμέτρων του υποτιθέμενου μοντέλου. Παρότι τις περισσότερες φορές οι υποθέσεις της Παραμετρικής Στατιστικής είναι λογικές, συμβαίνει πολλές φορές να μην ικανοποιούνται. Για παράδειγμα έχουμε αποκλίσεις από την κανονική κατανομή, δεν έχουμε δεδομένα από συνεχή κατανομή, έχουμε μεγάλο πλήθος ακραίων τιμών κ.ο.κ. Για το λόγο αυτό αναπτύχθηκαν εναλλακτικές μεθοδολογίες, που δε στηρίζονται παρά μόνο στην τυχαιότητα των δειγματικών δεδομένων, καθώς η χρήση των παραδοσιακών μεθοδολογιών μπορεί να οδηγήσει σε λανθασμένα συμπεράσματα. Η συλλογή αυτών των εναλλακτικών μεθοδολογιών είναι η λεγόμενη Μη Παραμετρική Στατιστική. Σκοπός αυτών των σημειώσεων είναι να παρουσιαστούν τα πιο βασικά (και παράλληλα ιστορικά) μη παραμετρικά στατιστικά τεστ. Πιο συγκεκριμένα στο Πρώτο Κεφάλαιο, θα παρουσιαστούν τα στατιστικά τεστ των Kolmogorov (933) και Smrov (935 a, b), ορισμένες επεκτάσεις ή τροποποιήσεις αυτών, καθώς και το X τεστ καλής προσαρμογής. Στο Δεύτερο Κεφάλαιο παρουσιάζεται σε συντομία, το τεστ των ροών, που αποτελεί έναν τρόπο ελέγχου της τυχαιότητας ή μη ενός δείγματος δειγματικών παρατηρήσεων. Στο Τρίτο Κεφάλαιο το ενδιαφέρον επικεντρώνεται στον έλεγχο: (α) της υπόθεσης ότι η πληθυσμιακή διάμεσος μίας άγνωστης κατανομής είναι ίση με δοθείσα τιμή, όταν είναι διαθέσιμο ένα τυχαίο δείγμα από αυτόν τον πληθυσμό, και (β) της υπόθεσης της ισότητας των παραμέτρων θέσης δύο πληθυσμών, όταν είναι διαθέσιμα δύο εξαρτημένα δείγματα από αυτούς τους πληθυσμούς. Στο Τέταρτο Κεφάλαιο ασχολούμαστε με τον έλεγχο της υπόθεσης της ισότητας δύο πληθυσμιακών διαμέσων, όταν λαμβάνουμε δύο το πλήθος ανεξάρτητα μεταξύ τους τυχαία δείγματα από αυτούς. Στο Πέμπτο Κεφάλαιο, οι μεθοδολογίες του προηγούμενου κεφαλαίου επεκτείνονται στην περίπτωση του ελέγχου της υπόθεσης

8 ότι τρία ή περισσότερα τυχαία δείγματα, ανεξάρτητα μεταξύ τους, προέρχονται από πληθυσμούς με ίδιες πληθυσμιακές διαμέσους. Επιπρόσθετα, αναπτύσσονται μη παραμετρικές μεθοδολογίες για τον έλεγχο της ισότητας δύο ή περισσοτέρων πληθυσμιακών διακυμάνσεων. Στο Έκτο Κεφάλαιο, στόχος μας είναι η παράθεση μεθοδολογιών για τη διερεύνηση της ύπαρξης γραμμικής σχέσης μεταξύ δύο μεταβλητών. Ειδικότερα, το ενδιαφέρον επικεντρώνεται στη μελέτη της γραμμικής εξάρτησης μεταξύ δύο ποσοτικών τυχαίων μεταβλητών, μέσω του συντελεστή συσχέτισης του Pearso. Έπειτα παρουσιάζονται ο συντελεστής συσχέτισης του Spearma και του Kedall, οι οποίοι υιοθετούνται σε περιπτώσεις που ο συντελεστής του Pearso δε βρίσκει εφαρμογή. Τέλος, οι διδακτικές αυτές σημειώσεις ολοκληρώνονται στο Έβδομο Κεφάλαιο με την υλοποίηση των κυριοτέρων μη παραμετρικών μεθοδολογιών στο ίσως πιο ευρέως χρησιμοποιούμενο στατιστικό πρόγραμμα, το S.P.S.S. (Statstcal Package for Socal Sceces), και ακολουθεί Παράρτημα με χρήσιμους πίνακες και η Βιβλιογραφία. Ιωάννινα, 00 Απόστολος Μπατσίδης Εισαγωγή ης έκδοσης Στην δεύτερη έκδοση έχει διατηρηθεί ο χαρακτήρας της πρώτης έκδοσης. Στην έκδοση αυτή έχουν διορθωθεί τυπογραφικά λάθη και αστοχίες της πρώτης έκδοσης. Στο σημείο αυτό θα ήθελα να ευχαριστήσω όλους τους φοιτητές του Τμήματος Μαθηματικών που συνέβαλαν στη βελτίωση αυτή υποδεικνύοντας λάθη και αστοχίες της αρχικής έκδοσης. Κάθε παρατήρηση παραμένει ευπρόσδεκτη και επιθυμητή. Ιωάννινα, Δεκέμβριος 04 Απόστολος Μπατσίδης

9 Πρώτο Κεφάλαιο Τεστ καλής προσαρμογής Συχνά ο στατιστικός έρχεται αντιμέτωπος με το πρόβλημα αν οι δειγματικές παρατηρήσεις προσαρμόζονται σε κάποιο συγκεκριμένο μοντέλο. Σε αυτήν την κατεύθυνση τα τεστ καλής προσαρμογής (goodess of ft tests) υποδεικνύουν πόσο καλά ένα σύνολο δεδομένων περιγράφεται, προσαρμόζεται από ή σε ένα συγκεκριμένο μοντέλο. Γίνεται άμεσα κατανοητό ότι τα τεστ καλής προσαρμογής μας δίνουν το βαθμό ασυμφωνίας ή το βαθμό εγγύτητας των παρατηρούμενων τιμών (observed values) από τις τιμές που αναμένονται (expected values) αν υιοθετήσουμε το υπό εξέταση μοντέλο. Στο παραπάνω πλαίσιο, έχουν αναπτυχθεί διάφορες στατιστικές μεθοδολογίες, τόσο για τον έλεγχο ότι ένα σύνολο δεδομένων προέρχεται από έναν συγκεκριμένο πληθυσμό π.χ. κανονικό, εκθετικό κ.ο.κ., όσο και αν δύο ή περισσότερα σύνολα δεδομένων μπορούν να θεωρηθούν ότι προέρχονται από τον ίδιο πληθυσμό. Στο πλαίσιο αυτό στο παρόν κεφάλαιο θα παρουσιαστούν τα στατιστικά τεστ των Kolmogorov (933) και Smrov (939 a,b), ορισμένες επεκτάσεις ή τροποποιήσεις αυτών, καθώς και το X τεστ καλής προσαρμογής.. Kolmogorov Smrov Τεστ Τα στατιστικά τεστ των Kolmogorov και Smrov στηρίζονται στην εμπειρική αθροιστική συνάρτηση κατανομής (ε.α.σ.κ). Για το λόγο αυτό στη συνέχεια παραθέτουμε τον ορισμό της, καθώς και κάποιες χρήσιμες ιδιότητές της. Ορισμός. Έστω X, X,, X, ένα τυχαίο δείγμα από έναν πληθυσμό με αθροιστική συνάρτηση κατανομής (α.σ.κ.) F ( ). Η εμπειρική αθροιστική κατανομή, συμβολίζεται με F ( x ) και ορίζεται ως εξής: αριθμος ( ) X x F x, x R, ή ισοδύναμα όπου = I -,x X F ( x ), x R, 7

10 I C X 0 X X C C Από τον ορισμό της εμπειρικής αθροιστικής συνάρτησης κατανομής γίνεται άμεσα αντιληπτό ότι πρόκειται για μία στατιστική συνάρτηση, ένα στατιστικό καθώς είναι συνάρτηση των δειγματικών τιμών X,, X. Στη συνέχεια θα παρουσιαστούν κάποιες χρήσιμες ιδιότητες της εμπειρικής αθροιστικής συνάρτησης κατανομής. Θεώρημα. Έστω X, X,, X, ένα τυχαίο δείγμα από έναν πληθυσμό με συνεχή αθροιστική συνάρτηση κατανομής F( x ), τότε για σταθερό x, η κατανομή του στατιστικού F ( x ), όπου F ( x ) η εμπειρική αθροιστική συνάρτηση κατανομής είναι διωνυμική με παραμέτρους και F( x ). Απόδειξη Από τον ορισμό της εμπειρικής αθροιστικής συνάρτησης κατανομής εύκολα προκύπτει ότι οι δυνατές της τιμές ανήκουν στο ακόλουθο σύνολο: 0,/, /,...,( ) /,. Για σταθερό x, η τιμή της εμπειρικής αθροιστικής συνάρτησης είναι ίση με k /, k 0,...,, αν και μόνο αν k το πλήθος δειγματικές τιμές είναι μικρότερες ή ίσες του x. Επομένως ο υπολογισμός της πιθανότητας P F x k ανάγεται στην εύρεση της πιθανότητας να έχουμε k το πλήθος επιτυχίες σε δοκιμές ενός διωνυμικού πειράματος, όπου επιτυχία θεωρείται όταν μία δειγματική τιμή X είναι ίση ή μικρότερη από την σταθεροποιημένη τιμή x, με πιθανότητα επιτυχίας p P X x F x. Άρα ή ισοδύναμα k k k P F x F x F x, k 0,..., k, k k P F x k F x F x, k 0,..., k, που ολοκληρώνει την απόδειξη. 8

11 Θεώρημα. α) Η εμπειρική αθροιστική συνάρτηση κατανομής F ( x ) είναι συνεπής εκτιμητής της αθροιστικής συνάρτησης κατανομής F( x ). β) Η εμπειρική αθροιστική συνάρτηση κατανομής F ( x ) ακολουθεί ασυμπτωτικά κανονική κατανομή με μέση F x και διακύμανση τιμή ( ) F( x) F( x) /. Απόδειξη α) Για να αποδείξουμε ότι μία εκτιμήτρια στατιστική συνάρτηση, έστω T, μίας παραμέτρου είναι συνεπής εκτιμητής της παραμέτρου αυτής, δηλαδή ότι lm P T,, αρκεί να δείξουμε ότι η T είναι αμερόληπτη (ή ασυμπτωτικά αμερόληπτη) εκτιμήτρια της παραμέτρου, δηλαδή ET, (ή ET, ), και επιπλέον VarT 0, καθώς το. Επομένως αρχικά θα δείξουμε ότι η εμπειρική αθροιστική συνάρτηση κατανομής είναι αμερόληπτος εκτιμητής της αθροιστικής συνάρτησης. Στο Θεώρημα. αποδείχτηκε ότι ~ Διωνυμική, F x F x. Επομένως άμεσα προκύπτει, από τις ιδιότητες της Διωνυμικής κατανομής και της μέσης τιμής, ότι Επιπλέον, έχουμε ότι: ( ) ( ) E F x F x E F x F x. F x Var F ( x) F x F x Var F ( x) F x και επομένως Var F ( ) x 0, καθώς το, και η απόδειξη του α) ολοκληρώθηκε. β) Είναι γνωστό από τον ορισμό της εμπειρικής αθροιστικής συνάρτησης κατανομής ότι: = I -,x X F ( x ), x R. Επομένως το στατιστικό F ( x ) είναι ο δειγματικός μέσος των τυχαίων μεταβλητών I -,x X, η κατανομή των οποίων είναι Beroull με πιθανότητα επιτυχίας μέση τιμή F x και διακύμανση F x F x Θεώρημα προκύπτει άμεσα ότι: F x,. Εφαρμόζοντας το Κεντρικό 9

12 I -,x X E I -,x X Var I -,x X. = = F = ( x ) ~ N,, ή ισοδύναμα: I -,x. = ( ) ~, F x F x F x N F x. X Από τα παραπάνω προκύπτουν ότι αν κάποιος ενδιαφέρεται να εκτιμήσει την αθροιστική συνάρτηση κατανομής F x, για κάθε x, τότε θα ήθελε να διαπιστώσει πόσο κοντά είναι η εμπειρική αθροιστική συνάρτηση στην αθροιστική συνάρτηση. Στο επόμενο θεώρημα, η απόδειξη του οποίου παραλείπεται, θεμελιώνεται ότι με πιθανότητα η σύγκλιση της F ( x ) στην F x είναι ομοιόμορφη στο x ή διαφορετικά για μεγάλο μέγεθος δείγματος η προσέγγιση της είναι αρκετά ακριβής. F x από την F ( x ) Θεώρημα.3 (Glveco-Catell) Αν F ( x ) είναι η εμπειρική αθροιστική συνάρτηση κατανομής ενός τυχαίου δείγματος X,,, X από έναν πληθυσμό με αθροιστική συνάρτηση κατανομής F x τότε δηλαδή P sup F ( x) F( x) 0. x a. s sup F ( x) F( x ) 0, x Χρησιμοποιώντας το παραπάνω θεώρημα ο Kolmogorov (933) πρότεινε μία στατιστική συνάρτηση που ουσιαστικά αποτελεί ένα μέτρο της εγγύτητας των F ( x ) και F x. Αργότερα ο Smrov (939 a, b) επέκτεινε το στατιστικό αυτό για να συγκρίνει δύο πληθυσμούς στηριζόμενος σε ανεξάρτητα δείγματα ένα από καθένα από αυτούς (βλέπε Coover (97), σελ. 37). Τα στατιστικά αυτά τεστ αποτελούν αντικείμενο των επόμενων παραγράφων. 0

13 .. Ο έλεγχος Kolmogorov για ένα δείγμα Έστω ότι X, X,, X, είναι ένα τυχαίο δείγμα από έναν πληθυσμό με συνεχή άλλα άγνωστη αθροιστική συνάρτηση κατανομής F( x ). Θέλουμε να ελέγξουμε μία από τις εξής τρεις υποθέσεις: Α. Τη μηδενική υπόθεση H0 : F( x) F0 ( x), x R, έναντι της εναλλακτικής H : F( x) F ( x ), για κάποιο x R. 0 Β. Τη μηδενική υπόθεση H0 : F( x) F0 ( x), x R, έναντι της εναλλακτικής H : F( x) F ( x ), για κάποιο x R. 0 Γ. Τη μηδενική υπόθεση H0 : F( x) F0 ( x), x R, έναντι της εναλλακτικής H : F( x) F ( x ), για κάποιο x R, 0 όπου F 0 ( x ) είναι μία, γνωστή, ειδική αθροιστική συνάρτηση κατανομής. Η στατιστική συνάρτηση για τον έλεγχο των παραπάνω υποθέσεων βασίζεται στην εμπειρική αθροιστική συνάρτηση κατανομής, καθώς ως αμερόληπτη εκτιμήτρια της αθροιστικής συνάρτησης κατανομής δε θα πρέπει να αποκλίνει σημαντικά από την τελευταία. Για καθένα από τα τρία διαφορετικά σύνολα υποθέσεων, η στατιστική συνάρτηση ορίζεται ως εξής: Α. Χρησιμοποιείται η στατιστική συνάρτηση D sup F ( x) F 0 ( x ), x η οποία στην ουσία μετρά πόσο αποκλίνει η ε.α.σ.κ. F ( ) από την α.σ.κ. F 0 ( ) και αναζητά τη μέγιστη κατακόρυφη απόσταση μεταξύ των γραφημάτων των F ( x ) και F( x ). Επομένως γίνεται εύκολα αντιληπτό ότι απορρίπτεται η μηδενική υπόθεση H 0 για μεγάλες τιμές της στατιστικής αυτής συνάρτησης. Καθώς η F ( ) είναι, εξ ορισμού της, βηματική συνάρτηση και η F 0 ( ) ως αθροιστική συνάρτηση κατανομής είναι μη φθίνουσα, η μέγιστη απόκλιση- ασυμφωνία μεταξύ τους συμβαίνει είτε στις παρατηρούμενες τιμές είτε στα όρια από αριστερά. Επομένως, προκύπτει ότι:,max D max max F X F X F X F X. 0 0

14 Στο ακόλουθο θεώρημα αποδεικνύεται ότι η κατανομή του υπόθεση είναι ίδια για όλες τις δείγματος. D υπό τη μηδενική F 0 ( ), αλλά διαφορετική για διαφορετικά μεγέθη Θεώρημα.4 Αν η αθροιστική συνάρτηση κατανομής F 0 ( x ) είναι συνεχής τότε η κατανομή του D sup F ( x) F 0 ( x ) είναι ανεξάρτητη της F 0. x Απόδειξη Ισχύει ότι θέτω Y=F 0 (X) 0 0 x P sup F ( x) F ( x) d P sup F F ( y) y d. x Από τον ορισμό της εμπειρικής αθροιστικής συνάρτησης κατανομής προκύπτει ότι Επομένως I X I -, F -, ) 0 0 ( y ) y F X = = 0 ( ) F F y. I F -, ) 0 X y = P sup F F0 ( y) y d Psup y d. x x Λαμβάνοντας υπόψη ότι η κατανομή της αθροιστικής συνάρτησης κατανομής είναι ομοιόμορφη στο διάστημα (0,), καθώς και θέτοντας P F0 X t P X F0 t F0 F0 t t, t 0,, U F0 X ~ U (0,),,...,, έχουμε ότι: F X I y U I -, ) -, ) = = P sup y d P sup y d x x y 0 που δεν εξαρτάται από την F 0, αλλά εξαρτάται από το μέγεθος του δείγματος. Κλειστές μορφές της κατανομής του D υπό την H 0 και πίνακας της συνάρτησης κατανομής για 00 μπορούν να βρεθούν στη βιβλιογραφία (Brbaum, 95). Ο Kolmogorov (933) απέδειξε (η απόδειξη παραλείπεται στο

15 πλαίσιο αυτών των σημειώσεων) ότι η οριακή κατανομή του K D υπό τη μηδενική υπόθεση είναι απαλλαγμένη παραμέτρων (dstrbuto-free). Θεώρημα.5 Αν η H 0 είναι αληθής, τότε αποδεικνύεται ότι η ασυμπτωτική κατανομή του K είναι η H( x ), όπου αυτή δίνεται από τη σχέση: j j x (0, ). H( x) [ ( ) e ] ( x) j Έτσι το τεστ για τον έλεγχο της υπόθεσης Α ορίζεται ως εξής: Απορρίπτουμε την H 0 αν και μόνο αν όπου c τέτοιο ώστε P( K c ). Η τιμή του c / K c, δίνεται από πίνακα (Mller (956)) που παρατίθεται στο Παράρτημα (Πίνακας ) και ο οποίος μπορεί, όπως θα δούμε παρακάτω, να χρησιμοποιηθεί με κατάλληλη τροποποίηση και για τους μονόπλευρους ελέγχους (έλεγχοι Β και Γ). Παρατήρηση. Ένας άλλος τρόπος ορισμού του πιο πάνω στατιστικού που έχει παρουσιαστεί στη βιβλιογραφία, με χρήση των διατεταγμένων στατιστικών X,..., X ( ), είναι ο ακόλουθος : όπου και K max( D, D ). 0 0 ( ) D sup F ( x) F ( x) max max / F X,0, x D sup F ( x) F ( x) max max F X /, ( ) x Επιπρόσθετα, εύκολα αποδεικνύεται ότι η κατανομή των υπόθεση είναι ίδια. (η απόδειξη αφήνεται ως άσκηση). D και D υπό τη μηδενική Β. Χρησιμοποιείται το στατιστικό 0 0 ( ) D sup F ( x) F ( x) max max / F X,0, x και η μηδενική υπόθεση απορρίπτεται για μεγάλες τιμές του. Προκύπτει ότι απορρίπτουμε την H 0 αν και μόνο αν / D c, 3

16 όπου c τέτοιο ώστε P( K c ). Γ. Χρησιμοποιείται το στατιστικό D sup F ( x) F ( x) max max F X /,0, 0 0 ( ) x και η μηδενική υπόθεση απορρίπτεται για μεγάλες τιμές του. Προκύπτει ότι απορρίπτουμε την H 0 αν και μόνο αν / D c, όπου c τέτοιο ώστε P( K c ). Παράδειγμα. Έστω οι ακόλουθες 5 δειγματικές τιμές: 0., 0.3, 0.4, 0.58, Να ελέγξετε αν τα δεδομένα προέρχονται από την U (0,), με επίπεδο σημαντικότητας 5%. Λύση Έχουμε ένα τυχαίο δείγμα μεγέθους 5 και θέλουμε να ελέγξουμε την υπόθεση έναντι της εναλλακτικής H : F( x) F ( x), x R 0 0 H : F( x) F ( x ), για κάποιο x R, 0 όπου F0 ( x ) η αθροιστική συνάρτηση κατανομής της U (0,). Επομένως Θέλοντας να υπολογίσουμε το στατιστικό 0 x 0 F0 x x 0 x. αλλού,max D max max F X F X F X F X 0 0 αρχικά διατάσσουμε τις παρατηρήσεις σε αύξουσα τάξη μεγέθους και υπολογίζουμε τις ποσότητες F X, F X και F X. Είναι: 0 x F X F X F X F X F X F X F 0 X

17 Επομένως, καθώς ο Πίνακας του Παραρτήματος μας δίνει τιμές του c / συγκρίνουμε την τιμή του D 0.3 με την τιμή του πίνακα για α=0.05 που είναι ίση με Επομένως δεν απορρίπτεται η μηδενική υπόθεση, άρα τα δεδομένα μπορούν να θεωρηθούν ότι προέρχονται από έναν πληθυσμό που περιγράφεται από την U (0,). Παρατηρήσεις.. To Kolmogorov-Smrov τεστ καλής προσαρμογής υποθέτει ότι η μηδενική υπόθεση είναι πλήρως ορισμένη, δηλαδή ελέγχουμε μία απλή υπόθεση. Με άλλα λόγια θεωρεί ότι η F0 x είναι πλήρως ορισμένη χωρίς την «παρουσία» άγνωστων παραμέτρων. Κάποιος ίσως αναρωτηθεί κατά πόσο ένα τέτοιο τεστ μπορεί να επεκταθεί σε περιπτώσεις ελέγχου σύνθετης υπόθεσης. Για τέτοιες υποθέσεις το sup F ( x) F ( x ) παύει να είναι στατιστικό, αφού εξαρτάται από άγνωστες x 0 παραμέτρους. Ένας προφανής τρόπος να απαλλαγούμε από τις άγνωστες παραμέτρους, τις οποίες συμβολίζουμε με, είναι να αντικαταστήσουμε τις άγνωστες παραμέτρους με τους εκτιμητές τους. Δυστυχώς όμως το στατιστικό που προκύπτει, δηλαδή το: δεν έχει την κατανομή του * ˆ x D sup F ( x) F( x, ) μηδενική υπόθεση είναι αληθής, το στατιστικό D και κλειστή μορφή για αυτό είναι άγνωστη. Όμως, αν η * D έχει οριακή κατανομή καθώς το. O Stephes (974) έδωσε τα ασυμπωτικά ποσοστιαία σημεία και πίνακες αυτών είναι διαθέσιμοι στη βιβλιογραφία.. Ο στατιστικός έλεγχος των Kolmogorov-Smrov εφαρμόζεται σε κατανομές με συνεχή αθροιστική κατανομή και τείνει να είναι πιο ευαίσθητος στο κέντρο της κατανομής από ότι στις ουρές. 3. Στη βιβλιογραφία έχουν μελετηθεί αρκετές παραλλαγές του ελέγχου Kolmogorov-Smrov, οι οποίες επιτρέπουν τη χρήση του σε περιπτώσεις όπου οι παράμετροι εκτιμώνται από τα δεδομένα. Στην πραγματικότητα, η στατιστική συνάρτηση παραμένει η ίδια, αλλά χρησιμοποιούνται διαφορετικοί πίνακες ποσοστιαίων σημείων και κρίσιμων τιμών. Οι πίνακες αυτοί δεν είναι οι ίδιοι για όλες τις κατανομές, αλλά εξαρτώνται από τη μηδενική υπόθεση. 5

18 Ειδικότερα, μία παραλλαγή του Kolmogorov-Smrov τεστ για τον έλεγχο της σύνθετης υπόθεσης της κανονικότητας μελετήθηκε από τον Lllefors (967). Σύμφωνα με αυτόν, αν θέλουμε να ελέγξουμε αν το τ.δ. X, X,, X, προέρχεται από την κανονική κατανομή, με άγνωστη μέση τιμή μ και διασπορά, υπολογίζουμε αρχικά τις τυποποιημένες τιμές Z, Z,..., Z, του τ.δ. που ορίζονται ως εξής: Z X X, ' S όπου X X / και ' S ( X X ) /( ). Τότε η αρχική μηδενική υπόθεση είναι ισοδύναμη με την υπόθεση ότι το τ.δ. Z, Z,..., Z, προέρχεται από την τυποποιημένη κανονική κατανομή. Η κατάλληλη στατιστική συνάρτηση στην περίπτωση αυτή είναι η μέγιστη κατακόρυφη απόκλιση της εμπειρικής συνάρτησης κατανομής αθροιστική συνάρτηση κατανομής * S * ( z ) του τυποποιημένου δείγματος από την F 0 ( z ) της τυποποιημένης κανονικής κατανομής. Δηλαδή, η ελεγχοσυνάρτηση του Lllefors ορίζεται από τη σχέση: * * 0 T sup F ( z) S ( z). z Η αναλυτική μορφή της συνάρτησης κατανομής της ελεγχοσυνάρτησης αυτής είναι δύσκολο να προσδιορισθεί. Έτσι, ο Lllefors μελέτησε και πινακοποίησε την ασυμπτωτική κατανομή της. Προφανώς, και στην περίπτωση αυτού του έλεγχου, οι μεγάλες τιμές της στατιστικής συνάρτησης θα είναι εκείνες που θα συνηγορούν υπέρ της απόρριψης της μηδενικής υπόθεσης, αφού αυτές θα είναι αποτέλεσμα χαμηλού βαθμού εγγύτητας της συνάρτησης κατανομής του τυποποιημένου δείγματος προς τη συνάρτηση κατανομής της τυποποιημένης κανονικής κατανομής. Στο σημείο αυτό αξίζει να αναφερθεί ότι η χρήση ασυμπτωτικών ποσοστιαίων σημείων μπορεί να οδηγήσει σε εσφαλμένα συμπεράσματα και για το λόγο αυτό διάφορες εναλλακτικές τεχνικές είναι διαθέσιμες και εφαρμόζονται με τη βοήθεια των στατιστικών προγραμμάτων (bootstrap κ.α.) Εκτός από το Κolmogorov-Smrov (KS) τεστ υπάρχει ένας μεγάλος αριθμός από τεστ καλής προσαρμογής που στηρίζονται στην εμπειρική αθροιστική συνάρτηση κατανομής. Τα σημαντικότερα από αυτά στηρίζονται στα κάτωθι στατιστικά: 6

19 Cramer-vo Mses (98) To στατιστικό είναι: W 0 [ F X {( ) / }], και ποσοστιαία σημεία του δίνονται από τους Aderso ad Darlg (95). Kuper (960) Έχουμε ως ελεγχοσυνάρτηση την: Watso (957) Με ελεγχοσυνάρτηση την: Aderso-Darlg (954) To στατιστικό είναι: V D D. [ {( ) / }] ( / ) U z z. [{ (log log( )]. A z z Τα τεστ αυτά είχαν αρχικά αναπτυχθεί για την απλή υπόθεση, κι όταν εφαρμόζονται στη σύνθετη υπόθεση εκτιμούμε τα μ, σ από τους Ε.Μ.Π. Τότε οι τιμές των K, W κ.ο.κ. συμβολίζονται με ˆK, W ˆ κ.ο.κ. Ο Stephes (974) θεώρησε αυτά τα 5 τεστ και τα προσάρμοσε έτσι ώστε να είναι εφαρμόσιμα για τον έλεγχο της σύνθετης υπόθεσης της κανονικότητας, δίνοντας ασυμπτωτικά ποσοστιαία σημεία αυτών. Παρουσίασε τα αποτελέσματα έτσι ώστε αυτό που χρειάζεται κάποιος για να εκπληρώσει τον έλεγχο είναι ο υπολογισμός του στατιστικού τεστ, έναν απλό επιπλέον υπολογισμό αυτής της τιμής και μία απλή παρατήρηση στους πίνακες για τον προσδιορισμό του επιπέδου σημαντικότητας των παρατηρούμενων αποτελεσμάτων. 4. Για τον έλεγχο της μονοδιάστατης κανονικότητας συγκριτικές μελέτες έδειξαν ότι το καλύτερο στατιστικό τεστ είναι αυτό των Shapro ad Wlk (965), το οποίο εν συντομία και στα πλαίσια ενός προπτυχιακού μαθήματος αναπτύσσεται στη συνέχεια. Ας είναι X μία συνεχής τυχαία μεταβλητή και X, X,..., X, ένα δείγμα τιμών της. Έστω ότι X(), X(),.., X ( ), το διατεταγμένο στατιστικό, και ας συμβολίσουμε με Z ( ) το διατεταγμένο στατιστικό από ένα δείγμα μεγέθους που επιλέχτηκε από 7

20 την τυπική κανονική κατανομή και έστω ότι ' m (,,..., ) είναι το διάνυσμα m m m των αναμενόμενων τιμών των διατεταγμένων στατιστικών από την τυπική κανονική κατανομή, δηλαδή: Για τον έλεγχο της υπόθεσης: E( Z ) m,,,..,. ( ) H 0 : το τ.δ. N(, ) με X, X,..., X προέρχεται από κανονικό πληθυσμό, άγνωστα, θα χρησιμοποιήσουμε την ακόλουθη ιδιότητα της κανονικής κατανομής με μέση τιμή και τυπική απόκλιση : X EZ. ( ) ( ) Τότε με χρήση των γενικευμένων ελαχίστων τετραγώνων έχουμε ότι οι καλύτεροι γραμμικοί αμερόληπτοι εκτιμητές (b.l.u.e) του και είναι οι ποσότητες εκείνες, που ελαχιστοποιούν την τετραγωνική μορφή: ' ( Υ m) V ( Υ m ), όπου ' (,,...,), V είναι ο πίνακας συνδιακυμάνσεων των και Y ( X(), X(),..., X( ) ). Το Shapro-Wlk W στατιστικό, που προτάθηκε από τους Shapro ad Wlk (965), δίνεται από τη σχέση: ' ( ) ( a Y) W ( ) S ( X X ) a X όπου ' ' ' a m V m V, με ' a a. Μικρές τιμές του W υποδεικνύουν μη κανονική κατανομή, ενώ τιμές κοντά στη μονάδα δεν μας υποδεικνύουν αποκλίσεις από την κανονικότητα. Ποσοστιαία σημεία για τη μηδενική κατανομή του W συνοψίζονται στην εργασία των Shapro ad Wlk (965) για p =0.0, 0.0, 0.05, 0., 0.5, 0.9, 0.95, 0.98, 0.99 και για δείγματα μεγέθους 3()50. Τέλος, o Roysto (98) επέκτεινε το W για δείγματα μεγέθους 50 και ανέπτυξε ένα μετασχηματισμό της μηδενικής κατανομής του W για να προσεγγίσει την κανονικότητα για μεγέθη δείγματος, με Ακόμη πρότεινε μία μέθοδο για τον υπολογισμό του επιπέδου σημαντικότητας για 7. Με αυτόν τον τρόπο επιτεύχθηκε η ανάπτυξη του W τεστ σε μία μορφή, η 8

21 οποία μπορεί εύκολα να προγραμματιστεί σε υπολογιστή, για ένα εύρος δειγμάτων μεγέθους Ο έλεγχος Smrov για δύο ανεξάρτητα δείγματα Ο Smrov (939 a, b) επέκτεινε το στατιστικό τεστ του Kolmogorov (933) για τη σύγκριση δύο κατανομών στη βάση δύο ανεξάρτητων δειγμάτων από κάθε πληθυσμό. Αναλυτικότερα, έστω ότι X, X,, X, ένα τυχαίο δείγμα από έναν πληθυσμό με άγνωστη αθροιστική συνάρτηση κατανομής F X ( ) και Y, Y,, Y m, ένα τυχαίο δείγμα από έναν πληθυσμό με άγνωστη αθροιστική συνάρτηση κατανομή Έστω επιπρόσθετα F και G m G Y ( ). οι αντίστοιχες εμπειρικές αθροιστικές συναρτήσεις κατανομής αυτών των πληθυσμών. Θέλουμε να ελέγξουμε μία από τις εξής τρεις υποθέσεις: Α. Τη μηδενική υπόθεση H0 : FX ( x ) GY ( x ), x R, έναντι της εναλλακτικής H : FX ( x ) GY ( x ), για κάποιο x R. Β. Τη μηδενική υπόθεση H0 : FX ( x ) GY ( x ), x R, έναντι της εναλλακτικής H F x G x, για κάποιο x R. : X ( ) Y ( ) Γ. Τη μηδενική υπόθεση H0 : FX ( x ) GY ( x ), x R έναντι της εναλλακτικής H F x G x, για κάποιο x R. : X ( ) Y ( ) Με παρόμοιο σκεπτικό με αυτό που αναπτύχθηκε για τον έλεγχο Kolmogorov για ένα δείγμα, γίνεται αντιληπτό ότι η στατιστική συνάρτηση για τον έλεγχο των παραπάνω υποθέσεων θα βασίζεται στις εμπειρικές συναρτήσεις κατανομής αυτών και θα αποτελεί ένα μέτρο της εγγύτητας τους. Ειδικότερα, η στατιστική συνάρτηση για καθένα από τους τρεις διαφορετικούς ελέγχους είναι: Α. Χρησιμοποιείται το στατιστικό Dm, sup F ( x) Gm ( x) max F ( Z ) Gm ( Z ), x όπου Z,, Z m είναι το διατεταγμένο δείγμα που προκύπτει από τη σύνθεση των X, X,, X, και Y, Y,, Y m. Προφανώς η μηδενική υπόθεση απορρίπτεται για μεγάλες τιμές του D m,. Β. Χρησιμοποιείται το στατιστικό 9

22 Γ. Χρησιμοποιείται το στατιστικό D sup F ( x ) G ( x ), m, m x D sup G ( x ) F ( x ), m, m x Αποδεικνύονται τότε τα ακόλουθα (βλέπε, μεταξύ άλλων, Kvam ad Vdakovc (007)): Θεώρημα.6 α) Όταν και m η κατανομή των στατιστικών D sup F ( x ) G ( x ), m x D sup G ( x ) F ( x ), m x υπό τη μηδενική υπόθεση H0 : FX ( x ) GY ( x ), x R, δίνεται από τη σχέση ( d ) P D, d PD, d, όπου με ( d ) συμβολίζουμε το μεγαλύτερο ακέραιο που είναι μικρότερος από ( d ). β) Όταν και m μεγάλα (, m 30) τότε ασυμπτωτικά ισχύει ότι m P D m, d e m j d j. Χρησιμοποιώντας τα αποτελέσματα του παραπάνω θεωρήματος προκύπτουν τα ακριβή ποσοστιαία σημεία (περίπτωση m ) όσο και προσεγγίσεις αυτών για διάφορα μεγέθη δείγματος. Η μηδενική υπόθεση H0 : FX ( x ) GY ( x ), x R, απορρίπτεται, σε επίπεδο σημαντικότητας a, αν η τιμή της ελεγχοσυνάρτησης είναι μεγαλύτερη από τις κρίσιμες τιμές του στατιστικού του Smrov, που παρατίθενται στους Πίνακες και 3 του παραρτήματος. 0

23 Παράδειγμα. Στον πίνακα που ακολουθεί καταγράφονται οι τιμές δύο ανεξάρτητων τυχαίων δειγμάτων, μεγέθους 6 και 9, αντίστοιχα από δύο πληθυσμούς με αθροιστικές συναρτήσεις κατανομής F X ( ) και G Y ( ) σημαντικότητας 5%, τη μηδενική υπόθεση εναλλακτικής H : FX ( x ) GY ( x ), για κάποιο x R., αντίστοιχα. Να ελέγξετε, με επίπεδο H0 : FX ( x ) GY ( x ), x R, έναντι της X Y Λύση Από τη θεωρία έχουμε ότι η ελεγχοσυνάρτηση που θα χρησιμοποιηθεί είναι η: D6,9 sup F ( x) Gm ( x) max F ( Z ) Gm ( Z ), x όπου Z,, Z m είναι το διατεταγμένο δείγμα που προκύπτει από τη σύνθεση των X, X,, X, και,,, m Y Y Y, ενώ με F και G m συμβολίζονται οι εμπειρικές αθροιστικές συναρτήσεις κατανομής. Είναι τότε (για διευκόλυνση με έντονη γραφή οι τιμές X ) : Z F ( Z ) G ( Z ) F ( Z ) G ( Z ) m m 5. /6 0 /6=9/ /6 0 /6=8/ /6 0 3/6=7/ /6 /9 3/6-/9=/ /6 /9 4/6-/9=30/ /6 /9 4/6-/9=4/ /6 3/9 4/6-3/9=8/ /6 4/9 4/6-4/9=/ /6 5/9 4/6-5/9=6/ /6 5/9 5/6-5/9=5/ /6 6/9 5/6-6/9=9/ /9 3/9=8/ /9 /9=/ /9 /9=6/

24 Επομένως είναι D6,9 30/54= Από τον Πίνακα 3 του Παραρτήματος έχουμε ότι η κρίσιμη τιμή του δίπλευρου ελέγχου σε επίπεδο σημαντικότητας 5% είναι ίση με /3. Επομένως δεν μπορεί να απορριφθεί η μηδενική υπόθεση ότι οι αθροιστικές συναρτήσεις των δύο κατανομών συμπίπτουν. Παρατήρηση.3 Στη βιβλιογραφία έχουν προταθεί διάφορες παραλλαγές αυτού του στατιστικού τεστ καθώς και επεκτάσεις του στην περίπτωση k δειγμάτων, k 3. Για περισσότερες πληροφορίες παραπέμπουμε στους Kvam ad Vdakovc (007).. X τεστ καλής προσαρμογής Έστω ότι X, X,, X, είναι τυχαίες παρατηρήσεις μίας τυχαίας μεταβλητής με αθροιστική συνάρτηση κατανομής (α.σ.κ.) F( x ), η οποία είναι άγνωστη. Θέλουμε να ελέγξουμε την υπόθεση: H : F( x) F ( x), 0 0 όπου F 0 ( x ) είναι μία ειδική α.σ.κ., η οποία μπορεί να είναι είτε συνεχής είτε διακριτή. Ο αρχαιότερος και περισσότερο γνωστός έλεγχος καλής προσαρμογής είναι ο X, ο οποίος προτάθηκε το 900 από τον Karl Pearso. Για αυτήν τη διαδικασία, το διάστημα τιμών της μεταβλητής Χ, έστω το,, χωρίζεται σε επικαλυπτόμενα υποδιαστήματα, I a, x, I x, x,, I x k, k k μη. Στην ουσία δηλαδή διακριτοποιούμε ή κατηγοριοποιούμε την κατανομή σε k κατηγορίες. Αν με p 0 συμβολίσουμε την πιθανότητα μία τυχαία παρατήρηση πάνω στη μεταβλητή Χ να ανήκει στην κατηγόρια, κάτω από την υπόθεση ότι F 0 ( x ) είναι η συνάρτηση κατανομής της Χ, τότε: k,,..., p0 F0 x F0 p0 F0 x F0 x p0 F0 F0 x k. Επιπρόσθετα, έστω οι παρατηρούμενες συχνότητες των I,,..., k, δηλαδή είναι το πλήθος των δειγματικών τιμών στο διάστημα I, με... k. Τότε, o αναμενόμενος αριθμός των παρατηρήσεων που ανήκουν στο διάστημα I, υπό την H 0, είναι e p,,,.. k. Το 0 X τεστ του Pearso

25 αντιπαραβάλλει τον αριθμό των παρατηρήσεων που ανήκουν στο υποδιάστημα με τον αναμενόμενο αριθμό συνάρτηση: e αυτών υπό την H 0 και δίνεται από τη στατιστική X k ( e ). (..) e Αν το μέγεθος του δείγματος είναι μεγάλο και με την προϋπόθεση ότι e 5 (όταν η ανισότητα δεν ικανοποιείται τότε ενοποιούμε τις μικρότερες κατηγόριες έτσι ώστε να ισχύει), κάτω από τη μηδενική υπόθεση, έχουμε ότι η κατανομή του πιο πάνω στατιστικού προσεγγίζεται από τη X κατανομή με k βαθμούς ελευθερίας. Μεγάλες τιμές της συνάρτησης αυτής αποτελούν ενδείξεις υπέρ της εναλλακτικής υπόθεσης. Επομένως απορρίπτουμε την H 0 με επίπεδο σημαντικότητας αν: όπου X k, k, X X, είναι το αντίστροφο εκατοστιαίο σημείο της X k (τιμές των αντίστροφων εκατοστιαίων σημείων παρατίθενται στον Πίνακα 4 του Παραρτήματος) και ορίζεται: όπου η τυχαία μεταβλητή k k, P( X X ) -, X k ακολουθεί την X κατανομή με k βαθμούς ελευθερίας. Η παραπάνω μεθοδολογία πρωτοθεμελιώθηκε από τον Fsher (94) και μία πλήρη απόδειξή του παρατίθεται από τον Cramer (946). Η περίπτωση μίας πλήρους ορισμένης υποθετικής κατανομής είναι πολύ σπάνια στις πρακτικές εφαρμογές. Πολύ συχνά αντιμετωπίζουμε περιπτώσεις, όπου η υποθετική κατανομή περιέχει έναν αριθμό άγνωστων παραμέτρων. Στη γενικότερη περίπτωση ενός τέτοιου ελέγχου έχουμε s (με s k ) απροσδιόριστες παραμέτρους,,...,, τις οποίες μπορούμε να συμβολίσουμε συνολικά με το θ. s Όπως πρωτύτερα, χωρίζουμε πάλι το σύνολο τιμών της τυχαίας μεταβλητής σε k κατηγόριες, όμως τώρα οι πιθανότητες 0 p δεν είναι άμεσα υπολογίσιμες καθώς είναι συναρτήσεις του θ. Σε αυτήν τη συνήθη περίπτωση θα πρέπει να εκτιμήσουμε τις απροσδιόριστες παραμέτρους, θα πρέπει δηλαδή να εκτιμήσουμε το θ με κάποιο διάνυσμα εκτιμητών, έστω ˆθ. Διαφορετικές μέθοδοι εκτίμησης των παραμέτρων αυτών, αντανακλούν στις ιδιότητες της δειγματικής κατανομής του υπόθεσης θα χρησιμοποιήσουμε το στατιστικό: X. Τώρα για τον έλεγχο της σύνθετης 3

26 X ˆ ( ( )) (..) e k p0 το οποίο προκύπτει από την (..) αντικαθιστώντας τις άγνωστες ποσότητες με τους εκτιμητές τους. Είναι φυσικό να προσπαθήσουμε να ορίσουμε τις καλύτερες τιμές των παραμέτρων έτσι ώστε το X της σχέσης (..) να γίνεται όσο το δυνατό μικρότερο. Αυτή είναι η γνωστή στη στατιστική βιβλιογραφία ως mmum ch-square method of estmato (μέθοδος εκτίμησης του ελάχιστου επιλύσουμε τις εξισώσεις: X ). Τότε έχουμε να X - 0, όπου,,..., s. (..3) H οριακή κατανομή του X για αυτήν τη μέθοδο εκτίμησης αναπτύχθηκε από τους Neyma ad E. S. Pearso (98). Ακόμα και σε απλές περιπτώσεις το σύστημα (..3) είναι συνήθως πολύ δύσκολο να επιλυθεί, έτσι η εύρεση των εκτιμητών είναι δύσκολη. Το παραπάνω στατιστικό, αν το μέγεθος του δείγματος είναι μεγάλο και η μηδενική υπόθεση είναι αληθής, ασυμπτωτικά κατανέμεται ως X k s, δηλαδή ακολουθεί μία X κατανομή με k s βαθμούς ελευθερίας, όπου ως σύνολο εκτιμητών των απροσδιόριστων παραμέτρων έχουμε επιλέξει τους εκτιμητές των,,..., s που αποκτούνται ως συναρτήσεις των στατιστικών,,,..., s. Έτσι, απορρίπτουμε τη μηδενική υπόθεση αν και μόνο αν το παραπάνω στατιστικό είναι τέτοιο ώστε: k s, X X. Παρατηρήσεις.4. Στο παραπάνω στατιστικό τα,,,..., s, εκτιμήθηκαν χρησιμοποιώντας τα αντί των X,, X, όπου τα στατιστικά δίνουν τον αριθμό των παρατηρήσεων που ανήκουν στο υποδιάστημα, αφού στην πράξη μπορεί τα X να μην καταγράφονται. Στην περίπτωση όμως που οι παρατηρήσεις είναι διαθέσιμες, τότε κάποιος μπορεί να εκτιμήσει τα,,,..., s, πιο αποτελεσματικά χρησιμοποιώντας π.χ. τους εκτιμητές μέγιστης πιθανοφάνειας που βασίζονται στις παρατηρήσεις X, X, X. Όταν τέτοιοι εκτιμητές χρησιμοποιούνται, η οριακή κατανομή του X στη σχέση (..) παύει να είναι X με k s βαθμούς ελευθερίας. Όπως έδειξαν οι Cheroff ad Lehma (954), οι οποίοι θεώρησαν τα 4

27 άκρα των διαστημάτων γνωστά, όταν s παράμετροι εκτιμώνται από το δείγμα τότε η οριακή κατανομή του βαθμούς ελευθερίας και μίας X της σχέσης (..) φράσσεται μεταξύ μίας X με k βαθμούς ελευθερίας. X με k s Για μεγάλες τιμές του k υπάρχει μικρή διαφορά μεταξύ των k s, X και k, X και μπορεί να αγνοηθεί, αλλά για μικρό k η επίδραση της χρήσης της k s X κατανομής για έλεγχους μπορεί να οδηγήσει σε σοβαρά σφάλματα.. Η χρήση του X τεστ για τον έλεγχο της σύνθετης υπόθεσης της κανονικότητας δε προτείνεται λόγω της μικρής ισχύος του σε σύγκριση με τις υπόλοιπες διαδικασίες. Το ίδιο βέβαια ισχύει και για το Kolmogorov-Smrov τεστ. Επιπρόσθετα όπως αναφέρει και ο D. S. Moore (986) δε συνίσταται η χρήση του X τεστ στις περιπτώσεις που τα δεδομένα είναι διαθέσιμα, παρά μόνο αν γνωρίζουμε τις συχνότητες εμφάνισης σε διαστήματα του άξονα των πραγματικών αριθμών. Παράδειγμα.5 ( X τεστ προσαρμογής Πολυωνυμικής κατανομής) Σύμφωνα με μία θεωρία υπάρχουν 4 ποικιλίες ενός φυτού με αναλογίες p 9 /6, p 3/6, p3 3/6 και p4 /6. Σε ένα τυχαίο δείγμα φυτών μεγέθους 78 βρέθηκε ότι στις 4 ποικιλίες ανήκουν αντίστοιχα 57, 54, 5 και 6 φυτά. Να ελεγχθεί στατιστικά η θεωρία σχετικά με τις ποικιλίες σε επίπεδο σημαντικότητας a 5%. Λύση Στην ουσία έχουμε ένα τυχαίο πείραμα από, 78, ανεξάρτητες δοκιμές στο οποίο μπορούμε να έχουμε k 4 δυνατά αποτελέσματα, ξένα μεταξύ τους E,,...,4. Έστω p P E, p P E, p P E και p P E 3 3 οι 4 4 αντίστοιχες πιθανότητες πραγματοποίησης καθενός. Επιπλέον, έστω ότι στις επαναλήψεις το E,,...,4, συμβαίνει ακριβώς φορές με Τότε:,,, M, p, p, p, p και όπου 4! p p p p, 3,,, P p και !! 3! 4! 5

28 Θέλουμε να ελέγξουμε την υπόθεση: έναντι της εναλλακτικής όπου H : p 9 /6, p 3/6, p 3/6, p /6, H: τουλάχιστο μια αναλογία διαφέρει από τη δοθείσα αναλογία στην H 0. Ο έλεγχος γίνεται με το στατιστικό X 4 ( ) e e e ο αναμενόμενος αριθμός εμφανίσεων του μηδενική υπόθεση. Υπό τη μηδενική υπόθεση ισχύει ότι:,,, M, p, p, p, p , E,,...,4, όταν ισχύει η και (βλέπε π.χ. Κούτρας (004)) B, p,,...,4. 9 Επομένως είναι e p,,...,4, δηλαδή e 78 56,375, ,5 6 e, 3 3 e 78 5,5 και e4 78 7, Άρα καθώς το μέγεθος του δείγματος είναι μεγάλο και e 5,,...,4, δηλαδή καθώς πληρούνται οι προυποθέσεις του υπολογισμό του. Είναι X άρα 4 X στατιστικού τεστ, προβαίνουμε στον 57 56, ,5 5 5,5 6 7,375 ( e ) e 56,375 5,5 5,5 7,375 0,65,875,5,375 0, ,5565,6565,89065 X 56,375 5,5 5,5 7,375 56,375 5,5 5,5 7,375 δηλαδή X 0,005 0,0674 0,04 0,088 0,09. Απορρίπτουμε την H 0 αν: k, 3, X X X, όπου 3, 0.05 X είναι το αντίστροφο εκατοστιαίο σημείο της X 3 και ορίζεται: 3 3, 0.05 P( X X )

29 Επομένως, καθώς 0,09<7.8, δεν απορρίπτεται η μηδενική υπόθεση και επαληθεύεται η θεωρία της ύπαρξης τεσσάρων ποικιλιών με αναλογίες p 9 /6, p 3/6, p3 3/6 και p4 /6, αντίστοιχα. Παράδειγμα.6 ( παράμετρο) X τεστ προσαρμογής Posso κατανομής με άγνωστη Έστω X η τυχαία μεταβλητή που παριστάνει τον αριθμό των αφίξεων σε ένα κεντρικό φαρμακείο της πόλης των Ιωαννίνων κατά τη διάρκεια ενός μισάωρου. Επιλέγεται τυχαία ένα δείγμα 365 τέτοιων χρονικών περιόδων κατά τη διάρκεια των οποίων έχουμε 730 αφίξεις συνολικά. Ο αριθμός των αφίξεων και οι αντίστοιχες συχνότητες κατά τη διάρκεια αυτών των 365 χρονικών περιόδων δίνονται στον πίνακα που ακολουθεί: Αριθμός Αφίξεων ή περισσότερες Συχνότητα Να ελεγχθεί με επίπεδο σημαντικότητας 5% η υπόθεση ότι η τυχαία μεταβλητή ακολουθεί Posso κατανομή. Λύση Θέλουμε να ελέγξουμε αν η τυχαία μεταβλητή X που παριστάνει τον αριθμό των αφίξεων στο φαρμακείο σε ένα μισάωρο ακολουθεί Posso κατανομή με συνάρτηση πιθανότητας: x e P X x x x!, 0,,,... όπου η άγνωστη παράμετρος είναι ο ρυθμός των αφίξεων των πελατών σε χρονικό διάστημα ενός μισάωρου. Επομένως έχουμε μία απροσδιόριστη παράμετρο. Επιπλέον από τα δεδομένα της εκφώνησης προκύπτει ότι το σύνολο των τιμών της τυχαίας μεταβλητής χωρίζεται σε 6 κατηγορίες, ξένες μεταξύ τους. Έστω E το ενδεχόμενο να μην αφιχθούν πελάτες, E το ενδεχόμενο να αφιχθεί πελάτης κ.ο.κ. έστω E 6 το ενδεχόμενο να αφιχθούν 5 ή περισσότεροι πελάτες. Η εύρεση των πιθανοτήτων P E,,...,6, δεν είναι άμεσα υπολογίσιμη διότι είναι συνάρτηση του. Ένας τρόπος να ξεπεράσουμε το πρόβλημα αυτό αποτελεί η αντικατάσταση του με έναν εκτιμητή του, έστω τον Εκτιμητή Μέγιστης Πιθανοφάνειας (Ε.Μ.Π.) 7

30 f Αν X,, X ένα τυχαίο δείγμα από ένα πληθυσμό με σ.π. ή σ.π.π. x /, όπου η άγνωστη παράμετρος ή οι άγνωστοι παράμετροι, ο Ε.Μ.Π. της παραμέτρου είναι η ποσότητα εκείνη που μεγιστοποιεί ως προς τις τιμές των άγνωστων παραμέτρων τη συνάρτηση πιθανοφάνειας L που δίνεται από τη σχέση L f x /. Για την ειδική περίπτωση του παραδείγματός μας είναι: x e e L f x /! x X x!, X και προκύπτει ότι Επομένως, για το παράδειγμά μας είναι:. X 0*4*75 *0 3*0 4*40 5* Θα χρησιμοποιήσουμε το στατιστικό με κρίσιμη περιοχή X 6 p e k s, 4,0.05,07 X X X, όπου P X, p P X p , P X, p P X p p5 P X , , p6 P X 5 ( ) 0.056, όπου για την εύρεση των παραπάνω τιμών χρησιμοποιήθηκαν οι πίνακες της Posso κατανομής (βλέπε, μεταξύ άλλων, Ζωγράφος (005)). Είναι τότε: e 365* ,3845, e 365* ,8055, e3 365* ,8055, e4 365* ,846, e5 365* ,93 και e6 365* ,99., 8

31 Άρα καθώς το μέγεθος του δείγματος είναι μεγάλο και e 5,,...,6, δηλαδή πληρούνται οι προϋποθέσεις του υπολογισμό του Επομένως είναι: X X στατιστικού τεστ, προβαίνουμε στον 4 49, , , , , , , ,93 5 9,99 65,846 3,93 9,99 =,435+5,7355+4,5464+9,608+5,9603+0,50=67,7749 και η μηδενική υπόθεση απορρίπτεται, καθώς 67,7749>,07. Αυτό σημαίνει ότι η τυχαία μεταβλητή που παριστάνει τον αριθμό των αφίξεων στο φαρμακείο σε ένα μισάωρο δεν περιγράφεται από την κατανομή Posso. 9

32 .3 Ασκήσεις Άσκηση. Κατά το παρελθόν είχε γίνει γνωστό ότι το 75% των Ελλήνων πάει διακοπές 0 μέρες, 5% των Ελλήνων περισσότερο από 0 μέρες, 5% από 5-9 μέρες, 4% από - 4 μέρες και % δεν πάει διακοπές. Όμως τα τελευταία χρόνια λόγω των οικονομικών δυσκολιών ίσως αυτό να μην ισχύει. Σε επίπεδο σημαντικότητας 5% να ελέγξετε την παραπάνω υπόθεση, αν σε ένα τυχαίο δείγμα 00 ατόμων, 65 πήγαν διακοπές 0 μέρες, 5 περισσότερες από 0, 6 από 5-9 μέρες, 3 από -4 μέρες και δεν πήγε διακοπές. Λύση Στην ουσία έχουμε ένα τυχαίο πείραμα από, 00, ανεξάρτητες δοκιμές στο οποίο μπορούμε να έχουμε k 5 δυνατά αποτελέσματα, E,,...,5, ξένα μεταξύ τους. Έστω p P E, p P E, p P E, p P E και p P E οι 5 5 αντίστοιχες πιθανότητες πραγματοποίησης καθενός. Επιπλέον, έστω ότι στις επαναλήψεις το και E,,...,5, συμβαίνει ακριβώς φορές με Τότε:,,,, M, p, p, p, p, p ! P p p p p p ,,,, Θέλουμε να ελέγξουμε την υπόθεση: έναντι της εναλλακτικής !! 3! 4! 5! H : p 0.75, p 0.5, p 0.05, p 0.04, p 0.0, H: τουλάχιστο μια αναλογία διαφέρει από τη δοθείσα αναλογία στην H 0. Ο έλεγχος γίνεται με το στατιστικό X 5 ( ) e e όπου e ο αναμενόμενος αριθμός εμφανίσεων του μηδενική υπόθεση. Υπό τη μηδενική υπόθεση ισχύει ότι:, E,,...,5, όταν ισχύει η,,,, M, p, p, p, p, p και B, p ,,...,5.

33 Επομένως είναι e p,,...,5, δηλαδή e 00* , e 00*0.5 30, e3 00*0.05 0, e4 00* και e5 00* Καθώς δεν πληρούνται οι προϋποθέσεις εφαρμογής του προσαρμογής, αφού δεν είναι e 5,,...,5, θα προχωρήσουμε σε συγχώνευση δύο γειτονικών κατηγοριών και συγκεκριμένα των δύο τελευταίων. δηλαδή θα ασχοληθούμε με τον έλεγχο της υπόθεσης: έναντι της εναλλακτικής H : p 0.75, p 0.5, p 0.05, p 0.05,, ' ' ' ' ' X τεστ Στην ουσιά H: τουλάχιστο μια αναλογία διαφέρει από τη δοθείσα αναλογία στην H 0. Ο έλεγχος γίνεται με το στατιστικό όπου X 4 ( ' e ) e e ο αναμενόμενος αριθμός εμφανίσεων του, E,,...,4, όταν ισχύει η μηδενική υπόθεση, όπου τώρα E 4 είναι το ενδεχόμενο κάποιος να πηγαίνει διακοπές από 0-4 μέρες. Υπό τη μηδενική υπόθεση ισχύει ότι: ' ' ' ' ' ' ' ' ' ',, 3, 4 M, p, p, p3, p4 και B, p,,...,4. Επομένως είναι e p,,...,4, δηλαδή e 00* , ' e 00*0.5 30, e3 00* και e4 00* Άρα και το μέγεθος του δείγματος είναι μεγάλο και e 5,,...,4, και επομένως συνεχίζουμε με τον υπολογισμό της τιμής του άρα X 4 ' X. Είναι ( e ) e Απορρίπτουμε την X ' H 0 αν: k, 3, X X X, όπου 3, 0.05 X είναι το αντίστροφο εκατοστιαίο σημείο της X 3 και ορίζεται: 3 3, 0.05 P( X X ) -0.05, 3, και προκύπτει από τον Πίνακα 4 ότι είναι X. 3

34 Επομένως δεν απορρίπτεται η μηδενική υπόθεση, δηλαδή οι πιθανότητες πραγματοποίησης κάθε ενδεχομένου δε διαφέρουν στατιστικά σημαντικά από αυτές που δίνονται στην ' H 0. Άσκηση. Εκλέγεται ένα τυχαίο δείγμα τιμών της τ.μ Χ με τα παρακάτω αποτελέσματα: Διάστημα (0,/4] (/4,/] (/,3/4] (3/4,] Συχνότητα Να ελέγξετε, με επίπεδο σημαντικότητας 5%, αν προέρχεται από την, 0, f x x x. Λύση Θέλουμε να ελέγξουμε αν η τυχαία μεταβλητή X ακολουθεί κατανομή με συνάρτηση πυκνότητας πιθανότητας:, 0, f x x x. Επιπλέον το σύνολο των τιμών της τυχαίας μεταβλητής χωρίζεται σε 4 κατηγορίες, ξένες μεταξύ τους. Έστω E το ενδεχόμενο να ανήκουν στο διάστημα (0,/4], E το ενδεχόμενο να ανήκουν στο διάστημα (/4,/], E 3 το ενδεχόμενο να ανήκουν στο διάστημα (/,3/4] και E 4 να ανήκουν στο διάστημα (3/4,]. Ακολουθεί η εύρεση των πιθανοτήτων P E,,...,4, και p P E P 0 X / 4 x dx 7 /6, p P E P / 4 X / x dx 5/6, p3 P E3 P / X 3/ 4 x dx 3/6, p4 P E4 P 3/ 4 X x dx /6. Ο έλεγχος της μηδενικής υπόθεσης γίνεται με το στατιστικό / 4 0 / / 4 3/ 4 / 3/ 4 3

35 όπου X 4 ( ) e e e ο αναμενόμενος αριθμός εμφανίσεων του, E,,...,4, όταν ισχύει η μηδενική υπόθεση. Είναι 30, 30, 3 0 και 4 0, ενώ e p 80* 35, e p 80* 5, e3 p3 80* 5 και e p 80* 5, αντίστοιχα Επομένως, X 8, Η μηδενική υπόθεση απορρίπτεται αν k, 3,0.95 7,8 X X X. Επομένως η μηδενική υπόθεση απορρίπτεται, άρα το τ.δ. δεν προέρχεται από τη δοθείσα κατανομή. Άσκηση.3 Να βρεθεί η κατανομή του στατιστικού του Smrov που χρησιμοποιείται για τον δίπλευρο έλεγχο όταν είναι διαθέσιμες δύο παρατηρήσεις από κάθε πληθυσμό. Λύση Θέλουμε να βρούμε την κατανομή του στατιστικού: D, sup F ( x) G ( x ), x όταν. Επομένως έχουμε δύο παρατηρήσεις, έστω τις X, X, από τον πρώτο πληθυσμό με αθροιστική συνάρτηση κατανομής F και τις Y, Y, από τον δεύτερο πληθυσμό με αθροιστική συνάρτηση κατανομής G. Επομένως συνολικά έχουμε 4 παρατηρήσεις και καθώς αυτό που μας ενδιαφέρει είναι η διάταξή τους, μη λαμβάνοντας υπόψη τη διάταξη εντός των δειγμάτων, έχουμε ότι υπάρχουν συνολικά 4 6 διατάξεις. Οι 6 αυτές πιθανές διατάξεις, μαζί με τις αντίστοιχες τιμές των εμπειρικών αθροιστικών συναρτήσεων παρατίθενται: 33

36 X X Y Y με F :/, G : 0 0 /, X Y X Y με F :/ /, G : 0 / /, X Y Y X με F :/ / /, G : 0 /, Y X X Y με F : 0 /, G :/ / /, Y X Y X με F : 0 / /, G :/ /, Y Y X X με F : 0 0 /, G :/. Οπότε προκύπτει ότι για κάθε περίπτωση οι τιμές του ½, ½, ½, αντίστοιχα, με P D / 6 / 3 και sup F ( x) G ( x ) είναι:, ½, P D / 4 / 6 / 3. Άσκηση.4 Να βρεθεί η ακριβής κατανομή του Kolmogorov στατιστικού για το δίπλευρο έλεγχο όταν, υπό τη μηδενική υπόθεση. Λύση Το στατιστικό του Kolmogorov για το δίπλευρο έλεγχο όταν δίνεται από τη σχέση; Είναι τότε: οπότε D F ( x) F ( x ), με τιμές μεταξύ μηδέν και ένα. 0 0 P D t P F x t P F x t P X F t, P D t P X F t F F t t t, δηλαδή ακολουθή ομοιόμορφη κατανομή στο (0,). 34

37 Δεύτερο Κεφάλαιο Τεστ των ροών Στις περισσότερες από τις στατιστικές μεθοδολογίες, τόσο της Παραμετρικής όσο και της Μη Παραμετρικής Στατιστικής, υποθέτουμε ότι το δείγμα μας είναι τυχαίο, δηλαδή ότι οι το πλήθος δειγματικές παρατηρήσεις X,,, X είναι ανεξάρτητες τυχαίες μεταβλητές, ισόνομες ή όχι, δηλαδή με κοινή ή όχι συνάρτηση πιθανότητας ή συνάρτηση πυκνότητας πιθανότητας, ανάλογα. Υπάρχουν όμως περιπτώσεις που έχουμε λόγους να αμφιβάλλουμε για την τυχαιότητα των δειγματικών παρατηρήσεων. Ενδεικτικά αναφέρουμε ότι μία τέτοια περίπτωση συναντάμε για παράδειγμα όταν οι παρατηρήσεις είναι χρονολογικές π.χ. αν πρόκειται για το ύψος της βροχής σε μία περιοχή σε διαφορετικές χρονικές περιόδους. Ένας τρόπος ελέγχου της τυχαιότητας ή μη ενός δείγματος δειγματικών παρατηρήσεων είναι το λεγόμενο τεστ των ροών (Wald ad Wolfowtz (940), rus test). Πρόκειται για ένα μη παραμετρικό έλεγχο καθώς δεν γίνεται καμία υπόθεση για τη μορφή του πληθυσμού από τον οποίο προέρχεται το υπό εξέταση δείγμα. Έστω X,, X, οι το πλήθος διαθέσιμες παρατηρήσεις, διατεταγμένες σε χρονολογική σειρά συνήθως. Επιπλέον υποθέτουμε ότι τα δεδομένα μπορούν να διαχωριστούν σε δύο ομάδες, σε δύο τύπους, έστω την ομάδα Α και την ομάδα Β. Για παράδειγμα, αν θέλουμε να ελέγξουμε την τυχαιότητα των υπολοίπων ενός μοντέλου γραμμικής παλινδρόμησης, τα υπόλοιπα χωρίζονται σε αυτά που λαμβάνουν θετικές τιμές και σε αυτά με αρνητικές τιμές. Στις υπόλοιπες των περιπτώσεων, αν δεν καθορίζεται κάποιο κριτήριο από τη φύση του προβλήματος, χρησιμοποιείται η διάμεσος, ως σημείο διαχωρισμού των παρατηρήσεων σε δύο ομάδες. Παρατήρηση. Στην περίπτωση που κάποιο υπόλοιπο είναι ίσο με μηδέν ή η δειγματική τιμή είναι ίση με τη διάμεσο ή με την τιμή του κριτηρίου που έχει καθοριστεί, για τον διαχωρισμό των παρατηρήσεων σε δύο ομάδες, τότε αυτές αποκλείονται από την περαιτέρω ανάλυση και η ανάλυση συνεχίζεται λαμβάνοντας υπόψη την τροποποίηση στο μέγεθος του δείγματος. Σε όσα ακολουθούν συμβολίζεται με το μέγεθος του τροποποιημένου δείγματος και με X,, X οι τελικά διαθέσιμες παρατηρήσεις. 35

38 Έστω ότι στο δείγμα των δειγματικών παρατηρήσεων, X,, X, από αυτές ανήκουν στην ομάδα Α και οι τιμές αυτών αντικαθίστανται με το σύμβολο +, ενώ οι το πλήθος τιμές των υπόλοιπων παρατηρήσεων που ανήκουν στην ομάδα Β αντικαθίστανται με το σύμβολο -. Επομένως, κάθε δειγματική παρατήρηση αντικαθίσταται από το σύμβολο + ή το σύμβολο, τα οποία σύμβολα χαρακτηρίζούν κατά αυτόν τον τρόπο σε ποια ομάδα από τις δύο ανήκει η δειγματική παρατήρηση. Για να αποφασίσουμε για την τυχαιότητα ή όχι των παρατηρήσεων, θεωρούμε το στατιστικό R που ορίζεται ως ο αριθμός των ακολουθιών ομοίων συμβόλων στην ακολουθία των το πλήθος συμβόλων + και -. Δηλαδή, αρχικά αυτό που μας ενδιαφέρει είναι η εύρεση του πλήθους των ακολουθιών όμοιων συμβόλων. Έτσι για παράδειγμα στην περίπτωση της ακόλουθης ακολουθίας: είναι, 7, 5 και R Αν ήταν R αυτό θα σήμαινε ότι είτε αρχικά όλες οι παρατηρήσεις θα ανήκουν στην ομάδα Α και έπειτα στην ομάδα Β είτε αντίστροφα. Επομένως μέχρι κάποιο σημείο, κάποια χρονική στιγμή, κάθε παρατήρηση της μιας ομάδας ακολουθείται από παρατήρηση που ανήκει στην ίδια ομάδα. Αν ήταν R θα σήμαινε ότι μια δειγματική παρατήρηση της μιας ομάδας διαδέχεται παρατήρηση της άλλης. Προφανώς σε αυτές τις δύο περιπτώσεις θα έχουμε αποκλίσεις από την τυχαιότητα. Επομένως είναι προφανές ότι είτε πολύ μεγάλες είτε πολύ μικρές τιμές του στατιστικού R υποδεικνύουν αποκλίσεις του δείγματος από την τυχαιότητα. Από τα παραπάνω γίνεται αντιληπτό ότι η ποσότητα R μπορεί να χρησιμοποιηθεί για το ζητούμενο έλεγχο. Για το λόγο αυτό απαιτείται η εύρεση της κατανομής του R, υπό τη μηδενική υπόθεση. Πριν προχωρήσουμε στην εύρεση της κατανομής του R υπό τη μηδενική υπόθεση θα παραθέσουμε ένα χρήσιμο για αυτήν την εύρεση αποτέλεσμα. Ο αριθμός των διαφορετικών τρόπων τοποθέτησης το πλήθος όμοιων στοιχείων σε r το πλήθος μη κενά κελιά είναι ίσος με r. Μία απόδειξη αυτού (βλέπε Gbbos ad Chakrabort (003)) έχει ως εξής: αρχικά τοποθετούνται τα το πλήθος στοιχεία, έστω π.χ. άσπρες μπάλες σε μία σειρά. Έπειτα τα r το πλήθος κελιά μπορούν να δημιουργηθούν παρεμβάλοντας ανάμεσα σε οποιεσδήποτε δύο άσπρες μπάλες r το πλήθος μαύρες μπάλες. Καθώς υπάρχουν το πλήθος 36

39 δυνατές θέσεις τέτοιας τοποθέτησης είναι ο συνολικός αριθμός αυτών των τρόπων r. Μετά και την παράθεση του προηγούμενου αποτελέσματος στην επόμενη πρόταση προσδιορίζεται η κατανομή του R υπό τη μηδενική υπόθεση. Πρόταση. Αν R είναι ο αριθμός των ακολουθιών ομοίων συμβόλων στην ακολουθία συμβόλων εκ των οποίων το πλήθος είναι + και το πλήθος είναι τότε για r,3,..., : R f R r r / r /, για r ζυγός r / r 3 / r 3 / r /, για r μονός Απόδειξη Αν η μηδενική υπόθεση είναι αληθής, αν επομένως οι δειγματικές παρατηρήσεις αποτελούν ένα τυχαίο δείγμα, ο δυνατός αριθμός των διατάξεων των συμβόλων + είναι :. Αν τώρα το πλήθος των ακολουθιών ομοίων συμβόλων είναι ίσο με r, όπου r ζυγός, δηλαδή r,4,..., τότε υπό τη μηδενική υπόθεση, θα έχουμε r / ακολουθίες συμβόλων + και r / ακολουθίες συμβόλων -. Αφού έχουμε r / ακολουθίες συμβόλων + αυτό σημαίνει ότι τα θετικά σύμβολα χωρίζονται σε r / ομάδες. Αυτό επιτυγχάνεται με r / τρόπους. Όμοια έχουμε r / τρόπους κατασκευής των r / ροών συμβόλων -. Οπότε από τον πολλαπλασιαστικό κανόνα και καθώς μπορεί να έχουμε είτε πρώτα μια ακολουθία συμβόλων + και μετά μια ακολουθία συμβόλων και αντίστροφα προκύπτει ότι: 37

40 r / r / f R R r, r ζυγός. Για την περίπτωση που έχουμε r το πλήθος ακολουθίες όμοιων συμβόλων με r περιττό αριθμό, και υπό τη μηδενική υπόθεση, είτε θα έχουμε r / ακολουθίες συμβόλων + και r / ακολουθίες συμβόλων, είτε θα έχουμε r / ακολουθίες συμβόλων + και r / ακολουθίες συμβόλων. Με παρόμοιο τρόπο όπως πριν προκύπτει ότι: r / r 3 / r 3 / r / f R R r, r μονός. Από τα παραπάνω προκύπτει ότι απορρίπτεται η μηδενική υπόθεση όταν είτε R r a / είτε R r a /, όπου r a / είναι ένας αριθμός τέτοιος ώστε: r a / r P R r a /. Όμως ο υπολογισμός αυτός είναι ιδιαίτερα δύσκολος τις περισσότερες φορές και επιπλέον όπως συμβαίνει σε όλα τα στατιστικά τεστ που στηρίζονται σε διακριτές συναρτήσεις πιθανότητας υπάρχει πεπερασμένο πλήθος επιλογών για το επίπεδο σημαντικότητας a. Για παράδειγμα για την ειδική περίπτωση που 5 και 4, έχοντας ως κρίσιμη περιοχή για το δίπλευρο έλεγχο την R ή R 9 προκύπτει ότι 3/6 και f R 9 /6 a κι αυτό διότι f R /6, ενώ έχοντας ως κρίσιμη περιοχή την R 3 ή R 8 R προκύπτει ότι 8/6 a, καθώς f R 8 8/6 και R R f R 3 7 /6. R Για τους παραπάνω λόγους οδηγούμαστε στην εύρεση ενός προσεγγιστικού στατιστικού τεστ. Καθώς το στατιστικό R μπορεί να γραφεί ως άθροισμα ανεξάρτητων τυχαίων μεταβλητών, αρκεί να υπολογιστούν οι ποσότητες ER και VarR. 38

41 Πρόταση. Αν R είναι ο αριθμός των ακολουθιών ομοίων συμβόλων στην ακολουθία συμβόλων εκ των οποίων το πλήθος είναι + και το πλήθος είναι τότε υπό τη μηδενική υπόθεση: ER και VarR Απόδειξη (βλέπε μεταξύ άλλων Gbbos ad Chakrabort (003)). Από τον τρόπο ορισμού του στατιστικού R προκύπτει ότι μπορεί να γραφεί ως το παρακάτω άθροισμα: R I, όπου I,,...,, μία δείκτρια συνάρτηση που λαμβάνει την τιμή αν το οστό σύμβολο είναι διαφορετικό από το ( ) οστό σύμβολο, για,...,. Τότε προφανώς κάθε μία τέτοια συνάρτηση είναι μία διακριτή τυχαία μεταβλητή που ακολουθεί Beroull κατανομή με παράμετρο p. Τότε λαμβάνοντας υπόψη ότι η μέση τιμή της Beroull είναι ίση με την παράμετρο p προκύπτει ότι: Επιπλέον ισχύει ότι: ER E I E( I ). VarR Var I Var I VarI Cov I, I = j j j j j = VarI E I I ( )( ) E I j j VarI E I I E I E I j E I = EI E I E I I ( )( ) j EI E I E I E II j j ( -) ( ) ( )( ), 39

42 ( ) EI VarI EI p p p p όπου. Επομένως για την έυρεση της διακύμανσης απαιτείται η εύρεση των ( )( ) το πλήθος ροπών τύπου E I I j. Για τον υπολογισμό αυτών λαμβάνουμε υπόψη τα ακόλουθα: για τις ( ) το πλήθος περιπτώσεις που είναι τέτοιες ώστε είτε j είτε j ισχύει ότι E II j, ενώ για τις υπόλοιπες ( )( ) ( ) ( )( 3) το πλήθος περιπτώσεις ισχύει ότι E I I j 3 4 Επομένως είναι:. 4 ( ) VarR ( ) Λαμβάνοντας υπόψη την παραπάνω πρόταση προκύπτει μέσω του Κ.Ο.Θ. ότι χρησιμοποιείται το στατιστικό: R ER Z H0 VarR. και απορρίπτεται η μηδενική υπόθεση H : 0 οι δειγματικές παρατηρήσεις αποτελούν ένα τυχαίο δείγμα από τον υπό μελέτη πληθυσμό, έναντι της εναλλακτικής ) H : οι παρατηρήσεις είναι θετικά συσχετισμένες N 0, ) H : οι παρατηρήσεις είναι αρνητικά συσχετισμένες ) H : οι παρατηρήσεις είναι είτε θετικά είτε αρνητικά συσχετισμένες αν ) Z za, ) Z za, και ) Z z a /, αντίστοιχα. Υπενθυμίζουμε ότι οι τιμές z a και z a / υπολογίζονται χρησιμοποιώντας τον Πίνακα 5 του Παραρτήματος. Για μικρές τιμές του συνιστάται η εφαρμογή της διόρθωσης συνεχείας: Z R 0.5 ER, αν R ER VarR R 05 ER, αν R ER VarR 40

43 Παράδειγμα. Μια ομάδα ποδοσφαίρου της Α Εθνικής έχει την επόμενη ακολουθία νικών-ηττών: ΝΗΝΝΗΝΗΗΗΝΗΗΝΝΗΝΝΗΝΗΝΗΝΗΗΝΗΝΗ. Να ελέγξετε, με επίπεδο σημαντικότητας 5%, αν υπάρχει τυχαιότητα στα αποτελέσματά της; Λύση Είναι αν με συμβολίσουμε το πλήθος των νικών, Ν, 4, οπότε 5 και 9. Επιπλέον εύκολα υπολογίζουμε ότι R, με και *4*5 ER 9 5, *4*5(*4 *5 9) VarR 6,97. Επομένως για το δίπλευρο έλεγχο της υπόθεσης ότι το δείγμα είναι τυχαίο θα χρησιμοποιήσουμε το στατιστικό H R ER 0 Z N 0,, VarR. με κρίσιμη περιοχή Z z / z a Η τιμή του στατιστικού υπολογίζεται ως εξής: R ER 5, 483 Z, 47 VarR 6,97 και καθώς,47>.96, συμπεραίνουμε ότι η μηδενική υπόθεση απορρίπτεται με επίπεδο σημαντικότητας 5%. Αυτό σημαίνει ότι τα αποτελέσματα της ομάδας δεν μπορούν να θεωρηθούν ότι είναι τυχαία. Παράδειγμα. Για 5, 3 και να βρεθεί η κατανομή του R χωρίς να γίνει χρήση της Πρότασης.. Λύση 4

44 Ο αριθμός των δυνατών ακολουθιών, όταν 5, 3 και, είναι και είναι οι ακόλουθες: , ++-+-, ++--+, +-++-, +-+-+, +--++, -+++-, -+-++, --+++, με αντίστοιχο αριθμό ροών:,4,3,4,5,3,3,4,,4. Άρα οι δυνατές τιμές της διακριτής τυχαίας μεταβλητής R, που παριστάνει το πλήθος των ακολουθιών όμοιων συμβόλων, δηλαδή το πλήθος των ροών, είναι,3,4 και 5 με πιθανότητες: P R /0, P R 3 3/0, P R 4 4 /0 και αντίστοιχα. P R 5 /0, 4

45 Τρίτο Κεφάλαιο Έστω X,, X, ένα τυχαίο δείγμα από έναν πληθυσμό με συνεχή αθροιστική συνάρτηση κατανομής F. Ενδιαφερόμαστε να ελέγξουμε την υπόθεση ότι η διάμεσος m της άγνωστης κατανομής είναι ίση με m 0, όπου m 0 είναι γνωστός αριθμός. Επομένως θέλουμε να ελέγξουμε τη μηδενική υπόθεση: H : m m, 0 0 έναντι μίας εκ των τριών ακόλουθων εναλλακτικών: H : m m, ) H : m m0 και ) H : m m0. ) 0 Στη βιβλιογραφία για τον παραπάνω έλεγχο έχουν προταθεί το προσημικό τεστ (sg test) και το τεστ του Wlcoxo (Wlcoxo (945)). Στις επόμενες παραγράφους παρουσιάζονται οι δύο αυτοί τρόποι ελέγχου. Επιπλέον στην τελευταία παράγραφο αυτού του κεφαλαίου, χρησιμοποιώντας τις μεθοδολογίες που προτάθηκαν για τον παραπάνω έλεγχο, δίνουμε δύο τρόπους ελέγχου στην περίπτωση του ελέγχου της ισότητας των παραμέτρων θέσης χρησιμοποιώντας εξαρτημένα δείγματα από δύο πληθυσμούς. Υπενθυμίζουμε ότι εξαρτημένα δείγματα εμφανίζονται συνήθως στις ακόλουθες περιπτώσεις: α) σε πειράματα, μελέτες των οποίων σκοπός είναι η διερεύνηση της αποτελεσματικότητας μίας θεραπείας. Για το λόγο αυτό οι τιμές μίας ή περισσοτέρων μεταβλητών καταγράφονται στην ίδια πειραματική μονάδα πριν και μετά την εφαρμογή της μεθόδου. β) Στην περίπτωση των διδύμων. γ) Όταν θεωρούμε πειραματικές μονάδες που μοιάζουν σε όλα τα υπόλοιπα χαρακτηριστικά πλην αυτού που θέλουμε να μελετήσουμε (ταιριαστά δεδομένα). Παρατήρηση 3. Σε κάθε στατιστικό έλεγχο αποφασίζουμε στη βάση ενός στατιστικού για την αποδοχή ή την απόρριψη μίας υπόθεσης (της μηδενικής υπόθεσης όπως λέγεται και η οποία συμβολίζεται με H 0 ). Επομένως υπάρχει ο «κίνδυνος» είτε ο στατιστικός να απορρίπτει την προς έλεγχο μηδενική υπόθεση (να αποδέχεται τη λεγόμενη εναλλακτική υπόθεση H 0, ενώ η H a ), ενώ η H 0 είναι αληθής, είτε ο στατιστικός αποδέχεται την H a είναι αληθής. Στην πρώτη περίπτωση έχουμε το λεγόμενο σφάλμα τύπου Ι, ενώ στη δεύτερη το σφάλμα τύπου ΙΙ. Είναι τότε: 43

46 και σφάλμα τύπου Ι απορρίπτω / αληθής a P P H H 0 0 σφάλμα τύπου ΙΙ αποδέχομαι / αληθής. P P H 0 H Το επιθυμητό θα ήταν να επιτυγχάνεται η ταυτόχρονη ελαχιστοποίηση των και. Όμως κάτι τέτοιο είναι αδύνατο. Το πρόβλημα αυτό παρακάμπτεται, προκαθορίζοντας το και ελαχιστοποιώντας το ή ισοδύναμα μεγιστοποιώντας την ισχύ του τεστ απορρίπτω / αληθής. Το προκαθορισμένο P H 0 H είναι γνωστό και ως επίπεδο σημαντικότητας και συνήθως επιλέγεται να είναι είτε 5% είτε %. Στα στατιστικά πακέτα η απόφαση για την αποδοχή ή απόρριψη της υπόθεσης δεν γίνεται εξετάζοντας αν η τιμή του στατιστικού ανήκει στην περιοχή απόρριψης (γνωστή και ως κρίσιμη περιοχή), αλλά στη βάση των p-τιμών (p-value ή Sg.) H p-τιμή ενός στατιστικού τεστ είναι η μικρότερη τιμή του επιπέδου σημαντικότητας για την οποία απορρίπτεται η μηδενική υπόθεση. Εύκολα προκύπτει τότε ότι απορρίπτουμε την προς έλεγχο μηδενική υπόθεση αν η p-τιμή είναι μικρότερη από το προκαθορισμένο επίπεδο σημαντικότητας (δηλαδή συνήθως το 0.05). 3. Προσημικός έλεγχος Η μόνη προϋπόθεση εφαρμογής αυτού του στατιστικού ελέγχου είναι τα δεδομένα να είναι τουλάχιστον διατάξιμα (βλέπε μεταξύ άλλων Kvam ad Vdakovc (007)). Η μέθοδος του προσημικού ελέγχου στηρίζεται στο πρόσημο της διαφοράς των δειγματικών τιμών X,, X από την προς έλεγχο τιμή m 0. Επομένως, αρχικά δημιουργούμε τις διαφορές X m0,, X m0, και θέτουμε + όταν είναι θετικές, δηλαδή όταν X m0 0, ενώ όταν είναι αρνητικές, δηλαδή όταν X m0 0, θέτουμε -. Παρατήρηση 3. Παρότι για συνεχείς κατανομές η περίπτωση X m0 είναι απίθανη, σε κάθε τέτοια περίπτωση λέμε ότι έχουμε δεσμούς (tes). Σε όσα ακολουθούν υποθέτουμε ότι δεν υπάρχουν δεσμοί. Σε αντίθετη περίπτωση, αν υπάρχουν δεσμοί, οι συγκεκριμένες 44

47 πειραματικές μονάδες αποκλείονται από την περαιτέρω ανάλυση, δε λαμβάνονται υπόψη και γίνεται κατάλληλη τροποποίηση του μεγέθους του δείγματος. Σε όσα έπονται είναι το μέγεθος του τροποποιημένου δείγματος. Έστω T το πλήθος των θετικών διαφορών X m0, δηλαδή ο αριθμός των προσήμων +. Δηλαδή, T I X m0, όπου I η δείκτρια συνάρτηση. Υπό τη μηδενική υπόθεση H 0 : m m0, δηλαδή υπό την υπόθεση ότι η διάμεσος m είναι ίση με m 0, προκύπτει από τον ορισμό της διαμέσου ότι: P X m0 P X m Επομένως, υπό την H 0 : m m0, το στατιστικό T περιγράφει τον αριθμό των θετικών προσήμων (επιτυχία= θετικό πρόσημο) σε το πλήθος πρόσημα (άρα σε δοκιμές ενός πειράματος τύχης με δύο δυνατά αποτελέσματα) με πιθανότητα εμφάνισης θετικού προσήμου ίση με 0.5. Άρα γίνεται αντιληπτό ότι το στατιστικό T ακολουθεί, υπό τη μηδενική υπόθεση, διωνυμική κατανομή με παραμέτρους και p 0.5. Δηλαδή και P T H0 T ~ B, p 0.5, / αληθής 0.5. t t H 0 Επομένως το στατιστικό T είναι μία αντιστρεπτή ποσότητα (καθώς έχει υπό τη μηδενική υπόθεση γνωστή κατανομή ανεξάρτητη της άγνωστης παραμέτρου m ) και μπορεί να χρησιμοποιηθεί για τον προς μελέτη έλεγχο. Επιπλέον εύκολα γίνεται αντιληπτό ότι ο έλεγχος της μηδενικής υπόθεσης: H : m m, έναντι μίας εκ των τριών ακόλουθων εναλλακτικών: 0 0 H : m m, ) H : m m0 και ) H : m m0, ) 0 ανάγεται στον έλεγχο της H : p, έναντι μίας εκ των τριών ακόλουθων εναλλακτικών ) H : p 0.5, ) H : p 0.5 και ) H : p 0.5. Γίνεται αντιληπτό ότι η H 0 : m m0 απορρίπτεται σε επίπεδο σημαντικότητας a έναντι της εναλλακτικής H : m m0 για μεγάλες τιμές του T. Ειδικότερα η μηδενική 45

48 υπόθεση απορρίπτεται για T t a, δηλαδή για ακέραιες τιμές μεγαλύτερες ή ίσες του t a, όπου δηλαδή t a προκύπτει από τη σχέση: a / 0 αληθής a / ~,0.5 P T t H P T t T B a, t a είναι ο μικρότερος ακέραιος για τον οποίο επαληθεύεται η σχέση που ακολουθεί: 0.5 a t. tta Επιπλέον η H 0 : m m0 απορρίπτεται σε επίπεδο σημαντικότητας a έναντι της εναλλακτικής H : m m0 για μικρές τιμές του T. Ειδικότερα η μηδενική υπόθεση απορρίπτεται για T t a, δηλαδή για ακέραιες τιμές μικρότερες ή ίσες του t a, όπου t a προκύπτει από τη σχέση: δηλαδή a / 0 αληθής a / ~, 0.5 P T t H P T t T B a, t a είναι ο μεγαλύτερος ακέραιος τέτοιος ώστε: t a 0.5 a t0 t. Προκύπτει ότι η H 0 : m m0 απορρίπτεται σε επίπεδο σημαντικότητας a έναντι της εναλλακτικής H : m m0 για μικρές ή μεγάλες τιμές του T. Ειδικότερα η μηδενική υπόθεση απορρίπτεται για T t a3 ή T t a4, δηλαδή για ακέραιες τιμές μικρότερες ή ίσες του και και t a 3 ή για ακέραιες τιμές μεγαλύτερες ή ίσες του t a 4 είναι οι ακέραιοι αριθμοί που ικανοποιούν τις σχέσεις: δηλαδή ενώ a 0 a P T t / H αληθής P T t / T ~ B,0.5 a /, 3 3 a 0 a P T t / H αληθής P T t / T ~ B,0.5 a / 4 4 t a 3 είναι ο μεγαλύτερος ακέραιος τέτοιος ώστε: t a a / t0 t, t a 4 είναι ο μικρότερος ακέραιος έτσι ώστε: t a 4, όπου t a 3 46

49 0.5 a / t. tta4 Στο Πίνακα 6 του Παράρτηματος δίνονται οι τιμές της αθροιστικής συνάρτησης κατανομής της διωνυμικής κατανομής με πιθανότητα επιτυχίας p=0.5 για τον πιο εύκολο υπολογισμό των παραπάνω. Οι αντίστοιχες p-τιμές, για καθένα από τους τρεις ελέγχους, αν με t και συμβολίσουμε την τιμή του στατιστικού T και την ελάχιστη τιμή των T και αντίστοιχα, όταν εφαρμόζονται στο δοθέν δείγμα είναι: τιμή / ~, t, ) p P T t T B t τιμή / ~, ) p P T t T B και ' t ) p τιμή 0.5 0, αντίστοιχα. ' t T Πρόταση 3. 0 που Για μεγάλες τιμές του μεγέθους δείγματος το στατιστικό T I X m παριστάνει το πλήθος των θετικών διαφορών X m0 ακολουθεί, υπό τη μηδενική υπόθεση H 0 : m m0, προσεγγιστικά κανονική κατανομή με μέση τιμή ET p 0.5 και διακύμανση VarT p p 0.5* 0.5* 0.5, δηλαδή Απόδειξη T N 0,. 0 Όπως έχει ήδη αναφερθεί, υπό τη μηδενική υπόθεση, ισχύει ότι T ~ B, p 0.5 / αληθής 0.5 t και P T t H 0 0 το πλήθος των, όπου T I X m θετικών διαφορών X m0, δηλαδή ο αριθμός των προσήμων +. Επομένως η τυχαία μεταβλητή T είναι άθροισμα ανεξάρτητων τυχαίων μεταβλητών, των I X m H, που υπό τη μηδενική υπόθεση ακολουθούν κατανομή Beroull με πιθανότητα επιτυχίας p 0.5. Από το Κεντρικό Οριακό Θεώρημα γνωρίζουμε ότι για μεγάλο 0 47

50 μέγεθος δείγματος (και με την επιπλέον προϋπόθεση ότι p και p( p) μεγαλύτερα του 5) το άθροισμα ανεξάρτητων και ισόνομων τυχαίων μεταβλητών προσεγγίζεται από μία κανονική κατανομή. Ειδικότερα,. T ET N 0,, VarT οπότε υπό τη μηδενική υπόθεση, καθώς ET p 0.5 και VarT p p 0.5* 0.5* 0.5, έχουμε ότι: T N 0,. Από την παραπάνω πρόταση και χρησιμοποιώντας τη διόρθωση συνεχείας συνεπάγεται ότι χρησιμοποιούμε για τον υπό μελέτη έλεγχο το στατιστικό: T , αν T / 0.5 Z T , αν T / 0.5 και η μηδενική υπόθεση H 0 : m m0, απορρίπτεται έναντι μίας εκ των τριών ακόλουθων εναλλακτικών: H : m m, ) H : m m0 και ) H : m m0, ) 0 αν ) Z za, ) Z za και ) Z z a /, αντίστοιχα. Παρατήρηση 3.3 Από τη βιβλιογραφία γνωρίζουμε (βλέπε μεταξύ άλλων Κούτρας (004)) ότι στην ειδική περίπτωση που το Κεντρικό Οριακό Θεώρημα (Κ.Ο.Θ.) χρησιμοποιείται για την προσέγγισης της κατανομής του αθροίσματος διακριτών τυχαίων μεταβλητών προβαίνουμε στην απαραίτητη διόρθωση συνέχειας (cotuty correcto). Υπάρχουν δύο κύριοι λόγοι που επιβάλλουν τη διόρθωση συνεχείας. Ο πρώτος είναι ότι μια διακριτή τυχαία μεταβλητή μπορεί να λαμβάνει μόνο συγκεκριμένες τιμές, ενώ από την άλλη μεριά μια συνεχής τυχαία μεταβλητή λαμβάνει οποιαδήποτε τιμή σε ένα διάστημα. Επιπλέον χρησιμοποιώντας την κανονική κατανομή ως προσέγγιση μιας διακριτής κατανομής τότε προκύπτει το ακόλουθο πρόβλημα που είναι πιο ξεκάθαρο μέσω του ακόλουθου παραδείγματος. Έστω η τυχαία μεταβλητή X που ακολουθεί διωνυμική κατανομή με παραμέτρους 00 και p 0.5. Η τυχαία αυτή μεταβλητή 48

51 προσεγγίζεται από την κανονική N 00*0.5, 00*0.5*0.5, δηλαδή από την N 50,5. Αν για παράδειγμα μας ζητούσαν να βρούμε την πιθανότητα P X 3 τότε προσεγγιστικά θα είναι μηδέν (γιατί?), ενώ η ακριβής τιμή είναι ίση με Η διόρθωση συνεχείας έγκειται στην πρόσθεση ή αφαίρεση, ανάλογα, στην τιμή ή τις τιμές της διακριτής μεταβλητής της τιμής 0.5. Έτσι, αν X είναι η διακριτή τυχαία μεταβλητή και Z η τυχαία μεταβλητή που ακολουθεί κανονική κατανομή τέτοια που να προσεγγίζει την κατανομή της X εφαρμόζοντας το Κ.Ο.Θ., μεταξύ άλλων ισχύουν οι ακόλουθες σχέσεις: a0.5 α) P X a f zdz, β), γ) a0.5 P X a f z dz z P X a f z dz a0.5 δ), ε) a0.5 στ) z b0.5 P a X b f z dz. a0.5 z a0.5 P X a f z dz, z z a0.5 P X a f z dz, z Παράδειγμα 3. (βλέπε Spret (989)) Στον πίνακα που ακολουθεί καταγράφεται ο αριθμός των σελίδων 4 τυχαία επιλεγμένων βιβλίων από μία βιβλιοθήκη ενός μαθηματικού τμήματος. Να ελέγξετε κάνοντας τις κατάλληλες υποθέσεις την υπόθεση ότι ο μέσος αριθμός των σελίδων είναι ίσος με 0 σελίδες χρησιμοποιώντας α) τον ακριβή τρόπο ελέγχου του προσημικού τεστ β) τον προσεγγιστικό τρόπο ελέγχου με την κατάλληλη διόρθωση συνεχείας Λύση Έχουμε ένα τυχαίο δείγμα X,, X 4, από έναν πληθυσμό με συνεχή αθροιστική συνάρτηση κατανομής F. Υποθέτοντας ότι τα δεδομένα προέρχονται από συμμετρικό πληθυσμό, τα αποτελέσματα του ελέγχου της υπόθεσης ότι η διάμεσος m της άγνωστης κατανομής είναι ίση με m0 0, γενικεύονται για την 49

52 πληθυσμιακή μέση τιμή. Επομένως θέλουμε να ελέγξουμε τη μηδενική υπόθεση H : m 0 έναντι της εναλλακτικής H : m 0. 0 Το προσημικό τεστ στηρίζεται στο στατιστικό T που παριστάνει το πλήθος των θετικών διαφορών X 0,,...,4. Παρατηρούμε ότι υπάρχουν 4 παρατηρήσεις μικρότερες της τιμής 0 (οι 53, 66, 8, 9) και 0 παρατηρήσεις μεγαλύτερες της τιμής 0 (οι υπόλοιπες). α) Υπό την H : 0 0 m, το στατιστικό T περιγράφει τον αριθμό των θετικών προσήμων (επιτυχία= θετικό πρόσημο) σε 4 το πλήθος πρόσημα (άρα σε 4 δοκιμές ενός πειράματος τύχης με δύο δυνατά αποτελέσματα) με πιθανότητα επιτυχίας 0.5. Άρα γίνεται αντιληπτό ότι το στατιστικό T ακολουθεί, υπό τη μηδενική υπόθεση, διωνυμική κατανομή με παραμέτρους 4 και p 0.5. Δηλαδή και P T H0 Η μηδενική υπόθεση απορρίπτεται για μικρότερες ή ίσες του και και T ~ B 4, p 0.5, 4 / αληθής 0.5 t t H 0 T t a3 ή T t a4 4., δηλαδή για ακέραιες τιμές t a 3 ή για ακέραιες τιμές μεγαλύτερες ή ίσες του t a 4 είναι οι ακέραιοι αριθμοί που ικανοποιούν τις σχέσεις: δηλαδή ενώ a 0 a P T t / H αληθής P T t / T ~ B 4,0.5 a /, 3 3 a 0 a P T t / H αληθής P T t / T ~ B 4, 0.5 a / 4 4 t a 3 είναι ο μεγαλύτερος ακέραιος τέτοιος ώστε: t a t0 t, t a 4 είναι ο μικρότερος ακέραιος έτσι ώστε: tta t. t a 4, όπου Χρησιμοποιώντας τον Πίνακα 6 του Παραρτήματος προκύπτει ότι: P( T 6) και P( T 8) , άρα a3 t a 3 t 6 και t Επομένως καθώς a4 T 0 t a 8 συμπεραίνουμε ότι σε επίπεδο 4 σημαντικότητας 5% η υπόθεση ότι η πληθυσμιακή διάμεσος δε διαφέρει στατιστικά 50

53 σημαντικά από την τιμή 0 απορρίπτεται. Από το γεγονός ότι το πλήθος των θετικών διαφορών είναι πολύ μεγαλύτερο σημαίνει ότι έχουμε μεγαλύτερη τιμή για την πληθυσμιακή διάμεσο. β) Χρησιμοποιώντας τη διόρθωση συνεχείας συνεπάγεται ότι χρησιμοποιούμε για τον υπό μελέτη έλεγχο το στατιστικό: Z T H0 N 0,, καθώς T 0 / και η μηδενική υπόθεση H 0 : m m0, απορρίπτεται έναντι της H : m m0, αν Z za / z Καθώς * Z 3.06, 0.5* συμπεραίνουμε ότι η μηδενική υπόθεση απορρίπτεται, δηλαδή υποθέτοντας ότι τα δεδομένα προέρχονται από συμμετρικό πληθυσμό προκύπτει ότι ο μέσος αριθμός των σελίδων των βιβλίων της βιβλιοθήκης του μαθηματικού τμήματος είναι στατιστικά σημαντικά διαφορερικός από Τεστ του Wlcoxo για ένα δείγμα Το τεστ του Wlcoxo στηρίζεται στις τάξεις (raks) των διαφορών D X m,,...,, όπου έχουμε αποκλείσει από την περαιτέρω ανάλυση τις 0 δειγματικές τιμές της τυχαίας μεταβλητής X που είναι ίσες με m 0. Ειδικότερα αν D,...,, D είναι ένα τυχαίο δείγμα από έναν πληθυσμό με συνεχή αθροιστική κατανομή, οι τάξεις αναφέρονται στο πως διατάσσονται οι δειγματικές παρατηρήσεις. Σε όσα ακολουθούν με R,...,, R συμβολίζονται οι τάξεις των δειγματικών τιμών X,, X, δηλαδή ή ισοδύναμα R αριθμός των X με X X,,...,, j j j j, j R I X X,,...,. Επιπλέον υποθέτουμε ότι στο τυχαίο δείγμα X,, X, δεν υπάρχουν δεσμοί, δηλαδή X X j, για j,, j,...,, και ότι οι διαφορές D,..., D,,...,, είναι συμμετρικές περί το μηδέν. 5

54 Πριν προχωρήσουμε στον έλεγχο θα παραθέσουμε κάποιες ιδιότητες των τάξεων χρήσιμες σε όσα έπονται σε αυτό και επόμενα κεφάλαια. Πρόταση 3. Αν R,...,, R είναι οι τάξεις ενός τυχαίου δείγματος X,, X αθροιστική συνάρτηση κατανομής τότε αποδεικνύεται ότι α) R,...,, R είναι ένα τυχαίο δείγμα από τη διακριτή ομοιόμορφη κατανομή, β) E R και Var R γ) Cov R, R j,, για j,, j,...,., από μία συνεχή Απόδειξη α) Από τον τρόπο ορισμού τους και λαμβάνοντας υπόψη ότι δεν υπάρχουν δεσμοί στο δείγμα των X,, X, προκύπτει άμεσα ότι οι δυνατές τιμές των τάξεων R ανήκουν στο σύνολο,,..., και επιπλέον P R j, j,...,, και η απόδειξη ολοκληρώνεται. β) Από τον ορισμό της μέσης τιμής και της διακύμανσης μίας διακριτής τυχαίας μεταβλητής προκύπτει ότι: και E R jp R j j j j όπου Var R E R E R,. E R j P R j j j j 6 6 Επομένως γ) Είναι: Var R , j j, j Cov R R k ER s ER P R k R s k s, ks 5

55 και λαμβάνοντας υπόψη το α) και ότι P R k, R j s P R k P R j s / R k, προκύπτει: Cov R, R j k s k s, ks Όμως οπότε = k s k k s k = k s k. k s k k s Cov R, R k s 0, j k k k k k k k = 6 4 = =. 4 Έστω X,,, X ένα τυχαίο δείγμα από έναν πληθυσμό με συνεχή αθροιστική συνάρτηση κατανομής F. Ενδιαφερόμαστε να ελέγξουμε την υπόθεση ότι η διάμεσος m της άγνωστης κατανομής είναι ίση με m 0, όπου m 0 είναι ένας γνωστός αριθμός. Επομένως θέλουμε να ελέγξουμε τη μηδενική υπόθεση: H : m m,

56 έναντι μίας εκ των τριών ακόλουθων εναλλακτικών: H : m m, ) H : m m0 και ) H : m m0. ) 0 Αρχικά δημιουργούμε τις διαφορές D X m0,,...,, απαλείφοντας τις μηδενικές διαφορές, οπότε μειώνεται το μέγεθος του δείγματος κατάλληλα. Υποθέτουμε ότι οι διαφορές αυτές είναι συμμετρικές περί το μηδέν. Από την υπόθεση αυτή συνεπάγεται ότι είναι ισοπίθανο να υπάρχουν αρνητικές και θετικές διαφορές. Έπειτα οι απόλυτες τιμές των διαφορών D,, D, διατάσσονται κατά αύξουσα τάξη και υπολογίζονται οι τάξεις τους, έστω R D,,...,. Στο σημείο αυτό επισημαίνεται ότι αν δύο ή περισσότερες διαφορές είναι ίσες κατά απόλυτο τιμή, τότε η τάξη που παίρνει η καθεμία από αυτές είναι ίση με το μέσο όρο των τάξεων που θα είχαν αν ήταν διαφορετικές μεταξύ τους (mdraks). Υπό τη μηδενική υπόθεση, δηλαδή υπό την H 0 : m m0, αναμένεται το άθροισμα των τάξεων που αντιστοιχούν στις θετικές διαφορές, έστω T, να είναι ίσο ή περίπου ίσο με το άθροισμα των τάξεων που αντιστοιχούν στις αρνητικές διαφορές, έστω T. Επομένως είναι: και όπου 0 T I D R D 0 T I D R D I η συνήθης δείκτρια συνάρτηση. Λόγω του ότι έχουν αποκλειστεί οι μηδενικές διαφορές εύκολα προκύπτει ότι: Επομένως και οπότε προκύπτει ότι και στατιστικό: 0 I D 0 I D. T I D R D, 0 0 T I D R D, T T R D, T T I D 0 R D R D. Χρησιμοποιείται για τον έλεγχο της υπό μελέτης μηδενικής υπόθεσης το 54

57 T m T, T m T, T του οποίου η ακριβής κατανομή για μικρές τιμές του έχει βρεθεί και δίνεται στo επόμενo Θεώρημα (βλέπε Radles ad Wolfe (979)) η απόδειξη του οποίου παραλείπεται., Θεώρημα 3. Έστω X,,, ένα τυχαίο δείγμα από έναν πληθυσμό με συνεχή X αθροιστική συνάρτηση κατανομής F. Ενδιαφερόμαστε να ελέγξουμε την υπόθεση ότι η διάμεσος m της άγνωστης κατανομής είναι ίση με m 0, όπου m 0 είναι ένας γνωστός αριθμός. Αν D X m0,,...,, είναι οι μη μηδενικές διαφορές, τότε η κατανομή του στατιστικού T που παριστάνει το άθροισμα των τάξεων που αντιστοιχούν στις θετικές διαφορές, υπό τη μηδενική υπόθεση, δίνεται από τη σχέση: C( k) ( ) P T k, για k 0,...,, όπου C( k ) ο αριθμός των υποσυνόλων του συνόλου {,,..., } των οποίων τα στοιχεία αθροίζουν στο k. Χρησιμοποιώντας τα παραπάνω, απορρίπτεται η μηδενική υπόθεση H : m m στην περίπτωση μονόπλευρων ελέγχων αν T T, a και για τον 0 0 δίπλευρο έλεγχο αν T T, a /, όπου τα σημεία T, a και T, a / δίνονται από κατάλληλο πίνακα (βλέπε Πίνακα 7 του Παράρτηματος). Παράδειγμα 3. (βλέπε Spret (989)) Στον πίνακα που ακολουθεί καταγράφεται ο αριθμός των σελίδων τυχαία επιλεγμένων βιβλίων από μία βιβλιοθήκη ενός μαθηματικού τμήματος. Να ελέγξετε, κάνοντας τις κατάλληλες υποθέσεις, την υπόθεση ότι η πληθυσμιακή διάμεσος είναι ίση με 0 σελίδες χρησιμοποιώντας το τεστ του Wlcoxo, με επίπεδο σημαντικότητας 5% Λύση Έχουμε ένα τυχαίο δείγμα X,, X, από έναν πληθυσμό με συνεχή αθροιστική συνάρτηση κατανομής F. Ενδιαφερόμαστε να ελέγξουμε την υπόθεση ότι η 55

58 διάμεσος m της άγνωστης κατανομής είναι ίση με m0 0. Επομένως θέλουμε να ελέγξουμε τη μηδενική υπόθεση H : m 0 έναντι της εναλλακτικής H : m 0. 0 Αρχικά δημιουργούμε τις διαφορές D X m0,,...,, οι οποίες παρατίθενται στον πίνακα που ακολουθεί: και οι απόλυτες τιμές των διαφορών D,, D, διατάσσονται κατά αύξουσα τάξη και υπολογίζονται οι τάξεις τους, έστω R D,,...,, όπως φαίνεται στον πίνακα που ακολουθεί, όπου για ευκολία στους περαιτέρω υπολογισμούς έχουμε υπογραμμίσει τις αρνητικές διαφορές: D : R D : Το άθροισμα των τάξεων που αντιστοιχούν στις αρνητικές διαφορές είναι T , ενώ το άθροισμα των τάξεων που αντιστοιχούν στις θετικές διαφορές, έστω T, είναι T *3 T Χρησιμοποιείται για τον έλεγχο της υπό μελέτης μηδενικής υπόθεσης το στατιστικό T m T, T T, του οποίου η ακριβής κατανομή για μικρές τιμές του έχει βρεθεί. Απορρίπτεται η μηδενική υπόθεση H : 0 0 m για τον δίπλευρο έλεγχο αν T T T, (βλέπε Πίνακα 7 του Παραρτήματος). Επομένως δεν, a /, απορρίπτεται η μηδενική υπόθεση H : m 0 έναντι της 0 H : 0 m σε επίπεδο σημαντικότητας 5%, δηλαδή υποθέτοντας ότι τα δεδομένα προέρχονται από συμμετρικό πληθυσμό προκύπτει ότι ο μέσος αριθμός των σελίδων των βιβλίων της βιβλιοθήκης του μαθηματικού τμήματος δεν είναι στατιστικά σημαντικά διαφορετικός από 0. Παράδειγμα 3.3 (Coover (97)) Αν το μέγεθος του δείγματος είναι ίσο με 4, να βρεθεί η ακριβής κατανομή του T, υπό τη μηδενική υπόθεση και υποθέτοντας ότι δεν υπάρχουν δεσμοί (χωρίς χρήση του Θεωρήματος 3.). 56

59 Λύση ος τρόπος Έστω X,, X 4, ένα τυχαίο δείγμα από έναν πληθυσμό με συνεχή αθροιστική συνάρτηση κατανομής F. Δημιουργούμε τις διαφορές D X m0,,...,4, οι οποίες είναι μη μηδενικές. Υποθέτουμε ότι οι διαφορές αυτές είναι συμμετρικές περί το μηδέν. Είναι T το άθροισμα των τάξεων που αντιστοιχούν στις θετικές διαφορές. Επομένως είναι T I D 0 R D 4. Έχουμε τότε τις ακόλουθες 6 το πλήθος περιπτώσεις όταν το 4 ως προς το πρόσημο των διαφορών και τον τρόπο διάταξης: ----, -+--, --+-, ---+, -++-,-+-+, --++, -+++, +---, ++--, +-+-, +--+, +++-,++-+, +-++, ++++, οπότε το άθροισμα των τάξεων που αντιστοιχούν σε θετικές διαφορές είναι αντίστοιχα: 0,,3,4,5,6,7,9,,3,4,5,6,7,8,0 και η συνάρτηση πιθανότητας της κατανομής του T υπό τη μηδενική υπόθεση είναι: P T t /6, t 0,,,8, 9,0 /6, t 3,4,5,6,7 ος τρόπος (κάνοντας χρήση του Θεωρήματος 3.) Υπάρχουν 4 6 διαφορετικά υποσύνολα του συνόλου {,,3,4} και αυτά είναι τα ακόλουθα:,{},{},{3},{4},{,},{,3},{, 4},{,3},{, 4},{3, 4},{,,3},{,, 4},{,3, 4}, {,3, 4},{,,3, 4} οπότε εύκολα προκύπτει ότι: P T t /6, t 0,,,8, 9,0 /6, t 3,4,5,6,7 Όταν το μέγεθος του δείγματος είναι μεγάλο (άλλοι συγγραφείς αναφέρουν ως κριτήριο το 0 και άλλοι το 30 ) οδηγούμαστε, υπό τη μηδενική υπόθεση, σε προσέγγιση της κατανομής του στατιστικού, από την κανονική κατανομή. 57 T m T, T m T, T

60 Πρόταση 3.3 Υπό τη μηδενική υπόθεση H 0 : m m0 αποδεικνύεται για μεγάλο μέγεθος δείγματος ότι: W T 4 N 0,, 4, με D X m0,,..., όπου T I D 0 R D, και R D,,...,, οι τάξεις των απόλυτων τιμών των διαφορών, δηλαδή T τάξεων που αντιστοιχούν στις θετικές διαφορές. είναι το άθροισμα των Απόδειξη Λόγω ότι T I D 0 R D, δηλαδή γράφεται ως άθροισμα τυχαίων μεταβλητών με χρήση του Κεντρικού Οριακού Θεωρήματος προκύπτει ότι: Είναι T ET VarT N 0,. ET E I D R D, 0 όμως λόγω ότι υπό τη μηδενική υπόθεση η τυχαία μεταβλητή 0 Beroull κατανομή με p / προκύπτει εύκολα ότι: και επομένως Επιπλέον είναι E I D 0 R D * 0* ET /. 4 0 * 0 * * 0* Var I D R D, 4 και επομένως VarT / 4. 4 I D ακολουθεί 58

61 Χρησιμοποιώντας την παραπάνω πρόταση προκύπτει ότι ελέγχουμε τη μηδενική υπόθεση H 0 : m m0 έναντι μίας εκ των τριών ακόλουθων εναλλακτικών ) H : m m0, ) H : m m0 και ) H : m m0, χρησιμοποιώντας το στατιστικό W και κρίσιμες περιοχές ) W za, ) W za και ) W z a /, αντίστοιχα. Παρατήρηση 3.4 Τα παραπάνω συμπεράσματα ισχύουν και για το T, άρα μπορεί κάποιος να χρησιμοποιήσει και το T m T, T Σε όσα προαναφέρθηκαν είχε υποτεθεί η μη ύπαρξη δεσμών μεταξύ των απόλυτων διαφορών. Στη συνέχεια μέσω ενός παραδείγματος καθώς και μίας πρότασης θα παρουσιαστούν οι όποιες διαφοροποιήσεις στην ακριβή και προσεγγιστική κατανομή του στατιστικού T όταν υπάρχουν δεσμοί στις απόλυτες διαφορές. Παράδειγμα 3.4 (βλέπε Hollader ad Wolfe (999)) Αν το μέγεθος του δείγματος είναι ίσο με 4, να βρεθεί η ακριβής κατανομή του T, υπό τη μηδενική υπόθεση και υποθέτοντας ότι υπάρχουν δεσμοί στις απόλυτες διαφορές. Λύση Είναι εύκολα αντιληπτό ότι οι τάξεις των απόλυτων διαφορών σε αυτήν την περίπτωση είναι.5,.5, 3.5, 3.5. Έχουμε τότε, όταν το 4, τις ακόλουθες 6 το πλήθος περιπτώσεις ως προς το πρόσημο των διαφορών και τον τρόπο διάταξης τους: ----, -+--, --+-, ---+, -++-,-+-+, --++, -+++, +---, ++--, +-+-, +--+, +++-,++-+, +-++, ++++, οπότε το άθροισμα των τάξεων που αντιστοιχούν σε θετικές διαφορές είναι αντίστοιχα: 0,.5,3.5,3.5,.5+3.5,.5+3.5, , ,.5,.5+.5,.5+3.5,.5+3.5,.5+3.5, , , , και η συνάρτηση πιθανότητας της κατανομής του T υπό τη μηδενική υπόθεση είναι: 59

62 / 6, για t 0,3, 7,0 P T t /6, για t.5, 3.5, 6.5,8.5, 4 /6, για t 5 Πρόταση 3.4 Έστω X,,, X N ένα τυχαίο δείγμα από έναν πληθυσμό με συνεχή αθροιστική συνάρτηση κατανομής F. Ενδιαφερόμαστε να ελέγξουμε την υπόθεση ότι η διάμεσος m της άγνωστης κατανομής είναι ίση με m 0, όπου m 0 είναι ένας γνωστός αριθμός. Αν D X m0,,...,, είναι οι μη μηδενικές διαφορές και d,...,, d c ο αριθμός των παρατηρήσεων σε καθεμία από τις c διαφορετικές απόλυτες διαφορές (σε αύξουσα τάξη μεγέθους), με d, και κατανομή του στατιστικού T c d τότε η προσεγγιστική που παριστάνει το άθροισμα των τάξεων που αντιστοιχούν στις θετικές διαφορές, υπό τη μηδενική υπόθεση, είναι W T c d d 4 N 0, H0 Απόδειξη (βλέπε μεταξύ άλλων Lehma (975)) Συμβολίζουμε με u, u,..., u, τις διαθέσιμες τάξεις τότε από τον ορισμό αυτών προκύπτει άμεσα ότι: κ.ο.κ. u... d d... ud, d ( d )... d d d u... u d, d dd d ( d d )... d d d d u... u d d, 3 3 d d dd d3 d3 Επιπλέον, είναι: T ui... ui, με I,,..,, μία δείκτρια μεταβλητή που λαμβάνει την τιμή αν η διαφορά είναι θετική και την τιμή 0 όταν είναι αρνητική. Προφανώς αυτή είναι μία Beroull διακριτή 60

63 τυχαία μεταβλήτη με πιθανότητα επιτυχίας υπό τη μηδενική υπόθεση p /, οπότε EI 0.5 και VarI 0.5. Είναι τότε: και ET 0.5 u VarT 0.5 u. Για την εύρεση του πρώτου αθροίσματος αρκεί να παρατηρήσουμε ότι το άθροισμα των τάξεων που συμμετέχουν σε κάθε δεσμό είναι ίσο με το άθροισμα των τάξεων αν δεν υπήρχαν δεσμοί. Επομένως γίνεται άμεσα αντιληπτό ότι: ( ) ( ) ET 0.5 u Για τον υπολογισμό της διακύμανσης του T αρκεί να προσδιοριστεί το άθροισμα u. Για τον υπολογισμό αυτού θα χρησιμοποιηθεί c φορές η σχέση: k a ( a a) ka, η οποία ισχύει για οποιαδήποτε επιλογή των a. Έτσι για την ειδική περίπτωση που: a,..., ad d οπότε και a u... ud λαμβάνοντας υπόψη ότι: d a... d, d a d u d d d d d d d 6 d d d ( a a) a aa da d d d d 3d d d d d d = 6 4 d d d d d = προκύπτει ότι: 6

64 d d.... d d u Με παρόμοιο τρόπο για a d,..., ad d d οπότε a u... u, d dd προκύπτει ότι: d d ( d )... ( d d ) u. d d Συνεχίζοντας κατά αυτόν τον τρόπο: Άρα... c d d u. VarT 0.5 u c c c d d d d = d d όποτε η προσέγγιση από την κανονική κατανομή προκύπτει με άμεση εφαρμογή του Κ.Ο.Θ. Παρατήρηση 3.5 Η Πρόταση 3.3 μπορεί να προκύψει ως ειδική περίπτωση της Πρότασης 3.4 λαμβάνοντας υπόψη ότι στην περίπτωση μη ύπαρξης δεσμών d... d c για c. 3.3 Τεστ του Wlcoxo για δύο εξαρτημένα δείγματα Έστω ένα τυχαίο δείγμα X,, X, μεγέθους από έναν πληθυσμό με διάμεσο m X. Επιπλέον έστω ένα τυχαίο δείγμα Y,, Y, μεγέθους από έναν πληθυσμό με διάμεσο m Y. Επιπρόσθετα υποθέτουμε ότι τα δύο δείγματα είναι εξαρτημένα. Ενδιαφερόμαστε για τον έλεγχο, σε επίπεδο σημαντικότητας α, μηδενικής υπόθεσης H : 0, 0 md ως προς τις εναλλακτικές H a : md 0, H a : md 0, H a : md 0, όπου m d είναι η διάμεσος του πληθυσμού που περιγράφει τη διαφορά των τιμών της τυχαία μεταβλητής Y από την X. της 6

65 Όπως ίσως ήδη έχει γίνει αντιληπτό ο έλεγχος αυτός ανάγεται στους ελέγχους των προηγούμενων παραγράφων θεωρώντας ως τυχαίο δείγμα τις διαφορές D X Y,,...,. Επομένως αποτελεί ειδική περίπτωση του προσημικού ελέγχου και του τεστ του Wlcoxo για m0 0. Παρατήρηση 3.6 Τα αποτελέσματα αυτού του ελέγχου γενικεύονται από την πληθυσμιακή διάμεσο στις πληθυσμιακές μέσες τιμές όταν οι δειγματικές τιμές D,,...,, προέρχονται από ένα συμμετρικό πληθυσμό, όταν δηλαδή η δειγματική διάμεσος είναι περίπου ίση με τη δειγματική μέση τιμή. Παράδειγμα 3.5 (Spret (989) ) Ένας γιατρός μετρά τη συστολική πίεση ασθενών πριν και μετά τη χορήγηση ενός φαρμάκου. Τα αποτελέσματα φαίνονται στον πίνακα που ακολουθεί: Διαφορά: Υπάρχει στατιστικά σημαντική διαφοροποίηση σε επίπεδο σημαντικότητας 5%; (Υπόδειξη: χρησιμοποιείστε το στατιστικό τεστ Wlcoxo και την κανονική προσέγγιση αγνοώντας το πλήθος των παρατηρήσεων) Λύση Έχουμε ένα τυχαίο δείγμα D,, D, από έναν πληθυσμό με συνεχή αθροιστική συνάρτηση κατανομής F. Ενδιαφερόμαστε να ελέγξουμε την υπόθεση ότι η διάμεσος m της άγνωστης κατανομής είναι ίση με m0 0. Επομένως θέλουμε να ελέγξουμε τη μηδενική υπόθεση: έναντι της εναλλακτικής H : m 0. H : m 0, 0 Οι απόλυτες τιμές των διαφορών D,, D, διατάσσονται κατά αύξουσα τάξη και υπολογίζονται οι τάξεις τους, έστω R D,,...,, όπως φαίνεται στον πίνακα που ακολουθεί, όπου για ευκολία στους περαιτέρω υπολογισμούς έχουμε υπογραμμίσει τις αρνητικές διαφορές και επιπλέον παρατηρήσει ότι υπάρχει ένας δεσμός δύο παρατηρήσεων. 63

66 D : R D : Το άθροισμα των τάξεων που αντιστοιχούν στις αρνητικές διαφορές είναι T , ενώ το άθροισμα των τάξεων που αντιστοιχούν στις θετικές διαφορές, έστω T, είναι T m T, T T. T * T , οπότε Λαμβάνοντας υπόψη την ύπαρξη ενός δεσμού δύο παρατηρήσεων προκύπτει ότι χρησιμοποιείται για τον έλεγχο της υπό μελέτης μηδενικής υπόθεσης το στατιστικό: W 3 d d T 4 N 0, 4 48 και απορρίπτεται η μηδενική υπόθεση H : m 0 έναντι της H : m 0 αν 0 W za / z Είναι: * W.8 3 ** και επομένως απορρίπτεται η μηδενική υπόθεση H : 0 0 m σε επίπεδο σημαντικότητας 5%. Άρα υπάρχει στατιστικά σημαντική διαφοροποίηση στα επίπεδα της συστολικής πίεσης πριν και μετά τη χορήγηση του φαρμάκου. 64

67 Τέταρτο Κεφάλαιο Έστω ότι έχουμε δύο το πλήθος πληθυσμούς, με άγνωστες αθροιστικές συναρτήσεις κατανομής F,,. Επιπλέον λαμβάνουμε δύο το πλήθος, ανεξάρτητα μεταξύ τους, τυχαία δείγματα από καθένα από αυτούς τους δύο πληθυσμούς, μεγέθους, με. Έστω οι δειγματικές τιμές X,, X, από τον πληθυσμό,,. Θέλουμε να ελέγξουμε τη μηδενική υπόθεση: H : F x F x 0, για κάθε x R, έναντι της εναλλακτικής υπόθεσης H : F x F x, για κάποιο x R. Αυτός ο έλεγχος είναι ισοδύναμος με τον έλεγχο της υπόθεσης H P X X H : P X X /. : /, έναντι της εναλλακτικής 0 Αν επιπλέον υποθέσουμε ότι τα σχήματα των κατανομών είναι όμοια, ταυτόσημα (detcal), δηλαδή ότι F t F t R 65, για κάθε t και για κάποιο, τότε ο παραπάνω έλεγχος ανάγεται στον έλεγχο της μηδενικής υπόθεσης H m m : 0 X X, δηλαδή της ισότητας των πληθυσμιακών διαμέσων έναντι μιας εκ των τριών εναλλακτικών: ) H m m : X X, ) H m m και ) H m m. : X X : X X m X,, Προφανώς όταν είναι αληθής η μηδενική υπόθεση προκύπτει ότι τα δύο δείγματα προέρχονται από έναν, τον ίδιο πληθυσμό. Έστω R X j,, j,...,, οι τάξεις των διαθέσιμων δειγματικών τιμών των δύο δειγμάτων στο σύνολο των παρατηρήσεων. Θα συμβολίζουμε σε όσα ακολουθούν με R το άθροισμα των τάξεων του δείγματος,,, δηλαδή R j R X,,. Ειδικότερα, R R X j, R R X j j και j j R. Αν υποθέσουμε ότι η H 0 είναι αληθής αναμένουμε οι μέσοι όροι των τάξεων σε καθένα από τα δείγματα να είναι περίπου ίσοι μεταξύ τους. Δηλαδή περιμένουμε να ισχύει ότι: R R

68 και λαμβάνοντας υπόψη ότι: R, έχουμε ότι: R R, οπότε R R R. Επομένως, ένας πρακτικός, αλλά όχι στατιστικός, τρόπος για να αποφανθούμε για την αποδοχή ή την απόρριψη της μηδενικής υπόθεσης ότι τα δείγματα προέρχονται από τον ίδιο πληθυσμό είναι να εξετάζουμε αν οι ποσότητες,, είναι περίπου ίσες μεταξύ τους και ίσες με /. Στη βιβλιογραφία μεταξύ άλλων έχουν εμφανιστεί δύο ισοδύναμοι έλεγχοι που παρουσιάστηκαν ανεξάρτητα από τον Wlcoxo (945) και από τους Ma ad Whtey (947). Για το λόγο αυτό ο έλεγχος αυτός έχει καθιερωθεί και ως έλεγχος Wlcoxo-Ma-Whtey. R, 4. Wlcoxo Sum Rak τεστ Πριν προχωρήσουμε στα όσα προτάθηκαν από τον Wlcoxo (945) παραθέτουμε μία πρόταση χρήσιμη για όσα ακολουθούν. Πρόταση 4. Υπό τη μηδενική υπόθεση και υποθέτοντας ότι δεν υπάρχουν δεσμοί μεταξύ των δεδομένων αποδεικνύεται ότι α) E R β) Var R, γ) Για μεγάλα σε μέγεθος δείγματα H0,. R N 66

69 Απόδειξη α) Είναι E R E R X E R X l j j j l j j j. β) Επειδή ισχύει ότι και R δεν είναι ανεξάρτητες. Ισχύει: R καταλαβαίνουμε ότι οι τυχαίες μεταβλητές R Var R Var R X Var R X Cov R X R X j j j l, l j Είναι όμως j j j, l. m j j j Var R X E R X E R X m ( ) - =. Επιπρόσθετα j, l l j / l P R X k R X s P R X s P R X k R X s, και επομένως j l j l j l Cov R X, R X k ER X s ER X P R X k, R X s, k s, k s δηλαδή j, l k s, k s Cov R X R X k s = k s k k s k = k s k. k s k 67

70 Όμως οπότε k s k s 0, j, l k Cov R X R X k k k k k k = 6 4 = =. Επομένως Var R j j l, l j ( ) - ( ) - ( ). γ) Καθώς R R X j, δηλαδή είναι άθροισμα ισόνομων τυχαίων j μεταβλητών, και λόγω ότι E R και Var R Κεντρικό Οριακό Θεώρημα προκύπτει ότι: H0 R N,.., από το 68

71 Το στατιστικό που προτάθηκε από τον Wlcoxo (945) για τον έλεγχο της μηδενικής υπόθεσης είναι το ή εναλλακτικά το: Παρατηρώντας ότι: U U R R. U U R R, έχουμε ότι: U R και U U. Επομένως, ένα από τα U,,, υπολογίζεται και χρησιμεύει για τον έλεγχο της μηδενική υπόθεσης. Στην πράξη χρησιμοποιείται το στατιστικό: U m U, U m U, U, και πίνακες είναι διαθέσιμοι τόσο για την περίπτωση που, όσο και για την περίπτωση που (βλέπε Πίνακα 8α Παραρτήματος). Η μηδενική υπόθεση απορρίπτεται για μονόπλευρες εναλλακτικές όταν:, ενώ η κρίσιμη περιοχή του δίπλευρου ελέγχου είναι: P U u a / P U u a όπου u η παρατηρούμενη τιμή του στατιστικού στο δείγμα., Εναλλακτικά, από το την Πρόταση 4. γ): R N, H0,. και χρησιμοποιείται το στατιστικό R Z H0 N 0,. με κρίσιμες περιοχές ) Z za, ) Z za, και ) Z z a /, αντίστοιχα. 69

72 Παράδειγμα 4. Να βρεθεί η ακριβής κατανομή του R υπό τη μηδενική υπόθεση, όταν και 3, στην περίπτωση που δεν υπάρχουν δεσμοί μεταξύ των δεδομένων. Λύση Έστω οι δειγματικές τιμές X, X, και X, X, X 3, από τον πρώτο και δεύτερο πληθυσμό, αντίστοιχα. Επιπλέον έστω R X j,, j,...,, με και 3, οι τάξεις των διαθέσιμων δειγματικών τιμών των δειγμάτων στο σύνολο των 5 παρατηρήσεων. Είναι R το άθροισμα των τάξεων του πρώτου δείγματος, δηλαδή είναι: R R X j R καθώς και οι αντίστοιχες τιμές των R X, j. Οι δυνατές τιμές της τυχαίας μεταβλητής R X παρατίθενται στον πίνακα που ακολουθεί:, R X R X R (,) 3 (,3), 4 (,4), (,3) 5 (,5), (,4) 6 (,5), (4,3) 7 (3,5) 8 (4,5) 9 Επομένως οι δυνατές τιμές της τυχαίας μεταβλητής R είναι οι {3,4,5,6,7,8,9} και η τυχαία μεταβλητή έχει την ακόλουθη συνάρτηση πιθανότητας: P R r / 0, για r 3, 4,8,9. / 5, για r 5,6,7. Παράδειγμα 4. 70

73 Να ελέγξετε αν τα παρακάτω δεδομένα προέρχονται από διαφορετικές κατανομές (δίπλευρος έλεγχος με α=5%): X j X 9 5 j Λύση Έχουμε το πλήθος πληθυσμούς, με αθροιστικές συναρτήσεις κατανομής,. Επιπλέον λαμβάνουμε το πλήθος, ανεξάρτητα μεταξύ τους τυχαία δείγματα από καθένα από αυτούς τους δύο πληθυσμούς μεγέθους,,, με 4,, και 7. Θέλουμε να ελέγξουμε τη μηδενική 3 υπόθεση: H : F x F x 0 H : F x F x, για κάποιο x R. F,, για κάθε x R, έναντι της εναλλακτικής υπόθεσης Το στατιστικό που προτάθηκε από τον Wlcoxo (945) για τον έλεγχο της μηδενικής υπόθεσης είναι το U m U, U m U, U U R, με, όπου R να συμβολίζει το άθροισμα των τάξεων στο σύνολο των διαθέσιμων δειγματικών τιμών του -οστού δείγματος,,. Επομένως, αρχικά αναμειγνύονται τα δύο δείγματα και διατάσσονται κατά αύξουσα τάξη μεγέθους και υπολογίζουμε τις τάξεις R X j,, τιμών των δειγμάτων στο σύνολο των 7 παρατηρήσεων. Επομένως είναι: j,...,, των διαθέσιμων δειγματικών Παρατήρηση Τάξη όπου έχουμε υπογραμμίσει για ευκολία στους μετέπειτα υπολογισμούς τις τιμές και τις τάξεις των παρατηρήσεων του δεύτερου δείγματος. Είναι τότε: και U R U U 3*

74 Επομένως χρησιμοποιείται το στατιστικό U m U, U και η μηδενική υπόθεση απορρίπτεται αν P U u a / 0.05, όπου u η παρατηρούμενη τιμή του στατιστικού στο δείγμα, δηλαδή u 3. Από τον Πίνακα 8α του Παραρτήματος προκύπτει ότι, υπό τη μηδενική υπόθεση, P U Επομένως καθώς 0.>0.05 δεν απορρίπτεται η μηδενική υπόθεση και συμπεραίνουμε με επίπεδο σημαντικότητας 5% ότι δεν μπορούμε να απορρίψουμε την υπόθεση ότι τα δύο ανεξάρτητα δείγματα προέρχονται από τον ίδιο πληθυσμό. Παράδειγμα 4.3 Να βρεθεί η ακριβής κατανομή του U R για 4 και, υπό τη μηδενική υπόθεση και υπό την προϋπόθεση ότι δεν υπάρχουν δεσμοί στις δειγματικές τιμές. Λύση 6 Το μέγεθος κάθε δείγματος είναι 4 και αντίστοιχα και υπάρχουν 5 τρόποι διάταξης των δειγματικών παρατηρήσεων. Οι δύο παρατηρήσεις του δεύτερου δείγματος μπορούν να είναι στις ακόλουθες θέσεις άρα και τάξεις: (,), (,3), (,4), (,5), (,6), (,3), (,4), (,5), (,6), (3,4), (3,5), (3,6), (4,5), (4,6), (5,6), οπότε οι δυνατές τιμές του U R R 3 είναι αντίστοιχα: 0,,,3,4,,3,4,5,4,5,6,6,7,8. Επομένως, η διακριτή τυχαία μεταβλητή U έχει συνάρτηση πιθανότητας: / 5, για u 0,,7,8 P U u /5, για u,3,5,6 3 /5, για u 4 Το Παράδειγμα 4. ουσιαστικά αποτελεί μία ειδική περίπτωση προσδιορισμού της κατανομής του R που προσδιορίζεται γενικά στην παρακάτω πρόταση (βλέπε μεταξύ άλλων Radles ad Wolfe (979)). Πρόταση 4. 7

75 R X, j,...,,,, οι τάξεις των διαθέσιμων δειγματικών τιμών των Έστω j δύο δειγμάτων στο σύνολο των παρατηρήσεων. Έστω R το άθροισμα των τάξεων των παρατηρήσεων του πρώτου δείγματος στο σύνολο αυτών των τιμών. Υπό την υπόθεση ότι τα δύο δείγματα προέρχονται από τον ίδιο πληθυσμό και δεν υπάρχουν δεσμοί μεταξύ αυτών, η κατανομή του στατιστικού R δίνεται από τη σχέση: όπου, t, r P R r, r,...,, t r συμβολίζει το πλήθος των μη διατεταγμένων υποσυνόλων ακεραίων που επιλέγονται χωρίς επανατοποθέτηση από το σύνολο {,..., } και έχουν άθροισμα ίσο με r και δειγματικών τιμών. το πλήθος των δυνατών διατάξεων των Παρατήρηση 4. Σε όσα έχουν αναφερθεί τόσο για την ακριβή όσο και για την προσεγγιστική κατανομή υπό την μηδενική υπόθεση, π.χ. του R, υποθέτουμε την μη ύπαρξη δεσμών μεταξύ των παρατηρήσεων. Στην περίπτωση ύπαρξης δεσμών χρησιμοποιούμε τα mdraks, δηλαδή το μέσο όρο των τάξεων που θα είχαν οι παρατηρήσεις αν δεν υπήρχαν οι δεσμοί. Ο τρόπος εύρεσης σε αυτήν την περίπτωση της ακριβούς κατανομής υποδεικνύεται μέσω του Παραδείγματος 4.4 που ακολουθεί, ενώ στην Πρόταση 4.3 αποδεικνύεται ότι το στατιστικό: Z R 3 d d H0 N 0,.. Τότε οι κρίσιμες περιοχές για τους υπό μελέτη ελέγχους είναι: ) Z za, ) Z za, και ) Z z a /, αντίστοιχα. Πρόταση

76 Έστω R X j,, j,...,, οι τάξεις των διαθέσιμων δειγματικών τιμών των δύο δειγμάτων στο σύνολο των παρατηρήσεων. Επιπρόσθετα υποθέτουμε ότι οι αυτές δειγματικές παρατηρήσεις λαμβάνουν c το πλήθος διαφορετικές τιμές, έστω d από αυτές είναι ίσες με τη μικρότερη τιμή, d με την αμέσως μεγαλύτερη κ.ο.κ. d από αυτές ίσες με τη μεγαλύτερη, με d και c c d α) E R. Υπό τη μηδενική υπόθεση αποδεικνύεται ότι β) Var R, 3 d d γ) Για μεγάλα σε μέγεθος δείγματα R 3 d d H0 N 0,.. Απόδειξη (βλέπε μεταξύ άλλων Lehma (975)) Η απόδειξη θα γίνει χωρίς βλάβη της γενικότητας για το στατιστικό R. Συμβολίζουμε με u, u,..., u, τις διαθέσιμες τάξεις, τότε από τον ορισμό αυτών προκύπτει άμεσα ότι: κ.ο.κ. u... d d... ud, d ( d )... d d d u... u d, d dd d ( d d )... d d d d u... u d d, 3 3 d d dd d3 d3 Από αυτές τις u, u,..., u, επιλέγονται οι το πλήθος (αριθμός δυνατών επιλογών ) που αντιστοιχούν στις τάξεις του πρώτου δείγματος, έστω οι V,..., V. Τότε α) Είναι τότε: R V... V. 74

77 dud d ud... d ( ) ( ) cud c R EV, όπου χρησιμοποιήθηκε ότι το άθροισμα των τάξεων που συμμετέχουν σε κάθε δεσμό είναι ίσο με το άθροισμα των τάξεων αν δεν υπήρχαν δεσμοί. β) Είναι Όμως VarR Var V... V VarV Cov( V, V ). j j, j VarV u u u u, dud d ud... d cud όπου u c. Με παρόμοιο τρόπο όπως στην Πρόταση 3.4 προκύπτει ότι: Άρα c d d u. c d d VarV 6. Επομένως λαμβάνοντας επιπλέον υπόψη ότι η συνδιακύμανση, j για κάθε ένα από τα το πλήθος ζεύγη των,, έχουμε ότι: Cov V V είναι ίδια j με, j,...,, j, (, j), j. VarR VarV Cov V V VarV Cov V V j, j Εφαρμόζοντας την παραπάνω σχέση για, οπότε τότε το άθροισμα των τάξεων του πρώτου δείγματος είναι σταθερό, έχουμε ότι: άρα Επομένως και έτσι 0 VarV Cov V, V, j Cov V, V j VarV. VarV VarR VarV VarV VarV,

78 Var R. 3 d d γ) Προκύπτει με άμεση εφαρμογή του Κ.Ο.Θ. λαμβάνοντας υπόψη τα α) και β). Παρατήρηση 4. Τα αποτελέσματα της Πρότασης 4. μπορούν να προκύψουν από την Πρόταση 4.3 για την ειδική περίπτωση που d... d c, με c. Παράδειγμα 4.4 (βλέπε Hollader ad Wolfe (999)) Να βρεθεί η ακριβής κατανομή του R υπό τη μηδενική υπόθεση, όταν και 3, στην περίπτωση που υπάρχει ένας δεσμός μεταξύ της 3 ης και 4 ης παρατήρησης. Λύση Έστω οι δειγματικές τιμές X, X, και X, X, X 3, από τον πρώτο και δεύτερο πληθυσμό, αντίστοιχα. Επιπλέον έστω R X j,, j,...,, με και 3, οι τάξεις των διαθέσιμων δειγματικών τιμών των δειγμάτων στο σύνολο των 5 παρατηρήσεων. Είναι R το άθροισμα των τάξεων του πρώτου δείγματος, δηλαδή είναι: R R X j j. Λαμβάνοντας υπόψη ότι υπάρχει ένας δεσμός μεταξύ της 3 ης και 4 ης παρατήρησης και επομένως ότι οι τάξεις είναι (,,3.5,3.5,5) προκύπτει ότι οι δυνατές τιμές των τάξεων,, R X R X, χωρίς να μας ενδιαφέρει η διάταξή αυτών, και οι αντίστοιχες τιμές της τυχαίας μεταβλητής R είναι:, R X R X R (,) 3 (,3.5) 4.5 (,3.5) 4.5 (,5) 6 (,3.5) 5.5 (,3.5)

79 (,5) 7 (3.5,3.5) 7 (3.5,5) 8.5 (3.5,5) 8.5 Επομένως οι δυνατές τιμές της τυχαίας μεταβλητής R είναι οι {3,4.5,5.5,6,7,8.5} και η τυχαία μεταβλητή έχει την ακόλουθη συνάρτηση πιθανότητας: /0, για r 3,6 P R r / 0, για r 4.5,5.5, 7,8.5 και είναι τελείως διαφορετική από αυτήν του Παραδείγματος Ma-Whtey τεστ Το στατιστικό που προτάθηκε από τους Ma ad Whtey (947) είναι το: όπου Dj I X j X, με I X MW D, j j I τη δείκτρια συνάρτηση, που δίνεται από τη σχέση:, αν X j X X. 0, αλλού j Είναι για σταθεροποιημένο : Dj D D... D, j είναι δηλαδή ο συνολικός αριθμός των j,...,, που έχουν τιμές μικρότερες X j, του X, όπου σταθεροποιημένο και ένα από τα,...,. Ο αριθμός αυτός, από τον τρόπο ορισμού του, προκύπτει ότι είναι ίσος με την τάξη της δειγματική τιμής X στο δείγμα των παρατηρήσεων μείον τον αριθμό των X, έστω k, που είναι μικρότερα από τη συγκεκριμένη παρατήρηση. Επομένως προκύπτει ότι: MW D R X k R X k R j, j που δεν είναι τίποτε άλλο από το στατιστικό U που προτάθηκε από τον Wlcoxo. 77

80 Παράδειγμα 4.5 (Spret (989)) Στον πίνακα που ακολουθεί καταγράφεται ο αριθμός των σελίδων 6 τυχαία επιλεγμένων βιβλίων από μία βιβλιοθήκη ενός μαθηματικού τμήματος και επιλεγμένων βιβλίων από μία βιβλιοθηκή ενός φιλολογικού τμήματος. Να ελέγξετε κάνοντας τις κατάλληλες υποθέσεις την υπόθεση ότι ο μέσος αριθμός των σελίδων των βιβλίων ενός φιλολογικού και μαθηματικού τμήματος δεν διαφέρουν στατιστικά σημαντικά, με επίπεδο σημαντικότητας 5%. Βιβλία Μαθηματικής Βιβλιοθήκης Βιβλία Βιβλιοθήκης Φιλολογικού Λύση Έχουμε το πλήθος πληθυσμούς, με αθροιστικές συναρτήσεις κατανομής,. Επιπλέον λαμβάνουμε το πλήθος, ανεξάρτητα μεταξύ τους τυχαία δείγματα από καθένα από αυτούς τους δύο πληθυσμούς μεγέθους, με 6, και 8. Αν επιπλέον υποθέσουμε ότι τα σχήματα των κατανομών είναι όμοια (detcal) και οι πληθυσμοί είναι συμμετρικοί, τότε τα αποτελέσματα του έλεγχου της μηδενικής υπόθεσης πληθυσμιακών διαμέσων H m m : 0 X X F,, δηλαδή της ισότητας των m X,,, έναντι μιας εκ των τριών εναλλακτικών: ) H m m : X X, ) H m m και ) : X X H m m : X X, γενικεύεται για τις πληθυσμιακές μέσες τιμές. Θα χρησιμοποιήσουμε το στατιστικό που προτάθηκε από τους Ma ad Whtey (947). Αρχικά τα δεδομένα αναμειγνύονται και διατάσσονται κατά αύξουσα τάξη μεγέθους, υπολογίζονται οι τάξεις αυτών, όπως φαίνονται στον πίνακα που ακολουθεί. Στον πίνακα αυτό για διευκόλυνση οι δειγματικές τιμές του ου δείγματος και οι αντίστοιχες τάξεις τους επισημαίνονται με υπογράμμιση: Παρατήρηση Τάξη Παρατήρηση Τάξη

81 Παρατήρηση Τάξη Παρατήρηση Τάξη Το στατιστικό που προτάθηκε από τον Wlcoxo (945) και τους Ma ad Whtey (947) για τον έλεγχο της μηδενικής υπόθεσης είναι το όπου U U m U, U m U, U, R και U U, με R να είναι το άθροισμα των τάξεων του -οστού δείγματος,,, στο σύνολο των διαθέσιμων δειγματικών τιμών. Είναι: οπότε και R , U 6* R U U 6* 5 4. Από τον Πίνακα 8β του Παραρτήματος έχουμε ότι, για τη συγκεκριμένη περίπτωση, η κρίσιμη τιμή του ελέγχου είναι 53 και καθώς η τιμή του στατιστικού U m U, U είναι μικρότερη από την κρίσιμη τιμή, απορρίπτεται η μηδενική υπόθεση. Εναλλακτικά μπορούσε να χρησιμοποιηθεί το προσεγγιστικό στατιστικό (κάνοντας και διόρθωση συνεχείας) 6* Z.43 6**8/ με κρίσιμη περιοχή Z z / z Επομένως και πάλι η μηδενική a υπόθεση απορρίπτεται. Αυτό σημαίνει ότι υπάρχει στατιστικά σημαντική διαφορά στις διαμέσους των δύο πληθυσμών, ως προς τον αριθμό των σελίδων. 79

82

83 Πέμπτο Κεφάλαιο Στο κεφάλαιο αυτό παρουσιάζεται μία επέκταση του Wlcoxo-Ma-Whtey τεστ, για τον έλεγχο της υπόθεσης ότι τρία ή περισσότερα τυχαία δείγματα προέρχονται από τον ίδιο πληθυσμό, έναντι της εναλλακτικής υπόθεσης ότι τουλάχιστον δύο από τα δείγματα προέρχονται από πληθυσμούς που διαφέρουν ως προς τις διαμέσους. Από το τελευταίο γίνεται αντιληπτό ότι το στατιστικό αυτό τεστ προϋποθέτει στην ουσία ισότητα των πληθυσμιακών διακυμάνσεων. Για το λόγο αυτό στο τέλος του κεφαλαίου παραθέτουμε έναν μη παραμετρικό τρόπο ελέγχου της υπόθεσης της ισότητας των πληθυσμιακών διακυμάνσεων. 5. Kruskal-Walls τεστ Το στατιστικό τεστ των Kruskal ad Walls (95) αποτελεί μία λογική επέκταση του Wlcoxo-Ma-Whtey τεστ. Είναι ένας μη παραμετρικός τρόπος ελέγχου της υπόθεσης ότι τρία ή περισσότερα τυχαία δείγματα προέρχονται από τον ίδιο πληθυσμό, έναντι της εναλλακτικής υπόθεσης ότι τουλάχιστον δύο από τα δείγματα προέρχονται από πληθυσμούς που διαφέρουν ως προς τις διαμέσους. Από τη μορφή της εναλλακτικής υπόθεσης γίνεται άμεσα αντιληπτό ότι το στατιστικό τεστ των Kruskal-Walls προϋποθέτει στην ουσία ισότητα των πληθυσμιακών διακυμάνσεων. Επιπλέον υποθέτουμε ότι τα δεδομένα είναι τουλάχιστον διατάξιμα. Έστω ότι έχουμε k το πλήθος πληθυσμούς, k 3, με αθροιστικές συναρτήσεις κατανομής F,,..., k, k 3. Επιπλέον λαμβάνουμε k το πλήθος, k 3, αμοιβαία ανεξάρτητα μεταξύ τους τυχαία δείγματα, ένα από καθένα από αυτούς τους,..., k, k 3, πληθυσμούς, μεγέθους, με... k. Έστω οι δειγματικές τιμές X,, X, από τον -οστό πληθυσμό,..., k, k 3. Θέλουμε να ελέγξουμε τη μηδενική υπόθεση: H F x F x :... k, για κάθε x R, όπου 0 k 3, έναντι της εναλλακτικής υπόθεσης H : ότι υπάρχει τουλάχιστον ένα ζεύγος, j με j,, j,..., k, k 3, τέτοιο ώστε m m j, όπου m l η διάμεσος του l πληθυσμού, l,..., k. Υπό τη μηδενική υπόθεση προκύπτει ότι τα k δείγματα προέρχονται από έναν πληθυσμό. Έστω j R X,..., k, j,...,, k 3, οι τάξεις των διαθέσιμων δειγματικών τιμών των k δειγμάτων στο σύνολο των παρατηρήσεων. Θα 8

84 συμβολίζουμε σε όσα ακολουθούν με R το άθροισμα των τάξεων του -οστού δείγματος,,..., k, 3 Εύκολα προκύπτει ότι k, δηλαδή R R X j k R.,,..., k, k 3. j Αν υποθέσουμε ότι η H 0 είναι αληθής αναμένουμε οι μέσοι όροι των τάξεων σε καθένα από τα δείγματα,,..., k, k 3, να είναι περίπου ίσοι μεταξύ τους. Δηλαδή περιμένουμε να ισχύει ότι: R R Rk..., k 3. Λαμβάνοντας υπόψη ότι στην περίπτωση μη ύπαρξης δεσμών: έχουμε ότι: οπότε: k R,... k R R R, k R R R Rk k k Επομένως, ένας πρακτικός, αλλά όχι στατιστικός, τρόπος για να αποφανθούμε για την αποδοχή ή απόρριψη της μηδενικής υπόθεσης ότι τα τυχαία δείγματα προέρχονται από τον ίδιο πληθυσμό είναι να εξετάζουμε αν οι ποσότητες,..., k, 3 αν η ποσότητα: k, είναι περίπου ίσες μεταξύ τους και ίσες με k R, R, / ή εναλλακτικά είναι κοντά στο μηδέν. Γίνεται αντιληπτό ότι μεγάλες τιμές της παραπάνω ποσότητας θα υποδεικνύουν απόκλιση από την υπόθεση ότι τα k το πλήθος τυχαία δείγματα προέρχονται από τον ίδιο πληθυσμό. Στηριζόμενοι σε μία τέτοια ιδέα οι Kruskal ad Walls (95) πρότειναν στην περίπτωση μη ύπαρξης δεσμών το στατιστικό: 8

85 KW. k R Στην πρόταση που ακολουθεί δίνονται δύο ισοδύναμες μορφές του στατιστικού: Πρόταση 5. Αποδεικνύεται ότι στην περίπτωση μη ύπαρξης δεσμών: α) KW R k και β) KW k R 3. Απόδειξη α) Από τη σχέση KW, k R «βάζοντας» τον όρο προκύπτει εύκολα η ισοδύναμη έκφραση: εντός της παρένθεσης που υψώνεται στο τετράγωνο k k R R KW. β) Είναι: οπότε KW k R KW = k R R 4 k R 4 k k R R =

86 όπου χρησιμοποιήσαμε το γεγονός ότι ύπαρξης δεσμών ισχύει η σχέση: k k και επιπλέον ότι στην περίπτωση μη R. σχέση: Προφανώς, καθώς το στατιστικό των Kruskal ad Walls (95) δίνεται από τη KW R, k R R Rk προκύπτει ότι λαμβάνει την τιμή μηδέν όταν..., όταν δηλαδή η μηδενική υπόθεση είναι αληθής. Επομένως απορρίπτουμε τη μηδενική υπόθεση H 0 για μεγάλες τιμές του στατιστικού KW. Δηλαδή απορρίπτουμε τη μηδενική υπόθεση H 0 αν: όπου c είναι ένας αριθμός τέτοιος ώστε: KW 0 c, P KW c / H αληθής. k Η εύρεση της κατανομής του KW υπό τη μηδενική κατανομή είναι πολύ δύσκολη και έχει επιτευχθεί από τους Kruskal ad Walls (95) στην περίπτωση των τριών πληθυσμών k 3 και για μικρά σε μέγεθος δείγματα τέτοια ώστε 5, για,,3. Πίνακες για αυτές τις περιπτώσεις είναι διαθέσιμοι στη βιβλιογραφία (βλέπε μεταξύ άλλων Παπαϊωάννου και Λουκάς (00)). Για το λόγο αυτό οι ερευνητές οδηγήθηκαν στην εύρεση ενός προσεγγιστικού στατιστικού τεστ, στην περίπτωση που 0. Λαμβάνοντας υπόψη ότι R είναι το άθροισμα το πλήθος (όχι ανεξάρτητων) τυχαίων μεταβλητών, καθώς είναι το άθροισμα των τάξεων του δείγματος,,..., k, k 3, δηλαδή R j j R X,,..., k, k 3, προκύπτει από το Κεντρικό Οριακό Θεώρημα (για ισόνομες τυχαίες μεταβλητές) ότι, υπό τη μηδενική υπόθεση και υποθέτοντας μη ύπαρξη δεσμών στις δειγματικές παρατηρήσεις: 84

87 R ER VarR ασυμπ. N 0,, και επομένως όπου οι βαθμοί ελευθερίας της k R ασυμπ. ER R ER k X k VarR, VarR αναμενόταν, διότι k το πλήθος τάξεις ισότητα k R. X κατανομής είναι k και όχι k, όπως θα R ορίζονται μοναδικά, καθώς ισχύει η Στην επόμενη πρόταση προσδιορίζονται οι ποσότητες E R και τον προσδιορισμό του παραπάνω στατιστικού. Var R για Πρόταση 5. Υπό τη μηδενική υπόθεση και υποθέτοντας ότι δεν υπάρχουν δεσμοί αποδεικνύεται ότι: α) E R και β) Var R Απόδειξη α) Είναι E R E R X E R X l j j j l j j j. β) Επειδή ισχύει ότι k R, καταλαβαίνουμε ότι οι τυχαίες μεταβλητές ανεξάρτητες. Ισχύει: R,,..., k, k 3, δεν είναι Var R Var R X Var R X Cov R X R X j j j l, l j j j j, l Είναι όμως: 85

88 και επειδή j l l j l P R X s, R X k P R X k P R X s / R X k, επομένως j, l j l j, l Cov R X R X k ER X s ER X P R X s R X k k s, k s m j j j Var R X E R X E R X m ( ) - =, δηλαδή j, l k s, k s Cov R X R X k s Όμως οπότε: = k s k k s k = k s k. k s k k s k s 0, j, l k Cov R X R X k Επομένως k k k k k = 6 4 = =. 86

89 Παρατήρηση 5. Var R j j l, l j ( ) - ( ) - ( ). Τα παραπάνω ουσιαστικά αποδεικνύουν ότι αν Χ είναι η τ.μ. που παριστάνει το άθροισμα ακέραιων που εκλέγονται στην τύχη χωρίς επανάθεση από τους το πλήθος πρώτους ακέραιους αριθμούς, δηλαδή από το σύνολο,...,, τότε EX και VarX. Επομένως από την Πρόταση 5. προκύπτει ότι: R R k k k ασυμπ. R ER X k VarR ( ) ( ). Επιπλέον οι Kruskal ad Walls (95) απέδειξαν ότι το στατιστικό KW k R στην περίπτωση μη ύπαρξης δεσμών ακολουθεί προσεγγιστικά υπό τη μηδενική υπόθεση X κατανομή με k βαθμούς ελευθερίας και η μηδενική υπόθεση απορρίπτεται αν KW X k, a, όπου P X X a. ισχύει ότι k k a, X είναι το σημείο εκείνο για το οποίο k, a Επιπλέον τόσο οι Kruskal ad Walls (95) όσο και οι Gabrel ad Lachebruch (969) απέδειξαν ότι η παραπάνω προσέγγιση είναι ικανοποιητική ακόμα και για μικρά σε μέγεθος δείγματα. 87

90 Παρατηρήσεις 5.. Σε περίπτωση ύπαρξης δεσμών ανάμεσα στις δειγματικές παρατηρήσεις οι Kruskal ad Walls (95) πρότειναν το στατιστικό: KW * όπου KW είναι το σύνηθες στατιστικό των Kruskal ad Walls (95) υπολογισμένο χρησιμοποιώντας τα mdraks και KW d 3 3 d, d είναι το πλήθος των παρατηρήσεων που συμμετέχουν στον -οστό δεσμό. Εύκολα αποδεικνύεται ότι στην περίπτωση μη ύπαρξης δεσμών * KW KW.. Συνήθως η διαπίστωση ότι η μηδενική υπόθεση που μελετήθηκε σε τούτη την παράγραφο απορρίπτεται δεν αποτελεί τον τελικό σκοπό σε μία στατιστική μελέτη. Κι αυτό συμβαίνει γιατί το ενδιαφέρον μας επικεντρώνεται στον εντοπισμό των δειγμάτων που έχουν διαφορετικές διαμέσους και επομένως προέρχονται από διαφορετικούς πληθυσμούς. Κατά ανάλογο τρόπο, όπως στην κλασική παραμετρική στατιστική, για τον παραπάνω λόγο, προβαίνουμε στις λεγόμενες πολλαπλές συγκρίσεις (η ονομασία αυτή προέκυψε από το γεγονός ότι στην ουσία έχουμε να κάνουμε με k το πλήθος ελέγχους). Σε αυτήν την περίπτωση οι πολλαπλές συγκρίσεις δεν είναι τίποτε άλλο παρά ο έλεγχος ότι τα δείγματα από τον m -οστό και l -οστό πληθυσμό μπορούμε να θεωρήσουμε ότι προέρχονται από τον ίδιο πληθυσμό έναντι της εναλλακτικής ότι οι πληθυσμιακοί διάμεσοι αυτών διαφέρουν. Για το σκοπό αυτό χρησιμοποιείται το στατιστικό: όπου t Rm Rl m l, S H * k l m και H * S k R 4 88

91 S R X j 4 k j. Η κρίσιμη περιοχή του ελέγχου είναι t t k, a /, όπου t k, a / τέτοιο ώστε P tk tk, a / a /. Άσκηση 5. Να προσδιορίσετε, υποθέτοντας ότι δεν υπάρχουν δεσμοί στις δειγματικές παρατηρήσεις, την ακριβή κατανομή του στατιστικού των Kruskal ad Walls (95), όταν, και 3, και να δείξετε ότι P KW Λύση Είναι KW k 3 R R 3 3*5 4*5, επομένως για την υπό μελέτη περίπτωση θα πρέπει να βρούμε τις δυνατές τιμές του στατιστικού. Οι παρατηρήσεις που είναι διαθέσιμες είναι 4 το πλήθος και έστω ότι είναι οι X, X, X, X 3, όπου ο πρώτος δείκτης αναφέρεται στον πληθυσμό και ο δεύτερος στον αριθμό της παρατήρησης εντός αυτού. Θα πρέπει να υπολογιστούν αρχικά οι δυνατές τιμές των,, 3 R R R, όπου R R X j,,,3 j και j R X,,3, j,...,, οι τάξεις των διαθέσιμων δειγματικών τιμών των τριών δειγμάτων στο σύνολο των 4 παρατηρήσεων. Οι δυνατές περιπτώσεις τότε είναι το πλήθος (γιατί?) και είναι οι ακόλουθες:,, 3,3,4 R R R, και τότε.7 3,, 4,,4 R R R και τότε.8 3,, 5,,3 R R R και τότε 0.3 3,, 5,,4 R R R και τότε.7 3,, 6,,3 R R R και τότε.8 3 KW,,, 3,4,3 R R R και τότε KW.7, 3 KW,,, 4,4, R R R και τότε KW.8, 3 KW,,, 5,3, R R R και τότε KW 0.3, 3 KW,,, 5,4, R R R και τότε KW.7, 3 KW,,, 6,3, R R R και τότε KW.8, 3 89

92 ,, 7,, R R R και τότε.7 3 KW.7. KW, και τέλος,, 7,, R R R και τότε 3 Επομένως, οι δυνατές τιμές του στατιστικού KW είναι 0.3,.8,.7 και η συνάρτηση πυκνότητας πιθανότητας είναι: Άρα P KW P KW x / για x.7 / 3 για x.8 / 6 για x αλλού Άσκηση 5. Να δείξετε ότι στην περίπτωση των δύο πληθυσμών τα στατιστικά τεστ των Kruskal ad Walls (95) και Wlcoxo (945), Ma ad Whtey (947) ταυτίζονται. Λύση Έστω ότι έχουμε k το πλήθος πληθυσμούς και δύο ανεξάρτητα τυχαία δείγματα X,, X από τον -οστό πληθυσμό,, k 3. Θέλουμε να ελέγξουμε τη μηδενική υπόθεση: H : F x F x υπόθεσης : H m m 0, για κάθε x R, έναντι της εναλλακτικής, όπου m,,, η διάμεσος του -οστού πληθυσμού. Στην ειδική περίπτωση των δύο πληθυσμών το στατιστικό των Kruskal ad Walls (95) λαμβάνει τη μορφή: KW R και επειδή υποθέτουμε μη ύπαρξη δεσμών στις δειγματικές τιμές είναι Επομένως, R R R R. 90

93 KW R R = R R = R R = R = R R. Επιπλέον στην περίπτωση μη ύπαρξης δεσμών ακολουθεί προσεγγιστικά υπό τη μηδενική υπόθεση X κατανομή με k βαθμό ελευθερίας, δηλαδή. KW R X και η μηδενική υπόθεση απορρίπτεται αν KW, όπου P X X a. εκείνο για το οποίο ισχύει ότι a, X, a X, a είναι το σημείο Σύμφωνα με το στατιστικό τεστ των Wlcoxo (945), και Ma ad Whtey (947) η μηδενική υπόθεση απορρίπτεται για πολύ μικρές ή πολύ μεγάλες τιμές του στατιστικού R / R X j /. j Όμως για μεγάλα μεγέθη δείγματος ισχύει ότι: R ER ασυμπ. VarR N 0,. Λαμβάνοντας υπόψη ότι: και προκύπτει ότι E R Var R 9

94 οπότε R ασυμπ. N 0,, R που αποδεικνύει το ζητούμενο. ασυμπ. R X, Άσκηση 5.3 (Kruskal ad Walls (95)) Σε ένα εργοστάσιο τρεις μηχανές χρησιμοποιούνται για την παραγωγή δοχείων εμφιαλώσεως. Κατά τη διάρκεια μιας εργάσιμης εβδομάδας καταγράφεται ο αριθμός των δοχείων που κατασκευάστηκαν από κάθε μηχανή και τα αποτελέσματα παρατίθενται στον πίνακα που ακολουθεί, με την επιπλέον επισήμανση ότι κάποιες μέρες δεν παρήχθησαν δοχεία από κάποιες μηχανές λόγω ότι είχαν τεθεί εκτός λειτουργίας. Μηχανή Μηχανή Μηχανή Θέλουμε να ελέγξουμε αν υπάρχει στατιστικά σημαντική διαφορά ως προς την παραγωγή δοχείων των τριών μηχανών. Δίνεται ότι P KW 5, Λύση Έχουμε διαθέσιμα τρία δείγματα, μεγέθους δείγματος 5, 3, 3 4, 3. Αναμειγνύονται οι δειγματικές παρατηρήσεις X j, j,...,,,,3, και στη συνέχεια διατάσσονται σε αύξουσα τάξη μεγέθους και υπολογίζονται οι τάξεις j R X, j,...,,,,3 κάθε δειγματικής τιμής. Για 9

95 ευκολία στους μετέπειτα υπολογισμούς δημιουργούμε τον ακόλουθο πίνακα όπου στον εκθέτη σημειώνουμε το δείγμα από το οποίο προέρχεται η παρατήρηση: Τιμή παρατήρησης Τάξη Επομένως είναι: 5 j j R R X , R 3 j j R X 4 8 4, και R j j R X Επομένως είναι: KW R / 5 96 / 3600 / 4 3*3 5, 65, =580,533/3-39=44, =5,6564. Από τον πίνακα των Kruskal ad Walls (βλέπε (00)) προκύπτει ότι: Αν χρησιμοποιηθεί ότι είτε του Mcrosoft Excel ότι: P KW 5, Επομένως χρησιμοποιώντας την KW X X k P KW 5, και Παπαιωάννου και Λουκάς, προκύπτει με χρήση είτε του S.P.S.S. X προσέγγιση οδηγούμαστε στο συμπέρασμα ότι δεν απορρίπτεται η μηδενική υπόθεση σε επίπεδο σημαντικότητας 5% ότι τα τρία δείγματα προέρχονται από τον ίδιο πληθυσμό. 93

96 Άσκηση 5.4 Στον πίνακα που ακολουθεί καταγράφεται το βάρος νεογνών από 4 διαφορετικές χώρες. Σε επίπεδο σημαντικότητας 5% να εξετάσετε αν τα 4 δείγματα προέρχονται από τον ίδιο πληθυσμό με το στατιστικό τεστ των Kruskal-Walls. Χώρα Α,8 3,3 3, 3,9 3,6 Χώρα Β,8 3,5 3,6 3,7 3,8 3,3 Χώρα Γ,7,,6,8 3,7 Χώρα Δ,6 3,3 3,,9 3,8 Λύση Έχουμε διαθέσιμα τέσσερα δείγματα, μεγέθους δείγματος 6, 7, 3 5,, 3 3. Αναμειγνύονται οι δειγματικές παρατηρήσεις X j, 4 5 j,...,,,,3,4 και στη συνέχεια διατάσσονται σε αύξουσα τάξη μεγέθους και υπολογίζονται οι τάξεις j R X, j,...,,,,3, 4, κάθε δειγματικής τιμής. Για ευκολία στους μετέπειτα υπολογισμούς δημιουργούμε τον ακόλουθο πίνακα όπου στον εκθέτη σημειώνουμε το δείγμα από το οποίο προέρχεται η παρατήρηση: Τιμή,,6,6,7,8,8,8,9 3, 3, Τάξη Τιμή 3,3 3,3 3,3 3,5 3,6 3,6 3,7 3,7 3,8 3,8 3,9 Τάξη Επομένως είναι: 6 R R X , j j R 7 και 94 j j R X , R j j R X ,

97 R j j R X Επιπλέον ο αριθμός των παρατηρήσεων σε κάθε δεσμό είναι: d d, d3 3, d4 d5 3 και d6 d7 d8 αντίστοιχα. Επομένως είναι: όπου KW * KW 3 33 και οπότε KW d 3 3 d 4 R , , 756, , =,3 3 d d 6*6 * , KW * KW d d 3, Χρησιμοποιώντας την X 3 προσέγγιση προκύπτει ότι: P X Επομένως οδηγούμαστε στο συμπέρασμα ότι σε επίπεδο σημαντικότητας 5% τα τέσσερα δείγματα προέρχονται από τον ίδιο πληθυσμό. Άσκηση 5.5 (βλέπε Hollader ad Wolfe (999)) Να προσδιορίσετε, υποθέτοντας ότι υπάρχουν δύο δεσμοί στις δειγματικές παρατηρήσεις μεταξύ των δύο πρώτων και δύο τελευταίων σε αύξουσα τάξη μεγέθους παρατηρήσεων, την ακριβή κατανομή του στατιστικού των Kruskal ad Walls (95), όταν, και 3. 95

98 Λύση Είναι k 3 R R KW 3 3*6 5*6, επομένως για την υπό μελέτη περίπτωση θα πρέπει να βρούμε τις δυνατές τιμές του στατιστικού. Οι παρατηρήσεις που είναι διαθέσιμες είναι 5 το πλήθος και λόγω της ύπαρξης δεσμών οι τάξεις είναι (.5,.5,3, 4.5, 4.5). Θα πρέπει να υπολογιστούν αρχικά οι δυνατές τιμές των,, 3 R R R, όπου R R X j,,,3 j και R X j,,3, j,...,, οι τάξεις των διαθέσιμων δειγματικών τιμών των τριών δειγμάτων στο σύνολο των 5 παρατηρήσεων. Οι δυνατές περιπτώσεις τότε είναι 30 το πλήθος (γιατί?) και παρατίθενται στον πίνακα που ακολουθεί. Επομένως προκύπτει ότι οι δυνατές τιμές του στατιστικού 0,.35,3.5,3.6, και η συνάρτηση πυκνότητας πιθανότητας είναι: P KW x 6 / 30, για x.35 8 / 30, για x 3.5 / 30, για x 3.6 4/30, για x 0. KW είναι 96

99 Τάξεις παρατηρήσεων πρώτου πληθυσμού Τάξεις παρατηρήσεων δεύτερου πληθυσμού Τάξεις παρατηρήσεων τρίτου πληθυσμού Τιμή KW.5,3 4.5, ,3 4.5, ,4.5 3, ,4.5 3, ,4.5.5, ,4.5 5, ,4.5 3, ,4.5 3, ,4.5.5, ,4.5.5, ,4.5.5, ,4.5.5, ,.5 4.5, ,4.5.5, ,4.5.5, ,4.5.5, ,4.5.5, ,4.5.5, ,.5 3, ,.5 3, ,3.5, ,3.5, ,3.5, ,3.5, ,4.5.5, ,4.5.5, ,4.5.5, ,4.5.5, ,4.5.5, ,4.5.5,

100 5. Έλεγχος ισότητας πληθυσμιακών διακυμάνσεων Τα στατιστικά τεστ για τον έλεγχο της ισότητας δύο ή περισσότερων πληθυσμιακών διακυμάνσεων είναι μη ανθεκτικά σε αποκλίσεις από την κανονική κατανομή. Επομένως δεν πρέπει να χρησιμοποιούνται σε περιπτώσεις που οι πληθυσμοί δεν περιγράφονται ικανοποιητικά από την κανονική κατανομή. Σε αυτήν την παράγραφο θα αναπτυχθούν μη παραμετρικές μεθοδολογίες τόσο για τον έλεγχο της ισότητας δύο πληθυσμιακών διακυμάνσεων όσο και για τον έλεγχο της ισότητας περισσότερων των δύο πληθυσμιακών διακυμάνσεων. 5.. Έλεγχος ισότητας δύο πληθυσμιακών διακυμάνσεων Έστω δύο πληθυσμοί με αθροιστικές συναρτήσεις κατανομής F,,, με πληθυσμιακές διακυμάνσεις και αντίστοιχα. Επιπλέον υποθέτουμε ότι είναι διαθέσιμα δύο ανεξάρτητα μεταξύ τους τυχαία δείγματα από αυτούς τους πληθυσμούς, έστω X,, X, και X,, X, αντίστοιχα. Θέλουμε να ελέγξουμε τη μηδενική υπόθεση H : έναντι μιας εκ των τριών εναλλακτικών 0 υποθέσεων: ) H :, ) H : και ) H :. Σε όσα ακολουθούν με του -οστού πληθυσμού,,. Δηλαδή X,,, συμβολίζεται ο συνήθης δειγματικός μέσος X j Οι Coover ad Ima (978) πρότειναν αρχικά να δημιουργούμε, να σχηματίζουμε, X τις διαφορές j X j. X, για,, j,...,. Στη συνέχεια οι το πλήθος διαφορές αυτές αναμειγνύονται και διατάσσονται κατά αύξουσα τάξη. Αν με R X j συμβολίσουμε τις τάξεις αυτών πρότειναν να χρησιμοποιήσουμε το στατιστικό: T R X j j στην περίπτωση μη ύπαρξης δεσμών και το στατιστικό 98

101 T * WR V T V στην περίπτωση ύπαρξης δεσμών, όπου το στατιστικό T υπολογίζεται από την ίδια σχέση με τη μόνη διαφοροποίηση ότι χρησιμοποιείται ο μέσος όρος των τάξεων στην περίπτωση δειγματικών παρατηρήσεων με δεσμούς, και V R R X W R j 4 R X j. j R j R Ποσοστιαία σημεία αυτών των στατιστικών για τον έλεγχο της υπόθεσης της ισότητας των πληθυσμιακών διακυμάνσεων παρατίθενται από τους Coover ad Ima (978). Επιπλέον, για μεγέθη δείγματος μεγαλύτερα του 0, δηλαδή όταν 0,,, αποδεικνύουν (βλέπε και Kvam ad Vdakovc (007)) ότι υπό τη μηδενική υπόθεση: Z T 6 ασυμπ. N 0, Επομένως σε επίπεδο σημαντικότητας a η μηδενική υπόθεση H : 0 απορρίπτεται έναντι ) της H :, αν Z z a /, ) της H :, αν Z za και ) της H :, αν Z za. 5.. Έλεγχος ισότητας περισσοτέρων των δύο πληθυσμιακών διακυμάνσεων Έστω k το πλήθος πληθυσμοί, k 3, με αθροιστικές συναρτήσεις κατανομής F,,,..., k, k 3, και με πληθυσμιακές διακυμάνσεις,,,..., k, k 3. Επιπλέον υποθέτουμε ότι είναι διαθέσιμα k το πλήθος ανεξάρτητα μεταξύ τους τυχαία δείγματα από αυτούς του πληθυσμούς, έστω X,, X,,,..., k, k 3. 99

102 Θέλουμε να ελέγξουμε τη μηδενική υπόθεση H0 :... k, k 3, έναντι της εναλλακτικής υπόθεσης ότι H, όπου l, m,..., k, l m, k 3. Σε όσα ακολουθούν με : l m X,,,..., k, k 3, συμβολίζεται ο συνήθης δειγματικός μέσος του -οστού πληθυσμού,,,..., k, k 3. Δηλαδή X,,...,, 3. j j X k k Αρχικά σχηματίζουμε τις διαφορές X j X, για,,..., k, k 3, j,...,. Στη συνέχεια οι... k, k 3, το πλήθος διαφορές αυτές αναμειγνύονται και διατάσσονται κατά αύξουσα τάξη. Αν με R X j συμβολίσουμε τις τάξεις αυτών χρησιμοποιούμε το στατιστικό: όπου T k T / T V T, T j R X, j και k T T, k VT R X T j 4 j. Παρατήρηση 5.3 Στην περίπτωση της μη ύπαρξης δεσμών τότε το παραπάνω στατιστικό απλοποιείται λαμβάνοντας υπόψη ότι: T / 6, και V 8 /80. T Υπό τη μηδενική υπόθεση αποδεικνύεται (βλέπε, μεταξύ άλλων, Coover (999) και Kvam ad Vdakovc (007)) ότι: 00

103 T k T / T V T ασυμπ. X. Επομένως η μηδενική υπόθεση απορρίπτεται σε επίπεδο σημαντικότητας a όταν: k όπου T X k, a, P X X a. X k, a τέτοιο ώστε k k, a Σε περίπτωση που η μηδενική υπόθεση απορρίπτεται θέλοντας να εντοπίσουμε σε ποιους πληθυσμούς έχουμε άνισες διακυμάνσεις προχωρούμε σε έλεγχο πολλαπλών συγκρίσεων, δηλαδή στους επιμέρους ελέγχους της H, όπου l, m,..., k, k 3, με l m, χρησιμοποιώντας το στατιστικό: : 0 l m και κρίσιμη περιοχή την t Tl l T T VT l m k t t k, a /, m m t τέτοιο ώστε: όπου k, a / P tk tk, a / a /. 0

104 0

105 Έκτο Κεφάλαιο Μέτρα Συσχέτισης Σκοπός του κεφαλαίου αυτού είναι η παράθεση μεθοδολογιών για τη διερεύνηση της ύπαρξης ή μη γραμμικής σχέσης μεταξύ δύο μεταβλητών. Ειδικότερα, αρχικά το ενδιαφέρον επικεντρώνεται στη μελέτη της γραμμικής εξάρτησης μεταξύ δύο ποσοτικών τυχαίων μεταβλητών X και Y, μέσω του συντελεστή συσχέτισης του Pearso (896). Έπειτα επεκτείνεται σε περιπτώσεις που ο συντελεστής συσχέτισης του Pearso δε βρίσκει εφαρμογή. Στο πλαίσιο αυτό παρουσιάζονται ο συντελεστής συσχέτισης του Spearma (904) και του Kedall (938). 6. Συντελεστής συσχέτισης του Pearso Έστω οι συνεχείς τυχαίες μεταβλητές X και Y. Το ενδιαφέρον μας επικεντρώνεται στη διερεύνηση της ύπαρξης ή μη γραμμικής σχέσης μεταξύ αυτών. Για παράδειγμα, ενδιαφερόμαστε για την ύπαρξη ή όχι γραμμικής σχέσης μεταξύ του ύψους και του βάρους ενήλικων ατόμων, των εξόδων και των εσόδων μιας εταιρείας κ.ο.κ. Ένα μέτρο συσχέτισης είναι ο πληθυσμιακός ή θεωρητικός συντελεστής συσχέτισης, ο οποίος συμβολίζεται με ή X, Y σχέση: Cov X, Y X, Y, VarX VarY και ορίζεται από την ακόλουθη όπου VarX και VarY είναι η πληθυσμιακή διακύμανση (varace) της X και της Y, αντίστοιχα, ενώ Cov X, Y είναι η συνδιακύμανση (covarace) των X και Y. Η συνδιακύμανση των X και Y δίνεται από τη σχέση:, Cov X Y E X EX Y EY E XY EXEY, και αποτελεί ένα μέτρο της συμεταβλητότητας των X και Y, μη απαλλαγμένο από τις μονάδες μέτρησης των μεταβλητών. Σε αντίθεση με τη συνδιακύμανση, ο συντελεστής συσχέτισης X, Y είναι απαλλαγμένος από μονάδες, δηλαδή πρόκειται για έναν καθαρό αριθμό (βλέπε, μεταξύ άλλων, Κούτρας (004)). Ειδικότερα ο συντελεστής συσχέτισης λαμβάνει τιμές στο διάστημα,. Αν X, Y 0, δηλαδή αν Cov X, Y 0 τότε οι 03

106 μεταβλητές X και Y χαρακτηρίζονται ως γραμμικά ασυσχέτιστες. Επιπλέον τιμές του συντελεστής συσχέτισης κοντά στο (αντίστοιχα στο -) υποδεικνύουν την ύπαρξη γραμμικής θετικής (αντίστοιχα αρνητικής) σχέσης. Αυτό σημαίνει ότι μεγάλες τιμές της μιας μεταβλητής αντιστοιχούν σε μεγάλες (αντίστοιχα σε μικρές) τιμές της άλλης. Στην πράξη ο θεωρητικός συντελεστής συσχέτισης είναι δύσκολο να υπολογιστεί. Για το λόγο αυτό εκτιμάται από το λεγόμενο (δειγματικό) συντελεστή συσχέτισης του Pearso. Έστω,,...,, X Y X Y ένα τυχαίο δείγμα από ζεύγη παρατηρήσεων για τις τυχαίες μεταβλητές X, Y. Ο συντελεστής συσχέτισης του Pearso συμβολίζεται με r X, Y ή r και δίνεται από τη σχέση: r X, Y ή ισοδύναμα από τη σχέση: X X Y Y ( X X ) ( Y Y ), r X, Y X Y X Y X Y X Y. Παρατηρήσεις 6.. Εύκολα προκύπτει ότι r X, Y r Y, X.. Ο δειγματικός συντελεστής συσχέτισης λαμβάνει τιμές στο διάστημα [,] με ανάλογη, αντίστοιχη ερμηνεία με αυτήν που δόθηκε για τις τιμές του πληθυσμιακού συντελεστή συσχέτισης. 3. Ορίζεται για ποσοτικές μεταβλητές μόνο και επηρεάζεται από την ύπαρξη ακραίων τιμών στο τυχαίο δείγμα των το πλήθος παρατηρήσεων,,...,, X Y X Y. 4. Τέλος προκύπτει ότι ο συντελεστής συσχέτισης είναι το συνημίτονο της γωνίας φ μεταξύ των δύο γραμμών παλινδρόμησης Y g X και X g Y X. Y 04

107 Θέλοντας να ελέγξουμε αν δύο ποσοτικές τυχαίες μεταβλητές δεν συνδέονται γραμμικά προβαίνουμε στο στατιστικό έλεγχο της μηδενικής υπόθεσης: H : 0, 0 δηλαδή της υπόθεσης της μη ύπαρξης γραμμικής συσχέτισης έναντι μίας εκ των τριών εναλλακτικών υποθέσεων: ) H : 0, δηλαδή της ύπαρξης γραμμικής θετικής εξάρτησης ) H : 0, δηλαδή της ύπαρξης γραμμικής αρνητικής εξάρτησης και ) H : 0, δηλαδή της ύπαρξης είτε γραμμικής θετικής εξάρτησης είτε γραμμικής αρνητικής εξάρτησης. t Με την προϋπόθεση, υπόθεση ότι το διδιάστατο διάνυσμα X, Y ακολουθεί διδιάστατη κανονική κατανομή (δηλαδή υποθέτοντας ότι η από κοινού κατανομή των X, Y είναι διδιάστατη κανονική, γεγονός που σημαίνει ότι τουλάχιστον η καθεμία από αυτές ακολουθεί κανονική κατανομή) το στατιστικό για τον έλεγχο των παραπάνω είναι το: H r 0 t ~ t r Οι κρίσιμες περιοχές του ελέγχου με επίπεδο σημαντικότητας a είναι: ) t t, a ) t t, a και ) t t, a /, αντίστοιχα.. Παρατήρησεις 6.. Η απόδειξη του πιο πάνω αποτελέσματος γίνεται εύκολα ανακαλώντας αποτελέσματα της Θεωρίας Γραμμικών Μοντέλων και ειδικότερα της απλής γραμμικής παλινδρόμησης. Είναι γνωστό ότι το στατιστικό όπου T R R /( ) R ο συντελεστής προσδιορισμού, ακολουθεί υπό την υπόθεση της μη ύπαρξης γραμμικής σχέσης μεταξύ των δύο τυχαίων μεταβλητών F,,. Επιπλέον R r και καθώς F t προκύπτει με συνδυασμό αυτών το παραπάνω, αποτέλεσμα. 05

108 . Στην ειδική περίπτωση του ελέγχου της μηδενικής υπόθεσης H 0 : 0, όπου γνωστός αριθμός τέτοιος ώστε 0 0,, με 0 0, έναντι μιας εκ των τριών εναλλακτικών: ) H : 0, ) H : 0, και ) H : 0, δε χρησιμοποιείται το t στατιστικό της πιο πάνω σχέσης αλλά χρησιμοποιείται το ακόλουθο στατιστικό: όπου EW r W l r l 0 0 και ασυμπ. W EW Z N 0,, VarW H0 είναι ο γνωστός μετασχηματισμός του Fsher με VarW 3, και οι κρίσιμες περιοχές είναι: ) Z z, ) a Z z a, και ) Z z a /, αντίστοιχα. Η προσέγγιση είναι ικανοποιητική για μέγεθος δείγματος μεγαλύτερο από 50 και μπορεί να χρησιμοποιηθεί και για την κατασκευή διαστήματος εμπιστοσύνης για το θεωρητικό συντελεστή συσχέτισης. Όπως έχει ήδη αναφερθεί ο συντελεστής συσχέτισης του Pearso προϋποθέτει δύο ποσοτικές μεταβλητές, μη ύπαρξη ακραίων τιμών και επιπλέον για το στατιστικό t έλεγχο υποθέσεων υποθέτουμε ότι το τυχαίο διάνυσμα X, Y ακολουθεί διδιάστατη κανονική κατανομή. Για κάθε άλλη περίπτωση κρίνεται αναγκαία η χρήση των μέτρων συσχέτισης των επόμενων παραγράφων. 6. Συντελεστής συσχέτισης του Spearma X, Y,..., X, Y, ένα τυχαίο δείγμα από ζεύγη παρατηρήσεων για Έστω τις τυχαίες μεταβλητές X και Y. Επιπλέον, έστω R,...,, R και S,...,, S οι τάξεις των δειγματικών τιμών των X και Y, αντίστοιχα. Επισημαίνουμε ότι σε περίπτωση ύπαρξης δεσμών αντιστοιχούμε σε κάθε μία από τις ίσες αυτές τιμές το μέσο όρο των τάξεων που θα είχαν αν δεν ταυτίζονταν. Τότε, ο συντελεστής συσχέτισης του Spearma, ο οποίος θα συμβολίζεται με r s, ορίζεται-δίνεται από τη σχέση: r s ( R R)( S S) ( R R) ( S S), 06

109 R όπου R S και S. Επομένως, ο συντελεστής συσχέτισης του Spearma δεν είναι τίποτε άλλο παρά ο συντελεστής συσχέτισης του Pearso όταν αυτός εφαρμόζεται στις τάξεις R,...,, R και,..., S S αντί για τις παρατηρήσεις,,...,, X Y X Y. Όπως και ο συντελεστής συσχέτισης του Pearso ο αντίστοιχος του Spearma λαμβάνει τιμές στο διάστημα [-,] και ερμηνεύεται κατά τον ίδιο τρόπο. Στην πρόταση που ακολουθεί δίνονται ισοδύναμες εκφράσεις για το συντελεστή συσχέτισης του Spearma στην περίπτωση της μη ύπαρξης δεσμών. Πρόταση 6. Έστω R,...,, R και S,...,, S οι τάξεις των δειγματικών τιμών των X και Y αντίστοιχα. Υποθέτοντας ότι δεν υπάρχουν δεσμοί, προκύπτουν οι ακόλουθες ισοδύναμες εκφράσεις για το συντελεστή συσχέτισης του Spearma: R S α) rs, και ( ) β) r s 6 R S ( ). Απόδειξη α) Στην περίπτωση μη ύπαρξης δεσμών ισχύουν οι ακόλουθες σχέσεις: και ενώ R S R, S, 07

110 δηλαδή ( R R) R R R, ( R R). ( )( ) ( ) ( ) 6 4 Επομένως 3 ( )( ) ( ) ( R R). 6 4 Με παρόμοιο τρόπο ( S S). Έπειτα λαμβάνοντας υπόψη τον ορισμό του συντελεστή συσχέτισης του Spearma προκύπτει ότι: r s ( R R)( S S) R S. ( ) R R S S ( ) ( ) β) Θέλουμε να δείξουμε ότι στην περίπτωση μη ύπαρξης δεσμών Επομένως αρκεί να δείξουμε ότι: ή ισοδύναμα ότι Ισχύει ότι: 6 r s R S ( ) R S 6 R S. ( ) ( ) ( ) 6 R S R S., R S R S R S 4. 08

111 Καθώς δεν υπάρχουν δεσμοί προκύπτει ότι: R S RS 4 R S 4 ( ) R S. 4 Επιπλέον ( ) ( ) ( ) ( ) 6 R S ( ) 6 R R S S, οπότε ( ) 6 R S ( ) 6 R S R S ( ) = R S ( ) = R S ( ) ( ) = R S, 4 και η απόδειξη ολοκληρώθηκε. 6 Όπως και ο συντελεστής συσχέτισης του Pearso έτσι και ο αντίστοιχος του Spearma χρησιμοποιείται ως στατιστικό για τον έλεγχο της μη ύπαρξης συσχέτισης μεταξύ δύο μεταβλητών. Ειδικότερα χρησιμοποιείται για τον έλεγχο της μηδενικής υπόθεσης H : 0 0, δηλαδή της υπόθεσης ότι οι τυχαίες μεταβλητές X και Y είναι αμοιβαία ανεξάρτητες (mutually depedet), έναντι μιας εκ των τριών εναλλακτικών: ) H : 0, δηλαδή της τάσης μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μεγάλες τιμές της άλλης και αντίστροφα, ) H : 0, δηλαδή της τάσης μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μικρές τιμές της άλλης και αντίστροφα, και 09

112 ) H : 0, δηλαδή της τάσης είτε μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μεγάλες τιμές της άλλης και αντίστροφα είτε μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μικρές τιμές της άλλης και αντίστροφα. Για τον έλεγχο των παραπάνω χρησιμοποιείται ο συντελεστής συσχέτισης του Spearma r s. Στον Πίνακα 0 (βλέπε μεταξύ άλλων και Χατζηνικολάου (00, σελ. 56) και αναφορές εκεί) δίνονται οι κρίσιμες τιμές για το συντελεστή συσχετίσεως του Spearma, ενώ στη βιβλιογραφία είναι διαθέσιμα και ποσοστιαία σημεία του r s υπό τη μηδενική υπόθεση. Τότε οι κρίσιμες περιοχές για τον έλεγχο κάθε μίας από τις παραπάνω είναι: ) Απορρίπτεται η μηδενική υπόθεση για μεγάλες τιμές του r s, δηλαδή όταν ο συντελεστής συσχέτισης του Spearma ξεπερνά το -α ποσοστιαίο σημείο του. ) Απορρίπτεται η μηδενική υπόθεση για μικρές τιμές του r s, δηλαδή όταν ο συντελεστής συσχέτισης του Spearma δεν ξεπερνά το α ποσοστιαίο σημείο του. ) Απορρίπτεται η μηδενική υπόθεση είτε όταν ο συντελεστής συσχέτισης του Spearma δεν ξεπερνά το α/ ποσοστιαίο σημείο του είτε όταν ο συντελεστής συσχέτισης του Spearma ξεπερνά το -α/ ποσοστιαίο σημείο του. Σε περίπτωση που χρησιμοποιούνται οι κρίσιμες τιμές του Πίνακα 0, απορρίπτουμε την μηδενική υπόθεση αν η απόλυτη τιμή του συντελεστή συσχέτισης του Spearma είναι μεγαλύτερη από την αντίστοιχη κρίσιμη τιμή. Παρατηρήσεις 6.3. Εναλλακτικά κάποιος μπορεί να χρησιμοποιήσει το στατιστικό T R S, το οποίο στη βιβλιογραφία ονομάζεται στατιστικό των Hotellg ad Pabst (936) και ποσοστιαία του σημεία είναι διαθέσιμα στη βιβλιογραφία (βλέπε Πίνακα 9 Coover (97)). Όμως λόγω της σχέσης β) της Πρότασης 6., προκύπτει ότι μεγάλες τιμές του συντελεστή συσχέτισης του Spearma αντιστοιχούν σε μικρές τιμές του στατιστικού των Hotellg ad Pabst (936) και αντίστροφα. Επομένως, οι κρίσιμες περιοχές για τον έλεγχο κάθε μίας από τις παραπάνω είναι: 0

113 ) Απορρίπτεται η μηδενική υπόθεση για μικρές τιμές του T, δηλαδή όταν το στατιστικό των Hotellg ad Pabst (936) δε ξεπερνά το α ποσοστιαίο σημείο του. ) Απορρίπτεται η μηδενική υπόθεση για μεγάλες τιμές του T, δηλαδή όταν το στατιστικό των Hotellg ad Pabst (936) ξεπερνά το -α ποσοστιαίο σημείο του. ) Απορρίπτεται η μηδενική υπόθεση είτε όταν το στατιστικό των Hotellg ad Pabst ξεπερνά το -α ποσοστιαίο σημείο του είτε όταν το στατιστικό των Hotellg ad Pabst δε ξεπερνά το α ποσοστιαίο σημείο του.. Στην περίπτωση ύπαρξης δεσμών (tes) μεταξύ των X ή των Y η κλασική αντιμετώπιση όπως έχει ήδη αναφερθεί είναι ο υπολογισμός, σε κάθε μία από τις ίσες αυτές τιμές, του μέσου όρου των τάξεων που θα είχαν αν δεν ταυτίζονταν. Αν u, u,... και v, v,... είναι οι τάξεις των δειγματικών τιμών X και Y, αντίστοιχα, όπου έχουμε δεσμούς, τότε ο συντελεστής συσχέτισης εναλλακτικά υπολογίζεται από τη σχέση: όπου και 6 6 / U V R S U V r, U u u 3 3. V v v, Στην πρόταση που ακολουθεί προσδιορίζεται η κατανομή του δειγματικού συντελεστή του Spearma υπό τη μηδενική υπόθεση όταν το το μέγεθος δείγματος είναι 30, και δεν υπάρχουν δεσμοί μεταξύ των παρατηρήσεων Πρόταση 6. Υπό την υπόθεση ότι οι τυχαίες μεταβλητές είναι ασυσχέτιστες και με την προϋπόθεση ότι δεν υπάρχουν δεσμοί μεταξύ των παρατηρήσεων αποδεικνύεται ότι. Z r ~ N 0,. s

114 Απόδειξη Από την Πρόταση 6. α) προκύπτει ότι στην περίπτωση μη ύπαρξης δεσμών R S RS 3 rs. ( ) ( ) Τότε υπό τη μηδενική υπόθεση ότι οι τυχαίες μεταβλητές είναι ασυσχέτιστες προκύπτει ότι Er s E( R S) E( R ) E( S ) ( ) ( ) ( ) E( R ) E( S ) και λαμβάνοντας υπόψη την Πρόταση 3. προκύπτει ότι Ακόμη: με 3 Ers 0. ( ) Var r s Var RS, ( ) Var R S Var( R S ) Cov R S, R S j j j, j = VarRVarS ( ) Cov R, R Cov S, S j j Λαμβάνοντας υπόψη την Πρόταση 3. δηλαδή ότι VarR VarS και, ύστερα από λίγες αλγεβρικές πράξεις, j Cov S, S j Cov R R Var r s καταλήγουμε ότι του Κ.Ο.Θ., και το ζητούμενο αποδεικνύεται με άμεση εφαρμογή Το παραπάνω στατιστικό Z χρησιμοποιείται για τον έλεγχο της μηδενικής υπόθεσης H : 0 0, έναντι μιας εκ των τριών εναλλακτικών:

115 ) H : 0, ) H : 0, και ) H : 0, και οι κρίσιμες περιοχές για τον έλεγχο κάθε μίας από τις παραπάνω είναι: ) Απορρίπτεται η μηδενική υπόθεση όταν Z r z, ) Απορρίπτεται η μηδενική υπόθεση όταν Z r z, ) Απορρίπτεται η μηδενική υπόθεση όταν Z rs za /. s s a a Παράδειγμα 6. Έστω ότι έχουμε τις ακόλουθες 7 παρατηρήσεις για τις μεταβλητές X : αριθμό προϊόντων και Y : το αντίστοιχο κόστος αγοράς. Χρησιμοποιώντας τα δεδομένα του πίνακα που ακολουθεί να υπολογιστεί: α) ο συντελεστής συσχέτισης του Pearso και κάνοντας τις κατάλληλες υποθέσεις να ελέγξετε αν συσχετίζονται οι δύο τυχαίες μεταβλητές, και β) ο συντελεστής συσχέτισης του Spearma και να ελέγξετε την ίδια υπόθεση. Χ Υ Λύση α) Θέλουμε να υπολογίσουμε το συντελεστή συσχέτισης του Pearso, από τη σχέση: r X, Y X Y X ( X X ) ( Y Y ) Y. Είναι: 7 7 X , X 6, Y , Y 80, 7 X Y 6*80 7*83 4 *75 8*86 9*95 3*7 5*69 = =3465 και 7 ( X X )

116 οπότε: 7 ( Y Y ) * r X, Y 7 0, , 93 Άρα ο συντελεστής συσχέτισης του Pearso είναι θετικός (αναμενόμενο από τη φύση των δύο τ.μ.) και κοντά στη μονάδα. Με την προϋπόθεση, υπόθεση ότι το t διδιάστατο διάνυσμα X, Y ακολουθεί διδιάστατη κανονική κατανομή (δηλαδή υποθέτοντας ότι η από κοινού κατανομή των X, Y είναι διδιάστατη κανονική, γεγονός που σημαίνει ότι τουλάχιστον η καθεμία από αυτές ακολουθεί κανονική κατανομή) το στατιστικό για τον έλεγχο της μηδενικής υπόθεσης H : 0, έναντι 0 της H : 0 χρησιμοποιούμε το στατιστικό: H r 0 t ~ t r και κρίσιμη περιοχή, με επίπεδο σημαντικότητας a, t t, / t5,0.05,57 (βλέπε Πίνακα 9 Παραρτήματος). Η τιμή του στατιστικού υπολογίζεται ότι είναι:. a , 906*, 36,0586 t 4, , 433 0, 433 οπότε καθώς 4,786 >,57 συμπεραίνουμε ότι απορρίπτεται η μηδενική υπόθεση. Άρα υπάρχει στατιστικά σημαντική γραμμική θετική συσχέτιση μεταξύ του αριθμού των προϊόντων και του κόστους αγοράς β) Αν με R και S συμβολίσουμε τις τάξεις των δειγματικών τιμών των τυχαίων μεταβλητών X και Y αντίστοιχα τότε είναι: X Y R S R S

117 Επομένως ο συντελεστής συσχέτισης του Spearma, καθώς δεν υπάρχουν δεσμοί, είναι: 6 R S 6* rs ( ) 7(7 ) 336 0,893 Χρησιμοποιώντας τον Πίνακα 0 του Παραρτήματος (βλέπε μεταξύ άλλων Χατζηνικολάου (00, σελ. 56) για το δίπλευρο έλεγχο απορρίπτεται η μηδενική υπόθεση όταν ο συντελεστής συσχέτισης του Spearma ξεπερνά κατά απόλυτη τιμή την τιμή Επομένως καθώς rs 0.786, η μηδενική υπόθεση απορρίπτεται. Αυτό σημαίνει ότι υπάρχει στατιστικά σημαντική εξάρτηση μεταξύ των δύο μεταβλητών Συντελεστής συσχέτισης του Kedall Ο Kedall (938) πρότεινε ένα εναλλακτικό μέτρο διδιάστατης εξάρτησης στηριζόμενος στις έννοιες των «σύμφωνων ζευγαριών» (cocordat pars) και των «ασύμφωνων ζευγαριών» (dscordat pars), οι ορισμοί των οποίων ακολουθούν. Ορισμός 6. Σύμφωνα ζευγάρια είναι εκείνα για τα οποία οι τιμές των X, Y και j, j X Y, j,, j,...,, έχουν την ίδια διάταξη και για τις δύο μεταβλητές, δηλαδή είτε είναι X X j και Y Y j είτε X X j και Y Y j. Εναλλακτικά μπορούμε να πούμε ότι το πρόσημο της διαφοράς X X j είναι σύμφωνο με το πρόσημο της διαφοράς Y Y. j Ορισμός 6. Ασύμφωνα ζευγάρια είναι εκείνα για τα οποία οι τιμές των X, Y και j, j X Y, j,, j,...,, δεν έχουν την ίδια διάταξη και για τις δύο μεταβλητές δηλαδή είτε είναι X X j και Y Y j είτε X X j και Y Y j. Εναλλακτικά μπορούμε να πούμε ότι το πρόσημο της διαφοράς X X j δεν είναι σύμφωνο με το πρόσημο της διαφοράς Y Y j. 5

118 Ορισμός 6.3 Ισοβαθμισμένα ζευγάρια είναι εκείνα για τα οποία οι τιμές των X, Y και j, j X Y, j,, j,...,, είναι τέτοιες ώστε ή X X j ή Y Y j ή X X j και Y Y j. Εναλλακτικά μπορούμε να πούμε ότι ή X X 0 ή Y Y 0 ή και τα δύο. j j Έστω,,...,, X Y X Y ένα τυχαίο δείγμα από ζεύγη παρατηρήσεων για τις τυχαίες μεταβλητές X και Y. Επιπλέον, έστω c, d και 0 ο αριθμός των σύμφωνων, ασύμφωνων και ισοβαθμισμένων ζευγαριών, αντίστοιχα. Τότε καθώς ο δυνατός αριθμός των ζευγαριών είναι Ο Kedall (938) πρότεινε το στατιστικό: c d 0 ( ). c d. ( ) / προκύπτει ότι: Παρατηρήσεις 6.4. Τα παραπάνω στατιστικά δεν είναι παρά το ανάλογο δειγματικό ενός συντελεστή που ορίστηκε από τον Kedall ως η διαφορά των πιθανοτήτων συμφωνίας και ασυμφωνίας, p c και p, αντίστοιχα, των ( X, Y ) και ( X, Y ), όπου: d j j και 0 pc P X X j Y Y j 0 pd P X X j Y Y j. Εύκολα μπορεί να διαπιστώσει κανείς ότι αν X και Y είναι ανεξάρτητες συνεχείς τυχαίες μεταβλητές τότε p p 0, ενώ το αντίστροφο δεν ισχύει πάντοτε. Παρόλα c d αυτά αποδεικνύεται ότι ο συντελεστής αυτός είναι ίσος με το μηδέν αν και μόνο αν οι τυχαίες μεταβλητές είναι ασυσχέτιστες.. Στην περίπτωση που όλα τα δυνατά ζευγάρια είναι σύμφωνα προκύπτει ότι, ενώ όταν όλα τα δυνατά ζευγάρια είναι ασύμφωνα προκύπτει ότι. Τέλος στην περίπτωση της ύπαρξης δεσμών χρησιμοποιείται το στατιστικό: 6

119 3. Για τον εύκολο υπολογισμό των c και c c d d. d και επομένως και του στατιστικού καλό είναι να ακολουθείται η μεθοδολογία που περιγράφεται μεταξύ άλλων από τον Coover (97, p. 50). Αρχικά τα ζεύγη των παρατηρήσεων X, Y,..., X, Y διατάσσονται κατά αύξουσα τάξη μεγέθους ως προς τη μεταβλητή X, δηλαδή από τη μικρότερη τιμή των X,,...,. Τότε η εύρεση των σύμφωνων ζευγαριών κάθε ζεύγους έγκειται στον υπολογισμό του αριθμού των παρατηρήσεων με τιμές στην τυχαία μεταβλητή Y μεγαλύτερη από τη συγκεκριμένη παρατήρηση, ενώ η εύρεση των ασύμφωνων ζευγαριών κάθε ζεύγους έγκειται στον υπολογισμό του αριθμού των παρατηρήσεων με τιμές στην τυχαία μεταβλητή Y μικρότερη από τη συγκεκριμένη παρατήρηση. Η παραπάνω μέθοδος χρήζει ιδιαίτερης προσοχής στην περίπτωση ύπαρξης ισοβαθμιών (βλέπε Παράδειγμα 6.3). Όπως και ο συντελεστής συσχέτισης του Spearma και ο συντελεστής του Kedall ή συνάρτηση αυτού χρησιμοποιείται ως στατιστικό για τον έλεγχο της μη ύπαρξης συσχέτισης δύο μεταβλητών. Ειδικότερα χρησιμοποιείται για τον έλεγχο της μηδενικής υπόθεσης H : 0 0, δηλαδή της υπόθεσης ότι οι τυχαίες μεταβλητές X και Y είναι αμοιβαία ανεξάρτητες (mutually depedet), έναντι μιας εκ των τριών εναλλακτικών: ) H : 0, δηλαδή της τάσης μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μεγάλες τιμές της άλλης και αντίστροφα ) H : 0, δηλαδή της τάσης μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μικρές τιμές της άλλης και αντίστροφα και ) H : 0, δηλαδή της τάσης είτε μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μεγάλες τιμές της άλλης και αντίστροφα είτε μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μικρές τιμές της άλλης και αντίστροφα. Για τον έλεγχο των παραπάνω χρησιμοποιείται είτε ο συντελεστής του Kedall είτε για ευκολία το στατιστικό T c d. Στον Πίνακα (πηγή Coover (97)) δίνονται ποσοστιαία σημεία του T υπό τη μηδενική υπόθεση. Τότε οι κρίσιμες περιοχές για τον έλεγχο κάθε μίας από τις παραπάνω είναι: 7

120 ) Απορρίπτεται η μηδενική υπόθεση όταν το στατιστικό T ξεπερνά το -α ποσοστιαίο σημείο του. ) Απορρίπτεται η μηδενική υπόθεση όταν το στατιστικό T δε ξεπερνά το α ποσοστιαίο σημείο του. ) Απορρίπτεται η μηδενική υπόθεση είτε όταν το στατιστικό T ξεπερνά το -α/ ποσοστιαίο σημείο του είτε όταν το στατιστικό T δε ξεπερνά το α/ ποσοστιαίο σημείο του. Για μεγάλο μέγεθος δείγματος αποδεικνύεται ότι: Z 3 ( ). N 0,. ( 5) H0 Παρατήρηση 6.5 Εύλογα μπορεί να αναρωτηθεί κάποιος αν υπάρχουν διαφορές μεταξύ του συντελεστή του Spearma και του Kedall. Ο συντελεστής του Spearma τείνει να λαμβάνει μεγαλύτερες απόλυτες τιμές από τις αντίστοιχες του Kedall. Από την άλλη μεριά, για μέγεθος δείγματος μεγαλύτερο του οκτώ, η κανονική προσέγγιση της κατανομή του συντελεστή του Kedall είναι αρκετά καλή για τον υπολογισμό των ποσοστιαίων σημείων, αλλά όχι τόσο καλή για τον υπολογισμό των ποσοστιαίων σημείων της κατανομής του συντελεστή του Spearma. Παράδειγμα 6.3 (βλέπε Coover (97)) Ένα ζευγάρι που πηγαίνει συχνά για μπόουλινγκ καταγράφει στον πίνακα που ακολουθεί το σκορ τους για να δει αν συσχετίζεται. Υπολογίστε το συντελεστή του Kedall και αποφανθείτε με επίπεδο σημαντικότητας 5%. Επιδόσεις Άντρα X Επιδόσεις Γυναίκας Y Λύση Αρχικά τα ζεύγη των 0 παρατηρήσεων, X Y,,...,0, διατάσσονται κατά αύξουσα τάξη μεγέθους ως προς τη μεταβλητή X, που περιγράφει τις επιδόσεις του άντρα στο μπόουλινγκ. Τότε η εύρεση των σύμφωνων ζευγαριών κάθε ζεύγους έγκειται στον υπολογισμό του αριθμού των παρατηρήσεων με τιμές στην τυχαία 8

121 μεταβλητή Y, που περιγράφει την επίδοση της γυναίκας στο μπόουλινγκ, μεγαλύτερη από τη συγκεκριμένη παρατήρηση, ενώ η εύρεση των ασύμφωνων ζευγαριών κάθε ζεύγους έγκειται στον υπολογισμό του αριθμού των παρατηρήσεων με τιμές στην τυχαία μεταβλητή Y μικρότερη από τη συγκεκριμένη παρατήρηση. Για μεγαλύτερη ευκολία μπορούμε να χρησιμοποιήσουμε τον ακόλουθο πίνακα, όπου με κόκκινο χρώμα επισημαίνονται ισόβαθμες παρατηρήσεις που επιφέρουν τροποποιήσεις στον καθορισμό των τιμών των άλλων στηλών. X σε αύξουσα τάξη μεγέθους Y αντίστοιχες τιμές της τ.μ. Y Αριθμός σύμφωνων Αριθμός ασύμφωνων Σύνολο c 0 d 33 Χρησιμοποιείται για τον έλεγχο της μηδενικής υπόθεσης H : 0 0, δηλαδή της υπόθεσης ότι οι τυχαίες μεταβλητές X και Y είναι αμοιβαία ανεξάρτητες (mutually depedet), έναντι της εναλλακτική H : 0, δηλαδή της τάσης είτε μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μεγάλες τιμές της άλλης και αντίστροφα είτε μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μικρές τιμές της άλλης και αντίστροφα, το στατιστικό T Απορρίπτεται η μηδενική c d υπόθεση, είτε όταν το στατιστικό T ξεπερνά το -α/ ποσοστιαίο σημείο του, δηλαδή όταν T w0.975, είτε όταν το στατιστικό T δε ξεπερνά το α/ ποσοστιαίο σημείο του, δηλαδή όταν T w0.05 w Επομένως καθώς -4<-, η μηδενική υπόθεση απορρίπτεται. Αυτό σημαίνει ότι υπάρχει στατιστικά σημαντική τάση είτε μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μεγάλες τιμές της άλλης και αντίστροφα, είτε μεγάλες τιμές της μιας μεταβλητής να αντιστοιχούν σε μικρές τιμές της άλλης και αντίστροφα. 9

122

123 Έβδομο Κεφάλαιο Υλοποίηση μη παραμετρικών μεθόδων στο S.P.S.S. 5.0 Στο κεφάλαιο αυτό μέσω κάποιων απλών εκπαιδευτικών παραδειγμάτων θα υποδείξουμε πως υλοποιούνται στο S.P.S.S. (Statstcal Package for Socal Sceces), οι κυριότερες μεθοδολογίες της Μη Παραμετρικής Στατιστικής, που παρουσιάστηκαν στα προηγούμενα κεφάλαια. 7. Τεστ καλής προσαρμογής με το S.P.S.S. 7.. Kolmogorov τεστ για ένα δείγμα με το S.P.S.S Aπό το κύριο μενού επιλέγουμε. AalyzeNo Parametrc Tests Sample K-S.. Στο νέο παράθυρο διαλόγου που προκύπτει τοποθετούμε στο πλαίσιο Test Varable Lst την μεταβλητή την οποία θέλουμε να ελέγξουμε αν περιγράφεται ικανοποιητικά από μία από τις ακόλουθες τέσσερεις κατανομές: την κανονική (Normal), την ομοιόμορφη (Uform), την Posso, την Εκθετική (Expoetal).

124 Αποτελέσματα υλοποίησης παραδείγματος. σελ. 4 Oe-Sample Kolmogorov-Smrov Test VAR0000 N 5 Uform Mmum,0 Parameters(a,b) Maxmum,68 Most Extreme Absolute,55 Dffereces Postve,55 Negatve -,8 Kolmogorov-Smrov Z,57 Asymp. Sg. (-taled),90 a Test dstrbuto s Uform. b Calculated from data. Παρατήρηση Στην ειδική περίπτωση του ελέγχου της κανονικότητας που είναι και ο πιο συνήθης έλεγχος σε μία στατιστική ανάλυση το S.P.S.S υλοποιεί και το στατιστικό τεστ των Shapro-Wlk μέσω της διαδικασίας Explore, επιλέγοντας από το κύριο μενού. AalyzeDescrptve StatstcsExplore.. Στο νέο παράθυρο διαλόγου που προκύπτει τοποθετούμε στο πλαίσιο Depedet Lst την ποσοτική μεταβλητή που θέλουμε να ελέγξουμε αν οι τιμές της προέρχονται από κανονικό πληθυσμό, ενώ στο Factor Lst την ποιοτική μεταβλητή, αν υπάρχει, που διαχωρίζει τα δείγματα. Αφού επιβεβαιώσουμε ότι έχουμε επιλέξει στην αριστερή γωνία αυτού του παραθύρου το Dsplay: Both, από το πλαίσιο μενού Plots επιλέγουμε, όπως φαίνεται στο σχήμα που ακολουθεί, το Normalty Plots wth tests. Η υλοποίηση αυτής της διαδιακασίας θα έχει

125 ως αποτέλεσμα στο παράθυρο διαλόγου των αποτελεσμάτων να παρατίθενται τόσο γραφικοί όσο και στατιστικοί τρόποι ελέγχου της μονοδιάστατης κανονικότητας. (τεστ Kolmogorov με τη διόρθωση του Lllefors, αλλά και τεστ των Shapro ad Wlk (965) που είναι ισχυρότερο). 7.. Smrov τεστ για δύο δείγματα με το S.P.S.S Aπό το κύριο μενού επιλέγουμε. AalyzeNo Parametrc Tests Idepedet Samples K-S.. Στο νέο παράθυρο διαλόγου που προκύπτει στο πλαίσιο Test Varable Lst τοποθετούμε τη στήλη-μεταβλητή στην οποία έχουν καταγραφεί όλες οι διαθέσιμες παρατηρήσεις των δειγμάτων από τους δύο πληθυσμούς, ενώ στο πλαίσιο Groupg Varable τοποθετούμε τη μεταβλητή που μας διαχωρίζει τα δύο δείγματα, δίνοντας την τιμή της που αντιστοιχεί σε κάθε δείγμα στο πλαίσιο Defe Groups. Τέλος επιλέγουμε το Kolmogorov-Smrov Z. 3

126 Αποτελέσματα υλοποίησης παραδείγματος. σελ. 0 Frequeces Y N X,00 6,00 9 Total 5 Test Statstcs(a) X Most Extreme Absolute,556 Dffereces Postve,000 Negatve -,556 Kolmogorov-Smrov Z,054 Asymp. Sg. (-taled),6 a Groupg Varable: Y 7..3 X τεστ καλής προσαρμογής πολυωνυμικής κατανομής με το S.P.S.S Aπό το κύριο μενού επιλέγουμε. AalyzeNo Parametrc TestsCh-Square.. Στο νέο παράθυρο διαλόγου που προκύπτει έχουμε τις ακόλουθες δυνατότητες: Get from data: η επιλογή αυτή οδηγεί στην εύρεση των παρατηρούμενων συχνοτήτων και των αναμενόμενων συχνοτήτων e χρησιμοποιώνταες όλες τις 4

127 τιμές της υπό έλεγχο μεταβλητής, η οποία έχει δηλωθεί στο πλαίσιο Test Varable Lst. Use specfed rage: η ανάλυση περιορίζεται στις τιμές εκείνες που είναι μεγαλύτερες (μικρότερες αντίστοιχα) από την τιμή που έχει δηλωθεί στο πλαίσιο Lower (στο πλαίσιο Upper αντίστοιχα) για τη μεταβλητής, η οποία έχει δηλωθεί στο πλαίσιο Test Varable Lst. All categores equal: Επιλέγοντάς το, αυτό που ουσιαστικά ελέγχεται είναι αν οι πιθανότητες εμφάνισης κάθε ενδεχομένου είναι ίδιες. Values: δηλώνουμε στο πλαίσιο αυτό τις αναμενόμενες τιμές που εμείς θέλουμε να καθορίσουμε, π.χ. τις τιμές που θα αναμένουμε αν p 0.75 και p Τεστ των ροών με το SPSS Aπό το κύριο μενού επιλέγουμε. AalyzeNo Parametrc TestsRus.. Στο νέο παράθυρο διαλόγου που προκύπτει τοποθετούμε στο πλαίσιο Test Varable Lst την μεταβλητή τις τιμές της οποίας θέλουμε να εξετάσουμε ως προς την τυχαιότητα. Όπως είδαμε κάθε δειγματική τιμή αντικαθίσταται από το σύμβολο + όταν ξεπερνά ένα καθορισμένο σημείο (cut pot), 5

128 ενώ όταν δεν το ξεπερνά αντικαθίσταται από το σύμβολο -. Τα διαθέσιμα καθορισμένα σημεία είναι είτε μέτρα θέσης, όπως η μέση τιμή, η διάμεσος και η επικρατούσα τιμή (mea, meda, mode αντίστοιχα), είτε κάποια αριθμητική τιμή που τη δηλώνει ο χρήστης στο πλαίσιο Custom. Αποτελέσματα υλοποίησης παραδείγματος. σελ. 39 Rus Test X Test Value(a),0000 Total Cases 9 Number of Rus Z,79 Asymp. Sg. (-taled),03 a User-specfed. 7.3 Προσημικός έλεγχος-wlcoxo τεστ με το SPSS Ένα δείγμα Δυστυχώς το λογισμικό του SPSS δεν έχει ενσωματωμένη τη διαδικασία του προσημικού τεστ και του τεστ του Wlcoxo, παρότι έχει δυνατότητες για μη παραμετρικούς ελέγχους για περισσότερα του ενός δείγματος. Ένας τρόπος αντιμετώπισης του παραπάνω προβλήματος είναι η αναγωγή του σε πρόβλημα ελέγχου για τις παραμέτρους θέσης δύο εξαρτημένων δειγμάτων. Ο τρόπος αυτός θα σχολιασθεί σε επόμενη ενότητα. Εναλλακτικά κάποιος μπορεί να αντιμετωπίσει αυτή την έλλειψη δημιουργώντας τον προαναφερθέντα έλεγχο Δύο εξαρτημένα δείγματα Θα δούμε πως υλοποιούνται μέσω ενός εκπαιδευτικού συνόλου δεδομένων. Παράδειγμα 7. (Παπαΐωάννου και Φερεντίνος, 000, σελ. 63) Παρακάτω παρατίθενται οι επιδόσεις 5 μαθητών στα Μαθηματικά και στις Καλές Τέχνες. Να ελεγχθεί με επίπεδο σημαντικότητας 5% αν υπάρχει στατιστικά σημαντική διαφορά στις επιδόσεις των μαθητών στα δύο γνωστικά αντικείμενα. Μαθηματικά: Καλές Τέχνες:

129 Επίλυση με το S.P.S.S Πρόκειται για μετρήσεις της επίδοσης σε δύο γνωστικά αντικείμενα και στους ίδιους μαθητές. Επομένως γίνεται εύκολα κατανοητό ότι έχουμε δύο εξαρτημένα δείγματα. Υλοποίηση Από το κύριο μενού επιλέγουμε. AalyzeNo Parametrc Tests Related Samples.. Στο νέο παράθυρο διαλόγου που προκύπτει διαλέγουμε αρχικά τη μεταβλητή που καταγράφει π.χ. τις επιδόσεις στα Μαθηματικά και η οποία θα χαρακτηρισθεί ως Varable. Έπειτα επιλέγουμε εκείνη που καταγράφει τις επιδόσεις στις Τέχνες και η οποία θα μετακινηθεί στο πλαίσιο Varable. 7

130 Στη συνέχεια μετακινούμε το ζεύγος των μεταβλητών στο πλαίσιο Test Par(s) Lst. Στο παράθυρο διαλόγου Two-Related-Sample Tests μας δίνεται η δυνατότητα να διαλέξουμε τον τύπο του μη παραμετρικού ελέγχου που θέλουμε να διενεργηθεί. Το λογισμικό μας δίνει μεταξύ άλλων τη δυνατότητα για διενέργεια του τεστ του Wlcoxo καθώς και του προσημικού ελέγχου μέσω τις επιλογής Sg. Επομένως επιλέγουμε για παράδειγμα Από την επιλογή Optos έχουμε τη δυνατότητα να καθορίσουμε τον τρόπο χειρισμού των ελλιπών τιμών καθώς και να ζητήσουμε τον υπολογισμό περιγραφικών μέτρων και τεταρτημόριων, ενώ στο πλαίσιο Exact αφήνουμε ως έχει την προεπιλογή. 8

131 Από τα παραπάνω προκύπτουν τα ακόλουθα αποτελέσματα: Στον πίνακα Raks δίνονται το πλήθος των αρνητικών και θετικών τάξεων των διαφορών των επιδόσεων στις Τέχνες και στα Μαθηματικά, οι μέσες τιμές των θετικών και αρνητικών τάξεων και το άθροισμά τους. Διαπιστώνουμε ότι T =06, ενώ T =4. Άρα T T T m, 4. Επομένως, ο έλεγχος του Wlcoxo θα βασιστεί στις αρνητικές τάξεις (μας επισημαίνεται από το λογισμικό σε μορφή σχολίου στον πίνακα Test Statstcs). Raks Mea N Rak Επίδοση στις Τέχνες - Negatve Επίδοση στα Raks Μαθηματικά Postve Raks Tes 0(c) Total 5 a Επίδοση στις Τέχνες < Επίδοση στα Μαθηματικά b Επίδοση στις Τέχνες > Επίδοση στα Μαθηματικά c Επίδοση στις Τέχνες = Επίδοση στα Μαθηματικά Sum of Raks (a) 7,00 4,00 3(b) 8,5 06,00 Τέλος στον πίνακα Test Statstcs μας δίνεται η τιμή του Z στατιστικού του Wlcoxo και η αντίστοιχη p-τιμή. Από την p-τιμή του στατιστικού τεστ συμπεραίνουμε ότι υπάρχουν στατιστικά σημαντικές διαφορές στην επίδοση στα Μαθηματικά και στις Τέχνες (p-τιμή=0.009<0.05). Η επίδοση στις τέχνες είναι στατιστικά σημαντικά καλύτερη. 9

132 Test Statstcs(b) Επίδοση στις Τέχνες - Επίδοση στα Μαθηματικ ά Z -,67(a) Asymp. Sg. (-,009 taled) a Based o egatve raks. b Wlcoxo Sged Raks Test Παρατήρηση Στην παράγραφο 7.. ασχοληθήκαμε με το μη παραμετρικό έλεγχο της υπόθεσης ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή 0. Δυστυχώς όπως αναφέραμε το λογισμικό δεν έχει διαθέσιμο το προσημικό τεστ και το τεστ του Wlcoxo. Ένας εναλλακτικός τρόπος αντιμετώπισης αυτού του προβλήματος είναι να χρησιμοποιήσουμε το τεστ του Wlcoxo που μόλις περιγράψαμε. Για το σκοπό αυτό απαιτείται η δημιουργία μίας νέας στήλης π.χ. με την ονομασία CotrolValue που όλες οι διαθέσιμες τιμές της θα είναι ίσες με την τιμή 0. Έπειτα υλοποιούμε τη διαδικασία NoParametrc Statstcs Two Related Samples έχοντας ως μία μεταβλητή την αρχική που θέλουμε να μελετήσουμε και ως δεύτερη αυτή που μόλις δημιουργήθηκε, δηλ. την CotrolValue. 7.4 Wlcoxo- Ma-Whtey με το S.P.S.S Aπό το κύριο μενού επιλέγουμε. AalyzeNo Parametrc Tests Idepedet Samples.. Στο νέο παράθυρο διαλόγου που προκύπτει 30

133 τοποθετούμε στο πλαίσιο Test Varable Lst την υπό μελέτη ποσοτική μεταβλητή, ενώ στο πλαίσιο Groupg Varable την ποιοτική μεταβλητή η οποία μας διαχωρίζει τους δύο πληθυσμούς. Ορίζουμε τον τρόπο διαχωρισμού πατώντας στο Defe Groups και δηλώνουμε ποιο είναι το πρώτο και ποιο το δεύτερο γκρουπ και δίνουμε ΟΚ. Στο παράθυρο διαλόγου τoυ Two Idepedet Sample Tests μας δίνεται η δυνατότητα να διαλέξουμε τον τύπο του μη παραμετρικού ελέγχου που θέλουμε να διενεργηθεί. Έτσι μεταξύ άλλων μας δίνεται η δυνατότητα επιλογής του τεστ των Ma-Whtey U, το οποίο χρησιμοποιείται για τον έλεγχο ότι τα δύο ανεξάρτητα δείγματα προέρχονται από πληθυσμούς που δε διαφέρουν ως προς την παράμετρο θέσης. 3

134 Από την επιλογή Optos έχουμε τη δυνατότητα να καθορίσουμε τον τρόπο χειρισμού των ελλιπών τιμών καθώς και να ζητήσουμε τον υπολογισμό περιγραφικών μέτρων και τεταρτημόριων, ενώ στo πλαίσιο Exact αφήνουμε την προεπιλογή. Η παραπάνω διαδικασία υλοποιείται χρησιμοποιώντας τα δεδομένα που παρατίθενται στον πίνακα, που ακολουθεί και προέρχονται από το άρθρο του Steele, S. (997), όπου καταγράφονται το βάρος ενός νεογέννητου σε γραμμάρια και το φύλο του (=κορίτσι =αγόρι). 3

135 Φύλο Βάρος Φύλο Βάρος Φύλο Βάρος Τότε προκύπτουν τα ακόλουθα: Raks Βάρος νεογέννητου Φύλο Κορίτσι N Mea Rak Sum of Raks 8 0,3 365,50 Αγόρι 6 4,0 64,50 Total 44 Από τον πίνακα Raks έχουμε ότι είναι διαθέσιμες 8 μετρήσεις του βάρους νεογέννητων κοριτσιών και 6 νεογέννητων αγοριών. Ο μέσος όρος και το άθροισμα των τάξεων παρατίθενται στις στήλες Mea Rak και Sum of Raks. Test Statstcs(a) Βάρος νεογέννητο υ Ma-Whtey U 94,500 Wlcoxo W 365,500 Z -,943 Asymp. Sg. (-,346 taled) a Groupg Varable: Φύλο Στον πίνακα Test Statstcs το λογισμικό μας δίνει τόσο την τιμή του στατιστικού των Ma Whtey όσο και την τιμή του στατιστικού του Wlcoxo. Η τιμή του στατιστικού του Wlcoxo ορίζεται να είναι το άθροισμα των τάξεων του μικρότερου σε μέγεθος δείγματος. Στην περίπτωση που τα δύο δείγματα είναι 33

136 ισομεγέθη τότε υπολογίζεται το άθροισμα των τάξεων της ομάδας που έχει δηλωθεί ως group στο πλαίσιο Two-Idepedet-Samples Defe Groups. Άρα με βάση τα αποτελέσματα του πίνακα Raks αναμένουμε την τιμή για το στατιστικό του Wlcoxo, αφού το μικρότερο σε μέγεθος δείγμα είναι αυτό των κοριτσιών με Sum of Raks ίσο με Επιπλέον, υπολογίζεται η τιμή του Z στατιστικού των Ma και Whtey καθώς και η αντίστοιχη p-τιμή. Από την p-τιμή του στατιστικού τεστ, που είναι προσεγγιστική καθώς το στατιστικό ακολουθεί προσεγγιστικά την τυπική κανονική κατανομή, συμπεραίνουμε ότι δεν υπάρχουν στατιστικά σημαντικές διαφορές στο μέσο βάρος αγοριών και κοριτσιών, καθώς p-τιμή=0,346>0, Kruskal-Walls με το S.P.S.S Aπό το κύριο μενού επιλέγουμε. AalyzeNo Parametrc Tests k Idepedet Samples.. Στο νέο παράθυρο διαλόγου που προκύπτει τοποθετούμε στο πλαίσιο Test Varable Lst την υπό μελέτη ποσοτική μεταβλητή, ενώ στο πλαίσιο Groupg Varable την ποιοτική μεταβλητή η οποία μας διαχωρίζει τους k πληθυσμούς. Ορίζουμε τον τρόπο διαχωρισμού πατώντας στο Defe Rage και δηλώνουμε ποιο είναι το εύρος τιμών της ποιοτικής μεταβλητής και δίνουμε ΟΚ. 34

137 Αποτελέσματα υλοποίησης Άσκησης 5.3 σελ. 8 Test Statstcs(a,b) X Ch-Square 5,656 df Asymp. Sg.,059 a Kruskal Walls Test b Groupg Varable: VAR Συντελεστές συσχέτισης με το S.P.S.S Aπό το κύριο μενού επιλέγουμε. AalyzeCorrelateBvarate.. Στο νέο παράθυρο διαλόγου που προκύπτει τοποθετούμε στο πλαίσιο Varables τις μεταβλητές για τις οποίες ανά δύο θέλουμε να υπολογιστεί ο συντελεστής συσχέτισης και επιλέγουμε το συντελεστή του Pearso, Kedall ή Spearma ανάλογα, καθώς και το αν θέλουμε να διενεργηθεί δίπλευρος ή μονόπλευρος έλεγχος της ύπαρξης εξάρτησης ή όχι. 35

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή: Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον

Διαβάστε περισσότερα

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή: Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

5. Έλεγχοι Υποθέσεων

5. Έλεγχοι Υποθέσεων 5. Έλεγχοι Υποθέσεων Υποθέσεις Η μηδενική υπόθεση Η (ή ΗΑ) εναλλακτική υπόθεση Δεχόμαστε Η Απορρίπτουμε Η Η σωστή Σωστή απόφαση -α Σφάλμα τύπου Ι α Η λάθος Σφάλμα τύπου ΙΙ β Σωστή απόφαση -β ΒΙΟ39-Έλεγχος

Διαβάστε περισσότερα

4.3.3 Ο Έλεγχος των Shapiro-Wilk για την Κανονική Κατανομή

4.3.3 Ο Έλεγχος των Shapiro-Wilk για την Κανονική Κατανομή 4.3.3 Ο Έλεγχος των Shapro-Wlk για την Κανονική Κατανομή Ένας άλλος πολύ γνωστός έλεγχος καλής προσαρμογής για την κανονική κατανομή, ο οποίος μπορεί να χρησιμοποιηθεί στην θέση του ελέγχου Lllefors, είναι

Διαβάστε περισσότερα

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ .5. ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ Η μέθοδος κατασκευής διαστήματος εμπιστοσύνης για την πιθανότητα που περιγράφεται στην προηγούμενη ενότητα μπορεί να χρησιμοποιηθεί για την κατασκευή διαστημάτων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 6-7 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 7-8 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

5.1 Ο ΕΛΕΓΧΟΣ SMIRNOV

5.1 Ο ΕΛΕΓΧΟΣ SMIRNOV 5. Ο ΕΛΕΓΧΟΣ SMIRNOV Έστω δύο ανεξάρτητα τυχαία δείγματα, 2,..., n και, 2,..., m n και m παρατηρήσεων πάνω στις τυχαίες μεταβλητές και, αντίστοιχα. Έστω, επίσης, ότι F (), (, ) και F (y), y (, ) είναι

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 5-6 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Μέθοδος μέγιστης πιθανοφάνειας

Μέθοδος μέγιστης πιθανοφάνειας Μέθοδος μέγιστης πιθανοφάνειας Αν x =,,, παρατηρήσεις των Χ =,,,, τότε έχουμε διαθέσιμο ένα δείγμα Χ={Χ, =,,,} της κατανομής F μεγέθους με από κοινού σ.κ. της Χ f x f x Ορισμός : Θεωρούμε ένα τυχαίο δείγμα

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία Στατιστική Συμπερασματολογία Διαφάνειες 5 ου κεφαλαίου Ελεγχοσυναρτήσεις για τις Παραμέτρους της Κανονικής Κατανομής Σταύρος Χατζόπουλος 08/05/207, 5/05/207 Εισαγωγή Στις παραγράφους που ακολουθούν παρουσιάζονται

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία Στατιστική Συμπερασματολογία Διαφάνειες 4 ου κεφαλαίου Ελεγχοσυναρτήσεις Γενικευμένου Λόγου Πιθανοφανειών Σταύρος Χατζόπουλος 27/03/2017, 03/04/2017, 24/04/2017 1 Εισαγωγή Έστω το τ.δ. X,,, από την κατανομή

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 2 Μαΐου 2017 1/23 Ανάλυση Διακύμανσης. Η ανάλυση παλινδρόμησης μελετά τη στατιστική σχέση ανάμεσα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία 4. Εκτιμητική Στατιστική Συμπερασματολογία εκτιμήσεις των αγνώστων παραμέτρων μιας γνωστής από άποψη είδους κατανομής έλεγχο των υποθέσεων που γίνονται σε σχέση με τις παραμέτρους μιας κατανομής και σε

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία Στατιστική Συμπερασματολογία Διαφάνειες 1 ου κεφαλαίου Βιβλίο: Κολυβά Μαχαίρα, Φ. & Χατζόπουλος Στ. Α. (2016). Μαθηματική Στατιστική, Έλεγχοι Υποθέσεων. [ηλεκτρ. βιβλ.] Αθήνα: Σύνδεσμος Ελληνικών Ακαδημαϊκών

Διαβάστε περισσότερα

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ

2.4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ .4 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΜΙΑ ΠΙΘΑΝΟΤΗΤΑ Η μέθοδος για τον προσδιορισμό ενός διαστήματος εμπιστοσύνης για την άγνωστη πιθανότητα =P(A) ενός ενδεχομένου A συνδέεται στενά με τον διωνυμικό έλεγχο. Ένα

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 20 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 20 2.1.1 Αβεβαιότητα

Διαβάστε περισσότερα

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test)

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test) .5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test) Ο διωνυμικός έλεγχος μπορεί να χρησιμοποιηθεί για τον έλεγχο υποθέσεων αναφερομένων στα ποσοστιαία σημεία μίας τυχαίας μεταβλητής. Στην

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.outras@e.aegea.gr Τηλ: 7035468 Μέθοδος Υπολογισμού

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 2015 Πληθυσμός: Εισαγωγή Ονομάζεται το σύνολο των χαρακτηριστικών που

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 21 2.1.1 Αβεβαιότητα και Τυχαίο Πείραμα

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων 7.. Η Μέθοδος των Ελαχίστων Τετραγώνων Όπως ήδη αναφέρθηκε, μία ευρύτατα διαδεδομένη μέθοδος για την εκτίμηση των σταθερών α και β είναι η μέθοδος των ελαχίστων τετραγώνων. Η μέθοδος αυτή επιλέγει εκτιμήτριες

Διαβάστε περισσότερα

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο «Περιγραφική & Επαγωγική Στατιστική» 1. Πάνω από το 3 ο τεταρτημόριο ενός δείγματος βρίσκεται το: α) 15%

Διαβάστε περισσότερα

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής ΣΤΑΤΙΣΤΙΚΕΣ ΕΚΤΙΜΗΣΕΙΣ Οι συναρτήσεις πιθανότητας ή πυκνότητας πιθανότητας των διαφόρων τυχαίων μεταβλητών χαρακτηρίζονται από κάποιες

Διαβάστε περισσότερα

3. Κατανομές πιθανότητας

3. Κατανομές πιθανότητας 3. Κατανομές πιθανότητας Τυχαία Μεταβλητή Τυχαία μεταβλητή (τ.μ.) (X) είναι μια συνάρτηση που σε κάθε σημείο (ω) ενός δειγματικού χώρου (Ω) αντιστοιχεί έναν πραγματικό αριθμό. Ω ω X (ω ) R Διακριτή τ.μ.

Διαβάστε περισσότερα

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n) ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) Θέμα ο (Παρ..3.4, Παρ..4.3, Παρ..4.8.) Εάν = ( ) τυχαίο δείγμα από την ομοιόμορφη ( 0, ) X X,, X. Δείξτε ότι η στατιστική συνάρτηση T = X = το δειγματικό

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 14 Μαρτίου 018 1/34 Διαστήματα Εμπιστοσύνης. Εχουμε δει εκτενώς μέχρι τώρα τρόπους εκτίμησης

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων Ελλιπή δεδομένα Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 75 ατόμων Εδώ έχουμε δ 75,0 75 5 Ηλικία Συχνότητες f 5-4 70 5-34 50 35-44 30 45-54 465 55-64 335 Δεν δήλωσαν 5 Σύνολο 75 Μπορεί

Διαβάστε περισσότερα

Μέθοδος μέγιστης πιθανοφάνειας

Μέθοδος μέγιστης πιθανοφάνειας Αν x =,,, παρατηρήσεις των Χ =,,,, τότε έχουμε διαθέσιμο ένα δείγμα Χ={Χ, =,,,} της κατανομής F μεγέθους με από κοινού σκ της Χ f x f x Ορισμός : Θεωρούμε ένα τυχαίο δείγμα Χ=(Χ, Χ,, Χ ) από πληθυσμό το

Διαβάστε περισσότερα

Στατιστική. Εκτιμητική

Στατιστική. Εκτιμητική Στατιστική Εκτιμητική Χατζόπουλος Σταύρος 28/2/2018 και 01 /03/2018 Εισαγωγή Το αντικείμενο της Στατιστικής είναι η εξαγωγή συμπερασμάτων που αφορούν τον πληθυσμό ή το φαινόμενο που μελετάμε, με τη βοήθεια

Διαβάστε περισσότερα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα Ανάλυση Διασποράς Έστω ότι μας δίνονται δείγματα που προέρχονται από άγνωστους πληθυσμούς. Πόσο διαφέρουν οι μέσες τιμές τους; Με άλλα λόγια: πόσο πιθανό είναι να προέρχονται από πληθυσμούς με την ίδια

Διαβάστε περισσότερα

3.4.1 Ο Συντελεστής ρ του Spearman

3.4.1 Ο Συντελεστής ρ του Spearman 3.4. Ο Συντελεστής ρ του Spearma Έστω (, ), (, ),..., (, ) ένα δείγμα παρατηρήσεων πάνω στο τυχαίο διάνυσμα (, ). Έστω ( ) ο βαθμός ή η τάξη μεγέθους της μεταβλητής όταν αυτή συγκρίνεται με τις άλλες Χ

Διαβάστε περισσότερα

6.3 Ο ΑΜΦΙΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ SMIRNOV ΓΙΑ k ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ

6.3 Ο ΑΜΦΙΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ SMIRNOV ΓΙΑ k ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ 6.3 Ο ΑΜΦΙΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ SMIRNOV ΓΙΑ k ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ Το 1965, από τον Conover και πάλι προτάθηκε ένας άλλος έλεγχος τύπου Smirnov για k ανεξάρτητα δείγματα. Ο έλεγχος αυτός διαφέρει από τον προηγούμενο

Διαβάστε περισσότερα

X = = 81 9 = 9

X = = 81 9 = 9 Πιθανότητες και Αρχές Στατιστικής (11η Διάλεξη) Σωτήρης Νικολετσέας, καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Πατρών Ακαδημαϊκό Ετος 2018-2019 Σωτήρης Νικολετσέας, καθηγητής 1 / 35 Σύνοψη

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ Συντελεστής συσχέτισης (εκτιμητής Person: r, Y ( ( Y Y xy ( ( Y Y x y, όπου r, Y (ισχυρή θετική γραμμική συσχέτιση όταν, ισχυρή αρνητική

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων ΙΙ

Στατιστική Επιχειρήσεων ΙΙ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Στατιστική Επιχειρήσεων ΙΙ Ενότητα #4: Έλεγχος Υποθέσεων Μιλτιάδης Χαλικιάς Τμήμα Διοίκησης Επιχειρήσεων Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών

Διαβάστε περισσότερα

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής Υποθέσεις του Απλού γραμμικού υποδείγματος της Παλινδρόμησης Η μεταβλητή ε t (διαταρακτικός όρος) είναι τυχαία μεταβλητή με μέσο όρο

Διαβάστε περισσότερα

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7o Μάθημα: Απλή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Περιγραφική Ανάλυση ποσοτικών μεταβλητών Περιγραφική Ανάλυση ποσοτικών μεταβλητών Στο data file Worldsales.sav (αρχείο υποθετικών πωλήσεων ανά ήπειρο και προϊόν) Analyze Descriptive Statistics Frequencies Επιλογή μεταβλητής Revenue Πατάμε στο

Διαβάστε περισσότερα

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρμοσμένες Επιστήμες Στατιστικός Πληθυσμός και Δείγμα Το στατιστικό

Διαβάστε περισσότερα

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος 75 Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ 1.1. Τυχαία γεγονότα ή ενδεχόμενα 17 1.2. Πειράματα τύχης - Δειγματικός χώρος 18 1.3. Πράξεις με ενδεχόμενα 20 1.3.1. Ενδεχόμενα ασυμβίβαστα

Διαβάστε περισσότερα

Είδη Μεταβλητών. κλίµακα µέτρησης

Είδη Μεταβλητών. κλίµακα µέτρησης ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρµοσµένες Επιστήµες Στατιστικός Πληθυσµός και Δείγµα Το στατιστικό

Διαβάστε περισσότερα

9. Παλινδρόμηση και Συσχέτιση

9. Παλινδρόμηση και Συσχέτιση 9. Παλινδρόμηση και Συσχέτιση Παλινδρόμηση και Συσχέτιση Υπάρχει σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές; Αν ναι, ποια είναι αυτή η σχέση; Πως μπορεί αυτή η σχέση να χρησιμοποιηθεί για να προβλέψουμε

Διαβάστε περισσότερα

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο

Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο Κεφάλαιο 15 Έλεγχοι χ-τετράγωνο Copyright 2009 Cengage Learning 15.1 Ένα Κοινό Θέμα Τι πρέπει να γίνει; Τύπος Δεδομένων; Πλήθος Κατηγοριών; Στατιστική Μέθοδος; Περιγραφή ενός πληθυσμού Ονομαστικά Δύο ή

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 22 Μαΐου 2017 1/32 Εισαγωγή: Τυπικό παράδειγμα στατιστικού ελέγχου υποθέσεων. Ενας νέος τύπος

Διαβάστε περισσότερα

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ Συσχέτιση (Correlation) - Copulas Σημασία της μέτρησης της συσχέτισης Έστω μία εταιρεία που είναι εκτεθειμένη σε δύο μεταβλητές της αγοράς. Πιθανή αύξηση των 2 μεταβλητών

Διαβάστε περισσότερα

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Η μηδενική υπόθεση είναι ένας ισχυρισμός σχετικά με την τιμή μιας πληθυσμιακής παραμέτρου. Είναι

Διαβάστε περισσότερα

Ενδεικτικές ασκήσεις ΔΙΠ 50

Ενδεικτικές ασκήσεις ΔΙΠ 50 Ενδεικτικές ασκήσεις ΔΙΠ 50 Άσκηση 1 (άσκηση 1 1 ης εργασίας 2009-10) Σε ένα ράφι μιας βιβλιοθήκης τοποθετούνται με τυχαία σειρά 11 διαφορετικά βιβλία τεσσάρων θεματικών ενοτήτων. Πιο συγκεκριμένα, υπάρχουν

Διαβάστε περισσότερα

Π Α Ρ Α Ρ Τ Η Μ Α. Πίνακας 9. p ποσοστιαία Σημεία της Ελεγχοσυνάρτησης των. Προσημασμένων Τάξεων Μεγέθους του Wilcoxon

Π Α Ρ Α Ρ Τ Η Μ Α. Πίνακας 9. p ποσοστιαία Σημεία της Ελεγχοσυνάρτησης των. Προσημασμένων Τάξεων Μεγέθους του Wilcoxon ΠΙΝΑΚΕΣ Π Α Ρ Α Ρ Τ Η Μ Α Πίνακας 1. Διωνυμική Κατανομή Πίνακας 2. Τυποποιημένη Κανονική Κατανομή Πίνακας 3. Oρια Εμπιστοσύνης για την Πιθανότητα p της Διωνυμικής Κατανομής Πίνακας 4. Ποσοστιαία Σημεία

Διαβάστε περισσότερα

Χ. Εμμανουηλίδης, 1

Χ. Εμμανουηλίδης, 1 Εφαρμοσμένη Στατιστική Έρευνα Απλό Γραμμικό Υπόδειγμα AΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟ ΕΙΓΜΑ Δρ. Χρήστος Εμμανουηλίδης Αν. Καθηγητής Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Εφαρμοσμένη Στατιστική, Τμήμα Ο.Ε. ΑΠΘ Χ. Εμμανουηλίδης,

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΟΜΕΑΣ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΕΥΝΑΣ ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ Χ 2 test ανεξαρτησίας: σχέση 2 ποιοτικών μεταβλητών

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 1: Στατιστική Ι (1/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)

Στατιστική Ι. Ενότητα 1: Στατιστική Ι (1/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη) Στατιστική Ι Ενότητα 1: Στατιστική Ι (1/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall

3.4.2 Ο Συντελεστής Συσχέτισης τ Του Kendall 3..2 Ο Συντελεστής Συσχέτισης τ Του Kendall Ο συντελεστής συχέτισης τ του Kendall μοιάζει με τον συντελεστή ρ του Spearman ως προς το ότι υπολογίζεται με βάση την τάξη μεγέθους των παρατηρήσεων και όχι

Διαβάστε περισσότερα

Στατιστική Συμπερασματολογία

Στατιστική Συμπερασματολογία Στατιστική Συμπερασματολογία Διαφάνειες 3 ου κεφαλαίου Έλεγχος Σύνθετων Υποθέσεων Σταύρος Χατζόπουλος 13/03/2017, 20/03/2017, 27/03/2017 1 Ιδιότητα Μονότονου Λόγου Πιθανοφανειών Συνήθως, καταστάσεις, όπως

Διαβάστε περισσότερα

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014 ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014 Περιεχόμενα 1 Εισαγωγή 2 2 Μεγιστικός τελέστης στην μπάλα 2 2.1 Βασικό θεώρημα........................ 2 2.2 Γενική περίπτωση μπάλας.................. 6 2.2.1 Στο

Διαβάστε περισσότερα

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 2 Η γενική ιδέα της διαδικασίας στατιστικού ελέγχου υποθέσεων Πρόκειται για μια διαδικασία απόφασης μεταξύ δύο υποθέσεων Η μια υπόθεση ονομάζεται μηδενική (Η

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Εισήγηση 4A: Έλεγχοι Υποθέσεων και Διαστήματα Εμπιστοσύνης Διδάσκων: Δαφέρμος Βασίλειος ΤΜΗΜΑ ΠΟΛΙΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΣΧΟΛΗΣ ΚΟΙΝΩΝΙΚΩΝ

Διαβάστε περισσότερα

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ - - ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Πρόγραμμα Σπουδών: ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ και ΟΡΓΑΝΙΣΜΩΝ Θεματική Ενότητα: ΔΕΟ3 Ποσοτικές Μέθοδοι Ακαδημαϊκό Έτος: 009-0 ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ - - ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΣΥΝΟΨΗΣ

Διαβάστε περισσότερα

Ζωγράφος Κωνσταντίνος, Καθηγητής του Τμήματος Μαθηματικών του Πανεπιστημίου Ιωαννίνων. Λουκάς Σωτήριος, Καθηγητής του Τμήματος Μαθηματικών του

Ζωγράφος Κωνσταντίνος, Καθηγητής του Τμήματος Μαθηματικών του Πανεπιστημίου Ιωαννίνων. Λουκάς Σωτήριος, Καθηγητής του Τμήματος Μαθηματικών του Η παρούσα Μεταπτυχιακή Διατριβή εκπονήθηκε στο πλαίσιο των σπουδών για την απόκτηση του Μεταπτυχιακού Διπλώματος Ειδίκευσης στη Στατιστική και Επιχειρησιακή Έρευνα, που απονέμει το Τμήμα Μαθηματικών του

Διαβάστε περισσότερα

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου Στατιστική Συμπερασματολογία Εκτιμητική Έλεγχος Στατιστικών Υποθέσεων εκτιμήτρια συνάρτηση, ˆ θ σημειακή εκτίμηση εκτίμηση με διάστημα εμπιστοσύνης

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 21 2.1.1 Αβεβαιότητα και Τυχαίο Πείραμα

Διαβάστε περισσότερα

Γ. Πειραματισμός - Βιομετρία

Γ. Πειραματισμός - Βιομετρία Γ. Πειραματισμός - Βιομετρία Πληθυσμοί και δείγματα Πληθυσμός Περιλαμβάνει όλες τις πιθανές τιμές μιας μεταβλητής, δηλαδή αναφέρεται σε μια παρατήρηση σε όλα τα άτομα του πληθυσμού Ο πληθυσμός προσδιορίζεται

Διαβάστε περισσότερα

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς Στατιστική Ανάλυση ιασποράς με ένα Παράγοντα One-Way Anova Χατζόπουλος Σταύρος Κεφάλαιο 8ο. Ανάλυση ιασποράς 8.1 Εισαγωγή 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς 8.3 Ανάλυση ιασποράς με

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 10: Οικονομετρικά προβλήματα: Παραβίαση των υποθέσεων Β μέρος: Ετεροσκεδαστικότητα Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

ΣΑΣΙΣΙΚΗ. Ακαδ. Έτος Βασίλης ΚΟΤΣΡΑ. Διδάσκων: Διδάσκων επί Συμβάσει Π.Δ 407/80.

ΣΑΣΙΣΙΚΗ. Ακαδ. Έτος Βασίλης ΚΟΤΣΡΑ. Διδάσκων: Διδάσκων επί Συμβάσει Π.Δ 407/80. ΠΑΝΕΠΙΣΗΜΙΟ ΑΙΓΑΙΟΤ ΧΟΛΗ ΕΠΙΣΗΜΩΝ ΣΗ ΔΙΟΙΚΗΗ ΣΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑ ΚΑΙ ΔΙΟΙΚΗΗ ΣΑΣΙΣΙΚΗ Ακαδ. Έτος -3 Διδάσκων: Βασίλης ΚΟΤΣΡΑ Διδάσκων επί Συμβάσει Π.Δ 47/8 v.kouras@fμe.aegea.gr Σηλ: 735457 Διωνυμικό

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ 3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ Πρόβλημα: Ένας ραδιοφωνικός σταθμός ενδιαφέρεται να κάνει μια ανάλυση για τους πελάτες του που διαφημίζονται σ αυτόν για να εξετάσει την ποσοστιαία μεταβολή των πωλήσεων

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Είδη μεταβλητών Ποσοτικά δεδομένα (π.χ. ηλικία, ύψος, αιμοσφαιρίνη) Ποιοτικά δεδομένα (π.χ. άνδρας/γυναίκα, ναι/όχι) Διατεταγμένα (π.χ. καλό/μέτριο/κακό) 2 Περιγραφή ποσοτικών

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Τυχαίο Δείγμα

Διαβάστε περισσότερα

Εισαγωγή στη θεωρία ακραίων τιμών

Εισαγωγή στη θεωρία ακραίων τιμών Εισαγωγή στη θεωρία ακραίων τιμών Αντικείμενο της θεωρίας ακραίων τιμών αποτελεί: Η ανάπτυξη και μελέτη στοχαστικών μοντέλων με σκοπό την επίλυση προβλημάτων που σχετίζονται με την εμφάνιση «πολύ μεγάλων»

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ Το ενδιαφέρον επικεντρώνεται πάντα στον πληθυσμό Το δείγμα χρησιμεύει για εξαγωγή συμπερασμάτων για τον πληθυσμό π.χ. το ετήσιο εισόδημα των κατοίκων μιας περιοχής Τα στατιστικά

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Όπως θα δούμε αργότερα στη Στατιστική Συμπερασματολογία, λέγοντας ότι «από έναν πληθυσμό παίρνουμε ένα τυχαίο δείγμα μεγέθους» εννοούμε ανεξάρτητες τυχαίες μεταβλητές,,..., που

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες Ορισμός Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες αβεβαιότητας. Βασικές έννοιες Η μελέτη ενός πληθυσμού

Διαβάστε περισσότερα

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling)

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling) 3 ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratfed Radom Samplg) Είναι προφανές από τα τυπικά σφάλματα των εκτιμητριών των προηγούμενων παραγράφων, ότι ένας τρόπος να αυξηθεί η ακρίβεια τους είναι να αυξηθεί

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 9. Κατανομές Δειγματοληψίας

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΚΕΦΑΛΑΙΟ 9. Κατανομές Δειγματοληψίας ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 2017-2018 Παρεμβολή και Παρεκβολή Εισαγωγή Ορισμός 6.1 Αν έχουμε στη διάθεσή μας τιμές μιας συνάρτησης

Διαβάστε περισσότερα

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x Εργαστήριο Μαθηματικών & Στατιστικής η Πρόοδος στο Μάθημα Στατιστική // (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) ο Θέμα [] Επιλέξαμε φακελάκια (της μισής ουγκιάς) που περιέχουν σταφίδες από την παραγωγή μιας εταιρείας

Διαβάστε περισσότερα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

6.2 Ο ΜΟΝΟΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ SMIRNOV ΓΙΑ k ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ

6.2 Ο ΜΟΝΟΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ SMIRNOV ΓΙΑ k ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ 6.2 Ο ΜΟΝΟΠΛΕΥΡΟΣ ΕΛΕΓΧΟΣ SMIRNOV ΓΙΑ k ΑΝΕΞΑΡΤΗΤΑ ΔΕΙΓΜΑΤΑ Ο έλεγχος της ενότητας αυτής αποτελεί μία επέκταση του μονόπλευρου ελέγχου Smirnov στην περίπτωση περισσοτέρων από δύο δειγμάτων. Ο έλεγχος αυτός

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ... ΚΕΦΑΛΑΙΟ 0 Ένα Πρόβλημα Δεδομένα.6 3. 3.8 4. 4.4 5.8 6.0 6.7 7. 7.8 5.6 7.9 8.0 8. 8. 9. 9.5 9.4 9.6 9.9 Απλή Γραμμική Παλινδρόμηση Μωυσιάδης Χρόνης 6 o Εξάμηνο Μαθηματικών Έχει σχέση το με το ; Ειδικότερα

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 07 & ΔΙΑΛΕΞΗ 08 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 016-017 ΕΙΣΑΓΩΓΗ ΣΤΗΝ

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ ΚΕΦΑΛΑΙΟ ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ Ως γνωστό δείγμα είναι ένα σύνολο παρατηρήσεων από ένα πληθυσμό. Αν ο πληθυσμός αυτός θεωρηθεί μονοδιάστατος τότε μπορεί να εκφρασθεί με τη συνάρτηση

Διαβάστε περισσότερα

Διάστημα εμπιστοσύνης της μέσης τιμής

Διάστημα εμπιστοσύνης της μέσης τιμής Διάστημα εμπιστοσύνης της μέσης τιμής Συντελεστής εμπιστοσύνης Όταν : x z c s < μ < x +z s c Ν>30 Στον πίνακα δίνονται κρίσιμες τιμές z c και η αντιστοίχισή τους σε διάφορους συντελεστές εμπιστοσύνης:

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΣΥΧΝΟΤΗΤΑΣ ΥΔΡΟΛΟΓΙΚΩΝ ΦΑΙΝΟΜΕΝΩΝ

ΑΝΑΛΥΣΗ ΣΥΧΝΟΤΗΤΑΣ ΥΔΡΟΛΟΓΙΚΩΝ ΦΑΙΝΟΜΕΝΩΝ ΑΝΑΛΥΣΗ ΣΥΧΝΟΤΗΤΑΣ ΥΔΡΟΛΟΓΙΚΩΝ ΦΑΙΝΟΜΕΝΩΝ Ανάλυση συχνότητας ενός υδρολογικού μεγέθους: Είναι η εύρεση της σχέσεως μεταξύ του υδρολογικού φαινομένου και της πιθανότητας εμφανίσεως του μεγέθους αυτού. Μεταβλητή:

Διαβάστε περισσότερα