ΑΝΑΛΥΣΗ ΤΗΣ ΙΑΚΥΜΑΝΣΗΣ (ΑΝOVA). Εισαγωγή Η ανάλυση της διακύμανσης (ANalysis Of VAriance ANOVA) είναι μια στατιστική μεθόδος με την οποία η μεταβλητότητα που υπάρχει σ ένα σύνολο δεδομένων διασπάται στις επιμέρους συνιστώσες της με στόχο την κατανόηση της σημαντικότητας των διαφορετικών πηγών προέλευσής της. Η ανάπτυξη της μεθοδολογίας οφείλεται στον θεμελιωτή της σύγχρονης στατιστικής επιστήμης, άγγλο στατιστικό Sir Ronald Aylmer Fisher (890-96). Στην πραγματικότητα η ANOVA περιλαμβάνει μια ομάδα στατιστικών μεθόδων καταλλήλων για την ανάλυση δεδομένων που προκύπτουν από πειραματικούς σχεδιασμούς. Τα δεδομένα ενός δείγματος ανάλογα με την προέλευσή τους διακρίνονται σε μη πειραματικά (non-experimental) η σε πειραματικά (experimental). Στην πρώτη κατηγορία ο στατιστικός ερευνητής απλά παρατηρεί τις τιμές που εμφανίζονται χωρίς να έχει δυνατότητα επέμβασης στις αντίστοιχες μεταβλητές. Αντίθετα στη δεύτερη κατηγορία ο στατιστικός ερευνητής προσπαθεί να ελέγξει τα επίπεδα μιας η περισσοτέρων ανεξάρτητων (independent) μεταβλητών προκειμένου να προσδιορίσει την επίδραση που έχουν πάνω στην υπό μελέτη μεταβλητή που καλείται εξαρτημένη (dependent) η απόκριση (response). Για παράδειγμα, απόκριση μπορεί να είναι η βαθμολογία στην εξέταση του μαθήματος της στατιστικής, ο όγκος των πωλήσεων μιας επιχείρησης η το συνολικό εισόδημα μιάς οικογένειας κατά τη διάρκεια του έτους. Στόχος κάθε στατιστικού πειράματος είναι ο προσδιορισμός της επίδρασης μιας η περισσοτέρων ανεξάρτητων μεταβλητών πάνω στην απόκριση. Οι μεταβλητές αυτές αναφέρονται συνήθως σαν παράγοντες (factors) και μπορεί να είναι είτε ποσοτικές είτε ποιοτικές. Για παράδειγμα θα ήταν ενδιαφέρον να διερευνήσουμε την επίδραση που έχει ο ποιοτικός παράγων φύλο στη βαθμολογία της στατιστικής η ο ποσοτικός παράγων πλήθος καταστημάτων πώλησης στον όγκο των πωλήσεων. Σε άλλες πάλι περιπτώσεις ενδεχομένως να ενδιαφερόμαστε για την επίδραση που έχουν πάνω στην απόκριση περισσότερες της μιας ανεξάρτητες μεταβλητές όπως ο ποσοτικός παράγων πλήθος εργαζομένων και ο ποιοτικός παράγων πόλη διαμονής πάνω στο οικογειακό εισόδημα. Οι τιμές του παράγοντα που καθορίζονται στο πείραμα λέγονται επίπεδα (levels). Για παράδειγμα τα επίπεδα για τον ποιοτικό παράγοντα φύλο είναι αρσενικό - θηλυκό, ενώ για τον ποσοτικό παράγοντα πλήθος καταστημάτων πώλησης είναι θετικός ακέραιος. Σε ένα πείραμα με ένα παράγοντα οι μεταχειρίσεις (treatments) του πειράματος είναι τα επίπεδα του παράγοντα. Για παράδειγμα αν στο πείραμα βαθμολογία της στατιστικής μας ενδιαφέρει η επίδραση του παράγοντα φύλο τότε οι μεταχειρίσεις του πειράματος είναι αρσενικό θηλυκό. Σε ένα πείραμα με δύο η περισσότερους παράγοντες οι μεταχειρίσεις είναι οι συνδυασμοί παραγόντων-επιπέδων. Για παράδειγμα αν μας ενδιαφέρει η επίδραση των παραγόντων φύλο, ηλικία στη βαθμολογία της στατιστικής, τότε οι μεταχειρίσεις είναι οι συνδυασμοί των επιπέδων φύλου και ηλικίας π.χ. (αρσενικό, ), (θυληκό, 9). Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής
. Γέννεση της κατανομής F Aν και Y είναι ανεξάρτητες τυχαίες μεταβλητές από την κατανομή Y βαθμούς ελευθερίας και n αντίστοιχα, τότε το κλάσμα n χ με Y / n W = Y / n είναι τυχαία μεταβλητή που ακολουθεί μια κατανομή την οποία μελέτησε και ανέπτυξε ο Sir R.A.Fisher και η οποία προς τιμή του συμβολίζεται με F. Ο Fisher στην προσπάθειά του να μελετήσει τις διαφορές στην παραγωγή της σοδειάς ανέπτυξε τη νέα κατανομή σαν λόγο δύο ανεξαρτήτων χ. Η κατανομή αυτή χαρακτηρίζεται από δύο βαθμούς ελευθερίας, n για τον αριθμητή και n για τον παρονομαστή γι αυτό γράφουμε Fn (, n). Επειδή η τυχαία μεταβλητή χ είναι πάντα θετική, το ίδιο θα ισχύει και για την F. Η οικογένεια των κατανομών Fn (, n) είναι μονόκορφη και ασύμμετρη προς τα δεξιά, όπως προκύπτει από το διάγραμμα, με συνάρτηση πυκνότητας πιθανότητας n+ n n n Γ n x f( x n, n) =, 0 x, n+ n n n < < n Γ Γ nx + n όπου Γ ( n) = ( n )! = 3 ( n ), n +, είναι η συνάρτηση Γάμα. ΔΙΑΓΡΑΜΜΑ Κατανομές F (,), F (8,) και F(5,0) Μια αναγκαία συνθήκη για την ύπαρξη της κατανομής F είναι ότι τα δείγματα θα πρέπει να ακολουθούν την κανονική κατανομή. Εν τούτοις σε περιπτώσεις που η δειγματικές κατανομές αποκλίνουν από την κανονική, η δοκιμασία F μένει σχετικά ανεπηρέαστη, εφ όσον οι δύο πληθυσμοί είναι τουλάχιστον μονόκορφοι και τα μεγέθη των δειγμάτων είναι παρόμοια. Κάτω από αυτές τις προϋποθέσεις η δοκιμασία που βασίζεται στην κατανομή F χαρακτηρίζεται σαν εύρωστη (robust). Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής
Μερικές φορές υπάρχει η ανάγκη να συγκρίνουμε δύο διακυμάνσεις και για το σκοπό αυτό υπολογίζουμε το κλάσμα σ /σ. Αν οι διακυμάνσεις είναι ίσες τότε ο λόγος τους θα είναι. Συνήθως όμως στην πράξη οι διακυμάνσεις των πληθυσμών είναι άγνωστες, οπότε οι συγκρίσεις γίνονται με βάση τις δειγματικές διακυμάνσεις. Για παράδειγμα αν και είναι οι δειγματικές διακυμάνσεις από δύο δείγματα με και n παρατηρήσεις αντίστοιχα που n ακολουθούν την κανονική κατανομή, τότε το κλάσμα s s s VR = s / σ / σ (λόγος δύο χ ) ακολουθεί την κατανομή F. Κάτω από την υπόθεση το στατιστικό H : σ = σ 0 s VR = s ακολουθεί την κατανομή Fn (, n ). Αν τα δείγματα προέρχονται από τον ίδιο πληθυσμό η από πληθυσμούς με ίσες διακυμάνσεις, τότε το VR θα πρέπει να είναι κοντά στο. Η κατανομή F προσδιορίζει τα όρια της ανοχής μας για το πόσο μεγάλο η μικρό θα πρέπει να είναι το κλάσμα VR προκειμένου να συμπεράνουμε ότι οι δειγματικές διακυμάνσεις διαφέρουν σημαντικά. Τα άνω 00α εκατοστιαία σημεία Fn (, n) α της κατανομής Fn (, n) δηλαδή τα σημεία με την ιδιότητα PVR ( > F( n, n) α ) = α, δίνονται από στατιστικούς πίνακες η από το Minitab. Οι βαθμοί ελευθερίας για τον αριθμητή εμφανίζονται πάνω από τις στήλες, ενώ οι βαθμοί ελευθερίας για τον παρονομαστή εμφανίζονται δίπλα από τις γραμμές. Επειδή η κατανομή F δεν είναι συμμετρική, προκειμένου να υπολογίσουμε τα κάτω 00α εκατοστιαία σημεία Fn (, n )( α ), δηλαδή τα σημεία με την ιδιότητα PVR ( < F( n, n) α ) = α ( ) χρησιμοποιούμε την αντίστροφη ιδιότητα της F σύμφωνα την οποία η τιμή της κάτω ουράς προκύπτει από την αντίστοιχη τιμή της άνω ουράς σύμφωνα με τη σχέση Fn (, n) ( α ) = Fn (, n) α Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 3
όπου θα πρέπει να προσέξουμε και την αντιστροφή των βαθμών ελευθερίας. Για παράδειγμα F(8,) = 0.95 0.305 F(,8) = 3.8 =. 0.05 3. Ανάλυση διακύμανσης κατά ένα παράγοντα Στην απλούστερη μορφή της η ANOVA μας δίνει τη δυνατότητα να δοκιμάσουμε την υπόθεση ότι οι μέσες τιμές διαφόρων πληθυσμών είναι ίσες. Κάτω από το πλαίσιο αυτό μπορούμε να θεωρήσουμε την ANOVA σαν προέκταση της δοκιμασίας t για την σύγκριση των μέσων τιμών δύο πληθυσμών. Υπάρχουν όμως δύο λόγοι για τους οποίους χρησιμοποιούμε την ANOVA έναντι της δοκιμασίας t. Ο ένας είναι η συντόμευση της διαδικασίας ανάλυσης και ο δεύτερος (και πιο σημαντικός) η ακρίβεια της διάγνωσης. Για παράδειγμα αν υποθέσουμε ότι έχουμε να συγκρίνουμε τις μέσες τιμές για 5 πληθυσμούς, τότε θα πρέπει να κάνουμε 5 5! 543 = = = 0!(5 )! 3 διαφορετικές ζευγαρωτές δοκιμασίες αποδεχθούμε την μηδενική υπόθεση t. Στη συνέχεια και προκειμένου να H 0 : Δεν υπάρχουν διαφορές μεταξύ των 5 πληθυσμών θα πρέπει να αποδεχθούμε και τις 0 ζευγαρωτές δοκιμασίες t. Αν το επίπεδο σημαντικότητας κάθε ζευγαρωτής δοκιμασίας είναι α = 0.05, τότε η 0 πιθανότητα να αποδεχθούμε και τις 0 δοκιμασίες είναι (0.95) = 0.5987. Συνεπώς η πιθανότητα να απορρίψουμε τουλάχιστον μια ζευγαρωτή δοκιμασία (και επομένως την H ) είναι 0.5987 = 0.403 που σημαίνει ότι με τις 0 0 δοκιμασίες t υποπίπτουμε σε σφάλμα τύπου Ι στις 40.3% των περιπτώσεων. Από τους υπάρχοντες πειραματικούς σχεδιασμούς ο απλούστερος είναι εκείνος που χαρακτηρίζεται από την ανάλυση της διακύμανσης κατά ένα παράγοντα (one factor ANOVA) και καλείται πλήρως τυχαιοποιημένος σχεδιασμός (completely randomized design). Παράδειγμα Μια βιομηχανία αυτοκινήτων έχει κατασκευάσει ένα πρωτοποριακό μοντέλο αυτοκινήτου το οποίο χαρακτηρίζεται από διάφορα πλεονεκτήματα σε σχέση με τα άλλα μοντέλα του ανταγωνισμού στην κατηγορία του, όπως άνεση στη διαχείριση, καλύτερη ποιότητα κατασκευής και χαμηλότερη τιμή πώλησης. Η διεύθυνση του τμήματος μάρκετινγκ προκειμένου να αποφασίσει για τον τρόπο προώθησης του νέου προϊόντος σχεδίασε ένα πείραμα σε τρεις διαφορετικές περιοχές. Στην πρώτη περιοχή η διαφήμιση έγινε με έμφαση στην άνεση που χαρακτηρίζει το αυτοκίνητο, στη δεύτερη περιοχή δόθηκε έμφαση στην ποιότητα κατασκευής και στην τρίτη Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 4
δόθηκε έμφαση στην τιμή πώλησης. Στον πίνακα που ακολουθεί δίνονται οι μηνιαίες πωλήσεις του αυτοκινήτου ανά περιοχή και για τους επόμενους πέντε μήνες. ΠΙΝΑΚΑΣ Μήνας Περιοχή (Άνεση) Περιοχή (Ποιότητα) Περιοχή 3 (Τιμή) 86 90 8 79 76 68 3 8 88 73 4 70 8 7 5 84 89 8 Σύνολο 400 45 375 00 Μέσος όρος 80 85 75 80 Ο διευθυντής του τμήματος μάρκετινγκ ενδιαφέρεται να μάθει αν υπάρχουν διαφορές στις πωλήσεις που προέκυψαν από τις τρεις διαφημιστικές στρατηγικές. Η θεωρητική ανάλυση των δεδομένων του παραδείγματος βασίζεται στα παρακάτω βήματα: (α) Προσδιορισμός του μοντέλου Στη γενική περίπτωση υποθέτουμε ότι έχουμε ομάδες με n παρατηρήσεις ανά ομάδα για =,...,. Τα δεδομένα του δείγματος μπορούν να ταξινομηθούν σε ένα πίνακα της μορφής ΠΙΝΑΚΑΣ Ομάδες (Μεταχειρίσεις) 3 3 3 3 3 33 3............ n n Σύνολα T T T 3 T T Μέσοι όροι Διάταξη παρατηρήσεων του πλήρως τυχαιοποιημένου σχεδιασμού n 3 3 n όπου i είναι η i παρατήρηση της ομάδας Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 5
T n = i = άθροισμα των παρατηρήσεων της στήλης i= T = = δειγματικός μέσος της στήλης n n T = T = i = άθροισμα όλων των παρατηρήσεων = = i= T = = δειγματικός μέσος όλων των παρατηρήσεων και N = n. N = Υποθέτουμε ότι για την ομάδα οι παρατηρήσεις i έχουν την μορφή όπου = μ + ε () i i μ είναι η αναμενόμενη τιμή του πληθυσμού της ομάδας και είναι το σφάλμα (error), για i =,..., n και =,...,. Με τον όρο σφάλμα δεν εννοούμε κάποια λανθασμένη μέτρηση η εκτίμηση αλλά τη μη ελεγχόμενη διακύμανση που υπάρχει στον πληθυσμό. Επιλύοντας την () ως προς έχουμε =. () ε i i μ Η καθολική αναμενόμενη τιμή (grand mean) μ όλων των παρατηρήσεων όλων των πληθυσμών είναι ε i ε i μ = μ. (3) = Με την ίδια λογική που το i διαφέρει από το ότι το μ διαφέρει από το μ κατά μια ποσότητα μ μπορούμε να υποθέσουμε τ = μ μ (4) που εκφράζει την επίδραση (effect) του γεγονότος ότι το μ αναφέρεται στην αναμενόμενη τιμή της ομάδας. Από τη σχέση (4) έχουμε ότι μ =μ+τ. (5) Συνδυάζοντας την () με την (5) παίρνουμε την τελική έκφραση = μ+τ +ε (6) i i Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 6
για i =,..., n και =,...,. Συνοψίζοντας από την (6) προκύπτει ότι η παρατήρηση i είναι άθροισμα τριών ποσοτήτων, της καθολικής αναμενόμενης, της επίδρασης της ομάδας (μεταχείρισης) και του σφάλματος. Για το λόγο αυτό το μοντέλο (6) λέγεται προσθετικό (additive). Στο παράδειγμα έχουμε = 3 ομάδες με πλήθος παρατηρήσεων n = 5 σε κάθε ομάδα έτσι ώστε το συνολικό πλήθος των παρατηρήσεων είναι N = n= 35 = 5. (β) Υποθέσεις του μοντέλου Οι υποθέσεις που διέπουν το μοντέλο (6) είναι:. Οι παρατηρήσεις i κάθε ομάδας αποτελούν ανεξάρτητα δείγματα από τους αντίστοιχους πληθυσμούς.. Καθένας από τους πληθυσμούς ακολουθεί την κανονική κατανομή με μέση τιμή και κοινή διακύμανση σ, για μ =,...,. 3. Οι επιδράσεις των ομάδων (μεταχειρίσεων) είναι σταθεροί τ αριθμοί που ικανοποιούν τη σχέση τ = 0. = Από τη σχέση () και τις υποθέσεις -3 προκύπτει ότι τα σφάλματα είναι ανεξάρτητες τυχαίες μεταβλητές από την κανονική κατανομή με μέση τιμή 0 και διακύμανση σ. (γ) Δοκιμασία υποθέσεων Μπορούμε τώρα να δοκιμάσουμε την μηδενική υπόθεση ότι όλες οι ομάδες (μεταχειρίσεις) έχουν ίσες μέσες τιμές ε i με εναλλακτική H 0 : μ = μ =... = μ H όλα τα δεν είναι ίσα. : μ Όταν οι μέσες τιμές των πληθυσμών είναι ίσες, τότε οι επιδράσεις μεταχειρίσεων είναι μηδέν. Κατά συνέπεια οι ισοδύναμες υποθέσεις που μπορούμε να δοκιμάσουμε είναι τ των με εναλλακτική H : τ = 0, =,..., 0 H : όλα τα τ δεν είναι μηδέν. Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 7
Στο παράδειγμα θα δοκιμάσουμε τις υποθέσεις με εναλλακτική : μ μ μ H0 = = 3 H όλα τα δεν είναι ίσα. : μ (δ) Υπολογισμός του αθροίσματος των τετραγώνων Στην αρχή του κεφαλαίου ορίσαμε την ANOVA σαν μια διαδικασία κατά την οποία η ολική μεταβλητότητα που υπάρχει στα δεδομένα διασπάται σε επιμέρους συνιστώσες που οφείλονται σε διαφορετικές πηγές προέλευσης. Ο όρος μεταβλητότητα αναφέρεται στο άθροισμα των τετραγώνων των αποκλίσεων των παρατηρήσεων από την μέση τιμή τους που για συντομία καλείται άθροισμα τετραγώνων (Sum of Squares SS ). Το ολικό άθροισμα των τετραγώνων Αρχικά υπολογίζουμε το ολικό άθροισμα των τετραγώνων (Sum of Squares Total - SST ) των αποκλίσεων των παρατηρήσεων από τον καθολικό μέσο n ( i ) (7) = i= SST = όπου με το n i= αθροίζουμε τις τετραγωνισμένες αποκλίσεις μέσα σε κάθε ομάδα, ενώ με το αθροίζουμε τα αποτελέσματα των ομάδων. Στην = πραγματικότητα το SST αντιστοιχεί στον αριθμητή που υπάρχει στον τύπο υπολογισμού της δειγματικής διακύμανσης s = n i= ( ) i N ενός τυχαίου δείγματος με N παρατηρήσεις. Στο παράδειγμα από την (7) έχουμε n ( i ) (86 80) (79 80)... (7 80) (8 80) 698 = i= SST = = + + + + =. Στη συνέχεια θα διασπάσουμε το SST χρησιμοποιώντας την ισοδύναμη έκφραση στις επιμέρους συνιστώσες του, n SST = [( ) + ( )] = i= i Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 8
n n n ( i ) ( i )( ) ( = i= = i= = i= ) (8) = + + Ο μεσαίος όρος της (8) γράφεται n ( ) ( i i= = ) απ όπου προκύπτει ότι είναι ίσος με μηδέν διότι n ( i ) = 0. i= Τελικά η (8) γίνεται n n ( i ) ( = i= = i= ) SST = + η ισοδύναμα total n ( i ) ( = i= = SS = + n ). (9) Στην περίπτωση που όλες οι ομάδες έχουν το ίδιο πλήθος παρατηρήσεων ίσο με n (όπως στο παράδειγμα ) η (9) γίνεται n ( i ) ( = i= = ). SST = + n Το άθροισμα των τετραγώνων μέσα στις ομάδες Το πρώτο άθροισμα στη δεξιά πλευρά της (9) υπολογίζει αρχικά το άθροισμα των τετραγωνισμένων αποκλίσεων των παρατηρήσεων από τον δειγματικό μέσο κάθε ομάδας και κατόπιν αθροίζει τα επιμέρους αποτελέσματα για όλες τις ομάδες. Το τελικό αποτέλεσμα λέγεται άθροισμα τετραγώνων μέσα στις ομάδες (Sum of Squares Within groups - SSW ) n ( i ) (0) = i= SSW = Στο παράδειγμα από την (0) έχουμε Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 9
n ( i ) (86 80) (79 80)... (7 75) (8 75) 448 = i= SSW = = + + + + =. Το άθροισμα των τετραγώνων μεταξύ των ομάδων Το δεύτερο άθροισμα στη δεξιά πλευρά της (9) υπολογίζει αρχικά για κάθε ομάδα την τετραγωνισμένη απόκλιση του μέσου της ομάδας από τον καθολικό μέσο και κατόπιν πολλαπλασιάζει το αποτέλεσμα με το πλήθος των παρατηρήσεων της ομάδας. Τα επιμέρους αποτελέσματα αθροίζονται για όλες τις ομάδες και το τελικό αποτέλεσμα λέγεται άθροισμα τετραγώνων μεταξύ ομάδων (Sum of Squares Between groups - SSB ) SSB = n ( ) = ενώ στην περίπτωση που όλες οι ομάδες έχουν n παρατηρήσεις προκύπτει ( ). () = SSB = n Στο παράδειγμα από την () έχουμε ( ) 5(80 80) 5(85 80) 5(75 80) 50 = SSB = n = + + =. Συγκρίνοντας τα αποτελέσματα παίρνουμε την παρακάτω διάσπαση SST = SSW + SSB. (ε) Ο πίνακας ανάλυσης της διακύμανσης Από τα αθροίσματα των τετραγώνων που υπολογίσαμε μπορούμε τώρα να πάρουμε δύο εκτιμητές της πληθυσμιακής διακύμανσης σ. Αποδεικνύεται ότι όταν οι πληθυσμιακές μέσες τιμές των ομάδων είναι ίσες, τότε τα SSW και SSB όταν διαιρεθούν με τους αντίστοιχους βαθμούς ελευθερίας δίνουν αμερόληπτους εκτιμητές για το σ. O πρώτος εκτιμητής του σ Μέσα σε κάθε ομάδα το μέσο τετράγωνο (mean square) MS = n i= ( ) n i Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 0
δίνει ένα αμερόληπτο εκτιμητή για την διακύμανση της ομάδας. Κάτω από την υπόθεση ότι οι διακυμάνσεις είναι ίσες μπορούμε να συνδυάσουμε (αθροίσουμε) τους εκτιμητές και να πάρουμε ένα εκτιμητή για την διακύμανση μέσα στις ομάδες (within groups variance) σύμφωνα με τον τύπο του μέσου τετραγώνου MSW = n = i= = ( ) i ( n ). () Στο παράδειγμα ο τύπος () δίνει 448 MSW = = 37.33. O δεύτερος εκτιμητής του σ Ο δεύτερος εκτιμητής του σ προκύπτει από τον γνωστό τύπο για την διακύμανση του δειγματικού μέσου ενός δείγματος με n παρατηρήσεις σ σ = n απ όπου έχουμε σ = n. σ Ένας αμερόληπτος εκτιμητής του σ που είναι η διακύμανση μεταξύ των ομάδων (variance between groups) προκύπτει από το μέσο τετράγωνο MS = = ( ) συνεπώς στην ειδική περίπτωση που όλες οι ομάδες (μεταχειρίσεις) έχουν παρατηρήσεις ένας αμερόληπτος εκτιμητής για το σ είναι n MSB = n ( ) =. (3) Στη γενική περίπτωση που το πλήθος των παρατηρήσεων των ομάδων δεν είναι ίδιο ο αμερόληπτος εκτιμητής για το σ έχει τη μορφή Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής
MSB = = n ( ). Στο παράδειγμα ο τύπος (3) δίνει 50 MSB = = 5. Ο λόγος των διακυμάνσεων Όταν η μηδενική υπόθεση H 0 : μ = μ =... = μ είναι αληθινή, τότε αναμένεται οι δύο εκτιμητές του σ να είναι περίπου ίσοι. Όταν η μηδενική υπόθεση δεν ισχύει, έτσι ώστε οι μέσες τιμές των πληθυσμών να διαφέρουν, τότε αναμένεται το MSB να είναι μεγαλύτερο από το MSW. Για το λόγο αυτό και προκειμένου να συγκρίνουμε τους δύο εκτιμητές του σ υπολογίζουμε το λόγο των διακυμάνσεων (Variance Ratio - VR ) MSB VR =. MSW Όταν οι δύο εκτιμητές είναι περίπου ίσοι το VR γεγονός αυτό αποτελεί κριτήριο αποδοχής της H 0 είναι κοντά στο και το. Στην περίπτωση που το MSB είναι μεγαλύτερο από το MSW τότε το VR είναι μεγαλύτερο από το και το γεγονός αυτό είναι το κριτήριο απόρριψης της. H 0 Στο παράδειγμα από τα προηγούμενα αποτελέσματα έχουμε MSB 5 VR = = = 3.35. MSW 37.33 Η δοκιμασία F Είναι γνωστό ότι η ύπαρξη του τυχαίου σφάλματος που οφείλεται στη δειγματοληψία δεν επιτρέπει στα MSB και MSW να είναι ίσα ακόμη και στην περίπτωση που η μηδενική υπόθεση H 0 : μ = μ =... = μ είναι αληθινή. Για το λόγο αυτό θα πρέπει να έχουμε ένα μέτρο ανοχής για το πόσο μεγάλη θα πρέπει να είναι η παρατηρούμενη διαφορά προκειμένου να συμπεράνουμε ότι δεν οφείλεται μόνο σε τυχαίο σφάλμα. Απάντηση στο ερώτημα αυτό μας δίνει η κατανομή δειγματοληψίας του λόγου των διακυμάνσεων MSB VR =. MSW Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής
Επειδή το VR είναι λόγος δύο χ τυχαίων μεταβλητών από την παράγραφο προκύπτει ότι ακολουθεί την κατανομή F με βαθμούς ελευθερίας αριθμητή ( ) και βαθμούς ελευθερίας παρονομαστή ( n ) = n = N. = = Από τη στιγμή που θα καθορίσουμε και το επίπεδο σημαντικότητας α τότε η κρίσημη τιμή του F προσδιορίζει τις περιοχές αποδοχής και απόρριψης της δοκιμασίας. Οι απαιτούμενοι υπολογισμοί συνοψίζονται στον παρακάτω πίνακα ANOVA. Πηγή προέλευσης Μεταξύ ομάδων Άθροισμα τετραγώνων SSB = n ( ) = Μέσα στις n ομάδες Σύνολο SSW = ( ) = i= n SST = ( ) = i= i i ΠΙΝΑΚΑΣ 3 Βαθμοί ελευθερίας Μέσο τετράγωνο N MSB = = n ( ) n N MSW = = i= = ( ) i ( n ) Λόγος διακυμάνσεων MSB VR = MSW Πίνακας ANOVA για τον πλήρως τυχαιοποιημένο σχεδιασμό (κατά ένα παράγοντα) H απόφαση Κάτω από τη μηδενική υπόθεση H 0 : μ = μ =... = μ το VR ακολουθεί την κατανομή F με βαθμούς ελευθερίας ( ) για τον αριθμητή και (N ) για τον παρονομαστή. Για συγκεκριμένο επίπεδο σημαντικότητας α και προκειμένου να πάρουμε μια απόφαση συγκρίνουμε την τιμή του VR με την κρίσιμη τιμή της κατανομής F (, N ). Όταν δεν μπορούμε να αποδεχθούμε την VR > F(, N ) α H 0 με βάση τα δεδομένα του δείγματος, όπου F (, N ) α είναι το άνω α εκατοστιαίο σημείο της κατανομής F (, N ) για το οποίο ισχύει P( F(, N ) > F(, N ) α ) = α. Στο παράδειγμα για επίπεδο σημαντικότητας α = 0.05 έχουμε Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 3
VR = 3.35 < 3.88 = F(,) 0.05 έτσι ώστε δεν μπορούμε να απορρίψουμε την με βάση τα δεδομένα του δείγματος. Αυτό σημαίνει ότι δεν υπάρχουν διαφορές στις πωλήσεις που προέκυψαν από τις τρεις διαφημιστικές στρατηγικές. Πηγή προέλευσης Μεταξύ ομάδων Μέσα στις ομάδες ΠΙΝΑΚΑΣ 4 Άθροισμα Βαθμοί Μέσο Λόγος τετραγώνων ελευθερίας τετράγωνο διακυμάνσεων 50 3 = 50 5 = 7 3.35 37.33 = 448 5 3 = 448 = 37.33 H 0 Σύνολο 698 5 = 4 Πίνακας ANOVA παραδείγματος H διακύμανση που υπάρχει στα δεδομένα του παραδείγματος μεταξύ των ομάδων (στηλών) ερμηνεύεται (explained) από το γεγονός ότι οι ομάδες ενδεχομένως να προέρχονται από διαφορετικούς πληθυσμούς. Η διακύμανση μέσα στις ομάδες είναι η εναπομένουσα διακύμανση (residual variance) που μένει ανερμήνευτη (unexplained). Συνεπώς ερμηνευμένη διακύμανση VR =. ανερμήνευτη διακύμανση Το γεγονός αυτό μας παροτρύνει να αναπτύξουμε διαδικασίες προκειμένου να ενδυναμώσουμε τη δοκιμασία F. Αν για παράδειγμα ένα σημαντικό ποσοστό της ανερμήνευτης διακύμανσης οφείλεται σε υπάρχουσες διαφορές στις γραμμές του πίνακα, τότε απομονώνοντας την διακύμανση αυτή θα είχε σαν αποτέλεσμα την μείωση του παρονομαστή στο VR. Με τον τρόπο αυτό προκύπτει ένα μεγαλύτερο VR το οποίο ενδυναμώνει τη δοκιμασία για την ύπαρξη διαφορών μεταξύ των στηλών. Συνεπώς η ικανότητα προσδορισμού κατά πόσο ένας παράγοντας (στήλες) είναι σημαντικός μπορεί να ενισχυθεί με την εισαγωγή και ενός δευτέρου παράγοντα (γραμμές) προκειμένου να ερμηνευθεί η εναπομένουσα διακύμανση. Έτσι έχουμε την ανάλυση διακύμανσης κατά δύο παράγοντες (two way ΑNOVA). O αντίστοιχος πειραματικός σχεδιασμός που προκύπτει λέγεται τυχαιοποιημένος σχεδιασμός ομάδων (randomized bloc design). Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 4
4. Aσκήσεις. Προκειμένου να διαπιστωθεί αν υπάρχουν διαφορές στην παραγωγικότητα 3 μηχανών τις βάλαμε να δουλέψουν με 5 διαφορετικούς χειριστές και για χρονικό διάστημα 5 ωρών (αλλαγή χειριστή ανά ώρα). Η παραγωγικότητα της κάθε μηχανής ανά χειριστή (σε κομμάτια) δίνεται στον πίνακα 5 ΠΙΝΑΚΑΣ 5 Χειριστής Μηχανή Μηχανή Μηχανή 3 47 55 54 53 54 50 3 49 58 5 4 50 6 5 5 46 5 49 Παραγωγικότητα μηχανών (α) Να υπολογίζετε την διακύμανση μεταξύ των μηχανών. (β) Να υπολογίσετε την διακύμανση μέσα στις μηχανές. (γ) Να κατασκευάσετε τον πίνακα ANOVA. (δ) Να δοκιμάσετε σε επίπεδο σημαντικότητα α = 0.05 την υπόθεση ότι δεν υπάρχουν διαφορές στην παραγωγικότητα των μηχανών.. Κατά την συναρμολόγηση ενός μοντέλου αυτοκινήτου υπάρχουν 3 διαφορετικές μέθοδοι που μπορούν να εφαρμοστούν. Προκειμένου να αξιολογήσουμε τον χρόνο που χρειάζεται η κάθε μέθοδος, βάλαμε 8 εργάτες (6 ανά μέθοδο) να συναρμολογήσουν 8 αυτοκίνητα. Οι χρόνοι συναρμολόγησης σε ώρες που χρειάστηκε ο κάθε εργάτης δίνονται στον πίνακα 6. ΠΙΝΑΚΑΣ 6 Εργάτης Μέθοδος Μέθοδος Μέθοδος 3 47 64 58 34 73 55 3 34 5 39 4 49 49 43 5 30 5 45 8 5 49 Χρόνοι συναρμολόγησης (α) Να υπολογίζετε την διακύμανση μεταξύ των μεθόδων. (β) Να υπολογίσετε την διακύμανση μέσα στις μεθόδους. (γ) Να κατασκευάσετε τον πίνακα ANOVA. (δ) Να δοκιμάσετε σε επίπεδο σημαντικότητα α = 0.05 την υπόθεση ότι δεν υπάρχουν διαφορές στους χρόνους συναρμολόγησης μεταξύ των μεθόδων. Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 5
5. Aνάλυση διακύμανσης με το MINITAB Το στατιστικό πακέτο Minitab μπορεί να διαχειριστεί την ανάλυση της διακύμανσης για τρία είδη πειραματικών σχεδιασμών: την ANOVA κατά ένα παράγοντα (completely randomized design), την ANOVA κατά δύο παράγοντες (randomized bloc design) και τον παραγοντικό σχεδιασμό (factorial design). Στην ANOVA κατά ένα παράγοντα θα πρέπει να υπάρχουν στο Worsheet τα δεδομένα της εξαρτημένης μεταβλητής (απόκρισης) καταχωρημένα είτε κατά ομάδες σε διαφορετικές στήλες (unstaced) είτε εναλλακτικά σε μια στήλη (staced) συνοδευόμενα και από ένα ποιοτικό παράγοντα με δύο τουλάχιστον επίπεδα. Οι διαδοχικές επιλογές εντολών για την ΑNOVA κατά ένα παράγοντα είναι:. Ανοίγουμε το Worsheet με τα δεδομένα.. Από τη γραμμή μενού επιλέγουμε Stat One Way (η Unstaced κατά περίπτωση). 3. Στα πλαίσια διαλόγου One-way Analysis of Variance που υπάρχουν διαθέσιμα προσδιορίζουμε την εξαρτημένη μεταβλητή καθώς και τα διαγράμματα που επιθυμούμε να έχουμε. 4. Τα αποτελέσματα εμφανίζονται στα Graph και Session Window. Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 6
Δρ. Ιωάννης Ι.Γεροντίδης, Αναπληρωτής Καθηγητής 7