7. Ανάλυση Διασποράς-ANOVA
Παράδειγμα Μετρήσεις της συγκέντρωσης του strodum (mg/ml) σε πέντε υδάτινες περιοχές (Α,Β,C,D,Ε). Α Β C D Ε 8, 39,6 46,3 4,0 56,3 33, 40,8 4, 44, 54, 36,4 37,9 43,5 46,4 59,4 34,6 37, 48,8 40, 6,7 9, 43,6 43,7 38,6 60,0 3,0 4,4 40, 36,3 57,3
ANOVA- Aalss of varace Σύγκριση κ πληθυσμών. Π.χ. μετρήσεις ενός χαρακτηριστικού σε κ διαφορετικές περιοχές ή χρονικές στιγμές. αποτελέσματα κ διαφορετικών επεμβάσεων (δίαιτες ή φάρμακα ή υγρασίες ή θερμοκρασίες κ.λ.π.) Οι πληθυσμοί αναφέρονται και ως κατηγορίες, ομάδες, μέθοδοι Μελέτη της διασποράς μιας εξαρτημένης μεταβλητής (Υ) όταν μεταβάλλονται μία ή περισσότερες ανεξάρτητες μεταβλητές (παράγοντες). Οι τιμές που παίρνει ο παράγοντας λέγονται στάθμες/επίπεδα (levels) ΒΙΟ309-ANOVA - 3
Ανάλυση Διασποράς με έναν παράγοντα: Τελείως τυχαίος σχεδιασμός Oe-wa Aalss of Varace: completel radomzed expermetal desg Θεωρούμε κ πληθυσμούς από τους οποίους παίρνουμε τυχαία δείγματα Model I : συγκεκριμένες επιδράσεις (fxed effects) - όλα τα επίπεδα του παράγοντα που μας ενδιαφέρουν συμπεριλαμβάνονται στην ανάλυση - τα αποτελέσματα δεν επεκτείνονται πέρα από τα συγκεκριμένα επίπεδα Model II: τυχαίες επιδράσεις (radom effects) - περιλαμβάνει τυχαία επιλεγμένα επίπεδα του παράγοντα - μπορούμε να βγάλουμε συμπεράσματα για όλα τα δυνατά επίπεδα του παράγοντα 4
Δεδομένα Επίπεδα/ Ομάδες / Δείγματα κ παρατήρηση του δείγματος Δειγματικές μέσες τιμές μ μ μ μ κ Πληθυσμιακές μέσες τιμές 5
Στατιστικά : παρατήρηση του δείγματος : αριθμός παρατηρήσεων του δείγματος : συνολικός αριθμός παρατηρήσεων : μέση τιμή του δείγματος N : συνολική μέση τιμή ΒΙΟ309-ANOVA - 6
Προϋποθέσεις της ANOVA Ανεξαρτησία Τα κ δείγματα είναι ανεξάρτητα Κανονικότητα Τα κ δείγματα προέρχονται από κ πληθυσμούς που ακολουθούν κανονική κατανομή με μέσες τιμές,,, και διασπορές,,, Ομοιογένεια διασπορών. ΒΙΟ309-ANOVA - 7
Το μοντέλο της ANOVA με έναν παράγοντα Η τιμή της Y για την -παρατήρηση Το σφάλμα της -παρατήρησης ( -μ ) ~ N(0, ) Συνολική πληθυσμιακή μέση τιμή επίδραση του -επιπέδου του παράγοντα (μ-μ )
Μηδενική υπόθεση H 0 : H 0 : a a a 0 Δεν υπάρχει διαφορά μεταξύ των πληθυσμιακών μέσων τιμών Δεν υπάρχει επίδραση του παράγοντα στις κ ομάδες Η μέση συγκέντρωση του strodum στις 5 περιοχές είναι ίδια Οι περιοχές δεν έχουν επίδραση στη συγκέντρωση του strodum H : μ μ για κάποιο (,) H : τουλάχιστον ένα a 0
Πηγές μεταβλητότητας () Η μέθοδος της ανάλυσης διασποράς στηρίζεται στη σύγκριση της μεταβλητότητας μέσα στις ομάδες και της μεταβλητότητας μεταξύ των ομάδων. Συνολική μεταβλητότητα SST ( ) β. ε. : DFT=N - ΒΙΟ309-ANOVA - 0
Πηγές μεταβλητότητας () Μεταβλητότητα μέσα στις ομάδες SSE (υπόλοιπη μεταβλητότητα ή σφάλμα) ( - επίδραση τυχαίων αιτιών - μη ελεγχόμενους παράγοντες β. ε. : DFΕ=N κ ) Μεταβλητότητα μεταξύ των ομάδων - επίδραση των επεμβάσεων SSB ( β. ε. : DFB=κ ) ΒΙΟ309-ANOVA -
Ανάλυση Διασποράς Συνολική Μεταβλητότητα (Sum of Squares =SST ) Y ( ) ( SSB μεταξύ των ομάδων ) SST = SSB+ SSE ( SSE μέσα στις ομάδες (resdual) )
Ανάλυση Διασποράς Μέση μεταβλητότητα μέσα στις ομάδες (αμερόληπτη εκτιμήτρια της διασποράς ) MSE SSE DFE Μέση μεταβλητότητα μεταξύ των ομάδων MSB SSB DFB Αν η Η0 είναι σωστή, τότε MSB είναι επίσης αμερόληπτη εκτιμήτρια της διασποράς. Αν η Η0 δεν είναι σωστή, τότε MSΒ > MSΕ. Κριτήριο για τη σύγκριση των διασπορών F MSB MSE ~ F, ΒΙΟ309-ANOVA - 3
Πίνακας ΑNOVA Πηγή Μεταβλη- τότητας Άθροισμα τετραγώνων (SS) β.ε. Μέσο άθροισμα τετραγώνων (ΜS) Λόγος-F Κρίσιμο σημείο μεταξύ των ομάδων SSB ( ) κ- SB SSB F MSB MSE F, ; μέσα στις ομάδες (σφάλμα) SSE ( ) Ν-κ SE SSE Συνολική SST ( ) Ν- ΒΙΟ309-ANOVA - 4
Έλεγχος σημαντικότητας H 0 : H : για κάποια, Στατιστικό: F MSB MSE Περιοχή απόρριψης της Η0 : F F, ; (α : επίπεδο σημαντικότητας) ΒΙΟ309-ANOVA - 5
Έλεγχος ομοιογένειας διασπορών H H 0 : : τουλάχιστον δύο πληθυσμοί έχουν διαφορετικές διασπορές test του Bartlett test του Hartle test του Cochra test του Levee ΒΙΟ309-ANOVA - 6
test του Levee Ανάλυση διασποράς για τις τιμές x Στατιστικό: F MSB MSE MSB και MSΕ είναι τα μέσα αθροίσματα (μεταξύ και μέσα στις ομάδες) για τις νέες τιμές x. Όταν ισχύει η μηδενική υπόθεση της ισότητας διασπορών, το στατιστικό ακολουθεί F κατανομή με κ- και Ν-κ βαθμούς ελευθερίας ΒΙΟ309-ANOVA - 7
Παράδειγμα H 0 : 3 4 5 Η μέση συγκέντρωση του strodum δεν διαφέρει στις 5 υδάτινες περιοχές Η : η μέση συγκέντρωση strodum δεν είναι η ίδια σε όλες τις περιοχές Α Β C D Ε 8, 39,6 46,3 4,0 56,3 33, 40,8 4, 44, 54, 36,4 37,9 43,5 46,4 59,4 34,6 37, 48,8 40, 6,7 9, 43,6 43,7 38,6 60,0 3 4,4 40, 36,3 57,3 x 3, 44, x 4, 4 x 5 58, 3 3 4 5 6
Παράδειγμα-Πίνακας ΑNOVA Πηγή Μεταβλητό -τητας μεταξύ των ομάδων μέσα στις ομάδες (σφάλμα) Άθροισμα τετραγώνων (SS) β.ε. Μέση Μεταβλη τότητα Λόγος- F 93,44 4 548,36 56, 44,30 5 9,765 Συνολική 437,57 9 Κρίσιμο σημείο F 4,5;0,05,76 Επειδή 56,>,76, η H 0 απορρίπτεται (σε επίπεδο σημαντικότητας 0.05) και συμπεραίνουμε ότι η μέση συγκέντρωση του strodum διαφέρει σε κάποιες περιοχές.
Έλεγχοι πολλαπλών συγκρίσεων Η ανάλυση διασποράς είναι μία μέθοδος για τον έλεγχο της μηδενικής υπόθεσης H 0 :. Αν η H0 απορριφθεί σημαίνει ότι υπάρχει τουλάχιστον ένα διαφορετικό από τα άλλα, η μέθοδος όμως δεν μας δίνει καμία πληροφορία ποιο ή ποια είναι διαφορετικά. Για να βρούμε αυτές τις διαφορές χρειάζεται να γίνουν κάποιοι εκ των υστέρων (a posteror) έλεγχοι που ονομάζονται έλεγχοι πολλαπλών συγκρίσεων (multple comparsos tests). ΒΙΟ309-ANOVA - 0
Έλεγχοι πολλαπλών συγκρίσεων Έλεγχος ελάχιστης σημαντικής διαφοράς του Fsher Έλεγχος του Tuke Έλεγχος του Boferro Έλεγχος των Newma-Keuls Έλεγχος του Scheffe Έλεγχος του Duet Έλεγχος του Duca ΒΙΟ309-ANOVA -
Ελάχιστη σημαντική διαφορά του Fsher Fsher s LSD ( Least Sgfcat Dfferece) H H 0 (, ) κάθε δυνατό ζεύγος ομάδων. Για κ κατηγορίες, κάνουμε κ(κ-)/ συγκρίσεις. Η μηδενική υπόθεση απορρίπτεται σε επίπεδο σημαντικότητας α αν όπου : : LSD t N ; a / και είναι οι μέσες τιμές των δειγμάτων και, και είναι τα μεγέθη των δειγμάτων και, s MSE είναι η διασπορά μέσα στα δείγματα. s
3 Ελάχιστη σημαντική διαφορά του Fsher Η μέθοδος χρησιμοποιείται για τον υπολογισμό διαστημάτων εμπιστοσύνης για τη διαφορά. Ένα (-α) 00% Δ.Ε. είναι: a a N s t s t ) ( ) ( / ; / ;
Έλεγχος του Tuke Tuke s Hoestl Sgfcat Dfferece (HSD) test H H 0 : : (, ) κάθε δυνατό ζεύγος ομάδων Το στατιστικό που χρησιμοποιούμε είναι: (q~ studetzed rage dstrbuto) και είναι οι μέσες τιμές των δειγμάτων και, και είναι τα μεγέθη των δειγμάτων και, s MSE είναι η διασπορά μέσα στα δείγματα. q s Η μηδενική υπόθεση απορρίπτεται σε επίπεδο σημαντικότητας α αν q q, ; a ν =DFE βαθμοί ελευθερίας του σφάλματος από την ANOVA κ : το πλήθος των δειγμάτων που συγκρίνουμε 4
Έλεγχος του Boferro Boferro correcto H H 0 : : (, ) κάθε δυνατό ζεύγος ομάδων Το στατιστικό που χρησιμοποιούμε είναι: x x και είναι οι μέσες τιμές των δειγμάτων και, και είναι τα μεγέθη των δειγμάτων και, s MSE είναι η διασπορά μέσα στα δείγματα. Το στατιστικό ακολουθεί την Studet κατανομή με Ν-κ β.ε. t s Η μηδενική υπόθεση απορρίπτεται αν t t N ; a * / * a a ( ) / α συνολική πιθανότητα σφάλματος τύπου Ι α * επίπεδο σημαντικότητας κάθε επιμέρους ελέγχου 5
Παράδειγμα Συγκέντρωση strodum (mg/ml) σε πέντε διαφορετικές υδάτινες περιοχές. Θέλουμε να ελέγξουμε σε ποιες περιοχές η μέση συγκέντρωση του strodum διαφέρει. Εφαρμόζουμε το Tuke test. Ταξινόμηση των δειγμάτων Δείγματα (Α) (Β) 4(Δ) 3(Γ) 5(Ε) Μέσες τιμές x 3, 40, 4, 44, 58,3 ΒΙΟ309-ANOVA - 6
Παράδειγμα ΒΙΟ309-ANOVA - 7