Ανάλυση της ιακύµανσης

Σχετικά έγγραφα
Funktionsdauer von Batterien in Abhängigkeit des verwendeten Materials und der Umgebungstemperatur

Γραµµική Παλινδρόµηση

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

Λογιστική Παλινδρόµηση

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

(i) Περιγραφική ανάλυση των μεταβλητών PRICE

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 28 Μαρτίου /36

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Εργασία. στα. Γενικευμένα Γραμμικά Μοντέλα

Μη Παραµετρική Παλινδρόµηση

Τεχνικές Αναδειγµατοληψίας

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Εκτίµηση Μη-Γραµµικών Μοντέλων

Το TEX στο χώρο της στατιστικής: η δύναμη του ελεύθερου λογισμικού

Ανάλυση Χρονοσειρών. Κεφάλαιο Ανάλυση Χρονοσειρών

Ιωάννης Ντζούφρας. Ενότητα 4 Συγκρίσεις για 1 & 2 είγματα. (II) Έλεγχοι υποθέσεων για 2 εξαρτημένα δείγματα. Ανάλυση εδομένων ιαφάνεια 4-30

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

Πολλαπλή παλινδρόμηση (Multivariate regression)

Απλή Ευθύγραµµη Συµµεταβολή

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Biostatistics for Health Sciences Review Sheet

Wan Nor Arifin under the Creative Commons Attribution-ShareAlike 4.0 International License. 1 Introduction 1

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata

η πιθανότητα επιτυχίας. Επομένως, η συνάρτηση πιθανοφάνειας είναι ίση με: ( ) 32 = p 18 1 p

519.22(07.07) 78 : ( ) /.. ; c (07.07) , , 2008

8. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Ι

τατιςτική ςτην Εκπαίδευςη II

Έλεγχος για τις παραμέτρους θέσης περισσοτέρων των δύο πληθυσμών με ανεξάρτητα δείγματα

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση

Εισαγωγή στην Ανάλυση Διακύμανσης

Ιδιότητες της ευθείας παλινδρόµησης

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

Στατιστική Επιχειρήσεων Ι

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Σύγκριση Συνδυασµένων Παραγόντων

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

ΜΕΘΟΔΟΣ ΤΗΣ ΒΗΜΑΤΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ (STEPWISE REGRESSION)

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Δείγμα πριν τις διορθώσεις

Περιεχόμενα. Πρόλογος 17 ΚΕΦΑΛΑΙΟ 1 23

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ


ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ,

Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

χ 2 test ανεξαρτησίας

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Μην ξεχάσετε να προσθέσετε μόνοι σας τα Session του Minitab! Δηλαδή την ημερομηνία και ώρα που κάνατε κάθε άσκηση!

3η Ενότητα Προβλέψεις

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Γ. Πειραματισμός Βιομετρία


Wan Nor Arifin under the Creative Commons Attribution-ShareAlike 4.0 International License. 1 Introduction 1

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Άσκηση 1. Πληθυσμός (Χ i1 )

Εργασία στο µάθηµα Ανάλυση εδοµένων

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

1. Εισαγωγή...σελ Δεδομένα της εργασίας...σελ Μεθοδολογία...σελ Ανάλυση των δεδομένων.σελ Συγκριτικά αποτελέσματα..σελ.

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Γραφήµατα. Κεφάλαιο Απλά Γραφήµατα. > x <- rnorm(50, mean=1, sd=2) > plot(x) > y <- seq(0,20,.1) > z <- exp(-y/10)*cos(2*y)

Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις

( ) Multiple Comparisons on Longitudinal Data Junji Kishimoto SAS Institute Japan / Keio Univ. SFC / Univ. of Tokyo address: jpnjak@jpn.sas.

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

ΕΙ Η ΠΑΛΙΝ ΡΟΜΗΣΗΣ. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΛΙΝ ΡΟΜΗΣΗ (Simple Linear Regression) ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ (Regression) ΠΑΛΙΝ ΡΟΜΗΣΗ.

$ι ιι η ι ι!η ηι ι ANOVA. To ANOVA ι ι ι η η η ιη (Analysis of Variance). * ι! ι ι ι ι ι η ιη. ;, ι ι ι! η ιι ηιη ι ι!η ι η η ιη ι ι η ι η.

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

ΜΑΘΗΜΑ 3ο. Υποδείγματα μιας εξίσωσης

Εισόδημα Κατανάλωση

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 8. Ανάλυση διασποράς (ANOVA)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ. Μεταπτυχιακή Εργασία ΜΕΛΕΤΗ ΚΑΙ ΕΝΤΟΠΙΣΜΟΣ ΠΑΡΑΓΟΝΤΩΝ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Transcript:

Κεφάλαιο 9 Ανάλυση της ιακύµανσης Η ανάλυση της διακύµανσης είναι µια από τις πλέον σηµαντικές µεθόδους για ανάλυση δεδοµένων. Η µέθοδος αυτή αναφέρετε στη διαµέριση του συνολικού αθροίσµατος τετραγώνων σε αθροίσµατα τετραγώνων λόγω των επιδράσεων των παραγόντων. 9.1 Ανάλυση ιακύµανσης κατά ένα Παράγοντα Το πιο απλό είδος πειραµάτων είναι αυτά στα οποία µια απλή συνεχής εξαρτηµένη µεταβλητή µετρείται έναν αριθµό ϕορών για κάθε ένα από τα διάφορα επίπεδα ενός πειραµατικού παράγοντα. Για παράδειγµα, έστω τα δεδοµένα στον Πίνακα 9.1, ο οποίος περιλαµβάνει τις τιµές του χρόνου πήξης του αίµατος για τέσσερις διαφορετικές δίαιτες. Ο χρόνος πήξης είναι η συνεχής εξαρτηµένη µεταβλητή, ενώ η δίαιτα είναι ποιοτική µεταβλητή, ή παράγοντας, µε τέσσερα επίπεδα : A, B, C, D. Ο κύριος στόχος είναι να εξεταστεί αν αν ο παράγοντας δίαιτα έχει οποιαδήποτε επίδραση στο µέσο χρόνο πήξης του αίµατος. Για να γίνει η ανάλυση δεδοµένων, πρέπει να γραφούν στην R µε τέτοιο τρόπο έτσι ώστε να µπορούν να χρησιµοποιηθούν για ανάλυση της διακύµανσης. Αυτό επιτυγχάνεται µε το σχεδιασµό ενός πλαισίου δεδοµένων όπως πιο κάτω : 125

A B C D 62 63 68 56 60 67 66 62 63 71 71 60 59 64 67 61 65 68 63 66 68 64 63 59 Πίνακας 9.1: Χρόνος πήξης του αίµατος για τέσσερις δίαιτες. > coag <- scan() 1: 62 60 63 59 5: 63 67 71 64 65 66 11: 68 66 71 67 68 68 17: 56 62 60 61 63 64 63 59 25: > coag [1] 62 60 63 59 63 67 71 64 65 66 68 66 71 67 68 68 56 62 60 61 [21] 63 64 63 59 > diet <- factor(rep(letters[1:4],c(4,6,6,8))) #create a factor > diet [1] A A A A B B B B B B C C C C C C D D D D D D D D > coag.df <- data.frame(diet,coag) #create a data frame > coag.df diet coag 1 A 62 2 A 60 3 A 63 4 A 59 5 B 63 6 B 67 7 B 71 8 B 64 9 B 65 126

10 B 66 11 C 68 12 C 66 13 C 71 14 C 67 15 C 68 16 C 68 17 D 56 18 D 62 19 D 60 20 D 61 21 D 63 22 D 64 23 D 63 24 D 59 Το πρώτο ϐήµα στην ανάλυση δεδοµένων είναι να ερευνηθεί γραφικά αν υ- πάρχουν ή όχι διαφορές ανάµεσα στα επίπεδα του παράγοντα. Τα Σχήµατα 9.1 και 9.2 παρουσιάζουν τις µέσες τιµές και τις διαµέσους για κάθε επίπεδο του πα- ϱάγοντα και το αντίστοιχο κυτιογράφηµα. Η οριζόντια ευθεία στο αριστερό (δεξιό) γράφηµα δίνει τη µέση τιµή (διάµεσο) όλων των δεδοµένων. Είναι ϕανερό πως τα επίπεδα A και D σχηµατίζουν µια κατηγορία, ενώ τα επίπεδα B και C µιαν άλλη κατηγορία. > par(mfrow=c(1,2)) > plot.design(coag.df) > plot.design(coag.df, fun= median) > par(mfrow=c(1,1)) > plot(coag.df) 127

mean of coag 61 62 63 64 65 66 67 68 C B DA diet median of coag 61 62 63 64 65 66 67 68 C B D A diet Factors Factors Σχήµα 9.1: Μέσες τιµές και διάµεσοι των επιπέδων του παράγοντα. coag 60 65 70 A B C D diet Σχήµα 9.2: Κυτιογράφηµα των επιπέδων του παράγοντα. 128

Για να εφαρµοστεί η ανάλυση της διακύµανσης στην R χρησιµοποιείται η εντολή aov ως ακολούθως > aov.coag <- aov(coag ~ diet, coag.df) > aov.coag Call: aov(formula = coag ~ diet, data = coag.df) Terms: diet Residuals Sum of Squares 228 112 Deg. of Freedom 3 20 Residual standard error: 2.366432 Estimated effects may be unbalanced > summary(aov.coag) Df Sum Sq Mean Sq F value Pr(>F) diet 3 228.0 76.0 13.571 4.658e-05 *** Residuals 20 112.0 5.6 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Σηµειώνεται ότι η εντολή aov χρησιµοποιείται µε ανάλογο τρόπο όπως και η εντολή lm για τη γραµµική παλινδρόµηση. Ο τύπος coag ~ diet στο πρώτο όρισµα δίνει συµβολικά το µοντέλο της ανάλυσης της διακύµανσης κατά ένα παράγοντα, ενώ το δεύτερο όρισµα, coag.df, καθορίζει το πλαίσιο δεδοµένων. Με την εντολή summary δίνεται ο πίνακας ΑΝΑ ΙΑ. Το αποτέλεσµα υποδεικνύει τη σηµαντικότητα του παράγοντα οδηγώντας στο συµπέρασµα ότι υπάρχουν διαφορές ανάµεσα στις τέσσερις δίαιτες. Οπως και στη γραµµική παλινδρόµηση, είναι χρήσιµη η γραφική ανάλυση των υπολοίπων για τον έλεγχο των υποθέσεων που απαιτούνται από την ανάλυση της διακύµανσης, δηλαδή να είναι ασυσχέτιστα, να έχουν σταθερή διακύµανση και να είναι κανονικά. Από τα γραφήµατα (Σχήµα 9.3) ϕαίνεται ότι οι υποθέσεις αυτές ικανοποιούνται σε µεγάλο ϐαθµό. > fitted.values(aov.coag) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 61 61 61 61 66 66 66 66 66 66 68 68 68 68 68 68 61 61 61 61 61 61 129

23 24 61 61 > par(mfrow=c(3.1)) > hist(resid(aov.coag)) > qqnorm(resid(aov.coag)) > qqline(resid(aov.coag)) > plot(fitted(aov.coag), resid(aov.coag)) > abline(h=0) 130

Histogram of resid(aov.coag) Frequency 0 2 4 6 8 6 4 2 0 2 4 6 resid(aov.coag) Normal Q Q Plot Sample Quantiles 4 0 2 4 2 1 0 1 2 Theoretical Quantiles resid(aov.coag) 4 0 2 4 61 62 63 64 65 66 67 68 fitted(aov.coag) Σχήµα 9.3: Ανάλυση υπολοίπων. 131

9.2 Πολλαπλές Συγκρίσεις Από την προηγούµενη ανάλυση επισηµάνθηκε η διαφορά µεταξύ των επιπέδων του παράγοντα δίαιτα. Συνεπώς, είναι ενδιαφέρον να αναγνωριστούν αυτές οι διαφορές. Η κύρια µέθοδος πολλαπλών συγκρίσεων που χρησιµοποιείται στην R είναι η µέθοδος Tukey, η οποία εφαρµόζεται µε την εντολή TukeyHSD. Η εντολή αυτή υπολογίζει τα 95% διαστήµατα εµπιστοσύνης για όλα τα Ϲεύγη διαφορών ανάµεσα των µέσων τιµών των ειδών δίαιτας. Τα διαστήµατα αυτά µπορούν να παρουσιαστούν και γραφικά για εποπτική σύγκριση, ϑέτοντας σαν όρισµα στην εντολή plot το αντικείµενο που παράγεται από την εντολή TukeyHSD. Οπως α- ναφέρθηκε και προηγουµένως, παρατηρείται ότι οι δίαιτες A και D σχηµατίζουν µια κατηγορία, ενώ τα επίπεδα B και C µιαν άλλη κατηγορία, αφού το µηδέν περιέχεται στο διάστηµα εµπιστοσύνης της διαφοράς τους. > mca.coag <- TukeyHSD(aov.coag,"diet") > mca.coag Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = coag ~ diet, data = coag.df) $diet diff lwr upr p adj B-A 5.000000e+00 0.7245544 9.275446 0.0183283 C-A 7.000000e+00 2.7245544 11.275446 0.0009577 D-A -1.421085e-14-4.0560438 4.056044 1.0000000 C-B 2.000000e+00-1.8240748 5.824075 0.4766005 D-B -5.000000e+00-8.5770944-1.422906 0.0044114 D-C -7.000000e+00-10.5770944-3.422906 0.0001268 > plot(mca.coag) Γενικά, µπορούν να εφαρµοστούν και οι υπόλοιπες γνωστές µέθοδοι πολλαπλών συγκρίσεων (Dunnett, Sidak, Bonferroni και Scheffe) χρησιµοποιώντας τη ϐιβλιοθήκη της R multcomp. 132

95% family wise confidence level D C D B C B D A C A B A 10 5 0 5 10 Differences in mean levels of diet Σχήµα 9.4: 95 % ταυτόχρονα διαστήµατα εµπιστοσύνης των διαφορών των µέσων των επιπέδων του παράγοντα µε τη µέθοδο Tukey. 133

134