Γενικευµένα Γραµµικά Μοντέλα

Σχετικά έγγραφα
Λογιστική Παλινδρόµηση

Εργασία. στα. Γενικευμένα Γραμμικά Μοντέλα

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

Wan Nor Arifin under the Creative Commons Attribution-ShareAlike 4.0 International License. 1 Introduction 1

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

Wan Nor Arifin under the Creative Commons Attribution-ShareAlike 4.0 International License. 1 Introduction 1

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Λογαριθμικά Γραμμικά Μοντέλα Poisson Παλινδρόμηση Παράδειγμα στο SPSS

5.1 logistic regresssion Chris Parrish July 3, 2016

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος


Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

1991 US Social Survey.sav

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ.

ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Κεφάλαιο 3 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 3.1 Συσχέτιση δύο τ.µ.

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕ ΙΑΣΜΟΥ & xcvbnmσγqwφertyuioσδφpγρaηsόρ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ωυdfghjργklαzxcvbnβφδγωmζqwert ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ

StatXact ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. StatXact. ΜΑΘΗΜΑ 5 ΕΡΓΑΣΤΗΡΙΟ 1 - συνέχεια ΜΕΤΡΑ ΚΙΝ ΥΝΟΥ & ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ ΜΕ ΤΗΝ ΧΡΗΣΗ StatXact

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Στόχος µαθήµατος: Παράδειγµα 1: µελέτη ασθενών-µαρτύρων ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ

Generalized additive models in R

Ενότητα 4: Πίνακες συνάφειας (Contingency tables)

Μέτρηση κατανοµής ηλεκτρικού πεδίου

Γενικευμένα Γραμμικά Μοντέλα (GLM) Επισκόπηση

< 1 για κάθε k N, τότε η σειρά a k συγκλίνει. +, τότε η η σειρά a k αποκλίνει.

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ

Ανάλυση της ιακύµανσης

Κεφάλαιο 6 Παράγωγος

οµή δικτύου ΣΧΗΜΑ 8.1

Παράδειγµα (Risky Business 1)

Παράγοντας Β. Περιθώριοι µέσοι παράγοντα Β

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Α. 1. Μετρήσεις και Σφάλµατα

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

ΜΑΘΗΜΑ 3ο. Υποδείγματα μιας εξίσωσης

Σηµειώσεις στις σειρές

ONE WAY ANOVA. .Π.Μ.Σ. Μαθηµατικά των Υπολογιστών & των αποφάσεων. Πάτρα, 11 Ιανουαρίου 2011

Απλή Ευθύγραµµη Συµµεταβολή

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

Γραµµική Παλινδρόµηση

Μέθοδος Newton-Raphson

Μη Παραµετρική Παλινδρόµηση

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης

11ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-31/03, 1-2/04/2006. Πρακτικά Συνεδρίου

ΚΕΦΑΛΑΙΟ 2 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΕΣΠΕΡΙΝΩΝ ΚΑΙ ΗΜΕΡΗΣΙΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Κεφάλαιο 7 Βασικά Θεωρήµατα του ιαφορικού Λογισµού

ΚΕΦΑΛΑΙΟ 4 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΙΑΦΟΡΩΝ ΚΑΤΗΓΟΡΙΩΝ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

Στατιστικό κριτήριο χ 2

1 Ορισµός ακολουθίας πραγµατικών αριθµών

Περιγραφή των εργαλείων ρουτινών του στατιστικού

Οικονοµικό Πανεπιστήµιο Αθηνών Τµήµα Στατιστικής Σηµειώσεις για το µάθηµα : Ανάλυση ιακύµανσης και Σχεδιασµός Πειραµάτων

Περιγραφική Στατιστική

Ασκήσεις για το µάθηµα «Ανάλυση Ι και Εφαρµογές» (ε) Κάθε συγκλίνουσα ακολουθία άρρητων αριθµών συγκλίνει σε άρρητο αριθµό.

Τυχαιοποιηµένοι Πλήρως Σχεδιασµοί κατά Μπλοκ (Randomized Complete Block Design)

Α. 1. Μετρήσεις και Σφάλµατα

ΚΕΦΑΛΑΙΟ 6 ΧΡΗΣΗ ΓΡΑΜΜΙΚΩΝ ΜΟΝΤΕΛΩΝ ΚΑΙ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝ ΡΟΜΗΣΗΣ

Άσκηση 10, σελ Για τη μεταβλητή x (άτυπος όγκος) έχουμε: x censored_x 1 F 3 F 3 F 4 F 10 F 13 F 13 F 16 F 16 F 24 F 26 F 27 F 28 F

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Παρεµβολή και Προσέγγιση Συναρτήσεων

3 Regressionsmodelle für Zähldaten

2. Στοιχεία Πολυδιάστατων Κατανοµών

ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ. Εαρινό εξάµηνο ακαδηµαϊκού έτους ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. Εργασία 4 - Ενδεικτική λύση

Οι στατιστικοί έλεγχοι x τετράγωνο, t- test, ANOVA & Correlation. Σταμάτης Πουλακιδάκος

Πολλαπλή παλινδρόμηση (Multivariate regression)

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

Ανάλυση ιασποράς (Analysis of Variance, ANOVA)

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 30 Μαρτίου /32

Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram).

Εκτίµηση Μη-Γραµµικών Μοντέλων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ

Στατιστική για Χημικούς Μηχανικούς Έλεγχος στατιστικών υποθέσεων. Κουγιουμτζής Δημήτριος Τμήμα Χημικών Μηχανικών

4.ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Πολλαπλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 7 (συνέχεια)

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

Μάθηµα 1. Κεφάλαιο 1o: Συστήµατα. γ R παριστάνει ευθεία και καλείται γραµµική εξίσωση µε δύο αγνώστους.

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

c(2x + y)dxdy = 1 c 10x )dx = 1 210c = 1 c = x + y 1 (2xy + y2 2x + y dx == yx = 1 (32 + 4y) (2x + y)dxdy = 23 28

Μηχανική ΙI. Μετασχηµατισµοί Legendre. της : (η γραφική της παράσταση δίνεται στο ακόλουθο σχήµα). Εάν

400 = t2 (2) t = 15.1 s (3) 400 = (t + 1)2 (5) t = 15.3 s (6)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 7. Παλινδρόµηση

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Γραµµική Αλγεβρα Ι. Ενότητα: ιανυσµατικοί χώροι. Ευάγγελος Ράπτης. Τµήµα Μαθηµατικών

5.1 Ιδιοτιµές και Ιδιοδιανύσµατα

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

Transcript:

Σηµειώσεις για το εργαστήριο υπολογιστών για το µάθηµα Γενικευµένα Γραµµικά Μοντέλα. Μέρος δεύτερο: Γενικευµένα Γραµµικά Μοντέλα στην SPLUS Οι σηµειώσεις γράφτηκαν από το Γιώργο Τζουγά, υποψήφιο διδάκτορα του τµήµατος Στατιστικής, στη βάση του εργαστηριακού µαθήµατος του Ε. Ιωαννίδη.

ΓΕΝΙΚΕΥΜΕΝΑ ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ ΣΤΗΝ SPLUS Θα δούµε εφαρµογές στην S-PLUS που αφορούν τα ΓΓΜ για περισσότερες πληροφορίες σχετικά µε τη θεωρία µπορεί κανείς να ανατρέξει στο διδακτικό εγχειρίδιο του Ε. Ιωαννίδη Γενικευµένα Γραµµικά Μοντέλα Σηµειώσεις. 2.1 ΙΑ ΙΚΑΣΙΑ ΕΠΙΛΟΓΗΣ ΚΑΤΑΛΛΗΛΟΥ ΓΓΜ Εισάγουµε δεδοµένα του Bl.clot2 από το Excel.Οι ανεξάρτητες µεταβλητές είναι οι: L.f που είναι παράγοντας µε δύο επίπεδα κάθε ένα από τα οποία αναπαριστά δυο διαφορετικές πηκτικές ουσίες του αίµατος την 1 και την 2, η U.log=log(U) όπου η U αφορά την συγκέντρωση της κάθε ουσίας στο αίµα καθώς και η αλληλεπίδρασή τους L.f :U.log ενώ η εξαρτηµένη µεταβλητή είναι η T που αναπαριστά τον χρόνο πήξεως της κάθε ουσίας. Αρχικά εκτελούµε της εντολές: dfr<- Bl.clot2 dfr$l.f<-as.factor(dfr$l) dfr$t.inv <- 1/(dfr$T) dfr$u.log <- log(dfr$u) Θα δούµε την διαδικασία επιλογής κατάλληλου ΓΓΜ που προσαρµόζει τα δεδοµένα µας: 1. ιάγραµµα Response vs Explanatory variables/ Αρχική επιλογή link function Από αυτό το διάγραµµα βρίσκουµε την αντίστροφη της link function οπότε έχουµε ενδείξεις για µια αρχική επιλογή της g (στο διάγραµµα g(y) vs x θέλουµε γραµµικότητα). Από Σχήµα 1.7 ήδη γνωρίζουµε ότι Επίσης µπορούµε να το δούµε ως εξής:

plot(dfr$t,dfr$l.f) plot(dfr$t,dfr$u.log) par(mfrow=c(1,2)) Σχήµα 2.1 dfr$u.log 1.5 2.0 2.5 3.0 3.5 4.0 4.5 20 40 60 80 100 120 dfr$t 2. ιάγραµµα Residuals vs Fitted στο γραµµικό µοντέλο µε εξαρτηµένη την / Αρχική επιλογή variance function Στο γραµµικό µοντέλο χρησιµοποιούµε αυτό το διάγραµµα για να έχουµε µια αρχική επιλογή για την variance function V(µ). Το γραµµικό µοντέλο που είχαµε στην $1.5 το οποίο περιελάµβανε και τις αλληλεπιδράσεις των ανεξάρτητων µτβ ήταν το: T.inv~U.log*L.f,data=dfr οπότε ακολουθούµε την εξής διαδικασία:

mylm<-lm(t.inv~u.log*l.f,data=dfr) dfr$resid<-mylm$residuals dfr$fit.inv<- 1/dfr$fit dfr$fit<-mylm$fitted.values - ιάγραµµα Residuals vs Explanatory Επιλέγουµε NumConditioningVars=0 για να µην έχουµε το σπάσιµο στους 2 παράγοντες της L.F και εκτελούµε την εντολή: guiplot(plottype="spline",numconditioningvars=0, Columns="U.log,resid,L.f",DataSet="dfr") Σχήµα 2.2 resid Apr. 30, 2011 4:23:27 PM 0.002 0.000-0.002-0.004 1.2 2.2 3.2 4.2 U.log Apr. 30, 2011 4:23:27 PM Από το παραπάνω διάγραµµα παρατηρούµε ότι µια αρχική επιλογή για την variance function είναι V(µ)=

3. Αρχική επιλογή ΓΓΜ για να προσαρµόσουµε τα δεδοµένα µας µε βάση το βήµα 1 και το βήµα 2 Σε αυτό το παράδειγµα επειδή οι αρχικές µας επιλογές από βήµα 1 και βήµα 2 είναι και V(µ)= θα χρησιµοποιήσουµε family= quasi ώστε να έχουµε µια αρχική επιλογή για το ΓΓΜ µοντέλο που περιέχει ως ανεξάρτητες µτβ τις U.log,L.f καθώς και την αλληλεπίδρασή τους και ως εξαρτηµένη µτβ την T.inv. (Αντίστοιχα θα µπορούσαµε να έχουµε υποθέσει οικογένεια gamma που ταιριάζει στο συνδυασµό V(µ)= και ) H quasi-likelihood οικογένεια µας επιτρέπει να εκτιµήσουµε τις παραµέτρους ενός µοντέλου χωρίς να είναι απαραίτητη η υπόθεση µιας συγκεκριµένης κατανοµής για την απαντητική µτβ y. Συνεπώς µπορούµε να πάρουµε διαφορετικές link functions από αυτές που το Splus επιτρέπει. Εκτελούµε τις εντολές: myglm<-glm(formula=dfr$t~u.log*l.f, family=quasi(link=inverse,variance=mu^2), data=dfr) και mysum<-summary.glm(myglm) και παίρνουµε: > myglm Call: glm(formula = dfr$t ~ U.log * L.f, family = quasi(link = inverse, variance = mu^2), data = dfr) Coefficients: (Intercept) U.log L.f U.log:L.f -0.02023143 0.01947116-0.003677044 0.004128049 Degrees of Freedom: 18 Total; 14 Residual Residual Deviance: 0.02940147 και αντίστοιχα: > mysum

Call: glm(formula = dfr$t ~ U.log * L.f, family = quasi(link = inverse, variance = mu^2), data = dfr) Deviance Residuals: Min 1Q Median 3Q Max -0.05573777-0.03547972-0.008216152 0.0260727 0.08641118 Coefficients: Value Std. Error t value (Intercept) -0.020231426 0.0008389692-24.114624 U.log 0.019471164 0.0003676385 52.962795 L.f -0.003677044 0.0008389692-4.382812 U.log:L.f 0.004128049 0.0003676385 11.228555 (Dispersion Parameter for Quasi-likelihood family taken to be 0.0021297 ) Null Deviance: 7.708667 on 17 degrees of freedom Residual Deviance: 0.0294015 on 14 degrees of freedom Number of Fisher Scoring Iterations: 3 Correlation of Coefficients: (Intercept) U.log L.f U.log -0.9358771 L.f 0.4678965-0.4268624 U.log:L.f -0.4268624 0.4453918-0.9358771 Παρατηρήσεις - Null Deviance= 7.708667 on 17 degrees of freedom και Residual Deviance: =0.0294015 on 14 degrees of freedom για n=18 παρατηρήσεις συνολικά. Οι τιµές της deviance του µοντέλου που περιέχει µόνο το σταθερό όρο και αντίστοιχα της deviance του µοντέλου που περιέχει το σταθερό όρο και όλες τις ανεξάρτητες µτβ. U.log, L.f, U.log:L.f. - Επειδή για family=quasi η dispersion parameter φ άγνωστη η S-PLUS την εκτιµάει ως: Dispersion Parameter for Quasi-likelihood=0.0021297. 4. ιάγραµµα Deviance ή Pearson Residuals vs Fitted / Τελική επιλογή ΓΓΜ για να προσαρµόσουµε τα δεδοµένα µας Σε ένα διάγραµµα Deviance ή Pearson Residuals vs Fitted θέλουµε να έχουµε παρόµοια αποτελέσµατα όπως στα γραµµικά µοντέλα οπότε ιδανικά πρέπει να παρατηρούµε τα εξής(ιωαννίδης σελ 93-94 και Nelder σελ 37 ):

i) Τo σύννεφο των σηµείων πρέπει να απλώνεται γύρω από την µηδενική γραµµή. Αποκλίσεις από αυτό θα ήταν ένδειξη για εσφαλµένες υποθέσεις τη συστηµατική συνιστώσα δηλαδή ως προς την link function ή/και τους όρους στον linear predictor. Το πρώτο το ελέγχουµε καλύτερα µε ένα διάγραµµα Deviance ή Pearson Residuals vs Fitted ενώ το δεύτερο µε ένα διάγραµµα Deviance ή Pearson Residuals vs explanatory (εδώ τα πράγµατα βελτιώνονται µε την εισαγωγή ενός επιπλέον όρου µεγαλύτερου βαθµού όπως τετραγωνικού για την προβληµατική ανεξάρτητη µτβ). ii) To σύννεφο των σηµείων πρέπει να έχει σταθερό εύρος. Αποκλίσεις από αυτό θα ήταν ένδειξη για εσφαλµένες υποθέσεις ως προς την variance function. Τελική επιλογή συστηµατικής συνιστώσας και variance function οπότε και ΓΓΜ που προσαρµόζει τα δεδοµένα µας Με βάση τα όσα αναφέραµε στο i), ii) από την εξέταση των διαγραµµάτων των Deviance ή Pearson Residuals τελικά επιλέγουµε την κατάλληλη συστηµατική συνιστώσα του µοντέλου (δηλ την link function ή/και τους όρους στον linear predictor η). καθώς και την κατάλληλη variance fuction (βλέπουµε αν αυτά συµπίπτουν µε τις αρχικές µας επιλογές από 1 και 2 ) συνεπώς κάνουµε την τελική επιλογή της εκθετικής οικογένειας που ανήκει η y και άρα του ΓΓΜ που θα προσαρµόσει τα δεδοµένα µας. Στο δικό µας πχ στο διάγραµµα των Deviance Residuals vs explanatory θα δούµε ότι δεν υπάρχει πρόβληµα στην variance function αλλά υπάρχει πρόβληµα στην συστηµατική συνιστώσα όχι στην link function όµως αλλά στους όρους του linear predictor. Θα δούµε πως γίνεται αυτή η διαδικασία στην S-PLUS: (SOS ΠΑΡΑΤΗΡΗΣΗ) Επιλογή deviance residuals από -summary.glm() και επιλογή fitted values από glm() dfr$fit<-myglm$fitted.values dfr$resid<-mysum$deviance.resid ιάγραµµα Deviance Residuals vs Fitted guiplot(plottype="spline",numconditioningvars=0,

Columns="fit,resid",DataSet="dfr") Σχήµα 2.3 resid May 2, 2011 8:24:10 PM 0.06 0.02-0.02-0.06 0 40 80 120 fit May 2, 2011 8:24:10 PM Επίσης µπορούµε για τον ίδιο σκοπό µπορούµε και να χρησιµοποιήσουµε την συνάρτηση plot.glm της S-PLUS plot.glm(myglm)

Σχήµα 2.4 Deviance Residuals -0.06-0.02 0.0 0.02 0.04 0.06 0.08 20 40 60 80 100 120 Fitted : U.log * L.f Από τα σχήµατα 2.3 και 2.4 παρατηρούµε ότι το σύννεφο των σηµείων έχει σταθερό εύρος οπότε κάναµε σωστή αρχική επιλογή variance function V(µ)= επίσης το σύννεφο των σηµείων απλώνεται γύρω από την µηδενική γραµµή οπότε κάναµε σωστή αρχική επιλογή link function Τέλος όσον αφορά τους όρους στον linear predictor ίσως να υπάρχει κάποιο πρόβληµα και θα το δούµε καλύτερα µε ένα διάγραµµα Deviance Residuals vs explanatory. ιάγραµµα Deviance Residuals vs explanatory guiplot(plottype="robust LTS",NumConditioningVars=1, Columns="U.log,resid,L.f",DataSet="dfr")

Σχήµα 2.5 L.f: 2 0.02 resid May 2, 2011 8:43:19 PM 0.02 L.f: 1-0.09-0.09 1.2 2.2 3.2 4.2 U.log May 2, 2011 8:43:19 PM Πράγµατι εδώ βλέπουµε ότι υπάρχει πρόβληµα στην πρώτη παρατήρηση της µτβ U.log οπότε θα εισάγουµε ένα τετραγωνικό όρο αυτής της µτβ U.log^2 στο µοντέλο. (Θα µπορούσαµε αντίστοιχα να δούµε και το παρακάτω γράφηµα : # Μετασχηµατίζουµε τις εκτιµώµενες τιµές fit διότι ναι µεν τις περιέχει η συνάρτηση glm() αλλά θέλουµε να την δούµε και στο διάγραµµα) dfr$fit.inv<- 1/dfr$fit guiplot(plottype="robust LTS",NumConditioningVars=1, Columns="U.log,T.inv,fit.inv,L.f",DataSet="dfr") )

Εκ νέου προσαρµογή του ΓΓΜ µε εισαγωγή επιπλέον τετραγωνικού όρου U.log^2 Εκτελούµε τις εντολές: dfr$u.log.2 <- dfr$u.log^2 myglm<-glm(formula=dfr$t~u.log*l.f+u.log.2*l.f, family=quasi(link=inverse,variance=mu^2), data=dfr) mysum<-summary.glm(myglm) dfr$fit<-myglm$fitted.values dfr$resid<-mysum$deviance.resid και παίρνουµε τα εξής αποτελέσµατα: > myglm Call: glm(formula = dfr$t ~ U.log * L.f + U.log.2 * L.f, family = quasi(link = inverse, variance = mu^2), data = dfr) Coefficients: (Intercept) U.log L.f U.log.2 U.log:L.f U.log.2:L.f -0.01296864 0.01331074-0.003507111 0.001134453 0.004007417 0.00001818478 Degrees of Freedom: 18 Total; 12 Residual Residual Deviance: 0.01287236 και > mysum Call: glm(formula = dfr$t ~ U.log * L.f + U.log.2 * L.f, family = quasi(link = inverse, variance = mu^2), data = dfr) Deviance Residuals: Min 1Q Median 3Q Max -0.05340652-0.008255858 0.001626715 0.01041306 0.05176691 Coefficients: Value Std. Error t value (Intercept) -0.01296864457 0.0021332722-6.07922630 U.log 0.01331074362 0.0017512446 7.60073345 L.f -0.00350711105 0.0021332722-1.64400540 U.log.2 0.00113445338 0.0003190519 3.55570123 U.log:L.f 0.00400741674 0.0017512446 2.28832493 U.log.2:L.f 0.00001818478 0.0003190519 0.05699631

(Dispersion Parameter for Quasi-likelihood family taken to be 0.0010699 ) Null Deviance: 7.708667 on 17 degrees of freedom Residual Deviance: 0.0128724 on 12 degrees of freedom Number of Fisher Scoring Iterations: 3 Correlation of Coefficients: (Intercept) U.log L.f U.log.2 U.log:L.f U.log -0.9879462 L.f 0.4521146-0.4429042 U.log. 2 0.9586358-0.9885315 0.4264412 U.log:L.f -0.4429042 0.4450285-0.9879462-0.4366658 U.log.2:L.f 0.4264412-0.4366658 0.9586358 0.4383302-0.9885315 Μετά την εισαγωγή του τετραγωνικού όρου U.log^2 Residual Deviance= 0.0128724 <Residual Deviance:=0.0294015 οπότε το δεύτερο µοντέλο προσαρµόζει καλύτερα τα δεδοµένα µας. Αυτή την υπόθεση θα την ελέγξουµε και παρακάτω µε την συνάρτηση anova.glm και χρήση του στατιστικού F. ιάγραµµα Deviance Residuals vs explanatory στο νέο µοντέλο µε την U.log^2 guiplot(plottype="robust LTS",NumConditioningVars=1, Columns="U.log,resid,L.f",DataSet="dfr") Σχήµα 2.6

L.f: 2 resid May 2, 2011 10:25:16 PM 0.02 L.f: 1-0.04 1.2 2.2 3.2 4.2 U.log May 2, 2011 10:25:16 PM Συγκρίνοντας το Σχήµα 2.6 µε το Σχήµα 2.5 βλέπουµε ότι µετά την εισαγωγή του τετραγωνικού όρου U.log^2 εµφανώς βελτιώθηκε η κατάσταση. (Θα µπορούσαµε αντίστοιχα να δούµε και το παρακάτω γράφηµα : dfr$fit.inv<- 1/dfr$fit guiplot(plottype="robust LTS",NumConditioningVars=1, Columns="U.log,T.inv,fit.inv,L.f",DataSet="dfr") ) Σύγκριση των δύο µοντέλων µε χρήση της anova.glm() Με τη συνάρτηση της S-PLUS anova.glm θα συγκρίνουµε το αρχικό ΓΓΜ µε το ΓΓΜ που προέκυψε µετά την εισαγωγή του τετραγωνικού όρου U.log^2 δηλαδή έχουµε: Πλήρες Μοντέλο: myglm1<-glm(formula=dfr$t~u.log*l+u.log.2*l.f, family=quasi(link=inverse,variance=mu^2), data=dfr) Μοντέλο υπό την :

myglm0<-glm(formula=dfr$t~u.log*l.f, family=quasi(link=inverse,variance=mu^2), data=dfr) Εκτελούµε την εντολή anova.glm(myglm0,myglm1, test="f") και παίρνουµε: Analysis of Deviance Table Response: dfr$t Terms Resid. Df Resid. Dev Test Df Deviance F Value Pr(F) 1 U.log * L.f 14 0.02940147 2 U.log * L + U.log.2 * L.f 12 0.01287236 1 vs. 2 2 0.01652911 7.724625 0.00698079 Παρατηρούµε ότι το F statistic έχει p-value=0.00698079<0.05, οπότε απορρίπτουµε την,δηλαδή το µηδενικό µοντέλο. Παρατήρηση Όπως έχουµε προαναφέρει επειδή επιλέξαµε family=quasi, η dispersion parameter φ άγνωστη, οπότε επιλέγουµε F έλεγχο στην anova.glm().

2.2 ΙΩΝΥΜΙΚΑ Ε ΟΜΕΝΑ Μέσω του παραδείγµατος που ακολουθεί θα δούµε τη διαδικασία προσαρµογής ενός ΓΓΜ µε µια συνεχή και µια κατηγορική µεταβλητή για διωνυµικά δεδοµένα. Εισάγουµε λοιπόν τα δεδοµένα του πίνακα Budworm από το Excel και θέλουµε να ελέγξουµε πως η θνησιµότητα κάποιων σκουληκιών (αυτή είναι η διωνυµική µτβ ) εξαρτάται από τη δόση ενός εντοµοκτόνου λαµβάνοντας υπόψη και το φύλλο του σκουληκιού. ηλαδή ανεξάρτητες µεταβλητές είναι το SEX και η Dose και εξαρτηµένη η Dead, όπου ο θάνατος του σκουλιού θεωρείται επιτυχία. Παραµετροποίηση των µοντέλων που θα χρησιµοποιήσουµε ως προς το κελί αναφοράς: εντολή contrasts. Από εδώ και κάτω στα παραδείγµατα που αφορούν τα διωνυµικά δεδοµένα και έχουµε και κατηγορικές ανεξάρτητες µεταβλητές για λόγους συνοχής θα θεωρούµε πάντα την παραµετροποίηση των µοντέλων που θα χρησιµοποιήσουµε ως προς το κελί αναφοράς. Υπενθύµιση: (Σέντας σελ 111/ Ιωαννίδης σελ 120) Στην ANOVA κατά ένα παράγοντα είχαµε το µοντέλο: Επειδή οι παράµετροι που πρέπει να εκτιµήσουµε από την παραπάνω σχέση είναι κατά µια περισσότερες από τα ελεύθερα χρειαζόµαστε έναν περιορισµό για τις

παραµέτρους. Όταν λέµε ότι θέλουµε ότι θέλουµε την εκτίµηση των παραµέτρων ως προς το κελί αναφοράς εννοούµε τον περιορισµό µε κελί αναφοράς το πρώτο επίπεδο του παράγοντά µας. Ανάλογα θα µπορούσαµε να είχαµε επιλέξει την παραµετροποίηση ως προς τον γενικό σταθµισµένο µέσο θεωρώντας τον περιορισµό αλλά όπως είπαµε για λόγου ς συνοχή ς επιλέγουµ ε τον πρώτο περιορισµό. Η αντίστοιχη εντολή της S-PLUS για την παραµετροποίηση ως προς το κελί αναφοράς είναι η contrasts οπότε αρχικά εκτελούµε την εντολή: options(contrasts=c("contr.treatment","contr.treatment")) 1. ηµιουργία της καινούργιας τ.µ, ποσοστό επιτυχιών στη j γραµµή (Ιωαννίδης σελ 96) Ο πίνακας Budworm είναι συγκεντρωτικός δηλαδή αντί να κρατάµε για τα 240 σκουλήκια όλη την πληροφορία σε πίνακα µε 240 γραµµές, δηµιουργούµε j =12 συνδυασµούς όπου παρατηρούµε κάθε φορά τις επιτυχίες } δηλαδή =Dead. Τέλος σε αυτούς τους συνδυασµούς τυχαίνει και έχουµε κά θε φορά ο αριθµός των σκουληκιών που ελέγχουµε κάθε φορά. Θέλουµε να δηµιουργήσουµε την τυχαία µεταβλητή: ~, j=1,,n Στην περίπτωση µας για j=1,,12 θέλουµε την: Εκτελούµε τις εντολές: # : Budworm$No <- rep(20,12) # : Budworm$Y <- Budworm$Dead/20 2. Επιλογή κανονικής link function για διωνυµικά δεδοµένα g=logit και έλεγχος g(y) vs x για γραµµικότητα Ως γνωστόν σε ένα διάγραµµα g(y) vs x θέλω γραµµικότητα και αν δεν ισχύει αυτό έχω πρόβληµα στη συστηµατική συνιστώσα δηλαδή στην link function ή/και τους όρους στον linear predictor. Στην συγκεκριµένη περίπτωση επειδή έχω default link function την logit αν υπάρχει πρόβληµα αυτό θα είναι στους όρους στον linear predictor η. Εκτελούµε τις εντολές:

Budworm$Y.logit.c <- log(budworm$y+(1/40)/(1-budworm$y+(1/40))) guiplot(plottype="spline",numconditioningvars=1, Columns="Dose,Y.logit.c, Sex",DataSet="Budworm") και παίρνουµε το διάγραµµα g(y) vs x. Σχήµ α 2.7. Sex: M Y.logit.c May 5, 2011 7:49:22 PM 1 Sex: F -2 5 15 25 35 Dose May 5, 2011 7:49:22 PM

3. Μετασχηµατισµός Dose για να επιτύχουµε γραµµικότητα και εκ νέου διάγραµµα g(y) vs x Παρατηρούµε ότι το παραπάνω διάγραµµα είναι λογαριθµικής µορφής και όχι γραµµικό οπότε θα πρέπει να θεωρήσουµε τον λογάριθµο της dose και συγκεκριµένα µε βάση το 2 για να έχουµε διπλασιασµό της δόσης. Budworm$Dose.log <- logb(budworm$dose,base=2) guiplot(plottype="spline",numconditioningvars=1, Columns="Dose.log,Y.logit.c, Sex",DataSet="Budworm") Σχήµ α 2.8 Sex: M Y.logit.c May 5, 2011 7:50:12 PM 1 Sex: F -2 0 1 2 3 4 5 Dose.log May 5, 2011 7:50:12 PM

Από το παραπάνω διάγραµµα βλέπουµε ότι σαφώς βελτιώθηκε η κατάσταση, όµως στο διάγραµµα για τα θηλυκά σκουλήκια υπάρχει καµπυλότητα οπότε ίσως θα πρέπει να προσθέσουµε και ένα τετραγωνικό όρο την Dose^2 αλλά αυτή την υπόθεση θα την ελέγξουµε αργότερα. 4. Επιλογές άλλων link functions g για την διωνυµική οικογένεια και ξανά έλεγχος g(y) vs x για γραµµικότητα (Ιωαννίδης σελ 99) Επειδή και οι άλλες επιλογές link που θα δούµε εδώ είναι default για την διωνυµική οικογένεια θα δούµε τι συµβαίνει µε τους όρους στον linear predictor η. Complementary Log-log Εκτελούµε την εντολή: Budworm$Y.comloglog <- log(-log(1-budworm$y)) guiplot(plottype="spline",numconditioningvars=1, Columns="Dose.log,Y.comloglog, Sex",DataSet=" Budworm") και στο Σχήµα 2.9 για g την complementary log-log παίρνουµε διάγραµµα g(y) vs x Σχήµα 2.9 Sex: M Y.comloglog May 5, 2011 8:50:36 PM 1 Sex: F -2 0 1 2 3 4 5 Dose.log May 5, 2011 8:50:36 PM

Log-log Εκτελούµ ε την εντολή: Budworm$Y.loglog <- -log(-log(budworm$y)) guiplot(plottype="spline",numconditioningvars=1, Columns="Dose.log,Y.loglog, Sex",DataSet="Budworm") και στο Σχήµα 2.10 για g την log-log παίρνουµε διάγραµµα g(y) vs x Σχήµ α 2.10 Sex: M Y.loglog May 5, 2011 8:55:32 PM 3 Sex: F -1 0 1 2 3 4 5 Dose.log May 5, 2011 8:55:32 PM

5. Τελική επιλογη της g=logit και δοκιµές για επιπλέον µετασχηµατισµούς στην Dose.log και εκ νέου διάγραµµα g(y) vs x Τελικά αποφασίζουµε να κρατήσουµε ως link function την logit που είναι και κανονική και θα δοκιµάσουµε επιπλέον µετασχηµατισµούς στην Dose.log για να ελέγξουµε εκ νέου την γραµµικότητα στα διαγράµµατα g(y) vs x. Επιλέγοντας τον µετασχηµατισµό: Budworm$Dose.log.log <- logb(budworm$dose.log+1,base=2) και εκτελώντας την εντολή: guiplot(plottype="spline",numconditioningvars=1, Columns="Dose.log.log,Y.logit.c, Sex",DataSet="Budworm") παίρνουµε το παρακάτω διάγραµµα: Σχήµα 2.11 Sex: M Y.logit.c May 5, 2011 9:38:33 PM 1 Sex: F -2 0.0 0.5 1.0 1.5 2.0 2.5 Dose.log.log May 5, 2011 9:38:33 PM

Επιλέγοντας έναν αλλό µετασχηµατισµό: Budworm$Dose.rootlog <- Budworm$Dose.log^(1/2) και εκτελώντας την εντολή: guiplot(plottype="spline",numconditioningvars=1, Columns="Dose.rootlog,Y.logit.c, Sex",DataSet="Budworm") παίρνουµε το παρακάτω διάγραµµα: Σχήµα 2.12 Sex: M 9:44:43 PM Y.logit.c May 5, 2011 1 Sex: F -2 0.0 0.5 1.0 1.5 2.0 Dose.rootlog May 5, 2011 9:44:43 PM

Στα δύο τελευταία διαγράµµατα Σχήµα 2.11 και Σχήµα 2.12 και ειδικά στο δεύτερο βλέπουµε ότι βελτιώνεται η κατάσταση συγκριτικά µε το διάγραµµα του Σχήµατος 2.8 όπου θεωρήσαµε το µετασχηµατισµό της Dose σε Dose.log, όµως τελικά αυτό το µετασχηµατισµό θα κρατήσουµε στη συνέχεια διότι έτσι φαίνεται καλύτερα η ερµηνεία των αποτελεσµάτων που θα πάρουµε. 6. Προσαρµογή µοντέλου µε µια συνεχή και µια κατηγορική µεταβλητή Έχουµε επιλέξει canonical link την logit και µετασχηµατισµό της Dose σε Dose.log µε βάση το Σχήµα 2.8. Κάνουµε τις παρακάτω παρατηρήσεις πριν την προσαρµογή του µοντέλου µας. - Θα θεωρήσουµε στο µοντέλο µας και τον όρο αλληλεπίδρασης των Sex και Dose.log - Όπως έχουµε προαναφέρει προτιµάµε την παραµετροποίηση ως προς ένα κελί αναφοράς οπότε το µοντέλο µας γράφεται ως: (Ιωαννίδης σελ 104) logit( ) = α + β Dose.log +γsex + δ Dose.log:Sex (Ιωαννίδης σελ 134) Εάν κάναµε ένα διάγραµµα logit( Εκτελούµε λοιπόν τις εντολές: myglm <- glm(formula = Y ~ Sex * Dose.log, family = binomial (link=logit), summary.glm(myglm) και παίρνουµε τα παρακάτω αποτελέσµατα: ) vs x θα περιµένουµε δυο ευθείες,όχι απαραίτητα παράλληλες λόγω της ύπαρξης της αλληλεπίδρασης της Dose.log µε την Sex. Το α είναι ο σταθερός όρος δηλαδή η απόσταση από το 0 της ευθείας µε Sex=0 των θηλυκών, το β η κλίση αυτής της ευθείας και το α+γ η απόσταση από το 0 της ευθείας µε Sex=1 των αρσενικών. Ca ll: glm(formula = Y ~ Sex * Dose.log, family = binomial(link = logit), data = Budworm, weights = No) Deviance Residuals: Min 1Q Median 3Q Max -1.398493-0.3209394-0.07591756 0.3822023 1.103746 Coefficients: Value Std. Error t value (Intercept) -2.9935418 0.5526976-5.4162376 Sex 0.1749868 0.7782843 0.2248366 Dose.log 0.9060364 0.1671011 5.4220848 Sex:Dose.log 0.3529130 0.2699765 1.3071990

(Di spersion Parameter for Binomial family taken to be 1 ) Null Deviance: 124.8756 on 11 degrees of freedom Residu al Deviance: 4.993727 on 8 degrees of freedom Number of Fisher Scoring Iterations: 5 Correlation of Coefficients: (Intercept) Sex Dose.log Sex -0.7101488 Dose.log -0.9088735 0.6454354 Sex:Dose.log 0.5625445-0.8880793-0.6189470 Έλεγχος αν ο συντελεστής γ της κατηγορικής σηµαντικός µτβ είναι στατιστικά Για να ελέγξουµε δηλαδή εάν υπάρχει διάφορα µεταξύ males και females θα πρέπει να ελέγξουµε αν ο συντελεστής γ του Sex είναι στατιστικά σηµαντικός. Α τρόπος/ Αφαιρώ από τις τιµές της συνεχούς µτβ την κεντρική τους τιµή Από τα προηγούµενα αποτελέσµατα το γ έχει t value =0.2248366 µπορούµε να δούµε ότι δεν είναι στατιστικά σηµαντική. Αυτό συµβαίνει λόγω της αλληλεπίδρασης της Sex, Dose.log οπότε αφαιρώ την κεντρική τιµ ή 3 (όπως προκύπτει από τη στήλη Dose.log του πίνακα Budworms) για να κεντράρω και παίρνω την νέα µτβ Dose.log.c =Dose.log-3 και ξαναπροσαρµόζω το ΓΓΜ. Εκτελούµε τις εντολές: Budworm$Dose.log.c <- Budworm$Dose.log-3 myglm <- glm(formula = Y ~ Sex * Dose.log.c, family = binomial (link=logit), summary.glm(myglm) και παίρνουµε τα αποτελέσµατα: Call: g lm(formula = Y ~ Sex * Dose.log.c, family = binomial(link = logit), data = Budworm, weights = No)

Deviance Residuals: Min 1Q Median 3Q Max -1.398493-0.3209394-0.07591756 0.3822023 1.103746 Coefficients: Value Std. Error t value (Intercept) -0.2754324 0.2305169-1.194847 Sex 1.2337257 0.3769630 3.272803 Dose.log.c 0.9060364 0.1671011 5.422085 Sex:Dose.log.c 0.3529130 0.2699765 1.307199 ( Dispersion Parameter for Binomial family taken to be 1 ) Null Deviance: 124.8756 on 11 degrees of freedom Residu al Deviance: 4.993727 on 8 degrees of freedom Number of Fisher Scoring Iterations: 5 Correlation of Coefficients: (Intercept) Sex Dose.log.c Sex -0.6115108 Dose.log.c -0.0044634 0.0027294 Sex:Dose.log.c 0.0027626 0.3150210-0.6189470 Από τα προηγούµενα αποτελέσµατα το γ έχει t value =3.272803 µπορούµε να δούµε ότι είναι στατιστικά σηµαντική. Οπότε συγκρίνοντας τα δύο αποτελέσµατα µπορούµε να δούµε ότι εάν έχουµε αλληλεπιδράσεις έχουµε διαφορετική ερµηνεία ανάλογα από το αν κεντράρουµε τις τιµές της διχοτοµικής µτβ Sex ή όχι. Σε αυτό το σηµείο µπορούµε να ελέγξουµε το παρακάτω γράφηµα για να ελέγξουµε την προσαρµογή του µοντέλου. # Plot fitted, compare with data Budworm$fit <- myglm$fitted.values plot(budworm$dose.log,budworm$y) points(budworm$dose.log[budworm$sex=="m"],budworm$y[budworm$sex=="m "],pch="m") points(budworm$dose.log[budworm$sex=="f"],budworm$y[budworm$sex=="f" ],pch="f") lines(budworm$dose.log[budworm$sex=="m"],budworm$fit[budworm$sex=="m "]) lines(budworm$dose.log[budworm$sex=="f"],budworm$fit[budworm$sex=="f"] ) Σχήµα 2.13

1.0 M M Budworm$Y 0.0 0.2 0.4 0.6 0.8 M F M F M F M F F F 0 1 2 3 4 5 Budworm$Dose.log Β τρόπος/ Έλεγχος διαφοράς του λογάριθµου πιθανοφανειών Στα προηγούµενα είδαµε τον έλεγχο της υπόθεσης ότι ο συντελεστής της SEX γ=0 µε βάση την t-statistic. Επειδή στα ΓΓΜ ο έλεγχος αυτός δεν είναι ταυτόσηµος µε τον έλεγχο της διαφοράς του λογάριθµου των πιθανοφανειών, θα χρησιµοποιήσουµε τώρα τον δεύτερο για να ελέγξουµε αν το γ είναι στατιστικά σηµαντικό. Θεωρούµε τα µοντέλα: Μοντέλο υπό την Μοντέλο υπό την : Y ~ Dose.log : Y ~ Sex + Dose.log Τρέχουµε τις εντολές: myglm0 <- glm(formula = Y ~ Dose.log, family = binomial (link=logit), myglm1 <- glm(formula = Y ~ Sex + Dose.log, family = binomial (link=logit), anova.glm(myglm0,myglm1,test="chisq") και παίρνουµε τα εξής αποτελέσµατα:

Analysis of Deviance Table Response: Y Terms Resid. Df Resid. Dev Test Df Deviance Pr(Chi) 1 Dose.log 10 16.98403 2 Sex + Dose.log 9 6.75706 +Sex 1 10.22697 0.00138402 Παρατηρούµε ότι το Chisq-statistic έχει απορρίπτουµε το µοντέλο υπό την. p-value=0.00138402<0.05, οπότε Παρατήρηση Στη συνεχεία, σε όλους τους ελέγχους που θα πραγµατοποιήσουµε θα χρησιµοποιήσουµε την κεντραρισµένη Dose.log.c =Dose.log-3 Έλεγχος αν ο συντελεστής δ της Dose.log:Sex είναι στατιστικά σηµαντικός Ακολουθούµε παρόµοιο σκεπτικό όπως και πριν και ελέγχουµε τώρα τα µοντέλα: Μοντέλο υπό την : Y ~ Sex + Dose.log.c Μοντέλο υπό την : Y ~ Sex * Dose.log.c Τρέχουµε τις εντολές: myglm0 <- glm(formula = Y ~ Sex + Dose.log.c, family = binomial (link=logit), myglm1 <- glm( formula = Y ~ Sex * Dose.log.c, family = binomial (link=logit), anova.glm(myglm0,myglm1,test="chisq") και παίρνουµε τα αποτελέσµατα: και παίρνουµε τα εξής αποτελέσµατα:

Analysis of Deviance Table Response: Y Terms Resid. Df Resid. Dev Test Df Deviance Pr(Chi) 1 Sex + Dose.log.c 9 6.757064 2 Sex * Dose.log.c 8 4.993727 +Sex:Dose.log.c 1 1.763337 0.1842088 Παρατηρούµε ότι το Chisq-statistic έχει p-value=0.1842088>0.05, οπότε δεν µπορού µε να απορρίψουµε το µοντέλο υπό την. Έλεγχος αν ο συντελεστής δ της Dose.log:Sex είναι σηµαντικός στατιστικά Ακολουθούµε παρόµοιο σκεπτικό όπως και πριν και ελέγχουµε τώρα τα µοντέλα: Μοντέλο υπό την : Y ~ Sex + Dose.log.c Μοντέλο υπό την : Y ~ Sex * Dose.log.c Τρέχουµε τις εντολές: myglm0 <- glm(formula = Y ~ Sex + Dose.log.c, family = binomial (link=logit), myglm1 <- glm(formula = Y ~ Sex * Dose.log.c, family = binomial (link=logit), anova.glm(myglm0,myglm1,test="chisq") και παίρνουµε τα εξής αποτελέσµατα:

Analysis of Devian ce Table Response: Y Terms Resid. Df Resid. Dev Test Df Deviance Pr(Chi) 1 Sex + Dose.log.c 9 6.757064 2 Sex * Dose.log.c 8 4.993727 +Sex:Dose.log.c 1 1.763337 0.1842088 Παρατηρούµε ότι το Chisq-statistic έχει p-value=0.1842088>0.05, οπότε δεν µ πορούµ ε να απορρίψουµε το µοντέλο υπό την. 7. Προσαρµογή µοντέλου µε µια συνεχή και µια κατηγορική µεταβλητή επιτρέποντας overdipersion Overdisperision είναι το φαινόµενο κατά το οποίο η διακύµανση της απαντητικής µτβ ξεπερνά την ονοµαστική υποτιθέµενη διακύµανση δηλαδή η dispersion parameter φ άγνωστη και συνεπώς θα υποθέσουµε family = quasi µε σκοπό να προσαρµόσουµε ξανά το µοντέλο: lo git( ) = α + β Dose.log +γsex + δ Dose.log:Sex Εκτελούµε λοιπόν τις εντολές: myglm1 <- glm(formula = Y ~ Sex * Dose.log.c, family = quasi (link=logit,variance="mu(1-mu)"), summary.glm(myglm1) και παίρνουµε: Call: glm(formula = Y ~ Sex * Dose.log.c, family = quasi(link = logit, variance = "mu(1-mu)"),

Deviance Residuals: Min 1Q Median 3Q Max -1.398493-0.3209394-0.07591756 0.3822023 1.103746 Coefficients: Value Std. Error t value (Intercept) -0.2754324 0.1525699-1.805287 Sex 1.2337257 0.2494966 4.944860 Dose.log.c 0.9060364 0.1105975 8.192197 Sex:Dose.log.c 0.3529130 0.1786865 1.975039 (Dispersion Parameter for Quasi-likelihood family taken to be 0.4380582 ) Null Deviance: 124.8756 on 11 degrees of freedom Residu al Deviance: 4.993727 on 8 degrees of freedom Number of Fisher Scoring Iterations: 5 Correlation of Coefficients: (Intercept) Sex Dose.log.c Sex -0.6115108 Dose.log.c -0.0044634 0.0027294 Sex:Dose.log.c 0.0027626 0.3150210-0.6189470 Έλεγχος αν ο συντελεστής δ της Dose.log:Sex σηµαντικός επιτρέποντας τώρα overdispersion είναι στατιστικά Θα πραγµατοποιήσουµε εκ νέου τον έλεγχο που είχαµε κάνει και πριν θεωρώντας overdispersion: Μοντέλο υπό την Μοντέλο υπό την : Y ~ Sex + Dose.log.c : Y ~ Sex * Dose.log.c Τρέχουµε τις εντολές: myglm0 <- glm(formula = Y ~ Sex + Dose.log.c, family = quasi (link=logit,variance="mu(1-mu)"), myglm1 <- glm(formula = Y ~ Sex * Dose.log.c, family = quasi (link=logit,variance="mu(1-mu)"), anova.glm(myglm0,myglm1,test="f") και παίρνουµε τα εξής αποτελέσµατα:

Analysis of Devian ce Table Response: Y Terms Resid. Df Resid. Dev Test Df Deviance F Value Pr(F) 1 Sex + Dose.log.c 9 6.757064 2 Sex * Dose.log.c 8 4.993727 +Sex:Dose.log.c 1 1.763337 4.025348 0.07973077 Παρατηρούµε ότι το Chisq-statistic έχει p-value=0.07973077>0.05, οπότε και πάλι βλέπουµε ότι δεν µπορούµε να απορρίψουµε το µ οντέλο υπό την. 8. Έλεγχος εάν το αθροιστικό µοντέλο χωρίς τις αλληλεπιδράσεις προσαρµόζει επαρκώς τα δεδοµένα Το µοντέλο δηλαδή υποθέτει παράλληλες ευθείες αφού δεν συνυπολογίζει τις αλληλεπιδράσεις. Προφανώς για να πραγµατοποιήσουµε αυτό τον έλεγχο δεν υποθέτουµε overdispersion. Α τρόπος / deviance του µοντέλου από το κορεσµένο Γνωρίζουµε ότι αυτός ο έλεγχος πραγµατοποιείται µε αν θεωρήσουµε ως µέτρο προσαρµογής απόκλιση του µοντέλου από το κορεσµένο δηλαδή την deviance. Γνωρίζουµε ότι υπό την η έχει κατανοµή και συνεπώς θα βρούµε την p-va lue για α=0,05 για να δού µε εάν το µ οντέλο είναι το πραγµατικό. Εκτελούµε τις εντολές: myglm0 <- glm(formula = Y ~ Sex + Dose.log.c, family = binomial (link=logit), # p-value (πήραµε myglm0$deviance= Residual Deviance το ίδιο)

(1-pchisq(myglm0$deviance, myglm0$df.residual, ncp=0) ) και παίρνουµε: (1 - pchisq(myglm0$deviance, myglm0$df.residual, ncp = 0)) [1] 0.6623957 0.6623957> 0,05 οπότε το µοντέλο προσαρµόζει καλά τα δεδοµένα. Β τρόπος / ορισµός κορεσµένο υ µοντέλου και µ ετά σύγκριση του µε το αθροιστικό Αν θεωρήσουµε και την συνεχή µτβ Dose ως παράγοντα Dose.f, θα πάρουµε το ΓΓΜ για διωνυµικά δεδοµένα µε 2 κατηγορικές µτβ. Επίσης αν στο µοντέλο αυτό θεωρήσουµε και την αλληλεπίδραση Sex :Dose.f τότε το µοντέλο αυτό θα είναι το: Κορεσµένο Μοντέλο: Y ~ Sex * Dose.f Επίσης θεωρώντας όπως και πριν για τις κεντραρισµένες τιµές της συνεχούς µτβ Dose.log.c το αθροιστικό: Μ οντέλο υπό την : Y ~ Sex + Dose.log.c ο έλεγχος των δύο µοντέλων είναι εφικτός γιατί το κορεσµένο µοντέλο ορίζει τεθλασµένες ευθείες και όχι κατά ανάγκη παράλληλες ενώ το µηδενικό µοντέλο παράλληλες ευθείες. Εκτελούµε τις παρακάτω εντολές : - Μετατροπή της Dose σε παράγοντα µε χρήση της as.factor Budworm$Dose.f <- as.factor(budworm$dose) - ΓΓΜ µε µια συνεχή και ένα παράγοντα (µοντέλο υπό την ) myglm0 <- glm(formula = Y ~ Sex + Dose.log.c, family = binomial (link=logit), - ΓΓΜ µε δύο παράγοντες (κορεσµένο) myglm1 <- glm(formula = Y ~ Sex * Dose.f, family = binomial (link=logit), data = Budworm, weights = No,maxit=30)

- Συγκρίνουµε τα δύο µοντέλα anova.glm(myglm0,myglm1,test="chisq") και παίρνουµε: Analysis of Deviance Table Response: Y Ter ms Resid. Df Resid. Dev Test Df Deviance Pr(Chi) 1 Sex + Dose.log.c 9 6.757064 2 Sex * Dose.f 0 0.000000 1 vs. 2 9 6.757064 0.6623957 Παρατηρού µε ότι το Chisq-statistic προφανώς έχει το ίδιο p-value=0.6623957>0.05, και µε τον Α τρόπο οπότε και πάλι δεν µπορούµε να απορρίψουµε το µοντέλο υπό την. 9. Έλεγχος εάν η υπόθεση της γραµµικότητας είναι ορθή για το αθροιστικό µοντέλο χωρίς τις αλληλεπιδράσεις Α) χωρίς να υποθέτουµε overdispersion Για να πραγµατοποιήσουµε αυτό τον έλεγχο θα συγκρίνουµε τα παρακάτω µοντέλα. Το µοντέλο για τις κεντραρισµένες τιµές της συνεχούς µτβ Dose.log.c δηλαδή: Μοντέλο υπό την : Y ~ Sex + Dose.log.c και το µοντέλο που θεωρούµε την Dose ως παράγοντα: Μοντέλο υπό την : Y ~ Sex + Dose.f ο έλεγχος των δύο µοντέλων είναι εφικτός γιατί το µοντέλο ορίζει τεθλασµένες παράλληλες ευθείες ενώ το µηδενικό µοντέλο παράλληλες ευθείες γραµµές. Εκτελούµε τις εντολές : myglm 1 <- glm(formula = Y ~ Sex + Dose.log.c, family = binomial (link=logit), myglm0 <- glm(formula = Y ~ Sex + Dose.f,

family = binomial (link=logit), anova.glm(myglm0,myglm1,test="chisq") και παίρνουµε: Analysis of Deviance Table Response: Y Terms Resid. Df Resid. Dev Test Df Deviance Pr(Chi) 1 Sex * Dose.log.c 8 4.993727 2 Sex * Dose.log.c + Sex * Dose.log.c^2 6 3.171634 2 1.822094 0.4021031 Παρατηρούµε ότι το Chisq-statistic έχει p-value=0.4021031>0.05, και συνεπώς δεν µπορούµε να απορρίψουµε το µοντέλο υπό την. Β) Υποθέτωντας overdispersion Θα συγκρίνουµε και πάλι τα µοντέλα: Μ οντέλο υπό την : Y ~ Sex + Dose.log.c Μοντέλο υπό την : Y ~ Sex + Dose.f Επειδή όµως υποθέσαµε overdispersion επιλέγουµε family = quasi και εκτελούµε τις εντολές : myglm1 <- glm(formula = Y ~ Sex * Dose.log.c+ Sex * Dose.log.c^2, family = quasi (link=logit,variance="mu(1-mu)"), myglm0 <- glm(formula = Y ~ Sex * Dose.log.c, family = quasi (link=logit,variance="mu(1-mu)"), summary.glm(myglm1) anova.glm(myglm0,myglm1,test="f") και παίρνουµε:

Response: Y Terms Resid. Df Resid. Dev Test Df Deviance F Value Pr(F) 1 Sex * Dose.log.c 8 4.993727 2 Sex * Dose.log.c + Sex * Dose.log.c^2 6 3.171634 2 1.822094 2.26577 0.1849175 Παρατηρούµε ότι το Chisq-statistic έχει p-value=0.1849175>0.05, και δεν µπορούµε να απορρίψουµε το µοντέλο υπό την. 10. Έλεγχος εάν στο µοντέλο µε συνεχή µτβ την Dose και κατηγορική µτβ το Sex που επιτρέπει αλληλεπιδράσεις Dose: Sex, πρέπει να προσθέσω και τετραγωνικό όρο Dose^2 Υπενθύµιση: Από το Σχήµα 2.8 είδαµε ότι στο διάγραµµα για τα θηλυκά σκουλήκια υπάρχει καµπυλότητα οπότε ίσως θα πρέπει να προσθέσουµε και ένα τετραγωνικό όρο την Dose^2 αυτή την υπόθεση θα ελέγξουµε εδώ. Τα µοντέλα που θα συγκρίνουµε είναι: Το µοντέλο για τις κεντραρισµένες τιµές της συνεχούς µτβ Dose.log.c που επιτρέπει αλληλεπιδράσεις µε το Sex: Μοντ έλο υπό την : Y ~ Sex * Dose.log.c και το µοντέλο για τις κεντραρισµέν ες τιµές της συνεχούς µτβ Dose.log.c που επιτρέπει αλληλεπιδράσεις µε το Sex και θεωρεί και τον όρο Dose.log.c^2 : Μ οντέλο υπό την : Y ~ Sex * Dose.log.c+ Sex * Dose.log.c^2 Για το µοντέλο θα βρούµε και την summary. Θα συγκρίνουµε τα παραπάνω µοντέλα αρχικά χωρίς την υπόθεση για overdispersion και στην συναίχεια θεωρώντας και overdispersion. Α ) Χωρίς να υποθέτουµε overdispersion

Εκτελούµε τις εντολές: myglm1 <- glm(formula = Y ~ Sex * Dose.log.c+ Sex * Dose.log.c^2, family = binomial (link=logit), myglm0 <- glm( formula = Y ~ Sex * Dose.log.c, family = binomial (link= logit), summary.glm(myglm1) anova.glm(myglm0,myglm1,test="chisq") και παίρνουµε: > summary.glm( myglm1) Call: glm(formula = Y ~ Sex * Dose.log.c + Sex * Dose.log.c^2, family = binomial(link = logit), Deviance Residuals: Min 1Q Median 3Q Max -0.8745808-0.4613257 0.108725 0.3844015 0.8838722 Coefficients: Value Std. Error t value (Intercept) -0.01080267 0.3143193-0.03436845 S ex 0.89793291 0.4565069 1.96696457 Dose.log.c 0.87566178 0.1768918 4.95026694 I(Dose.log.c^2) -0.14550404 0.1229560-1.18338254 Sex: Dose. log. c 0.49198592 0.3575555 1.37597076 Value Std. Error t value Sex:I(Dose.log.c^2) 0.2213936 0.1888338 1.172425 (Dispersion Parameter for Binomial family taken to be 1 ) Null Deviance: 124.8756 on 11 degrees of freedom Residual Deviance: 3.171634 on 6 degrees of freedom Number of Fisher Scoring Iterations: 5 Correlation of Coefficients: (Intercept) Sex Dose.log.c I(Dose.log.c^2) Sex:Dose.log.c Sex -0.6885313 Dose.log.c -0.0933178 0.0642522 I(Dose.log.c^2) -0.6734831 0.4637142-0.0150653 Sex:Dose.log.c 0.0461667 0.0329740-0.4947255 0.0074532 Sex:I(Dose.log.c^2) 0.4385275-0.4973120 0.0098095-0.6511336 0.4735001

Response: Y Terms Resid. Df Resid. Dev Test Df Deviance Pr(Chi) 1 Sex * Dose.log.c 8 4.993727 2 Sex * Dose.log.c + Sex * Dose.log.c^2 6 3.171634 2 1.822094 0.4021031 Παρατηρούµε ότι το Chisq-statistic έχει p-value=0.4021031>0.05, και δεν µπορούµε να απορρίψουµε το µοντέλο υπό την. Α) Υποθέτωντας overdispersion Επιλέγοντας family=quasi εκτελούµε τις εντολές: myglm1 <- glm(formula = Y ~ Sex * Dose.log.c+ Sex * Dose.log.c^2, family = quasi (link=logit,variance="mu(1-mu)"), myglm0 <- glm(formula = Y ~ Sex * Dose.log.c, family = quasi (link=logit,variance="mu(1-mu)"), summary.glm(myglm1) anova.glm(myglm0,myglm1,test="f") και παίρνουµε: > summary.glm(myglm1) Call: glm(formula = Y ~ Sex * Dose.log.c + Sex * Dose.log.c^2, family = quasi(link = logit, variance = "mu(1-mu)"), Deviance Residuals: Min 1Q Median 3 Q Max -0.8745808-0.4613257 0.108725 0.3844015 0.8838722 Coefficients: Value Std. Error t value (Intercept) -0.01080267 0.19931200-0.05419978 Sex 0.89793291 0.28947412 3.10194535 Dose.log.c 0.87566178 0.11216831 7.80667723 I(Dose.log.c^2) -0.14550404 0.07796726-1.86621968 Sex: Dose. log. c 0.49198592 0.22672837 2.16993542 Value Std. Error t value Sex:I(Dose.log.c^2) 0.2213936 0.1197408 1.84894

(Dispersion Parameter for Quasi-likelihood family taken to be 0.4020914 ) Null Deviance: 124.8756 on 11 degrees of freedom Response: Y Terms Resid. Df Resid. Dev Test Df Deviance F Value Pr(F) 1 Sex * Dose.log.c 8 4.993727 2 Sex * Dose.log.c + Sex * Dose.log.c^2 6 3.171634 2 1.822094 2.26577 0.1849175 Παρατηρούµε ότι το Chisq-statistic έχει p-value=0.1849175>0.05, και δεν µπορούµε, να απορρίψουµε το µοντέλο υπό την.