ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ «ΓΕΝΙΚΕΥΜΕΝΑ ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ ΣΤΗΝ ΕΠΙΔΗΜΙΟΛΟΓΙΑ» ΤΟΥ ΚΩΝΣΤΑΝΤΙΝΟΥ ΦΟΥΝΤΟΥΚΙΔΗ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΖΗΜΕΡΑΣ ΣΤΕΛΙΟΣ ΣΑΜΟΣ 2017 Α.Μ : 331/2012133 1
ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή μου κ. Ζήμερα Στέλιο για την βοήθεια, την υπομονή του και την καθοδήγηση του στην εκπόνηση της Πτυχιακής μου Εργασίας. Επίσης ευχαριστώ θερμά όλους τους καθηγητές του Πανεπιστημίου για τις γνώσεις που μου μετέδωσαν όλα τα έτη των σπουδών μου που χωρίς αυτές δεν θα είχα την δυνατότητα εκπόνησης της παρούσας Πτυχιακής Εργασίας.. Επίσης θα ήθελα να ευχαριστήσω την οικογένεια μου και τους κοντινούς μου ανθρώπους για την υλική και ψυχολογική συμπαράσταση, που μου πρόσφεραν όλο αυτό το διάστημα που ήταν πολύτιμη. 2
ΚΕΦΑΛΑΙΑ Περιεχόμενα 1. ΓΕΝΙΚΕΥΜΕΝΑ ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ 1.1 Το Γενικευμένο Γραμμικό Μοντέλο,...8 1.2 Εκθετική Οικογένεια Κατανομών,.11 1.3 Συναρτήσεις σύνδεσης,.19 1.4 Το Διωνυμικό Γενικευμένο Γραμμικό Μοντέλο,.22 1.4.1 Ανάλυση κατά ένα παράγοντα,.25 1.4.2 Ανάλυση με μία συνεχή μεταβλητή,.28 1.4.3 Μια συνεχής και μια κατηγορική μεταβλητή,...29 1.4.4 Μοντέλο με δυο κατηγορικές μεταβλητές,...33 2. ΜΕΘΟΔΟΙ ΕΚΤΙΜΗΣΗΣ ΠΑΡΑΜΕΤΡΩΝ και ΕΠΑΡΚΕΙΑ ΜΟΝΤΕΛΟΥ 2.1 Γενικευμένα Ελάχιστα Τετράγωνα, 39 2.2 Μέθοδος Μέγιστης Πιθανοφάνειας,...44 2.3 Μέθοδος Newton-Raphson, 47 2.4 Επάρκεια μοντέλου, 49 2.5 Εκτίμηση του Γενικευμένου Γραμμικού Μοντέλου,.51 3. ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ 3.1 Εισαγωγή,...54 3.1.1 Το Λογιστικό Μοντέλο, 55 3.1.2 Πολλαπλή Λογιστική Παλινδρόμηση,..60 3.1.3 Διχοτομική Ανεξάρτητη Μεταβλητή,...66 3.1.4 Logt μοντέλα για κατηγορικά δεδομένα,.69 3.1.5 Αλληλεπιδράσεις στη Λογιστική Παλινδρόμηση, 75 4. LOG-LINEAR ΜΟΝΤΕΛΑ 4.1 Log-Lnear και Πίνακες Συνάφειας,...81 3
4.1.1 Loglnear μοντέλο για δυο διαστάσεις,.84 4.1.2 Μοντέλο Ανεξαρτησίας,...85 4.1.3 Κορεσμένο Μοντέλο, 86 4.1.4 Ερμηνεία των παραμέτρων,..87 4.1.5 Το Γενικευμένο Posson Μοντέλο,...90 4.2 Η δομή του πίνακα για τρεις διαστάσεις,...95 4.2.1 Μερική συσχέτιση και τύποι ανεξαρτησίας,.95 4.2.2 Τρεις παράγοντες αλληλεπίδρασης,..97 4.3 Loglnear Μοντέλα για τρεις Διαστάσεις...98 4.3.1 Ιεραρχικά Loglnear Μοντέλα,..98 4.3.2 Ερμηνεία των παραμέτρων του μοντέλου, 99 5. ΣΥΜΠΕΡΑΣΜΑΤΑ.107 Παράρτημα 1 111 Παράρτημα 2 (Κώδικάς που χρησιμοποιήσαμε στην Πτυχιακή Εργασία στην R )..112 Βιβλιογραφία 120 4
Περίληψη Στην παρούσα εργασία εξετάζουμε τα γενικευμένα γραμμικά μοντέλα και το πώς αυτά εφαρμόζονται στην επιδημιολογία. Στην αρχή αναλύουμε τη δομή του γενικευμένου γραμμικού μοντέλου τις συνιστώσες του, την εκθετική οικογένεια κατανομών και τις συναρτήσεις σύνδεσης στην εργασία δίνουμε έμφαση στις συναρτήσεις σύνδεσης logt και log. Επίσης κάνουμε μια ανάλυση του Διωνυμικού γενικευμένου γραμμικού μοντέλου. Έπειτα αναλύουμε τις μεθόδους που μπορούμε να χρησιμοποιήσουμε για την εκτίμηση των παραέτρων ενός γ.γ.μ και το πώς μπορούμε να επιλέξουμε το καταλληλότερο μοντέλο. Μελετάμε την λογιστική παλινδρόμηση, το απλό και πολλαπλό logt μοντέλο και το γενικευμένο Posson. Επίσης δίνουμε μεγάλη έμφαση στην ανάλυση για τα log-lnear μοντέλα και τους πίνακες συνάφειας για τα κατηγορικά δεδομένα που έχουμε. Εστιάζουμε την προσοχή μας στην εύρεση παραγόντων κινδύνων που επηρεάζουν τις γεννήσεις μωρών χαμηλού βάρους όπως κάπνισμα. Την εφαρμογή στα δεδομένα την αναλύουμε χρησιμοποιώντας τα γενικευμένα γραμμικά μοντέλα. 5
Abstract In ths partcular project we study the generalzed lnear models and how they are used n epdmology. At frst we analyze the structure of the generalzed lnear model and ts components, the exponental famly of dstrbutons, the lnk functons and we emphasze on the logt and log lnk functons. Furthermore we wll analyze the Bnomal generalzed lnear model. We wll also analyze the methods that can be used to estmate the factors of a generalzed lnear model and how we can select the most sutable model. We study the logstc regresson, and the sngle and multple logt model and the generalzed Posson. We especally emphasze the analyss for the log-lnear model and the relevance matrces and for the categorcal data we have. We focus our attenton on the factors that affect the brths of babes wth small bodyweght at brth, such as smokng. We analyze ths applcaton on the data wth the use of generalzed lnear models. 6
Εισαγωγή Τα Γενικευμένα Γραμμικά Μοντέλα(Generalzed lnear models) είναι μια φυσική γενίκευση των κλασικών γραμμικών μοντέλων τα οποία περιλαμβάνουν σαν ειδική περίπτωση την γραμμική παλινδρόμηση, την ανάλυση διασποράς, τα logt και probt μοντέλα, τα log-lnear και τα πολυωνυμικά μοντέλα, καθώς και κάποια μοντέλα της Ανάλυσης Επιβίωσης. Αποδεικνύεται ότι αυτά τα μοντέλα μοιράζονται κάποιες κοινές ιδιότητες, ενώ έχουν κοινή μέθοδο εκτίμησης παραμέτρων. Αυτές οι κοινές ιδιότητες μας επιτρέπουν να μελετήσουμε μέσων των γενικευμένων γραμμικών μοντέλων μια ευρεία ομάδα στατιστικών μοντέλων παρά το καθένα από αυτά ξεχωριστά. Η θεματολογία των γενικευμένων γραμμικών μοντέλων, στο μεγαλύτερο μέρος της, δεν αποτελεί κάτι νέο στην στατιστική, αλλά ουσιαστικά ομαδοποιεί έννοιες και τεχνικές που προϋπάρχουν δημιουργώντας ένα ενοποιημένο θεωρητικό και εννοιολογικό πλαίσιο. Η πρόοδος στη στατιστική θεωρία μαζί με την ανάπτυξη των υπολογιστών μας επέτρεψαν να δημιουργήσουμε μεθόδους ανάλογες με αυτές που έχουν αναπτυχθεί για τα γραμμικά μοντέλα σε περιπτώσεις που οι αποκρίσεις ακολουθούν κατανομή διαφορετική από την κανονική, δεν είναι απαραίτητα συνεχείς (μπορεί να είναι κατηγορικές μεταβλητές) και δεν χρειάζεται να είναι στην απλή γραμμική μορφή. Το 1972 οι Nelder και Wedderburn παρουσίασαν μια ενοποιημένη θεωρία για γραμμικά μοντέλα που δεν απαιτεί την υπόθεση της κανονικότητας για τη μεταβλητή απόκρισης. Σύμφωνα με αυτή, τα γραμμικά μοντέλα μπορούν να μελετηθούν ενιαία κάτω από την υπόθεση ότι η κατανομή της μεταβλητής απόκρισης ανήκει στην Εκθετική οικογένεια κατανομών.ως Επιδηµιολογία ορίζουµε την Επιστήµη που µελετάει την κατανοµή και της εξέλιξη διαφόρων νοσηµάτων ή χαρακτηριστικών στον ανθρώπινο πληθυσµό και των παραγόντων που τον διαµορϕώνουν ή τον επηρεάζουν. Ως «Επιδηµία» µπορούµε να ορίσουµε µία νόσο όταν η συχνότητα εµφάνισης της είναι πολύ µεγαλύτερη από τη συνηθισµένη. Στόχοι της Επιδηµιολογίας είναι οι ακόλουθοι : 1. Η µέτρηση και περιγραφή της νοσηρότητας και ϑνησιµότητας ενός πληθυσµού. 2. Ο έλεγχος της χρονικής εξέλιξης µίας νόσου. 7
3. Η ανακάλυψη αιτιολογικών παραγόντων που προκαλούν µια νόσο (επαγωγική Επιδηµιολογία). 4. Η µελέτη των συνθηκών και των αιτιών που προκαλούν επιδηµίες (montorng) για παϱάδειγµα κάπνισµα και καρκίνος των πνευµόνων. 5. Η κατανόηση της ιστορίας των νοσηµάτων (για πρόληψη και έλεγχοscreenng). 6. Η ταξινόµηση των νοσηµάτων. 7. Ο προγραµµατισµός, οργάνωση και αξιολόγηση των υπηρεσιών υγείας. 8
Κεφάλαιο 1 1.1 Το Γενικευμένο Γραμμικό Μοντέλο Στο Γραμμικό Μοντέλο μία σημαντική υπόθεση που ξέρουμε, είναι η κανονικότητα της μεταβλητής απόκρισης, δηλαδή να ακολουθεί την Κανονική κατανομή. Μια δημοφιλής πρακτική, πλέον, που χρησιμοποιείται ακόμα και σε περιπτώσεις που η υπόθεση της κανονικότητας δεν ισχύει ούτε προσεγγιστικά είναι η χρήση των γενικευμένων γραμμικών μοντέλων (Generalzed Lnear Models, GLM). Το Γενικευμένο γραμμικό μοντέλο αποτελείται από τρείς συνιστώσες: 1) Τη κατανομή που ακολουθεί η μεταβλητή απόκρισης Υ. 2) Μία γραμμική παράμετρος πρόβλεψης που περιέχει τις μεταβλητές x. 3) Τη συνάρτηση σύνδεσης (lnk functon) η οποία ενώνει τη γραμμική παράμετρο πρόβλεψης με τη μέση τιμή της απόκρισης. Το Γενικευμένο γραμμικό μοντέλο με χρήση πινάκων: Ας ξεκινήσουμε με την μορφή του πίνακα 1 x12 x1 p x21 x22 x 2 p xnp xn2 xnp Η μορφή της g( E( Y )) είναι : 1 2 των συντελεστών p Δηλαδή η ολοκληρωμένη μορφή : EY ( 1) EY ( 2) g και EY ( n ) άρα g( E( Y )) : 9
EY ( 1) 1 x12 x1 p 1 EY ( 2) x21 x22 x 2 p 2 g EY ( ) x x x p n n1 np n2 np n p p1 1,..., n, g( E( Y1 )) 1 x12 x1 p 1 g( E( Y2 )) x21 x22 x 2 p 2 g( E( Y )) x x x p n n1 np n2 np n p p1 Γραμμική Παλινδρόμηση Στη Στατιστική η Γραμμική Παλινδρόμηση είναι μια προσέγγιση για την μοντελοποίηση της σχέσης μεταξύ μιας βαθμωτής εξαρτημένης μεταβλητής Y με μία ή περισσότερες επεξηγηματικές μεταβλητές Χ (ανεξάρτητη μεταβλητή). Το γραμμικό μοντέλο: Γράφεται y το οποίο με την βοήθεια πινάκων παίρνει τη μορφή y1 1 x x 12 1p 1 1 y x 2 x 21 x22 2p 2 2 y x n xn1 np p n όπου y ( y1, y2,... yn) είναι η στήλη των παρατηρήσεων της εξαρτημένης μεταβλητής,ο πίνακας Χ διάστασης n p είναι ο πίνακας των τιμών των ανεξάρτητων μεταβλητών. Κάθε γραμμή αναφέρεται σε μια διαφορετική παρατήρηση και κάθε στήλη σε διαφορετική ανεξάρτητη μεταβλητή. Η στήλη των παραμέτρων ( 1,, p) θεωρούνται άγνωστοι και πρέπει να εκτιμηθούν. 10
Η στήλη των υπολοίπων ( 1,, n) είναι στήλη των τυχαίων σφαλμάτων.ακόμη ότι το cov(, j) 0 j δηλαδή είναι ανα δύο μεταξύ τους ασυσχέτιστα. Η συνήθης υπόθεση που υιοθετούμε στο παραπάνω γραμμικό μοντέλο είναι ότι τα είναι ανεξάρτητα με την ίδια κατανομή. 1,, n 2 (0, ) Παρακάτω βλέπουμε την κατανομή της εξαρτημένη μας μεταβλητή y(heght) να ακολουθεί την κανονική κατανομή όπου με μια ανεξάρτητη x(bodymass) μπορούνε να κάνουμε γραμμική παλινδρόμηση. Πηγή : Ίδια επεξεργασία 11
1.2 Εκθετική Οικογένεια Κατανομών Ορισμός:Η πυκνότητα μιας τυχαίας μεταβλητής Υ ανήκει στη Εκθετική οικογένεια κατανομών με παράμετρο ενδιαφέροντος θ και οχληρά παράμετρο (nusance), όταν μπορεί να γραφτεί στη μορφή: f ( y,, ) exp y b( ) c( y, ) exp y exp b( ) exp( c( y, )) a( ) a( ) a( ) για κατάλληλες συναρτήσεις για τα α,b,c. Ο παραπάνω ορισμός σημαίνει ότι η f σπάει σε ένα γινόμενο παραγόντων έτσι ώστε : Στον παράγοντα που συνυπάρχουν y,θ η σχέση τους είναι logγραμμική και το εμφανίζεται ως παράγων. a( ) Στον παράγοντα που συνυπάρχουν θ, η σχέση τους γράφεται ως πηλίκο. Στον παράγοντα που συνυπάρχουν y, η σχέση τους μπορεί να είναι οποιαδήποτε. Συνήθως υποθέτουμε ότι η είναι γνωστή. Το θα παίζει τον ρόλο παραμέτρου κλίμακας κάτι δηλαδή σαν διακύμανση. Όταν η f γραφτεί στην τυπική της μορφή όπου η δεν υπάρχει ο παραμετρικός χώρος της f είναι το σύνολο : f ( y; ) dy. Πολλές γνωστές κατανομές ανήκουν στην Εκθετική οικογένεια κατανομών όπως η Posson η υωνυµική, η Κανονική κατανομή μπορούν να γραφτούν στην κανονική τους μορφή. Παράδειγμα για Posson: f( y; ) y e y! exp [ yln ln y!] Όπου a( ) y, b( ) ln, c( ), h( y) ln y!. Προφανώς η παραπάνω κατανομή είναι στην κανονική της μορφή. Αν θα την παραμετρικοποιήσουμε σε σχέση με την φυσική παράμετρος ln,η Posson μπορεί να γραφτεί και στην τυπική της μορφή με παραμετρικό χώρο. 12
Δεν είναι όλες οι κατανομές εκθετικής μορφής. Πχ η ομοιόμορφή στο διάστημα (θ,2) με θ<2 και η Cauchy. Στη συνέχεια για να παράγουμε κάποιες ιδιότητες της εκθετικής οικογένειας κατανομών θα χρειαστούμε την ακόλουθη πρόταση. f( x; ) Πρόταση 2.1:Αν η είναι μια οικογένεια κατανομών ( όχι κατά ανάγκη εκθετικής μορφής ) για την οποία επιτρέπεται η παραγώγηση ως προς θ κάτω από το ολοκλήρωμα ως προς x τότε ισχύουν τα ακόλουθα. 1) f( x; ) E(log f ( x; )) E 0 f ( x ; ) Var((log f ( x; )) E log f ( x; ) 2) Απόδειξη: (Βλέπε Τζαβέλας (2011)) Πρόταση 2.2:Αν η κατανομή της τ.μ Υ είναι εκθετική μορφής τότε ισχύουν τα εξής: c( ) 1) [ ( )] b ( ) b ( ) c( ) c( ) b( ) 2) Var[ ( )] 3 [ b( )] Απόδειξη: (Βλέπε Τζαβέλας (2011)) Παρατήρηση: Όταν η εκθετική οικογένεια κατανομών είναι στην τυπική της μορφή δηλαδή f ( y; ) exp[ y k( ) d( y)] τότε οι δύο παραπάνω σχέσεις γράφονται : 1. E[ Y ] c( ) 2. Var[ Y ] c( ) Σημαντικές ιδιότητες των κατανομών Εκθετικής μορφής: 13
1) Ο παραμετρικός χώρος Θ για τις κατανομές τυπικής εκθετικής μορφής είναι κυρτό. 2) Για τις ροπές η παράγωγος ως προς n f ( x)exp[ T ( x) d j 1 j j X μπορεί να περάσει κάτω από το σύμβολο της ολοκλήρωσης 3) Για τις κατανομές της μορφής που δείχνει ο ορισμός, παραμετρικοποιημένη με την φυσική παράμετρο ισχύει ότι: cov( T ( ) ( )) 2 c ( ) x Tj x j 4) Για τις κατανομές τυπικής εκθετικής μορφής η διακύμανση είναι αυστηρώς μονότονη συνάρτηση της μέσης τιμής. 5) Ο εκτιμητής μέγιστης πιθανοφάνειας για την φυσική παράμετρο θ υπάρχει πάντα και είναι μεροληπτικός εκτός από την κανονική κατανομή. 6) Η εκθετική οικογένεια κατανομών όταν δεν υπάρχει το έχει την ιδιότητα του μονότονου λόγου πιθανοφάνειας, μια ιδιότητα πολύ σημαντική για τον έλεγχο υποθέσεων. Υπολογισμός μέσης τιμής και διακύμανσης Για τον υπολογισμό θα χρησιμοποιήσουμε τη συνάρτηση των scores τον Hessan και Fsher πίνακα. Για τα scores : U( ) : log( f ( y,, )) Ο Hessan είναι Ο Fsher είναι b( ) H( ) : U( ) a( ) b( ) I( ) : E( H( )) a( ) yb( ) a( ) Όπου H( ), I( ) δεν εξαρτώνται πια από το y αυτό οφείλεται στη γραμμικότητα της σχέσης y,θ στον πρώτο παράγοντα. (0) Συμβολίζουμε τη πραγματική παράμετρο άρα η μέση τιμή της Υ είναι: 14
(0) (0) Y b( ) E (0) ( U( )) 0 E 0 a( ) EY b Διακύμανση : (0) ( ) Var U I (0) (0) ( ( )) ( ) (0) Var Y a b Αν θέσουμε b 1 ( ) (0) ( ) ( ) ( ) EY Y b b Var a( ) a( ) τότε έπεται η αντίστροφη συνάρτηση της b (0) (0) ( ) ( ) 1 b( ) b ( ) όπου Επίσης Var Y a b a b b 1 ( ) ( ) ( ) ( ) ( ( )) V 1 ( ) : b ( b ( )) Αν ορίσουμε τη συνάρτηση:, τότε η Var( Y ) γράφεται ως εξής: Var( Y ) a( ) V( ). Δηλαδή η διακύμανση της Υ επιτρέπεται να εξαρτάται από το μ, μέσω μιας συνάρτησης V, που θα είναι διαφορετική για κάθε συγκεκριμένη κατανομή. Πάντως τα Υ δεν είναι απαραίτητα ομοσκεδαστικά, όταν έχουν διαφορετικούς μέσους. Η συνάρτηση a( ) συνήθως έχει τη μορφή όπου το είναι μια παράμετρος κλίμακας και το W ένα σταθμό (π.χ αριθμός παρατηρήσεων) Ας δούμε κάποιες κατανομές που ανήκουν στην εκθετική οικογένεια κατανομών που θα μας χρησιμεύσουν όπως η Posson, Bernoull, Bnomal και Multnomal. Posson Η Posson(θ) είναι εκθετική με κανονική παράμετρο log( ) y e f ( y; ) exp( ylog( ) log( y!)) y! exp( ylog( ) exp(log( )) log( y!)). w, 15
y exp( ) Άρα σύμφωνα με τον ορισμό βλέπουμε : log( ), b( ) exp( ) c( y, ) log( y!), a( ) 1 Έχουμε: E( Y ) b( ) exp(log( )) και Var( Y ) a( ) b( ) 1exp( ), V. 1 ( ) b ( b ( )) exp(log( )) Πηγή : Ίδια επεξεργασία Bnomal Η Δυωνυμική b( n, p) / n f ( y, p) p (1 p) ny n με n γνωστό είναι εκθετική ny n(1 y) 16
exp ny log( p) n(1 y)log(1 p) log n ny p ylog log(1 p) 1 p n exp log (1/ n) ny Άρα p log 1 p η κανονική παράμετρος e p 1 e e b( ) log(1 p) log1 log(1 e ) 1 e cy (, ) log n ny 1 a( ) n e E( Y ) b( ) (log(1 e )) p 1 e 1 e Και var( Y ) a( ) b( ) n 1 e V 1 ( ) b ( b ( )) (1 ) 17
Πηγή : Ίδια επεξεργασία Πολυωνυμική Μια τ.μ Χ ακολουθεί την Multnomal(n,θ) με συνάρτηση πιθανότητας n n! x px ( ) x {0,1,2,..., n}, x n x! x!... x! 1 2 n 1 p Και { : 1} Μπορούμε να την γράψουμε με την κανονική μορφή της. p x x1 1 x p p ( ) exp(... ) όπου log Αν εκφράσουμε με x1,, x1 p όρους 18
p1 nx p1 n n p x 1 p n x1 1 px ( ) 1... p x n exp( 1x1... p 1xp1 a( )) x όπου log p μπορεί να υπολογιστεί: p e x και a( ) 1 p p e p 1 e a( ) nlogp nlog(1 e ) n 1 Επιπλέον η Πολυωνυμική έχει παράγεται από ( ) ( 1,, 1 ). t x x x p Μήπως ο αντιστοιχεί με το? p 1 διαστάσεις εκθετικής οικογένειας που { : exp{ x... x } } p 1 p1 1 1 p1 p1 xx Αυτό περιέχει p 1 διαστάσεων ορθογώνιο και έτσι η Πολυωνυμική είναι full rank p 1 διαστάσεις εκθετικής οικογένειας. 19
1.3 Συναρτήσεις σύνδεσης Έστω ότι για κάθε άτομο 1,, n εκτός από την παράγοντες X,, 1 X. p Y παρατηρούμε p EY Στο Γενικευμένο Γραμμικό μοντέλο επιτρέπουμε : να T εξαρτάται από το : x μέσω μιας γνωστής συνάρτησης συνδέσμου g. : g( ) T ή x g( E( Y )) Η g μπορεί να είναι οποιαδήποτε αμφιμονοσήμαντη συνάρτηση με πεδίο ορισμού το πεδίο όπου η συγκεκριμένη εκθετική οικογένεια επιτρέπει να ( ) EY g. Αυτός ο µετασχηµατισµός είναι µία είναι η δηλαδή : αναγκαιότητα γιατί σε πολλές εφαρμογές οι δυο αυτές συναρτήσεις δεν έχουν το ίδιο πεδίο τιμών. Υποθέτουμε ότι ο μετασχηματισμένος μέσος ακολουθεί ένα γραμμικό μοντέλο X T. Επειδή η συνάρτηση σύνδεσης είναι αντιστρέψιμη 1 1 T g g X και ένα προς ένα, έχουμε ( ) ( ). Ουσιαστικά θέλουμε να συνδέσουμε τις αναμενόμενες τιμές της μεταβλητής απόκρισης με τον γραμμικό παράγοντα. Ας ορίσουμε ( x) E( Y X x) και υποθέτουμε ότι ( x) εξαρτάται από μια πεπερασμένο διαστάσεων παράμετρο, συγκεκριμένα ( x; ) ( x) ( ). Όπου x1pp1. Στο γραμμικό μοντέλο, ( x; ) x και τυπικά δεν περιορίζουμε το, το ( x; ) παίρνει τιμές σε όλο το. Από την άλλη, η συνάρτηση σύνδεσμος της διωνυμικής οικογένειας το λεγόμενο logt ουσιαστικά, θέλουμε μια g τέτοια ώστε : g( p ) p (0,1) g : Άρα πρέπει 0,1 20
Η «κανονική» συνάρτηση σύνδεσμος της διωνυμικής οικογένειας είναι : p log t( p) : log 1 p Από το p (πιθανότητα Υ=1), ορίζουμε το λεγόμενο λόγο συμπληρωματικών πιθανοτήτων(odds) p 1 p πιθανότητα του Υ=1 προς την πιθανότητα του Υ=0. Άλλες συναρτήσεις σύνδεσμοι. Αυτός μας δίνει τη Το logt προτιμάται διότι έχει μια πιο άμεση ερμηνεία που αφορά τα odds!.ωστόσο μπορεί να χρησιμοποιηθεί ως συνάρτηση σύνδεσμος 1 οποιασδήποτε g( p) F ( p) με F την αθροιστική συνάρτηση κατανομής μιας τυχαίας μεταβλητής που παίρνει τιμές στο (, ). Έτσι συχνά χρησιμοποιούνται: 1 Η probt ( p) : ( p) όπου η αθροιστική της κανονικής κατανομής. Η «complementary log-log» : log( log(1 p)), που είναι η αντίστροφή της αθροιστικής σ.κ του log (εκθετικής κατανομής). Η συνάρτηση g( p) log{ log( p)} Τέλος, η ίδια η logt είναι και αυτή αντίστροφη της αθροιστικής συνάρτησης κατανομής της logstc κατανομής. 21
Τύπος Όνομα Αντίστροφη α.σ.κ g ( ) log Logt Logstc κατανομή: 1 x 1 e f x x 2 (1 e ) g ( 1 ( 2 Probt ή unverse 1 1 2 normal fx exp x 2 2 g 3 ( ) log( log(1 )) x fx exp( x e ) log-log g ( ) log{ log( )} Log-log -log(εκθετικής) 4 Πηγή: J. Foster και Π. Δελλαπόρτας, Ε. Rodrguez (2010) Από το παραπάνω σχήμα παρατηρούμε τα εξής: 1) Η logt και η Probt σχετίζονται σχεδόν γραμμικά για τιμές του π στο διάστημα 0,1 π 0,9. Για τον λόγο αυτό είναι δύσκολη η διάκριση μεταξύ των δυο αυτών συναρτήσεων όταν πρόκειται για ζητήματα καλής προσαρμογής. 2) Για μικρές τιμές του π, η συμπληρωματική log-log συνάρτηση είναι κοντά στην λογιστική συνάρτηση. 22
3) Όταν π τείνει στο 1 τότε η συμπληρωματική log-log συνάρτηση τείνει στο άπειρο πολύ πιο αργά σε σύγκριση µε τις άλλες τρεις συναρτήσεις. 4) Παρομοίως η πιο αργή συνάρτηση στην περιοχή του 0 είναι η loglog. Όλα τα ασυµπτωτικά αποτελέσματα που θα παρουσιαστούν εδώ ισχύουν ανεξαρτήτως της επιλογής της συνάρτησης σύνδεσης. 1.4 Το Διωνυμικό Γενικευμένο γραμμικό μοντέλο Ορισμός Μοντέλου: Η απαντητική (εξαρτημένη) μεταβλητή σε αυτή την περίπτωση θα είναι μια διχοτομική μεταβλητή, μια μεταβλητή δηλαδή που παίρνει τιμές 0/1 ή ΟΧΙ/ΝΑΙ. Μια προσέγγιση με ένα γραμμικό μοντέλο θα είναι : p y / n X, ~ N(0, I) x x x Όμως με αυτή την προσέγγιση προκύπτουν κάποια προβλήματα : 1) Η προβλεπόμενη πιθανότητα μπορεί να είναι >1 ή <0 2) Η κανονική προσέγγιση ενδέχεται να έχει υπερβολικά μεγάλη έκταση όταν τα δεν έχουν μεγάλες τιμές ή px 1/ 0. 3) Η διακύμανση της Διωνυμικής δεν είναι σταθερή. 4) Μερικά από αυτά τα προβλήματα μπορούν να αντιμετωπιστούν με μετασχηματισμό. n Στα γενικευμένα γραμμικά μοντέλα θα χρησιμοποιήσουμε τα 3 συστατικά που έχουμε: yx B( nx, px) με 0 p x 1 p X h ( X,, X ), 1 m x x 1 Συνάρτηση σύνδεσης g : Η g είναι μονότονη και g( p ) για διωνυμική g : (0,1) (, ). Η επιλογή της συνάρτησης σύνδεσης για διωνυμικά δεδομένα θα είναι : 2 x x 23
Logt : log x p x (1 p ) probt : (0.1 p 0.9), όπου x είναι η x x αθροιστική συνάρτηση κατανομής της κανονικής. p, που είναι η αντίστροφή της αθροιστικής σ.κ του log (εκθετικής κατανομής) Η «complementary log-log» : log( log(1 )) Το Logt είναι κοντά στο «complementary log-log» όταν μικρό. Το Logt είναι κοντά στο probt όταν 0.1 p x 0.9. p x είναι Παρατήρηση: Όπως είδαμε στο κεφάλαιο 1.2 η Διωνυμική κατανομή ανήκει στην Εκθετική Οικογένεια άρα θα έχει όλες τις ιδιότητες της οικογένειας. Ας δούμε εν συντομία την πιθανοφάνεια: Για ένα Διωνυμικό Γ.Γ.Μ η πιθανοφάνεια για μία παρατήρηση y μπορεί n y να γραφτεί p (1 p ) y δοκιμών, προγνωστικός παράγοντας. n y, όπου p g 1 ( ) είναι η πιθανότητα επιτυχίας και n είναι ο αριθμός των ο γραμμικός Για το Logt η πιθανοφάνεια θα είναι: n (log t 1 ( )) y (1 log t 1 ( )) n y y y n y n e 1 y 1e 1e. Αν χρησιμοποιήσουμε το probt τότε η πιθανοφάνεια θα είναι: n ( ( )) (1 ( )) y y n y. Τα διωνυμικά μοντέλα με συνάρτηση σύνδεσης το Logt μπορεί τυπικά να προσαρμόζουν ελαφρώς ταχύτερα από ένα πανομοιότυπο μοντέλο με 24
συνάρτηση σύνδεσης το probt λόγω του ότι κατά πόσο αυτά εφαρμόζονται. Το προτιμότερο είναι το Logt καθώς είναι ελαφρώς ταχύτερο και περισσότερο αριθμητικά σταθερό. Θεωρούμε λοιπόν ότι παρατηρούμε για Ν άτομα Y 1 ό p 0 ό 1 p Y, 1,, N όπου : Έκτος αυτής για κάθε άτομο παρατηρούμε και μια σειρά από ανεξάρτητες μεταβλητές x ( x 1,..., x ). Αυτές μπορεί να είναι: p Είτε συνεχείς μεταβλητές Είτε κατάλληλες ψευδομεταβλητές που κατασκευάζονται βάσει παρατηρούμενων κατηγορικών μεταβλητών D,..., 1 D όπου το D 1 παίρνει τιμές στο { κατηγορ1},{ κατηγορ2,.}. Αν παρατηρούμε μόνο κατηγορικές μεταβλητές (και όχι συνεχείς), τότε αντί να κρατάμε όλη την πληροφορία για όλα τα άτομα ( μια γραμμή στα δεδομένα μας για κάθε άτομο n p πίνακας δεδομένων) έχουμε ισοδύναμη πληροφορία, με την έννοια ότι οδηγεί στην ίδια πιθανοφάνεια και επομένως ίδια συμπερασματολογία αν κρατήσουμε: για κάθε δυνατό συνδυασμό τιμών των κατηγορικών μεταβλητών "j" τον αριθμό των ατόμων για τα οποίαy 1 R #{ Y 1 x '' j''} j Καθώς και το σύνολο των ατόμων που εμπίπτουν στον συνδυασμό τιμών των ανεξάρτητων μεταβλητών j. N #{ x '' j''} j Όπου n το σύνολο των δυνατών συνδυασμών τιμών των ανεξάρτητων μεταβλητών. Προφανώς: N j N. n j1 k 25
στόχος μας είναι να φτιάξουμε ένα μοντέλο για τα x : g( p ) x. T p ως συνάρτηση των 1.4.1 Ανάλυση κατά ένα παράγοντα Ενδιαφερόμαστε μόνο για την επίδραση ενός παράγοντα στην Y Αν είχαμε συλλέξει μόνο αυτή την πληροφορία ως ανεξάρτητη μεταβλητή θα παίρναμε τον συγκεντρωτικό πίνακα ο οποίος θα έχει n γραμμές, μία για κάθε περίπτωση του παράγοντα και ως παρατηρήσεις θεωρούμε R τις y, 1,..., n. N Το μοντέλο μας «κατά ένα παράγοντα» επιτρέπει για κάθε επίπεδο του παράγοντα μια ελεύθερη τιμή για το g( ) log t( p), όπου η πιθανότητα της όταν ο παράγοντας έχει επίπεδο. y 1,... y p Έτσι : log t( p ), 1,..., n για σχεδιασμού αυτού του μοντέλου είναι : ελεύθερο άρα ο πίνακας p Ακόμη ˆ log t( p1) 1 0 0 1 log t( p2) 0 1 0 2 : log t( pn) 0 0 n n R y και ˆ t pˆ N log ( ) Το ίδιο μοντέλο στα αναλυτικά δεδομένα Ας ονομάσουμε τα δεδομένα του αναλυτικού πίνακα R j, N j όπου : 1,..., I αντιστοιχεί στα επίπεδα του παράγοντα Και j 1,..., J τα δεδομένα μέσα σε κάθε επίπεδο του παράγοντα, που αντιστοιχούν σε επίπεδα άλλον παραγόντων. Δηλαδή θα έχουμε με τη σειρά : 26
R R R R R R 11 12 1 j 21 2 j R 41 j Και θέτουμε y j Rj. N j Προφανώς y R, όπου R Rj R. N j1 και N Nj N. j1 Ο πίνακας σχεδιασμού προκύπτει : 11 log t( p1). 100 0. 1... 1 j log t( p )... 21 log t( p2) 10.. 1.. 01.. 2 2 j log t( p )...... 1 0 0 n... 0 1 1 41 log t( p4)... 00 1 1 j log t( p ) 27
Χρησιμοποιώντας την μέθοδο μέγιστης πιθανοφάνειας θα βρούμε της εκτιμήτριες των είτε στα αναλυτικά δεδομένα είτε στα συγκεντρωτικά θα είναι ίδιες. p Παραμετροποιήσεις ως προς κελί αναφοράς και ως προς τον Γενικο Μέσο Το μοντέλο: log t( p ), 1,... I που αφήνει ελεύθερο j για κάθε επίπεδο 1,... I του παράγοντα γράφεται και με διαφορετικούς παραμέτρους : log t( p ) a, 1,... I. j Καθώς τώρα έχουμε Ι+1 παραμέτρους άρα θα χρειαζόμαστε περιορισμό στα. 1) a a1 0 2) Na. 0 Κάθε ένας από αυτούς καταλήγουμε σε διαφορετική ερμηνεία των παραμέτρων και θα έχουμε διαφορετικό πίνακα σχεδιασμού. Ας τους δούμε ξεχωριστά : a1 0τότε 1 και από a1 0 a 1 Δηλαδή, το είναι το log t( p1) που αντιστοιχεί στο πρώτο επίπεδο του παράγοντα μας, το οποίο καλείται κελί αναφοράς. Τα a για >2 δίνουν τη διαφορά του που αντιστοιχεί στο επίπεδο του παράγοντα από το επίπεδο 1. Δηλαδή a2 2 1,..., ai I 1 Ο πίνακας σχεδιασμού για τα αναλυτικά δεδομένα: p 28
11 10 0 1.. 1 j. 1. 0 2 j a2.. 0 0 a 2. 1.. 41 a2. 0 0. ai 1.. 1 a 10. 1 IJ I I J Για τον δεύτερο περιορισμό Na. 0 Όπου προκύπτει N. N. μέσος των I 1 1 I άρα. ή ο απλός μέσος τω I N ο σταθμισμένος N 1.. κάθε παρατήρησης. Επομένως a 1,... I η απόκλιση της επίδρασης του I επιπέδου του παράγοντα από το γενικό μέσο. 1.4.2 Ανάλυση με μία συνεχή μεταβλητή Εδώ θεωρούμε την ανεξάρτητη μεταβλητή ως μια συνεχή μεταβλητή και όχι κατηγορική. Για συγκεντρωτικά δεδομένα τώρα υποθέτουμε: log t( p ) a x Η διαφορά σε σχέση με την προηγούμενη ανάλυση βρίσκεται στο ότι : Όταν θεωρούμε την ανεξάρτητη μεταβλητή κατηγορική τα log t( p), 1,... I είναι ελεύθερα να πάρουν όποια τιμή θέλουν το καθένα. Αντίθετα τώρα υποχρεώνονται από το μοντέλο να έχουν μια γραμμική σχέση μεταξύ τους. Ο πίνακας σχεδιασμού για τα συγκεντρωτικά δεδομένα θα ήταν: 1 1 x 1 2.. a.. I 1 xi 29
Ενώ για τα αναλυτικά : 11 1 x1. 1...... x 1j. x 2 a 21... x 2 j. x3 1. 2 j 1 x 1 1.4.3 Μια συνεχής και μια κατηγορική μεταβλητή Σε αυτή την περίπτωση εκτός από την συνεχή μεταβλητή εισάγουμε στο μοντέλο μια κατηγορική μεταβλητή D που έχει τιμές ΝΑΙ/ΟΧΙ. Το μοντέλο που έχουμε στο νου μας για τις 2 ομάδες που δημιουργεί η κατηγορική μεταβλητή είναι : a1 x Dj NAI j log t( pj ) a j x, 1,... I, j 1,2 a D 2 x j OXI Η ερμηνεία των παραμέτρων σε αυτό το μοντέλο δίνεται και στο παρακάτω διάγραμμα: 30
Πηγή: J. Foster και Π. Δελλαπόρτας, Ε. Rodrguez (2010) Εισάγοντας μια ψευδομεταβλητή d j με τιμές d 1 D d 0 D ο πίνακας j j j j σχεδιασμού προκύπτει από: 11 d11 1 d11 x1 d 1 d x 12 12 12 1... x2 a1... x 2 2........ IJ dij 1 dij x I Άλλη παραμετροποίηση : Ισοδύναμα θα μπορούσαμε να γράψουμε το ίδιο μοντέλο και ως: ax 1 dj D j log t( pj ) a x dj log t( pj ) a x dj 0 D Έτσι η αντιστοιχία με το προηγούμενο μοντέλο είναι: a0 a και a1 a ( αντιστοιχεί σε κελί «αναφοράς») j j NAI 31
Πηγή: J. Foster και Π. Δελλαπόρτας,Ε. Rodrguez(2010) Ο πίνακας σχεδιασμού προκύπτει από: 11 1d11 x1 a x1 1d x a x 12 12 1 1... x2 a.... x 2.......... a xi IJ 1d IJ x I a x I Παρατήρηση: Το σημαντικό σε αυτό το μοντέλο είναι η υπόθεση που κάναμε ότι: η επίδραση της D είναι πάντα ανεξάρτητός της τιμής του x! Δηλαδή υποθέτουμε ότι οι δύο ευθείες είναι παράλληλες. Λέμε ότι οι παράγοντες επιδρούν αθροιστικά. Με αλληλεπιδράσεις των παραγόντων Αν θέλουμε να επιτρέψουμε η επίδραση της D να εξαρτάτε γραμμικά από το x θα καταλήγαμε σε δύο ευθείες, όχι απαραίτητα παράλληλες η κάθε μία θα είχε τη δική της κλίση: 32
a1 1x, D j log t( pj ) a j jx a2 2x, D j j Πηγή: J. Foster και Π. Δελλαπόρτας,Ε. Rodrguez(2010) Εδώ ο πίνακας σχεδιασμού προκύπτει από: 11 d11 d11x1 1d11 1d11 x1 a1 12 d12 d12x1 1d12 1d12 x 1 1..... a2..... 2.......... aj IJ d IJ d IJ xi 1 d IJ 1 d IJ x I J Ισοδύναμα αν προτιμάμε την παραμετροποίηση ως προς ένα κελί αναφοράς θα γράφαμε: log t( p ) a x d d x Όπου j j j a a 2 2 αντίστοιχα για τα d 0 Dj OXI ( ομάδα αναφοράς) 33
a1a2 1 2 αναφοράς. η διαφορά των συντελεστών ως προς την ομάδα Πηγή: J. Foster και Π. Δελλαπόρτας,Ε. Rodrguez(2010) Τώρα ο πίνακας σχεδιασμού δίνεται από: 11 1 x1 d11 d12x1 1 x d d x 12 1 12 12 1 a.................... IJ 1xI d IJ d IJ x I 1.4.4 Μοντέλο με δυο κατηγορικές μεταβλητές Σε αυτή την περίπτωση έχω δυο κατηγορικές μεταβλητές: D1 1,..., I και D J 2 1,..., 34
Για κάθε συνδυασμό τιμών των ανεξάρτητων D1 και D2 j Έστω R #{ }( έ )# j #{ ύ }# j j R N j j Το αθροιστικό μοντέλο : log t( p ) a, a 0, 0 Υποθέτει j j 1 1 Η υπόθεση που κάναμε έμμεσα σε αυτό το μοντέλο είναι ότι η επίδραση π.χ του δεύτερου παράγοντα είναι η ίδια για κάθε επίπεδο του πρώτου( των άλλων παραγόντων και ανάποδα). Η υπόθεση αυτή αντιστοιχεί στις παράλληλες ευθείες όταν είχαμε μία συνεχή και μία κατηγορική. Πηγή: J. Foster και Π. Δελλαπόρτας,Ε. Rodrguez(2010) Για να περάσω από το (,1) στο (,2) προσθέτω πάντα την ίδια σταθερά με αποτέλεσμα να προκύπτουν δυο παράλληλες γραμμές. 2 Από τους περιορισμούς a1 0, 1 0 έπεται ότι: 35
Το κελί 1,1 είναι το κελί αναφοράς και Για όλα τα επίπεδα Για όλα τα επίπεδα D1 1 D2 1 έχω 1 j έχω 1 11 Επομένως ο πίνακας σχεδιασμού προκύπτει από: 11 1000 0 10 0 1 12.. 10... a 2.. 11..... 010.. ai.. 01. 0 J IJ 1001. 1 Δηλαδή a j : η επιπλέον επίδραση στα log t( p ) της D1 συγκρινόμενη με D1 1, D2 j a j : η επιπλέον επίδραση στα log t( p ) της D2 συγκρινόμενη με D2 1, D1 j Άλλη παραμετροποίηση: Έστω ότι θέλουμε στο παραπάνω μοντέλο να διαλέξουμε, αντί για a1 0 & 1 0, άλλους περιορισμούς, τέτοιους ώστε το η να είναι ο Nj γενικός μέσος των j. Δηλαδή j και επομένως τα a, jνα N είναι οι αποκλίσεις από το γενικό μέσο. j.. Αυτό ικανοποιείται όταν, για παράδειγμα υποθέσω: N. j j 0 j N... N. a j N.. 0 και Η ερμηνεία των παραμέτρων για τις δύο παραμετροποιήσεις δίνεται στα παρακάτω διαγράμματα: 36
Παραμετροποίηση με κελί αναφοράς Πηγή:J. Foster και Π. Δελλαπόρτας, Ε. Rodrguez(2010) Παραμετροποίηση με αποκλίσεις από το Γενικό μέσο Πηγή:J. Foster και Π. Δελλαπόρτας, Ε. Rodrguez(2010) 37
Παρατήρηση:Στις δύο παραμετροποιήσεις του αθροιστικού μοντέλου αλλάζουν οι τιμές των συντελεστών και η ερμηνεία τους, διότι κάθε φορά απλά αναπτύσσω αυτούς τους υπό χώρους με άλλη βάση. Γενικώς δεν ισχύει ότι οι τιμές τωνaˆ 1,..., a ˆI στο αθροιστικό μοντέλο θα είναι οι ίδιες ανεξαρτήτως του αν τα,..., 1 J είναι ελεύθερα ή έχουν τεθεί ίσα με το 0. Ειδικά στη περίπτωση όπου Nj N σταθερό, οι στήλες του πίνακα σχεδιασμού που αντιστοιχούν στα a,..., 1 a I θα είναι κάθετες σε εκείνες που αντιστοιχούν στα,..., 1 J. Και τότε πράγματι οι τιμές των aˆ1,..., aˆi θα είναι ανεξάρτητες από τα β στο μοντέλο. R. Δηλαδή ˆ aˆ logt N.. Μοντέλο με αλληλεπιδράσεις Αν έχω δυο κατηγορικές μεταβλητές : D Iκαι D J και δεδομένα j επίδραση κάθε της 1 1,..., 2 1,..., όπου 1,..., I και j 1,..., J και επιτρέψω την D 2να εξαρτάται από το επίπεδο της D 1δεν υπάρχει κανένας περιορισμός στα log t( p j ) που μπορώ να προσαρμόσω. Δηλαδή log t( pj ) j για ελεύθερες παραμέτρους j, 1,..., I, j 1,..., J συνολικά I J. Α. Παραμετροποίηση ως προς το κελί αναφοράς Γράφουμε log t( p ) a με 1,..., I j j j, j 1,..., J 0 j& 0. Έτσι Περιορισμοί: a1 0 & 1 0 καθώς και 1j 1 έχουμε 1 ( I 1) ( J 1) I J παραμέτρους και 11 ( I j1) περιορισμούς. Σε αυτή την παραμετροποίηση έχουμε: t p11 log ( ) κελί αναφοράς 38
a j : η διαφορά του log t( p 1) από το κελί αναφοράς j log t( p ) : η διαφορά του 1 j το 2 1, 1 : η επιπλέον επίδραση του D2 D D j από το κελί αναφοράς j, όταν D1 σε σχέση με Η ερμηνεία των παραμέτρων φαίνεται και στο παρακάτω σχήμα: Πηγή:J. Foster και Π. Δελλαπόρτας, Ε. Rodrguez(2010) Β. Παραμετροποίηση ως προς το γενικό μέσο Αν θέλω το log t( p j ), δηλαδή 1) Na. 0 να αντανακλά τον (σταθμισμένο) γενικό μέσο των Nj j N τότε οι περιορισμοί που θα πάρουμε είναι:.. 2) N. j j 0 3) N. j1j 0 για j1,..., J και N. 1 0 για 1,..., I Η ερμηνεία των παραμέτρων γίνεται, τότε: : ο γενικός μέσος(με σταθμά N j N ).. 39
a j j : η μέση επίδραση της : η μέση επίδραση της : η απόκλιση του D j, D 2 1 D1 D2 j j από το άθροισμα της μέσης επίδρασης του Κεφάλαιο 2 2.1 Γενικευμένα Ελάχιστα Τετράγωνα Ορισμός: Ο συνήθης εκτιμητής ελαχίστων τετραγώνω(ols) είναι μια μέθοδος για την εκτίμηση των αγνώστων παραμέτρων σε ένα μοντέλο γραμμικής παλινδρόμησης, με στόχο την ελαχιστοποίηση του αθροίσματος των τετραγώνων των διαφορών μεταξύ των παρατηρούμενων αποκρίσεων και εκείνων που προβλέπονται από μια γραμμική συνάρτηση ενός συνόλου επεξηγηματικών μεταβλητών. Η μέθοδος των ελαχίστων τετραγώνων χρησιμοποιείται για την κατασκευή της γραφικής παράστασης που περιγράφει ένα φαινόμενο, όταν γνωρίζουμε μόνο μια σειρά από πειραματικές τιμές των μεγεθών που το περιγράφουν και όχι την ακριβή μαθηματική σχέση τους(τύπος). Τώρα θα ασχοληθούμε τις τροποποιήσεις που είναι απαραίτητες να γίνουν 2 στη συνήθη διαδικασία ελάχιστων τετραγώνων όταν Var( y) V, όπου V είναι ένας άγνωστος n n πίνακας. Αυτή η περίπτωση έχει εύκολή ερμηνεία. Αν V είναι διαγώνιος αλλά με μη ίσα διαγώνια στοιχεία τότε οι παρατηρήσεις είναι μη-συσχετισμένες αλλά έχουν μη-ίσες διακυμάνσεις, ωστόσο αν κάποια από το μη διαγώνια στοιχεία του V είναι μη-μηδενικά τότε οι παρατηρήσεις είναι συσχετισμένες. y Όταν το μοντέλο είναι : y με E( ) 0, Var( ) V 1 Ο OLS εκτιμητής ˆ T T ( X X ) X y δεν είναι πλέον βέλτιστος. Διότη η διακύμανση του ˆ 2 υπό την υπόθεση ότι Var( ) V είναι: 2 40
var( ˆ) [( ˆ )( ˆ T E ) ] T 1 T T T 1 T 1 T T 1 E[( X X ) X X ( X X ) ] ( X X ) X VX ( X X ). Η διακύμανση του υπο την υπόθεση ότι είναι : var( ) E[( )( ) ] T 1 T T T 1 E[( X X ) X X ( X X ) ] T 1 T 2 T 1 ( X X ) X IX ( X X ) διακύμανση του var( ˆ ) var( ) T var( ) var( y) I 2 T 1. Άρα η ( X X) άρα δεν είναι βέλτιστος. Θα προσεγγίσουμε αυτό το πρόβλημα με μετασχηματίζοντας το μοντέλο σε ένα καινούργιο σύνολο παρατηρήσεων που ικανοποιούν της υποθέσεις τον ελαχίστων τετραγώνων. Τότε χρησιμοποιούμε τους OLS πάνω στα 2 V μετασχηματισμένα δεδομένα. Επειδή είναι ο πίνακας συν διακυμάνσεων των σφαλμάτων, το V πρέπει να είναι αντιστρέψιμος και θετικά ορισμένος, έτσι υπάρχει ενας n n αντιστρέψιμος συμμετρικός T πίνακας, όπου K K KK V. Ο πίνακας K συχνά καλείτε η τετραγωνική ρίζα του. K Ας ορίσουμε τις νέες μεταβλητές 1 z K y, 1, B K X 1 g K Έτσι αυτό το μοντέλο παλινδρόμησης y X γίνεται 1 1 1 K y K X K ή Z B g Τα σφάλματα στο μετασχηματισμένο μοντέλο έχουν μηδέν αναμενόμενες τιμές δηλαδή V διακύμανσης του g είναι : 1 E( g) K E( ) 0. Ακόμη ο πίνακας συν Var( g) E{[ g E( g)][ g E( g)] } T 2 T E( gg ) 1 T 1 E( K K ) 1 T 1 K E( ) K 2 1 1 2 1 1 K VK K KKK 41
2 I. Επίσης τα στοιχεία του g έχουν μέσο μηδέν και σταθερή διακύμασνη και είναι ασυσχέτιστα. Επειδή τα σφάλματα στο μοντέλο ικανοποιούν την συνήθεις υποθέσεις, θα μπορούμε να εφαρμόσουμε την OLS. Η συνάρτηση των ελαχίστων τετραγώνων είναι : T 1 s( ) g g V T T 1 ( y X ) V ( y X ) Η κανονική εξίσωση είναι αυτής είναι : Εδώ το του. ˆ 1 ˆ 1 ( T T X V X ) ( X V y) και η λύση ˆ T 1 1 T 1 ( X V X ) X V y ονομάζεται γενικευμένος ελάχιστων τετραγώνων εκτιμητής Ο πίνακας συνδιακύμανσης του είναι : 2 T 1 2 T 1 1 Var( ) ( B B) ( X V X ) Ο εκτιμητής του είναι BLUE δηλαδή είναι ο καλύτερος γραμμικός με την ελάχιστη διακύμανση. Ορισμός: Έστω Y1, Y2,..., Yn τυχαίες μεταβλητές τέτοιες ώστε EY ( ) για 1,..., n και τα είναι συναρτήσεις των παραμέτρων T 1 p (,..., ). Τότε για το γραμμικό μοντέλο Y e 1,..., n η μέθοδος ελαχίστων τετραγώνων ορίζεται σαν την τεχνική με την οποία επιχειρείται να εκτιμηθεί η παράμετρος ελαχιστοποιώντας την ποσότητα n 2 2 2 ( ( )) ( ) 1 (1). Q e Y Y a x Με τη βοήθεια των πινάκων η παραπάνω σχέση γράφεται στη μορφή: g 42
T Q ( y ) ( y ) (2) όπου Απόδειξη για την (1) : y y y 1 n 1 και. n Παραγωγίζοντας την ως προς α και β και εξισώνοντας με μηδέν παίρνουμε της ακόλουθες 2 εξισώσεις που ονομάζονται κανονικές εξισώσεις: n y n a x 1 1 n n n n 2 x y a x x 1 1 1 Λύνοντας το σύστημα κανονικών εξισώσεων παίρνουμε: n n n n x y x y ˆ â y ˆ x Ή 1 1 1 n n 2 2 n x x 1 1 ˆ s και â y ˆ x s xy 2 x n 1 n 1 x y x n x y n x 2 2 Π.χ. Γράφημα Βάρος προς Ύψος 43
Στη πράξη μπορεί να υπάρχει περισσότερη πληροφορία για τα για παράδειγμα ότι κάποιες παρατηρήσεις είναι λιγότερο αξιόπιστες από κάποιες άλλες. Στην περίπτωση αυτή θα χρειασθεί να σταθμίσουμε τους όρους n 2 2 2 ( ( )) ( ) 1 Q e Y Y a x Και αντί αυτού του αθροίσματος να ελαχιστοποιήσουμε το άθροισμα : Q w ( Y ( )) w 2 Καθώς στην πράξη μπορεί να υπάρχει επιπλέον πληροφορία για της τιμές Y για παράδειγµα ότι κάποιες παρατηρήσεις είναι λιγότερο αξιόπιστες από κάποιες άλλες. Στην περίπτωση αυτή θα χρειαστεί να σταθµίσουµε τους όρους στο άθροισµα. Όπου w τα επιπλέον βάρη. Θα μπορούσαν για παράδειγμα να είναι 1 w [var( Y)]. Στη γενικότερη περίπτωση τα μπορεί να είναι συσχετισμένα. Αν V είναι ο πίνακας συνδιακύµανσης των Y τότε ο εκτιμητής σταθμισμένων ελαχίστων τετραγώνων (ΣΤΕΕΤ) είναι το διάνυσμα β το οποίο ελαχιστοποιεί τη συνάρτηση: Q y V y T 1 w ( ) ( ). Y Y 44
Η μέθοδος των σταθμισμένων ελαχίστων τετραγώνων μπορεί να χρησιμοποιηθεί όταν παραβλέπεται η συνήθης παραδοχή ελάχιστων τετραγώνων σταθερής διακύμανσης στα σφάλματα. Αν για κάποιον πίνακα N p X w τότε : Q y X V y X T 1 ( ) ( ) Το διάνυσμα των παραγώγων της Q w ως προ το διάνυσμα είναι το Q w 1 2 T X V ( y X ) Έτσι ο ΣTΕΕΤ είναι η λύση της κανονικής εξίσωσης T 1 R 1 X V X X V y Και ο Hessan πίνακας είναι θετικά ορισμένος. Παρατήρηση:Το πλεονέκτημα του ΣΤΕΕΤ είναι ότι υπάρχει πάντα και αντιστοιχεί σε τοπικό ελάχιστο. Επιπλέον η εύρεσή του απαιτεί τη γνώση µόνο των δυο πρώτων ροπών του διανύσματος Υ, και καμιά άλλη υπόθεση για την κατανομή του. 2.2 Μέθοδος Μέγιστης Πιθανοφάνειας Η συνάρτηση πιθανοφάνειας Παρατηρούμε y1, y2,..., y n από ανεξάρτητες τυχαίες μεταβλητές Y1, Y2,..., Y n. Έστω Y Y1. Yn και y y y 1. n 45
Η συνάρτηση πυκνότητας παραμέτρους ( 1,..., ). p f Y ( y) μιας Y συχνά εξαρτάται από άγνωστες Γράφουμε τότε : Y που γέννησε τα δεδομένα. f y f y * ( ) Y(, ), όπου * η πραγματική τιμή της θ Προφανώς η από κοινού συνάρτηση πυκνότητας των Υ θα είναι : n * * Y (, ) Y (, ) 1 f y f y Αν γνωρίζουμε την τιμή της θ που γέννησε τα δεδομένα του * Y (, ) * f y θα δίνει την κατανομή της Υ. Εδώ η y είναι μεταβλητή : τρέχει στον n και η f y είναι συνάρτηση n : * Y (, ) y f y. * Y(, ) Στη στατιστική συνήθως έχουμε το ανάποδο πρόβλημα: Γνωρίζουμε τις παρατηρήσεις y1 y2 y και θέλουμε την πληροφορία για το.,,..., n * f ( y, ) θα πρέπει να μας είναι χρήσιμη σε αυτό, καθώς συνδέει Λογικά Y την παράμετρο με τα δεδομένα. Για να προσεγγίσουμε αυτό το πρόβλημα, λοιπόν, «αντιστρέφουμε» τη * συνάρτηση: για κάθε τιμή του θ αποτιμούμε την f ( y, ) για y= οι παρατηρήσεις μας. Κάνοντας αυτό παίρνουμε για συνάρτηση στο θ: για κάθε p παίρνουμε μια τιμή : L( ) : f ( y, ). Y Y η Η συνάρτηση αυτή λέγεται συνάρτηση Πιθανοφάνειας(Lkelhood). Συχνά επίσης θεωρούμε την l( ) : log[ L( )]. Γράφημα Συνάρτησης πιθανοφάνειας για bernoull 46
Πηγή:J. Foster και Π. Δελλαπόρτας, Ε. Rodrguez(2010) Εκτίμηση Μέγιστης Πιθανοφάνειας Σύμφωνα µε τη μέθοδο αυτή, ο εκτιμητής μέγιστης πιθανοφάνειας (ΕΜΠ) θ) της παραμέτρου θ είναι εκείνες οι τιμές οι οποίες μεγιστοποιούν την συνάρτηση πιθανοφάνειας l( ; y1, y2,..., yn) f ( y; ) ή ισοδύναμα την λογαριθμική συνάρτηση πιθανοφάνειας l( ; y, y,..., y ) ln f ( y ; ). 1 2 n n 1 Συνήθως ο εκτιμητής πιθανοφάνειας σε σχέση με κάθε στοιχείο σύστημα εξισώσεων ˆ j βρίσκεται παραγωγίζοντας την συνάρτηση l( ; y) 0 για j 1,2,..., p του θ και λύνοντας το Είναι πάντα αναγκαίο να ελέγξουμε ότι ο Hessan πίνακας των δευτέρων παραγώγων της l( ; y1, y2,..., yn) είναι αρνητικά ορισμένος. 47
Ο εκτιμητής αυτός έχει ιδιότητες που τον κάνουν να υπερέχει από τους άλλους εκτιμητές. 1) Αν είναι μια συνάρτηση του θ τότε ο εκτιμητής μέγιστης πιθανοφάνειας του g( ) είναι g( ˆ ). 2) Συνέπεια 3) Επάρκεια 4) Ασυμπτωτική αποτελεσματικότητα g( ) 2.3 Μέθοδος Newton-Raphson Η μέθοδος Newton-Raphson είναι επαναληπτική μέθοδος της μορφής x g( x). Η επιλογή της γίνεται ως εξής : gx ( ) Έστω ότι αναζητούμε την ρίζα της συνεχούς και διαφορίσιμης, σε διάστημα [a,b], συνάρτησης. Αν γνωρίζουμε την τιμή αυτής και f( x) των παραγώγων της σε κάποιο σημείο x0 [ a, b], το θεώρημα Taylor μας εξασφαλίζει ότι η ρίζα x [ a, b] ισχύει f ( ) f ( x) f ( x ) f ( x )( x x ) ( x x ) 2! 2 0 0 0 0 (2.1) Όπου ( xx, 0). Αγνοώντας τον όρο του υπολοίπου, θεωρώντας ότι η απόσταση x x0 είναι μικρή, και καθώς ισχύει ότι f( x) 0 έχουμε 0 ( ) ( )( ) f( x ) 0 f x0 f x0 x x0 x x0. f ( x0) f( x ) Επομένως, η συνάρτηση g( x) f ( x0) μέθοδο σταθερού σημείου την ακολουθία διαδοχικών προσεγγίσεων στη ρίζα αρκεί να έχουμε f( x n ) 0: x 0 x μπορεί να παράγει µε τη x n1 n f( xn). (2.2 ) f ( x ) Παρατηρήστε ότι σε κάθε επανάληψη πρέπει να υπολογίσουμε τις τιμές δύο συναρτήσεων ( f ( x), f ( x)). n 48
Θεώρημα : Έστω ότι η είναι συνεχής και τουλάχιστον δυο φορές παραγωγίσιμη στο [a,b], με συνεχή την δεύτερη παράγωγο της. Αν x είναι η ρίζα της f( x) στο [a,b] ( δηλαδή f( x) 0) και f( x) 0 τότε υπάρχει 0 ώστε η ακολουθία f( x) που ορίζεται µε τη μέθοδο Newton Raphson συγκλίνει στο x, x0 [ x, x ]. { x n } Σύγκλιση αλγορίθμου Newton- Raphson Ας υπολογίσουμε την ακρίβεια n xn x της μεθόδου. Από τον τύπο f ( xn) f ( xn)( xn x) f ( xn) (2.2) έχουμε xn 1 x xn x f ( x ) f ( x ) 1 ( f ( xn) f ( xn)( xn x)). f( x ) n Λαμβάνοντας υπόψη τη σχέση (3.4) έχουμε : n n 1 f ( ) f ( ) x x f ( x) ( x x ) ( x x ) 2 2 n1 n n f ( xn) 2 2 f ( xn) Επομένως n1 f ( ) 2 f( x ) Με ξ μεταξύ xn και x. n 2 n Συμπεραίνουμε ότι η μέθοδος είναι δεύτερης τάξης, παρουσιάζει δηλαδή τετραγωνική σύγκλιση. Αρκούν λίγα βήματα για να έχουμε πολύ ικανοποιητική προσέγγιση της ρίζας, µε την προϋπόθεση ότι θα ξεκινήσουμε από σημείο όχι μακριά από αυτή. Από την άλλη, αν f( x) 0έχουμε πολύ αργή σύγκλιση. Μέθοδοι Newton- Raphson για πολλαπλές ρίζες Αν η ρίζα x είναι πολλαπλή με πολλαπλότητα m, δηλαδή ισχύει ( m1) f ( x) f ( x)... f ( x) 0 με ( m f ) ( x) 0 μπορεί να δειχθεί ότι ο τύπος Newton- Raphson συγκλίνει γραμμικά. Χρειάζεται τροποποίηση αν θέλουμε να διατηρήσει την τετραγωνική σύγκλιση.. 49
Παρατηρήστε ότι η συνάρτηση f( x) με ρίζα x και πολλαπλότητα m m μπορεί να γραφτεί στη μορφή f ( x) ( x x) g( x) όπου x gx ( ) συνάρτηση για την οποία το δεν είναι ρίζα. Συνεπώς η συνάρτηση h ( ) m ( ) 1 x f x έχει απλή ρίζα το x. Ο τύπος (2.2) για αυτή τη συνάρτηση αναμένουνε να έχει τετραγωνική σύγκλιση. Η εφαρμογή του δίνει: h1 ( x ) m n f( x) x n 1 x n xn h1 ( x ) m n f( x) f ( x ) mf ( x) f( x ) ( ) n x n 1 x n m f x n Ευκολά μπορούμε να δείξουμε ότι και η συνάρτηση h ( x) f ( x) / f ( x) 2 x έχει απλή ρίζα το. Η εφαρμογή του τύπου Newton Raphson σε αυτή δίνει άλλον ένα τύπο µε τετραγωνική σύγκλιση : x x h ( x ) 2 n n 1 n h2 ( xn ) x x f ( x ) f ( x ). [ ( )] ( ) ( ) n n n1 n 2 f xn f xn f xn 2.4 Επάρκεια Μοντέλου Ας υποθέσουμε ότι θέλουμε να ελέγξουμε την επάρκεια της προσαρμογής ενός μοντέλου σε ένα σύνολο δεδομένων. Δηλαδή θέλουμε να ελέγξουμε την απόκλιση του μοντέλου μας από το μέγιστο μοντέλο.αυτό μπορεί να γίνει συγκρίνοντας την συνάρτηση πιθανοφάνειας αυτού του μοντέλου αυτού µε τη συνάρτηση πιθανοφάνειας του μέγιστου μοντέλου το οποίο περιγράφεται ως εξής : 1) Το μέγιστο μοντέλο(κορεσμένο) είναι ένα γενικευμένο γραμμικό μοντέλο µε την ίδια κατανομή όπως το μοντέλο που µας ενδιαφέρει. 2) Το μέγιστο μοντέλο έχει την ίδια συνάρτηση σύνδεσης µε το μοντέλο που µας ενδιαφέρει. 3) Ο αριθμός των παραμέτρων στο μέγιστο μοντέλο ισούται µε τον αριθμό των παρατηρήσεων. Λόγω της 3 μπορεί να θεωρηθεί ότι το μέγιστο μοντέλο περιγράφει πλήρως τα δεδομένα. 50
Οι συναρτήσεις πιθανοφάνειας υπολογίζονται στον εκτιμητή μέγιστης πιθανοφάνειας bmax και b αντίστοιχα και λαμβάνουμε L( bmax ; y ) και. L( b ; y) Αν το μοντέλο που µας ενδιαφέρει περιγράφει τα δεδομένα ικανοποιητικά, τότε πρέπει να είναι κοντά στο L( b ; y ). L( b ; y) Τουναντίον αν το μοντέλο δεν είναι ικανοποιητικό τότε το να είναι μικρότερο από το max Γενικευμένου λόγου πιθανοφάνειας L( bmax; y) L( b ; y) Ή ισοδύναμα max L( b ; y) πρέπει L( b ; y ). Αυτό μας οδηγεί στην χρήση του log log( L( bmax ; y)) log( L( b ; y)) l( bmax ; y) l( b ; y) σαν ένα μέτρο καλής προσαρμογής του μοντέλου. Μεγάλες τιμές του log είναι ένδειξη µη καλής προσαρμογής του μοντέλου. Η λογαριθμική συνάρτηση πιθανοφάνειας ορίζεται ως D 2[ l( b ; y) l( b ; y)] max Οι Nelder και Wedderburn (1972) κάλεσαν την συνάρτηση αυτή Devance. Η συνάρτηση αυτή μπορεί να γραφτεί στη μορφή : D 2{[ l( b ; y) l( ; y)] [ l( b; y) l( ; y)] [ l( ; y) l( ; y)]} max max max Ο πρώτος όρος στις αγκύλες ακολουθεί την 2 X N και ο δεύτερος την 2 X p κατανομή. Ο τρίτος όρος είναι µία θετική σταθερά που είναι κοντά στο μηδέν όταν το μοντέλο µε p παραμέτρους περιγράφει το μοντέλο όπως το μέγιστο μοντέλο. Σε γενικές γραμμές μπορούμε να πούμε ότι όταν οι δυο πρώτοι όροι είναι 2 ανεξάρτητοι και ο τρίτος όρος είναι κοντά στο μηδέν τότε D X. Όταν το μοντέλο δεν είναι ικανοποιητικό τότε η Devance ακολουθεί N p προσεγγιστικά τη µη κεντρική 2 X κατανομή. 51
Στατιστικό του Pearson Ένα εναλλακτικό μέτρο για την απόκλιση μεταξύ προσαρμογής του μοντέλου μας με το κορεσμένο είναι η X 2 στατιστική του Pearson : X 2 n 1 ˆ var( Yˆ ) (0) ( y ) X 2 Θα δούμε ότι και η είναι ποιοτικά και τα δυο ένα είδος σταθμισμένης τετραγωνικής απόστασης. Συχνά, όμως για μικρά δείγματα D η προσέγγιση της κατανομής της στατιστικής του Pearson από καλύτερη από την D. 2 X n p είναι 2.5 Η εκτίμηση του Γενικευμένου Γραμμικού Μοντέλου. Θεωρούμε Y1,, N Y ανεξάρτητες τυχαίες μεταβλητές. Θέλουμε να εκτιμήσουμε της παραμέτρους b που σχετίζονται με τα σχέσεων : E( y ) και g( ) T X b Y μέσο των Για κάθε Y η λογαριθμική συνάρτηση πιθανοφάνειας είναι : l y b( ) a( ) ( y, ) Για να βρούμε την εκτιμήτρια μέγιστης πιθανοφάνειας για την παράμετρο b j, χρειαζόμαστε τη : N N l l U j j 1 j 1 l [ ] b b b Θα υπολογίσουμε τον κάθε όρο του δεξιού μέλους ξεχωριστά: l b( )( y ) 52
1, με b( )var( ) Y xj b Τελικά καταλήγουμε στη σχέση, U j N y [ xj ] var( Y) 1 U U U N Η συνάρτηση [ 1,..., ] ονομάζεται score. O πίνακας διασποράς-συνδιασποράς των που σχηματίζουν τον πίνακα : U έχει όρους E( U U ) jk j k N N Y Yl l l jk E xj xlk var( Y ) var( ) 1 Y l1 l l ( [ ] [ ]) N 2 2 E[( Y ) xj xk 2 1 var( Y ), όπου προκύπτει, N xx j k I jk 1 var( Y ). Ο πίνακας ονομάζεται πίνακας T πληροφορίας. Μπορούμε να γράψουμε I X WX όπου ο W είναι ένα 2 1 N N διαγώνιος πίνακας με στοιχεία w var( Y) I jk. Η μέθοδος Newton-Raphson δίνει την m-οστή προσέγγιση από τη σχέση: 1 2 ( m) ( m1) l ( m1). bb j k ( m1) bb b b U 53
Ο πίνακας πληροφορίας έχει τα στοιχεία : 2 l l l I jk E[ U juk ] E E bj k bjk Από τα παραπάνω προκύπτει: Λαμβάνουμε λοιπόν την εξίσωση: Τελικά καταλήγουμε στην m ( m1) ( m1) m1 ( m1) b I I b U m ( m1) ( m1) 1 ( m1) b b [ I ] U T ( m) T Wb Wz Η προηγούμενη εξίσωση έχει την ίδια μορφή με τις κανονικές εξισώσεις των γενικευμένων γραμμικών μοντέλων που προκύπτουν από τα σταθμισμένα ελάχιστα τετράγωνα με τη διαφορά του ότι πρέπει να λυθούν με μια επαναληπτική μέθοδο επειδή τα z και W εξαρτώνται σε γενικές γραμμές από το b. Δηλαδή οι εκτιμήτριες μέγιστης πιθανοφάνειας των γενικευμένων γραμμικών μοντέλων προκύπτουν Από μια επαναληπτική διαδικασία σταθμισμένων ελαχίστων τετραγώνων. 54
Κεφάλαιο 3 3.1 Εισαγωγή Στο κεφάλαιο 1 είδαμε την ανάλυση μιας κατηγορικής μεταβλητής. Η μορφή αυτή στατιστικής ανάλυσης κυριαρχεί σε πολλές επιδημιολογικές μελέτες. Στην πραγματικότητα όμως, οι περισσότερες ασθένειες είναι σύνθετες και πολυπαραγοντικές. Σε σύγχρονες επιδημιολογικές μελέτες οι ερευνητές μελετούν και καταγράφουν μια σειρά από παραμέτρους που μπορεί να επηρεάζουν την εξέλιξη μιας νόσου, όπως δημογραφικά στοιχεία, κλινικά και γενετικά χαρακτηριστικά και άλλα. Για τον σκοπό αυτό είναι απαραίτητη η χρήση πιο εξειδικευμένων εργαλείων στατιστικής ανάλυσης. Στην κλασική στατιστική η χρήση μοντέλων γραμμικής παλινδρόμησης είναι η πιο συνηθισμένη μέθοδος πολυμεταβλητής ανάλυσης. Σε μελέτες όταν η μεταβλητή απόκρισης είναι συνήθως κατηγορική, παρουσία ασθένειας ή όχι, τότε είναι απαραίτητη η γενίκευσή του γραμμικού μοντέλου σε ένα μοντέλο λογιστικής παλινδρόμησης. Το λογιστικό μοντέλο που θα δούμε σε αυτό το κεφάλαιο είναι ειδική περίπτωση των Γενικευμένων γραμμικών μοντέλων, το οποίο αποτελείται από 3 συνιστώσες, την τυχαία συνιστώσα, η οποία προσδιορίζει την κατανομή πιθανότητας της απαντητικής μεταβλητής, τη συστηματική συνιστώσα η οποία προσδιορίζει μια γραμμική συνάρτηση των επεξηγηματικών μεταβλητών που χρησιμοποιούνε για πρόβλεψη και τη συνάρτηση σύνδεσης η οποία περιγράφει την συναρτησιακή σχέση μεταξύ της συστηματικής συνιστώσας και των αναμενόμενων τιμών της τυχαίας συνιστώσας. 55
3.1.1 Το Λογιστικό Μοντέλο Όταν η Υ είναι μια διχοτομική απαντητική μεταβλητή η οποία δηλώνει δύο αποτελέσματα με 0 και 1 η κατάλληλη κατανομή είναι η Bernoull και ο μέσος της Υ είναι: E( Y ) 1 P( Y 1) 0 P( Y 0) P( Y 1) Ορίζουμε αυτή την πιθανότητα με ( x) η οποία αντανακλά την εξάρτηση των τιμών των επεξηγηματικών μεταβλητών 1 2 2 2 E( Y ) 1 ( x) 0 (1 ( x)) ( x) Η διακύμανση της Υ : 2 2 Var( Y ) E( Y ) E( Y ) ( x) 1 ( x). Γραμμικό μοντέλο πιθανότητας X ( x,, x n ). Επίσης Για μια διχοτομική απαντητική μεταβλητή το μοντέλο παλινδρόμησης είναι E( Y ) ( x) a x Όταν οι παρατηρήσεις στην Υ είναι ανεξάρτητες αυτό το μοντέλο είναι ένα γενικευμένο γραμμικό μοντέλο με dentty συνάρτησης σύνδεσης. Το γραμμικό μοντέλο πιθανότητας έχει ένα μεγάλο δομικό μειονέκτημα. Οι πιθανότητες θα είναι μεταξύ (0,1). Το μοντέλο προβλέπει ότι 0 και 1 για επαρκώς μεγάλες ή μικρές τιμές του x. Συνήθως περιμένουμε μια μη-γραμμική σχέση μεταξύ ( x) και. Το μοντέλο μπορεί να ισχύει πάνω από ένα πεπερασμένο εύρος τιμών Χ. Υπάρχουν προβλήματα χρησιμοποιώντας τους OLS εκτιμητές ωστόσο οι προϋποθέσεις που κάνουν τους OLS βέλτιστους δεν ικανοποιούνται. Η διακύμανση Var( Y ) ( x)[1 ( x)], δεν είναι σταθερή. Λόγο των δομικών προβλημάτων με το γραμμικό μοντέλο πιθανότητας είναι πιο γόνιμο να μελετήσουμε μοντέλα υπονοώντας μας καμπυλόγραμμη σχέση μεταξύ ( x) και x. Μια τέτοια συνάρτηση είναι exp( a x) ( x) 1 exp( a x) x 56
Η λογιστική συνάρτηση έχει μερικές πολύ χρήσιμες ιδιότητες για το λόγο αυτό κυριαρχεί στην ανάλυση κατηγορικών δεδομένων. Η συνάρτηση έχει σιγµο-ειδή μορφή όπως φαίνεται στο διάγραμμα. Πηγή: Ντζούφρας(2009). Σχήμα 3.1 : Μορφή Λογιστικής Συνάρτησης Όταν το x, ( x) 0 όταν 0και ( x) 1 όταν 0. Όταν 0 η καμπύλή γίνεται ισόπεδη σε μια οριζόντια γραμμή και όταν το μοντέλο μένει σταθερό με 0 η διχοτομή απαντητική μεταβλητή είναι ανεξάρτητη του X. d ( x) dx Η λογιστική καμπύλη παλινδρόμησης έχει ( x) 1 ( x). Η καμπύλη έχει πιο απότομη κλίση στη τιμή της x όπου ( x) 1/ 2,η οποία είναι x a/. Η εφαπτόμενη γραμμή στη λογιστική καμπύλη στο σημείο έχει κλίση /4. Όσο η απόλυτη τιμή του αυξάνει, η καμπύλη έχει πιο απότομο ρυθμό αύξησης στη τιμή x για οποιαδήποτε ( x) τιμή. 57
Τώρα θα βρούμε την συνάρτηση συνδέσης για την οποία το λογιστικό μοντέλο παλινδρόμησης είναι Γενικευμένο γραμμικό μοντέλο. Για αυτό το μοντέλο τα odds είναι : ( x) 1 ( x) exp( a x) e ( e ) Αυτή η μορφή παρέχει μια βασική ερμηνεία για το. Τα odds αυξάνει πολλαπλασιαστικά κατά e για κάθε μονάδα αύξησής του x. Τα log odds έχει τη γραμμική σχέση : log ( x) a x 1 ( x ) Επίσης η κατάλληλη σύνδεσης είναι η log odds μετασχηματισμός το Logt. Ένα πλεονέκτημα αυτού του μοντέλου από τα άλλα μοντέλα που χρησιμοποιούνε άλλες συνδέσεις είναι ότι οι επιδράσεις μπορούν να εκτιμηθούν αν το σχέδιο δειγματοληψίας είναι prospectve ή retrospectve. Οι επιδράσεις στο λογιστικό μοντέλο από τα odds rato είναι / 11 12 11 22. 21 / 22 12 21 Παρατήρηση: Στο Λογιστικό μοντέλο θέλουμε η τυχαία συνιστώσα που είναι κατανομή Bernoull ή Bnomal και συγκεκριμένα η πιθανότητα επιτυχίας να συνδέεται γραμμικά με τη συστηματική συνιστώσα. Όμως αν προσπαθήσουμε θα δούμε ότι η πιθανότητα παίρνει τιμές μεγαλύτερές του 1 και μικρότερες του 0 άρα απευθείας δεν μπορούμε. Όποτε χρησιμοποιώντας μια κατάλληλη συνάρτηση σύνδεσης η πιθανότητα θα συνδέεται γραμμικά με τη συστηματική συνιστώσα. Εδώ θα χρησιμοποιήσουμε το Logt lnk (μετασχηματισμός του log odds). Άρα βλέπουμε ότι το λογιστικό μοντέλο είναι μια περίπτωση των Γενικευμένων γραμμικών μοντέλων. Εφαρμογή σε δεδομένα γεννήσεων μωρών Χαμηλού βάρους Έχουμε δεδομένα για τους παράγοντες κινδύνου που σχετίζονται με χαμηλού βάρους μωρά κατά την γέννηση. Ο πίνακας δεδομένων είναι στο παράρτημα. Θεωρούμε τις παρακάτω κωδικοποιήσεις των δεδομένων μας : a. x. 58
Varables Low Brth Weght (0=Brth Weght Weght <2500g) Age of the Mother n Years Weght n Pounds at the Last Menstrual Perod Race (1=Whte,2=Black,3=Other ) smokng status durng pregnancy (Yes=1,No=0) Hstory of Hypertenson (1=Yes,0=No) 2500g,1=Brth Abbrevaton LOW AGE LWT RACE SMOKE HT Η συναρτησιακή σχέση μεταξύ της μεταβλητής απόκρισης LOW και της ανεξάρτητης AGE είναι δύσκολο να περιγραφεί όπως φαίνεται και στο διάγραμμα. LOW 0.0 0.2 0.4 0.6 0.8 1.0 15 20 25 30 35 40 45 AGE Μια συνήθης μέθοδος για κάποια παραλλαγή ενώ κρατάμε ίδια την δομή της σχέσης μεταξύ αποτελέσματος και ανεξάρτητης μεταβλητής είναι να δημιουργήσουμε διαστήματα για την ανεξάρτητη μεταβλητή. 59
Παρατηρούμε ότι το διάγραμμα αυτό είναι παρόμοιο αν κάναμε την ίδια διαδικασία στην γραμμική παλινδρόμηση. Εδώ έχουμε για τα αναλυτικά δεδομένα για το Δυωνυμικό Γ.Γ.Μ που θα εφαρμόσουμε, την συνάρτηση σύνδεσης Logt καθώς η μεταβλητή απόκρισης είναι η LOW η οποία παίρνει τις τιμές 0/1 και η επεξηγηματική μας μεταβλητή θα είναι η ηλικία(age). Η Λογιστική συνάρτηση θα είναι y exp( b0 b1 AGE) / [1 exp( b0 b1 AGE)] όπου y LOW και log t( LOW ) b b AGE. Εισάγουμε τα το μοντέλο θα είναι 0 1 δεδομένα μας στην R και μέσω κατάλληλού κώδικα παίρνουμε τα παρακάτω : Πίνακας 3.1 Εκτιμητές συντελεστών απλού μοντέλου με μεταβλητή την ηλικία για τα δεδομένα γεννήσεων μωρών χαμηλού βάρους. Call: glm(formula = LOW ~ AGE, famly = bnomal(logt), data = df) Devance Resduals: Mn 1Q Medan 3Q Max -1.0623-0.9047-0.7625 1.3995 1.8152 Coeffcents: Estmate Std. Error z value Pr(> z ) 60
(Intercept) 0.53275 0.73460 0.725 0.468 AGE -0.05784 0.03180-1.819 0.069 Παρατήρηση: Βλέπουμε από τα παραπάνω αποτελέσματα ότι στο call μας δείχνει το μοντέλο που τρέξαμε. Μετά μας δίνει ένα πίνακα coeffcents όπου περιέχει την σταθερά και την επεξηγηματική μεταβλητή AGE και στις στήλες έχει εκτιμήσεις των δυο συντελεστών, τα αντίστοιχα τυπικά σφάλματα, τις Z-test τιμές και τις p-value. Τέλος παρατηρούμε ότι η AGE επεξηγηματική μεταβλητή δεν είναι στατιστικά σημαντική σε επίπεδο 5% καθώς το p-value=0.069>0.05 (φυσικά σε επίπεδο 10% και σε οποιοδήποτε επίπεδο άνω του 6.9%, είναι σημαντική).δηλαδή η επεξηγηματική μεταβλητή μας δεν μας ερμηνεύει τα δεδομένα. 3.1.2 Πολλαπλή Λογιστική Παλινδρόμηση Εισαγωγή Στο προηγούμενο κεφάλαιο παρουσιάσαμε το μοντέλο λογιστικής παλινδρόμησης με τη μορφή μιας μεταβλητής. Σε αυτό το κεφάλαιο θα γενικεύσουμε το λογιστικό μοντέλο στην περίπτωσή που έχουμε παραπάνω από μία επεξηγηματική μεταβλητή. Το πολλαπλό Λογιστικό μοντέλο Σκεφτόμαστε ένα σύνολο από p ανεξάρτητές μεταβλητές που ορίζεται από ένα διάνυσμα x ( x1, x2,..., x p ). Για αυτή την στιγμή θα υποθέσουμε ότι η κάθε μια από αυτές της μεταβλητές είναι τουλάχιστον στο διάστημα κλίμακας. Η αθροιστική πιθανότητα για το αποτέλεσμα ορίζεται P( Y 1 x) ( x). Το Logt για το πολλαπλό λογιστικό μοντέλο παλινδρόμησης δίνεται από την εξίσωση : ( x) log 0 1x1 2x2... px 1 ( x) Σε αυτή την περίπτωση το μοντέλο λογιστικής παλινδρόμησης είναι x x... x 0 1 1 2 2 p p e ( x). 01x1 2x2... pxp 1 e Αν κάποιες από τις ανεξάρτητες μεταβλητές είναι διακριτές, ονομαστικές μεταβλητές είναι ακατάλληλό να τις συμπεριλάβουμε στο μοντέλο. οι p, 61
αριθμοί που χρησιμοποιούνται για την αναπαράσταση των διαφόρων επιπέδων αυτών των μεταβλητών ονομαστικής κλίμακας είναι απλώς αναγνωριστικά και δεν έχουν καμία σημαντική σημασία. Σε αυτή την περίπτωση η μέθοδος επιλογής είναι να χρησιμοποιήσουμε ψευδομεταβλητές. Γενικά αν μια ονομαστική μεταβλητή έχει K πιθανές τιμές τότε Κ-1 θα χρειαστούμε να σχεδιάσουμε. Ας υποθέσουμε την ανεξάρτητη μεταβλητή x j μεταβλητές ορίζονται ως l 1,2,..., k j 1 έχει k j D jl επίπεδα. Τότε το k 1 και οι συντελεστές της j th j σχεδιαστικές. Επίσης το Logt μοντέλο με p μεταβλητές και η μεταβλητή είναι διακριτή θα είναι : ( x) log x... D x 0 1 1 jl jl p p 1 ( x). l1 k j 1 Όταν συζητάμε το πολλαπλό λογιστικό μοντέλο μιλάμε στη γενική του μορφή. jl th j παλινδρόμησης θα Υποθέτουμε ότι έχουμε ένα δείγμα από n ανεξάρτητες παρατηρήσεις x, y, 1,2,..., n. Όπως στην μονομεταβλητή περίπτωση παίρνουμε τους εκτιμητές το διανύσματος 0, 1,, p μέθοδος εκτίμησης που χρησιμοποιούμε στην πολλαπλή περίπτωση θα είναι η ίδια με την μονομεταβλητή περίπτωση. Η συνάρτηση πιθανοφάνειας θα είναι περίπου η ίδια n 1 1 y l( ) ( x ) [1 ( x ) ] y με τη μόνη διαφορά θα είναι ότι η ( x) τώρα θα ορίζεται ως... x x x 0 1 1 2 2 p p e ( x) θα είναι 01x1 2x2... px p 1 p 1 e πιθανοφάνειας θα εκφράζονται : n 1 [ y ( x )] 0,. Η εξισώσεις 62
Και Για j 1,2,..., p. Ορίζουμε ˆ n 1 x [ y ( x )] 0 j τη λύση των εξισώσεων. Επίσης οι προσαρμοσμένες τιμές του πολλαπλού λογιστικού μοντέλου είναι ˆ( ) Η μέθοδος εκτίμησης των διακυμάνσεων και των συν διακυμάνσεων των εκτιμώμενων συντελεστών από την θεωρία της μέγιστής πιθανοφανειας. j, l 0,1,2,... p. Και 2 L( ) x 2 2 j n 1 n 1 x. 2 j (1 ) L( ) xx j l (1 ) για j Αν ορίσουμε ( p1) ( p 1) ένα πίνακα που περιέχει τους αρνητικούς όρους που δίνονται από τις παραπάνω δυο εξίσωσεις και τον συμβολίζουμε ως I( ). Ο πίνακας αυτός ονομάζεται πίνακας πληροφορίας. Οι διακύμανσεις και συν διακύμανσεις από τους εκτιμητές των συντελεστών του παίρνουμε από την αντίστροφο αυτού του πίνακα που είναι 1 Var( ) I ( ). Εκτός από μια πολύ ειδική περίπτωση αυτό δεν είναι δυνατόν να γραφτεί σε μια σαφή έκφραση για τα στοιχεία σε αυτόν τον πίνακα. Ως εκ τούτου θα χρησιμοποιούμε το συμβολισμό Var( ) να ορίζει την th j διακύμανση του ˆ j διαγώνιο στοιχείο του πίνακα αυτού, το οποίο είναι η και cov(, ) να ορίζει αυθαίρετα στοιχείο εκτός j l διαγώνιου που είναι η συν διακύμανση των ˆ j και ˆl. Οι εκτιμητές των διακυμάνσεων και συν διακυμάνσεων είναι εκτιμώντας Var( ) στο ˆ. Εμείς θα χρησιμοποιούμε cov( ˆ ˆ, ˆ ), j, l 0,1,2,..., p j l Var ˆ ( ˆ ) που υπολογίζεται Var ˆ ( ˆ ) και να ορίζουν της τιμές του πίνακα. Ως j j 63
επί το πλείστον θα έχουμε την ευκαιρία να χρησιμοποιήσουμε μόνο τα εκτιμώμενα τυπικά σφάλματα των εκτιμώμενων συντελεστών που θα συμβολίζεται ως : για j 0,1,2,..., p. SEˆ ( ˆ ) ˆ ( ˆ j Var j) 1/2 Μια διατύπωση του πίνακα πληροφοριών που θα είναι χρήσιμο όταν συζητάμε για το μοντέλο προσαρμογής και την αξιολόγηση της ˆ( ˆ T I ) X VX όπου p 1 προσαρμογής είναι: είναι έναn με πίνακα περιέχει τα δεδομένα για κάθε αντικείμενο και V είναι ένα n με διαγώνιο πίνακα με γενικά στοιχεία ˆ (1 ˆ ). n Ο πίνακας είναι : ο πίνακας V είναι: 1 x11 x x 12 1x21 x22 x 1 x x x 1p 2 p n1 n2 np ˆ (1 ˆ ) 0 0 0 ˆ (1 ˆ ) 0 V 0 0 0 ˆ n(1 ˆ n) Εφαρμογή σε δεδομένα που αφορούν γεννήσεις Χαμηλού Βάρους Μωρών Στη περίπτωση που έχουμε περρισότερες από μία επεξηγηματικές μεταβλητές μιλάμε για ένα πολλαπλό λογιστικό μοντέλο σε αυτή την περίπτωση θα έχουμε ένα μοντέλο το οποίο θα έχει ως συνεχή επεξηγηματική μεταβλητή την lwt(βαρος της γυναικάς σε pounds κατά την τελευταία έμμηνος περίοδο) την κατηγορική μεταβλητή race(1=whte,2=black,3=other) και την smoke(1=yes,0=no). Τρέχουμε στη R το πολλαπλό μοντέλο και έχουμε τα παρακάτω : 64
Πίνακας 3.2 Εκτιμητές συντελεστών για την πολλαπλή λογιστική παλινδρόμηση χρησημοποιώντας τις μεταβλητές LWT,RACE,SMOKE. Call: glm(formula = LOW ~ LWT + RACE + SMOKE, famly = bnomal(logt),data = df) Devance Resduals: Mn 1Q Medan 3Q Max -1.5165-0.9040-0.5865 1.2974 2.0310 Coeffcents: Estmate Std. Error z value Pr(> z ) (Intercept) -0.176177 0.887568-0.198 0.84266 LWT -0.012684 0.006323-2.006 0.04484 * RACE2 1.052705 0.377724 2.787 0.00532 ** RACE3 1.258793 0.507866 2.479 0.01319 * SMOKE 0.970800 0.411711 2.358 0.01838 * Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Null devance: 234.67 on 188 degrees of freedom Resdual devance: 215.47 on 184 degrees of freedom AIC: 225.47 Number of Fsher Scorng teratons: 4 Παρατηρούμε ότι όλες οι επεξηγηματικές μεταβλητές είναι στατιστικά σημαντικές καθώς οι p-value τιμές τους είναι μικρότερες του επιπεδού σημαντικότητας 5%, εδώ η βασική κατηγορία της μεταβλητής RACE είναι να είναι λευκή η γυναίκα. Μετά παίρνουμε τα 95% διαστήματα εμπιστοσύνης : Πίνακας 3.3 Τα 95% Διαστήματα Εμπιστοσύνης για κάθε συντελεστή. 2.5 % 97.5 % (Intercept) -1.8744728 1.6317735628 LWT -0.0259285-0.0009290946 RACE2 0.3260467 1.8152897875 RACE3 0.2647933 2.2725302093 SMOKE 0.1773413 1.8002805051 Καλύτερα να πάρουμε τον πίνακα τον odds rato και των αντίστοιχων διαστημάτων εμπιστοσύνης καθώς ερμηνεύονται πιο εύκολα. Παρακάτω θα δούμε τα διαστήματα εμπυστοσύνης για τα odds rato που ο γενικός τύπος είναι OR Z /2 SE( OR). a Πίνακας 3.4 Τα 95% Διαστήματα Εμπυστοσύνης και τα odds ratos για κάθε συντελεστή. 65
OR 2.5 % 97.5 % (Intercept) 0.8384696 0.1534358 5.1129348 LWT 0.9873958 0.9744048 0.9990713 RACE2 2.8653923 1.3854800 6.1428560 RACE3 3.5211675 1.3031616 9.7039227 SMOKE 2.6400565 1.1940386 6.0513447 Παρατηρούμε ότι για αυξησή κατά 22.046pound(10kg) της LWT τα odds να γεννηθεί μωρό χαμηλού βαρούς εναντί να μην γεννηθεί μωρό χαμηλού βάρους αυξάνονται κατά 0,98. Επίσης τα odds για την περίπτωση που είναι η γυναίκα έγχρωμη να γενννήσει μωρό χαμηλού βάρους είναι 2.86 φορές πιο πιθανό σε σχέση με το να είναι λευκή η γυναίκα, αντίστοιχα για γυναίκα η οποία δεν είναι ούτε λευκή ουτε έγχρωμη να γεννήσει μωρό χαμηλού βάρους είναι 3.52 φορές πιο πιθανό από ότι για λευκή γυναίκα. Επιπλέον για την περίπτωση που μια γυναίκα είναι καπνίστρια είναι 2.64 φορές πιο πιθανό να γεννήσει μωρό χαμηλού βάρους σε σχέση με γυναίκα που δεν καπνίζει. Για να ελέξουμε αν προσαρμόζεται καλά το μοντέλο μας στα δεδομένα θα χρησημοποιήσουμε την Devance και θα υπολογίσουμε την p-value που είναι 0.05596239>0.05 άρα το μοντέλο προσαρμόζει καλά στα δεδομένα μας. Σχήμα 3.2 Διάγραμμα των εκτιμώμενων πιθανοτήτων για τις επεξηγηματικές μεταβλητές LWT,RACE. 66
Παρατηρούμε ότι οι μαύρες γυναίκες εχούν την μεγαλύτερη πιθανότητα να γεννήσουν μωρό χαμηλού βάρους η οποία μείωνεται όταν το βάρος την τελευταία έμμηνο περίοδο αυξάνει. Αντίστοιχα έχουμε και για τις λευκές και άλλες γυναίκες. 3.1.3 Διχοτομική Ανεξάρτητη Μεταβλητή Ξεκινάμε την εξέταση της ερμηνείας της λογιστικής παλινδρόμησης με την περίπτωση όπου η ανεξάρτητη μεταβλητή είναι ονομαστική και διχοτομή (έχει 2 επίπεδα).υποθέτουμε ότι η ανεξάρτητη μεταβλητή χ είναι κωδικοποιημένη με 0 ή 1. Η διαφορά στο Logt για ( x) g( x) ln x 1 ( x ) θεωρούμε 0 1 g(1) g(0) [ ] [ ]. Και 0 1 0 1 x 1 ή x 0 είναι: η άλγεβρα που παρουσιάζεται στην εξίσωση αυτή είναι μάλλον απλή. Το παρουσιάζουμε σε αυτό το επίπεδο λεπτομέρειας για να δώσουμε έμφαση στο πρώτο βήμα στην ερμηνεία της επίδρασης της συμμεταβλητής στο μοντέλο. Για να παρουσιάσω αυτά α αποτελέσματα χρειαζόμαστε να συζητήσουμε για το odds rato. Οι πιθανές τιμές της λογιστικής πιθανότητας ενδέχεται να εμφανιστή ιδανικά σε έναν 2 2 πίνακα όπως παρακάτω : Outcome Independent Varable(X) Varable(Y) X=1 x=0 y=1 01 y=0 e e 0 (1) (0) 1 e 01 1 e 0 1 1 1 (1) 1 e 0 1 (0) 1 1 e 0 Total 1 1 Τα odds στο αποτέλεσμα είναι παρόν μεταξύ x=1 ορίζεται ως (1) / [1 (1)] και αντίστοιχα για x=0 (0) /[1 (0)]. OR (1) / [1 (1)] (0) / [1 (0)] 67
OR e e 0 1 0 e 01 1 / 0 1 e 1 1 e 0 1 e 0 1 / 1 e 0 1e 0 010 e e 1. Εφαρμογή σε δεδομένα για γεννήσεις Χαμηλού Βάρους Μωρών Εδώ θα έχουμε ένα μοντέλο το οποίο θα περιέχει ως επεξηγηματική μεταβλητή την SMOKE(κάπνισμα) που παίρνει τιμές 1/0 ας δούμε τον πίνακα συνάφεια 2 2 : SMOKE LOW Yes No Yes 30 29 No 44 86 Εδώ η ψευδομεταβλητή είναι η SMOKE 1 smoke 0 no smoke 68
Θα ελέγξουμε πρώτα αν υπάρχει σχέση μεταξύ της LOW και του καπνίσματος σε επίπεδο σημαντικότητας 5%, παίρνουμε τα εξής X- squared = 4.2359, df = 1, p-value = 0.03958<0.05 άρα απορρίπτουμε την υπόθεση της ανεξαρτησίας. Τρέχουμε στο λογισμικό το Γ.Γ.Μ αποτελέσματα και παίρνουμε τα παρακάτω Πίνακας 3.5 Εκτιμηθέντες συντελεστές για τον πίνακα για την μεταβλητή SMOKE. Call: glm(formula = count ~ SMOKE + nonsmoke, famly = bnomal(logt)) Devance Resduals:[1] 0 0 Coeffcents:(1 not defned because of sngulartes) Estmate Std. Error z value Pr(> z ) (Intercept) -0.6702 0.1854-3.616 0.0003 *** SMOKETRUE 0.7041 0.3196 2.203 0.0276 * Non SMOKETRUE ΝΑ ΝΑ ΝΑ ΝΑ Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Null devance: 1.4896e+01 on 1 degrees of freedom Resdual devance: 3.2419e-14 on 0 degrees of freedom 69
AIC: 13.496 Εδώ το μοντέλο έχει βασική κατηγορία την NonSMOKE για τα odds 0.7041 rato(λσπ) η εκτίμηση του ˆ 0.7041 e 2.0219436 άρα η 1 σχετική πιθανότητα εμφάνισης γέννησης μωρού χαμηλού βάρους σε γυναίκα που καπνίζει είναι 2 φορές την αντίστοιχη πιθανότητα σε μια γυναίκα που δεν καπνίζει. Φτιάχνουμε ένα διάστημα εμπιστοσύνης 95% για το odds rato είναι: 2.5 % 97.5 % (Intercept) 0.3528836 0.7312668 SMOKETRUE 1.0818724 3.8005817 Αντίστοιχα η εκτίμηση των πιθανοτήτων είναι P Y ( 1 smoke 1) 0.508474 και P( Y 1 smoke 0) 0.3384615 Τώρα από τον πίνακα βλέπουμε ότι τα Resdual devance είναι κοντά στο μηδέν διότι το μοντέλο είναι το κορεσμένο θα ελέγχουμε πιο είναι καλύτερο το μοντέλο με την σταθερά ή το μοντέλο που έχουμε εκτιμήσει. Πίνακας 3.6 Σύγκριση των δύο μοντέλων για την προσαρμογή τους στα δεδομένα. Analyss of Devance Table Model 1: count ~ 1 Model 2: count ~ SMOKE + nonsmoke Resd. Df Resd. Dev Df Devance Pr(>Ch) 1 1 4.8674 2 0 0 1 4.8674 0.02737 * Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Παρατηρούμε ότι η p-value είναι 0.02737 είναι μικρότερη από 5%, οπότε απορρίπτουμε το μοντέλο με την σταθερά μόνο. 3.1.4 Logt μοντέλα για κατηγορικά δεδομένα Οι επεξηγηματικές μεταβλητές στα μοντέλα που συζητήσαμε στα προηγούμενα μπορεί να είναι συνεχείς ή κατηγορικές. Όταν είναι 70
κατηγορικές τα μοντέλα με Logt συνάρτηση σύνδεσης είναι ισοδύναμα με τα loglnear μοντέλα που θα μελετήσουμε στο επόμενο κεφάλαιο. Logt μοντέλα για I 2 Πίνακες Υποθέτουμε ότι έχουμε μια επεξηγηματική μεταβλητή που έχει Ι I 2 πίνακα, οι δύο απαντητικές κατηγορίες. Στη γραμμή του πιθανότητες είναι και με 1 2 1. Στο Logt μοντέλο θα έχουμε log 1 1 a 2 2 Με να περιγράφει την επίδραση του παράγοντα πάνω στην απαντητική μεταβλητή μας. Το δεξί μέλος της εξίσωσης μοιάζει με το μοντέλο για το μέσο στον one-way ANOVA. Το μοντέλο ANOVA απαιτεί ένα γραμμικό περιορισμό στους παραμέτρους όπως 0 ή. Τότε 1 I των 0 1 0 χαρακτηρίζει την σχέση. Για τον περιορισμό, a είναι ο μέσος των Logts και είναι η απόκλιση από το μέσο για την γραμμή. Έστω n j ο αριθμός των φορών που η απάντηση j παρουσιάζεται όταν ο παράγοντας είναι στο επίπεδο. Όταν ο παράγοντας δεν έχει καθόλου επίδραση στην απαντητική μεταβλητή τότε το απλό μοντέλο είναι : log 1 2 a. Αυτό είναι ειδική περίπτωση οπού 1 2... I είναι ισοδύναμες με 1 1... 1 I. Logt μοντέλα για μεγαλύτερες διαστάσεις 71
Αυτά τα μοντέλα γενικεύονται όταν υπάρχουν αρκετοί κατηγορικοί παράγοντες. Για τώρα ας υποθέσουμε δυο παράγοντες Α και Β για μια διχοτομική απαντητική μεταβλητή. Με ο αριθμός των επιπέδων του Α και J ο αριθμός των επιπέδων του Β. Ορίζουμε την πιθανότητα για την απαντητική Κ με k j όταν ο παράγοντας Α είναι στο επίπεδο και ο παράγοντας Β στο, έτσι 1 j 2 j 1. Για ένα 2 j IJ πίνακα το Logt μοντέλο είναι : log I 1 j A B a j 2 j Αναπαριστάνει την επίδραση του Α μέσα από η επίδραση του Β μέσα από J παραμέτρους I παράμετρούς B j A και. Υποθέτουμε ότι η επίδραση του κάθε παράγοντα είναι η ιδια για κάθε επίπεδο του άλλου. Αυτό το μοντέλο υποθέτει την απουσία αλληλεπίδρασης. Αυτό το μοντέλο αντιμετωπίζει το n j. ως σταθερά και το n j1 ως ανεξάρτητη διωνυμική τυχαία μεταβλητή με παραμέτρους 1 j. Εφαρμογή σε δεδομένα γεννήσεις Χαμηλού Βάρους Μωρών Τώρα έχω ως επεξηγηματική μεταβλητή την RACE(φυλή) που παίρνει τιμές 1=whte,2=black,3=other. Παρόμοια ανάλυση θα έχουμε και για των 3 2 πίνακα με προηγουμένως : RACE LOW Yes No Whte(1) 23 73 Black(2) 11 15 Other(3) 25 42 72
Τρέχουμε στο λογισμικό το Γ.Γ.Μ ln 0 1Whte 2Black 1 και έχουμε τα αποτελέσματα Θα κάνουμε τον έλεγχο ανεξαρτησίας για τον πίνακα μας και έχουμε X- squared = 4.2634, df = 2, p-value = 0.1186>0.05 άρα δεν απορρίπτουμε την υπόθεση ανεξαρτησίας. Άρα θα αναμένουμε να μην έχει επίδραση η επεξηγηματική μας μεταβλητή RACE. Πίνακας 3.7 Εκτιμηθέντες συντελεστές για το logt μοντέλο για την επεξηγηματική μεταβλητή RACE. Call: glm(formula = count ~ RWhte + RBlack, famly = bnomal(logt)) Devance Resduals: [1] 0 0 0 Coeffcents: Estmate Std. Error z value Pr(> z ) (Intercept) -1.24319 0.29308-4.242 2.22e-05 *** RWhteTRUE 0.08823 0.37825 0.233 0.8156 RBlackTRUE 0.93304 0.49343 1.891 0.0586. Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 73