ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Σχετικά έγγραφα
Αναλυτική Στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

9. Παλινδρόμηση και Συσχέτιση

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Εισόδημα Κατανάλωση

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

Μέθοδος μέγιστης πιθανοφάνειας

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

Περιεχόμενα. Πρόλογος... 15

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Συγγραφή και κριτική ανάλυση επιδημιολογικής εργασίας

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Στατιστική. Εκτιμητική

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Απλή Παλινδρόμηση και Συσχέτιση

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Απλή Γραμμική Παλινδρόμηση II

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Διάστημα εμπιστοσύνης της μέσης τιμής

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Γ. Πειραματισμός Βιομετρία

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Στατιστική Συμπερασματολογία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Η μέθοδος των βοηθητικών μεταβλητών. Παπάνα Αγγελική

Πολλαπλή παλινδρόμηση (Multivariate regression)

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

Στατιστική ανάλυση αποτελεσμάτων

Διαχείριση Υδατικών Πόρων

ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΙΣΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Εναλλακτικά του πειράματος

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Χ. Εμμανουηλίδης, 1

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Αναγνώριση Προτύπων Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Γ. Πειραματισμός Βιομετρία

Διάλεξη 2. Εργαλεία θετικής ανάλυσης Ή Γιατί είναι τόσο δύσκολο να πούμε τι συμβαίνει; Ράπανος-Καπλάνογλου 2016/7

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Δειγματοληψία στην Ερευνα. Ετος

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

ΑΣΚΗΣΕΙΣ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ. Άσκηση 1. Βρείτε δ/μα εμπιστοσύνης για τη μέση τιμή μ κανονικού πληθυσμού όταν n=20,

ΝΕΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΧΕΤΙΚΑ ΜΕ ΤΗΝ ΥΠΑΡΞΗ ΕΚΤΙΜΗΤΩΝ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ ΓΙΑ ΤΗΝ 3-ΠΑΡΑΜΕΤΡΙΚΗ ΓΑΜΜΑ ΚΑΤΑΝΟΜΗ

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Συνοπτικά περιεχόμενα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Αν έχουμε δύο μεταβλητές Χ και Υ και σύμφωνα με την οικονομική θεωρία η μεταβλητή Χ προσδιορίζει τη συμπεριφορά της Υ το ερώτημα που τίθεται είναι αν

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Transcript:

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ «Η ΕΦΑΡΜΟΓΗ ΤΩΝ GEE ΜΟΝΤΕΛΩΝ ΠΑΛΙΝΔΡΟΜΗΣΗΣ ΣΕ ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΕΣ ΜΕΤΡΗΣΕΙΣ POISSON ΔΕΔΟΜΕΝΩΝ ΕΠΙΛΗΠΤΙΚΩΝ ΚΡΙΣΕΩΝ, ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΑΚΕΤΟΥ SAS» Ευάγγελος Δ. Γεωργίου ΕΡΓΑΣΙΑ Που υποβλήθηκε στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών ως μέρος των απαιτήσεων για την απόκτηση Μεταπτυχιακού Διπλώματος Ειδίκευσης στη Στατιστική Μερικής Παρακολούθησης (Part-tme) Αθήνα Οκτώβριος 2012

ΑΦΙΕΡΩΣΗ Στο Δημήτρη, τη Μαρία, την Αθανασία και τον Ζαχαρία.

ΕΥΧΑΡΙΣΤΙΕΣ Η φοίτησή μου στο συγκεκριμένο πρόγραμμα μεταπτυχιακών σπουδών μού φάνηκε σαν ένα υπέροχο όνειρο, που ξυπνάς πάντα με ένα χαμόγελο, γεμάτος ενέργεια και αυτοπεποίθηση. Η προσφορά του προγράμματος και η επιρροή του λοιπόν σε μένα ήταν ιδιαίτερα σημαντική. Γνώση, χαρούμενες αλλά και δύσκολες στιγμές, συναντήσεις με ενδιαφέροντες και μοναδικούς ανθρώπους! Αισθάνομαι λοιπόν την ανάγκη, να ευχαριστήσω όλους εκείνους, που ο καθένας με τον τρόπο του, συνέβαλαν στο να ζήσω αυτό το όνειρο. Και πρώτο απ όλους, τον Αν. Καθηγητή κ. Βασίλειο Βασδέκη, ο οποίος έχοντας την εποπτεία της συγκεκριμένης εργασίας με βοήθησε πολύ στις δύσκολες «φάσεις» της, και γενικότερα σε οποιαδήποτε στιγμή το χρειάστηκα, ήταν παρών, κατατοπίζοντάς με άμεσα και σωστά. Πολλά ευχαριστώ επίσης, στην Υπεύθυνη και τους συναδέλφους μου στη Μελέτη Μητέρας Παιδιού «ΡΕΑ», της Ιατρικής Σχολής του Πανεπιστημίου Κρήτης, που με διευκόλυναν, όποτε υπήρχε ανάγκη. Ξεχωριστά θέλω να αναφερθώ στο «Λουλούδι», που μου στάθηκε από την αρχή που βρέθηκα στο Ηράκλειο. Και βέβαια με μεγάλη αγάπη και εκτίμηση ευχαριστώ τους συμφοιτητές μου, όλους ανεξαιρέτως, για τις όμορφες, άσχημες και μοναδικές στιγμές που μοιραστήκαμε τα δύο χρόνια των σπουδών μας, μέσα στην αίθουσα και κυρίως στα πολλά «Μυστικά Δείπνα»! Ιδιαίτερη μνεία δεν αντέχω να μην κάνω στο κολλητάρι «Mon Amour» Ζαχαρία, που του ανήκει κιόλας αυτή η εργασία για την ανυπέρβλητη υπομονή του, στο γκαντέμη «Κυριάκο» Μπουντουβάτσι, την αγαπημένη μου ναζιάρα «Laurta» Μαργαριταρώνη, την εκκωφαντικά γελαστή Σταύρη, τη γαλανομάτα μάγισσα «Ρίτσα», και τον πάντα ομιλητικό «Burny» Δημήτρη. Τέλος, πέρα από ευχαριστώ, ευγνωμοσύνη και αγάπη οφείλω στους ανθρώπους που είναι δίπλα μου, σε κάθε στιγμή της ζωής μου, στους φίλους μου. Πρώτα και πάνω από όλους στο «Φ.Α.Ε.», το «Αδελφάκι», το «Σκουλήκι», τις «Χειλάρες», την «Κοντή», τη «Ζωάρα», τον «Μο», τον «Dodo», το «Κομάντο», την «Ειρήνη» και φυσικά στη «Μικρούλα». Να είστε I

όλοι καλά και να έχετε πάντα δίπλα σας ανθρώπους που αγαπάτε και σας νοιάζονται. Σας ευχαριστώ πραγματικά και να ξέρετε ότι θα είμαι πάντα δίπλα σας, όποτε με χρειαστείτε, αλλά και όποτε δε με χρειάζεστε θα είμαι πάλι εκεί, για να σας θυμίζω την όλο «νάζι» παρουσία μου και να σας σπάω τα νεύρα! II

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ Γεννήθηκα πριν από 28 περίπου χρόνια στη Λιβαδειά, και μεγάλωσα εκεί, όντας δευτερότοκος γιος μιας τετραμελούς οικογένειας. Με την εισαγωγή μου στο Τμήμα Στατιστικής και Αναλογιστικών Χρηματοοικονομικών Μαθηματικών του Πανεπιστημίου Αιγαίου, εγκαταστάθηκα στη Σάμο, όπου και διέμεινα από το 2002 έως το 2007. Στη συνέχεια και για τις ανάγκες της παρακολούθησης του ΠΜΣ «Ειδίκευσης στη Στατιστική», μετακινήθηκα στην Αθήνα. Μέσα από τη φοίτησή μου αυτή, πραγματοποίησα ένα στόχο ζωής, που μου πρόσφερε βαθύτερη και πιο εξειδικευμένη γνώση κι ελπίζω ότι θα βοηθήσει την επαγγελματική μου πορεία κι εξέλιξη. Από τον Οκτώβρη του 2009 ξεκίνησα να εργάζομαι ως στατιστικός αναλυτής στον τομέα Κοινωνικής Ιατρικής, της Ιατρικής Σχολής της Κρήτης στο Ηράκλειο και πιο συγκεκριμένα στη Μελέτη Μητέρας Παιδιού «ΡΕΑ». Παράλληλα, και για τη συνεχή επαγγελματική μου ενημέρωση και βελτίωση, συμμετείχα σε αρκετά σεμινάρια και συνέδρια, όπως και σε διάφορες ερευνητικές μελέτες και προγράμματα. III

IV

ABSTRACT Evaggelos Georgou September 2012 The analyss of correlated data arsng from repeated measurements when the measurements are assumed to be multvarate normal has been studed extensvely. In many practcal problems, however, the normalty assumpton s not reasonable. When the responses are dscrete and correlated, for example, dfferent methodology must be used n the analyss of the data. Generalzed Estmatng Equatons (GEEs) provde a practcal method wth reasonable statstcal effcency to analyze such data. Ths paper provdes an overvew of the use of GEEs n the analyss of correlated data usng the SAS System. Emphass s placed on dscrete correlated data, snce ths s an area of great practcal nterest. The proposed method s llustrated by an analyss of epleptc sezure count data arsng from a study of progabde as an adjuvant therapy for partal sezures. V

VI

ΠΕΡΙΛΗΨΗ Ευάγγελος Γεωργίου Σεπτέμβριος 2012 Τα συσχετιζόμενα δεδομένα που προκύπτουν από επαναλαμβανόμενες μετρήσεις, όταν υποθέτουν πολυμεταβλητή κανονικότητα, έχουν μελετηθεί εκτενώς και αναλυτικά. Σε αρκετά πρακτικά προβλήματα όμως, η υπόθεση της κανονικότητας δεν είναι λογική. Για παράδειγμα, όταν οι μεταβλητές απόκρισης είναι συσχετισμένες και διακριτές πρέπει να χρησιμοποιείται διαφορετική μεθοδολογία. Τα GEE ( Generalzed Estmatng Equatons ) παρέχουν μια πρακτική μέθοδο με λογική στατιστική αποτελεσματικότητα για την ανάλυση τέτοιων δεδομένων. Η παρούσα εργασία αποτελεί μια επισκόπηση της χρήσης των GEE στην ανάλυση συσχετιζόμενων δεδομένων, με τη βοήθεια του στατιστικού προγράμματος SAS. Έμφαση δίνεται στα διακριτά συσχετιζόμενα δεδομένα, που είναι μια περιοχή με σπουδαίο πρακτικό ενδιαφέρον. Η προτεινόμενη μέθοδος παρουσιάζεται μέσα από την ανάλυση δεδομένων από μετρήσεις επιληπτικών κρίσεων, όπως αυτά προέκυψαν από τη μελέτη μιας υπό- εξέταση θεραπείας ( progabde ) στις μερικές κρίσεις. VII

VIII

ΚΑΤΑΛΟΓΟΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΕΥΧΑΡΙΣΤΙΕΣ ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ ABSTRACT ΠΕΡΙΛΗΨΗ ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ ΚΑΤΑΛΟΓΟΣ ΔΙΑΓΡΑΜΜΑΤΩΝ Σελίδα I III V VII ΧΙ ΧΙΙΙ ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 1 ΚΕΦΑΛΑΙΟ 2 2. 1 Επαναλαμβανόμενες μετρήσεις 2.1. 1 Χρήση γραφικών συμβόλων 2.1. 2 Πλεονεκτήματα επαναλαμβανόμενων μελετών 2.1. 3 Μεροληψία 2.1. 4 Αποδοτικότητα 2.1. 5 Υπολογισμός μεγέθους δείγματος 2.1.5. 1 Συνεχής μεταβλητή απόκρισης 2.1.5. 2 Διακριτή μεταβλητή απόκρισης 2. 2 Στατιστικές μέθοδοι για επαναλαμβανόμενα δεδομένα 2.2. 1 Ανάλυση Διακύμανσης Μονής Κατεύθυνσης (ANOVA) 2.2. 2 Ανάλυση Διακύμανσης Πολλών Κατευθύνσεων (MANOVA) 2.2. 3 Μεικτό Γραμμικό Μοντέλο Επιδράσεων (MRM) 2.2. 4 Γενικευμένες Εξισώσεις Εκτίμησης (GEE) 2. 3 Μοντέλα GEE 2.3. 1 Γενικευμένα Γραμμικά Μοντέλα (GLM) 2.3. 2 Μεθοδολογία GEE 2.3. 3 Υποθέσεις GEE μοντέλων 2.3. 4 Δομές πινάκων συσχετίσεις 2.3. 5 Εκτιμήσεις GEE 3 6 6 8 9 13 14 14 14 15 16 17 18 19 19 21 22 23 26 IX

2.3. 6 Μηχανισμός ελλειπουσών τιμών 2.4 Επιληψία 2.4. 1 Αιτιολογία 2.4. 2 Παθογένεια 2.4. 3 Κλινική εικόνα Συμπτώματα 2.4. 4 Διαγνώσεις 2.4. 5 Επιπλοκές Θεραπεία - Πρόληψη 30 31 32 32 33 34 34 ΚΕΦΑΛΑΙΟ 3 3. 1 Εισαγωγή 3. 2 Περιγραφή δεδομένων 3. 3 Αποτελέσματα εφαρμογής 37 38 46 ΚΕΦΑΛΑΙΟ 4 ΣΥΜΠΕΡΑΣΜΑΤΑ- ΣΥΖΗΤΗΣΗ 4. 1 Συμπεράσματα 4. 2 Συζήτηση 59 61 ΞΕΝΗ ΒΙΒΛΙΟΓΡΑΦΙΑ ΕΛΛΗΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ 63 65 X

ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Πίνακας Σελίδα 2.1 Κοινοί πίνακες συσχέτισης «εργασίας». 3.1 Δεδομένα της κλινικής δοκιμής των επιληπτικών κρίσεων. 3.2 Πίνακας συσχετίσεων Spearman s rho μεταξύ των επισκέψεων. 3.3 Συντελεστής μεταβλητότητας για τις επισκέψεις ανά φάρμακο. 3.4 Περιγραφικά στατιστικά μέτρα για την ηλικία και την αρχική μέτρηση επιληπτικών κρίσεων τις 8 εβδομάδες ανά θεραπεία. 3.5 Περιγραφικά στατιστικά μέτρα ανά θεραπεία και επίσκεψη και αναλογία διακύμανσης μέσου δείγματος. 3.6 Μέση αναλογία επιληπτικών κρίσεων (ανά 2 εβδομάδες) ανά θεραπεία και επίσκεψη. 3.7 Πίνακας συνδιακύμανσης της εκτίμησης των παραμέτρων, βασιζόμενοι στο μοντέλο και εμπειρικά. 3.8 Εκτιμήσεις παραμέτρων λογαριθμικού γραμμικού μοντέλου παλινδρόμησης, προσαρμόζοντας GEE μέθοδο και υποθέτοντας ανεξάρτητη συσχέτιση. 3.9 Πίνακας συνδιακύμανσης της εκτίμησης των παραμέτρων, βασιζόμενοι στο μοντέλο και εμπειρικά. 3.10 Εκτιμήσεις παραμέτρων λογαριθμικού γραμμικού μοντέλου παλινδρόμησης, προσαρμόζοντας GEE μέθοδο και υποθέτοντας AR(1) συσχέτιση. 3.11 Πίνακας συνδιακύμανσης της εκτίμησης των παραμέτρων, βασιζόμενοι στο μοντέλο και εμπειρικά. 3.12 Εκτιμήσεις παραμέτρων λογαριθμικού γραμμικού μοντέλου παλινδρόμησης, προσαρμόζοντας GEE μέθοδο και υποθέτοντας exchangeable συσχέτιση. 3.13 Πίνακας συνδιακύμανσης της εκτίμησης των παραμέτρων, βασιζόμενοι στο μοντέλο και εμπειρικά. 3.14 Εκτιμήσεις παραμέτρων λογαριθμικού γραμμικού μοντέλου 25 39 41 41 42 43 45 49 49 51 51 53 53 55 XI

παλινδρόμησης, προσαρμόζοντας GEE μέθοδο και υποθέτοντας μη - δομημένη συσχέτιση. 3.15 Εκτιμήσεις παραμέτρων λογαριθμικού γραμμικού μοντέλου παλινδρόμησης, προσαρμόζοντας GEE μέθοδο και υποθέτοντας διάφορες δομές συσχέτισης. 3.16 Εκτιμήσεις παραμέτρων λογαριθμικού-γραμμικού μοντέλου παλινδρόμησης, προσαρμόζοντας GEE μέθοδο και υποθέτοντας exchangeable δομή συσχέτισης με ή χωρίς τον ασθενή ID 49. 55 56 58 XII

ΚΑΤΑΛΟΓΟΣ ΔΙΑΓΡΑΜΜΑΤΩΝ Διάγραμμα 2.1 Σχέση μεταξύ ικανότητας διαβάσματος ( Readng ablty ) και ηλικίας ( Age ) σε υποθετικά δεδομένα. 2.2 Σχέση μεταξύ σχετικής αποδοτικότητας στις συγχρονικές και διαχρονικές εκτιμήσεις και τη φύση της μεταβολής στη Χ, με ομοιόμορφη δομή συσχέτισης και n παρατηρήσεις ανά υποκείμενο: (a) n=2; (b) n=5; (c) n=10. 3.1Κατανομή αριθμού επιληπτικών κρίσεων για κάθε παρατήρηση. 3.2 Διάγραμμα πλαισίου απολήξεων για κάθε αριθμό των επιληπτικών κρίσεων στην αρχική τιμή και στις επόμενες τέσσερις χρονικές στιγμές ανά δυο εβδομάδες. (a) placebo; (b) progabde. Σελίδα 5 11 40 44 XIII

XIV

ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ Η συγκεκριμένη εργασία ασχολείται με τη μελέτη της στατιστικής μεθόδου των Generalzed Estmatng Equatons (GEE) μοντέλων για διακριτή μεταβλητή απόκρισης, μέσα από την επεξεργασία επαναλαμβανόμενων δεδομένων μιας κλινικής δοκιμής για τον έλεγχο μιας υπό- εξέταση θεραπείας για την αντιμετώπιση των επιληπτικών κρίσεων. Κύριοι στόχοι αυτής της εργασίας είναι η επικύρωση της αποτελεσματικότητας της θεραπείας progabde στη συγκεκριμένη κλινική δοκιμή, καθώς και η ανάδειξη τόσο των θετικών σημείων των GEE μοντέλων, όσο και πιθανών παραμέτρων που θα τα βελτιώσουν. Στο πλαίσιο αυτό, αρχικά παρουσιάζονται τα κύρια χαρακτηριστικά των επαναλαμβανόμενων μελετών και οι πιο σημαντικές στατιστικές μέθοδοι ανάλυσης των επαναλαμβανόμενων δεδομένων. Στη συνέχεια της δεύτερης αυτής ενότητας, γίνεται μνεία για τα GEE μοντέλα και ακολουθεί μια περιγραφή των ιδιαίτερων γνωρισμάτων (αιτιολογία, κλινικά συμπτώματα, διάγνωση, θεραπεία) της επιληψίας. Στην τρίτη ενότητα που έπεται, καταγράφονται στοιχεία από τη μεθοδολογία της μελέτης, όπως η περιγραφή του πλαισίου και του δείγματος των ασθενών, καθώς και τα ερευνητικά ερωτήματα. Παράλληλα, παρατίθενται οι στατιστικές μέθοδοι κι αναλύσεις που πραγματοποιήθηκαν, και βέβαια τα αποτελέσματά τους. Καταλήγοντας, η εργασία ολοκληρώνεται με τη συγκεντρωτική ανάδειξη των συμπερασμάτων που προέκυψαν από τη συγκεκριμένη διερεύνηση, ενώ γίνεται και μία συγκριτική αντιπαράθεση των συμπερασμάτων αυτών, με τα αντίστοιχα άλλων ερευνητών που μελέτησαν το ίδιο θέμα. 1

2

ΚΕΦΑΛΑΙΟ 2 2.1 Επαναλαμβανόμενες μελέτες ( Longtudnal studes ) Το κύριο χαρακτηριστικό μιας επαναλαμβανόμενης μελέτης είναι ότι τα άτομα που αποτελούν το δείγμα της, μετρώνται ως προς ένα ή περισσότερα χαρακτηριστικά, κατ επανάληψη μέσα στο χρόνο. Πρόκειται δηλαδή για μελέτες, που περιλαμβάνουν πάνω από μία μέτρηση στο χρόνο, του ίδιου χαρακτηριστικού του ίδιου ατόμου- πειραματικού υποκειμένου. Έτσι έχουμε σ ένα συγκεκριμένο χρονικό διάστημα, μια σειρά από μετρήσεις που αφορούν σε ένα συγκεκριμένο υποκείμενο και γίνονται σε συγκεκριμένες χρονικές στιγμές και κάτω από τις ίδιες πάντα συνθήκες (Δαφέρμος, 2002). Ένα δεύτερο χαρακτηριστικό γνώρισμα των επαναλαμβανόμενων μετρήσεων είναι ότι είναι ιεραρχικά τοποθετημένες. Όταν δηλαδή ένας ερευνητής σκοπεύει να εφαρμόσει μια νέα πειραματική μέθοδο σε μια πειραματική ομάδα, πρέπει να προβλέψει οι μετρήσεις που θα πραγματοποιήσει πριν και μετά την εφαρμογή, να έχουν μια ορισμένη διάταξη. Έστω ότι έχουμε την περίπτωση μιας έρευνας για τη θεραπεία μιας νόσου με φάρμακα. Είναι σαφές ότι άλλα φάρμακα (κανονικά φάρμακα) θα χορηγηθούν στην πειραματική ομάδα και άλλα φάρμακα (ψευδοφάρμακα ή placebo) στην ομάδα ελέγχου. Δε μπορούμε δηλαδή να έχουμε τυχαίες, αλλά συγκεκριμένες, αντιστοιχίσεις μεταξύ των φαρμάκων και των ομάδων της έρευνας. Να τονίσουμε ότι ένας ασθενής που λαμβάνει ένα συγκεκριμένο φάρμακο, υπάρχει η πιθανότητα να διαφοροποιηθεί η συμπεριφορά του, ανάλογα με το πόσο απέχουν χρονικά, οι λήψεις του φαρμάκου. Και σε αυτήν την περίπτωση διαπιστώνουμε την ιεραρχική δομή, που υπάρχει σε ένα επαναληπτικό μοντέλο. Στο σημείο αυτό και πριν προχωρήσουμε, καλό είναι να διασαφηνίσουμε κάποιους βασικούς όρους που θα χρησιμοποιήσουμε στη συνέχεια (Δαφέρμος, 2002). Έτσι ορίζουμε ως: 3

Μονάδα παρατήρησης ( observatonal unt ) το υποκείμενο που μελετάται, δηλαδή το άτομο του οποίου «οι επιδόσεις» αφορούν στην έρευνα μας. Πειραματικές συνθήκες ( treatments ) τις συγκεκριμένες συνθήκες κάτω από τις οποίες γίνεται η κάθε μέτρηση. «Ανάμεσα» μεταβλητή ( between varable ) τη μεταβλητή ομαδοποίησης. Για παράδειγμα, «ανάμεσα» μεταβλητή μπορεί να είναι το φύλο, που ταξινομεί τα υποκείμενα της έρευνας σε δύο κατηγορίες, σε αρσενικό και θηλυκό. «Μέσα» μεταβλητή ( wthn varable ) τη μεταβλητή που αφορά στις συνθήκες ή στις χρονικές στιγμές κατά τις οποίες μετράμε τα υποκείμενα του επαναληπτικού μας μοντέλου. Έστω για παράδειγμα ότι κάποιος ερευνητής προβλέπεται να κάνει τέσσερα τεστ στα άτομα της έρευνάς του. Τότε μια μεταβλητή με το όνομα tme θα είναι μία «μέσα» μεταβλητή, η οποία θα έχει τέσσερα επίπεδα και θα ισχύει ότι για tme=1 αναφερόμαστε στο 1 ο τεστ, για tme=2 στο 2 ο τεστ κ.ο.κ. Οι επαναλαμβανόμενες μελέτες, παρόλο που μπορεί να εξετάζουν το ίδιο ερευνητικό ερώτημα, μπορεί να έρχονται σε διάσταση με τις συγχρονικές ή επιπολασμού ή διατμηματικές μελέτες ( cross sectonal studes ), στις οποίες κάθε αποτέλεσμα μετριέται μια φόρα για κάθε υποκείμενο. Η παραπάνω διαπίστωση απεικονίζεται στο Διάγραμμα 2.1 που ακολουθεί. Στο Διάγραμμα 2.1(a) έχει αποτυπωθεί η σχέση της αναγνωστικής ικανότητας με την ηλικία, σε μια υποθετική συγχρονική μελέτη παιδιών. Βάσει αυτού, φαίνεται ότι η αναγνωστική ικανότητα είναι φτωχότερη στα μεγαλύτερα παιδιά. Βλέποντας το Διάγραμμα 2.1(b) υποθέτουμε ότι κάθε παιδί μετριέται δύο φορές, και φαίνεται ότι τα νεότερα παιδιά ξεκινούν από υψηλότερο επίπεδο ανάγνωσης. Μια εντελώς διαφορετική όμως ερμηνεία θα είχαμε, εάν τα δεδομένα παρουσιάζονταν όπως στο Διάγραμμα 2.1(c). 4

Διάγραμμα 2.1 Σχέση μεταξύ ικανότητας διαβάσματος ( Readng ablty ) και ηλικίας ( Age ) σε υποθετικά δεδομένα. Έτσι, τόσο τα συγχρονικά όσο και τα επαναλαμβανόμενα μοντέλα, θα μπορούσαν να μας περιγράψουν την ίδια ασυνήθιστη θέση, ότι δηλαδή η αναγνωστική ικανότητα επιδεινώνεται με το πέρας της ηλικίας. Το ιδιαίτερο σημείο όμως αυτού του παραδείγματος είναι ότι οι επαναλαμβανόμενες μελέτες (Διαγράμματα 2.1(b) και 2.1(c)) μπορούν να ξεχωρίσουν τις αλλαγές στο χρόνο μέσα στα υποκείμενα, από τις διαφορές μεταξύ των υποκειμένων στην αρχική τιμή των επιπέδων. Κάτι που δε μπορούμε να δούμε στις συγχρονικές μελέτες (Menggang, 2009). Παράλληλα, τα δεδομένα για τις επαναλαμβανόμενες μετρήσεις μπορούν να συγκεντρωθούν είτε προοπτικά (ακολουθώντας δηλαδή τα υποκείμενα εμπρός στο χρόνο) είτε εκ των υστέρων ( συλλέγοντας μετρήσεις για κάθε υποκείμενο από δεδομένα ή αρχεία από το ιστορικό του). Τα δεδομένα για τις επαναλαμβανόμενες μελέτες συλλέγονται κυρίως προοπτικά. Και βέβαια, τα διαχρονικά δεδομένα χρειάζονται ειδικές στατιστικές μεθόδους ανάλυσης, επειδή το σύνολο των παρατηρήσεων τείνει να είναι αλληλοσχετιζόμενο ( ntercorrelated ). Αυτή η αλληλοσυσχέτιση πρέπει να λαμβάνεται πάντα υπόψη, ώστε να επιτυγχάνεται η επιστημονική εγκυρότητα της ανάλυσης. Κοινωνιολόγοι και οικονομολόγοι συχνά αναφέρουν τις διαχρονικές μελέτες και ως μελέτες πλαισίου ( panel studes ). 5

2.1.1 Χρήση γραφικών συμβόλων Οι περισσότερες επαναλαμβανόμενες αναλύσεις βασίζονται σ ένα μοντέλο παλινδρόμησης, όπως το γραμμικό μοντέλο: Y X X X X X ' ' j 1 j1 2 j2... p jp j j j j j όπου ( 1,..., p ) είναι ένα p- διάνυσμα από άγνωστους συντελεστές παλινδρόμησης και j είναι ένας μηδενικός μέσος τυχαίας μεταβλητής, που εκπροσωπεί την απόκλιση της απόκρισης από το μοντέλο πρόβλεψης ' X j. Ουσιαστικά, το Χ j1 =1 για όλα τα και j, και το 1 είναι η σταθερά για το γραμμικό μοντέλο παλινδρόμησης. Περαιτέρω επεξήγηση των συμβόλων: Το Υ j εκπροσωπεί τη μεταβλητή απόκρισης, το X j είναι ένα διάνυσμα μήκους p (p- διάνυσμα) των ερμηνευτικών μεταβλητών που παρατηρήθηκαν κατά τα χρόνο t j, για παρατηρήσεις j=1,2,,n των υποκειμένων =1,2,,m. Ο μέσος των Υ j παρουσιάζεται ως EY ( ) Var( Y ) (Δαφέρμος, 2002). j j j j και η διακύμανση ως 2.1.2 Πλεονεκτήματα επαναλαμβανόμενων μελετών Όπως ήδη αναφέραμε, το κύριο πλεονέκτημα μιας επαναλαμβανόμενης μελέτης είναι η αποτελεσματικότητα που έχει, ως προς την εκτίμηση της αλλαγής. Αυτό γίνεται περισσότερο σαφές, όταν παρουσιάζεται σε αντιδιαστολή με το τι συμβαίνει στις συγχρονικές μελέτες. Για το λόγο αυτό, θα μελετήσουμε τη διάκριση μεταξύ συγχρονικών και επαναλαμβανόμενων μελετών μέσα από την εξέταση μιας απλής γραμμικής παλινδρόμησης, χωρίς τη σταθερά. Στις συγχρονικές μελέτες (n =1) έχουμε το μοντέλο: Y, 1,..., 1 C X 1 1 m 6

όπου C αντιπροσωπεύει τη διαφορά του μέσου Υ σε δύο υποπληθυσμούς, οι οποίοι διαφέρουν κατά μια μονάδα στη Χ (Βασδέκης, 2010). μορφή: Ένα αντίστοιχο μοντέλο επαναλαμβανόμενων μετρήσεων έχει τη Y 1 C X 1 L( Xj X 1) j, j 1,..., n και 1,..., m Διαπιστώνουμε ότι όταν το j 1, τότε το μοντέλο των επαναλαμβανόμενων γίνεται όμοιο με αυτό των συγχρονικών. Έτσι το Δηλαδή έχουμε: C έχει την ίδια ερμηνεία. Έτσι το Επίσης μπορούμε να υπολογίσουμε το ( Y Y ) ( X X ) j 1 L j 1 j 1 L αφαιρώντας τα δύο μοντέλα: L αντιπροσωπεύει την αναμενόμενη αλλαγή στο Y μέσα στο χρόνο, για κάθε μονάδα αλλαγής της X, για ένα συγκεκριμένο υποκείμενο... Στο Διάγραμμα 2.1 που είδαμε στην προηγούμενη υποενότητα, τα C και L έχουνε αντίθετα πρόσημα στο Διάγραμμα 2.1(b), ενώ στο Διάγραμμα 2.1(c) έχουν τα ίδια. Όταν C L, στις συγχρονικές μελέτες υποθέτουμε πως τα υποκείμενα αλλάζουν με το χρόνο, ενώ στις επαναλαμβανόμενες μελέτες αυτή η ισχυρή υπόθεση είναι περιττή, δεδομένου ότι αυτά μπορούν να εκτιμηθούν. Ακόμη και όταν ισχύει ότι C L, οι επαναλαμβανόμενες μελέτες τείνουν να είναι πιο ισχυρές από τις συγχρονικές. Η παράμετρος β c είναι μια σύγκριση των υποκειμένων, με μια συγκεκριμένη τιμή του X, σε σχέση με άλλα με διαφορετική τιμή. Η παράμετρος L αντίθετα, υπολογίζεται συγκρίνοντας ένα άτομο απόκρισης σε δυο χρονικές στιγμές, υποθέτοντας X αλλαγές στο χρόνο (Dggle, Heagerty, Lang, & Zeger, 1994). 7

Ένα ακόμα πλεονέκτημα των επαναλαμβανόμενων μελετών είναι ότι έχουν την ικανότητα να διακρίνουν τις διαφορές στην Y με την πάροδο του χρόνου για ένα άτομο, από τη διακύμανση του Y μεταξύ των ατόμων. Σε δεδομένα συγχρονικών μελετών η εκτίμηση από ένα άτομο πρέπει να ζητά στοιχεία από τα άλλα, για να ξεπεραστεί το μέτρο του σφάλματος. Στις επαναλαμβανόμενες μετρήσεις από την άλλη, μπορούμε να δανειστούμε ισχύ από την πάροδο του χρόνου για ένα άτομο που μας ενδιαφέρει, καθώς και από όλα τα άτομα. Εάν υπάρχει μικρή μεταβλητότητα μεταξύ των ατόμων, η εκτίμηση για ένα άτομο μπορεί να στηριχθεί σε στοιχεία από τους άλλους (όπως και στην περίπτωση των συγχρονικών μελετών). Αν όμως η διακύμανση σε όλα τα άτομα είναι μεγάλη, τότε προτιμάται να χρησιμοποιούνται μόνο τα στοιχεία για το κάθε άτομο (Dggle, et al., 1994). 2.1.3 Μεροληψία ( Bas ) Όπως ήδη αναφέραμε, είναι πιθανόν η σχέση μεταξύ μιας επεξηγηματικής μεταβλητής X και μιας απόκρισης Y που προσδιορίζεται σε μια συγχρονική μελέτη, να είναι διαφορετική λόγω της σχέσης μέτρησης σε μια επαναλαμβανόμενη μελέτη. Ξεκινάμε μια μελέτη μεροληψίας χρησιμοποιώντας ένα μοντέλο της μορφής: Y X, j 1,..., n και 1,..., m j o j j Επίσης θεωρούμε μια μεταβλητή απόκρισης στην οποία γίνονται ταυτόχρονα αλλαγές με την πάροδο του χρόνου και οι αλλαγές αυτές ποικίλουν μεταξύ των υποκειμένων. Η σχέση, με αυτό το σκεπτικό, διαμορφώνεται ως εξής: Y X ( X X ) j 0 1 j 1 j Σημειώνουμε ότι αυτό το μοντέλο υποθέτει ότι η συγχρονική επίδραση X 1 είναι ίδια με την επίδραση από την επαναλαμβανόμενη μέτρηση 8

( X X ). Το μοντέλο μπορεί να τροποποιηθεί, επιτρέποντας στο κάθε άτομο j 1 να έχει το δικό του σταθερό όρο, 0. Έτσι, αντικαθιστώντας το 0 X 1 με το 0, έχουμε: Y ( X X ) j 0 j 1 j Ανακεφαλαιώνοντας, βλέπουμε ότι στην πρώτη περίπτωση έχουμε την ίδια επίδραση, τόσο στις συγχρονικές όσο και στις επαναλαμβανόμενες μελέτες, ενώ στη δεύτερη περίπτωση το επίπεδο αναφοράς μπορεί να διαφέρει για κάθε άτομο. Ένας ενδιάμεσος, δραστικότερος και εύχρηστος τύπος είναι ο εξής: Y X ( X X ) j 0 C 1 L j 1 j Το μοντέλο αυτό μας επιτρέπει να εξετάσουμε τις επιδράσεις στις συγχρονικές και επαναλαμβανόμενες μελέτες ξεχωριστά. Επίσης, αυτός ο τύπος μπορεί να χρησιμοποιηθεί για να ελέγξουμε εάν οι επιδράσεις μεταξύ των δύο μελετών είναι ίσες, δηλαδή αν ισχύει C L (Dggle, et al., 1994). 2.1.4 Αποδοτικότητα ( Effcency ) Ακόμη και όταν C L, οι επαναλαμβανόμενες μελέτες τείνουν να είναι πιο ισχυρές. Η διακύμανση του ˆ είναι: m 2 2 1 1 1 Var( ˆ ) ( X X ) όπου 2 Var( ). j Η διακύμανση Var( ˆ ), που χρησιμοποιεί όλα τα δεδομένα είναι: L m X R X 2 ' 1 1 1 9

όπου R είναι ένας πίνακας n n συσχετίσεων, για Y ( Y1, Y 2,..., Y ) και n όπου για μικρές τιμές του. Το μέτρο ώστε να μετρήσουμε τη δραστικότητα είναι: Var( ˆ ) e L Var( ˆ ) C e, κερδίζουμε περισσότερη πληροφορία, λαμβάνοντας επιπρόσθετες μετρήσεις για κάθε άτομο. Η τιμή του e εξαρτάται αποκλειστικά από την ακριβή δομή του πίνακα συσχετίσεων. Συνήθως στις επαναλαμβανόμενες μελέτες θεωρούμε ότι συμβαίνουν δύο πίνακες συσχετίσεων. Έστω ότι n =n για όλα τα, τότε: 1 η περίπτωση. Θεωρούμε ομοιόμορφο πίνακα συσχετίσεων Rjk 1, εάν j=k και Rjk κάθε j k, η σχέση για το e μειώνει κατά: όπου: 1 n 1 1 n e n (1 ) 1 (1 ) για δ= 2 X, j X m n 1 j X X m 1 Το Διάγραμμα 2.2 δίνει κάποια γραφήματα του e έναντι του δ, για επιλεγμένες τιμές του n και του ρ. Εκτός από την περίπτωση που το δ είναι μικρό και η κοινή συσχέτιση ρ είναι υψηλή, υπάρχουν πολλά που μπορούν να προκύψουν σε μια επαναλαμβανόμενη μελέτη, ακόμη κι όταν ο αριθμός των επαναλαμβανόμενων παρατηρήσεων είναι τόσο μικρός και για τα δυο (Dggle, et al., 1994). 10

Διάγραμμα 2.2 Σχέση μεταξύ σχετικής αποδοτικότητας στις συγχρονικές και διαχρονικές εκτιμήσεις και τη φύση της μεταβολής στη Χ, με ομοιόμορφη δομή συσχέτισης και n παρατηρήσεις ανά υποκείμενο: (a) n= 2; (b) n = 5; (c) n = 10. : ρ = 0.8; ----------: ρ = 0.5; : ρ = 0.2; : ρ = 0.0. 2 η περίπτωση Εδώ ο ακριβής πίνακας συσχετίσεων έχει τη μορφή Rjk j k. Έτσι: 2 1 e (1 ) 1 ( n 2) ( n 1) όπου 2 n( n 1) 2 ( n 3) ( n 1) ( n 3) ( n 2). Να αναφέρουμε ότι και στις δυο περιπτώσεις το e μειώνει το δ. 11

2.1.5 Υπολογισμός μεγέθους δείγματος Όπως σε πολλές μελέτες, έτσι και στις επαναλαμβανόμενες, ο ερευνητής χρειάζεται να ξέρει εκ των προτέρων το μέγεθος του δείγματος. Έτσι, για να προσδιορίσει το απαιτούμενο μέγεθος του δείγματος, ο ερευνητής πρέπει να προσδιορίσει τις παρακάτω ποσότητες: a. Σφάλμα Τύπου Ι (ɑ): είναι η πιθανότητα να απορρίψεις τη μηδενική υπόθεση (Η 0 ), ενώ είναι αληθής. b. Μικρότερη ουσιαστική διαφορά που πρέπει να ανιχνευθεί: ο ερευνητής θέλει τυπικά η μελέτη να απορρίψει τη μηδενική υπόθεση (Η 0 ) με μεγάλη πιθανότητα, όταν η παράμετρος ενδιαφέροντος αποκλίνει κατά ένα ποσό d ή περισσότερο, το οποίο είναι και σημαντικό. c. Ισχύς (p): είναι η πιθανότητα η μελέτη να απορρίψει την Η 0, όταν είναι ψευδής. d. Μέτρο μεταβλητότητας (σ 2 ): για μια συνεχή μεταβλητή απόκρισης Υ j, η ποσότητα σ 2 =Var(Y j ) μετράει την ανεξήγητη μεταβλητότητα της απόκρισης. Στις επαναλαμβανόμενες μελέτες χρειάζονται επιπλέον και οι ακόλουθες ποσότητες: e. Αριθμός επαναλαμβανόμενων παρατηρήσεων για κάθε άτομο (n): ο ερευνητής είναι ελεύθερος να επιλέξει μεταξύ μιας μικρής τιμής του n και ενός μεγάλου μεγέθους δείγματος ή αντίστροφα. f. Συσχέτιση μεταξύ των επαναλαμβανόμενων μετρήσεων: το μοτίβο της συσχέτισης μεταξύ των επαναλαμβανόμενων παρατηρήσεων μπορεί μερικές φορές να υπολογισθεί από προηγούμενες μελέτες. Εάν αυτό δεν είναι δυνατό, θα πρέπει να γίνει μια λογική εικασία. Και βέβαια, ο υπολογισμός του μεγέθους τους δείγματος διαφέρει αν η μεταβλητή απόκρισης είναι συνεχής ή δίτιμη (Dggle, et al., 1994). 12

2.1.5.1 Συνεχής μεταβλητή απόκρισης Έστω ότι έχουμε το απλό και κλασσικό πρόβλημα σύγκρισης δύο ομάδων Α και Β. Θεωρούμε ότι η ομάδα Α είναι της μορφής: Y X, j 1,2,..., j 0A 1A j j n και 1,2,..., m δηλαδή, η μεταβλητή απόκρισης εξαρτάται από μια ερμηνευτική μεταβλητή. Στην ομάδα Β διατηρούμε τις ίδιες εξισώσεις αλλά με διαφορετικούς συντελεστές, 0B και 1B. Και οι δύο ομάδες έχουν τον ίδιο αριθμό υποκειμένων, ενώ κάθε άτομο (m) έχει n επαναλαμβανόμενες παρατηρήσεις (Dggle, et al., 1994). Επίσης, θεωρούμε τα εξής: a. Var( j ) j 2 b. Corr( Y, Y ), για όλα τα j k k c. Xj X j μεταβλητών., δηλαδή το κάθε άτομο έχει το ίδιο σύνολο επεξηγηματικών Έτσι, X j είναι η διάρκεια μεταξύ της πρώτης και της j th επίσκεψης, 1A και 1B είναι οι ρυθμοί μεταβολής της Y για τις ομάδες Α και Β αντίστοιχα. Οπότε ο αριθμός των υποκειμένων κάθε ομάδας, που χρειάζονται για να έχουμε σφάλμα τύπου Ι, ποσοστού σφάλματος α και ισχύς P είναι: m 2 2 Za ZQ p 2 1 ns D 2 2 X όπου Q1 P, s ( X X ) n η μεταξύ υποκειμένων διακύμανση Χ j και 2 2 X j j D η μικρότερη ουσιαστική διαφορά. 1B 1A Να αναφέρουμε ότι για κάθε τιμή της σ 2, το απαιτούμενο μέγεθος δείγματος μειώνεται καθώς η συσχέτιση αυξάνεται, δηλαδή είναι αντιστρόφως ανάλογα μεγέθη (Dggle, et al., 1994). 13

2.1.5.2 Διακριτή μεταβλητή απόκρισης Στην περίπτωση της δίτιμης μεταβλητής απόκρισης θεωρούμε ότι: PA PY ( j 1), j 1,2,..., n και 1,2,..., m P j B Υποθέτοντας επίσης ότι Corr( Y, Y ) για όλα τα j k και ότι D είναι η k μικρότερη ουσιαστική διαφορά μεταξύ των πιθανοτήτων για τις ομάδες Α και Β, τότε ο αριθμός των υποκειμένων που χρειαζόμαστε για κάθε ομάδα είναι: m 1 1 2 Z (2 p q) 2 Z Q ( p A q A p B qb) 2 1 ( n 1) p n D 2 όπου pa pb p, q 1 p και D pb pa. 2 Άρα το μέγεθος του δείγματος που χρειαζόμαστε αυξάνεται όσο αυξάνεται η συσχέτιση (Dggle, et al., 1994). 2.2 Στατιστικές μέθοδοι για επαναλαμβανόμενα δεδομένα Όπως αναφέραμε και πιο παραπάνω, οι επαναλαμβανόμενες μελέτες έχουν ευρεία εφαρμογή σε αρκετά επιστημονικά πεδία. Τα επαναλαμβανόμενα δεδομένα ορίζονται ως τα δεδομένα που αποτελούνται από παρατηρήσεις υποκειμένων, που μετριούνται επανειλημμένα στο χρόνο. Αυτό που επιζητούμε στις επαναλαμβανόμενες μελέτες, είναι να εξετάσουμε τις αλλαγές που προκαλούνται από μία θεραπεία για παράδειγμα, σε μια συγκεκριμένη χρονική περίοδο. Το βασικό πλεονέκτημά τους είναι ότι μπορούν να παρέχουν πληροφορίες σχετικά με τις αλλαγές σε κάθε άτομο. Έτσι, συλλέγοντας δεδομένα με την πάροδο του χρόνου, μπορούμε να διακρίνουμε αλλαγές μέσα στα άτομα του δείγματος, κι εντοπίζουμε διαφορές μεταξύ των ατόμων από την έναρξη ( baselne ) της μελέτης. 14

Διεξάγοντας επαναλαμβανόμενες μελέτες, τρία είναι τα βασικά σημεία ενδιαφέροντος: 1. Πόσο οι θεραπείες διαφέρουν. 2. Πόσο οι θεραπείες αλλάζουν με την πάροδο του χρόνου. 3. Πόσο διαφέρουν οι θεραπείες μεταξύ τους, με την πάροδο του χρόνου. Η συλλογή επαναλαμβανόμενων δεδομένων είναι μια αρκετά δύσκολη υπόθεση. Πρώτα απ όλα γιατί είναι απαραίτητη η μέτρηση ενός δείγματος από N υποκείμενα τουλάχιστον δύο φορές, γεγονός που αυξάνει το κόστος, σε σχέση με τη συλλογή των συγχρονικών δεδομένων. Επίσης, στις επαναλαμβανόμενες μελέτες αφού μετράμε τα ίδια υποκείμενα επανειλημμένα, οι παρατηρήσεις δεν είναι ανεξάρτητες. Το γεγονός αυτό απαιτεί μια ιδιαίτερη μεθόδευση αναφορικά με την ανάλυσή τους. Τέλος, στις επαναλαμβανόμενες μετρήσεις πρέπει να διασφαλιστεί η συνεργασία σε κάθε χρονική στιγμή, με εκείνους που πήραν μέρος στην αρχική μέτρηση, καθώς δε μπορούμε να αντικαταστήσουμε άτομα που στην πορεία της μελέτης αρνήθηκαν ( dropout ) ή απεβίωσαν, με άλλα που δε συμμετείχαν εξαρχής ( attrton ). Και βέβαια όσο κι αν οι έρευνες είναι σαφώς καθορισμένες κι ελεγχόμενες, οι δυσκολίες αυτές πάντα παρουσιάζονται στις επαναλαμβανόμενες μελέτες κι αναφέρονται ως ασύμμετρος σχεδιασμός ( unbalanced desgn ) ή ελλείπουσες τιμές ( mssng values ) (Βασδέκης, 2010). Στη συνέχεια θα παρουσιάσουμε περιληπτικά τέσσερις στατιστικές μεθόδους, που χρησιμοποιούνται για την επεξεργασία των επαναλαμβανόμενων δεδομένων (Naka & Ke, 2009). 2.2.1 Ανάλυση διακύμανσης μονής κατεύθυνσης ( Unvarate AΝalyss Οf VArance ή ANOVA ) Η συγκεκριμένη μέθοδος χρησιμοποιείται πολύ στις επαναλαμβανόμενες μελέτες, γιατί είναι κατανοητή και εύχρηστη. Τα μοντέλα αυτά προϋποθέτουν διαστήματα μετρήσεων και κανονικότητα στα τυπικά 15

σφάλματα, που πρέπει να έχουν ομοιογένεια σε όλες τις ομάδες. Το αδύνατο σημείο τους είναι ότι εκτιμούν και συγκρίνουν τους μέσους των ομάδων και δε δίνουν πληροφορίες σχετικά με την επιμέρους ανάπτυξη. Μια υπόθεση που γίνεται είναι ότι πρέπει να έχουν σταθερά σημεία χρόνου. Το μοντέλο ANOVA έχει τη μορφή: Yj j j με =1,2,,N και j=1,2,,n. Όπου μ είναι η μέση τιμή, συνιστώσα διαφορά (σταθερή στην πάροδο του χρόνου), η μεμονωμένη j η επίδραση του χρόνου (ίδια για όλα τα υποκείμενα) και j το σφάλμα του υποκειμένου στο χρόνο j. Υποθέτουμε ότι οι τυχαίες συνιστώσες κατανέμονται ως 2, με a να είναι η ανάμεσα στα υποκείμενα διακύμανση. Η δομή διακύμανσης- συνδιακύμανσης για το Y j είναι συνιστώσα συμμετρική για την ANOVA, όπου υποθέτει ότι ο παράγοντας είναι της μορφής 2 j όταν είναι άγνωστες οι παράμετροι σ 2 και γ, και δ j όταν =j ή μηδέν (Naka & Ke, 2009). 2.2.2 Ανάλυση διακύμανσης πολλών κατευθύνσεων ( Multvarate AΝalyss Οf VArance ή MANOVA ) Οι προϋποθέσεις της ανάλυσης διακύμανσης μιας κατεύθυνσης ισχύουν και σε αυτή τη μέθοδο, με τη διαφορά ότι στην προσέγγιση της MANOVA πρέπει να απορριφθούν όλες οι ελλείπουσες τιμές. Χρειάζεται δηλαδή να υπάρχουν πλήρη δεδομένα, γιατί η μέθοδος αυτή αντιμετωπίζει τις επαναλαμβανόμενες μετρήσεις ως ένα διάνυσμα. Το διάνυσμα αυτό των δεδομένων πρέπει να είναι πλήρες για το κάθε υποκείμενο που θα συμπεριληφθεί στην ανάλυση. Επίσης, η MANOVA υποθέτει μια γενική μορφή για τη συσχέτιση των επαναλαμβανόμενων μετρήσεων με την πάροδο του χρόνου (η ANOVA υποθέτει μια πιο περιοριστική συμμετρική μορφή). Το μοντέλο MANOVA έχει της εξής μορφή: 16

Y όπου μ είναι ένα διάνυσμα n 1 για τα χρονικά σημεία και ένα διάνυσμα σφαλμάτων n 1 με συνδιακύμανσης., όπου Σ είναι ο πίνακας διακύμανσης- Σε σύγκριση με την ANOVA, η δομή διακύμανσης- συνδιακύμανσης για το Υ j είναι μη- δομημένη για τη MANOVA, η οποία θεωρεί ότι ο παράγοντας είναι ένας γενικός n n θετικά ορισμένος πίνακας συνδιακύμανσης (Naka & Ke, 2009). 2.2.3 Μεικτό γραμμικό μοντέλο επιδράσεων ( Mxed-effect Regresson Model ή MRM ) Τα MRM μοντέλα είναι πιο ευέλικτα για τα επαναλαμβανόμενα δεδομένα και δε χρειάζονται περιοριστικές υποθέσεις σχετικά με τις ελλείπουσες τιμές στο πέρασμα του χρόνου και τη δομή του πίνακα διακύμανσης- συνδιακύμανσης. Επίσης, κάθε υποκείμενο δε χρειάζεται να έχει τον ίδιο αριθμό παρατηρήσεων. Έτσι μπορεί να χειριστεί υποκείμενα που μετρούνται ελλιπώς ή σε διαφορετικές χρονικές στιγμές. Ένα μοντέλο MRM δύο επιπέδων έχει τη μορφή: Y X Z V με =1,2,,N υποκείμενα και j=1,2,,n παρατηρήσεις για κάθε υποκείμενο. Εδώ το Υ είναι ένα n 1 διάνυσμα απόκρισης για το υποκείμενο I, X είναι ένας n p πίνακας για τις σταθερές επιδράσεις, β είναι ένα r 1 διάνυσμα για την άγνωστη σταθερή παράμετρο, Z είναι ένας n r πίνακας για τις τυχαίες επιδράσεις, V είναι ένα r 1 διάνυσμα της άγνωστης τυχαίας επίδρασης και Z N(0, V). Ενώ τέλος, είναι ένα n 1 διάνυσμα καταλοίπων με N. 2 (0, n1) 17

2.2.4 Γενικευμένες εξισώσεις εκτίμησης ( Generalzed Estmatng Equatons ή GEE ) Τα GEE αναπτύχθηκαν από τους Lang και Zeger (1986) και είναι προέκταση των γενικευμένων γραμμικών μοντέλων ( Generalzed Lnear Model ή GLM ) στις επαναλαμβανόμενες αναλύσεις, κάνοντας χρήση της Quas- πιθανοφάνειας ( Quas- Lkelhood ή QL ) εκτίμησης. Μια βασική προϋπόθεση της GEE προσέγγισης είναι ότι πρωτίστως ενδιαφέρεται για τη γραμμική παράμετρο και όχι για τον πίνακα διακύμανσης- συνδιακύμανσης των επαναλαμβανόμενων μετρήσεων. Έτσι, μεταχειρίζεται τη δομή της συνδιακύμανσης ως ενοχλητική και δεν επικεντρώνεται στη διακύμανση κάθε στοιχείου. Έχει συνεπείς και ασυμπτωτικά κανονικές λύσεις στηριζόμενες στην ανεξαρτησία για κάθε υποκείμενο και υπολογίζει συνεχώς τη διακύμανση του συντελεστή παλινδρόμησης, ακόμη και όταν θεωρήσουμε ότι η δομή της συσχέτισης είναι λανθασμένη (Brown & Prescott, 2006). Τα GEE υιοθετούν έναν πίνακα συσχέτισης εργασίας έχουν μία R, που είναι ένας πίνακας n n, επειδή αυτά που υποθέτει είναι ένας σταθερός αριθμός χρονικών σημείων n, όπου τα υποκείμενα αποτιμώνται. Ένα δεδομένο υποκείμενο δε χρειάζεται να αποτιμηθεί για όλα τα n χρονικά σημεία. Ο πίνακας συσχέτισης R κάθε υποκείμενου έχει μέγεθος n n, με τις κατάλληλες γραμμές και στήλες να μετακινούνται εάν n n. Γενικά, συνίσταται η επιλογή του R να αποτελείται από τις παρατηρούμενες συσχετίσεις. Εάν η επιλογή του R είναι λανθασμένη, τότε η αποδοτικότητα, όπως και η στατιστική ισχύς, μειώνεται. Η έλλειψη αποδοτικότητας ελαττώνεται, όταν ο αριθμός των υποκειμένων μεγαλώνει (Naka & Ke, 2009). Στη συνέχεια θα αναφερθούμε αναλυτικά στη συγκεκριμένη στατιστική μέθοδο επαναλαμβανόμενων μετρήσεων. 18

2.3 Μοντέλα GEE Όπως ήδη αναφέραμε, πολλές μελέτες παρατηρούν τη μεταβλητή απόκρισης για κάθε υποκείμενο επαναλαμβανόμενα. Συνήθως οι αποκρίσεις αναφέρονται σε σύνολα, υποκείμενα ή συστάδες που είναι πανομοιότυπες. Υπάρχουν πολλές μέθοδοι που γενικεύουν άλλες μεθόδους που ασχολούνται με matched pars, όπως είναι η ML method ( Maxmum Lkelhood ) για τη σύγκριση περιθωρίων κατανομών σε t-διάστατους πίνακες. Μια άλλη τέτοια μέθοδος, που θα ασχοληθούμε σε αυτήν την ενότητα, είναι η χρήση GEE μοντέλων (Naka & Ke, 2009). Η πιθανοφάνεια είναι ένα δισεπίλυτο πρόβλημα, με πολλές παραμέτρους που πρέπει να εκτιμηθούν. Για το λόγο αυτό, σε τέτοιου είδους προβλήματα, συχνά γίνεται χρήση GEE μοντέλων, με μία πολυπαραγοντική αναλογία της quas- πιθανοφάνειας, που επιτρέπει υπερσκεδαστικότητα ( overdsperson ), μεγαλύτερη δηλαδή μεταβλητότητα των δεδομένων από ότι θα ανέμενε κανείς, από το στατιστικό μοντέλο που χρησιμοποιείται (Βασδέκης, 2010). 2.3.1 Γενικευμένα Γραμμικά Μοντέλα ( GLM ) Ας κάνουμε αρχικά όμως μια μικρή εισαγωγή στα γενικευμένα γραμμικά μοντέλα, αφού τα GEE θεωρούνται επέκτασή τους. Για να οριστεί ένα GLM όταν έχουμε n ανεξάρτητες παρατηρήσεις, χρειαζόμαστε τα εξής σημαντικά στοιχεία: a. Μία εξαρτημένη μεταβλητή που να προέρχεται από την εκθετική οικογένεια κατανομών, γνωστά μέλη της οποίας είναι η διωνυμική κατανομή, η Posson, η Gaussan, η Gamma κ.α. b. Να υπάρχει μια συνάρτηση σύνδεσης ( lnk functon ) g(.), η οποία να μετατρέπει τη μέση τιμή μ=ε(υ) στο γραμμικό προβλεπτή η: g( ) c. Να υπάρχει ένας γραμμικός προβλεπτής η, ο οποίος να έχει τη μορφή: 19

X ' Ας υποθέσουμε ότι τα αποτελέσματά μας ακολουθούν την κατανομή Posson (δηλαδή αριθμός συμβάντων σ ένα χρονικό διάστημα) (Βασδέκης, 2010). Η συνάρτηση σύνδεσης τότε είναι η g( ) log( ). Έτσι: log( ) X ' Στην τυπική παλινδρόμηση έχουμε για κάθε υποκείμενο με =1,2,,n και Υ εξαρτημένη μεταβλητή, με μ=ε(υ ) και συνάρτηση διακύμανσης V(μ ). Έστω Χ j οι τιμές της επεξηγηματικής ανεξάρτητης μεταβλητής j. Για συνάρτηση ' σύνδεσης g, ο γραμμικός προβλεπτής είναι g( ) j Xj X. Οι παράμετροι παλινδρόμησης του β της quas- πιθανοφάνειας είναι οι λύσεις των quas- αποτελεσμάτων εξισώσεων: j 1 ' όπου g X. ' n 1 U( ) V Y 0 1 Αυτές οι εξισώσεις εκτίμησης είναι παρόμοιες με τις εξισώσεις πιθανοφάνειας των GLM, όταν αντικαταστήσουμε: X j j Δηλαδή για τη γραμμική παλινδρόμηση θα έχουμε: X ', V ( Y ) 1 Τότε: 20

n ' ( ) 0 1 U X Y X Σ ένα GLM πρέπει να προσδιορίσουμε και τη μορφή της διακύμανσης των παρατηρήσεων Y. Έτσι η συνάρτηση διακύμανσης έχει ως εξής: V ( Y ) u( ) όπου u( ) μια γνωστή συνάρτηση διακύμανσης και μια παράμετρος η οποία μπορεί να είναι γνωστή, ή μπορεί να εκτιμηθεί(βασδέκης, 2010). 2.3.2 Μεθοδολογία GEE Οι επαναλαμβανόμενες μετρήσεις παρέχουν μια πολυμεταβλητή απόκριση (Υ 1,Υ 2,,Υ Τ ), με το Τ μερικές φορές να ποικίλει ανά υποκείμενο. Όπως και στη μονοπαραγοντική περίπτωση, η μέθοδος της quasπιθανοφάνειας προσδιορίζει ένα μοντέλο με μ=ε(υ) και διακύμανση Var(μ), περιγράφοντας πόσο η Var(μ) εξαρτάται σχετικά με το μ. Αυτό το μοντέλο όμως προϋποθέτει περιθώριες κατανομές για κάθε Υ, από μια διαδικασία πρόβλεψης για τη δομή της συσχέτισης μεταξύ των {Υ t }. Οι εκτιμήσεις είναι οι λύσεις της εξίσωσης quas-πιθανοφάνειας και καλούνται GEE. Μια άλλη ονομασία τους είναι «περιθώρια μοντέλα» ( Margnal Models ) και αυτό γιατί το μοντέλο για τη μέση απόκριση εξαρτάται από επεξηγηματικές μεταβλητές και όχι από τυχαίες επιδράσεις (Dggle, et al., 1994). Τα GLM, που προέκτασή τους είναι τα GEE, θεωρούν μια ασφαλή κατανομή για τη μεταβλητή απόκρισης. Συχνά όμως υπάρχει μια αληθοφανής σχέση μεταξύ του μέσου και της διακύμανσης, όπως V ( ) για αριθμητικά δεδομένα. Παρακάτω παρουσιάζονται κάποιες σημαντικές πληροφορίες για τη συγκεκριμένη μέθοδο, όπως και για την επέκτασή της στα GEE περιθώρια μοντέλα. 21

Τα GEE μπορούν να χρησιμοποιηθούν τόσο σε συνεχή δεδομένα που προϋποθέτουν όμως κανονικότητα, όσο και σε κατηγορικά. Το βασικό χαρακτηριστικό των GEE μοντέλων είναι ότι δεν είναι απαραίτητο να προσδιοριστεί η από κοινού κατανομή των Y για το υποκείμενο. Προσδιορίζεται όμως η περιθώρια κατανομή των Υ j, για κάθε χρονική στιγμή. Έτσι, δε γίνεται χρήση πολυμεταβλητών κατανομών, αλλά χρήση μόνο της συναρτησιακής μορφής της περιθώριας κατανομής, για κάθε χρονική στιγμή. Ένα ακόμη χαρακτηριστικό τους είναι ότι οι παράμετροι που ορίζουν τη δομή της συνδιακύμανσης θεωρούνται ενοχλητικοί. Με τον τρόπο αυτό, τα GEE μοντέλα δίνουν συνεπείς και ασυμπτωτικά κανονικές εκτιμήσεις των παραμέτρων παλινδρόμησης β, ακόμη και αν η δομή συνδιακύμανσης των παρατηρήσεων δεν έχει οριστεί σωστά (Dggle, et al., 1994). 2.3.3 Υποθέσεις GEE μοντέλων Η εφαρμογή των GEE μοντέλων επιβάλλει να οριστεί: Η περιθώρια κατανομή των δεδομένων Y j, ως μια από την εκθετική ομάδα κατανομών. Ο γραμμικός ως: n j =Χ j β. Μια συνάρτηση σύνδεσης, τέτοια ώστε: g(μ j )=n j. Η συνάρτηση διακύμανσης ως: Var(μ j )=Φ U(μ j ), όπου η συνάρτηση U(μ j ) είναι μια γνωστή παράμετρος και Φ μια παράμετρος η οποία είναι γνωστή ή θα πρέπει να εκτιμηθεί. Μια δομή «εργασίας» για τη συσχέτιση των παρατηρήσεων ενός υποκειμένου. Αν υπάρχουν Τ επαναλαμβανόμενες μετρήσεις για υποκείμενα, τότε ο πίνακας συσχέτισης «εργασίας» R θα έχει μέγεθος 22

Τ T. Ο πίνακας R συστήνεται να είναι μια συνεπής εκτιμήτρια των πραγματικών συσχετίσεων. Οι εκτιμήσεις των GEE δίνουν συνεπείς εκτιμήσεις των παραμέτρων παλινδρόμησης και των τυπικών τους σφαλμάτων, ακόμα και εάν δεν έχουν προσδιοριστεί σωστά οι συσχετίσεις των παρατηρήσεων. Η αποτελεσματικότητα μειώνεται αν η επιλογή του R είναι λανθασμένη, αν όμως το μέγεθος του δείγματος αυξηθεί, τότε η ελάττωση της αποτελεσματικότητας εξαφανίζεται. Τα GEE μοντέλα προσεγγίζουν μια υποτιθέμενη δομή συνδιακύμανσης για (Υ 1,Υ 2,,Υ t ) καθορίζοντας μια εξίσωση διακύμανσης και μια ανά-ζεύγος ( parwse ) συσχέτιση πρότυπο, χωρίς να υποθέτουν μια ειδικότερη πολυμεταβλητή κατανομή. Ακόμη και αν συμβεί κακός προσδιορισμός στη δομή της διακύμανσης, οι παράμετροι του GEE μοντέλου είναι έγκυρες. Πρακτικά, ένα επιλεγμένο μοντέλο δεν είναι ποτέ απόλυτα σωστό. Όμως, αποδεικνύεται ότι η δομή της συσχέτισης δεν επηρεάζει δυσμενώς την ποιότητα των παραμέτρων. Συχνά μια apror πληροφορία είναι διαθέσιμη για αυτή τη δομή και η συσχέτιση λαμβάνεται υπόψη σαν ενοχλητική. Παρότι οι εκτιμήσεις των παραμέτρων βρίσκονται συνήθως κάτω από μια «αφελή» υπόθεση ανεξαρτησίας, τα τυπικά σφάλματα δε βρίσκονται. Σα μια εναλλακτική μέθοδο εκτίμησης της θεραπείας ( treat ) (Breslow & Clayton) σαν ανά-ζεύγος ανεξαρτησία, το GEE μπορεί να κάνει χρήση μιας εικασίας για την κατά προσέγγιση δομή της συσχέτισης, και εμπειρικά να διορθώσει τα τυπικά σφάλματα. Μια διαδικασία δομής συσχέτισης θεραπείας Cor{Y t,y s } για όλα τα s και t, είναι πολύ πιο ευέλικτη και ρεαλιστική από την «αφελή» υπόθεση ανεξαρτησίας. Μια ακόμα πιο ρεαλιστική μέθοδος είναι η μηδομημένη διαδικασία συσχέτισης, όπου επιτρέπεται μια ξεχωριστή συσχέτιση για κάθε ζεύγος. Όταν το Τ είναι μεγάλο όμως, αυτή η προσέγγιση χάνει αποδοτικότητα εξαιτίας των πρόσθετων παραμέτρων (Dggle, et al., 1994). 2.3.4 Δομές πινάκων συσχέτισης 2.1), όπως: Υπάρχουν διάφορες μορφές πινάκων συσχέτισης «εργασίας» (Πίνακας 23

Η ανεξαρτησία (ή απλούστερη), όπου ισχύει ότι R =I T (δε βρίσκει ιδιαίτερη χρήση στις επαναλαμβανόμενες μετρήσεις). Όταν όλες οι συσχετίσεις των παρατηρήσεων είναι ίσες ( exchangeable model ή compound symmetry ), δηλαδή [R (α)] jj' =ρ (ταυτίζεται με τη δομή ομοιόμορφης συσχέτισης). Η AR(1), δηλαδή [R (α)] jj' =ρ j-j'. H «ζωστηροειδής» (m-banded), μια παραλλαγή της μορφής Toepltz για την οποία ισχύει [R (α)] jj' =ρ j-j' αν j-j' m και [R (α)] jj' =0 αν j-j'>m. Όταν η συσχέτιση των παρατηρήσεων (αν αυτές είναι δίτιμες) εντός των υποκειμένων, μπορεί να αναπαρασταθεί μέσω μοντέλων για το λόγο log odds: log OR( Y, Y ) j j ' jj ' όπου OR( Y, Y ) j j ' P( Y 1, Y 1) P( Y 0, Y 0) j j ' j j ' P( Y 1, Y 0) P( Y 0, Y 1) j j ' j j ' Ο μη δομημένος πίνακας, για τον οποίο ισχύει: R jj ' ( ), j, j '. jj ' 24

Πίνακας 2.1 Κοινοί πίνακες συσχέτισης «εργασίας». Δομή Συσχέτισης «Εργασίας» Fxed Independent Ορισμός Παράδειγμα # Παραμέτρων Corr( Yj, Yk ) jk, όπου jk o είναι το jk στοιχείο μιας σταθεράς, καθορίζεται από το χρήστη πίνακας συσχέτισης R 0 1, j k Corr( Yj, Yk ) 0, j k 1, t 0 m- dependent Corr( Yj, Y, jt ) at, t 1,2,..., m 0, t m 1, j k Exchangeable Corr( Yj, Y, jt ) a, j k Unstructured Auto- regressve AR(1) 1, j k Corr( Yj, Yk ) a jk, j k t Corr( Yj, Y, jt ) a, για t 0,1,2,..., n j 1 r r 1 r 1,2 1, t 1 1,2 2, t r 1, t 2, t r r 1 1 0 0 0 1 0 0 0 1 1 t1 1 1 t2 t1 t2 1 1 1 1 1, t 2, t 1 1 1 1,2 1, t 1,2 2, t 1 t1 t2 1 t1 t2 1 0 (καθορίζεται από το χρήστη) 0 0 M t 1 1 t( t1) 2 1 Θεωρητικά, επιλέγοντας τη σωστή διαδικασία, μπορεί να κερδίσουμε μεγάλη αποδοτικότητα στις εκτιμήσεις των παραμέτρων. Όμως, οι Lang και Zeger (1986) αναφέρουν ότι οι εκτιμήσεις στηρίζονται στην ανεξάρτητη διαδικασία συσχέτισης και μπορούμε να έχουμε μια καλή αποδοτικότητα, όταν η υπαρκτή συσχέτιση είναι αδύναμη. Ένας καλός έλεγχος μεταξύ των διαφορετικών διαδικασιών συσχέτισης ανεξαρτησίας αφορά στην ευαισθησία 25

της επιλογής. Εμπειρικά, όταν οι συσχετίσεις είναι μετρίου μεγέθους, τότε όλες οι διαδικασίες δόμησης έχουν παρόμοιες GEE εκτιμήσεις και τυπικά σφάλματα. Όταν όμως διαφέρουν οι εκτιμήσεις, προτείνεται μια πιο προσεκτική μελέτη της δομής συσχέτισης. Στην περίπτωση, τέλος, που έχουμε δραματικές διαφορές μεταξύ των συσχετίσεων, τότε η καλύτερη μέθοδος είναι η ανταλλάξιμη δομή συσχέτισης ( exchangeable correlaton structure ). Η GEE προσέγγιση χρησιμοποιείται κυρίως για κατηγορικά δεδομένα εξαιτίας της υπολογιστικής της απλότητας, συγκρίνοντάς την με αυτήν της μέγιστης πιθανοφάνειας. Όμως ακόμη και η GEE προσέγγιση έχει περιορισμούς, γιατί δεν καθορίζει εντελώς την κοινή κατανομή, όταν δεν εμπεριέχει μια συνάρτηση πιθανοφάνειας. Αυτό συμβαίνει όταν δεν είναι διαθέσιμες μέθοδοι quas- πιθανοφάνειας για να δοκιμάσουν την ικανότητα, συγκρίνοντας μοντέλα και οδηγώντας σε συμπεράσματα για τις παραμέτρους. Όταν το δείγμα μας είναι αρκετά μεγάλο, τα τυπικά σφάλματα εμπειρικά τείνουν να υπερεκτιμήσουν την αλήθεια. Σαν παράμετροι, τα τυπικά σφάλματα, μπορούν επίσης να μας δείξουν μεγαλύτερη διακύμανση απ ότι οι παραμετρικοί εκτιμητές (Kanermann and Carrol, 2001). Οι Boos (1992) και Jewell (1990) πρότειναν αναλογίες των επιδόσεων των διαδικασιών για τις επιδράσεις των προγνωστικών παραγόντων, κάνοντας χρήση της quasλογαριθμικής πιθανοφάνειας ( quas-log lkelhood ), η οποία μπορεί να είναι πιο αξιόπιστη από τις δοκιμασίες Wald. Αρκετοί στατιστικοί επιστήμονες (Lndsay, 1983) κριτίκαραν αρνητικά την προσέγγιση GEE, εξαιτίας της έλλειψης πιθανοφάνειας, ενώ άλλοι δεν τη βρήκαν προβληματική και έτσι τη χρησιμοποιούσαν κυρίως σα μια μέθοδο εκτίμησης παραμέτρων (Dggle, et al., 1994). 2.3.5 Εκτίμηση GEE Στην υποενότητα αυτή θα εξετάσουμε τις «Γενικευμένες Εξισώσεις Εκτίμησης», μέσα από τη γενίκευση της quas-πιθανοφάνειας. Έστω T T διαγώνιος πίνακας Α, του οποίου το j,j στοιχείο είναι η V(μj). Θεωρούμε τη συνάρτηση πιθανότητας μάζας του Y με τη μορφή: 26

f ( Y ;, ) exp (, ) Y c Y όπου το είναι γνωστό και αντιστοιχεί στη κανονική οικογένεια κατανομών, με φυσική παράμετρο. Ακόμη, γνωρίζουμε ήδη ότι: ' '' E Y ( ), V( ) Var( Y ) ( ) Έστω, επίσης, ότι ο πίνακας R είναι ένας πίνακας συσχετίσεων «εργασίας» T T, για το υποκείμενο. Τότε έχουμε τον πίνακα συνδιακύμανσης «εργασίας» των παρατηρήσεων: V( ) R( ) 1/2 1/2 Ο GEE εκτιμητής της παραμέτρου παλινδρόμησης β, προέρχεται από τη λύση ' 1 n n ' 1 V ( ) ( ) [ ( ˆ Y D V a)] ( Y ) 0 1 1, όπου είναι των ˆ ένας συνεπής εκτιμητής του διανύσματος των παραμέτρων α και D / ένας πίνακας μεγέθους T p. Ο πίνακας D μπορεί να γραφεί ως: D 1 / 1 1 / 2 1 / 3 1 / p T / 1 / 2 / 3 / T T T p Να αναφέρουμε ότι το διάνυσμα των μέσων μ των παρατηρήσεων για το υποκείμενο γράφεται ως εξής: X g ( X ), όπου 1 ' ' X ( X, X,..., X ) 1 2 T Όταν τα δεδομένα ακολουθούν την κανονική κατανομή, όπως στην περίπτωση της exchangeable δομής πίνακα συσχέτισης, τότε οι Lang και Zeger (1986) προτείνουν για τον υπολογισμό των GEE παραμέτρων μια επανάληψη ενός τροποποιημένου Fsher αλγόριθμου βαθμολόγησης για την επίλυση των γενικευμένων εξισώσεων εκτίμησης των β (δίνοντας τρέχουσες 27

εκτιμήσεις για το α και το ), χρησιμοποιώντας τα κατάλοιπα για την παρούσα εκτίμηση των α και (στηριζόμενες στις τρέχουσες τιμές του β). Παράλληλα, πρότειναν εκτιμήσεις για το R ( ) για μια ποικιλία από δομές συσχετίσεων. Οι αλγόριθμοι των GEE δε χρειάζονται να συγκλίνουν, αλλά συχνά με μία επανάληψη δίνουν επαρκή αποτελέσματα. Το διάνυσμα του μέσου των παρατηρήσεων και ο πίνακας συνδιακύμανσης «εργασίας» υπολογίζονται ως εξής: D X, V ( ˆ ) R ( ˆ ) Οπότε το σύστημα ισοτήτων που πρέπει να επιλυθεί είναι: n ' 1 X [ ( ˆ R a)] ( Y ) 0, 1 το οποίο δίνει n 1 n ' 1 ' 1 X [ R ( a)] X X [ R ( a)] Y 1 1 ˆ ˆ ˆ Κάθε φορά υπάρχει και μια συνεπής εκτίμηση του α, άρα ισχύει ότι: Ο υπολογισμός για τις εκτιμήσεις του β γίνεται σύμφωνα με τις εκτιμήσεις του R (a) και του. Αφού έχουν υπολογιστεί οι εκτιμήσεις του, λαμβάνουμε εκτιμήσεις του και του. Για να συμβεί αυτό θεωρούμε τα κατάλοιπα του Pearson: / ( ˆ ) r Y V j j j jj και από αυτά τα κατάλοιπα παίρνουμε εκτιμήσεις για το και το Η παράμετρος μπορεί να εκτιμηθεί από το: 28

ˆ n T 1 j1 n 1 T r 2 j Σύμφωνα με τη μορφή του μοντέλου για τις συσχετίσεις, μπορούμε να εκτιμήσουμε και τις παραμέτρους. Αν ισχύει ότι ˆ jj ' Cor( Yj, Yj '), τότε οι παράμετροι του jj ' δίνονται από: ˆ n 1 r r ˆ jj ' j j ' n 1 Οι τυπικές αποκλίσεις των εκτιμώμενων δίνονται με δύο τρόπους: 1) Model based εκτιμήσεις, δηλαδή: n ˆ ' 1 Var( ) D ( ˆ V ) D 1 1 οι οποίες είναι επαρκείς, εάν ο πίνακας συσχετίσεων «εργασίας» R ( ) είναι σωστός. 2) Εύρωστες ( robust ) ή εμπειρικές εκτιμήσεις, όπου: n 1 n n 1 ' 1 ' 1 ' 1 ' 1 ˆ ˆ 1 1 1 ˆ Var( ) D V ( ˆ ) D D V ( ˆ ) ( Y ) ( Y ) V ( ˆ ) D D V ( ˆ ) D που δίνει πάντα ένα επαρκή και σωστό εκτιμητή του Var( ˆ ) ακόμη και εάν ο πίνακας συσχετίσεων «εργασίας» R ( ) δεν είναι σωστός. Ο εκτιμητής αυτός καλείται sandwch και χρησιμοποιεί εμπειρικά στοιχεία, που αφορούν στα δεδομένα για τη μεταβλητότητα, για να προσαρμόσει τα τυπικά σφάλματα ( standard errors ) στην περίπτωση που η σωστή συνδιακύμανση διαφέρει ουσιαστικά από τη διαδικασία της εικασίας. 29

Σε δίτιμα δεδομένα, η συσχέτιση μπορεί να μην είναι ο καλύτερος τρόπος για να εκφραστεί η εντός-ομάδων σχέση. Μια πολύ καλή πρόταση είναι η χρήση των περιθώριων πιθανοτήτων ή των ποσοστών πιθανοτήτων ( Odds Rato ή OR ), μοντελοποιώντας τα logor για τα ζεύγη σε ένα σύμπλεγμα, όπως στο exchangeable». Η πρόταση αυτή έχει το πλεονέκτημα ότι η σχέση των παραμέτρων διαχωρίζεται από τους μέσους (Ftzmaurce et al. (1993) και Lpstz et al. (1994)). Οι Carey et al. (1993) πρότειναν ένα επαναληπτικό εναλλασσόμενο λογιστικό παλινδρομικό αλγόριθμο. Δηλαδή κάποιον αλγόριθμο που θα περιέχει τα βήματα των GEE για την παλινδρόμηση παραμέτρων στο μοντέλο για το μέσο και τα βήματα ενός μοντέλου για τη σχέση των logor (Βασδέκης, 2010). 2.3.6 Μηχανισμοί ελλειπουσών τιμών ( Mechansms of mssng data ) Ένα πλεονέκτημα των GEE μοντέλων είναι ότι διαφορετικές συστάδες μπορούν να έχουν διαφορετικούς αριθμούς παρατηρήσεων. Τα δεδομένα έχουν μια διαχωριστική για κάθε παρατήρηση για τις επαναλαμβανόμενες μετρήσεις και οι υπολογισμοί χρησιμοποιούν τους χρόνους που ένα υποκείμενο έχει μια παρατήρηση. Επειδή όμως η μεροληψία αυξάνεται στις εκτιμήσεις των GEE, γίνονται ορισμένες υποθέσεις σχετικά με το γιατί κάποια δεδομένα μπορεί να λείπουν (Καποδίστριας, Οκτώβριος 2007). Έστω Υ (Ο) η παρατηρούμενη μεταβλητή απόκρισης, Υ (Μ) η ελλείπουσα μεταβλητή απόκρισης και Υ η ένωσή τους. Ο δείκτης Μ μπορεί να πάρει τις τιμές 1, όταν μια παρατήρηση λείπει και 0 στις υπόλοιπες περιπτώσεις. Οι Lttle and Rubn (1987) ανάφεραν τους παρακάτω μηχανισμούς ελλειπουσών τιμών: 1. Mssng completely at random ή MCAR, όπου το M είναι στατιστικά ανεξάρτητο του Y. Η πιθανότητα δηλαδή μια παρατήρηση να λείπει δε σχετίζεται με τις τιμές που έχουν ή δεν έχουν παρατηρηθεί, ίσως όμως να εξαρτάται από τις επεξηγηματικές μεταβλητές. 2. Mssng at random ή MAR, όπου η κατανομή του (Μ/Υ (Μ) ) ισοδυναμεί με εκείνη της (Μ/Υ (Ο) ). Η εμφάνιση δηλαδή των 30

ελλειπουσών τιμών σχετίζεται με τις άλλες τιμές που έχουν ήδη παρατηρηθεί. 3. Non-gnorable (NI) ή mssng not at random ή MNAR, δηλαδή ο μηχανισμός ελλειπουσών τιμών δε μπορεί να απλοποιηθεί, έτσι η κατανομή (Μ/Υ) εξαρτάται τόσο από τις παρατηρηθείσες όσο και από τις ελλιπείς τιμές. Με μια ανάλυση βασισμένη στην πιθανοφάνεια δεν είναι απαραίτητο να χρησιμοποιήσουμε τους παραπάνω μηχανισμούς. Μια ανάλυση στηριζόμενη μόνο στο Υ (Ο) δεν είναι συστηματικά μεροληπτική. Το ίδιο ισχύει και με τις GEE μεθόδους, όταν οι εκτιμήσεις των εξισώσεων μπορεί να σταθμιστούν από πιθανότητες απόκρισης. Αλλιώς, όταν μια ανάλυση δε βασίζεται στις μεθόδους πιθανοφάνειας όπως τα GEE, ο μηχανισμός των ελλειπουσών τιμών μπορεί να αγνοηθεί, όταν τα δεδομένα είναι MCAR. Οι Kenward et al. (1994) παρουσίασαν την ανάλυση των GEE εκτιμητών, στην περίπτωση που τα δεδομένα δεν είναι completely at random ή MCAR. Τυπικά, πολύ λίγα είναι γνωστά για τους μηχανισμούς των ελλειπουσών τιμών και υποθέσεις για αυτούς δε μπορούν να ελεγχθούν. Πάντα μία μελέτη «ευαισθησίας» είναι απαραίτητη να γίνει, ώστε να ελεγχθεί αν τα αποτελέσματα εξαρτώνται από τις προδιαγραφές του συγκεκριμένου μηχανισμού. Θα πρέπει να γίνεται έλεγχος μεταξύ των αποτελεσμάτων της ανάλυσης που χρησιμοποιεί όλες τις διαθέσιμες περιπτώσεις για όλες τις ομάδες και της ανάλυσης που επεξεργάζεται μόνο τις ομάδες που δε λείπουν παρατηρήσεις. Αν τα δεδομένα διαφέρουν σημαντικά, τα συμπεράσματα θα πρέπει να ερμηνεύονται πολύ προσεχτικά, έως ότου οι λόγοι της απουσίας των τιμών εξεταστεί (Καποδίστριας, Οκτώβριος 2007). 2.4 Επιληψία Πρόκειται για μια χρόνια διαταραχή της ηλεκτροχημικής λειτουργίας του εγκεφάλου, κατά τη διάρκεια της οποίας μια ομάδα νευρώνων εκφορτίζεται χωρίς ουσιαστικό σκοπό. 31

Η κλινική εκδήλωση μιας επιληπτικής κρίσης εξαρτάται από την ομάδα των νευρώνων που συμμετέχουν. Αν η διαταραχή αφορά σε όλο τον εγκέφαλο, τότε ο ασθενής εμφανίζει απώλεια συνείδησης και πολύ συχνά γενικευμένους τονικοκλονικούς σπασμούς. 2.4.1 Αιτιολογία Τα αίτια της επιληψίας μπορεί να είναι συγγενή ή επίκτητα. Τα περισσότερα συγγενή αίτια παραμένουν άγνωστα, αλλά μπορεί να οφείλονται σε βλάβες (τοξικές, τραυματικές κ.α.) κατά την εμβρυακή περίοδο, αλλά και σε κληρονομικούς παράγοντες. Ως επίκτητα αίτια θεωρούνται οι παράγοντες που διαταράσσουν την ανατομική συνοχή του εγκεφαλικού ιστού και τις φυσικοχημικές παραμέτρους της βιοηλεκτρικής λειτουργίας του εγκεφάλου. Τέτοιοι παράγοντες μπορεί να είναι ο αλκοολισμός, η λήψη φαρμακευτικών ουσιών, η υπερθερμία, η υποξεία, η υπογλυκαιμία, διαταραχές ηλεκτρολυτών αίματος, τραύματα, αιματώματα, ισχαιμικές ή φλεγμονώδεις αλλοιώσεις, αγγειακές δυσπλασίες και όγκοι του ΚΝΣ (Walter & Shonon, 2008). 2.4.2 Παθογένεια Τα νευρικά κύτταρα οφείλουν τη δραστηριότητά τους στην ενεργό εκφόρτωση της πλασματικής μεμβράνης, η οποία ταξιδεύει κατά μήκους των νευραξόνων έως ότου φτάσει στην απόληξή τους. Εκεί προκαλεί την απελευθέρωση ειδικών ουσιών που ονομάζονται νευροδιαβιβαστές, οι οποίοι με τη σειρά τους διεγείρουν τον επόμενο νευρώνα. Καθ αυτόν τον τρόπο σχηματίζεται ένα βιοηλεκτρικό κύκλωμα το οποίο εμπεριέχει και μεταβιβάζει μια πληροφορία ή ένα μήνυμα. Η πληροφορία ή το μήνυμα μπορεί να διεγείρει το νευρώνα- δέκτη (διεγερτική νευρομεταβίβαση), μπορεί να τον αναστείλει (ανασταλτική νευρομεταβίβαση), ή ακόμη και να τροποποιήσει τις ιδιότητές του (νευροτροποποίηση). 32

Με βάση τα παραπάνω, μια υπέρμετρη εκφόρτωση μιας ομάδας νευρώνων μπορεί να συμβεί στις ακόλουθες περιπτώσεις: Ανώμαλη ή υπέρμετρη αύξηση των διεγερτικών ερεθισμάτων. Ανώμαλη ή υπέρμετρη μείωση των ανασταλτικών ερεθισμάτων. Διαταραχές της διεγερσιμότητας της πλασματικής μεμβράνης των νευρώνων. Τα φαινόμενα αυτά μπορούν να λάβουν χώρα, όταν ισχύουν οι περιπτώσεις που περιγράφηκαν στα αίτια της επιληψίας (Walter & Shonon, 2008). 2.4.3 Κλινική εικόνα Συμπτώματα Η κλινική εικόνα της επιληπτικής κρίσης εξαρτάται από τη λειτουργία του πληθυσμού των νευρώνων που εκφορτίζει ανώμαλα. Οι κρίσεις αυτές ονομάζονται εστιακές και μπορεί να είναι εκδηλώσεις από την κινητικότητα (π.χ. ακούσιες κινήσεις), από την αισθητικότητα (π.χ. παραισθήσεις), από το νευροφυτικό σύστημα (π.χ. ναυτία) αλλά και από την ψυχική σφαίρα (συμπλοκές εστιακές κρίσεις, ψυχοκινητικές, ψυχοαισθητικές, συναισθηματικές κ.α.). Αν η δυσλειτουργία αυτή επεκταθεί σε όλο τον εγκέφαλο, τότε οι εστιακές κρίσεις γενικεύονται δευτερογενώς, με αποτέλεσμα την απώλεια της συνείδησης του ασθενούς. Σε ορισμένες περιπτώσεις εκδηλώνεται μόνο γενικευμένη κρίση και δεν είναι δυνατό να διευκρινιστεί η εστιακή έναρξη. Στην κατηγορία αυτή ανήκουν οι κρίσεις τύπου Pett mal, που παρατηρούνται κυρίως σε παιδιά τα οποία διακόπτουν για μερικά δευτερόλεπτα τη δραστηριότητά τους και μετά τη συνεχίζουν κανονικά, χωρίς να έχουν ανάμνηση του συμβάντος. Παράλληλα, καταγράφονται και οι κρίσεις τύπου Gran mal, όπου επικρατεί απώλεια συνείδησης με γενικευμένους τονικοκλονικούς σπασμούς διάρκειας περίπου 20. 33

Θα πρέπει να διευκρινιστεί ότι όλα τα ανωτέρω συμπτώματα εμφανίζονται μόνο κατά τη διάρκεια της επιληπτικής κρίσης, ενώ κατά τα μεσοδιαστήματα ο ασθενής είναι απόλυτα φυσιολογικός. Η συχνότητα και το είδος των κρίσεων διαφέρει από ασθενή σε ασθενή (Walter & Shonon, 2008). 2.4.4 Διαγνώσεις Η διάγνωση της επιληπτικής κρίσης τίθεται με βάση τις κλινικές πληροφορίες από ειδικό ιατρό (νευρολόγο). Για να τεθεί η διάγνωση της επιληψίας θα πρέπει οι επιληπτικές κρίσεις να είναι επαναλαμβανόμενες. Σύμφωνα με πολλούς ερευνητές θα πρέπει να έχουν συχνότητα τουλάχιστον δύο κρίσεων μέσα σ ένα έτος και αυτό γιατί σε πολλά υγιή άτομα μπορεί να συμβεί μια επιληπτική κρίση κατά τη διάρκεια της ζωής τους, χωρίς ιδιαίτερη παθολογική σημασία. Ο εργαστηριακός έλεγχος πρέπει να περικλείει τη διερεύνηση των αιτιών της επιληψίας και για το λόγο αυτό περιλαμβάνει αξονική ή μαγνητική τομογραφία εγκεφάλου και πλήρη βιοχημικό και αιματολογικό έλεγχο. Ιδιαίτερα χρήσιμο για την ακριβή διάγνωση είναι το ηλεκτροεγκεφαλογράφημα (ΗΕΓ), το οποίο καταγράφει την ηλεκτρική δραστηριότητα του εγκεφάλου αποκαλύπτοντας πιθανές διαταραχές. Η διαφορική διάγνωση των γενικευμένων κρίσεων περιλαμβάνει κυρίως τις αιμοδυναμικού τύπου διαταραχές, οι οποίες μπορούν να προκαλέσουν λιποθυμικό επεισόδιο. Επίσης, θα πρέπει να ληφθούν υπ όψιν οι διαταραχές του ύπνου (π.χ. υπνικές μυοκλονίες) ή του ρυθμού ύπνου εγρήγορσης (π.χ. καταπληξία) αλλά και οι υστερικές κρίσεις (Walter & Shonon, 2008). 2.4.5 Επιπλοκές Θεραπεία Πρόληψη Οι ασθενείς που πάσχουν από επιληπτικές κρίσεις ελεγχόμενες ικανοποιητικά από τη φαρμακευτική αγωγή, μπορούν να παρουσιάσουν συμπτωματολογία κυρίως από την ψυχική σφαίρα, όπως αλλαγή της 34

συμπεριφοράς, ευερεθιστικότητα, αδυναμία συγκέντρωσης κρίσης και ψυχωσικού τύπου διαταραχές. Επίσης, δεν πρέπει να αποκλειστεί η πιθανότητα τραυματισμού, κυρίως κατά την πτώση του ασθενούς στην έναρξη μιας κρίσης gran mal. Η θεραπευτική αγωγή βασίζεται στην απομάκρυνση των επιληπτογόνων αιτιών. Αν αυτό δεν είναι εφικτό- αρκετό, τότε χρησιμοποιούνται φάρμακα, τα οποία μειώνουν τη διεγερσιμότητα των νευρώνων. Οι ασθενείς με επιληψία θα πρέπει να λαμβάνουν χωρίς διακοπή τα φάρμακά τους και να παρακολουθούνται τακτικά από νευρολόγο. Θα πρέπει να αποφεύγουν τη σωματική καταπόνηση, το αλκοόλ και γενικότερα τις καταχρήσεις. Οι επιληπτικές κρίσεις είναι στην πλειοψηφία τους απρόβλεπτες και μπορούν να συμβούν ακόμη και κατά τη διάρκεια της θεραπευτικής αγωγής. Έτσι, συνίσταται ιδιαίτερη προσοχή κατά την οδήγηση, κατά το χειρισμό μηχανημάτων, αλλά και σε οποιαδήποτε άλλη περίπτωση που μια απώλεια συνείδησης, μπορεί να αποβεί μοιραία για τον ασθενή ή για τους γύρω του. Σε κάποιες δύσκολες περιπτώσεις προτείνεται νευροχειρουργική αντιμετώπιση ή τοποθέτηση ειδικού βηματοδότη (Vagal Nerve Stmulator VNS) (Walter & Shonon, 2008). 35

36

ΚΕΦΑΛΑΙΟ 3 3.1 Εισαγωγή Οι ερευνητές συχνά ενδιαφέρονται να αναλύσουν δεδομένα που προκύπτουν από επαναλαμβανόμενες μετρήσεις. Για το λόγο αυτό υπάρχει ποικιλία τυποποιημένων πιθανοφανειών προσέγγισης, που στηρίζονται στην ανάλυση, όταν οι μεταβλητές απόκρισης ακολουθούν την πολυμεταβλητή κανονική κατανομή. Από την άλλη, για τα μοντέλα με διακριτές μεταβλητές απόκρισης γενικά ακολουθείται μια διαφορετική προσέγγιση. Όπως αναφέραμε στο προηγούμενο κεφάλαιο, οι Lang και Zeger εισήγαγαν μια προσέγγιση σε αυτό το θέμα, χρησιμοποιώντας «Γενικευμένες Εξισώσεις Εκτίμησης» ως επέκταση των «Γενικευμένων Γραμμικών Μοντέλων», με μια παλινδρόμηση με συσχετιζόμενες παρατηρήσεις εντός των υποκειμένων. Αυτό ισχύει όταν τα δεδομένα μπορούν να μοντελοποιηθούν χρησιμοποιώντας GLMs κι εάν υπάρχουν μη- συσχετιζόμενα αποτελέσματα. Η προσέγγιση αυτή αφορά στο χειρισμό συνεχών ή διακριτών μεταβλητών απόκρισης και παρέχει μια quas- πιθανοφάνεια για τη μοντελοποίηση συσχετιζόμενων μεταβλητών απόκρισης. Έτσι, η GEE μέθοδος εκτιμάει τις παραμέτρους του μοντέλου, επιλύνοντας ένα διαδοχικό επαναλαμβανόμενο σύστημα εξισώσεων, στηριζόμενο στις πέντε υποθέσεις της κατανομής της quas- πιθανοφάνειας. Σ αυτό το κεφάλαιο θα ασχοληθούμε με τη μέθοδο των GEE, σε μια εφαρμογή τους πάνω σε δεδομένα κλινικής δοκιμής, που είχαν αναλυθεί παλαιοτέρα από τους Tukey (1977), Leppk (1987), Thall και Val (1990), Breslow και Clayton (1993), Dggle, Lang και Zeger (1994), Robe Hesheth (2002), Booth (2003), Toscas και Faddy (2003) και τέλος από τον Dggle (2003). Το στατιστικό πρόγραμμα που θα χρησιμοποιηθεί για να γίνει η ανάλυση των δεδομένων είναι το SAS 9.1. Κύριο μέλημά μας εξακολουθεί να είναι η επικέντρωση στην κατανόηση του θεωρητικού μέρους των GEE. Μέσω όμως της επαφής και της χρήσης του στατιστικού προγράμματος SAS, 37

θα δοθεί η ευκαιρία απόκτησης μιας ακριβούς και πλήρους εικόνας για την εφαρμογή της GEE μεθόδου (Klenman & Ncholas, 2010). 3.2 Περιγραφή δεδομένων Τα δεδομένα που θα χρησιμοποιήσουμε για την ανάλυσή μας αναφέρονται σε μια τυχαιοποιημένη κλινική δοκιμή για ένα νέο φάρμακο για τη θεραπεία των επιληπτικών κρίσεων και αρχικά αναλύθηκαν από τους Thall και Val (1990) και στη συνέχεια από τους Dggle, Lang και Zeger (1994). Τα δεδομένα αυτά αφορούν στον αριθμό των επιληπτικών κρίσεων 59 ασθενών που πάσχουν από επιληψία (Πίνακας 3.1). Οι ασθενείς αυτοί με τυχαιοποιημένο τρόπο χωριστήκαν σε 2 ομάδες. Στην πρώτη ομάδα (n 1 =30) δόθηκε μια αντιεπιληπτική υπό εξέταση θεραπεία ( PROGABIDE ) και στη δεύτερη (n 2 =29) μια placebo θεραπεία. Κατά την πρώτη φάση της κλινικής δοκιμής, διάρκειας 8 εβδομάδων, μετρούνταν οι επιληπτικές κρίσεις των 59 ασθενών του δείγματος, χωρίς καμία φαρμακευτική παρέμβαση. Στη δεύτερη φάση αυτής, έγιναν αντίστοιχες μετρήσεις σε κάθε μια από τις τέσσερεις περιόδους (επισκέψεις) διάρκειας δυο εβδομάδων, κατά τις οποίες οι ασθενείς, βάσει της τυχαιοποίησής τους λάμβαναν είτε το placebo, είτε το υπό εξέταση φάρμακο PROGABIDE. 38

Πίνακας 3.1 Δεδομένα της κλινικής δοκιμής των επιληπτικών κρίσεων. Σκοπός της έρευνας είναι να ελεγχθεί αν το PROGABIDE φάρμακο προκαλεί μια μικρή μείωση στο ποσοστό των επιληπτικών κρίσεων. Πιο αναλυτικά, το ερώτημα που πρέπει να απαντηθεί είναι εάν στο πέρασμα του χρόνου οι ασθενείς που λαμβάνουν το νέο υπό εξέταση φάρμακο παρουσιάζουν σημαντική βελτίωση, σε σχέση με τους υπόλοιπους που λαμβάνουν το placebo. Τα δεδομένα του προβλήματος αναλύθηκαν με τη χρήση της GEE μεθόδου, μέσα από το περιβάλλον του στατιστικού προγράμματος SAS (SAS, 2008). Έτσι, στο Διάγραμμα 3.1, παρουσιάζονται τα δεδομένα για τον αριθμό των ανά επίσκεψη επιληπτικών κρίσεων, με τη χρήση ιστογράμματος. 39

Διάγραμμα 3.1 Κατανομή αριθμού επιληπτικών κρίσεων για κάθε επίσκεψη. Το Διάγραμμα 3.1 παρουσιάζει μια μικρή μείωση στη μέση τιμή των επιληπτικών κρίσεων, πιθανότατα στη 2 η επίσκεψη. Αξίζει να επισημάνουμε ότι πρέπει να λάβει κανείς υπόψη του, τις πολύ μεγάλες διακυμάνσεις στο επίπεδο αναφοράς, οι οποίες φαίνεται να παραμένουν σταθερές στο πέρασμα του χρόνου. Σε αυτή την περίπτωση η ετερογένεια των ποσοστών πιθανά θα διευκολύνει την ανίχνευση της θεραπευτικής επίδρασης. Οι εντός υποκειμένου μετρήσεις φαίνεται να είναι συσχετιζόμενες, ενώ οι μεταξύ υποκειμένων μετρήσεις φαίνεται να είναι ανεξάρτητες. Οι συσχετίσεις των μετρήσεων μεταξύ των επισκέψεων παρουσιάζονται στον Πίνακα 3.2 και υποδεικνύουν ισχυρή συσχέτιση στον αριθμό των επιληπτικών κρίσεων μεταξύ των επισκέψεων. 40