ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΟΜΕΑΣ ΜΑΘΗΜΑΤΙΚΩΝ

Σχετικά έγγραφα
Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Στατιστική. Εκτιμητική

Μέθοδος μέγιστης πιθανοφάνειας

Άσκηση 10, σελ Για τη μεταβλητή x (άτυπος όγκος) έχουμε: x censored_x 1 F 3 F 3 F 4 F 10 F 13 F 13 F 16 F 16 F 24 F 26 F 27 F 28 F

ΤΟ ΜΟΝΤΕΛΟ ΑΝΑΛΟΓΙΚΩΝ ΚΙΝΔΥΝΩΝ ΤΟΥ COX ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗΝ R

Μέθοδος μέγιστης πιθανοφάνειας

ΑΞΙΟΠΙΣΤΙΑ ΚΑΙ ΣΥΝΤΗΡΗΣΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής. Pr T T0

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Στατιστική Συμπερασματολογία

ΕΝΤΥΠΟ ΘΕΜΑΤΩΝ ΕΞΕΤΑΣΕΩΝ

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

OΡΙΟ - ΣΥΝΕΧΕΙΑ ΣΥΝΑΡΤΗΣΗΣ

2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ

Μαθηματική Εισαγωγή Συναρτήσεις

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 )

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Εισόδημα Κατανάλωση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ιωνυµική Κατανοµή(Binomial)

Πανεπιστήμιο Πελοποννήσου

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Περιεχόμενα. σελ. Πρόλογος 1 ης Έκδοσης... ix Πρόλογος 2 ης Έκδοσης... xi Εισαγωγή... xiii

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

Μαθηματική Εισαγωγή Συναρτήσεις

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Παντελής Μπουμπούλης, M.Sc., Ph.D. σελ. 2 math-gr.blogspot.com, bouboulis.mysch.gr

P (A B) = P (AB) P (B) P (A B) = P (A) P (A B) = P (A) P (B)

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

Κεφάλαιο 1. Εισαγωγή: Βασικά Στοιχεία Θεωρίας Πιθανοτήτων και Εκτιμητικής

0x2 = 2. = = δηλαδή η f δεν. = 2. Άρα η συνάρτηση f δεν είναι συνεχής στο [0,3]. Συνεπώς δεν. x 2. lim f (x) = lim (2x 1) = 3 και x 2 x 2

9. Παλινδρόμηση και Συσχέτιση

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

ΜΑΘΗΜΑΤΙΚΑ Θετικής & Τεχνολογικής Κατεύθυνσης Β ΜΕΡΟΣ (ΑΝΑΛΥΣΗ) ΚΕΦ 1 ο : Όριο Συνέχεια Συνάρτησης

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

Η Θεωρία στα Μαθηματικά κατεύθυνσης της Γ Λυκείου

f(x) = και στην συνέχεια

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΠΕΡΙΕΧΟΜΕΝΑ. Πιθανότητες. Τυχαίες μεταβλητές - Κατανομές ΙΑΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΕΦΑΛΑΙΟ 1 ΚΕΦΑΛΑΙΟ 2

Στατιστική. Ενότητα 3 η : Χαρακτηριστικά Τυχαίων Μεταβλητών Θεωρητικές Κατανομές Πιθανότητας για Διακριτή Τυχαία Μεταβλητή

Για να εκφράσουμε τη διαδικασία αυτή, γράφουμε: :

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ

Περιεχόμενα. 1. Ειδικές συναρτήσεις. 2. Μιγαδικές Συναρτήσεις. 3. Η Έννοια του Τελεστή. Κεφάλαιο - Ενότητα

ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΙΣΗ

Y Y ... y nx1. nx1

Συναρτήσεις Θεωρία Ορισμοί - Παρατηρήσεις

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

HMY 795: Αναγνώριση Προτύπων

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Μιγαδικός λογισμός και ολοκληρωτικοί Μετασχηματισμοί

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

[1] είναι ταυτοτικά ίση με το μηδέν. Στην περίπτωση που το στήριγμα μιας συνάρτησης ελέγχου φ ( x)

Εφαρμοσμένη Στατιστική

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Pr(10 X 15) = Pr(15 X 20) = 1/2, (10.2)

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Μαθηματικά Προσανατολισμού Γ Λυκείου Κανιστράς Δημήτριος. Συναρτήσεις Όρια Συνέχεια Μια πρώτη επανάληψη Απαντήσεις των ασκήσεων

ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Μέρος ΙΙ. Τυχαίες Μεταβλητές

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Εισαγωγή στη θεωρία ακραίων τιμών

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα

Απαντήσεις στα Μαθηματικά Κατεύθυνσης 2016

ρ. Ευστρατία Μούρτου

f(y) dy = b a dy = b a x f(x) dx = b a dx = x 2 = b2 a 2 2(b a) b a dx = = (a2 + ab + b 2 )(b a) 3(b a)

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Είδη Μεταβλητών. κλίµακα µέτρησης

ΣΤΑΤΙΣΤΙΚΕΣ Ι ΙΟΤΗΤΕΣ ΤΗΣ ΤΗΛΕΦΩΝΙΚΗΣ ΚΙΝΗΣΗΣ

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα

Αριθμητική Ανάλυση και Εφαρμογές

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Θεώρημα Βolzano. Κατηγορία 1 η Δίνεται η συνάρτηση:

ΕΚΤΙΜΙΣΗ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

ΕΝΔΕΙΚΤΙΚΕΣ ΛΥΣΕΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ 2017

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

1.1. Διαφορική Εξίσωση και λύση αυτής

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 1

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 25 ΜΑΪΟΥ 2004 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Transcript:

ΕΘΝΙΚΟ ΜΕΣΟΒΙΟ ΠΟΛΥΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΗΜΩΝ ΟΜΕΑΣ ΜΑΘΗΜΑΙΚΩΝ Δ.Π.Μ.Σ. «ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΙΚΕΣ ΕΠΙΣΗΜΕΣ» ΓΕΝΙΚΕΥΜΕΝΗ ΣΥΝΑΡΗΣΗ ΠΙΘΑΝΟΦΑΝΕΙΑΣ ΓΙΑ ΜΟΝΕΛΑ ΜΕΑΣΧΗΜΑΙΣΜΟΥ ΚΑΙ ΕΠΙΛΟΓΗ ΜΟΝΕΛΩΝ Διπλωματική Εργασία ΑΝΑΣΑΣΙΟΣ ΛΥΜΠΕΡΑΟΣ Επιβλέπουσα: ΦΙΛΙΑ ΒΟΝΑ, Επίκουρος Καθηγήτρια Ε.Μ.Π. Αθήνα 3

ii

ΕΘΝΙΚΟ ΜΕΣΟΒΙΟ ΠΟΛΥΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΗΜΩΝ ΟΜΕΑΣ ΜΑΘΗΜΑΙΚΩΝ Δ.Π.Μ.Σ. «ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΙΚΕΣ ΕΠΙΣΗΜΕΣ» ΓΕΝΙΚΕΥΜΕΝΗ ΣΥΝΑΡΗΣΗ ΠΙΘΑΝΟΦΑΝΕΙΑΣ ΓΙΑ ΜΟΝΕΛΑ ΜΕΑΣΧΗΜΑΙΣΜΟΥ ΚΑΙ ΕΠΙΛΟΓΗ ΜΟΝΕΛΩΝ Διπλωματική Εργασία ΑΝΑΣΑΣΙΟΣ ΛΥΜΠΕΡΑΟΣ Εγκρίθηκε από την τριμελή εξεταστική επιτροπή στις.../.../.......... ΦΙΛΙΑ ΒΟΝΑ Επίκουρος Καθηγήτρια ΧΡΥΣΗΙΣ ΚΑΡΩΝΗ Καθηγήτρια ΧΡΗΣΟΣ ΚΟΥΚΟΥΒΙΝΟΣ Καθηγητής (υπογραφή) (υπογραφή) iii (υπογραφή)

.. Αναστάσιος Λυμπεράτος Μαθηματικός Πτυχιούχος Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών 3 All rights reserved Απαγορεύεται η αντιγραφή, αποθήκευση και διανομή της παρούσας εργασίας, εξ ολοκλήρου ή τμήματος αυτής, για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση, αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής φύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης και να διατηρείται το παρόν μήνυμα. Ερωτήματα που αφορούν τη χρήση της εργασίας για κερδοσκοπικό σκοπό πρέπει να απευθύνονται προς τον συγγραφέα. Οι απόψεις και τα συμπεράσματα που περιέχονται σε αυτό το έγγραφο εκφράζουν τον συγγραφέα και δεν πρέπει να ερμηνευτεί ότι εκφράζουν τις επίσημες θέσεις του Ε.Μ.Π. iv

ΕΥΧΑΡΙΣΙΕΣ Η παρούσα διπλωματική εργασία εκπονήθηκε για την ολοκλήρωση του μεταπτυχιακού προγράμματος ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΙΚΕΣ ΕΠΙΣΗΜΕΣ της ΣΧΟΛΗΣ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΗΜΩΝ του ΕΘΝΙΚΟΥ ΜΕΣΟΒΙΟΥ ΠΟΛΥΕΧΝΕΙΟΥ. Θα ήθελα εδώ να ευχαριστήσω θερμά την επιβλέπουσα καθηγήτρια κα. Φιλία Βόντα για την ανάθεση της εργασίας, την εμπιστοσύνη της στο πρόσωπό μου, την υπομονή της καθ όλη τη διάρκεια της έρευνας και τις καίριες παρεμβάσεις και υποδείξεις της. Εκφράζω επίσης θερμές ευχαριστίες στην καθηγήτρια κα. Χρύσα Καρώνη και στον καθηγητή κ. Χρήστο Κουκουβίνο για την τιμή να δεχθούν να συμμετάσχουν στην επιτροπή αξιολόγησης της εργασίας. Κλείνοντας τέλος αυτόν τον κύκλο μεταπτυχιακών σπουδών, ευχαριστώ το Ε.Μ.Π. και τη Σ.Ε.Μ.Φ.Ε. για την ευκαιρία που μου έδωσαν να διευρύνω τους ορίζοντές μου μέσα από τα μαθήματα, τις εργασίες και την έρευνα. Ευχαριστώ επίσης τους διδάσκοντες του μεταπτυχιακού προγράμματος για τη γνώση που μου χάρισαν και για την ακούραστη καθοδήγησή τους στο αχανές πεδίο της επιστήμης των Μαθηματικών. Η εργασία αφιερώνεται στη Χριστίνα και την Ευρυδίκη, για την απεριόριστη αγάπη, την υπομονή και τη στήριξή τους. v

ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΛΗΨΗ...ix ABSTRACT...ix ΚΕΦΑΛΑΙΟ ΕΙΣΑΓΩΓΗ ΣΗΝ ΑΝΑΛΥΣΗ ΕΠΙΒΙΩΣΗΣ..... ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ..... ΛΟΓΟΚΡΙΜΕΝΑ ΔΕΔΟΜΕΝΑ...3.3. ΠΑΡΑΜΕΡΙΚΑ ΜΟΝΕΛΑ ΔΙΑΡΚΕΙΑΣ ΖΩΗΣ...5.3.. Η Εκθετική Κατανομή (Exponential Distribution)...5.3.. Η κατανομή Weibull (Weibull Distribution)...6.3.3. Η κατανομή Gompertz...9.3.4. Η κατανομή Γάμμα (Gamma distribution)...9.3.5. Η Λογαριθμοκανονική κατανομή (LogNormal distribution)....3.6. Η Γενικευμένη Γάμμα κατανομή (Generalized Gamma distribution)...3.3.7. Η Λογαριθμολογιστική κατανομή (Loglogistic distribution)...4.3.8. Η αντίστροφη Γκαουσιανή κατανομή (Inverse Gaussian distribution)...5.4. ΜΗ ΠΑΡΑΜΕΡΙΚΑ ΜΟΝΕΛΑ ΔΙΑΡΚΕΙΑΣ ΖΩΗΣ...7.4.. Η εκτιμήτρια KaplanMeier για τη μη παραμετρική εκτίμηση της συνάρτησης επιβίωσης...7.4.. Μη παραμετρική εκτίμηση της σωρευτικής συνάρτησης κινδύνου Η εκτιμήτρια NelsonAalen... ΚΕΦΑΛΑΙΟ Ο ΜΟΝΕΛΟ ΑΝΑΛΟΓΙΚΩΝ ΚΙΝΔΥΝΩΝ ΟΥ COX...3.. ΜΟΝΕΛΑ ΠΑΛΙΝΔΡΟΜΗΣΗΣ ΣΗΝ ΑΝΑΛΥΣΗ ΕΠΙΒΙΩΣΗΣ...3... Μοντέλο Γραμμικής Παλινδρόμησης...3... Γενικευμένα Γραμμικά Μοντέλα Παλινδρόμησης...5..3. ο Μοντέλο Επιταχυνόμενης Διακοπής (Accelerated Failure Time model AFT) για δεδομένα διάρκειας ζωής...6..4. ο μοντέλο αναλογικών κινδύνων (Proportional Hazards Model PH) για δεδομένα διάρκειας ζωής...7.. Ο ΜΟΝΕΛΟ ΑΝΑΛΟΓΙΚΩΝ ΚΙΝΔΥΝΩΝ ΟΥ COX...8... Γενικά περί του μοντέλου αναλογικών κινδύνων του Cox...8... Εκτίμηση των παραμέτρων στο μοντέλο αναλογικών κινδύνων του Cox, με τη μέθοδο της μερικής πιθανοφάνειας (partial likelihood)...9..3. Οι ισόπαλοι χρόνοι στο μοντέλο του Cox...33..4. ο στρωματοποιημένο μοντέλο του Cox...35.3. ΠΡΟΣΑΡΜΟΓΗ ΜΟΝΕΛΟΥ ΑΝΑΛΟΓΙΚΩΝ ΚΙΝΔΥΝΩΝ...36.3.. Γραφικός έλεγχος της υπόθεσης αναλογικών κινδύνων...36.3.. Έλεγχος της υπόθεσης αναλογικών κινδύνων μέσω των υπολοίπων...37.3.3. Προσαρμογή παραμετρικού μοντέλου αναλογικών κινδύνων με τη μέθοδο μεγίστης πιθανοφάνειας...39 vi

.4. ΚΡΙΗΡΙΑ ΕΠΙΛΟΓΗΣ ΜΟΝΕΛΟΥ...44.4.. Έλεγχος υποθέσεων στο μοντέλο αναλογικών κινδύνων...44.4.. Κριτήρια επιλογής συμμεταβλητών...45 ΚΕΦΑΛΑΙΟ 3 ΜΟΝΕΛΑ ΜΟΝΟΜΕΑΒΛΗΗΣ ΕΥΠΑΘΕΙΑΣ...48 3.. ΜΟΝΕΛΑ ΕΥΠΑΘΕΙΑΣ...48 3... Εισαγωγικό παράδειγμα...48 3... Η μονομεταβλητή ευπάθεια...5 3..3. Η ευπάθεια και ο μετασχηματισμός Laplace...5 3..4. Η συνάρτηση κινδύνου του πληθυσμού και η αναμενόμενη ευπάθεια των επιζώντων...54 3.. Ο ΜΟΝΕΛΟ ΓΑΜΜΑ ΕΥΠΑΘΕΙΑΣ...55 3... Εισαγωγή στο μοντέλο Γάμμα ευπάθειας...55 3... ο μοντέλο του Cox και η Γάμμα ευπάθεια...57 3..3. Εκτίμηση παραμέτρων στο παραμετρικό μοντέλο Γάμμα ευπάθειας...6 3..4. Εκτίμηση παραμέτρων στο ημιπαραμετρικό μοντέλο Γάμμα ευπάθειας...6 3.3. Ο ΜΟΝΕΛΟ ΛΟΓΑΡΙΘΜΟΚΑΝΟΝΙΚΗΣ ΕΥΠΑΘΕΙΑΣ...6 3.3.. Εισαγωγή στο μοντέλο Λογαριθμοκανονικής ευπάθειας...6 3.3.. Εκτίμηση παραμέτρων στο παραμετρικό μοντέλο Λογαριθμοκανονικής ευπάθειας...63 3.3.3. Εκτίμηση παραμέτρων στο ημιπαραμετρικό μοντέλο Λογαριθμοκανονικής ευπάθειας...63 3.4. Ο ΜΟΝΕΛΟ ΑΝΙΣΡΟΦΗΣ ΓΚΑΟΥΣΙΑΝΗΣ ΕΥΠΑΘΕΙΑΣ...65 3.4.. Εισαγωγή στο μοντέλο Αντίστροφης Γκαουσιανής ευπάθειας...65 3.5. Ο ΜΟΝΕΛΟ ΟΜΟΙΟΜΟΡΦΗΣ ΕΥΠΑΘΕΙΑΣ...68 3.5.. Εισαγωγή στο μοντέλο Ομοιόμορφης ευπάθειας...68 3.5.. Εκτίμηση παραμέτρων στο παραμετρικό μοντέλο Ομοιόμορφης ευπάθειας...69 3.5.3. Εκτίμηση παραμέτρων στο ημιπαραμετρικό μοντέλο Ομοιόμορφης ευπάθειας...69 ΚΕΦΑΛΑΙΟ 4 ΜΟΝΕΛΑ ΜΕΑΣΧΗΜΑΙΣΜΟΥ ΠΡΟΣΟΜΟΙΩΣΕΙΣ & ΕΠΙΛΟΓΗ ΜΕΑΒΛΗΩΝ...7 4.. ΜΟΝΕΛΑ ΜΕΑΣΧΗΜΑΙΣΜΟΥ...7 4... Εισαγωγή στα μοντέλα μετασχηματισμού...7 4... Εκτίμηση παραμέτρων στα μοντέλα μετασχηματισμού...73 4..3. Εκτίμηση παραμέτρων στο μοντέλο ευπάθειας, αντιμετωπίζοντας αυτό ως ειδική περίπτωση του μοντέλου μετασχηματισμού...74 4.. ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΓΙΑ ΗΝ ΕΚΙΜΗΣΗ ΠΑΡΑΜΕΡΩΝ ΚΑΙ ΗΝ ΕΠΙΛΟΓΗ ΜΕΑΒΛΗΩΝ ΣΟ ΠΑΡΑΜΕΡΙΚΟ ΜΟΝΕΛΟ ΓΑΜΜΑ ΕΥΠΑΘΕΙΑΣ ΜΕΣΩ ΟΥ ΜΟΝΕΛΟΥ ΜΕΑΣΧΗΜΑΙΣΜΟΥ...75 4... Εισαγωγή...75 4... Υποθέσεις του μοντέλου...76 vii

4..3. Ζητούμενο του προβλήματος...78 4..4. Κατασκευή του κώδικα: Αρχικοποίηση...79 4..5. Κατασκευή του κώδικα: Προσομοίωση των δεδομένων...84 4..6. Κατασκευή του κώδικα: Κατασκευή της συνάρτησης πιθανοφάνειας μέσω της συνάρτησης μετασχηματισμού...88 4..7. Κατασκευή του κώδικα: Προετοιμασία της βελτιστοποίησης και της επιλογής μοντέλου...89 4..8. Κατασκευή του κώδικα: Βελτιστοποίηση και εκτίμηση των παραμέτρων μοντέλου...94 4..9. Κατασκευή του κώδικα: Επιλογή μοντέλου...99 4... Κατασκευή του κώδικα: Πίνακες αποτελεσμάτων...3 4... Εκτέλεση του προγράμματος Αποτελέσματα...9 4.3. ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΓΙΑ ΗΝ ΕΚΙΜΗΣΗ ΠΑΡΑΜΕΡΩΝ ΚΑΙ ΗΝ ΕΠΙΛΟΓΗ ΜΕΑΒΛΗΩΝ ΣΟ ΠΑΡΑΜΕΡΙΚΟ ΜΟΝΕΛΟ INVERSE GAUSSIAN ΕΥΠΑΘΕΙΑΣ ΜΕΣΩ ΟΥ ΜΟΝΕΛΟΥ ΜΕΑΣΧΗΜΑΙΣΜΟΥ...7 4.3.. Εισαγωγή...7 4.3.. Κατασκευή του κώδικα...9 4.3.3. Εκτέλεση του προγράμματος Αποτελέσματα... 4.4. ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΓΙΑ ΗΝ ΕΚΙΜΗΣΗ ΠΑΡΑΜΕΡΩΝ ΚΑΙ ΗΝ ΕΠΙΛΟΓΗ ΜΕΑΒΛΗΩΝ ΩΝ ΗΜΙΠΑΡΑΜΕΡΙΚΩΝ ΜΟΝΕΛΩΝ ΓΑΜΜΑ ΚΑΙ INVERSE GAUSSIAN ΕΥΠΑΘΕΙΑΣ ΜΕΣΩ ΟΥ ΜΟΝΕΛΟΥ ΜΕΑΣΧΗΜΑΙΣΜΟΥ...7 4.4.. Εισαγωγή...7 4.4.. Κατασκευή του κώδικα...8 4.4.3. Αποτελέσματα στην ημιπαραμετρική περίπτωση της Γάμμα ευπάθειας...36 4.4.4. Αποτελέσματα στην ημιπαραμετρική περίπτωση της Inverse Gaussian ευπάθειας...4 4.4.5. Σχεδίαση της εκτιμηθείσας σωρευτικής βασικής συνάρτησης κινδύνου...48 4.4.6. Περαιτέρω συζήτηση...55 ΠΗΓΕΣ ΒΙΒΛΙΟΓΡΑΦΙΑ...57 viii

ΠΕΡΙΛΗΨΗ Η παρούσα εργασία αποτελείται από τέσσερα κεφάλαια: Στο πρώτο, παρουσιάζονται οι εισαγωγικές έννοιες της Ανάλυσης Επιβίωσης και τα μοντέλα διάρκειας ζωής (παραμετρικά και μη). Στο δεύτερο, μετά από μία γενική θεώρηση της προσαρμογής των μοντέλων παλινδρόμησης στα δεδομένα διάρκειας ζωής, παρουσιάζεται εκτενώς το μοντέλο αναλογικών κινδύνων του Cox (Cox proportional hazards model). Στη συνέχεια, το μοντέλο του Cox εμπλουτίζεται με την εισαγωγή σε αυτό της τυχαίας μεταβλητής της ευπάθειας, της οποίας μοντέλα μελετούμε στο κεφ. 3 (frailty models). Στο κεφ. 4 παρουσιάζονται τα μοντέλα μετασχηματισμού (transformation models) ως επέκταση αυτών της ευπάθειας. έλος, μελετάται η δημιουργία και εκτέλεση προγραμμάτων στην R για την επιλογή μεταβλητών και την εκτίμηση παραμέτρων στα μοντέλα μετασχηματισμού, με χρήση της γενικευμένης συνάρτησης πιθανοφάνειας και των κριτηρίων AIC και BIC. ABSTRACT This thesis consists of four chapters: The first presents the basic concepts of Survival Analysis and the modeling of timetoevent data. In the second chapter, after an overview of the adjustment of regression models to lifetime data, we study extensively the proportional hazards model of Cox. Then the Cox model is enriched by the introduction of the frailty random variable, models of which we study in chapter 3 (frailty models). In chapter 4 we present the transformation models as an extension of the frailty models. Finally, we study the creation and execution of programs in R for the selection of variables and the estimation of parameters in transformation models, using the generalized likelihood function and the AIC and BIC criteria. ix

x

ΚΕΦΑΛΑΙΟ ΕΙΣΑΓΩΓΗ ΣΗΝ ΑΝΑΛΥΣΗ ΕΠΙΒΙΩΣΗΣ.. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Ανάλυση επιβίωσης είναι ο κλάδος της Στατιστικής που μελετά δεδομένα που αφορούν το χρόνο που απαιτείται μέχρι να συμβεί ένα γεγονός (timetoevent data), όπως π.χ. ο θάνατος ενός βιολογικού οργανισμού ή η βλάβη ενός μηχανικού συστήματος. Γενικότερα, η ανάλυση επιβίωσης μελετά μη αρνητικές τυχαίες μεταβλητές όπως π.χ. ο χρόνος μέχρι τον θάνατο, ο χρόνος μέχρι να εμφανισθεί κάποια αρρώστια, αλλά και μεταβλητές που δεν είναι χρόνος, όπως π.χ. το φορτίο που πρέπει να ασκηθεί ώστε να έχουμε θράυση κάποιου υλικού. Η ανάλυση επιβίωσης απαντάται και ως θεωρία ή ανάλυση αξιοπιστίας (reliability theory) όταν αφορά τα μηχανικά συστήματα. Όπως προαναφέραμε, ο χρόνος επιβίωσης T είναι μία τυχαία μεταβλητή με μη αρνητικές τιμές ( T ), η οποία μπορεί να είναι είτε διακριτή είτε συνεχής. Στη συνέχεια, θα θεωρήσουμε ότι ο χρόνος T είναι συνεχής τυχαία μεταβλητή (με τιμές, φυσικά στο, ). Οι βασικές συναρτήσεις που περιγράφουν τη διάρκεια ζωής T είναι: Η συνάρτηση πυκνότητας πιθανότητας (probability density function p.d.f.) έστω f t, t. Η (αθροιστική) συνάρτηση κατανομής (cumulative distribution function c.d.f.) που συμβολίζεται με F t και εκφράζει την πιθανότητα P T t ο χρόνος ζωής να μην υπερβεί μία συγκεκριμένη χρονική στιγμή t, δηλ. F t P T t t f s ds (.) Η F t, ως συνάρτηση κατανομής είναι εξ ορισμού αύξουσα, με F και F.

Η συνάρτηση αξιοπιστίας ή συνάρτηση επιβίωσης (survival function), η οποία συμβολίζεται με S t και εκφράζει την πιθανότητα P T t ο χρόνος ζωής να υπερβεί τη χρονική στιγμή t, δηλ. S(t ) P T t F t t f s ds (.) Προφανώς είναι S F. Η συνάρτηση κινδύνου (hazard function), συμβολίζεται με h t και καθορίζει (βλ. [], []) τον κίνδυνο διακοπής (θανάτου) μίας μονάδας αμέσως μετά τη χρονική στιγμή t, δοθέντος ότι αυτή έζησε έως εκείνη τη στιγμή, δηλ. P t T t dt /T t (.3) dt dt h t lim Παρατηρούμε εδώ ότι από τον ορισμό της δεσμευμένης πιθανότητας είναι P t T t dt /T t συναρτήσεις P t T t dt, P T t κατανομής P t T t dt /T t οπότε και χρησιμοποιώντας επιβίωσης, τις παίρνουμε F t dt F t f t dt (βλ. [3]) και αντικαθιστώντας S(t ) S(t ) στον τύπο (.3) ορισμού της συνάρτησης κινδύνου, προκύπτει η βασική σχέση h(t ) f t (.4) S(t ) που συνδέει τη συνάρτηση κινδύνου h t με τις συναρτήσεις πυκνότητας πιθανότητας f t και επιβίωσης S t. έλος, η σωρευτική συνάρτηση κινδύνου (cumulative hazard function) συμβολίζεται με H t και ορίζεται από τη σχέση H t t h s ds (.5) Η σωρευτική συνάρτηση κινδύνου συνδέεται με τη συνάρτηση επιβίωσης, αφού t H t h s ds t f s S s ds t S s S s ds ln S( s) t ln S( ) ln S(t ) ln S(t ) και επομένως έχουμε

H (t ) ln S(t ) (.6) άρα S(t ) e H (t ) (.7).. ΛΟΓΟΚΡΙΜΕΝΑ ΔΕΔΟΜΕΝΑ Λογοκρισία (censoring) είναι η κατάσταση στην οποία η διάρκεια ζωής μίας παρατήρησης είναι μεγαλύτερη από τη διάρκεια του πειράματος. Έτσι, λογοκρισία έχουμε όταν π.χ. ένα πείραμα τελειώνει αλλά μερικές μονάδες εξακολουθούν να λειτουργούν, τότε, αν και δε γνωρίζουμε τον ακριβή χρόνο ζωής τους, έχουμε την πληροφορία ότι η ζωή των μονάδων ξεπέρασε τη διάρκεια του πειράματος. α κυριότερα είδη λογοκρισίας είναι τα εξής: Δεξιά λογοκρισία (right censoring): είναι η συνήθης μορή λογοκρισίας. Σε αυτήν, ο χρόνος ζωής της μονάδας είναι μεγαλύτερος από το χρόνο του πειράματος. Έτσι, αν c είναι ο χρόνος του πειράματος, τότε στη δεξιά λογοκρισία ισχύει T c. Αριστερή λογοκρισία (left censoring): ο χρόνος ζωής της μονάδας είναι μικρότερος από το χρόνο του πειράματος, δηλ. ισχύει T c. Αυτό μπορεί να συμβεί όταν η μονάδα δεν εισέρχεται στο πείραμα από την αρχή, αλλά σε κάποιο ενδιάμεσο χρονικό σημείο. Λογοκρισία σε διάστημα (interval censoring): για το χρόνο ζωής ισχύει c T c. Ένα παράδειγμα των ειδών λογοκρισίας, είναι το εξής: Στην ερώτηση "Σε ποια ηλικία κάπνισες για πρώτη φορά;" θα μπορούσαμε να έχουμε τις εξής δυνατές απαντήσεις (βλ. [4]):. "Δεν έχω καπνίσει" (δεξιά λογοκριμένη παρατήρηση: το άτομο μπορεί να καπνίσει μετά το τέλος της έρευνας).. "Στην ηλικία των. ετών" (μη λογοκριμένη παρατήρηση). 3

3. "Δεν θυμάμαι πότε κάπνισα για πρώτη φορά" (αριστερά λογοκριμένη παρατήρηση). Παραθέτουμε ακολούθως ένα παράδειγμα γραφικής απεικόνισης των δεξιά λογοκριμένων δεδομένων: t t t3 3 t 4 4 t (αρχή του πειράματος) t T (τέλος του πειράματος) Σχ. : Σχηματική αναπαράσταση πλήρων και δεξιά λογοκριμένων δεδομένων Έτσι, στο παραπάνω σχ., οι μονάδες () και (3) εισέρχονται στο πείραμα στην αρχή αυτού ( t ) και οι ζωές τους διακόπτονται στους χρόνους t και t 3 αντίστοιχα, οπότε δημιουργούνται πλήρεις παρατηρήσεις. Η μονάδα () εισέρχεται επίσης στην αρχή του πειράματος, αλλά ζει και μετά το πέρας τούτου, οπότε δημιουργεί μία δεξιά λογοκριμένη παρατήρηση, την t. έλος, η μονάδα (4) υφίσταται και αυτή δεξιά λογοκρισία, αφού εισέρχεται στην αρχή του πειράματος και χάνεται από αυτό στο χρόνο (δεξιάς λογοκρισίας) t 4. Από τα παραπάνω, προκύπτει άμεσα η ανάγκη ώστε στην αλγεβρική αναπαράσταση των δεδομένων διάρκειας ζωής να προσδιορίζεται η ύπαρξη ή μη, λογοκρισίας στο χρόνο ζωής κάθε μονάδας. Στη συνήθη περίπτωση της δεξιάς λογοκρισίας, αυτό υλοποιείται με την παρουσίαση κάθε παρατήρησης, ως ζεύγους X i, Di, όπου: 4

X i είναι ο χρόνος ζωής ή λογοκρισίας της i παρατήρησης, ( i,,, n, όπου n το μέγεθος του δείγματος) Di είναι η δείκτρια συνάρτηση λογοκρισίας (censoring indicator), η οποία αν ο χρόνος X i είναι χρόνος διακοπής ορίζεται ως: Di. αν ο χρόνος X i είναι χρόνος λογοκρισίας.3. ΠΑΡΑΜΕΡΙΚΑ ΜΟΝΕΛΑ ΔΙΑΡΚΕΙΑΣ ΖΩΗΣ Στα παραμετρικά μοντέλα διάρκειας ζωής, υποθέτουμε ότι η τυχαία μεταβλητή του χρόνου ζωής T, ακολουθεί γνωστή κατανομή. Στη συνέχεια, αναφέρουμε τα κυριότερα παραμετρικά μοντέλα..3.. Η Εκθετική Κατανομή (Exponential Distribution): Όταν η διάρκεια ζωής T ακολουθεί την Εκθετική Κατανομή με παράμετρο λ (συμβ. T ~ Ɛ(λ)), τότε η συνάρτηση πυκνότητας πιθανότητας αυτής είναι f T t f t λe λt (.8), όπου t. Η συνάρτηση αξιοπιστίας είναι S(t ) t f s ds t λe λsds e λs t άρα S(t ) e λt (.9) οπότε η συνάρτηση κινδύνου είναι h(t ) f t λe λt, άρα S(t ) e λt h(t ) λ (.) Αν και η Εκθετική Κατανομή είναι απλή ως μοντέλο, το γεγονός της σταθερής συνάρτησης κινδύνου (ανεξάρτητης από την ηλικία της μονάδας βάσει της εξίσωσης (.)) είναι το μειονέκτημα της ως ικανής να περιγράψει δεδομένα διάρκειας ζωής. Η E T μέση tf t dt λte διάρκεια λt ζωής e dt te λt 5 λt εδώ, είναι dt t e λt άρα λ

E T (.). λ Επίσης, η t f t dt λt e λt dt t e λt te λt dt t e λt λ E T άρα E T. Μπορούμε τώρα να υπολογίσουμε τη διασπορά, από τον λ E T τύπο: V T E T E T άρα V T (.). λ.3.. Η κατανομή Weibull (Weibull Distribution): Είναι από τις σπουδαιότερες κατανομές δεδομένων ζωής. Χρησιμοποιείται συχνότατα στην Ανάλυση Επιβίωσης λόγω της μεγάλης ευελιξίας που θα δούμε ακολούθως ότι έχει η συνάρτηση κινδύνου της. Η κατανομή, πήρε το όνομά της από τον Σουηδό μαθηματικό και μηχανικό Waloddi Weibull (887979), ο οποίος την παρουσίασε το 95 (βλ. [7] και [8]). Η τυχαία μεταβλητή T ακολουθεί την κατανομή Weibull με παράμετρο κλίμακας α και παράμετρο σχήματος λ (συμβ. T ~ W α, λ ), όταν η τυχαία μεταβλητή Y T λ ~ Ɛ λ. Η α συνάρτηση πυκνότητας πιθανότητας f T t, προκύπτει έτσι, μέσω της συνάρτησης κατανομής FT t του ανωτέρω μετασχηματισμού, αφού οπότε παραγωγίζοντας d d f T t FT t FY t λ λt λ fy t λ. Επειδή Y T λ ~ Ɛ λ, άρα dt dt α FT t P T t P T λ t λ P Y t λ FY t λ, έχουμε fy t α λ t λ e α, άρα f T t λt λ fy t λ λt λ λ α tλ λ e α, απ παίρνουμε την τελική εξίσωση της συνάρτησης πυκνότητας πιθανότητας: f T t f t λ t λα λ t λ e α 6, t (.3). όπου

Δείξαμε παραπάνω ότι η συνάρτηση κατανομής της Weibull συνδέεται με τη συνάρτηση κατανομής της Εκθετικής κατανομής Ɛ λ, μέσω της α εξίσωσης FT t FY t λ. Από εδώ, μπορούμε να υπολογίσουμε τη συνάρτηση αξιοπιστίας της Weibull, αφού είναι ST t FT t FY t λ SY t λ και χρησιμοποιώντας το ότι Y T λ ~ Ɛ λ, άρα α ST t S t λ t e α, t (.4). Η συνάρτηση κινδύνου της κατανομής Weibull είναι h t f t, άρα S t h t λα λ t λ, t (.5). Παραγωγίζοντας τη συνάρτηση κινδύνου, έχουμε d d h t λ λ α λ t λ με t, άρα η παράγωγος h t είναι ομόσημη dt dt του παράγοντα λ, άρα η μονοτονία της h t είναι η ακόλουθη: αν λ γνησίως αύξουσα Weibull h t σταθερή αν λ. γνησίως φθίνουσα αν λ Χρησιμοποιώντας τη γλώσσα προγραμματισμού R, μπορούμε να κατασκευάσουμε στο ίδιο σύστημα αξόνων, συναρτήσεις κινδύνου της κατανομής Weibull, για διάφορες τιμές της παραμέτρου σχήματος λ. 7

Σχ. : Συνάρτηση κινδύνου της κατανομής Weibull, για παράμετρο κλίμακας α = και για διάφορες τιμές της παραμέτρου σχήματος λ Παρατηρούμε ότι η κατανομή Weibull για παράμετρο σχήματος λ και παράμετρο κλίμακας, α, ταυτίζεται με την Εκθετική κατανομή α Ɛ α ή ισοδύναμα, η Εκθετική κατανομή είναι ειδική περίπτωση της κατανομής Weibull. Η μέση τιμή και η διασπορά της κατανομής Weibull, υπολογίζονται από τη γενική ροπή t m f t dt E Tm m τάξης περί την λ t t m λα λ t λ e α dt λα λ αρχή (βλ. [3]): λ t t m λ e α dt. Εφαρμόζουμε στον υπολογισμό του ολοκληρώματος την αντικατάσταση t u α λ οπότε λα α ET m λ m λ και t αu λ dt α λ u du λ m λ m u α λ m λ u e u du α u λ e u du. λ 8 άρα

Χρησιμοποιώντας στην παραπάνω σχέση τον ορισμό της συνάρτησης Γάμμα: Γ z uz e udu, παίρνουμε τελικά τη ροπή m τάξης περί την αρχη: m E T m α m Γ (.6) λ Η σχέση (.6) για m δίνει τη μέση τιμή της κατανομής Weibull: E T αγ (.7) λ Επίσης, από τη γνωστή ισότητα V T E T E T και τη σχέση (.6), παίρνουμε τη διασπορά της κατανομής Weibull: V T α Γ Γ (.8) λ λ.3.3. Η κατανομή Gompertz: Χαρακτηρίζεται από την ιδιότητα ότι ο λογάριθμος της συνάρτησης κινδύνου είναι γραμμική συνάρτηση του χρόνου, οπότε h t e a bt, όπου a, b σταθερές (.9) και είναι άμεσο ότι η μονοτονία της συνάρτησης κινδύνου είναι γνησίως αύξουσα αν b Gompertz h t σταθερή αν b. γνησίως φθίνουσα αν b.3.4. Η κατανομή Γάμμα (Gamma distribution): Θα λέμε ότι η τυχαία μεταβλητή T ακολουθεί την κατανομή Γάμμα με παράμετρο κλίμακας λ και παράμετρο σχήματος κ και θα συμβολίζουμε T ~ G λ, κ, όταν έχει συνάρτηση πυκνότητας πιθανότητας λκ κ λt f T t f t t e, με t (.). Γ κ Η συνάρτηση αξιοπιστίας δεν έχει κλειστή μορφή. Πράγματι, είναι S t t f t dt λκ κ λt t e dt και με την αντικατάσταση u λt είναι Γ κ t 9

S t λκ κ κ u u κ e u du λ u e du u κ e udu. Αν Γ κ, x Γ κ λt Γ κ λt x είναι η άνω ατελής συνάρτηση Γάμμα (upper incomplete gamma function), τότε η συνάρτηση επιβίωσης παίρνει την τελική (όχι κλειστή) μορφή: S t Γ κ, λt (.) Γ κ Η συνάρτηση κινδύνου της κατανομής Γάμμα είναι h t h t f t, άρα S t λκ t κ e λt (.) Γ κ, λt και έχει την ακόλουθη μονοτονία (βλ. [6]): γνησίως αύξουσα αν κ Gamma h t σταθερή αν κ γνησίως φθίνουσα αν κ Με τη βοήθεια της γλώσσας R, μπορούμε και εδώ να κατασκευάσουμε διαγράμματα της συνάρτησης κινδύνου για διάφορες τιμές των παραμέτρων σχήματος κ και κλίμακας λ. Σχ. 3: Συνάρτηση κινδύνου της κατανομής Γάμμα, για διάφορες τιμές των παραμέτρων σχήματος κ και κλίμακας λ

όσο από το παραπάνω σχήμα, όσο και από τις συναρτήσεις πυκνότητας πιθανότητας, επιβίωσης και κινδύνου, είναι προφανές ότι για παράμετρο σχήματος κ, η κατανομή Γάμμα ταυτίζεται με την Εκθετική κατανομή Ɛ λ. Η ροπή m τάξης περί την αρχή για την κατανομή Γάμμα, είναι t m f t dt Γλ κ t m κ e λt dt λγ κ λt m κ e λt dt u λt m κ E Tm Γ m κ λ m m κ u και από εδώ υπολογίζονται η u e du άρα E T m m Γ κ λ Γ κ μέση τιμή της κατανομής Γάμμα: E T E T και η διασπορά: V T E T E T Γ κ κγ κ, άρα λγ κ λγ κ κ (.3) λ Γ κ κ κ κ Γ κ κ, άρα λ Γ κ λ λ Γ κ λ κ V T (.4) λ.3.5. Η Λογαριθμοκανονική κατανομή (LogNormal distribution): Η τυχαία μεταβλητή T ακολουθεί τη Λογαριθμοκανονική κατανομή με παραμέτρους μ και σ, όταν η τυχαία μεταβλητή Y ln T ακολουθεί την μπορούν να Κανονική κατανομή N μ, σ. Οι συναρτήσεις κατανομής και πυκνότητας πιθανότητας, μετασχηματισμού, αφού υπολογισθούν μέσω του παραπάνω Y μ ln t μ FT t P T t P Y ln t P σ σ s z ln t μ e ds είναι η συνάρτηση κατανομής ΦZ όπου Φ Z z σ π τυχαίας μεταβλητής Z ~ N,. Παραγωγίζοντας, παίρνουμε τη συνάρτηση

ln t μ πυκνότητας της Λογαριθμοκανονικής κατανομής: f T t f Z σ σt και τελικά: f T t f (t ) e σt π ln t μ σ, με t (.5) Η συνάρτηση επιβίωσης είναι τώρα: S t e σ π t u ln u μ σ du (.6) και εδώ είναι το μειονέκτημα της κατανομής, αφού η συνάρτηση αυτή εκφράζεται υπό μορφή ολοκληρώματος. Εδώ, η παράμετρος σχήματος είναι σ και η παράμετρος κλίμακας είναι e μ. Η συνάρτηση κινδύνου είναι αρχικά αύξουσα, φθάνει σε κάποιο μέγιστο και στη συνέχεια γίνεται φθίνουσα (βλ. [6]). Με τη βοήθεια και πάλι της R, σχεδιάσαμε ενδεικτικά τρεις συναρτήσεις κινδύνου: Σχ. 4: Συνάρτηση κινδύνου της Λογαριθμοκανονικής κατανομής, για διάφορες τιμές των παραμέτρων μ και σ

Για τον υπολογισμό της μέσης τιμής έχουμε ότι επειδή η τυχαία e y σ π e μεταβλητή Y ln T ~ N μ, σ, άρα E T E ey εφαρμόζοντας την e x μ σ π e E T E ey eμ σ μ σ e e π x σ x σ e σ π dx y μ σ dy και αντικατάσταση x σ dx e μ μ σ e e x σ σ dx μ σ e e σ π σ e π, αφού x x y μ: x σ dx x σ x σ 4 σ e σ π dx x σ σ dx ως ολοκλήρωμα της συνάρτησης πυκνότητας πιθανότητας της Κανονικής κατανομής N μ σ, σ. Επομένως δείξαμε ότι στη Λογαριθμοκανονική κατανομή, η μέση τιμή είναι E T e μ σ (.7) Ομοίως μπορεί να αποδειχθεί (βλ. [9]) ότι E T e μ σ, απ όπου προκύπτει η διασπορά της Λογαριθμοκανονικής κατανομής V T e μ σ e σ (.8).3.6. Η Γενικευμένη Γάμμα κατανομή (Generalized Gamma distribution): Έχει παράμετρο κλίμακας λ, δύο παραμέτρους σχήματος p, κ και συνάρτηση πυκνότητας πιθανότητας f T t f t p λp λt pκ e λt (.9) Γ κ Οι κατανομές Weibull, Εκθετική, Γάμμα και Λογαριθμοκανονική που συναντήσαμε, αποτελούν ειδικές περιπτώσεις της Γενικευμένης Γάμμα κατανομής και ειδικότερα: η κατανομή Weibull προκύπτει από τη Γενικευμένη Γάμμα για κ η Εκθετική κατανομή προκύπτει από τη Γενικευμένη Γάμμα για κ p 3

η κατανομή Γάμμα προκύπτει από τη Γενικευμένη Γάμμα για p και η Λογαριθμοκανονική κατανομή προκύπτει από τη Γενικευμένη Γάμμα όταν κ. Η συνάρτηση επιβίωσης είναι S t Γ κ, λt p (.3) Γ κ λtu κ e udu (.3) είναι και εδώ η άνω ατελής συνάρτηση όπου Γ κ, λt p p Γάμμα (upper incomplete Gamma function). Tέλος, αποδεικνύεται ότι η μέση τιμή και η διασπορά είναι Γ κ p E T (.3) και λγ κ Γ κ p V T λ Γ κ Γ κ p (.33) Γ κ.3.7. Η Λογαριθμολογιστική κατανομή (Loglogistic distribution): Με παράμετρο κλίμακας λ και παράμετρο σχήματος p (βλ. []), έχει συνάρτηση πυκνότητας πιθανότητας f T t f t λp λt p λt p (.34) Η συνάρτηση επιβίωσης είναι S t f u du άρα p t λu u t S t λt p (.35) και επομένως, η συνάρτηση κινδύνου είναι: h t λp λt p λt p (.36) Με τη βοήθεια της R σχεδιάσαμε τρεις συναρτήσεις κινδύνου: 4

Σχ. 5: Συνάρτηση κινδύνου της Λογαριθμολογιστικής κατανομής, για παράμετρο κλίμακας λ και για διάφορες τιμές της παραμέτρου σχήματος p Αποδεικνύεται εύκολα ότι (βλ. [6] και το παραπάνω σχ. 5) η συνάρτηση κινδύνου της Λογαριθμολογιστικής κατανομής: είναι γνησίως φθίνουσα με lim h t, όταν p είναι γνησίως φθίνουσα με lim h t λ, όταν p παρεμφερής με αυτήν της Λογαριθμοκανονικής κατανομής, όταν p t t (βλ. σελ. ).3.8. Η αντίστροφη Γκαουσιανή κατανομή (Inverse Gaussian distribution): Έχει συνάρτηση πυκνότητας πιθανότητας f T t f t λ e πt 3 λ t μ μ t 5, t, μ, λ (.37)

Για εκτενή αναφορά στη μοντελοποίηση μέσω της Inverse Gaussian κατανομής παραπέμπουμε στο []. Εδώ, περιοριζόμαστε στο να αναφέρουμε λ λ t e μ Φ τη συνάρτηση επιβίωσης: S t Φ μ t λ τη συνάρτηση κινδύνου: h t e πt 3 λ t e Φ μ t λ μ λ t (.38), t μ λ t μ μ t Φ και τη μέση τιμή: E T μ (.4) και τη διασπορά: V T λ t t μ (.39) μ3 (.4) λ Η συνάρτηση κινδύνου της Inverse Gaussian κατανομής προσομοιάζει με αυτήν της Λογαριθμοκανονικής κατανομής: Σχ. 5: Συνάρτηση κινδύνου της Inverse Gaussian κατανομής, για παραμέτρο και για διάφορες τιμές της παραμέτρου λ 6 μ

.4. ΜΗ ΠΑΡΑΜΕΡΙΚΑ ΜΟΝΕΛΑ ΔΙΑΡΚΕΙΑΣ ΖΩΗΣ Σε αντίθεση με τα παραμετρικά μοντέλα διάρκειας ζωής, στη μηπαραμετρική περίπτωση υποθέτουμε ότι ο χρόνος ζωής T δεν ακολουθεί γνωστή κατανομή. Εδώ, από τα δεδομένα του δείγματος προσπαθούμε να εκτιμήσουμε τη συνάρτηση επιβίωσης ή/και τη συνάρτηση κινδύνου, να πραγματοποιήσουμε ελέγχους υποθέσεων και να βρούμε διαστήματα εμπιστοσύνης για τις παραμέτρους..4.. Η εκτιμήτρια KaplanMeier για τη μη παραμετρική εκτίμηση της συνάρτησης επιβίωσης: Πήρε το όνομά της από τους Edward Kaplan και Paul Meier που την παρουσίασαν το 958 (βλ. [3]) και χρησιμοποιείται πολύ συχνά για την εκτίμηση της συνάρτησης επιβίωσης από δεδομένα διάρκειας ζωής που είναι δεξιά λογοκριμένα (right censored data). Υποθέτουμε ότι έχουμε ένα τυχαίο δείγμα μονάδων, μεγέθους n, κάποιες εκ των οποίων διακόπτουν τη λειτουργία τους στις διακεκριμένες χρονικές στιγμές (χρόνοι διακοπής ή αποτυχίας) t t t k, όπου k n. Υποθέτουμε επίσης ότι κατά τη χρονική στιγμή t j, j,,, k σταματούν να λειτουργούν d j το πλήθος μονάδες, ενώ αμέσως πριν τη χρονική στιγμή t j λειτουργούσαν (και άρα βρίσκονταν σε κίνδυνο) r j το πλήθος μονάδες. Η εκτιμήτρια KaplanMeier της συνάρτησης επιβίωσης ορίζεται (βλ. [4], [5]) ως Sˆ t Sˆ t Pˆ T t /T t. Στην ουσία, αυτή είναι μία εκτιμήτρια που προκύπτει από τον ορισμό της συνάρτησης επιβίωσης και την εφαρμογή του πολλαπλασιαστικού νόμου των πιθανοτήτων P A B P A P B / A (βλ. [3]). Συγκεκριμένα, επειδή j P T t j P T t k k, έχουμε ότι S t j P T t j P T t P T t /T t P T t j /T t j. 7 :

Μία εκτιμήτρια της πιθανότητας P T t είναι τώρα η d r d r d οπότε P T t / T t j. Pˆ T t Pˆ T t r r r Αντικαθιστώντας στον παραπάνω πολλαπλασιαστικό τύπο, η εκτιμήτρια KaplanMeier τελικά είναι: Sˆ t rj d j (.4) για t t rj j: t t j ενώ προφανώς είναι Sˆ t για t t. Η διασπορά της εκτιμήτριας KaplanMeier είναι ίση με rj d j rj d j V Sˆ t V V p, όπου, j,,, k. p j j rj rj j: t t j j: t t j Μας συμφέρει όμως να χρησιμοποιήσουμε τη διασπορά αθροίσματος ανεξάρτητων τυχαίων μεταβλητών, η οποία ισούται με το άθροισμα των διασπορών τους. Έτσι, υποθέτοντας ότι οι μονάδες διακόπτουν τη λειτουργία τους ανεξάρτητα, παίρνουμε τη διασπορά του λογαρίθμου της εκτιμήτριας ˆ p j. Στη συνέχεια, με τη βοήθεια μίας Kaplan Meier: V ln S t V j : t t j τεχνικής που ονομάζεται μέθοδος Δέλτα, με την οποία η διασπορά μίας εκτιμήτριας υπολογίζεται από την προσέγγιση μέσω αναπτύγματος Taylor γύρω από τη μέση τιμή, μπορεί να υπολογισθεί ο τελικός τύπος της διασποράς της εκτιμήτριας KaplanMeier: V Sˆ t Sˆ t j: t t j dj r j (r j d j ) (.43) (τύπος του Greenwood) (για λεπτομέρειες σχετικά με τον υπολογισμό της διασποράς μέσω της μεθόδου δέλτα και τον τύπο Greenwood, παραπέμπουμε στα [5]) και [6]). ΠΑΡΑΔΕΙΓΜΑ : Με τη βοήθεια της R, δημιουργήσαμε δείγμα από τις ακόλουθες παρατηρήσεις: 8

,47759,84*,37879* 4,844*,937,346 3,99943,5*,47334,97 3,39698,36* 9,33835* 9,783*,477899*,846* 9,73859*,7648*,773 4,7669 όπου με (*) σημειώνονται οι λογοκριμένες παρατηρήσεις. Για να κατασκευάσουμε την εκτιμήτρια KaplanMeier της συνάρτησης επιβίωσης, ταξινομούμε τους χρόνους αποτυχίας σε αύξουσα σειρά και καταρτίζουμε πίνακα υπολογισμών. Time.97.937.846.36.47759.5.346.773.37879.47334.477899.84.7648 3.39698 3.99943 4.7669 4.844 9.783 9.338354 9.73859 Censor id rj 9 8 7 6 5 4 3 9 8 7 6 5 4 3 Dj (rjdj)/rj.95.947368.9375.9857.9377.999.85743.833333.8 S_hat.95.9.9.9.84375.84375.78348.734.734.657468.657468.657468.657468.563544.4696.375696.375696.375696.375696.375696 Επομένως η εκτιμήτρια KaplanMeier για τη συνάρτηση επιβίωσης του παραδείγματος, είναι:.95.9.84375.78348 Sˆ t.734.657468.563544.4696.375696 αν t.93 αν.97 t.937 αν.937 t.47759 αν.47759 t.346 αν.346 t.773 αν.773 t.47334 αν.47334 t 3.39698 αν 3.39698 t 3.99943 αν 3.99943 t 4.7669 αν t 4.7669 9

Ένα διάγραμμα της παραπάνω κλιμακωτής (stepfunction) και φθίνουσας εκτιμηθείσας συνάρτησης επιβίωσης μπορούμε να κατασκευάσουμε με τη βοήθεια του στατιστικού προγράμματος Minitab: Survival Plot for t KaplanMeier Method Censoring Column in censor Table of Statistics Mean 4,877 Median 3,9994 IQR * 9 8 Percent 7 6 5 4 3 3 t 4 5 6 Σχ. 6: Διάγραμμα της εκτιμηθείσας μέσω KaplanMeier συνάρτησης επιβίωσης του προηγούμενου παραδείγματος.4.. Μη παραμετρική εκτίμηση της σωρευτικής συνάρτησης κινδύνου Η εκτιμήτρια NelsonAalen: Με βάση τη γνωστή σχέση H t ln S t που συνδέει τη σωρευτική συνάρτηση κινδύνου με τη συνάρτηση επιβίωσης και χρησιμοποιώντας ως S t την KaplanMeier εκτίμησή της, μπορούμε να έχουμε μία εκτίμηση για την H t. Έτσι, θα είναι Hˆ t ln Sˆ t ln j: t t j rj d j rj dj ln (.44). r j j: t t j Από τη Μαθηματική Ανάλυση, γνωρίζουμε ότι ln x x για κάθε x και το ίσον ισχύει για x. Θέτοντας όπου x το x, παίρνουμε ln x x με την ισότητα τώρα να ισχύει για x. Δηλ. μπορούμε να γράψουμε

ln x x για πολύ μικρά x. Έτσι, υποθέτοντας ότι dj rj πολύ μικρό (πράγμα που είναι λογικό να συμβαίνει στους πρώτους χρόνους αποτυχίας), η σχέση (.4) μπορεί να γραφεί Hˆ t j: t t j dj rj (.45) Η (.45) είναι η εκτιμήτρια NelsonAalen της σωρευτικής συνάρτησης κινδύνου, είναι επίσης κλιμακωτή συνάρτηση και αποδεικνύεται ότι έχει διασπορά: V Hˆ j: t t j dj r j (.46) Η εκτιμήτρια NelsonAalen, που εισήχθη αρχικά από τον Nelson το 97 και ξαναπροτάθηκε από τον Odd Aalen το 978, χρησιμοποιείται ευρέως στη Βιοστατιστική ως μη παραμετρική εκτιμήτρια της σωρευτικής συνάρτησης κινδύνου με βάση δεξιά λογοκριμένα (right censored) δεδομένα (βλ. [7]). ΠΑΡΑΔΕΙΓΜΑ : Συνεχίζοντας το προηγούμενο παράδειγμα, μπορούμε στον πίνακα υπολογισμών να συμπληρώσουμε μία στήλη, με τις τιμές της εκτιμήτριας NelsonAalen: Time.97.937.846.36.47759.5.346.773.37879.47334.477899.84.7648 3.39698 3.99943 4.7669 4.844 Censor id rj 9 8 7 6 5 4 3 9 8 7 6 5 4 dj (rjdj)/rj.95.947368.9375.9857.9377.999.85743.833333.8 S_hat.95.9.9.9.84375.84375.78348.734.734.657468.657468.657468.657468.563544.4696.375696.375696 H_hat.5.563.563.563.65.65.749.7693.7693.999.999.999.999.4857.66667..

9.783 9.338354 9.73859 3.375696.375696.375696... και χρησιμοποιώντας το πρόγραμμα Minitab έχουμε το διάγραμμά της: Hazard Plot for t Censoring Column in censor NelsonAalen estimated hazard function, Table of Statistics Mean 4,877 Median 3,9994 IQR * Rate,5,,5, 3 t 4 5 6 Σχ. 7: Διάγραμμα της εκτιμηθείσας μέσω NelsonAalen συνάρτησης κινδύνου του προηγούμενου παραδείγματος

ΚΕΦΑΛΑΙΟ Ο ΜΟΝΕΛΟ ΑΝΑΛΟΓΙΚΩΝ ΚΙΝΔΥΝΩΝ ΟΥ COX.. ΜΟΝΕΛΑ ΠΑΛΙΝΔΡΟΜΗΣΗΣ ΣΗΝ ΑΝΑΛΥΣΗ ΕΠΙΒΙΩΣΗΣ... Μοντέλο Γραμμικής Παλινδρόμησης: Ένα σύνηθες θέμα προς αντιμετώπιση στη Στατιστική είναι το κατά πόσο διάφορες μεταβλητές επηρεάζουν μεταβλητές που μελετούμε. Έτσι, στην Ανάλυση Επιβίωσης, μας ενδιαφέρει το αν κάποιες μεταβλητές επηρεάζουν τη διάρκεια ζωής (π.χ. αν με τον όρο διάρκεια ζωής εννοούμε τη διάρκεια της ζωής του ανθρώπου, τότε μπορεί να ενδιαφερόμαστε για μεταβλητές όπως η ηλικία, οι τιμές λιπιδίων στο αίμα, το κάπνισμα κ.λ.π.). Ο κλάδος της Στατιστικής που μελετά γενικά την εξάρτηση μεταξύ μεταβλητών, είναι η Ανάλυση Παλινδρόμησης (Regression Analysis). Στην Ανάλυση Παλινδρόμησης, καθορίζουμε δύο είδη μεταβλητών: τις ανεξάρτητες ή επεξηγηματικές μεταβλητές (predictor variables) ή συμμεταβλητές (covariates) και τις εξαρτημένες μεταβλητές ή μεταβλητές απόκρισης (response variables). Η ανάλυσή μας, συνίσταται στο να εξετάσουμε αν αλλαγές στις επεξηγηματικές μεταβλητές επηρεάζουν τις τιμές των μεταβλητών απόκρισης. Κυρίαρχη θέση στην Ανάλυση Παλινδρόμησης έχει η Γραμμική Παλινδρόμηση (Linear Regression), στην οποία η σχέση των μεταβλητών είναι της μορφής: (Μεταβλητή απόκρισης) = (Γραμμική συνάρτηση των επεξηγηματικών μεταβλητών) + (τυχαίο σφάλμα) (βλ. [8]). Έτσι, αν συμβολίσουμε με y τη μεταβλητή απόκρισης και με z, z,, z k τις επεξηγηματικές μεταβλητές, τότε θα ισχύει: y β β z β z β k z k ε (.) 3

όπου β, β,, β k παράμετροι (συντελεστές) προς προσδιορισμό και ε το τυχαίο σφάλμα, το οποίο υποθέτουμε ότι ακολουθεί Κανονική κατανομή N, σ. Σημειώνουμε εδώ ότι το μοντέλο παλινδρόμησης ονομάζεται γραμμικό, επειδή είναι γραμμικό ως προς τις παραμέτρους β i, i,,, k (και όχι ως προς τις συμμεταβλητές zi, i,,, k ). Η εξίσωση (.) μπορεί τώρα να γραφεί υπό μορφή εξίσωσης πινάκων, ως εξής: αν έχουμε ένα δείγμα μεγέθους n από παρατηρήσεις και για κάθε παρατήρηση i,,, n ονομάσουμε z i, z i, z i,, z ik το διάνυσμα των συμμεταβλητών, β β, β, β,, β k το διάνυσμα των συντελεστών, y i την τιμή της μεταβλητής απόκρισης και ε i την τιμή του τυχαίου σφάλματος, τότε για κάθε i,,, n, y i β β zi β zi β k zik ε i, z Περαιτέρω, αν z z z k z z z k ή η εξίσωση ισοδύναμα (.) γράφεται yi βtzi εi. z n z n είναι ο k n πίνακας του οποίου z nk στήλες είναι οι τιμές των συμμεταβλητών για κάθε παρατήρηση i,,, n, y y, y,, y n είναι το διάνυσμα των τιμών της μεταβλητής απόκρισης και ε ε, ε,, ε n είναι το διάνυσμα των σφαλμάτων, τότε το μοντέλο παλινδρόμησης που περιγράψαμε με την εξίσωση (.), παίρνει τη μορφή εξίσωσης πινάκων: y β z ε (.) Θεωρώντας τα τυχαία σφάλματα ε i ως ανεξάρτητες τυχαίες μεταβλητές που ακολουθούν την Κανονική κατανομή N, σ, προκύπτει ότι η διανυσματική τυχαία μεταβλητή ε ακολουθεί την n μεταβλητή Κανονική κατανομή με μέση τιμή το μηδενικό διάνυσμα και πίνακα διακύμανσης συνδιακύμανσης τον σ I n, δηλ. ε ~ N n, σ I n και άρα η τυχαία μεταβλητή y ακολουθεί επίσης την πολυμεταβλητή Κανονική κατανομή με μέση τιμή 4

μ βz και πίνακα διακύμανσηςσυνδιακύμανσης τον σ In, δηλ. y ~ N n β z, σ I n (για λεπτομέρειες ανατρέξτε στο [9], σελ. 576).... Γενικευμένα Γραμμικά Μοντέλα Παλινδρόμησης: ο μοντέλο Γραμμικής Παλινδρόμησης που περιγράψαμε πριν, οφείλει από την κατασκευή του να έχει τα ακόλουθα χαρακτηριστικά (βλ. []): α τυχαία σφάλματα ε i, i,,, n, είναι ανεξάρτητες τυχαίες μεταβλητές και ακολουθούν Κανονική κατανομή με μέση τιμή και σταθερή διασπορά σ, απ όπου προκύπτει ότι οι τιμές y i της μεταβλητής απόκρισης ακολουθούν Κανονικές κατανομές με μέση τιμή E y i μ i και σταθερή iid διασπορά σ, δηλ. y i ~ N μ i, σ (κανονικότητα του στοχαστικού μέρους). Οι συμμεταβλητές συντελεστές β, β,, β k z, z,, z k συνδυάζονται γραμμικά με τους προκειμένου να δημιουργηθεί η γραμμική προβλέπουσα (linear predictor) ηi β z i, i,,, n. Ο στοχαστικός παράγοντας E y i μ i και η γραμμική προβλέπουσα ηi β z i συνδέονται μέσω μίας συνάρτησης g, που ονομάζεται συνάρτηση σύνδεσης (link function), ώστε g μ i ηi, i,,, n. Στην περίπτωση της Γραμμικής Παλινδρόμησης είναι προφανές ότι η συνάρτηση g είναι η ταυτοτική, δηλ. g μ i μ i β z i, i,,, n. Επέκταση των παραπάνω, αποτελούν τα Γενικευμένα Γραμμικά Μοντέλα (Generalized Linear Models GLM), στα οποία αφενός το στοχαστικό μέρος μπορεί να ακολουθεί και άλλες κατανομές πέραν της Κανονικής, αφετέρου η συνάρτηση σύνδεσης μπορεί να μην είναι η ταυτοτική. Έτσι, τα Γενικευμένα Γραμμικά Μοντέλα ικανοποιούν τα ακόλουθα: Η μεταβλητή απόκρισης y ακολουθεί κατανομή που ανήκει στην Εκθετική Οικογένεια Κατανομών (Exponential Family) και ως εκ τούτου έχει συνάρτηση πυκνότητας πιθανότητας (για συνεχείς τυχαίες μεταβλητές) ή συνάρτηση μάζας πιθανότητας (για διακριτές τυχαίες μεταβλητές) της μορφής 5

yθ b θ f y ; θ, φ exp c y, φ με τις συναρτήσεις a φ, b θ και c y, φ a φ να είναι γνωστές και το στήριγμα S y / f y να είναι ανεξάρτητο των παραμέτρων θ και φ. Η συνάρτηση σύνδεσης g είναι αντιστρέψιμη (), άρα η σχέση g μ i ηi β z i του ορισμού, μπορεί να λυθεί αντίστροφα ως μ i g β z i δίνοντας τη μέση τιμή της μεταβλητής απόκρισης Συνήθεις επιλογές για τη συνάρτηση σύνδεσης είναι οι: g μ i μ i (ταυτοτική συνάρτηση) όταν οι y i ακολουθούν την Κανονική κατανομή g μ i ln μ i όταν οι y i ακολουθούν την κατανομή Poisson g μ i ln μi όταν οι y i ακολουθούν την κατανομή Bernoulli. μi Για περισσότερες πληροφορίες πάνω στα Γενικευμένα Γραμμικά Μοντέλα, παραπέμπουμε στα [9] (σελ. 33547) και []. Στο σημείο αυτό αναφέρουμε ότι στην παρούσα εργασία εξετάζουμε μοντέλα διάρκειας ζωής στα οποία οι συμμεταβλητές δεν είναι εξαρτώμενες από τον χρόνο...3. ο Μοντέλο Επιταχυνόμενης Διακοπής (Accelerated Failure Time model AFT) για δεδομένα διάρκειας ζωής: Με βάση δεδομένα διάρκειας ζωής, θέλουμε να δημιουργήσουμε ένα μοντέλο παλινδρόμησης με μεταβλητή απόκρισης y τη μεταβλητή T του χρόνου. Έστω λοιπόν ένα δείγμα δεδομένων διάρκειας ζωής μεγέθους n. Θεωρώντας για κάθε z i z i, z i,, z ik i,,, n ως διάνυσμα συμμεταβλητών το και προσαρμόζοντας ένα μοντέλο Γραμμικής Παλινδρόμησης στα δεδομένα, η μεταβλητή απόκρισης T θα ικανοποιεί τις εξισώσεις Ti β z i β z i β k z ik ε i, 6 i,,, n. Έτσι όμως,

οδηγούμαστε σε εσφαλμένο μοντέλο, αφού το δεύτερο μέλος της παραπάνω σχέσης παίρνει τιμές σε όλο το, ενώ η μεταβλητή T παίρνει μη αρνητικές τιμές []. ο πρόβλημα λύνεται, αν προσαρμόσουμε στα δεδομένα μας ένα Γραμμικό Μοντέλο με μεταβλητή απόκρισης το λογάριθμο ln Ti :. Έτσι, θα έχουμε το μοντέλο (βλ. []) ln Ti β zi β zi β k zik ε i, i,,, n (.3) ή ln Ti β z i ε i, i,,, n (.4) όπου β β,, β k το διάνυσμα των παραμέτρων. ο μοντέλο που περιγράφεται από την εξίσωση (.3) ή ισοδύναμα την (.4) είναι το Μοντέλο Επιταχυνόμενης Διακοπής (Accelerated Failure Time Model). Ονομάζεται έτσι γιατί αύξηση κατά μονάδα μίας συμμεταβλητής z ij, i,,, n, j,,, k οδηγεί σε αύξηση (αν β j ) ή μείωση (αν β j ) του λογαρίθμου ln Ti, άρα σε e βj φορές επιτάχυνση (αν β j ) ή επιβράδυνση (αν β j ) του χρόνου ζωής Ti της μονάδας i...4. ο μοντέλο αναλογικών κινδύνων (Proportional Hazards Model PH) για δεδομένα διάρκειας ζωής: Θεωρούμε όπως και πριν δείγμα μεγέθους n και z i z i, z i,, z ik για των κάθε μονάδα συμμεταβλητών. i,,, n ο μοντέλο το διάνυσμα αναλογικών κινδύνων (Proportional Hazards Model) ορίζεται (βλ. [3] σελ. 94) από την εξίσωση h t z i h t φ z i, i,,, n (.5) όπου h t z i είναι η συνάρτηση κινδύνου μίας μονάδας, h t είναι η λεγόμενη βασική συνάρτηση κινδύνου (baseline hazard) και φ μία θετική συνάρτηση. 7

ο μοντέλο ονομάζεται έτσι, γιατί για δύο διανύσματα z i και z j συμμεταβλητών, ισχύει h t z i h t z j, αφού ο λόγος των τιμών της συνάρτησης κινδύνου είναι h t z i φ z i (.6) (ανεξάρτητος του χρόνου). h t z j φ zj Στο μοντέλο αναλογικών κινδύνων, η βασική συνάρτηση κινδύνου (baseline hazard) h t εκφράζει τη συνάρτηση κινδύνου μίας μονάδας όταν όλοι οι συντελεστές των συμμεταβλητών που συμμετέχουν στο μοντέλο είναι ίσοι με (δηλ. το μοντέλο δεν εξαρτάται από τις συμμεταβλητές) (βλ. [3] σελ. 4)... Ο ΜΟΝΕΛΟ ΑΝΑΛΟΓΙΚΩΝ ΚΙΝΔΥΝΩΝ ΟΥ COX... Γενικά περί του μοντέλου αναλογικών κινδύνων του Cox: Πρόκειται για το σπουδαιότερο μοντέλο αναλογικών κινδύνων. Παρουσιάστηκε (βλ. [4]) το 97 από τον Sir David Cox στην εργασία του Regression Models and Life Tables (Journal of the Royal Statistical Society, Series B (Methodological), Vol. 34, No. (97), pp. 87). ο μοντέλο αναλογικών κινδύνων του Cox ορίζεται από την εξίσωση h t z i h t e β z i, i,,, n (.7) δηλ. αποτελεί ειδική περίπτωση του μοντέλου αναλογικών κινδύνων που δόθηκε στην εξίσωση (.5) για φ z i e β z i. Ειδικότερα, ο λόγος των τιμών της συνάρτησης κινδύνου που εκφράσθηκε με την εξίσωση (.6) είναι εδώ ίσος με h t z i β z i z j e (.8) h t z j Παρατηρούμε επίσης ότι αν λογαριθμίσουμε την (.7), έχουμε ln h t z i β z i ln h t (.9) 8

και η εξίσωση (.9) περιγράφει ένα Γενικευμένο Γραμμικό Μοντέλο Παλινδρόμησης όπως αναπτύχθηκε στην παράγραφο (..), με μ i h t z i και συνάρτηση σύνδεσης g μ i ln μ i ln h t z i. Η σωρευτική συνάρτηση κινδύνου για το μοντέλο του Cox είναι H t z i t h u z i du t t h u e β z i du e β z i h u du και άρα H t z i e β z i H t, i,,, n (.) όπου t H t h u du (.) είναι η βασική σωρευτική συνάρτηση κινδύνου. Η συνάρτηση επιβίωσης είναι S t z i e H t z i άρα S t z i e e και ισοδύναμα γράφεται S t z i e β z i H t (.) β z i H t e S t z i S t e β z i άρα: (.3) όπου S t e H t z i (.4) η βασική συνάρτηση επιβίωσης. Βασικό χαρακτηριστικό στο μοντέλο του Cox είναι ότι η βασική συνάρτηση κινδύνου h t (άρα και η βασική συνάρτηση επιβίωσης S t ) δεν (είναι απαραίτητο να) προσδιορίζεται, αλλά θεωρείται ως άγνωστη παράμετρος απείρου διαστάσεως, που πρέπει και αυτή να εκτιμηθεί. Έτσι, το μοντέλο του Cox θεωρείται ημιπαραμετρικό (semiparametric), με την έννοια του ότι εκτιμώνται οι παράμετροι β β,, β k (συντελεστές των συμμεταβλητών) με παραμετρικές μεθόδους και η άγνωστη συνάρτηση κινδύνου h t με μη παραμετρικές μεθόδους.... Εκτίμηση των παραμέτρων στο μοντέλο αναλογικών κινδύνων του Cox, με τη μέθοδο της μερικής πιθανοφάνειας (partial likelihood): Στην εργασία του 97 ([4]), ο Sir David Cox προσάρμοσε το μοντέλο του, 9

μεγιστοποιώντας την μερική πιθανοφάνεια (partial likelihood) ως εξής (βλ. [4] και [6]): Έστω δείγμα μονάδων,,, n και έστω t t t m οι διατεταγμένοι διακεκριμένοι χρόνοι αποτυχίας (χρόνοι θανάτου), όπου m n. Έστω επίσης j το σύνολο των μονάδων που βρίσκονται σε κίνδυνο αμέσως πριν τη χρονική στιγμή j,,, m t j, (προφανώς,,, n ) και έστω ότι σε κάθε χρονική στιγμή t j, j,,, m έχουμε μόνο μία αποτυχία (θάνατο), δηλ. ότι d j κατά τον συμβολισμό της παραγράφου (.4.). Η πιθανότητα μία συγκεκριμένη μονάδα του συνόλου j με διάνυσμα συμμεταβλητών z j να διακόψει τη λειτουργία της τη χρονική στιγμή t j με δεδομένο το σύνολο j των υποψήφιων προς διακοπή μονάδων, είναι ίση με h t j z j dt h t j z i dt i j βz h t j eβ z h t j e j e i i j βz j eβ z i, δηλ. η πιθανότητα αυτή i j δεν εξαρτάται από τη βασική συνάρτηση κινδύνου h t. Στη συνέχεια, ο Cox πολλαπλασίασε τις πιθανότητες για όλους τους χρόνους αποτυχίας και θεώρησε το γινόμενο L L β m j e βz j eβ z i (.5) i j ως μία συνηθισμένη πιθανοφάνεια, την οποία ονόμασε υπό συνθήκη πιθανοφάνεια (conditional likelihood) (βλ. [4] σελ. 99) επειδή είναι γινόμενο υπό συνθήκη πιθανοτήτων, ενώ το 975 τη μετονόμασε σε μερική πιθανοφάνεια (partial likelihood) (για την ιστορία βλ. [7] σελ. 9). Οι εκτιμήσεις των παραμέτρων β β, β,, β k έγιναν από τον Cox, με μεγιστοποίηση του λογαρίθμου της μερικής πιθανοφάνειας. Έτσι, ο λογάριθμος της μερικής πιθανοφάνειας είναι: 3

βzi ln L β β zj ln e (.6). j j i j m m Επειδή β z j β β z j β z j β k z jk άρα για κάθε j,,, m και βz j ξ,,, k θα είναι β ξ z jξ, οπότε παραγωγίζοντας τη μερική πιθανοφάνεια ως προς τον συντελεστή β ξ, ξ,,, k, έχουμε z iξ e β z i m m i j z jξ β ξ eβ z i j j i j. Θέτοντας A jξ β ziξ eβ z i i j eβ z i (.7) i j η προηγούμενη μερική παράγωγος γίνεται β ξ m z jξ A jξ β για ξ,,, k (.8) j Εξισώνοντας τις (.7) με για ξ,,, k και λύνοντας το σύστημα αυτό (με αριθμητικές μεθόδους), παίρνουμε τους εκτιμητές β των συντελεστών, ενώ οι διασπορές των συντελεστών και οι συνδιακυμάνσεις μεταξύ αυτών υπολογίζονται από τον πληροφορίας (observed information matrix), το είναι ίσο με 3 πίνακα παρατηρούμενης ξ, η στοιχείο του οποίου

m m A β jξ z jξ A jξ β β ξ β η β η β η j j βzi βzi βzi βzi z iξ z iη e e z iξ e z iη e m i i i i j j j j j βzi e i j z iξ z iη e β z i z iξ e β z i z iη e β z i m i j i j i j eβ z i j βzi e i j i j z iξ z iη e β z i m i j A β A β jη jξ βzi e j i j και τελικά β ξ β η m C jξη (.9) j όπου ziξ ziη eβ z C jξη i i j A jξ β A jη β (.) eβ z i i j Σημειωτέον ότι στην εργασία του 97, ο Cox (βλ. [4] σελ. 9) επισημαίνει ότι η ποσότητα A jξ β που ορίζεται στην εξίσωση (.7), αποτελεί το σταθμισμένο μέσο όρο των z iξ πάνω στον πληθυσμό χρησιμοποιώντας τους εκθετικούς συντελεστές βαρύτητας e β z i. 3 j,

..3. Οι ισόπαλοι χρόνοι στο μοντέλο του Cox: Στην προηγούμενη μοντελοποίηση, θεωρήσαμε ότι σε κάθε χρονική στιγμή t j, j,,, m έχουμε μόνο μία αποτυχία (θάνατο), δηλ. ότι d j. Στην πράξη όμως μπορεί να εμφανίζεται κατά τη χρονική στιγμή t j, πλήθος αποτυχιών d j, j,,, m (ισόπαλοι χρόνοι αποτυχίας (ties)). Αυτό μπορεί να συμβεί για λόγους όπως (βλ. []): τα δεδομένα είναι διακριτά και έτσι έχουμε θετική πιθανότητα αποτυχίας κατά την χρονική στιγμή t j, j,,, m τα δεδομένα είναι συνεχή, αλλά είναι ομαδοποιημένα και έτσι, ο αριθμός d j μετράει το πλήθος αποτυχιών σε κάποιο διάστημα (κλάση) γύρω από τη χρονική στιγμή t j, j,,, m τα δεδομένα είναι συνεχή και όχι ομαδοποιημένα, αλλά οι παρατηρούμενες ισοπαλίες προκύπτουν από σφάλματα μέτρησης των χρόνων αποτυχίας. Οι κύριες προσεγγίσεις της μερικής πιθανοφάνειας (.5) στους ισόπαλους χρόνους διακοπής είναι αυτές των Breslow (97) και Efron (977). Συγκεκριμένα, έστω t, t,, t n οι χρόνοι αποτυχίας των n μονάδων και έστω T T T, T t, t,, t n. δύο ισόπαλοι Θέτουμε j,,, m, δηλ. Pj t I t j t e βz j χρόνοι διακοπής (όπου β z j Pj t e αν t j t αλλιώς για, j,,, m (όπου με I t j t είναι η δείκτρια συνάρτηση του ενδεχομένου t j t ) (βλ. [6] σελ. 4 και [7] σελ. 57). Αν οι χρόνοι T και T δεν ήταν ισόπαλοι, τότε η μερική πιθανοφάνεια στο μοντέλο του Cox θα προέκυπτε από την εξίσωση (.5) και τη διάταξη των χρόνων T και T. Έτσι, για T T η μερική πιθανοφάνεια θα ήταν ίση με 33

eβ z eβ z eβ z eβ z i i T i P T P T P T P T Pn T P T P3 T Pn T i T ενώ για T T θα ήταν eβ z eβ z eβ z eβ z i i T i P T P T P T P T Pn T P T P3 T Pn T i T n Η προσέγγιση του Breslow χρησιμοποιεί το άθροισμα Pi T και i στους δύο παρονομαστές και δίνει τελικά την εκτίμηση P T P T n Pi T i (.) Αντίθετα, η προσέγγιση του Efron χρησιμοποιεί την εκτίμηση P T P T (.) P T P T Pn T.5P T.5P T P3 T Pn T δηλ. στον δεύτερο παρονομαστή χρησιμοποιεί τον μέσο όρο για τους P T και P T. Στη γενική ( T T Tk, περίπτωση όπου όπου έχουμε k το T, T,, Tk t, t,, t n πλήθος με ισοπαλίες k n ), οι προσεγγίσεις (.) του Breslow και (.) του Efron διαμορφώνονται ως εξής (βλ. [6]): k k i Pi T n Pi T i n P T i i Pi T i k και 34 (τύπος του Breslow) (.3)

k k i i k k Pi T n Pj T Pj T j (τύπος του Efron) (.4). j k..4. ο στρωματοποιημένο μοντέλο του Cox: ο μοντέλο του Cox, έχει εξ ορισμού την ιδιότητα του αναλογικών κινδύνων, η οποία περιγράφηκε στην εξίσωση (.5) (για τον έλεγχο της ιδιότητας αυτής αναφερόμαστε στη συνέχεια της εργασίας). Στην περίπτωση που κάποια μεταβλητή παραβιάζει την ιδιότητα της αναλογικότητας, είναι δυνατόν αυτή να χωρισθεί σε στρώματα (ομάδες) και να προσαρμοσθεί στα δεδομένα το στρωματοποιημένο μοντέλο του Cox (stratified Cox model). Π.χ. (βλ. [44]) ας υποθέσουμε ότι μελετούμε το χρόνο ανάρρωσης από μία ασθένεια σε ένα δείγμα ατόμων στα οποία έχει δοθεί είτε ένα φάρμακο είτε ένα εικονικό φάρμακο (placebo). Αν υποψιαζόμαστε ότι η ιδιότητα της αναλογικότητας παραβιάζεται στη συμμεταβλητή φάρμακο εικονικό φάρμακο και στη συμμεταβλητή ηλικία (κάτω των 4 άνω των 4), τότε εφαρμόζουμε τη στρωματοποιημένη ανάλυση με βάση τον ακόλουθο πίνακα: Κάτω των 4 Άνω των 4 Φάρμακο Εικονικό φάρμακο 3 4 Συγκεκριμένα, ορίζουμε 4 το πλήθος ομάδες (στρώματα) με βάση την αρίθμηση των κελιών του παραπάνω πίνακα και προσαρμόζουμε το μοντέλο του Cox με ίδιους συντελεστές σε όλα τα στρώματα, αλλά διαφορετική βασική συνάρτηση κινδύνου (baseline hazard) για κάθε στρώμα. Έτσι, για κάθε στρώμα k,, 3, 4 το οποίο περιέχει nk το πλήθος μονάδες του δείγματος, θέτουμε hk t z m h k t e β z m όπου h k t, k,, 3, 4 k στρώματος και είναι η βασική συνάρτηση κινδύνου του m,,, nk είναι ο δείκτης της μονάδας του k στρώματος στην οποία αναφερόμαστε. Δηλ. έχουμε ίδιους συντελεστές β για όλα τα στρώματα, αλλά διαφορετική συνάρτηση κινδύνου για κάθε 35

στρώμα. Στη συνέχεια, εφαρμόζουμε τη μέθοδο της μέγιστης μερικής πιθανοφάνειας σε κάθε στρώμα βάσει της εξίσωσης (.6) και έχουμε β z ki k ln Lk β β z km ln e m m i m nk nk οπότε η μερική λογαριθμοποιημένη πιθανοφάνεια για όλα τα στρώματα είναι k k.3. ΠΡΟΣΑΡΜΟΓΗ ΜΟΝΕΛΟΥ ΑΝΑΛΟΓΙΚΩΝ ΚΙΝΔΥΝΩΝ.3.. Γραφικός έλεγχος της υπόθεσης αναλογικών κινδύνων: Η προσαρμογή ενός μοντέλου αναλογικών κινδύνων σε δεδομένα διάρκειας ζωής, βασίζεται στην αναλογικότητα του κινδύνου, δηλ. στο ότι ο λόγος των τιμών της συνάρτησης κινδύνου για μία δεδομένη χρονική στιγμή εξαρτάται μόνο από τις τιμές των συμμεταβλητών και όχι από τη χρονική στιγμή (όπως περιγράφηκε με τη γενική εξίσωση (.6) και την ειδική για το μοντέλο του Cox εξίσωση (.8)). Γι αυτό, το πρώτο πράγμα που πρέπει να γίνει όσον αφορά την προσαρμογή του μοντέλου, είναι ο έλεγχος της υπόθεσης αναλογικών κινδύνων. Ένας πολύ απλός τρόπος του ελέγχου καταλληλότητας του μοντέλου, είναι ο γραφικός έλεγχος. Π.χ. λογαριθμίζοντας την εξίσωση (.) που δίνει τη συνάρτηση επιβίωσης στο μοντέλο του Cox, παίρνουμε ln S t z i e β z i H t και λογαριθμίζοντας ξανά: ln ln S t z i β z i ln H t (.5) Η εξίσωση (.5) είναι της μορφής φ t z i c ψ t, δηλ. περιγράφει δύο συναρτήσεις (τις φ t z i ln ln S t z i και ψ t ln H t ) που διαφέρουν κατά μία σταθερά (την c β z i ), άρα οι γραφικές τους παραστάσεις έχουν μεταξύ τους σχέση κατακόρυφης 36 μετατόπισης (είναι τρόπον τινά

παράλληλες ). ότε όμως, οι γραφικές παραστάσεις των συναρτήσεων φ t z i για τις διάφορες τιμές των z i θα έχουν μεταξύ τους σχέση οριζόντιας μετατόπισης (είναι και αυτές μεταξύ τους παράλληλες, με σχέση οριζόντιας μετατόπισης). Έτσι, βάσει της εξίσωσης (.5) προκύπτει ο γραφικός έλεγχος της αναλογικότητας, ο οποίος συνίσταται (βλ. [3] σελ. ) στον χωρισμό των δεδομένων σε ομάδες που αντιστοιχούν σε επιλεγμένες τιμές z k, στη συνέχεια στην εκτίμηση Sˆ t z k της συνάρτησης κινδύνου μέσω της εκτιμήτριας KaplanMeier για κάθε ομάδα και τέλος στην κατασκευή των γραφικών παραστάσεων των συναρτήσεων φ t z k ln ln Sˆ t z k ως προς t. Η ύπαρξη παραλληλίας μεταξύ αυτών των γραφικών παραστάσεων, επιβεβαιώνει την υπόθεση του αναλογικών κινδύνων..3.. Έλεγχος της υπόθεσης αναλογικών κινδύνων μέσω των υπολοίπων: Ένας άλλος τρόπος ελέγχου της υπόθεσης αναλογικών κινδύνων, είναι η χρήση των υπολοίπων του μοντέλου (στη γενική περίπτωση της Γραμμικής Παλινδρόμησης, ο όρος υπόλοιπα (residuals) δηλώνει τις διαφορές eˆi y i yˆ i y i βˆ z i μεταξύ των παρατηρούμενων τιμών y i και των προσαρμοσμένων τιμών y i ). Για μία πρώτη ανάγνωση σε διάφορες μεθόδους χρήσης των υπολοίπων σε δεδομένα διάρκειας ζωής παραπέμπουμε στο [9]. Χαρακτηριστικά, αναφέρουμε εδώ τα υπόλοιπα Cox & Snell και τα υπόλοιπα Schoenfeld. α υπόλοιπα Cox & Snell (Sir David Cox & E. Joyce Snell, 968) βασίζονται στην ακόλουθη ιδιότητα της Θεωρίας Πιθανοτήτων (βλ. [3] σελ. ): «Αν Y κατανομής είναι μία τυχαία μεταβλητή με αθροιστική συνάρτηση F, τότε η τυχαία μεταβλητή V F Y ακολουθεί την Ομοιόμορφη κατανομή U, και η τυχαία μεταβλητή W ln F Y ακολουθεί την Εκθετική κατανομή Ɛ()». Έτσι, αν F t είναι η αθροιστική συνάρτηση κατανομής των δεδομένων διάρκειας ζωής και S t η συνάρτηση 37