ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ & ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΕΠΙΒΙΩΣΗΣ Δήμητρα Αικατερίνη Χαρ. Αλεξανδροπούλου ΕΡΓΑΣΙΑ Που υποβλήθηκε στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου ΑΘηνών ως μέρος των απαιτήσεων για την απόκτηση Μεταπτυχιακού Διπλώματος Εφαρμοσμένη Στατιστική για Εκπαιδευτικούς και Στελέχη Οργανισμών Μερικής Παρακολούθησης (Part-time) Αθήνα Φεβρουάριος 2015 i
ii
ΑΦΙΕΡΩΣΗ Το αφιερώνω µε πολύ αγάπη στην µητέρα µου, τον αδερφό µου, στους φίλους µου και λίγο περισσότερο στο συνάδελφο και πατέρα µου, που µε µύησε από πολύ µικρή στη µαγεία των µαθηµατικών. iii
iv
ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω τηνυπέροχη οικογένειά µου, τους γονείς µου και τον αδερφό µου Γιώργο, για την πολύτιµη βοήθεια και υποµονή τους. Με την αγάπη τους, την ηθική και υλική στήριξη τους, µε βοηθούν σε κάθε µου βήµα τόσο προπτυχιακά όσο και κατά την διάρκεια των µεταπτυχιακών σπουδών µου. Σίγουρα η πορεία µου έως εδώ θα ήταν πολύ δυσκολότερη, εάν δεν είχα την συµπαράσταση τους.. Επίσης θα ήθελα να ευχαριστήσω θερµά, την επιβλέπουσα καθηγήτρια αυτής της διπλωµατικής εργασίας, κα Κατερίνα ηµάκη. Χωρίς τη γνώση που µας έδωσε, το ευχάριστο κλίµα που υπήρχε καθ όλη τη διάρκεια του µεταπτυχιακού, αλλά κυρίως τη βοήθεια που µου προσέφερε µε υποδείξεις και διορθώσεις σε όλα τα στάδια της συγγραφής, η εργασία δεν θα µπορούσε να ολοκληρωθεί επιτυχώς. Σας ευχαριστώ πολύ για την υποµονή και την υποστήριξή σας. v
vi
ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ Από το 2007 είµαι πτυχιούχος µαθηµατικός της Σχολής Θετικών Επιστηµών του Πανεπιστηµίου Πατρών, όπου ακολούθησα τον τοµέα Στατιστικής κατά την διάρκεια των σπουδών. Για 4 χρόνια ασχολήθηκα µε την παράδοση µαθηµάτων µαθηµατικών σε µαθητές λυκείου και γυµνασίου. Στη συνέχεια ασχολήθηκα µε την ασφάλιση εξαγωγικών πιστώσεων όπου παράλληλα ξεκίνησα το µεταπτυχιακό µερικής φοίτησης Εφαρµοσµένης Στατιστικής για Εκπαιδευτικούς και Στελέχη Επιχειρήσεων και Οργανισµών. Ασχολήθηκα για ένα µικρό διάστηµα µε την αναλογιστική επιστήµη και σήµερα εξακολουθώ να εργάζοµαι σε ασφαλιστική εταιρεία. vii
viii
ABSTRACT DimitraAikateriniAlexandropoulou INTRODUCTION TO SURVIVAL ANALYSIS February 2015 The statistical analysis of the life time data has been studied extensively in the past. Numerous statistical methods have been developed and adjusted for the analysis of survival time data. The first chapter of the present thesis gives a brief historical overview of survival analysis and presents its basic concepts. The second chapter looks at the basic definitions and interpretations of survival functions. The last two chapters deal with parametric and nonparametric methods of estimating and comparing survival functions. ix
x
ΠΕΡΙΛΗΨΗ ήµητρα Αικατερίνη Αλεξανδροπούλου ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΕΠΙΒΙΩΣΗΣ Φεβρουάριος 2015 Η ανάλυση επιβίωσης δηλαδή η µελέτη της διάρκειας ζωής µιας µονάδας είναι µία περιοχή της Στατιστικής που έχει προσελκύσει το ενδιαφέρον των ερευνητών. Ως αποτέλεσµα, αρκετές στατιστικές µέθοδοι έχουν αναπτυχθεί για την ανάλυση των δεδοµένων του χρόνου επιβίωσης. Στο πρώτο κεφάλαιο της παρούσας εργασίας γίνεται µία σύντοµη ιστορική αναδροµή της ανάλυσης επιβίωσης και παρουσιάζονται οι εισαγωγικές της έννοιες. Στο δεύτερο κεφάλαιο παρατίθενται οι βασικές συναρτήσεις και οι ιδιότητες αυτών. Στο τρίτο κεφάλαιο παρουσιάζονται τα σηµαντικότερα στατιστικά µοντέλα χρόνου αποτυχίας. Οι κατανοµές που έχουν ευρέως χρησιµοποιηθεί για να περιγράψουν τους χρόνους επιβίωσης είναι η εκθετική, η Weibull, Γάµµα και η λογαριθµοκανονική. Το τέταρτο και το πέµπτο κεφάλαιο ασχολούνται µε τις παραµετρικές και τις µη παραµετρικές τεχνικές εκτίµησης και σύγκρισης των συναρτήσεων επιβίωσης. xi
xii
ΚΑΤΑΛΟΓΟΣ ΠΕΡΙΕΧΟΜΕΝΩΝ Σελίδα Κεφάλαιο 1 ο Εισαγωγικές έννοιες 1.1 Τι είναι Ανάλυση Επιβίωσης 1 1.2 Ιστορική Αναδροµή 2 1.3 Χρόνος Επιβίωσης 3 1.4 Είδη περικοµµένων δεδοµένων 7 1.5 Προϋποθέσεις 12 Κεφάλαιο 2 ο Συναρτήσεις χρόνου Επιβίωσης 2.1 Συναρτήσεις Επιβίωσης 13 2.2 Συνάρτηση Επιβίωσης ή Συνάρτηση Αποτυχίας 14 2.3 Συνάρτηση πυκνότητας ή πυκνότητας αποτυχίας 14 2.4 Συνάρτηση βαθµού κινδύνου hazardratefunction 16 2.4.1 Για συνεχής τυχαία µεταβλητή 18 2.4.2 Για διακριτή τυχαία µεταβλητή 18 2.5 Μέση υπολειπόµενη ζωή ( meanresiduallife ) 19 2.6 Συνοπτικά 21 xiii
Σελίδα Κεφάλαιο 3 ο Στατιστικά µοντέλα 3.1 Στατιστικά µοντέλα χρόνου αποτυχίας 23 3.2 Εκθετική Κατανοµή 24 3.3 Κατανοµή Weibull 25 3.4 Κατανοµή Γάµµα 26 3.5 Λογαριθµοκανονική κατανοµή ( Log normal ) 27 3.6 Κατανοµή Pareto 3.7 Λογαριθµολογιστική Κατανοµή 28 3.8 Γεωµετρική κατανοµή 29 Κεφάλαιο 4 ο Μη παραµετρικές τεχνικές 4.1 Εισαγωγικά 31 4.2 Μη Παραµετρικές µέθοδοι εκτίµησης των συναρτήσεων επιβίωσης για πλήρες δείγµα 33 4.3 Μη Παραµετρικές µέθοδοι εκτίµησης των συναρτήσεων επιβίωσης για δείγµα µε περικοµµένες παρατηρήσεις 35 4.4 Υπολογισµός της διαµέσου των δεδοµένων επιβίωσης 38 4.5 Μέθοδος Kaplan Meier για τη συνάρτηση βαθµού κινδύνου 39 xiv
Σελίδα Κεφάλαιο 5 ο Μη παραµετρικές Μέθοδοι Σύγκρισης Συναρτήσεων επιβίωσης 5.1 Εισαγωγή 41 5.2 Έλεγχος Cox Mantel 42 5.3 Έλεγχος Logrank 43 5.4 O Γενικευµένος έλεγχος Wilcoxon των PetoandPeto 46 5.5 Σύγκριση των στατιστικών τεστ 48 Κεφάλαιο 6 ο Εφαρµογές Βιβλιογραφία xv
ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Πίνακας Σελίδα 1 : LifeTableτων δύο ιστολογικών τύπων καρκίνου του µαστού 49 2: ιάµεσοι χρόνοι επιβίωσης των δύο ιστολογικών τύπων 51 3: ιάµεσοι χρόνοι επιβίωσης 52 4: Σύγκριση κατανοµών επιβίωσης µέσω Wilcoxon 52 5: Survival Table Kaplan Meier 55 xvi
ΚΑΤΑΛΟΓΟΣ ΔΙΑΓΡΑΜΜΑΤΩΝ Διάγραμμα Σελίδα 1: Survival Function 53 2: Hazard Function 54 xvii
xviii
ΚΕΦΑΛΑΙΟ 1ο 1.1 Τι είναι ανάλυση επιβίωσης Η εργασία αυτή αποτελεί µία εισαγωγή στον κλάδο της Στατιστικής που είναι γνωστός ως Ανάλυση Επιβίωσης (Survival Analysis). Γενικά µε αυτόν τον όρο περιγράφουµε την συλλογή από διάφορες στατιστικές µεθόδους που ασχολούνται µε την ανάλυση δεδοµένων στις οποίες το κυρίαρχο ζήτηµα είναι ο χρόνος µέχρι να συµβεί ένα γεγονός.ένα γεγονός µπορεί να είναι καταληκτικό, όπως για παράδειγµα οθάνατος,που µπορεί να συµβεί µόνο µια φορά ή µη καταληκτικό όπως η εµφάνιση µιας αρρώστιας, µια µηχανολογική βλάβη ή ακόµα η επιτυχής ανάρρωση ενός ασθενούς, που µπορεί να συµβεί πολλές φορές. Πρακτικά το γεγονός σχετίζεται µε την ποιοτική αλλαγή της κατάστασης ενός ατοµικού προσώπου ή αντικειµένου. Ο χρόνος µπορεί να µετριέται σε ώρες, µέρες, µήνες ή ακόµα σε χρόνια από την αρχή της έρευνας µέχρι να συµβεί το γεγονός που καταγράφουµε. Εναλλακτικά ο χρόνος µπορεί να σχετίζεται µε την ηλικία του εµπλεκοµένου όταν συµβεί το γεγονός. Όλοι αυτοί οι χρόνοι µέχρι να συµβεί ένα γεγονός αναφέρονται ως δεδοµένα επιβίωσης. Ο βασικός στόχος της ανάλυσης επιβίωσης είναι η µελέτη αυτών των δεδοµένων, δηµιουργία µοντέλων µε σκοπό την αποτελεσµατική και µέσα στα όρια της σηµαντικότητας πρόβλεψη της επιβίωσης ή της µέσης διάρκειας ζωής των πληθυσµών που ερευνώνται καθώς και τη σύγκριση τους µε κατανοµές επιβίωσης άλλων πειραµατικών πληθυσµών από που επιδιώκουµε την εύρεση κινδύνων ή/και χρήσιµων προγνωστικών παραγόντων. Άλλοι εναλλακτικοί όροι που υπάρχουν και σχετίζονται άµεσα είναι οι, Ανάλυση ιάρκειας Ζωής, Ανάλυση Αξιοπιστίας ή Θεωρία Αξιοπιστίας που είναι διαδεδοµένοι στους κλάδους των οικονοµικών, της κοινωνιολογίας και µηχανολογίας.oι παραπάνω όροι έχουν εφαρµοστεί και ανακαλυφθεί από ερευνητές σε διάφορα επιστηµονικά πεδία και συνδέονται την Ανάλυση επιβίωσης µε ελάχιστες διαφοροποιήσεις. 1
1.2 ΙΣΤΟΡΙΚΗ ΑΝΑ ΡΟΜΗ Ως αρχή της Ανάλυσης Επιβίωσης µπορεί να θεωρηθεί το 1662 µε τη δηµοσίευση της εργασίας του JohnGraunt «NaturalandPoliticalObservationsuponthebillofMortality». OGraunt στο βιβλίο του, κατέγραψε γεννήσεις και θανάτους που σηµειώθηκαν σε διάστηµα µερικών δεκαετιών στις ενορίες του Λονδίνου, αντιµετωπίζοντας για πρώτη φορά το «θάνατο» ως ένα γεγονός προς µελέτη. Στα τέλη του 17 ου αιώνα, ο EdmundHalley προχώρησε περισσότερο δηµιουργώντας τον πρώτο πίνακα επιβίωσης µε στοιχεία από τον πληθυσµό της περιοχής Breslau της Πολωνίας και αποτελώντας πρόδροµο των σύγχρονων δηµογραφικών πινάκων. Η µεγαλύτερη ώθηση, ωστόσο, στην Ανάλυση Επιβίωσης δόθηκε κατά τη διάρκεια των δύο Παγκοσµίων Πολέµων, καθώς µελετήθηκε η αξιοπιστία των στρατιωτικών µηχανών και εξαρτηµάτων.παράλληλα, πλήθος ερευνητών στους τοµείς της Ιατρικής, Βιολογίας και Επιδηµιολογίας συνέβαλαν µε τις µελέτες τους στην εξέλιξη του κλάδου. Μετά το Β Παγκόσµιο Πόλεµο ως τις µέρες µας, η Ανάλυση Επιβίωσης επεκτάθηκε εντυπωσιακά, τόσο στη βιοµηχανία ηλεκτρονικών συσκευών όσο και στην Ιατρική. Ιδιαίτερα µελετήθηκε η ανάπτυξη παραµετρικών µοντέλων του χρόνου ζωής, ως προς την εκτίµηση των παραµέτρων τους και την αξιολόγηση της απόδοσής τους. Στο πλαίσιο αυτό, ο χρόνος επιβίωσης χρησιµοποιείται για να δηλώσει όχι µόνο το «χρόνο ως προς το θάνατο» αλλά επίσης το χρόνο µέχρι οποιοδήποτε ενδεχόµενο που µπορεί να ορισθεί εν γένει ως «αποτυχία». Η δυσκολία τεκµηρίωσης, τόσο εµπειρικά όσο και θεωρητικά, µιας συγκεκριµένης οικογένειας κατανοµών χρόνου επιβίωσης συνέτεινε στην ανάπτυξη µη παραµετρικής µεθοδολογίας. Σήµερα η Ανάλυση Επιβίωσης, ως αποτέλεσµα µιας µακράς διαδικασίας εξέλιξης που έχει ξεχωριστή ώθηση τα τελευταία 60 χρόνια, δίνει τη δυνατότητα για ποικίλες εφαρµογές και σε άλλους τοµείς. Έτσι,παραµένει πάντοτε εξαιρετικά επίκαιρη και αποκαλύπτει το εύρος των εφαρµογών της και την ανθεκτικότητα της ανάλυσης των δεδοµένων της. 2
1.3 Χρόνος επιβίωσης Ο χρόνος επιβίωσης ( survivaltime ) µπορεί γενικά να ορισθεί ως ο χρόνος µέχρι να συµβεί ένα συγκεκριµένο ενδεχόµενο.το ενδεχόµενο µπορεί να είναι : Χρόνος µέχρι τον θάνατο / γεγονός ενδιαφέροντος Χρόνος µέχρι την εµφάνιση ασθένειας ιάρκεια παραµονής στο νοσοκοµείο ιάρκεια απεργίας/κατάληψης/εκπόνησης διδακτορικής διατριβής Χρόνος µέχρι τον τερµατισµό ενός αγώνα Συνήθως η κατανοµή των χρόνων επιβίωσης δεν είναι κανονική και γι αυτό το λόγο οι συνηθισµένες στατιστικές µέθοδοι δεν είναι κατάλληλες για την ανάλυση δεδοµένων επιβίωσης. Επίσης δεν καταγράφονται όλοι οι χρόνοι επιβίωσης µια οµάδας διότι κάποιοι παραλείπονται ( censored ). O όρος censored ( λογοκριµένος - περικοµµένος ), αναφέρεται στα δεδοµένα για τα οποία δεν είναι γνωστός ο χρόνος επιβίωσης που συµβαίνει το γεγονός.η έννοια αυτών των δεδοµένων χρησιµοποιήθηκε για πρώτη φορά από τον Ηald το 1949.Η πληροφορία για το χρόνο επιβίωσης στην περίπτωση αυτή είναι µερική, δεν είναι ακριβής.στις λογοκριµένες ή περικοµµένες παρατηρήσεις το συγκεκριµένο ενδεχόµενο για το οποίο γίνεται η µελέτη, δεν έχει παρατηρηθεί µέχρι την λήξη της έρευνας. Αυτό µπορεί να συµβεί είτε γιατί το υποκείµενο χάθηκε πριν τελειώσει η έρευνα είτε γιατί το υποκείµενο δεν εισήλθε στην έρευνα από την αρχή Τα είδη των περικοµµένων δεδοµένων ή είδη λογοκρισίας είναι τρία: 1. εξιά λογοκρισία ( rightcensoring ) 3
2. Aριστερή λογοκρισία ( leftcensoring ) 3. Λογοκρισία διαστήµατος ( interval censoring ) Στην πρώτη κατηγορία ανήκουν οι παρατηρήσεις των οποίων η πραγµατική τιµή είναι άγνωστη λόγω της εγκατάλειψης της µελέτης από το υποκείµενο ή την αδυναµία παρακολούθησης κάποιου υποκειµένου, αλλά είναι όµως γνωστό ότι είναι µεγαλύτερη ή ίση ( ) µε κάποια δεδοµένη τιµή L. Στην δεύτερη κατηγορία ανήκουν παρατηρήσεις, των οποίων η πραγµατική τιµή είναι και εδώ άγνωστη, είναι όµως γνωστό ότι είναι µικρότερη ή ίση ( ) µε κάποια δεδοµένη τιµή L Και τέλος στην τρίτη κατηγορία τα δεδοµένα είναι ταυτόχρονα αποκοµµένα από δεξιά και από αριστερά.αυτό σηµαίνει πως η πραγµατική τιµή είναι άγνωστη αλλά βρίσκεται εντός κάποιου διαστήµατος τιµών. ιάγραµµα 1.1 4
Ο χρόνος επιβίωσης χρήζει ειδικής µεταχείρισης διότι δεν ακολουθεί κάποια γνωστή συµµετρική κατανοµή. Αναφέρεται σε µια µεταβλητή (ηµέρες, εβδοµάδες, µήνες κ.λ.π) που µεσολαβεί από την στιγµή της έναρξης της παρακολούθησης ενός ατόµου (άνθρωπος, αντικείµενο, φαινόµενο κ.λ.π), µέχρι την στιγµή που το άτοµο θα αντιµετωπίσει το ενδεχόµενο. Ο χρόνος είναι το βασικό σηµείο ενδιαφέροντος σε βιοχηµικές, κοινωνικές, µηχανικές εφαρµογές. Παράδειγµα 1.1 Το σπάρταθλον είναι ένας ιστορικός υπερµαραθώνιος ( Αθήνα Σπάρτη 246χλµ ) που λαµβάνει χώρα στο τέλος του Σεπτέµβρη κάθε χρόνο στην Ελλάδα. Είναι ένας από τους πλέον δύσκολους αγώνες υπεραποστάσεων παγκοσµίως και παράλληλα πολύ µεγάλου ενδιαφέροντος λόγω του ιστορικού του υπόβαθρου. Λόγω της δυσκολίας του αγώνα οι συµµετέχοντες πρέπει να είναι κατάλληλα προετοιµασµένοι ψυχικά και σωµατικά µιας και συνήθως ελάχιστος είναι ο αριθµός των συµµετεχόντων που φτάνουν στο τέρµα του αγώνα µέσα σε 36 ώρες. Οι αθλητές µπορούν να εισέρχονται στον αγώνα ( στην µελέτη µας ), σε διαφορετικούς χρόνους µιας και δεν περνούν όλοι ταυτόχρονα την αψίδα της εκκίνησης ενώ η διάρκεια της µελέτης είναι προεπιλεγµένη.έτσι για κάθε αθλητή, καταγράφεται ο χρόνος από την είσοδό του στον αγώνα, µέχρι την στιγµή που θα σταµατήσει και θα βγει από τον αγώνα. Το πιθανότερο είναι να υπάρχουν δροµείς που έφτασαν στην αψίδα του τέρµατος, άλλοι όπου τα παράτησαν στην διάρκεια του αγώνα οπότε χάθηκε η επαφή και άλλοι ολοκλήρωσαν µετά από 36 ώρες. Ο χρόνος επιβίωσης των δροµέων αυτών θα είναι τουλάχιστον όσο ο χρόνος από την είσοδο τους στην µελέτη, µέχρι τη στιγµή που ολοκληρώθηκε ο αγώνας (για την πρώτη περίπτωση) 5
και µέχρι την στιγµή που χάθηκε η επαφή (στην δεύτερη περίπτωση). Αυτές οι παρατηρήσεις είναι οι λογοκριµένες (censored) παρατηρήσεις.τα άτοµα που ανήκουν στην δεύτερη περίπτωση δεν µπορούµε να τα αποκλείσουµε θεωρώντας τα ως ελλιπή δεδοµένα. Κάτι τέτοιο, θα επηρέαζε πολύ την ανάλυση που παίρναµε και τα αποτελέσµατα δεν θα ήταν σωστά µιας και τα άτοµα συµµετέχουν στον αγώνα.οι λογοκριµένες παρατηρήσεις δεν προκύπτουν µόνο λόγω του χρόνου λήξης της έρευνας αλλά και σε άλλες περιπτώσεις όπως : όταν ο δροµέας χάνεται από την παρακολούθηση (ο δροµέας µπορεί να αποφάσισε να σταµατήσει ή ν αλλάξει διαδροµή) όταν ο δροµέας αποσύρεται από την παρακολούθηση (ο δροµέας µπορεί να τραυµατίστηκε, να νοιώσει έντονο σωµατικό πόνο, οι καιρικές συνθήκες να µην είναι καλές ) Τα παραπάνω µπορούν να γίνουν πιο κατανοητά µε το διάγραµµα 1 όπου φαίνονται οι χρόνοι 3 δροµέων µέχρι την λήξη του αγώνα. ιάγραµµα 1.2 T 1 ροµέας 1 ροµέας 2 Τ2 Τ3 ροµέας 3 Tέλος µελέτης 6
Ο δροµέας 1 εισέρχεται στην µελέτη στο χρόνο t = 0 τραυµατίζεται και βγαίνει από τον αγώνα στο χρόνο Τ 1, έτσι δίνει µια λογοκριµένη παρατήρηση. Ο δροµέας 2 εισέρχεται λίγο αργότερα στη µελέτη και χάνεται από την παρακολούθηση λίγο πριν το τέλος του αγώνα, δίνοντας έτσι µια λογοκριµένη παρατήρηση. Ο δροµέας 3 δεν εισέρχεται από την αρχή στην µελέτη και παρόλο που έχει τελειώσει ο προβλεπόµενος χρόνος χρονοµέτρησης ( της µελέτης µας δηλαδή ) ακόµα συνεχίζει για να τερµατίσει. Ο χρόνος επιβίωσής του δεν είναι γνωστός. 1.4 Είδη περικοµµένων δεδοµένων εξιάλογοκρισία ( rightcensoringorcensoringtotheright ) H δεξιά λογοκρισία χωρίζεται σε τρεις κατηγορίες : εξιά λογοκρισία τύπου I ή περικοπή δεδοµένων τύπου I (TypeIcensoring) εξιά λογοκρισία τύπου II ή περικοπή δεδοµένων τύπου II (TypeIIcensoring) Τυχαία λογοκρισία ή περικοπή δεδοµένων τύπου III (randomcensoring) Η πρώτη κατηγορία είναι και η πιο συνήθη. Παρατηρείται σε περιπτώσεις όπου ένα άτοµο χάνεται ή αποσύρεται από την παρακολούθηση ή ακόµα και όταν η µελέτη ολοκληρώνεται σε έναν προκαθορισµένο χρόνο. Στις περιπτώσεις όπου δεν υπάρχουν περικοµµένες παρατηρήσεις, τα δεδοµένα επιβίωσης ονοµάζονται πλήρης. εξιά λογοκρισία τύπου I ή περικοπή δεδοµένων τύπου I Στην κατηγορία αυτή έχουµε ορίσει από την αρχή της έρευνας την διάρκειά της.ο χρόνος που έχουµε ορίσει ονοµάζεται χρόνος λογοκρισίας, έστω u. Ο ερευνητής καταγράφει τους χρόνους επιβίωσης ή διαφορετικά τους χρόνους αποτυχίας των ατόµων που απέτυχαν κατά την διάρκεια της έρευνας, ενώ για τους υπόλοιπους χρόνους 7
αυτό το οποίο είναι γνωστό είναι ότι είναι µεγαλύτεροι από το χρόνο u που έχει ορίσει ο ερευνητής. Στη λογοκρισία τύπου I, όταν δεν υπάρχουν απώλειες από ατυχήµατα, όλες οι λογοκριµένες παρατηρήσεις είναι όσο και το µήκος της περιόδου της µελέτης. Παράδειγµα 1.2 Ας θεωρήσουµε ότι έχουµε 100 άτοµα που πάσχουν από αναπνευστικά προβλήµατα και είναι καπνιστές. Αυτό το οποίο µελετάται είναι κατά πόσο το κάπνισµ µα επιδεινώνει την κατάστασή τους σε ένα χρονικό διάστηµα 2 µηνών. Θεωρούµε ενδεικτικά 6 ασθενείς Α,Β,Γ,,Ε,Ζ που υποβάλλονται στην έρευνα. Παρατηρούµε ότι οι ασθενείς Α,Β,Ε παρουσίασαν επιδείνωση στην κατάσταση τους µετά από 20, 34, 50 µέρες αντίστοιχα. Οι ασθενείς,γ είχαν σταθερή κατάσταση κατά την διάρκεια της έρευνας και ο ασθενής Ζ απεβίωσε σε κάποιο ατύχηµα µετά από 6 µέρες από την έναρξη της έρευνας. Κατά συνέπεια οι χρόνοι επιβίωσης των 6 ασθενών είναι αντίστοιχα: 20, 34, 50, 60+, 60+ και 6+. Το «+» συµβολίζει την περικοµµένη, ή διαφορετικά, την λογοκριµένη παρατήρηση ιάγραµµα 1.3 Α Β Γ Ε Ζ Χάθηκε X X 0 1 2 T Χρόνος : 2 µήνες ( 60 µέρες ) 8
Λογοκριµένα ή Περικοµµένα τύπου I εξιά Λογοκρισία ή περικοµ µµένα δεδοµένα τύπου II Περικοπή δεδοµένων τύπου III έχουµε, όταν η διάρκεια της µελέτης του δείγµατος δεν είναι ορισµένη από την αρχή. Στην περίπτωση αυτή η διαδικασία ολοκληρώνεται όταν το γεγονός που µελετάται παρατηρηθεί σε έναν προκαθορισµένο αριθµό ατόµων, έστω m. Έτσι, αν έχουµε n αριθµό ατόµων στην έρευνα, τότε γνωρίζουµε τους χρόνους επιβίωσης των m ατόµων και για τους υπόλοιπους n m, το µόνο που γνωρίζουµε είναι ότι ο χρόνος επιβίωσης τους είναι µεγαλύτερος από το χρόνο επιβίωσης των m ατόµων. Ακόµα, θα µπορούσε η διαδικασία να ολοκληρώνεται όταν το γεγονός που µελετάται παρατηρηθεί σε έναν προκαθορισµένο ποσοστό ατόµων π.χ 60%. Σ αυτήν την περίπτωση, αν δεν υπάρξουν θάνατοι, οι χρόνοι επιβίωσης των περικοµµένων παρατηρήσεων θεωρούνται ίσοι µε το χρόνο επιβίωσης της µεγαλύτερης µη περικοµµένης παρατήρησης. Παράδειγµα 1.3 Στο προηγούµενο παράδειγµαα τώρα και σύµφωνα µε τα λογοκριµένα δεδοµένα τύπου II, η µελέτη θα ολοκληρωθεί όταν συµπληρωθεί ένας συγκεκριµένος αριθµός καπνιστών που έχουν εµφανίσει επιδείνωση στο αναπνευστικό τους. Ας υποθέσουµε ότι η µελέτη θα σταµατήσει µόλις όταν οι 60 από τους 100 εµφανίσουν επιδείνωση. Εποµένως η διάρκεια του πειράµατος είναι άγνωστη ( διότι δεν γνωρίζει ο ερευνητής πότε ακριβώς αυτό θα συµβεί ) και οι χρόνοι των υπόλοιπων 40 ασθενών θεωρούνται αποκοµµένες. Στο δείγµα των 6 ασθενών Α, Β, Γ,, Ε, Ζ, ο ερευνητής αποφασίζει να τερµατίσει την έρευνα όταν οι 4 από τους 6 δηλαδή = 0,66 = 66 % εµφανίσουν επιδείνωση. 9
ιάγραµµα 1.4 Α Β Γ Ε Ζ X Χάθηκε X X 0 Χρόνος : µέρες Λογοκριµένα ή Περικοµµένα τύπου II t Tυχαία λογοκρισία ή Περικοπή δεδοµένων τύπου III Στην τρίτη κατηγορία δεδοµ µένων ο χρόνος επιβίωσης που αντιστοιχεί σε κάθε άτοµο ή αντικείµενο που είναι υπό µελέτη δεν είναι σταθερός αλλά τυχαίος. ηλαδή οι χρονικές στιγµές στην οποία εισέρχεται το κάθε άτοµο ή αντικείµενο στην έρευνα είναι διαφορετικές µεταξύ τους και άρα τυχαίες χρονικές στιγµές.οπότε οι χρόνοι επιβίωσης είναι τυχαίοι. Παράδειγµα 1.3 Σε συνέχεια του προηγούµενου παραδείγµατος σχετικά µε το πόσο επιδεινώνει το κάπνισµα την υγεία ατόµων µε αναπνευστικά προβλήµατα µπορεί ο αρχικός αριθµός των ατόµων που 10
παίρνουν µέρος να είναι 1000 αλλά µπορεί στην διάρκεια της έρευνας να προκύψουν και άλλα άτοµα και να προστεθούν στο δείγµα παρόλο που η έρευνα είναι ήδη σε εξέλιξη. Η µορφή των παρατηρήσεων που προκύπτουν είναι : ιάγραµµα 1.5 A Β x Γ χάθηκε t T 1 T 2 T 3 T 4 Στην κατηγορία Α ανήκουν τα άτοµα που εισήλθαν στην έρευνα την χρονική στιγµή t = 0, και το υπό µελέτη γεγονός προκλήθηκε όσο ακόµα η µελέτη ήταν σε εξέλιξη. Στην κατηγορία B τα άτοµα εισέρχονται στην µελέτη την χρονική στιγµή T 1 και µέχρι την χρονική στιγµή T 4 όπου έληξε το πείραµα δεν έχει προκληθεί το υπό µελέτη γεγονός. Στην κατηγορία Γ τα άτοµα εισέρχονται στην µελέτη την χρονική στιγµή T 2 και για κάποιο λόγο αποχώρησαν από την έρευνα πριν αυτή λήξει. Στην κατηγορία τα άτοµα εισέρχονται στην έρευνα από την αρχή, δηλαδή την χρονική στιγµή t = 0 και µέχρι την λήξη της έρευνας δεν έχουν εµφανίσει το υπό µελέτη γεγονός. 11
1.5 Προϋποθέσεις Βασική προϋπόθεση για τις παρατηρήσεις στην Ανάλυση Επιβίωσης, είναι ότι πρέπει να είναι ανεξάρτητες, δηλαδή το αποτέλεσµα της καθεµιάς δεν επηρεάζεται από το αποτέλεσµα της άλλης. Πρέπει να ισχύει και η προϋπόθεση της ανεξάρτητης λογοκρισίας ή περικοπής. Κατά την διάρκεια µιας ανάλυσης επιβίωσης µπορεί για ορισµένα άτοµα να µην επιτευχθεί ο στόχος παρατήρησης ( losttofollow up ) είτε γιατί εγκατέλειψαν την µελέτη πριν αυτή ολοκληρωθεί, είτε γιατί ολοκληρώθηκε η µελέτη πριν κάποιοι ακόµη να πετύχουν το στόχο. 12
ΚΕΦΑΛΑΙΟ 2 ο 2.1 Συναρτήσεις Επιβίωσης Οι συναρτήσεις του χρόνου επιβίωσης περιγράφουν ή χαρακτηρίζουν την κατανοµή των χρόνων επιβίωσης και µπορούν να χρησιµοποιηθούν για να επεξηγήσουν διαφορετικές πλευρές δεδοµένων. Οι συναρτήσεις αυτές είναι ισοδύναµες, δηλαδή αν µια από αυτές είναι γνωστή, τότε εύκολα µπορεί να προκύψουν κι άλλες.οι συναρτήσεις του χρόνου επιβίωσης είναι : 13
2.2 Συνάρτηση Επιβίωσης ή Συνάρτηση αποτυχίας Στη συνάρτηση επιβίωσης ή συνάρτηση αποτυχίας ( survivorfunctionorreliabilityfunction ), θεωρούµε έστω Χ µία τυχαία µεταβλητή που αναφέρεται στο χρόνο επιβίωσης, δηλαδή στο χρόνο έως την αποτυχία. Η τυχαία αυτή µεταβλητή µπορεί να είναι διακριτή ή συνεχής. Η συνάρτηση f x (t) προσδιορίζει την πιθανή συµπεριφορά επιβίωσης µιας τυχαίας συνιστώσας του συστήµατος και ονοµάζεται πυκνότητα αποτυχίας ( failuredensity ). H συνάρτηση αυτή ορίζεται στον θετικό ηµιάξονα των πραγµατικών αριθµών διότι αποτυχία δεν µπορεί να συµβεί πριν την έναρξη της έρευνας και καθορίζει την πιθανότητα στιγµιαίας αποτυχίας τη χρονική στιγµή t. 2.3 Συνάρτηση πυκνότητας πιθανότητας ή πυκνότητα αποτυχίας Στην πραγµατικότητα η f x x(t) είναι η συνάρτηση πυκνότητας πιθανότητας, δηλαδή η τυχαία µεταβλητή Χ είναι συνεχής. Hγραφική παράσταση f x συναρτήσει του χρόνου t, ονοµάζεται καµπύλη επιβίωσης (survivalcurve), και ορίζονται ως συναρτήσεις πυκνότητας πιθανότητας µιας συνεχούς τυχαίας µεταβλητής Χ. Η συνάρτηση πυκνότητας πιθανότητας έχει τις εξής ιδιότητες. δεν είναι δυνατόν να έχουµε αρνητικές πιθανότητες οπότε η καµπύλη της βρίσκεται στον θετικό ηµιάξονα των y, f x (t) 0. το εµβαδό που περικλείεται από την καµπύλη και τον άξονα τον x είναι ίσο µε 1, και τέλος καθορίζει την πιθανότητα στιγµιαίας αποτυχίας τη χρονική στιγµή t Επίσης για την πιθανή συµπεριφορά µιας συνιστώσας ενός συστήµατος έχουµε ακόµα : την αθροιστική συνάρτησηη κατανοµής αποτυχίας, F x (t), (cumulativeprobabilityoffailure) που καθορίζει την πιθανότηταα αποτυχίας µέχρι τη χρονική στιγµή t. F x (t)=p(x t)= x(x)dx, t 0 τη συνάρτηση επιβίωσης ή συνάρτηση αξιοπιστίας, S(t) ή x(t), (survivorfunctionorreliabilityfunction) που καθορίζει την πιθανότητα να µην έχει αποτύχει µέχρι την χρονική στιγµή t. S(t)=R(t)= x (t)=1- F x (t), t (t), 0 14
την κατανοµή υπολειπόµενης ζωής κατά τη χρονική στιγµή t, (t), (residuallifedistributionattimet). H συνάρτηση υπολειπόµενης ζωής ορίζεται για εκείνα τα x για τα οποία P(X>x)>0 (t)=p(x<x x+t/x>x)=1-, t 0 τη συνάρτηση βαθµού αποτυχίας (t), (failureratefunction,) που εκφράζει την πιθανότητα να επιζήσει µια χρονική περίοδο t δεδοµένου ότι επέζησε µέχρι την χρονική στιγµή x (t)=, t 0 τη συνάρτηση βαθµού πολλαπλασιαστικής αποτυχίας, (multiplicativefailureratefunction) που ορίζεται : r x (t), r x (t)=, t 1 τη συνάρτηση προσθετικής αποτυχίας r x (t), (additivefailureratefunction) που ορίζεται : r x (t)=, t 0 2.4 Συνάρτηση βαθµού κινδύνου, hazardratefunction Μια καθοριστικής σηµασίας συνάρτηση για τη µελέτη φαινοµένων στην Ανάλυση Επιβίωσης, διότι εκφράζει τη στιγµιαία πιθανότητα αποτυχίας του συστήµατος στο χρόνο t δοθέντος ότι αυτό επέζησε µέχρι τη χρονική στιγµή t.συµβολίζεται µε (t) και στην ουσία εκφράζει την τάση προς διακοπή ενός συστήµατος στο χρονικό διάστηµ µα ( t, t+ t ) µε δεδοµένη την επιβίωση του ως τη χρονική στιγµή t. Έστω Χ η µη αρνητική τυχαία µεταβλητή η οποία εκφράζει το χρόνο επιβίωσης και έχει συνάρτηση επιβίωσης x (t). Τότε : 15
(t) = O όρος χρησιµοποιήθηκε για πρώτη φορά το 1963 από τον Barlow και αναφέρεται ακόµα ως στιγµιαίος λόγος αποτυχίας ( instantaneousfailurerate ) και ως δεσµευµένη θνησιµότητα ( conditionalmortality ). H συνάρτηση βαθµού κινδύνου (t) ορίζεται για την περίπτωση : Συνεχούς κατανοµής, από την σχέση: (t)=, t 0 ιακριτής κατανοµής, από την σχέση: (t)=, t=0,1,2 Η συνάρτηση βαθµού κινδύνου µπορεί να αυξάνει, να µειώνεται, να µένει σταθερή ή να δηλώνει µια πιο περίπλοκη διαδικασία : Όταν η συνάρτηση είναι αύξουσα, υποδηλώνει αυξηµένο κίνδυνο µε την πάροδο του χρόνου και τη συναντούµε συχνά στην πράξη. Για παράδειγµα, ασθενείς µε καρκίνο που δεν ανταποκρίνονται στην φαρµακευτική αγωγή, έχουν αυξανόµενο βαθµό κινδύνου. Όταν η συνάρτηση είναι φθίνουσα υποδεικνύει ότι ο κίνδυνος αρχίζει να µειώνεται. Για παράδειγµα όταν έχουµε έναν ασθενή µε σκωληκοειδίτιδα και υποβληθεί σε χειρουργική επέµβαση τότε ο κίνδυνος θα µειωθεί όταν η επέµβαση είναι επιτυχής. Όταν η συνάρτηση είναι σταθερή τότε σηµαίνει ότι ο κίνδυνος παραµένει σταθερός. Για παράδειγµα όταν εξετάζουµε των κίνδυνο ατόµων ηλικίας 60-80, των οποίων οι κύριες αιτίες θανάτων είναι τα εγκεφαλικά. Όταν η καµπύλη είναι λεκανοειδής ( bathtubcurve ) περιγράφει την εξέλιξη της ανθρώπινης ζωής. Αρχικά ο κίνδυνος είναι µεγάλος όταν είναι βρέφος, στη συνέχεια 16
µέχρι κάποια συγκεκριµένη ηλικία είναι σταθερός ο κίνδυνος ενώ σε µεγαλύτερες ηλικίες αυξάνεται ακόµ µα περισσότερο. Τέλος παρατηρούµε καµπύλη, όπου στην αρχή της ο κίνδυνος είναι αρχικά µεγάλος, όταν για παράδειγµα ο ασθενής πάσχει ήδη από κάποια ασθένεια και µετά την λήψη θεραπείας ο κίνδυνος παρουσιάζει πτώση. H συνάρτηση βαθµού κινδύνου είναι ιδιαίτερα χρήσιµη για τη µελέτη του χρόνου επιβίωσης, δεδοµένου ότι στις περισσότερες περιπτώσεις υπάρχουν πληροφορίες σχετικά µε τη διαχρονική εξέλιξή της (t). Αξίζει να σηµειωθεί ότι η βασική αυτή έννοια χρησιµοποιείται στην Αναλογιστική Στατιστική και τη ηµοµετρία, όπου είναι γνωστή ως ένταση θνησιµότητας (forceofmortality). Στο πλαίσιο της Οικονοµικής επιστήµης ο αντίστροφος της λόγος ονοµάζεται Mill sratio. H συνάρτηση βαθµού κινδύνου ορίζει µονοσήµαντα την κατανοµή της τυχαίας µεταβλητής Χ, τόσο στην περίπτωση που η Χ είναι συνεχής όσο και στην περίπτωση που αυτή είναι διακριτή. Θεώρηµα : Έστω Χ τυχαία µεταβλητή µε µη αρνητικές τιµές η οποία έχει συνάρτηση επιβίωσης x (t).η κατανοµή της Χ ορίζεται µονοσήµαντα από την συνάρτηση βαθµού κινδύνου (t). 17
2.4.1 Όταν έχουµε συνεχή τυχαία µεταβλητή Έχουµε : Για τη συνάρτηση βαθµού κινδύνου (t)=, t 0 Για τη συνάρτηση πυκνότητας πιθανότητας = - Ότι η συνάρτηση επιβίωσης ορίζεται µονοσήµαντα από τη συνάρτηση βαθµού κινδύνου (t)=, t 0 Ότι η συνάρτηση πυκνότητας πιθανότητας ορίζεται µονοσήµαντα από τη συνάρτηση βαθµού κινδύνου, t 0 2.4.2 Όταν έχουµε διακριτή τυχαία µεταβλητή Έχουµε: Για τη συνάρτηση βαθµού κινδύνου 18
(t)=, t = 0,1,2, Ότι η συνάρτηση επιβίωσης ορίζεται µονοσήµαντα από τη συνάρτηση βαθµού κινδύνου P(X t)= t = 0,1,2, Ότι η συνάρτηση πυκνότητας πιθανότητας ορίζεται µονοσήµαντα από τη συνάρτηση βαθµού κινδύνου P(X=t)=P(X=0) ), t = 0,1,2, 2.5 Μέση υπολειπόµενη ζωή ( meanresiduallife ) Η µέση υπολειπόµενη ζωή, (meanresiduallife), κατά τη χρονική στιγµή t συµβολίζεται µε και εκφράζει την αναµενόµενη ζωή µιας συνιστώσας που έχει ήδη ηλικία t, δηλαδή έχει επιβιώσει ως τη χρονική στιγµή t και εξακολουθεί να λειτουργεί. Η µη αρνητική τυχαίαα µεταβλητή Χ της οποίας τη συµπεριφορά θέλουµε να µελετήσουµε, µπορεί να περιγράφει το χρόνο ως προς την αποτυχίαα µιας συνιστώσας ενός συστήµατος. Τότε, σύµφωνα µε τον συµβολισµό, το εκφράζει την αναµενόµενη ζωή που υπολείπεται σε µία συνιστώσα ηλικίας t. Με τον όρο «ηλικία t» εννοούµε ότι η συνιστώσα «έζησε» ως τη χρονική στιγµή t και εξακολουθεί να λειτουργεί στο χρόνο t. H µέση υπολειπόµενη ζωή εµφανίζεται στη διεθνή βιβλιογραφία στα µέσα της δεκαετίας του 60. Σε αντίθεση µε τη συνάρτηση βαθµού κινδύνου, η συνάρτηση µέσης υπολειπόµενης ζωής δεν έχει αξιοποιηθεί επαρκώς σε εφαρµογές και ορίζεται για την περίπτωση : Συνεχούς κατανοµ µής, από την σχέση = Ε(Χ-t/X>t), t 0 ιακριτής κατανοµής, από την σχέση = Ε(Χ-t/X>t), t= 0,1,2,.. 19
Επίσης : o Η µέση υπολειπόµενη ζωή µπορεί να υπολογιστεί µέσω της συνάρτησης επιβίωσης. Θεώρηµα :Έστω Χ τυχαία µεταβλητή µε συνάρτηση επιβίωσης Για συνεχή τυχαία µεταβλητή µε τον τύπο : τότε έχουµε :, t 0 Για διακριτή τυχαία µεταβλητή µε τον τύπο:, t = 0,1,2, o Η συνάρτηση επιβίωσης µπορεί να υπολογιστεί από τη µέση υπολειπόµενη ζωή. Θεώρηµα : Έστω Χ τυχαία µεταβλητή µε µη αρνητικές τιµ µές, η οποία έχει συνάρτηση επιβίωσης. Η κατανοµή της Χ ορίζεται µονοσήµ µαντα από τη µέση υπολειπόµενη ζωή. Για συνεχή τυχαία µεταβλητή µε τον τύπο : Για διακριτή τυχαία µεταβλητή µε τον τύπο: P(X>r) =, r = 1,2,,3.. o H συνάρτηση βαθµού κινδύνου µπορεί να υπολογισθεί από τη µέση υπολειπόµενη ζωή. Θεώρηµα : Έστω Χ τυχαία µεταβλητή µε µη αρνητικές τιµ µές, η οποία έχει συνάρτηση επιβίωσης. Η συνάρτηση βαθµού κινδύνου και η µέση υπολειπόµενη ζωή συνδέονται µέσω των σχέσεων. Για συνεχή τυχαία µεταβλητή µε τον τύπο : 20
, t 0 Για διακριτή τυχαία µεταβλητή µε τον τύπο:, t = 0,1,2,.. 2.6 Συνοπτικά Οι παρακάτω συναρτήσεις χρόνου επιβίωσης είναι µαθηµατικά ισοδύναµες. ηλαδή, αν γνωρίζουµε µία από αυτές µπορούν εύκολα να προκύψουν και οι υπόλοιπες. 21
Για µια τυχαία µεταβλητή Χ ( διακριτή ή συνεχή ) έχουµε ότι οι παραπάνω συναρτήσεις εκφράζουν : Η συνάρτηση επιβίωσης αξιοπιστίας ως τη χρονική στιγµή t H συνάρτηση πυκνότητας πιθανότητας αποτυχίας τη χρονική στιγµή t, την πιθανότητα να µην έχει αποτύχει, την πιθανότητα στιγµιαίας H συνάρτηση κινδύνου, την πιθανότητα αποτυχίας του συστήµατος στο χρόνο t, δοθέντος ότι αυτό επέζησε µέχρι τη χρονική στιγµή t. H µέση υπολειπόµενη ζωή, είναι η µέση υπολειπόµενη πόµενη ζωή που υπολείπεται σε µια συνιστώσα «ηλικίας t». ηλαδή η συνιστώσα που «έζησε» ως τη χρονική στιγµή t και εξακολουθεί να λειτουργεί στο χρόνο t. H µέση υπολειπόµενη ζωή είναι καταλληλότερος δείκτης της φθοράς, της παλαίωσης ή της γήρανσης από την 22
23
Κεφάλαιο 3ο 3.1Στατιστικά Μοντέλα Χρόνου αποτυχίας Για να περιγραφεί µαθηµατικά η διάρκεια ζωής ενός υλικού, ενός εξαρτήµατος, ενός συστήµατος ή ενός οργανισµού χρειάζεται µία κατανοµή αποτυχίας. Υπάρχουν πολλές φυσικές αιτίες οι οποίες, είτε µεµονωµένα είτε από κοινού, µπορεί να είναι υπεύθυνες για την αποτυχία ενός συστήµατος σε κάθε χρονική στιγµή. εδοµένου ότι δεν είναι δυνατόν να αποµονώσει κανείς τις φυσικές αυτές αιτίες και να τις λάβει όλες υπόψη του, η επιλογή του κατάλληλου µοντέλου είναι µια διαδικασία δύσκολη. Όµως, υπάρχουν κάποιες στατιστικές κατανοµές, µε επαρκή αριθµό ιδιοτήτων, που διευκολύνουν τη προσέγγιση σε διάφορα φυσικά φαινόµενα και χρησιµοποιούνται για 24
την µελέτη των δεδοµένων επιβίωσης. Όπως έχει αναφερθεί τα δεδοµένα επιβίωσης καθώς και οι συναρτήσεις επιβίωσης εκφράζουν την πιθανότητα η συνιστώσα του συστήµατος να έχει ή να µην έχει αποτύχει έως τη χρονική στιγµή t. Οι κατανοµές αυτές ή αλλιώς τα µοντέλα χρόνου αποτυχίας είναι : I. Η εκθετική κατανοµή (Εxponential) II. H κατανοµή Weibull III. Η κατανοµή Γάµµα IV. Η λογαριθµοκανονική κατανοµή (Lognormal) V. H κατανοµή Pareto VI. Η λογαριθµολογιστική κατανοµή (Log-logistic) VII. Η γεωµετρική κατανοµή (Geometric) Οι πρώτες τέσσερις κατανοµές έχουν χαρακτηρισθεί άλλες περισσότερο και άλλες λιγότερο ως κατανοµές χρόνου ζωής (lifetimedistributions). Όµως και άλλες κατανοµές ικανοποιούν ένα σηµαντικό αριθµό ιδιοτήτων και εποµένως µπορούν να χρησιµοποιηθούν µε επιτυχία για την αντιµετώπιση συναφών προβληµάτων. 3.2Εκθετική κατανοµή Η εκθετική κατανοµή ανήκει στην οικογένεια των συνεχών κατανοµών πιθανότητας. Περιγράφει το χρόνο µεταξύ γεγονότων που συµβαίνουν συνεχώς και ανεξάρτητα µε ένα σταθερό µέσο ρυθµό. Είναι η απλούστερη κατανοµή, ιδιαίτερα ενδιαφέρουσα στις πρακτικές εφαρµογές λόγω των µαθηµατικών ιδιοτήτων της και συνήθως εµφανίζεται σε 25
περιπτώσεις όπου µελετάµε το χρόνο αναµονής µέχρι την πραγµατοποίηση ενός γεγονότος. Συµβολίζεται Χ ~ exp(λ), t 0, λ > 0 Ορισµός : Μια συνεχής τυχαία µεταβλητή Χ, λέγεται ότι ακολουθεί την εκθετική κατανοµή µε παράµ µετρο λ>0, αν έχει συνάρτηση επιβίωσης : S(t) = Ησυνάρτηση κατανοµής πιθανότητας (αποτυχίας) της Χ, είναι :, t 0, λ> 0 Η συνάρτηση πυκνότητας πιθανότητας (αποτυχίας) της Χ, είναι : (t) = λ, t 0, λ> 0 Βασικές ιδιότητες της κατανοµής: o Mέση τιµή : E(X) = o ιασπορά : Var(X) = 3.3Κατανοµή Weibull Hκατανοµή Weibullείναι η πιο δηµοφιλής κατανοµή στο πλαίσιο της Θεωρίας Επιβίωσης και αποτελεί γενίκευση της εκθετικής κατανοµής. Επειδή όµως δεν χαρακτηρίζεται από σταθερή συνάρτηση κινδύνου, έχει ευρύτερο φάσµα εφαρµογών. 26
Συµβολίζεται Χ ~ Weibull( λ, p ), t 0, λ > 0 και p> 0 Ορισµός : Μια συνεχής τυχαία µεταβλητή Χ, λέγεται ότι ακολουθεί την κατανοµή Weibull µε παραµέτρους λ>0, p>0, αν έχει συνάρτηση επιβίωσης : S(t) =, t 0, λ> 0 και p> 0 Ησυνάρτηση κατανοµής πιθανότητας (αποτυχίας) της Χ, είναι :, t 0, λ> 0 και p> 0 Η συνάρτηση πυκνότητας πιθανότητας (αποτυχίας) της Χ, είναι : (t) = pλ, t 0, λ> 0και p> 0 Βασικές ιδιότητες της κατανοµής: o Mέση τιµή : E(X) = o ιασπορά : Var(X) = [ Γ ( Η µορφή της συνάρτησης βαθµού κινδύνου στην περίπτωση που η κατανοµή του χρόνου ζωής είναι Weibull καθορίζεται από την παρακάτω πρόταση : Έστω Χ συνεχής τυχαία µεταβλητή που ορίζεται στο [ 0, + ). Τότε η Χ ακολουθεί την Weibull ( λ,p ), λ,p>0 αν και µόνο αν η συνάρτηση βαθµού κινδύνου δίνεται από την σχέση : Μοντέλα που οδηγούν στην κατανοµή 1. Αν η συνάρτηση βαθµ µού κινδύνου κατά τη χρονική στιγµή t είναι δυναµοσυνάρτηση του χρόνου τότε η κατανοµή της τυχαίας µεταβλητής Χ που περιγράφει το χρόνο ζωής ενός εξαρτήµατος είναι η Weibullµε παραµέτρους λ, p> 0. 27
2. Hασυµπτωτική κατανοµή της µικρότερης διατεταγµένης στατιστικής συνάρτησης από µια προκαθορισµένη κατανοµή πιθανότητας αποδεικνύεται ότι είναι η κατανοµή Weibull. 3.4Kατανοµή Γάµµα Hκατανοµή Γάµµα είναι εξίσου σηµαντική και µπορεί να θεωρηθεί ως γενίκευση της εκθετικής κατανοµής. Συµβολίζεται Χ ~ Γαµµα ( α, β ), t> 0, α> 0 και β> 0 Ορισµός : Μια συνεχής τυχαία µεταβλητή Χ, λέγεται ότι ακολουθεί την κατανοµή Γάµµα µε παραµέτρους α>0, β>0, αν έχει συνάρτησηη επιβίωσης : S(t) =, t> 0 καιy > 0 Όπου Γ(α) =, t> 0 Eιδικές περιπτώσεις : 3 Γ(1) = 1 4 Γ( 5 Γ(t) = ( t-1 ) Γ ( t-1 ), αν t>1 6 Γ(t) = ( n-1 )!, αν t = n N Ησυνάρτηση κατανοµής πιθανότητας (αποτυχίας) της Χ, είναι :, t > 0 και y > 0 Η συνάρτηση πυκνότητας πιθανότητας (αποτυχίας) της Χ, είναι : (t) =, t> 0, y> 0 28
Τυποποιηµένη κατανοµή Γάµµα, λέγεται η κατανοµή Γάµµα µε παραµέτρους α=1, β=1 Η συνάρτηση πυκνότητας πιθανότητας (αποτυχίας) της Χ, είναι : (t) =, t> 0, y> 0 Βασικές ιδιότητες της κατανοµής: o Mέση τιµή : E(X) = o ιασπορά : Var(X) = 3.5Λογαριθµοκανονική κατανοµή ( Log-normal ) Είναι µια συνεχής κατανοµή πιθανότητας για µια µη αρνητική τυχαία µεταβλητή Χ. Χρησιµοποιείται στην Ανάλυση Επιβίωσης ως ένα παραµετρικό µοντέλο για συµβάντα, ποσοστό των οποίων αυξάνεται αρχικά και µειώνεται αργότερα. Συµβολίζεται Χ ~ Λ ( µ, ), µ 0, σ > 0 Ορισµός : Μια συνεχής τυχαία µεταβλητή Χ, λέγεται ότι ακολουθεί την λογαριθµική κατανοµή, αν Χ είναι ο χρόνος ζωής ενός εξαρτήµατος και Y=lnX~N ( µ, και έχει συνάρτηση επιβίωσης : S(t) =, t> 0, µ 0 καισ > 0 Ησυνάρτηση κατανοµής πιθανότητας (αποτυχίας) της Χ, είναι : dx, t> 0, µ 0 και σ > 0 29
Η συνάρτηση πυκνότητας πιθανότητας (αποτυχίας) της Χ, είναι : 30
31
Βασικές ιδιότητες της κατανοµής: o Mέση τιµή : E(X) = o ιασπορά : Var(X) = 3.6Κατανοµή Pareto Συµβολίζεται Χ ~ Pareto ( θ, α ) που ορίζεται στο [ θ,, α,θ > 0 Ορισµός : Μια συνεχής τυχαία µεταβλητή Χλέγεται ότι ακολουθεί την κατανοµή Pareto ( θ, α ), αν και µόνο αν η συνάρτηση βαθµού κινδύνου κατά τη χρονική στιγµή t είναι αντιστρόφως ανάλογη ως προς t και έχει συνάρτηση επιβίωσης : S(t) =, t θκαια,θ> 0 Ησυνάρτηση κατανοµής πιθανότητας (αποτυχίας) της Χ, είναι : = 1 - = 1 -, t θα,θ> 0 Η συνάρτηση πυκνότητας πιθανότητας (αποτυχίας) της Χ, είναι : (t) = α, t>θ, α,θ> 0 Βασικές ιδιότητες της κατανοµής: o Mέση τιµή : E(X) =αθ/(α-1), α > 1 o ιασπορά : Var(X) = αθ 2 /(α-1) 2 (α-2), α > 2 32
3.7Λογαριθµολογιστική κατανοµή ( Log-logistic ) Γνωστή και ως κατανοµή Fiskστην οικονοµία Συµβολίζεται Χ ~ Λ ( λ, p), t 0, λ > 0 και p> 0 Ορισµός : Μια συνεχής τυχαία µεταβλητή Χ λέγεται ότι ακολουθεί τη λογαριθµολογιστική κατανοµή µε παραµέτρουςλ,p> 0 ανέχει συνάρτηση επιβίωσης : S(t) =, t >0, λ> 0και p> 0 Ησυνάρτηση κατανοµής πιθανότητας (αποτυχίας) της Χ, είναι : = 1 - =, t> 0, λ>0 και p> 0 Η συνάρτηση πυκνότητας πιθανότητας (αποτυχίας) της Χ, είναι : 0και p> 0 (t) = λp(, t>0, λ> Βασικές ιδιότητες της κατανοµής: o Mέση τιµή : E(X) =, b =, p> 1 o ιασπορά : Var(X) = ( ), p> 2 3.8Γεωµετρική κατανοµ µή 33
Η γεωµετρική κατανοµή είναι µια διακριτή συνάρτηση κατανοµής τυχαίας µεταβλητής. Περιγράφει ένα τυχαίο πείραµα µε δυο πιθανά αποτελέσµατα (επιτυχία - αποτυχία) καιπιθανότητα επιτυχίας p που επαναλαµβάνεται µέχρι να έχουµε µια επιτυχία. Θεωρούµε την τυχαία µεταβλητή Χ που εκφράζει τον αριθµό των δοκιµών. Η πιθανότητα να χρειαστούµε n δοκιµές εως ότου να έχουµε µια επιτυχία µε πιθανότητα επιτυχίας p κάθε φορά είναι: P(X=n)=p(1 p)n 1. Συµβολίζεται Χ ~ G ( p), 0 <p< 1, q = 1- p Ορισµός : Μια διακριτή τυχαία µεταβλητή Χλέγεται ότι ακολουθεί την Γεωµετρική κατανοµή µε παράµετρουςp> 0 ανέχει συνάρτηση επιβίωσης : S(t) =, t =0,1,2, 0 < p < 1, q = 1- p Ησυνάρτηση κατανοµής πιθανότητας (αποτυχίας) της Χ, είναι : = 1 - = P ( X t ) = 1 - Η συνάρτηση πυκνότητας πιθανότητας (αποτυχίας) της Χ, είναι :, t = 0,1,2,, 0 < p < 1, q=1-p Βασικές ιδιότητες της κατανοµής: o Mέση τιµή : E(X) = o ιασπορά : Var(X) = 34
Κεφάλαιο 4 ο 4.1 Μη Παραµετρικές τεχνικές Σε αυτό το κεφάλαιο θα δούµε τις µεθόδους εκτίµησης της ανάλυσης επιβίωσης όσον αφορά την επιβίωση, την πυκνότητα, τον κίνδυνο και συναρτήσεις που αναφέρονται σε λογοκριµένα δεδοµένα. Στις περιπτώσεις λοιπόν που δεν µπορούµε να υποθέσουµε κανονικότητα στα δεδοµένα µας, υπάρχουν τεχνικές που δεν απαιτούν συγκεκριµένες υποθέσεις για την µορφή του πληθυσµού από τον οποίο προέρχονται τα δεδοµένα και µπορούν να χρησιµοποιηθούν τόσο σε µικρά όσο και σε µεγάλα δείγµατα. Είναι δηλαδή σχεδιασµένες για να µπορούν να χρησιµοποιηθούν ανεξάρτητα από την κατανοµή των δεδοµένων. Εποµένως µπορούν να χρησιµοποιηθούν τόσο σε κανονικούς όσο και σε µη κανονικούς πληθυσµούς. Για τον λόγο αυτό, οι τεχνικές αυτές ονοµάζονται ελεύθερες κατανοµών ή µη παραµετρικές τεχνικές ( distributionfreeήnon-parametrivmethods ).Εάν τα δεδοµένα ακολουθούν στην πραγµατικότητα την κανονική κατανοµή, τότε οι µη παραµετρικοί έλεγχοι υποθέσεων δεν είναι το ίδιο ισχυροί µε τους παραµετρικούς, οι οποίοι κάνουν την χρήση της κανονικότητας. Για δεδοµένη πιθανότητα σφάλµατος τύπου I, οι µη παραµετρικοί έλεγχοι έχουν υψηλότερη πιθανότητα σφάλµατος τύπου II. Ένας έλεγχος, ο οποίος αγνοεί πληροφορίες σχετικά µε τα δεδοµένα, όπως είναι για παράδειγµα η µορφή τη κατανοµής τους, δεν αναµένεται να είναι το ίδιο αποτελεσµατικός όπως ένας έλεγχος ο οποίος κάνει χρήση αυτής της πληροφορίας. Από την άλλη µεριά, εάν τα δεδοµένα δεν ακολουθούν την κανονική κατανοµή τότε οι µη παραµετρικοί έλεγχοι έχουν ένα σαφές πλεονέκτηµα έναντι των παραµετρικών ελέγχων. 35
Επίσης, επειδή οι µη παραµετρικοί έλεγχοι στηρίζονται σε ελάχιστες υποθέσεις για τους πληθυσµούς από τους οποίους προέρχονται τα δεδοµένα είναι πολύ ευσταθείς. Συνοψίζοντας τα παραπάνω έχουµε ότι οι µη παραµετρικές µέθοδοι : Αποβλέπουν σε ευρύτερα πεδία εφαρµογής λόγω του ότι οι κατανοµές στις οποίες αναφέρονται είναι λιγότερο περιορισµένες από ό,τι στα αντίστοιχα παραµετρικά προβλήµατα εν είναι εξίσου ισχυρές µε τις αντίστοιχες παραµετρικές µεθόδους Είναι περισσότερο ευσταθείς επειδή δεν επηρεάζονται από την µορφή της κατανοµής των δεδοµένων Μπορούν να εφαρµοστούν σε δεδοµένα που είναι ταξινοµηµένα σε κατηγορίες (κατηγορικά δεδοµένα) και τα οποία είναι σε κλίµακα διάταξης ή ακόµα και απλώς σε ονοµαστική κλίµακα (ενώ οι παραµετρικές µέθοδοι προϋποθέτουν ακριβείς µετρήσεις Μπορούν να θεωρηθούν ως προπαρασκευαστικές για τις παραµετρικές µεθόδους, µε την έννοια ότι, η χρησιµοποίηση µιας παραµετρικής µεθόδου, η οποία βασίζεται στην κανονικότητα, θα πρέπει να έπεται ενός ελέγχου, µε µία µη παραµετρική µέθοδο, της υπόθεσης ότι τα δεδοµένα έχουν προέλθει από µια κανονική κατανοµή. 36
4.2Μη παραµετρικές Μέθοδοι Εκτίµησης των Συναρτήσεων Επιβίωσης για Πλήρες είγµα Aς εξετάσουµε πρώτα την απλή περίπτωση όπου όλοι οι ασθενείς παρατηρούνται µέχρι το θάνατο, έτσι ώστε οι χρόνοι επιβίωσης να είναι γνωστοί και ακριβείς. Έστω,,, οι ακριβείς χρόνοι επιβίωσης για το δείγµα n ατόµων που βρίσκονται υπό µελέτη. Τους χρόνους αυτούς τους επανατοποθετούµε σε αύξουσα σειρά έτσι ώστε :. H συνάρτηση της ανάλυσης επιβίωσης µπορεί να εκτιµηθεί από τον τύπο : ( = =1- ( 4.2.1 ) Όπου n i είναι ο αριθµός των ατόµων στο δείγµα της ανάλυσης επιβίωσης µεγαλύτερο από το t(i). Ισοβαθµίες ( tiedobservations ) Aν δύο ή περισσότεροι χρόνοι επιβιώσεις είναι ίσοι, δηλαδή = (δηλαδή οι παρατηρήσεις συµπίπτουν), τότε η µεγαλύτερη από τις i τιµές θα χρησιµοποιηθεί. Για παράδειγµα, αν = τότε : ( = ( = ( = 37
Αφού, κάθε άτοµο είναι ζωντανό στης αρχή της µελέτης και δεν ζει περισσότερο από το χρόνο έχουµε ότι : ( = 1 και ( = 0 ( 4.2.2 ) ηλαδή, στην αρχή των χρόνων δεν έχουµε κανένα θάνατο και µετά το χρόνο µονάδα δεν θα έχει επιβιώσει. καµία Στην πράξη η ( ) είναι µία βηµατική συνάρτηση ( stepfunction ), όπως υποδηλώνεται από τους τύπους ( 4.1.1) και ( 4.1.2 ) η οποία ξεκινά από την τιµή 1 και φθίνει µε βήµα µέχρι το 0. Αν κάνουµε το διάγραµµα της ( ως προς το χρόνο, µπορούµ µε, µε την βοήθεια αυτού, να υπολογίσουµε τα κυριότερα στατιστικά µέτρα της τυχαίας µεταβλητής που περιγράφει το χρόνο επιβίωσης. 38
4.3 Μη παραµετρικές µέθοδοι εκτίµησης των συναρτήσεωνν επιβίωσης για δείγµα µε περικοµµένες παρατηρήσεις. Επειδή τις περισσότερες φορές τα δείγµατα των δεδοµένων διάρκειας ζωής δεν είναι πλήρη, αλλά υπάρχει λογοκρισία στους χρόνους επιβίωσης, η συνάρτηση επιβίωσης µπορεί να εκτιµηθεί µε την µέθοδο product limit ( που προτάθηκε από τους KaplanκαιMeierτο 1958) και αποδεικνύεται ότι : ( ) = - όπου r είναι θετικός ακέραιος για τον οποίο ισχύει - και είναι µη περικοµµένη παρατήρηση Iσοβαθµίες ( tiedobservations ) 39
Eάν έχουµε δύο ή περισσότερες τιµές των ίσες, σε αυτή την περίπτωση οι αντίστοιχες εκτιµήσεις της συνάρτησης επιβίωσης θα πρέπει να ταυτίζονται. Συµβατικά επιλέγεται εκείνη που αντιστοιχεί στη µεγαλύτερη τιµή του i - ( συντηρητική εκτίµηση) δηλαδή επιλέγεται η µικρότερη εκτίµηση της συνάρτησης επιβίωσης. Για παράδειγµα, αν = και η είναι περικοµµένη, τότε ( = ( = ( = Hδιακύµανση, είτε το δείγµα είναι πλήρες είτε υπάρχουν περικοµµένες παρατηρήσεις, υπολογίζεται από τον τύπο Greenwood( 1926 ): Var [ ( = [ ( o Προφανώς, η διακύµανση είναι διαφορετική για κάθε Το τυπικό σφάλµα της εκτίµ µησης S(t) είναι : SE[ ( = Υπολογίζοντας το τυπικό σφάλµα της S(t), µπορούµε να κατασκευάσουµε µια 95% ζώνη εµπιστοσύνης για την S(t), µε βάση τον τύπο : 40
1,96 SE[ ( ] = 1,96 H µέση ζωή των υπό µελέτη µονάδων ταυτίζεται µε τη µέση υπολειπόµενη ζωή τους τη χρονική στιγµή t = 0, δηλαδή µ =. Ισχύει ότι :, t 0, εποµένως = αφού = 1 o ηλαδή το εµβαδόν κάτω από την εκτιµηθείσα συνάρτηση επιβίωσης ισούται αριθµητικά µε την εκτίµηση. Έστω m το πλήθος των µη περικοµµένων διακεκριµένων παρατηρήσεων και µέσης τιµής δίνεται από την σχέση : οι διατεταγµένες τιµές αυτών. Τότε η εκτίµηση της = 1,00 + o ηλαδή, το άθροισµα των εµβαδών όλων των ορθογωνίων κάτω από την εκτιµηθείσα καµπύλη επιβίωσης, ισούται αριθµητικά µε την εκτίµηση. Προϋποθέσεις για τον υπολογισµό του Πρέπει η εκτιµηθείσα καµπύλη επιβίωσης τελευταία παρατήρησηη να είναι µη περικοµµένη. να είναι κλειστή, δηλαδή η 41
Αν δεν ισχύει αυτό θεωρούµε συµβατικά ότι η καµπύλη κλείνει σε κάποια επόµενη χρονική στιγµή ( υποθετικής χρονικής τιµής και εκφράζουµε τον τύπο στην περίπτωση της Η διακύµανση της εκτίµησης προσδιορίζεται από την σχέση : Var( = o Όπου το r παίρνει εκείνες τις ακέραιες τιµές, για τις οποίες το αντιστοιχεί σε ακριβή χρόνο επιβίωσης o Και το ταυτίζεται αριθµητικά µε το εµβαδόν κάτω από την εκτιµηθείσα καµπύλη δεξιά από το Οπότε το, τάξης k, εκφραζόµενο από τις µη περικοµµένες παρατηρήσεις είναι : o Προφανώς έχουµε ότι : = Aν δεν υπάρχουν περικοµµένες παρατηρήσεις, o Ο τύπος για το ανάγεται στον : = o Και ο τύπος για την διακύµανση της εκτίµησης ανάγεται στον : Var( ) = Eίναι γνωστό από την κλασική συµπερασµατολογία ότι η Var( ) είναι µη αµερόληπτη εκτιµήτρια. 42
Για να διορθωθεί η µεροληψία, οι Kaplan Meier προτείνουν τις παρακάτω σχέσεις: o Var( ) =, όπου m το πλήθος των µη περικοµµενων παρατηρήσεων o Var( )= όπου n το µέγεθος του δείγµατος. 4.4 Υπολογισµός της ιαµέσου των εδοµένων Επιβίωσης Η κατανοµή των χρόνων επιβίωσης συνήθως είναι θετικά µετατοπισµένη, γι αυτό η διάµεσος είναι η καταλληλότερη έκφραση της θέσης της κατανοµής. Ο διάµεσος χρόνος επιβίωσης είναι ο χρόνος για τον οποίο ισχύει P ( X> ) = S( = 0,50, δηλαδή ο χρόνος πέρα από τον οποίο αναµένεται να επιβιώσει το 50% των ατόµων του υπό µελέτη πληθυσµού ή αλλιώς ο χρόνος θανάτου µε πιθανότηταα 50%. Η συνάρτηση επιβίωσης είναι µία βηµατική συνάρτηση και ο υπολογισµός του χρόνου µε ακριβή πιθανότητα 0,50 δεν είναι δυνατός, γι αυτό : - Αν υπάρχει κάποιο διαστήµατος ( ). µε S( = 0,50 ορίζουµε ως διάµ µεσο το µέσο του - An η τιµή S( = 0,50 βρίσκεται µεταξύ των σηµείων Α( ) και Β( της ευθείας y=0,50 µε την ΑΒ. ), υπολογίζουµε την τετµηµένη του σηµείου τοµής 4.5 Μέθοδος Kaplan Meier για τη συνάρτηση βαθµού κινδύνου 43
Όταν δεν υπάρχουν περικοµµ µένες παρατηρήσεις, µπορούµε να εκτιµήσουµε τη συνάρτηση βαθµού κινδύνου υπολογίζοντας το λόγο του αριθµού των θανάτων µέσα σ ένα συγκεκριµένο χρονικό διάστηµ µα προς τον αριθµό των ατόµων του συνόλουυ κινδύνου. Ως σύνολο κινδύνου ( Riskset ) τη χρονική στιγµή t, θεωρούµε το σύνολο των ατόµων που είναι εκτεθειµένα στον κίνδυνο θανάτου τη χρονική στιγµή t, δηλαδή το σύνολο των ατόµων που έχουν χρόνο επιβίωσης µεγαλύτερο ή ίσο του t, περικοµµένων και µη. Αν το χρονικό διάστηµα [ συνόλου κινδύνου τη χρονική στιγµή ] υπάρχουν θάνατοι και ο πληθικός αριθµός του είναι, τότε - Η συνάρτηση κινδύνου εκτιµάται από τη σχέση ( - H πιθανότητα θανάτου στο [ ] είναι ( - Η πιθανότητα επιβίωσης είναι : 1- επιβίωσης, που είναι η εκτίµηση της συνάρτησης Για την αθροιστική συνάρτηση βαθµού κινδύνου Η(t) έχουµε Η(t)= Για τη συνάρτηση επιβίωσης έχουµε S(t)= 44
Κεφάλαιο 5 ο Μη παραµετρικές Μέθοδοι Σύγκρισης Συναρτήσεων Επιβίωσης 5. 1 Εισαγωγή Στο κεφάλαιο αυτό θα περιγράψουµε τους σηµαντικότερους µη παραµετρικούς ελέγχους για τη σύγκριση δύο κατανοµών. Το πρόβληµα της σύγκρισης καµπυλών επιβίωσης είναι πολύ σηµαντικό στη µελέτη των δεδοµένων χρόνου ζωής. 45
Όταν τα δεδοµένα δεν περιέχουν περικοµµένες παρατηρήσεις, τότε χρησιµοποιούνται µη παραµετρικοί έλεγχοι, όπως ο Wilcoxon, omann-whitney, o Προσηµικός και άλλοι. Στην πράξη όµως, στα δεδοµ µένα χρόνου ζωής, υπάρχουν και περικοµµένες παρατηρήσεις, όποτε επιβάλλεται η χρήση αντίστοιχων, κατάλληλα προσαρµοσµένων ελέγχων, όπως ο CoxMantel, ologrank και ο γενικευµένος έλεγχος Wilcoxon των PetoandPeto. 5.2 Έλεχγος Cox Mantel O έλεγχος Cox- Mantel στηρίζεται στις µη περικοµµένες παρατηρήσεις και των δύο δειγµάτων. Για να διεξάγουµε τον παρακάτω έλεγχο στατιστικών υποθέσεων, έχουµε - : - : µε εφαρµογή του ελέγχου Cox-Mantel ενοποιούµε τα δείγµατα και έστω 46
.. k<n οι διακεκριµένοι, διατεταγµένοι χρόνοι επιβίωσης για τις µη περικοµµένες παρατηρήσεις, του ενοποιηµένου δείγµατος ( και των δύο οµάδων ). - όπου, το αντιστοιχεί στην µικρότερη τιµή των, I = 1,2,3, κ και - όπου, το αντιστοιχεί στην µεγαλύτερη τιµή των, I = 1,2,3, κ Αποδεικνύεται ότι η κατάλληλη Στατιστική Συνάρτηση Ελέγχου είναι η : U = Για την οποία ισχύει ότι : U ~ N ( 0, Var ( U )) - είναι το πλήθος των µη περικοµµένων παρατηρήσεων της οµάδας Ι - είναι το πλήθος των µη περικοµµένων παρατηρήσεων της οµάδας ΙΙ - είναι το πλήθος των διακεκριµένων, µε περικοµένων χρόνων δείγµατος του ενοποιηµένου - είναι το πλήθος των εµφανίσεων του κάθε µη περικοµµένου Eίναι προφανές ότι: Εποµένως, η στατιστική συνάρτηση : C = την τυποποιηµένη κανονική κατανοµή Ν (0, 1 ). ~ N ( 0.1 ) ακολουθεί ασυµπτωτικά 47
Η διακύµανσή της είναι : Var ( U ) = Έχουµε ότι : είναι ο πληθικός αριθµ µός του συνόλου κινδύνου ( risktest ) της πρώτης οµάδας, τη χρονική στιγµή. Mε τον όρο σύνολο κινδύνου µιας υπό µελέτη οµάδας τη χρονική στιγµή εννοούµε το σύνολο των µονάδων της οµ µάδας, οι οποίες είναι εκτεθειµένες σε «κίνδυνο» κατά τη χρονική στιγµή. Κατά συνέπεια είναι προφανές ότι ο πληθικός αριθµός του συνόλου κινδύνου µιας οµάδας κατά τη χρονική στιγµή ταυτίζεται µε το πλήθος των χρόνων, περικοµµένων ή µη περικοµµένων, οι οποίοι είναι µεγαλύτεροι ή ίσοι του. είναι ο πληθικός αριθµός του συνόλου κινδύνου της δεύτερης οµάδας (II), τη χρονική στιγµή. είναι ο πληθικός αριθµός του συνόλου κινδύνου του ενοποιηµένου δείγµατος, τη χρονική στιγµή. Είναι προφανές ότι. Tέλος,. 5.3 Έλεγχος Logrank O έλεχγος Logrank στηρίζεται σε όλες τις παρατηρήσεις και των δύο δειγµάτων, περικοµµένες και µη. Για να διεξάγουµε τον παρακάτω έλεγχο στατιστικών υποθέσεων, 48
- : - : µε εφαρµογή του ελέγχου Logrank, ενοποιούµε τα δύο δείγµατα και έστω.. Oι διακεκριµένοι, διατεταγµένοι χρόνοι επιβίωσης για τις περικοµµένες και µη περικοµµένες παρατηρήσεις, του ενοποιηµένου δείγµατος ( και των δύο οµάδων ). - όπου, το αντιστοιχεί στην µικρότερη τιµή των, i = 1,2,3, n και - όπου, το αντιστοιχεί στην µεγαλύτερη τιµή των, i = 1,2,3, n Η υλοποίηση του ελέγχου Logrank στηρίζεται στην αντιστοίχιση σε κάθε παρατήρηση, περικοµµένη ή µη περικοµµένη, ενός σκορ, έστω. Για τον προσδιορισµό των σκορς χρησιµοποιείται η συνάρτηση : 49
- όπου, το είναι µη περικοµµένη παρατήρηση - και το j είναι τέτοιο, ώστε να ισχύει. - είναι o πληθικός αριθµός του συνόλου κινδύνου του ενοποιηµένου δείγµατος, δηλαδή το πλήθος των µονάδων του ενοποιηµένου δείγµατος, περικοµµένων ή µη περικοµµένων, των οποίων ο χρόνος επιβίωσης είναι µεγαλύτερος ή ίσος του - είναι το πλήθος των εµφανίσεων του κάθε µη περικοµµένου Τα σκορς που χρησιµοποιούνται για τον έλεγχο Logrank ορίζονται ως εξής : - Στην περίπτωση που η παρατήρηση είναι µη περικοµµένη, της αντιστοιχίζεται ως σκορ το - Στην περίπτωση που η παρατήρηση είναι περικοµµένη, έστω της αντιστοιχίζεται ως σκορ το, όπου είναι η µεγαλύτερη µη περικοµµένη παρατήρηση, για την οποία ισχύει Aποδεικνύεται ότι η κατάλληλη Στατιστική Συνάρτηση Ελέγχου είναι : S = Όπου το άθροισµα των σκορς λαµβάνεται ως προς τη µία από τις δύο οµάδες και για την οποία ισχύει ότι : S ~ N ( 0, Var (S) ) Eποµένως, η στατιστική συνάρτηση : L = ~ N (0. 1) ακολουθεί ασυµπτωτικά την τυποποιηµένη κανονική κατανοµή N (0. 1). 50
Η διακύµανσή της είναι : Var(S) = - όπου, είναι το πλήθος των παρατηρήσεων της οµάδας I - όπου, είναι το πλήθος των παρατηρήσεων της οµάδας II - το πλήθος του ενοποιηµένου δείγµατος. 5.4 Ο Γενικευµένος έλεγχος Wilcoxon των PetoandPeto O γενικευµένος έλεγχος Wilcoxon των PetoandPeto στηρίζεται σε όλες τις παρατηρήσεις και των δύο δειγµάτων, περικοµµένες και µη. Για να διεξάγουµε τον παρακάτω έλεγχο στατιστικών υποθέσεων, - : - : µε εφαρµογή του ελέγχου PetoandPeto, ενοποιούµε τα δύο δείγµατα και 51
έστω... Oι διακεκριµένοι, διατεταγµένοι χρόνοι επιβίωσης για τις περικοµµένες και µη περικοµµένες παρατηρήσεις, του ενοποιηµένου δείγµατος ( και των δύο οµάδων ). - όπου, το αντιστοιχεί στην µικρότερη τιµή των, i = 1,2,3, n και - όπου, το αντιστοιχεί στην µεγαλύτερη τιµή των, i = 1,2,3, n Η υλοποίηση του ελέγχου PetoandPeto στηρίζεται στην αντιστοίχιση σε κάθε παρατήρηση, περικοµµένη ή µη περικοµµένη, ενός σκορ, έστω. Για τον προσδιορισµό των σκορς χρησιµοποιείται η συνάρτηση : ( )= - όπου, το είναι θετικός ακέραιος για τον οποίο ισχύει. - και το είναι µη περικοµµένη παρατήρηση. Ισοβαθµίες ( tiedobservations ) Έχουµε αν δύο ή περισσότερες τιµές των είναι ίσες. Σε αυτήν την περίπτωση οι αντίστοιχες εκτιµήσεις της συνάρτησης επιβίωσης θα πρέπει να ταυτίζονται. Συµβατικά επιλέγεται εκείνη που αντιστοιχεί στη µεγαλύτερη τιµή του i. (συντηρητική εκτίµηση), δηλαδή επιλέγεται η µικρότερη εκτίµηση της συνάρτησης επιβίωσης. Τα σκορς που χρησιµοποιούνται για τον έλεγχο PetoandPeto ορίζονται ως εξής : 52
- στην περίπτωση που η παρατήρηση είναι µη περικοµµένη, της αντιστοιχίζεται ως σκορ το ( ( Iσχύει ότι : ( - στην περίπτωση που η παρατήρηση είναι περικοµµένη, της αντιστοιχίζεται ως σκορ το (, όπου είναι η µεγαλύτερη παρατήρηση µη περικοµµένη, για την οποία ισχύει. Aποδεικνύεται ότι η κατάλληλη Στατιστική Συνάρτηση Ελέγχου είναι : S = Όπου το άθροισµα των σκορς λαµβάνεται ως προς τη µία από τις δύο οµάδες και για την οποία ισχύει ότι : S ~ N ( 0, Var (S) ) Eποµένως, η στατιστική συνάρτηση : Z = ~ N (0. 1) ακολουθεί ασυµπτωτικά την τυποποιηµένη κανονική κατανοµή N (0. 1). Η διακύµανσή της είναι : Var(S) = - όπου, είναι το πλήθος των παρατηρήσεων της οµάδας I - όπου, είναι το πλήθος των παρατηρήσεων της οµάδας II - το πλήθος του ενοποιηµένου δείγµατος. 53
5.5 Σύγκριση των στατιστικών τέστ Όπως αναφέρεται στο βιβλίο StatisticalMethodsforsurvivalDataAnalysis, δείγµατα που προέρχονται από εκθετικές κατανοµές, µε ή χωρίς περικοπή στα δεδοµένα, τα Cox- Manteltest και Logranktest είναι πιο ισχυρά και πιο αποδοτικά από τις γενικεύσεις του Wilcoxontest. Όταν όµως ο βαθµός κινδύνου δεν είναι σταθερός, οι δύο γενικεύσεις του Wilcoxontest έχουν µεγαλύτερη ισχύ από τα άλλα. Παράδειγµα: Ανάλυση πινάκων επιβίωσης σε επιδηµιολογικά δεδοµένα στο SPSS Σε µια κλινική µελέτη διερευνήθηκε η επιβίωση 130 γυναικών που είχαν προβληθεί από δύο διαφορετικούς τύπους καρκίνου του µαστού και υποβλήθηκαν σε τροποποιηµένη ριζική µαστεκτοµή. Η παρακολούθηση των γυναικών ολοκληρώθηκε ύστερα από µια 7ετία. Στο τέλος της 7ετίας ελέχθηκε η επιβίωσή τους σε σχέση µε τον ιστολογικό τύπο του όγκου. Η µεταβλητή που ορίζει τον χρόνο επιβίωσης είναι οι µήνες επιβίωσης, ενώ το τελικό γεγονός που διερευνάται είναι ο θάνατος (presentstatus ), ( 1= πέθανε, 0 = ζει ). Η εκτίµηση της επιβίωσης και των αντίστοιχων περιγραφικών µέτρων θα γίνει χωριστά για τους δύο ιστολογικούς τύπους του όγκου ( 1= µικτό, 0 = πορογενές ) ανά έτος για 7 χρόνια. Life Table 54
First-order Controls Πορογενές Ιστολογικός Τύπος Μικτό Interval Start time 0 12 24 36 48 60 72 0 12 24 36 48 60 72 Νumber Entering Interval Με την εισαγωγή των δεδοµένων στο SPSSπαίρνουµε όπως βλέπουµε παραπάνω, ένα µέρος από τον πίνακα επιβίωσης των δύο ιστολογικών τύπων. Για κάθε τύπο εµφανίζεται η περίοδος υπολογισµού της επιβίωσης, δηλαδή συνολικά 84 µήνες µε εύρος χρονικών διαστηµάτων 12 µήνες καθώς και τα αντίστοιχα περιγραφικά µέτρα επιβίωσης τα οποία είναι : IntervalStartTime :Ηαρχήκάθεχρονικού διαστήµατος.τα διαστήµαταα ξεκινάνε από το σηµείο 0 και έχουν εύρος 12 µήνες. Για παράδειγµα το πρώτο διάστηµα είναι = [0-12), το δεύτερο είναι =[12-24) κ.ο.κ Number Withdrawing during Interval Number Exposed to Risk Number of Terminal Events Proportion Terminating Proportion Surviving 98 0 98,0 2 0,02 0,98 96 4 94,0 2 0,02 0,98 90 0 90,0 4 0,04 0,96 86 0 86,0 14 0,16 0,84 72 2 71,0 6 0,08 0,92 64 26 51,0 8 0,16 0,84 30 16 22,0 2 0,09 0,91 34 0 34,0 0 0,00 1,00 34 0 34,0 2 0,06 0,94 32 0 32,0 6 0,19 0,81 26 0 26,0 8 0,31 0,69 18 0 18,0 6 0,33 0,67 12 2 11,0 2 0,18 0,82 8 2 7,0 0 0,00 1,00 Πίνακας 1 NumberEnteringInterval : Οσυνολικόςαριθµόςατόµων τα οποία είναι εν ζωή στην αρχή κάθε διαστήµατος. Για τον πορογενή τύπο ο αριθµός αυτός είναι 98 άτοµα για τον πρώτο χρόνο, 96 για τον δεύτερο κτλ. Αντίστοιχα για τον µικτό τύπο είναι 34 άτοµα για τον πρώτο χρόνο, 34 για το δεύτερο ( δηλαδή δεν υπάρχει θάνατος ) κλπ. NumberWithdrawingduringInterval :Oαριθµόςτωνατόµωνπουβρίσκονται εν ζωή στο τέλος της µελέτης µε χρόνο επιβίωσης µικρότερο του. Για τον πορογενή τύπο δεν υπάρχει κανένα άτοµο εν ζωή µε χρόνο επιβίωσης µικρότερο του ενός έτους, υπάρχουν 4 άτοµα µε χρόνο επιβίωσης µεταξύ ενός και δύο χρόνων, κανένα άτοµο µεταξύ δύο και τριών χρόνων 55
κ.ο.κ. Αντίστοιχα για τον µικτό τύπο δεν υπάρχουν άτοµα εν ζωή µε χρόνο επιβίωσης µικρότερο των πέντε χρόνων, υπάρχουν 2 µε χρόνο επιβίωσης µεταξύ 5 και 6 χρόνων. ΝumberExposedtoRisk : Οαριθµόςτωνατόµων που εκτίθενται στον κίνδυνο του θανάτου κατά το διάστηµα. Κατά τον πρώτο χρόνο για τον πορογενή τύπο είναι 98 άτοµα, κατά τον δεύτερο χρόνο 94 άτοµα ( ο αριθµός των ζωντανών στην αρχή του δεύτερου χρόνου εκτός από τους µισούς αποσυρθέντες κατά το ίδιο χρονικό διάστηµα ). Για τον µικτό τύπο αντίστοιχα 34 άτοµα τον πρώτο χρόνο, 34 το δεύτερο, 32 τον τρίτο κλπ. ΝumberofTerminalEvents : Οαριθµόςτωνατόµωνπου πέθαναν κατά το διάστηµα. Για τον πορογενή τύπο είναι 2 άτοµα για τον πρώτο χρόνο, 2 για τον δεύτερο, 4 για τον τρίτο κλπ. Αντίστοιχα για το µικτό τύπο είναι 0 άτοµα των πρώτο χρόνο, 2 το δεύτερο, 6 τον τρίτο κλπ. ProportionTerminating : Hπιθανότηταναπεθάνειένα άτοµο κατά της διάρκεια του. Οι πιθανότητες για τον πορογενή τύπο είναι 2/98=0,02 για τον πρώτο χρόνο, 2/94=0,02 για τον δεύτερο κ.ο.κ. Οµοίως για τον µικτό τύπο ProportionSurviving : Η πιθανότητα να επιβιώσει ένα άτοµο κατά τη διάρκεια του. Είναι οι συµπληρωµατικές των προηγούµενων τύπων. Για τον πορογενή είναι 1-2/98 =0,98 για τον πρώτο χρόνο και οµοίως για τα υπόλοιπα. Cumulative Proportion Surviving at End of Interval Std.Error of Cumulative Proportion Surviving at End of Interval Probability Density Std.Error of Probability Density Hazard Rate Std.Error of Hazard Rate 0,98 0,01 0,002 0,001 0,002 0,00 0,96 0,02 0,002 0,001 0,002 0,00 0,92 0,03 0,004 0,002 0,004 0,00 0,77 0,04 0,012 0,003 0,015 0,00 0,70 0,05 0,005 0,002 0,007 0,00 0,59 0,05 0,009 0,003 0,014 0,00 0,54 0,06 0,004 0,003 0,008 0,01 1,00 0,00 0,0000 0,000 0,000 0,00 0,94 0,04 0,005 0,003 0,005 0,00 56
0,76 0,07 0,015 0,005 0,017 0,01 0,53 0,09 0,0200 0,006 0,03 0,01 0,35 0,08 0,015 0,005 0,033 0,01 0,29 0,08 0,005 0,004 0,017 0,01 0,29 0,08 0,0000 0,000 0,000 0,00 Πίνακας 2 Στον πίνακα 2 έχουµε : CumulativeProportionSurvivingatEndofInterval : Είναιηαθροιστικήπιθανότηταεπιβίωσηςαπότηναρχήτουχρόνου παρακολούθησης µέχρι και το τέλος του διαστήµατος. Στο τέλος της 5ετίας είναι 0,70 για τον πορογενή και 0,35 για τον µικτό. Std.Error of Cumulative Proportion Surviving at End of Interval : ΤοτυπικόσφάλµατηςS( ). Hσυνάρτηση επιβίωσης εκτιµάται από τα δειγµατικά δεδοµένα, άρα ο υπολογισµός της εµπερικλείει την αβεβαιότητα της εκτίµησης. Ουσιαστικά εκτιµά την απόκλιση των τιµών της δειγµατικής συνάρτησης επιβίωσης από τις αντίστοιχες τιµές της πληθυσµιακής συνάρτησης. ProbabilityDensity : Η πιθανότητα να πεθάνει ένα άτοµο από το σύνολο των ατόµων της µελέτης, ανά µονάδα χρόνου του. Είναι η συνάρτηση πιθανότητας του χρόνου. Std.ErrorofProbabilityDensity : ΤοτυπικόσφάλµατηςProbabilityDensity. Eκφράζει την απόκλιση των τιµών της δειγµ µατικής συνάρτησης πιθανότητας από τις αντίστοιχες τιµές της πληθυσµιακής. HazartRate : Ο ρυθµός τω ατόµων που αποβιώνουν ανά µονάδα χρόνου του. είχνει στην ουσία την ταχύτητα µε την οποία καταγράφονται οι θάνατοι σε κάθε χρονικό διάστηµα. Std.ErrorofHazartRate : Αποτελείµέτροτης απόκλισης των τιµών της δειγµατικής συνάρτησης διακινδύνευσης από τις αντίστοιχες τιµές της πληθυσµιακής συνάρτησης. Median Survival Time 57
First-order Controls Med time Ιστολογικός τύπος Πορογενές 84,00 Μικτό 50,00 Πίνακας 3 Στον Πίνακα 3 εµφανίζονται οι διάµεσοι χρόνοι επιβίωσης για τους δύο ιστολογικούς τύπους. Για το µικτό, το χρονικό διάστηµα κατά το οποίο έχουν αποβιώσει τα µισά από τα άτοµα είναι οι 50 µήνες, ενώ για το πορογενές ο µέσος χρόνος είναι µεγαλύτερος από τους 84 µήνες. Comparisons for Control Variable: type Wilcoxon Statistic 11,125 df Sig. 1 0,001 Πίνακας 4 Στον πίνακα 4 γίνεται η σύγκριση των κατανοµών επιβίωσης των δύο ιστολογικών τύπων, µέσω της γενικευµένης δοκιµασίας του Wilcoxon. Hτιµή της συνάρτησης του ελέγχου στην προκειµένη περίπτωση είναι 11,125, ενώ η πιθανότητα να πάρει η αντίστοιχη κατανοµή µια τόσο ακραία τιµή είναι Sig=0,001. Eποµένως η υπόθεση ότι οι δύο δειγµατικές κατανοµές προέρχονται από την πληθυσµιακή κατανοµή µπορεί να απορριφθεί. Η διαφοροποίηση της επιβίωσης των δύο ιστολογικών τύπων γίνεται έντονα εµφανής και από την ταυτόχρονη απεικόνιση των αντίστοιχων καµπυλών επιβίωσης στο παρακάτω διάγραµµα : Survival Function 1,0 - Iστολογικός τύπος Πορογενές 58
0,8 - Μικτό 0,6-0,4-0,2-0,0-0 12 24 36 48 60 72 ιάγραµµα 1 Μέχρι και το δεύτερο χρόνο περίπου της παρακολούθησης ( 24 µήνες ) οι δύο κατανοµές επιβίωσης ελάχιστα διαφοροποιούνται και από την αρχή του τρίτου χρόνου και µετά παρατηρείται µια απότοµη πτώση της επιβίωσης του µικτού τύπου από το 94% στο 76%. Η πτώση αυτή συνεχίζεται και τα επόµενα τέσσερα χρόνια καταλήγοντας στο 53% στο τέλος του τέταρτου χρόνου, στο 35% στο τέλος του πέµπτου και στο 29% στο τέλος του έκτου χρόνου. Οι αντίστοιχες τιµές του πορογενούς τύπου για τα ίδια χρόνια είναι 92%, 77%, 70% και 59%. Η απότοµη πτώση της επιβίωσης του µικτού τύπου από την αρχή του τρίτου χρόνου ουσιαστικά ορίζει µια σηµαντική αύξηση του ρυθµού διακινδύνευσης της θνησιµότητας κατά το αντίστοιχο διάστηµα, ο οποίος αυξάνει στο0,017 από το 0,005 που ήταν κατά τη διάρκεια του δεύτερου χρόνου και καταλήγει διαδοχικά τα επόµενα δύο χρόνια στο 0,030 και 0,033 αντίστοιχα. Από την άλλη, οι τιµές του ρυθµού διακινδύνευσης για τον πορογενή τύπο τα χρόνια αυτά είναι πολύ µικρότερες στα 0,002, 0,004, 0,015 και 0,007 αντίστοιχα. Μετά την πενταετία η θνησιµότητα πέφτει σηµαντικά για τον µικτό τύπο, ενώ για τον πορογενή, µε εξαίρεση µια έξαρση κατά τον έκτο χρόνο, παραµένει γενικώς χαµηλή αντίστοιχη µε τα επίπεδα των προηγούµενων χρόνων. Το παρακάτω διάγραµµα κάνει εµφανή τη διαφοροποίηση του ρυθµού διακινδύνευσης των δύο ιστολογικών τύπων. 59
Hazard Function 0,04 - Ιστολογικός τύπος Πορογενές 0,03 - Μικτό Πορογενές Μικτό 0,02-0,01-0,00-0 12 24 36 48 60 72 Κaplan Meier ιάγραµµα 2 Κατά την κατασκευή ενός πίνακα επιβίωσης µε την προηγούµενη µέθοδο, η περίοδος παρακολούθησης έπρεπε να υποδιαιρεθεί σε ισοµήκη χρονικά διαστήµατα, όπως έτη, µήνες, εβδοµάδες κλπ., ανάλογα µε το είδος και τη χρονική στιγµή της µελέτης. Για κάθε χρονικό διάστηµα, µε βάση τον αριθµό των παρατηρήσεων που υπεισέρχονται σ αυτό, τον αριθµό των τελικών γεγονότων και τον αριθµό των λογοκριµένων παρατηρήσεων, εκτιµάται η πιθανότητα πραγµατοποίησης του τελικού γεγονότος, δηλαδή η πιθανότητα επιβίωσης. Οι επιµέρους εκτιµήσεις των πιθανοτήτων επιβίωσης χρησιµοποιούνται για την εκτίµηση της αθροιστικής πιθανότητας επιβίωσης µέχρι το τέλος κάθε διαστήµατος και εν τέλει για τον υπολογισµό της συνάρτησης επιβίωσης. Η µέθοδος της Kaplan Meierπραγµατοποιεί µια ανάλογη διαδικασία, κάνοντας περίπου παραδοχές κατά την εκτίµηση της συνάρτησης επιβίωσης χωρίς όµως να υποδιαιρεί την περίοδο µελέτης σε ισοµήκη χρονικά διαστήµατα. 60