Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά ου Πανελληνίου Συνεδρίου Στατιστικής (8), σελ 3-4 ΑΚΡΙΒΕΙΑ ΕΝΟΣ ΔΙΤΙΜΟΥ ΔΙΑΓΝΩΣΤΙΚΟΥ ΕΛΕΓΧΟΥ ΠΟΥ ΕΞΑΡΤΑΤΑΙ ΑΠΟ ΤΟ ΧΡΟΝΟ Μπαντής Λεωνίδας, Τσιμήκας Γιάννης, Γεωργίου Στέλιος Τμήμα Στατιστικής & Αναλογιστικών Χρημ/κών Μαθηματικών, Παν/μιο Αιγαίου Σχολή Θετικών Επιστημών, Σάμος. {lbants, tsmkas, stgeorgou}@aegean.gr ΠΕΡΙΛΗΨΗ Η χρήση διαγνωστικών ελέγχων με σκοπό την πρόβλεψη της μελλοντικής κατάστασης ενός ατόμου είναι αρκετά διαδεδομένη. Η αξιολόγηση ενός διαγνωστικού ελέγχου απαιτεί την πληροφορία της πραγματικής κατάστασης του ασθενούς που παρέχεται από την gold standard (ασφαλή) διαδικασία. Στην πραγματικότητα το αποτέλεσμα του διαγνωστικού ελέγχου ενός ατόμου εξαρτάται από τον χρόνο. Για αυτό θεωρούμε την ευαισθησία σαν συνάρτηση του χρονικού διαστήματος μεταξύ μέτρησης και γεγονότος, ενώ η ειδικότητα καθορίζεται από την απουσία του γεγονότος μέσα σε ένα μεγάλο χρονικό διάστημα [,τ] από τη στιγμή της μέτρησης του διαγνωστικού ελέγχου. Χρησιμοποιώντας γενικευμένα γραμμικά μοντέλα, η εκτίμηση των παραμέτρων γίνεται με μεγιστοποίηση της προσεγγιστικής συνάρτησης πιθανοφάνειας. Ταυτόχρονα εξετάζουμε την εκτίμηση του τ. Χρησιμοποιούμε προσομοιώσεις για να αξιολογήσουμε τους εκτιμητές μας.. ΕΙΣΑΓΩΓΗ Η αξιολόγηση ενός διαγνωστικού ελέγχου που έχει σκοπό την πρόβλεψη της μελλοντικής κατάστασης ενός ατόμου έχει ιδιαίτερο κλινικό ενδιαφέρον. Ένας διαγνωστικός έλεγχος για παράδειγμα που μπορεί να κάνει πρόβλεψη για έμφραγμα του μυοκαρδίου ή εγκεφαλικό είναι ο δείκτης Framngham (Wlson et al, ). Εξέταση των γονιδίων από προσβεβλημένους ιστούς είναι δυνατόν να είναι ενδεικτική του υπολειπόμενου χρόνου επιβίωσης των καρκινοπαθών στην περίπτωση του καρκίνου του μαστού (Veer et al, ). Η αξιολόγηση των μετρήσεων ενός διαγνωστικού ελέγχου (Y), γίνεται βάσει των αποτελεσμάτων της ασφαλούς διαδικασίας (gold standard). Η ευαισθησία (TPR) και η πιθανότητα ενός εσφαλμένα θετικού αποτελέσματος (FPR) αντίστοιχα, δίνονται από τις παρακάτω σχέσεις TPR( y) P( Y y ), FPR( y) P( Y y ), με = να δηλώνεται η παρουσία της νόσου, και με = η απουσία της. Έτσι η ειδικότητα (TNR) δίνεται από P ( Y y ). - 3 -
Σε αυτήν την εργασία θα θεωρήσουμε κάποια μοντέλα για την ευαισθησία και τo FPR που θα λαμβάνουν υπόψη το χρόνο καθώς και μια συμμεταβλητή (παράγοντα κινδύνου) Ζ. Ο χρόνος Τ μπορεί να υποστεί δεξιά λογοκρισία. Θεωρούμε επίσης κάποιο μακρινό χρονικό σημείο τ. Άτομα που επιβιώνουν πέραν του χρονικού σημείου τ θα θεωρούνται υγιή (controls) ενώ άτομα που δεν καταφέρνουν να επιβιώσουν ως το τ θα θεωρούνται ασθενείς (cases). Έτσι για το -οστό άτομο με συμμεταβλητή Ζ η ευαισθησία τη χρονική στιγμή t και το FPR αντίστοιχα είναι: TPR FPR ( y) P( Y y T t, Z ), αν t Z, t ( y) P( Y y T, Z Z,. ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΕΚΤΙΜΗΣΕΙΣ ΓΙΑ ΤΗΝ ΠΕΡΙΠΤΩΣΗ ΕΝΟΣ ΔΙΤΙΜΟΥ ΔΙΑΓΝΩΣΤΙΚΟΥ ΕΛΕΓΧΟΥ. ). Υποθέτουμε ότι ο διαγνωστικός έλεγχος (Υ) δίνει δίτιμα δεδομένα (Υ= σημαίνει θετικό αποτέλεσμα, Υ= αρνητικό αποτέλεσμα). Αν με C συμβολίσουμε τη μεταβλητή λογοκρισίας τότε η πληροφορία που έχουμε είναι η τ.μ. Χ=mn(T,C) και η δείκτρια δ=ι(τ C). Έτσι τα δεδομένα μας θα είναι της μορφής Y, Z, X,,,..., n. Υποθέτουμε τα ακόλουθα δύο μοντέλα (Ca et.al, 6) για την ευαισθησία και την ειδικότητα TPRt, Z g a t Z h FPR g b Z, c Z όπου g ( ) και g ( ) είναι συναρτήσεις σύνδεσης (π.χ. g ( )= g ( )=-Φ( )). Αν συμβολίσουμε όλες τις προς εκτίμηση παραμέτρους a,, b, c, h στα παραπάνω μοντέλα με ψ τότε η πιθανοφάνεια των δεδομένων θα είναι: όπου p ) : ( n Y p p Y, () - 3 -
TPR X Z X,, αν, TPRt, Z ds Z ( t) FPR Z S, Z ( ) X p ( ) αν X, () S Z ( X ) FPR, Z αν X Ο πρώτος κλάδος αφορά στους ασθενείς, ήτοι άτομα που απεβίωσαν πριν το χρονικό σημείο τ. Ο τρίτος κλάδος αφορά στους υγιείς, ήτοι άτομα που επέζησαν πέραν του χρονικού σημείου τ. Ο δεύτερος κλάδος αφορά σε άτομα που λογοκρίθηκαν πριν το τ, που έχει ως αποτέλεσμα να μην γνωρίζουμε την πραγματική τους κατάσταση (health status). Συνεπής εκτιμητής του ψ υπολογίζεται εύκολα με τη μεγιστοποίηση της πιθανοφάνειας που προκύπτει αν λάβουμε υπόψη μόνο τον πρώτο και τρίτο κλάδο της σχέσης (). Σε αυτήν την περίπτωση έχουμε ένα κλασσικό γενικευμένο γραμμικό μοντέλο και η εκτίμηση γίνεται με τη χρήση υπαρχόντων στατιστικών πακέτων. Εν αντιθέσει, αν λάβουμε υπόψη και τον δεύτερο κλάδο η εκτίμηση του ψ γίνεται δυσκολότερη καθότι χρειάζεται εκτιμήτρια της συνάρτησης επιβίωσης. Αν υποθέσουμε ένα μοντέλο ανάλογων κινδύνων για την T τότε μπορούμε να Z χρησιμοποιήσουμε το μοντέλο του Cox ( h( t) h ( t)exp( Z) ) και εκτιμούμε τη συνάρτηση επιβίωσης ως: S Z ( t) exp H ( t)exp Z (3) όπου ( t) είναι ο Breslow εκτιμητής της αθροιστικής συνάρτησης κινδύνου και είναι ο Εκτιμητής Μεγίστης Μερικής Πιθανοφάνειας για τον συντελεστή γ του μοντέλου του Cox. Έτσι χρησιμοποιώντας την () μπορούμε να εκτιμήσουμε τις παραμέτρους του ψ μεγιστοποιώντας την προσεγγιστική πιθανοφάνεια που ορίζεται από την () όπου τα (t) εκτιμούνται από την (3). Στην περίπτωση που η H SZ λογοκρισία δεν ήταν ανεξάρτητη από το χρόνο μέχρι το θάνατο θα μπορούσε να χρησιμοποιηθεί μη παραμετρική εκτίμηση της συνάρτησης επιβίωσης (Cheng, 989). 3. ΕΚΤΙΜΗΣΗ ΤΟΥ τ. Στα παραπάνω υποθέσαμε ότι γνωρίζουμε το μακρινό χρονικό σημείο τ το οποίο μας υπαγορεύει ποια άτομα νοσούν και ποια όχι. Είναι αναμενόμενο πως τα αποτελέσματα του διαγνωστικού ελέγχου θα διαφέρουν στις δύο ομάδες (υγιών και ασθενών). Από το χρονικό σημείο τ και μετά οι μετρήσεις του διαγνωστικού ελέγχου αλλάζουν «μοτίβο». Θα αναφερόμαστε στο τ σαν σημείο μεταβολής. Στην απλή - 33 -
περίπτωση χωρίς συμμεταβλητές υποθέτουμε δύο απλά γενικευμένα γραμμικά μοντέλα οντέλο Ι, αν t Ε(Y t )= οντέλο ΙΙ, αν t Τότε κάτω από την υπόθεση της συνέχειας στο τ είναι δυνατή η εκτίμηση του σημείου μεταβολής τ. Στην περίπτωση που δεν έχουμε συνέχεια, δεν είναι δυνατή η εκτίμηση του σημείου μεταβολής και το μόνο που μπορούμε να κάνουμε είναι να μετρήσουμε πόσα άτομα εμπίπτουν σε κάθε περίπτωση (Seber & Wld, 989). Αλγόριθμο για την εκτίμηση ενός σημείου μεταβολής που αφορά σε δύο κανονικά γραμμικά μοντέλα με την παρουσία συμμεταβλητών είχε προτείνει ο Ηudson (966). Ο αλγόριθμος αυτός γενικεύθηκε για την εκτίμηση ενός σημείου μεταβολής και στην περίπτωση γενικευμένων γραμμικών μοντέλων από τον Kuchenhoff (997). 3.. ΕΚΤΙΜΗΣΗ ΤΟΥ ΣΗΜΕΙΟΥ ΜΕΤΑΒΟΛΗΣ ΓΙΑ ΔΥΟ ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ Έστω ότι έχουμε n, n n άτομα που ανήκουν αντίστοιχα στα γραμμικά μοντέλα που είναι συνεχή στο. Y Y T, T, a Ta a T, n T,,, n, T, n T, n T, n, n, n, n με ~N(,), a [ a a], [ ]. Έτσι η πιθανοφάνεια των δεδομένων θα είναι n n fy ( y ; a, ) fy ( y ;, ) n, και πρέπει να μεγιστοποιηθεί κάτω από τον περιορισμό aˆ aˆ ˆ ˆ. Σαρώνοντας για όλα τα πιθανά μπορούμε να πάρουμε το γράφημα της profle πιθανοφάνειας. Ωστόσο θα ήταν προτιμότερη η χρήση κάποιου ακριβούς αλγορίθμου. - 34 -,
Ο αλγόριθμος που πρότεινε ο Hudson τo 966 βρίσκει τις θέσεις στις οποίες βρίσκονται όλα τα πιθανά μέγιστα της profle πιθανοφάνειας και έπειτα επιλέγεται η θέση στην οποία επιτυγχάνεται το ολικό μέγιστο. Πιθανό μέγιστο έχουμε σε όλα τα σημεία στα οποία έχουμε δεδομένα (x ), καθώς και στα σημεία εκείνα στα οποία οι εκτιμημένες ευθείες παλινδρόμησης τέμνονται, αρκεί αυτή τους η τομή να συμβαίνει στο ( x x ). Αν η τομή των εκτιμημένων ευθειών παλινδρόμησης συμβαίνει στο n n x n, x n, ( ) τότε έχουμε τοπικό μέγιστο και υποψήφιο ολικό μέγιστο της profle ˆ πιθανοφάνειας στο ( ) /( ). Έτσι για όλες τις πιθανές τιμές που μπορεί να πάρει το n ( n =,3,...n-) βρίσκουμε πεπερασμένο πλήθος υποψήφιων μεγίστων και κατά συνέπεια το ολικό μέγιστο της profle πιθανοφάνειας που αντιστοιχεί στην εκτίμηση του ˆ. Στην περίπτωση των δίτιμων δεδομένων η γενίκευση είναι άμεση. Κάνουμε την ίδια διαδικασία προσαρμόζοντας κατάλληλα γενικευμένα γραμμικά μοντέλα αντί για γραμμικά για κάθε πιθανή τιμή του. Ωστόσο χρειάζεται προσοχή κατά την εύρεση των πιθανών τιμών που μπορεί να πάρει το a,. 4. ΠΡΟΣΟΜΟΙΩΣΕΙΣ τ γνωστό n n για να είναι δυνατή η εύρεση των Αρχικά προσομοιώσαμε δεδομένα και εκτιμήσαμε τις παραμέτρους του ψ ως εξής: Προσομοιώσαμε τη συμμεταβλητή Ζ από την U(,) και τους χρόνους επιβίωσης Τ από το μοντέλο των ανάλογων κινδύνων του Cox με συντελεστή.5. Για την αναφορική συνάρτηση κινδύνου χρησιμοποιήσαμε μια Webull(,) με πιθανότητα.3 και μια Webull(,) με πιθανότητα.7. Η μεταβλητή λογοκρισίας είναι Webull(,.5) με πιθανότητα.7 και με πιθανότητα.3. Ορίσαμε το 5. Έτσι περίπου το 7% των ασθενών λογοκρίνεται πριν τα 5 χρόνια, δηλαδή εμπίπτει στην περίπτωση του δεύτερου κλαδιού. Αυτό γίνεται για να διαπιστωθεί η διαφορά της εκτίμησης όταν λάβουμε υπόψη μας όλα τα άτομα με αυτή που δεν λαμβάνονται υπόψη άτομα που λογοκρίθηκαν πριν τα 5 χρόνια (δεύτερος κλάδος της ()). Οι μετρήσεις του διαγνωστικού ελέγχου προσομοιώθηκαν για τους ασθενείς από το μοντέλο h ( Y ) (/ ) T Z, (4) με από την τυπική κανονική κατανομή, και h ( y) 3log( y ). Για τους υγιείς από c ( Y ) Z, (5) - 35 -
με τυπική κανονική και c ( y) log( y ). Για τη δημιουργία δίτιμων δεδομένων του διαγνωστικού ελέγχου θέσαμε ως σημείο απόφασης το w=.77. Έτσι Υ>.77 σημαίνει θετικό αποτέλεσμα. Βάσει των παραπάνω οι πραγματικές τιμές των παραμέτρων a,, b, c, h είναι αντίστοιχα {.5,,,.477, -.784}. Για επαναλήψεις με δείγμα n=4 άτομα, πήραμε τα ακόλουθα αποτελέσματα για τις δύο μεθόδους (με και χωρίς τον δεύτερο κλάδο στην ()). Οι εκτιμήσεις των δύο μεθόδων έγιναν με το ίδιο δείγμα σε κάθε επανάληψη. Πίνακας. Εκτίμηση παραμέτρων αν λάβουμε υπόψη όλα τα άτομα, δείγμα n=4, σετ δεδομένων. Παράμετροι Εκτίμηση Μεροληψία Διακύμανση MSE a.54.4.36.377.56.56.37.6 b.55.55.56.59 c.4878.6.68.68 h -3.466 -.66.69.7589 Πίνακας. Εκτίμηση παραμέτρων αν δε λάβουμε υπόψη τα άτομα που λογοκρίθηκαν πριν το, δείγμα n=4, σετ δεδομένων. Παράμετροι Εκτίμηση Μεροληψία Διακύμανση MSE a.557.57.53.56.64.64.346.379 b.347.347.444.445 c.58.39.3.39 h -3.76 -.3336.8.9 Παρατηρούμε ότι παρόλο που δεν λαμβάνεται υπόψη το 7% του δείγματος (πίνακας ) τα αποτελέσματα στις εκτιμήσεις δε δείχνουν ότι κερδίζουμε αρκετά ως προς την εκτίμηση των παραμέτρων όταν χρησιμοποιούμε όλα τα άτομα στην ανάλυση. Πολλαπλές μετρήσεις, τ γνωστό Προχωράμε στην περίπτωση που είναι δυνατόν να μετρήσουμε δύο φορές τον ίδιο ασθενή (Ca et.al., 6). Συμβολίζουμε τη χρονική στιγμή που μετράμε τον -οστό ασθενή με s k, όπου k=, ανάλογα με το αν αναφερόμαστε στην πρώτη ή δεύτερη μέτρηση αντίστοιχα. Έτσι τα μοντέλα που θα χρησιμοποιηθούν τώρα είναι h( Y ) (/ )( T s ) (3/ ) Z, k k k - 36 -
c( Y k ) (3/ ) Z k,. με k ~ N,.. Επίσης αλλάξαμε τη μεταβλητή της λογοκρισίας ώστε να είναι Webull(,.5) με πιθανότητα.3 και με πιθανότητα.7. Έτσι τώρα οι ασθενείς που δεν λογοκρίνονται πριν τα 5 χρόνια είναι περίπου το 7% του δείγματος. Αυτοί είναι και οι ασθενείς που χρησιμοποιούνται για την εκτίμηση. Επίσης στην ανάλυση δεν συμπεριλαμβάνονται ασθενείς που η δεύτερη μέτρηση έπεται του χρόνου θανάτου τους, που είναι περίπου το %. Προσομοιώσαμε τη χρονική στιγμή της δεύτερης μέτρησης από την ομοιόμορφη κατανομή στο διάστημα (.5,.5). Τα αποτελέσματα της προσομοίωσης φαίνονται στον παρακάτω πίνακα, αφορούν αρχικό δείγμα n=4 και σετ δεδομένων. Τα αποτελέσματα αφορούν στα ίδια σετ προσομοιωμένων δεδομένων έτσι ώστε η σύγκριση να είναι άμεση. Πίνακας 3. Εκτίμηση παραμέτρων για μια και δύο μετρήσεις, περίπου το 8% των ασθενών που λογοκρίνονται πριν τα 5 χρόνια όπως και ασθενείς που η δεύτερη μέτρηση έπεται του θανάτου δε λαμβάνονται υπόψη, αρχικό δείγμα n=4, επαναλήψεις. K= K= Εκτίμηση Μεροληψία MSE Εκτίμηση Μεροληψία MSE a.567.67.446.544.44.56.98.98.796.694.694.4638 b.344.344.37.56.56.86 c.479 -.53.64.475 -.67.36 h -3.9 -.35.8886 -.9769 -.98.46 τ άγνωστο, χωρίς λογοκρισία Τα μοντέλα (4), (5) είναι ασυνεχή στο τ=5 και έτσι δεν είναι δυνατή η εκτίμηση του τ. Για αυτό θεωρούμε τα ακόλουθα συνεχή (στο τ = 5) μοντέλα Για τους ασθενείς h ( Y ) (/ ) T (3/ ) Z, με ~ (,) και h ( y) 3log( y ), και για τους υγιείς c ( Y ) (3/ ) Z, με ~ (,) και c ( y) 3log( y ) 3/. - 37 -
Προσομοιώσαμε σετ δεδομένων για δείγμα n=4 με σκοπό την εκτίμηση του σημείου μεταβολής, υποθέτοντας ότι είναι δυνατόν να παρατηρηθούν όλοι οι ακριβείς χρόνοι θανάτων. Η εκτίμηση μας για το σημείο μεταβολής ήταν 4.8858, με μεροληψία και ΜΤΣ -.4 και.74 αντίστοιχα. Γράφημα.: Ιστόγραμμα για το τ, δείγμα n=, σετ δεδομένων. Μέσος=4.9486, Τυπική απόκλιση=.843 5 frequency 5 3 4 5 6 7 8 9 tau Πίνακας 4. Εκτίμηση των παραμέτρων αν γίνεται χρήση του τ=5 ή χρήση της εκτίμησης του τ για την εκτίμηση των παραμέτρων. =5 (γνωστό) ˆ Εκτίμηση Μεροληψία MSE Εκτίμηση Μεροληψία MSE a.59.9.37.5653.653.53.578.78.9.5893.893.489 b.594.94.35.563.63.83 c.83 -.4.67.775 -.69.46 h -.4439 -.84.59 -.54 -.869.449 5. ΣΥΝΟΨΗ Στην παρούσα εργασία μελετάται ένα ρεαλιστικό σενάριο εξάρτησης των αποτελεσμάτων του διαγνωστικού ελέγχου από το χρόνο. Υπάρχουν περιπτώσεις ασθενειών που η αξιολόγηση των διαγνωστικών ελέγχων γίνεται χρησιμοποιώντας για gold standard διαδικασία την επιβίωση ή όχι του ατόμου πέραν κάποιου γνωστού χρονικού σημείου. Κάτω από την προϋπόθεση της συνέχειας των μοντέλων, πριν και μετά αυτού του χρονικού σημείου, γίνεται η εκτίμηση του τελευταίου. Η εκτίμηση του σημείου της μεταβολής των μοντέλων εμπεριέχει μεγάλο ενδιαφέρον τόσο για τον φαρμακευτικό τομέα όσο και γενικότερα για βιολογικά-ιατρικά δεδομένα ιδιαίτερα αν μπορεί να ληφθεί υπόψη και η λογοκρισία. Τι γίνεται όμως με άγνωστο τ και με λογοκρισία; - 38 -
ΕΥΧΑΡΙΣΤΙΕΣ Οι συγγραφείς θέλουν να ευχαριστήσουν τον ανώνυμο κριτή για τα χρήσιμα σχόλια. ABSTRACT The use of bomarkers to predct future health events s commonplace. The evaluaton of a bomarker requres the true status of an ndvdual whch s provded by the gold standard procedure. It s reasonable to assume that the marker values of dseased ndvduals may be a functon of tme. Thus, we consder senstvty as a functon of the tme between the measurement and the event, whle specfcty s determned by the absence of the event n a large nterval [, τ]. Usng generalzed lnear models, we estmate the parameters va maxmzaton of the approxmate lkelhood functon. We smultaneously study the estmaton of τ. The estmatons of the parameters are evaluated through smulatons. ACKNOWLEGEMENTS The authors would lke to thank the anonymous referee for the valuable comments. ΑΝΑΦΟΡΕΣ Ca, T., Pepe, M.S., Lumley, T., Zheng, Y., Jenny, N.S. (6). The senstvty and specfcty of markers for event tmes. Bostatstcs, 7, 87-97. Cheng, P.E., (989). Nonparametrc of survval curve under dependent censorng. Journal of Statstcal Plannng and Inference. 3, 8-9. Hnkley, V.. (969). Inference about the ntersecton n two phase regresson. Bometrka, 56, 495-54. Hnkley, V.. (97). Inference n two phase regresson. Journal of the Amercan Statstcal Assocaton, 66, 736-743. Hudson, J.,. (966). Fttng segmented curves whose jon ponts have to be estmated. Journal of the Amercan Statstcal Assocaton, 6, 97-97. Küchenhoff, H. (997). An exact algorthm for estmatng breakponts n segmented generalzed lnear models. Computatonal Statstcs,, 35 47. Pepho, H.P., Ogutu, J.O. (3). Inference for the break pont n segmented regresson wth applcaton to longtudnal data. Bometrcal Journal, 45, 59-6. Seber, G.A.F., Wld, C.J. (989). Nonlnear Regresson. John Wley & Sons, New York. Van t, Veer,L., a, H. et al. (). Gene expresson proflng predcts clncal outcome of breast cancer. Nature, 45, 53-535. Wlson, P., Agostno, R., Levy,., Belanger, A., Slbershatz,H., Kannel,W. (998). Predcton of coronary heart dsease usng rsk factor categores. Crculaton 97, 837-847. - 39 -