مجله علمي دانشگاه علوم پزشكي سمنان- جلد 6 شماره 2 زمستان 383 تحليل منحنيهاي ROC براي مقايسه تستهاي تشخيص پزشكي 2 سيدمهدي ساداتهاشمي (Ph.D) راهب قرباني (Ph.D) بهروز كاوهيي (Ph.D) - دانشگاه علوم پزشكي سمنان دانشكده پزشكي گروه پزشكي اجتماعي 2- سازمان سنجش آموزش كشور چكيده سابقه و هدف: با مساي ل تشخيص هنگامي مواجه ميشويم كه هدف از يك آزمايش يا مدل پيشبيني و انتساب افراد يا اشياء (نمونهها) به گروههاي معين و خاصي باشد. به عنوان مثال در پزشكي براي تشخيص ديابت و يا سرطان (كه درحيطه پيشگيري سطح دوم قرار ميگيرند) از ملاكها و شاخصهاي مختلفي استفاده ميشود. سادهترين حالت هنگامي است كه هدف تخصيص نمونهها به يكي از دو گروه ممكن (سالم يا بيمار) باشد. در اين صورت صفتي در مقياس پيوسته و يا رتبهاي بر روي نمونهاي از افراد سالم و بيمار اندازهگيري ميشود و سپس با انتخاب يك نقطه برش مناسب برحسب ميزان حساسيت و ويژگي تست در آن نقطه و نيز مقدار تابع زيان اهميت تشخيص افراد سالم و بيمار مشخص ميگردند. يك شاخص ارزيابي مناسب و تك مقداري براي تست در اين حالت عبارت است از آماره A مساحت زير منحني ROC).(Receive opeating chaacteitic از آنجا كه ملاكها وشاخصها بر روي نمونه واحدي اندازهگيري ميشوند لذا يك همبستگي طبيعي بين Aهاي متناظر با تستهاي مختلف وجود خواهد داشت كه هرگاه هدف مقايسه تستها و انتخاب بهترين تست از بين بقيه باشد صرف نظركردن از اين همبستگي ميتواند منجر به نتايج مخدوش و گمراهكننده شود. مواد و روشها: در اين مقاله ابتدا نحوه محاسبه آمارههاي A و ماتريس واريانس كووراريانس آنها را به همراه آزمون مناسبي براي مقايسه Aهاي همبسته تشريح نموده و با استفاده از دادههاي شبيهسازي شده نشان دادهايم كه آزمون چگونه تحت تا ثير منظور نمودن همبستگيها قرار ميگيرد. براي اين كار برنامه مناسبي را با استفاده از زبان برنامه نويسي Delphi5 تهيه نمودهايم. يافتهها: بر اساس دادههاي شبيه سازي شده براي مقايسه دو تست بهدست آورديم: A ( ) 0.060 A = 0.49 SE ( A ) 0.054 A = 0.66 = A2 SE لذا = 2. Z منجر به رد فرض برابري 2 = A در سطح معنيداري = 0.05 α شده است. چنانچه همبستگي A 2 شده است. A و پذيرش فرض برابري A نتيجهگيري: همانطور كه از نتايج مشاهده ميشود چنانچه از كوواريانس بين آزمون ميتواند گمراه كننده بوده و منجر به انتخاب تستهاي نامناسب شود. در نظر گرفته شود =.92 Z كه منجر به صرفنظر شود نتيجه واژههاي كليدي: منحنيهاي ROC حساسيت ويژگي تست تشخيصي همبستگي مقدمه در علم پزشكي هدف از بررسي باليني و يا آزمايشگاهي بر روي يك فرد عبارت است از تشخيص افتراقي بيماري وي با حداكثر دقت ممكن در معاينه باليني. اين كار معمولا توسط پزشك و با جمعبندي شرايط فرد صورت ميگيرد. به عنوان مثال براي تشخيص ديابت و يا سرطان (كه در حيطه نويسنده مسي ول. تلفن: 023-3332082 نمابر: 023-33355 adat-hahemi@em-um.ac.i E-mail: * 45 تاريخ دريافت: 383/9/30 تاريخ پذيرش: 83/2/6
ه ب جلد 6 شماره 2 زمستان 383 مجله علمي دانشگاه علوم پزشكي سمنان پيشگيري سطح دوم قرار ميگيرند) از ملاكها و شاخصهاي مختلفي استفاده ميشود. به طور كلي هرگاه C رده معين و مجزا در تشخيص داشته باشيم آنگاه هر مورد نمونه با احتمال p i ( ميتواند c pi =, i =,2,..., c ) در گروه iام قرار بگيرد. سادهترين حالت هنگامي است كه هدف تخصيص نمونهها به يكي از دو گروه ممكن (سالم يا بيمار) باشد كه در اين صورت صفتي در مقياس پيوسته و يا رتبهاي بر روي نمونهاي از افراد سالم و بيمار اندازهگيري ميشود و سپس با انتخاب يك نقطه برش مناسب برحسب ميزان حساسيت و ويژگي تست در آن نقطه و نيز مقدار تابع زيان اهميت تشخيص افراد سالم و بيمار مشخص ميگردند حال فرض كنيد اين شاخصها و استانداردها براي بيماري خاصي موجود نباشند و محققي با بررسيهاي خود در پي آنها باشد. بنابراين اولين مسا لهاي كه با آن روبرو خواهد شد عبارت است از ارزيابي هر يك از شاخصهاي تشخيصي و مقايسه آنها با يكديگر به منظور دسترسي به بهترين آنها. چرا كه توان تشخيص هر شاخص (تست) ميتواند تحت تا ثيرخطاهاي گوناگون با ديگري متفاوت باشد. يك روش مو ثر و شناخته شده در جهت ارزيابي يك تست آزمايشگاهي (به طور كلي يك روش تشخيصي) كه نتايج آن متغيري در مقياس رتبهاي و يا كمي باشد استفاده از منحني ROC chaacteitic) (Receive opeating ميباشد.[7 4] طبق نظريه يك روش براي به دست آوردن منحني ROC تجربي به اين صورت ميباشد. ابتدا نمونهاي از افراد سالم و بيمار انتخاب شده و تست مربوطه بر روي آنها اندازهگيري ميشود در ادامه دامنه تغييرات متغير تست تعيين و سپس در نقاط برش متوالي در اين دامنه حساسيت و مثبت كاذب (يك منهاي ويژگي) در هر نقطه برش تعيين و نقاط به دست آمده به يكديگرمتصل ميگردند. از اين روش منحني ROC دست ميآيد كه مساحت زير آن (كه ما براي سادگي آن را آماره A نام نهادهايم) بيانگر قدرت تشخيص تست ميباشد. شكل انا خ لف ن ن ا Senitivity.00 - Specificity شكل..00 انواع مختلف منحنيهاي ROC براي استفاده از منحني ROC در ارزيابي يك تست تشخيصي بهكارگيري آماره A پيشنهاد شده است [8]. اين مساحت عبارت است از احتمال اين كه هرگاه متغيرتست به صورت تصادفي براي يك فرد بيمار و يك فرد سالم اندازهگيري شود مقدار منتجه به ترتيب صحيح باشد (يعني مثلا براي فرد بيمار بزرگتر از فرد سالم باشد و يا برعكس) [8]. هرگاه تست قادر به تشخيص دقيق و بينقص باشد آنگاه مقادير آن براي افراد سالم جمعيت پاي ين و براي افراد بيمار بالا خواهد بود (يا برعكس بسته به وضعيت بيماري). هرچه قدرت تشخيص تست بيشتر باشد منحني ROC ب الاي قط ر مرب ع و به حالت اي دهآل (م ساحت يك) نزديكترخواهد بود. منحني ROC تستي بدون توان تشخيص منطبق بر قطرمربع و تستي با توان تشخيص معكوس در پايين اين قطر قرار ميگيرد [4 2]. شكل وضعيتهاي متفاوتي از منحني ROC را نشان ميدهد. براي برآورد منحني ROC روشهاي گوناگوني وجود دارد كه براساس روشهاي پارامتري و ناپارامتري قرار دارند [3 6 7 8]. در نرمافزارهاي آماري مشهور نظير SPSS SAS (نسخه 9 به بعد) و STATA امكان برآورد منحني ROC محاسبه آماره A و انحراف استاندارد آن از طريق ناپارامتري وجود دارد. اما مشكل همه اين نرمافزارها در ناتواني آنها براي مقايسه دو منحني ROC همبسته است. اين نوع ROCها هنگامي بهوجود ميآيند كه بر روي هر فرد نمونه 46
) تحليل منحنيهاي ROC براي مقايسه... همزمان چند تست مختلف اندازهگيري شده و بر مبناي هر تست يك منحني ROC بنا نهاده شده باشد كه در اين صورت يك همبستگي طبيعي بين ROCها وجود خواهد داشت كه صرفنظر كردن از آن ميتواند منجر به نتايج گمراهكننده شود []. در اين مقاله دو هدف اصلي را دنبال كردهايم: سيدمهدي ساداتهاشمي و همكاران (3) 0 y > x ψ ( x, y) = 0.5 y = x y < x آن گاه : m n a =. ψ ( xi, y mn j= j (4) ) اراي ه روش مناسب براي مقايسه منحنيهاي ROC همبسته به منظور تعيين برترين تستها 2) اراي ه نرمافزار مناسبي كه تحليل مذكور را انجام دهد. مواد و روشها فرض كنيد نمونهاي متشكل از N فرد داشته باشيم كه mتاي آنها بيمار و n=n-mتاي آنها سالم باشند. همچنين فرض كنيد (,2,...,m) مقادير متغير تشخيص براي X i ( j=,2,...,n) Y j مقاديرمتغيرتشخيص براي افراد بيماران و سالم باشد. به ازاي هر عدد حقيقي حساسيت تجربي تست براي نقطه برش عبارت است از: () m Sen( ) = I( X i ) m و ويژگي تجربي در همين نقطه عبارت است از : (2) n Spe( ) = I( Y j < ) n j= كه در آنها I(A)= هرگاه شرط A برقرار باشد و در غير اين صورت.I(A)=0 با تغيير بر روي فضاي ممكن مقاديرتشخيص منحني ROC تجربي از رسم Sen() برحسب -Spe() بهدست ميآيد. هر گاه بزرگتر از حداكثر مقدار ممكن متغير تست باشد منحني از (0 و 0) ميگذرد و بهطور يكنواخت با كاهش به سمت نقطه ( و ) افزايش مييابد. هرگاه تابع ψ به صورت زير باشد: برآوردي ناپارامتري از آماره A خواهد بود [2]. لازم به ذكر است كه تنها فرض آماري بر روي X ها و Yها مربوط به مقياس آنهاست و آنها بايستي حداقل در مقياس رتبهاي باشند و توزيع آنها هيچ اهميتي در استنباطهاي ما ندارد. هرگاه k تست وجود داشته باشد آنگاه بردار [ a a ], = a برآوردي از Aهاي منسوب به 2,..., a k تستهاي مختلف خواهد بود ]),..., A. A = [ A, ( 2 A k در اين حالت ماتريس واريانس كوواريانس اين برآوردگرها عبارت است از []: (5) S = S0 + S0 m n كه در آن و امين مو لفه عبارت است از: S 0 m = m S 0 (6) [ V ( x ) a ][ V ( x ) a ] 0 i 0 i و به طور مشابه و امين مو لفه S 0 j= (7) [ V ( y ) a ][ V ( y ) a ] j j عبارت است از: S 0 n = n 0 0 كه در آنها Vها بر حسب روش هوفدينگ محاسبه ميشوند [5]. براي آزمون فرضيهاي به صورت H : LA = La 0 LA H : كه در آن L برداري از قيدها در برابر La باشد. يك آزمون معنيداري را ميتوان به كمك آماره زير انجام داد []: (8) La LA Z = LSL 47
] جلد 6 شماره 2 زمستان 383 بحث و نتيجهگيري مجله علمي دانشگاه علوم پزشكي سمنان كه داراي توزيع نرمال استاندارد است []. در حالتي كه هدف مقايسه 2 A و A شكل ساده زير در ميآيد: (9) a a2 Z = S + S 22 2S كه در آن عناصر ماتريس S ij 2 مربوط به دو تست باشد آماره 8 به S 2 2 هستند. براي مقايسه عملي با استفاده زبان Delphi5 نرمافزار مناسبي به نام ROC را تهيه كردهايم كه در آدرس www.em-um.ac.i موجود است. نتايج براي پيشبرد اهدافمان از دادههاي شبيهسازي شده (كه در همان آدرس اينترنتي ذكرشده با عنوان ROC.dat وجود دارد) استفاده كرديم اين دادهها شامل نمونهاي متشكل از 43 فرد سالم و 57 فرد بيمار به همراه مقادير دو تست t 2 و t براي آنها ميباشد شكل 2 منحنيهاي ROC مربوطه را نشان ميدهد. مقادير محاسبه شده براي اين ROCها عبارتند A = 0.49 SE ( A ) 0.054 A = 0.66 2 = از: SE( A 2 در اين حالت با صرف نظركردن از ) = 0. 060 A همبستگي بين معنيداري %5 منجر به رد تساوي A و با در نظر گرفتن همبستگي داريم 2.= Z كه در سطح A Z =.92 A 2 A خواهد شد. حال به دست ميآيد كه در همان سطح معنيداري منجر به پذيرش تساوي ميشود. Senitivity.00 - Specificity.00 T2 T شكل 2. منحنيهاي ROC مربوط به مثال شبيهسازي شده در قسمت نتايج ابتدا چنين بهنظر ميآيد كه تست دليل داشتن مقدار Aي بزرگتر نسبت به t t 2 به برتري داشته باشد اما در عمل نتيجه آزمون بر مبناي روش ارايه شده در اينجا چنين تفاوتي را نشان نميدهد. همان طور كه از نتايج مشهود است صرفنظر كردن از همبستگي بين Aها ميتواند منجر به نتايج گمراه كننده شود (البته نه لزوما ). زيرا در برخي مواقع اختلاف آمارهها آن قدر زياد (كم) است كه اثر كوواري انس را در آزم ون فرض يه از ب ين م يب رد و چه كوواريانس در نظر گرفته شود و يا در نظر گرفته نشود باز هم نتيجه آزمونها يكسان و منجر به رد (پذيرش) فرض صفر خواهد شد. با اين حال مشكل هنگامي پيش ميآيد كه صرفنظر كردن از همبستگيها گمراه كننده باشد و منجر به استنباط غلط شود (نظير مدل شبيهسازي شده) در اين صورت بايد حتما همبستگي در نظر گرفته شود زيرا در نتيجه آزمون نقش تعيين كننده خواهد داشت. اين نظير حالتي است كه ما هنگامي كه دادهها واجد شرايط استفاده از آزمون tي زوجي باشند از آزمون tي مستقل براي مقايسه استفاده كرده باشيم. اين مطلب بدون هيچ نيازي به شبيهسازي و تنها با دقت در رابطه 9 مشهود ميباشد. براي دخيل كردن اثر همبستگي بين ROCها كارهاي ديگري نيز انجام شده كه مبتني بر روشهاي رگرسيوني لجستيك دوحالته و رتبهاي هستند و در آنها مقادير مختلف نقاط برش در دامنه مقادير متغيرهاي تست به عنوان متغيرهاي پيشبينگر بيماري در نظر گرفته شده و از اثر متقابل آنها در بيان همبستگي استفاده ميشود [ 9] برآورد منحنيهاي ROC در كنار دادههاي گمشده نيز مورد بررسي قرار گرفته است (اما بدون در نظر گرفتن همبستگيهاي بين آنها) [0 اما روش ارايه شده در اينجا با تلفيقي از روش ارايه شده در (0) قابل استفاده براي دادههاي گمشده نيز ميباشد. از آنجا كه براي ارزيابي و مقايسه تستهاي تشخيصي هيچ روش آماري مناسبي بهجز استفاده از منحنيهاي ROC وجود ندارد لذا روشي كه در اين مقاله اراي ه شده با توجه به 48
تحليل منحنيهاي ROC براي مقايسه... سادگي و دور بودن از محاسبات پيچيده آماري ميتواند بهسادگي توسط محققين به عنوان يك سيستم پشتيبان در تصميمگيري به كار گرفته شده و در مواردي كه هدف تعيين بهترين شاخصهاي تشخيصي باشد مورد استفاده قرار گيرد. منابع [] ساداتهاشمي مهدي. معماري شبكههاي عصبي مصنوعي براي مدلبندي پاسخهاي چندمتغيره دوحالته و بهكارگيري آنها در پيشبيني حاملگيهاي ناخواسته. پاياننامه دكتراي تخصصي در رشته آمار زيستي تهران: دانشگاه تربيت مدرس 26-30:382. سيدمهدي ساداتهاشمي و همكاران confidence inteval ating method data. J Math Pych, 969; 6: 487. [4] Hanley JA, McNeil BJ. The meaning and ue of the aea unde a eceive opeating chaacteitic (ROC) cuve. Radiology, 982 Ap; 43():29-36. [5] Hoeffding W. A cla of tatitic with aymptotically nomal ditibution. Ann Math Statit, 948; 9: 293-325. [6] Metz CE. Baic pinciple of ROC analyi. Semin Nucl Med, 978 Oct; 8(4):283-98. [7] Metz CE, Wang P-L, Konman HB. A new appoach fo teting the ignificance of diffeence between ROC cuve meaued fom coelated data. In: Deconinck F. (edito). Infomation poceing in medical imaging. The Hague: Nijhoff, 984, p. 432-445. [8] Swet JA, Pickett RM. Evaluation of diagnotic ytem: method fom ignal detection theoy. New Yok: Academic Pe, 982. [9] Toledano AY, Gatoni C. Odinal egeion methodology fo ROC cuve deived fom coelated data. Stat Med, 996 Aug 30; 5(6):807-26. [0] Vida S. A compute pogam fo non-paametic eceive opeating chaacteitic analyi. Comput Method Pogam Biomed, 993 Jun; 40(2):95-0. [] Zhou XH, Gatoni CA. A imple method fo compaing coelated ROC cuve uing incomplete data. Stat Med, 996 Aug 5; 5(5):687-93. [2] Bambe D, The aea above the odinal dominance gaph and the aea below the eceive opeating chaacteitic gaph. J Math Pychol, 975; 2: 387-45. [3] Dofman DD, Alf E. Maximum likelihood etimation of paamete of ignal detection theoy and detemination of 49
جلد 6 شماره 2 زمستان 383 مجله علمي دانشگاه علوم پزشكي سمنان 50