1 ارزیا ی م حمیدرضا پوررضا قد 2 آخرین گام در ساخت یک سیستم ارزیابی آن است 1
ف ی ا ط لاحات 3 :Degrees of Freedom (DOF) این اصطلاح در سیستمهاي ردیاب استفاده میشود و بنابه تعریف عبارتست از آزادي حرکت انتقالی یا دورانی به طوري که ردیابی کامل در مسیر حرکت صورت پذیرد. :Measurement Rate تعداد اندازه گیري هاي معتبر در واحد زمان. :RMS Error نمایشی از خطاي اندازهگیري که بر اساس ریشه دوم میانگین حسابی توانهاي دوم مولفههاي خطا میباشد. :Resolution رزلوشن کوچکترین گامی است که میتوانیم در اندازهگیري یک پارامتر اندازه بگیریم یا بیان کنیم. به عنوان مثال اگر یک حراتسنج دیجیتال درجه حرارت را بصورت مثلا 21.3 درجه بیان کند رزلوشن آن 0.1 درجه است. رزلوشن یک سیستم اندازهگیري ضرورتا دقت قراي ت نیست. ف ی ا ط لاحات 4 Precision (دقت): به این معنی است که در اندازهگیریهاي متوالی از یک مقدار چقدر مقادیر اندازهگیري شده به هم نزدیکند. اگر یک ساعت روزانه 15 ثانیه جلو برود ولی این اتفاق هر روز بیافتد Accuracy این ساعت کم است ولی Precision این ساعت فوقالعاده زیاد است. :Bias در شکل زیر Precision زیاد ولی Accuracy کم است. بایاس تفاوت بین میانگین مقادیر اندازهگیري شده با مقدار واقعی است. بایاس زیاد به معنی کم بودن دقت است. 2
ف ی ا ط لاحات 5 Accuracy (صحت): به این معنی است که مقدار اندازهگیري شده چقدر به مقدار واقعی نزدیک است. براي Accuracy بالا بایستی Precision زیاد باشد ولی عکس این امر ضرورت ندارد. بالا بودن واریانس مقادیر اندازهگیري شده و بایاس هر دو به معنی Accuracy کم است. بنابراین مجموع مربع بایاس و واریانس به عنوان میزان Accuracy مورد استفاده قرار میگیرد. :Latency زمان تاخیر بین لحظهاي که یک تغییر حاصل میشود تا زمانی که حس میشود. ف ی ا ط لاحات 6 Precision در مقابل Accuracy Accuracy پایین و Precision پایین Accuracy کم و Precision بالا 3
ف ی ا ط لاحات 7 :Sensitivity و Specificity این دو پارامتر کمیات آماري براي ارزیابی یک کلاس بند باینري است. Sensitivity که به نام نرخ Recall هم از آن نام می برند عبارتست از کسري از جوابهاي مثبت است که به درستی تشخیص داده شدهاند (مثلا درصد افراد بیمار اعلام شده که بیماري را واقعا دارا هستند). در حالیکه Specificity عبارتست از کسري از جوابهاي منفی است که به درستی تشخیص داده شدهاند (مثلا درصد افراد سالم اعلام شده که بیماري را واقعا ندارند). در بازیابی اطلاعات از دو پارامتر Precision و Recall استفاده می شود. در این حوزه براي استفاده از یک کمیت براي ارزیابی سیستم از F-measure که میانگین هارمونیک Precision و Recall است استفاده می شود: = 2 F حا ه ی یار ی ارزیا ی 8 براي یک کلاس بند باینري: وضعیت واقعی نتیجه کلاس بند Positive Negative Positive True Positive (TP) False Negative (FN) (خطاي نوع 2) Negative False Positive (FP) (خطاي نوع 1) True Negative (TN) 4
حا ه ی یار ی ارزیا ی 9 Recall یا Hit Rate True Positive Rate Sensitivity TPR = TP / P = TP / (TP + FN) Fall-out یا False Alarm Rate False Positive Rate FPR = FP / N = FP / (FP + TN) Accuracy ACC = (TP + TN) / (P + N) True Negative Rate یا Specificity SPC = TN / N = TN / (FP + TN) = 1 FPR Precision یا Positive Predictive Value PPV = TP / (TP + FP) حا ه ی یار ی ارزیا ی 10 Negative Prediction Value NPV = TN / (TN + FN) False Discovery Rate FDR = FP / (FP + TP) 5
حا ه ی یار ی ارزیا ی 11 بر حسب (FPR) False Positive Rate (یا (1-Specificity :Receiver Operating Characteristic (ROC) رسم Sensitivity یا TPR کلاس بند باینري (TPR) benefits نمایش ROC بر حسب (FPR) Cost است محور افقی و عمودي ROC بین صفر تا یک رسم می شود. براي یک بهترین نقطه در این فضا گوشه بالا سمت چپ است که به معنی Sensitivity با مقدار 100% و Specificity با مقدار 100% است. حا ه ی یار ی ارزیا ی 12 ضریب کاپا coefficient) (kappa براي ارزیابی توافق بین دو نظردهنده (که میتواند یکی ماشین باشد) مورد استفاده قرار میگیرد. این ضریب از رابطه زیر محاسبه میشود Pr a Pr (e) k = 1 Pr (e) که در آن Pr(a) درصد توافق مشاهده شده بین نظردهندهها و Pr(e) 1=k به معنی توافق کامل و 0=k به معنی عدم توافق است. احتمال فرضی شانس توافق است. فرض کنید که پرونده 50 مراجعه کننده به یک کلینیک توسط پزشک و ماشین مورد ارزیابی گرفته و در خصوص سالم و یا بیماربودن آنها اعلام نظر شده است. مایلیم ارزیابی میزان توافق بین نظر پزشک و ماشین را انجام دهیم. فرض کنید نتیجه ارزیابی بصورت جدول زیر باشد نظر ماشین سالم بیمار سالم 20 5 بیمار 10 15 نظر پزشک 6
حا ه ی یار ی ارزیا ی 13 ضریب کاپا coefficient) (kappa بدین ترتیب درصد توافق مشاهده شده عبارت خواهد بود از Pr(a)=(20+15)/50=0.7 اما در مورد محاسبه :Pr(e) پزشک در 50% موارد اعلام سلامت براي مراجعه کننده داشته در حالیکه ماشین در 60% موارد اعلام سلامت براي مراجعه کننده داشته است بنابراین احتمال اینکه بصورت اتفاقی هر دو نظر بر سلامت بدهند عبارتست از: 0.30=0.60*0.50 و احتمال اینکه به صورت اتفاقی هر دو نظر به بیماري بدهند عبارتست از 0.20=0.40*0.50. در این حال Pr(e)=0.30+0.20=0.50 بدین ترتیب ضریب کاپا مقدار زیر خواهد بود: Pr a Pr (e) 0.7 0.5 k = = 1 Pr (e) 1 0.5 = 0.4 در دو تقسیمبندي مختلف: مقدار ضریب کاپاي کمتر از 0.4 به معنی توافق کم بین 0.41 و 0.75 به معنی توافق نسبی مطلوب تا خوب و بیشتر از 0.76 به معنی توافق عالی است. مقدار ضریب کاپاي کمتر از صفر به معنی هیچگونه توافق بین 0 تا 0.2 به معنی توافق ناچیز بین 0.21 تا 0.4 به مهنی توافق نسبی بین 0.41 تا 0.6 به معنی توافق متوسط بین 0.61 تا 0.8 به معنی توافق قابل توجه و بین 0.81 تا 1 به معنی توافق عالی است حا ه ی یار ی ارزیا ی 14 ضریب همبستگی اسپیرمن coefficient) (Spearman correlation براي ارزیابی رتبهبندي بکار میرود. براي n دیتاي مرتب شده این ضریب که با ρ نمایش داده میشود بصورت زیر محاسبه میشود ρ = 1 6 d n n 1 که در آن d i فاصلهي رتبه بدست آمده تا رتبه واقعی براي داده iام است. 7
حا ه ی یار ی ارزیا ی 15 ماتریس درهمریختگی matrix) (confusion این جدول در کاربردهاي یادگیري ماشین کارایی الگوریتم را به رویت میرساند. هر ستون ماتریس بیانکننده پیشبینی قرارگیري در کلاسها و هر سطر ماتریس بیانکننده قرارگیري واقعی در کلاسها است. مثلا فرض کنید که یک سیستم بینایی ماشین براي تشخیص ارقام 1 0 و 2 از هم نوشته شده است. به این سیستم 30 تصویر شامل این ارقام شامل 10 تصویر از 12 0 تصویر از 1 و 8 تصویر از 2 داده شده و نتیجه بصورت زیر ارایه شده است: کلاس پیشبینی شده کلاس واقعی 0 1 2 0 9 0 1 1 1 9 2 2 0 1 7 8