Machine Learning یادگیری ماشین )13-11-805-01( Insance Based Learning دانشگاه شهيد بهشتی پژوهشکده فضای مجازی پاييز 1397 احمد محمودی ازناوه hp://faculies.sbu.ac.ir/~a_mahmoudi/
فهرست مطالب روش های ناپارامتری تخمین چگالی دستهبندی رگرسیون شبکه عصبی 2
پیش گفتار»روشهای پارامتری«: در نظر گرفته میشود. یک مدل برای تمام دادههای ورودی در رگرسیون خطی فرض میشود برای تمام ورودیها خروجی از یک تابع خطی یکسان تبعیت میکند. هر چند تقلیل مسأله به یافتن چند پارامتر محدود مطلوب است اما ممکن است این فرض صحیح نباشد و باعث ایجاد خطا شود.»روشهای نیمهپارامتری«: دادههای مدلهای مختلف تلقی میشوند.»روشهای ناپارامتری«: ورودیهای مشابه دارند. از ترکیبی دسته هر مشابه خروجیهای»نمونههای مشابه«به معنای»چیزهای مشابه«هستند. توابع هموار هستند تغییرات آن نرم است. 3
Nonparameric Esimaion یادگیری بر مبنای نمونه 4 الگوریتمهای ناپارامتری شامل یافتن نمونههای نزدیک )بر اساس یک تابع فاصلهی مناسب( و سپس درونیابی برای یافتن خروجی درست است. تفاوتهای روشهای ناپارامتری روش درونیابی بستگی دارد. و فاصله تابع انتخاب به در مدلهای پارامتری کل دادههای آموزشی بر مدل نهایی اثرگذار هستند در حالی که در روشهای ناپارامتری یک مدل محلی بر اساس نمونههای همسایه تخمین زده میشود. نیاز به حافظه و محاسبات باال از عیبهای این دسته از روشهاست. lazy/memory-based/case-based/insance-based learning
تخمین چگالی در حالت یک بعدی Densiy Esimaion به و } X={x به صورت مستقل از یک N دادههای آموزشی 1= توزیع تصادفی یکسان )p(x( استخراج شدهاند. تخمین ناپارامتری»تابع توزیع تجمعی«به صورت زیر محاسبه میشود: Fˆ همین ترتیب چگالی تابع برای که دادههای هستند. احتمال کافی اندازه ی به آن # x x x pˆ x N x x h x x 1 # # h N x x x h h طول بازهای است به هم نزدیک)شبیه( 5
تخمین هیستوگرام)بافت نگار( تخمین هیستوگرام یکی از قدیمیترین و متداولترین روشهاست دادهها به یک سری نوار) bin ( با عرض h تقسیم میشوند: pˆ x # x in he samebinas x Nh تغییر عرض نوارها و مبدأ آنها بر روی تخمین به دستآمده اثرگذار است. در مرز نوارها گسستگی دیده میشود. نیازی به ذخیره کردن نمونهها نیست. 6
مثال 7
Naive esimaor در این روش نیازی به وجود ندارد: یا با تعریف یک تابع وزندهی: مشخص کردن مبدأ نوارها pˆ x # x h x x 2Nh h pˆ x 1 Nh N 1 w x x h w u 1 0 / 2 if u 1 oherwise با توجه به ناحیهی تحت تأثیر) hard ( تخمین به دست آمده در نواحی مرزی دارای پرش میباشد. 8
مثال 9
استفاده از کرنل Kernel Esimaor برای به دست آوردن تخمینی هموارتر میتوان یک تابع وزندهی هموار )کرنل( بهره برد یکی معروفترین کرنلها تابع گاوسی است. از از u 1 u exp 2 2 2 هر تابع نامنفی و متقارن حول صفر که دارای سطح یک باشد را میتوان به عنوان کرنل استفاده کرد. K Parzen windows pˆ x 1 Nh N 1 x K x h 10
مثال 11
k-neares Neighbor Esimaor در این روش بازهی به صورت وفقی در نظر گرفته میشود. بازهای که k همسایهی نزدیک در آن واقع هستند. در واقع به جای ثابت در نظر گرفتن نوار تعداد نمونههای واقع در نوار ثابت در نظر گرفته میشود. k pˆ x x h x x pˆ x # 2Nd 2Nh فاصله ی k -امین همسایه ی است. نزدیک d k (x) در چگالی تخمین زده مشتق( وجود دارد برای میتوان از کرنل استفاده N 1 x x pˆ x K Nh 1 h شده شکستگی)گسستگی در به دست آوردن تقریب هموارتر کرد: N 1 x x pˆ x K Nd k x 1 dk x k x h 12
مثال 13
تعمیم به داده های چندبعدی تخمین چگالی به صورت زیر انجام میشود: pˆ x N 1 x x K d Nh 1 h در این بود: خواهد زیر صورت های به کرنل تابع حالت K K u u 1 2 1 d exp 1 T 1 exp u S u d / 2 1/ 2 2 S 2 u 2 2 spheric 1 مشروط به K x dx R d ellipsoid 14
تعمیم به داده های چندبعدی)ادامه...( برای تخمین هیستوگرام هشتبعدی در صورتی که برای در نظر گرفته شود: به 10 8 بخش نیاز خواهیم داشت. یک مجموعهی هر بعد تنها ده نوار Curse of dimensionaliy برای دادههای گسسته میتوان از فاصلهی همینگ نیز استفاده کرد. d xx, 1 j i HD x x j1 15
دسته بندی ناپارامتری برای دستهبندی ابتدا چگالی محاسبه میشود: احتمال هر کالس N 1 pˆ x Ci K r d x x i Nih 1 h p(x C i ) و جداساز به ترتیب زیر به دست می آید: ˆ ˆ g p C P C i i i x متعلق به کالسی است که جداساز آن بیشترین مقدار را داشته باشد از بخش مشترک جداساز میتوان چشمپوشید. x x PC ˆ 1 g p C P C K x x r N ˆ ˆ i x x i i d i Nh 1 h i Ni N 16
N gix K x x r 1 h و دسته بندی ناپارامتری )ادامه...( هر نمونهی آموزشی متعلق به کالس i ما- به ورودی یک»رأی«میدهد. رأی توسط تابع کرنل مشخص میشود. ki pˆ x Ci k NV در حالتی که از k-nn استفاده کنیم: k i تعداد بخشی از k همسایه است که به کالس i ما- تعلق دارند و V ابرکرهای است به مرکز x و با شعاع x نزدیکترین همسایهی k ما- x i i x k k d V r c, c 2, c, c 4 /3, d 1 2 3 17
k-nn classifier ki pˆ x Ci k NV i دسته بندی ناپارامتری )ادامه...( PC ˆ x i x PC ˆ x i x ˆ i i pˆ x pˆ C P C PC ˆ i Ni N pˆ x x ˆ pˆ x V pˆ Ci P Ci ki k d k x در دستهبندی k-nn ورودی به کالسی نسبت داده میشود که در بین k همسایهی نزدیک بیشترین عضو را داشته باشد. N 18
Neares neighbor classifier در حالت خاص که 1=k در نظر گرفته به کالسی نسبت داده میشود که نمونه به ورودی متعلق به آن است: شود ورودی نزدیکترین Voronoi essellaion 19
5-Neares Neighbor مثال CS 391L: Raymond J. Mooney 20
Condensing mehods Condensed Neares Neighbor (C.N.N.) پیچیدگی مکانی و زمانی روشهای ناپارامتری به تعداد نمونههای آموزشی )N( بستگی دارد. روشهایی ارائه شده است که هدف آن کاهش نمونههای ذخیره شده بدون افت کارایی است. در این روشها یک زیر مجموعهی کوچک )Z( از نمونههای آموزشی )X( به نحوی انتخاب میشود که ضمن کاهش دادههای ذخیره شده خطا افزایش چندانی نیابد. در C.N.N. میشود. برای 1-nn از دسته بندی 21 استفاده
Condensed Neares Neighbor (C.N.N.) در 1-nn جداساز به صورت خطی تکهای تقریب زده میشود و تنها نمونههایی که در تشکیل جداساز نقش دارند الزم است نگهداری شوند. به چنین مجموعهای consisen میگویند. 22
Incremenal algorihm بستگی ورودیها اعمال ترتیب به نهایی پاسخ دارد. با تعریف تابع هزینهی زیر میتوان بین پیچیدگی و خطای مدل بسته به مقدار λ نوعی مصالحه برقرار کرد: E' Z X EX Z Z 23
تشخیص داده های پرت Oulier Deecion دادهی پرت)ناهنجار( دادهای است که با سایر نمونهها تفاوت زیادی دارد. چنین نمونهای بیانگر یک رفتار غیرعادی است: تراکنشهای کارت اعتباری سوءاستفاده از کارت در تصاویر پزشکی وجود تومور در ترافیک شبکه نفوذ در شبکه در پروندهی پزشکی بروز بیماری بروز خطا در یک سیستم خراب شدن یک سنسور معموال به عنوان تلقی نمیشوند. کالسه دو مسأله ی یک دادههای پرت نسبت به دادههای نرمال هستند و معموال بدون برچسب هستند. نظارت با بسیار اندک 24
تشخیص داده های پرت)ادامه...( در واقع مسأله است. یک one-class classificaion problem دسته بندی کننده ی تک کالسه در این حالت دادههای نرمال مدل میشوند توزیع دادههای نرمال به دست میآید. در این حالت هرچند میتوان از شیوههای پارامتری و نیمهپارامتری استفاده کرد اما با توجه به حساسیت روشهای پارامتری به دادههای پرت روشهای ناپارامتری ترجیح داده میشود. یک دادهی پرت مدل را تحت تأثیر قرار میدهد. 25
تشخیص داده های پرت)ادامه...( Local Oulier Facor در روشهای ناپارامتری در صورتی که یک نمونه از سایر نمونهها دور باشد پرت تشخیص داده میشود. 26
رگرسیون ناپارامتری)تک متغیره( رگرسیون ناپارامتری میگیرد که نتوان یک گرفت. در این حالت فرض x مقادیر نزدیک به Nonparameric Regression x,, x smoohing models(smooher) زمانی مورد استفاده قرار مدل کلی برای دادهها در نظر میشود که دادههای g(x) خواهند داشت. X= r r g نزدیک در این حالت رویکرد یافتن همسایههای x میانگین گرفتن از مقادیر r مربوط به آنهاست. به و 27
Regressogram N 1 ˆ where bx, x N g x b x, x r 1 if x is in he same bin wih x b x, x 0 oherwise 1 این واژه در سال 1961 توسط شخصی به نام تا شباهت آن را به هیستوگرام نشان دهد. Tukey مطرح شد 28
Running Mean Smooher N x x w r 1 h gˆ x where N x x w 1 h w u 1 if u 1 0 oherwise 29
نيشام یريگداي 30 Kernel Smooher N N h x x K r h x x K x g 1 1 ˆ K( ) is Gaussian
Running line smooher در این حالت برای هر خطی به صورت محلی در همسایگی یک رگرسیون نظر گرفته میشود. 31
smoohing parameer تعیین پارامتر هموارسازی در صورتی که k یا h کوچک در نظر گرفته شوند )به عنوان مثال زمانی که تنها خود نمونه در نظر گرفته شود( میزان بایاس کم است اما واریانس باال خواهد بود )پیچیدگی زیاد(. در صورت افزایش دامنهی هموارسازی کاهش یافته اما بایاس افزایش )پیچیدگی کم(. undersmoohing واریانس مییابد oversmoohing میتوان از cross validaion نیز برای تنظیم پارامتر هموارسازی استفاده کرد. 32
روش های جستجو یافتن»نزدیکترین همسایه«به صورت جستجوی خطی به به ویژه زمانی که تعداد نمونههای آموزشی باالست صرفه نیست. در این شرایط عموما از درخت kd استفاده میشود. استفاده (LSH) نظیر درهمسازی روشهای همچنین میشود. Li, Yuenan Localiy Sensiive Hashing hp://bigdaa.csail.mi.edu/node/17 33