یادگیری ماشین. Instance Based Learning. Machine Learning دانشگاه شهيد بهشتی پژوهشکده فضای مجازی پاييز 1397 احمد محمودی ازناوه

Σχετικά έγγραφα
محاسبه ی برآیند بردارها به روش تحلیلی

تصاویر استریوگرافی.

روش محاسبه ی توان منابع جریان و منابع ولتاژ

ﯽﺳﻮﻃ ﺮﯿﺼﻧ ﻪﺟاﻮﺧ ﯽﺘﻌﻨﺻ هﺎﮕﺸﻧاد

آزمایش 1: پاسخ فرکانسی تقویتکننده امیتر مشترك

شاخصهای پراکندگی دامنهی تغییرات:

شبکه های عصبی در کنترل

تخمین با معیار مربع خطا: حالت صفر: X: مکان هواپیما بدون مشاهده X را تخمین بزنیم. بهترین تخمین مقداری است که متوسط مربع خطا مینیمم باشد:

آزمون مقایسه میانگین های دو جامعه )نمونه های بزرگ(

پروژه یازدهم: ماشین هاي بردار پشتیبان

فصل چهارم : مولتی ویبراتورهای ترانزیستوری مقدمه: فیدبک مثبت

جلسه ی ۱۰: الگوریتم مرتب سازی سریع

آزمایش 8: تقویت کننده عملیاتی 2

بسم اهلل الرحمن الرحیم آزمایشگاه فیزیک )2( shimiomd

جلسه 3 ابتدا نکته اي در مورد عمل توابع بر روي ماتریس ها گفته می شود و در ادامه ي این جلسه اصول مکانیک کوانتمی بیان. d 1. i=0. i=0. λ 2 i v i v i.

همبستگی و رگرسیون در این مبحث هدف بررسی وجود یک رابطه بین دو یا چند متغیر می باشد لذا هدف اصلی این است که آیا بین


6- روش های گرادیان مبنا< سر فصل مطالب

مفاهیم ولتاژ افت ولتاژ و اختالف پتانسیل

مدار معادل تونن و نورتن

تابع هزینه حداقل میانگین مربعات توأم با حداقل واریانس خطا

مثال( مساله الپالس در ناحیه داده شده را حل کنید. u(x,0)=f(x) f(x) حل: به کمک جداسازی متغیرها: ثابت = k. u(x,y)=x(x)y(y) X"Y=-XY" X" X" kx = 0

تحلیل مدار به روش جریان حلقه

تلفات خط انتقال ابررسی یک شبکة قدرت با 2 به شبکة شکل زیر توجه کنید. ژنراتور فرضیات شبکه: میباشد. تلفات خط انتقال با مربع توان انتقالی متناسب

جلسه 15 1 اثر و اثر جزي ی نظریه ي اطلاعات کوانتومی 1 ترم پاي یز جدایی پذیر باشد یعنی:

هو الحق دانشکده ي مهندسی کامپیوتر جلسه هفتم

به نام خدا. الف( توضیح دهید چرا از این تکنیک استفاده میشود چرا تحلیل را روی کل سیگنال x[n] انجام نمیدهیم

مسائل. 2 = (20)2 (1.96) 2 (5) 2 = 61.5 بنابراین اندازه ی نمونه الزم باید حداقل 62=n باشد.

جلسه 9 1 مدل جعبه-سیاه یا جستاري. 2 الگوریتم جستجوي Grover 1.2 مسا له 2.2 مقدمات محاسبات کوانتمی (22671) ترم بهار

Angle Resolved Photoemission Spectroscopy (ARPES)

Nonparametric Shewhart-Type Signed-Rank Control Chart with Variable Sampling Interval

فصل دهم: همبستگی و رگرسیون

مارکوف 1.مقدمه: سید مهدی صفوی محمد میکاییلی محمد پویان چکیده ما با مطالعه مدل مخفی میدان تصادفی مارکوف از الگوریتم EM

جلسه 14 را نیز تعریف کرد. عملگري که به دنبال آن هستیم باید ماتریس چگالی مربوط به یک توزیع را به ماتریس چگالی مربوط به توزیع حاشیه اي آن ببرد.

قاعده زنجیره ای برای مشتقات جزي ی (حالت اول) :

هادي ويسي. دانشگاه تهران - دانشکده علوم و فنون نوين نیم سال اول

تئوری جامع ماشین بخش سوم جهت سادگی بحث یک ماشین سنکرون دو قطبی از نوع قطب برجسته مطالعه میشود.

مدل های GARCH بوتبوتاسترپ چکیده نصراله ایرانایرانپناه دانشگاه اصفهان طاهره اصالنی گروه آمار- دانشگاه اصفهان

دانشکده ی علوم ریاضی جلسه ی ۵: چند مثال

تمرین اول درس کامپایلر

جلسه 12 به صورت دنباله اي از,0 1 نمایش داده شده اند در حین محاسبه ممکن است با خطا مواجه شده و یکی از بیت هاي آن. p 1

معادلهی مشخصه(کمکی) آن است. در اینجا سه وضعیت متفاوت برای ریشههای معادله مشخصه رخ میدهد:

Spacecraft thermal control handbook. Space mission analysis and design. Cubesat, Thermal control system

تمرینات درس ریاض عموم ٢. r(t) = (a cos t, b sin t), ٠ t ٢π. cos ٢ t sin tdt = ka۴. x = ١ ka ۴. m ٣ = ٢a. κds باشد. حاصل x٢

مکانيک جامدات ارائه و تحليل روش مناسب جهت افزایش استحکام اتصاالت چسبي در حالت حجم چسب یکسان

جلسه ی ۳: نزدیک ترین زوج نقاط

جلسه ی ۲۴: ماشین تورینگ

آموزش SPSS مقدماتی و پیشرفته مدیریت آمار و فناوری اطالعات -

دبیرستان غیر دولتی موحد

فصل پنجم زبان های فارغ از متن

جلسه ی ۴: تحلیل مجانبی الگوریتم ها

جلسه ی ۵: حل روابط بازگشتی

تعیین محل قرار گیری رله ها در شبکه های سلولی چندگانه تقسیم کد

هدف از این آزمایش آشنایی با رفتار فرکانسی مدارهاي مرتبه اول نحوه تأثیر مقادیر عناصر در این رفتار مشاهده پاسخ دامنه

تحلیل الگوریتم پیدا کردن ماکزیمم

آشنایی با پدیده ماره (moiré)

ارزیابی پاسخ لرزهای درههای آبرفتی نیمسینوسی با توجه به خصوصیات مصالح آبرفتی

هندسه تحلیلی و جبر خطی ( خط و صفحه )

جلسه ی ۱۸: درهم سازی سرتاسری - درخت جست و جوی دودویی

یدنب هشوخ یاه متیروگلا

آموزش شناسایی خودهمبستگی در دادههای سری زمانی و نحوه رفع آن در نرم افزار EViews

تخمین نقطه تغییر در ماتریس کواریانس فرآیند نرمال چند متغیره با استفاده از شبکه عصبی

2. β Factor. 1. Redundant

عنوان: رمزگذاري جستجوپذیر متقارن پویا

جلسه 22 1 نامساویهایی در مورد اثر ماتریس ها تي وري اطلاعات کوانتومی ترم پاییز

بخش 3: تحلیل کمی و کیفی دادههای XRD نویسندگان: علی انصاری فرزاد حسینی نسب مقدمه:

مشخصه های نابجایی ها چگالی نابجایی: مجموع طول نابجاییها در واحد حجم و یا تعداد نابجایی هایی که یک واحد از سطح مقطع دلخواه را قطع می کنند.

تجزیهی بندرز مقدمه کشور هستند. بدین سبب این محدودیتهای مشترک را محدودیتهای پیچیده

نویسنده: محمدرضا تیموری محمد نصری مدرس: دکتر پرورش خالصۀ موضوع درس سیستم های مینیمم فاز: به نام خدا

جلسه 16 نظریه اطلاعات کوانتمی 1 ترم پاییز

سلسله مزاتب سبان مقدمه فصل : زبان های فارغ از متن زبان های منظم

Delaunay Triangulations محیا بهلولی پاییز 93

جلسه 28. فرض کنید که m نسخه مستقل یک حالت محض دلخواه

فصل 5 :اصل گسترش و اعداد فازی

باسمه تعالی آزمون نهایی درس یادگیری ماشین به همراه پاسخ کوتاه ترم اول 29-29

Support Vector Machines: A survey

مقدمه الف) مبدلهای AC/DC ب) مبدلهای DC/AC ج) مبدلهای AC/AC د) چاپرها. (Rectifiers) (Inverters) (Converters) (Choppers) Version 1.0

فعالیت = ) ( )10 6 ( 8 = )-4( 3 * )-5( 3 = ) ( ) ( )-36( = m n m+ m n. m m m. m n mn

خالصه درس: نویسنده:مینا سلیمان گندمی و هاجر کشاورز امید ریاضی شرطی. استقالل متغیر های تصادفی پیوسته x و y استقالل و امید ریاضی

بسمه تعالی «تمرین شماره یک»

کنترل فرکانس- بار سیستم قدرت چند ناحیه شامل نیروگاههای حرارتی بادی و آبی

2/13/2015 حمیدرضا پوررضا H.R. POURREZA 2 آخرین گام در ساخت یک سیستم ارزیابی آن است

7- روش تقریب میانگین نمونه< سر فصل مطالب

مقایسهی کارایی نمونهگیری متعادلشده و PPS

به نام خدا. Sparse Coding ستاره فرامرزپور

OFDM ﻢﺘﺴﯿﺳ ﯽﻫدزﺎﺑ ﺮﺑ لﺎﻧﺎﮐﺮﯿﺧﺎﺗ هﺮﺘﺴﮔ ﺮﯿﺛﺎﺗ

یک سیستم تخصیص منابع هوشمند بر مبنای OFDMA در یک سیستم بیسیم توزیع شده با استفاده از تئوری بازیها

طراحی و تعیین استراتژی بهره برداری از سیستم ترکیبی توربین بادی-فتوولتاییک بر مبنای کنترل اولیه و ثانویه به منظور بهبود مشخصههای پایداری ریزشبکه

SanatiSharif.ir مقطع مخروطی: دایره: از دوران خط متقاطع d با L حول آن یک مخروط نامحدود بدست میآید که سطح مقطع آن با یک

بررسی روشهای تنظیم پارامترهای کنترلکنندههای پیشبین و راهکارهای نوین تنظیم

فصل سوم : عناصر سوئیچ

اصول انتخاب موتور با مفاهیم بسیار ساده شروع و با نکات کاربردی به پایان می رسد که این خود به درک و همراهی خواننده کمک بسیاری می کند.

فصل چهارم تعیین موقعیت و امتدادهای مبنا

نکنید... بخوانید خالء علمی خود را پر کنید و دانش خودتان را ارائه دهید.

تحليل امواج خطی در محيط دریایی با استفاده از روش بدون شبكه حداقل مربعات گسسته مختلط

طراحی وبهینه سازی رگوالتورهای ولتاژ با افت کم) LDO (

مقایسه کارایی آنالیز مولفه های اصلی و تبدیل کسینوسی گسسته در شناسایی چهره با استفاده از تبدیل موجک و ماشین بردار پشتیبان

بیشینهسازی تاثیر در شبکههای اجتماعی با توجه به ویژگیهای انجمنی نوید صالحنمدی دکتر مسعود اسدپور تابستان ۴۹۳۱

)مطالعه موردی بازار بورس تهران(

( )= ( ) ( ) ( 1) ( d) d w و ( ) =

Transcript:

Machine Learning یادگیری ماشین )13-11-805-01( Insance Based Learning دانشگاه شهيد بهشتی پژوهشکده فضای مجازی پاييز 1397 احمد محمودی ازناوه hp://faculies.sbu.ac.ir/~a_mahmoudi/

فهرست مطالب روش های ناپارامتری تخمین چگالی دستهبندی رگرسیون شبکه عصبی 2

پیش گفتار»روشهای پارامتری«: در نظر گرفته میشود. یک مدل برای تمام دادههای ورودی در رگرسیون خطی فرض میشود برای تمام ورودیها خروجی از یک تابع خطی یکسان تبعیت میکند. هر چند تقلیل مسأله به یافتن چند پارامتر محدود مطلوب است اما ممکن است این فرض صحیح نباشد و باعث ایجاد خطا شود.»روشهای نیمهپارامتری«: دادههای مدلهای مختلف تلقی میشوند.»روشهای ناپارامتری«: ورودیهای مشابه دارند. از ترکیبی دسته هر مشابه خروجیهای»نمونههای مشابه«به معنای»چیزهای مشابه«هستند. توابع هموار هستند تغییرات آن نرم است. 3

Nonparameric Esimaion یادگیری بر مبنای نمونه 4 الگوریتمهای ناپارامتری شامل یافتن نمونههای نزدیک )بر اساس یک تابع فاصلهی مناسب( و سپس درونیابی برای یافتن خروجی درست است. تفاوتهای روشهای ناپارامتری روش درونیابی بستگی دارد. و فاصله تابع انتخاب به در مدلهای پارامتری کل دادههای آموزشی بر مدل نهایی اثرگذار هستند در حالی که در روشهای ناپارامتری یک مدل محلی بر اساس نمونههای همسایه تخمین زده میشود. نیاز به حافظه و محاسبات باال از عیبهای این دسته از روشهاست. lazy/memory-based/case-based/insance-based learning

تخمین چگالی در حالت یک بعدی Densiy Esimaion به و } X={x به صورت مستقل از یک N دادههای آموزشی 1= توزیع تصادفی یکسان )p(x( استخراج شدهاند. تخمین ناپارامتری»تابع توزیع تجمعی«به صورت زیر محاسبه میشود: Fˆ همین ترتیب چگالی تابع برای که دادههای هستند. احتمال کافی اندازه ی به آن # x x x pˆ x N x x h x x 1 # # h N x x x h h طول بازهای است به هم نزدیک)شبیه( 5

تخمین هیستوگرام)بافت نگار( تخمین هیستوگرام یکی از قدیمیترین و متداولترین روشهاست دادهها به یک سری نوار) bin ( با عرض h تقسیم میشوند: pˆ x # x in he samebinas x Nh تغییر عرض نوارها و مبدأ آنها بر روی تخمین به دستآمده اثرگذار است. در مرز نوارها گسستگی دیده میشود. نیازی به ذخیره کردن نمونهها نیست. 6

مثال 7

Naive esimaor در این روش نیازی به وجود ندارد: یا با تعریف یک تابع وزندهی: مشخص کردن مبدأ نوارها pˆ x # x h x x 2Nh h pˆ x 1 Nh N 1 w x x h w u 1 0 / 2 if u 1 oherwise با توجه به ناحیهی تحت تأثیر) hard ( تخمین به دست آمده در نواحی مرزی دارای پرش میباشد. 8

مثال 9

استفاده از کرنل Kernel Esimaor برای به دست آوردن تخمینی هموارتر میتوان یک تابع وزندهی هموار )کرنل( بهره برد یکی معروفترین کرنلها تابع گاوسی است. از از u 1 u exp 2 2 2 هر تابع نامنفی و متقارن حول صفر که دارای سطح یک باشد را میتوان به عنوان کرنل استفاده کرد. K Parzen windows pˆ x 1 Nh N 1 x K x h 10

مثال 11

k-neares Neighbor Esimaor در این روش بازهی به صورت وفقی در نظر گرفته میشود. بازهای که k همسایهی نزدیک در آن واقع هستند. در واقع به جای ثابت در نظر گرفتن نوار تعداد نمونههای واقع در نوار ثابت در نظر گرفته میشود. k pˆ x x h x x pˆ x # 2Nd 2Nh فاصله ی k -امین همسایه ی است. نزدیک d k (x) در چگالی تخمین زده مشتق( وجود دارد برای میتوان از کرنل استفاده N 1 x x pˆ x K Nh 1 h شده شکستگی)گسستگی در به دست آوردن تقریب هموارتر کرد: N 1 x x pˆ x K Nd k x 1 dk x k x h 12

مثال 13

تعمیم به داده های چندبعدی تخمین چگالی به صورت زیر انجام میشود: pˆ x N 1 x x K d Nh 1 h در این بود: خواهد زیر صورت های به کرنل تابع حالت K K u u 1 2 1 d exp 1 T 1 exp u S u d / 2 1/ 2 2 S 2 u 2 2 spheric 1 مشروط به K x dx R d ellipsoid 14

تعمیم به داده های چندبعدی)ادامه...( برای تخمین هیستوگرام هشتبعدی در صورتی که برای در نظر گرفته شود: به 10 8 بخش نیاز خواهیم داشت. یک مجموعهی هر بعد تنها ده نوار Curse of dimensionaliy برای دادههای گسسته میتوان از فاصلهی همینگ نیز استفاده کرد. d xx, 1 j i HD x x j1 15

دسته بندی ناپارامتری برای دستهبندی ابتدا چگالی محاسبه میشود: احتمال هر کالس N 1 pˆ x Ci K r d x x i Nih 1 h p(x C i ) و جداساز به ترتیب زیر به دست می آید: ˆ ˆ g p C P C i i i x متعلق به کالسی است که جداساز آن بیشترین مقدار را داشته باشد از بخش مشترک جداساز میتوان چشمپوشید. x x PC ˆ 1 g p C P C K x x r N ˆ ˆ i x x i i d i Nh 1 h i Ni N 16

N gix K x x r 1 h و دسته بندی ناپارامتری )ادامه...( هر نمونهی آموزشی متعلق به کالس i ما- به ورودی یک»رأی«میدهد. رأی توسط تابع کرنل مشخص میشود. ki pˆ x Ci k NV در حالتی که از k-nn استفاده کنیم: k i تعداد بخشی از k همسایه است که به کالس i ما- تعلق دارند و V ابرکرهای است به مرکز x و با شعاع x نزدیکترین همسایهی k ما- x i i x k k d V r c, c 2, c, c 4 /3, d 1 2 3 17

k-nn classifier ki pˆ x Ci k NV i دسته بندی ناپارامتری )ادامه...( PC ˆ x i x PC ˆ x i x ˆ i i pˆ x pˆ C P C PC ˆ i Ni N pˆ x x ˆ pˆ x V pˆ Ci P Ci ki k d k x در دستهبندی k-nn ورودی به کالسی نسبت داده میشود که در بین k همسایهی نزدیک بیشترین عضو را داشته باشد. N 18

Neares neighbor classifier در حالت خاص که 1=k در نظر گرفته به کالسی نسبت داده میشود که نمونه به ورودی متعلق به آن است: شود ورودی نزدیکترین Voronoi essellaion 19

5-Neares Neighbor مثال CS 391L: Raymond J. Mooney 20

Condensing mehods Condensed Neares Neighbor (C.N.N.) پیچیدگی مکانی و زمانی روشهای ناپارامتری به تعداد نمونههای آموزشی )N( بستگی دارد. روشهایی ارائه شده است که هدف آن کاهش نمونههای ذخیره شده بدون افت کارایی است. در این روشها یک زیر مجموعهی کوچک )Z( از نمونههای آموزشی )X( به نحوی انتخاب میشود که ضمن کاهش دادههای ذخیره شده خطا افزایش چندانی نیابد. در C.N.N. میشود. برای 1-nn از دسته بندی 21 استفاده

Condensed Neares Neighbor (C.N.N.) در 1-nn جداساز به صورت خطی تکهای تقریب زده میشود و تنها نمونههایی که در تشکیل جداساز نقش دارند الزم است نگهداری شوند. به چنین مجموعهای consisen میگویند. 22

Incremenal algorihm بستگی ورودیها اعمال ترتیب به نهایی پاسخ دارد. با تعریف تابع هزینهی زیر میتوان بین پیچیدگی و خطای مدل بسته به مقدار λ نوعی مصالحه برقرار کرد: E' Z X EX Z Z 23

تشخیص داده های پرت Oulier Deecion دادهی پرت)ناهنجار( دادهای است که با سایر نمونهها تفاوت زیادی دارد. چنین نمونهای بیانگر یک رفتار غیرعادی است: تراکنشهای کارت اعتباری سوءاستفاده از کارت در تصاویر پزشکی وجود تومور در ترافیک شبکه نفوذ در شبکه در پروندهی پزشکی بروز بیماری بروز خطا در یک سیستم خراب شدن یک سنسور معموال به عنوان تلقی نمیشوند. کالسه دو مسأله ی یک دادههای پرت نسبت به دادههای نرمال هستند و معموال بدون برچسب هستند. نظارت با بسیار اندک 24

تشخیص داده های پرت)ادامه...( در واقع مسأله است. یک one-class classificaion problem دسته بندی کننده ی تک کالسه در این حالت دادههای نرمال مدل میشوند توزیع دادههای نرمال به دست میآید. در این حالت هرچند میتوان از شیوههای پارامتری و نیمهپارامتری استفاده کرد اما با توجه به حساسیت روشهای پارامتری به دادههای پرت روشهای ناپارامتری ترجیح داده میشود. یک دادهی پرت مدل را تحت تأثیر قرار میدهد. 25

تشخیص داده های پرت)ادامه...( Local Oulier Facor در روشهای ناپارامتری در صورتی که یک نمونه از سایر نمونهها دور باشد پرت تشخیص داده میشود. 26

رگرسیون ناپارامتری)تک متغیره( رگرسیون ناپارامتری میگیرد که نتوان یک گرفت. در این حالت فرض x مقادیر نزدیک به Nonparameric Regression x,, x smoohing models(smooher) زمانی مورد استفاده قرار مدل کلی برای دادهها در نظر میشود که دادههای g(x) خواهند داشت. X= r r g نزدیک در این حالت رویکرد یافتن همسایههای x میانگین گرفتن از مقادیر r مربوط به آنهاست. به و 27

Regressogram N 1 ˆ where bx, x N g x b x, x r 1 if x is in he same bin wih x b x, x 0 oherwise 1 این واژه در سال 1961 توسط شخصی به نام تا شباهت آن را به هیستوگرام نشان دهد. Tukey مطرح شد 28

Running Mean Smooher N x x w r 1 h gˆ x where N x x w 1 h w u 1 if u 1 0 oherwise 29

نيشام یريگداي 30 Kernel Smooher N N h x x K r h x x K x g 1 1 ˆ K( ) is Gaussian

Running line smooher در این حالت برای هر خطی به صورت محلی در همسایگی یک رگرسیون نظر گرفته میشود. 31

smoohing parameer تعیین پارامتر هموارسازی در صورتی که k یا h کوچک در نظر گرفته شوند )به عنوان مثال زمانی که تنها خود نمونه در نظر گرفته شود( میزان بایاس کم است اما واریانس باال خواهد بود )پیچیدگی زیاد(. در صورت افزایش دامنهی هموارسازی کاهش یافته اما بایاس افزایش )پیچیدگی کم(. undersmoohing واریانس مییابد oversmoohing میتوان از cross validaion نیز برای تنظیم پارامتر هموارسازی استفاده کرد. 32

روش های جستجو یافتن»نزدیکترین همسایه«به صورت جستجوی خطی به به ویژه زمانی که تعداد نمونههای آموزشی باالست صرفه نیست. در این شرایط عموما از درخت kd استفاده میشود. استفاده (LSH) نظیر درهمسازی روشهای همچنین میشود. Li, Yuenan Localiy Sensiive Hashing hp://bigdaa.csail.mi.edu/node/17 33