ﻲﺘﻳﻮﻘﺗ يﺮﻴﮔدﺎﻳ زا هدﺎﻔﺘﺳا ﺎﺑ نآ لﺎﻘﺘﻧا و ﺶﻧاد يزﺎﺳ دﺮﺠﻣ

Σχετικά έγγραφα
ﻞﻜﺷ V لﺎﺼﺗا ﺎﻳ زﺎﺑ ﺚﻠﺜﻣ لﺎﺼﺗا هﺎﮕﺸﻧاد نﺎﺷﺎﻛ / دﻮﺷ

برخوردها دو دسته اند : 1) كشسان 2) ناكشسان

در اين آزمايش ابتدا راهاندازي موتور القايي روتور سيمپيچي شده سه فاز با مقاومتهاي روتور مختلف صورت گرفته و س سپ مشخصه گشتاور سرعت آن رسم ميشود.

را بدست آوريد. دوران

( ) قضايا. ) s تعميم 4) مشتق تعميم 5) انتگرال 7) كانولوشن. f(t) L(tf (t)) F (s) Lf(t ( t)u(t t) ) e F(s) L(f (t)) sf(s) f ( ) f(s) s.

1 ﺶﻳﺎﻣزآ ﻢﻫا نﻮﻧﺎﻗ ﻲﺳرﺮﺑ

سبد(سرمايهگذار) مربوطه گزارش ميكند در حاليكه موظف است بازدهي سبدگردان را جهت اطلاع عموم در

e r 4πε o m.j /C 2 =

هدف:.100 مقاومت: خازن: ترانزيستور: پتانسيومتر:

ﻴﻓ ﯽﺗﺎﻘﻴﻘﺤﺗ و ﯽهﺎﮕﺸﻳﺎﻣزﺁ تاﺰﻴﻬﺠﺗ ﻩﺪﻨﻨﮐ

O 2 C + C + O 2-110/52KJ -393/51KJ -283/0KJ CO 2 ( ) ( ) ( )

P = P ex F = A. F = P ex A

محاسبه ی برآیند بردارها به روش تحلیلی

( ) x x. ( k) ( ) ( 1) n n n ( 1) ( 2)( 1) حل سري: حول است. مثال- x اگر. يعني اگر xها از = 1. + x+ x = 1. x = y= C C2 و... و

V o. V i. 1 f Z c. ( ) sin ورودي را. i im i = 1. LCω. s s s

حل J 298 كنيد JK mol جواب: مييابد.

1- مقدمه است.

آزمایش 2: تعيين مشخصات دیود پيوندي PN

نيمتوان پرتو مجموع مجموع) منحني

اراي ه روشي نوين براي حذف مولفه DC ميراشونده در رلههاي ديجيتال

چكيده 1- مقدمه

چكيده. Keywords: Nash Equilibrium, Game Theory, Cournot Model, Supply Function Model, Social Welfare. 1. مقدمه

a a VQ It ميانگين τ max =τ y= τ= = =. y A bh مثال) مقدار τ max b( 2b) 3 (b 0/ 06b)( 1/ 8b) 12 12

+ Δ o. A g B g A B g H. o 3 ( ) ( ) ( ) ; 436. A B g A g B g HA است. H H برابر

مريم اسپندار - وحيدحقيقتدوست چكيده 1- مقدمه. ١ Vehicular Anti-Collision Mechanism ٢ Intelligent Vehicular Transportation System

چكيده SPT دارد.

3 و 2 و 1. مقدمه. Simultaneous كه EKF در عمل ناسازگار عمل كند.

در اين ا زمايش ابتدا راهاندازي موتور القايي رتور سيمپيچي شده سه فاز با مقاومت مختلف بررسي و س سپ مشخصه گشتاور سرعت ا ن رسم ميشود.

10 ﻞﺼﻓ ﺶﺧﺮﭼ : ﺪﻴﻧاﻮﺘﺑ ﺪﻳﺎﺑ ﻞﺼﻓ ﻦﻳا يا ﻪﻌﻟﺎﻄﻣ زا ﺪﻌﺑ

آزمایش 1 :آشنایی با نحوهی کار اسیلوسکوپ

ﻲﻟﻮﻠﺳ ﺮﻴﮔدﺎﻳ يﺎﻫﺎﺗﺎﻣﻮﺗآ زا هدﺎﻔﺘﺳا ﺎﺑ ﻢﻴﺳ ﻲﺑ ﺮﮕﺴﺣ يﺎﻫ ﻪﻜﺒﺷ رد يﺪﻨﺑ ﻪﺷﻮﺧ

چكيده 1- مقدمه درخت مشهد ايران فيروزكوه ايران باشد [7]. 5th Iranian Conference on Machine Vision and Image Processing, November 4-6, 2008

بررسي علل تغيير در مصرف انرژي بخش صنعت ايران با استفاده از روش تجزيه

yazduni.ac.ir دانشگاه يزد چكيده: است. ١ -مقدمه

Distributed Snapshot DISTRIBUTED SNAPSHOT سپس. P i. Advanced Operating Systems Sharif University of Technology. - Distributed Snapshot ادامه

تلفات کل سيستم کاهش مي يابد. يکي ديگر از مزاياي اين روش بهبود پروفيل ولتاژ ضريب توان و پايداري سيستم مي باشد [-]. يکي ديگر از روش هاي کاهش تلفات سيستم

است). ازتركيب دو رابطه (1) و (2) داريم: I = a = M R. 2 a. 2 mg

1. مقدمه بگيرند اما يك طرح دو بعدي براي عايق اصلي ترانسفورماتور كافي ميباشد. با ساده سازي شكل عايق اصلي بين سيم پيچ HV و سيم پيچ LV به


{hmontazeri, 1- مقدمه

يﺎﻫ ﻢﺘﺴﻴﺳ زا هدﺎﻔﺘﺳا ﺎﺑ (IP) ﺖﻧﺮﺘﻨﻳا ﻞﻜﺗوﺮﭘ رد تﺎﻋﻼﻃا يوﺎﺣ يﺎﻫ ﻪﺘﺴﺑ لﺎﻘﺘﻧا (DWDM)جﻮﻣ لﻮﻃ ﻢﻴﺴﻘﺗ لﺎﮕﭼ هﺪﻨﻨﻛ ﺲﻜﻠﭘ ﻲﺘﻟﺎﻣ يرﻮﻧ ﺮﺒﻴﻓ

(POWER MOSFET) اهداف: اسيلوسكوپ ولوم ديود خازن سلف مقاومت مقاومت POWER MOSFET V(DC)/3A 12V (DC) ± DC/DC PWM Driver & Opto 100K IRF840

t a a a = = f f e a a

(,, ) = mq np داريم: 2 2 »گام : دوم« »گام : چهارم«

مقدمه ميباشد. Q = U A F LMTD (8-2)

- 1 مقدمه كنند[ 1 ]:

98-F-ELM چكيده 1- مقدمه

جلسه 3 ابتدا نکته اي در مورد عمل توابع بر روي ماتریس ها گفته می شود و در ادامه ي این جلسه اصول مکانیک کوانتمی بیان. d 1. i=0. i=0. λ 2 i v i v i.

مجلد 11 شماره 1 مقاله عادي ايران. Q-Learning كليدي: چندعامله. مدلهاي تصادفي يادگيري بازيهاي درباره بالايي الگوريتم

چكيده مقدمه SS7 گرديد. (UP) گفته ميشود. MTP وظيفه انتقال پيامهاي SS7 را User Part. Part هاي SS7 هستند. LI I FSN I BSN F

روش محاسبه ی توان منابع جریان و منابع ولتاژ

هدف: LED ديودهاي: 4001 LED مقاومت: 1, اسيلوسكوپ:

آزمايش (٤) موضوع آزمايش: تداخل به وسيلهي دو شكاف يانگ و دو منشور فرنل

متلب سایت MatlabSite.com

استفاده از قابليت V2G براي PHEVها را به عنوان رزرو جهت

No. F-16-EPM مقدمه

آزمايشگاه ديناميك ماشين و ارتعاشات آزمايش چرخ طيار.

مربوطند. با قراردادن مقدار i در معادله (1) داريم. dq q

هر عملگرجبر رابطه ای روی يک يا دو رابطه به عنوان ورودی عمل کرده و يک رابطه جديد را به عنوان نتيجه توليد می کنند.

:نتوين شور شور هدمع لکشم

آزمايش ارتعاشات آزاد و اجباري سيستم جرم و فنر و ميراگر

شماره : RFP تاريخ RFP REQUEST FOR RESEARCH PROPOSAL Q # # ساير باشند. F

ازالگوريتم ژنتيك. DTW,Genetic Algorithm,Feature Vector,Isolated Word Recognition دهد.

ˆÃd. ¼TvÃQ (1) (2) داشت: ( )

5 TTGGGG 3 ميگردد ) شكل ).

ﺮﺑﺎﻫ -ﻥﺭﻮﺑ ﻪﺧﺮﭼ ﺯﺍ ﻩﺩﺎﻔﺘﺳﺍ ﺎﺑ ﻱﺭﻮﻠﺑ ﻪﻜﺒﺷ ﻱﮊﺮﻧﺍ ﻦﻴﻴﻌﺗ ﻪﺒـﺳﺎﺤﻣ ﺵﻭﺭ ﺩﺭﺍﺪﻧ ﺩﻮﺟﻭ ﻪ ﻱﺍ ﻜﺒﺷ ﻱﮊﺮﻧﺍ ﻱﺮﻴﮔ ﻩﺯﺍﺪﻧﺍ ﻱﺍﺮﺑ ﻲﻤﻴﻘﺘﺴﻣ ﻲﺑﺮﺠﺗ ﺵﻭﺭ ﹰﻻﻮﻤﻌﻣ ﻥﻮﭼ ﻱﺎ ﻩﺩ

- 2 كدهاي LDPC LDPC است. بازنگري شد. چكيده: 1. .( .( .finite length Irregular LDPC Codes

طراحي و بهبود سيستم زمين در ا زمايشگاه فشار قوي جهاد دانشگاهي علم و صنعت

چكيده واژههاي كليدي: منحني L تنظيم تيخونف OTSVD لرزه پايينچاهي مقدمه 1 شده و. x true مو لفه مربوط به نوفههاي تصادفي و ديگري مو لفه مربوط.

R = V / i ( Ω.m كربن **

ايران نارمك تهران چكيده مقدمه. *

يون. Mg + ا نزيم DNA پليمراز III

و دماي هواي ورودي T 20= o C باشد. طبق اطلاعات كاتالوگ 2.5kW است. در صورتي كه هوادهي دستگاه

Downloaded from ijpr.iut.ac.ir at 10:19 IRDT on Saturday July 14th پست الكترونيكي: چكيده ١. مقدمه

1- مقدمه

98-F-TRN-596. ترانسفورماتور بروش مونيتورينگ on-line بارگيري. Archive of SID چكيده 1) مقدمه يابد[

آزمایش 1: پاسخ فرکانسی تقویتکننده امیتر مشترك

Aerodynamic Design Algorithm of Liquid Injection Thrust Vector Control

1- مقدمه ماندانا حميدي استفاده از آنها را در طبقهبندي كنندهها آسان كرده است است.

D-STATCOM چكيده 1- مقدمه Flexible Alternative Current Transmission System

تحليل جريان سيال غيرنيوتني در لوله مخروطي همگرا با استفاده از مدل بينگهام

هو الحق دانشکده ي مهندسی کامپیوتر جلسه هفتم

* خلاصه

جلسه 12 به صورت دنباله اي از,0 1 نمایش داده شده اند در حین محاسبه ممکن است با خطا مواجه شده و یکی از بیت هاي آن. p 1

تحلیل مدار به روش جریان حلقه


یﺭﺎﺘﻓﺭ یﺭﺎﺘﻓﺭ یﺎﻫ یﺎﻫ ﻑﺪﻫ ﻑﺪﻫ

بخش غیرآهنی. هدف: ارتقاي خواص ابرکشسانی آلياژ Ni Ti مقدمه

No. F-15-AAA-0000 تشخيص SPS امري حياتي ميباشد.

مقدمه دسته بندي دوم روش هاي عددي دامنه محدود اهداف: هاي چندجمله اي رهيافت هاي محاسباتي: سعي و خطا دامنه نامحدود

چكيده مقدمه.

نقش نيروگاههاي بادي در پايداري گذراي شبكه

ﺭﻮﺴﻨﺳ ﻮﻧﺎﻧ ﻚﻳ ﻲﺣﺍﺮﻃ ﻪﺸﻘﻧ ﺎﺑ ﻲﻳﺎﻨﺷﺁ

17-F-AAA مقدمه تحريك

ﯽﺳﻮﻃ ﺮﯿﺼﻧ ﻪﺟاﻮﺧ ﯽﺘﻌﻨﺻ هﺎﮕﺸﻧاد

چكيده مقدمه

چكيده 1- مقدمه شبيهسازي ميپردازد. ميشود 8].[1, 2, 3, 4, 5, 6, 7,

قطعات DNA وصل ميشوند فاژT7. pppapcpc/a(pn) 1 2 فاژT4. pppapc (PN) 3. *** (p)ppa /G (PN) 7 pppa / G (Pn)~9 در حدود ۱۰

تعيين مدل استاتيكي كولرهاي گازي اينورتري به منظور مطالعات پايداري ولتاژ

با مصرف توان پايين و نويز كم

Transcript:

مجرد سازي دانش و انتقال آن با استفاده از يادگيري تقويتي 1 نرجس زارع 2 مجيد نيلي احمدآبادي 1 احمدرضا ولي 2 مريم سادات ميريان mmirian@ut.ac.ir ar.vali@gmail.com mnili@ut.ac.ir zare.narjes@gmail.com 1- دانشگاه صنعتي مالك اشتر مجتمع برق و الكترونيك 2- دانشگاه تهران دانشكده برق و كامپيوتر آزمايشگاه رباتيك چكيده هنوز فاصله قابل توجهي بين قابليت يادگيري در سيستمهاي هوشمند و سيستمهاي بيولوژيكي ديده ميشود. يكي از دلايل اين مساله استفاده نكردن از دانش بدست آمده در طول يادگيري در يك سيستم هوشمند ميباشد. به منظور نشان دادن كار آمدي اين ديدگاه در اين مقاله روشي براي انتقال يادگيري اراي ه شده است. در اين روش دانش ياد گرفته شده در كار مرجع بصورت مفاهيم مجرد در آمده و به كار هدف منتقل ميشود. عامل با استفاده از اين دانش منتقل شده ميتواند به يادگيري سريعتري نتايج شبيهسازي در كار هدف دست يابد. نشان ميدهند كه روش اراي ه شده باعث افزايش پاداش بدست آمده درطول يادگيري بخصوص اوايل يادگيري و در نتيجه افزايش سرعت يادگيري ميشود. كليد واژه- انتقال يادگيري مجرد كردن دانش مفهوم يادگيري تقويتي 1- مقدمه موجودات هوشمند با داشتن هوش طبيعي در تعامل با محيط ياد ميگيرند كه در برابر هر شرايطي از محيط چگونه رفتار كنند. در شاخههاي مختلف هوش مصنوعي نيز سعي شده است كه با الهام گرفتن از نحوهي تعامل سيستمهاي هوشمند طبيعي با محيط روشهايي براي توسعه سيستم- هاي هوشمند مصنوعي اراي ه شود. يادگري تقويتي يكي از اما هنوز فاصله قابل توجهي بين قابليت يادگيري در سيستمهاي هوشمند و سيستمهاي بيولوژيكي ديده ميشود. يكي از دلايل اين مساله استفاده نكردن از دانش بدست آمده در طول يادگيري در يك سيستم هوشمند مي- باشد. به اين منظور اخيرا محققان توجه خود را به انتقال دانش در سيستمهاي هوشمند معطوف كردهاند. هدف از انتقال دانش يادگيري سريع كار( هدف) بعد از يادگيري كار (مرجع) متفاوت اما مشابه (وابسته) به آن ميباشد[ 1 ]. انتقال دانش به عامل اجازه ميدهد كه ابتدا يك كار مرجع ساده اوليه را ياد بگيرد و سپس با توجه به آن كار پيچيدهتري را ياد بگيرد. در صورتي انتقال يادگيري موفق خواهد بود كه بعد از استفاده از دانش يادگرفته شده از كار مرجع يادگيري در كار هدف سريعتر و با عملكرد بهتري صورت گيرد. اكثر روشهايي كه تا كنون در راستاي انتقال دانش اراي ه شدهاند از نوعي نگاشت بين كارهاي مرجع و هدف استفاده كردهاند[ 2 ]. يافتن چنيني نگاشتي بين كارها ملزم داشتن اطلاعات زيادي در مورد كارها و همچنين وجود و شناسايي تشابهات بين كارها ميباشد كه اين امر باعث ايجاد محدوديت در انتقال دانش ميشود و كار را مشكل ميسازد. براي حل اين مشكل ميتوان از نگاشت در سطح بالايي از تجريد بين دو مساله استفاده كرد. در حالت كلي ميتوان گفت كه مقولههاي انتقال يادگيري و انتزاعي كردن حالت خيلي به هم وابسته و نزديك بهم هستند[ 3 ]. در انتقال يادگيري عامل ميكوشد كه از دانش كار مرجع در كار هدف استفاده نمايد. رسيدن به اين هدف نيازمند اين است كه يك صورت انتزاعي از فضاي حالت داشته باشيم تا بتوان دانش كار مرجع را در كارهاي ديگر كه حوزههاي كاري متفاوت دارند استفاده كرد. بنابراين مساله تصميمگيري در مورد انتخاب دانش براي انتقال در حوزههاي متفاوت

ميتواند به مساله انتزاعي كردن حالت براي يك مجموعه از حوزههاي مرجع تبديل شود. در اين مقاله سعي بر اين است تا با استفاده از مفاهيم سلسله مراتبي عامل دانش خود را براي استفاده مجدد در كار ديگر ) معمولا پيچيدهتر ( مجرد كند. رويكرد ما براي تعريف مفهوم و مدل كردن آن در ذهن عامل يك رويكرد كاركردي است[ 4 ]. يعني مفاهيم در فضاي Q-value ها شكل ميگيرند. نتايج بدست آمده نشان مي- دهند كه روش پيشنهادي براي انتقال دانش نه تنها باعث سرعت در يادگيري ميشود بلكه حتي با تغيير سنسورهاي ربات ) فضاي حسي) عامل ميتواند از دانش قبلي به علت قابليت تعميم آن استفاده كند و بوسيله آن سرعت يادگيري خود را افزايش دهد. ترتيب مطالب اين مقاله بدين صورت ميباشد: در قسمت دوم مروري خلاصه بر يادگيري تقويتي داريم. قسمت سوم انتقال دانش و راهكارهاي موجود و هدف از آن را بررسي ميكند. بعد از آن در قسمت چهارم تعريفي از مجرد كردن دانش خواهيم داشت. سپس درقسمت پنجم به نحوه ايجاد مفاهيم و يادگيري آنها ميپردازيم. در قسمت ششم به چگونگي انتقال يادگيري در اين مقاله آخرين بخش نتايج حاصل از شبيهسازي -2 يادگيري تقويتي ميپردازيم و در آورده شده است. در چارچوب يادگيري تقويتي عامل يادگيرنده در طي عمر خود,2,3 =,0,1 t در تقابل با محيط ميباشد. در هر مرحله زماني t عامل حالت جاري محيط S t را مشاهده مي- كند و بر اساس آن عمل a را انجام ميدهد كه باعث مي- شود محيط به حالت بعدي 1+t s منتقل شود و در نتيجه آن عامل پاداش r را از محيط دريافت كند[ 5 ]. در يك سيستم ماركف حالت بعدي محيط و پاداش دريافتي تنها به عمل و حالت قبلي عامل در محيط بستگي دارد. هدف عامل در يادگيري ماكزيمم كردن پاداش بدست آمده در طول زمان ميباشد. عامل با يادگرفتن نگاشت حالات به اعمال كه سياست ناميده ميشود اين كار را انجام ميدهد. بعبارتي هدف عامل انتخاب عمل بطوريكه مقدار پاداش مورد انتظار را افزايش دهد ضريب γ كه ميباشد فراموشي است. يك راه حل مرسوم تخمين زدن تابع حالت و عمل بهينه يا همان تابع Q كه حالات و اعمال را به ماكزيمم پاداش مورد انتظار كه با شروع از حالت s و عمل a نگاشت ميدهد ميباشد. 3- انتقال يادگيري انتقال يادگيري به معني بكار بردن دانش يادگرفته شده در يك كار ) كار مرجع) به منظور بهبود يادگيري در كار ديگر (كار هدف) ميباشد. بشر بطور قابل ملاحظهاي از دانش- هاي يادگرفته شده در كارهاي گذشتهاش براي يادگيري بهتر و سريعتر در كارهاي خود بهره ميبرد. بيشتر روشهايي كه تا كنون در راستاي انتقال دانش اراي ه شدهاند از نوعي نگاشت بين كارهاي مرجع و هدف استفاده كردهاند. يافتن چنيني نگاشتي بين كارها ملزم داشتن اطلاعات زيادي در مورد كارها و همچنين وجود و شناسايي تشابهات بين كارها ميباشد كه اين امر باعث ايجاد محدوديت در انتقال دانش ميشود و كار را مشكل ميسازد. براي حل اين مشكل ميتوان از نگاشت در سطح بالايي از تجريد بين دو مساله استفاده كرد. در اين مقاله براي نيل به اين هدف از مجرد كردن دانش از طريق يادگيري مفاهيم استفاده شده است. 4- مجردكردن دانش محيط واقعي كه ما انسانها در آن زندگي ميكنيم سرشار از اطلاعات پيوسته و گسسته كه با نا يقيني و نويز همراه است ميباشد. يادگيري در چنين محيط پيجيدهاي بدون استفاده از مكانيزم هاي خاصي غير ممكن مينمايد. يكي از مهمترين حربه هايي كه انسان براي برخورد با چنين محيط هايي بكار ميبرد مجرد كردن ميباشد. مجردسازي مكانيزمياست كه طي آن فضاي ادراكي پيچيده عامل هوشمند به يك فضاي سادهتر كه توسط عامل قابل مديريت كردن ميباشد نگاشته ميشود و از آنجا كه سعي ميشود در اين فرآيند تا حد امكان محتواي اطلاعاتي فضاي ادراكي اصلي حفظ شود فضاي ادراكي حاصل به نوعي باز نمايي سطح بالاتر و يا مجردتر از فضاي اصلي خواهد بود[ 6 ].

- 5 يادگيري مفاهيم از يكي روشهاي موجود براي مجردسازي تقسيم فضاي اداركي عامل به يك سري كلاس هاي شباهت است بطوري- كه هر كلاس حالتهاي مشابه در فضاي ادراكي را در خود جاي دهد. به هر يك از اين كلاسهاي شباهت مفهوم گفته انسانها ميشود. در تعامل با محيط يادگرفتهاند كه براي درك محيط پيرامونشان تنها به ويژگي هاي حسي اتكا نداشته باشند و با عمل هايشان محيط را بشناسند. آنها چون قابليت استخراج مفاهيم مجرد از محيط را دارند مي- توانند يادگيري در يك محيط را به محيطهاي جديد تعميم دهند. مفاهيميكه با اتكا به ارزش اعمال بدست ميآيند را مفاهيم كاركردي ميگويند. در اين مقاله نشان داده شده است كه مفاهيم كاركردي ابزار مناسبي براي مجرد كردن دانش ربات بشمار ميرود كه ميتواند قابليت مناسبي براي به اشتراك گذاشتن دانش بين عاملهايي كه فضاي حسي متفاوتي دارند يا بين دو مساله كه فضاي حسي متفاوتي دارند محسوب شود. (1) شكل شماتيكي از نمونه ها در فضاي حسي و مفاهيم استخراجي از آنها در فضاي كاركردي نشان ميدهد. شكل 1: شماتيكي از نمونه ها در فضاي حسي و مفاهيم استخراجي از آنها در فضاي كاركردي[ 4 ] -6 مجرد كردن دانش و انتقال آن با استفاده از يادگيري تقويتي مجرد كردن و قابليت تعميم دو ويژگي مهم براي سيستم هاي هوشمند بهبود ميبخشد. ميباشد كه سرعت و كيفيت يادگيري را در اين مقاله براي مجرد كردن دانش دانش بدست آمده از يادگيري عامل در كار مرجع را بصورت مفاهيم مجرد در ميآوريم. براي بدست آوردن مفاهيم بردارهاي Q بدست آمده عامل پس از يادگيري در مساله مرجع توسط روش خوشه بندي k-means بصورت دسته هايي مجزا در ميآيند مراكز اين دستهها همان مفاهيم انتقالي هستند كه عامل در مساله هدف از آنها براي يادگيري سريعتر استفاده ميكند. پس از محاسبه مفاهيم آنها را به مساله هدف منتقل ميكنيم. الگوريتم يادگيري در هر دو مساله مرجع و هدف يادگيري Q ميباشد. عامل در كار هدف ابتدا يادگيري عادي خود را شروع ميكند. پس از اينكه به دانش لازم براي تشخيص صحيح سپس مفهوم دست يافت از مفاهيم انتقالي براي تصميمگيري استفاده ميكند. معياري كه براي اين كار در نظر گرفته شده است تعداد تكرار قرار گرفتن عامل در آن حالت ميباشد. اگر N c عامل بار يك حالت را مشاهده كرده باشد مجاز به استفاده از مفاهيم براي انتخاب عمل مناسب ميباشد كه اين مقدار با سعي و خطا بدست ميآيد. اين كار را چون عامل در ابتداي يادگيري ديد كافي به مساله ندارد و نمي- تواند تشخيص درستي از مفهوميكه درآن قرار دارد داشته باشد انجام ميدهيم. عامل پس از اينكه توانايي استفاده از مفاهيم را بدست آورد با توجه به بردار ارزش Q كه در آن قرار دارد شبيه ترين مفهوم را كه نزديكترين مفهوم به بردار Q ميباشد را انتخاب ميكند. فاصله اقليدسي در اينجا بعنوان شاخص شباهت در نظر گرفته شده است: r r r r T d = ( Q Q ) ( Q Q ) i s ci s ci c Qc ( 1) Q = arg min( d) ( 2) اگر فاصله بردار Q تا نزديكترين مفهوم از محدوده تعيين شده كمتر باشد. عامل با توجه به آن مفهوم تصميمگيري ميكند در غير اينصورت با استفاده از بردار Q مفاهيم در فضاي كاركردي نمونهها در فضاي حسي خود و الگوريتم يادگيري Q عمل مناسب را انتخاب ميكند. با اين كار عامل تنها در حالاتي كه دانش مرجع برايش مفيد است از دانش انتقالي استفاده ميكند. انتقال و با انجام عمل محيط به حالت بعدي و پاداشي كه محيط به عامل ميدهد

عامل با استفاده از يادگيري Q مقدار بردار Q خود را با استفاده از رابطه (3) بروز ميكند. Qsa (, ) (1 α) Qsa (, ) + α( r+ γ max Q( s, a )) a ( 3) 7- نتايج شبيهسازي مساله اي كه براي شبيهسازي در نظر گرفته شده مساله شكار و شكارچي ميباشد. مساله شكار و شكارچي يكي از مساي ل كلاسيك براي مطالعه و مقايسه روشهاي متفاوت يادگيري در هوش مصنوعي ميباشد[ 7 ]. شكل 2: نمايي از دو محيط شبيهسازي شكل سمت چپ محيط شبيه - سازي براي مساله مرجع و سمت راست براي مساله هدف شكار و شكارچي در يك محيط دو بعدي مربعي شكل كه هر بعد آن به 12 قسمت تقسيم شده است واقع شدهاند. دورتا دور محيط ديوار قرار گرفته است و تعدادي مانع در آن قرار داده شده است. عامل شكارچي در هر قدم يكي از پنج عمل بالا پاي ين راست چپ و يا تير زدن را با احتمالي كه با تابع بولتزمن مشخص ميشود انتخاب ميكند. شكارچي بايستي بدون برخورد به مانع و در كمترين زمان ممكن شكار را بگيرد يا آن را با تير بزند. براي گرفتن شكار كافي است كه شكارچي در يكي از خانه هاي مجاور شكار قرار بگيرد. الگوريتم يادگيري شكارچي يادگيري Q ميباشد و شكار هم با استفاده از روش ميدان پتانسيل از شكارچي فرار ميكند. در هر گام يادگيري پس از اينكه عامل يادگيرنده ) شكارچي ( عمل حاصل از تصميم گيري خود را انجام داد بر اساس اينكه به چه ناحيه اي از محيط منتقل شده است از محيط پاداش دريافت ميكند كه اين تابع پاداش بدين صورت ميباشد: بازاي هر حركت بدون نتيجه پاداش 1- به شكارچي داده ميشود. اينكار باعث ميشود كه شكارچي با كمترين حركت شكار را متوقف كند. در صورتيكه شكارچي به مانع برخورد كند پاداش - 4 به او داده ميشود. هزينهاي كه شكارچي بازاي تيرهاي بدون نتيجه ميپردازد 6- ميباشد. اين هزينه باعث ميشود كه شكارچي فقط در صورت نياز ) در تير رس بودن شكار ( تيراندازي كند. 20 + امتياز پاداش را شكارچي وقتي كه شكار را بدون تير زدن متوقف ميكند ) در يكي از خانه هاي مجاور شكار قرار ميگيرد ( دريافت ميكند. اگر شكارچي با تير شكار را متوقف كند پاداش 30+ ميگيرد. هر دوره يادگيري با متوقف شدن شكار پايان مييابد. پس از آن دوباره شكار و شكارچي بطور تصادفي در محيط قرار داده ميشوند و دورهاي جديدي آغاز ميشود. اين كار تا تمام شدن تعداد تكرارهاي در نظرگرفته شده براي يادگيري ادامه مييابد. پارامترهاي يادگيري بصورت زير تنظيم مي- شوند: نرخ يادگيري() مقدار 0.8 تا 0.2 كاهش مييابد. بطور نزولي با افزايش تعداد تكرارها از ضريب فراموشي ) γ ( برابر با 0.9 در نظر گرفته شد. همانطور كه قبلا گفته شد دانش بدست آمده عامل پس از يادگيري در كار مرجع ابتدا بصورت مجرد در آمده و سپس به كار هدف منتقل ميشود. براي مجرد كردن دانش و در آوردن مفاهيم بردارهاي ارزش Q نرماليزه شده را با استفاده از روش خوشه بندي k-means دستهبندي ميكنيم. مراكز خوشهها كه مفاهيم انتقالي هستند در اين مساله به صورت زير ميباشند: concepts Value of 1th action Value of 2th action(go right) Value of 3th action(go left) Value of 4 th action(go down) Value of fifth action(shot) C 1 0.064 0.069 0.063 0.989 0.0156 C 2 0.079 0.076 0.083 0.076 0.9945 C 3 0.067 0.069 0.978 0.062 0.0145 C 4 0.987 0.068 0.077 0.061 0.0173 C 5 0.071 0.965 0.066 0.064 0.0168 C 6 0.750 0.748 0.755 0.742 0.0802 همانطور كه ملاحظه ميشود 6 مفهوم از محيط بدست آمده است. با توجه به مراكز بدست آمده در هر بعد تنها يكي از

اعمال كه زير آنها خط كشيده شده است از احتمال بالايي براي انتخاب برخوردارند. با توجه به بردارهاي مفاهيم بدست آمده ميبينيم كه هر مفهوم يك عمل خاص را توصيه ميكند مثلا مفهوم اول عمل چهارم كه در اينجا پايين آمدن است را توصيه ميكند مفهوم دوم كه نشانگر در تيررس بودن شكار ميباشد عمل تير زدن را توصيه ميكند. عامل در مساله هدف پس از طي يك دوره يادگيري در حالتهايي كه بيش از 5 بار در آنها قرار گرفته از دانش منتقل شده براي تصميمگيري كمك ميگيرد. است. نتايج حاصل از شبيهسازي آمده (3) در شكل لازم به توضيح است كه نمودارها حاصل متوسط- گيري از 5 بار اجرا هستند تا اطلاعات بدست آمده قابل اعتمادتر شوند و اثر حالتهاي خاص كمتر شوند. 50 0-50 -100-150 -200 (1) (2) (1): learning without Transfer knowledge (2): learning with Transfer knowledge -250 1000 2000 3000 4000 5000 6000 7000 8000 9000 Trails شكل 3- مقايسه نمودارهاي پاداش متوسط: (1) يادگيري بدون انتقال دانش و (2) يادگيري با انتقال دانش براي نشان دادن قابليت تعميم مفاهيم انتقالي و اينكه دانش انتقالي به فضاي حسي عامل بستگي ندارد سنسورهاي ربات را در كار هدف عوض كرده و از همان دانشي كه ربات با استفاده از سنسورهاي قبلي خود بدست آورده به يادگيري در كار هدف ميپردازيم. سنسورهاي اوليه ربات موقعيت x و y ربات شكارچي و x و y شكار را ميدهند. در صورتيكه سنسورهاي ثانويه ربات همانطوركه در شكل (4) مشاهده ميشود تنها موقعيت خانههاي اطراف ربات خانه مجاور را به ربات ميدهد. شعاع دو تا شكل 4: ربات با سنسورهاي جديد در محيط يادگيري اما با وجود اينكه سنسورهاي دو كار تغيير كرده باز هم مفاهيم بدست آمده از كار مرجع يادگيري ربات را بهبود بخشيده است. شكل( 5 ) نمودار پاداش متوسط را نشان مي- دهد. 50 0-50 -100-150 -200 (2) (1) (1): learning without transfer learning (2): learning with transfer learning -250 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Trails شكل 3 - مقايسه نمودارهاي پاداش متوسط: (1) يادگيري بدون انتقال دانش و ( 2 )يادگيري با انتقال دانش در دو مساله با فضاي حسي متفاوت در آخرين قسمت از شبيهسازيهاي انجام شده انتقال يادگيري بين يك محيط ماركف (MDP) و يك محيط مشاهده پذير جزيي ماركف (POMDP) بررسي ميشود. در يك محيط POMDP بعضي از حالته يا متفاوت محيط از نظر عامل يكي ميشوند و اين امر باعث ميشود كه عامل به يادگيري مناسبي دست پيدا نكند. در اين جا ما با انتقال دانش كسبشده از كار مرجع كه MDP بوده باعث بهبود يادگيري عامل در محيطي كه براي عامل ميشويم. شكل (6) حاكي از اين امر ميباشد. POMDP است

[3] Thomas J.Wash and Michael L. Litman. Transfering state Abstraction between MDPs. In ICML-07 conference. [4] Hamide Vosoughpour, Majid Nili Ahmadabadi, Maryam S. Mirian, Babak Nadjar Araabi. Hierarchical Functional Concept Formation using Reinforcement Learning. In ICTA2007 conference. [5] R. S. Sutton and A. G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998. [6]. Hadi Firouzi, Majid Nili Ahmadabadi, Babak N. Araabi. A Probabilistic Reinforcement-Based Approach to Conceptualization. In International Journal of Intelligent Technology (IJIT), Volume 3, pp 48-55, 2008 [7] M. Tan, Multi-agent reinforcement learning: Independent vs. cooperative agents, in Proc. Tenth Int. Conf. Machine Learning, Amherst, MA, June 1993. 50 0-50 -100-150 -200 (2) (1) -250 (1): learning in pomdp task without knowledge transfer (2): learning in pomdp task with knowledge transfer -300 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Trails شكل 6- مقايسه نمودارهاي پاداش متوسط: (1) يادگيري بدون انتقال دانش و (2) يادگيري با انتقال دانش بين دو مساله MDP و POMDP 8- نتيجهگيري دراين مقاله به بررسي انتقال دانش بين دو كار در حالت- هاي مختلف پرداخته شد و نشان داده شد كه اگر دانش بدست آمده از كار اول را بصورت مجرد در آوريم براحتي ميتوانيم آن را در يك كار مشابه ديگر استفاده كنيم حتي اگر فضاي حسي دو كار با يكديگر متفاوت باشد. در اين روش ديگر نيازي به نگاشت عامل در دو كار نيست و مشكل يك به يك بين حالت و عمل پيدا كردن شباهت بين كارها و نگاشت بين آنها كه در ديگر روشهاي انتقال دانش وجود دارد در اينجا وجود ندارد. همچنين روش پيشنهادي باعث بهبود پاداش بدست آمده و افزايش سرعت يادگيري ميشود. مراجع [1] Matthew E. Taylor and Peter Stone. Behavior Transfer for value function Based Reinforcement Learning. In conference on Autonomous agents and Multi agent System (AAMAS-05) pp. 53-59 [2] Yaxin Liu and Peter Stone. Value- Function- Based Transfer for Reinforcement Learning Using Structure Mapping. in Proceedings of the Twenty-First National Conference on Artificial Intelligence (AAAI- 06),