{hmontazeri, 1- مقدمه

Σχετικά έγγραφα
ﻞﻜﺷ V لﺎﺼﺗا ﺎﻳ زﺎﺑ ﺚﻠﺜﻣ لﺎﺼﺗا هﺎﮕﺸﻧاد نﺎﺷﺎﻛ / دﻮﺷ

1 ﺶﻳﺎﻣزآ ﻢﻫا نﻮﻧﺎﻗ ﻲﺳرﺮﺑ

در اين آزمايش ابتدا راهاندازي موتور القايي روتور سيمپيچي شده سه فاز با مقاومتهاي روتور مختلف صورت گرفته و س سپ مشخصه گشتاور سرعت آن رسم ميشود.

هدف:.100 مقاومت: خازن: ترانزيستور: پتانسيومتر:

سبد(سرمايهگذار) مربوطه گزارش ميكند در حاليكه موظف است بازدهي سبدگردان را جهت اطلاع عموم در

برخوردها دو دسته اند : 1) كشسان 2) ناكشسان

( ) قضايا. ) s تعميم 4) مشتق تعميم 5) انتگرال 7) كانولوشن. f(t) L(tf (t)) F (s) Lf(t ( t)u(t t) ) e F(s) L(f (t)) sf(s) f ( ) f(s) s.

ﻴﻓ ﯽﺗﺎﻘﻴﻘﺤﺗ و ﯽهﺎﮕﺸﻳﺎﻣزﺁ تاﺰﻴﻬﺠﺗ ﻩﺪﻨﻨﮐ

را بدست آوريد. دوران

ﻲﺘﻳﻮﻘﺗ يﺮﻴﮔدﺎﻳ زا هدﺎﻔﺘﺳا ﺎﺑ نآ لﺎﻘﺘﻧا و ﺶﻧاد يزﺎﺳ دﺮﺠﻣ

10 ﻞﺼﻓ ﺶﺧﺮﭼ : ﺪﻴﻧاﻮﺘﺑ ﺪﻳﺎﺑ ﻞﺼﻓ ﻦﻳا يا ﻪﻌﻟﺎﻄﻣ زا ﺪﻌﺑ

+ Δ o. A g B g A B g H. o 3 ( ) ( ) ( ) ; 436. A B g A g B g HA است. H H برابر

3 و 2 و 1. مقدمه. Simultaneous كه EKF در عمل ناسازگار عمل كند.

( ) x x. ( k) ( ) ( 1) n n n ( 1) ( 2)( 1) حل سري: حول است. مثال- x اگر. يعني اگر xها از = 1. + x+ x = 1. x = y= C C2 و... و

O 2 C + C + O 2-110/52KJ -393/51KJ -283/0KJ CO 2 ( ) ( ) ( )

نيمتوان پرتو مجموع مجموع) منحني

P = P ex F = A. F = P ex A

محاسبه ی برآیند بردارها به روش تحلیلی

a a VQ It ميانگين τ max =τ y= τ= = =. y A bh مثال) مقدار τ max b( 2b) 3 (b 0/ 06b)( 1/ 8b) 12 12

آزمایش 2: تعيين مشخصات دیود پيوندي PN

e r 4πε o m.j /C 2 =

حل J 298 كنيد JK mol جواب: مييابد.

V o. V i. 1 f Z c. ( ) sin ورودي را. i im i = 1. LCω. s s s

Distributed Snapshot DISTRIBUTED SNAPSHOT سپس. P i. Advanced Operating Systems Sharif University of Technology. - Distributed Snapshot ادامه

چكيده. Keywords: Nash Equilibrium, Game Theory, Cournot Model, Supply Function Model, Social Welfare. 1. مقدمه

چكيده SPT دارد.

در اين ا زمايش ابتدا راهاندازي موتور القايي رتور سيمپيچي شده سه فاز با مقاومت مختلف بررسي و س سپ مشخصه گشتاور سرعت ا ن رسم ميشود.

مجلد 11 شماره 1 مقاله عادي ايران. Q-Learning كليدي: چندعامله. مدلهاي تصادفي يادگيري بازيهاي درباره بالايي الگوريتم

تلفات کل سيستم کاهش مي يابد. يکي ديگر از مزاياي اين روش بهبود پروفيل ولتاژ ضريب توان و پايداري سيستم مي باشد [-]. يکي ديگر از روش هاي کاهش تلفات سيستم

t a a a = = f f e a a

چكيده 1- مقدمه

است). ازتركيب دو رابطه (1) و (2) داريم: I = a = M R. 2 a. 2 mg

بررسي علل تغيير در مصرف انرژي بخش صنعت ايران با استفاده از روش تجزيه

Aerodynamic Design Algorithm of Liquid Injection Thrust Vector Control

هدف: LED ديودهاي: 4001 LED مقاومت: 1, اسيلوسكوپ:

(,, ) = mq np داريم: 2 2 »گام : دوم« »گام : چهارم«

:نتوين شور شور هدمع لکشم

اراي ه روشي نوين براي حذف مولفه DC ميراشونده در رلههاي ديجيتال

چكيده 1- مقدمه درخت مشهد ايران فيروزكوه ايران باشد [7]. 5th Iranian Conference on Machine Vision and Image Processing, November 4-6, 2008

آزمایش 1 :آشنایی با نحوهی کار اسیلوسکوپ

1- مقدمه است.

yazduni.ac.ir دانشگاه يزد چكيده: است. ١ -مقدمه

* خلاصه

مربوطند. با قراردادن مقدار i در معادله (1) داريم. dq q

متلب سایت MatlabSite.com

آزمايشگاه ديناميك ماشين و ارتعاشات آزمايش چرخ طيار.

HMI SERVO STEPPER INVERTER

1- مقدمه

جلسه 9 1 مدل جعبه-سیاه یا جستاري. 2 الگوریتم جستجوي Grover 1.2 مسا له 2.2 مقدمات محاسبات کوانتمی (22671) ترم بهار

1. مقدمه بگيرند اما يك طرح دو بعدي براي عايق اصلي ترانسفورماتور كافي ميباشد. با ساده سازي شكل عايق اصلي بين سيم پيچ HV و سيم پيچ LV به

No. F-16-EPM مقدمه

پيشنهاد شيوهاي مبتني بر الگوريتم PSO چند هدفه جهت استخراج قوانين انجمني در داده كاوي

( Δ > o) است. ΔH 2. Δ <o ( ) 6 6

مريم اسپندار - وحيدحقيقتدوست چكيده 1- مقدمه. ١ Vehicular Anti-Collision Mechanism ٢ Intelligent Vehicular Transportation System

ﻲﻟﻮﻠﺳ ﺮﻴﮔدﺎﻳ يﺎﻫﺎﺗﺎﻣﻮﺗآ زا هدﺎﻔﺘﺳا ﺎﺑ ﻢﻴﺳ ﻲﺑ ﺮﮕﺴﺣ يﺎﻫ ﻪﻜﺒﺷ رد يﺪﻨﺑ ﻪﺷﻮﺧ

98-F-ELM چكيده 1- مقدمه

- 1 مقدمه كنند[ 1 ]:

شماره : RFP تاريخ RFP REQUEST FOR RESEARCH PROPOSAL Q # # ساير باشند. F

1- مقدمه ماندانا حميدي استفاده از آنها را در طبقهبندي كنندهها آسان كرده است است.

آزمايش ارتعاشات آزاد و اجباري سيستم جرم و فنر و ميراگر

استفاده از قابليت V2G براي PHEVها را به عنوان رزرو جهت

چكيده مقدمه SS7 گرديد. (UP) گفته ميشود. MTP وظيفه انتقال پيامهاي SS7 را User Part. Part هاي SS7 هستند. LI I FSN I BSN F

Downloaded from ijpr.iut.ac.ir at 10:19 IRDT on Saturday July 14th پست الكترونيكي: چكيده ١. مقدمه

ˆÃd. ¼TvÃQ (1) (2) داشت: ( )

چكيده 1- مقدمه شبيهسازي ميپردازد. ميشود 8].[1, 2, 3, 4, 5, 6, 7,

5 TTGGGG 3 ميگردد ) شكل ).

DA-SM02-1 هدف : 2- مقدمه

- 2 كدهاي LDPC LDPC است. بازنگري شد. چكيده: 1. .( .( .finite length Irregular LDPC Codes


آزمایش 8: تقویت کننده عملیاتی 2

هر عملگرجبر رابطه ای روی يک يا دو رابطه به عنوان ورودی عمل کرده و يک رابطه جديد را به عنوان نتيجه توليد می کنند.

چكيده واژههاي كليدي: منحني L تنظيم تيخونف OTSVD لرزه پايينچاهي مقدمه 1 شده و. x true مو لفه مربوط به نوفههاي تصادفي و ديگري مو لفه مربوط.

جلسه 3 ابتدا نکته اي در مورد عمل توابع بر روي ماتریس ها گفته می شود و در ادامه ي این جلسه اصول مکانیک کوانتمی بیان. d 1. i=0. i=0. λ 2 i v i v i.

ﺮﺑﺎﻫ -ﻥﺭﻮﺑ ﻪﺧﺮﭼ ﺯﺍ ﻩﺩﺎﻔﺘﺳﺍ ﺎﺑ ﻱﺭﻮﻠﺑ ﻪﻜﺒﺷ ﻱﮊﺮﻧﺍ ﻦﻴﻴﻌﺗ ﻪﺒـﺳﺎﺤﻣ ﺵﻭﺭ ﺩﺭﺍﺪﻧ ﺩﻮﺟﻭ ﻪ ﻱﺍ ﻜﺒﺷ ﻱﮊﺮﻧﺍ ﻱﺮﻴﮔ ﻩﺯﺍﺪﻧﺍ ﻱﺍﺮﺑ ﻲﻤﻴﻘﺘﺴﻣ ﻲﺑﺮﺠﺗ ﺵﻭﺭ ﹰﻻﻮﻤﻌﻣ ﻥﻮﭼ ﻱﺎ ﻩﺩ

تحليل جريان سيال غيرنيوتني در لوله مخروطي همگرا با استفاده از مدل بينگهام

يﺎﻫ ﻢﺘﺴﻴﺳ زا هدﺎﻔﺘﺳا ﺎﺑ (IP) ﺖﻧﺮﺘﻨﻳا ﻞﻜﺗوﺮﭘ رد تﺎﻋﻼﻃا يوﺎﺣ يﺎﻫ ﻪﺘﺴﺑ لﺎﻘﺘﻧا (DWDM)جﻮﻣ لﻮﻃ ﻢﻴﺴﻘﺗ لﺎﮕﭼ هﺪﻨﻨﻛ ﺲﻜﻠﭘ ﻲﺘﻟﺎﻣ يرﻮﻧ ﺮﺒﻴﻓ

روش محاسبه ی توان منابع جریان و منابع ولتاژ

خطا انواع. (Overflow/underflow) (Negligible addition)

R = V / i ( Ω.m كربن **

تحليل و طراحي بهينه يك ژنراتور سنكرون مغناطيسداي م رتور خارجي براي استفاده در توربين بادي عمودي محور مستقيم با توان نامي 20 كيلووات

آزمايش (٤) موضوع آزمايش: تداخل به وسيلهي دو شكاف يانگ و دو منشور فرنل

D-STATCOM چكيده 1- مقدمه Flexible Alternative Current Transmission System

ﻡﺮﻧ ﺯﺍ ﻩﺩﺎﻔﺘﺳﺍ ﺎﺑ ﺮﺘﻣﺍﺭﺎﭘ ﺮﻴﻴﻐﺗ ﺮﺛﺍ ﺭﺩ ﻲﻳﺎﻘﻟﺍ ﺭﻮﺗﻮﻣ ﻲﻜﻴﻣﺎﻨﻳﺩ ﺭﺎﺘﻓﺭ ﻲﺳﺭﺮﺑ

متلب سایت MatlabSite.com

در کدام قس مت از مسیر انرژی جنبشی دستگاه بیشینه و انرژی پتانسیل گرانشی آن کمینه است

یﺭﺎﺘﻓﺭ یﺭﺎﺘﻓﺭ یﺎﻫ یﺎﻫ ﻑﺪﻫ ﻑﺪﻫ

رياضي 1 و 2. ( + ) xz ( F) خواص F F. u( x,y,z) u = f = + + F = g g. Fx,y,z x y

چكيده مقدمه.

نقش نيروگاههاي بادي در پايداري گذراي شبكه

خلاصه

طراحي و بهبود سيستم زمين در ا زمايشگاه فشار قوي جهاد دانشگاهي علم و صنعت

كار شماره توانايي عنوان آموزش

(POWER MOSFET) اهداف: اسيلوسكوپ ولوم ديود خازن سلف مقاومت مقاومت POWER MOSFET V(DC)/3A 12V (DC) ± DC/DC PWM Driver & Opto 100K IRF840

98-F-TRN-596. ترانسفورماتور بروش مونيتورينگ on-line بارگيري. Archive of SID چكيده 1) مقدمه يابد[

ﺪ ﻮﻴﭘ ﻪﻳﻭﺍﺯ ﺯﺍ ﻪﻛ ﺖﺳﺍ ﻂﺧ ﻭﺩ ﻊﻃﺎﻘﺗ ﺯﺍ ﻞﺻﺎﺣ ﻲﻠﺧﺍﺩ ﻪﻳﻭﺍﺯ ﺯﺍ ﺕﺭﺎﺒﻋ ﺪﻧﻮﻴﭘ ﻪﻳﻭﺍﺯ ﻪﻛ ﺪﻫﺩ ﻲﻣ ﻥﺎﺸﻧ ﺮﻳﺯ ﻞﻜﺷ ﻥﺎﺳﻮﻧ ﻝﺎﺣ ﺭﺩ ﹰﺎﻤﺋﺍﺩ ﺎﻬﻤﺗﺍ ﻥﻮﭼ


مقايسه كارايي مدلهاي شبكه عصبي مصنوعي و رگرسيون خطي در پيش- بيني غلظت روزانه منواكسيدكربن بر اساس پارامترهاي هواشناسي

ايران نارمك تهران چكيده مقدمه. *

با مصرف توان پايين و نويز كم

هو الحق دانشکده ي مهندسی کامپیوتر جلسه هفتم

Transcript:

كاربردي از يادگيري تقويتي در آموزش مهارت دريافت توپ عاملهاي فوتباليست حسام منتظري رضا صفابخش دانشكده مهندسي كامپيوتر و فن اوري اطلاعات دانشگاه صنعتي اميركبير {hmonazeri, safa}@au.ac.ir چكيده - اين مقاله استفاده از يادگيري تقويتي در آموزش مهارت دريافت توپ در محيط شبيهسازي فوتبال را بررسي و نحوهي مدلسازي پيادهسازي و اعمال روش را در آموزش اين مهارت بيان ميكند. سرور شبيهسازي فوتبال محيطي توزيع شده پيچيده پويا و بلادرنگ را مهيا ميكند كه يازده همتيمي براي رسيدن به هدف مشترك شكست تيم حريف با هم همكاري ميكنند. سرور بسياري از پيچيدگيهاي محيط واقعي مانند نويز در حركت احساسگرها و محركهاي نويزي قابليتهاي فيزيكي محدود و ارتباطات با پهناي باند كم را شبيهسازي ميكند. با توجه به اين ويژگيهاي سرور استفاده از يادگيري ماشين و هوش مصنوعي براي پيادهسازي اجزاء مختلف عاملها ضروري به نظر ميرسد. اين مقاله استفاده از الگوريتم تقويتي سارسا لاندا براي آموزش مهارت فردي دريافت توپ را بررسي و پيادهسازي نموده است و نتايج حاصل از مقايسه آن با نتايج روش تحليلي را اراي ه ميكند. كليد واژه- يادگيري تقويتي سارسا لاندا كدگذاري كاشي دريافت توپ شبيهسازي فوتبال 1- مقدمه مسابقات روبوكاپ [1] بستري را براي تحقيق و پژوهش در زمينهي هوش مصنوعي و رباتيك فراهم كرده است. اين مسابقات با طرح مسا لهاي استاندارد كه ميتوان تكنولوژي- هاي گوناگوني را در آن آزمايش كرد زمينهساز اين پژوهش شده است. فوتبال رباتها براي اولين بار در سال 1993 معرفي شد و بعد از دو سال امكانسنجي در سال 1995 اعلان عمومي براي شروع مسابقات صورت پذيرفت و در سال 1997 اولين مسابقات رسمي برگزار شد. براي سهولت تحقيق در زمينههاي مختلف هوش مصنوعي و رباتيك علاوه بر ليگهاي رباتهاي واقعي ليگهاي شبيه- سازي نيز معرفي شد كه در اين ميان ليگ شبيهسازي فوتبال محبوبترين و قديميترين ليگ در مسابقات روبوكاپ است. شبيهساز فوتبال سيستمي را مهيا ميكند كه با آن عاملهاي خود مختار نرمافزاري ميتوانند مسابقهي فوتبال دهند. محيط شبيهسازي فوتبال پيچيدگيهاي محيط واقعي مانند اطلاعات نويزي عدم اطلاع كامل بازيكن از محيط دريافتها و استقامت محدود را دارد. از سويي ديگر چون محيط چند عامله است و ارتباط عاملها در اين محيط محدود است بستر مناسبي را براي پژوهش در زمينهي سيستمهاي چند عامله ايجاد ميكند [2]. يكي از مهمترين مهارتهايي كه عامل فوتباليست بايد دارا باشد مهارت دريافت توپ (inercep) است. مهارت دريافت توپ بازيكن را قادر به دريافت توپ در هر فاصلهاي با آن ميكند. اين مهارت از سويي در كارهاي تدافعي و از سويي ديگر در كارهاي تهاجمي تيم اثر گذار است. مثلا اگر بازيكن قصد ضربه زدن به توپ را دارد در ابتدا بايد آن را دريافت كند و سپس به آن ضربه بزند. اين مهارت در گرفتن توپ از حريفان دريافت پاس از بازيكنان همتيمي و گرفتن توپ- هاي آزاد بهكار ميرود. در اكثر مواقع بازي حداقل يكي از بازيكنان تيمها در حال انجام اين عمل است. هدف اصلي اين مهارت تعيين نقطهي بهينه براي دريافت توپ بر مبناي مكان و سرعت فعلي بازيكن و توپ و رفتن به آن نقطه با حداكثر سرعت است. اين مهارت نياز به دنبالهاي از دستورات براي اجراي كامل دارد. پيادهسازي دريافت توپ به دليل وجود نويز در جابجايي توپ و عدم اطلاع كامل عامل از محيط ساده نيست. وجود نويز باعث ميشود پيش بيني مكانهاي بعدي توپ و محاسبهي مكان بهينه دريافت توپ مشكل شود. هنگامي كه بازيكن مكان دريافت توپ را در نقطهاي تشخيص داد به آن سمت حركت ميكند و اگر در اواسط كار بنابر دلايل ذكر شده مكان دريافت توپ عوض شود بايد چرخشي به سمت نقطهي جديد انجام دهد كه به صورت قابل توجهي زمان رسيدن به توپ را افزايش ميدهد. 1

اما براي اينكه بتوان عاملهايي كه قادر به تصميمگيري و رفتار مناسب در اين محيط باشند طراحي و پيادهسازي نمود ناگزير بايد از روشهاي يادگيري ماشين استفاده كرد. يكي از روشهاي يادگيري ماشين كه كاربردهاي زيادي نيز دارد روش يادگيري تقويتي است[ 3 ]. عامل در يادگيري تقويتي ضمن ماكزيمم كردن سيگنال عددي پاداش محيط نحوهي نگاشت وضعيتها به اعمال را ياد ميگيرد. در اين روش به يادگيرنده گفته نميشود كه كدام عمل را انتخاب كند ولي عامل عملي را كه سبب ماكزيمم شدن پاداش- هاي دريافتي او ميشود كشف ميكند. روشهاي زيادي براي پيادهسازي اين مهارت مورد استفاده قرار گرفته است. استون در كد تيم CMUnied در سال 1999 و كوك در[ 4 ] روشهاي تحليلي را براي اين مهارت به كار گرفتهاند. استون در سال 1999 به آموزش اين مهارت با استفاده از يادگيري بانظارت پرداخته است [6 و 5]. اين مهارت علاوه بر روشهاي ذكر شده با يادگيري تقويتي با روش برنامهنويسي بلادرنگ پويا نيز انجام شده است[ 7 ]. اين مقاله بكارگيري سارسا لاندا ) Sarsa (Lambda كه يكي از روشهاي يادگيري تقويتي است را در آموزش مهارت دريافت توپ بررسي ميكند. در قسمت بعدي اين مقاله سناريوي كه طي آن دادهها توليد ميگردند بيان شده است. در قسمت سوم مدلسازي مسا له به روش يادگيري تقويتي بيان ميشود و وضعيتها عملها و نحوهي پاداشدهي در اين قسمت معين ميشوند. در قسمت چهارم پيكربندي پارامترهاي روشيادگير و تقريبزن صورت ميگيرد. نتايج حاصل از آزمايشهاي تجربي در قسمت پنجم شرح داده ميشود و قسمت انتهايي مقاله اختصاص به نتيجهگيري و پيشنهادات دارد. -2 آمادهسازي سيستم براي اينكه بتوانيم آموزش اين مهارت را انجام دهيم در ابتدا بايد به ايجاد تجربه براي عامل فوتباليست بپردازيم. براي ايجاد تجربه براي عامل سناريويي تعريف ميكنيم. اين سناريو با استفاده از عامل مربي انجام ميشود. عامل مربي عاملي است كه اطلاعات كاملي از محيط دارد و داراي اختياراتي براي ايجاد محيط تمريني براي عاملهاي فوتباليست است. عامل مربي ميتواند بازيكنان و توپ را در مكانهاي مشخصي با سرعت اوليهي خاصي قرار دهد. سناريوي آموزش اين مهارت به ترتيب زير است: عامل مربي توپ را در مكان (, 2) قرار ميدهد و به آن سرعت اوليهي (,2.7) در راستاي محور عمودي زمين ميدهد. عامل مربي بازيكن را در مكان تصادفي در اطراف توپ قرار ميدهد و شروع اپيزود را اعلام ميكند. بازيكن در هر سيكل عملي را انتخاب و اجرا ميكند و پاداش عملهاي قبلي در آن اپيزود را ميگيرد تا اينكه توپ در محدودهي ضربه او قرار گيرد. هنگامي كه توپ در محدودهي ضربهي بازيكن قرار گرفت عامل مربي انتهاي اپيزود را اعلام ميكند و اپيزود بعدي شروع ميشود. نكتهي بسيار مهم آن كه عامل بايد مكان خود و توپ را كاملا نسبي در نظر بگيرد تا مكانها و سرعتهاي ذكر شده اثري در انجام مهارت در ديگر نقاط زمين نداشته باشد. 3- يادگيري تقويتي يادگيري تقويتي اپيزوديك استاندارد چارچوبي براي تعامل عامل يادگير و فرآيند تصميم گيري ماركف است. هر اپيزود شامل گام زماني است s وضعيتها S كه s a, r, s, a,..., r, a, s, 1 1 1 عملها و r R +1 a A s ) ( a r s متغير تصادفي با ميانگين +1 s با احتمال است و وضعيت بعدي a p s s +1 انتخاب ميشود. حالت نهايي حالت خاصي است كه در گام- هاي زماني قبلي اتفاق نميافتد. < < s عمل a با احتمال در هر وضعيت b يا بسته به در حال اجراء بودن b s, a ) يا s, a ( ( ) انتخاب ميشود. نماد بيانگر سياست هدف يا سياستي است كه ميخواهيم آنرا ياد بگيريم. اگر الگوريتم يادگيري منطبق بر سياست باشد سياست براي توليد عمل در هراپيزود مورد استفاده قرار ميگيرد. در حالت غيرمنطبق بر سياست عملها با سياست b توليد ميشوند كه سياست رفتاري ناميده ميشود. 2

سارسا روشي منطبق بر سياست است كه در آن توابع ارزش عمل (1) تقريب زده ميشود. s, a) E 1 { r + γ = 1 +... + r s = s, a a} (1) γ پارامتر كاهندگي است. در سارسا به صورت كه 1 تكراري و با استفاده از قاعدهي يادگيري (2) رابطهي (1) تقريب زده ميشود: Q ( s, a ) = Q ( s, a ) + α[ r + 1 + (2) γ Q ( s+ 1, a + 1) Q ( s, a )] كه α نرخ يادگيري است. نحوهي عملكرد سارسا بستگي به سياست دارد. در اين مقاله فرض ميكنيم اين سياست حريصانه ε است كه در 1 ε موارد عمل حريصانه نسبت به مقادير فعلي Q و در ε موارد عمل تصادفي يا اكتشافي انتخاب ميكند. سارسا لاندا گسترشي بر روش سارسا است. در سارسا لاندا بازگشت لاندا از رابطهي (3) محاسبه ميشود: λ n= 1 n 1 R = (1- λ) λ R n (3) ( n) n R... (, ) (4) = r + 1 + γ r + 2 + + γ Q s+ n a+ n كه 1 λ و هنگامي كه مقدار آن 1 است الگوريتم همان الگوريتم مونت كارلو ميشود و وقتي كه لاندا صفر است عملكرد الگوريتم مشابه سارسا معمولي است. پياده- سازي سارسا لاندا به كمك نشانهاي شايستگي races) (Eligibiliy انجام ميشود كه جزي يات ان در [3] بيان شده است. هنگامي كه فضاي وضعيت بزرگ و پيوسته است محاسبهي دقيق روابط بالا مشكل و در بعضي از حالات غير ممكن است. براي حل مشكل مقادير Q را توسط توابع تقريبزن تقريب ميزنيم. در اين مقاله از تقريبزنهاي خطي كه داراي مجموعه ويژگيهاي است استفاده شده است: a A s S { φ sa } Q ( s, a) θ φ sa m = θ ( i) φ ( i) i = 1 sa (5) كه θ R m بردار پارامترهايي است كه حين آموزش تعيين ميشوند. بردار ويژگي براي حالات پاياني بردار صفر فرض ميشود كه ارزش تخميني در اين حالات به درستي مقدار صفر ميشود. روشهاي مختلفي براي تعيين ويژگيها وجود دارد كدگذاري كاشي يكي از اين روشها است. در اين روش فضاي وضعيت را به افرازهايي تقسيم ميكنيم. هر افراز را اصطلاحا كاشيكاري گويند. كاشيكاريها يا افرازها ممكن است همپوشاني داشته باشند. به هر جزء يك افرازكاشي گويند. ويژگيهاي هر وضعيت و عمل داده شده فقط در يكي از كاشيهاي هر كاشيكاري مقدار يك دارد كه آن كاشي را حاضر گويند و ويژگي بقيهي كاشيها صفر است. بنابراين در هر وضعيت و عمل داده شده تعداد كاشيهاي حاضر ثابت و برابر تعداد كاشيكاريها است. شبهكد سارسا لاندا با استفاده از تقريبزنهاي خطي با كدگذاري كاشي در مرجع[ 3 ] ذكر شده است. -4 مدل سازي مسا له به روش يادگيري تقويتي براي اينكه بتوانيم مسا له را با روش تقويتي حل كنيم بايد آنرا با فرآيند تصميم گيري ماركف مدل كنيم. به اين منظور در ابتدا صدق خصوصيت ماركف را بررسي و سپس وضعيتها اعمال و پاداشها را تعيين كنيم. اين مهارت و ويژگيهاي انتخابي تنها به مكان بازيكن و توپ و سرعت فعلي آنها بستگي دارد. همانگونه كه در راهنماي سرور فوتبال ذكر شده است[ 2 ] مكانها و سرعتهاي بعدي اشياء متحرك تنها به مقادير فعلي و اعمالي كه در اين سيكل انجام ميشود بستگي دارد. بنابراين خصوصيت ماركف در اين مسا له صدق ميكند. براي ايجاد تعميم يادگيري در مكانهاي مختلف متغيرهاي وضعيت را به گونهاي انتخاب ميكنيم كه بستگي به مكان مطلق اشياء نداشته باشند و فقط وابسته به مكان نسبي و سرعت نسبي اشياء باشند. به اين منظور سيستم مختصات جديد و متحركي را تشكيل ميدهيم كه مبدأ مختصات آن مكان توپ ميباشد. مكان بازيكن بر روي جهت مثبت محور افقي اين سيستم مختصات قرار دارد و سرعت بازيكن و توپ و همچنين زاويهي بدن بازيكن متناسب با اين چرخش محورهاي مختصات تغيير ميكند. حال در مختصات جديد ويژگيهاي در نظر گرفته شده عبارتند از : فاصله بازيكن از مبدأ زاويهي بدن بازيكن سرعت بازيكن در راستاي محور افقي سرعت بازيكن در راستاي محور عمودي سرعت توپ در راستاي محور افقي سرعت توپ در راستاي محور عمودي 3

براي كاهش فضاي وضعيت و افزايش سرعت همگرايي وضعيتهاي متقارن را يكسان در نظر ميگيريم[[ 3 و به اين منظور زاويه بدن را هميشه مثبت فرض ميكنيم. در صورت منفي شدن آن مقدار آن را مثبت و همچنين مو لفهي عمودي بردارهاي سرعت توپ و بازيكن را برعكس ميكنيم. اعمالي كه عامل در هر حالت ميتواند انجام دهد بستگي به سرعت توپ دارد و متناسب با آن ميتواند از يك تا حداكثر 18 عمل در اختيار داشته باشد. اعمال بازيكن متناسب با شمارهي عمل رفتن به نقطهاي در فاصلهي مكان فعلي توپ تا هنگامي كه توپ ساكن ميشود است. با اين گونه نمايش هنگامي كه توپ ساكن است عامل فقط يك عمل در اختيار دارد و آن رفتن به سمت توپ است. اما پاداش دهي عامل در هر سيكل طبق رويه زير صورت ميگيرد: مقدار پاداش را برابر صفر قرار بده. اگر در سيكل قبل عمل چرخش صورت گرفته است پاداش را 1 - قرار بده. اگر در سيكل قبل توپ در محدوده ضربهزني بازيكن نبود مقدار 1- را با پاداش جمع كن. اين نحوهي پاداشدهي باعث ميشود كه عامل توپ را با كمترين تعداد چرخش و تاخير دريافت كند. - 5 پيكربندي پارامترهاي روش يادگير پس از مشخص كردن سناريوي يادگيري و مدلسازي مسا له نوبت به تعيين پارامترهاي روش يادگير ميرسد. الگوريتم مورد استفاده روش سارسا لاندا با تقريبزن خطي با استفاده ازكدگذاري كاشي (يا شبكه عصبي كيمك) است. به اين منظور هم پارامترهاي روش يادگيري تقويتي و هم پارامترهاي تابع تقريبزن را بررسي ميكنيم. پارامترهاي مورد استفاده در اين جا عبارتند از : α =. 4, ε =. 5, λ =. 6, γ =. 9 مقادير اوليه Q را برابر صفر قرار ميدهيم كه اين عمل با صفر قرار دادن مقدار اوليه θ (بردار پارامترهاي تقريبزن) صورت ميگيرد. تنها موضوعي كه هنوز مشخص نشده چگونگي تعيين ويژگيهاي ي است كه در فرآيند كدگذاري كاشي ساخته مي- شود. ما از نرمافزار عمومي كدگذاري كاشي كه تعداد دلخواهي متغير پيوسته به عنوان ورودي ميگيرد وتعدادي كاشيكاري يا افرازهايي بر آنها تشكيل ميدهد استفاده كرديم[ 8 ]. كاشيهايي كه در وضعيت فعلي حاضر هستند مجموعه ويژگي F a (هر عمل a داراي فضاي وضعيت و كاشيكاري مجزايي است) را ميسازند. افراز هر محور در اين نرمافزار ميتواند بيكران باشد ولي در اين مسا له مي- توانيم كراني براي آنها تعيين كنيم. براي هر متغير وضعيت عرض كاشيها را بر مبناي اندازهاي كه ميخواهيم تعميم در آن صورت گيرد انتخاب ميكنيم. عرض كاشيها و كران پايين و بالاي متغيرهاي وضعيت در جدول 1 نشان داده شده است. در اين مسا له براي هر بعد (متغير وضعيت) و هر زيرمجموعهي يكتايي ودوتايي ابعاد تعداد شش كاشي- كاري و در مجموع 126 كاشيكاري بهكار برده شد كه به ترتيب زير محاسبه ميشوند: = 36 6 * C(6,1) = كاشيكاريها يك بعدي * 6 C(6,2) = كاشيكاريها دو بعدي = 9 (6) (7) (8) = 126 9 = 36 + تعداد كل كاشيكاري جدول 1- عرض كاشي كران پايين و بالاي متغيرهاي وضعيت مسا له متغيروضعيت فاصله بازيكن از مبدأ زاويهي بدن بازيكن سرعت افقي بازيكن سرعت عمودي بازيكن سرعت افقي توپ سرعت عمودي توپ كران پايين كران بالا 45 عرض كاشي 2 12 /1 /1 /2 /2 18 /4 /4 2/7 2/7 براي محاسبه حداكثر تعداد كاشيها ابتدا با استفاده از رابطه زير به محاسبه تعداد بازههاي هر بعد مي پردازيم: (9) عرض كاشي / (كران پايين كران بالا) = تعداد بازه كه با اعمال رابطه به متغيرهاي وضعيت مسا له تعداد بازههاي ابعاد بدست ميآيد(جدول 2) اما اگر بخواهيم كاشيكاري را بر روي هر شش بعد انجام - دهيم تعداد كل كاشيها عبارت خواهد بود از : (14) 12333888= تعداد كاشيهاي بر روي 6 بعد 4

همانگونه كه مشاهده ميشود اين نحوهي كاشيكاري به حجم بالايي از حافظه نياز دارد (حدود 117 مگابايت) كه ايجاد آن هميشه مقدور نيست. مشكل ديگري كه طي آزمايشهاي اوليه مشخص گرديد سرعت همگرايي كندتر آن نسبت به روش قبل است. پس با تشكيل كاشيكاري براي زيرمجموعههاي يكتايي و دوتايي ابعاد توانستيم مشكل حافظه و سرعت همگرايي را حل كنيم. جدول 2- تعداد بازههاي متغيرهاي وضعيت تعداد بازهها متغير وضعيت فاصله بازيكن از مبداء زاويهي بدن بازيكن سرعت بازيكن در راستاي محور افقي سرعت بازيكن در راستاي محور عمودي سرعت توپ در راستاي محور افقي سرعت توپ در راستاي محور عمودي 23 15 4 4 14 14-6 آزمايشهاي انجام شده پس از اينكه سناريوي آموزش مدلسازي مسا له و پارامترهاي يادگيري مشخص شد در اين قسمت نتايج آزمايشهاي انجام شده اراي ه ميگردد. براي اينكه قادر به ارزيابي روش يادگير باشيم نياز به پارامتري است كه نشان- دهندهي ميزان موفقيت دريافت توپ پس از اتمام اپيزود باشد. به اين منظور ما از تعداد چرخشهايي( urn ) كه عامل در يك اپيزود انجام ميدهد به عنوان شاخص ارزيابي استفاده كرديم و هر روشي كه تعداد چرخشهاي آن در دريافت توپ كمتر و سريعتر باشد بهتر است. طبق سناريويي كه در قسمت 2 گفته شد اپيزودها توليد شدند و عامل در هر سيكل با استفاده از روش سارسا لاندا به انتخاب عمل و يادگيري پرداخت. با گذشت زمان عملكرد عامل بهبود پيدا كرد و عامل يادگرفت كه دريافت توپ را با تعداد چرخشهاي كمتري انجام دهد. نمودار روند يادگيري دريافت توپ در شكل 4 نشان داده شده است. محور افقي اين نمودار شمارهي اپيزود و محور عمودي آن تعداد چرخشها در طول اپيزود است. همانگونه كه در شكل نشان داده شده در شروع يادگيري ميانگين تعداد چرخشها در اپيزود بيش از 17 است ولي پس از 32 اپي زود ميانگين تعداد چرخشها كمتر از 5 ميشود (البته چون عامل در حال يادگيري است تعدادي از عملها در هر اپيزود تصادفي است كه باعث افزايش تعداد چرخشها مي- شود). پس از اينكه يادگيري به اتمام رسيد وزنهاي يادگرفته شده را ذخيره ميكنيم و به تعداد 5 اپيزود همان آزمايش قبلي را با وزنهاي يادگرفته شده انجام مي- دهيم. در اين حالت ميانگين تعداد چرخشها در اپيزود 3/1 ميباشد. اگر همين آزمايش را براي روش تحليلي به- كار رفته در تيم rilearn23 نيز انجام دهيم ميانگين 4/8 ميشود كه در جدول 3 نيز نشان داده شده است و بيانگر برتري روش يادگير نسبت به روش تحليلي است. جدول 3- ميانگين تعداد چرخش در اپيزود پس از اتمام يادگيري ميانگين چرخش روش سارسا لاندا تحليلي 3/1 4/8 ممكن است تصور شود كه تعداد چرخش در هر اپيزود شاخص مناسبي براي بررسي عملكرد مهارت دريافت توپ نبوده و مقايسهي آن با روش تحليلي از اين جهت درست نباشد. به اين منظور آزمايش ديگري صورت گرفت تا دريافت توپ با دو روش عامل يادگير و تحليلي در يك مسابقهي همزمان دو نفره مقايسه شود. اين مسابقه به اين صورت برگزار ميشود كه مربي توپ را در مكاني قرار مي- دهد و دو عامل تحليلي و يادگير را در موقعيتهاي يكساني در دو طرف مسير توپ قرار ميدهد آنگاه مربي به توپ سرعت اوليهاي داده و شروع اپيزود را اعلام ميكند. هر دو عامل سعي در دريافت توپ ميكنند و هر كدام كه موفق به دريافت زودتر توپ شد تعداد دريافتهاي موفق او يكي افزايش مييابد. شكل 3 - روند يادگيري دريافت توپ اين مسابقه براي 5 اپيزود انجام شد. در اين آزمايش عامل سارسا لاندا موفق شد بيش از %6 از توپها را بگيرد و عامل تحليلي فقط موفق به دريافت %53 از توپها شد. چون بعضي مواقع هر دو عامل با هم به توپ ميرسند 5

[6] P. Sone and M.Veloso, A Layered Approach o Learning Clien Behaviors in he RoboCup Soccer Server, Applied Arificial Inelligence, 1998. [7] M. Riedmiller and Arur Merke, Using Machine Learning echniques in Complex Muli-Agen Domains, In I. Samaescu, W. Menzel, M. Richer and U. Rasch, ediors, Perspecives on Adapiviy and Learning, LNCS, Springer, 22. [8] General iling Sofware, Version 2., hp://www.cs.ualbera.ca/~suon/iles2.hml, November 24. مجموع دريافتهاي موفق كمي بيش از %1 است. جدول 4 درصد دريافتهاي موفق دو عامل را نشان ميدهد. اين آزمايش بيانگر برتري كامل روش يادگير بر روش تحليلي است. جدول 4- درصد دريافتهاي موفق در مسابقهي دونفره دريافت توپ روش درصد دريافتهاي موفق سارسا لاندا تحليلي %6 %53 7- نتيجه گيري و پيشنهادات در اين مقاله نحوهي يادگيري مهارت دريافت توپ با روش سارسا لاندا بررسي شد و نتايج تجربي آن همراه با مقايسه با روش تحليلي بيان شد. پس از انجام آموزش مشخص شد كه عملكرد روش يادگير بهتر از روش تحليلي است. اين مطلب بيان كننده آن است كه با مدلسازي صحيح مسا له و انتخاب مناسب پارامترها روش يادگيري تقويتي ميتواند مساي ل مشكل را در محيطهاي پيچيده (همانند محيط شبيهسازي فوتبال) حتي كاراتر از روشهاي تحليلي حل كند. روش سارسا لاندا كه براي آموزش اين مهارت مورد استفاده واقع شد از جمله روشهاي بدون مدل است. اما عاملهاي فوتباليست مدلي هر چند نويزي از محيط دارند و به همين دليل پيشنهاد ميشود در كارهاي بعدي از روشهاي يادگيري تقويتي مبتني بر مدل استفاده شود. سپاسگزاري در انتها لازم ميدانم از اعضاي تيم شبيهسازي فوتبال آريا كه كد برنامهي شبيهسازي دو بعدي خود را در اختيار اينجانب قرار دادند تشكر و قدرداني نمايم مراجع [1] Wha is Robocup, hp://www.robocup.org/2.hml, November. 24. [2] ]2] E. Foroughi, F. Heinz, S. Kapeanakis, K. Kosiadis, J. Kummeneje, I. Noda, O. Obs, P. Riley, and. Seffens. RoboCup Soccer Server User Manual: for Soccer Server version 7.7 and laer, 21, hp://sourceforge.ne/projecs/sserver. [3] R. S. Suon, A.G. Baro, Reinforcemen Learning: an Inroducion, Cambridge: MI Press, 1998. [4] R. de Boer and J. Kok, he Incremenal Developmen of a Synheic Muli-Agen Sysem: he UvA rilearn 21 Roboic Soccer Simulaion eam, Maser s hesis, universiy of Ameserdam, Neherlands, 22. [5] P. Sone, Layered Learning in Muli-Agen Sysems, PhD. hesis, Carnegie Mellon, Pisburgh, PA, Dec. 1982. 6