يك روش تركيبي جديد يادگيري تقويتي فازي

Σχετικά έγγραφα
( ) قضايا. ) s تعميم 4) مشتق تعميم 5) انتگرال 7) كانولوشن. f(t) L(tf (t)) F (s) Lf(t ( t)u(t t) ) e F(s) L(f (t)) sf(s) f ( ) f(s) s.

در اين آزمايش ابتدا راهاندازي موتور القايي روتور سيمپيچي شده سه فاز با مقاومتهاي روتور مختلف صورت گرفته و س سپ مشخصه گشتاور سرعت آن رسم ميشود.

هدف:.100 مقاومت: خازن: ترانزيستور: پتانسيومتر:

ﻞﻜﺷ V لﺎﺼﺗا ﺎﻳ زﺎﺑ ﺚﻠﺜﻣ لﺎﺼﺗا هﺎﮕﺸﻧاد نﺎﺷﺎﻛ / دﻮﺷ

+ Δ o. A g B g A B g H. o 3 ( ) ( ) ( ) ; 436. A B g A g B g HA است. H H برابر

ﻴﻓ ﯽﺗﺎﻘﻴﻘﺤﺗ و ﯽهﺎﮕﺸﻳﺎﻣزﺁ تاﺰﻴﻬﺠﺗ ﻩﺪﻨﻨﮐ

را بدست آوريد. دوران

برخوردها دو دسته اند : 1) كشسان 2) ناكشسان

V o. V i. 1 f Z c. ( ) sin ورودي را. i im i = 1. LCω. s s s

e r 4πε o m.j /C 2 =

1 ﺶﻳﺎﻣزآ ﻢﻫا نﻮﻧﺎﻗ ﻲﺳرﺮﺑ

P = P ex F = A. F = P ex A

O 2 C + C + O 2-110/52KJ -393/51KJ -283/0KJ CO 2 ( ) ( ) ( )

اراي ه روشي نوين براي حذف مولفه DC ميراشونده در رلههاي ديجيتال

سبد(سرمايهگذار) مربوطه گزارش ميكند در حاليكه موظف است بازدهي سبدگردان را جهت اطلاع عموم در

آزمایش 2: تعيين مشخصات دیود پيوندي PN

( ) x x. ( k) ( ) ( 1) n n n ( 1) ( 2)( 1) حل سري: حول است. مثال- x اگر. يعني اگر xها از = 1. + x+ x = 1. x = y= C C2 و... و

1- مقدمه است.

روشي نوين براي يادگيري تقويتي فازي باناظر براي ناوبري ربات

:نتوين شور شور هدمع لکشم

10 ﻞﺼﻓ ﺶﺧﺮﭼ : ﺪﻴﻧاﻮﺘﺑ ﺪﻳﺎﺑ ﻞﺼﻓ ﻦﻳا يا ﻪﻌﻟﺎﻄﻣ زا ﺪﻌﺑ

حل J 298 كنيد JK mol جواب: مييابد.

در اين ا زمايش ابتدا راهاندازي موتور القايي رتور سيمپيچي شده سه فاز با مقاومت مختلف بررسي و س سپ مشخصه گشتاور سرعت ا ن رسم ميشود.

مربوطند. با قراردادن مقدار i در معادله (1) داريم. dq q

Distributed Snapshot DISTRIBUTED SNAPSHOT سپس. P i. Advanced Operating Systems Sharif University of Technology. - Distributed Snapshot ادامه

تلفات کل سيستم کاهش مي يابد. يکي ديگر از مزاياي اين روش بهبود پروفيل ولتاژ ضريب توان و پايداري سيستم مي باشد [-]. يکي ديگر از روش هاي کاهش تلفات سيستم

نيمتوان پرتو مجموع مجموع) منحني

(POWER MOSFET) اهداف: اسيلوسكوپ ولوم ديود خازن سلف مقاومت مقاومت POWER MOSFET V(DC)/3A 12V (DC) ± DC/DC PWM Driver & Opto 100K IRF840

yazduni.ac.ir دانشگاه يزد چكيده: است. ١ -مقدمه

3 و 2 و 1. مقدمه. Simultaneous كه EKF در عمل ناسازگار عمل كند.

محاسبه ی برآیند بردارها به روش تحلیلی

چكيده 1- مقدمه

آزمایش 1 :آشنایی با نحوهی کار اسیلوسکوپ

a a VQ It ميانگين τ max =τ y= τ= = =. y A bh مثال) مقدار τ max b( 2b) 3 (b 0/ 06b)( 1/ 8b) 12 12

t a a a = = f f e a a

جلسه 3 ابتدا نکته اي در مورد عمل توابع بر روي ماتریس ها گفته می شود و در ادامه ي این جلسه اصول مکانیک کوانتمی بیان. d 1. i=0. i=0. λ 2 i v i v i.

متلب سایت MatlabSite.com

(,, ) = mq np داريم: 2 2 »گام : دوم« »گام : چهارم«

خطا انواع. (Overflow/underflow) (Negligible addition)

HMI SERVO STEPPER INVERTER

رياضي 1 و 2. ( + ) xz ( F) خواص F F. u( x,y,z) u = f = + + F = g g. Fx,y,z x y

هدف: LED ديودهاي: 4001 LED مقاومت: 1, اسيلوسكوپ:

1- مقدمه

Downloaded from ijpr.iut.ac.ir at 10:19 IRDT on Saturday July 14th پست الكترونيكي: چكيده ١. مقدمه

روش محاسبه ی توان منابع جریان و منابع ولتاژ

- 1 مقدمه كنند[ 1 ]:

جلسه 9 1 مدل جعبه-سیاه یا جستاري. 2 الگوریتم جستجوي Grover 1.2 مسا له 2.2 مقدمات محاسبات کوانتمی (22671) ترم بهار

(al _ yahoo.co.uk) itrc.ac.ir) چكيده ١- مقدمه

ی ا ک ل ا ه م ی ل ح ر

5 TTGGGG 3 ميگردد ) شكل ).

آزمايش (٤) موضوع آزمايش: تداخل به وسيلهي دو شكاف يانگ و دو منشور فرنل

پيشنهاد شيوهاي مبتني بر الگوريتم PSO چند هدفه جهت استخراج قوانين انجمني در داده كاوي

چكيده SPT دارد.

هر عملگرجبر رابطه ای روی يک يا دو رابطه به عنوان ورودی عمل کرده و يک رابطه جديد را به عنوان نتيجه توليد می کنند.

ﻲﺘﻳﻮﻘﺗ يﺮﻴﮔدﺎﻳ زا هدﺎﻔﺘﺳا ﺎﺑ نآ لﺎﻘﺘﻧا و ﺶﻧاد يزﺎﺳ دﺮﺠﻣ

گروه رياضي دانشگاه صنعتي نوشيرواني بابل بابل ايران گروه رياضي دانشگاه صنعتي شاهرود شاهرود ايران

بررسي علل تغيير در مصرف انرژي بخش صنعت ايران با استفاده از روش تجزيه

ر ک ش ل ن س ح ن د م ح م ب ن ی ز ن. ل و ئ س م ه د ن س ی و ن ( ی ر ک ش ل &

٢٢٢ ٣٩٣ ﻥﺎﺘﺴﺑﺎﺗ ﻭ ﺭﺎﻬﺑ ﻢ / ﻫﺩﺭﺎﻬﭼ ﻩﺭﺎﻤﺷ ﻢ / ﺘ ﺸﻫ ﻝﺎﺳ ﻲﻨﻓ ﺖﺷﺍﺩﺩﺎﻳ ﻱ ﻪﻃ

است). ازتركيب دو رابطه (1) و (2) داريم: I = a = M R. 2 a. 2 mg

R = V / i ( Ω.m كربن **

آزمایش 8: تقویت کننده عملیاتی 2

چكيده مقدمه SS7 گرديد. (UP) گفته ميشود. MTP وظيفه انتقال پيامهاي SS7 را User Part. Part هاي SS7 هستند. LI I FSN I BSN F

- 2 كدهاي LDPC LDPC است. بازنگري شد. چكيده: 1. .( .( .finite length Irregular LDPC Codes

قاعده زنجیره ای برای مشتقات جزي ی (حالت اول) :

تمرینات درس ریاض عموم ٢. r(t) = (a cos t, b sin t), ٠ t ٢π. cos ٢ t sin tdt = ka۴. x = ١ ka ۴. m ٣ = ٢a. κds باشد. حاصل x٢

نقش نيروگاههاي بادي در پايداري گذراي شبكه

* خلاصه

يﺎﻫ ﻢﺘﻳرﻮﮕﻟا و ﺎﻫ ﺖﺧرد فاﺮﮔ ﻲﻤﺘﻳرﻮﮕﻟا ﻪﻳﺮﻈﻧ :سرد ﻲﺘﺸﻬﺑ ﺪﻴﻬﺷ هﺎﮕﺸﻧاد ﺮﺗﻮﻴﭙﻣﺎﻛ مﻮﻠﻋ هوﺮﮔ ﻪﻴﻟوا ﺞﻳﺎﺘﻧ و ﺎﻫﻒ ﻳﺮﻌﺗ

نگرشهاي دانشيار چكيده سطح آبه يا گرفت. نتايج

A D. π 2. α= (2n 4) π 2

جلسه ی ۱۰: الگوریتم مرتب سازی سریع

1- مقدمه ماندانا حميدي استفاده از آنها را در طبقهبندي كنندهها آسان كرده است است.

Aerodynamic Design Algorithm of Liquid Injection Thrust Vector Control

مقدمه دسته بندي دوم روش هاي عددي دامنه محدود اهداف: هاي چندجمله اي رهيافت هاي محاسباتي: سعي و خطا دامنه نامحدود

هو الحق دانشکده ي مهندسی کامپیوتر جلسه هفتم

1) { } 6) {, } {{, }} 2) {{ }} 7 ) { } 3) { } { } 8) { } 4) {{, }} 9) { } { }

ˆÃd. ¼TvÃQ (1) (2) داشت: ( )

چكيده. Keywords: Nash Equilibrium, Game Theory, Cournot Model, Supply Function Model, Social Welfare. 1. مقدمه

جلسه 2 1 فضاي برداري محاسبات کوانتمی (22671) ترم بهار

چكيده 1- مقدمه درخت مشهد ايران فيروزكوه ايران باشد [7]. 5th Iranian Conference on Machine Vision and Image Processing, November 4-6, 2008

چكيده 1- مقدمه شبيهسازي ميپردازد. ميشود 8].[1, 2, 3, 4, 5, 6, 7,

ی ن ل ض ا ف ب ی ر غ ن ق و ش ه ی ض ر م ی ) ل و ئ س م ه د ن س ی و ن ( ا ی ن ل ض ا ف ب ی ر غ 1-

( Δ > o) است. ΔH 2. Δ <o ( ) 6 6

1. مقدمه بگيرند اما يك طرح دو بعدي براي عايق اصلي ترانسفورماتور كافي ميباشد. با ساده سازي شكل عايق اصلي بين سيم پيچ HV و سيم پيچ LV به

مريم اسپندار - وحيدحقيقتدوست چكيده 1- مقدمه. ١ Vehicular Anti-Collision Mechanism ٢ Intelligent Vehicular Transportation System

{hmontazeri, 1- مقدمه

قطعات DNA وصل ميشوند فاژT7. pppapcpc/a(pn) 1 2 فاژT4. pppapc (PN) 3. *** (p)ppa /G (PN) 7 pppa / G (Pn)~9 در حدود ۱۰

بررسي رابطه ضريب سيمان شدگي و تخلخل بدست ا مده از ا ناليز مغزه و مقايسه ا ن با روابط تجربي Shell و Borai در يكي از مخازن دولوميتي جنوب غرب ايران

چکيده

11-F-REN-1840 كرمان ايران چكيده - مقدمه: ١ Maximum Power Point Tracking ٢ Incremental Conductance. 3 Model Predictive Control

جلسه 22 1 نامساویهایی در مورد اثر ماتریس ها تي وري اطلاعات کوانتومی ترم پاییز

98-F-ELM چكيده 1- مقدمه

یﺭﺎﺘﻓﺭ یﺭﺎﺘﻓﺭ یﺎﻫ یﺎﻫ ﻑﺪﻫ ﻑﺪﻫ


تشخيص اوليه سرطان سينه به روش توموگرافي ميكروويو

مقدمه -1-4 تحليلولتاژگرهمدارهاييبامنابعجريان 4-4- تحليلجريانمشبامنابعولتاژنابسته

تصاویر استریوگرافی.

Vr ser se = = = Z. r Rr

تعيين مدل استاتيكي كولرهاي گازي اينورتري به منظور مطالعات پايداري ولتاژ

Transcript:

I S I C E مجله كنترل ISSN 2008-8345 جلد 8 شماره بهار 393 صفحه -20 3 2 فرزانه قرباني ولي درهمي حسين نظام ا بادي پور فارغالتحصيل كارشناسي ارشد مهندسي كامپيوتر گروه مهندسي كامپيوتر دانشگاه يزد f.ghorbai@stu.yazd.ac.ir 2 دانشيار دانشكدة مهندسي برق و كامپيوتر گروه مهندسي كامپيوتر دانشگاه يزد vderhami@yazd.ac.ir 3 استاد دانشكدة فني و مهندسي گروه مهندسي برق دانشگاه شهيد باهنر كرمان ezam@uk.ac.ir (تاريخ دريافت مقاله 393//3 تاريخ پذيرش مقاله 393/3/8) چكيده: در اين مقاله يك روش جديد يادگيري تقويتي پيوسته براي مساي ل كنترل اراي ه ميشود. روش اراي ه شده از تركيب روش ت" كرار سياست كمترين مربعات " با يك سيستم فازي سوگنوي مرتبه صفر حاصل شده و "تكرار سياست كمترين مربعات فازي" ناميده شده است. در اينجا براي هر قاعده فازي تعدادي عمل نامزد در نظر گرفته ميشود. هدف يافتن مناسبترين عمل نامزد (تالي) براي هر قاعده ميباشد. با استفاده از بردار شدت ا تش قواعد فازي و عملهاي نامزد مربوط به قواعد توابع پايه حالت عمل به گونهاي تعريف شدهاند كه شرايط قضاياي روش تكرار سياست كمترين مربعات را برا ورده مينمايند. با استفاده از توابع پايه حالت- عمل تعريف شده و بهرهگيري از الگوريتم تكرار سياست كمترين مربعات يك روش جديد براي تازهسازي پارامترهاي وزن تالي قواعد اراي ه ميشود. تحليل رياضي كه براي اين الگوريتم ا ورده ميشود كران خطايي براي اختلاف تابع مقدار ارزش حالت-عمل واقعي و تخمين تابع ارزش حالت- عمل حاصل از الگوريتم اراي ه شده تعريف ميكند. نتايج شبيهسازي در مساله معروف قايق حاكي از سرعت ا موزش بالاتر و نيز كيفيت عملكرد بهتر روش پيشنهادي نسبت عدم نياز به تعيين نرخ ا موزش است. به دو روش يادگيري كيوي فازي و يادگيري سارساي فازي است. از مزاياي ديگر روش اراي ه شده كلمات كليدي: يادگيري تقويتي تكرار سياست كمترين مربعات تقريب تابع ارزش حالت-عمل سيستم فازي. A Novel approach i Fuzzy eiforcemet Learig Farzaeh Ghorbai,Vali Derhami, Hossei Nezamabadipour Abstract: I this paper, we preset a ovel cotiuous reiforcemet learig approach. The proposed approach, called "Fuzzy Least Squares Policy Iteratio (FLSPI)", is obtaied from combiatio of "Least Squares Policy Iteratio (LSPI)" ad a zero order Takagi Sugeo fuzzy system. We defie state-actio basis fuctio based o fuzzy system so that LSPI coditios are satisfied. It is prove that there is a error boud for differece of the exact state-actio value fuctio ad approximated state-actio value fuctio obtaied by FLSPI. Simulatio results show that learig speed ad operatio quality for FLSPI are higher tha two previous critic-oly fuzzy reiforcemet learig approaches i.e. fuzzy Q-learig ad fuzzy Sarsa learig. Aother advatage of this approach is eedlessess to learig rate determiatio. Keywords: eiforcemet learig; least squares policy iteratio, state-actio fuctio approximatio, fuzzy system. نويسنده عهده دار مكاتبات: ولي درهمي مجله كنترل انجمن مهندسان كنترل و ابزار دقيق ايران- دانشگاه صنعتي خواجه نصيرالدين طوسي

(P2F P (P4F 0B مقدمه - 2 دادهه يا با توجه به ويژگيه يا ا موزشي در مساي لي كه دادهه يا مطلوب يادگيري تقويتي مانند عدم نياز به ا موزشي در دسترس نيست و همچنين ا موزش تنها با استفاده از يك سيگنال اسكالر اين روشها مورد توجه هستند. روشه يا روشه يا يادگيري تقويتي قدرتمند هستند اما يادگيري تقويتي استاندارد بر روي فضاي حالت و عمل گسسته عمل ميكنند. اين روشها در مساي ل با فضاي بزرگ يا فضاي پيوسته دچار چالش ميشوند زيرا گسسته سازي اين فضاها مشكل است و ا موزش نياز به زمان و فضاي زياد دارد. اين مشكل در فضاهاي بزرگ نفرين يا تنگناي تركيب تقريب زننده ه يا ابع ادP0F Pنام دارد. براي رفع مشكل تنگناي ابعاد از تابع با روشه يا يادگيري تقويتي استفاده شده است. اين روشها از تركيب تقريب زنندههايي مانند سيستم ه يا شبكهه يا عصبي با روشه يا يادگيري تقويتي به وجود از تقريب زنندهها در زمره كاربردهاي موفق روشه يا فازي و ميا يند. استفاده يادگيري تقويتي قرار دارند. اول به دليل اين كه نياز به نگهداري جدولي اطلاعات تابع ارزش حالت-عمل و لذا حافظه زياد ندارند. دوم اين كه نياز به اطلاعات دقيق محيط ندارند. در ضمن استفاده از ا نها ساده است و عملكردشان واضح و شفاف ميباشد لذا از لحاظ تحليل و اشكال زدايي ساده ميباشند []. تمركز ما در اين مقاله بر روي روشه يا معماري نقاد-تنها است. الگوريتمه يا يادگيري سارساي فازي [8] از جمله يادگيري تقويتي فازي با يادگيري كيوي فازي [7-2] و الگوريتمه يا اراي ه شده در يادگيري تقويتي فازي با معماري نقاد-تنها هستند. اين روشها از لحاظ اراي ه تحليل رياضي مثبت در فضاهاي پيوسته و وابستگي به نرخ ا موزش دچار چالش هستند. ما در اين مقاله به دنبال اراي ه روشي هستيم كه چالشه يا را برطرف نموده و نسبت به روشه يا يكي از روشه يا مذكور قبل داراي كارايي بهتري باشد. يادگيري تقويتي كه داراي تحليل رياضي مثبت عدم وابستگي به نرخ ا موزش و كارايي مناسب است تكرار سياست كمترين مربعات 2 LSPIPF) P) [0 9 ] ميباشد. براي پياده سازي و استفاده عملي از LSPI تعريف توابع پايه ضروري است اما در مقالههاي مذكور شيوه تعريف توابع پايه مشخص نشده است. LSPI يك الگوريتم تكراري است كه در هر تكرار داراي دو مرحله است: (الف) ارزيا يب سياست مقدار تابع ارزش حالت-عمل را براي سياست جاري محاسبه ميكند و (ب) بهبود سياست با استفاده از تابع ارزش حالت-عمل مرحله قبل سياست جديد را تعريف ميكند. روش LSPI و عمل متناهي اراي ه شده است. تحليل بر روي فضاي حالت رياضي LSPI با استناد به تحليل رياضي تكرار سياست [] 3 PI) بيان شده است. در LSPI نحوه تعريف دقيق توابع پايه بيان نشده است. مرجع [2] اين روش را به صورت LSPI 4 برخطP3F براي فضاي حالت نامتناهي اصلاح كرده است اما در اين روش نيز توابع پايه به صورت دقيق بيان نشده است و هيچ تحليل وجود ندارد. 5 رياضي و تضمين همگرايي براي اين روش (در فضاي نامتناهي) در اين مقاله از سيستم ه يا فازي به عنوان يك تقريب زننده جامع [5-3] براي تقريب تابع ارزش حالت-عمل در روش LSPI استفاده شده و منجر به تعريف روش تكرار سياست كمترين مربعات فازي PFLSPI) شده است. در واقع از سيستم ه يا فازي براي تعريف توابع پايه در LSPI استفاده شده است. از سوي ديگر سيستم فازي مورد استفاده در FLSPI سي و ميتوان گفت شده است. ستمي است كه نياز به تنظيم تاليه يا از LSPI براي تنظيم تالي ه يا قواعد دارد اين سيستم فازي استفاده ا ن چه كه در ادامه اين مقاله خواهد ا مد به اين صورت بخش بندي شده است: در بخش دوم مروري كوتاه بر يادگيري تقويتي به طور كلي و سپس الگوريتم LSPI ب ه عن و ا ن ي ك ي از روشهاي مورد استفاده در يادگيري تقويتي انجام شده است. در بخش سوم به روش FLSPI كه براي اولين بار در اين مقاله اراي ه شده پرداخته م ي شود. بخش چهارم در بردارنده نتايج شبيه سازي مساله قايق با استفاده از FLSPI ا س ت و در بخش پنجم جمع بندي و نتايج حاصل از به كارگيري اين الگوريتم ا مده است. -2 Bيادگيري تقويتي در يك سيستم مبتني بر عامل با يادگيري تقويتي در ه ر قدم زماني t عامل حالت فعلي s t از فضاي حالت S مشاهده نموده و عملي را از فضاي عمل متناهي A ب ر اساس سيا س ت π انتخاب و به محيط اعمال ميكند. در پي ا ن محيط به حالت جد ي د +t s از فضاي حالت S با احتمال انتقال ) t+ P(s t, a t, s رفته و عامل سيگنال تقويتي ) t t+ = (s t, a را دريافت ميكند.[6] سياست كه با (a π(s, نشان داده م ي حالت شود احتمال انتخاب عمل a در s ميباشد. مبناي كار در يادگيري تقويتي بر اساس پاداش و جريمه ا س ت و ه د ف ح د ا ك ث ر كردن م ج م و ع پاداشهاي دريافتي در طول يادگيري ميباشد. بر اين اساس عامل ياد ميگيرد عملي را انتخاب كند كه او را به حالتي با بيشت رين ارزش برساند. ارزش حالت s تح ت سياست π توسط تابع زير تعريف ميشود [6]: V π (s) = E π [ t=0 γ t t s t = s] 0 γ () 3 Policy Iteratio (PI) 4 Olie 5 Fuzzy Least Squares Policy Iteratio Curse of dimesioality 2 Least Squares Policy Iteratio (LSPI)

P 3 كه γ نرخ كاهش و ] [. π E اميد رياضي ميباشد. به طور مشابه تابع ارزش حالت- ع م ل ب ر اي عمل a و حالت s ك ه مشخص م ي حالت s ميشود [6]: (2) ك ن د در ارزش انجام عمل a چه اندازه است به صورت ز ير تعر ي ف Q π (s, a) = E π [ γ t t s t = s, a t = a] t=0-2 -تكرار سياست كمترين مربعات روش تكرار سياست PIP5F) P) [7] يكي از روشه يا يادگيري تقويتي است كه سياست بهينه را براي هر زنجيره تصميم ماركوف به وسيله تولي د دنباله اي از سياستها در فضاي گسسته به د س ت م ي الگوريتم تكراري است كه در تكرار m ما ارزياي سيب ميكند: (3) ا ورد. PI ي ك ا ن دو مرحله وجود دارد: اس ت مقدار تابع را از سياس ت فعلي π Q π m m محاسبه Q π m(s, a) = (s, a) +γ P(s, a, s ) π(s, a )Q π m(s, a ) s S a A بهبود سياست سيا س ت حريصانه بهبو د يافته +m π را روي m Q π تعريف ميكند: π m+ (s) = argmax Q π m(s, a) a A (4) اين روش در فضاي حالت و عمل متناهي داراي كارايي بالايي ا س ت و كران خطايي براي ا ن تعريف شده است []. (5) مقدار دقيق Q π m را ميتوان از حل معادله زير به دست ا ورد: كه T π عملگر بلمن تحت سياست π م ي تعريف ميشود []: T πm Q = Q (6) باشد و به صورت ز ير (T π Q)(s, a) = (s, a) +γ P(s, a, s ) π(s, a )Q(s, a ) اين روش مانند روشه يا دچار مشكل تنگناي ابعاد ميباشد. s S a A ديگر يادگيري تقويتي در فضاهاي بزرگ مرجع [] روش تكرار سياست كمترين مربعات را با استفاده از روش تكرار سياست براي رفع مشكل تنگناي ابعاد اراي ه نموده است. ا ي ن روش از روشهايي است كه به جاي محاسبه دقيق تابع ارزش حالت-عمل Q تقريب ا ن Qن يعي حاصل از 2 و تصويرP6F Q را محاسبه مينمايد. مبناي LSPI از بين بردن خطاي ا ن تحت عملگر بلمن است. در حالت كلي ميتوان از يك تركيب خطي وزن دار براي تقر ي ب تابع ارزش حالت-عمل به صورت زير استفاده كرد: Q π = ΦW (7) هستند: (8) كه در ا ن W ماتريس وزنها و Φ ماتريس توابع پايه حالت- عمل به طوري كه (s, a ) T Φ = (s i, a i ) T (s S, a A ) T (9) كه باشند. (s, a) (s, a) = k (s, a). S A k تعداد توابع پا يه j توابع پا يه حالت عمل م ي در [] LSPI پس از انجام محاسبات نتيجه گ رفته شده كه م ي Q π را از حل معادله (0) به دست ا ورد: تو ا ن Q π = Φ(Φ T Φ) ΦT π Q π (0) از ساده سازي رابطه بالا (پس از انجام محابات مبسوط كه مجال بيان ا نها در اين مقاله نيست) ميتوان به نتايج زير رسيد []: AW = b A ew = A old + (s, a) (s, a) b ew = b old + (s, a) γ s, π(s ) T () (2) (3) كه پاداش انتقال از حالت s به حالت s است وقتي كه عمل a انتخاب شده باشد. γ نرخ كاهش است و ماتريس A و بردارb كه به صورت تكراري محاسبه ميشوند ب ر اي محاسبه بردار وزن W مو ر د استفاده قرار ميگيرند. 2 Projectio Policy Iteratio

P -3 4 2Bتكرار سياست كمترين مربعات فازي( FLSPI ) در اين بخش با استفاده از سيستمه يا فازي به عنو ا ن تقر ي ب روش تكرار سي ا س ت كمترين مربعات فازي (FLSPI) اراي ه م ي FLSPI از سيستم فازي سوگنو م رتبه ص ف ر استفاده م ي سيستم به شكل زير تعريف ميشود: نما ي د. i : If x is L i ad ad If x is L i, The زننده ش ود. قاعده (o i with weigth w i or or o im with weigth w im ) كه ) s = (x,, x برداري از فضاي ورودي -بعدي و L i = L i L i فضاي -بعدي محدب است و مجموعههاي فازي قاعده i ما داراي مراكز يكتا هستند. m تعداد عمله يا هر قاعده و jامين o ij عمل نامزد براي قاعده i ما با وزن ممكن ب ر اي w ij م ي باشد. مشخصات توابع عضويت تعداد عملها و مقدار عملها وابسته به مساله بوده و با توجه به تجربه طراح تعي ني براي قاعده i ما مي شوند. با توجه به وزن هر عمل و استفاده از روش انتخاب عمل شبه حريصانه عمل + ii i + ) o انديس عمل مورد نظر است) انتخاب ميشود و عمل نهايي به صورت زير محاسبه ميشود: a t (s t ) = μ i (s t )o ii + (4) كه (s) μ i شدت ا تش نرمال شده قاعده i ما ه د ف از ا موزش سي س ت م تقر ي ب رسيدن به سياست بهينه است. شدت ا تش هر قاعده از حاصل ضرب مقدمه يا به ازاي ورودي s است. w ij به صورت برخط ب ر اي مجموعهه يا فازي به دست ميا يد و با استفاده از توابع شدت ا تش نرمال شده قواعد توابع پايه حالت-عمل را به صورت زير تعريف مينماي م:ي φ(s, a) m m m = 0... μ (s)...0 0... μ 2 (s)...0 0... μ (s) 0 T (5) كه در ا ن m تعداد عملها ميباشد. لازم به ذكر است تعدادعملهاي نامزد و اين پارامتر توسط كاربر ب ر اساس مساله و تج ربه كاربر تعيين ميشود. روال الگوريتم FLSPI را ميتوان به صورت زير خلاصه كرد: -حالت اوليه s 0 را مشاهده كن. 2 -در مجموعه عملهاي نامزد هر قاعده يكي از عملها را با ۱ توجه به مقدار وزنشان و روش انتخاب عمل شبه حريصانهP7F كن. انتخاب ε-greedy كن:.c 3 -تا زماني كه به انتهاي اپيزود نرسيده اي مراحل ز ير را تكرار a. با استفاده از رابطه (4) عمل نهايي a t را محاسبه كن. b. با اعمال a t به محيط حالت +t s را مشاهده كن و پاداش +t r را دريافت كن. ماتريس A را با استفاده از رابطه زير به روزرساني كن: (6) A t+ = A t + (s t, a t ) (s t, a t ) γ s t+, π(s t+ ) T.d بردار b را با استفاده از رابطه زير به روزرساني كن: b t+ = b t + (s t, a t )r t+ t A tw k = t b t (7) t t +.e 4 -رابطه (8) را براي به دست ا وردن W k حل كن و + k k. تا زماني كه شرط توقف برقرار نيست قرار بده s t = s 0 و م ر ا حل 2 تا 4 را تكرار كن. كه شرط توقف يا رسيدن به هدف (با خطاي تعريف شده توسط كاربر) و يا تعداد تكرار خاصي كه توسط كاربر تعريف ميشود ا س ت. به روز رساني ماتريس A و بردار b توسط روابط (6) و (7) در هر قدم زماني و به روزرساني بردار وزن W توسط رابطه (8) در ه ر اپيزود انجام ميشود. پارامترهاي A و b همان پارامترهاي مطرح شده در روابط (3) تا (5) هستند كه براي محاسبه بردار وزن W مورد استفاده قرار ميگي رند. به عبارت ديگر سياست در طول ي ك نميكند. در صورتي كه اين اپيزود تغيير الگوريتم براي موارد غير اپيزوديك استفاده شود به جاي به روز رساني بردار وزن بعد از هر اپيزود اين بردار بعد از تعداد مشخصي قدم زماني به روز رساني ميشود. شرط توقف رسيدن به هدف با يك خطاي قابل قبول يا تعداد تكرار مشخصي ميباشد. رساني لازم به يادا وري است كه به روز رساني بردار W در واقع به روز Q ميباشد و منجر به استخراج سياست جديد ميشود. -4 3Bتحليل رياضي روش پيشنهادي در اين بخش مباحثي مطرح ميشود كه منجر به تعريف ك ر ا ن ب ر اي خطاي تقريب تابع حالت-عمل و مقدار بهينه تابع حالت عمل ميشود. با استفاده از مرجع [3] قضيه زير را داريم. ضق( تبصره يه استون-وايرشتراس): اگر Z ي ك پيوسته روي فضاي محدب X باشد و اگر الف) Z يك جبر باشد يع ين بسته باشد. مجموعه از توابع نسبت به جمع و ضرب اسكالر و ضرب

5 ب) Z نقاط روي X را جدا كند: x, x 2 X, x x 2 ; F Z s. t F(x ) F(x 2 ) x X; F Z s. t F(x) 0 ج) Z روي هيچ نقطه اي از X صفر نشود: ا نگاه براي هر تابع پيوسته G(x) روي X و هر 0<ε دلخواه ي ك F(x) G(x) < ε F Z وجود دارد بهطوريكه لم - براي هر تابع پيوسته Q و هر 0<ε دلخواه تابع Q Q < ε =i Q = وجود دارد بهطوريكه μ i (s)w ii + اثبات- X را فضاي حاصل از ضرب دكارتي فضاي حالت (زيرفضايي محدب از ) و فضاي عمل ) زيرفضايي محدب از ) m در نظر بگيريد در اين صورت X زيرفضايي محدب از +m است كه بعد فضاي حالت و m بعد فضاي عمل ميباشد. همچنين Q روي ا ي ن فضا تابعي پيوسته است. اكنون با تعر ي Zف به عنوان فضاي همه توابع Q = ΦW كه W يك بردار است و Φ با رابطه (8) مشخص مي شو د كافي است شرايط قضيه ارضا شود تا اثبات كامل شود: تعريف ميكنيم: Q : X Y, y = Q (s, a), X +m, Y همچنين قاعده به به صورت تعر ي ف ميگيريم: شده در بخش 3 در نظ ر i : If s is L i ad ad If s is L i, The (o i with weigth w i or or o im with weigth w im ) y = Q (s, a) = μ i (s)w ii + اكنون y را به اين شكل تعريف ميكنيم: (9) كه در ا ن + ii W وزن مربوط به عمل انتخاب شده در قاعده i ام و (s) μ i شدت ا تش نرمال شده قاعده i ام به ازاي ورودي s است: μ i (s) = α i(s) α j (s) j= (20) كه (s) α i شدت ا تش قاعده i ام به ازاي ورودي s مي باشد: α i (s) = μ i l (s l ) (2) μ l l درجه عضويت s در l ا مين تابع ع ضويت تعر ي ف i (s l ) ميباشد. لذا داريم: شده اكنون با استفاده از دو رابطه ز ير شرط قسمت (الف)تب ص ره را p i b i c j + q j c j b i i j j = (p i + q j )(b i c j ) a i b j = a i b j i j i i j j i بررسي ميكنيم: (23) (24) بگيريد: دو تابع دلخواه Q با قاعده و Q 2 با 2 قاعده از Z را در نظر Q (s, a) = W ii + μ i l (s l ) μ l i (s l ) 2 Q 2 (s, a) = W jj + μ j l j= (s l ) 2 μ l j (s l ) j= Q (s, a) + Q 2 (s, a) 2 با استفاده از رابطه (23) داريم: = (W ii + + W jj +)( μ i l (s l )μ l j= j (s l )) 2 ( μ l i (s l )μ l j (s l )) j= در نتيجه.Q (s, a) + Q 2 (s, a) Z پس Z ن سب ت به جمع ب سته Q (s, a). Q 2 (s, a) 2 است. حال با استفاده از رابطه (24) خواهيم داشت: = (W ii +. W jj +)( μ i l (s l )μ l j= j (s l )) 2 ( μ l i (s l )μ l j (s l )) ن سب ت به ض ر ب ب سته j= و در نتيجه Zن Q (s, a). Q 2 (s, a) Z يعي است. به وضوح Z نسبت به ضرب اسكالر هم بسته است. لذا Z ي ك جب ر v = (s, a ), h = (s 2, a 2 ) X است. براي بررسي قسمت (ب) تبصره فرض كنيد دو بردار دلخواه باشند كه v h سي نظر بگيريد كه داراي دو تابع عضويت به شكل زير است: ست م فازي با دو قاعده را در μ l (x l ) = exp ( 2 (x l v l ) 2 ) μ 2 l (x l ) = exp ( 2 (x l h l ) 2 ) و همچنين تاليه ي:ا o = a 2, o 2 = (a 2 2) exp 2 v h 2 Q (s, a) = W ii + μ i l (s l ) μ l i (s l ) (22) o 2 = (a 2) exp 2 v h 2, o 22 = a 2 2

P W = W 2 = 0, W 2 = W 22 = 6 با وزنه ي:ا ك ه انديسهاي م ن تخ ب ب ر اي a قاعده اول انديس اول قاعده دوم انديس اول و براي a 2 قاعده اول انديس دوم و قاعده دوم انديس دوم ميباشد. شدت ا تشها به صورت زير به دست ميا يند : α (x) = μ l (s l ) = exp ( 2 x v 2 2 ) α 2 (x) = μ l 2 (s l ) = exp ( 2 x h 2 2 ) Q (s, a ) = exp ( 2 v h 2 2 ) + exp ( 2 v h 2 2 ) Q (s 2, a 2 ) = + exp ( 2 v h 2 2 ) لذا داريم: در نتيجه Q (h).q (v) پس Z نقاط روي X را جدا ميكند. براي بررسي قسمت (ج) كافي است با تعاريف قسمت قبل x در اين صورت به ازاي هر و jها. i براي همه W ij > 0 0.Q (x) پس Z روي هيچ نقطه اي از X صفر نميشود. ا نچه از لم نتيجه ميشود اين است كه براي هر تابع دلخواه ميتو ا ن تابعي از سيستم فازي دقت دلخواهي ا ن را تقريب بزند. استفاده شده در الگوريتم FLSPI ياف ت كه با هر براي سياست ايستاي π و اسكالر دلخواه x داريم: T(Q + xe)(s, a) = TQ(s, a) + γx T π (Q + xe)(s, a) = T π Q(s, a) + γx لم 2- (25) (26) كه در ا ن e هماني است. اثبات- چون اين مساله يك مساله كاهشيP8F با نرخ كاهش γ است ۱ با استناد به مرجع [] اثبات كامل ميشود. براي سياست ايستاي π داريم: اثبات- چون اين مساله يك مساله كاهشي با نرخ كاهش γ ا س ت با استناد به مرجع [] اثبات كامل ميشود. لم 4- فرض كنيد π k سياست تولي د شده توسط kا مين تكرار از Q π k Q π k ε k الگوريتم FLSPI و 0 k ε دلخواه باشد بهطوريكه Q π k+(s, a) Q π k(s, a) + 2γε k, (s, a) γ e k = sup( Q π k+(s, a) Q π k(s, a)) (s,a) Q π k+(s, a) Q π k(s, a) + e k, s, a در اين صورت (29) اثبات- تعريف ميكنيم T π Q π = Q π و با استفاده از :(26) Q π k+(s, a) = T πk+ Q π k+(s, a) T πk+ (Q π k(s, a) + e k ) = T πk+ Q π k(s, a) + γe k بنابراين اما چون از طرفي در LSPI به دليل عدم نياز به نمايش تقر ي سيب ا س ت همه T πk+ Q π k = T πk Q π k. خطاهاي عملگر صفر هستند []. لذا براي هر k داريم: بنابراين: Q π k+(s, a) Q π k(s, a) T πk+ Q π k(s, a) + γe k Q π k(s, a) = T πk+ Q π k(s, a) T πk+ Q π k(s, a) + T πk+ Q π k(s, a) Q π k(s, a) + γe k در نتيجه با استفاده از (28) ميتوان نوشت: T πk+ Q π k(s, a) T πk+ Q π k(s, a) + T πk+ Q π k(s, a) Q π k(s, a) + γe k γ Q π k(s, a) Q π k(s, a) + γ Q π k(s, a) Q π k(s, a) + γe k 2γε k + γe k sup( Q π k+(s, a) Q π k(s, a)) 2γε + γe k (s,a) e k 2γε k + γe k e k 2γ γ ε k. لذا داريم: TQ TQ γ Q Q T π Q T π Q γ Q Q لم 3- (27) (28) لم 5- فرض كني د π k سيا س ت تولي د شده توسط k ا مين تكرار Q π k Q π k ε k الگوريتم FLSPI و 0 k ε دلخواه باشد بهطوريكه Discout problem

7 2γ limsupf k ( γ) 2 ε limsup Q π k Q 2γ ( γ) 2 ε f k = sup(q π k(s, a) Q (s, a)) (s,a) f k+ γf k + γe k + 2γε k و همچنين فرض كنيد در اين صورت خواهيم داشت: از طرفي (30) Q π k Q = Q π k Q π k + Q π k Q Q π k Q π k + Q π k Q limsup Q π k Q limsup Q π k Q π k + limsup Q π k Q ε + 2γ ( γ) 2 ε limsup Q π k Q +γ2 ε. ( γ) 2 Q π k(s, a) Q (s, a) + f k, (s, a) اثبات- با توجه به فرض داريم اما T عملگري غير نزولي است [] پس با استفاده از (25) و اين كه Q : TQ = TQ π k(s, a) T(Q (s, a) + f k ) = TQ (s, a) + γf k = Q (s, a) + γf k از طرفي اگر a b < ε ا نگاه a < b + ε و b. < a + ε با استفاده از اين مطلب در فرض قضيه و (25): T πk+ Q π k(s, a) T πk+ Q π k(s, a) + ε k = T πk+ Q π k(s, a) + γε k = TQ π k(s, a) + γε k T(Q π k(s, a) + ε k ) + γε k = TQ π k(s, a) + γε k + γε k Q (s, a) + γf k + 2γε k بنابراين Q π k+(s, a) = T πk+ Q π k+(s, a) T πk+ (Q π k(s, a) + e k ) = T πk+ Q π k(s, a) + γe k Q (s, a) + γf k + 2γε k + γe k Q π k+(s, a) Q (s, a) γf k + γe k + 2γε k, (s, a) f k+ γf k + γe k + 2γε k. قضيه - فرض كنيد π,, π k دنباله اي از سياستهاي تولي د limsup Q π k Q + γ2 ( γ) 2 ε limsup شده توسط FLSPI باشد در اين صورت:. ε = limsupε k (3) كه در ا ن اثبات- با استفاده از لم 4 داريم f k γlimsupf k + γlimsupe k + 2γε limsupe k 2γ γ ε ( γ)limsup f k γ 2γ γ اكنون با استفاده از لم 3 داريم: بنابراين به طور خلاصه دو مهم در اين بخش مورد تحليل قرار گرفته است. ا نچه كه از لم حاصل ميشود اين است كه مجموعه توابع تعريف شده در سيستم فازي الگوريتم FLSPI قدرت تقريب هر تابع پيوسته دلخواه را دارند. به بيان روشنتر FLSPI ميتواند هر تابع ارزش حالت-عمل را با دقت دلخواه تقريب بزند. در ادامه ا نچه كه در لمهاي تا 5 ا مده است در جهت ا ماده كردن مقدمات مربوط به اثبات قضيه م ي باشد. اين قضيه كران خطايي براي اختلاف تخمين تابع ارزش حالت-عمل نسبت به تابع ارزش حالت-عمل بهينه تعر ي ف خطا به حد دنباله ε k يع ين نموده ا س ت. ا ي ن ك ر ا ن دقت تخمين kامين تابع ارزش حالت-عمل توليد شده توسط الگوريتم FLSPI وابسته است. با نزديك شدن اي ن حد به صفر كران خطاي مزبور نيز به صفر نزديك شده و تخمين تابع ارزش حالت-عمل توليد شده توسط اين الگوريتم به مقدار بهينه تابع ارزش حالت-عمل نزديك ميشود. 5-4Bشبيه سازي در اين بخش براي نمايش كارايي روش FLSPI ا ي ن روش را در مساله قايق [2] پياده سازي كردهايم. هدف هدايت قايق با شروع از ه ر موقعيت در سمت چپ رودخانه اي با جريان ا ب غي ر خطي قو ي به اسكله سمت راست است. اين مسا له داراي دو متغير حالت پيوسته x و y (مختصات دماغه قايق) در د ا منه 0 تا 200 ا س ت. مركز ا سكله در موقعيت (00 200) قرار دارد و ع ر ض ا ن برابر با 5 م ي باشد. فضاي عمل اين مساله زواياي سكان قايق نسبت به محور افقي ا س ت. هد ف استفاده از يادگيري تقويتي در اين مساله ياد گرفتن زاويه (عمل) مناسب در ه ر حالت (موقعي ت قايق در رودخانه با جر يان ا ب م ر ب و ط ب ه ا ن موقعيت) با استفاده از سيگنال تقويتي (پاداش) ميباشد. ε + 2γε = 2γ γ ε

P 8 پنج مجموعه فازي براي تقسيم بندي متغيرهاي ورودي x و y در نظ ر گرفته شده است. لذا 25 قاعده فازي خواهيم داشت. خروجي كنترلگر زاويه حركت قايق م ي باشد. ب ر اي تالي ه ر قاعده دوازده عمل (زاويه حركت) گسسته لحاظ گرديده است: A = { 00, 90, 75, 60, 45, 35, 5,0,5,45,75,90} البته ميتوان براي هر قاعده مجموعه عملهاي گسسته متفاوتي در نظ ر گرفت ليكن در اينجا يكسان فرض ميشوند. همچنين مقادير اوليه وزن ) w) براي عمل ها يكسان و برابر ص ف ر لحاظ شده ا س ت. كنترل گ ر با تركيب اين عمل ه يا گسسته خروجي پيوسته را توليد مي كند. هد ف از يادگيري پيدا كردن عمل مناسب براي تالي قواعد است. نتايج هر ا زمايش متوسط ارزيابي انجام شده از 00 ا ج ر ا ا س ت. ه ر اجرا شامل دو بخش يادگيري و ا زمون ميباشد. براي بخش يادگيري ابتدا 00 دسته موقعيت تصادفي توليد ميشود. هر دسته شامل 5000 نقطه تصادفي شروع حركت قايق (x=0,y=radom) ميباشد. ا گ ر تعداد اپيزودها (منظور از يك رويداد شروع از نقطه ا غاز و ر سيد ن به ط ر ف ديگر ساحل است) از 5000 بيشتر شود يا تعداد دفعات متوالي كه قايق به ناحيه غير شكست رسيده است به 40 برسد بخش يادگيري پايان م ي يابد. بخش ا زمون شامل 40 رويداد با شروع از 40 نقطه با 0=x و y پخش شده با فواصل مساوي در رنج 0 تا 200 است. نتايج حاصل از 00 ا ج ر اي مج ز اي ا ي ن بهترين نتيجهه يا روشه يا الگوريتم د ر جدول با FQL و [8] FSL مقايسه شده است. در ا ي ن جدول متوسط تعداد اپيزود در يادگيري( LDI (Avg. انحراف معيار اپيزودها در يادگيري( LDI (std. ۱ نرخ شكستP9F DEI) ميانگين فاصله در ا زمايش (Avg. در ا زمايش و همچنين ميانگين زمان اجرا time) ا مده است. سي ست م كامپيوتري مو ر د استفاده در ا ي ن (Avg. داراي پردازشگر (2.20GH) itel core i7 و 8 گيگاباي ت ميباشد. ا زمايش حافظه همانطور كه در جدول مشاهده ميشود FLSPI نتيجه بسيار بهت ري نسبت به FQL و FSL دارد. براي مثال FLSPI به ترتيب نسبت به FQL و FSL از نظر زمان ا موزش (LDI) 2 و 2/8 برابر از نظركيفي ت يادگيري (DEI) 2/8 و /5 برابر و از لحاظ نرخ شك س ت 5/7 و 2/4 برابر بهت ر شده است. از لحاظ زمان اجرا نيز مشاهده مي شو د كه FLSPI ن سب ت به FQL و FSL به ترتيب 5/8 و 2/9 برابر سريعتر است. جدول : مقايسه نتايج شبيه سازي Iitial parameters δ = 0. 0 α = 0. 0 δ = α = 0. Avg. Avg. Avg. Std. Failure Method Time DEI LDI (LDI) ate (Sec) FQL FSL 8.69 4.45 733 00 084 065 FLSPI 3.06 360.9 76.04 6.7 2.825.7 83.8 4.97 4.45 هيستوگرام يادگيري FLSPI و FSL در شكله يا و 2 ا مده است. همانطور كه ديده ميشود در FLSPI به ازاي 00 اجراي متمايز هيچ مورد واگرايي وجود ندارد. و در همه اجراها يادگيري با تعداد اپيزود كمتر از 670 صورت گرفته است. در شكل 3 تغييرات وزنهاي قاعده اول در اپيزودهاي متوالي از اين پياده سازي براي FLSPI نشان داده شده است. همانطور كه ديده ميشود تغييرات وزنها بعد از حدود 300 تكرار بسيار كم شده است و ميتوان گفت كه بعد از حدود 000 تكرار تقريبا بدون تغيير هستند. لذا وزنها در FLSPI خيلي سريع همگرا ميشوند. براي نمونه نتيجه ا زمايش الگوريتم FLSPI روي 40 داده ا زمايشي در شكل 4 ا مده است. همانطور كه ملاحظه ميشود يادگيري به صورت مطلوبي اتفاق افتاده است. در واقع يادگيري به ازاي همه نقاط فضا به صورت كامل ميباشد. شكل : هيستوگرام يادگيري براي FLSPI Failure ate

9 شكل 2: هيستوگرام يادگيري براي FSL همچنين اثبات شد كه خطاي تابع ارزش عمل تقريب زده شده با مقدار واقعي محدود بوده و كمتر از مقدار كراني است كه در اين مقاله بد س ت ا مده است. جهت ارزيابي FLSPI عملكرد ا ن در مساله شناخته شده قايق با دو روش يادگيري تقويتي فازي نقاد-تنها به نام هاي FQL و FSL مقايسه شد. از ديگر مزيتهاي روش اراي ه شده عدم وابستگي ا ن به نرخ يادگيري ميباشد. همچنين عدم و جو د واگرايي از ويژگيهاي قابل توجه FLSPI ميباشد.نتايج شبيه سازي نشان داد كه همگرايي وزنها در اين الگوريتم خييلي سريع اتفاق ميافتد. در ضمن اين كه زمان اجراي اين الگوريتم ا ن را براي مساي لي كه نياز به الگوريتم هاي بلا د رن گ دارند مناسب ميكند. مراجع [] Lagoudakis M. G., ad Parr,., "Least-squares policy iteratio", Joural of Machie Learig esearch, vol. 4, p. 07-24, 2003. [2] Jouffe, L., "Fuzzy iferece system learig by reiforcemet methods", IEEE Tras. Syst., Ma, Cyber. C, vol. 28, p. 338 35, 998. [3] Bereji, H., " Fuzzy Q-learig: a ew approach for fuzzy dyamic programmig", IEEE World Cogress o Computatioal Itelligece, 994. [4] Paahi, F.H., Ohtsaki, T., "Optimal Chael- Sesig Scheme for Cogitive adio Systems Based o Fuzzy Q-Learig", IEICE TANSACTIONS o Commuicatios, Vol.E97- B, No.2, pp.283-29, 204. شكل 3: تغييرات وزنهاي قاعده اول FLSPI [5] Shamshirbad, S., Patelc, A., Auarb, N.B., Mat Kiahb, M.L., Abrahame, A., "Cooperative game theoretic approach usig fuzzy Q-learig for detectig ad prevetig itrusios i wireless sesor etworks", Egieerig Applicatios of Artificial Itelligece, 204. [6] Muñoz, P., Barco,., De la Badera, I., "Optimizatio of load balacig usig fuzzy Q- Learig for ext geeratio wireless etworks", Expert Systems with Applicatios Volume 40, Issue 4, Pages 984 994, March 203. [7] Gloreec, P.Y. ad Jouffe, L., "Fuzzy Q- learig", Proc. IEEE It. Cof. Fuzzy Systems, vol 2, p. 659-662, July 997. [8] Derhami, V., Majd, V.J., ad Ahmadabadi, M.N., "Fuzzy sarsa learig ad the proof of existece of its statioary poits", Asia Joural of Cotrol, vol 0, p. 535-549, September 2008. [9] ovcai M., De Pooreter, E., Moerma, I., Demeester, P., "A reiforcemet learig based solutio for cogitive etwork cooperatio betwee co-located, heterogeeous wireless sesor etworks", Ad Hoc Netw, vol 7, p. 98-3, Jue 204. شكل 4: نتيجه الگوريتم FLSPI پس از ا موزش روي دادههاي تست 5-65B -نتيجهگيري در اين مقاله يك روش جديد يادگيري تقويتي فازي با استفاده از LSPI اراي ه شد. الگوريتم اراي ه شده FLSPI ناميده شد. نحوه تعريف توابع پايه ارزش- عمل و بروز رساني پارامترهاي وزن در FLSPI شرح داده شد. ابتدا اثبات شد كه FLSPI شرايط م ربو ط به قضاياي بيان شده در LSPI را بر ا ورده نموده و لذا نتايج ا ن قضايا براي FSLPI صادق ا س ت.

[4] azavi,., Klei, S., ad Clausse, H., "Self- Optimizatio of Capacity ad Coverage i LTE Networks Usig a Fuzzy eiforcemet Learig Approach", 2st Aual IEEE Iteratioal Symposium o Persoal, Idoor ad Mobile adio Commuicatios, 200. [5] Castro, J.L., "Fuzzy logic cotrollers are uiversal approximators", vol 25, p. 629-63, April 995. [6] Du, K.L., Swamy, M. N. S., "eiforcemet Learig. Neural Networks ad Statistical Learig", pp 547-56, 204. 20 [0] Thiery, C., Scherrer, B.L., "east-squares λ Policy Iteratio: Bias-Variace Trade-off i Cotrol Problems", Iteratioal Coferece o Machie Learig, 200. [] Bertsekas, D.P., ad Tsitsiklis, J.N., "Neuro- Dyamic Programmig", Athea Scietific, Belmot, Massachusetts, 996. [2] Bus oiu, L., Erst, D., De Schutter, B., "Olie least-squares policy iteratio for reiforcemet learig cotrol", America Cotrol Coferece (ACC-0), Baltimore, US, 30 Jue 2 July 200. [7] Howard,.A., "Dyamic Programmig ad Markov Processes", MIT Press, Cambridge, Massachusett, 960. [3] Jag, J.S.., Su, C.T., ad Mizutai, E., "Neuro- Fuzzy ad soft computig", Pretice-Hall, 997.