روشي نوين براي يادگيري تقويتي فازي باناظر براي ناوبري ربات

Σχετικά έγγραφα
ﻞﻜﺷ V لﺎﺼﺗا ﺎﻳ زﺎﺑ ﺚﻠﺜﻣ لﺎﺼﺗا هﺎﮕﺸﻧاد نﺎﺷﺎﻛ / دﻮﺷ

در اين آزمايش ابتدا راهاندازي موتور القايي روتور سيمپيچي شده سه فاز با مقاومتهاي روتور مختلف صورت گرفته و س سپ مشخصه گشتاور سرعت آن رسم ميشود.

ﻴﻓ ﯽﺗﺎﻘﻴﻘﺤﺗ و ﯽهﺎﮕﺸﻳﺎﻣزﺁ تاﺰﻴﻬﺠﺗ ﻩﺪﻨﻨﮐ

برخوردها دو دسته اند : 1) كشسان 2) ناكشسان

هدف:.100 مقاومت: خازن: ترانزيستور: پتانسيومتر:

+ Δ o. A g B g A B g H. o 3 ( ) ( ) ( ) ; 436. A B g A g B g HA است. H H برابر

( ) قضايا. ) s تعميم 4) مشتق تعميم 5) انتگرال 7) كانولوشن. f(t) L(tf (t)) F (s) Lf(t ( t)u(t t) ) e F(s) L(f (t)) sf(s) f ( ) f(s) s.

سبد(سرمايهگذار) مربوطه گزارش ميكند در حاليكه موظف است بازدهي سبدگردان را جهت اطلاع عموم در

e r 4πε o m.j /C 2 =

اراي ه روشي نوين براي حذف مولفه DC ميراشونده در رلههاي ديجيتال

آزمایش 2: تعيين مشخصات دیود پيوندي PN

1 ﺶﻳﺎﻣزآ ﻢﻫا نﻮﻧﺎﻗ ﻲﺳرﺮﺑ

O 2 C + C + O 2-110/52KJ -393/51KJ -283/0KJ CO 2 ( ) ( ) ( )

( ) x x. ( k) ( ) ( 1) n n n ( 1) ( 2)( 1) حل سري: حول است. مثال- x اگر. يعني اگر xها از = 1. + x+ x = 1. x = y= C C2 و... و

1- مقدمه است.

V o. V i. 1 f Z c. ( ) sin ورودي را. i im i = 1. LCω. s s s

تلفات کل سيستم کاهش مي يابد. يکي ديگر از مزاياي اين روش بهبود پروفيل ولتاژ ضريب توان و پايداري سيستم مي باشد [-]. يکي ديگر از روش هاي کاهش تلفات سيستم

يك روش تركيبي جديد يادگيري تقويتي فازي

در اين ا زمايش ابتدا راهاندازي موتور القايي رتور سيمپيچي شده سه فاز با مقاومت مختلف بررسي و س سپ مشخصه گشتاور سرعت ا ن رسم ميشود.

yazduni.ac.ir دانشگاه يزد چكيده: است. ١ -مقدمه

P = P ex F = A. F = P ex A

آزمایش 1 :آشنایی با نحوهی کار اسیلوسکوپ

نيمتوان پرتو مجموع مجموع) منحني

چكيده. Keywords: Nash Equilibrium, Game Theory, Cournot Model, Supply Function Model, Social Welfare. 1. مقدمه

را بدست آوريد. دوران

3 و 2 و 1. مقدمه. Simultaneous كه EKF در عمل ناسازگار عمل كند.

10 ﻞﺼﻓ ﺶﺧﺮﭼ : ﺪﻴﻧاﻮﺘﺑ ﺪﻳﺎﺑ ﻞﺼﻓ ﻦﻳا يا ﻪﻌﻟﺎﻄﻣ زا ﺪﻌﺑ

بررسي علل تغيير در مصرف انرژي بخش صنعت ايران با استفاده از روش تجزيه

است). ازتركيب دو رابطه (1) و (2) داريم: I = a = M R. 2 a. 2 mg

HMI SERVO STEPPER INVERTER

چكيده 1- مقدمه

ﻲﺘﻳﻮﻘﺗ يﺮﻴﮔدﺎﻳ زا هدﺎﻔﺘﺳا ﺎﺑ نآ لﺎﻘﺘﻧا و ﺶﻧاد يزﺎﺳ دﺮﺠﻣ

مربوطند. با قراردادن مقدار i در معادله (1) داريم. dq q

حل J 298 كنيد JK mol جواب: مييابد.

- 1 مقدمه كنند[ 1 ]:


Distributed Snapshot DISTRIBUTED SNAPSHOT سپس. P i. Advanced Operating Systems Sharif University of Technology. - Distributed Snapshot ادامه

محاسبه ی برآیند بردارها به روش تحلیلی

چكيده SPT دارد.

(,, ) = mq np داريم: 2 2 »گام : دوم« »گام : چهارم«

(al _ yahoo.co.uk) itrc.ac.ir) چكيده ١- مقدمه

شماره : RFP تاريخ RFP REQUEST FOR RESEARCH PROPOSAL Q # # ساير باشند. F

متلب سایت MatlabSite.com

Aerodynamic Design Algorithm of Liquid Injection Thrust Vector Control

آزمایش 8: تقویت کننده عملیاتی 2

a a VQ It ميانگين τ max =τ y= τ= = =. y A bh مثال) مقدار τ max b( 2b) 3 (b 0/ 06b)( 1/ 8b) 12 12

1- مقدمه

خطا انواع. (Overflow/underflow) (Negligible addition)

چكيده مقدمه SS7 گرديد. (UP) گفته ميشود. MTP وظيفه انتقال پيامهاي SS7 را User Part. Part هاي SS7 هستند. LI I FSN I BSN F

1- مقدمه ماندانا حميدي استفاده از آنها را در طبقهبندي كنندهها آسان كرده است است.

t a a a = = f f e a a

:نتوين شور شور هدمع لکشم

طراحي و بهبود سيستم زمين در ا زمايشگاه فشار قوي جهاد دانشگاهي علم و صنعت

(POWER MOSFET) اهداف: اسيلوسكوپ ولوم ديود خازن سلف مقاومت مقاومت POWER MOSFET V(DC)/3A 12V (DC) ± DC/DC PWM Driver & Opto 100K IRF840


پيشنهاد شيوهاي مبتني بر الگوريتم PSO چند هدفه جهت استخراج قوانين انجمني در داده كاوي

چكيده 1- مقدمه شبيهسازي ميپردازد. ميشود 8].[1, 2, 3, 4, 5, 6, 7,

مقدمه دسته بندي دوم روش هاي عددي دامنه محدود اهداف: هاي چندجمله اي رهيافت هاي محاسباتي: سعي و خطا دامنه نامحدود

مريم اسپندار - وحيدحقيقتدوست چكيده 1- مقدمه. ١ Vehicular Anti-Collision Mechanism ٢ Intelligent Vehicular Transportation System

هدف: LED ديودهاي: 4001 LED مقاومت: 1, اسيلوسكوپ:

( Δ > o) است. ΔH 2. Δ <o ( ) 6 6

ﻲﻟﻮﻠﺳ ﺮﻴﮔدﺎﻳ يﺎﻫﺎﺗﺎﻣﻮﺗآ زا هدﺎﻔﺘﺳا ﺎﺑ ﻢﻴﺳ ﻲﺑ ﺮﮕﺴﺣ يﺎﻫ ﻪﻜﺒﺷ رد يﺪﻨﺑ ﻪﺷﻮﺧ

هر عملگرجبر رابطه ای روی يک يا دو رابطه به عنوان ورودی عمل کرده و يک رابطه جديد را به عنوان نتيجه توليد می کنند.

- 2 كدهاي LDPC LDPC است. بازنگري شد. چكيده: 1. .( .( .finite length Irregular LDPC Codes

Downloaded from ijpr.iut.ac.ir at 10:19 IRDT on Saturday July 14th پست الكترونيكي: چكيده ١. مقدمه

چكيده است. كليد واژه:

شناسايي تجربي مدل ديناميكي توربين و گاورنر مكانيكي نيروگاه بخاري تبريز

نقش نيروگاههاي بادي در پايداري گذراي شبكه

ازالگوريتم ژنتيك. DTW,Genetic Algorithm,Feature Vector,Isolated Word Recognition دهد.

آزمایش 1: پاسخ فرکانسی تقویتکننده امیتر مشترك

5 TTGGGG 3 ميگردد ) شكل ).

چكيده 1- مقدمه درخت مشهد ايران فيروزكوه ايران باشد [7]. 5th Iranian Conference on Machine Vision and Image Processing, November 4-6, 2008

٢٢٢ ٣٩٣ ﻥﺎﺘﺴﺑﺎﺗ ﻭ ﺭﺎﻬﺑ ﻢ / ﻫﺩﺭﺎﻬﭼ ﻩﺭﺎﻤﺷ ﻢ / ﺘ ﺸﻫ ﻝﺎﺳ ﻲﻨﻓ ﺖﺷﺍﺩﺩﺎﻳ ﻱ ﻪﻃ

پايدارسازي سيستم قدرت چندماشينه با استفاده از پايدارساز HBB-BC بهينه شده توسط الگوريتم PSS3B

آزمايشگاه ديناميك ماشين و ارتعاشات آزمايش چرخ طيار.

یﺭﺎﺘﻓﺭ یﺭﺎﺘﻓﺭ یﺎﻫ یﺎﻫ ﻑﺪﻫ ﻑﺪﻫ

جلسه 3 ابتدا نکته اي در مورد عمل توابع بر روي ماتریس ها گفته می شود و در ادامه ي این جلسه اصول مکانیک کوانتمی بیان. d 1. i=0. i=0. λ 2 i v i v i.

* خلاصه

98-F-TRN-596. ترانسفورماتور بروش مونيتورينگ on-line بارگيري. Archive of SID چكيده 1) مقدمه يابد[

آزمايش (٤) موضوع آزمايش: تداخل به وسيلهي دو شكاف يانگ و دو منشور فرنل

D-STATCOM چكيده 1- مقدمه Flexible Alternative Current Transmission System

{hmontazeri, 1- مقدمه

R = V / i ( Ω.m كربن **

ﺮﺑﺎﻫ -ﻥﺭﻮﺑ ﻪﺧﺮﭼ ﺯﺍ ﻩﺩﺎﻔﺘﺳﺍ ﺎﺑ ﻱﺭﻮﻠﺑ ﻪﻜﺒﺷ ﻱﮊﺮﻧﺍ ﻦﻴﻴﻌﺗ ﻪﺒـﺳﺎﺤﻣ ﺵﻭﺭ ﺩﺭﺍﺪﻧ ﺩﻮﺟﻭ ﻪ ﻱﺍ ﻜﺒﺷ ﻱﮊﺮﻧﺍ ﻱﺮﻴﮔ ﻩﺯﺍﺪﻧﺍ ﻱﺍﺮﺑ ﻲﻤﻴﻘﺘﺴﻣ ﻲﺑﺮﺠﺗ ﺵﻭﺭ ﹰﻻﻮﻤﻌﻣ ﻥﻮﭼ ﻱﺎ ﻩﺩ

رياضي 1 و 2. ( + ) xz ( F) خواص F F. u( x,y,z) u = f = + + F = g g. Fx,y,z x y

گروه رياضي دانشگاه صنعتي نوشيرواني بابل بابل ايران گروه رياضي دانشگاه صنعتي شاهرود شاهرود ايران

11-F-REN-1840 كرمان ايران چكيده - مقدمه: ١ Maximum Power Point Tracking ٢ Incremental Conductance. 3 Model Predictive Control

هو الحق دانشکده ي مهندسی کامپیوتر جلسه هفتم

يﺎﻫ ﻢﺘﺴﻴﺳ زا هدﺎﻔﺘﺳا ﺎﺑ (IP) ﺖﻧﺮﺘﻨﻳا ﻞﻜﺗوﺮﭘ رد تﺎﻋﻼﻃا يوﺎﺣ يﺎﻫ ﻪﺘﺴﺑ لﺎﻘﺘﻧا (DWDM)جﻮﻣ لﻮﻃ ﻢﻴﺴﻘﺗ لﺎﮕﭼ هﺪﻨﻨﻛ ﺲﻜﻠﭘ ﻲﺘﻟﺎﻣ يرﻮﻧ ﺮﺒﻴﻓ

چكيده واژههاي كليدي: منحني L تنظيم تيخونف OTSVD لرزه پايينچاهي مقدمه 1 شده و. x true مو لفه مربوط به نوفههاي تصادفي و ديگري مو لفه مربوط.

98-F-ELM چكيده 1- مقدمه

ﻚﻳ ﺯﺍ ﻩﺩﺎﻔﺘﺳﺍ ﺎﺑ ﺖﺳﺩ ﺖﮐﺮﺣ ﺭﻮﺼﺗ ﻡﺎﮕﻨﻫ ﺭﺩ EE G ﻱﺎﻫﻮﮕﻟﺍ ﺺﻴﺨﺸﺗ ﻞﻘﺘﺴﻣ ﯼﺎﻫ ﻪﻔﻟﻮﻣ ﺰﻴﻟ ﺎﻧﺁ ﺮﺑ ﻲﻨﺘﺒﻣ ﺓﺪﻨﻨﻛ ﻱﺪﻨﺑ ﻪﻘﺒﻃ

تعيين مدل استاتيكي كولرهاي گازي اينورتري به منظور مطالعات پايداري ولتاژ

روش محاسبه ی توان منابع جریان و منابع ولتاژ

متلب سایت MatlabSite.com

بررسي رابطه ضريب سيمان شدگي و تخلخل بدست ا مده از ا ناليز مغزه و مقايسه ا ن با روابط تجربي Shell و Borai در يكي از مخازن دولوميتي جنوب غرب ايران

تمرینات درس ریاض عموم ٢. r(t) = (a cos t, b sin t), ٠ t ٢π. cos ٢ t sin tdt = ka۴. x = ١ ka ۴. m ٣ = ٢a. κds باشد. حاصل x٢

مطالعه ي ا زمايشگاهي فرا يند همرفت در يك ميكرومدل شكافدار

تصاویر استریوگرافی.

ارائه یک استراتژی نوین کنترلی برای جبرانساز DVR جهت بهرهوری بیشتر از آن در کیفیت توان مصرف کننده

Transcript:

I S I C E مجله كنترل ISSN 008-8345 جلد 6 شماره 3 پاييز 39 صفحه -0 روشي نوين براي يادگيري تقويتي فازي باناظر براي ناوبري ربات فاطمه فتحي نژاد ولي درهمي فارغالتحصيل كارشناسي ارشد مهندسي برق و كامپيوتر گروه كامپيوتر دانشگاه يزد faeme.fahinezhad@su.yazduni.ac.ir استاديار دانشكدة مهندسي برق و كامپيوتر گروه كامپيوتر دانشگاه يزد vderhami@yazduni.ac.ir (تاريخ دريافت مقاله 39/4/3 تاريخ پذيرش مقاله 39/7/) چكيده: استفاده از يادگيري باناظر در ناوبري رباتهاي متحرك با چالشهاي جدي از قبيل ناسازگاري و اختلال در دادهها مشكل جمعا وري نمودن داده ا موزش و خطاي زياد در دادههاي ا موزشي مواجه ميباشد. قابليتهاي يادگيري تقويتي همچون عدم نياز به داده ا موزشي و ا موزش تنها با استفاده از يك معيار اسكالر راندمان باعث كاربرد ا ن در ناوبري ربات شده است. از طرفي يادگيري تقويتي زمانبر بوده و داراي نرخ شكستهاي بالا در مرحله ا موزش ميباشد. در اين مقاله يك ايده جديد براي استفاده مو ث ر از هر دو الگوريتم يادگيري فوق اراي ه ميشود. يك كنترلگر فازي سوگنو مرتبه صفر با تعدادي عمل كانديد براي هر قاعده جهت توليد فرمانهاي كنترل ربات در نظر گرفته شده است. هدف از ا موزش تعيين عمل مناسب براي هر قاعده است. روش تركيبي پيشنهاد شده دو مرحله دارد. در مرحله اول داده ا موزشي با حركت ربات توسط ناظر در محيط جمع ا وري ميشود. سپس با بهرهگيري از روش جديد اراي ه شده پارامترهاي ارزش هر عمل كانديد در قواعد فازي با كمك دادههاي ا موزشي مقدار دهي اوليه ميشوند. در مرحله دوم از الگوريتم سارساي فازي براي تنظيم دقيقتر پارامترهاي تالي كنترلگر بصورت برخط استفاده ميشود. نتايج شبيه سازي در شبيهساز KiKS براي ربات خپرا حاكي از بهبود قابل توجه در زمان يادگيري تعداد شكستها و كيفيت حركت ربات ميباشد. كلمات كليدي: ناوبري ربات يادگيري باناظر يادگيري تقويتي كنترلگر فازي. A Novel Suervised Fuzzy Reinforcemen Learning for Robo Navigaion Faeme Fahinezhad, Vali Derhami Absrac: Alying suervised learning in robo navigaion encouners serious challenges such as inconsisence and noisy daa, difficuly o gahering raining daa, and high error in raining daa. Reinforcemen Learning (RL) caabiliies such as lack of need o raining daa, raining using only a scalar evaluaion of efficiency and high degree of exloraion have encourage researcher o use i in robo navigaion roblem. However, RL algorihms are ime consuming also have high failure rae in he raining hase. Here, a novel idea for uilizing advanages of boh above suervised and reinforcemen learning algorihms is roosed. A zero order Takagi-Sugeno (T-S) fuzzy conroller wih some candidae acions for each rule is considered as robo conroller. The aim of raining is o find aroriae acion for each rule. This srucure is comaible wih Fuzzy Sarsa Learning (FSL) which is used as a coninuous RL algorihm. In he firs se, he robo is moved in he environmen by a suervisor and he raining daa is gahered. As a hard uning, he raining daa is used for iniializing he value of each candidae acion in he fuzzy rules. Aferwards, FSL fine-unes he arameers of conclusion ars of he fuzzy conroller online. The simulaion resuls in KiKS simulaor show ha he roosed aroach significanly imroves he learning ime, he number of failures, and he qualiy of he robo moion. Keywords: Robo navigaion, Suervised learning, Reinforcemen learning, Fuzzy conroller. نويسنده عهده دار مكاتبات: ولي درهمي مجله كنترل انجمن مهندسان كنترل و ابزار دقيق ايران- دانشگاه صنعتي خواجه نصيرالدين طوسي

-0B مقدمه ناوبري براي رباتهاي متحرك عبارت است از حركت از يك نقطه معين و رسيدن به يك هدف مشخص در حاليكه ربات بتواند از برخورد به موانع اجتناب كند[ ]. بطور كلي در يك محيط پويا استفاده از الگوريتمهاي سراسري0F براي يافتن مسير حركت ربات غيرممكن و يا بسيار پرهزينه است زيرا در اين روشها مدل رياضي يا نقشه كاملي از محيط مورد نياز است. لذا چنانچه مشخصات محيط ناشناخته باشد و يا محيط در حال تغيير باشد مسيريابي با استفاده از روشهاي طراحي مسير محلي انجام ميشود. روشهاي طراحي مسير محلي از اطلاعات فراهم شده توسط حسگرهايي مانند حسگرهاي سونار و يا حسگرهاي مادون قرمز بهره ميبرند [4 3]. در ميان روشهاي اراي ه شده الگوريتمهاي هندسي فرض ميكنند كه حسگرهاي سنجش فاصله نصب شده بر روي ربات قادرند بطور كامل موانع را بصورت برخط تشخيص دهند. اين دو فرض در محيطهاي واقعي غيرقابل قبول و برا وردن ا نها وقتگير است []. از ديگر روشها روشهاي مبتني بر پتانسيل ميباشند كه مو ثرتر از الگوريتمهاي هندسي به نظر ميرسند چرا كه به جزي يات كمتري از موقعيت موانع نياز دارند ليكن اين روشها نيز نقاط ضعف زير را دارند :[5 ] - رخداد كمينه محلي منجر ميگردد كه ربات در حلقه ايجاد شده بين موانع به دام بيفتد. - حركت ناپايدار ربات در كاربردهاي عملي. 3- مشكل پيدا كردن ضرايب مو ثر مربوط به سرعت و نيرو در محيطهايي با موانع درهم كه اراي ه مدل رياضي براي محيط را دشوار مي- كند. 4- افت راندمان به خاطر نايقيني و خطاي مربوط به حسگرها (كه براي هر حسگر متفاوت از بقيه است) به علت عملكرد بر اساس يك استراتژي از پيش تعيينشده و عدم وجود يادگيري. مشكلات اشاره شده در بالا محققين را تشويق به استفاده از الگوريتمهاي يادگيرنده با استفاده از اطلاعات محلي در مسا له ناوبري ربات نموده است.اين يادگيري با استفاده از اطلاعات حاصله از حسگرهاي قرار گرفته بر روي ربات انجام ميپذيرد [6]. يادگيري باناظر يكي از روشهاي قديمي استفاده شده براي تنظيم پارامترهاي كنترلگر ميباشد كه براي ا موزش كنترلگر ربات نيز از ا ن استفاده شده است. در اين روش ابتدا ربات در محيط توسط ناظر حركت داده شده و سپس با توجه به دادههاي جمعا وري شده با استفاده از روشهاي مبتني بر گراديان [7] پارامترهاي كنترلگر در جهت كاهش مجموع مربعات خطاي خروجي تنظيم ميشوند. اين الگوريتم در مسا له ناوبري ربات با ضعفهاي جدي مانند موارد زير مواجه است: - عدم اطلاع ناظر از فرمان كنترلي مناسب در بعضي از وضعيتها: لذا در وضعيتهاي خاص خروجي تعيين شده توسط ناظر داراي خطاي زياد مي باشد. - ناسازگاري در داده ها: بعنوان مثال در نظر بگيريد يك ربات در جلوي مانع قرار دارد و سمت چپ و راست ا ن خالي ميباشد. ناظر ممكن است در چنين وضعيتي يكبار با اعمال فرمان چرخش به راست (مثلا 45 درجه) و يك بار ديگر با چرخش به چپ (مثلا 45- درجه) ربات را از كنار مانع عبور دهد. اين ناسازگاري باعث ايجاد مشكل در ا موزش ميشود. الگوريتم يادگيري باناظر براي اين وضعيت يك عمل را بايد تعيين نمايد. واضح است كه هر كدام را انتخاب كند خطا براي داده ديگر زياد ميشود و از ا نجا كه روش بر اساس كمينه كردن مجموع مربعات خطا ميباشد خروجي تعيين شده براي اين وضعيت عددي نزديك به صفر است. اين خروجي به معني حركت مستقيم ربات به طرف جلو در اين وضعيت و در نتيجه برخورد با مانع است. شكل بيانگر مورد مذكور مي باشد. در دو قسمت "الف " و" ب" ربات توسط ناظر يكبار از سمت راست و يكبار از سمت چپ عبور داده شده است. نتيجه يادگيري با اين داده ناسازگار حركت مستقيم به سمت هدف و برخورد به مانع مي باشد كه در قسمت "ج" از شكل نشان داده شده است. الف : چرخش به راست ب: چرخش به چپ ج: حركت مستقيم به طرف جلو و برخورد با مانع شكل : تاثير سوء مشكل ناسازگاري در دادههاي ا موزشي. -Global algorihms Journal of Conrol, Vol. 6, No 3, Fall 0 مجله كنترل جلد 6 شماره 3 پاييز 39

5F F 3 Journal of Conrol, Vol. 6, No 3, Fall 0 با توجه به ضعفهاي اشاره شده در يادگيري باناظر استفاده از روشهاي هوشمند براي يادگيري رباتها گسترش يافت. يادگيري تقويتي يك الگوريتم مدرن هوشمند است كه به جهت دارا بودن قابليتهايي همچون عدم نياز به خروجي مطلوب ا موزش تنها با استفاده از يك معيار اسكالر راندمان امكان ا موزش برخط و درجه كاوش بالا گزينه مناسبي جهت تنظيم پارامترهاي كنترلگر ربات ميباشد. در واقع در يادگيري تقويتي به عامل گفته نميشود كه عمل صحيح در هر وضعيت چيست و فقط با استفاده از يك معيار اسكالر كه سيگنال تقويتي ناميده مي شود خوب يا بد بودن عمل به عامل نشان داده مي شود. عامل موظف است با در دست داشتن اين اطلاعات ياد بگيرد كه بهترين عمل كدام است. اين ويژگي يكي از نقطه قوتهاي خاص الگوريتم يادگيري تقويتي است[ 8 ]. اما از جنبه ديگر دو چالش پيش روي يادگيري تقويتي زمانبر بودن و كند بودن ا موزش در ا ن است. اين مشكل در مساي ل ناوبري ربات هم كه معمولا فضاي حالت بزرگ است بطور جدي مشهود است. مسا له ديگر اين است كه امكان تنظيم همه پارامترهاي كنترلگر (پارامترهاي توابع عضويت مقدم در كنترلگرهاي فازي يا پارامترهاي وزن در لايههاي ابتدايي كنترلگرهاي عصبي) در الگوريتمهاي يادگيري تقويتي پيوسته كه از ا نها براي كنترلگر ربات استفاده شده است وجود ندارد. يك ايده سودمند براي بهرهگيري از مزايا و كاهش ضعفهاي دو روش يادگيري تقويتي و يادگيري باناظر استفاده از تركيب اين دو روش يادگيري مي باشد. در [] از يادگيري باناظر براي تخمين اوليه احتمال انتخاب عمل استفاده شده است. نويسنده به دنبال روش تركيبي از يادگيري تقويتي و يادگيري باناظر خطي است كه از يادگيري باناظر خطي براي توليد سياست انتخاب عمل در يادگيري تقويتي استفاده شده است. لذا انتخاب عمل در روش يادگيري كيوF با توجه به احتمال انتخاب عملهايي كه از داده ا موزشي بدست ا مده است انجام مي شود. روش مذكور در مسا له سيستم مكالمه بكار گرفته شده است. در [] يادگيري تقويتي باناظر براي مسي له دنبال كردن خط در ربات متحرك استفاده شده است و از دانش ناظر بعنوان دانشي كه ميتواند براي تصميم در خصوص كاوش در مرحله انتخاب عمل استفاده شود بهره برده شده است. در [3] ناظر با استفاده از كنترلگر ID عملي را براي هر حالت انتخاب مينمايد. سپس در هنگام انتخاب عمل در روش يادگيري تقويتي عمل انتخاب شده توسط كتترلگر ID شانس بالاتري براي انتخاب خواهد داشت. تابع ارزش عمل هم بر اساس روش يادگيري كيو به روز رساني مي شود. در [4] نيز از تركيب يادگيري با ناظر و يادگيري تقويتي براي مساله حركت ربات انسان نما به سمت شارژر و اتصال به ا ن استفاده شده است. در اينجا سعي شده ارزش اوليه عملها از يادگيري تقويتي استفاده شود. البته فضاي عملها گسسته است و كلا چهار عمل براي ربات در نظر گرفته شده است. مجله كنترل جلد 6 شماره 3 پاييز 39 ايده هاي اراي ه شده در مراجع فوق براي فضاي حالت گسسته و يا فضاي عمل گسسته هستند در حاليكه توجه ما در اين مقاله بر روي فضاي حالت عمل پيوسته است. در [] ايده اي براي فضاي حالت و عمل پيوسته ا مده است در ا ن از داده ا موزشي توليد شده توسط ناظر براي تنظيم اوليه پارامترهاي بخش 3 [5] استفاده شده است. در اين مرجع عملگر در معماري عملگر- نقاد3F ابتدا توسط يادگيري باناظر مقدار عمل براي هر حالت پيشنهاد ميشود و سپس با استفاده از يادگيري تقويتي مقدار نهايي پيرامون مقدار پيشنهادي تنظيم مي شود. روش مذكور دو ضعف عمده دارد: - اثر سوء ناسازگاري داده اشاره شده در بالا باعث خطاي زياد در خروجي تنظيم شده توسط يادگيري باناظر مي گردد. - ضعف عدم كاوش مناسب در معماري عملگر-نقاد [5] علاوه بر ضعف ذاتي معماري عملگر-نقاد در اين خصوص از ا نجا كه مرحله تنظيم با يادگيري تقويتي تنظيمات پيرامون مقدار تنظيم شده با روش يادگيري با ناظر صورت ميگيرد اين ضعف تشديد شده است. در كار قبلي ما در مقاله [6] ايده اي شبيه به روش فوق را در معماري نقاد-تنها بكار گرفتيم. بدين صورت كه از داده هاي ا موزشي با ناظر براي تنظيم اوليه توابع عضويت ورودي سيستم فازي استفاده شده است و ا نگاه پارامترهاي تالي كنترلگر فازي بصورت برخط با استفاده از 4 روش يادگيري سارساي فازي4F (FSL) [9] كه يك روش يادگيري تقويتي 6 5 فازي (FRL) با معماري نقاد-تنها6F است تنظيم شده است. هرچند مشكل عدم كاوش بخاطر استفاده از معماري نقاد-تنها مرتفع شده است ليكن هيچ ا موزشي در خصوص عمل خروجي مناسب براي هر وضعيت صورت نگرفته است و در واقع مقادير تالي كنترلگر فازي تنها با روش FSL تنظيم ميگردند. بهمين دليل بهبود بدست ا مده فاحش نيست. در اينجا روشي جديد براي تركيب يادگيري باناظر و يادگيري تقويتي فازي با معماري نقاد-تنها اراي ه مي شود. لازم به ذكر است دو معماري معروف استفاده شده در FRL معماري نقاد-تنها و عملگر نقاد مي باشند. از مزاياي معماري نقاد-تنها پتانسيل بالا در برقراري تعادل بين كاوش و بهره برداري از تجربيات است. لذا اين معماري براي مساي لي كه نياز به كاوش بالا دارند مانند ناوبري ربات مناسب ميباشد. دو الگوريتم 7 (FQL) [4] بر اساس يادگيري سارساي فازي [9] و يادگيري كيو فازي7F معماري نقاد-تنها اراي ه شدهاند. براي روش FQL نه تنها هيچ قضيه يا لمي در جهت همگرايي ا ن وجود ندارد بلكه مثالهاي واگرايي [9] ا ن نيز موجود مي باشد. ليكن در [9] قضاياي مربوط به همگرايي و اثبات نقاط ايستاي روش FSL ا مده است لذا الگوريتم يادگيري تقويتي پيوسته استفاده شده در اين مقاله روش FSL مي باشد. 3 -Acor-Criic 4 -Fuzzy Sarsa Learning 5 -Fuzzy Reinforcemen Learning 6 -Criic-only 7 -Fuzzy Q- Learning -Reinforcemen Learning -Q-learning

-B 4 ايده ا ن است كه با كمك دانش ناظر بجاي تعيين يك عمل براي هر حالت ارزش اوليه براي اعمال ممكن كنترلگر تعيين ميشود. سپس با كمك يادگيري تقويتي بصورت برخط تنظيم نهايي درجهت بهبود كارايي صورت ميگيرد. اين تركيب باعث ايجاد تسريع در فرايند يادگيري بهبود كيفيت ا موزش و كاهش تعداد برخوردهاي ربات به موانع و همگرايي سريعتر در حين ا موزش ميشود. براساس بررسيهاي ما اين كار اولين روش اراي ه شده براي تركيب يادگيري باناظر و يادگيري تقويتي فازي پيوسته با معماري نقاد- تنها ميباشد. ساختار مقاله به شرح زير است. دربخش دوم الگوريتم FSL شرح داده مي شود. بخش سوم نحوه طراحي ساختار كنترلگر فازي را شرح ميدهد. در بخش چهارم ايده مقاله براي تركيب يادگيري تقويتي و يادگيري باناظر را شرح ميدهيم. بخش پنجم به پيادهسازي و شبيه سازي كار پرداخته است. در بخش ا خر بحث و نتيجهگيري ا مده است. ارزش- عمل تقريب زده شده براي عمل a در حالت s كه با نشان داده ميشود بصورت ذيل محاسبه ميشوند[ 9 ]: ~ Q( s, a) R a ( s ) = µ ( s ) o () i= ~ Q ( s, a ) = i R i= ii ii µ ( s ) w ( ) پس از محاسبه عمل نهايي i a s جديد رفته و عمل جديد a و ا عمال ا ن محيط به حالت با توجه به مقادير وزن فعلي w r انتخاب ميشود. ضمنا سيگنال تقويتي از محيط دريافت ميگردد. ا نگاه مقادير پارامترهاي وزن هر قاعده بصورت زير به روز رساني w ميشوند [9]: ~ α Q ( s, a ) µ ( s ) if j = i i = (3) 0 oherwise يادگيري سارساي فازي T(FSL)8 از ا نجا كه FSL از لحاظ تحليل رياضي و عملكرد نسبت به FQL ارجحي ت دارد بعنوان الگوريتم پايه در فرا يند يادگيري در كار ما انتخاب شده است. اين الگوريتم برخلاف FQL كه مستقل از سياست مي باشد يك روش وابسته به سياست است كه تالي قاعده سيستم فازي را بصورت برخط تنظيم مي نمايد. الگوريتم FSL از تركيب سيستمهاي فازي بعنوان يك تقريب زننده تابعي خطي با روش سارسا [0] حاصل شده است. يك سيستم فازي سوگنو مرتبه صفر با را در نظر بگيريد: كه در ا ن n ورودي و يك خروجي و R قاعده به فرم زير Ri : If x is L and i and xn is Lin i o wih value w i i or o wih value w or i o im wih value w s = x بردار n بعدي متغيرهاي حالت ورودي im i hen L = L شامل n مجموعه فازي محدب نرمال با مركزهاي L x n i in يكتا براي i امين قاعده m o قاعده زده شده براي عمل تعداد عملهاي گسسته ممكن براي هر j امين عمل كانديد در قاعده i ام و w مقدار ارزش تقريب j ام در قاعده i ام است. در هر قدم زماني براي هر قاعده يك عمل از ميان m عمل كانديد شده براي تالي قاعده بر مبناي مقدار وزن ا ن عمل انتخاب ميشود و ا نگاه عمل نهايي از تركيب وزن دار اين عملها حاصل ميگردد. هدف ا موزش به روز رساني بر خط مقادير وزن wبا توجه به سيگنال تقويت دريافت شده است بگونهاي است كه بهترين انتخاب عمل بر مبناي ا نها حاصل گردد [9]. شدت ا تش هر قاعده از حاصلضرب درجههاي تطابق مقدم قاعده براي وروديهاي مختلف بدست ميا يد و خروجي سيستم و مقدار a كه α نرخ ا موزش و γ فاكتور نزول و ~ Q خطاي تقاضل موقتي ارزش- عمل است و بصورت ذيل محاسبه ميگردد: Qˆ ( s, a ) = r γ Qˆ ( s, a ) Qˆ ( s, a ) - (4) قدمهاي الگوريتم FSL بصورت خلاصه در زير ا مده است[ 9 ]: s مشاهده حالت و دريافت سيگنال تقويتي. r - -3 انتخاب يك عمل مناسب در هر قاعده با استفاده از روش انتخاب عمل بيشينه نرم. محاسبه عمل نهايي عمل ) a ˆ Q (s, a -4 ˆQ محاسبه -5 و مقدار تقريبي تابع ارزش- با استفاده از () و( ). و بروزرساني w با استفاده از (3) و( 4 ). محاسبه مقدار تقريبي جديد ) ˆQ با استفاده از( 4 ) ( s, a -6-7 اجراي عمل نهايي. و بازگشت به مرحله اول. ۳B- طراحي كنترلگر براي ناوبري ربات براي بررسي ايده مورد بحث از ربات خپرا8F كه يك ربات مينياتوري براي فعاليتهاي ا زمايشگاهي و تحقيقاتي ساخته شده توسط شركت سوييسي [7] K-Team است استفاده ميكنيم. قابليت فراوان اين ربات و اندازه مناسب ا ن جهت فعاليتهاي ا زمايشگاهي منجر به استقبال گسترده محققين در استفاده از اين ربات در ارزيابي روشهاي خود شده است[ 8 ]. پيرامون ربات خپرا هشت حسگر مادون قرمز كه هر يك داراي يك فرستنده و گيرنده هستند وجود دارد. هر دو حسگر در يك وجه ربات نصب شده است (شكل ). محدوده عملكرد مو ثر حسگرهاي اين ربات -Kheera robo Journal of Conrol, Vol. 6, No 3, Fall 0 مجله كنترل جلد 6 شماره 3 پاييز 39

-43B 5 Journal of Conrol, Vol. 6, No 3, Fall 0 بين تا 5 سانتيمتر است و مقدار خروجي ا نها با فاصله ربات تا مانع رابطه عكس دارد. هر چه ربات به مانع نزديكتر گردد مقدار خروجي حسگر بيشتر و هر چه دورتر گردد مقدار كمتري خواهد داشت. شكل : موقعيت سنسورها در ربات مينياتوري خپرا. بر روي هر چرخ ربات يك رمزگذار F9 مجله كنترل جلد 6 شماره 3 پاييز 39 نصب شده است كه با شمارش پالسهاي حاصل از رمزگذارها ميتوان مسافت طي شده توسط هر چرخ را محاسبه نمود. همچنين بسته به كاربرد ميتوان تجهيزات جانبي ديگري همچون دوربين چنگك و غيره بر روي ربات نصب نمود.[7] در اينجا هدف ا ن است كه اگر ربات در مجاورت موانع قرار دارد بدون برخورد به مانع با توجه به موقعيت هدف از موانع عبور كند و زماني كه پيرامون ربات مانعي وجود ندارد ربات بطور حريصانه به سمت هدف چرخيده به سمت ا ن حركت كند. براي عملكرد بهتر ربات هنگام حركت و نيزكاهش پيچيدگي سيستم از معماري ردهبندي F0 كه بروكس در [9] اراي ه نموده است استفاده مينماييم. با استفاده از اين معماري براي ربات دو رفتار در نظر گرفته ميشود. يك رفتار بنام "اجتناب از موانع" براي زمانهايي كه ربات نزديك موانع است و رفتار ديگر "پيگيري هدف" براي زماني كه پيرامون ربات مانعي وجود ندارد. شكل 3 : معماري مبتني بر رفتار. شكل 3 طراحي انجام شده در اين مقاله بر مبناي معماري مذكور را نشان ميدهد. خروجي رفتار "پيگيري هدف" همانطور كه در شكل 4 ا مده است به سادگي با محاسبه زوايه پيشاني ربات با هدف بدست مي ا يد. بدين معني كه ابتدا مقدار اختلاف زاويه بدست ا مده و سپس ربات به اندازه زوايه مذكور چرخيده و پس از همراستا شدن بطور مستقيم به سمت هدف مي رود. همان طور كه در شكل 3 نيز مشخص مي باشد زماني كه ربات نزديك مانع ميشود رفتار "پيگيري هدف" غيرفعال مي- شود و خروجي حاصل از ماژول "اجتناب از موانع" به ربات اعمال مي- شود. وظيفه اين ماژول تعيين زاويه حركت ربات در هر قدم زماني به گونه اي است كه ضمن پرهيز از برخورد به موانع در جهت نزديك شدن به هدف ربات حركت كند. توجه شود از ا نجا كه در اين ماژول خروجي توليد شده با در نظر گرفتن دو مورد اجتناب از موانع و نزديك شدن به هدف توليد مي شود. لذا ديگر مانند ديگر كارهاي مرتبط در اين زمينه[ 0 ] نيازي به يك ماژول براي تركيب خروجي هاي رفتارها نيست. از اين رو هزينه محاسبات و پيچيدگي سيستم كاهش يافته است. پيشنهاد ما براي طراحي ساختار اين كنترلگر يك كنترلگر فازي سوگنو مرتبه صفر مي باشد. ساختار اين كنترلگر بصورتي در نظر گرفته مي شود كه با ساختار استفاده شده در FSL همخواني داشته باشد. شكل 4: محاسبه زاويه چرخش ربات براي رفتار پيگيري هدف. كنترلگرمورد نظر داراي چهار ورودي (سه ورودي اول بعنوان معيار فاصله ربات با مانع در يكي از سه جهت راست جلو و عقب هستند و ورودي چهارم زاويه پيشاني ربات با هدف) و يك خروجي (مقدار زاويه چرخشي پيشاني ربات در هنگام نزديكي به موانع) ميباشد. توابع عضويت ورودي اين كنترلگر بشكل گوسي در نظر گرفته شده اند. در هر بعد ورودي بترتيب 3 و مجموعه فازي تعريف شده است. با توجه به تقسيم بندي انجام شده در هر بعد ورودي كنترلگر داراي 4 قاعده مي باشد. مقدار خروجي هر قاعده يك مقدار ثابت است كه بايد از مجموعه عملهاي كانديد در نظر گرفته شده براي هر }=A) o, o,..., o انتخاب شود. عمل مناسب براي هر قاعده i i im قاعده ({ از اين مجموعه عمل كانديد تعيين ميگردد. لذا هدف از ا موزش تعيين عمل مناسب از ميان مجموعه عمل كانديد براي تالي هر قاعده است. يادگيري سارساي فازي باناظر در اين بخش روش جديدي براي تعيين عمل مناسب از ميان مجموعه عملهاي كانديد ممكن براي تالي هر قاعده در ساختار كنترلگر فازي سوگنو مرتبه صفر اراي ه ميگردد. روش اراي ه شده كه تركيبي از يادگيري باناظر و يادگيري تقويتي است شامل دو مرحله ميباشد: -Encoder -Subsumion

F 6 Journal of Conrol, Vol. 6, No 3, Fall 0-7 در مرحله اول ابتدا با حركت ربات در محيط توسط ناظر داده ا موزشي جمعا وري ميشود. در اينجا بر خلاف روشهاي موجود كه از داده ا موزشي براي تعيين عمل مشخص براي هر حالت استفاده ميشود يك روش جديد جهت استفاده از داده ا موزش براي ارزش گذاري عملهاي ممكن در هر حالت اراي ه ميشود. بدين صورت كه اين داده ا موزشي براي مقداردهي اوليه ارزش هر عمل كانديد w (معرفي شده در بخش دوم) در تالي هر قاعده كنترلگر فازي استفاده ميشود. از اين رو هدفي كه ما بدنبال ا ن هستيم تعيين ارزش براي هر خروجي انتخاب شده در هر حالت توسط ناظر است. بدين مفهوم كه مثلا اگر ناظر عملهاي متفاوتي را در يك وضعيت خاص در دفعات مجزا انتخاب كند متناسب با تعداد انتخاب هر عمل در ا ن وضعيت خاص به ا ن عمل ارزش داده شود. از ا نجا كه خروجي نهايي سيستم فازي از تركيب وزن دار تالي انتخاب شده در هر قاعده بدست مي ا يد. لازم است براي هر خروجي يك تركيب ممكن از عمل- هاي كانديد هر قاعده به گونهاي كه تركيب اين اعمال بتواند منجر به مقداري نزديك به ا ن خروجي شود پيدا نموده و ا نگاه ارزش ا ن عمل- ها افزايش يابد. هر نمونه ام از دادههاي جمعا وري شده شامل جفت داده ورودي- خروجي ) y ( x, مجله كنترل جلد 6 شماره 3 پاييز 39 را در نظر بگيريد كه x ورودي كنترلگر y خروجي پيشنهاد شده توسط ناظر ميباشد. قدمهاي زير براي تعيين و ارزش اوليه عملهاي كانديد در هر قاعده ) ( x دنبال ميشود., y دادهها ) - براي ورودي x ) w براي هر نمونه ام از چهار قاعده غالب (قاعدههايي كه بيشترين ميزان شدت ا تش( μ ) را دارند) را انتخاب مينماييم. اين قواعد با وl سمبلهاي وl 3 وl l 4. µ l < µ l 3 < µ l < µ 4 l y - -3 بر نشان داده ميشوند µ l (بيشترين شدت ا تش) تقسيم مي شود. نتيجه تقسيم با هر يك از عملهاي كانديد ) Ol j طوريكه: ( مقايسه مي- شود. سپس نزديك ترين عمل به نتيجه تقسيم انتخاب شده و بعنوان انديس ا ن عمل در نظر گرفته ميشود. k -4 c را براي نشان دادن دفعات انتخاب j امين عمل شمارنده كانديد درi شمارنده عمل مي يابد. k امين قاعده بكار ميبريم. در اين مرحله مقدار ام در قاعده ( c lk ) l يك واحد افزايش عمل 5- اين قاعده ميكنيم. l در شدت ا تش k ام از مجموعه عملهاي كانديد قاعده ( µ l ) ضرب شده و اين حاصلضرب را از y ( y = y µ a ) l lk (5) y مقدار -6 y را با مقدار l كم اوليه و مقدار شدت ا تش قاعده ( µ l جايگزين ) l ( µ l را با مقدار شدت ا تش قاعده ) ميكنيم. µ l و سپس براي مراحل بالا را بطور كامل براي قبل با جايگزيني مقدار جايگزيني مقدار µ l 4 µ l 3 ( µ l و µ l 3 بجاي µ l 4 بجاي ( µ l 3 تكرار مي كنيم. -8 (مانند (با در نهايت وقتي كه مراحل بالا براي همه نمونه دادههاي جمع ا وري شده انجام شد ارزش عمل j امين از قاعده بصورت زير مقداردهي اوليه ميكنيم. i امين w c = ( c ) j (6) شبه كد روش پيشنهاد شده در شكل 5 ا مده است. شكل 5: شبه كد روش پيشنهاد شده براي يافتن ارزش اوليه عملهاي كانديد. پس از تعيين مقدار اوليه FSL در مرحله دوم از الگوريتم wها براي تنظيم برخط تالي قواعد كنترلگر فازي كه مقدار ارزش عملهاي ا ن( ( w بصورت بالا مقداردهي اوليه شده است استفاده ميكنيم. روش تركيبي مذكور را يادگيري سارساي فازي باناظر (SFSL) مي- ناميم. بلوك دياگرام SFSL در شكل 6 ا مده است. بطور خلاصه روش SFSL شامل مراحل زير مي شود: - - -3 حركت ربات در محيط و جمع ا وري داده هاي ا موزشي. مقداردهي اوليه ارزش عملهاي كانديد با روش اراي ه شده (شكل 5 ). تنظيم نهايي مقدار تالي قواعد با استفاده از.FSL -Suervised Fuzzy Sarsa Learning

7 شبيهساز 54B- شبيه سازي شكل 6: نمودار بلوكي روشSFSL. شبيهسازهاي متعددي براي ربات خپرا موجود است. در اين ميان KiKS كه يك شبيهساز ربات خپرا درمحيط برنامه نويسي MATLAB است براي مسا له ناوبري ربات استفاده ميشود كه اين شبيه- ساز مورد توجه بسياري از محققين قرار گرفته است []. در اين پژوهش نيز از اين شبيهساز استفاده شده است. در ابتداي كار لازم است محيطهاي لازم براي شبيه سازي ا ماده گردد. براي هر محيط ابعاد ا ن موقعيت و شكل موانع موقعيت شروع حركت ربات و موقعيت هدف تعيين مي- گردد. براي اين كار از واسط گرافيكي شبيهساز و دستورات مرتبط با ا ن در شبيهساز استفاده شده است. ابعاد محيط ا موزشي 80 80 ميلي متر مربع است كه موانع مختلفي با شكلهاي متفاوت در ا ن قرار گرفتهاند. شكل 7 محيط ا موزش ربات را با موقعيتهاي مختلف شروع حركت ربات و هدف نشان ميدهد. در اين محيط مستطيلهاي سفيد رنگ موانع و ستاره زرد رنگ هدف ميباشد. در بخش ا موزش شامل شروع از مبدا و حركت ربات هر رويدادF تا رسيدن به هدف است. موقعيت هدف و شروع حركت ربات در هر رويداد متفاوت مي باشد. بخش ا موزش در صورتيكه ربات به كران بالاي تعداد حركتها كه 500 است و يا اينكه 0 بار بطورمتوالي بدون شكست به هدف برسد به پايان ميرسد. شماره رويدادها در پايان بخش ا موزش بعنوان معيار زمان ا موزش3F LDI در نظر گرفته مي شود. كه شكل 7: نمونه اي از محيط ا موزش در شبيه ساز.KiKS با توجه به مطالب ذكر شده در بخش سوم معماري ردهبندي براي حركت ربات در اين مقاله پيشنهاد شد و هدف اصلي ا موزش تنظيم پارامترهاي كنترلگر فازي براي ماژول"اجتناب از موانع " در معماري طراحي شده شكل 3 ميباشد. سه ورودي اول تعريف شده در بخش سوم براي كنترلگر ربات با تركيب خروجي هاي حسگرهاي مادون قرمز هر كدام از وجوه راست جلو و چپ بصورت زير حاصل ميشوند: max( s, s ) face, face, d ( ) = face 04 face { Lef, Fron, Righ} (7) s face, face, s و مقدار خروجي حسگرهاي يك و دو براي وجه مشخص شده در انديس ا ن (چپ جلو و يا راست) ميباشند. لازم به ذكر است خروجي حسگرها كه در شبيه ساز عددي بين 0 تا 03 است بصورت پيش فرض همراه با مقداري نويز جمع شده است. مقدار صفر براي وقتي است كه حسگر هيچ مانعي را در محدوده خود حس نكند و مقدار 03 براي هنگامي است كه حسگر تقريبا به مانع چسبيده است. ورودي چهارم زاويه پيشاني ربات با هدف است كه ا ن را با () θ نشان ميدهيم و مقدار ا ن عددي بين 80 و 80- درجه ميباشد. چهار ورودي مذكور نرماليز شده و سپس به كنترلگر وارد مي گردند. خروجي كنترلگر زاويهي چرخش پيشاني ربات است كه عددي بين 45- درجه تا 45 درجه در نظرگرفته شده است. شكل 7 مرحله اول شامل حركت ربات توسط ناظر در محيط ا موزش 3 مي باشد. 00 جفت داده ورودي - با كمك جوي استيك4F خروجي در اين مرحله جمع ا وري شد. از اين داده ها با استفاده از روش اراي ه شده در بخش چهارم مقدار اوليه ارزش عملهاي كانديد ) w ( در هر قاعده كنترلگر فازي مشخص گرديد. 3 -Joysick Journal of Conrol, Vol. 6, No 3, Fall 0 مجله كنترل جلد 6 شماره 3 پاييز 39 -Eisode -Learning Duraion Index

8 در مرحله دوم ا موزش از الگوريتم پارامترهاي كنترلگر استفاده ميشود. در الگوريتم با موانع كه d ناميده ميشود بصورت زير تعريف گرديد: FSL براي تنظيم برخط FSL معيار فاصله ربات d = min( d face ) face { Lef, Fron, Righ} (8) هرگاه d صفر شود يك شكست 5F به حساب ميا يد. هرگاه فاصله مركز ربات تا هدف به 50 ميلي متر برسد به معني رسيدن ربات به هدف است. سيگنال تقويتي را با توجه به نزديكي به موانع و زاويه سر ربات با هدف بصورت زير تعريف مينماييم: failure 0.5 d 0.075 < r( ) = /50 > 0 & d 0.075 0.0 /50 0 & d 0.075 goal, = θ ( ) θ ( ) (9) است. براي تالي هر قاعده 3 عمل كانديد بصورت زيردر نظر گرفته شده- A= {-45-30 -0-5 -0-0 5 5 0 0 30 45 } براي ا موزش در اين مرحله پانصد جفت موقعيت تصادفي براي نقطه شروع حركت ربات و هدف در محيط ا موزشي شكل 7 توليد شدند. ده اجراي مستقل انجام پذيرفت. هر اجرا از دو بخش ا موزش و تست تشكيل ميگردد. پس از پايان ا موزش براي ارزيابي عملكرد ربات بخش تست انجام مي پذيرد. در اين بخش 0 محيط جديد ايجاد شده كه در 8 محيط اول تنها موقعيت شروع حركت ربات وهدف متفاوت است. شكل 8 اين محيطها را نشان ميدهد. كيفيت عملكرد در محيط تست با معيارهاي تعداد برخورد به موانع و مسافت طي شده تا رسيدن به هدف ارزيابي مي شود. شكل 8 : محيطهاي تست مختلف براي رويدادهاي تا 0 در بخش تست جهت مقايسه روش اراي ه شده با يك روش تركيبي مشابه الگوريتم [6] CSLAFSL انتخاب شد. براي روش CSLAFSL از داده ا موزشي ) بدست ا مده توسط حركت ربات توسط ناظر براي تنظيم درجه عضويت توابع عضويت ورودي قواعد فازي طبق روش بيان شده در مقاله [] استفاده شد و ا نگاه در معماري رده بندي اراي ه شده (شرح داده شده در بخش سوم) بكار گرفته شد. همچنين دو روش [9] FSL و [4] FQL نيز در معماري رده بندي اراي ه شده بكار رفتند و نتايج شبيه سازي ا ورده شده است. توجه شود كه در اين دو روش ارزش اوليه عملهاي تالي ها ( w صفر مي باشند (مقدار دهي اوليه نشدهاند). نتايج شبيه سازي در جدول ا ورده شده است. ستون اول اين 8.7 جدول چهار الگوريتم يادگيري را نشان ميدهد. ستون دوم اين جدول متوسط LDI ها را در بخش ا موزش نشان ميدهد كه مقدار ا ن از متوسطگيري بر روي 0 اجراي مستقل بدست ا مده است. ستون سوم و چهارم نشان دهنده متوسط تعداد برخوردهاي ربات با موانع بترتيب در بخش ا موزش و تست ميباشد. نهايتا در ستون پنجم متوسط مسافت پيموده شده توسط ربات در بخش تست ا ورده شده است. جدول : نتايج شبيه سازي در مسا له ناوبري ربات. Mehods Ave. LDI Failure Rae Failure Rae Ave. Disance SFSL CSLAFSL FSL FQL 40 88 07 4 30.4 49.3 6.6 66.5 9. 9.3 9.8 78.00 78.04 78. 77.08 همانطور كه از نتايج مشهود است عملكرد روش SFSL بطور قابل توجهي از سه روش ديگر بهتر است. اين روش براي معيار Ave. LDI كه نشانگر سرعت ا موزش است 50 درصد بهتر از CSLAFSL 6 درصد سريعتر ازFSL و 68 درصد سريعتر از FQL كنترلگر فازي را تنظيم مي- كند. بعبارتي اين روش سرعت زمان ا موزش را حداقل 60 درصد افزايش داده است. همچنين تعداد شكست ها در بخش ا موزش در روش SFSL از سه روش بطور قابل توجهي (تقريبا 50 درصد) كمتر شده است. تعداد شكست ها در بخش تست نيز در روش SFSL 4 درصد كمتر از CSLAFSL 6 درصد كمتراز FSL و درصدكمتر از FQL ميباشد. از ا نجا كه هر چهار روش در همه تكرارها در مرحله تست به هدف رسيده اند مسافت طي شده تا هدف در ا نها تقريبا يكسان است. جهت نمايش نحوه تغييرات مقادير وزن عملهاي كانديد نمودار تغييرات مقدار ارزش ) w ( عملهاي كانديد در قاعده 3 ام كنترلگر فازي در شكل 9 ا مده است. همانطور كه ديده ميشود ارزش مربوط به اولين عمل كانديد (مربوط به 45-) بيشترين مقدار را دارد كه پس از گذشت زمان كوتاهي از ا موزش مقدار ارزش ا ن از بقيه عملها پيشي گرفته است. همچنين -Failure Journal of Conrol, Vol. 6, No 3, Fall 0 مجله كنترل جلد 6 شماره 3 پاييز 39

-65B 9 ترتيب مقدار ارزش عملهاي ديگر نيز پس از گذشت زمان كوتاهي از ا موزش ديگر تغيير نميكند. ماژول براي تركيب رفتارها ندارد و در هر لحظه تنها خروجي يك رفتار به ربات اعمال مي شود لذا هزينه محاسباتي و طراحي كاهش يافته است. در خصوص تحليل رياضي روش اراي ه شده بايد گفته شود كه از ا نجا كه روش مذكور در واقع از داده باناظر براي مقدار دهي اوليه پارامترهاي روش FSL استفاده كرده است. لذا تمام شرايط بيان شده در قضاياي اراي ه شده براي FSL در مقاله [9] را دارد و تحليلها و قضاياي رياضي بيان شده در ا ن مرجع براي SFSL نيز برقرار است. 0. 0. 0.08 0.06 6Bسپاسگزاري 7Bاين تحقيق با حمايت "صندوق حمايت از پژوهشگران كشور "INSF انجام شده است كه بدينوسيله از ا ن مرکز محترم تشكر و قدرداني ميگردد. 0.04 0.0 0 شكل 9 : نمودار تغييرات مقدار ارزش عملها در تالي قاعده 3 ام كنترلگر بحث و نتيجهگيري در اين مقاله يك روش جديد براي تركيب يادگيري باناظر و يادگيري تقويتي پيوسته پيشنهاد شد. جهت بررسي عملكرد روش مذكور از مسا له ناوبري ربات استفاده شد. در اين روش فرمانهاي كنترلي هدايت ربات براساس معماري ردهبندي بروكس طراحي شد و فرمان نهايي از تركيب دو رفتار "اجتناب از موانع " و "پيگيري هدف" بدست ا مد. براي رفتار "اجتناب از موانع" يك كنترلگر فازي سوگنو مرتبه صفر طراحي شد. هدف يادگيري يافتن مقدار تالي مناسب براي هر قاعده اين كنترلگر بود. روش اراي ه شده از دادههاي ا موزشي توليد شده كه با كمك ناظر و از طريق حركت دادن ربات در محيط بدست ا مده بود براي تقريب مقدار ارزش هر عمل كانديد استفاده نمود. در مرحله دوم ا موزش از الگوريتم FSL به عنوان الگوريتم يادگيري تقويتي پيوسته براي تنظيم نهايي مقدار تالي قواعد كنترلگر فازي بهره برده شد. نتايج شبيه سازي براي روش اري ه شده نشان داد كه زمان ا موزش و تعداد برخورد به موانع كاهش قابل توجهي نسبت به سه روش CSLAFSL FSL وFQL هنگامي كه پارامترهاي ا نها مقدار دهي اوليه نشده اند دارد. لازم به توجه است كه در اينجا بر خلاف روشهاي مرسوم كه از يادگيري باناظر براي تعيين مقدار خروجي كنترلگر براي هر حالت استفاده مي كنند از دادههاي ا موزشي بدست ا مده براي ارزشدهي به عملهاي كانديد در هر حالت استفاده شد. بدين طريق نه تنها از اثر مخرب دادهه يا ناسازگار جلوگيري بعمل ا مد بلكه از دانش موجود در اين دادهها نيز سود برده شد. نكته قابل توجه ديگر استفاده از معماري ردهبندي جهت ناوبري ربات بود. ساختار اراي ه شده ديگر نيازي به يك 8Bمراجع [] C. Ye, N. H. C. Yung, and D. Wang, A fuzzy conroller wih suervised learning assised reinforcemen learning algorihm for obsacle avoidance, IEEE Transacion Sysems, Man, Cyberneics, vol. 33, no.,.7-7, Feb. 003. [] T. Belker, M. Beez, and A. Cremers, Learning acion models for he imroved execuion of navigaion lans, Roboics and Auonomous Sysems, vol. 38,. 37-48, Mar. 00. [3] T. Fong, I. Nourbakhsh, and K. Dauenhahn, A survey of socially ineracive robos, Roboics and Auonomous Sysems, vol. 4,. 43-66, Mar. 003. [4] L. Jouffe, Fuzzy inference sysem learning by reinforcemen mehods, IEEE Trans. Sys., Man, Cybern. C, vol. 8, no.3,. 338-355, Aug. 998. [5] H. R. Beom, and H. S. Cho, A sensor-based navigaion for a mobile robo using fuzzy logic and reinforcemen learning, IEEE Trans. Sys., Man, Cybern., vol. 5, no. 3,. 464 477, Mar. 995. [6] K. Macek, I. erovic, and N. eric, A reinforcemen learning aroach o obsacle avoidance of mobile robos, roc. IEEE In. Conf. Advanced Moion Conrol, vol.,. 46-466, 00. [7] J. S. R. Jang, C. T. Sun, and E. Mizuani, "Neuro- Fuzzy and sof comuing," renice-hall, 997. [۸] م.كلامي هريس ن.پريز م. ب.نقيبي سيستاني " بررسي يادگيري تقويتي و خواص سياست بهينه در مساي ل جدولي با استفاده از روشهاي كنترل ديجيتال " مجله كنترل جلد 3 شماره بهار 388 [9] V. Derhami, V. Majd, and M. Nili Ahamadabaadi Fuzzy Sarsa learning and he roof of is -0.0 0 500 000 500 000 500 3000 3500 4000 Time se Journal of Conrol, Vol. 6, No 3, Fall 0 مجله كنترل جلد 6 شماره 3 پاييز 39

0 [0] R. S. Suon, and A. G. Baro, Reinforcemen learning: An inroducion, Cambridge, MIT ress, 998. [۱٦] ف.فتحي نژاد و.درهمي تركيب يادگيري با ناظر با يادگيري تقويتي براي ناوبري ربات هفدهمين كنفرانس ملي سالانه انجمن كامپيوتر ايران صفحه: 9-5 اسفند 390 [7] H. Maaref, and C. Barre Sensor-based navigaion of a mobile robo in an indoor environmen Roboics and Auomaion sysems, vol. 38,. -8, Jan. 00. [8] E. O. Ari, I. Erkmen, and A. M. Erkmen, A FACL conroller archiecure for a grasing snake robo, roc. IEEE In. Conf. Inelligen Robos and Sysems,. 748-753, 005. [9] R. A. Brooks, A robus layered conrol sysem for a mobile robo, Journal of Roboics and Auomaion, vol.,. 4-3, Mar.986. [0] K.Anam, rihasono, H. Wicaksono, R.Effendi, S. Kuswadi5, Hybridizaion of Fuzzy Q-learning and Behavior-Based Conrol for Auonomous Mobile Robo Navigaion in Cluered Environmen Inernaional Join ICROS- Conf SICE,. 03-08, Aug. 009. [] T. Nilsson, KIKS: KIKS Is a Kheera Simulaor h:// www.kiks.fs.com. saionary oins Asian Journal of Conrol, vol. 0, No. 5,. 535-549, Seember 008. [] J. Henderson, O.Lemon, K. Georgila, Hybrid Reinforcemen/Suervised Learning for Dialogue olicies from communicaor daa, In IJCAI worksho on Knowledge and Reasoning in racical Dialogue Sysems, 005. [] R. Iglesias, C. V. Regueiro, J. Correa, S. Barro, suervised reinforcemen learning: alicaion o a wall following behaviour in a mobile robo, Lecure Noes in Comuer Science, vol. 46,. 300-309, 998. [3] L.Lin, H.Xie, D.Zhang, L.Shen, Suervised Neural Q_learning based Moion Conrol for Bionic Underwaer Robos, Journal of Bionic Engineering, vol.7,. 77-84, Se.00. [4] N.Navarro-Guerrero, C.Weber,.Schroeer, S.Wermer, Real-world reinforcemen learning for auonomous humanoid robo docking, Roboics and Auonomous Sysems, vol. 60,.400-407.Nov.0. [5] Su.Shun-Feng, H.Sheng-Hsiung, Embedding Fuzzy Mechanisms and Knowledge in Box-Tye Reinforcemen Learning Conrollers, IEEE Transacion Sysem, Man, Cyberneic. vol. 3,. 645-653, Oc. 00. Journal of Conrol, Vol. 6, No 3, Fall 0 مجله كنترل جلد 6 شماره 3 پاييز 39