مجرد سازي دانش و انتقال آن با استفاده از يادگيري تقويتي 1 نرجس زارع 2 مجيد نيلي احمدآبادي 1 احمدرضا ولي 2 مريم سادات ميريان mmirian@ut.ac.ir ar.vali@gmail.com mnili@ut.ac.ir zare.narjes@gmail.com 1- دانشگاه صنعتي مالك اشتر مجتمع برق و الكترونيك 2- دانشگاه تهران دانشكده برق و كامپيوتر آزمايشگاه رباتيك چكيده هنوز فاصله قابل توجهي بين قابليت يادگيري در سيستمهاي هوشمند و سيستمهاي بيولوژيكي ديده ميشود. يكي از دلايل اين مساله استفاده نكردن از دانش بدست آمده در طول يادگيري در يك سيستم هوشمند ميباشد. به منظور نشان دادن كار آمدي اين ديدگاه در اين مقاله روشي براي انتقال يادگيري اراي ه شده است. در اين روش دانش ياد گرفته شده در كار مرجع بصورت مفاهيم مجرد در آمده و به كار هدف منتقل ميشود. عامل با استفاده از اين دانش منتقل شده ميتواند به يادگيري سريعتري نتايج شبيهسازي در كار هدف دست يابد. نشان ميدهند كه روش اراي ه شده باعث افزايش پاداش بدست آمده درطول يادگيري بخصوص اوايل يادگيري و در نتيجه افزايش سرعت يادگيري ميشود. كليد واژه- انتقال يادگيري مجرد كردن دانش مفهوم يادگيري تقويتي 1- مقدمه موجودات هوشمند با داشتن هوش طبيعي در تعامل با محيط ياد ميگيرند كه در برابر هر شرايطي از محيط چگونه رفتار كنند. در شاخههاي مختلف هوش مصنوعي نيز سعي شده است كه با الهام گرفتن از نحوهي تعامل سيستمهاي هوشمند طبيعي با محيط روشهايي براي توسعه سيستم- هاي هوشمند مصنوعي اراي ه شود. يادگري تقويتي يكي از اما هنوز فاصله قابل توجهي بين قابليت يادگيري در سيستمهاي هوشمند و سيستمهاي بيولوژيكي ديده ميشود. يكي از دلايل اين مساله استفاده نكردن از دانش بدست آمده در طول يادگيري در يك سيستم هوشمند مي- باشد. به اين منظور اخيرا محققان توجه خود را به انتقال دانش در سيستمهاي هوشمند معطوف كردهاند. هدف از انتقال دانش يادگيري سريع كار( هدف) بعد از يادگيري كار (مرجع) متفاوت اما مشابه (وابسته) به آن ميباشد[ 1 ]. انتقال دانش به عامل اجازه ميدهد كه ابتدا يك كار مرجع ساده اوليه را ياد بگيرد و سپس با توجه به آن كار پيچيدهتري را ياد بگيرد. در صورتي انتقال يادگيري موفق خواهد بود كه بعد از استفاده از دانش يادگرفته شده از كار مرجع يادگيري در كار هدف سريعتر و با عملكرد بهتري صورت گيرد. اكثر روشهايي كه تا كنون در راستاي انتقال دانش اراي ه شدهاند از نوعي نگاشت بين كارهاي مرجع و هدف استفاده كردهاند[ 2 ]. يافتن چنيني نگاشتي بين كارها ملزم داشتن اطلاعات زيادي در مورد كارها و همچنين وجود و شناسايي تشابهات بين كارها ميباشد كه اين امر باعث ايجاد محدوديت در انتقال دانش ميشود و كار را مشكل ميسازد. براي حل اين مشكل ميتوان از نگاشت در سطح بالايي از تجريد بين دو مساله استفاده كرد. در حالت كلي ميتوان گفت كه مقولههاي انتقال يادگيري و انتزاعي كردن حالت خيلي به هم وابسته و نزديك بهم هستند[ 3 ]. در انتقال يادگيري عامل ميكوشد كه از دانش كار مرجع در كار هدف استفاده نمايد. رسيدن به اين هدف نيازمند اين است كه يك صورت انتزاعي از فضاي حالت داشته باشيم تا بتوان دانش كار مرجع را در كارهاي ديگر كه حوزههاي كاري متفاوت دارند استفاده كرد. بنابراين مساله تصميمگيري در مورد انتخاب دانش براي انتقال در حوزههاي متفاوت
ميتواند به مساله انتزاعي كردن حالت براي يك مجموعه از حوزههاي مرجع تبديل شود. در اين مقاله سعي بر اين است تا با استفاده از مفاهيم سلسله مراتبي عامل دانش خود را براي استفاده مجدد در كار ديگر ) معمولا پيچيدهتر ( مجرد كند. رويكرد ما براي تعريف مفهوم و مدل كردن آن در ذهن عامل يك رويكرد كاركردي است[ 4 ]. يعني مفاهيم در فضاي Q-value ها شكل ميگيرند. نتايج بدست آمده نشان مي- دهند كه روش پيشنهادي براي انتقال دانش نه تنها باعث سرعت در يادگيري ميشود بلكه حتي با تغيير سنسورهاي ربات ) فضاي حسي) عامل ميتواند از دانش قبلي به علت قابليت تعميم آن استفاده كند و بوسيله آن سرعت يادگيري خود را افزايش دهد. ترتيب مطالب اين مقاله بدين صورت ميباشد: در قسمت دوم مروري خلاصه بر يادگيري تقويتي داريم. قسمت سوم انتقال دانش و راهكارهاي موجود و هدف از آن را بررسي ميكند. بعد از آن در قسمت چهارم تعريفي از مجرد كردن دانش خواهيم داشت. سپس درقسمت پنجم به نحوه ايجاد مفاهيم و يادگيري آنها ميپردازيم. در قسمت ششم به چگونگي انتقال يادگيري در اين مقاله آخرين بخش نتايج حاصل از شبيهسازي -2 يادگيري تقويتي ميپردازيم و در آورده شده است. در چارچوب يادگيري تقويتي عامل يادگيرنده در طي عمر خود,2,3 =,0,1 t در تقابل با محيط ميباشد. در هر مرحله زماني t عامل حالت جاري محيط S t را مشاهده مي- كند و بر اساس آن عمل a را انجام ميدهد كه باعث مي- شود محيط به حالت بعدي 1+t s منتقل شود و در نتيجه آن عامل پاداش r را از محيط دريافت كند[ 5 ]. در يك سيستم ماركف حالت بعدي محيط و پاداش دريافتي تنها به عمل و حالت قبلي عامل در محيط بستگي دارد. هدف عامل در يادگيري ماكزيمم كردن پاداش بدست آمده در طول زمان ميباشد. عامل با يادگرفتن نگاشت حالات به اعمال كه سياست ناميده ميشود اين كار را انجام ميدهد. بعبارتي هدف عامل انتخاب عمل بطوريكه مقدار پاداش مورد انتظار را افزايش دهد ضريب γ كه ميباشد فراموشي است. يك راه حل مرسوم تخمين زدن تابع حالت و عمل بهينه يا همان تابع Q كه حالات و اعمال را به ماكزيمم پاداش مورد انتظار كه با شروع از حالت s و عمل a نگاشت ميدهد ميباشد. 3- انتقال يادگيري انتقال يادگيري به معني بكار بردن دانش يادگرفته شده در يك كار ) كار مرجع) به منظور بهبود يادگيري در كار ديگر (كار هدف) ميباشد. بشر بطور قابل ملاحظهاي از دانش- هاي يادگرفته شده در كارهاي گذشتهاش براي يادگيري بهتر و سريعتر در كارهاي خود بهره ميبرد. بيشتر روشهايي كه تا كنون در راستاي انتقال دانش اراي ه شدهاند از نوعي نگاشت بين كارهاي مرجع و هدف استفاده كردهاند. يافتن چنيني نگاشتي بين كارها ملزم داشتن اطلاعات زيادي در مورد كارها و همچنين وجود و شناسايي تشابهات بين كارها ميباشد كه اين امر باعث ايجاد محدوديت در انتقال دانش ميشود و كار را مشكل ميسازد. براي حل اين مشكل ميتوان از نگاشت در سطح بالايي از تجريد بين دو مساله استفاده كرد. در اين مقاله براي نيل به اين هدف از مجرد كردن دانش از طريق يادگيري مفاهيم استفاده شده است. 4- مجردكردن دانش محيط واقعي كه ما انسانها در آن زندگي ميكنيم سرشار از اطلاعات پيوسته و گسسته كه با نا يقيني و نويز همراه است ميباشد. يادگيري در چنين محيط پيجيدهاي بدون استفاده از مكانيزم هاي خاصي غير ممكن مينمايد. يكي از مهمترين حربه هايي كه انسان براي برخورد با چنين محيط هايي بكار ميبرد مجرد كردن ميباشد. مجردسازي مكانيزمياست كه طي آن فضاي ادراكي پيچيده عامل هوشمند به يك فضاي سادهتر كه توسط عامل قابل مديريت كردن ميباشد نگاشته ميشود و از آنجا كه سعي ميشود در اين فرآيند تا حد امكان محتواي اطلاعاتي فضاي ادراكي اصلي حفظ شود فضاي ادراكي حاصل به نوعي باز نمايي سطح بالاتر و يا مجردتر از فضاي اصلي خواهد بود[ 6 ].
- 5 يادگيري مفاهيم از يكي روشهاي موجود براي مجردسازي تقسيم فضاي اداركي عامل به يك سري كلاس هاي شباهت است بطوري- كه هر كلاس حالتهاي مشابه در فضاي ادراكي را در خود جاي دهد. به هر يك از اين كلاسهاي شباهت مفهوم گفته انسانها ميشود. در تعامل با محيط يادگرفتهاند كه براي درك محيط پيرامونشان تنها به ويژگي هاي حسي اتكا نداشته باشند و با عمل هايشان محيط را بشناسند. آنها چون قابليت استخراج مفاهيم مجرد از محيط را دارند مي- توانند يادگيري در يك محيط را به محيطهاي جديد تعميم دهند. مفاهيميكه با اتكا به ارزش اعمال بدست ميآيند را مفاهيم كاركردي ميگويند. در اين مقاله نشان داده شده است كه مفاهيم كاركردي ابزار مناسبي براي مجرد كردن دانش ربات بشمار ميرود كه ميتواند قابليت مناسبي براي به اشتراك گذاشتن دانش بين عاملهايي كه فضاي حسي متفاوتي دارند يا بين دو مساله كه فضاي حسي متفاوتي دارند محسوب شود. (1) شكل شماتيكي از نمونه ها در فضاي حسي و مفاهيم استخراجي از آنها در فضاي كاركردي نشان ميدهد. شكل 1: شماتيكي از نمونه ها در فضاي حسي و مفاهيم استخراجي از آنها در فضاي كاركردي[ 4 ] -6 مجرد كردن دانش و انتقال آن با استفاده از يادگيري تقويتي مجرد كردن و قابليت تعميم دو ويژگي مهم براي سيستم هاي هوشمند بهبود ميبخشد. ميباشد كه سرعت و كيفيت يادگيري را در اين مقاله براي مجرد كردن دانش دانش بدست آمده از يادگيري عامل در كار مرجع را بصورت مفاهيم مجرد در ميآوريم. براي بدست آوردن مفاهيم بردارهاي Q بدست آمده عامل پس از يادگيري در مساله مرجع توسط روش خوشه بندي k-means بصورت دسته هايي مجزا در ميآيند مراكز اين دستهها همان مفاهيم انتقالي هستند كه عامل در مساله هدف از آنها براي يادگيري سريعتر استفاده ميكند. پس از محاسبه مفاهيم آنها را به مساله هدف منتقل ميكنيم. الگوريتم يادگيري در هر دو مساله مرجع و هدف يادگيري Q ميباشد. عامل در كار هدف ابتدا يادگيري عادي خود را شروع ميكند. پس از اينكه به دانش لازم براي تشخيص صحيح سپس مفهوم دست يافت از مفاهيم انتقالي براي تصميمگيري استفاده ميكند. معياري كه براي اين كار در نظر گرفته شده است تعداد تكرار قرار گرفتن عامل در آن حالت ميباشد. اگر N c عامل بار يك حالت را مشاهده كرده باشد مجاز به استفاده از مفاهيم براي انتخاب عمل مناسب ميباشد كه اين مقدار با سعي و خطا بدست ميآيد. اين كار را چون عامل در ابتداي يادگيري ديد كافي به مساله ندارد و نمي- تواند تشخيص درستي از مفهوميكه درآن قرار دارد داشته باشد انجام ميدهيم. عامل پس از اينكه توانايي استفاده از مفاهيم را بدست آورد با توجه به بردار ارزش Q كه در آن قرار دارد شبيه ترين مفهوم را كه نزديكترين مفهوم به بردار Q ميباشد را انتخاب ميكند. فاصله اقليدسي در اينجا بعنوان شاخص شباهت در نظر گرفته شده است: r r r r T d = ( Q Q ) ( Q Q ) i s ci s ci c Qc ( 1) Q = arg min( d) ( 2) اگر فاصله بردار Q تا نزديكترين مفهوم از محدوده تعيين شده كمتر باشد. عامل با توجه به آن مفهوم تصميمگيري ميكند در غير اينصورت با استفاده از بردار Q مفاهيم در فضاي كاركردي نمونهها در فضاي حسي خود و الگوريتم يادگيري Q عمل مناسب را انتخاب ميكند. با اين كار عامل تنها در حالاتي كه دانش مرجع برايش مفيد است از دانش انتقالي استفاده ميكند. انتقال و با انجام عمل محيط به حالت بعدي و پاداشي كه محيط به عامل ميدهد
عامل با استفاده از يادگيري Q مقدار بردار Q خود را با استفاده از رابطه (3) بروز ميكند. Qsa (, ) (1 α) Qsa (, ) + α( r+ γ max Q( s, a )) a ( 3) 7- نتايج شبيهسازي مساله اي كه براي شبيهسازي در نظر گرفته شده مساله شكار و شكارچي ميباشد. مساله شكار و شكارچي يكي از مساي ل كلاسيك براي مطالعه و مقايسه روشهاي متفاوت يادگيري در هوش مصنوعي ميباشد[ 7 ]. شكل 2: نمايي از دو محيط شبيهسازي شكل سمت چپ محيط شبيه - سازي براي مساله مرجع و سمت راست براي مساله هدف شكار و شكارچي در يك محيط دو بعدي مربعي شكل كه هر بعد آن به 12 قسمت تقسيم شده است واقع شدهاند. دورتا دور محيط ديوار قرار گرفته است و تعدادي مانع در آن قرار داده شده است. عامل شكارچي در هر قدم يكي از پنج عمل بالا پاي ين راست چپ و يا تير زدن را با احتمالي كه با تابع بولتزمن مشخص ميشود انتخاب ميكند. شكارچي بايستي بدون برخورد به مانع و در كمترين زمان ممكن شكار را بگيرد يا آن را با تير بزند. براي گرفتن شكار كافي است كه شكارچي در يكي از خانه هاي مجاور شكار قرار بگيرد. الگوريتم يادگيري شكارچي يادگيري Q ميباشد و شكار هم با استفاده از روش ميدان پتانسيل از شكارچي فرار ميكند. در هر گام يادگيري پس از اينكه عامل يادگيرنده ) شكارچي ( عمل حاصل از تصميم گيري خود را انجام داد بر اساس اينكه به چه ناحيه اي از محيط منتقل شده است از محيط پاداش دريافت ميكند كه اين تابع پاداش بدين صورت ميباشد: بازاي هر حركت بدون نتيجه پاداش 1- به شكارچي داده ميشود. اينكار باعث ميشود كه شكارچي با كمترين حركت شكار را متوقف كند. در صورتيكه شكارچي به مانع برخورد كند پاداش - 4 به او داده ميشود. هزينهاي كه شكارچي بازاي تيرهاي بدون نتيجه ميپردازد 6- ميباشد. اين هزينه باعث ميشود كه شكارچي فقط در صورت نياز ) در تير رس بودن شكار ( تيراندازي كند. 20 + امتياز پاداش را شكارچي وقتي كه شكار را بدون تير زدن متوقف ميكند ) در يكي از خانه هاي مجاور شكار قرار ميگيرد ( دريافت ميكند. اگر شكارچي با تير شكار را متوقف كند پاداش 30+ ميگيرد. هر دوره يادگيري با متوقف شدن شكار پايان مييابد. پس از آن دوباره شكار و شكارچي بطور تصادفي در محيط قرار داده ميشوند و دورهاي جديدي آغاز ميشود. اين كار تا تمام شدن تعداد تكرارهاي در نظرگرفته شده براي يادگيري ادامه مييابد. پارامترهاي يادگيري بصورت زير تنظيم مي- شوند: نرخ يادگيري() مقدار 0.8 تا 0.2 كاهش مييابد. بطور نزولي با افزايش تعداد تكرارها از ضريب فراموشي ) γ ( برابر با 0.9 در نظر گرفته شد. همانطور كه قبلا گفته شد دانش بدست آمده عامل پس از يادگيري در كار مرجع ابتدا بصورت مجرد در آمده و سپس به كار هدف منتقل ميشود. براي مجرد كردن دانش و در آوردن مفاهيم بردارهاي ارزش Q نرماليزه شده را با استفاده از روش خوشه بندي k-means دستهبندي ميكنيم. مراكز خوشهها كه مفاهيم انتقالي هستند در اين مساله به صورت زير ميباشند: concepts Value of 1th action Value of 2th action(go right) Value of 3th action(go left) Value of 4 th action(go down) Value of fifth action(shot) C 1 0.064 0.069 0.063 0.989 0.0156 C 2 0.079 0.076 0.083 0.076 0.9945 C 3 0.067 0.069 0.978 0.062 0.0145 C 4 0.987 0.068 0.077 0.061 0.0173 C 5 0.071 0.965 0.066 0.064 0.0168 C 6 0.750 0.748 0.755 0.742 0.0802 همانطور كه ملاحظه ميشود 6 مفهوم از محيط بدست آمده است. با توجه به مراكز بدست آمده در هر بعد تنها يكي از
اعمال كه زير آنها خط كشيده شده است از احتمال بالايي براي انتخاب برخوردارند. با توجه به بردارهاي مفاهيم بدست آمده ميبينيم كه هر مفهوم يك عمل خاص را توصيه ميكند مثلا مفهوم اول عمل چهارم كه در اينجا پايين آمدن است را توصيه ميكند مفهوم دوم كه نشانگر در تيررس بودن شكار ميباشد عمل تير زدن را توصيه ميكند. عامل در مساله هدف پس از طي يك دوره يادگيري در حالتهايي كه بيش از 5 بار در آنها قرار گرفته از دانش منتقل شده براي تصميمگيري كمك ميگيرد. است. نتايج حاصل از شبيهسازي آمده (3) در شكل لازم به توضيح است كه نمودارها حاصل متوسط- گيري از 5 بار اجرا هستند تا اطلاعات بدست آمده قابل اعتمادتر شوند و اثر حالتهاي خاص كمتر شوند. 50 0-50 -100-150 -200 (1) (2) (1): learning without Transfer knowledge (2): learning with Transfer knowledge -250 1000 2000 3000 4000 5000 6000 7000 8000 9000 Trails شكل 3- مقايسه نمودارهاي پاداش متوسط: (1) يادگيري بدون انتقال دانش و (2) يادگيري با انتقال دانش براي نشان دادن قابليت تعميم مفاهيم انتقالي و اينكه دانش انتقالي به فضاي حسي عامل بستگي ندارد سنسورهاي ربات را در كار هدف عوض كرده و از همان دانشي كه ربات با استفاده از سنسورهاي قبلي خود بدست آورده به يادگيري در كار هدف ميپردازيم. سنسورهاي اوليه ربات موقعيت x و y ربات شكارچي و x و y شكار را ميدهند. در صورتيكه سنسورهاي ثانويه ربات همانطوركه در شكل (4) مشاهده ميشود تنها موقعيت خانههاي اطراف ربات خانه مجاور را به ربات ميدهد. شعاع دو تا شكل 4: ربات با سنسورهاي جديد در محيط يادگيري اما با وجود اينكه سنسورهاي دو كار تغيير كرده باز هم مفاهيم بدست آمده از كار مرجع يادگيري ربات را بهبود بخشيده است. شكل( 5 ) نمودار پاداش متوسط را نشان مي- دهد. 50 0-50 -100-150 -200 (2) (1) (1): learning without transfer learning (2): learning with transfer learning -250 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Trails شكل 3 - مقايسه نمودارهاي پاداش متوسط: (1) يادگيري بدون انتقال دانش و ( 2 )يادگيري با انتقال دانش در دو مساله با فضاي حسي متفاوت در آخرين قسمت از شبيهسازيهاي انجام شده انتقال يادگيري بين يك محيط ماركف (MDP) و يك محيط مشاهده پذير جزيي ماركف (POMDP) بررسي ميشود. در يك محيط POMDP بعضي از حالته يا متفاوت محيط از نظر عامل يكي ميشوند و اين امر باعث ميشود كه عامل به يادگيري مناسبي دست پيدا نكند. در اين جا ما با انتقال دانش كسبشده از كار مرجع كه MDP بوده باعث بهبود يادگيري عامل در محيطي كه براي عامل ميشويم. شكل (6) حاكي از اين امر ميباشد. POMDP است
[3] Thomas J.Wash and Michael L. Litman. Transfering state Abstraction between MDPs. In ICML-07 conference. [4] Hamide Vosoughpour, Majid Nili Ahmadabadi, Maryam S. Mirian, Babak Nadjar Araabi. Hierarchical Functional Concept Formation using Reinforcement Learning. In ICTA2007 conference. [5] R. S. Sutton and A. G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998. [6]. Hadi Firouzi, Majid Nili Ahmadabadi, Babak N. Araabi. A Probabilistic Reinforcement-Based Approach to Conceptualization. In International Journal of Intelligent Technology (IJIT), Volume 3, pp 48-55, 2008 [7] M. Tan, Multi-agent reinforcement learning: Independent vs. cooperative agents, in Proc. Tenth Int. Conf. Machine Learning, Amherst, MA, June 1993. 50 0-50 -100-150 -200 (2) (1) -250 (1): learning in pomdp task without knowledge transfer (2): learning in pomdp task with knowledge transfer -300 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Trails شكل 6- مقايسه نمودارهاي پاداش متوسط: (1) يادگيري بدون انتقال دانش و (2) يادگيري با انتقال دانش بين دو مساله MDP و POMDP 8- نتيجهگيري دراين مقاله به بررسي انتقال دانش بين دو كار در حالت- هاي مختلف پرداخته شد و نشان داده شد كه اگر دانش بدست آمده از كار اول را بصورت مجرد در آوريم براحتي ميتوانيم آن را در يك كار مشابه ديگر استفاده كنيم حتي اگر فضاي حسي دو كار با يكديگر متفاوت باشد. در اين روش ديگر نيازي به نگاشت عامل در دو كار نيست و مشكل يك به يك بين حالت و عمل پيدا كردن شباهت بين كارها و نگاشت بين آنها كه در ديگر روشهاي انتقال دانش وجود دارد در اينجا وجود ندارد. همچنين روش پيشنهادي باعث بهبود پاداش بدست آمده و افزايش سرعت يادگيري ميشود. مراجع [1] Matthew E. Taylor and Peter Stone. Behavior Transfer for value function Based Reinforcement Learning. In conference on Autonomous agents and Multi agent System (AAMAS-05) pp. 53-59 [2] Yaxin Liu and Peter Stone. Value- Function- Based Transfer for Reinforcement Learning Using Structure Mapping. in Proceedings of the Twenty-First National Conference on Artificial Intelligence (AAAI- 06),