شناسايي حالت چهره با استفاده از پايگاه دادة مكاني-زماني ITMI و QIM هادي صدوقي يزدي گروه الكترونيك دانشكدة فني و مهندسي دانشگاه تربيت معلم سبزوار saoghi@sttu.ac.ir محمود امين طوسي گروه رياضي دانشگاه تربيت معلم سبزوار دانشكدة مهندسي كامپيوتر دانشگاه علم و صنعت ايران محمود فتحي دانشكدة مهندسي كامپيوتر دانشگاه علم و صنعت ايران mahfathy@iust.ac.ir چكيده: در اين مقاله دو روش جديد پشتهسازي مكاني- زماني روي تصاوير ويديويي اراي ه شده و از ا ن براي شناسايي حالت چهره استفاده ميشود. اين روشها نوعي پايگاه دادة مكاني-زماني محسوب ميشوند كه اطلاعات زماني و مكاني نقاط متحرك صحنه روي يك كليشه ذخيره ميشود. روش اول پشتهسازي شامل زمان رخداد هر نقطة متحرك است. در اين روش زمانهاي رخداد هر حركت ذخيره شده و نتيجة نهايي به تعداد تصاوير دنباله نرماليزه ميشود. از اين پايگاه دادة جديد كه شامل اطلاعات مكان و زمان رخداد هر حركت است ويژگيهاي هندسي استخراج ميشود. در روش دوم تكرار رخدادهاي حركت در هر ناحيه از تصوير بدست ميا يد. در اين روش تصاوير دريافتي به 30 ناحيه چندي سازي (كوانتيزه) ميشوند و يك بردار ويژگي 30 تايي نتيجة مجموعة فريمهاي دريافتي است. با ويژگيهاي استخراج شده از اين دو پايگاه داده مبتني بر پشتهسازي فريمها و يك شبكة عصبي روي مجموعة 150 تايي از حالات چهرة پايگاه دادة كوهن-كاناد نرخ شناسايي %80 بدست ميا يد. سهولت استخراج ويژگيهاي پيشنهادي نسبت به ويژگيهاي مورد استفاده در روشهاي موجود ا نرا براي کاربردهاي بلادرنگ مناسب مي سازد. واژه هاي كليدي: پشتهسازي مكاني-زماني شناساي ي احساس حالت چهره تصاوير ويديويي 1 -مقدمه در سيستمهاي پايگاه دادة ويديويي يكي از مهمترين روشها براي توصيف تصاوير ويديويي استفاده از روابط مكان و زمان بين اشياء موجود در صحنه است. عموما خاصيت مكاني يك شيء در تصوير شامل اطلاعاتي در مورد مكان يك شيء در يك فريم ويديويي است. در مراجع [1]-[3] يك استراتژي متداول توصيف مكاني شيء استفاده از موقعيت ا ن به شكل مختصات دو بعدي است. افزودن فاصلة زمانيي كه شيء در يك محدودة مكاني واقع ميشود و جهت نسبي اشياء اطلاعات بيشتري از مكان و زمان حضور شيء در اختيار قرار ميدهد[ 4 ]. توصيف مكاني-زماني در بازيابي حوادث و فشردهسازي اطلاعات ويديويي كاربرد زيادي دارد[ 6]-[5 ]. در كاربرد بازيابي حادثه با استخراج ويژگيهايي از هر فريم و
تلفيق ا ن با يك مدل زماني روي مجموعة فريمها يك مدل مكاني-زماني از حادثه بدست ميا يد[ 8]-[7 ]. يكي از روشهاي نمايش دانش مكاني و زماني روش پشتهسازي فريمها است. 1 تكنيك پشتهسازي فريمها در[ 6 ] اراي ه شده است. در اين تكنيك چند فريم از يك عمل بهنحوي با هم تركيب ميشوند كه همواره نتيجة تركيب نوعي هموارسازي زماني ميباشد. ممكن است سطوح خاكستري يا ويژگيهايي از حوزة تبديل چند فريم تركيب شوند. از طرفي در مرجع فوقالذكر اين قضيه مطرح ميشود كه ضرب داخلي دو بردار هموار شده بطور متوسط از يك مقدار ا ستانة معي ن بزرگتر است. بنابراين با هموارسازي مكاني با استفاده از فيلترهايي در حوزة مكان وجمع چند فريم متوالي يك نوع هموارسازي مكاني-زماني بدست ميا يد كه مجموعهاي از ا نها حالات مختلف يك شيء را شامل ميشود. روش پشتهسازي فريمها در لبخواني براي تشخيص گفتار نيز استفاده ميشود[ 9 ]. در [10] تاريخچة حركت در تصوير يا كليشهاي با عنوان 2 MHI ذخيره ميشود كه در ا ن مكان و مد ت زمان رخداد حركت درج ميشود. شده ثبت نميشود. چگونگي انجام عمل ذخيره ميشود. در اين تصوير جهت حركات انجام در تصوير ديگري اطلاعات موقعيت و ميشود. MHI طبق رابطة زير ايجاد ميشود: ( τ ) + m ( τ ) y 0 elsewhere (1) كه در رابطة فوق موقعيت رخداد در تصوير است. مولفههاي بردار حركت در لحظة راستاهاي 3 اين تصوير MFH ناميده τ, if mx MHI ( k, = 0, τ زمان وقوع عمل است و ( k, m x و ) τ ( m y ( τ ) k, ( در τ x و y و موقعيت است. بنابراين در تصوير MHI فقط زمان رخداد موقعيتهاي وقوع هر عمل ذخيره ميشود. با توجه به اينكه عمل در طول زمان انجام شود مقدار تصوير نتيجه ا ن نقاط روشنتر خواهد بود. τ زياد شده و در تصوير جهت حركت MFH شامل موقعيت و چگونگي انجام عمل است يا مكانهاي رخداد عمل در تصوير و جهت حركت ا ن عمل را نشان ميدهد كه طبق رابطة زير تعريف ميشود: m ( τ ) if E[ m ( τ )] < T ( k, = M ( m ( τ )) elsewhere [ m ( τ )] = m ( τ ) me( m ( τ ) m ( τ α )) M ( m ( τ )) = me( m ( τ ),..., m ( τ α )) MFH (2) كه و E,..., m ( τ ) جزء افقي يا عمودي بردار حركت يعني m x ( τ ) m y ( τ ) است. α كه يا تعداد فريمهاي گذشته است كه 3 تا 5 فريم در نظر گرفته شده است. رابطة فوق نشان ميدهد اگر بردار حركت فريم فعلي نسبت به ميانة α فريم قبلي از حدي بيشتر ( T )باشد نويز تلقي ميشود و مقدار ميانة α فريم قبلي در تصوير ثبت ميشود ولي اگر اين بردار كمتر از ميانه بود مقدار بردار حركت فريم فعلي قرار ميگيرد. اين كار براي حذف بردارهاي ناشي از نويز است. MFH و MHI مكمل هم هستند يعني داراي اطلاعات مكاني و جهتي و زماني ميباشند. از اين تصاوير كه نوعي بانك مكاني زمانياند در شناسايي عمل استفاده شدهاند[ 10 ]. در پايگاه مكاني-زماني MHI حركت مكرر در يك موقعيت در زمانهاي مختلف تفاوتي با حركت در ا خرين لحظه نميكند بعبارت سادهتر فقط زمان ا خرين تغيير در هر موقعيت در كليشة MHI ذخيره ميشود. اين موضوع باعث ميشود ذخيره كردن الگوهاي پيچيدة ويديويي دچار مشكل شود[ 10 ]. ما در مقالة حاضر به اراي ة يك MHI تصحيح شده ميپردازيم بطوريكه تمام زمانهاي رخداد در هر موقعيت در كليشة پيشنهادي وجود دارد. از طرفي اين مقاله با اراي ة يك كليشة مناسب اطلاعات مكاني بدست ا مده از مجموعه سكانسهاي ويديويي را ثبت ميكند. استفاده از كوانتيزاسيون تصوير در ايجاد اين كليشه باعث كاهش حساسيت كليشه نسبت به چرخش شيء در صحنه مي گردد كه اين موضوع در شناسايي حالات چهره بسيار مناسب است. بطور خلاصه نكات برجستة اين مقاله شامل الف-اراي ة پايگاه دادة مكاني-زماني با توانايي ذخيرة زمانهاي رخداد يك عمل و موقعيت ا نها در صحنه 1 Stacking Frames 2 Motion History Image 3 Motion Flow History
ب-كاهش اثر چرخش و دوران در ذخيرة يك عمل با استفاده از يك پايگاه مكاني مناسب ج-ا زمون دو پايگاه دادة مكاني-زماني در شناسايي حالات چهره روي پايگاه دادة تهيه شده توسط كوهن-كاناد[ 11 ]. اين مقاله در 4 بخش اراي ه ميشود. بخش دوم اين مقاله به اراي ة روشهاي موجود در شناسايي حالات چهره اختصاص دارد. بخش سوم يك سيستم جديد شناسايي حالت چهره که از پايگاه دادة مكاني-زماني پيشنهادي سود مي جويد معرفي شده نتايج بدست ا مده اراي ه ميگردد و بخش نهايي شامل نتيجهگيري است. 2- کارهاي انجام شده در شناسايي حالات چهره شناسايي عواطف و احساسات کاربر به عنوان يکي از ابزار ارتباط غير کلامي انسان و ماشين تحقيقات زيادي را در دهههاي اخير به خود معطوف داشته است[ 26 ]. يکي از مهمترين تحقيقات انجام شده در مورد نحوه تغيير چهره توسط اکمن انجام پذيرفته است که منجر به تدوين (Facial Action Coing System) FACS شده است. در FACS هر واحد حرکت Unit) (Action به تغييري در چهره اطلاق مي شود که اولا به تنهايي قابل انجام نباشد و ثانيا قابل تقسيم نباشد. [12]-[14]. مثلا حرکت باز کردن دهان همراه با بالا انداختن ابروها گرچه يکباره انجام ميگيرد به دو حرکت بالا انداختن ابرو و باز کردن دهان تقسيم مي شود که مستقل از هم مي توانند انجام گيرند. از ا نجا که اين سيستم مبناي بسياري از کارهاي شناساي ي اتوماتيک يا نيمه اتوماتيک احساس بوده است, شناساي ي واحدهاي حركت خود به يكي از موضوعات مقالات تبديل شده است[ 13]-[12 ] [15]-.[16] در همين راستا کاناد, کوهن تيان پايگاه دادهاي شامل 2105 رشته تصوير از حالات مختلف 182 نفر که واحدهاي حرکت ا نها به صورت دستي استخراج شده است را ا ماده نموده اند[ 11 ] که در بسياري از مطالعات انجام شده مورد استفاده قرار گرفته است. در[ 17 ] شناساي ي با استفاده از سيستمهاي خبره روي FACS نرخ 90.57 براي 6 حالت بدست ا مده است. در اين مقاله تصاوير مورد استفاده از دو زاويه گرفته شده اند و 29 واحد حرکتي پوشش داده شده است. تصاوير ثابت بوده و پس از استخراج ويژگيها و واحدهاي حرکتي با يک سيستم خبره و بر اساس شدت ظهور هر واحد, شود. حالت چهره مشخص مي مقدم [12] با سيستمي مبتني بر روش کار پانتيک نرخ شناساي ي 80 درصد را براي 6 حالت اصلي و حالت معمولي و بر روي قسمتي از پايگاه داده کاناد-کوهن بدست ا ورده است. اوليور و همكارانش [18] با مدلسازي دهان از مدل مخفي ماركوف براي شناساي ي 5 حالت روي دادههاي 2000 نمونه برخط 4 گزارش نموده اند. از 8 نفر استفاده نموده و دقت 95.95 درصد را كالدر با استفاده از ا ناليز مو لفههاي اصلي براي شش حالت به 84 درصد دقت دست يافته است[ 19 ]. در روشي مشابه اما بر اساس چهرههاي ويژه جم زاد [24] به شناسايي 7 حالت با استفاده از يك طبقهبند ماشين بردار پشتيبان فازي ميپردازد. اين كار روي پايگاه تصاوير [20] JAFFE شامل 213 تصوير از ده نفر انجام شده كه نرخ شناسايي 89/77 درصد بدست ا مده است. دابيشن با انجام اصلاحي روي PCA و ترکيب ا ن با درخت تصميم به نرخ شناساي ي 87.6 درصد براي 6 حالت رسيده اند[ 21 ]. چن متد کلاسه بندي جديدي مبتني بر LDA به نام Analysis) CDA(Clustering base Discriminant را پيشنهاد و به دقت 93 درصد براي شناساي ي سه حالت معمولي خوشحال و عصباني رسيده اند[ 22 ]. البته مكانيابي چهره در تصوير نيز احتياج به الگوريتمهاي مناسبي دارد كه ياكوب در [23] به ا ن پرداخته است و ژانگ [25] ا نرا در نور مادون قرمز با يك ردياب كالمن انجام ميدهد. در بخش بعدي به شرح روش پيشنهادي ميپردازيم. 4 Real Time
3 -روش پيشنهادي در اين بخش به اراي ة يك پايگاه دادة مكاني-زماني جديد پرداخته نحوه و نتايج استفاده از ا نرا در يک سيستم شناساي ي حالت چهره خواهيم ديد. بجاي بكارگيري زمان حركت در رابطة (1) براي ثبت زمان ا خرين حركت زمان رخداد تمام حركات ذخيره ميشود. ماتريس بدست ا مده را ماتريس تجمع زمان حركت ITMI T ( k, = i i + ITMI i ( k,, N 0, if ميناميم(.(ITMI 5 ( k, elsewhere > Thre (3) كه i شمارة فريم است و ( k, موقعيت رخداد در تصوير,k ) تفاضل فريم i از فريم اوليه است و N تعداد است. (l كل فريمهاي يك حالت از هر فرد است. Thre ا ستانة بكار رفته براي ا شكارسازي حركت است كه در چهره عدد 30 انتخاب ميشود. در محاسبة شناسايي حالت يك ITMI هموارسازي ميانگين استفاده شده است كه باعث كاهش نويز ميشود كه در ا ن مقدار اولية تصوير ITMI0 ( k, = 0 ITMI است. نرماليزه است و طول سكانسهاي يك حالت اثري بر ا ن ندارد. همچنين هر تغييري در هر لحظه در محاسبة ITMI موثر است و برخلاف محاسبة اثرات حركات قبلي از بين نميروند. MHI زمانهاي رخداد هر حركت جمع ميشوند. (1) در رابطة در اين روش تمام وزن هر حركت زمان يا شمارة فريم ا ن است و نتيجة نهايي به طول سكانس نرماليزه ميشود. اين تصوير كه نوعي پايگاه داده است شامل اطلاعات مكان و زمان رخداد هر حركت است. همچنين با توجه به قضية اراي ه شده در پيوست در تصوير ITMI سطح DC حذف ميشود و اثرات نويز كاهش مييابد. حال ا نكه [10] MHI شامل سطح DC مخربي است و اطلاعات زيادي حذف ميگردد. با افزودن تعداد رخدادهاي هر حركت به اين پايگاه ميتوان اطلاعات بيشتري براي ايجاد يك پايگاه مناسب جمعا وري كرد. همچنين براي كاهش ميزان محاسبات و كاهش اثر حركات ناخواسته در ايجاد پايگاه مكاني-زماني از كوانتيزاسيون تصوير استفاده ميكنيم و يك ماتريس چندي سازي (كوانتيزه) شدة تكرار حركت ) 6 QIM )اراي ه ميكنيم. براي هر پيكسل كه داراي افزايش مييابد. ( k, Thre > باشد QIM يك واحد ( m, n) = QIM 1 ( m, n) + 1 (4) t QIM t m پيكسلي است كه داراي حركت است و در يكي از ( k, در n ناحيه( m تعداد سطرها است) قرار ميگيرد. m و n تعداد نواحيي است كه تصوير به اين نواحي تقسيم ميشود. در اين كاربرد m و n بترتيب 6 و 5 ميباشند. در ادامة اين بخش پس از بيان چارچوب کلي سيستم پيشنهادي براي شناساي ي احساس از روي حالت چهره به جزي يات نحوه استخراج ويژگيها از ITMI و QIM ميپردازيم. واحدهاي حرکتي ذکر شده در FACS که در اغلب تحقيقات شناساي ي احساس مورد استفاده قرار گرفته است به واقع مبتني بر حرکات ماهيچه هاي صورت در حين بروز يک احساس هستند. در سيستم پيشنهادي به جاي استفاده از واحدهاي حرکتي از ITMI و QIM بسادگي براي مدل کردن تغييرات ماهيچه هاي صورت بهره گرفته شده است که استخراج ا نها به مراتب از استخراج FACS ساده تر بوده و در عين حال کاراي ي خوبي نيز از خود نشان مي دهند. اولين مرحله در سيستم جداسازي صورت از تصاوير ورودي مي باشد. در برخي ار کارهاي انجام شده اين مرحله به صورت خودکار درا مده است. اما ما در اينجا ا نرا بصورت دستي انجام داده ايم. به اين ترتيب که ناحيه صورت در اولين تصوير از هر دنباله از تصاوير به صورت دستي مشخص شده و با توجه به حرکت کم سر در ساير تصاوير هر دنباله از اين مختصات در ساير فريم ها نيز استفاده شده است.يک نمونه از تصاوير بکار رفته و ناحيه صورت استخراج شده در شکل 1 ديده مي شود: 6 Quantize Iterance of Motion 5 Integrate Time Motion Image
شکل 1: استخراج صورت در مرحله دوم ويژگيهاي ذکر شده استخراج شده و پس از تنظيم وزنهاي يک شبکه MLP در مرحله ا موزش از اين ويژگيها براي شناساي ي حالات چهره بهره گرفته شده است. چار چوب کلي سيستم در شکل 2 نشان داده شده است. استخراج كرد كه در تشخيص 6 حالت چهره مناسب باشد. پ جن ويژگي هندسي از ITMI استخراج ميشود كه عبارتند از: ويژگي 1: براي داشتن يك نگرش كلي به تصوير ITMI مجموع انرژي فوقاني (مقادير موجود در ماتريس ITMI )تصوير را به نيمة پاييني ا ن بدست ميا وريم. همانطور كه در نمونة نشان داده شده در شكل 4 ديده ميشود حالت خوشحال داراي ITMI نامتقارن و حالت تعجب داراي ITMI متقارن ميباشد. بنظر ميرسد با همين يك ويژگي بتوان اين دو حالت را تشخيص داد ولي بدليل متنوع بودن حالات و تنوع بروز حالات در افراد مختلف اين ويژگي براي تشخيص كافي نيست. در ادامه چهار ويژگي هندسي ديگر استخراج ميشوند. شكل 2: سيستم پيشنهادي مبتني بر پايگاه دادة مكاني-زماني در شناسايي حالت چهره - 1-3 استخراج ويژگي از ITMI در ابتدا ويژگيهاي استخراج شده از ITMI توضيح داده ميشود. نمونهاي از حالت تعجب (اولين و ا خرين فريم) و تصوير ITMI در شكل زير نشان داده شده است. شكل 3: حالت تعجب و تصوير ITMI تصاوير بالايي اولين و ا خرين فريم از حالت تعجب است و دو تصوير پاييني تصوير اصلي ITMI و كانتور ا ن است. همانطور كه در تصوير كانتور شکل 3 ديده ميشود کليشه ITMIي استخراج شده به خوبي تغييرات ماهيچه ها در فرا يند بروز احساس تعجب را نشان مي دهد. پرتحركترين نقاط در تعجب اين شخص ابروها و ماهيچههاي اطراف بيني است. با توجه به خصوصيات تصوير ITMI ميتوان ويژگيهايي از ا ن شكل 4: 2 ويژگيهاي تفاوت بين نيمة فوقاني و تحتاني در تصوير ITMI براي دو حالت تعجب(تصوير بالايي) و خوشحال(تصوير پاييني). 5: الي اين ويژگيها نوعي بررسي هر واحد حركت Unit) (Action است. تصوير ITMI به 4 ناحية افقي مساوي شبيه شكل زير تقسيم ميشود و متوسط سطوح ا ن به عنوان يك ويژگي استخراج ميشود. (شکل 5) مي توان گفت که به نحوي اين چهار ويژگي به ترتيب نمايانگر ميزان تغييرات چهره در قسمت پيشاني چشم و ابرو بيني و دهان و چانه مي باشند. شكل 5: مقادير ويژگيهاي 2 تا 5 و نواحي مربوط به هر ويژگي مستخرج از ITMI
با استفاده از ويژگيهاي بدست ا مده ميتوان انتظار داشت يك طبقهبند بتواند حالات مختلف را شناسايي كند اين موضوع بدليل ا نست كه ويژگيهاي اراي ه شده در تشخيص اين حالات ميتواند بخوبي اين الگوها را متمايز سازد. درشكل 6 ويژگي هاي شمارة 2 تا 5 براي 6 حالت و 300 نمونه اين ويژگيها تصوير شده اند كه تفاوت قابل ملاحظهاي در مقدار متوسط ا ن - که در شکل با خطوط توپر نشان داده شده است- براي هر حالت ديده ميشود (به جز حالات 3 و 6 ). همانگونه که از سطر دوم شکل 4 پيداست در حين بروز احساس خوشحالي بيشترين تغييرات چهره مربوط به قسمت سوم چهره و پس از ا ن مربوط به چهارمين قسمت مي باشد. (متناظر با حالت ميانگين احساس خوشحالي -happy درشکل 6) و همانگونه که مي دانيم در حين بروز اين احساس لب و دهان بيشترين تغييرات را دارند. نگاهي به سطر اول شکل 43 مشخص مي سازد که بيشترين تغييرات چهره در حين بروز احساس تعجب مربوط به قسمتهاي دوم و چهارم مي باشد. اين نکته را مي توان مترادف با تغييرات در ناحيه چشم و ابرو و لب و فک پايين دانست (متناظر با حالت ميانگين احساس تعجب -surprise درشکل 6). متعجب مي تواند نرخ شناساي ي %100 را به همراه داشته باشد. اما افزايش تعداد حالات نرخ شناساي ي را به شدت کاهش مي دهد. 2-3- ويژگيهاي مستخرج از QIM همانطور كه گفته شد QIM يك ماتريس 6 در 5 است كه در شكل 7 نشان داده شده است كه هر عنصر ا ن نشان دهندة ميزان تكان در يكي از 30 ناحيه ميباشد. تكانهاي زياد در بعضي از نواحي باعث روشنتر شدن نواحي در ستون ا خر شكل 7 ميشود كه بر افزايش شمارندة ناحيه دلالت ميك د.ن بنابراين ويژگيهاي 6 تا 35 مربوط به اين 30 ناحيه ميباشد. مراجعه به شکل 7 نشان مي دهد که QIM تقريب بسيار خوبي از ميزان تفييرات ماهيچه ها در هر ناحيه است. به عنوان مثال ا خرين تصوير در سطر اول شکل 7 نشان مي دهد که در حين بروز احساس خوشحالي بيشترين تغييرات مربوط به گونه ها و لبها مي باشد.يا در سطر دوم شکل 7 روشن ترين خانه هاي QIM متناظر با تغييرات ماهيچه هاي پيشاني و حرکت فک پايين در حالت تعجب مي باشد. حالت: خوشحال (Happy) حالت: متعجب (Surprise) شكل 6: نمايش و مقايسة ويژگيهاي 2 تا 5 براي 6 حالت چهره روي 300 نمونه - خطوط توپر متوسط هر گروه را نشان مي دهند. استفاده از فقط اين ويژگي و 4 بکار گرفتن الگوريتم کلاسبندي نزديکترين همسايه براي دو حالت اول و دوم نرخ شناساي ي %92 براي حالات اول تا سوم 77 درصد و براي تمام شش حالت نرخ شناساي ي 58 درصد را در حالت متوسط نشان داد. همچنين نتايج پياده سازي سيستم پيشنهادي نشان داد که تنها استفاده از اين ويژگي براي تفکيک دو حالت خوشحال و شكل 7: نمايش ويژگيهاي QIM براي دو حالت خوشحال و متعجب يکي از نتايج استفاده از اين کوانتيزاسيون كاهش حساسيت كليشه نسبت به چرخش سر مي باشد كه اين موضوع در شناسايي حالات چهره حاي ز اهميت است. برخي از محققين به
منظور اجتناب از اثرات منفي چرخش سر سعي در حذف ا ن داشته اند[ 16 ] 2-3 نتايج پياده سازي سيستم پيشنهادي روي پايگاه تصاوير كوهن-كاناد روي 6 حالت چهره و 300 نمونه ساخته و ا زمايش ميشود. اين سيستم شامل پايگاه دادههاي مكاني-زماني ITMI و QIM است. ويژگيهاي مناسب شامل يك بردار 35 تايي از ا نها استخراج ميشود و شبكة عصبي 4 لايه ا موزش ميبيند (روي 150 نمونه). نتايج بدست ا مده روي 150 نمونه ا زمون نرخ شناسايي %80 را نشان ميدهد. بدليل كوانتيزه بودن QIM و ويژگيهاي ناحيهاي مستخرج از ITMI حركات محدود افقي و عمودي تاثيري بر بدست ا وردن ITMI و QIM ندارد. پياده سازي سيستم روي يک کامپيوتر شخصي با پردازنده Intel Celeron 2.2 GHz زمانهاي متوسط 2.7 ثانيه و 0.003 ثانيه را به ترتيب براي محاسبه ويژگيها براي يک دنباله با 22 تصوير صرفنظر از زمان خواندن فايل- و شناساي ي حالت براي هر دنباله پس از استخراج ويژگيها را در پي داشته است. استفاده از تعداد افراد و حالات نسبتا زياد (78 نفر و 300 نمونه) در مقايسه با برخي از روشها که از 8 يا ده نفر استفاده نموده اند قابليت اعتماد سيستم را افزايش داده است. در برخي از مقالات حالت معمولي هم به عنوان يک حالت در نظر گرفته شده است که با توجه به ويژگيهاي پيشنهادي اضافه کردن اين حالت به داده هاي مورد استفاده مطمي نا نرخ شناساي ي را افزايش خواهد داد. 4- نتيجهگيري روش جديد پشتهسازي مكاني-زماني روي تصاوير ويديويي و ا زمون ا ن در شناسايي حالات چهره موضوع اين مقاله است. نوعي پايگاه دادة مكاني-زماني كه اطلاعات زماني و مكاني نقاط متحرك صحنه را در خود دارد اراي ه شد. روش اول پشتهسازي شامل زمان رخداد هر نقطة متحرك است. اين پايگاههاي داده در اصل كليشههايي است كه از مجموعة فريمها بدست ميا يد و نوعي روش پشتهسازي فريمهاست. با فلا( ويژگيهاي استخراج شده از اين دو پايگاه داده و استفاده از يك شبكة عصبي روي يک مجموعة ا موزشي 150 تاي ي و مجموعه ا زمون 150 تاي ي حالات چهره از پايگاه دادة كوهن-كاناد نرخ شناسايي %80 بدست ا مد. استخراج ويژگيهاي مورد استفاده در شيوه پيشنهادي برخلاف بسياري از ويژگيهاي معمول روشهاي موجود به سادگي قابل محاسبه بوده و سيستم را براي کاربردهاي بلادرنگ مناسب مي سازد. تشکر و قدرداني در خاتمه مولفين وظيفه خود مي دانند که از جناب Nicki Rigeway که پايگاه داده کوهن-کاناد را در اختيار مولفين قرار دادند تشکر و قدرداني به عمل ا ورند. پيوست: پشتهسازي با وزن زماني تفاضل بين فريمي در اين پيوست نشان ميدهيم كه پشتهسازي روي تفاضل بين فريمها با وزن زمان رخداد ا نها باعث ايجاد يك سيگنال جديد بدون سطح DC ميشود همچنين باعث افزايش سيگنال به نويز سيگنال منتج ه ميشود. به اين منظور ا نرا در حوزة پيوسته و روي توابع مشتق پذير بررسي ميكنيم و سپس ميتوان ا نرا به حوزة اعداد گسسته تعميم داد و از ا ن در پشتهسازي فريمها با وزن زمان رخداد اعمال كرد. اگر قضيه: (t) f يك تابع پيوسته و مشتقپذير باشد ا نگاه f(t) برابر G(t) سيگنال به نويز بيشتري است. اثبات: فلا( مدوله شده بدون سطح τ = t τ = 0 DC = tf ( t ) τ = t τ = 0 G( t) = τ = t τ = 0 τ f ( τ) f ( τ) (1- فلا( است و G( t) = τ f ( τ ) τ f ( τ ) τ ( 2- عبارت فوق را بصورت زير ميتوان نوشت. τ 1 G( t) = tf ( t) t f ( ) t = τ τ = t( f ( t) f τ = 0 DC t ( t)) ( 3- كه در عبارت فوق بنابراين در f DC تابع DC مولفة (t) (t) f است. t حذف سپس در f (t) DC ابتدا سطح G(t)
Vieo, Image an Vision Computing, vol.22, pp.597 607, 2004. [11] T. Kanae, J.F. Cohn, an Y. Tian, Comprehensive Database for Facial Expression Analysis, Proceeings of the Fourth IEEE International Conference on Automatic Face an Gesture Recognition, March 2000. [12] م. منصوري زاده, ن. مقدم چرکري, ا. کبير سيستم مدوله ميشود. همانطور كه در حوزة فوريه ديدهايم مدوله شدن در حوزة زمان معادل مشتقگيري در حوزة فركانس ميشود يعني ˆ Fourier Domain t f ( t) fˆ ( f ) الف( 4- ( f f ˆ( كه ) t است و داريم : همان (t) f است كه سطح DC ا ن حذف شده الف( 5- ( = G ( f ) fˆ ( f ) f )ˆ f نويزي با تابع توزيع t ) G(t) حال اگر در طيف سيگنال يكنواخت باشد با توجه به رابطة فوق در نويز كاهش مييابد. بعبارت سادهتر مشتق چنين نويزي داراي طيفي با دامنة صفر است كه بمعني حذف كامل نويز از سيگنال در حالت ايدهال است. مراجع خبره شناساي ي احساس از روي تصوير ويديويي چهره نهمين کنفرانس سالانه انجمن کامپيوتر ايران دانشگاه صنعتي شريف - صفحات 361-353.1382 [13] J. F. Cohn, T. Kanae, Automate Facial Image Analysis for Measurement of Emotion Expression, To appear in J. A. Coan & J. B. Allen (Es.), The hanbook of emotion elicitation an assessment. Oxfor University Press Series, Oxfor. [14] FACS - Facial Action Coing System, http://www- 2.cs.cmu.eu/~face/facs.htm [15] M. Pantic, L.J. M. Rothkrantz, Facial Action Recognition for Facial Expression Analysis From Static Face Image,IEEE Trans. on Sys, Man, an Cyber. Part B: Cybernetics, Vol.34, No.3, 2004. [16] J. Lien, T. Kanae, J. F. Cohn, C.C. Li, Detection, tracking, an classification of action units in facial expression, Robotics an Autonomous Systems, vol.31, pp.131 146, 2000. [17] M. Pantic, L.J.M. Rothkrantz, Expert system for Automatic Analysis of Facial Expressions, Image an Vision Computing, vol.18, pp. 881 905, 2000. [18] N. Oliver, A.Pentlan, F. Bérar, LAFTER: a real-time face an lips tracker with facial expression recognition, Pattern Recognition, vol.33, pp.1369-1382, 2000. [19] A. J. Caler, A. M. Burton, P. Miller, A. W. Young, S. Akamatsu, A Principal Component Analysis of Facial Expressions, Vision Research, vol.41, pp.1179 1208, 2001. [20] JAFFE Japanese Analysis Female Facial Expression Database. [21] S.Dubuission, F. Davoine, M. Masson, A Solution for facial expression representation an recognition, Signal Proccessing: Image Communication, vol.17, pp.657-673, 2002. [22] X. Chen, T. Huang, Facial expression recognition: A clustering-base approach, Pattern Recognition Letters 24, 1295 1302, 2003. [23] Y. Yacoob, L. S. Davis, Computing Spatio- Temporal Representations of Human Faces, IEEE Conf. Computer Vision an Pattern Recognition, 1994. [24. خليفي م. جمزاد ا شكارسازي هيجانات چهره با استفاده از چهرههاي ويژه و ماشين بردار پشتيبان فازي سومين كنفرانس ماشين بينايي و پردازش تصوير ايران جلد 2 ص. 460-453 تهران اسفند 1383. [25] Y. Zhang, Q. Ji, Active an Dynamic Information Fusion for Facial Expression Unerstaning from س [ [1] J.Z. Li, M.T. Ozsu, D. Szafron, Moeling of moving objects in a vieo atabase, Proceeings of IEEE Int. Conf. on Multimeia Computing an Systems, Ottawa, Canaa, pp. 336 343, June 1997. [2] E. Oomoto, K. Tanaka, OVID: esign an implementations of a vieo-object atabase system, IEEE Trans. on Knowlege an Data Engineering, vol.5, no.4, pp.629 643, 1993. [3] D. Papaias, Y. Theooriis, Spatial Relations, Minimum Bouning Rectangles an Spatial Data Structures, Int. Journal of Geographical Information Science, vol.11, pp.111 138, 1997. [4] M. Koprulu, N. K. Cicei, A. Yazici, Spatio- Temporal Querying in Vieo Databases, Information Science, vol. 160, pp.131-152, 2004. [5] F. M. Iris, S. Panchanathan, Spatio-Temporal Inexing of Vector Quantize Vieo Sequences, IEEE Trans. on Circuit an Systems for Vieo Technology, vol. 7, no. 5, pp.728-740, Oct. 1997. [6] M. Osachy, D. Keren, A Rejection-Base Metho for Event Detection in Vieo, IEEE Trans. on Circuits an Systems for Vieo Technology, vol.14, no.4, pp.534-541, Apr.2004. [7] D. Hogg, Moel-base vision: A program to see a walking person, Image Vis. Comput., vol. 1, no. 1, pp. 5 20, 1983. [8] C. Bregler, Learning an recognizing human ynamics in vieo sequences, in Proc. IEEE Conf. Computer Vision an Pattern Recognition, pp. 568 574, Puerto Rico, 1997. [9] N. Li, S. Dettmer, an M. Shah, Visually Recognizing Speech Using Eigensequences, in Motion-Base Recognition, pp. 345 371, 1997. [10] R. V. Babua, K. R. Ramakrishnanb, Recognition of Human Actions Using Motion History Information Extracte from the Compresse
Image Sequences, IEEE Trans. On Pattern Analysis an Machine Intelligence, vo.27, no.5, pp. 699-714, May 2005. [26] M. Pantic, L. J. M. Rothkrantz, Automatic Analysis of Facial Expressions: The State of the Art, IEEE Trans. On Pattern Analysis an Machine Intelligence, vol.22, no.12, pp.1424-1445, Dec. 2000.