طبقه بندي سيگنالهاي شنيداري با استفاده از نزديكترين خط ويژگي و مقايسة ا ن با ساير روشهاي طبقه بندي ا ماري 3 محمد علي مرادمند دانشجوي كارشناسي ارشد مهندسي پزشكي- بيوالكتريك محمد حسن مرادي و فرشاد الماس گنج استاديار دانشكدة مهندسي پزشكي دانشگاه صنعتي امير كبير m83376@ aut. ac. r mhmorad@ aut. ac. r 3 almas @ aut. ac. r چكيده : با توجه به اهميت روزافزون پردازش سيگنال هاي شنيداري ضرورت طبقه بندي اين سيگنالها در مراحل اوليه و قبل از انجام پردازشهاي پيشرفته تر ضروري مي باشد. با مشخص شدن نوع سيگنال شنيداري و اينكه ا يا سيگنال گفتاري موسيقي و يا... است مي توان نسبت به نوع پردازش هاي بعدي كه بايد روي ا ن انجام بگيرد تصميم گيري نمود. در اينجا نيز سعي مي شود يك الگوريتم مقاوم براي طبقه بندي سيگنالهاي شنيداري اراي ه شود به طوري كه قادر به طبقه بندي و قطعه بندي هر جريان شنيداري به دو طبقة گفتاري و غير گفتاري باشد. بعد از استخراج ويژگيهاي زمان كوتاه روشهاي مختلف طبقه بندي ا ماري بر روي طولهاي متفاوت از دادگان اين دو طبقه ا زمايش مي شوند..مقدمه تحقيق در مورد طبقه بندي و دوباره بدست ا وردن تصاوير عمر طولاني دارد. با گسترش روز افزون صوت در اينترنت و ديگر وسايل ارتباطي و شبكه هاي سوي يچ كننده با فرامين صوتي اين تحقيقات بر روي سيگنالهاي شنيداري نيز متمركز شده است. audo stream به بيان ديگر پيشرفتهاي اخير در موردبازشناخت گفتار و صوت طبقه بندي اين سيگنالها را بسيار مهم جلوه مي كند. سيستم شنوايي انسان قابليت بسيار بالايي در طبقه بندي سيگنالهاي شنيداري دارد. بدين ترتيب كه با شنيدن هر صدا پس از تعيين نوع ا ن به سراغ تجزيه و تحليل ا ن مي رود. به طور كلي مي توان به دلايل زير براي اهميت طبقه بندي سيگنالهاي شنيداري اشاره نمود : ( انواع مختلف سيگنالهاي شنيداري نياز به پردازشهاي مختلفي دارند. به عنوان مثال در سيستمهاي باز شناسي گفتار اگر سيگنالهاي غير گفتاري مورد پردازش قرار گيرند ممكن است موتور بازشناخت دچار اشتباه شود حال ا نكه با طبقه بندي سيگنال شنيداري مي توان فقط سيگنال گفتار را در اين سيستم وارد نمود. ) در بسياري از كاربردها نوع سيگنال مهم مي باشد. 3) براي سيگنالهاي تصويري شنيداري مي توان كل سيگنال را فقط بر اساس سيگنال شنيداري طبقه بندي نمود.كه در بسياري از اوقات طبقه بندي سيگنال تصويري صوتي بر حسب صوت بسيار ساده تر از طبقه بندي تصوير مي باشد. 4) فضاي جستجو در سيگنال شنيداري كاهش مي يابد. 5) سيستمهاي سوي يچ شونده با صوت در كارهاي اراي ه شده براي طبقه بندي سيگنالهاي شنيداري بحث بر روي تفاوت مشخصات گفتار موسيقي و ديگر اصوات مي باشد بدين ترتيب كه پس از استخراج بردارهاي
ويژگي براي هر طبقه با استفاده از روشهاي مختلف طبقه بندي سيگنالهاي شنيداري طبقه بندي مي گردند. به طور كلي طبقه بندي سيگنالهاي شنيداري نيز همانند بازشناسي الگو داراي دو بعد انتخاب ويژگي و طبقه بندي بر اساس ويژگيهاي انتخاب شده مي باشد. با توجه به مطالب گفته شده يك بازنماي ي مو ثر بايد بتواند مهمترين خصوصيات اصوات را براي طبقه بندي اراي ه كند به نحوي كه تحت شرايط مختلف انعطاف خوبي داشته باشد و توانايي طبقه بندي اصوات مختلف را داشته باشد. بعد از بازنماي ي انتخاب معيار فاصله و قوانين طبقه بندي كننده نكتة اساسي ديگر مي باشد. سيستم باز شناخت و طبقه بندي كنندة ماسل-فيش توسط ا قاي ارلينگ وود در سال 996 ميلادي اراي ة شد.اين كار نسبت به كارهاي كوچك قبلي بسيار متمايز و قابل قبول بود. در اين روش براي تحليل و طبقه بندي سيگنالهاي شنيداري از چهار ويژگي اكوستيكي صوت استفاده مي شود كه عبارتند از : پيچ صوتي دامنه روشنايي و پهناي باند.با استفاده از يك فاصلة اقليدسي نرماليزه شده و قوانين طبقه بندي نزديكترين همسايگي سيگنالهاي شنيداري مختلف به طبقه هاي مربوطه نسبت داده مي شوند [5],[4] در كار ديگري [6] از ويژگي ضرايب كپسترال در 3 مقياس مل با ساختار درختي استفاده شده است براي هر نمونه صوت با توجه به فركانسهاي ا ن يك هيستوگرام ساخته مي شود و از ا ن بعنوان يك بردار ويژگي استفاده مي شود. سپس فضاي بردارهاي ويژگي به تعدادي منطقة 4 گسسته تقسيم مي شوند و در نهايت طبقه بندي بر اساس فاصلة كسينوسي و قوانين گيرد. نزديكترين همسايگي انجام مي يك روش سلسله مراتبي نيز براي طبقه بندي سيگنالهاي شنيداري تا جزي ي ترين طبقات اراي ه شده است [7]. در اين روش ابتدا با استفاده از ويژگيهاي ا ماري زمان كوتاه سيگنالهاي شنيداري را در يك سطح كلي به طبقات گفتار موسيقي و اصوات محيطي تقسيم مي كند و سپس در يك سطح جزي ي با استفاده از مدل ماركوف پنهان طبقة مربوط به اصوات محيطي را به زير طبقات جزي ي تر تقسيم مي كند. در دومقالة ديگر از همين نويسنده [9],[8] سيگنالهاي مخلوط صوتي تصويري فقط بر اساس سيگنالهاي صوتي طبقه بندي مي شوند كه در مقايسه با طبقه بندي سيگنالهاي تصويري بسيار راحتتر و مقرون به صرفه تر مي باشد. سيستمي براي طبقه بندي فايلهاي صوتي جمع ا وري شده در وب اري ه گرديد [3] كه اين روش سيگنالها را به سه دستة گفتار موسيقي و غيره طبقه بندي مي كند. در يك كار جامع از ويژگيهاي سيگنالهاي شنيداري در چهار حوزة زمان فركانس زمان-فركانس و حوزة ضرايب استفاده گرديد و با توجه به اهميت هر ويژگي براي هر طبقه از الگوريتم انتخاب ويژگي ترتيبي SFS) ( براي بردار ويژگي هر طبقه استفاده شد. در نهايت براي طبقه بندي روشهاي مختلف طبقه بندي بر روي دادگان ا زمايش گرديد و در بهترين شرايط دقتي حدود 93% بدست ا مد. [3] در چند كار اخير از تبديل ويولت براي استخراج بردار ويژگي استفاده مي شود. ] 4], [3],[],[]. به دليل رزولوشن زماني-فركانسي تبديل ويولت و نزديكي به سيستم درك صوت انسان بردارهاي ويژگي از ضرايب در هرزير باند تبديل ويولت گسسته استخراج مي گردند در اينجا يك الگوريتم با دقت بالا براي طبقه بندي و قطعه بندي سيكتالهاي شنيداري مطرح مي شود كه در ا ن هدف نهايي طبقه بندي و تمايز بين طبقات گفتار و غير گفتاري در پنجره هاي زماني با طولهاي متفاوت از 3 ميلي ثانيه( يعني برابر طول يك فريم ( الي يك ثانيه مي باشد. ويژگيهاي مختلفي جهت تماي ز بين سيگنالهاي شنيداري مي توان معرفي و اراي ه نمود. براي طبقه بندي علاوه بر استفاده از ويژگيهاي متداول از چندين ويژگي جديد نيز استفاده مي شود. به طور معمول ويژگيهاي شنيداري در دو سطح استخراج مي شوند. در سطح فريم كوتاه مدت و در سطح CLIP بلند مدت. فريم عبارت است از يك سري نمونه هاي پشت سر هم كه داراي طول بين الي 4 ميلي ثانيه mel frequency cepsteal coeffcents 3 bn 4
هستند. كه در اين سطح با فرض ايستان بودن سيگنال مي شود ويژگيهاي مورد نظر از قبيل تبديل فوريه بلندي و... را از روي ا ن فريم استخراج نمود. در حاليكه براي رسيدن به يك مفهوم معنايي و قابل تماي ز از روي يك ويژگي براي سيگنالهاي شنيداري نياز به تحليل روي يك مدت زمان طولاني تر از سيگنال مي باشد. كه طول اين پنجره مي تواند بين چند ميلي ثانيه ) حداقل طول يك فريم ( تا چند ثانيه باشد به اين بازة زماني در اصطلاح CLIPS گفته مي شود. يك CLIPS شامل چندين فريم پشت سر هم و داراي همپوشاني مي باشد. پس از بازنماي ي سيگنالهاي شنيداري طبقه بندي كننده هاي ا ماري مختلف(از جمله k-nfl k-nc k-nn و (nfl در فضاي بردارهاي ويژگي بر روي طولهاي مختلف ازدادگان تعليم وتست ا زمايش روش در مي گردند. نزديكترين خط ويژگي از اطلاعات مربوط به نقاط ويژگي هر زوج نمونة تعليم استفاده مي شود عليرغم روشهاي طبقه بندي ا ماري ديگر كه از اطلاعات هر تك نمونة تعليم استفاده مي كنند در ا زمايش دادگان تست دو طبقة گفتاري و غير گفتاري نيز برتري روش نزديكترين خط ويژگي نسبت به ساير روشهاي طبقه بندي ا ماري نشان داده مي شوند.. استخراج ويژگيهاي شنيداري قبل از استخراج ويژگيها هر سيگنال شنيداري (در حالت PCM هشت بيتي ( به نرخ نمونه برداري 8 نمونه در ثانيه نمونه برداري مجدد مي شود. هر فريم 3 ميلي ثانيه اي تحت پنجره هاي زماني همينگ با همپوشاني 5 در صد بدست مي ا يند. هر فريم اگرشرط 56 = ( ws) < 4 سكوت برچسب دهي مي شود كه در ا ن و در برقرار شود بعنواان فريم 4 سطح ا ستانة سكوت مي باشد. S دامنة سيگنال ويژگيهاي شنيداري تحت هر فريم غير سكوت استخراج مي گردند. متوسط و انحراف معيار مسير بازنماي ي تحت هر clps براي تصميم گيري نهايي براي طبقة هر نمونه محاسبه مي شوند. دو نوع ويژگي تحت هر فريم استخراج مي گردد ) ويژگيهاي ادراكي شامل توان كل توان زيرباندها روشناي ي پهناي باند و ( ضرايب كپسترال در مقياس فركانسي مل. نكته مهم انتخاب ويژگيها بر اساس ويژگيهاي MFCC s ادراكي و تركيب اين دو مي باشد در. حاليكه ويژگيهاي ادراكي مثل روشناي ي پهناي باند و انرژي زير باندها خصوصيات مختلف طيفي صوت را نشان مي دهند اما برخي از ويژگيهاي سيگنال از دست مي روند. ضرايب كپسترال شكل طيف فركانسي صوت را اراي ه مي كنند كه از روي ا ن مي توان اغلب سيگنالهاي اصلي را بازسازي نمود در نتيجه يك مكمل براي ويژگيهاي ادراكي مي باشند. در توضيح اين ويژگيها كه در ادامه ا مده است ضرايب تبديل فورية كوتاه مدت F(w) تحت 3 فريمهاي ميلي ثانيه اي محاسبه مي شود ويژگيهاي مورد نظر درادامه ا مده است. - ويژگيهاي ادراكي.شرح ) توان كل طيف براي هر فريم به صورت زير محاسبه مي P = log( Fw ( ) dw) w شود : كه در ا ن Fw ( ) توان در فركانس w و 4=w نصف فركانس نمونه برداري مي باشند. ) طيف فركانسي سيگنالهاي شنيداري به چهار زير باند ], /, / 8],[ / 8, / 4],...,[ تقسيم [ مي شود. از لگاريتم انرژي هر زير باند به صورت زير استفاده مي شود : كه در ا ن P = log( j L H j j F ( ) d ) L j H j و مرزهاي پاي ين و بالاي زير باند j ام هستند. بدين ترتيب براي چهار زير باند چهار توان بعنوان ويژگي استخراج مي گردد.
( 3 روشناي ي سيگنالهاي شنيداري بعنوان مركز فركانسي طيف به صورت زير تعريف مي شود B = W c = F( ) F( ) d d 4) پهناي باند به صورت زير بدست مي ا يد ( W ) c F ( ) F ( ) d d كه حاصل از مجذور توان تفاضل اجزاء طيفي و مركز فركانسي مي باشد. - ضرايب كپسترال در مقياس مل در روشهاي طيفي استخراج پارامترهاي بازنماي ي بخصوص در روشهايي كه از تحليل فوريه جهت بدست ا وردن طيف سيگنال استفاده مي شود عموم ا از بانك فيلتر جهت محاسبة انرژي طيف حول فركانسهايي مشخص بعنوان پارامترهاي بازنمايي استفاده مي گردد. تعداد اين فيلترهاي ميانگذر در سيتمهاي مختلف متفاوت است ولي معمو لا بين 6 الي فيلتر مورد استفاده قرار مي گيرند. افزايش فيلترها معمو لا موجب بهبود كيفيت طبقه بندي مي شود ولي در صورت كاهش پهناي باند فيلترها تا حد كمتر از فركانس واك سيگنال شنيداري كيفيت طبقه بندي افت مي كند. تنظيم فواصل مابين فيلترها به صورت غير خطي و در مقياس مل يا بارك كه مقياسهاي الهام گرفته از سيستم شنوايي انسان مي باشند انجام مي گيرد. روابط تبديل مقياس هرتز به اين دو مقياس عبارتند از : f mel = 595 log[ + f HZ ] 7 f HZ f HZ f = 6 ln[ + ( ) bark + ] 6 6 هر دو مقياس تقريب ا شبيه به هم بوده و تا فركانس يك كيلو هرتز به صورت تقريب ا خطي و بالاتر از اين فركانس به صورت لگاريتمي مي باشند. در اينجا از پارامترهاي ضرايب كپسترال با مقياس مل ) (MFCC براي بازنماي ي استفاده مي شود. اين ضرايب از روي توان FFT هر فريم محاسبه مي شوند. ضرايب توان از فيلتر بانكهاي مثلثي كه شامل 9 فيلتر ميان گذر مثلثي هستند گذرانده مي شوند اين. ساختار فيلتر بانكي توسط بازه هايي با طول ثابت در مقياس مل محدودة فركانسي صفر الي 4 هرتز را پوشش مي دهند. با در نظر گرفتن خروجي هر فيلتر بانك به صورت Sk ضرايب MFCC به صورت زير محاسبه مي گردند : c n = K (log k = k S k ) cos[ n( k.5) π / k ] n=,,3,,l كه در ا ن L مرتبة كپستروم مي باشد. 3- هنجارسازي بردارهاي ويژگي براي هر فريم غير سكوت از هر نمونة صوت هشت ويژگي ادراكي استخراج مي شود كه اين ويژگيهاي ادراكي عبارتند از : توان طيف توان زير باندها روشناي ي پهناي باند و فركانس پيچ. از اين هشت ويژگي روي كل فريمهاي غير سكوت هر نمونه ميانگين و انحراف معيار گرفته مي شود. در نهايت براي هر نمونة تعليم ) و يا تست ( يك بردار 6 بعدي از ويژگيهاي ادراكي استخراج مي. شوند با افزودن نرخ سكوت نسبت تعداد فريمهاي ) سكوت به كل فريمهاي يك نمونه )و نرخ پيچ ) نسبت تعداد فريمهاي داراي پيچ به كل فريمهاي نمونه ( يك بردار 6 ويژگي بعدي از ويژگيهاي ادراكي براي هر نمونه بدست مي ا يد. كه اين ويژگيه با perc نشان داده مي شوند. هر ويژگي x از اجزاء اين بردار perc به صورت زير نرماليزه مي شوند : x = ( µ ) / δ x كه در ا ن همبستگي بين ويژگيهاي متفاوت صرفنظر شده µ و در ا ن. است δ متوسط و انحراف معيار كل مجموعه هاي تعليم مي باشند. در اينجا بردار ويژگي نهايي پس از نرماليزه شدن به صورت Perc نشان داده مي شوند.
براي ضرايب MFCC s نيز به همين صورت عمل مي شود كه پس از محاسبة ضرايب MFCC s از درجة L بر روي كل فريمهاي غير سكوت يك نمونه ميانگين و انحراف معيار ا نها حساب مي شوند بردار پس يك. ويژگي با بعد L از روي ضرايب MFCC s بدست مي ا يد كه با CepsL نشان داده مي شوند. كه براي اين بردار ويژگي از حالت غير نرماليزه استفاده مي شود چون در حالت نرماليزه دقت طبقه بندي كاهش مي يابد. به منظور انتخاب مناسب ترين بردار ويژگي از تلفيق ويژگيهاي Perc و CepsL استفاده مي شود در نهايت نيز بردار ويژگي PercCeps تشكيل داده مي شود. بعد اين بردار ويژگي برابر ) 6 حاصل از متوسط و انحراف از معيار ويژگيهاي ادراكي و دو ويژگي نرخ سكوت و نرخ پيچ ( بعلاوة L مربوط به متوسط و واريانس L ضريب MFCC s باشد. مي 6+L يعني كه با توجه به ا زمايشات انجام شده در [5] از كپستروم مرتبة 8 استفاده مي شود. در نتيجه يك مجموعة ويژگي 3 بعدي براي يك قطعة يك ثانيه اي بدست مي ا يد براي تركيب. ويژگيهاي ادراكي با ويژگيهاي كپستروم با توجه به عدم نرماليزه بودن ويژگيهاي كپستروم و نرمالزه بودن ويژگيهاي ادراكي هر يك به واريانس ديگر ويژگيها تقسيم مي شوند. بدين ترتيب تمام 6 ويژگي ادراكي داراي انحراف معيار مي باشند بدين ترتيب مجموع انحراف معيار براي كل ويژگيهاي ادراكي برابر 6 مي باشد (*6=S (. با توجه به غير نرماليزه بودن ويژگيهاي كپستروم انحراف معيار كل اين مجموعة ويژگي برابر L = در ا ن S مي باشد كه = انحراف معيار ويژگي ام از L ويژگي كپستروم مي باشد. و در نهايت تركيب وزن دار اين دو ويژگي به صورت زير بدست مي ا يند. PercCepsL=(Perc/s) (CepsL/s) در نهايت با توجه به مرتبة 8 ضرايب كپستروم بردار ويژگي نرماليزه شدة 3 بعدي بدست مي ا يد. 3. طبقه بندي كننده هاي ا ماري همانطور كه گفته شد طبقه بندي سيگنالهاي شنيداري نيز همانند بازشناسي الگو داراي دو بعد انتخاب ويژگي و طبقه بندي بر اساس ويژگيهاي انتخاب شده مي باشد. يك بازنماي ي مو ثر بايد قادر به اراي ة خصوصيات متمايز سيگنالهاي شنيداري باشد به نحوي كه تحت شرايط مختلف انعطاف خوبي داشته باشند و توانايي طبقه بندي اصوات به طبقات مختلف را داشته باشد. بعد از انتخاب بردار ويژگي مسي له بر سر روشهاي طبقه بندي مبتني براين ويژگيها مي باشد. بنابراين دو مطلب انتخاب ويژگيها و طبقه بندي بر اساس اين ويژگيها به طور توا م در طراحي سيستم طبقه بندي كننده دخيل مي باشند. در ادامه چند روش طبقه بندي كنندة ا ماري مورد بررسي قرار مي گيرند و عملكردا نها بر روي طبقه بندي سيگنالهاي شنيداري با هم مقايسه مي شوند [5]., [4], [] -3 طبقه بندي به روشهاي k-nn و k-nc اين روشها تغيير يافتة روش نزديكترين همسايگي مي باشد []. K نمونه از يك مجموعة تعليم كه نزديكترين فاصله را به بردار ويژگيP دارند مشخص مي گردند. در روش NC مركزهر طبقه بعنوان نقطة نشان دهندة ا ن طبقه مطرح مي شود بدين ترتيب فاصلة بردار ويژگي نمونة تست تا مركز هر طبقه محاسبه و بعنوان معياري براي طبقه بندي بكار برده مي شود. براي روش نزديكترين همساية K k-nc در ابتدا از هر كلاس را بجاي كل مجموعة تعليم در نظر مي گيريم. در روش K-NC براي هر نمونة تست فاصلة بردار ويژگي ا ن نمونه تا مركز اين K نمونه بعنوان معياري براي طبقه بندي نمونه تست بكار برده مي شود. در روش K-NN فاصلة نمونة تست تا تمام نمونه هاي كل دادگان تعليم محاسبه و سپس k نمونه از كل دادگان را كه نسبت به نمونة تست كمترين فاصله را دارند انتخاب مي شوند در ميان اين k نمونه تعداد نمونه هاي هر طبقه كه حاي ذ اكثريت باشد نمونة تست به ا ن طبقه تعلق دارد.
. پس با يك خط ويژگي كه توسط دو نقطة ويژگي تشكيل -3 روش طبقه بندي نزديكترين خط ويژگي بندي يك روش جديد طبقه بندي و بازيابي طبقه الگو مبتني بر نزديكترين خط ويژگي ) NFL ( مي باشد. يك فرض اوليه و معقول براي روش NFL اين است كه مجموعة تعليم اصوات موجود شامل حداقل بيش از دو نقطة ويژگي ) نمونة تعليم ( براي هر طبقه باشد. روش NFL از اطلاعات بدست ا مده توسط چند مجموعة تعليم براي هر طبقه استفاده مي كند. در مقايسه با روشهاي NN كه براي هر نمونة تست با تمام مجموعه هاي تعليم به طور جداگانه محاسبه مي شوند در اينجا فاصلة نمونة تست با خط واصل بين دو نقطة ويژگي (مجموعة تعليم )حساب مي شود. در روش NFL بين كل زوج نمونه هاي تعليم از هر طبقه خطوط ويژگي رسم مي شوند اين خطوط نمايانگر هر طبقه مي باشند و تغييرات اطلاعات شنيداري بين نمونه هاي تعليم در هر طبقه را پوشش مي دهند. بدين ترتيب ظرفيت دادگان تعليم هر طبقه افزايش مي يابد. طبقه بندي بر اساس كمترين فاصله براي نمونة تست تا خطوط ويژگي هر طبقه انجام مي گيرد. به طور خلاصه مي توان مراحل زير را براي اين روش بيان نمود : در ابتدا يك صوت به يك نقطه ويژگي ) بردار ويژگي ( نسبت داده مي شود. از تغييرات يك صوت به طور پيوسته در فضاي ويژگي يك منحني ايجاد مي شود. و اين منحني كه ناشي از تغييرات بين نمونه هاي تعليم مختلف يك طبقه مي باشد تشكيل يك زير فضا از فضاي ويژگيهاي ا ن طبقه را مي دهد. پس يك نمونة تست بايد به اين زير فضا نزديك باشد نه اينكه صرف ا به نقاط ويژگي ا ن طبقه كه محدود هستند نزديك باشد. در روش NFL هر جفت از نقاط ويژگي مربوط به يك طبقه در فضاي ويژگيها با يك مدل خطي درون و برون يابي مي شوند و اين توسط يك خط واصل بين دو نقطة ويژگي حاصل مي شود. اين خط واصل بين دو نقطة ويژگي تشكيل يك خط ويژگي را مي دهند. خط ويژگي اطلاعاتي مربوط به تغييرات بين دو صوت را تهيه مي كند مي شود مي توان چندين نقطة ويژگي مربوط به ا ن طبقه را ايجاد نمود 4. ا زمايش هدف از انجام ا زمايشات متعدد مقايسة روشهاي مختلف طبقه بندي شامل, k-nn NFL, K-NFL, K-NC بر روي دادگان دو طبقة گفتاري و غير گفتاري با استفاده از مجموعة ويژگيها شامل تلفيق ويژگيهاي ادراكي و ويژگيهاي MFFC s مي باشد. ا زمايشات براي هر روش بر روي طولهاي متفاوت از دادگان تكرار مي گردد. k-nn روش يك سري قوانين تصميم فقط براي طبقه بندي مي باشد در حاليكه NC مي تواند براي هر دو منظور طبقه بندي و بازيابي بكار رود. در NC يك طبقه بوسيلة مركز مجموعه هاي تعليم مربوط به ا ن طبقه معرفي مي گردد. اما در k-nc بجاي مركز كل نمونه هاي تعليم هر طبقه براي طبقه بندي نمونة تست جديد از مركز k نمونة تعليم كه نزديكترين فاصله به نمونة تست را دارند استفاده مي گردد. k-nn و k-nc از اين لحاظ كه از اطلاعات مربوط به چند مجموعة تعليم در هر طبقه استفاده مي كنند مشابه NFL مي باشند. در k-nfl نيز از تركيب k-nn و nfl استفاده مي شود بدين ترتيب كه از مجموعه خطوط واصل بين k نمونه از دادگان تعليم هر طبقه كه كمترين فاصله را به نمونة تست دارند بعنوان نمايندة هر طبقه استفاده مي شود. روشهاي طبقه بندي مختلف ا ماري براي طبقه بندي دو طبقة كلي گفتار و غير گفتار با استفاده از دادگان تعليم روي دادگان تست ا زمايش گرديد. دادگان تعليم شامل حدود قطعة يك ثانيه اي متنوع از گفتار چند مرد و زن براي طبقة گفتار و همچنين حدود 5 قطعة يك ثانيه اي شامل انواع موسيقي و اصوات محيطي مختلف براي طبقة غير گفتاري مي باشند. همانطور كه در جدول نتايج حاصل از ا زمايش روشهاي مختلف طبقه بندي بر روي طولهاي متفاوت سيگنالهاي شنيداري ملاحظه مي گردد براي nearest feature lne
طولهاي كوچكتر از سيگنال دقت طبقه بندي كاهش مي 5. نتيجه گيري يابد و سيستم براي طول بزرگتر از سيگنال طبقه بندي را با دقت بسيار بالايي انجام مي دهد. در مجموع مي توان نسبت به برتري روش n-fl در طبقه بندي دادگان گفتاري و غير گفتاري پي برد. جدول. صحت طبقه بندي براي دو طبقة گفتاري و غير گفتاري در حالات مختلف نوع طبقه بندي و طول بازه هاي سيگنال بندي تحت طبقه صحت طبقه براي بندي دادگان تست طبقة گفتاري صحت طبقه براي بندي تست دادگان طبقة غيرگفتاري % 69.5 % 73.5 % 75 % 77 %83 % 8 % 86 % 89 % 9 % 9 % 83 % 87 % 89 % 94 %95.5 %86 %88 % 89 % 9 % 98 % 77 % 8 % 85 % 9 % 94 % 59. % 7 % 77.5 % 8 % 83 % 6 % 78 % 85 % 87 % 88 % 78 % 8 % 84 % 89 % 93 3ms براي طول K-NN - ms براي طول K-NN 3ms براي طول K-NN 5ms براي طول K-NN براي طول ms K-NN 3ms براي طول K-NC - ms براي طول K-NC 3ms براي طول K-NC 5ms براي طول K-NC ms براي طول K-NC براي طول 3ms K-NFL 3- براي طول ms K-NFL 3ms براي طول K-NFL 5ms براي طول K-NFL ms براي طول K-NFL 3ms براي طول NFL -4 براي طول ms NFL براي طول 3ms NFL در اين مقاله روشهاي مختلف طبقه بندي ا ماري بر روي دو طبقة سيگنالهاي شنيداري گفتاري و غير گفتاري ا زمايش شدند. براي طبقه بندي يك نمونه سيگنال شنيداري به يكي ازاين دو طبقه ابتدا بردار ويژگي براي فريمهاي 3 ميلي ثانيه اي از سيگنال مورد نظر استخراج مي گردد كه اين ويژگيها شامل تركيب ويژگيهاي ادراكي و كپسترال مي باشند سپس بر اساس اين بردارهاي ويژگي بر روي طولهاي مختلف از سيگنال ) از 3 ميلي ثانيه الي ثانيه ( طبقه بندي كننده هاي مختلف ا ماري از جمله -k k-nc k-nfl nn و nfl ا زمايش و با هم در طولهاي مختلف از سيگنال مقايسه گرديدند. ملاحظه شد در مجموع روش nfl قادر به طبقه بندي دقيقتر دو طبقة گفتار و غير گفتار در طولهاي مختلف از سيگنال مي باشد. فهرست مراجع [] Guo L and Ashfaq A. Khokhar Contentbased Indexng and Retreval of Audo Data usng Wavelets IEEE nternatonal conference on multmeda and expo.,,vol.,pp884-888 [] S.R Suramanya and A. Youssef Wavelet Indexng of Audo Data n Audo/Multmeda Databases IEEE proceedng of the nternatonal workshop on multmeda database management,998,pp869-878 [3] Mngchun Lu and Ch. Wan A study no Content-based Classfcaton and Retrevalof Audo Database IEEE nternatonal symposum on database engneerng & applcaton,,pp.339-345 [4] Erlng Wold and et al Content-Based Classfcaton, Search, and Retreval of Audo IEEE Multmeda,fall 996,pp.7-36 [5] Stan Z. L Content-Based Audo Classfcaton and Retreval usng the Nearest Feature Lne Method IEEE Transacton on Speech and Audo Processng vol8,no.5,september,page 69-65 5ms براي طول NFL ms براي طول NFL
[6] Janathan Foote A Smlarty Measure for Automatc Audo classfcaton IEEE nternatonal conference on multmeda and expo, vol., pp.45-455, 997 [7] Tong Zhang and et al Herarchcal Classfcaton of Audo Data for Archvng and Retreval IEEE proceedng on acoustc,speech and sgnal processng,999,vol6,pp.3-34 [8] Tong Zhang and et al Classfcaton and retreval of sound effects n audovsual data management IEEE thrty-thrd Aslomab conference on sgnal,system,and computer,999,pp 73-734 [9] Tong Zhang and et al Audo Content Analyss for Onlne Audovsual Data Segmentaton and Classfcaton IEEE Transacton on speech and audo processng vol.9 no.4 May,pp.75-7 [] George Tzanetaks and et al Audo Analyss usng the Dscrete Wavelet Transform EUROMICRO conference proceedngs,5 th,999,vol.,pp.6-69 []Le Lu, Hao jang and Hong Juang Zhang A Robust Audo Classfcaton and Segmentaton Method IEEE [] Yao Wang, Zhu Lu,and Jn-cheng Huang Multmeda Content Analyss : Usng both Audo and vsual Clues IEEE sgnal processng magazne pp:-36 [3] Pedro J. Moreno Usng the Fsher Kernel Method for Web Audo Classfcaton IEEE Internatonal conference on acoustc,speech,and sgnal proceesng,icassp,vol.4,pp.47-4 [4] محمد علي مرادمند فرشاد الماس گنج طبقه بندي سيگنالهاي شنيداري با استفاده از ضرايب تبديل ويولت مجموعه مقالات هشتمين كنفرانس بين المللي كامپيوتر ايران (CSICC 3) صفحة 56-5 دانشگاه فردوسي مشهد اسفند 38