Fundamental intelligence

Fundamental intelligence Machine Learning Computational intelligence Computational neural Computational fuzzy Computational evolution Expert sysyetm Multi-agent systems Swarm intelligence دانشگاه خواجه نصیرالدین طوسی- دانشکده برق

بسمه تعالی شبکه های عصبی دانشگاه خواجه نصیرالدین طوسی- دانشکده برق

فهرست مطالب فصل اول : مقدمه ای بر شبکه های عصبی فصل دوم : ارائه ساختارهای مختلف شبکه های عصبی فصل سوم : ارائه مفاهیم پایه در آموزش شبکه های عصبی بر اساس الگوریتم پس انتشار خطا فصل چهارم : بررسی روشهای مختلف آموزش در شبکه های عصبی فصل پنجم : بهبود الگوریتم پس انتشار خطا فصل ششم : شبکه های عصبی بازگشتی 3

فهرست مطالب فصل هفتم : شبکه های حافظه دار و گاما فصل هشتم : شبکه های عصبی مدل مخچه فصل نهم : شبکه عصبی بیزین فصل دهم : شبکه عصبی مثلثاتی فصل یازدهم : شبکه عصبی ویولت فصل دوازدهم : شبکه عصبی کانولوشنال فصل سیزدهم : کاربرد شبکه های عصبی در شناسایی پیش بینی و کنترل سیستم ها 4

فصل اول : مقدمه ای بر شبکه های عصبي 5

سیستم های پیچیده کلیه بخش ها با یکدیگر سیستم های پیچیده از بخش های مختلف تشکیل شده اند که در ارتباطند و همچنین بخش های سیستم ها با خارج در ارتباط هستند و در کنش و واکنش می باشند. انواع سیستم های پیچیده سیستم های حمل و نقل)زمینی دریایی و هوایی( سیستم های هواشناسی )منطقه ای محلی و جهانی( و آنها بین ارتباط و تخصصها ها سیستم های بیمارستانی )بخش بیمارستانهای دیگر و بیمه و...( درخواستها نیازها چون سیستم های اقتصادی)تحت تأثیرعواملی موجودیها و بحرانها... می باشد.( دارایی فقر و امکانات فردی و تحصیالت جوامع )فرهنگهای مختلف اجتماعی( سیستم های بیولوژیکی)شامل مغز مخچه سلولها و... می باشد( 6

7 :یبصع هکبش هکبش یاه یبصع رب ساسا یسانش راتفر نیشام یاه یکیژولویب تادوجوم هدنز یحارط هدش.تسا یعونصم یبصع یاه هکبش زا فده : هئارا یئاهشور تهج هدافتسا تخس زا اهرازفا ( تارادم ) و مرن اهرازفا ( متیروگلا )اه یارب داجیا تیلباق یاه دنمشوه هب هاگتسد اه توبور اه همانرب اه و هریغ... یم دشاب هک رداق هب یریگدای نیح دنیآرف یم.دشاب رد نیا سرد فده ییانشآ طقف اب متیروگلا اه و هوحن یگنوگچ هفاضا ندومن نآ هب /مرن تخس رازفا یم هکدشاب رد نیا اتسار همانرب اه )متیروگلا( رداق هب یریگدای یم.دنشاب

8 موهفم تسیچ شوه اب هجوت هب هکنیا ناققحم ات نونک هتسناوتن دنا هرابرد درکلمع زغم ناسنا هک رد عقاو لحم هیزجت و (لیلحت قاتا )نامرف نیشام یکیژولویب تادوجوم هدنز اصوصخ ناسنا فیرعت یعقاو هئارا دنیامن اذل خساپ هب نیا لاوس هب یگداس ناکما ریذپ یمن دشاب و یمن ناوت یخساپ نشور و فافش هئارا.دومن رد ره لاح نیشام یکیژولویب ار اب تیلباق یاه ریز یم ناوت دروم یسررب رارق :داد

9 موهفم تسیچ شوه یشزومآ یریذپ زا قیرط تفایرد هداد اه ( تاعلاطا ) و ای اهوگلا ای یبیکرت زا هداد اه و وگلا اه هظفاح رد یرادهگن ندومن تایبرجت شزومآ و هریغ و لباق یزاسزاب ندومن.اهنآ میمصت یریگ بسانم و یقطنم ساسارب یریگدای و تایبرجت شزومآ هدید.هتشذگ زاربا (رظن تاساسحا ) ساسارب دوجو تیعقاو هتشذگ.لاح و هدنامزاس دوخ لکش /یه یریذپ ینورد ساسارب یاهزاین یدرف.یعمج و طابترا رارقرب ندرک یقطنم اهوگلا ساسارب شزومآ هتشذگ هب ناونع لاثم یاوه یربا یریوصت زا ناکما دوجو یگدنراب ار رد نهذ ناسنا یعادت یم.دنک هئارا یخساپ بسانم هب یوحن هک کرحم یاه یجراخ زا دوخ کی سکع لمعلا یبسانم هئارا.دنهد

بررسی ساختمان سلول عصبی بیولوژیک شکل و ساختمان جسم سلولی نورون سوما body)soma( cell دندریت cell)dendrite( input آکسون cell)axon( output 0

Biology Inspiration Neurons respond slowly 0-3 s compared to 0-9 s for electrical circuits The brain uses massively parallel computation»0 neurons in the brain»0 4 connections per neuron Dendrites Human nervous system is built of cells call neuron Each neuron can receive, process and transmit electrochemical signals Dendrites extend from the cell body to other neurons, and the connection point is called synapse Signals received among dendrites are transmitted to and summed in the cell body If the cumulative excitation exceed a threshold, the cell fires, which sends a signal down the axon to other neurons Axon Cell body Synapse

مقدمهای بر شبکههای عصبی و قابلیتها و تاریخچه آن مفهوم پایه شبکههای عصبی چیست چرا شبکههای عصبی قابلیت یادگیری دارند چرا شبکههای عصبی قابلیت تعمیم پذیری ساختار دارند شبکههای عصبی تقریبی از رفتار مغز و اعصاب در قسمتهای مختلف بدن موجودات زنده هستند. شبکههای عصبی دارای قابلیتهای مختلف بر اساس کاربرد میباشند. شبکههای عصبی یک پردازشگر موازی است که در یک لحظه دارای آموزش و اعمال میباشند. 3

ارزش و قابلیت یادگیری در شبکههای عصبی دارای محاسبات قوی و ارزشمند از داده و اطالعات هستند. در ساختار شبکههای عصبی که دارای نرونها و الیههای زیاد هستند سیستم عصبی میشوند ولی زیاد در انعطاف پذیری و درجه آزادی محاسبات طوالنیتر خواهد شد. دارای توانایی زیاد در اصالح و تعمیم پذیری میباشند. دارای قابلیت حذف اغتشاش و نویز هستند. قابلیت تولید الگوریتم تطبیق پذیر هوشمند بر پایه کاربرد را دارند. باعث زمان 4

یبصع یاه هکبش یاهیگژیو 5 نونکات لدم یاه فلتخم اب راتخاس و متیروگلا یاه یعونتم زا هکبش یاه یبصع هئارا هدش تسا و ره دنچ نیا لدم اه اب رگیدکی توافت دنراد اما مامت نیا لدم اه کی فده کرتشم ار لابند یم.دننک هب روط یلک لولس یاه یبصع هک لیکشت هدنهد کی هکبش یبصع یم دنشاب نیشام یاه یتابساحم دنتسه هک زا یازجا )لولس(هداس و هریجنز یا لیکشت دنوش یم و صاوخ یاراد :دنریز تیلباق یریگدای و قیبطت یریذپ تیلباق میمعت یریذپ شزادرپ یزاوم مواقم ندوب تیلباق یمومع بیرقت

6 تیلباق یریگدای و قیبطت یریذپ تیلباق یریگدای ینعی ییاناوت میظنت یاهرتماراپ هکبش.یبصع یارب ن ا ی روظنم هنومن یاه هیلوا ار هب هکبش لامعا یم دننک هکبش اهرتماراپ ار رب ساسا نیا هنومن اه میظنت یم.دنک رگا هنومن یاه دیدج هب نیا هکبش هک هب نیا قیرط شزومآ هدید لامعا دوش یجورخ بسانم ار اب دصرد یاطخ کچوک یم ناوت تسدب.دروآ اب نیا بیترت هکبش یاه یبصع یم دنناوت اب رییغت طیارش هب تروص هنادنمشوه دوخ ار قیبطت ای حلاصا.دیامن

7 تیلباق میمعت :یریذپ سپ زا هکنآ هنومن یاه هیلوا هب هکبش شزومآ هداد دش هکبش یم دناوت رد لباقم یاهیدورو شزومآ هداد هدشن یاهیدورو( )دیدج رارق دریگ و کی یجورخ بسانم دیلوت.دیامن نیا یجورخ رب ساسا مسیناکم میمعت هک یزیچ زج دنیارف ییاینورد تسین هب تسد یم.دیآ شزادرپ :یزاوم یماگنه هک هکبش یبصع رد بلاق تخس رازفا هدایپ یم دوش ییاهلولس هک رد کی زارت رارق یم دنریگ یم دنناوت هب روط نامزمه هب یاهیدورو نآ زارت خساپ.دنهد نیا یگژیو ثعاب شیازفا تعرس شزادرپ یم.دوش رد عقاو رد نینچ یمتسیس هفیظو یلک شزادرپ نیب هدنزادرپ یاه رتکچوک لقتسم زا رگیدکی عیزوت یم.ددرگ

8 مواقم :ندوب رد کی هکبش یبصع راتفر یلک نآ لقتسم زا راتفر ره لولس رد هکبش یم دشاب عقاورد راتفر یلک هکبش دنیآرب یاهراتفر یلحم کت کت یاهلولس هکبش یم دشاب هک نیا رما ثعاب یم دوش ات اطخ یاه یلحم اهلولس زا مشچ یجورخ ییاهن رود.دننامب نیا تیصوصخ ثعاب شیازفا تیلباق مواقم ندوب رد هکبش یبصع یم.ددرگ تیلباق :یمومع بیرقت هکبش یاه یبصع دنچ هیلا اب کی ای دنچ هیلا یفخم هب طرش نآ هک دادعت یاهنورن هیلا اه یفخم یفاک هتشاد دنشاب یم دنناوت ره عبات ریغ یطخ هتسویپ یا ار رد یاضف یبیکرت نیمخت.دننزب

Applications Aerospace High performance aircraft autopilots, flight path simulations, aircraft control systems, autopilot enhancements, aircraft component simulations, aircraft component fault detectors Automotive Automobile automatic guidance systems, warranty activity analyzers Banking Check and other document readers, credit application evaluators Defense Weapon steering, target tracking, object discrimination, facial recognition, new kinds of sensors, sonar, radar and image signal processing including data compression, feature extraction and noise suppression, signal/image identification Electronics Code sequence prediction, integrated circuit chip layout, process control, chip failure analysis, machine vision, voice synthesis, nonlinear modeling 9

Applications Financial Real estate appraisal, loan advisor, mortgage screening, corporate bond rating, credit line use analysis, portfolio trading program, corporate financial analysis, currency price prediction Manufacturing Manufacturing process control, product design and analysis, process and machine diagnosis, real-time particle identification, visual quality inspection systems, beer testing, welding quality analysis, paper quality prediction, computer chip quality analysis, analysis of grinding operations, chemical product design analysis, machine maintenance analysis, project bidding, planning and management, dynamic modeling of chemical process systems Medical Breast cancer cell analysis, EEG and ECG analysis, prosthesis design, optimization of transplant times, hospital expense reduction, hospital quality improvement, emergency room test advisement 20

Applications Robotics Trajectory control, forklift robot, manipulator controllers, vision systems Speech Speech recognition, speech compression, vowel classification, text to speech synthesis Securities Market analysis, automatic bond rating, stock trading advisory systems Telecommunications Image and data compression, automated information services, real-time translation of spoken language, customer payment processing systems Transportation Truck brake diagnosis systems, vehicle scheduling, routing systems 2

فصل دوم : ارائه ساختارهای مختلف شبکه های عصبي Multi-layer Perceptron (MPL) 22

هر شبکه عصبی دارای سه ویژگی زیر می باشد: مدل سلول عصبی )نوع تابع( ساختار شبکه عصبی )نوع توپولوژی( آموزش در شبکه عصبی )نوع آموزش( خودسازماندهی ساختار درحین آموزش 23

مدل سلول عصبی توابع انتقال خروجی واقعی به تابع انتقال ویژه ای که انتخاب شده بستگی دارد و مورد نظر مسئله ای که سلول عصبی برای حل آن استفاده می شود سه نوع از پرکاربرد ترین آنها عبارتند از: باید معیار را برآورده های کند. تابع تابع تابع انتقال سخت محدود انتقال خطی انتقال لگاریتمی سیگموئید 24

مدل سلول عصبی توابع انتقال از آنجایی که تابع انتقال لگاریتمی سیگموئید یک تابع مشتق پذیر است عموما از آن در شبکه های چند الیه ای استفاده می شود که با استفاده از الگوریتم پس انتشار خطا ( Backpropagation ) آموزش می پذیرند. نمونه ای از این تابع به صورت زیر است: a netg e g مطابق این عبارت ورودی این تابع انتقال می تواند هر مقداری بین منفی بینهایت تا مثبت بینهایت باشد در حالیکه خروجی آن در بازه صفر و محدود شده است. 25

توابع انتقال hardlim(n) = if n >=0 =0 otherwise logsig(n) = / ( + exp(-n)) 26 poslin(n) = n, if n >= 0 = 0, if n <= 0 hardlims(n) = if n >= 0, - otherwise.

توابع انتقال purelin(n) = n 27 satlin(n) = 0, if n <= 0 = n, f 0 <= n <= =, if <= n satlins(n) = -, if n <= - = n, if - <= n <= =, if <= n

توابع انتقال tansig(n) = 2/(+exp(-2n))- tribas(n) = - abs(n), if - <= n <= = 0, otherwise 28 radbas(n) = exp(-n^2)

مدل سلول عصبی مدل سلول عصبی تک ورودی اگر این مدل ساده را با سلول عصبی بیولوژیکی که پیش از این شرح دادیم مقایسه کنیم وزن w مطابقت دارد با سیناپس بدنه سلول به وسیله عمل جمع و تابع انتقال بیان شده و خروجی سلول عصبی یا همان a نمایانگر سیگنال آکسون است. 29

سلول عصبی چند ورودی مدل سلول عصبی با چند ورودی عموما یک سلول عصبی بیش از یک ورودی دارد. هر کدام از ورودی های مجزا در وزن متناظر خود ضرب می شوند. بنابراین می توان ورودی ها را به صورت بردار p و وزن ها را به صورت ماتریس W تعریف نمود. 30

مدل سلول عصبی با چند ورودی و چند خروجی 3

کی ساختار های شبکه عصبی الیه از سلول عصبی یک سلول عصبی حتی با ورودی های زیاد ممکن است نیاز ما را براورده نکند. معموال به تعدادی از آنها که به صورت موازی عمل می کنند نیار می باشد که به آن یک شبکه یک الیه گفته می شود. 32

33 Layer of Neurons

34 Abbreviated Notation

ساختار شبکه عصبی چند الیه 35 R S S 2 S 3 Network

ساختار های شبکه الیه های چند گانه از سلول عصبی در یک شبکه چند الیه هر الیه ماتریس وزن W ویژه خود بردار بایاس b خود یک بردار ورودی n مربوط به خود و یک بردار خروجی a ویژه خود را دارد. الیه های مختلف می توانند تعداد نرون های متفاوتی داشته باشند. الیه ای که خروجی آن خروجی شبکه است یک الیه خروجی نامیده می شود. الیه های دیگر الیه های پنهان نام دارند. شبکه های چند الیه قدرتمند تر از شبکه های تک الیه هستند. برای نمونه یک شبکه دو الیه که شامل یک الیه اول سیگموئید و یک الیه دوم خطی می باشد می تواند به منظور تقریب اکثر توابع اختیاری آموزش داده شود. بیشتر شبکه های کاربردی تنها دو یا سه الیه دارند. 36

x x 2 W First active layer n f o W 2 Second active layer 2 n 2 f 2 o x 3 n 2 f 2 o (a) General structure with two activation layers 37

neuron w w 2 n F o 2 neuron x x 2 x 3 w 3 w 2 w 22 w 23 w 0 x 0 w 20 n 2 F 2 o 2 (2) w (2) w 2 2 w 0 2 o 0 2 n 2 F 2 o neuron 2 x 0 (b) Specific structure with two activation layers

Nonlinear mapping ( n 0 ) x R w n 2 F (0) F (0) o 2 w n 2 ( n 2 ) y R x ( n 0 ) R F 2 w 2 F w x ( n 2 ) y R x R 4.3 : Two-layered neural network: nonlinear mapping for input ( ) to ( n output ( 2 ) y R ) ( n 0 )

w n f 2 w 2 n 2 o d x x 2 x 0 = w 2 n 2 e e f 2 2 w 2 2 n 2 e 2 o 2 d 2 x n0 e 2 e 2 w n n n e 2 f n 2 w n2 2 n n2 2 o n2 d n2 e n e n2 e n2

X 0 First activation layer neuron o 0 Second activation layer 2 neuron 2 o 0 Neural inputs x R n 0 X neuron 2 o 2 neuron 2 2 o Neural outputs o R n 2 X n0 neuron n (Hidden layer) 2 neuron n2 o o n n 2 (Output layer) A two-layered feedforward neural network : n hidden neurons, and n 2 output neurons x o [ x... x [ o... o i i... x n... o 0 ] n ] T T R R n n 0

Feedforward part x R ( n 0 ) w n F (.) o R ( n ) 2 w 2 F (.) o R 2 n 2 2 _ + d R n2 e e Backpropagation part 4.8 : The matrix representation of backpropagation learning for two-layered feedforward neural network with linear output neurons

O n 0 0 X c 0 O 2 Xc 2 O.. X. X 2 cn2. f f. W W 2. f. f 2 f 2.. f 2.... d d 2..... X n d n 43

Z - Z - Z - Z - خروجي ه ا عم لگر ت اخير ورودي ه ا 44

فصل سوم : ارائه مفاهیم پایه در آموزش شبکه های عصبی بر اساس الگوریتم پس انتشار 45

قوانین یادگیری شبکه های عصبی یادگیری بدون مربی یادگیری تقویتی یادگیری با مربی مربی با یادگیری ) ( در یادگیری با مربی قانون یادگیری به وسیله از رفتارهای مناسب شبکه ایجاد می شود: مجموعة مثالهایی مجموعة آموزشی {x, t }, {x 2, t 2 },, {x Q, t Q } 46

بقع هب راشتنا متیروگلا نیا متیروگلا یم دناوت رد شزومآ یاهنورتپسرپ دنچ هیلا هک رداق هب لح لئاسم یطخریغ دنتسه راکب.دور نورتپسرپ دنچ هیلا هک اب متیروگلا راشتنا هب ب ع ق شزومآ هدید دشاب رد لاح رضاح دربراکرپ نیرت هکبش یبصع تسا هک هب روط هدرتسگ هدافتسا.دوش یم بیرقت عبات یاه هکبش یبصع هب ناونع رگاسانش و رلرتنک یاهمتسیس یکیمانید یاهدربراک یناوارف.دنراد یاه هکبش یبصع نورتپسرپ دنچ هیلا هب ناونع کی بیرقت رگ یمومع هتخانش دنوش یم و نیا تیلباق رد اهنآ هتفهن تسا هک هب ناونع کی هنیزگ رایسب بسانم و روهشم تهج لرتنک یطخریغ و نینچمه ییاسانش و یزاسلدم یاهمتسیس یطخریغ حرطم.دنتسه نیاربانب هکبش یاه یبصع هب ناونع بیرقت هدننز یاه عباوت هب راک یم.دنور یارب لاثم رد یاهمتسیس لرتنک فده نتفای کی عبات دروخزاب بسانم تسا هک یجورخ ی ه ا هزادنا هدش یریگ ار هب یدورو یاه لرتنک تشاگن.دنک 47

الگوریتم انتشار به عقب روش مبنای بر آموزش الگوریتم انتشار به عقب در شبکه های چند الیه خروجی دهد. می تشکیل را بعدی الیه ورودی یک الیه o s+ = f s+ ( W s+ o s + b s+ ) For s= o,,, M- شاخص عملکرد این در عملکرد شاخص الگوریتم خطای باشد. می مربعات میانگین J(x) = E[e T e] = E[(t-o) T (t-o)] 48

الگوریتم انتشار به عقب (GD) الگوریتم (w) شیبدارترین نزول تقریب برای خطای میانگین net s i ( k) W s i ( k) O ( s k ) For s=, It means in first active layer the summation of weigthed input is; Net ( k) W ( k) O 0 ( k) 49

of is; The size 0 W n n 50 W 0, 0 0 0 0 0 0,,3,2 4, 4, 3, 3,2 3,, 2, 2,3 2,2 2,,,,3,2,,...,,,......,...,,...,,,,...,,,,,...,,, n n n n n n n n n n n w w w w w w w w w w w w w w w w w w w

of is; The size 0 n 0 O 5 0 O 0 0 4 3 2.. n n x x x x x x

O 52 3 2 3 2 3 2...... (.) 0,0,0,0,0,0, (.),0 0,0,0,0,0,...... (.),0,0,0,0 0,0, (.),0,0,0,0,0 0, (.),0,0,0,0,0,0.. n n n n n n net net net net net f f f f f o o o o o :

متیروگلا نیرترادبیش لوزن (GD) یارب بیرقت یاطخ نیگنایم (w) ) ( ) ( ) (,,, k w k w k w m j i m j i m j i 53 بقع هب راشتنا متیروگلا w m j i k w ) (, ) ( ) ( ) (, k o k s w k J m j m i m j i ) ( ) ( ) ( k net k J k s m i m i ) ( ) ( ) (, k w k net k o m j i m i m j

الگوریتم انتشار به عقب (GD) الگوریتم میانگین شیبدارترین (b) نزول برای تقریب خطای b m i m m ( k ) b ( k) b ( k) m b k) i ( m s b J b m i i i s m i ( k) J ( k) m b ( k) i 54

نوناق هریجنز یا یارب هکبش دنچ هیلا اطخ یحیرص عبات زا نزو اه رد هیلا یاه ناهنپ یمن دشاب نیاربانب تاقتشم هب یناسآ لباق هبساحم.دنتسین m j i m i m i m j i w net net J w J,, m i m i m i m i b net net J b J 55 بقع هب راشتنا متیروگلا

m i m j S j m j i m j i b o w net m,,,, m i m i m j m j i m i b net o w net m i m i net J s, m j m i m j i o s w J m i m i s b J,, ) ( ) ( m i m i m j i m j i o s k w k w m i m i m i s k b k b ) ( ) ( 56 بقع هب راشتنا متیروگلا نوناق هریجنز یا

یارب تیساسح هبساحم اه هب دربراک یرگید زا نوناق هریجنز یا زاین :میراد ) ( ) (,,,, m j m m j i m j m j m m j i m j m j m j i m j s l m i m l m l i m j m i n f w n n f w n a w n b a w n n m m j m j m m j m n n f n f ) ( ) ( 57 اه تیساسح بقع هب راشتنا متیروگلا

نونکا یم میناوت یشخب ار هدهاشم مینک هک متیروگلا راشتنا هب بقع مان دوخ ار زا نآ هتفرگ.تسا تیساسح اه رد هکبش هب تمس بقع زا نیرخآ هیلا هب نیلوا هیلا راشتنا یم :دنبای ) )( ( ˆ ) )( ( ˆ ˆ m T m m m m T m m m m T m m m m F F F s W n F n W n F n n n n s 2 s s s s M M 58 اه تیساسح بقع هب راشتنا متیروگلا

هطقن زاغآ یارب طابترا یتشگزاب هلداعم لبق زا هلداعم ریز هب تسد یم :دیآ M i i i i M i s j j j M i T M i M i n a a t n a t n n F s M ) 2( ) ( ) ( ) ( ˆ 2 a t a t ) ( ) ( M j M M i M j M M i M i M i i n f n n f n a n a ) ( ) 2( M j M i i M i n f a t s ) )( ( 2 a t n F s M M M 59 اه تیساسح بقع هب راشتنا متیروگلا

هکبش راتخاس باختنا هکبش یاه دنچ هیلا ابیرقت یم دنناوت یارب بیرقت ره یعبات هدافتسا دنوش هب یطرش هک هب دادعت یفاک نورون رد هیلا یاه ناهنپ هتشاد.میشاب رگا میهاوخب یعبات ار بیرقت مینزب هک دادعت رایسب یدایز هطقن یگدیمخ دراد دنمزاین نآ میهاوخ دوب هک دادعت رایسب یدایز نورون رد هیلا ناهنپ هتشاد.میشاب 60 بقع هب راشتنا متیروگلا

ییارگمه یماگنه هک متیروگلا راشتنا هب بقع ارگمه یم دوش یمن میناوت نئمطم میشاب هک کی باوج هنیهب.میراد رتهب نیا تسا هک نیدنچ تیعضو هیلوا توافتم ار هب روظنم نانیمطا زا باوج هکنیا هنیهب هب تسد هدمآ تسا ناحتما.درک 6 بقع هب راشتنا متیروگلا نداد میمعت هکبش دیاب دناوتب هچنآ ار دای هتفرگ تسا هب هیلک تلاح اه تیعمج( )یدورو میمعت.دهد یارب هکنیا کی هکبش دناوتب میمعت دهد دیاب رتماراپ یاه یرتمک زا طاقن هداد دوجوم رد هعومجم شزومآ هتشاد.دشاب رد هکبش یاه یبصع رد مامت لئاسم لدم ندرک ام یم میهاوخ زا هداس نیرت هکبش یا هدافتسا مینک هک دناوتب روط هب بسانم هعومجم شزومآ ار هئارا.دهد

متیروگلا راشتنا هب بقع کی شهج گرزب رد شهوژپ یاه هکبش یبصع.دوب هب ره لاح متیروگلا هیاپ یارب رثکا دربراک یاه یلمع رایسب دنک.تسا یاهداریا راشتنا بقع هب حطس ییاراک یارب کی هکبش دنچ هیلا نکمم تسا لماش نیدنچ هطقن هنیمک یلحم دشاب و یانحنا نآ یم دناوت رد یحاون فلتخم زا یاضف رتماراپ لاماک رییغت.دنک رد یلئاسم هک انحنا ادیدش یور یاضف رتماراپ رییغت یم دنک باختنا کی خرن شزومآ بسانم یارب متیروگلا شزومآ لکشم دهاوخ.دوب یارب یحاون حطسم کی خرن شزومآ گرزب زاین یم دشاب هکیلاحرد یارب یحاون اب یانحنا دایز دنمزاین کی خرن شزومآ کچوک.میتسه تهج ییاه هیور دوبهب متیروگلا راشتنا بقع هب شبنج ینآ نیا شور اب راومه ندرک تاناسون ینحنم یاضف اهرتماراپ ییارگمه ار دوبهب یم دهد هک نیا راک ار یم ناوت اب هدافتسا زا کی رتلیف نییاپ رذگ ماجنا.داد 62 بقع هب راشتنا متیروگلا یفاشتکا یاه حلاصا

اصالح های اکتشافی الگوریتم انتشار به عقب مثالی از استفاده فیلتر پایین گذر در فرمول زیر w(k) ورودی است. فیلتر و y(k) خروجی فیلتر و γ ضریب جنبش آنی y( k) γy( k ) ( γ) w( k) 0 γ برای فیلتر این مثال ورودی فیلتر موج سینوسی در شکلهای زیر دیده می شود: این تاثیر است. شده گرفته نظر در 2 2 /5 /5 0/5 0/5 63 0 0 50 00 50 200 a) γ=0/9 2πk w( k) sin 6 0 0 50 00 50 200 b) γ=0/98

اصالح های اکتشافی الگوریتم انتشار به عقب استفاده از فیلتر پایین گذر درمورد شبکه عصبی زمانی که فیلتر جنبش آنی به تغییرات پارامتر در به روز رسانی وزن ها و بایاس می شود معادالت زیر برای جنبش آنی اصالحی انتشار به عقب به دست می آید: اضافه ها W ( ) αs ( a m m m T k ) b m ( k) αs m با استفاده از جنبش آنی توانایی استفاده از نرخ آموزش بزرگتر با حفظ ثبات الگوریتم را داریم خصوصیت دیگر جنبش آنی این است که در مدتی که منحنی در یک جهت ثابت باشد تمایل به تسریع همگرایی دارد و دلیل نامگذاری جنبش آنی به این خاطر است که تمایل به واداد کردن منحنی به ادامه در جهت مشابه دارد. هرچه مقدار γ بیشتر باشد منحنی دارای جنبش آنی بیشتری است. 64

اصالح های اکتشافی الگوریتم انتشار به عقب نرخ آموزش متغیر با استفاده از افزایش نرخ آموزش در سطوح هموار و سپس کاهش آن زمانیکه شیب افزایش می یابد می توان همگرایی را بیشتر کرد. بنابراین می توان همگرایی را توسط تنظیم نرخ آموزش در مدت آموزش افزایش داد. تعیین زمان تغییر نرخ آموزش و اینکه چه مقدار آن را تغییر دهیم یک لم است. 65

قوانین الگوریتم انتشار به عقب با نرخ آموزش متغییر اگر خطای آموزشی بیشتر از یک میزان معین ζ )بطور نمونه تا 5 درصد( بعد از به روز رسانی وزن ها افزایش یابد به روز رسانی وزن ها رها شده نرخ آموزش در فاکتور > >0 ρ ضرب می شود و ضریب جنبش آنی صفر مقدار دهی می شود. اگر خطای مربعی بعد از به روز رسانی وزن ها کاهش یابد به روز رسانی وزنها مورد قبول بوده و نرخ آموزشی در فاکتور < ή ضرب می شود. اگر ضریب جنبش آنی قبال صفر شده باشد با مقدار اصلیش دوباره مقدار دهی می شود. اگر خطای مربعی کمتر از ζ کاهش یابد به روز شده اما نرخ آموزش و ضریب جنبش آنی بدون تغییر رسانی وزن می مانند. واقع قبول مورد ها 66

اصالح های اکتشافی الگوریتم انتشار به عقب می شود: دیده زیر در شکل آموزش ترخ تغییر از مثالی /5 Squared Error 60 Learning Rate 40 0/5 20 0 0 0 0 0 0 2 0 0 0 0 2 0 3 Iteration Number Iteration Number 67

تلااکشا شور یاه یحلاصا یاهحلاصا یفاشتکا یم دناوت لاومعم ییارگمه رایسب یرتعیرس ار یارب یخرب زا لئاسم مهارف.دنک هب لاحره ود لاکشا یلصا یارب نیا اهشور دوجو :دراد نیا تاحلاصا زاین هب رادقم یهد نیدنچ رتماراپ دنراد و ییاراک متیروگلا ساسح هب تارییغت نیا رتماراپ.تساه نیا تاحلاصا یضعب عقاوم نکمم تسا رد ییارگمه هلئسم قفوم.دوشن 68 بقع هب راشتنا متیروگلا یفاشتکا یاه حلاصا

روش پیشنهادی برای افزایش سرعت همگرایی الگوریتم ترکیبی در این روش یک الگوریتم ترکیبی برای آموزش با مربی شبکه های ارائه شده است. این الگوریتم برای یک شبکه دو الیه ارائه شده اما می شبکه های چند الیه نیز به کار برد. عصبی پیشخور توان آن را برای الگوریتم ارائه شده برای افزایش سرعت آموزش در الگوریتم انتشار به عقب پایه استفاده شده است. در این الگوریتم دو روش مختلف برای به روز کردن وزن ها استفاده شده است: یکی از روش های آموزش استاندارد برای الیه اول. استفاده از رابطه زیر در آموزش الیه دوم. 2 e و d از روابط زیر به دست می آیند: d = f - (d) 69 min e = d (Wx + b) E T d y d y min E f d T * e f d * e

روش پیشنهادی برای افزایش سرعت همگرایی با استفاده از جایگزینی طرف راست آخر در تابع غیر خطی الیه آخر ظاهر رابطه اصلی نمی شوند. الگوریتم در الیه های وزن آموزش در این بنابراین روش ابعاد فضای جستجوی مؤثر برای الگوریتم تعداد تکرار های آموزش کمتر خواهد شد. یابد. می کاهش خطی غیر 70

یاه ماگ متیروگلا یبیکرت.I باختنا نزو اه و سایاب اه هب روط یفداصت و ای اب هدافتسا زا شور یاه رادقم هیلوا.II هب زور ندرک نزو اه و سایاب اه اب هدافسا زا کی شور درادناتسا دننام متیروگلا راشتنا هب بقع هیاپ.III یسررب نوناق فقوت و نایاپ نداد هب شزومآ رد تروص اضرا ندش نیا نوناق ای نتفر هب مدق 4 رد ریغ تروصنیا رد متیروگلا هئارا هدش ادتبا رتماراپ یاه ره ود هیلا زا شور درادناتسا یارب شزومآ هدافتسا یم دننک اما رد تروص مک ندش تارییغت اطخ زا شور یبیکرت هدافتسا هدش هک شور شزومآ یاهرتماراپ هیلا مود رییغت هدرک و هب یتروص هک هئارا دش شزومآ یم.دنیب 7 ییارگمه تعرس شیازفا یارب یداهنشیپ شور

فصل چهارم : بررسی روشهای مختلف آموزش در شبکه های عصبی 72

Learning Rules Supervised Learning Network is provided with a set of examples of proper network behavior (inputs/targets) { p, t } { p 2, t 2 } { p Q, t Q } Reinforcement Learning Network is only provided with a grade, or score, which indicates network performance Unsupervised Learning Only network inputs are available to the learning algorithm. Network learns to categorize (cluster) the inputs. 73

Learning Rules Supervised Learning Early learning algorithms First order gradient methods Second order gradient methods Early learning algorithms 74 Designed for single layer neural networks Generally more limited in their applicability Some of them are Perceptron learning LMS or Widrow- Hoff learning Grossberg learning

75 McCulloch-Pitts Perceptron

76 Perceptron Architecture AGAIN!!!!

77 Unified Learning Rule

78 Multiple-Neuron Perceptrons

Perceptron Rule Capability The perceptron rule will always converge to weights which accomplish the desired classification, assuming that such weights exist. 79

Rosenblatt s single layer perceptron is trained as follow:. Randomly initialize all the networks weights. 2. Apply inputs and find outputs ( feedforward). 3. compute the errors. 4. Update each weight as w ij ( k ) w ( k) p ( k) e ( k) ij 5. Repeat steps 2 to 4 until the errors reach the satisfictory level. i j 80

8 Recurrent Network

82 Hamming Network

83 Feed Forward Layer

84 Recurrent Layer

85 Hamming Operation

86 Hamming Operation

87 Hopfield Network

88 Performance Optimization Gradient based methods

89 Basic Optimization Algorithm

90 Steepest Descent (first order Taylor expansion)

Example Plot 2 0-9 -2-2 - 0 2

LMS or Widrow- Hoff learning First introduce ADALINE (ADAptive LInear NEuron) Network 92

LMS or Widrow- Hoff learning or Delta Rule ADALINE network same basic structure as the perceptron network 93

94 Approximate Steepest Descent

95 Approximate Gradient Calculation

LMS Algorithm This algorithm inspire from steepest descent algorithm 96

97 Multiple-Neuron Case

Difference between perceptron learning and LMS learning DERIVATIVE Linear activation function has derivative but sign (bipolar, unipolar) has not derivative 98

Grossberg learning (associated learning) Sometimes known as instar and outstar training Updating rule: w ( k ) w ( k) x ( k) w ( k) i i Where could be the desired input values (instar training, example: clustering) or the desired output values (outstar) depending on network structure. Grossberg network (use Hagan to more details) x i i i 99

First order gradient method Back propagation 00

Multilayer Perceptron 0 R S S 2 S 3 Network

02 Function Approximation Example

Nominal Response 3 2 0 - -2-0 2 03

04 Parameter Variations

05 Multilayer Network

06 Performance Index

07 Chain Rule

Gradient Calculation 08

09 Steepest Descent

0 Jacobian Matrix

Backpropagation (Sensitivities)

2 Initialization (Last Layer)

3 Summary

Summary Back-propagation training algorithm Network activation Forward Step Error propagation Backward Step Backprop adjusts the weights of the NN in order to minimize the network total mean squared error. 4

5 Example: Function Approximation

6 Network

7 Initial Conditions

8 Forward Propagation

9 Transfer Function Derivatives

20 Backpropagation(BP)

2 Weights Update

22 Choice of Architecture

23 Choice of Network Architecture

Convergence Global minimum (left) local minimum (right) 24

25 Generalization

Disadvantage of BP algorithm Slow convergence speed Sensitivity to initial conditions Trapped in local minima Instability if learning rate is too large Note: despite above disadvantages, it is popularly used in control community. There are numerous extensions to improve BP algorithm. 26

Improved BP algorithms First Order Gradient Method Second Order Gradient Method 27

فصل پنجم : بهبود الگوریتم پس انتشار خطا Improved BP algorithms 28

Improved BP algorithms First Order Gradient Method. BP with momentum 2. Delta- bar- delta 3. Decoupled momentum 4. RProp 5. Adaptive BP 6. Trianary BP 7. BP with adaptive gain 8. Extended BP 29

- BP with momentum (BPM) The basic improvement to BP (Rumelhart 986) Momentum factor alpha selected between zero and one Adding momentum improves the convergence speed and helps network from being trapped in a local minimum. 30

Modification form: Proposed by nagata 990 Beta is a constant value decided by user Nagata claimed that beta term reduce the possibility of the network being trapped in the local minimum This seems beta repeating alpha rule again!!! But not clear 3

2- Delta-bar-delta (DBD) Use adaptive learning rate to speed up the convergence The adaptive rate adopted base on local optimization Use gradient descent for the search direction, and use individual step sizes for each weight 32

3- RProp Jervis and Fitzgerald (993) and limit the size of the step 33

Improved BP algorithms Second Order Gradient Method. Newton 2. Gauss-Newton 3. Levenberg-Marquardt 4. Quickprop 5. Conjugate gradient descent 6. Broyde Fletcher-Goldfab-Shanno 34

Performance Surfaces Taylor Series Expansion 35

36 Example

37 Plot of Approximations

38 Vector Case

39 Matrix Form

Performance Optimization Basic Optimization Algorithm Steepest Descent 40

4 Minimizing Along a Line

42 - Newton s Method

43 Example

44 Plot

45 Non-Quadratic Example

46 Different Initial Conditions

DIFFICULT Inverse a singular matrix!!! Complexity 47

48 Newton s Method

49 Matrix Form

50 Hessian

5 2- Gauss-Newton Method

52 3- Levenberg-Marquardt

53 Adjustment of μ k

54 Application to Multilayer Network

55 Jacobian Matrix

56 Computing the Jacobian

57 Marquardt Sensitivity

58 Computing the Sensitivities

LMBP Present all inputs to the network and compute the corresponding network outputs and the errors. Compute the sum of squared errors over all inputs. Compute the Jacobian matrix. Calculate the sensitivities with the backpropagation algorithm, after initializing. Augment the individual matrices into the Marquardt sensitivities. Compute the elements of the Jacobian matrix. Solve to obtain the change in the weights. 59 Recompute the sum of squared errors with the new weights. If this new sum of squares is smaller than that computed in step, then divide m k by u, update the weights and go back to step. If the sum of squares is not reduced, then multiply m k by u and go back to step 3.

60 Example LMBP Step

6 LMBP Trajectory

62 5- Conjugate Gradient

LRLS Method Recursive least square method based method, does not need gradient descent. 63

LRLS Method Cont. 64

65 LRLS Method Cont.

Example for compare methods Algorithms Average time steps (cut off at 0.5) Average time steps (cut off at 0.) Average time steps (cut off at 0.05) BPM 0 75 594 DBD 64 67 2382 LM 2 23 264 LRLS 3 9 69 66

IGLS (Integration of the Gradient and Least Square) The LRLS algorithm has faster convergence speed than BPM algorithm. However, it is computationally more complex and is not ideal for very large network size. The learning strategy describe here combines ideas from both the algorithm to achieve the objectives of maintaining complexity for large network size and reasonably fast convergence. The out put layer weights update using BPM method The hidden layer weights update using BPM method 67

فصل ششم : شبکه عصبي بازگشتي Recurrent Networks 68

Recurrent Networks Feed forward networks: Information only flows one way One input pattern produces one output No sense of time (or memory of previous state) Recurrency Nodes connect back to other nodes or themselves Information flow is multidirectional Sense of time and memory of previous state(s) 69 Biological nervous systems show high levels of recurrency (but feed-forward structures exists too)

Recurrent Networks Recurrent Network with hidden neuron: unit delay operator z - is used to model a dynamic system z - z - input hidden output z - 70

7 Rabinson and Fallside

72 Elman

Jordan 73

74 Elman and Jordan

Jordan Learning net Wx. X ( t) Wc. X c( t) where : X t O t y t 2 c( ) ( ) ( ) F ( net ) O ( net ) 2 net W y. O ( t) 2 2 2 2 2 F ( net ) O ( net ) y( net ) 75

Jordan Learning E W x W E W y W y E E O net O net Wc..... 2 2 Wc O net O net Wc 76 x 2 2 2. e. F. Wy. F. X c( t) Wc. W =.. Xc( t) Wc. X X c W c W t c t c

Elman and Jordan Learning net Wx. X ( t) Wc. X c( t) Wc2. X c2( t) where : X t O t y t X t O t y t c( ) ( ) ( ) 2 c2( ) ( ) ( ) F ( net ) O ( net ) 2 net W y. O ( t) 2 2 2 2 2 F ( net ) O ( net ) y( net ) 77

Elman and Jordan Learning E W y W y E Wx Wx E Wc W E Wc2 W c c2 () (2) (3) (4) 78

2 2 E E O net ) W.... e. F y (.). O W 2 2 O net W y y 2 2 79

E E O net O net 2) Wx..... W 2 2 O net O net W x 2. e. F. W y. F. X ( t) 2 2 x 80 W x.. Xt ( )

E E O net O net 3) Wc..... W 2 2 O net O net W c W c = W.. Xc( t) c... O ( t ) Wc. 2 2 2. e. F (.). Wy. F (.). X c( t) Wc. X c W t c ( ) Wc O t c X c W t c 8

E E O net O net 4) Wc2..... W 2 2 O net O net W c2 W = W c2.. Xc2 ( t) c2. 2.. O ( t ) Wc2. 2 2 2. e. F (.). Wy. F (.). X c2 ( t) Wc2. X c2 W t c2 2 O ( t) Wc2 c2 X c2 W t c2 82

Jordan with Neuron Feedback X c( t) O ( t ) X c( t ) O ( t ) O ( t 2) net ( t) Wx. X ( t) Wc. X c( t) W x. X ( t) Wc. O ( t ) O ( t 2) 83

Jordan with Neuron Feedback net ( t) Wx. X ( t) Wc. X c( t) Wx. X ( t) Wc. O ( t ) O ( t 2) 2 2 E E O net O net Wc...... W 2 2 c O net O net Wc 2 Xc() t. e. F (.).. F Wy (.). X c( t) Wc. W c 84

Flexible NN Neuron Functions (Unipolar) f x exp gx F( a, x) 2 a e 2 ax. 85

Flexible NN Neuron Functions (Bipolar) g x exp exp gx gx F( a, x) e e 2 ax. 2 ax. 86

Flexible NN Structure a x W net F O W2 a 2 2 net 2 F O t 2 e x 2 a net 2 F 2 O 2 2 net 2 2 F 2 2 O 2 e 2 t 2............... a 2... x n a 2 net n2 2 F n2 2 O n2 e n2 t n2 net n F n O n 87

Feed Forward of FNN T net2 ( ) W. X net k net net n O ( k) F ( a, net ( k)) 2 net 2 2 T net2 net ( k) W. O 2 2 net n 2 2 2 2 O k F a net k ( ) (, ( )) 2 2 2 2 O F ( a, net ) 0 0 2 2 2 2 O2 0 F2 ( a, net2 ) 0 0 0 2 2 2 2 On 2 0 0 Fn ( a, netn ) 88

Learning E e t o 2 2 n2 n2 2 2 2 i ( i i ) i i E ak ( ). ak ( ) 2 2 E E O ( k) 2 2 2 2 a ( k)..( e). F 2 2 2 2( a, net ). e. F 2( a, net ) a ( k) O ( k) a ( k) 2 2 2 F ( a, net ) 2 2 2 2 2 2 2 2 2 2 2 2 a.* net 2 a.* net 2 2 a.* net 2 2 2 a.* net 2 a.* net (2 net e )( e ).* a [( e ) a.*( 2 net e )].*( e ) 2 2 ( a ).*( e ) 2 2 2 a.* net 2 2 2 2 2 2 2 2 2 2 a.* net 2 a.* net 2 a.* net 2 a net e ( e e ) ( a ).*( e 2 2 2 a.* net 2 2 2 2 2 2 a.* net 2 a.* net ( e )( e ) ) ( a ).*( e ) 2 2 2 2 2 2 2 a.* net 2 a 2 2 2 2 a.* net 4net e 2 2.*( e ) 2 2 a.* net 2 a 2 2 2 2 F ( a, net ) 89

Learning E e t o 2 2 n2 n2 2 2 2 i ( i i ) i i E ak ( ). ak ( ) 2 2 E E O k net k O k a ( k). 2 2 2 2 2 2 2 2 ( ) ( ) ( ) a ( k) O ( k) net ( k) O ( k) a ( k). e. F( a, net ). W. F( a, net ) Derived respect to net Derived respect to a 90

Recurrent Flexible NN E ak ( ). ak ( ) 9

فصل هفتم :شبکه های حافظه دار TDLV گاما و 92

حافظه درشبکه عصبی شبکههای عصبی می توانند بهتر سریهای زمانی را مدل کنند. روشهای از خطی کالسیک مشخصات پیچیده به صورت تئوری نیازی به این که آیا سری زمانی ایستا است یا خیر جهت مدلسازی با شبکههای عصبی نداریم. شبکههای عصبی نیاز به تعداد عظیمی از دادههای به عنوان ورودی ندارند بر عکس روشAR. 93

W W 95

پیش بینی با کمک MLP X x( n) x( n) x( n ) x( n ) x( n ) x( n 2) T شکل اعمال ورودی شکل اعمال خروجی 96

شبکه های حافظه دارTDL وگاما سند برگ ( 997( : هر تغییر زمانی در یک نگاشت دینامیکی میتواند به طور تقریبا کاملی توسط یک ساختاری که دارای 2 بلوک است که بلوک اول بانک فیلترهای خطی شبکه می باشد و بلوک استاتیکی بعدی خود را تغذیه میکند مدل شود. FIR, IIR فیلترهای مشکالت IIR مزایا : بوجود آمدن ناپایداری ها در آموزش : FIR ظرفیت محدود مدلسازی : IIR کم بودن پارامترها در حوزه های بزرگ زمان : FIR پایداری شبکه 97

200 یجورخ و ینایم یاه هیلا هب هظفاح لامعا.. m m n T n m m n T n X G F Net F X G Net p n n T p Net F G O t t X ) (. ) ( ) ( ˆ 2 T m t x t x t x X ) (,, ) (, ) (

مزایا و توپولوژی اعمال فیلتر داشتن بیش از یک وزن تحت آموزش در هر سیناپس در دسترس بودن داده های زمانهای گذشته آموزش پارامترهای فیلتر دیجیتال در صورت وجود 20

202 یژولوپوت و TDL ورشیپ تابساحم ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (, 2 3 2 0 t x t x t x t x t x t x t x t x k ij ijk ij ij ij ij ij ij k l ijl ijl ijk ijk ij ij ij ij ij t x w t x w t x w t x w t y 0 0 0 ) ( ) ( ) ( ) ( ) (

203 ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( 0 0 0 0 t x t x t x t x t x t x t x z z t x z G t x m m m m m m k l ijl ijl ijk ijk ij ij ij ij ij t x w t x w t x w t x w t y 0 0 0 ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (, t x t x t x l ij ij ijl ij ijl m m یژولوپوت و TDL ورشیپ تابساحم

اماگ هکبش شزومآ (BP) ) ( ) ( t x t w y ijl ijl ij k l k l ijl ijl ij ijl ijl ij ij t w t x w t y 0 0 ) ( ) ( ) ( m m ij ij l ij l ij ij ij ijl ijl ij ij l ij l ij ij ij ij ij ijl ijl ij ij ijl t x t x t x t x t x t x t x t x t m m m m m m m m m m m m ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (,,,, ) ( ) ( ) ( ) ( ) ( ) ( ) (,, t x t x t t t t x ijl l ij l ij ij ijl ij ijl ij ijl m m m 0 0 ) ( ) ( ij i ij ij ij w u t y x t y 204

نمودار پیش بینی با شبکه های حافظه دار شبكهTDL شبكه گاما 205

206 اهشور هسیاقم N i N i i x i x i x i x NMSE 2 2 )) ( ) ( ( )) ( ) ( ˆ( N i i x i x N MAE ) ( ) ˆ( N i i x i x N MBE ) ( ) ˆ( N i i x i x N RMSE 2 )) ( ) ( ˆ(

نتیجه گیری روشهای سری زمانی غیرخطی شبکه های عصبی برتری خاصی برروشهای غیرشبکه عصبی دارند )همانطورکه انتظارداشتیم(. بزرگترین مشکل در روش کالسیک یافتن جواب بهینه به صورت سعی وخطا میباشد و شبکه های عصبی نیزاین مشکل را دریافتن تعداد الیه های میانی بهینه دارند. هنگامی که واحد حافظه را به داخل شبکه انتقال دادیم جوابها بسیار بهتر شدند.اما نکته مهم اینجاست که نتایج روش TDL تقریبا به گاما بسیارنزدیک بوده این امر میزان اهمیت و رجحان وزنها را برپارامترعمق حافظه می رساند. درشبکه های حافظه دار) TDL گاما( اهمیت فوق العاده الیه میانی دارا می باشد. 207

فصل هشتم : شبکه عصبي مدل مخچه CMAC Neural Network and TD-CMAC 208

CMAC Neural Network and TD-CMAC Introduction Time Series Cerebellar Model Arithmetic Computer (CMAC) Time-Delay CMAC (TD-CMAC) - Output Mapping 2- Learning Algorithm Evaluation of TD-CMAC Conclusion 209

معماری CMAC 20

CMAC Model Input Space + + + Weights Adjustment Obtained Output - + + Weights Table Block diagram of CMAC 22

CMAC Model (Example) S 2 i h g f e d c b a 6 5 4 3 2 0 Hh Bb Fe State(4,3) 0 2 3 4 5 6 S A B C D E F G H I The CMAC structure with two inputs 23

CMAC خروجی و الگوریتم یادگیری در نگاشت y(s) W new a T W (s) W old M j e a j (s) W j T a( s)( yˆ( s) a ( s) Wold) N :CMAC ویژگیهای 24

Time Series Modeling X(t) X(t-) X(t-d) F(.) X(t+) X(t ) F( X(t) X(t -) X(t -2) X(t -d) ) e(t) Converting prediction of time series to function approximation 27

TD-CMAC Model X(t) X(t-) X(t-d) TD-CMAC X(t+) block diagram of TD-CMAC model 28

TD-CMAC Model X(t-d) X(t-d+). X(t-2) X(t-) X(t) CMAC C. CMAC... C 2 CMAC C d B CMAC... C 22 X(t+)... CMAC.... C 2d B 2 CMAC C dd B d 29 The structure details of TD-CMAC model

TD-CMAC Model - Output Mapping y ( s) a( s) W a ( s) d d M i ji k ijk w ijk 2- Learning Algorithm W new W c ij ( s) ij old N e c( s) a( s)( yˆ( s) y( s)) 220

TD-CMAC (Example) X(t-2) X(t-) X(t) File, Time Series : 6, 3, 4, 2,,6, CMAC CMAC 2 Σ X(t+) CMAC 22 Weight table: W[i][j][N b ][N b ][N e ] For (i=,2) For (j=i,2) Time Series: S[d+2] W[2][2][3][3][3], S[4] i h g f e d c b a S 2 6 5 4 3 2 0 X(t-) 2 input CMAC X(t) S 0 2 3 4 5 6 A B C TD-CMAC Model d=2 (Number of delay) N b =3 (Number of block) N e =3 (Number of layer) α= (Learning rate) D E F G H I Error = 0.00 22

TD-CMAC (Example) File, Time Series : 6, 3, 4, 2,,6, The first time series data for training of model The next data for evaluation of model (prediction) ) d+ input for X(t) to X(t-) X(t-2) -> S[]=6 X(t-) -> S[2]=3 X(t) -> S[3]=4 2) Next data for X(t+) X(t+) -> S[4]=2 3) Weight Initialization to zero 222

A) Output Calculating 223 2 3 2 3 2 3 S 2 6 5 4 3 2 0 y ( s) a( s) W a ( s) d d M i ji k X(t-)=3 ijk w ijk CMAC State(4,3) 0 2 3 4 5 6 2 3 X(t)=4 2 3 2 3 S X(t-2) -> S[]=6 X(t-) -> S[2]=3 X(t) -> S[3]=4 X(t+)-> S[4]=2 y(s) = w[][][2][2][] + w[][][3][2][2] + w[][][2][2][3] +

A) Output Calculating 224 2 3 2 3 2 3 S 2 6 5 4 3 2 0 y ( s) a( s) W a ( s) d d M i ji k X(t-2)=6 ijk w ijk State(4,6) CMAC 2 X(t)=4 0 2 3 4 5 6 2 3 2 3 2 3 S X(t-2) -> S[]=6 X(t-) -> S[2]=3 X(t) -> S[3]=4 X(t+)-> S[4]=2 y(s) = + + w[][2][2][][] + w[][2][3][][2] + w[][2][2][][3] +

A) Output Calculating 2 3 2 3 2 3 S 2 6 5 4 3 2 0 y ( s) a( s) W a ( s) X(t-2)=6 d d i ji k 0 2 3 4 5 6 M State(3,6) ijk w ijk CMAC 22 X(t-)=3 S X(t-2) -> S[]=6 X(t-) -> S[2]=3 X(t) -> S[3]=4 X(t+)-> S[4]=2 y(s) = + + w[2][2][2][][] + w[2][2][2][][2] + w[2][2][2][][3] = 0 2 3 225 2 3 2 3

B) Weight Adjusting Wnew W c ij ( s) ij old c( s) a( s)( yˆ( s) y( s)) N e CMAC ij y(s) = 0 ŷ(s) = X(t+)=S[4]=2 w[][][2][2][] new =0+(0./3)*(/(*))*(2-0) = 0.066 CMAC w[][][3][2][2] new =0+(0./3)*(/(*))*(2-0) = 0.066 w[][][2][2][3] new =0+(0./3)*(/(*))*(2-0) = 0.066 226 CMAC 2 CMAC 22 w[][2][2][][] new =0+(0./3)*(/(*2))*(2-0) = 0.033 w[][2][3][][2] new =0+(0./3)*(/(*2))*(2-0) = 0.033 w[][2][2][][3] new =0+(0./3)*(/(*2))*(2-0) = 0.033 w[2][2][2][][] new =0+(0./3)*(/(2*2))*(2-0) = 0.06 w[2][2][2][][2] new =0+(0./3)*(/(2*2))*(2-0) = 0.06 w[2][2][2][][3] new =0+(0./3)*(/(2*2))*(2-0) = 0.06

C) Repeat A, B with new weights A) Output Calculating y ( s) a( s) W a ( s) d d M i ji k ijk w ijk y(s) = 0.066+0.066+0.066+0.033+0.033+0.033+0.06+0.06+0.06 = 0.35 y(s) = 0.35 ŷ(s) = X(t+)=S[4]=2 error = 0.00 ERROR yˆ( s) y( s) 2 0.35. 65 error End) Until (ERROR< error) 227

C) Repeat A, B with new weights B) Weight Adjusting W new W old c ij ( s) ij c( s) a( s)( yˆ( s) y( s)) N e y(s) = 0 ŷ(s) = X(t+)=S[4]=2 w[][][2][2][] new =w[][][3][2][2] new =w[][][2][2][3] new = 0.066+(0./3)*(/(*))*(2-0.35) = 0. w[][2][2][][] new =w[][2][3][][2] new =w[][2][2][][3] new = 0.033+(0./3)*(/(*2))*(2-0.35) = 0.060 w[2][2][2][][] new =w[2][2][2][][2] new =w[2][2][2][][3] new = 0+(0./3)*(/(2*2))*(2-0) = 0.030 228

C) Repeat A, B with new weights A) Output Calculating y ( s) a( s) W a ( s) d d M i ji k ijk w ijk y(s) = 0.+0.+0.+0.06+0.06+0.06+0.03+0.03+0.03 = 0.57 y(s) = 0.57 ŷ(s) = X(t+)=S[4]=2 error = 0.00 ERROR yˆ( s) y( s) 2 0.57. 43 error End) Until (ERROR< error) 229

CO (ppm) One hour ahead prediction Six hour ahead prediction 30 Real Data TD-CMAC TW-CMAC 30 R eal D ata T D -C M A C T W-C M A C 20 20 0 0 0 0 48 96 44 0 0 48 96 44 230

CO (ppm) One day ahead prediction 30 Real Data TD-CMAC TW-CMAC 20 0 0 0 48 96 44 23

SO 2 (ppm) One hour ahead prediction Real Data TD-CMAC TW-CMAC NO x (ppm) One hour ahead prediction 0.4 0.03 Real Data TD-CMAC TW-CMAC 0.2 0.02 0 0 48 96 44 0.0 232 0 0 48 96 44

فصل نهم : شبکه عصبي Bayesian Neural Network بیزین 233

معرفی شبکه عصبی بیزین تک الیه توسعه شبکه عصبی بیزین تک الیه به چندالیه.. 2 )Partitioning( )Overlapping( روش قسمت بندی روش روی هم افتادگی -2 2-2. ویژگی های پیوسته و شبکه عصبی بیزین 3 234

هدف نهایی که در این شبکه به دنبال آن هستیم محاسبه احتمال تمامی کالس ها به ازای داده های ورودی به شبکه و انتخاب کالس با بیشترین مقدار احتمال برای هر داده به عنوان کالسی که داده متعلق به آن است می باشد. 235

تئوری بیز برای محاسبه :P(y x) 236

فرض کنید مقادیر N x={x, x 2,,x N } ویژگی مستقل مربوط به داده x در دست باشد. در اینصورت احتمال x می تواند به صورت زیر نوشته شود : p(x y) همچنین شود: می شرطی احتمال نوشته زیر بصورت نیز 237

به ورودی داده مشاهده ازای به کالس هر احتمال : زیر صورت محاسبه خواهد شد 238

معادله اخیر پایه کالسیفیر ساده بیز می باشد. طراحی بیز ساده مربوط به اوقاتی می شود مستقل بودن ورودی ها را داریم. فرض که 239

: است برقرار همواره زیر رابطه 240

)( رابطه به رابطه از گرفتن لگاریتم و جایگذاری با زیر خواهیم رسید: مزیت فرم لگاریتمی خطی بودن آن است. بدین کالسیفیر ساده بیز می تواند با یک تابع تمایز بنابراین با یک شبکه عصبی تک الیه پیاده سازی معنی که خطی و شود. 24

عصبی شبکه یک در سیگنال پخش برای معمولی معادله است: زیر صورت 242

نمای شبکه عصبی بیزین تک ویژگی های مربوط به داده ها محدود ) می باشند: الیه برای گسسته ( حالتی که در آن دارای چند مقدار 243

245. hair Boolean 2. feathers Boolean 3. eggs Boolean 4. milk Boolean 5. airborne Boolean 6. aquatic Boolean 7. predator Boolean 8. toothed Boolean 9. backbone Boolean 0. breathes Boolean. venomous Boolean 2. fins Boolean 3. legs Numeric (set of values: {0,2,4,5,6,8}) 4. tail Boolean 5. domestic Boolean 6. capsize Boolean 7. type Numeric (integer values in range [,7])

β β2 β3 Y Y 2 Y 3 Y 7 β7 2 2 2 2 3 4 5 6 246

به احتمال شرطی نتیجه متغیر ویژگی داده x i یعنی ) i P(y j x اشاره به y i کند: مشاهده شرط 247

کنیم: مقایسه هم با را زیر رابطه فرم دو توانیم می حال 248

بیزین: عصبی شبکه آموزش 249

مثال: باشد: زیر به صورت شبکه به ورودی داده کنید فرض :(بز کوهی) Antelope,0,0,,0,0,0,,,,0,0,4,,0,, 250

β β2 β3 Y Y 2 Y 3 Y 7 β7 X X 2 X 2 X 22 X 3 X 32 25

β β2 β3 Y Y 2 Y 3 3 Y 7 β7 X X 2 X 2 X 22 X 3 X 32 253

تخمین کالسیک: 257

بیزین: تخمین 258

توسعه شبکه عصبی بیزین تک الیه به چندالیه 259

رگا یگژیو یاه یدورو هب رگیدکی هتسباو دنشاب هکبش یبصع کت یبوخ باوج هیلا تسدب یمن.دهد یارب ناربج یگتسباو اه رد نایم هیلا یدورو و هیلا یجورخ زا کی هیلا ناهنپ هدافتسا یم مینک هک نیا هیلا زا بیکرت نوتس یاه یدورو ( ییاهنآ هک هب مه هتسباو لصاح )دنتسه یم.دوش 260

از الیه چند بیزین عصبی شبکه تشکیل برای کلی بطور : می معماری دو توان سود جست الف ) Partitioning ب ) Overlapping 26

شبکه عصبی چند الیه )Partitioning( 262

وابستگی X X 2 X 3 X X 2 X 3 263 U X 3

U X 3 264

می توان توزیع را بروی تمام حوزه به عنوان یک ضرب شامل متغیرهای که u k می شود بیان کنیم : 267

شبکه عصبی چند الیه )Overlapping( 268

d a c f b e 269

در این نوع اولیه پس از معماری شبکه عصبی بیزین چند الیه ترکیب بطور مستقیم نیز با الیه خروجی ستون )ویژگی( ارتباط دارد. های 273

: ویژگی X,Y دو میان متقابل اطالعات می شود تعریف زیر به صورت اگر مقدار تلقی می شود. معیار شوند باال از و یک یک threshold بیشتر شود ستون پیچیده برای ترکیب آنها دو ویژگی وابسته درنظر گرفته می 275

Bayesian Solution Classic Solution Number of training data 97.22 97.22 22 96.99 96.99 6 88.88 88.42 6 84.49 8.0 3 77.3 75.00 0 6.34 59.49 7 276

Bayesian Classic Number of training data Solution Solution 99.68 99.3 4000 99.5 98.74 2708 99.20 98.20 354 99.42 98.02 903 98.94 96.95 677 98.48 96.93 542 99. 96.63 452 98.5 96.32 387 97.23 94.38 339 97.87 97. 30 97.96 96.27 27 97.00 93.85 247 95.73 92.70 226 97.96 94.92 209 96.95 95.9 94 96.80 93.92 70 97.35 94.59 38 97.30 95.43 8 95.34 92.96 94 95.43 94.7 83 93.42 92.42 62 92.92 9.9 4 277

ویژگی های پیوسته و شبکه عصبی بیزین 278

تابع چگالی احتمال بروی متغیر پیوسته z می تواند به وسیله یک تعداد متناهی از جمع تقریب زده شود: n P( z) i P( v i ) P( z v i ) 28

283 0. 65 * 0.30 =0.95 0.35 * 0.60 = 0.2

هر مقدار خواهد بود متفاوتی جزء از متفاوتی درجه به بازه در "متعلق" : 284

log( p( y z)) log( p( y)) log( i i ' P( y v ii P( y) P( v ' ii ) P( v ) ' ii ' z i )) 286

i i ij j j o S W )) ( log( z y P S j j )) ( log( j j y P ) ( ) ( ), (, i j i j j i v P y P v y P W 287

مدل ترکیبی 288

مدل ترکیبی : یک سری از توابع که اجتماع دامنه های آنهاا یاک بازه را پوشش می دهد. در این کار تبدیل یک متغیر پیوسته به تعدادی متغیر گسساته که بتوانند به عنوان ورودی شبکه عصبی بیزین اساتفاده شاوند توسط مدل ترکیبی با توابع گوسین صورت می گیرد. 289

توزیع گوسین با برردار میرانگین خرود µ و مراتری کوواریان خود Σ شناخته می شرود و دارای ترابع توزیع زیر است : f ( z i i i (2 : m, ) exp( ( z m ) ( z m ) ' i i i ) d 2 i ) 290

مطرح که ای مسئله است تخمین پارامترهای ترکیبات ترکیبی مدل گوسین است. 29

c i i C z v P ) ( )/ ( i c i i C z z v P m ) ( ) ( ) ( i i c i i i C z z z v P m m ' ) ( ) ( ) ( ) )( )( ( 2 3 π i =P(v i ), ) : ( i i i z f m ) ) ( ) ( 2 exp( ) (2 ' i i i i d z z m m 4 292

اب ضرف یخرب ریداقم هیلوا یفداصت یارب اهرتماراپ زا هلداعم )4( یم ناوت یارب هبساحم رادقم قلعت ره هنومن هب ره ءزج هدافتسا.درک نیا هلحرم رادقم دروم راظتنا.تسا سپس یاهرتماراپ نیمخت هدز هدش اب تلاداعم )( ات )3( ریداقم هلداعم )4( ار تسدب یم.دنهد نیا هلحرم یزاس ممیزکام.تسا نیا ود هلحرم ات ینامز هک اهرتماراپ دنوش ارگمه رارکت.دنوش یم Expectation Maximization 293

بررسی الگوریتم ماکزیمم سازی مقدار مورد انتظار: الگوریتم ماکزیمم سازی همانند زیر می باشد. هایی ضعف دارای انتظار مورد مقدار *(این روش شده بسیار پارامترها که یک روش محلی و نسبت به پارامترهای اولیه انتخاب حساس می باشد و ممکن است به یک محدوده تخمین های نادرست را ارائه می دهد همگرا شود. برای حل این مسئله چندین روش مورد بررسی قرار گرفته است کاه از یک یا ترکیبی از استراتژی هایی همانند چندین نقطه شروع تصادفی و انتخاب تخمین نهایی بطوریکه آن تخمین دارای باالترین احتمال باشد و یا انتخاب اولیه پارامترها به وسیله الگوریتم خوشه بندی استفاده مای کنند. 294

بررسی الگوریتم ماکزیمم سازی مقدار مورد انتظار: مورد مقدار سازی ماکزیمم کارایی که دیگری *(مسئله تعداد نبودن مشخص دهد می قرار تاثیر تحت را انتظار است. ترکیبات برای تخمین تعداد بهینه ترکیبات نیز مطالعات زیادی صورت گرفته است. برای مثال معیار اطالعات Akaike )AIC( استنتاج بیزین )BIC( Schwarz معیار احتمال دسته بندی مجتمع.(ICL) 295

الگوریتم K-Means : مرحله اول :. پیدا کردن مرکز دسته اول به صورتی که رابطه زیر را ماکزیمم کند 296

الگوریتم K-Means مرحله دوم : به شرط داشتن ) k- (امین ترکیب معیار هر داده کاندید برای مرکز ترکیب kام می تواند بصورت زیر نوشته شود:.2 297

: تابیکرت هنیهب دادعت نیمخت یماگنه هک کی ءزج هفاضا یم دوش رگا طابترا نایم نیماk ءزج و ءازجا یلبق زونه مه لقتسم دشاب اهرتماراپ اب نیمخت هرابود زا k ءزج تسدب یم.دنیآ سکعرب رگا لقادح یکی زا ازجا اب ءزج هفاضا هدش هتسبمه دشاب دیاب اهرتماراپ ار رد لدم یبیکرت (k-) هظحلام مینک و دادعت تابیکرت ار لقادح (k- ) صخشم.مینک 298

رابطه متقابل میان اجزاء : 299

رابطه متقابل میان اجزاء : باشد: مقدار سه دارای است ممکن متقابل ی رابطه مثبت یا و منفی صفر اگر که باشد بدین معنی است یکدیگر وابسته اند. دارای مقدار مثبت i و k بطور آماری به 300

الگوریتم تخمین تعداد بهینه ترکیبات : 30

پیاده سازی بروی داده های مصنوعی : 302

)k( میانه ی iامین ترکیب تعداد ترکیبات i (.620,2.000) ~ 2 (2.495,2.547) -0.0674 3 (0.985,0.8554) -0.0346 2-0.0042 4 (0.8065,2.4638) 0.0255 2-0.0092 3-0.0080 304

: پیاده سازی و آزمایش GMM : داده glass 305

نتیجه دستهبندی با استفاده از شبکه عصبی بیزین تکالیه 308

نتیجه دستهبندی با استفاده از شبکه عصبی بیزین چندالیه در حالت قسمت بندی 309

دستهبندی با استفاده از شبکه عصبی بیزین چندالیه در حالت روی هم افتادگی 30

فصل دهم : شبکه عصبي مثلثاتي 3

فصل : یازدهم شبکه عصبي ویولت Wavelet Neural Network 32

فصل دوازدهم : شبکه عصبي کانولوشنال 33

فصل دوازدهم : کاربرد شبکه های عصبي در شناسایي پیش بیني و کنترل سیستم ها 34

شناسایی کنترل و بینی پیش به عصبی های شبکه عنوان شناساگر پیش در عصبی های ها بینی سیستم شبکه کنترلر عنوان به عصبی های شبکه 35

عصبی کنترلر کنترلر عصبی تقلیدگر کنترلر و شناساگر مستقیم کنترلر و شناساگر معکوس کنترل معکوس تطبیقی کنترل مدل داخلی غیرخطی کنترل تطبیقی عصبی نقاد تطبیقی کنترلر PIDخود تنظیم شبکه عصبی به عنوان جبرانگر کنترلر تطبیقی مدل مرجع عصبی کنترل مدل پیش بین مستقیم 36

رلرتنک یبیکرت رلرتنک یبیکرت زا لرتنک راتخاس ریغتم و لرتنک یبصع لرتنک یقیبطت میقتسم رادیاپ یطخ یزاس کبدیف یقیبطت یبصع رلرتنک یبیکرت زا لرتنک کبدیف و لرتنک یبصع یاطخ شزومآ روخسپ رلرتنک یبیکرت زا لرتنک لرتنک هرهب تباث و لرتنک یبصع رلرتنک هکبش یبصع رب هیاپ د م یشزغل رلرتنک هنیهب یبصع 37

پایان