اندیس k نشان میدهد که وزن مربوط به لایه نهایی (لایه خروجی) میباشد، که قراردادی است.
مقدار وزن در گام(n+1) ( بعد از تنظیم وزن).
مقدار در برای سلول عصبی q در لایه خروجی k.
مقدار OUT برای سلول عصبی در لایه پنهان j.
باید توجه داشت که اندیسهای q, p به یک سلول عصبی معین و اندیسهای j,k به یک لایه اشاره دارند.
۵-۱۷ تنظیم وزنهای لایه پنهان
لایههای پنهان هیچ بردار هدفی ندارند به گونهای که از فرایند آموزش شرح داده شده در بالا نمیتوان برای آنها استفاده نمود. این فقدان هدف آموزشی تا مدتی مانع از تلاش برای آموزش شبکههای چند لایه شد، تا اینکه انتشار برگشتی یک الگوریتم قابل اعمال را فراهم ساخت. انتشار برگشتی با انتشار خطای خروجی لایه به لایه به سمت عقب و با تنظیم وزنها در هر لایه، لایههای پنهان را تربیت میکند.
معادلات بالا برای همه لایه ها، هم لایه خروجی و هم لایهای پنهان، استفاده میشوند لیکن برای لایههای پنهان، باید بدون استفاده از تابع هدف محاسبه شود. در حقیقت برای سلول عصبی در تغذیه به کار برده میشود. سپس از مسیر همان وزن ها به عقب منتشر میگردد، مقدار برای هر سلول عصبی در اولین لایه پنهان به دست میآید. این مقادیر برای تنظیم و این لایه پنهان استفاده و سپس به طریق مشابه به طرف دیگر لایههای پنهان به سمت منتشر میشود.
۵-۱۸ سلول عصبی بایاس در شبکه
در بسیاری از مواقع کمال مطلوب است که سلولهای عصبی لایههای پنهان و خروجی را از طریق وزنهایی به یک سلول عصبی واحد که دارای هیچ گونه ورودی نبوده ولیکن همیشه دارای خروجی است مربوط نماییم. این عمل در حالی که اثری شبیه به تنظیم حد سلول عصبی پرسپترون دارد، اصل تابع منطقی (تابع تحرک) را در امتداد محور ورودی منتقل می کند و باعث میشود که فرایند آموزش سریع تر همگرا شده و دقت شبکه نیز افزایش یابد.
وزنهای مربوط به سلول عصبی بایاس همانند سایر وزنهای دیگر شبکه تربیت میشوند به جز اینکه در این حالت مبدأ وزن به جای اینکه خروجی یک سلول عصبی در لایه قبلی باشد، همیشه ۱ + میباشد.
شکل ۵-۴ : سلول عصبی بایاس در شبکه
مقادیر بایاس هرگز به لایه ورودی(لایه صفر) اختصاص داده نمیشوند. این بدان دلیل است که مقادیر ورودی به گرههای لایه ورودی از طریق محاسبه تعیین نمیشوند. به عبارت دیگر، هنگام استفاده از شبکه همیشه بدین صورت است که یک دسته از مقادیر به لایه ورودی داده میشوند و از شبکه انتظار میرود که دسته نتایج را به ازای آنها تولید کند.
بنابراین، مقدار گرههای لایه ورودی نمیتوانند تحت تاثیر مقادیر بایاس قرار گیرند زیرا آنها هرگز توسط شبکه محاسبه نمیشوند. از آنجایی که ورودی ها مقادیر معینی هستند، هیچ مقدار بایاسی برای لایه ورودی در نظر گرفته نمیشود.
۵-۱۹ اندازه حرکت
رامل هارت، هینتون و ویلیامز، در سال ۱۹۸۶ روشی را ارائه نمودند که ضمن افزودن بر ناپایداری فرایند آموزش شبکه، زمان تربیت الگوریتم انتشار برگشتی را نیز کاهش میدهد. در این روش، عبارتی به تغییر وزن اضافه میشود که متناسب با مقدار تغییر وزن قبلی است. به محض اینکه تنظیم انجام میشود، مقدار آن در حافظه ذخیره میگردد و برای تعدیل وزن درمرحله بعد به کار گرفته میشود. معادلات تنظیم در این روش به صورت زیر است:
در معادلات بالا، آلفا ضریب اندازه حرکت[۱۹] بوده و مقدار آن حول و حوش. , ۹ در تغییر است. با بهره گرفتن از روش اندازه حرکت، شبکه به جای اینکه سریعاً از یک طرف به طرف دیگر حرکت کند، تمایل پیدا میکند که تحت مجاری باریکی در سطح خطا حرکت نماید (در صورتی که خطا وجود داشته باشد). این روش روی تعدادی از مسائل خوب کار میکند، اما روی بعضی از مسائل دیگر تاثیر کم و یا منفی دارد.
سژنووسکی و روزنبری[۲۰]در سال ۱۹۸۷، روشی مشابه براساس هموارسازی نمایی[۲۱]ارائه کردند که ممکن است بعدا در تعدادی کاربردها اثرات مثبت آن ثابت شود. معادلات تنظیم در این روش به صورت زیر است:
که ضریب هموار سازی بوده و مقدار آن در حدود صفر تا یک است، در صورتی که صفر باشد، هموارسازی حداقل بوده و کل تنظیم وزن از تغییری که اخیراً محاسبه شده است، به دست میآید. در صورتی که برابر یک باشد، تنظیم جدید را نادیده انگاشته و تنظیم قبلی دوباره اعمال میشود. بین صفر و یک ناحیهای وجود دارد که تنظیم وزن به وسیله مقداری متناسب با هموار میشود. در اینجا هم ضریب میزان آموزش است و برای تنظیم اندازه تغییر وزن متوسط به کار برده میشود.
۵-۲۰ الگوریتمهای پیشرفته
برخی از محققان برای الگوریتم انتشار برگشتی که در بخشهای قبلی توضیح داده شد، اصلاحات و تعمیمهایی را تدبیر کرده اند. کتاب ها و مقالات در این مورد آن قدر زیاد است که در اینجا مجال پرداختن به آنها نیست. به علاوه برای ارزیابی کامل خیلی زود است. در این قسمت، تعداد کمی از پیشرفتهای نوید دهنده توضیح داده شده است.
پارکر در سال ۱۹۸۷، روشی را برای بهبود سرعت همگرایی الگوریتم انتشار برگشتی ارائه نمود. این روش، روش انتشار برگشتی مرتبه دوم[۲۲]نامیده میشود. زیرا در آن از مشتق دوم استفاده میگردد تا برآورد تغییر وزن صحیح با دقت بیشتری انجام شود. وی نشان داده است که این الگوریتم در حالتهای بهینه است که در آنها استفاده از مشتقهای مرتبه دوم به بالا بهبود بیشتری در برآورد تغییر وزن صحیح ایجاد نکند، نیازهای محاسباتی در این روش در مقایسه با انتشار برگشتی مرتبه اول افزایش مییابد و نتایج آزمایش بیشتری برای توجیه هزینه اضافی ناشی از افزایش نیازهای محاسباتی مورد نیاز است.
استورنتا و هابرمان[۲۳] در سال ۱۹۸۷، روشی ساده برای بهبود خصوصیات آموزشی شبکههای انتشار برگشتی ارائه کردند. آنها نشان دادند که حدود صفر تا یک که برای ورودیهای شبکه و خروجی سلولهای عصبی لایههای پنهان مرسوم است. بهینه نیستند زیرا بزرگی تنظیم وزن متناسب با میزان خروجی سلول عصبی میباشد که منشاء این وزن از آن است.
خروجی صفر باعث هیچ گونه اصلاح وزنی نمیشود. در صورت استفاده از بردارهای ورودی دودیی، نصف ورودی ها به طور متوسط صفر خواهد بود و وزنهایی که به آنها مرتبط میشوند آموزش نخواهند دید. راه حل پیشنهادی توسط این دو محقق، حدود مقادیر ورودی ها را به (-۱/۲,۱/۲) تغییر میدهد. افزون بر این، یک بایاس را به تابع فشرده کننده اضافه میکند تا حدود خروجی سلولهای عصبی نیز به (-۱/۲,۱/۲) تغییر داده شوند.
تابع فشرده کننده جدید به صورت زیر است:
با این تغییراتی که به سادگی انجام شد. زمانی همگرایی در بعضی از مسائل به طور متوسط ۳۰ تا ۵۰ درصد کاهش داده شد. این مثالی است از اصطلاحات عملی که میتواند باعث بهبود در کارکرد الگوریتم انتشار برگشتی شود.
پیندا در سال ۱۹۸۸ و آلمایدا در سال ۱۹۸۷، روشی را برای به کار بردن انتشار برگشتی در شبکههای بازگشتی ارائه نمودند. همان گونه که قبلاً نیز ذکر شد، منظور از شبکههای بازگشتی شبکههایی هستند که خروجی هایشان به طور برگشتی، ورودیهایشان را تغذیه میکنند. آنها نشان میدهند که یادگیری در چنین سیستمهایی خیلی سریع تر میتواند انجام شود و دیگر اینکه معیار پایداری به سادگی ارضاء میشود.
۵-۲۱ کاربردها و اخطارهای انتشار برگشتی
انتشار برگشتی در پهنه متنوعی از کارهای تحقیقاتی به کار گرفته شده است. تعدادی از این کاربردها برای نشان دادن قدرت این روش توضیح داده میشود. کمپانی NEC در ژاپن گزارش داده که انتشار برگشتی را برای یک سیستم تشخیص مشخصه نوری[۲۴] به کار برده و به موجب آن، دقت تصحیح بیش از ۹۹ درصد بوده است. این تصحیح در میان ترکیبی از الگوریتمهای مرسوم با یک شبکه انتشار برگشتی که تصدیق اضافی را فراهم میسازد به دست آمده است. نمونههای دیگری از استفاده از شبکه انتشار برگشتی از قبیل سیستم تبدیل متن چاپ شده انگلیسی به گفتار واضح، متراکم کردن تصاویر، پردازش تصاویر[۲۵]برای دسترسی به بافت سطح[۲۶] و غیره…
علی رغم بسیاری از کاربردهای موفق آمیز انتشار برگشتی و کلا شبکههای عصبی[۲۷]، این روش یک نوشدارو و علاج عام نمیباشد. طولانی بودن و غیر قطعی بودن فرایند آموزش رنج آورترین مشکلات این روش شناخته شده است. برای مسائل پیچیده ممکن است روزها وهفته ها زمان برای آموزش شبکه نیاز باشد و اصولاً ممکن است روزها و یا هفته ها زمان برای آموزش شبکه از غیر بهینه بودن اندازه گام میتواند نتیجه شود. به طور کلی در این روش، دو چیز باعث شکست آموزشی میشود:
۱ـ ناتوانی شبکه[۲۸]
۲ ـ کمینه محلی[۲۹]
۵-۲۲ اندازه گام
بررسی و مطالعه موشکافانه در زمینه اثبات همگرایی که توسط ویلیامز، هینتون و رامل هارت در سال ۱۹۸۶ ارائه شد، نشان میدهد که تنظیم بر وزن بی نهایت کوچک در نظر گرفته شده است. این به وضوح غیرعملی است، زیرا تنظیم وزن بی نهایت کوچک به زمان تربیت نامحدود نیاز خواهد داشت بنابراین لازم است یک اندازه مناسب محدود برای گام انتخاب شود. ضمناً هیچ توصیه خاصی در این زمینه وجود ندارد و فقط از طریق آزمایش و تجربه میتوان یک اندازه گام بهینه را انتخاب نمود.
در صورتی که اندازه گام خیلی کوچک باشد، سرعت همگرایی میتواند خیلی کند باشد و در صورتی که خیلی بزرگ باشد، میتواند باعث ناتوانی یا ناپایداری مستمر شود. واسرمان در سال ۱۹۸۸، یک الگوریتم تنظیم اندزه گام توافقی را ارائه کرد که در حین پیشروی فرایند تربیت خواهان تنظیم اتوماتیک اندازه گام است.
۵-۲۳ ناپایداری موقتی
اگر یک شبکه در حال یادگیری برای تشخیص حروف الفبا باشد، حرف b را به خوبی یاد نمیگیرد مگر اینکه حرف A را که یاد گرفته فراموش کند. فرآیندی برای آموزش شبکه مورد نیاز است که شبکه بتواند یک دسته آموزشی کامل را یاد بگیرد بدون اینکه آنچه را که تاکنون یاد گرفته است از یاد ببرد.
اثبات همگرایی توسط رامل هارت این کار را به انجام میرساند، مشروط به اینکه قبل از هر تنظیم وزنی، همه بردارها در دسته آموزشی به شبکه ارائه شوند. تغییرات وزن لازم باید روی کل دسته آموزشی انباشته شوند، بنابراین به حافظه اضافی نیاز است.
بعد از تعدادی از چنین دورهای آموزشی، وزن ها به یک خطای کمینه همگرا خواهند شد. این روش ممکن است مفید نباشد، اگر شبکه با محیط دائماً متغیری روبرو شود که یک بردار ورودی یکسان را هرگز ممکن نباشد، دوباره ببینید، در این حالت، فرایند آموزش شبکه ممکن است هیچ وقت همگرا نشود و این امکان وجود دارد که بی هدف و سرگردان شود یا به طور گسترده نوسان کند. در این حالت است که انتشار برگشتی در تقلید از سیستم بیولوژیکی شکست میخورد.
۵-۲۴ مبنای ریاضی الگوریتم انتشار برگشتی
مبنای ریاضی الگوریتم انتشار برگشتی، براساس روش بهینه سازی کاهش گرادیان استوار است. گرادیان با علامت مثبت یک تابع، جهتی را در تابع مشخص میکند که تابع به طور قابل توجهی افزایش مییابد و گرادیان با علامت منفی جهتی را مشخص می کند که تابع به طور قابل ملاحظهای کاهش مییابد. در الگوریتم انتشار برگشتی، تابع مقدار خطا و متغیرهای تابع وزنهای شبکه اند.
اگر بیانگر وزن بین سلول عصبی p در لایه پنهان j و سلول عصبی q در لایه خروجی k باشد، در این صورت مقادیر ورودی و خروجی سلول عصبی q در لایه خروجی k را به صورت زیر میتوان بیان نمود: