به هر حال اگر راستنمایی مزدوج نباشد، یا اگر مجموعه داده ها بزرگ و از بعد بالا برخوردار باشند، ممکن است محاسبه دشوار و پرهزینهتری را در مقایسه با داشته باشد. در اینگونه موارد، نمونهگیر گیبز باید ماتریس مشخصه را بر مبنای توزیع پسین آن یعنی ، نیز نمونه گیری کند.
۳-۱۲-۲- ساختار چسباندن-شکستها[۶۳۸]
ساختار رستوران مستقیماً به نمونه گیری گیبز منجر می شود، اما به آسانی نمی توان آن را برای استنباط تغییر به کار گرفت. در این رساله برای رویکرد تغییر، ساختار آلترناتیو دیگر از فرایند IBP، یعنی ساختار چسباندن-شکستها (ته و همکاران[۶۳۹]، ۲۰۰۷) را مد نظر قرار میدهیم. ساختار چسباندن شکستها، مشخصهها را بر اساس محبوبیتشان رتبه بندی می کند. برای تولید یک ماتریس با بهره گرفتن از ساختار چسباندن-شکست، با اختصاص یک احتمال به هر ستون مشخصه شروع و هر را به عنوان یک متغیر تصادفی برنولی مستقل با پارامتر ، ، نمونه گیری میکنیم. چون هر مشتری یک خوراک را مستقل از سایر مشتریان نمونه گیری می کند، این نمایش روشن میسازد که رتبه بندی مشتریان اثری بر توزیع نخواهد داشت.
اما احتمالات مشخصهها ، به طور مستقل نمونه گیری نمیشوند. در مقابل، نخست یک دنباله از متغیرهای تصادفی مستقل که هر کدام توزیع بتا دارند را ترسیم میکنیم. برای دنباله مفروض ، احتمال برای یک مشخصه به صورت زیر محاسبه می شود
که یک دنباله نزولی از احتمالات را تولید می کند، . مقدار مورد انتظار برابر است. به خصوص اینکه، با مفروض بودن یک مجموعه متناهی از داده ها، برای مقادیر بزرگ ، احتمال آنکه هر کدام از مشاهده، مشمول آن مشخصه باشد به طور نمایی کاهش مییابد. مقادیر بزرگتر به معنای آن است که انتظار داریم مشخصههای بیشتری در داده ها مشاهده نماییم؛ به عبارت دیگر، برای مقادیر بزرگ ، آهستهتر نزول می کند. بنابراین، مقادیر بزرگتر به معنای آن است که مشخصههای بیشتری در داده ها حضور خواهند داشت.
۳-۱۲-۲-۱- استنباط تغییر برای فرایند IBP
اگر چه فرایند IBP مدلی جذاب به نظر میرسد اما ماهیت ترکیبی[۶۴۰] آن، استنباط را تا اندازهای با دشواری همراه ساخته است. در حقیقت وجود متغیرهای نهفته موجب وابستگی میان کلیه متغیرهای مشاهده نشده مدل شده است. حتی اگر خود را به مشخصه و شیء محدود نماییم، انتظار میرود که به تعداد اختصاص برای مشخصهها (مالکیت) وجود داشته باشد. در این فضای ترکیبی، روشهای استنباط برای IBP که بر مبنای نمونه گیری[۶۴۱] قرار دارند اغلب با زیان و ناکارایی همراه هستند… خصوصاً آنها میتوانند در چارچوبهای مقیاس بزرگ، چارچوبهای چندمتغیره و داده های همبسته بسیار آهسته عمل کنند. روشهای موجود
نمونهگیرهایی را نتیجه می دهند که انعطافپذیری کمی در حرکت بین بهینهها دارند و ممکن است مدت زمان زیادی مورد نیاز باشد تا این نمونهگیرها از بهینه کوچک خلاص شده و مناطقی را با توده احتمال بالا، بیابند. متأسفانه، تمامی روشهای استنباطی که تاکنون برای IBP وجود داشته اند همه بر مبنای نمونه گیری قرار دارند. این رویکردها شامل نمونه گیری گیبز (گرفیث و قهرمانی، ۲۰۰۵)، است که میتوانند با ابزارهای تجمیع-دو بخشی متروپولیس[۶۴۲] (میدز و همکاران[۶۴۳]، ۲۰۰۷)، یا با نمونه گیری قطعهای[۶۴۴] (ته و همکاران، ۲۰۰۷) و فیلترینگ ذرهای[۶۴۵] (وود و گرفیث[۶۴۶]، ۲۰۰۷)، تعمیم داده شود.
روشهای تغییر میدان میانگین[۶۴۷] که پسین واقعی[۶۴۸] را از طریق یک توزیع نمونهگیر[۶۴۹] در چارچوبهای سادهتر تقریب تحلیلی[۶۵۰] میزنند، یک آلترناتیو معین را برای رویکردهای بر مبنای نمونه گیری، مانند روشهای
نمونه گیری مونتی-کارلو-بالأخص روش مونتی-کارلو زنجیره مارکوف[۶۵۱] (MCMC) از قبیل روش نمونه گیری گیبز، فراهم می کنند.
با این حال، تاکنون کاربرد روشهای تغییر به مدلهای با بعد متناهی (یعنی پارامتریک) محدود شده است (ونرایت و جردن[۶۵۲]، ۲۰۰۸). در چنین چارچوبی، برای یافتن یک تقریب خوب از پسین، استنباط با تکینکهای بهینهسازی همراه میباشد. تقریب میدان میانگین (دوشی ولز و همکاران[۶۵۳]، ۲۰۰۹) برای فرایند تصادفی IBP، یک احتمال مجزا را برای هر اختصاص مشخصه به مشاهده، فراهم می کند. متأسفانه، بهین
هسازی این مقادیر احتمال، تعداد زیادی بهینه موضعی بدست میدهد، اما استفاده از احتمالات به جای نمونه گیری اختصاصها، به روش تغییر انعطافپذیری خاصی میدهد که نمونهگیرها ندارند. در مراحل اولیه استنباط، این انعطافپذیری می تواند از رسیدن روش تغییر به بهینه موضعی جلوگیری کند.
تقریبهای تغییر برای سایر مدلهای بیزین ناپارامتریک نیز کاربرد دارد. این مدلها شامل، فرآیندهای دیریکله[۶۵۴] (بلی و جردن، ۲۰۰۴؛ کریهارا و همکاران[۶۵۵]، ۲۰۰۷a؛ کریهارا و همکاران، ۲۰۰۷b) و فرآیندهای گاوسین[۶۵۶] (وینتر[۶۵۷]، ۲۰۰۰؛ گیبز و مک کی[۶۵۸]، ۲۰۰۰؛ و اسنلسون و قهرمانی[۶۵۹]، ۲۰۰۶) میباشند. در میان همه مدلهای بیزین ناپارامتریک که تاکنون مطالعه شده اند، فرایند تصادفی IBP ترکیبیترین است و از این رو بیشترین نیاز به یک الگوریتم استنباط کارا را میطلبد که در فصل آینده بر این مهم مفصلاً پرداخته می شود.
فصل چهارم
توصیف و
تجزیه و تحلیل یافته ها
۴-۱- مقدمه
بعد از اینکه مدل مولد در فصل قبل تعریف گردید، میتوانیم از رویکرد استنباط بیزین برای استنباط ماتریس مشخصههای نهفته از ماتریس مشاهدات ، استفاده نماییم. در اینصورت میتوانیم با بهره گرفتن از مشاهدات مربوط به جریان عایدیهای نقدی حاصل از اوراق بهادار MBS، تعداد ابعاد استانداردهای پذیرهنویسی که در زمان اعطای وام به متقاضیان توسط بانی وامهای رهنی اعمال شده است، بپردازیم.
به هر حال چون مخرج عبارت (۱) در فصل اول، یک مجموع غیرقابل بررسی و غیرقابل حل کردن است، یک الگوریتم استنباط تقریبی باید مورد استفاده قرار بگیرد. الگوریتم مورد استفاده در این رساله، الگوریتم استنباط تغییر برای یک مدل مشخصه نهفته با بعد نامتناهی، میباشد.
۴-۲- الگوریتم استنباط
۴-۲-۱- نمادگذاری
در این قسمت نمادگذاریهایی که در ادامه مورد استفاده قرار میگیرند را معرفی مینماییم.
اندیس ، به همه مؤلفهها بجز مؤلفه اشاره می کند. اندیس به همه مؤلفهها در یک بعد، اشاره می کند. برای مثال، کل ماتریس است بجز آرایه و کل امین ردیف از ماتریس است. سرانجام، وجود اندیس برای توزیعهای احتمال به پارامترهایی اشاره می کند که آن توزیع را تصریح می کنند. برای مثال، .
متغیرهایی که به طور مکرر در ادامه مورد استفاده قرار میگیرند عبارتند از:
-
- : مشاهدات در ماتریس ذخیره میشوند که یک ماتریس با بعد میباشد. تحت مدل گاوسین خطی داریم ، که یک ماتریس از عناصر مستقل است، هر عنصر دارای میانگین صفر و واریانس است.
-
- آرایه در ماتریس : هر آرایه مشخص می کند که آیا مشخصه در مشاهده وجود دارد. از این رو، تعداد نقطهداده ها و تعداد مشخصهها را میشمارند. ماتریس اجتماعی از همه ها است و بعد آن میباشد که تعداد متناهی مشخصه غیرصفر است. فرض می شود که سایر ها برای صفر هستند. همچنین پارامتر تمرکز فرایند IBP را مشخص می کند.
-
- : طول شکستها[۶۶۰] (احتمالهای وقوع مشخصهها) است.
-
- : ها متغیرهای چسباندن-شکست هستند.
-
- : اجتماعی است از متغیرهای مشخصه گاوسین و دارای بعد است. بر این اساس، هر مشخصه نهفته به صورت یک بردار بیان می شود. همچنین بر طبق مدل گاوسین-خطی مذکور، توزیع پیشین، عناصر ماتریس را مستقل و دارای میانگین صفر و واریانس در نظر میگیرد.
۴-۳- بیز تغییر
در هر مدل احتمالی که چگونگی تولید داده های مشاهده شده را مشخص مینماید، متغیرها به دو دسته متغیرهای مشاهده شده و متغیرهای پنهانی تقسیم میشوند. برای انجام استنباط تنها محاسبه توزیع احتمال حاشیهای از متغیرهای قابل مشاهده مورد نیاز میباشد. اما توزیع پسین حاصله از متغیرهای پنهانی، از اهمیت بیشتری برخوردار است. محاسبه توزیع حاشیهای و توزیع پسین، نیازمند انتگرال گرفتن حول متغیرهای نهفته از توزیع مشترک متغیرهای نهفته و متغیرهای قابل مشاهده، میباشد.
در علوم مختلف، تجزیه و تحلیلها در مدلهای احتمالی همواره به تخمین و انجام استنباط پیرامون متغیرهای مشاهده نشده تصادفی متمرکز شده است. انجام تخمین و استنباط، بر مبنای چگالی پسین از متغیرهای مشاهده نشده، با مفروض بودن مشاهدات، قرار دارند. آنچه که در اینجا می تواند مشکلساز گردد، آن است که این عملیات به پیچیدگی ساختار یا پیچیدگی فرایند فاکتورگیری[۶۶۱] از توزیع احتمال مشترک، بستگی دارد.
همانطور که در فصل گذشته اشاره شد، مدلهای ناپارامتریک بیزین، شامل فرآیندهای تصادفی (در این رساله فرایند تصادفی IBP) هستند که ابعاد نامتناهی دارند. بنابراین انتگرالهایی که در یادگیری بیزین پدیدار میشوند را نمی توان به فرم بسته حل نمود. به جای این، میتوان آنها را تقریب زد. یکی از روشهای استنباط تقریب[۶۶۲] که در مقابل رویکرد استنباط دقیق[۶۶۳] قرار دارند، روشهای تغییر است. روشهای تغییر اخیراً در
زمینه های استنباط شهرت زیادی یافتهاند: روشهای تغییر سابقه طولانی در یادگیری ماشین، فیزیک، آمار، تئوری کنترل و نیز اقتصاد دارند. اخیراً روشهای تغییر در زمینه های استنباط و تخمین تغییر نیز[۶۶۴] به کار گرفته شده اند.
به طور کلی روشهای تغییر در چهار دسته انتشار باور[۶۶۵]، الگوریتم جستجو[۶۶۶]، روشهای نمونه گیری[۶۶۷] و
روشهای تغییر[۶۶۸] قرار میگیرند. در این میان، در ادبیات از رویکرد بیز تغییر[۶۶۹] (VB) برای ارزیابی چگالیهای پسین استفاده شده است. (جردن و همکاران، ۱۹۹۹)
در این رساله بر رویکرد بیز تغییر (VB) تمرکز شده است. در ادامه به توصیف تقریب بیزین تغییر
میدان-میانگین[۶۷۰] جهت استنباط، با بهره گرفتن از واژه یادگیری ماشین[۶۷۱] و نه مفهوم فیزیک آماری[۶۷۲] میپردازیم.
۴-۳-۱- رویکرد بیز تغییر میدان میانگین
رویکرد تغییر از تئوری یادگیری جمعی[۶۷۳] در علم آمار وارد مباحث استنباط بیزین شده است؛ در تئوری، یادگیری جمعی یا چگالی تغییر (یعنی چگالی پسین تقریب زده شده)، با هدف ماکزیممسازی انرژی آزاد، بهینه می شود. روش بیزین تغییر به منظور تقریب انتگرالهای چند بعدی پیچیده که در یادگیری بیزین پدیدار
میشوند و مشکل میتوان آنها را ارزیابی کرد یا از آنها نمونه گیری کرد، مورد استفاده قرار میگیرد. نظر به اینکه تکنیکهای مونت-کارلو یک تقریب عددی را برای پسین دقیق[۶۷۴] با بهره گرفتن از یک مجموعه از نمونهها فراهم می کنند، بیز تغییر یک تقریب تحلیلی[۶۷۵] از چگالی پسین شرطی از متغیرهای مشاهده نشده تصادفی - با مفروض بودن داده های مشاهده شده - فراهم می کند.
بیز تغییر یک روش تغییر خاص در مدلهای احتمالی غیرقابل بررسی است که بر پایه فاکتورگیری از توزیع احتمال مشترک مشاهدات و متغیرهای نهفته، قرار دارد. برای یافتن یک جواب تغییر[۶۷۶]، نیازمند انجام محاسبات در قالب مسئله بهینهسازی هستیم. به عبارت دیگر، در استنباط تغییر هدف تقریب توزیع مشترک واقعی از متغیرهای نهفته میباشد. این تقریب از طریق مینیممسازی معیار واگرایی-KL[677]، (یا آنتروپی نسبی) بین توزیع واقعی، و توزیع تقریب زده شده، ، بدست می آید.
توجه شود که در ضمن اجرای چنین روشی، یک کران پایین برای راستنمایی حاشیهای (یا شواهد[۶۷۸]) داده های مشاهده شده، استخراج میگردد که تحت مفروضات صورت گرفته راجع به توزیع پیشین از پارامترها (مدل)، چگالی پسین را برای خود پارامترها (مدل) فراهم می کند. (پنی و همکاران[۶۷۹]، ۲۰۰۴) به طور کلی، استدلال آن است که یک راستنمایی حاشیهای بالاتر (بلندتر) برای یک مدل مفروض، بر یک برازش بهتر آن مدل از داده ها، دلالت دارد و از این رو با یک احتمال بزرگتر مدل تحت بررسی مدلی خواهد بود که داده ها را تولید می کند.
در فیزیک آماری، برای سادهسازی محاسبات، همواره استراتژی میدان-میانگین از رویکرد بیز تغییر (VB) (این ایده از فیزیک آماری و با کار پاریسی[۶۸۰]، ۱۹۸۸ گرفته شده است) مورد استفاده قرار گرفته می شود؛ در این رویکرد، چگالی تغییر (پسین تقریب زده شده[۶۸۱]) ، به فاکتورهای منفرد و مجزا، هر کدام نسبت به یک مجموعه از متغیرهای مشاهده نشده، فاکتورگیری می شود، . این فاکتورها هر کدام توزیعهای احتمال شناخته شده و مستقل شرطی از متغیرهای مشاهده نشده، مشروط بر داده های مشاهده شده، هستند. (یعنی در این توزیع تغییر هر مجموعه از متغیرهای مشاهده نشده ، از یکدیگر مستقل هستند). این فرمول، توزیع پسین واقعی را نمیدهد بلکه یک تقریب از آن است؛ بویژه اینکه این فرمول به طور کلی در پایینترین گشتاورهای متغیرهای مشاهده نشده یعنی میانگین و واریانس، سازگاری بالایی دارد. در این رساله از معیار نامتقارن استفاده شده است تا انجام محاسبات سادهتر گردد.