شکل ۵-۲- نتایج غنی سازی سیگنال گفتار آغشته به نویز سفید گوسی بصورت حالت گذرا……
۹۹
شکل ۵-۳- نتایج غنی سازی سیگنال گفتار آغشته به نویز سفید گوسی بصورت طیف نگاره……
۱۰۰
شکل ۵-۴- نتایج غنی سازی سیگنال گفتار آغشته به نویز سفید گوسی بصورت حالت گذرا……
۱۰۱
شکل ۵-۵- نتایج غنی سازی سیگنال گفتار آغشته به نویز سفید گوسی بصورت طیف نگاره……
۱۰۲
شکل ۵-۶- متوسط غنی سازی ده سیگنال گفتار مختلف آلوده به نویز سفید گوسی توسط چهار روش PSS، SVPSS، MBSS وSVMBSS…………………………………………………………………..
۱۰۴
شکل ۵-۷- نتایج تست شنوائی غنی سازی سیگنال گفتار آلوده به نویز سفید گوسی توسط چهار روش PSS، SVPSS، MBSS وSVMBSS…………………………………………………………..
۱۰۶
مقدمه:
با رشد روز افزون استفاده از سیستم های گفتاری در کاربردهای عملی روزمره، نیاز به حفظ کیفیت گفتار به عنوان امری اجتناب ناپذیر مطرح شده است. شرایط ایده آل و عاری از نویز که در کارها و شبیه سازی های آزمایشگاهی در نظر گرفته می شود، در بسیاری از کاربردهای واقعی به طور جدی نقض گردیده و برقراری آنها زیر سئوال رفته است. به عنوان مثال استفاده از تلفن همراه، سمعک، سیستم بازشناسی گفتار[۴] و یا هر وسیله ارتباط گفتاری در یک محیط نویزی ، همگی از مواردی است که در آن حفظ کیفیت گفتار و بالا نگه داشتن کارایی سیستم، از اهمیت خاصی برخوردار است. بدون استفاده از روش های بهسازی گفتار[۵]، عملکرد این سیستم ها به شدت تنزل یافته و چه بسا که غیر قابل قبول می شود. از این رو، مبحث بهسازی گفتار به عنوان یکی از ضرورت های کاربردی و عملی، از زمینه های فعال تحقیقاتی در سال های اخیر بوده است.
فرضیات پایان نامه:
کلیه روش های شرح داده شده در پایاننامه و نیز کلیه روابط حاکم بر آنها، برمبنای سه فرض اساسی ذیل استوار میباشند.
نویز به سیگنال اضافه می شود.
فقط یک کانال در دسترس است.
سیگنال گفتار و نویز ناهمبسته هستند.
به این ترتیب آغشتگی سیگنال گفتار به نویز را می توان به شکل زیر مدل کرد:
که s(n) بیانگر سیگنال اصلی و تمیز صوت ، d(n) نویز آلوده کننده و G ضریب کنترل کننده انرژی نویز (و لذا کنترل کننده SNR[6]) است. در این پایاننامه، این ضریب با ادغام شده و یک سیگنال نویزی بصورت ذیل نمایش داده شده است:
فصل اول
مروری بر روش های عمده بهسازی گفتار
در این فصل ابتدا به بررسی خلاصه ای از چگونگی تولید گفتار در انسان پرداخته و سپس به بررسی اجمالی روش های عمده بهسازی گفتار و مسائل و مباحث موجود در این روش ها می پردازیم. در بررسی این روش ها سعی شده است تا ضمن بیان اصول و مبانی هر روش، نقاط ضعف و قوت آنها را ذکر کنیم.
۱-۱- مبانی تولید سیگنال گفتار
سیگنال گفتار جهت برقراری ارتباط بین گوینده و شنونده مورد استفاده قرار می گیرد. گوینده ازطریق یکسری فرآیندهای عصبی و حرکات ماهیچه ای موج سیگنال گفتار را تولید می کند و شنونده از طریق سیستم شنیداری آن را دریافت کرده و سپس از پردازش آن را به سیگنال های عصبی بر می گرداند شکل (۱-۱) برش عرضی از سیستم تولید سیگنال گفتار را نشان می دهد. همانطورکه در شکل دیده می شود اجزای اصلی سیستم شامل شش ها، نای ( لوله هوا)، حنجره (که رکن اصلی در تولید صوت است.)، حفره حلقی (گلو)، حفره دهانی (دهان) و حفره دماغی (بینی) می باشد.
شکل۱-۱- برش عرضی سیستم صوتی انسان
درمباحث تکنیکی حفره های حلقی و دهانی را با هم در نظر گرفته و به آن حفره صوتی می گویند. بنابراین حفره صوتی از انتهای حنجره شروع و تا لب ها ادامه دارد.
برای تحلیل مهندسی سیستم تولید سیگنال گفتار، باید تولید سیگنال گفتاررابه شکل یک فیلتر مدل کرد. باتوجه به شکل(۱-۱) یک مدل خطی زمان گسسته در شکل (۱-۲) نشان داده شده است. در این مدل فرایند تولید سیگنال گفتار بر مبنای خصوصیات سیگنال خروجی نمایش داده شده است.
گفتار به دو دسته کلی حروف صدادار[۷] و حروف بی صدا[۸] تقسیم می گردد. همانطور که در شکل (۱-۲) دیده می شود منبع تحریک درتولید گفتار بی صدا ، نویز با طیف صاف می باشد که با یک تولید کننده نویز به شکل تصادفی[۹] مدل می شود. همچنین هنگام تولید گفتار صدادار، تحریک از تخمین پریود گام[۱۰] محلی استفاده می کند تا تولید کننده قطار ضربه را تنظیم کند تا فیلتر شکل دهنده پالس حنجره
Pitch Period
Impulse
train