استفاده از فرکانس گام در بازشناسی گفتار با حالت در زبان فارسی
لینک پرداخت و دانلود *پایین مطلب*
فرمت فایل:PDF
تعداد صفحه:239
فهرست مطالب :
چکیده :
یکی از اهداف مهم سیستم های بازشناسی گفتار، شناسایی گفتار در حالت های مختلف گفتاری است. اعمال حالت و یا تأکید به گفتار، سبب تغییرات زیادی در پارامترهای گفتاری شده و شناسایی آن را با استفاده از مدل های عادی مشکل می سازد. کاهش نرخ بازشناسی نتیجه طبیعی بازشناسی گفتار با حالت با استفاده از مدل های عادی است. اولین قدم در بازشناسی گفتار با حالت، بررسی نحوه تأثیر حالت گفتار بر پارامترهای مهم گفتاری می باشد. به عبارت دیگر اتخاذ روشی مناسب برای بازشناسی، مستلزم شناسایی درست نحوه تأثیر حالت گفتار بر پارامترهای گفتار است. از مهم ترین پارامترهای مطرح برای گفتار در زبان فارسی، می توان فرکانس گام را نام برد. در این تحقیق بررسی دقیقی بر روی نحوه تأثیر چند حالت گفتاری بر فرکانس گام و شیب آن برای واج های واکدار مختلف در زبان فارسی صورت گرفته است.
مساله بازشناسی گفتار موضوعی است که در دهه های اخیر توجه به آن افزایش یافته و آن را به یک موضوع مهم روز تبدیل نموده است. یکی از دلایلی که منجر به این امر شده است، مساله تسهیل ارتباط انسان با رایانه می باشد.
با گسترش فن آوری و وارد شدن پردازشگرهای شخصی در زوایای زندگی فردی و اجتماعی مردم، مساله ساده تر کردن ارتباط با رایانه، روز به روز اهمیت بیشتری می یابد. متخصصین نگران آن هستند که با روند افزایش حجم اطلاعات که بین انسان و رایانه رد و بدل می شود زمانی فرا برسد که وسایل موجود ارتباطی از قبیل صفحه کلید؛ موشواره که نیاز به حرکات فیزیکی و مداوم دارند. خستگی روحی و جسمی زیادی را به افراد تحمیل نمایند. به همین جهت دنبال این هستند تا امکاناتی را فراهم سازند که انسان توسط گفتار، فرامین و اطلاعات مورد نظر خود را به رایانه منتقل سازد.
طی این سال ها تلاش زیادی جهت بهبود کارآیی بازشناسی گفتار صورت گرفت، اما با توجه به عوامل زیادی که در این روند موثر هستند، همواره عملیات بازشناسی با خطا روبرو بوده است.
هر زبان از مجموعه ای از صداهای مختلف تشکیل شده است که به هرکدام از این اصوات یک واج گفته می شود. ترکیب واج ها سیلاب یا هجاء را تشکیل می دهد و از ترکیب چند هجاء لغات به وجود می آیند. هر واج را می توان به صورت یک الگوی مشخص در دستگاه اسپکتروگرام مشخص کرد. علاوه بر این گفتار انسان از نوسانات صوتی حنجره (تارهای صوتی) ایجاد می شود که این تارها، خصوصیات غیر خطی دارند و عوامل مختلفی در آن تاثیر گذارند. همچنین محیطی که افراد در آن صحبت می کنند نیز مساله را پیچیده تر می نمایند.
در زمینه شناسایی کلام (فارسی یا غیرفارسی) پروژه های زیادی ارائه شده است، اما اکثر این سیستم ها براساس تبدیل سیگنال های صحبت به واج ها و سیلاب های تشکیل دهنده کلمات کار می کنند. اما این تبدیل احتیاج به زبان شناسی نسبتا دقیقی برای بازشناسی واج ها، آواها و… دارد و در انجام این کار و شکستن زبان به مجموعه واج ها اختلافات زیادی است لذا در برخی موارد بحث بازشناسی گفتار براساس کلمه مطرح می شود که در این رسانه نیز از آن استفاده شده است.
کار بازشناسی گفتار به طور کلی می تواند به 3 پردازش تقسیم شود: پیش پردازش، فشرده سازی، دسته بندی.
– در فصل اول این پروژه با مقدمات گفتار و پردازش آن و عوامل موثر در بازشناسی گفتار و روش های پردازش گفتار آشنا می شویم و مروری بر کارهای انجام شده و وضعیت اکنون نموده و تعدادی از سیستم های موجود را بررسی می نماییم.
– در فصل دوم نیز، مقدمه ای از توصیف مدل مخفی مارکوف (HMM) ارائه گردیده است.
– در فصل سوم به معرفی ابزارهای بازشناسی گفتار (HTK) پرداخته ایم و تعدادی از دستورها که در این رساله مورد استفاده قرار گرفته است را مورد بررسی قرار داده ایم.
– در فصل چهارم نیز در برگیرنده روش کاری و بررسی آماری فرکانس گام در حالت های مختلف گفتاری می باشد.
– در فصل پنجم، بازشناسی گفتار با حالت و ارائه یک مدل جدید بازشناسی را شامل می شود.
و...