یارا فایل

مرجع دانلود انواع فایل

یارا فایل

مرجع دانلود انواع فایل

پاورپوینت-ppt- پردازش تصویر در 50 اسلاید-powerpoint

اختصاصی از یارا فایل پاورپوینت-ppt- پردازش تصویر در 50 اسلاید-powerpoint دانلود با لینک مستقیم و پرسرعت .

پاورپوینت-ppt- پردازش تصویر در 50 اسلاید-powerpoint


پاورپوینت-ppt- پردازش تصویر در 50 اسلاید-powerpoint

 

مقدمه ای بر پردازش تصویر

 

  در هر سیستمی و با هر عملکردی برای تصمیم گیری به داده های ورودی احتیاج داریم. این ورودی ها میتوانند از یک سنسور صوتی, سنسور فاصله سنج , سنسور مادون قرمز , میکروفن و با تصاویر ارسالی از یه دوربین باشد.

 

  امروزه پردازش تصویر بهترین ابزار برای استخراج ویژگی ها و تحلیل موقعیت و در نهایت تصمیم گیری صحیح می باشد. در مورد انسان نیز به همین صورت است, اطلاعات از طریق چشم به مغز ارسال می شوند و مغز با پردازش این اطلاعات تصمیم نهایی را گرفته و فرمان را صادر می کند.

 

  هدف از پردازش تصویر پیاده سازی عملکرد ذهن انسان در قبال داده ها و انجام پردازش های خاصی برای استخراج ویژگی مورد نیاز برای رسیدن به هدف از پیش تعیین شده می باشد.

کوچکترین جزء PIXEL است . پیکسل مخفف Picture Element به معنی المان تصویر است. یک تصویر متشکل از تعداد زیادی پیکسل است که در کنار هم قرار گرفته اند . در واقع زمانی که با یک دوربین دیجیتال عکس می گیرید اگر رزولوشن دوربین شما 640480x باشد به این معنی است که ماتریس با ابعاد 640480x در اختیار شماست که 640 پیکسل در طول و 480 پیکسل در عرض دارد . به ازای هر پیکسل یک سلول نوری در دوربین وجود دارد. شدت نور این سلول نوری مقدار عددی را برای این پیکسل تعیین می کند. به طور مثال به ازای رنگ سیاه مقدار صفر در پیکسل ذخیره می شود و به ازای رنگ سفید مقدار 255 در آن ذخیره می شود.

 

 


دانلود با لینک مستقیم

دانلود مقاله ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز

اختصاصی از یارا فایل دانلود مقاله ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز دانلود با لینک مستقیم و پرسرعت .

دانلود مقاله ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز


دانلود مقاله ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز

دانلود مقاله ی مهندسی برق با موضوع ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز که شامل 16 صفحه و بشرح زیر میباشد:

نوع فایل : Word

چکیده: سیستمهای بازشناسی چندباندی گفتار که بر اساس مکانیزم شنوایی انسان عمل می کنند، نرخ بازشناسی را نسبت به سیستم تمام باند به ویژه در حضور نویز بهبود می بخشند. در بازشناسی چندباندی گفتار، سیگنال گفتار ابتدا به چند زیرباند فرکامسی تقسیم می شود و پس از استخراج بردارهای ویژگی از هر زیرباند، این بردارها یا احتمال تخمینی برای آنها با یکدیگر ترکیب می شوند. در کار حاضر سیستم چندباندی بازشناسی گفتار بر مبنای ترکیب ویژگیها مد نظر قرار گرفته است و ترکیب این شیوه با یک شیوه مبتنی بر مدل موسوم به معیار تصویردهی وزن دار پیشنهاد گردیده است. نتایج آزمایشها نشان می دهند که علاوه بر بهتر بودن کارآیی شیوه ترکیب ویژگیها نسبت به سیستم تمام باند، روش پیشنهادی نیز سبب بهبود چشمگیر کارآیی روش ترکیب ویژگیها می گردد.

کلمات کلیدی: باشناسی چندباندی گفتار، زیرباند، ترکیب ویژگیها، تبدیل موجک، معیار تصویردهی وزن دار

مقدمه

مسئله مقاوم سازی سیستمهای بازشناسی گفتار در برابر نویز را می توان به صورت کاهش میزان عدم تطبیق میان شرایط آموزش و آزمون سیستم درنظر گرفت. روشهایی را که برای کاهش این عدم تطبیق بکار یم روند، می توان به سه گروه اصلی تقسیم کرد: روشهای مبتنی بر داده، روشهای مبتنی بر مدل و شیوه های پردازش چندباندی. روشهای مبتنی بر داده تلاش می کنند تا تاثیرات نویز را بر سیگنالهای گفتار یا ویژگیهای آن کاهش دهند، حال آنکه روشهای مبتنی بر مدل بحای خود سیگنال گفتار یا ویژگیهای آن مدل آلکوستیک گفتار را اصلاح می نمایند. شیوه پردازش چندباندی معمولاً در مورد نویزهایی بکار گرفته می شود که سبب تخریب بخشی از طیف فرکانسی سیگنال گفتار می شوند. در شیوه بازشناسی چندباندی، گفتار تمام باند به چندین زیرباند فرکانسی تقسیم می شود و پس از استخراج بردارهای ویژگی از هر زیرباند، بردارهای ویژگی زیرباندها یا احتمال تخمینی برای آنها توسط بازشناس متناظر با هر زیرباند، با یکدیگر ترکیب می شوند و به این ترتیب پاسخ بازشناسی بدست می آید.روشهای مبتین بر داده را می توان معمولاً به دو گروه عمده تقسیم کرد: شیوه بهبود گفتار و روشهای جبران ویژگی. شیوه های بهبود گفتار مستقیماً با سیگنال نویزی گفتار سر و کار دارند و با تخمین سیگنال تمیز از سیگنال نویزی در جهت کاهش میزان عدم تطبیق تلاش می کنند. روش تفاضل طیف و آستانه گذاری ضرایب تبدیل موجک سیگنال گفتار نمونه هایی از این دسته هستند. روشهای جبران ویژگی معمولاً عدم تطبیق را به دو طریق کاهش می دهند. در طریق اول، یک تبدیل به ویژگیها اعمال یم شود تا اثر نویز از آنها حذف گردد. تفاضل میانگین ضرایب کپسترال (CMS) و RASTA PLP از جمله چنین روشهایی هتسند. در طریق دیگر، ویژگیهای جدیدی استخراج می شوند که نسبت به تاثیرات نویز مقاوم باشند، همانند ویژگیهای خود همبستگی فاز.

روشهای مبتنی بر مدل، مدل آماری محیط را به نحوی اصلاح می کنند که با شرایط جدید محیطی همانند شرایط نویزی تطبیق یابد. در این تطبیق هیچ نوع فرض یا دانش خاصی در باره خود سیگنال گفتار لازم نیست. این روشها معمولاً نیازمند آموزش برون خط برروی دادگان گفتار نویزی هستند. به عنوان نمونه ای از این روشها می توان به ترکیب موازی مدلها (PMC) و بازگشت خطی با بیشترین شباهت (MLLR) اشاره کرد.

در بازشناسی چند باندی گفتار، ابتدا سیگنال به چند باند فرکانسی تقسیم می شود. به این ترتیب می توان بخشهای تخریب شده طیق گفتار را از دیگر بخشهای طیف جدا کرد. سپس یک بردار ویژگی از هر زیرباند استخراج می شود که زیربردار ویژگی نامیده می شود. دو روش برای برخورد با این زیربردارها وجود دارد. در روش اول می توان آنها را در کنار یکدیگر قرار داد و به عنوان جایگزینی برای ویژگیهای اصلی استفاده نمود که این شیوه ترکیب ویژگیها نامیده می شود. در روش دیگر زیربردارهای ویژگی بوسیله بازشناس مجزای متناظر یا هر زیرباند، مورد پردازش قرار می گیرند و احتمالی برای آنها تخمین شده می شود و این احتمالات به شیوه خطی یا غیرخطی با یکدیگر ترکیب می شوند. این شیوه ترکیب احتمالات یا ترکیب مدلها نامیده می شود..............


دانلود با لینک مستقیم

دانلود کمک پایان نامه با موضوع پردازش تصاویر رقمی

اختصاصی از یارا فایل دانلود کمک پایان نامه با موضوع پردازش تصاویر رقمی دانلود با لینک مستقیم و پرسرعت .

دانلود کمک پایان نامه با موضوع پردازش تصاویر رقمی


دانلود کمک پایان نامه با موضوع پردازش تصاویر رقمی
دانلود کمک پایان نامه با موضوع پردازش تصاویر رقمی که شامل 21 صفحه و بشرح زیر است :
نوع فایل : Word

چکیده و مقدمه : در پردازش تصاویر رقمی معمولا“از شیوه های که به شکل الگوریتم بیان می شود استفاده می گرددبنابراین غیر از تصویربرداری و نمایش تصویر می توان اغلب عملیات پردازش تصویر را با نرم افزار  اجرا کرد تنها علت استفاده از سخت افزار ویژه پردازش تصویر نیاز به سرعت بالا دربعضی کاربردها و یا غلبه بر بعضی محدودیت های اساسی رایانه است.مثلا“یک کاربرد مهم از تصویربرداری رقمی ؛ریزبینی درنورکم است برای کاهش نویز تصویر باید چند متوسط گیری روی تصاویر متوالی با نرخ قالب(غالبا“30قاب در ثانیه)انجام شود.شاختار بزرگراه در غالب رایانه ها جز چند رایانه بسیار کارآمد نمی تواند به سرعت داده مورد نیازبرای اجرای این عمل دست یابد بنابراین  سامانه های پردازش تصویر امروزی ترکیبی از رایانه های متداول و سخت افزارهای ویژه پردازش تصویر است که کارهمه آنها به وسیله نرم افزار در حال اجرا روی رایانه اصلی هدایت می شود.

فهرست محتوا

پردازش
مخابرات
نمایش 
فشرده سازی تصویر
مبانی
مدلهای فشرده سازی تصویر
رمزگزار ورمزبردار منبع
رمزگذارورمزبردار کانال 
فشرده سازی بدون خطا
رمزنگاری طول متغیر
رمزنگاری هافمن
رمزگذاری حسابی
رمز نگاری بیت-صفحه ای
رمزنگاری ناحیه ثابت
استانداردهای فشرده سازی تصویر
فشرده سازی یک بعدی 
فشرده سازی دوبعدی
فشرده سازی تصاویر تکرنگ و رنگی دنباله ای 
پردازش تصویر رنگی
مبانی رنگ
مدلهای رنگ
مدل رنگRGB
مدل رنگ CMY
مدل رنگ YIQ
مدل رنگ HIS
پردازش تصویر تمام رنگی
ارتقا با استفاده ازمدلHSI

دانلود با لینک مستقیم

دانلود مقاله بهینه‌ سازی و پردازش پرس و جو

اختصاصی از یارا فایل دانلود مقاله بهینه‌ سازی و پردازش پرس و جو دانلود با لینک مستقیم و پرسرعت .

دانلود مقاله بهینه‌ سازی و پردازش پرس و جو


دانلود مقاله بهینه‌ سازی و پردازش پرس و جو

در این فصل ما به تکنیک‌های بکار رفته توسط DMBS برای پردازش، بهینه‌سازی و اجرای پرس و جوهای سطح بالا می‌پردازیم.
پرس و جوی بیان شده در زبان پرس‌و جوی سطح بالا مثل SQL ابتدا باید پویش و تجزیه . معتبر شود. پویشگر (اسکنر) علامت هر زبان، مثل لغات کلیدی SQL، اساس ویژگی، و اساس رابطه، را در متن پرس و جو شناسایی می‌کند،‌ در عوض تجربه کننده، ساختار دستوری پرس و جو را برای تعیین اینکه آیا بر طبق قوانین دستوری زبان پرس و جو تدوین می‌شود یا خیر، چک می‌کند. پرس و جو باید همچنین معتبر شود، با چک کردن اینکه تمام اسامی رابطه و ویژگی معتبر هستند و اسامی معنی‌دار در طرح پایگاه اطلاعاتی ویژها‌ی پرس و جو می‌شوند. نمونه داخلی پرس و جو ایجاد می‌شود،‌‌ که تحت عنوان ساختار داده‌های درختی بنام درخت پرس و جو می‌باشد. ارائه پرس و جو با استفاده از ساختار داده‌های گراف بنام گراف پرس و جو نیز امکان پذیر است. DOMS باید استراتژی اجرایی برای بازیابی نتیجه پرس و جو از فایل‌های پایگاه اطلاعاتی را هدایت کند. پرس و جو استراتژیهای اجرایی بسیاری دارد. و مرحله انتخاب،‌ مورد مناسبی برای پردازش پرس وجو تحت عنوان بهینه‌سازی پرس و جو شناخته شده است.
تصویر ۱، مراحل مختلف پردازش پرس و جوی سطح بالا را نشان می‌دهد. قطعه بر نامه بهینه‌ساز پرس وجو، وظیفه ایجاد طرح اجرایی را بعهده دارد و ژنراتور (تولید کننده) که ، کد را برای اجرای آن طرح ایجاد می‌کند. پردازنده پایگاه اطلاعاتی زمان اجرا وظیفه اجرای که پرس و جو را بعهده دارد،‌ خواه در وضعیت کامپایل شده یا تفسیر شده جهت ایجاد نتیجه پرس و جو. اگر خطای زمان اجرا نتیجه شود،‌ پیام خطا توسط پایگاه اطلاعاتی زمان اجرا ایجاد می‌شود.
اصطلاح بهینه‌سازی نام بی مسمایی است چون در بعضی موارد،‌ طرح اجرایی انتخاب شده، استراتژی بهینه نمی‌باشد، آن فقط استراتژی کارآمد معقول برای اجرای پرس و جو است. یافتن استراتژی بهینه، ضامن صرف زمان زیادی است، بجز برای ساده‌ترین پرس و جوها،‌ ممکن است به اطلاعاتی روی چگونگی اجرای فایل‌ها در فهرست‌های فایل‌ها، اطلاعاتی که ممکن است کاملاً در کاتالوگ DBMS در دسترس نباشد، نیاز باشد. از اینرو،‌ برنامه‌ریزی استراتژی اجرا ممکن است توصیف درست‌تری نسبت به بهینه‌سازی پرس و جو باشد.
برای زبانهای پایگاه اطلاعاتی (دریایی) جهت‌یابی در سطح پایینتر در سیستم‌های قانونی، مثل شبکه DML شبکه‌ای یا MOML سلسله مراتبی،‌ برنامه نویس باید، استراتی اجرای پذیرش و جو را انتخاب کند ضمن اینکه برنامه پایگاه اطلاعاتی را می‌نویسد. اگر DBMS فقط زیان جهت‌یابی را ارائه دهد. فرصت و نیاز محدودی برای بهینه‌سازی پرس وجوی وسیع توسط DBMS وجود دارد، در عوض به برنامه نویس قابلیت انتخاب استراتژی اجرایی بهینه ارائه می‌شود. بعبارت دیگر، زبان پرس و جو در سطح بالا، مثل SQL  برای DBMSهای رابطه‌ای یا OQL برای DBMS‌های مقصد،‌ در ماهیت تفریطی‌تر است. چون آنچه نتایج مورد نظر پرس و جو است بغیر از شناسایی جزئیات چگونگی بدست آمدن نتیجه،‌ را تعیین می‌کند. بهینه‌سازی پرس و جو برای پرس و جوهایی ضروی است که در زبان پرس و جوی سطح بالا تعیین می شوند. ما روی توصیف بهینه‌سازی پرس و جو در زمینه ROBMS تمرکز می‌کنیم چون بسیاری از تکنیک‌هایی که توصیف می‌ کنیم برای، برای ODBMSها تطبیق یافته‌اند. DBMS رابطه‌ای باید استراتژیهای اجرای پرس و جوی دیگری را ارزیابی کند و استراتژی بهینه یا کارآمد معقولی را انتخاب کند. هر DBMS ،‌ تعدادی الگاریتم دسترسی به پایگاه اطلاعاتی کلی دارد که علامتهای رابطه‌ای مثل SELECT یا JOIN یا ترکیبی از این عملیات ‌ها را اجرا می‌کند. تنها استراتژیهای اجرایی که می‌توانند توسط الگاریتم‌های دسترسی DBMS اجرا شوند و برای طراحی پایگاه اطلاعاتی فیزیکی ویژه و پرس و جوی خاص بکار روند،‌ می‌توانند توسط قطعه برنامه بهینه‌سازی پرس و جو در نظر گرفته شوند.
ما با بحث کلی چگونگی ترجمه پرس و جوهای SQL به پرس و جوهای جبری رابطه‌ای و در بهینه‌شدن آنها کار را شروع می‌کنیم. بعد ما روی الگاریتم‌ها برای اجرای عملیات‌های رابطه‌ای در بخش ۱۸۰۲ بحث می‌کنیم. بدنبال این مطلب، بررسی از استراتژیهای بهینه‌سازی پرس و جو را ارائه می‌دهیم. دو تکنیک اصلی برای اجرای بهینه‌‌سازی پرس و جو وجود دارد. اولین تکنیک بر اساس قوانین ذهنی جهت ترتیب دادن عملیات‌ها در استراتژی اجرای پرس و جو می‌باشد. ذهن قانونی است که بخوبی در اکثر موارد عمل می‌کند ولی برای کار مناسب در هر مورد کنش تضمین نمی‌شود. قوانین عملیات‌ها را در درخت پرس وجو مجدداً ترتیب می‌دهند. دومین تکنیک شامل برآورد هزینه استراتژیهای اجرای متفاوت و انتخاب طرح اجرایی با پایین‌ترین هزینه برآورد است. دو تکنیک معمولاً در بهینه ساز پرس و جو (باهم ترکیب می‌شوند) بهم ملحق می‌گردند. بررسی مختصری از عوامل در نظر گرفته شده در طول بهینه‌سازی پرس و جو در RDBMS بازرگانی ORACLL= را ارائه می‌دهیم. در بخش بعدی نوعی بهینه‌سازی پرس و جوی معنایی را ارائه می‌دهد که در آن محدودیت‌های شناخته شده برای پرداختن به استراتژیهای اجرایی پرس و جوی کارآمد استفاده می‌شوند.
۲ – ترجمه پرس و جوهای SQL به پرس و جوهای رابطه‌ای:
در عمل، SQL زبان پرس وجویی است که در اکثر RDBMS ‌های بازرگانی استفاده می‌شود. پرس وجوی SQL ، ابتدا به عبارت جبری رابطه‌ای توسعه یافته معادل،‌ نمایانگر ساختار داروهای درخت پرس و جو، ترجمه می‌شود و بعد بهینه‌سازی می‌شود. پرس و جوهای SQL به بلوکهای پرس و جو تجزیه می‌شوند،‌ که واحدهای اساسی را تشکیل می‌دهند که می‌توانند به عملکردهای جبری ترجمه شوند و بهینه‌سازی شوند. بلوک پرس و جو شامل عبارت SELECT- FROM-WHERE تکی و بندهای Groop By و HAVING است چنانچه این‌ها بخشی از بلوک باشند. از اینرو،‌ پرس و جوهای تو در تو در پرس و جو بعنوان بلوکهای پرس و جوی مجزا شناسایی می‌شوند. چون SQL شامل عملکردهای گروهی، مثل MAX ،‌ COUNT,SUM می‌باشد، این عملگرها باید در پرس و جوی جبری توسعه یافته‌ای شامل شوند، همانطوریکه در بخش ۷۰۵ توصیف شد. پرس و جوی SQL در رابطه EMPLOEE در تصویر ۷۰۵ را در نظر بگیرید:
این پرس و جو شامل، پرس و جوی فرعی تو در تو است و از اینرو به دو بلوک تجزیه می‌شود. بلوک درونی بدین صورت است:
و بلوک بیرونی بدین صورت می باشد:
که C نمایانگر نتیجه حاصله از بلوک درونی است. بلوک درونی به عبارت جبری رابطه‌ای توسعه یافته زیر ترجمه شده است:
و بلوک بیرونی به عبارت زیر  ترجمه شده است:
بهینه‌ساز پرس و جو، طرح اجرایی را برای هر بلوک انتخاب می‌کند. ما باید اشاره کنیم به در مثال فوق، بلوک درونی نیاز به ارزیابی شدن دارد تنها زمانی که، حداکثرحقوقی که بعکار می‌رود که بعنوان ثابت C، توسط بلوک بیرونی استفاده می‌شود. ما اینرو پرس و جوی تودرتوی غیرمرتبط نامیدیم (در فصل ۸). آن برای بهینه‌سازی پرس و جوهای تو در توی مرتبط پیچیده‌تر، خیلی سخت‌تر است، جایی که متغیر Tuple از بلوک بیرونی در بند WHERE در بلوک درونی ظاهر می‌شود.
۱۸۰۲- الگاریتم های انسانی برای اجرای عملیاتهای پرس و جو:
RDBMS شامل الگاریتم‌هایی برای اجرای انواع مختلف عملیاتهای رابطه‌‌ای است که می‌توانند در استراتژی اجرای پرس و جو نمایان شوند، این عملیات‌ها شامل عملیاتهای جبری بیسیک (اصلی) و توسعه یافته مورد بحث در فصل ۷ ، و در بسیاری موارد، الحاقاتی از این عملیات‌ها می‌باشد. برای هر یک از این عملیات ها یا الحاقی از عملیات‌ها، یک یا چند الگاریتم برای اجرای عملیات‌ها در دسترس قرار دارند. الگاریتم ممکن است فقط برای ساختارهای ذخیره خاص مسیرهای دستیابی بکار روند، در اینصورت ،‌ تنها در صورتی استفاده می‌شود که فایل های موجود در عملیات شامل این مسیرهای دستیابی هستند. در این بخش، ما به الگاریتم‌های نمونه بکار رفته برای اجرای SEKECT ، JOIN و دیگر عملیاتهای رابطه‌ای می‌پردازیم. ما بحث مرتب کردن خارجی را در بخش ۱۸۰۲۰۱ آغاز می‌کنیم که در قلب عملیاتهای رابطه‌ای قرار دارد که از استراتژیهای ادغام کردن به مرتب کردن استفاده می‌کند. بعد ما به الگاریتم‌هایی برای اجرای عملیات SELECT در بخش ۱۸۰۲۰۲ می‌پردازیم،‌ به عملیات ‌JOIN در بخش ۱۸۰۲۰۳ و عملیات PRIJECT و عملیاتهای مجموعه در بخش IE 1802 و عملیات‌های گروهی و جمعی در بخش ۲ .۲ . ۱۸ می‌پردازیم.
۱٫ ۲٫ ۱۸- مرتب کردن خارجی:
مرتب کردن، یکی از الگاریتم‌های اولیه بکار رفته در پردازش پرس و جو است. برای مثال، ‌به هر وقت پرس و جوی SQL ، بعد ORDER BY را تعیین می‌کند، نتیجه پرس و جو باید مرتب گردد. مرتب کردن، مؤلفه کلیدی در الگاریتم‌های مرتب کردن- ادغام کردن (مرتب-ادغام) بکار رفته برای Join و عملیاتهای دیگر، دور الگاریتم‌های حذف کپی برای عملیات PROYECT است. ما روی بعضی از این الگاریتم‌ها در بخش‌ ۳٫ ۲٫ ۱۸ و ۴٫ ۰۲ ۱۸ بحث خواهیم کرد. توجه کنید که مرتب کردن در صورتی که اجتناب می‌شود که شاخص مناسب برای امکان دسترسی مرتب شده به ثبت‌ها وجود دارد.
مرتب کردن خارجی به الگاریتم‌های مرتب کردن اشاره می‌کند که برای فایل های بزرگ ثبت ‌های ذخیره شده روی دیسک مناسب هستند که در حافظه اصلی، مثل اکثر فایل های پایگاه اطلاعاتی تناسب نمی‌‌یابد. الگاریتم‌ مرتب کردن خارجی نمونه از استراتژی مرتب- ادغام استفاده می‌کند، که با مرتب کردن- فایل‌های فرعی کوچک بنام اجراها در فایل اصلی شروع می‌شود و بعد اجراها مرتب شده ادغام می‌شوند،‌‍ فایل‌های فرعی مرتب شده بزرگتری ایجاد می‌شوند که بترتیب ادغام می‌شوند. الگاریتم ادغام –مرتب،‌ مثل دیگر الگاریتم های پایگاه اطلاعاتی به فاضی بافر در حافظه اصلی نیاز دارد،‌ جایی که مرتب کردن واقعی و ادغام اجراها انجام می‌ شود. الگاریتم اصلی (سیبک) شرح داده شده در تصویر ۱۸۰۲ ، شامل دو مرحله است: (۱) فاز یا مرحله مرتب کردن و (۲) مرحله ادغام.
در مرحله مرتب کردن، اجراهای فایلی که می‌تواند در فضای باز موجود تناسب یابد در حافظه اصلی خوانده می‌شوند و با استفاده از الگاریتم مرتب کردن داخلی مرتب می‌شود عقب دیسک بعنوان فایل‌های فرعی مرتب شده متوفی نوشته می‌شود. اندازه اجرا و تعداد اجراهای آغازین   توسط تعداد بلوکهای فایل (b) و فضای بافر موجود (NB) بیان می‌شود. برای مثال اگر   بلوکو اندازه قایل ۱۰۲۴=b  بلوک باشد،‌ بعد   یا ۲۰۵ اجرای آغازین در هر اندازه ۵ بلوک  است. از اینرو، بعد از مرحله مرتب کردن، ۲۰۵ اجرای مرتب شده بعنوان فایل‌های فرعی موقتی روی دیسک ذخیره می‌شوند. اجرای مرتب شده بعنوان فایل‌های فرعی موقتی و روی دیسک ذخیره می‌شوند.
در مرحله ادغام شدن، اجراهای مرتب شده،‌ در طول یک یا چند گذر ادغام می‌‌شوند. درجه ادغام شدن   تعداد اجراهایی است که می‌توانند با همدیگر در هر گذر ادغام شوند. در هر گذر، یک بلوک بافر، برای حفظ یک بلوک از هر اجرای ادغام شده نیاز می‌باشد، و یک بلوک برای تشکیل یک بلوک نتیجه ادغام لازم است . از اینرو،‌  کوچکتر از   و   است و تعداد گذرها،   است. در مثالها،   است. لذا،‌ ۲۰۵ اجرای مرتب شده آغازین در ۲۵ تا در پایان اولیه گذر ادغام می‌شود: که بعد به ۱۲، بعد ۴ بعد یک اجرا ادغام می‌شوند، که بدین معنی است که چهارگذر لازم می‌باشد. حداقل   از ۲،‌ عملکرد بدترین مورد الگاریتم را ارائه می‌دهد که بدین قرار است:
اولین جمله، تعداد دسترسی‌های بلوک برای مرحله مرتب سازی را نشان می‌دهد، چون هر بلوک فایل دو برابر دسترسی می‌شود، یکبار برای خواندن در حافظه،‌ یکبار برای نوشتن ثبت‌ها دیسک بعد از مرتب کردن. دومین جمله، تعداد دسترسی‌های بلوک برای مرحله ادغام کردن را نشان می‌دهد، با فرض اینکه بدترین مورد   از ۲ وجود دارد. بطور کلی، ثبت وقایع در مبنای   و عبارت برای تعداد دسترسی‌های بلوک نوین قرار می‌شود:
تصویر ۱۸۰۲- شرح الگاریتم ادغام – مرتب کردن برای مرتب کردن خارجی:

مقدمه ۲
۲ – ترجمه پرس و جوهای SQL به پرس و جوهای رابطه‌ای: ۵
۱۸۰۲- الگاریتم های انسانی برای اجرای عملیاتهای پرس و جو: ۶
۱٫ ۲٫ ۱۸- مرتب کردن خارجی: ۷
۲٫ ۲٫ ۱۸- اجرا و پیاده‌سازی عملیات SELECT : 9
متدهای جستجو برای انتخاب ساده: ۱۰
متدهای جستجو برای  انتخاب پیچیده: ۱۱
متدهای برای اجرای اتصال ها: ۱۵
اجرای اتصال بیرونی: ۲۹
تبدیل درختان پرس و جو به طرح های اجرای پرس و جو: ۴۴

 

شامل 66 صفحه فایل word


دانلود با لینک مستقیم

ابزارهای لازم برای پردازش متن در زبان فارسی

اختصاصی از یارا فایل ابزارهای لازم برای پردازش متن در زبان فارسی دانلود با لینک مستقیم و پرسرعت .

ابزارهای لازم برای پردازش متن در زبان فارسی


 

 

 

 

ابزارهای لازم برای پردازش متن در زبان فارسی

تشخیص دهنده ی جمله: این ابزار باید با توجه به کاراکترهای جداکننده ی جمله در زبان فارسی، توانایی تشخیص جملات را در متن ورودی داشته باشد. برای ایجاد این ابزار باید ابتدا تمامی کاراکترها، نماد ها و احیاناً قواعد دستوری که باعث شکسته شدن جملات می شوند، شناسایی گردند. با توجه به پایه بودن جمله در بسیاری از پردازش های زبانی، خروجی دقیق این ابزار از درجه ی اهمیت بالایی برخوردار است. از نمونه های انگلیسی آن می توان به OpenNLP، Stanford NLP، NLTK و Freeling اشاره کرد.

Tokenizer: ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و … . لازمه ی ایجاد این ابزار جمع آوری واحد هایی است که در زبان فارسی به عنوان واحد های مستقل معنایی شناخته می شوند. سپس بر اساس انتخاب هر کدام از این واحدها متن بر اساس آن شکسته خواهد شد. از نمونه های انگلیسی آن می توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.

Named entity recognition: ابزاری برای تشخیص اسامی و نوع آنها اعم از اسامی افراد، اماکن، مقادیر عددی و … . برای تشخیص اینکه یک کلمه اسم است، راه های مختلفی وجود دارد که از جمله ی آنها مراجعه به لغتنامه، مراجعه به word-net، در نظر گرفتن ریشه ی کلمه، استفاده از قواعد نحوی ساخت واژه و … می باشد. در این ابزار پس از تشخیص اسم ها با استفاده یک لغتنامه از اسامی افراد، مکان ها، مقادیر عددی و … نوع اسم تشخیص داده می شود. به نظر می رسد که این لغتنامه در فارسی موجود نمی باشد.

از جمله نمونه های انگلیسی این ابزار می توان به Stanford NER و Illinois NER اشاره کرد.

Word-net: مجموعه ای از لغات و ارتباط میان آنها به لحاظ معنایی. ارتباطات معنایی در داخل این مجموعه شامل ۱۶  رابطه  می باشد. این مجموعه به عنوان یک مرجع در بسیاری از پردازش های زبانی مورد استفاده قرار می گیرد. ار نمونه های انگلیسی آن می توان به Princeton Wordnet و EuroWordnet اشاره کرد. آزمایشگاه فناوری وب دانشگاه فردوسی مشهد نیز یک نمونه از این مجموعه با نام فردوس نت را تولید کرده است.

Stemmer: ابزاری برای ریشه یابی لغات و تشخیص نوع کلمه ساخته شده از آن ریشه (اسم مکان، اسم زمان، حالت فاعلی، مفعولی و …). معمولاً ریشه یابی لغات بر اساس قواعد ساخت واژه ای و سپس حذف پسوندها می باشد. تاکنون روش مؤثری برای حذف پیشوندها ارائه نشده است. در تلاشی که در آزمایشگاه فناوری وب انجام شده است، سعی شده تا بر اساس آنالیزهای آماری و داده کاوی پسوندها حذف گردند، که این روش هم می تواند راهی برای تشخیص ریشه باشد.

معروفترین الگوریتم ریشه یابی در انگلیسی porter می باشد.

Similarity recognition: ابزاری برای تشخیص میزان شباهت میان دو عبارت بر اساس پارامترهای مختلف مانند نوع اسامی مشابه به کار رفته، استفاده از word-net و… . در این ابزار پس از تشخیص نوع کلمات به کار رفته در یک جمله و سپس بر اساس جایگاه آن کلمات در جمله، کلماتی که در جایگاه های یکسان قرار دارند، مورد مقایسه قرار می گیرند. از نمونه های انگلیسی آن می توان به Illinois NESim و Illinois WNSim اشاره نمود.

Chunker: ابزاری برای تشخیص گروه های اسمی، فعلی و …. در یک جمله. جهت تقویت الگوریتم های وابسته به SRL لازم است نه تنها نقش های کلمات مشخص گردند، بلکه باید وابستگی های کلمات به لحاظ نقشی در جمله مشخص گردند. از جمله نمونه های انگلیسی آن می توان به Illinois Chunker  اشاره کرد.

Semantic role labeler: ابزاری برای تشخیص نقش گرامری کلمه در جمله. این ابزار یکی از مهمترین نقش ها را در پردازش های زبانی بر عهده دارد. دقت در این ابزار بسیار حائز اهمیت است. این ابزار باید نقش های گرامری کلمات در جمله ها مانند فعل، فاعل، مفعول مستقیم، مفعول غیر مستقیم و …. را تشخیص دهد. از جمله نمونه های انگلیسی آن می توان به OpenNlP، Illinois SRL، Swirl و LTHSRL  اشاره کرد. این ابزارها از الگوریتم پارسینگ charniak استفاده می کنند.

Annotator: ابزاری برای ایجاد یک نمونه از یک آنتولوژی در یک سند داده شده. از ابزارهای موجود در انگلیسی می توان به Illinois Curator و Stanford Annotator اشاره کرد.

Coreference resolution: ابزاری برای تعیین مرجع اسمی یک اسم یا یک ضمیر در جملات. این ابزار در زبان انگلیسی معادل ابزاری است که مرجع ضمیر را که به صورت اسم در جمله های قبلی آمده است، مشخص می کند. استفاده از ضمایر به جای اسامی در زبان انگلیسی بسیر رایج می باشد. اما در زبان فارسی این امر چندان رایج نیست. اما در زبان فارسی عنوان یک مفهوم اسمی با اصطلاحات مختلف بسیار رایج می باشد. عملاً ما به دنبال ابزاری هستیم که مرجع خاص یک سری از عنوان ها ی مختلف اسمی را مشخص کند. از نمونه های انگلیسی این ابزار می توان به Illinois Coreference package  اشاره کرد.

Pos tagger: ابزاری برای مشخص کردن نوع کلمات از قبیل اسم، صفت، قید، فعل و … . یکی از روش های کاری برای ایجاد این ابزار، ایجاد یک rule base که معمولاً به صورت دستی تشکلیل می شود، برای تشخیص نوع کلمه است. از نونه های فارسی آن می توان به ابزار آزمایشگاه آقای دکتر بیجن خان، و ابزار آزمایشگاه فناوری وب دانشگاه فردوسی مشهد اشاره کرد. از نمونه های انگلیسی آن می توان به Illinois Part Of Speech Tagger و Stanford POS Tagger اشاره کرد.

————————————————————————-

نرمالسازی متن

در ابتدا بایستی همه‌ی نویسه‌های (کاراکترهای) متن با جایگزینی با معادل استاندارد آن، یکسان‌سازی گردند. در اولین گام باید متون برای استفاده در گام‌های بعدی به شکلی استاندارد درآیند. از آنجایی که متون مختلف ممکن است بسیار به هم شبیه باشند اما به دلیل تفاوت‌های ساده ظاهری از نظر ماشین متفاوت باشند؛ به همین دلیل سعی شده است این تفاوت­های ساده‌ی ظاهری برطرف گردد. همچنین اصلاحات دیگری نیز به منظور پردازش دقیق­تر متون در این مرحله صورت می­گیرد.

در اولین گام باید متون برای استفاده در گام­های بعدی به شکلی استاندارد درآیند. از آنجایی که متون مختلف ممکن است بسیار به هم شبیه باشند اما به دلیل تفاوت‌های ساده ظاهری از نظرماشین متفاوت باشند؛ به همین دلیل سعی شده است این تفاوت‌های ساده­ی ظاهری برطرف گردد. برای رسیدن به این هدف، قبل از مقایسه متون، پیش‌پردازش‌هایی روی آنها آنجام می‌شود. طبیعتا هر چه این پیش‌پردازش‌ها قوی‌تر باشد، نتایج حاصل ازمقایسه متون قابل اطمینان­تر خواهد بود. لازم به ذکر است که از آن جایی که زبان فارسی جزو زبان‌های غیر ساختیافته است با مشکلات بسیار بیشتری نسبت به سایر زبان‌ها مواجه خواهیم شد. متون غیرساخت‌یافته، متونی هستند که پیش فرض خاصی در مورد قالب آنها نداریم و آنها را به صورت مجموعه‌ای مرتب از جملات در نظر می‌گیریم.

در ابتدا بایستی همه­ی نویسه‌های (کاراکترهای) متن با جایگزینی با معادل استاندارد آن یکسان­سازی گردند. در پردازش رسم الخط زبان فارسی، با توجه به قرابتی که با رسم الخط عربی دارد، همواره در تعدادی از حرف­ها مشکل وجود دارد که از جمله آن­ها می­توان به حروف “ک”، “ی”، همزه و … اشاره نمود. در اولین گام باید مشکلات مربوط به این حروف را برطرف ساخت. علاوه بر این، اصلاح و یکسان سازی نویسه‌ی نیم‌فاصله و فاصله در کاربردهای مختلف آن و همچنین حذف نویسه­ی «ـ» که برای کشش نویسه­های چسبان مورد استفاده قرار می­گیرد و مواردی مشابه برای یکسان­سازی متون، از اقدامات لازم قبل از شروع فاز‌های مختلف می­باشد. در این فاز مطابق با یک سری قاعده دقیق و مشخص، فاصله­ها و نیم­فاصله­های موجود در متن برای علاماتی نظیر “ها” و “ی” غیرچسبان در انتهای لغات و همچنین پیشوندها و پسوندهای فعل­ساز نظیر “می”، “ام”، “ایم”، “اید” و موارد مشابه جهت استفاده در فازهای بعدی، اصلاح می­گردند. در ادامه به چند نمونه از این اصلاحات، اشاره شده است.

با استفاده از این ویژگی نرم‌افزار می‌توان همه­ی نویسه‌های (کاراکترهای) متن را استاندارد نمود. اگر نویسه‌ی غیر استانداردی یافت شد، با معادل استاندارد آن جایگزین می‌شود. برخی از این اصلاحات در ذیل آورده شده است:

  • اصلاح انواع حرف «ک» به معادل فارسی آنان.
  • اصلاح انواع حرف «ی» به معادل فارسی آنان.
  • بررسی همزه و انواع مختلف املاهای موجود و اصلاح هر کدام (به عنوان مثال تبدیل ؤ به و ، ئ به ی ، أ به ا ، إ به ا و…)
  • حذف شناسه‌ی همزه از انتهای واژه‌هایی مثل شهداء
  • حذف شناسه «آ» به «ا» مانند: آب به اب
  • اصلاح نویسه‌ی «طور» در واژه‌هایی مانند به طور، آن طور، این طور و …
  • بررسی وجود حرف «ی» در انتهای لغاتی مانند خانه‌ی ما و اصلاح آنان
  • حذف تشدید از واژه‌ها
  • تبدیل ارقام عربی و انگلیسی به معادل فارسی.
  • اصلاح نویسه‌ی نیم‌فاصله
  • اصلاح اعراب و حذف فتحه، کسره و ضمه و همچنین تنوین‌ها
  • حذف نیم‌فاصله‌های تکراری
  • حذف نویسه‌ی «ـ» که برای کشش نویسه­های چسبان مورد استفاده قرار می­گیرد. مانند تبدیل«بــــــــر» و «بـــر» به «بر»
  • چسباندن پسوندهای «تر»، «ترین» و … به آخر واژه‌ها
  • اصلاح فاصله‌گذاری «ها» در انتهای واژه‌ها و همچنین پسوندهای «های»، «هایی»، «هایم»، «هایت»، «هایش» و …
  • اصلاح فاصله‌گذاری «می»، «نمی»، «درمی»، «برمی»، «بی» در ابتدای واژه‌ها
  • تبدیل «‍ة» به «‍ه‌ی»
  • تبدیل «ب» متصل به ابتدای واژه‌ها به «به»
  • اصلاح فاصله‌گذاری پسوندها
  • حذف فاصله‌ها و نیم‌فاصله‌های اضافه بکار رفته در متن
  • تصحیح فاصله‌گذاری در مورد علائم سجاوندی بدین صورت که علائم سجاوندی به لغات قبل از خود می‌چسبند و با لغت بعد از خود فاصله خواهند داشت.

برای اعمال اصلاحات اولیه قبل از هر عملیاتی، بایستی متون مورد پردازش توسط ابزار Normalizer طراحی شده، مورد اصلاح قرار گیرند.

——————————————————————–

ریشه‌یابی معنایی در زبان فارسی

هدف از انجام  پروژه ریشه یابی معنایی در زبان فارسی، جداسازی کلمات از متن و بازگرداندن کلمات به ریشه اصلی تشکیل دهنده آنهاست. تفاوت اصلی این پروژه با سایر پژوهش‌های انجام شده در زمینه ریشه‌یابی، قابلیت بازگرداندن کلمات به ریشه بدون از بین رفتن معنای آنها در جمله می‌باشد. بدین منظور به نقش کلمات در جمله توجه ویژه‌ای شده است. در این طرح از مجموعه افعال گرداوری شده توسط گروه دادگان و لغات پرکاربرد پیکره همشهری استفاده شده است.

 ——————————————————————– 

برچسب گذار نقش کلمات فارسی

برچسب گذاری اجزای واژگانی کلام (Part of Speech tagging) عمل انتساب برچسب های واژگانی به کلمات و نشانه های تشکیل دهنده یک متن است؛ به صورتی که این برچسب ها نشان دهنده نقش کلمات و نشانه ها در جمله باشد. درصد بالایی از کلمات از نقطه نظر برچسب واژگانی دارای ابهام هستند، زیرا کلمات در جایگاههای مختلف برچسب های واژگنی متفاوتی دارند. بنابراین برچسب گذاری واژگانی عمل ابهام زدایی از برچسب ها با توجه به زمینه (متن) مورد نظر است. برچسب گذاری واژگانی عملی اساسی برای بسیاری از حوزه های دیگر پردازش زبان طبیعی(NLP) از قبیل ترجمه ماشینی، خطایاب و تبدیل متن به گفتار می باشد. تا کنون مدل ها و روش های زیادی برای برچسب گذاری در زبان های مختلف استفاده شده است. بعضی از این روش ها عبارتند از:

  •   مدل مخفی مارکوف (Markov Hidden Model)
  •   برچسب گذاری مبتنی بر تبدیل یا قانون (Transformation/Rule -based tagger)
  •   سیستم های مبتنی بر حافظه (Memory-basedSystem
  •   سیستم های ماکزیمم آنتروپی (Maximum Entropy System)

——————————————————————–

پارسر زبان فارسی

به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیلهی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده مانند گروه های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام پارسر صورت می گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.

پارسر طراحی شده برای زبان فارسی در این پروژه، از ساختار لغات، موقعیت و ترتیب لغات در جمله، حروف یا عبارات قبل و بعد از آنها و نوع لغات، درخت نحوی یا پارسینگ را برای جملات متن تشکیل می دهد. در واقع عملیات پارسینگ با توجه به ریختشناسی (مطالعه ساختار و حالتهای مختلف یک کلمه) و همچنین دستورات نحوی گرامر زبان فارسی صورت میگیرد. بدیهی است هر چقدر نگارش بکار رفته در جملات و همچنین رعایت علائم سجاوندی طبق اصول و با دقت بیشتری صورت گرفته باشد، عملیات پارسینگ با کیفیت بهتری صورت خواهد گرفت و اجزای تشکیل دهنده ی جمله با عملیات کمتر و ساده تری برچسب زده خواهند شد.

 

یک فایل فشرده حاوی  فایل EXE (شامل ابزارهای پیش پردازش متون زبان فارسی : نرمالسازی – ریشه یابی – برچسب زنی نحوی – پارسر )

 

کد سی شارپ همراه با کتابخانه های مورد نیاز جهت ریشه یابی کلمات فارسی:

در این نمونه کد، که به زبان سی شارپ نوشته شده است، کتابخانه های لازم برای استفاده از کد ریشه یاب زبان فارسی که در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد تولید شده است، به کد اضافه شده و چگونگی استفاده از این کتابخانه ها در کد مشخص است و در قالب ابزاری جهت دادن ورودی و مشاهده خروجی آماده شده است.

در کد موجود در فایل ضمیمه سه کتابخانه (فایل dll) اضافه شده اند که امکان شناسایی افعال و ریشه یابی کلمات را فراهم می آورند…

 

برای استفاده از نرم افزار در صورت اجرا نشدم برنامه در فایل EXE، ابتدا بسته نرم افزاری دات نت فریمورک ۴.۵ را نصب نمایید.

 


دانلود با لینک مستقیم