محاسبه نقطه تعادل نش در روشهای یادگیری تقویتی چندعاملی
130 صفحه در قالب word
فهرست مطالب
2-1-2- بازیهای بدون رقابت... 15
2-1-3- بازیهای کاملاً رقابتی.. 16
2-1-4- بازیهای با تضاد جزئی.. 16
2-3-1- غلبه اکید در استراتژی محض.... 20
2-3-3- غلبه اکید در استراتژیهای مرکب... 22
2-5- نقطه تعادل کامل زیربازی.. 24
2-7- مفاهیم بسط یافته تعادل نش.... 25
2-7-3- نقطه تعادل کامل دست لرزان.. 27
2-7-5- نقطه تعادل پاسخ دو جانبهای (QRE). 31
2-7-6- نقطه تعادل شبه کامل.. 33
3- روشهای کلاسیک محاسبه نقطه تعادل نش 38
3-1- محاسبه نقطه تعادل نش در بازیهای نرمال.. 38
3-1-1- Lamke-hawson method. 38
3-1-2- Simple search method. 47
3-2- محاسبه نقطه تعادل نش در بازیهای پویا 51
3-2-1- الگوریتم استقراء معکوس... 51
4-3- فرآیند تصمیم گیری مارکوف... 58
4-3-3- روشهای حل فرآیندهای تصمیم گیری مارکوف... 63
4-4- روشهای یادگیری تک عاملی.. 67
4-4-2- الگوریتم Q-Learning. 68
5- یادگیری تقویتی چندعاملی.. 73
5-1-2- یادگیری Friend or Foe. 74
5-1-3- یادگیری Asymmetric-Q.. 75
5-1-5- Infinitesimal Gradient Ascent (IGA) 77
5-1-7- (Policy dynamic wolf) PD-Wolf. 80
6- محاسبه نقطه تعادل نش در یادگیری تقویتی n-عامله. 86
6-1- بازیهای مارکوف نرمال n-عامله. 87
6-1-1- استفاده از الگوریتم ژنتیک در محاسبه نقطه تعادل نش... 89
6-2- بازیهای مارکوف پویا n-عامله. 91
6-2-1- استفاده از روش استقراء معکوس تعمیم یافته در محاسبه نقطه تعادل نش... 92
7-1- شبیهسازی در محیط مشبک.... 95
7-1-1- استفاده از Q-Learning در محیطهای چندعاملی.. 95
7-1-2- مقایسه الگوریتم Nash-Q و Q-Learning. 97
7-1-3- محاسبه نقطه تعادل نش در یادگیری تقویتی چندعاملی.. 98
7-2- شبیه سازی بازار برق.. 100
چکیده
در این رساله، روش مناسبی جهت محاسبه نقطه تعادل نش در الگوریتمهای یادگیری تقویتی چندعاملی با تعداد زیاد عاملها مطرح شدهاست، که قادراست با ادغام محاسبات مربوط به نقطه تعادل نش و ایجاد مصالحه بین اکتشاف- استخراج، محاسبات را به صورت بهینه کاهش دهند. ترکیب یادگیری تقویتی تک- عاملی و تئوری بازی ایده اصلی اکثر روشهای یادگیری چندعاملی است. این روشها سعی دارند تا کل فرآیند یادگیری را به تعدادی متناهی از حالتهای تصمیمگیری چندعاملی با خاصیت مارکوف تقسیم کرده و با انتخاب نقطه تعادل نش در هر کدام از این مراحل به تدبیر بهینه برای هر عامل همگرا شوند. بنابراین محاسبه نقطه تعادل نش مسئله مهمی است که در حال حاضر مشکلاتی شامل پیچیدگی محاسبات در روشهای شناخته شده محاسبه نقطه تعادل نش، چندگانگی نقطه تعادل نش، و مختلط بودن نقطه تعادل نش باعث شده که اکثر روشهای پیشنهادی یادگیری تقویتی چندعاملی جایگاه مناسبی در حل مسائل دنیای واقعی پیدا نکنند. ناگفته نماند که تقریباً تمام روشهای یادگیری تقویتی چندعاملی مطرح شده، مبتنی بر روشهای off-policy بودهاند که نیازی به در نظر گرفتن مسئله رویه انتخاب عمل و اکتشاف در اثبات همگرایی ندارند. بنابراین در رویههای اجرایی پیشنهاد دادهاند که ابتدا نقطه تعادل نش محاسبه شده و سپس با روش ϵ-greedy مصالحه بین اکتشاف و استخراج برقرار شود.
محاسبه نقطه تعادل ϵ-نش در بازیهای نرمال در این رساله به صورت یک مسئله مینیممسازی تعریف شده که جواب آن توسط الگوریتمهای ژنتیک بدست آمدهاست. علاوه بر کاهش پیچیدگی روش محاسبه نقطه تعادل نش، با اضافه کردن جمله مناسب در محاسبه تابع برازندگی، هر عامل قادر است نقطه تعادل نش پارتو را محاسبه کند که مسئله چندگانگی نقاط تعادل نش را نیز مرتفع میسازد.
در پایان، روشهای پیشنهادی در حل مسئله بازار برق مورد استفاده قرار گرفتهاست. این مسئله که در سالهای اخیر توجه زیادی را به خود جلب کرده در این رساله به سه قسمت تقسیم شدهاست. در قسمت اول شرکت برق با هدف کاهش هزینهها یک مسئله برنامهریزی مقید را با کمک برنامهریزی خطی حل میکند. قیدهای این مسئله شامل لزوم تأمین نیازهای مصرفکنندگان و افت توان در خطوط انتقال انرژی میباشد. در قسمت دوم، هر ژنراتور با توجه به اطلاعات کسب شده مراحل قبلی اقدام به انتخاب قیمتگذاری جدید در ابتدای روز بعد میکند. این اطلاعات شامل قیمتهایی که خودش و دیگران به شرکت برق ارائه کردهاند و تصمیم شرکت برق (که منجر به پاداش (سود) برای خودش و دیگران شده) میباشد. این قسمت توسط الگوریتمهای ژنتیک حل شده است. در قسمت سوم، از همان اطلاعات ذکر شده در قسمت قبل به منظور اصلاح دیدگاهش برای روز گذشته استفاده میکند. الگوریتم یادگیری چندعاملی Nash-Q در این قسمت استفاده شده است. در حالت کلی، انرژی مورد نیاز شبکه و توپولوژی آن هر دو متغیر هستند. ولی در این رساله توپولوژی شبکه ثابت فرض شده است. شبیهسازیهای انجام شده نشان میدهد که روش ارائه شده به خوبی قادر به حل مسئله یادگیری تقویتی چندعاملی در مسائل کاربردی با تعداد عامل بیشتر از دو است.
ممکن است هنگام انتقال از فایل ورد به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است
متن کامل را می توانید در ادامه دانلود نمائید
چون فقط تکه هایی از متن پایان نامه برای نمونه در این صفحه درج شده است ولی در فایل دانلودی متن کامل پایان نامه همراه با تمام ضمائم (پیوست ها) با فرمت ورد word که قابل ویرایش و کپی کردن می باشند موجود است
بر اساس مفاهیم مکانیک کوانتوم و تئوری آشوب از مفاهیم سنتی استفاده ی مطلوبی می کنند و مدلی را ارائه می دهند که وقتی مدیران این مدل را به کار بگیرند از محدوده ی مکانیکی، مقید، و جزءگرا خارج شده و باعث می شودکه این مدیران تغییرات شگرفی در خود و سازمان مربوطه بدهند.
فرمت فایل : WORD (قابل ویرایش)
تعداد صفحات:16
فهرست مطالب:
چکیده :
مقدمه :
نظریههای بازار کار زنان:
ساختار اشتغال در ایران :
الف) وضعیت عرضه :
ب) وضعیت تقاضا :
مشارکت اقتصادی زنان ایران :
عوامل موثر در نرخ مشارکت اقتصادی زنان :
سایر عوامل :
نتیجه گیری :
پیشنهادات :
منابع و مآخذ :
چکیده :
هدف این مقاله ارایه شاخص هایی است که عدم تعادل های جنسیتی در بازار کار ایران را نشان میدهد.در این راستا نظریه های بازار کار دوگانه و موضوع تمایز شغلها ،پیدایش شغلهای پر تراکم و پیامدهای آن برای زنان بررسی شده است . شاخص های مورد نیاز با استفاده از مقالات و پژوهش های پژوهشگران داخلی و بر اساس اطلاعات و آمار موجود در گزارش های رسمی کشور ارایه می گردد. یافته ها حاکی از نرخ پایین مشارکت زنان به رغم افزایش آن نسبت به دهة گذشته ،تمرکز اشتغال زنان در معدودی از فعالیت های اقتصادی و سطح بالاتر نرخ بیکاری زنان به ویژه جوانان در مناطق شهری نسبت به نرخ بیکاری مردان بوده و شاخصهای جنسیتی بازار کار در مناطق مختلف کشور نشان دهندة عدم تعادل های نگران کننده ای می باشد . از این رو به نظر می رسد اجرای سیاستهایی در راستای حمایتهای اقتصادی و اجتماعی از حضور مؤثر و کارآمد زنان در عرصه های اشتغال خانگی و بیرون از منزل ضروری به نظر می رسد.
واژه های کلیدی : اشتغال ، بازار کار ، بیکاری ، رشد اقتصادی ، زنان .
فرمت فایل : word(قابل ویرایش)
تعداد صفحات:32
چکیده : ۱
مقدمه : ۲
تاریخچه : ۳
قلمروی محاسبه های نمودارهای فازی: ۴
الگوها توصیف ترمودینامیک : ۷
تعیین ضرایب : ۱۳
قابلیت اصلاح : ۱۶
داده ها و ابزارهای نرم افزاری رایانهای : ۲۰
مثالهای مشخص : ۲۲
نتیجه گیری: ۲۹
منابع ۳۰
چکیده:
مقاله حاضر دیدگاه جدیدی از روش CALPHAP و پیشرفتهای اخیر ایجاد شده را به ما میدهد.
تاریخچه مختصری داده شده سپس گسترده (زمینه ) محاسبه های نمودارهای فازی تشریح شده اند.
شرح و توصیفهای ترمودینامیکی بطور معمول در روشهای CALPHAP که بیان شد، بکار می روند و روشهای بکار رفته مقادیر عددی را برای این توصیفهای مطرح شده ؛ فراهم می کند.
برون یابی سیستمهایی با ترکیب بالاتر توضیح داده شده و پیشرفتهای اخیر در کیفیت ارزیابی ؛اثبات شده است .
یک مرور کلی بر ابزار نرم افزاری رایانه ای و داده های موجود ؛ارائه شده است. در نهایت کاربردهای مختلفی از محاسبه های نمودارهای فازی تشریح شده است.
مقدمه :
نمودارهای فازی نمایش دهنده حالت یک ماده بعنوان تابعی از دما و فشار و غلظتهای ترکیبهای تشکیل دهنده هستند و بنابراین بطور مکرر بعنوان یک دیده کلی یا راه حل برای طراحی آلیاژها ، گسترش ، پردازش و داده های قابل فهم مورد توجه بوده است. اهمیت نمودارهای فازی توسط انتشار کتابچه های راهنما (Hand Book) نظیر “نمودارهای فازی آلیاژی دوتایی” ؛“ تعادل فازی ،تصاویر بلوری و داده های ترمودینامیکی “آلیاژهای دوتایی” ؛“ نمودارهای تعادلی فازی” انعکاس یافته است؛
“نمودارهای فازی برای سرامیستها ” ؛ “ هند بوک نمودارهای فازی آلیاژ سه تایی ” و“ آلیاژهای سه تایی” نیز که در ادامه آمده است.
حالت یک ماده با ترکیب دوتایی در فشار ثابت میتواند در شکلهای گرافیکی شناخته شده ای از نمودارهای فازی دوتایی ایجاد شوند . برای مواد با ترکیبهای سه گانه یک اندازه گیری مضاعف مورد نیاز است تا یک ترکیب کامل ایجاد شود . بنابراین ،سیستمهای سه تایی بطور معمول توسط یک سری از بخشها یا پروژه ها ایجاد میشود. به دلیل چند بعدی بود آنها تفسیر نمودار سیستمهای ترکیبی بخیر می تواند بسرعت دست و پاگیر برای کاربران موقت اینگونه نمودارها باشد . برای سیستمهای با ترکیبهای بیش از سه تا بازنمایی گرافیکی نمودارهای فازی در یک شکل مناسب نه تنها بعنوان چاشنی می باشد بلکه بواسطه نداشتن اطلاعات آزمایشگاهی کافی . مانعی است به هر حال ، مشکل سیستم باز نمایی گرافیکی با ترکیبهای زیاد ، برای محاسبههای نمودارهای فازی نامرتبط باشد. محاسبه هایی اینچنین می تواند برای مواد مشکلات پر اهمیت باشد.
تاریخچه :
از وقتیکه تنها توسعه جدید در الگو سازی و فن آوری محاسباتی که محاسبه های رایانه ای تعادل فازی درترکیبات چند گانه تا حد امکان واقعی ایجاد کرده است؛ از زمان ارتباط بین ترمودینامیک و تعادل فازی توسط J.W.Gibbs فراهم شده است . بیش از یک قرن می گذرد Hertz زمینه های شکست کاری Gibbs را خلاصه بندی کرده است اگر چه پایه های ریاضی بنیان نهاده شده به بیش از 30 سال گذشته تا j.J.Van Laa ساختار ریاضی اش را و سیستمهای دوتایی فرضی چاپ کرد . در توصیف فازهای مایع Van Laav جمله های نرم( افزارهای ) وابسته غلظت را بکار برد که Hildebrand محلول های با قاعده نام نهاد . بیش از 40 سال گذشته بود که J.L.Meijering محاسبات فضای مخلوط درمایعات چهارتایی و سه تایی را چاپ کرد . مدت کوتاهی در پی آن Meijering این روش در تجزیه ترمودینامیکی سیستم Cr-Cu-Ni بکار گرفت. بطور همزمان Cohen, Kaufman محاسبه های ترمودینامیکی در تجزیه و تحلیل تبدیلات مارتنزیتی در سیستم Fe-Ni بکار بردند.
Kaufman کارخود را درباره محاسبه نمودارهای فازی که شامل نقش فشار بود ؛ ادامه داد.
در سال Bernstein , Kanfman :1970 نتایج کلی از محاسبه های نمودارهای فازی را خلاصه بندی کردند و نیز فهرستی از برنامه های رایانه ای برای محاسبه های نمودارهای فازی سه تایی و دو تایی ارائه دادند که منجر به پایه ریزی روش CALPHAD گردید . (محاسبه نمودارهای فازی ). در سال Kaufman ؛1973 اولین جلسه پروژه گروه بین المللی CALPHAD را سازماندهی کرد. پس از آن گروه CALPHAD از نظر اعضاء گسترش یافت .
فرمت فایل : word(قابل ویرایش)
تعداد صفحات:39
چکیده:
اساسی ترین کاربرد ترمودینامیک در متالوژی فیزیکی پیش بینی حالت تعادل برای یک آلیاژ است .
در بررسی های مربوط به دگرگونی های فازی ما همیشه با تغییر سیستم به سمت تعادل روبه رو هستیم. بنابراین ترمودینامیک به صورت یک ابزار بسیار سودمند می تواند عمل کند. باید توجه داشت که ترمودینامیک به تنهایی نمی تواند سرعت رسیدن به حالت تعادل را تعیین کند .
یک فاز به عنوان بخشی از یک سیستم تعریف می شود که دارای خصوصیات و ترکیب شیمیایی یکنواخت و همگنی بوده و از نظر فیزیکی از دیگر بخشهای سیستم جداشدنی است . اجزای تشکیل دهنده یک سیستم خاص عناصر مختلف یا ترکیب های شیمیایی است که سیستم را بوجود می آورد و ترکیب شیمیایی یک فاز یا یک سیستم را می توان با مشخص کردن مقدار نسبی هر جزء تشکیل دهنده تعیین کرد .
به طور کلی دلیل رخداد یک دگرگونی این است که حالت اولیه یک آلیاژ نسبت به حالت نهایی ناپایدارتر است اما پایداری یک فاز چگونه تعیین می شود ؟ این پرسش به وسیله ترمودینامیک پاسخ داده می شود . برای دگرگونی هایی که در دما و فشار ثابت رخ می دهد پایداری نسبی یک سیستم از انرژی آزاد گیبس G آن سیستم مشخص می شود .
فهرست مطالب:
مقدمه
تعادل
سیستم های یک جزیی
انرژی گیبس به صورت تابعی از دما
اثرهای فشار
محلول های دوتایی
انرژی آزاد گیبس محلول های دوتایی
محلول ایده آل
پتانسیل شیمیایی
محلول های باقاعده
محلول واقعی
فازهای منظم شده
فاز میانی
نمودارهای فازی دوتایی
یک نمونه فاز ساده
سیستم های با نقص در منطقه انحلال
آلیاژهای منظم شده
سیستم های اوتکتیک ساده
نمودارهای فازی دربردارنده فازهای میانی
تاثیر سطوح مشترک بر تعادل