فرمت فایل : power point (لینک دانلود پایین صفحه) تعداد اسلاید : 60 اسلاید
فهرست :
پاورپوینت جامع درباره داده کاوی,مفاهیم، روشها، کاربردها و آینده داده کاوی
فرمت فایل : power point (لینک دانلود پایین صفحه) تعداد اسلاید : 60 اسلاید
فهرست :
لینک پرداخت و دانلود *پایین مطلب*
فرمت فایل:Word (قابل ویرایش و آماده پرینت)
تعداد صفحه31
بخشی از فهرست مطالب
1-1 چه چیزی سبب پیدایش داده کاوی شده است؟. 4
1-3 جایگاه داده کاوی در میان علوم مختلف... 11
1-4 داده کاوی چه کارهایی نمی تواند انجام دهد؟. 12
1-5 داده کاوی و انبار داده ها 13
1-7 کاربرد یادگیری ماشین و آمار در داده کاوی... 15
2- توصیف داده ها در داده کاوی... 15
2-1 خلاصه سازی و به تصویر در آوردن داده ها 15
3- مدل های پیش بینی داده ها 17
4 مدل ها و الگوریتم های داده کاوی... 18
4-3 Multivariate Adaptive Regression Splines(MARS). 24
4-5 K-nearest neibour and memory-based reansoning(MBR). 26
1 مقدمه ای بر دادهکاوی[1]
در دو دهه قبل توانایی های فنی بشر در برای تولید و جمع آوری دادهها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب و کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع آوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره ای، در این تغییرات نقش مهمی دارند [1].
بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات میکند. این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم وجود تکنولوژی های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند: داده کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی داده کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می کنند، که این دانش به صورت ضمنی در پایگاه داده های عظیم، انباره داده[2] و دیگر مخازن بزرگ اطلاعات، ذخیره شده است. داده کاوی بطور همزمان از چندین رشته علمی بهره می برد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه های عصبی، آمار، شناسایی الگو، سیستم های مبتنی بر دانش[3]، حصول دانش[4]، بازیابی اطلاعات[5]، محاسبات سرعت بالا[6] و بازنمایی بصری داده[7] . داده کاوی در اواخر دهه 1980 پدیدار گشته، در دهه 1990 گامهای بلندی در این شاخه از علم برداشته شده و انتظار می رود در این قرن به رشد و پیشرفت خود ادامه دهد [2].
واژه های «داده کاوی» و «کشف دانش در پایگاه داده»[8] اغلب به صورت مترادف یکدیگر مورد استفاده قرار می گیرند. کشف دانش به عنوان یک فرآیند در شکل1-1 نشان داده شده است.
کشف دانش در پایگاه داده فرایند شناسایی درست، ساده، مفید، و نهایتا الگوها و مدلهای قابل فهم در داده ها می باشد. داده کاوی، مرحله ای از فرایند کشف دانش می باشد و شامل الگوریتمهای مخصوص داده کاوی است، بطوریکه، تحت محدودیتهای مؤثر محاسباتی قابل قبول، الگوها و یا مدلها را در داده کشف می کند [1]. به بیان ساده تر، داده کاوی به فرایند استخراج دانش ناشناخته، درست، و بالقوه مفید از داده اطلاق می شود. تعریف دیگر اینست که، داده کاوی گونه ای از تکنیکها برای شناسایی اطلاعات و یا دانش تصمیم گیری از قطعات داده می باشد، به نحوی که با استخراج آنها، در حوزه های تصمیم گیری، پیش بینی، پیشگویی، و تخمین مورد استفاده قرار گیرند. داده ها اغلب حجیم ، اما بدون ارزش می باشند، داده به تنهایی قابل استفاده نیست، بلکه دانش نهفته در داده ها قابل استفاده می باشد. به این دلیل اغلب به داده کاوی، تحلیل داده ای ثانویه[9] گفته می شود.
تکنیک های تجزیه و تحلیل فضایی و داده کاوی جهت شناسایی فاکتورهای ریسک ایست قلبی خارج از بیمارستان/////
چکیده
حمله قلبی خارج از بیمارستان OHCA یکی از موضوعات مورد اهمیت در زمینه خدمات پزشکی اورژانسی EMS است. در کنار کمک هایی که توسط شاهدان و رهگذران به بیماران OHCA ارائه می گردد، فاکتورهای زمانی همانند زمان ورود آمبولانس به صحنه و مدت زمان انتقال بیمار به بخش EMS نیز دارای اهمیت است. پوشش فراگیر بخش EMS که به طور خاص می تواند توسط تکنولوژی های محاسبه بهبود یابد، می تواند به طور معناداری نرخ نجات بیماران OHCA را بهبود بخشد. در عین حال، این موضوع می تواند تخصیص منابع و سیاست های مدیریت در سیستم های بهداشت و سلامت کلان شهرها را به چالش بکشد.
اهداف: در این مطالعه ما در ابتدا از تکنیک های تحلیل فضایی (با ایجاد قطعات مناسبی بر سطح شهر) جهت شناسایی قسمت هایی از شهر که خطر OHCA در آن مناطق بالاست، استفاده می نماییم. سپس با استفاده از تکنیک های داده کاوی به بررسی اثر مشخصه های بیمار، اقدامات نجات قبل از انتقال بیمار به بیمارستان و فاکتورهای فضایی بر امکان نجات بیمار پس از ایست قلبی می پردازیم. با فراهم آوری این اطلاعات بیمارستان ها می توانند خدمات EMS را با تخصیص مناسب منابع در محل مربوطه ارتقاء دهند و نرخ نجات بیماران OCHA را بهبود بخشند.
روش ها: حیطه این پژوهش کشورتایوان شهر نیو تایپه است. داده های ثبت شده مربوط به کلیه بیماران OCHA شهر نیو تایپه در سال 2011 مورد بررسی قرار گرفت. داده های مذکور با اطلاعات پایگاه داده DOORPLATE به منظور بهبود تحلیل های فضایی و افراز مناطق شهری ادغام گشت. آنالیزهای فضایی به صورت محلی و جهانی با استفاده از شاخص گلوبال مورگان و شاخص لوکال مورگان و آماره GOG به منظور دسته بندی مناطق با ریسک بالا در شهر نیو تایپه جهت بیماران OCHA به انجام رسید. به منظور تحلیل عوامل تاثیرگذار بر در نجات بیمار OCHA در راه انتقال به بیمارستان روش های آماری همانند آزمون کا اسکوئر، رگرسیون لاجیستیک و درخت تصمیم مورد استفاده قرار گرفت.
نتایج: خوشه بندی فضایی وقایع OCHA در نیمه غربی شهر نیو تایپه با احتمال کمتر از 0.05معنادار شناخته شد. ما به این نتیجه رسیدیم که نرخ نجات بیماران بعد از ایست قلبی به طور معناداری با عواملی همچون نوع OCHA، اعزام EMT-P (امدادگران پزشکی مرکز اورژانس)، طریقه لوله گذاری، نحوه تجویز دارو، ROSC (بازگشت گردش خون خودبخودی) در محل، استفاده از دیفیبریلاتور خارجی خودکار AED، نحوه عملکرد شاهدین، ضربان قلبی اولیه AED، ریتم ریکاوری قلبی قبل از بستری و سابقه دیابت بیمار و سابقه بیماری کلیوی بیمار در ارتباط است.
نتیجه گیری: بر اساس یافته های این مطالعه، چندین فاکتور مهم در مورد OCHA بایستی به منظور بهبود کیفیت خدمات EMS ارتقاء یابد. با آنالیز کانون های OCHA بیمارستان ها قادراند منابع موجود در کمک رسانی را به صورت کارامدی مدیریت نمایند و متعاقبا سیاست های EMS را به صورت کارآمدی به اجرا در آورند. در نتیجه نرخ نجات بیماران OCHA می تواند بهبود یابد.
فرمت فایل : power point (لینک دانلود پایین صفحه) تعداد اسلاید : 16 اسلاید
فهرست :
نوع فایل: word
قابل ویرایش 142 صفحه
چکیده:
داده کاوی تلاش برای استخراج دانش انبوه داده های موجود است. داده کاوی به کمک مجموعه ای از روش های آماری و مدل سازی، می تواند الگوها و روابط پنهان موجود در پایگاه های داده را تشخیص دهد. تاکنون ابزارها و روش های مختلف برای پردازش اطلاعات ساخت یافته توسعه داده شده است که در نتیجه آنها ساخت پایگاه های اطلاعاتی و ایجاد انبارهای داده به سادگی صورت می گیرد. امروزه سازمان ها قادرند با هزینه کم اطلاعات وسیعی از وضعیت کسب و کار خود جمع و نگهداری کنند و این موجب شده است که استفاده از روش های داده کاوی، ارزش قابل توجهی را برای سازمان بدست آورد. رویکردهای موجود به مسأله داده کاوی متنوع است . در این گزارش نگاهی به آخرین دستاوردهای این زمینه علمی انداخته خواهد شد.
مقدمه:
بشر با پیشرفت فناوری رایانه ای در ثبت و ذخیره سازی داده ها و پردازش آن ها گامی بزرگ جهت کسب دانش برداشته است . در واقع نمایشی از واقعیت ها، معلومات، مفاهیم، رویدادها یا پدیده ها برای برقراری ارتباط، تفسیر یا پردازش، توسط انسان یا ماشین است . از طرف دیگر واژه ی اطلاعات، به معنی دانشی که از طریق خواندن، مشاهده و آموزش به دست می آید اطلاق می شود . در حقیقت می توان گفت اطلاعات داده هایی هستند که پس از جمع آوری پردازش شده اند و شکل مفهومی تولید کرده اند .
بین داده ها و اطلاعات همانند خبر و اطلاع رابطه وجود دارد . خبری که دریافت می شود، پس از ارزیابی به اطلاع تبدیل می شود . داده ها نیز پردازش می شوند تا اطلاعات را پدید آورند . به بیان دیگر اطلاع حاصل تکامل داده ها است . به این ترتیب بین داده ها و اطلاعات یک شکاف وجود دارد که اندازه این شکاف با حجم داده ها ارتباط مستقیم دارد . هر چه داده ها حجیم تر باشند، این شکاف بیشتر خواهد بود و هر چه داده ها کمتر و روش ها و ابزار پردازش داده ها کاراتر باشد، فاصله بین داده ها و اطلاعات کمتر است . امروزه افزایش سریع حجم پایگاه داده ها به شکلی است که توانایی انسان برای درک این داده ها بدون ابزارهای پر قدرت میسر نمی باشد . در این وضعیت، تصمیم گیری ها به جای تکیه بر اطلاعات بر درک مدیران و کاربران تکیه دارند، چرا که تصمیم گیرندگان ابزار قوی برای استخراج اطلاعات با ارزش را در دست ندارند . در واقع شرایط فعلی توصیف کننده ی حالتی است که ما از لحاظ داده غنی، اما از لحاظ اطلاعات ضعیف هستیم .
فهرست مطالب:
فصل اول
مقدمه ای بر داده کاوی
چکیده
1-1 مقدمه
1-2 تاریخچه ی داده کاوی
1-3 روش های گردآوری اطلاعات
1-4 داده کاوی چیست ؟
1-4-1 حلقه داده کاوی چیست ؟
1-4-1-1 شناسایی فرصت های تجاری
1-4-1-2 داده کاوی
1-4-1-2-1 مراحل داده کاوی
1-4-1-3 انجام اقدامات
1-4-1-4 اندازه گیری نتایج
1-1 آمار و داده کاوی
حجم داده ها
نوع داده ها
پردازش داده ها
وظایف معمول
اهداف تحقیق
1-6 داده کاوی چه کاری انجام می دهد ؟
1-6-1 عملیات داده کاوی
1-6-1-1 دسته بندی و پیشگویی
1-6-1-1-1 روش های دسته بندی
1-6-1-2 خوشه بندی
1-6-1-3 تحلیل روابط و وابستگی ها
1-6-1-4 پیش بینی
1-7 نرم افزارهای داده کاوی
1-8 پایگاه دادة تحلیلی (Data Warehouse)
1-8-1 تفاوت های پایگاه داده تحلیلی با پایگاه داده عملیاتی
1-8-2 ابزار های سطح پایین (Back-End) پایگاه داده تحلیلی
1-8-3 ابزارهای پرس و جو و تحلیل داده های ذخیره شده درdata warehouse و data mart
1-9 سرویس دهنده های پردازش تحلیلی بر خط
1-9-1 مزایا و معایب سرویس دهنده های OLAP
1-10 مکعب داده
1-11 جدول واقعیت
1-11-1 جدول ابعاد
1-12 داده کاوی در اوراکل
1-12-1 توابع داده کاو اوراکل الگوریتم ها
1-13 گام های مدل سازی جستجوگر مدل
1-14 داده کاوی در Clementine
1-14-1 معماری
1-14-2 متدلوژی clementine الگوریتم ها
فصل دوم
مقدمه ای بر وب کاوی
2-1 مقدمه
2-2 رده بندی های وب کاوی
2-2-1 Web Content Mining
2-2-2 web usage mining
2-2-3 Web Structure Mining
2-3 فایل log
2-3-1 انجام عمل پیش پردازش روی فایل های log
2-4 تشخیص کاربران : (user identification)
2-5 session identification
2-6 تشخیص الگو ها
2-7 تکنیک های آماری
2-8 قوانین ارتباطی
2-9 الگو های ترتیبی
2-10 خوشه بندی
2-11 مشکلات روش تحلیل گزارش های وبweb log analysis method ) )
2-12 نتیجه گیری
فصل سوم
الگوریتم های ژنتیک
3-1 مقدمه
3-2 زمینه های بیولوژیکی
3-3 فضای جستجو
3-4 مسائل NP
3-5 مفاهیم اولیه در الگوریتم ژنتیک
3-5-1 اصول پایه
3-5-2 شمای کلی الگوریتم ژنتیک
3-5-3 ساختار متداول الگوریتم ژنتیک
3-6 کد کردن
3-6-1 انواع کدینگ
3-6-2 روشهای کدینگ
3-6-3 مسائل مربوط به کدینگ
3-7 مرحله ارزیابی (evaluation)
3-8 عملگر تقاطع و جهش
3-9 رمز گشایی
3-10 کروموزوم
3-11 جمعیت
3-12 مقدار برازندگی
3-13 تعریف دیگر عملگر تقاطعی
3-14 تعریف دیگرعملگر جهشی
3-15 مراحل اجرای الگوریتم ژنتیک
3-16 حل یک مساله نمونه توسط الگوریتم ژنتیک
3-17 همگرایی الگوریتم ژنتیک
3-18 نتیجه گیری
فصل چهارم
کاربرد کلاسترینگ
4-1 مقدمه
4-2 مسئلة خوشه بندی توزیع شده
4-3 مشکلات روش متمرکز سازی داده ها
4-4 الگوریتم خوشه بندی K-Means
4-5 الگوریتم خوشه بندی توزیع شده DisK-Means
4-6 ساخت مدل محلی
4-7 ساخت مدل عمومی
4-8 یک روش جدید مبتنی بر رفتار کاربران جهت تخمین بار کاری وب سرورهای شبکه
4-9 کلاسترینگ داده های وب
4-10 کلاسترینگ Session های کاربر
4-10-1 الگوریتم های کلاسترینگ Session ها
4-10-1-1 کلاسترینگ مبتنی بر مدل
4-10-1-1-1 توصیف بار کاری سیستم های کامپیوتری
تکنیک های ایستا
آنالیز جزء اصلی
تکنیک های پویا
میانگین متحرک (Moving Average)
4-11 کارهای وابسته قبلی
4-12 مدل پیشنهادی
4-13 محیط پیاده سازی
4-14 نتایج ، آنالیز و ارزیابی مدل
4-15 نتیجه گیری
منابع و مراجع
فهرست اشکال:
شکل 1 مراحل داده کاوی
شکل 2 جایگاه پایگاه داده تحلیل
شکل 3-1 Data Warehouse process
شکل 3-2 Data Warehouse process
شکل 4 معماری چند لایه
شکل 5 نمونه ای از مکعب داده
شکل 6 مفهوم مکعب داده
شکل 7 داده کاوی در اوراکل
شکل 8 اوراکل یا سایز ابزار
شکل 9 مراحل متدولوژی Clementine
شکل 10 چرخه داده کاوی Clementine
شکل 3-1 نمونه ای از فضای جواب
شکل 3-2 کدینگ باینری
شکل 3-3 کدینگ جهشی
شکل 3-4 کدینگ ارزشی
شکل 3-5 کدینگ درختی
شکل 3-6 فضای کدینگ و فضای جواب
شکل 3-7 رابطه بین کروموزوم ها و جواب ها
شکل 3-8 انواع روابط بین فضای جواب و فضای کدینگ
شکل 3-9 مثال رمز گشایی
شکل 3-10 مثال جهش
شکل 3-11 نمایش یک کروموزوم n بیتی پایه عددی m
شکل 3-12 مثالی از جباجایی تک نقطه ای
شکل 3-13 تقاطع در کروموزومهای که از شکل کد شده چهار متغیر بوجود آمده است
شکل 3-14 تقاطعی دو نقطه ای
شکل 3-15 عمل تقاطعی یکنواخت
شکل 3-16 نمونه ای از عمل جهش
شکل 3-17 مراحل اجرای الگوریتم ژنتیک
شکل 3-18 چرخ دولت
شکل 3-19 نمایش کروموزوم معادل زوج (X,Y)
شکل 11 خوشه بندی توزیع شده
شکل 12 ثابت شدن فلش Cetroid
شکل 13 الگوریتم خوشه بندی توزیع شده Disk-Means
شکل 14 ساخت مدل محلی، ترکیب اطلاعات خوشه ها
شکل 15-1 ساخت مدل محلی، ترکیب اطلاعات خوشه ها
شکل 4-2 ساخت مدل محلی، ترکیب اطلاعات خوشه ها
شکل 4-3 ساخت مدل محلی، حالت کلی
شکل 16 حاللات مختلف قرار گرفتن چند خوشه کنار هم
شکل 17-1 ساخت مدل محلی، حالت دوم
شکل 6-2 ساخت مدل محلی، حالت دوم
شکل 18 نمونه هایی از CBMG های حاصل از درخواست های کاربران یکی از سیستم های مورد تست
در دانشگاه مشهد
شکل 19 هیستوگرام داده های باقیمانده لینک Presented Courset بعد از حذف داده های پرت
از یکی از سیستم های وب دانشگاه
شکل 20 نمودار P-PPlot داده های لینک Presented Courset
شکل 4 هیستوگرام داده های باقیمانده لینک Show Edueationallog بعد از حذف داده های پرت
فهرست جداول:
جدول 3-1 مثال های تقاطع تک نقطه ای
جدول 3-2 مثال های تقاطع دو نقطه ای
جدول 3-3 نمونه ای از عمل جهش
جدول 3-4 انتخاب کروموزومها با استفاده از چرخ رولت
جدول 3-5 نمایش جمعیت اولیه
جدول 3-6 نتایج عمل تقاطع
جدول 3-7 نتایج عمل جهش با Pm=0.2
جدول 3-8 کروموزوم با بیشترین مقدار برازندگی
جدول 1 جزئیات ترافیک تولید شده توسط برنامه شبیه ساز
منابع و مأخذ:
[1]. An Introduction to Data Mining: http://www.thearling.com/ , retrieved on Mar 2, 2007
[2]. Data Mining: Efficient Data Exploration and Modeling: http://research.microsoft.com/dmx/DataMining/ , retrieved on Mar 2, 2007
[3]. Christine Gertisio and Alan Dussauchoy, "Knowledge Discovery from Industrial Data base", Journal of Intelligent Manufacturing, 15, 29-37, 2004
[4]. Berry, M. and Linoff, G. "Data Mining Techniques: For Marketing, Sales, and Customer Support" New York: John Wiley and Sons, 1997
[5]. Cornelia Gyorodi, Robert Gyorodi, Stefan Holban-"A Comparative Study of Association Rules Mining Algorithms" , SACI 2004, 1 st Romanian-Hungarian Joint Symposium on Applied Computational Intelligence , Timisoara, Romania, May 25-26, page. 213-222, 2004
[6]. Berson, A., Smith S., and Thearling K., "Building Data Mining Applications for CRM" Tata McGraw-Hill, New York, 2004
[7].Fayyad U., Piatetsky-Shapiro G., and Smyth p., "From Data Mining to Knowledge Discovery in Databases," American Association for Artificial Intelligence, 1996
[8]. An overview of data mining techniques: http://www.thearling.com/ , retrieved on Mar 2, 2007
[9]. All Data Mining Software: http://www.the-data-mine.com/bin/view/Software/AllDataMiningSoftware, retrieved on Mar 2, 2007
[10]. ARLITT, M. AND WILLIAMSON, C. 1996: Web Server Workload Characterization: The Search for Invariants. In Proc Of SIGMETRICS 96, (May 1996), 126—137
[11]. CALZAROSSA, M. AND SERAZZI, G. 1985: A Characterization of the Variation in Time of Workload Arrival Patterns. In IEEE Trans. On Computers 34, 2, 156-162
[12]. ELMS, C. 1980: Clustering –One method for Workload Characterization. In Processing of the International Conference on Computer Capacity Management, San Francisco, Calif . 1980
[13]. FU, K. 1974: Syntactic Methods in Pattern Recognition, Academic Press.
[14]. HARTIGAN, J. AND WONG, N. 1979: A K – means Clustering Algorithms. In Applied Statistics 28, 100-108
[15]. JAIN, A., MURTY, M., AND FLYNN, P. 1999: Data Clustering: A. Review. In ACM Computing Surveys 31, 3, (Sept. 1999), 264-323