داده کاوی و اکتشاف دانش Data Mining
نوع فایل:ورد
تعداد صفحات:73
اندازه فایل:5.24مگابایت
فهرست مطالب
مقدمه ۱
مفاهیم ۳
تاریخچه داده ۵
فصل اول: کاربردهای داده۷
۱-۱- مراحل فرآیند کشف دانش ۸
۲-۱- انبارش داده ها DATA WHER HOUSING ۹
۳-۱- انتخاب داده ها ۱۰
۴-۱- تبدیل داده ها ١١
۵-۱- کاوش در داده ها ١١
۶-۱- تفسیر نتیجه ١١
فصل دوم: عملیاتها وتکنیکها در داده کاوی ١٢
۱-۲- مدلسازی پیشگوی کننده ۱۴
۲-۲- تقیطیع پایگاه داده ۱۵
۳-۲- تحلیل پیوند ۱۶
فصل سوم: قابلیتها ی داده کاوی ۱۹
۱-۳- داده کاوی وOLAP ۲۲
۲-۳- کاربردهای داده کاوی ۲۳
۳-۳- داده کاوی موفق ۲۴
۴-۳- تحلیل ارتباطات ۲۵
۵-۳- سلسله مراتبی از انتخابها ۲۹
۶-۳- طبقه بندی ۳۱
۷-۳- حدس بازگشتی ۳۲
۸-۳- سری های زمانی ۳۳
فصل چهارم: مدل ها والگوریتم های داده کاوی ۳۴
۱-۴- شبکه های عصبی ۳۵
۲-۴- درخت های انتخاب ۳۶
۳-۴- درختهای تصمیم گیری برای جریان داد ۳۸
۴-۴- شرح عملکرد الگوریتمHOEFFDING ۴۵
۵-۴- سیستم VFDT ۴۶
۶-۴- شرح عملکرد الگوریتمVFDT ۴۹
فصل پنجم: استنتاج قانون ۵۲
۱-۵- الگوریتم ﮊنتیک ۵۳
۲-۵- مدل فرآیند ۵۴
فصل ششم: مدل فرآیند دو سویه ۵۵
۱-۶- تعریف مساله ۵۶
۲-۶- ساختن پایگاه داده مربوط به داده کاوی ۵۷
۳-۶- جستجوی داده ۵۹
۴-۶- آماده ساختن داده برای مدل سازی ۵۹
۵-۶- ساختن مدل داده کاوی ۶۰
۶-۶- ارزیابی مدل ۶۱
۷-۶- ماتریسهای پیچیدگی۶۱
۸-۶- ایجاد معماری مدل ونتایج ۶۳
نتیجه گیری ۶۴
گزیده مطالب ۶۶
منابع وماخذ ۶۸
مقدمه
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد .
با استفاده ار پرسش های ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است .
از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش[۱] بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند .
داده کاوی[۲] یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند .
در داده کاوی از بخشی از علم آمار به نام تحلیل اکتشافی داده ها[۳] استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود . علاوه بر این داده کاوی با هوش مصنوعی و یادگیری ماشین نیز ارتباط تنگاتنگی دارد ، بنابراین می توان گفت در داده کاوی تئوریهای پایگاه داده ها ، هوش مصنوعی ، یادگیری ماشین و علم آمار را در هم می آمیزند تا زمینه کاربردی فراهم شود .
باید توجه داشت که اصطلاح داده کاوی زمانی به کار برده می شود که با حجم بزرگی از داده ها ، در حد مگا یا ترابایت ، مواجه باشیم . در تمامی منابع داده کاوی بر این مطلب تاکید شده است .
هر چه حجم داده ها بیشتر و روابط میان آنها پیچیده تر باشد دسترسی به اطلاعات نهفته در میان داده ها مشکلتر می شود و نقش داده کاوی به عنوان یکی از روشهای کشف دانش ، روشن تر می گردد .
مفاهیم پایه در داده کاوی
در داده کاوی معمولا به کشف الگوهای مفید از میان داده ها اشاره می شود . منظور از الگوی مفید ، مدلی در داده ها است که ارتباط میان یک زیر مجموعه از داده ها را توصیف می کند و معتبر ، ساده ، قابل فهم و جدید است .
انباره داده data where housing
بسیاری از سازمانها داده های خود را از مخازن داده همگن و ناهمگن در یک مجموعه داده عمومی به نام انبار داده جمع آوری و ذخیره مینمایند.
انبار داده شامل داده های فعلی و قبلی است که برای برنامه ریزی و پیش بینی در سیستمهای پشتیبان تصمیمگیری (Decision Support System) استفاده خواهد گردید.
. پایگاه های داده سنتی: پایگاه هایی عملیاتی هستند که داده های روزانه را در خود ذخیره مینمایند.
star -schema, Snow-Flakes و Galaxy مدلهای رایج در انبارهای داده هستند.
برای افزایش کارایی در DW تکنیکهای مختلفی مانند خلاصه کردن و denormalization استفاده میگردد.
تعریف داده کاوی
در متون آکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده اند . در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر ، تعاریف دقیقتر که درآنها به کاوش در داده ها توجه می شود موجود است . برخی از این تعاریف عبارتند از :
داده کاوی عبارت است از فرایند استخراج اطلاعات معتبر ، از پیش ناشناخته ، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیت های تجاری مهم.
اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود .
داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها .
داده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها
داده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها .
همانگونه که در تعاریف گوناگون داده کاوی مشاهده می شود ، تقریبا در تمامی تعاریف به مفاهیمی چون استخراج دانش ، تحلیل و یافتن الگوی بین داده ها اشاره شده است .
تاریخچه داده کاوی
اخیرا داده کاوی موضوع بسیاری از مقالات ، کنفرانس ها و رساله ها ی عملی شده است ، اما این واژه تا اوایل دهه نود مفهومی نداشت وبه کار برده نمی شد .
در دهه شصت و پیش از آن زمینه هایی برای ایجاد سیستم ها ی جمع آوری و مدیریت داده ها ایجاد شد و تحقیقاتی در این زمینه انجام پذیرفت که منجر به معرفی و ایجاد سیستم های مدیریت پایگاه داده ها گردید .
ایجاد و توسعه مدلهای داده ای برای پایگاه سلسله مراتبی ، شبکه ای و بخصوص رابطه ای در دهه هفتاد ، منجر به معرفی مفاهیمی همچون شاخص گذاری و سازماندهی داده ها و در نهایت ایجاد زبان پرسش SQL در اوایل دهه هشتاد گردید تا کاربران بتوانند گزارشات و فرمهای اطلاعاتی مورد نظر خود را ، از این طریق ایجاد نمایند .
توسعه سیستم های پایگاهی پیشرفته در دهه هشتاد و ایجاد پایگاه های شی گرا ، کاربرد گرا[۴] و فعال[۵] باعث توسعه همه جانبه و کاربردی شدن این سیستم ها در سراسر جهان گردید . بدین ترتیب DBMS هایی همچون DB2 ، Oracle ، Sybase ، … ایجاد شدند و حجم زیادی از اطلاعات با استفاده از این سیستم ها مورد پردازش قرار گرفتند . شاید بتوان مهمترین جنبه در معرفی داده کاوی را مبحث کشف دانش از پایگاه داده ها ([۶]KDD) دانست بطوری که در بسیاری موارد DM و KDD بصورت مترادف مورد استفاده قرار می گیرند .
همانطور که در تعریف داده کاوی ذکر شد ، هدف از جستجو و کشف الگوهایی در پایگاه داده ها و استفاده از آنها در اخذ تصمیمات حیاتی است ، بنابراین می توان گفت که DM بخشی از فرایند KDD است که در نهایت به ایجاد سیستم های DSS[7] برای اولین بار مفهوم داده کاوی در کارگاه[۸] IJCAI در زمینه KDD توسط Shapir مطرح گردید . به دنبال آن در سالهای ۱۹۹۱ تا ۱۹۹۴ ، کارگاههای KDD مفاهیم جدیدی را در این شاخه از علم ارائه کردند بطوری که بسیاری از علوم و مفاهیم با آن مرتبط گردیدند.

