-
- درک قلمرو
-
- آماده کردن مجموعه دادهها
-
- کشف الگوها
-
- پردازش بعد از کشف الگو
-
- استفاده از نتایج
اصطلاح داده کاوی را آمار شناسان، تحلیل گران دادهها و انجمن سیستمهای اطلاعات مدیریت به کار می برند، در حالی که پژوهشگران یادگیری ماشین و هوش مصنوعی از کی دی دی ۷ بیشتر استفاده میکنند. در ادامه چند تعریف از داده کاوی ارائه می شود:
داده کاوی یا به تعبیر دیگر کشف دانش در پایگاه داده ها، استخراج غیر بدیهی اطلاعات بالقوه مفید از روی داده هایی است که قبلا،ً ناشناخته مانده اند. این مطلب برخی از روشهای فنی مانند خوشه بندی، خلاصه سازی داده ها، فراگیری قاعده های رده بندی، یافتن ارتباط شبکهها، تحلیل تغییرات و کشف بی قاعدگی را شامل میشود.
داده کاوی در حقیقت کشف ساختارهای جالب توجه، غیر منتظره و با ارزش از داخل مجموعه وسیعی از دادهها میباشد و فعالیتی است که اساسا با آمار و تحلیل دقیق داده ها منطبق است.
۲-۳-۳- مراحل انجام داده کاوی
عمل داده کاوی از یک پایگاه داده به چند مرحله مشخص تقسیم میشود که ما در این بخش پروژه به معرفی و توضیحی مختصر در مورد هر یک از این مراحل اکتفا میکنیم:
تشکیل انبار داده: این مرحله برای تشکیل محیطی پیوسته و یک پارچه جهت انجام مراحل بعدی داده کاوی انجام می گیرد. در حالت کلی انبار داده مجموعه پیوسته و طبقه بندی شده است که دائما در حال تغییر و دینامیک است که برای کاوش آماده میشود.
انتخاب دادهها: در این مرحله برای کم کردن هزینههای عملیات داده کاوی، داده هایی از پایگاه داده انتخاب می شوند که مورد مطالعه هستند و هدف داده کاوی دادن نتایجی در مورد آنهاست.
تبدیل دادهها: مشخص است برای انجام عملیات داده کاوی لزوما باید تبدیلات خاصی روی دادهها انجام گیرد. ممکن است این تبدیلات خیلی راحت و مختصر مثل تبدیل بایت ۸ به عدد صحیح ۹ باشد یا خیلی پیچیده و زمان بر و با هزینه های بالا مثل تعریف صفات جدید و یا تبدیل و استخراج داده ها از مقادیر رشتهای.
کاوش در داده ها: در این مرحله است که مدلسازی اصلی داده کاوی انجام می شود. در این مرحله با بهره گرفتن از تکنی های داده کاوی داده ها مورد کاوش قرار گرفته ، دانش نهفته در آنها استخراج شده و الگو سازی صورت میگیرد.
تفسیر نتیجه: در این مرحله نتایج و الگو های ارائه شده توسط ابزار داده کاوی مورد بررسی قرار گرفته و نتایج مفید معین میشود.
ابزارهایی که در فعالیت چهارم به کار گرفته می شوند ممکن است مدلهای آماری، الگوریتمهای ریاضی و یا روشهای یاد گیرنده باشند که کار خود را به صورت خودکار و بر اساس تجربهای که از طریق شبکه های عصبی یا درختهای تصمیم گیری به دست میآورند بهبود میبخشند.
۲-۳-۴- اهداف داده کاوی
داده کاوی منحصر به گردآوری و مدیریت دادهها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل میشود. برنامه های کاربردی که با بررسی فایلهای متنی و یا چند رسانهای به کاوش دادهها می پردازند، پارامترهای گوناگونی را در نظر میگیرند تا به یکی از الگوهای زیر برسند:
رابطه: الگوهایی که بر اساس آن یک رویداد به دیگری مربوط میشود، مانند خرید قلم به خرید کاغذ.
ترتیب : الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص میکند کدام رویداد، رویدادهای دیگری را در پی دارد، مانند تولد یک نوزاد و خرید پوشک.
طبقه بندی: شناسایی الگوهای جدید، مانند همزمانی خرید چسب و پوشه.
برای فهم و برقراری ارتباط با محیط اطرافمان در جهان همواره اشیا ، موجودات و چیزهایی را که با آنها سروکار داریم، دسته بندی، درجه بندی و طبقه بندی میکنیم تا بهتر بتوان روی آنها آنالیز و پردازش انجام داد. میتوان به عنوان مثال حیوانات را به گروهها و نژادهای مختلف ، مواد را به عناصر سازنده آنها و مایعات مختلف را با توجه به درجه غلظت آنها دسته بندی کنیم.
بر طبق تعریف طبقهبندی عبارت است از : آزمایش ویژگیهای اشیاء جدید و قرار دادن آنها در مجموعه کلاسهای از پیش تعریف شده .
به طور معمول اشیایی که طبقه بندی میشوند در قالب رکوردهای پایگاه دادهها و فیلدهای آنها پیاده سازی میشوند. پایگاه داده هایی که از اطلاعات ذخیره شده قبلی استفاده میکند ، پایگاه داده آموزشی نامیده میشود و رکوردهای آن دربرگیرنده چندین خصیصه متفاوت میباشد.
خصیصههای انتخاب شده را خصیصههای وابسته و دیگر خصیصهها را پیش گویانه مینامند. مهمترین وظیفه داده کاوی طبقه بندی است. به منظور فهم بهتر و ارتباط راحت تر با دنیا ما همیشه در حال گروه بندی عناصر هستیم. در طبقه بندی کردن اصولا به بررسی خصوصیت یک شی جدید و مرتبط کردن آن با یک مجموعه از قبل تعریف شده می پردازیم. اشیاء طبقه بندی شده به صورت مقداری در داخل پایگاه داده با پر کردن فیلدی به نام کد طبقه معین میشوند. وظیفه طبقه بندی با تعریفی خوب از کلاسها و یک مجموعه آموزشی شامل مثالهای از قبل تعریف شده میتواند مورد سنجش قرار بگیرد. مثال هایی از طبقه بندی را در زیر میآوریم :
طبقه بندی مشتریان بانک برای گرفتن وام به دو دسته خوب و بد.
طبقه بندی کردن شماره تلفنهایی که به ماشین فاکس متصل میشوند.
طبقه بندی کردن دانش آموزان کلاس بر حسب قد آنها.
در کلیه مثالهای بیان شده، تعداد محدودی از کلاسهای تعریف شده وجود دارد و باید هر مقدار به کلاسی تخصیص داده شود.
هدف، ساخت مدلی است که خصیصه های پیشگویانه را به عنوان مقدار ورودی و خروجی را برای خصیصه وابسته تعریف نماید. اگر خصیصه وابسته به صورت عددی باشد مسئله را، مسئله برازش می نامند و در غیر این صورت مسئله طبقه بندی نامیده میشود.
محققان مدلهای مختلف طبقهبندی را همچون شبکههای عصبی، الگوریتم ژنتیک، روشهای بایاسین، روشهای آماری و خطی، جداول تصمیم گیری و مدلهای ساخت یافته درختی که درختهای طبقه بندی نیز نامیده میشوند، را پیشنهاد دادهاند.
مثالهایی از وظایف طبقه بندی که از فنون مختلف استفاده میکردند را میتوان به صورت زیر بیان نمود :
تخصیص کلمات کلیدی به مقالات به محض ورود اخبار.
تصمیم گیری راجع به اینکه کدام شماره تلفن وابسته به کدام ماشین فاکس میباشد.
تخصیص کدهای صنعتی و تعیین مشاغل بر اساس توضیحات شغلی ارائه شده.
در تمامی مثالهای ذکر شده تعداد کلاسها محدود میباشد و انتظار می رود که قادر به تخصیص هر رکورد به یک یا چندتا از این کلاسها باشیم.
خوشه بندی: کشف و مستند سازی مجموعههای از حقایق ناشناخته، مانند دسته بندی مشتریان یک فروشگاه بر اساس میزان خرید و زمان بین خریدها.
خوشهبندی در واقع تقسیم بندی یک جمعیت ناهمگون به تعدادی از زیرمجموعههایی که بیشتر همگون هستند میباشد که به آن خوشه اطلاق میشود. هدف خوشه بندی یافتن گروه هایی است که با یکدیگر بسیار متفاوتند ولی اعضای این گروه ها بسیار شبیه هم هستند.
آن چیزی که خوشه بندی را از طبقه بندی متمایز میکند ، این است که در خوشه بندی بر روی کلاسهای از پیش تعیین شده کاری انجام نمیشود. در طبقه بندی موضوعات با تخصیص هر عضو یا رکورد به کلاس از پیش تعریف شده بر اساس مدل توسعه یافته در طول آموزش از مثالهای قبل تشکیل میشوند. در خوشه بندی دیگر هیچ کلاس از پیش تعریف شدهای وجود ندارد. رکوردها بر اساس شباهتهای خودشان گروهبندی میشوند و افرادی که خود در آن کار هستند باید این خوشه را تفسیر کنند. غالبا خوشه بندی به عنوان پیش درآمدی برای دیگر فنون داده کاوی یا مدل سازی میباشد. به عنوان مثال خوشه بندی ممکن است اولین قدم در قطعه بندی بازار باشد. پس از یافتن خوشههایی که پایگاه داده را قطعه بندی می کند، این خوشهها باید برای طبقه بندی دادههای جدید به کار گرفته شوند. نکته قابل توجه اینکه نباید خوشه بندی را با قطعه بندی اشتباه گرفت.
قطعهبندی به مسائل عمومی شناسایی گروههایی که دارای ویژگیهای عمومی هستند اطلاق میشود و خوشهبندی روشی برای قطعه بندی دادهها به گروههایی است که از قبل تعریف نشده اند. این در حالی است که طبقه بندی، روشی برای قطعهبندی داده به وسیله تخصیص آنها به گروههایی است که از قبل تعریف شدهاند.
الگوریتمهای خوشه بندی موجود را میتوان به دو دسته سلسله مراتبی و افرازی تقسیم بندی نمود. در الگوریتمهای خوشه بندی افرازی میشود که ناحیه خاصی را بهینه میکنند. در کنار آن خوشه بندی سلسله مراتبی، ترتیبی از K افرازی سعی بر تعیین افرازهاست که هر بخش در داخل بخش بعدی و به همین ترتیب قرار گرفتهاند.
پیش بینی: کشف الگوهایی که بر اساس آنها پی بینی قابل قبولی از رویدادهای آتی ارائه میشود مانند رابطه عضویت در یک باشگاه ورزشی با شرکت در کلاسهای ورزشی.
پیشگویی نیز همانند مسئله طبقه بندی و یا تخمین میباشد با این تفاوت که پیش بینی با آینده سر و کار دارد یعنی رکوردهایی که طبقه بندی میشوند با توجه به پیش بینیهایی است که از رفتار آینده و یا تخمین مقادیری که در آینده به خود میگیرند، میباشد.
در عمل تنها کاری که میتواند دقت این طبقه بندی را معین کند منتظر ماندن و ملاحظه نتایج در آینده میباشد. هر روشی که در طبقه بندی و تخمین مورد استفاده قرار میگیرد می تواند برای پیش بینی هم استفاده شود مشروط بر آنکه استفاده از مثالهایی که در آنها ارزش متغیر قابل پیش بینی در حال حاضر معلوم باشد و همچنین داده های جمع آوری شده برای مثالها در دسترس باشد، این دادههای قدیمی برای ساخت مدلی که رفتار فعلی مشاهده را بیان میکنند به کار میروند. هنگامی که به این مدل ورودیهای جدید داده شود، نتیجه در واقع پیش بینی رفتار در آینده خواهد بود.
فن تحلیل سبد خرید برای کشف مواردی که با هم به عنوان مثال در یک خواربارفروشی خریداری میشوند به کار میرود و بر همین اساس می تواند مدلی را برای خریدهای آینده و یا رفتارهایی که احتمال رخ دادن آنها بر روی دادههای جاری وجود دارد ارائه می کند.