- C4.5
- C5
در این تحقیق الگوریتم C5 انتخاب شده که یک نسخه بهبود یافته از C4.5 است (یک الگوریتم درختتصمیمگیری بسیار معروف که توسط محققان و تحقیقگران از اوایل ۱۹۹۰ استفاده شده است). درختهای تصمیمگیری در زمانی که یک متغیر وابسته و متغیرهای مستقل مختلف داشته باشند شبیه مدلهای رگرسیون درنظر گرفته میشوند. آنها میتوانند الگوهای مختلف از دادهها را کشف کنند که مدلهایی برای مدلهای رگرسیون استفاده شوند(Cox,2002).
درختهای تصمیمگیری یک روش به سرعت در حال محبوبیت هستند که به عنوان یک جایگزین قابل دوام برای رگرسیون لجستیکی در شرایطی که وابستگی ویژگی قطعی است استفاده میشود. اغلب، الگوریتمهای درختتصمیمگیری، مدلهایی که دقت بیشتری در پیشبینی و قابل درکتر هستند را تولید میکنند.
اولین گرهی درختتصمیم ریشه نامیده شده، گرهی وسط در درخت، برگ و آخرین گره از درخت، گرهی پایانی نامیده میشود. ویژگیها بر روی هر گره از درختتصمیم در برابر هر یک از مجموعه دادههای آموزشی با بهره گرفتن از الگوریتمهای جداسازی تست میشوند. الگوریتم درختتصمیم، درخت را از پایین به بالا میسازد در حقیقت، درختهای تصمیم معمولا به عنوان یک درخت وارونه که در بالای آن ریشه قرار دارد نشان داده میشوند.از این رو، آن بالا به پایین نیز نامیده شده است. تعداد شاخه ایجاد شده برای هر گره، به الگوریتم خاص استفاده شده و تعداد مقادیر ویژگی انتخاب شده وابسته است.
۳-۱۲- شاخص مقایسه نتایج خوشهبندی با رویکردهای مختلف
مقیاسهای مختلفی برای ارزیابی و مقایسهی نتایج خوشهبندی وجود دارد. در این تحقیق از شاخص زیر برای مقایسه استفاده شده است.
۳-۱۲-۱- شاخص مجموع خطای مربعی
در این روش ابتدا مراکز خوشه در نظر گرفته میشود و سپس فاصله نقطه مورد نظر از مراکز خوشه محاسبه میگردد. برای این امر از فرمول زیر استفاده میشود.
SSE (3-4)
در این روش را مراکز خوشه در نظر میگیریم و P را نقطه مورد نظر در این روش خوشهای که SSE پایینتری دارد نشاندهنده بهترین خوشهبندی (تعداد خوشه) استLarose,2005)).
۳-۱۳- ابزارهای دادهکاوی
ابزارهای دادهکاوی نرمافزارهایی هستند که به کاربران اجازه استخراج اطلاعات از دادهها را میدهند. این ابزارها توانایی گردآوری دادهها و کاربرد آنها به منظور پیشبینی در خصوص مسائل مختلف را، به سازمانها و افراد میدهند. استخراج دستی دادهها از صدها سال پیش وجود داشته است. این درحالی است که ماشینی شدن فرایند دادهکاوی از هنگام ورود کامپیوتر شایع شده است. هدف نهایی این ابزارها ظاهر ساختن الگوهای پنهان میباشد. به هرحال ابزارهای دادهکاوی میتواند شامل نرمافزارهای زیر باشد:
- ACL
- Clementine
- Data to Knowledge
- Intelligent-miner
- Insightful miner
- Microsoft excel
- Rapid miner
- Sas
- Weka
یکی از ابزارهای دادهکاوی برجسته و سرشناسی که مورد استفاده قرار میگیرد نرمافزار Clementine میباشد. دراین تحقیق هم ازاین نرمافزار استفاده شده است.
۳-۱۴- بخش دوم ساختار اجرایی تحقیق
مطابق با چارچوب پیشنهادی اولیه، ابتدا میبایست دادهها را مورد تجزیه و تحلیل قرار داده و سپس، با توجه به مسالهی مورد نظر الگویی که به حل مساله کمک میکند بهدست آید. در بخش بعد، شاخص مناسب برای مساله شناسایی میشود. انتخاب محیط کاربری مرحله بعد است و در پایان با توجه به مراحل پیشین داشبورد پیادهسازی میگردد.
۳-۱۴-۱- شناسایی شاخص
بعد از مراحل دادهکاوی باید نتایج بهدست آمده را پایش نموده و شاخص مناسب را یافت. شاخص باید نشاندهندهی عملکرد دانشجویان در زمینهی مسالهی موردنظر باشد.
۳-۱۴-۲- پیادهسازی داشبورد
دراولین بخش از مرحله پیادهسازی داشبورد باید عملیات دادهای مورد نیاز را انجام داد. این عملیات شامل یکپارچهسازی دادههای بهدست آمده است. در بخش بعدی از مرحلهی پیادهسازی، باید با توجه به نیازمندیهای استخراج شده و شاخصهای تعیین شده، داشبورد مورد نظر را پیادهسازی کرد. در پیادهسازی داشبورد باید اصول گفته شده در فصل دوم، در نظر گرفته شود.
عموما فنون مصورسازی ابزاری قدرتمند هستند که بهطور متناوب در فرایند کشف دانش بهکار میروند. مصورسازی میتواند روابط پیچیده را بهطور ساده قابلفهم سازد و تفکر مصور را برانگیزد. بهویژه، ابزارهایی که ساختار خوشهای از داده را مصور میسازند، برای جستجو و فهم داده ارزشمند هستند. در این تحقیق برای پیادهسازی داشبورد از نرمافزار Qlick View 11 استفاده شده است که در ادامه شرح داده شده است.
۳-۱۵- ابزار پیادهسازی داشبورد
زمانی ایجاد داشبوردها و تجزیه و تحلیل دادهها برای هر خروجی چند ماه طول میکشید و سرعت تصمیمگیری سازمانی را پایین میآورد اما با کلیک ویو میتوان آن را در چند دقیقه انجام داد. کلیک ویو بستر هوش کسب و کار برای تبدیل دادهها به دانش میباشد. این نرمافزار هر کسب و کار و کاربرهای فنی را قادر میسازد تا دادههای خود را بدون هیچ محدودیتی جدا کنند و به آنها کمک میکند زمانی که نیاز به تصمیمگیری در مورد مسائل سازمانی است، تصمیمات موثر و بهتری مبتنی بر اطلاعات صحیح بگیرند. کلیک ویو نرمافزاری است که امکان بازیافتن و تطبیق دادن دادهه
ا را از منابع گوناگون، فراهم میکند. با بارگذاری در برنامه، دادهها در مسیری که فهم و کار با آنها آسانتر باشد، ارائه میشوند. نرمافزاری ساده و قابلانعطاف میباشد و کاربران نهایی در سازمان به راحتی میتوانند از آن استفاده کنند و در زمان کوتاهی آن را آموزش ببینند. در کلیک ویو میتوان حجم بالایی از اطلاعات را با سرعت بسیار زیادی بارگذاری کرد و استفاده نمود. با کلیک ویو میتوان در هر زمانی اطلاعات و دادهها را بر اساس معیارها و شاخصهای تعیین شده بررسی نمود.
براساس معتبرترین موسسه تحقیقات تکنولوژی دنیا - گارتنر [۳۲] کلیک ویو چهارمین نرمافزار هوش تجاری در دنیا میباشد. کلیک ویو یک راه حل جامع و انعطافپذیر هوش تجاری است. این راهحل با بهره گرفتن از تکنولوژی انحصاری خود میتواند با محاسبات در لحظه، سطحی از بینش و شهود صحیح از حقایق سازمان را از طریق اکتشاف اطلاعات ایجاد کند.
۳-۱۶- نتیجهگیری
در این فصل روش تحقیق صورت گرفته طبق چارچوب پیشنهادی بهصورت گام به گام تشریح گردید. روش انجام بخش اول تحقیق برمبنای استفاده از یک مدل استاندارد دادهکاوی میباشد که مراحل اجرای تحقیق با الگوگیری از این مدل بهصورت گام به گام مورد بررسی قرار گرفت و در بخش دوم تحقیق توضیحاتی در مورد شناسایی شاخص و پیادهسازی داشبورد داده شد.
در نهایت اینکه، این فصل تمامی مراحلی را که برروی دادههای تحقیق درفصل بعد صورت خواهد گرفت را پوشش داده است.
فصل چهارم:
تجزیه و تحلیل و تفسیر دادهها
۴-۱-مقدمه
با توجه به تعاریف ارائه شده در فصول قبلی، در این فصل به تشریح، توضیح مراحل اجرای این تحقیق پرداخته شده است، همچنین لازم به ذکر است که توضیحات براساس چارچوب ارائه شده در فصل سوم میباشد و در بخش مربوط به دادهکاوی، مراحل استاندارد دادهکاوی که در فصول قبل توضیح داده شد مدنظر قرار گرفته است. خوشهبندی با روش k-means اجرا و نتیجه با بهره گرفتن از شاخص اعتبارسنجی مجموع خطای مربعی ارزیابی شده است و با بهره گرفتن از روشهای شبکهعصبی و درختتصمیم C5 خوشهها مورد پیشبینی قرار گرفته اند و در آخر سعی شده است تا شاخصهای مناسب استخراج گردد و با توجه به شاخصها، داشبورد مطلوب طراحی گردد.
۴-۲-فرایند دادهکاوی
این فرایند که یک بخش اصلی تحقیق حاضر میباشد برطبق استاندارد CRISPکه در فصل گذشته توضیح داده شد مرحله به مرحله صورت گرفته است.
۴-۲-۱-درک مساله
در این مرحله طی برقراری چند جلسه مشاوره با متخصصین موارد زیر بررسی گردید:
استفاده از مدلهای آماری و تکنیکهای دادهکاوی و داشبورد مدیریتی در کنارهم، جهت