در ابتدا به بررسی نحوه توزیع ویژگی های تشخیص انتخابی پرداخته که مطابق با زبان صفحه با هم تفاوت دارند. دوم اینکه آزمایشاتی را اجرا شده که به بررسی تاثیر زبان بر تشخیص هرزنامه وب و نرخ اشتباه با بهره گرفتن از ویژگی های تشخیصی ثابت برای یک طبقه بندی کننده فرضی می پردازنند. از زبان های انگلیسی و عربی به عنوان مطالعات موردی استفاده شده است.
ویژگی های مورد استفاده: ۱- میزان متن لنگر در صفحه وب ۲-تعداد کلمات در صفحه وب ۳-میانگین طول کلمات در صفحه وب ۴-تعداد کلمات در عنوان صفحه وب، چرا که هرزنامه نویسان ممکن است از واژگان غیر مرتبط در عنوان ها استفاده کنند تا نمره عنوان را در روند رده بندی افزایش دهند. ۵-نرخ بهم فشردگی صفحه وب ۶-تعداد واژگان منحصر به فرد در صفحه وب ۷-تعداد کاراکترها در عنصر متا، چراکه هرزنامه نویسان از واژگان کلیدی برای افزایش رده بندی صفحه استفاده می کنند ۸-تعداد کلمات در عنصر متا چرا که هرزنامه نویسان از واژگان کلیدی برای افزایش رده بندی صفحه استفاده می کنند ۹-طویل ترین واژه در صفحه وب، چراکه هرزنامه نویسان ها از واژگان طولانی برای افزایش رده بندی صفحه استفاده می کنند ۱۰-کوتاه ترین واژه در صفحه وب ، چراکه هرزنامه نویسان از واژگان طولانی برای افزایش رده بندی صفحه استفاده می کنند ۱۱-تعداد تصاویر در صفحه وب.
مجموعه داده ای مورد استفاده:
دو مجموعه داده ای وب اسپم مورد استفاده قرار گرفتند: UK-2011 ]95[، وب اسپم گسترده عربی ۲۰۱۱ ]۹۶[.
متدلوژی:
از درخت تصمیم MATLAB استفاده شده که مبتنی بر بهترین روش های شناخته شده برای تشخیص هرزنامه است. علاوه بر آن از ارزیابی متقاطع و هرس کردن بهره برده است (یک تکنیک برای کاهش سایز درخت تصمیم با حذف قسمتهای کمی از درخت که تاثیر چندانی روی طبقه بندی ندارد). برای ارزیابی متقاطع ویژگی ها از نمونه گیری تصادفی ۱۵۰۰ صفحه وب از میان ۳۶۸۸ صفحه در مجموعه ۱ و ۹۹۸۸ صفحه در مجموعه ۲ استفاده شد.
نتایج:
ابتدا ماهیت و پراکندگی هر ویژگی را در مجموعه داده ای انگلیسی و عربی بررسی کرده و سپس از طبقه بندی کننده درخت تصمیم برای هر دو زبان انگلیسی و عربی استفاده شده و خطای طبقه بندی با بهره گرفتن از این طبقه بندی کننده نشان داده شده است. از ارزیابی متقاطع leave one out استفاده می شود. طبقه بندی کننده ساخته می شود و مشاهدات یک به یک حذف شده و سپس بررسی می شود که آیا مشاهده حذف شده به درستی طبقه بندی می شود یا خیر( با جایگزینی).
باید درختی انتخاب شود که دارای حداقل خطای طبقه بندی است. یک راه برای انتخاب درخت با یک خطای استاندارد به همراه حداقل خطای طبقه بندی وجود دارد (تابع TREETEST MATLAB FUNCTION).
در وهله اول هر ۱۱ ویژگی برای درخت تصمیم انتخاب می شود تا عملکرد کلی آنها بررسی شود. نرخ شناسایی برای صفحات وب عربی بالاتر از انگلیسی است. این امر به این دلیل است که صفحات وب عربی نسبت به نمونه های انگلیسی برای گریز از تشخیص هرزنامه توسط موتور جستجوگر مهارت کافی را ندارند.
ویژگی ۸ ارائه دهنده بهترین عملکرد تشخیص در مجموعه داده ای انگلیسی است، ویژگی ۱ بهترین عملکرد را در مجموعه داده ای عربی دارد.
همچنین خطای طبقه بندی برای ترکیبات متفاوت هر ۱۱ ویژگی در مجموعه داده ای انگلیسی و عربی با بهره گرفتن از ترکیبات دو تایی ویژگی ها مورد محاسبه قرار گرفت. لازم به ذکر است که ویژگی ۷ در مجموعه داده ای در ترکیب با ویژگی های دیگر خوب عمل نمی کند. ویژگی های ۶ و۸ در ترکیب با دیگر ویژگی ها عملکرد خوبی دارند. در مجموعه داده ای عربی، استفاده از ویژگی ۱۰ بدترین عملکرد پراکندگی را به بار می آورد.
هم چنین خطای طبقه بندی برای ترکیبات ۳ تایی ویژگی ها مورد بررسی قرار گرفت. ویژگی های عمومی کمی وجود دارد که در هر دو مجموعه داده ای خوب عمل کنند همچون ۱۱ و ۱، اما با این وجود می توان ذکر نمود که انتخاب طبقه بندی کننده ویژگی ها بسته به زبان صفحه است.برای مجموعه داده ای انگلیسی، ویژگی های ۲ و ۳ به نسبت دیگرویژگی ها دارای نرخ مثبت و منفی غلط کمتری در ترکیب با دو ویژگی دیگر هستند (برای حداقل ۷۵ درصد از توزیع شان). علاوه برآن ، ویژگی های ۱ و ۱۱ در مجموعه داده ای عربی کمترین تعداد مثبت غلط و منفی غلط را در ترکیب با دو ویژگی دیگر دارند.از سوی دیگر ویژگی ۷ (تعداد کاراکترها در عناصر متا) در مجموعه داده ای انگلیسی و ویژگی ۱۰ (کوتاهترین کلمه در صفحه وب ) در مجموعه داده ای عربی دارای بالاترین خطای رده بندی در ترکیب با هر جفت ویژگی هستند.
سپس ترکیبات چهار تایی از ویژگی ها برای خطای طبقه بندی مورد بررسی قرار گرفت. برای مجموعه داده ای انگلیسی ، درست مثل مجموعه ۳ تایی، ویژگی های ۲ و ۳ کمترین خطای طبقه بندی را در ترکیب با هر دو ویژگی دیگر بدست آورده اند. ویژگی های ۱ و ۱۱ در مجموعه داده ای عربی کمترین خطای طبقه بندی و کمترین میزان پراکندگی را در هنگام ترکیب با دو ویژگی دیگر دارند. در مجموعه داده ای انگلیسی و ویژگی ۱۰ در مجموعه داده ای عربی بالاترین خطای طبقه بندی را در ترکیب با دیگر ترکیبات۳ گانه ویژگی ها دارند.
نتایج نشان می دهد که ویژگی های اندکی وجود دارند که در هر دو مجموعه داده ای نتایج مشابهی را می دهد، کارایی ویژگی های متفاوت دیگر مطابق با زبان صفحه مورد آزمایش متفاوت است.
راهنمای نگارش پایان نامه با موضوع تشخیص هرزنامه وب به کمک تکنیک های داده کاوی- ...