جدول الف-۴: توزیع خزانهی سؤال بهینه بر اساس روش MTI وb-bin=0.2 بدون کنترل مواجهه، حسابان- دیفرانسیل ۲۷۳
جدول الف-۵: توزیع خزانهی سؤال بهینه بر اساس روش R و b-bin=0.4، بدون کنترل مواجهه، حسابان-دیفرانسیل ۲۷۴
جدول الف-۶: توزیع خزانهی سؤال بهینه بر اساس روش MRP و b-bin=0.4، بدون کنترل مواجهه، حسابان-دیفرانسیل ۲۷۵
جدول الف-۷: توزیع خزانهی سؤال بهینه بر اساس روش MTI و b-bin=0.4، بدون کنترل مواجهه، حسابان-دیفرانسیل ۲۷۶
جدول الف-۸: توزیع خزانهی سؤال بهینه بر اساس روش R و b-bin=0.2، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۷۷
جدول الف-۹: توزیع خزانهی سؤال بهینه بر اساس روش MRP و b-bin=0.2، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۷۸
جدول الف-۱۰: توزیع خزانهی سؤال بهینه بر اساس روش MTI و b-bin=0.2، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۷۹
جدول الف-۱۱: توزیع خزانهی سؤال بهینه بر اساس روش R، b-bin=0.4، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۸۰
جدول الف-۱۲: توزیع خزانهی سؤال بهینه بر اساس روش MRP، b-bin=0.4، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۸۱
جدول الف-۱۳: توزیع خزانهی سؤال بهینه بر اساس روش MTI، b-bin=0.4، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۸۲
جدول الف-۱۴: توزیع خزانهی سؤال عملیاتی : هندسه (محتوای دوم) ۲۸۳
جدول الف-۱۵: توزیع خزانهی سؤال عملیاتی : جبر گسسته (محتوای سوم) ۲۸۴
جدول الف-۱۶: توزیع خزانهی سؤال بهینه بر اساس روش R، بدون کنترل مواجهه : حسابان-دیفرانسیل (محتوای اول) ۲۸۵
جدول الف-۱۷: توزیع خزانهی سؤال بهینه بر اساس روش R، بدون کنترل مواجهه : هندسه (محتوای دوم) ۲۸۶
جدول الف-۱۸: توزیع خزانهی سؤال بهینه بر اساس روش R، بدون کنترل مواجهه : جبر گسسته (محتوای سوم) ۲۸۷
جدول الف-۱۹: توزیع خزانهی سؤال بهینه بر اساس روش MRP، بدون کنترل مواجهه : حسابان-دیفرانسیل (محتوای اول) ۲۸۸
جدول الف-۲۰: توزیع خزانهی سؤال بهینه بر اساس روش MRP، بدون کنترل مواجهه : هندسه (محتوای دوم) ۲۸۹
جدول الف-۲۱: توزیع خزانهی سؤال بهینه بر اساس روش MRP، بدون کنترل مواجهه : جبر گسسته (محتوای سوم) ۲۹۰
جدول الف-۲۲: توزیع خزانهی سؤال بهینه بر اساس روش MTI، بدون کنترل مواجهه : حسابان-دیفرانسیل (محتوای اول) ۲۹۱
جدول الف-۲۳: توزیع خزانهی سؤال بهینه بر اساس روش MTI، بدون کنترل مواجهه : هندسه (محتوای دوم) ۲۹۲
جدول الف-۲۴: توزیع خزانهی سؤال بهینه بر اساس روش MTI، بدون کنترل مواجهه : جبر گسسته (محتوای سوم) ۲۹۳
جدول الف-۲۵: توزیع خزانهی سؤال بهینه بر اساس روش R، با کنترل مواجهه S-H : حسابان-دیفرانسیل (محتوای اول) ۲۹۴
جدول الف-۲۶: توزیع خزانهی سؤال بهینه بر اساس روش R، با کنترل مواجهه S-H : هندسه (محتوای دوم) ۲۹۵
جدول الف-۲۷: توزیع خزانهی سؤال بهینه بر اساس روش R، با کنترل مواجهه S-H : جبر گسسته (محتوای سوم) ۲۹۶
جدول الف-۲۸: توزیع خزانهی سؤال بهینه بر اساس روش MRP، با کنترل مواجهه S-H : حسابان-دیفرانسیل (محتوای اول) ۲۹۷
جدول الف-۲۹: توزیع خزانهی سؤال بهینه بر اساس روش MRP، با کنترل مواجهه S-H : هندسه (محتوای دوم) ۲۹۸
جدول الف-۳۰: توزیع خزانهی سؤال بهینه بر اساس روش MRP، با کنترل مواجهه S-H : جبر گسسته (محتوای سوم) ۲۹۹
جدول الف-۳۱: توزیع خزانهی سؤال بهینه بر اساس روش MTI، با کنترل مواجهه S-H : حسابان-دیفرانسیل (محتوای اول) ۳۰۰
جدول الف-۳۲: توزیع خزانهی سؤال بهینه بر اساس روش MTI، با کنترل مواجهه S-H : هندسه (محتوای دوم) ۳۰۱
جدول الف-۳۳: توزیع خزانهی سؤال بهینه بر اساس روش MTI، با کنترل مواجهه S-H : جبر گسسته (محتوای سوم) ۳۰۲
فصل اول
کلیات پژوهش
کلیات پژوهش
مقدمه
با پیشرفت روزافزون جوامع و لزوم تخصصی شدن فعالیتها، نیاز به اندازهگیری صفات زیربنایی افراد در هریک از مهارتهایشان روزبهروز گسترش مییابد. آزمونها که جزء جداییناپذیر فرایند سنجش و اندازهگیری هستند نیز توجه گستردهای را به خود اختصاص دادهاند. آزمونها به عنوان معیاری برای ورود به مشاغل و مقاطع تحصیلی، تأیید تسلط به مهارتی خاص و ارزیابی دورههای مختلف آموزشی استفاده میشوند. بدین ترتیب شمار زیادی از آزمونها به عنوان فیلترهایی مهم و تأثیرگذار در زندگی و آینده افراد مطرح شدهاند؛ این قبیل آزمونها را آزمونهای سرنوشت ساز[۱] می نامند (وندر لیندن و گلاس[۲]، ۲۰۱۰).
مراکز معتبر ساخت آزمون سالانه هزینههای بسیاری برای ساخت این نوع آزمونها صرف میکنند، به طوریکه گاهی هزینهی ساخت این آزمونها بسیار سنگین و هنگفت میشود، و گاهی آزمونسازان برای کم کردن هزینههای ساخت آزمون، کیفیت سؤالات آن را پایین میآورند. از اینرو، آزمونی که ضعیف ساخته شده باشد نه تنها مفید نیست، بلکه خطرناک نیز است. بنابراین آزمونهای سرنوشت ساز باید به دقت ساخته، اجرا و نمرهگذاری شوند (استوکینگ و سوآن سون[۳]، ۱۹۹۸).
با گسترش کاربرد کامپیوتر در زندگی روزمرهی انسانها، و با ورود سریع کامپیوترهای شخصی در امر آموزش، در سالهای اولیهی دهۀ ۱۹۸۰، بسیاری از فرمهای آزمونهای سرنوشتساز در “مقیاس وسیع[۴]“، به صورت فرمتهای مناسب اجرای کامپیوتری ساخته شدند. اجرای فرمتهای آزمونهای سرنوشتساز به شکل کامپیوتری مزیتهای بسیاری به همراه داشت. یکی از این مزیتها آن بود که قدرت کامپیوترهای مدرن و توانایی آنها برای یکپارچهکردن موقعیتهای چندگانه سنجشی، میتوانست فرمهای جدیدی از سؤالات ایجاد کند تا به موقعیت واقعی محیط زندگی نزدیک شود. کامپیوترها میتوانستند به منظور افزایش دقت آماری نمرهگذاری آزمونها نیز استفاده شوند. همچنین هزینههای اجرایی را نیز کاهش دهند. در اواخر همین دهه بود که سنجش انطباقی کامپیوتری[۵]( CAT) رشد فزایندهای یافت. البته ایدهی این نوع سنجش به آزمون هوش بینه و سیمون (۱۹۰۵) بر میگردد (وندر لیندن و گلاس، ۲۰۱۰). سنجش انطباقی شیوهای از اجرای آزمون است که با سطح توانایی آزمودنی انطباق دارد و هدف عمدهی آن، برازش سطح توانایی هر آزمودنی با سؤالات اجرایی، از طریق انتخاب بهینهی سؤالات از یک خزانه سؤال، به صورت سلسله مراتبی میباشد. همچنین، CAT شیوهای از سنجش است که میتواند دقت بیشتری برای تعیین طول آزمون ایجاد کند و بدون از دست دادن دقت آزمون، طول آن را کاهش دهد (ریکیسی[۶]، ۲۰۱۰). در همان سال های اولیه، سیستم سنجش میکروکت[۷] توسط اتحادیۀ سیستمهای سنجشی[۸] در سال ۱۹۸۴، ایجاد شد و برنامههایی از قبیل آزمونهای گزینش[۹] انطباقی کامپیوتری نیز ساخته شد (ساندز، گاد و کناپ[۱۰]، ۱۹۹۷). اولین کاربرد CAT در مقیاس وسیع، نسخهی کامپیوتری شدهی آزمون استعداد نیروهای مسلح[۱۱] (ASVAB) بود (ون در لیندن، ۱۹۹۶). به دنبال آن، در بسیاری از برنامههای سنجش در مقیاس بزرگ، آزمونهای مداد-کاغذی با CAT جایگزین شدند. برای مثال، نسخهی CAT آزمون GRE و آزمون استعداد شغلی نیروهای مسلح (ASVAB)، هم اکنون در دسترس میباشد. موسسهی ملّی اندازهگیری آموزشی (CITO) در هلند، چندین CAT تا به حال اجرا کرده است؛ مانند، MATCAT، برای تشخیص نقصهای ریاضی در دانشجویان ایجاد شدهاست (CITO، ۱۹۹۹) (ورشور و استریتمن[۱۲]، ۲۰۰۰). TURCAT، مهارت زبان ترکی را به عنوان زبان دوم سنجش میکند (CITO، ۲۰۰۸)، DSLCAT، نیز زبان هلندی را به عنوان زبان دوم سنجش میکند (CITO، ۲۰۰۲) و kindergartenCAT شامل آزمونهایی برای اندازهگیری ترتیب، زبان، توانایی جهتیابی زمانی و مکانی کودکان میباشد (ایگن[۱۳]، ۲۰۰۴). این CATها تقریباً همانند همهی سیستمهای CAT عملیاتی با کاربرد سؤالاتی در خزانه سروکار دارند که بهطور متنوعی توزیع میشوند (ولدکمپ[۱۴]، ورشور و ایگن، ۲۰۰۷). با گذشت بیش از ۲۰ سال از اجرای عملی سنجش انطباقی، CAT، به یک تکنولوژی کامل تبدیل شده است (ریکیسی، ۲۰۱۰).
به دنبال این پیشرفتها بسیاری از مراکز آزمونسازی به ساخت آزمونهای کامپیوتری روی آوردند، تا هم سرعت اجرای و هم دقت اندازه گیری خود را افزایش دهند. از اینرو با پیشرفت بیشتر CAT به مرور زمان مولفههای گوناگون آن شناخته و عوامل تاثیرگذار بر آن شناسایی شدند. به طوریکه اگر به این مولفهها توجه نمیشد،CAT میتوانست بدون آنکه دقت اندازه گیری را افزایش دهد، هزینههای گزافی را به بار آورد. مولفههای اساسی CAT، که به اندازه کافی معروف هستند، عبارتند از، مدلهای نظریه سؤال پاسخ[۱۵] که برای مدرجسازی سؤالات بهکارمیرود، خزانه سؤال[۱۶] مدرج شده[۱۷]، الگوریتم انتخاب سؤال، روش آماری برای جایابی[۱۸] آزمودنی بر روی صفت مکنون توانایی یا برآورد توانایی آزمودنیها، و قواعدی برای اتمام آزمون (واینر، دورانز، ایگنور، فلاگر، گرین، میسلوی، استنبرگ و تیسن[۱۹]، ۲۰۰۰). اخیراً که روشهای CAT، برای سنجشهای سرنوشت ساز، فراوان به کار میرود، مولفههای تعادل محتوایی[۲۰] (چنگ و چانگ[۲۱]، ۲۰۰۹) و قواعد امنیتی مانند کنترل مواجهه سؤال[۲۲] (سیمپسون و هتر[۲۳]، ۱۹۸۵) از اهمیت بسزایی برخوردار شدند. یکی از مولفههای جالب توجه مرتبط به CAT، که مطالب محدودی در مورد آن وجود دارد، مؤلفهی خزانه سؤال میباشد. با اینوجود، ویژگیهای جذاب روانسنجی CAT، در صورتی تحقق مییابد که سؤالات آزمونی که برای اجرا بهکار میروند مناسب باشند. این مجموعه از سؤالات معمولاً خزانهی سؤال نامیده میشود (ریکیسی، ۲۰۱۰).
بیان مسئله
کیفیت خزانهی سؤال، به عنوان یک عامل مهم به منظور افزایش کیفیت اندازه گیری در سنجش انطباقی کامپیوتری (CAT)، در نظر گرفته شده است (فلاگر، ۲۰۰۰؛ جنسما[۲۴]، ۱۹۷۷؛ مکبرید و وایس[۲۵]، ۱۹۷۶؛ ریکیسی، ۱۹۷۶؛ ۲۰۰۳؛ وندر لیندن، ادلاید آریل[۲۶] و ولدکمپ، ۲۰۰۶؛ ولدکمپ و وندر لیندن، ۲۰۰۰؛ اکسینگ و همبلتون[۲۷]، ۲۰۰۴). حتی در همان اوایل دهه ۱۹۷۰ – آغاز پژوهشهای مرتبط با CAT- محققان بهطور ضمنی و یا به صراحت اذعان داشتند که ویژگیهای خزانهی سؤال نقش مهمی در دستیابی به بهترین نتایج ممکن در سنجش انطباقی، خواهد داشت ( مکبرید و وایس، ۱۹۷۶). با این وجود، دستورالعملهای اندکی در مورد چگونگی ساخت خزانههای سؤال با کیفیت بالا، ایجاد شده است (هی[۲۸]، ریکیسی، ۲۰۱۰؛ هی و ریکیسی، ۲۰۱۱).
آنچه مسلم است، این است که افزایش کیفیت خزانهی سؤال، نحوهی عملکرد الگوریتمهای سنجش انطباقی را بهبود میبخشد. بهترین و حتی جذابترین برنامههای سنجش انطباقی، اگر بر اساس خزانهی سؤالات محدود و سؤالاتی که کیفیت ضعیفی دارند، بنا شود، مطلوب نخواهند بود (فلاگر،۲۰۰۰، به نقل از واینر و همکاران). برای محقق کردن بسیاری از ویژگیهای اندازهگیری سنجش انطباقی، خزانه سؤالی که سؤالات از آن انتخاب میشوند، باید شامل سؤالاتی با کیفیت بالا برای سطوح متفاوت مهارت باشد. برخلاف آزمونهای سنتی مداد-کاغذی، که انتخاب سؤالات به نوعی است که بهترین سنجش را برای آزمودنیهایی با توانایی متوسط فراهم میکند، سنجش انطباقی میتواند دامنهی گستردهای از توانایی را پوشش دهد، از اینرو به سؤالاتی با کیفیت بالا برای دامنه گستردهای از توانایی نیاز است. به همین دلیل برای ایجاد خزانههای سؤال در سنجش انطباقی باید به مفروضههای مدل روان سنجیای که زیربنای مدرجسازی، اجرا و نمرهگذاری است، توجه شود. بنابراین تلاش مورد نیاز برای نوشتن خزانهی سؤالات در سنجش انطباقی بسیار بیشتر از آزمونهای مداد-کاغذی است (میلمن و آرتر[۲۹]، ۱۹۸۴). در آزمونهای مداد-کاغذی برای طراحی خزانهی سؤال مناسب، طراحان سؤال هنوز ابزار قدرتمندی برای ساخت سؤالاتی با کیفیت بالا محسوب میشوند (واینر، دورانس، ایگنور، فلاگر، گرین، میسلوی، استنبرگ و تیسن، ۱۹۹۰). در صورتیکه، سنجش انطباقی کامپیوتری، به خزانهی سؤالی نیاز دارد که خوب طراحی شده باشد، و شامل تعداد مناسبی از سؤالاتی باشد که از آن طریق بتوان آزمونهای مجزایی برای هریک از سطوح توانایی آزمودنیها ساخت. یک خزانه سؤال بهینه باید همچنین شامل سؤالاتی با تعادل محتوایی مناسب، که به استفاده بهینهای از سؤال منجر شود و هزینهی ایجاد سؤال را کاهش دهد، باشد (گو[۳۰] و ریکیسی، ۲۰۰۷). بنابر تعریف ریکیسی (۲۰۱۰)، زمانی بهترین خزانه سؤال ممکن یا خزانه سؤال بهینه را خواهیمداشت که هر زمان الگوریتم انتخاب سؤال CAT، سؤالی را برای اجرا جستجو میکند، دقیقاً همان سؤالی که مطلوب و مورد نظر است، در خزانه سؤال موجود باشد. بدین ترتیب، اگر در هر بار انتخاب سؤال، همیشه بتوان به سؤال مطلوبی دست یافت، خزانهی سؤال بهینه خواهد بود (ریکیسی، ۲۰۱۰).
توجه به چندین عامل مهم که با طراحی خزانه سؤال و CAT مرتبط هستند ضرورت دارد. خزانه سؤال بهینه باید بر اساس مولفههای دیگر CAT، یعنی طول آزمون، توزیع مورد انتظار جامعه آزمودنیها، شیوههای برآورد توانایی، شیوههای انتخاب سؤال و نسبتهای مواجهه و همپوشی سؤال هدف تعیین شود، توجه به تمام مولفههای CAT که توسط ریکیسی (۱۹۸۹) تعیین شد، به طور همزمان الزامی است (برگستروم و لانز[۳۱]، ۱۹۹۹). دو شیوهی رایج برآورد توانایی در CAT وجود دارد. “شیوهی برآورد توانایی بیزین[۳۲]” که سؤالاتی را انتخاب میکند که مقدار مورد انتظار واریانس پسین بیزین را کاهشدهد (اوون، ۱۹۶۹). روش بیزین اوون[۳۳] با یک توزیع پیشین توانایی شروع میشود، به صورتی که فرض میکند که آزمودنی عضوی از یک جامعه با یک توزیع مشخص توانایی - با میانگین و واریانس شناخته شده- میباشد. به این روش، “بیشینه دقت پسین[۳۴]” (MPP) نیز میگویند (اوون، ۱۹۷۵). روش دیگری که به طور رایجی بهکار میرود، روش بیشینه درست نمایی (ML) است. در این روش تا آزمودنی حداقل به یک سؤال پاسخ درست یا غلط ندهد، برآورد متناهی از توانایی آزمودنی نمیدهد (وندر لیندن، ۲۰۰۵). همچنین یکی از روشهای رایج انتخاب سؤال در CAT “روش انتخاب سؤال بر اساس بیشینه آگاهی[۳۵]” است. در روش بیشینه آگاهی (MI) سؤالاتی که میزان آگاهی فیشر در برآورد توانایی جدید آزمودنی را بیشینه کند، انتخاب میشوند (براون و ویس[۳۶]،۱۹۷۷). در CAT، سؤالات جدید به طور انطباقی با توجه به برآورد موقتی سطح توانایی آزمودنی بر اساس پاسخ سؤالاتی که قبلاً بر او اجرا شده است، انتخاب میشود (دیوی و پارشال[۳۷]، ۱۹۹۵). این شیوههای انتخاب سؤال میتواند بر نسبت مواجهه سؤال تاثیر گذارد. از اینرو عاملی باید به وجود آید تا این نسبت را کنترل کند. روشهای متعددی برای کنترل مواجهه سؤال وجود دارد، روش کنترل مواجهه سیمپسون-هتر (S-H)، یکی از رایجترین شیوههای انتخاب شرطی سؤال است. در این شیوه به هر سؤال مقدار پارامتر کنترل مواجهه اختصاص داده میشود. این پارامتر بر اساس فراوانی انتخاب سؤال که از طریق شبیهسازیهای متوالی CAT تعیین میشود، به سؤال اختصاص داده میشود. سؤالاتی با فراوانی بالاتر اجرا، پارامتر کنترل مواجهه کوچکتری به آن اختصاص مییابد، که دامنۀ آن بین ۰ و ۱ است (سیمپسون و هتر، ۱۹۸۵). این مباحث که به صورت خلاصه بیان شد، نشان میدهد که چهار هدف اغلب متضاد، در انتخاب سؤال از خزانه در CAT وجود دارد. اول، انتخاب سؤال باید دقت اندازه گیری را از طریق انتخاب آگاهی بیشینه شده یا از طریق دقت پسین سطح توانایی برآورد شده آزمودنی، بیشینه کند. دوم، انتخاب سؤال باید از امنیت خزانه سؤال از طریق محدود کردن میزانی که سؤالات مواجهه خواهند شد، محافظت کند. سوم، انتخاب سؤال باید این اطمینان را ایجاد کند که آزمودنیها، آزمونی با تعادل محتوایی مناسبی را دریافت کردهاند (پارشیال، دیوی و نرینگ[۳۸]، ۱۹۹۸). هدف چهارمی که بیشتر به بهینه شدن خزانه سؤال کمک میکند، اظهار میکند که انتخاب سؤال باید استفاده از سؤال را بیشینه کند، به طوریکه همه سؤالات در خزانه استفاده شوند. بدین ترتیب، مطمئن میشویم که از لحاظ اقتصادی صرفهجویی مناسبی برای طراحی سؤال صورتگرفتهاست (استوکینگ و سوآن سون، ۱۹۹۸). مسائل مربوط به انتخاب سؤال مانند یک بادبادکی میماند که وقتی یک طرف آن را فشار می دهیم طرف دیگر آن متورم شود، یا به عبارت دیگر زمانی که به یک مورد آن توجه میشود، از مورد دیگر آن غافل میشویم (استوکینگ و لوئیس[۳۹]، ۲۰۰۰). بنابراین، خزانهی سؤالی که برای CAT ساخته میشود، باید بتواند به این مولفهها به طور همزمان توجه کند. با این وجود، پژوهشهای اندکی در مورد ساخت خزانهی سؤالی برای CAT که بتواند همهی این مولفهها را وارد کند، وجود دارد.
اولین بار وندرلیدن و بوکویی-تیمینگا [۴۰] (۱۹۸۹) و ون درلیندن (۱۹۹۸) در مورد اتوماتیک کردن ساخت ابزار با بهره گرفتن از تابع آگاهی ابزار هدف به مطالعه پرداختند. بوکویی - تیمینگا در سال ۱۹۹۱، از روش “برنامه ریزی اعداد صحیح[۴۱]” برای محاسبهی تعداد سؤالات مورد نیاز برای فرمهای متفاوت آزمون استفادهکرد. او از رویکرد متوالی که تابع آگاهی آزمون (TIF)، را تحت مدل تک پارامتری لوجستیک (راش[۴۲]) بیشینه میکرد، استفاده کرد. نتایج پژوهشهای او برای اصلاح بانک سؤال موجود استفاده شد (بوکویی – تیمینگا، ۱۹۹۱). نخستین کارها در زمینهی ساخت خزانهی سؤل در CAT مربوط به رونالد فلاگر (۲۰۰۰) میباشد، وی با انجام کارهای کلاسیکی در زمینهی ساخت خزانههای سؤال، نشان داد، برای محقق ساختن بسیاری از مزیتهای اندازهگیری سنجش انطباقی، خزانه سؤالی که از آن سؤالات انتخاب میشوند، باید شامل سؤالاتی با کیفیت بالا برای بسیاری از سطوح متفاوت توانایی باشد. وی اولین الگوی ساخت خزانه سؤال را طراحی کرد (واینر و همکاران، ۲۰۰۰، ص ۳۸).با این وجود، تنها نتیجهای که از طراحی او در مورد ساخت خزانه بدست آمد، این بود که، ” باید بتوان تعدادی کافی از سؤالات در هر طبقهی محتوایی ایجاد کرد، سؤالاتی که بر ویژگیهای آزمونی که قبلاً ساخته شده، مبتنی است” (همان منبع، ص ۳۹). متأسفانه در طرح او هیچ نوع راهنمایی وجود نداشت که نشان دهد، چگونه ویژگیهای آزمون مشخص شود. به این دلیلکه در مورد ویژگیهای مورد نیاز خزانه سؤال برای CAT، راهنماییهای اندکی ارائه شده است، اغلب دیده میشود که برای ایجاد خزانه سؤال، از شیوههایی استفاده میشود که فاقد اصول معینی[۴۳] بوده و تنها در شرایط و بافت خاصی بنا به موقعیت قابلیت کاربرد دارند. برای مثال، وایر، بجورنر و کاسینسکی[۴۴] (۲۰۰۰)، برای ایجاد یک مقیاس CAT با هدف سنجش تأثیر سردرد در افراد، سؤالاتی را از چهار مقیاسی که از قبل موجود بود، جمع آوری کردند و برای کامل کردن آن، تعداد کمی سؤال نوشتند تا خزانه سؤال بزرگتر شود. با این کار ۵۳ سؤال بهدست آمد که تنها مناسب دامنۀ پایین سازهی مورد نظر بود، و برای سنجش دامنههای دیگر این صفت مناسب نبود (ریکیسی، ۲۰۱۰).
در کارهایی که اخیراً برروی CAT صورت گرفته، طراحی خزانه سؤال به صورت جدی مورد توجه قرار گرفته است. این مطالعات بر روی دو رویکرد عمده مبتنی هستند. رویکرد اول، توسط ولدکمپ و وندر لیندن (۲۰۰۰) ایجاد شده است، پژوهشهای مرتبط با این رویکرد از روش برنامه نویسی ریاضی[۴۵] برای طراحی خزانهی سؤال استفاده میکنند. در این رویکرد فرض میشود که مجموعه بزرگی از سؤالات که “خزانه اصلی[۴۶]” نامیده میشود، از قبل وجود دارد و تنها باید خزانههای قابل استفاده مورد نیاز، از آن انتخاب شود (بلو[۴۷] و آرمسترونگ[۴۸]، ۲۰۰۹؛ وندر لیندن، ادلاید آریل و ولدکامپ، ۲۰۰۶). در این رویکرد از “تست سایه[۴۹]“(STA) برای طراحی خزانه سؤال استفاده میشود، و از ویژگیهای خزانه سؤال موجود به عنوان نقطه شروع استفاده میشود (وندر لیندن و ولدکامپ ،۲۰۰۰). به عبارت دیگر، CAT از طریق رویکرد تست سایه اجرا میشود و تست از طریق برنامهنویسی عدد صحیح خطی دو ارزشی[۵۰] یا برنامهنویسی ۱-۰ سرهم میشود (وندرلیندن، ریس[۵۱]، ۱۹۸۸). بعضی از مطالعات در این رویکرد به هدف طراحی با برنامهریزی اعداد صحیح رسیدند (آریل، ولدکمپ و واندر لیندن، ۲۰۰۴). ولدکمپ و وندر لیندن، ۵ گام برای طراحی الگوی بهینه خزانه سؤال CAT با روش برنامهریزی ریاضی، توصیف کردند (ولدکمپ و وندر لیندن، ۱۹۹۹). در این رویکرد صفات و قیود سؤال مشخص میشوند، و سپس تست بر اساس آنها سرهم میشود. وندر لیندن (۲۰۰۵)، سه نوع از صفات سؤال را از یکدیگر متمایز کرد، کمّی[۵۲] ، طبقه ای[۵۳] و منطقی[۵۴]. صفات کمّی، صفاتی از سؤال هستند که به مقایر عددی سؤال مربوطند. مانند تعداد کلمات، تعداد پاسخهای ممکن، آمارههایی از قبیل مقادیر-p سؤال و پارامترهای IRT، و فراوانی استفادهی قبلی از سؤال. صفات طبقهای، خزانه سؤال را به خرده آزمونهایی از سؤالات با صفت یکسان تقسیم میکنند. مانند طبقهی محتوایی، چارچوب پاسخ سؤالات (برای مثال، پاسخ-باز یا چند گزینه ای)، و استفاده از مواد معین (برای مثال، نمودار یا جدول). صفات منطقی از صفات کمّی و طبقهای متفاوتند، صفات منطقی مشخصات سؤالات یا آزمونهای مجزا نیستند، بلکه صفات دوتایی، سه تایی و غیره سؤالات با یکدیگر میباشد. صفات منطقی شامل روابط ورود و خروج بین سؤالات و آزمونها میباشد. یکی از این روابط خروج این است که اگر سؤالی راهنمای حلّ سؤال دیگری باشد باید در آزمون یکسانی قرار نگیرد. در این رویکرد ویژگیها و صفات تست بر اساس یک تابع هدف[۵۵] که در ارتباط با مجموعهای از قیود[۵۶] خاص بیشینه یا کمینه میشود، محقق میگردد. وندر لیندن توانست با بهره گرفتن از این روش ویژگیهای بهینهی خزانه سؤال را شبیهسازی کند (وندرلیندن، ۲۰۰۵). مزیت این روش این بود که طراح را قادر میساخت تا ویژگیهای پیچیده آزمون را مدل یابی کند. یک مرتبه ویژگیهای سؤالات را تعریف کند و آنها را به عدد تبدیل کند، و سپس نرم افزار ویژهای برای شبیه سازی خزانه سؤال بهینه تعبیه کند. با این وجود، خزانه سؤال طراحی شده با روش برنامهریزی ریاضی به طور گستردهای در انتخاب سؤال به روش تست سایه وابسته است و به دانش زیادی در مورد نرمافزار بهینهسازی ویژه نیاز دارد. همچنین، بسته به روشی که صفات سؤال پارتیشنبندی میشوند، فضای طراحی میتواند بسیار بزرگ شود و فرایند شبیهسازی از لحاظ محاسباتی دشوار شود (گو و ریکیسی، ۲۰۰۷). یکی از محدودیتهای بالقوه این رویکرد آن است که به نرم افزارهای جبر خطی از قبیل CPLEX و LINDO برای بدست آوردن راهحل بهینه نیاز دارد، که کاربرد این روش را اندکی دشوار میکند و ممکن است، کدها و معادلات آن برای اکثریت کاربران دردسترس نباشد، که در این صورت اگر برنامه نیاز به اصلاح و یا تغییر داشته باشد، کنترلی بر آن نداشته باشند و چه بسا این احتمال وجود دارد که همیشه راه حل قابل اجرا و عملی[۵۷] دردسترس نباشد (چانگ[۵۸]، ۲۰۰۷؛ روبین[۵۹] و همکارانش، ۲۰۰۵). همچنین محدودیت دیگر این رویکرد این است که، سؤالات از قبل در خزانه موجود هستند و از روی آنها یک خزانه کوچکتر سرهم میشود (گو و ریکیسی، ۲۰۰۷) و در این رویکرد از ویژگیهای یک خزانهی سؤال موجود به عنوان نقطه شروع استفاده میشود (ریکیسی، ۲۰۱۰). البته استوکینگ و سوانسون (۱۹۹۳)، توانستند با بهره گرفتن از رویکرد برنامهنویسی خطی اعداد صحیح روشی را ایجاد کنند که در آن نیاز به استفاده از تست سایه در طراحی خزانهی سؤال سنجش انطباقی وجود نداشته باشد. این روش برنامهنویسی خطی که به مدل انحرافات وزندار[۶۰] (WDM) معروف است، بهطور گستردهای به عنوان جایگزینی قوی به جای روش تست سایه استفاده میشود (استوکینگ و سوانسون، ۱۹۹۸). این روش در اصل توسط استوکینگ و سوانسون، ۱۹۹۳ به دلیل علاقه و نگرانی آنها در مورد کیفیت ضعیف خزانههای سؤال در سرهم کردن تستهای متوالی در مقیاس بزرگ ایجاد شد. روش WDM به صراحت ویژگیهای آماری و غیر آماری سؤال را با تعادل مطلوبی بین ویژگیهای اندازهگیری و ساختاری در نظر میگیرد. این ویژگیها بهوسیلهی وزنهایی که توسط طراحان تست انتخاب میشود، میتواند در مدل وارد شود. این روش برخلاف روش تست سایه، ویژگیهای محتوایی را به عنوان اهداف[۶۱] نه قیود[۶۲] فرمولبندی میکند. به انحراف از اهداف محتوایی وزن داده میشود و در تابع هدف به همراه فاصلهی آگاهی سؤال از مقدار هدف[۶۳] قرار میگیرد بنابراین، محدودیت وابسته بودن رویکرد برنامهنویسی به روش تست سایه در ساخت خزانههای سؤال سنجش انطباقی با روش WDM برطرف میشود (استوکینگ، سوانسون و پیرمن[۶۴] ، ۱۹۹۳).
رویکرد دوم، رویکرد اکتشافی ریکیسی میباشد (ریکیسی، ۲۰۰۳). او برای برطرف کردن محدودیتهای رویکرد اول، روشی برای ایجاد الگویی برای خزانه سؤال ایجاد کرد، این روش بر اساس روش مونت کارلو[۶۵]، ویژگیهای یک خزانه سؤال بهینه را تعیین میکند (گو و ریکیسی، ۲۰۰۷). این رویکرد برخلاف روش برنامهنویسی ریاضی، بسیار سرراست است. همچنین، در مطالعات گوناگون در مورد طراحی خزانههای سؤال بهینه برای CAT استفاده شده است (ریکیسی، ۲۰۰۳، ۲۰۰۴، ۲۰۰۵؛ ریکیسی و هی؛ ۲۰۰۴، ۲۰۰۹؛ گو، ۲۰۰۷). در این رویکرد، استفاده از برنامهریزی اعداد صحیح کنار گذاشته میشود، و در آن فرض نمیشود که سؤالات از قبل وجود دارند. درعوض، در این رویکرد سؤالات برحسب پارامترهای IRT شبیهسازی میشوند تا با برآوردهای اخیر توانایی مطابقت داشته باشند و میزان آگاهی بهاندازه کافی بهینهای را ایجاد کنند. در روش ریکیسی ابتدا، خزانهی سؤال هدف بر اساس صفات غیر آماری از قبیل محتوا به خزانههای کوچکتری تقسیمبندی میشود، سپس فرایند CAT شبیهسازی میشود، بهطوریکه خزانههای سؤال کوچکتر بهطور همزمان ساخته شوند. شبیهسازی با یک آزمودنی که بهطور تصادفی از توزیع مورد انتظار استخراج میشود، آغاز شده، تا CAT برای این آزمودنی ایجاد شود. هر سؤال به نحوی شبیهسازی میشود که سؤال بهینهای براساس برآورد توانایی اخیر آزمودنی باشد. فرایند مشابهی برای آزمودنی بعدی نیز تکرار میشود، سپس، به همین ترتیب، برای کل نمونهی مورد نظر این فرایند ادامه مییابد و سؤالات برای نمونهی بزرگی از آزمودنیها شبیهسازی میشود و به خزانهی سؤال اضافه میشود، و بدین ترتیب براساس روش (“bin-and-union”)، خزانهی سؤال بهینه ساخته میشود (ریکیسی، ۲۰۰۳، ۲۰۰۴، ۲۰۰۹). برخلاف مسئلهی سرهم کردن[۶۶] خزانهی سؤال در رویکرد اول که در آن یک خزانهی سؤال از یک خزانهی بزرگ[۶۷] دردسترس برطبق ویژگیهای مطلوب سرهم میشود (وندر لیندن، آریل و ولدکمپ، ۲۰۰۶، وندرلیندن، ۲۰۰۵؛۲۰۰۰)، در مسئله طراحی خزانهی سؤال در رویکرد دوم، فرض بر این است که هیچ سؤال واقعی دردسترس نیست. از اینرو، از آنجایی که در عمل نیز، زمانیکه یک خزانهی سؤال طراحی میشود، هیچ سؤال واقعی در دسترس نمیباشد، طبیعتاً طراحی یک خزانهی سؤالی که به این صورت بهینه باشد، هدف مطلوبی میباشد (هی، ریکیسی، ۲۰۱۰). در این رویکرد، امکان کنترل مواجهه بیش از حد و تعادل محتوایی وجود دارد، ولی به اندازهی رویکرد اول نمیتواند موفقتآمیز باشد و چالشهایی را به وجود میآورد. همچنین، تعمیم روش ریکیسی (۲۰۰۳) به مدلهای دو و سه پارامتری با پیچیدگیهایی همراه است (ریکیسی، ۲۰۱۰). از اینرو، تعمیم این رویکرد به مدلهای دو و سه پارامتری تنها در دو پژوهش (گو، ۲۰۰۷ و هی، ۲۰۱۰) مشاهده شده است.
حال سؤال مهمی که مطرح میشود، این است که، برای طراحی یک خزانهی سؤال بهینه چه تلاشی باید صورت گیرد؟. بدیهی است که در طراحی یک خزانهی سؤال ما باید ویژگیهای آماری و غیر آماری سؤال را درنظر بگیریم. برای مثال، توزیع پارامترهای سؤال مطلوب باید چگونه باشد؟ سؤالات موجود در خزانهی سؤال CAT باید چه صفاتی داشتهباشند؟. از طرف دیگر، پرسشهایی از قبیل؛ چه چیزی باعث میشود که اندازهی خزانهی سؤال کافی باشد یا به عبارتی به چند سؤال در خزانه نیاز داریم؟، نیز باید درنظر گرفتهشود. بنابراین، بهطور خلاصه، زمانیکه یک خزانهی سؤال بهینه طراحی میشود، باید حداقل سه عنصر اساسی درنظرگرفتهشود، یعنی، ویژگیهای آماری، ویژگیهای غیر آماری و اندازهی خزانهی سؤال. ویژگیهای آماری شامل پارامترهای سؤال میباشند، ویژگیهای غیر آماری شامل ویژگیهای محتوایی، توزیع کلید و مهارتهای شناختی و غیره میباشند (هی و ریکیسی، ۲۰۱۰).
از آنجا که پژوهشها و مطالعات انجام گرفته در این حوزه، هیچ یک به طور جامع به بررسی تمام مولفهها و مفروضاتی که بر عملکرد CAT تاثیر میگذارد، نپرداختند. و هر یک تنها به مولفهای از CAT برای طراحی خرانه سؤال توجه کردند، جای خالی مطالعهای که بتواند به همهی مولفههای CAT توجه کند و همچنین الگویی مناسبی برای خزانهی سؤال طراحی کند، در ادبیات مربوط به سنجش انطباقی کامپیوتری (CAT) به چشم میخورد. در پژوهشهای مربوط به رویکرد اول، خزانههای سؤال از خزانههای موجود طراحی میشوند و بنابراین هدف اولیهی طراحی خزانهی سؤال را زیر سؤال میبرد. در رویکرد دوم، مولفههای امنیتی CAT برای وارد شدن به شبیهسازی با چالشهایی روبرو هستند، از اینرو، کمتر در پژوهشهای مرتبط با این رویکرد به این مولفهها توجه شده است. همچنین کاربرد این رویکرد در مدلهای دو و سه پارامتری نیز در پژوهشهای اندکی انجام شده و یا در پژوهشهای اخیری بوده است که هنوز بر روی عملکرد خزانههای شبیهسازی شده مطالعهای صورت نگرفته است. ضرورت تلفیق مزیتهای این دو رویکرد، در تحقیقات مربوط به طراحی خزانهی سؤال بهینه در پژوهشهای پیشین هم خاطر نشان شده است (گو و ریکیسی، ۲۰۰۷؛ هی و ریکیسی، ۲۰۱۰)، امّا، تا به حال چنین پژوهشی در ادبیات مربوط به خزانهی سؤال صورت نگرفته است. از اینرو پژوهش حاضر قصد دارد تا از طریق ایجاد مطالعهای عملیاتی و تجربی به همراه مطالعهی شبیهسازیشده و سازمان یافته از کلیّهی این مولفهها با کنترل و دستکاری مولفههای دیگر به ساخت الگویی بهینه برای طراحی خزانهی سؤال CAT، بپردازد، تا بتواند کارکرد سنجشهای انطباقی را بهبود بخشد. روش شبیهسازی در این مطالعه روش مونت کارلو است که به همراه برنامهنویسی ریاضی اعداد صحیح به روش WDM برای وارد کردن ویژگیهای محتوایی، الگوی بهینه طراحی میشود. در این پژوهش، سعی بر این است که، از مزایای رویکرد برنامهنویسی ریاضی در غنیسازی رویکرد اکتشافی ریکیسی استفاده شود، ولی اساس و زیربنای شبیهسازی بر رویکرد اکتشافی ریکیسی (۲۰۰۳) و تعمیم آن به مدلهای دو و سه پارامتری، بنا شده است.
اهمیت و ضرورت مسئله
خزانهی سؤال نقش با اهمیتی در سنجش انطباقی کامپیوتری (CAT) دارد (گو، ریکیسی، ۲۰۰۷). مشخصات خزانه سؤال به منظور بهبود عملکرد CAT بسیار مهم میباشند. نوع طراحی خزانه سؤال بر عملکرد CAT تاثیر میگذارد (ریکیسی، ۲۰۱۰). یکی از مباحثی که اغلب در طراحی خزانهی سؤال نادیده گرفته میشود، این است که چگونه یک خزانهی سؤال به یک روش تجربی و روش نظامدارتری طراحی و گسترش یابد، و به عبارتی ایجاد طرح نظامداری که مطالب اصلی ترکیب بهینهای از سؤالات را با مشخصه های روانسنجی و ویژگیهای محتوایی مورد نظر تامین کند، به چشم نمیخورد. طرحی که به عنوان یک نتیجه و الگوی طراحی خزانه سؤال بتواند به طراحان سؤال کمک کند که نه تنها در نوشتن سؤالات به شکل (چند گزینه ای، پاسخ باز و غیره) آنها و پوشش محتوایی آن توجه کنند، بلکه به مشخصه های روان سنجی مطلوب سؤالات نیز توجه کنند. در این میان طرحی بهینه است که شامل سؤالات مناسبی برای هر کدام از آزمونهای مجزای CAT باشد و ما را قادر سازد تا به سطح مطلوبی از دقت برسیم. همچنین مهمترین عاملی که یک الگوی طراحی سؤال را بهینه میکند این است که شامل سؤالاتی باشد که به خوبی متعادل شده باشند، به طوریکه استفاده بهینهای از سؤال شود و هزینهی طراحی سؤال را به حداقل برساند (گو و ریکیسی، ۲۰۰۷).
فرایند نوشتن سؤالات معمولاً از طریق مشخصاتی که به طور مناسبی برای آزمون تعیین میشود، آموزش داده میشود. به طوریکه صفات محتوایی و توزیعشان را معین میکند. تا حد لزوم شرایط صفات آماری از قبیل دامنه دشواری و ضریب تشخیص را میتوان مشخص کرد، امّا اغلب بسیار دشوار است که به سادگی به این سطح دشواری و ضریب تشخیص مشخصشده برسیم، زیرا مقادیر صفات آماری برای تک تک سؤالات به آسانی پیشبینی نمیشود. با اینوجود در سطح خزانه سؤال، ویژگیهای آماری الگوی ثابتی از همبستگی با صفات محتوایی نشان میدهند. اگر این الگوها استفاده شوند، تلاشهایی که برای نوشتن سؤال صرف میشود به حداقل میرسد. به واسطهی مدل یابی دقیقی که از شیوه CAT صورت میگیرد، مشخصات آزمون برای خزانه سؤال میتواند با شبیهسازی کامپیوتری ایجاد شود تا تعداد سؤالات مورد نیاز به همراه صفات ویژه و مشخصات روانسنجی آنها قابلیت پیشبینی[۶۸] پیدا کند (وندر لیندن، ۱۹۹۹؛ ریکیسی، ۲۰۰۳).
بنابراین، توصیف شیوههایی برای طراحی خزانههای سؤال برای آزمونهای انطباقی کامپیوتری و بررسی اینکه آیا استفاده از این شیوههای طراحی خزانه سؤال کارا میباشند و مزیتهای CAT را از بین نمیبرند، همواره یکی از اهداف مهم در مطالعات مربوط به خزانه سؤال بوده است. از اینرو شیوههایی مورد نیاز است که شبیهسازی کاملی برای CAT ایجاد کند، تا شامل مواردی مانند تعادل محتوایی، کنترل مواجهه بیش از حد سؤالات و روش انتخاب سؤال باشد (ریکیسی، ۲۰۱۰).
منابع پایان نامه در مورد طراحی و کاربرد الگوهای تهیهی خزانهی سؤال در بهینه ...