المستخلص: |
يوجد شبه إجماع بين المتخصصين في مجال القياس والتقويم أن لكل من أسئلة الاختيار من متعدد والأسئلة المقالية نقاط قوة ونقاط ضعف، وأن الدمج بين هذين النوعين من الفقرات داخل اختبار واحد يزيد من دقة الاختبار في قياس السمة المراد قياسها من منطلق أن كلا النوعين يكمل أحداهما الأخر. إلا إن الجمع بين هذين النوعين من الأسئلة داخل اختبار واحد أثار بعض القضايا السيكومترية من بينها هل تلك الأسئلة تقيس نفس القدرة أو قدرات متماثلة أم إنها كل نوع يقيس قدرة أو قدرات مختلفة عن تلك يقيسها النوع الأخر، وترتب على هذا السؤال سؤال أخر هل تصلح نماذج نظرية الاستجابة للمفردة أحادية البعد لتدريج هذا النوع من الاختبارات، أم أن هذا النوع من الاختبارات يتطلب استخدام النماذج متعددة الأبعاد. لهذا فقد هدف البحث الحالي إلى مقارنة بين كفاءة النماذج أحادية البُعد ومتعددة الأبعاد في تدريج الاختبارات مختلطة الفقرات. وللإجابة عن هذا السؤال فقد استخدم الباحث اختبار لقياس القدرة الرياضة لتلاميذ الصف السادس الابتدائي وقد تكون الاختبار من 15 سؤال مقسمة إلى 10 أسئلة من نوع الاختيار من متعدد وخمسة أسئلة مقالية، وقد تكونت عينة البحث من ٧٣٨ تلميذ من تلاميذ الصف السادس الابتدائي ٤٠٠ تلميذة و٣٣٨ تلميذ. وقد استخدم الباحث النموذج ثنائي المعلم لتدريج أسئلة الاختيار من متعدد، واستخدم نموذج التقدير الجزئي العام لتدريج الأسئلة مفتوحة النهايات باستخدام برنامج PARSCALE، واستخدم النموذج ثنائي العامل في حالة النماذج متعددة الأبعاد واستخدم حزمة Mirt في برنامج R. وقد أظهرت النتائج تفوق النماذج متعددة الأبعاد في تدريج الاختبار مقارنة بالنماذج الأحادية وذلك اعتمادا على قيم الدالة المعلوماتية للفقرات وجودة مطابقة النماذج للبيانات.
There is approximately full agreement among experts in measurement and evaluation that both multiple choice questions and assay questions have strengths and weaknesses and combining both types in single test increases the test accuracy in measuring the target trait from the logic that each type complements the other. However, combining both types into single test raise several questions one of them is these questions measure the same or similar ability or abilities or each type of measure different ability from the abilities are measured by the other types of items? based on this question, another question was raised: are the unidimensional item response modes valid to calibrate this type of test or these types of test require multidimensional item response theory models. Therefore, the current study aimed to compare the relative accuracy of the unidimensional and multidimensional models in calibrating mixed item format tests. To achieve this goal, a test for measuring the math achievement among the six grade students and the test contains 15 questions dividing into 10 multiple-choice questions and five assay questions; the sample consists of 738 students from the six grade primary schools, 400 female students, 338 male students. The two-parameter logistic model was used to calibrate the multiple-choice questions and generalized partial credit model was used to calibrate the open-ended questions using Parscale, and mirt package from R was used to calibrate the multidimensional models. The results indicated that multidimensional models outperform the unidimensional models based on test information function and item goodness of fit for the data.