المستخلص: |
تهدف الدراسة إلى قياس صحة استخدام نظم التقييم الآلي في تقييم كتابة المقال باللغة الإنجليزية لطلاب الجامعيات العربية. ومن ثمَ سيقارن أداء إحدى أنظمة التقييم الآلي لموضوعات المقال بأداء محكمين بشريين. والبرنامج المستخدم في الدراسة هو ماي أكسسMy Access ويدعم هذا البرنامج نظام IntelliMetric للتصحيح الآلي. تم الحصول على البيانات من خلال استخدام نظام IntelliMetric للتصحيح الآلي لتصحيح 55 مقالة كتبها طلبة العينة بالإضافة إلى ثلاثة من المحكمين البشريين ذوي الخبرة من أهل اللغة الإنجليزية يقومون بتصحيح نفس المقالات. وتم تقييم موضوعات المقال في برنامج ماى أكسسMy Access بناء على مقاييس منها ما هو تحليلي ومنها ما هو كلي وكل مقياس مقسم إلى أربع نقاط. ويشتمل المقياس التحليلي على خمسة معايير.تم تجميع درجات كل من البرنامج والمحكمين البشريين وتم حساب المتوسطات والإنحرفات المعيارية للدرجات بالإضافة إلى حساب معامل الإرتباط بطريقة برسون. وكذلك استخدام تحليل التباين أحادي الإتجاة لدراسة الفروق بين المتوسطات. و لمعرفة اتجاة ودلالة هذة الفروق تم اجراء المقارنات المتعددة بين المتوسطات بطريقة .LSD من خلال المعايير الخمسة أظهرت النتائج ان هناك ارتباط ضعيف ومتوسط بين المحكمين البشريين ونظام Access My يتراوح بين 0.308 و0.435، ومعامل الإرتباط بين My Access والمحكم الأول في التصحيح الكلي هو 0.278 و 0.288 مع المحكم الثاني، في حين ان معامل الإرتباط بين My Access والمحكم الثالث غير دال إحصائياً، أي انة لا توجد علاقة بين My Access والمحكم الثالث. وقد اثبت تحليل التباين أحادي الإتجاة انة توجد فروق بين متوسطات برنامج My Access والمحكمين البشريين. وبعد اجراء المقارنات المتعددة بطريقة LSD تبين انة ليس هناك فروق بين متوسطات درجات برنامج My Access والمحكم الثالث في ثلاثة معايير وايضاَ التصحيح الكلي.
This study aimed to investigate the validity of using Automated Essay Scoring (AES) systems to score essays written by nonnative university female students of English whose native language was Arabic. For this purpose, the performance of the AES program, My Access which was supported by IntelliMetric scoring system, was compared with that of human raters in assigning scores. The data had been obtained by using the IntelliMetric scoring system to score 55 essays and by asking three qualified experienced human raters to score the same essays. The human raters were native English speakers. Four- point informative analytic and holistic rubrics had been used. The analytic rubric included five traits: focus and meaning, content and development, organization, language use, voice and style, and mechanics and conventions. The scores were then accumulated. Descriptive statistics, mean differences and Pearson Correlation Coefficient were calculated. The results showed that across the five traits the correlations between the human raters and IntelliMetric scores were weak and moderate, ranging from 0.308 to 0.435. The correlation between IntelliMetric and the first human rater (H1) on holistic scoring was 0.278 and 0.288 with the second human rater (H2). There was no significance correlation between IntelliMetric and the third human rater (H3) on holistic scoring. Across the five traits the results of One-Way Analysis of Variance (ANOVA) indicated that there was a statistically significant difference in the mean of IntelliMetric, H1, H2, and H3. Least Significant Difference (LSD) test showed that IntelliMetric and H3 were not statistically different on three traits besides holistic scoring: focus and meaning, content and development and mechanics and conventions. Regarding organization trait, IntelliMetric and H1 were not statistically different.
|