ارسل ملاحظاتك

ارسل ملاحظاتك لنا







استخراج الألفاظ الأكاديمية من المدونات اللغوية العربية العلمية

العنوان بلغة أخرى: Extracting Academic Vocabulary from Arabic-Language Scientific Corpora
المصدر: مجلة اللسانيات العربية
الناشر: مجمع الملك سلمان العالمي للغة العربية
المؤلف الرئيسي: الجاسم، حوراء علي (مؤلف)
مؤلفين آخرين: المجيول، سلطان بن ناصر (م. مشارك)
المجلد/العدد: ع17
محكمة: نعم
الدولة: السعودية
التاريخ الميلادي: 2023
التاريخ الهجري: 1444
الشهر: يوليو
الصفحات: 171 - 196
DOI: 10.60161/1482-000-017-007
ISSN: 1658-7421
رقم MD: 1400802
نوع المحتوى: بحوث ومقالات
اللغة: العربية
قواعد المعلومات: Open, AraBase
مواضيع:
كلمات المؤلف المفتاحية:
النصوص الأكاديمية | المدونات اللغوية | قائمة الألفاظ الأكاديمية | البيانات اللغوية | النماذج الإحصائية | Academic Texts | Linguistic Corpora | Academic Vocabulary List | Linguistic Data | Statistic Models
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

20

حفظ في:
المستخلص: يهدف هذا البحث إلى استخراج قائمة للألفاظ الأكاديمية في اللغة العربية من نصوص علمية مفتوحة المصدر، باستخدام تقنيات إحصائية محددة. وتحتوي هذه النصوص على 35 مليون كلمة تُمثّل سبعة حقول علمية. تهدف قائمة الألفاظ الأكاديمية العربية إلى إعانة متعلمي اللغة العربية للأغراض الأكاديمية على إنتاج اللغة العربية الأكاديمية وفهمها. وقد اعتمدنا في استخراج قائمة الألفاظ الأكاديمية على مقارنة تلك النصوص بوصفها مدونة رئيسة مع مدونة عربية مرجعية غير أكاديمية جمعناها من الصحف العربية من عام 2021 (50 مليون كلمة)، وباستخدام مقاييس إحصائية (معيار المعلومات البايزي ونسبة اللوغ ومقاييس التشتت: المدى وتشتت جولاند). وأسفر ذلك، بعد الاستخراج والمراجعة، عن قائمة صارمة للألفاظ الأكاديمية تتضمن 600 كلمة. مارسنا تجريبا إحصائيا آخر اعتمدنا به على مقاييس التشتت من دون استخدام المدونة المرجعية (الصحف العربية)، فحصلنا بذلك على 2821 لفظة أكاديمية نقية تضم أسماء وصفات وأفعالا وعبارات وأدوات وظروفا، بلغ مجموع عائلات ألفاظها 10.007 لفظة أكاديمية عربية.

This paper aims at extracting an Arabic academic vocabulary list from open-source academic written texts by utilizing specific statistical techniques. These texts contain 35 million words, and represent seven scientific fields. The goal behind this list is to help Arabic learners to encode Arabic for academic purposes. We relied for extracting the list on comparing the academic written Arabic texts as a primary corpus with a reference corpus we collected from 2021 newspaper archives (50M tokens), and on utilizing computational and statistical measures (Bayesian information criterion, log ratio, and the dispersion measures: Range and Juilland's D). This led the list to include strict 600 words. We adopted another experiment by not using the reference corpus, but by using only the dispersion measures. This resulted in obtaining a pure 2221-word list of nouns, adjectives, verbs, phrases, particles and adverbs, with a total of 10,006-word family.

ISSN: 1658-7421

عناصر مشابهة