العنوان بلغة أخرى: |
Extracting Academic Vocabulary from Arabic-Language Scientific Corpora |
---|---|
المصدر: | مجلة اللسانيات العربية |
الناشر: | مجمع الملك سلمان العالمي للغة العربية |
المؤلف الرئيسي: | الجاسم، حوراء علي (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | Aljasim, Hawra |
مؤلفين آخرين: | المجيول، سلطان بن ناصر (م. مشارك) |
المجلد/العدد: | ع17 |
محكمة: | نعم |
الدولة: |
السعودية |
التاريخ الميلادي: |
2023
|
التاريخ الهجري: | 1444 |
الشهر: | يوليو |
الصفحات: | 171 - 196 |
DOI: |
10.60161/1482-000-017-007 |
ISSN: |
1658-7421 |
رقم MD: | 1400802 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | Open, AraBase |
مواضيع: | |
كلمات المؤلف المفتاحية: |
النصوص الأكاديمية | المدونات اللغوية | قائمة الألفاظ الأكاديمية | البيانات اللغوية | النماذج الإحصائية | Academic Texts | Linguistic Corpora | Academic Vocabulary List | Linguistic Data | Statistic Models
|
رابط المحتوى: |
PDF (صورة)
[مفتوح]
|
LEADER | 04202nam a22002657a 4500 | ||
---|---|---|---|
001 | 2150918 | ||
024 | |3 10.60161/1482-000-017-007 | ||
041 | |a ara | ||
044 | |b السعودية | ||
100 | |9 740708 |a الجاسم، حوراء علي |e مؤلف |g Aljasim, Hawra | ||
245 | |a استخراج الألفاظ الأكاديمية من المدونات اللغوية العربية العلمية | ||
246 | |a Extracting Academic Vocabulary from Arabic-Language Scientific Corpora | ||
260 | |b مجمع الملك سلمان العالمي للغة العربية |c 2023 |g يوليو |m 1444 | ||
300 | |a 171 - 196 | ||
336 | |a بحوث ومقالات |b Article | ||
520 | |a يهدف هذا البحث إلى استخراج قائمة للألفاظ الأكاديمية في اللغة العربية من نصوص علمية مفتوحة المصدر، باستخدام تقنيات إحصائية محددة. وتحتوي هذه النصوص على 35 مليون كلمة تُمثّل سبعة حقول علمية. تهدف قائمة الألفاظ الأكاديمية العربية إلى إعانة متعلمي اللغة العربية للأغراض الأكاديمية على إنتاج اللغة العربية الأكاديمية وفهمها. وقد اعتمدنا في استخراج قائمة الألفاظ الأكاديمية على مقارنة تلك النصوص بوصفها مدونة رئيسة مع مدونة عربية مرجعية غير أكاديمية جمعناها من الصحف العربية من عام 2021 (50 مليون كلمة)، وباستخدام مقاييس إحصائية (معيار المعلومات البايزي ونسبة اللوغ ومقاييس التشتت: المدى وتشتت جولاند). وأسفر ذلك، بعد الاستخراج والمراجعة، عن قائمة صارمة للألفاظ الأكاديمية تتضمن 600 كلمة. مارسنا تجريبا إحصائيا آخر اعتمدنا به على مقاييس التشتت من دون استخدام المدونة المرجعية (الصحف العربية)، فحصلنا بذلك على 2821 لفظة أكاديمية نقية تضم أسماء وصفات وأفعالا وعبارات وأدوات وظروفا، بلغ مجموع عائلات ألفاظها 10.007 لفظة أكاديمية عربية. |b This paper aims at extracting an Arabic academic vocabulary list from open-source academic written texts by utilizing specific statistical techniques. These texts contain 35 million words, and represent seven scientific fields. The goal behind this list is to help Arabic learners to encode Arabic for academic purposes. We relied for extracting the list on comparing the academic written Arabic texts as a primary corpus with a reference corpus we collected from 2021 newspaper archives (50M tokens), and on utilizing computational and statistical measures (Bayesian information criterion, log ratio, and the dispersion measures: Range and Juilland's D). This led the list to include strict 600 words. We adopted another experiment by not using the reference corpus, but by using only the dispersion measures. This resulted in obtaining a pure 2221-word list of nouns, adjectives, verbs, phrases, particles and adverbs, with a total of 10,006-word family. | ||
653 | |a اللغة العربية |a المدونات اللغوية |a الأساليب الإحصائية |a الألفاظ الأكاديمية | ||
692 | |a النصوص الأكاديمية |a المدونات اللغوية |a قائمة الألفاظ الأكاديمية |a البيانات اللغوية |a النماذج الإحصائية |b Academic Texts |b Linguistic Corpora |b Academic Vocabulary List |b Linguistic Data |b Statistic Models | ||
700 | |9 386484 |a المجيول، سلطان بن ناصر |e م. مشارك |g Al Mujaiwel, Sultan | ||
773 | |4 اللغة واللغويات |6 Language & Linguistics |c 007 |e The Arabic Linguistics Journal |f Allisaniyat Alarabiyah |l 017 |m ع17 |o 1482 |s مجلة اللسانيات العربية |t Arab linguistics journal |v 000 |x 1658-7421 | ||
856 | |u 1482-000-017-007.pdf | ||
930 | |d y |p y |q n | ||
995 | |a Open | ||
995 | |a AraBase | ||
999 | |c 1400802 |d 1400802 |