ارسل ملاحظاتك

ارسل ملاحظاتك لنا







استخراج الألفاظ الأكاديمية من المدونات اللغوية العربية العلمية

العنوان بلغة أخرى: Extracting Academic Vocabulary from Arabic-Language Scientific Corpora
المصدر: مجلة اللسانيات العربية
الناشر: مجمع الملك سلمان العالمي للغة العربية
المؤلف الرئيسي: الجاسم، حوراء علي (مؤلف)
مؤلفين آخرين: المجيول، سلطان بن ناصر (م. مشارك)
المجلد/العدد: ع17
محكمة: نعم
الدولة: السعودية
التاريخ الميلادي: 2023
التاريخ الهجري: 1444
الشهر: يوليو
الصفحات: 171 - 196
DOI: 10.60161/1482-000-017-007
ISSN: 1658-7421
رقم MD: 1400802
نوع المحتوى: بحوث ومقالات
اللغة: العربية
قواعد المعلومات: Open, AraBase
مواضيع:
كلمات المؤلف المفتاحية:
النصوص الأكاديمية | المدونات اللغوية | قائمة الألفاظ الأكاديمية | البيانات اللغوية | النماذج الإحصائية | Academic Texts | Linguistic Corpora | Academic Vocabulary List | Linguistic Data | Statistic Models
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

20

حفظ في:
LEADER 04202nam a22002657a 4500
001 2150918
024 |3 10.60161/1482-000-017-007 
041 |a ara 
044 |b السعودية 
100 |9 740708  |a الجاسم، حوراء علي  |e مؤلف  |g Aljasim, Hawra 
245 |a استخراج الألفاظ الأكاديمية من المدونات اللغوية العربية العلمية 
246 |a Extracting Academic Vocabulary from Arabic-Language Scientific Corpora 
260 |b مجمع الملك سلمان العالمي للغة العربية  |c 2023  |g يوليو  |m 1444 
300 |a 171 - 196 
336 |a بحوث ومقالات  |b Article 
520 |a يهدف هذا البحث إلى استخراج قائمة للألفاظ الأكاديمية في اللغة العربية من نصوص علمية مفتوحة المصدر، باستخدام تقنيات إحصائية محددة. وتحتوي هذه النصوص على 35 مليون كلمة تُمثّل سبعة حقول علمية. تهدف قائمة الألفاظ الأكاديمية العربية إلى إعانة متعلمي اللغة العربية للأغراض الأكاديمية على إنتاج اللغة العربية الأكاديمية وفهمها. وقد اعتمدنا في استخراج قائمة الألفاظ الأكاديمية على مقارنة تلك النصوص بوصفها مدونة رئيسة مع مدونة عربية مرجعية غير أكاديمية جمعناها من الصحف العربية من عام 2021 (50 مليون كلمة)، وباستخدام مقاييس إحصائية (معيار المعلومات البايزي ونسبة اللوغ ومقاييس التشتت: المدى وتشتت جولاند). وأسفر ذلك، بعد الاستخراج والمراجعة، عن قائمة صارمة للألفاظ الأكاديمية تتضمن 600 كلمة. مارسنا تجريبا إحصائيا آخر اعتمدنا به على مقاييس التشتت من دون استخدام المدونة المرجعية (الصحف العربية)، فحصلنا بذلك على 2821 لفظة أكاديمية نقية تضم أسماء وصفات وأفعالا وعبارات وأدوات وظروفا، بلغ مجموع عائلات ألفاظها 10.007 لفظة أكاديمية عربية.  |b This paper aims at extracting an Arabic academic vocabulary list from open-source academic written texts by utilizing specific statistical techniques. These texts contain 35 million words, and represent seven scientific fields. The goal behind this list is to help Arabic learners to encode Arabic for academic purposes. We relied for extracting the list on comparing the academic written Arabic texts as a primary corpus with a reference corpus we collected from 2021 newspaper archives (50M tokens), and on utilizing computational and statistical measures (Bayesian information criterion, log ratio, and the dispersion measures: Range and Juilland's D). This led the list to include strict 600 words. We adopted another experiment by not using the reference corpus, but by using only the dispersion measures. This resulted in obtaining a pure 2221-word list of nouns, adjectives, verbs, phrases, particles and adverbs, with a total of 10,006-word family. 
653 |a اللغة العربية  |a المدونات اللغوية  |a الأساليب الإحصائية  |a الألفاظ الأكاديمية 
692 |a النصوص الأكاديمية  |a المدونات اللغوية  |a قائمة الألفاظ الأكاديمية  |a البيانات اللغوية  |a النماذج الإحصائية  |b Academic Texts  |b Linguistic Corpora  |b Academic Vocabulary List  |b Linguistic Data  |b Statistic Models 
700 |9 386484  |a المجيول، سلطان بن ناصر  |e م. مشارك  |g Al Mujaiwel, Sultan 
773 |4 اللغة واللغويات  |6 Language & Linguistics  |c 007  |e The Arabic Linguistics Journal  |f Allisaniyat Alarabiyah  |l 017  |m ع17  |o 1482  |s مجلة اللسانيات العربية  |t Arab linguistics journal  |v 000  |x 1658-7421 
856 |u 1482-000-017-007.pdf 
930 |d y  |p y  |q n 
995 |a Open 
995 |a AraBase 
999 |c 1400802  |d 1400802 

عناصر مشابهة