العنوان المترجم: |
Automatic Retrieval of Morphological Formulas from The Electronic Intermediate Dictionary |
---|---|
المصدر: | اللغة العربية |
الناشر: | المجلس الأعلى للغة العربية |
المؤلف الرئيسي: | حجبار، رادية (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | Hajbar, Radiah |
المجلد/العدد: | ع49 |
محكمة: | نعم |
الدولة: |
الجزائر |
التاريخ الميلادي: |
2020
|
الصفحات: | 197 - 219 |
DOI: |
10.33705/0114-000-049-008 |
ISSN: |
1112-3575 |
رقم MD: | 1054993 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | AraBase |
مواضيع: | |
كلمات المؤلف المفتاحية: |
الصيغة الصرفية | الاسترجاع الآلي | المدونة الرقمية | البرنامج | الخوارزمية | Scheme (Morphological Form) | Automatic Extraction | Digital Corpus | Program | Algorithm
|
رابط المحتوى: |
المستخلص: |
إن رقمنة مدونات اللغة العربية هي بداية لمشروع الذخيرة اللغوية العربية، وكذا لمشروع المعجم التاريخي للغة العربية؛ وذلك لأجل التعامل معها آليا، واسترجاع المعلومات والتنقيب في البيانات، إلا أنه حين أردنا التعامل مع إحدى هذه المدونات، والمتمثلة في المعجم الوسيط الذي ألفه مجمع القاهرة، في طبعته الرابعة، وذلك باسترجاع أو بالقراءة الآلية للصيغ الصرفية المشتقة من الفعل الثلاثي المجرد الواردة كمداخل معجمية، وكذا التعريف المعجمي الذي يأتي بعده، واجهتنا عدة إشكالات، بعضها متعلقة بطريقة رقمنة مدونة المعجم الوسيط، وبعضها متعلقة بخصائص اللغة العربية وبعضها بواضعي المعجم؛ ما جعلنا مجبرين على تصفية النتائج المحصل عليها بعد كل قراءة آلية لصيغة صرفية معينة من مدونة المعجم الوسيط الرقمي أو الإلكتروني، والدعوة إلى إعادة النظر في رقمنة المدونات العربية؛ لأجل التعامل معها بلغات البرمجة دون إشكالات. The digitization of the corpora of the Arabic language is the beginning of the "thesaurus" project, as well as the Arabic "historical lexicon" project. This digitization makes it possible to apply certain automatic processing procedures to real linguistic samples such as: automatic search, information retrieval, etc. ... As far as we are concerned, we have adopted as a digital corpus the lexicon "Al muajem Al Wassit" conceived by a team from the Arabic Academy of Cairo, in its fourth edition, and we tried to apply an automatic search mechanism in all the lexical entries of the different schemes (morphological forms) derived from the trilitary mujarrad verbs, as well as the lexical definition that follows. We have encountered several difficulties, some of which relate to the digitization of our adopted lexicon (Al Muajem Al Wassit), others relate to the features of the Arabic language, and finally, others relate to the obsolete lexicographical techniques of this lexicon. For these reasons, we had to filter the results obtained after each automatic extraction of a scheme from the electronic version of our lexicon. Our conclusion is an appeal to all actors in the lexicological and lexicographical field of the Arabic language, to question their techniques and methodology of corpora digitization of the Arabic language. |
---|---|
ISSN: |
1112-3575 |