العنوان بلغة أخرى: |
Automated Processing of Linguistic Heritage Corpuses between Characteristics of the Programming Language and Digitization Errors |
---|---|
المصدر: | مجلة إشكالات في اللغة و الأدب |
الناشر: | المركز الجامعي أمين العقال الحاج موسى أق أخموك بتامنغست - معهد الآداب واللغات |
المؤلف الرئيسي: | حجبار، رادية (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | Hajbar, Radiah |
المجلد/العدد: | مج10, ع2 |
محكمة: | نعم |
الدولة: |
الجزائر |
التاريخ الميلادي: |
2021
|
الصفحات: | 102 - 116 |
ISSN: |
2335-1586 |
رقم MD: | 1156211 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | AraBase |
مواضيع: | |
كلمات المؤلف المفتاحية: |
مدونة لغوية رقمية | لغة برمجة | استرجاع آلي | Digital Linguistic Corpus | Programming Language | Automatic Retrieval
|
رابط المحتوى: |
الناشر لهذه المادة لم يسمح بإتاحتها. |
المستخلص: |
إن الهدف من رقمنة مدونات اللغة العربية هو التعامل معها آليا؛ وذلك من خلال استرجاع المفردات والمعلومات والتنقيب في البيانات. وسنبين في بحثنا هذا، كيفية التعامل مع المدونات اللغوية التراثية الرقمية آليا، والتي اخترنا منها معجم لسان العرب لابن منظور، كتاب الجامع لمفردات الأدوية والأغذية لابن بيطار، ومعجم الإبل للأصمعي. ولكن كيف يتم توصيف المفردات الواردة في هذه المدونات التراثية للحاسوب؟ وهل تسمح لنا لغة البرمجة باسترجاع كل المفردات مهما كان شكلها أو بنيتها؟ وماهي اللوغاريتمات المناسبة للاسترجاع الآلي في حال كانت رقمنة المدونات غير مضبوطة؟ ولأجل الإجابة عن هذه الإشكالات، أنشأنا خوارزميات تتضمن توصيفا دقيقا للمفردة، من حيث حروفها وحركاتها، وكذا للواصق التي يحتمل أن تلتصق بها؛ لتحقق القراءات لجميع المفردات والتراكيب المراد استرجاعها آليا من قاعدة البيانات. وننتهي من خلال الاسترجاع الآلي لبعض الصيغ والمفردات، من نماذج من المدونات اللغوية التراثية إلى وجوب إعادة النظر في رقمنة هذه المدونات؛ لأجل التعامل معها بلغات البرمجة دون إشكالات. The aim of digitizing Arabic language corpuses is to deal with them automatically, as well as to accomplish the historical Arabic lexicon project, by retrieving vocabulary information and data mining. In this research, we will show how to deal with the digital linguistic heritage corpuses automatically, from which we chose the dictionary of «IBIL» of El-Asma’i, the book of «the collection of the vocabulary of medicines and food» of Ibn Baytar, and the dictionary of the «Arabic tongue» by Ibn Mandhour. But how are these vocabulary words contained in the heritage corpuses described in the computer? Does the programming language allow us to retrieve all vocabulary, regardless the shape or structure? What are the appropriate logarithms for automatic retrieval if the digitization of corpus is not accurate or inaccurate? In order to answer these problems, we have created algorithms and instructions that include an accurate description of the single word in terms of its consonants and vowels, as well as the affixation that are likely to stick to them; so that the reading of all the vocabulary and structures to be retrieved automatically from the database is achieved. We conclude through the automatic retrieval of some formulas and vocabulary, from examples of linguistic heritage corpuses to the need to review the digitization of these corpuses in order to deal with them in programming languages without problems. |
---|---|
ISSN: |
2335-1586 |