العنوان بلغة أخرى: |
Textual Data Augmentation for Handling Out of Vocabulary "OOV" Words in Arabic Language Processing Tasks |
---|---|
المصدر: | مجلة اللغويات الحاسوبية والمعالجة الآلية للغة العربية |
الناشر: | مجمع الملك سلمان العالمي للغة العربية |
المؤلف الرئيسي: | زيتون، هدى (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | Zaiton, Hoda |
مؤلفين آخرين: | الأنصاري، سامح (م. مشارك) |
المجلد/العدد: | مج1, ع2 |
محكمة: | نعم |
الدولة: |
السعودية |
التاريخ الميلادي: |
2024
|
التاريخ الهجري: | 1446 |
الشهر: | أكتوبر |
الصفحات: | 92 - 109 |
DOI: |
10.60161/2521-001-002-004 |
ISSN: |
1658-9483 |
رقم MD: | 1520268 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | AraBase, Open |
مواضيع: | |
كلمات المؤلف المفتاحية: |
تعزيز | المفردات | غير المرصودة | الترجمة الآلية | Augmentation | Machine Translation | Out-of-Vocabulary Words
|
رابط المحتوى: |
PDF (صورة)
[مفتوح]
|
المستخلص: |
تهدف هذه الدراسة إلى التعامل مع الكلمات غير المرصودة في مجال المعالجة الآلية للغة العربية، والحلول المقترحة في ضوء تطبيق التقنيات المختلفة لتعزيز البيانات النصية. ويشير مصطلح تعزيز البيانات النصية إلى التقنيات التي يمكن تنفيذها من أجل إجراء بعض التغييرات على العينة اللغوية المستخدمة في بناء نموذج لغوي معين أو نظام لغوي محدد، من أجل توليد ألفاظ وتراكيب لغوية جديدة تدرج مرة أخرى في أدوات تحليل البيانات لتدريب النموذج اللغوي. ويسهم هذا التطبيق في العمل على إثراء وتنوع المفردات اللغوية في مهام مثل الترجمة الآلية، والتعرف على الكيانات المسماة، وتلخيص النص آليا. وبتطبيق تقنية تعزيز البيانات النصية للتعامل مع الكلمات غير المرصودة وبالتحديد في مهمة الترجمة الآلية، خلصت هذه الدراسة إلى أن تطبيق هذه التقنيات على مستوى المفردات ساهم في توفير خيارات بديلة للكلمات أدت إلى تحسين قدرة وكفاءة النماذج اللغوية. أيضا قد يختلف أداء هذه النماذج بناء على التقنيات المستخدمة. The present study deals with out-of-vocabulary (OOV) words in Arabic Natural Language Processing and proposes solutions in light of applying some techniques of Textual Data Augmentation (TDA). TDA refers to small changes made to accessible text at the character, word, or sentence level to generate new, synthetic data that is subsequently inserted into data loaders to train the model. This application contributes to enriching and diversifying linguistic vocabularies in tasks such as machine translation, named entity recognition, and automatic text summarization. By applying the technique of TDA to handle out-of-vocabulary words, specifically in the task of machine translation, this study concludes that applying these techniques at the word level has helped provide alternative options for words, leading to the improvement of the capability and efficiency of models. Additionally, the performance of these models may vary depending on the techniques used. |
---|---|
ISSN: |
1658-9483 |