ارسل ملاحظاتك

ارسل ملاحظاتك لنا









تعزيز البيانات النصية من أجل التعامل مع المفردات غير المرصودة في النماذج اللغوية في مهام معالجة اللغة العربية المعاصرة

العنوان بلغة أخرى: Textual Data Augmentation for Handling Out of Vocabulary "OOV" Words in Arabic Language Processing Tasks
المصدر: مجلة اللغويات الحاسوبية والمعالجة الآلية للغة العربية
الناشر: مجمع الملك سلمان العالمي للغة العربية
المؤلف الرئيسي: زيتون، هدى (مؤلف)
المؤلف الرئيسي (الإنجليزية): Zaiton, Hoda
مؤلفين آخرين: الأنصاري، سامح (م. مشارك)
المجلد/العدد: مج1, ع2
محكمة: نعم
الدولة: السعودية
التاريخ الميلادي: 2024
التاريخ الهجري: 1446
الشهر: أكتوبر
الصفحات: 92 - 109
DOI: 10.60161/2521-001-002-004
ISSN: 1658-9483
رقم MD: 1520268
نوع المحتوى: بحوث ومقالات
اللغة: العربية
قواعد المعلومات: AraBase, Open
مواضيع:
كلمات المؤلف المفتاحية:
تعزيز | المفردات | غير المرصودة | الترجمة الآلية | Augmentation | Machine Translation | Out-of-Vocabulary Words
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

1

حفظ في:
المستخلص: تهدف هذه الدراسة إلى التعامل مع الكلمات غير المرصودة في مجال المعالجة الآلية للغة العربية، والحلول المقترحة في ضوء تطبيق التقنيات المختلفة لتعزيز البيانات النصية. ويشير مصطلح تعزيز البيانات النصية إلى التقنيات التي يمكن تنفيذها من أجل إجراء بعض التغييرات على العينة اللغوية المستخدمة في بناء نموذج لغوي معين أو نظام لغوي محدد، من أجل توليد ألفاظ وتراكيب لغوية جديدة تدرج مرة أخرى في أدوات تحليل البيانات لتدريب النموذج اللغوي. ويسهم هذا التطبيق في العمل على إثراء وتنوع المفردات اللغوية في مهام مثل الترجمة الآلية، والتعرف على الكيانات المسماة، وتلخيص النص آليا. وبتطبيق تقنية تعزيز البيانات النصية للتعامل مع الكلمات غير المرصودة وبالتحديد في مهمة الترجمة الآلية، خلصت هذه الدراسة إلى أن تطبيق هذه التقنيات على مستوى المفردات ساهم في توفير خيارات بديلة للكلمات أدت إلى تحسين قدرة وكفاءة النماذج اللغوية. أيضا قد يختلف أداء هذه النماذج بناء على التقنيات المستخدمة.

The present study deals with out-of-vocabulary (OOV) words in Arabic Natural Language Processing and proposes solutions in light of applying some techniques of Textual Data Augmentation (TDA). TDA refers to small changes made to accessible text at the character, word, or sentence level to generate new, synthetic data that is subsequently inserted into data loaders to train the model. This application contributes to enriching and diversifying linguistic vocabularies in tasks such as machine translation, named entity recognition, and automatic text summarization. By applying the technique of TDA to handle out-of-vocabulary words, specifically in the task of machine translation, this study concludes that applying these techniques at the word level has helped provide alternative options for words, leading to the improvement of the capability and efficiency of models. Additionally, the performance of these models may vary depending on the techniques used.

ISSN: 1658-9483