ارسل ملاحظاتك

ارسل ملاحظاتك لنا







معالجة النصوص العربية لغايات تطبيقات المعالجة الآلية للغات الطبيعية

العنوان بلغة أخرى: Arabic Text Preprocessing for Natural Language Processing Applications
المصدر: مجلة الخليج العربي للبحوث العلمية
الناشر: جامعة الخليج العربي
المؤلف الرئيسي: عوجان، عرفات (مؤلف)
المجلد/العدد: مج 25, ع 4
محكمة: نعم
الدولة: البحرين
التاريخ الميلادي: 2007
الشهر: ديسمبر
الصفحات: 179 - 190
ISSN: 1985-9899
رقم MD: 504333
نوع المحتوى: بحوث ومقالات
اللغة: العربية
قواعد المعلومات: science, EduSearch
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون
حفظ في:
المستخلص: تهدف الورقة إلى وصف أسلوب جديد لمعالجة النصوص العربية المشكلة وغير المشكلة من أجل تهيئتها للاستعمال في تطبيقات المعالجة الآلية للغات الطبيعية. بني الأسلوب الجديد على قواعد محددة مسبقاً تتكون من أربعة مراحل، هي فصل المكون الأساس في النص (الكلمة)، فصل جذور الكلمات، التحليل الصرفي للكلمات، وإضافة توصيف للكلمات على النص. تعالج المرحلة الأولى النص بغرض عزل الكلمات وإعادة تمثيلها بطريقة معيارية، ويخضع النص في المرحلة الثانية إلى معالج يقوم باستخراج جذور كلمات النص وذلك بإزالة الإضافات السابقة واللاحقة لها، وتشمل المرحلة الثالثة محللاً صرفياً مبنياً على قواعد محددة، يستخرج الجذر والنمط الصرفي لكل كلمة، أما المرحلة الأخيرة فتضيف توصيفات على النص تشمل الخصائص الصرفية لكل كلمة. تمكن الطريقة المقترحة في هذه الورقة من التعامل مع النصوص العربية المشكلة وغير المشكلة وتنتج لكل كلمة من النص مجموعة من المعلومات اللغوية الضرورية للعديد من التطبيقات. تم تصميم المعالج بحيث يمكن استخدامه مع الكثير من تطبيقات المعالجة الآلية للغات الطبيعية مثل ترجمة وتلخيص وتصحيح النصوص، إلى جانب استخراج المعلومات والتشكيل الآلي للنصوص العربية.

A new approach for preprocessing vowelized and unvowelized Arabic texts in order to prepare them for Natural Language Processing (NLP) purposes is described. The developed apprach is rule-based and made up of four phases: text tokenization, word light stemming, words’ morphological analysis, and text annotation. The first phase preprocesses the input text in order to isolate the words and represent them in a formal way. The second phase applies a light stemmer in order to extract the stem of each word by eliminating the prefixes and suffixes. The third phase is a rule-based morphological analyzer that determines the root and the morphological pattern for each extracted stem. The last phase produces an annotated text where each word is tagged with its morphological attributes. The preprocessor presented in this paper is capable of dealing with vowelized and unvowelized words, and provides the input words along with relevant linguistics information needed by different applications. It is designed to be used with different NLP applications such as machine translation, text summarization, text correction, information retrieval, and automatic vowelization of Arabic text.

وصف العنصر: مستخلص المقال باللغة العربية والأصل باللغة الانجليزية
ISSN: 1985-9899