ارسل ملاحظاتك

ارسل ملاحظاتك لنا







معالجة النصوص العربية لغايات تطبيقات المعالجة الآلية للغات الطبيعية

العنوان بلغة أخرى: Arabic Text Preprocessing for Natural Language Processing Applications
المصدر: مجلة الخليج العربي للبحوث العلمية
الناشر: جامعة الخليج العربي
المؤلف الرئيسي: عوجان، عرفات (مؤلف)
المجلد/العدد: مج 25, ع 4
محكمة: نعم
الدولة: البحرين
التاريخ الميلادي: 2007
الشهر: ديسمبر
الصفحات: 179 - 190
ISSN: 1985-9899
رقم MD: 504333
نوع المحتوى: بحوث ومقالات
اللغة: العربية
قواعد المعلومات: science, EduSearch
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون
حفظ في:
LEADER 04317nam a22002417a 4500
001 1390436
041 |a ara 
044 |b البحرين 
100 |9 282444  |a عوجان، عرفات  |e مؤلف 
245 |a معالجة النصوص العربية لغايات تطبيقات المعالجة الآلية للغات الطبيعية 
246 |a Arabic Text Preprocessing for Natural Language Processing Applications 
260 |b جامعة الخليج العربي  |c 2007  |g ديسمبر 
300 |a 179 - 190 
336 |a بحوث ومقالات  |b Article 
500 |a مستخلص المقال باللغة العربية والأصل باللغة الانجليزية 
520 |a تهدف الورقة إلى وصف أسلوب جديد لمعالجة النصوص العربية المشكلة وغير المشكلة من أجل تهيئتها للاستعمال في تطبيقات المعالجة الآلية للغات الطبيعية. بني الأسلوب الجديد على قواعد محددة مسبقاً تتكون من أربعة مراحل، هي فصل المكون الأساس في النص (الكلمة)، فصل جذور الكلمات، التحليل الصرفي للكلمات، وإضافة توصيف للكلمات على النص. تعالج المرحلة الأولى النص بغرض عزل الكلمات وإعادة تمثيلها بطريقة معيارية، ويخضع النص في المرحلة الثانية إلى معالج يقوم باستخراج جذور كلمات النص وذلك بإزالة الإضافات السابقة واللاحقة لها، وتشمل المرحلة الثالثة محللاً صرفياً مبنياً على قواعد محددة، يستخرج الجذر والنمط الصرفي لكل كلمة، أما المرحلة الأخيرة فتضيف توصيفات على النص تشمل الخصائص الصرفية لكل كلمة. تمكن الطريقة المقترحة في هذه الورقة من التعامل مع النصوص العربية المشكلة وغير المشكلة وتنتج لكل كلمة من النص مجموعة من المعلومات اللغوية الضرورية للعديد من التطبيقات. تم تصميم المعالج بحيث يمكن استخدامه مع الكثير من تطبيقات المعالجة الآلية للغات الطبيعية مثل ترجمة وتلخيص وتصحيح النصوص، إلى جانب استخراج المعلومات والتشكيل الآلي للنصوص العربية.  |b A new approach for preprocessing vowelized and unvowelized Arabic texts in order to prepare them for Natural Language Processing (NLP) purposes is described. The developed apprach is rule-based and made up of four phases: text tokenization, word light stemming, words’ morphological analysis, and text annotation. The first phase preprocesses the input text in order to isolate the words and represent them in a formal way. The second phase applies a light stemmer in order to extract the stem of each word by eliminating the prefixes and suffixes. The third phase is a rule-based morphological analyzer that determines the root and the morphological pattern for each extracted stem. The last phase produces an annotated text where each word is tagged with its morphological attributes. The preprocessor presented in this paper is capable of dealing with vowelized and unvowelized words, and provides the input words along with relevant linguistics information needed by different applications. It is designed to be used with different NLP applications such as machine translation, text summarization, text correction, information retrieval, and automatic vowelization of Arabic text. 
653 |a علوم الحاسبات الإلكترونية  |a النصوص العربية  |a المعالجة الآلية  |a جذور الكلمات  |a التحليل الصرفي  |a اللغات الطبيعية 
773 |4 التربية والتعليم  |6 Education & Educational Research  |c 004  |e Arab Gulf Journal of Scientific Research  |l 004  |m  مج 25, ع 4  |o 1039  |s مجلة الخليج العربي للبحوث العلمية  |v 025  |x 1985-9899 
856 |u 1039-025-004-004.pdf 
930 |d n  |p y 
995 |a science 
995 |a EduSearch 
999 |c 504333  |d 504333