العنوان بلغة أخرى: |
Arabic Text Preprocessing for Natural Language Processing Applications |
---|---|
المصدر: | مجلة الخليج العربي للبحوث العلمية |
الناشر: | جامعة الخليج العربي |
المؤلف الرئيسي: | عوجان، عرفات (مؤلف) |
المجلد/العدد: | مج 25, ع 4 |
محكمة: | نعم |
الدولة: |
البحرين |
التاريخ الميلادي: |
2007
|
الشهر: | ديسمبر |
الصفحات: | 179 - 190 |
ISSN: |
1985-9899 |
رقم MD: | 504333 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | science, EduSearch |
مواضيع: | |
رابط المحتوى: |
الناشر لهذه المادة لم يسمح بإتاحتها. |
LEADER | 04317nam a22002417a 4500 | ||
---|---|---|---|
001 | 1390436 | ||
041 | |a ara | ||
044 | |b البحرين | ||
100 | |9 282444 |a عوجان، عرفات |e مؤلف | ||
245 | |a معالجة النصوص العربية لغايات تطبيقات المعالجة الآلية للغات الطبيعية | ||
246 | |a Arabic Text Preprocessing for Natural Language Processing Applications | ||
260 | |b جامعة الخليج العربي |c 2007 |g ديسمبر | ||
300 | |a 179 - 190 | ||
336 | |a بحوث ومقالات |b Article | ||
500 | |a مستخلص المقال باللغة العربية والأصل باللغة الانجليزية | ||
520 | |a تهدف الورقة إلى وصف أسلوب جديد لمعالجة النصوص العربية المشكلة وغير المشكلة من أجل تهيئتها للاستعمال في تطبيقات المعالجة الآلية للغات الطبيعية. بني الأسلوب الجديد على قواعد محددة مسبقاً تتكون من أربعة مراحل، هي فصل المكون الأساس في النص (الكلمة)، فصل جذور الكلمات، التحليل الصرفي للكلمات، وإضافة توصيف للكلمات على النص. تعالج المرحلة الأولى النص بغرض عزل الكلمات وإعادة تمثيلها بطريقة معيارية، ويخضع النص في المرحلة الثانية إلى معالج يقوم باستخراج جذور كلمات النص وذلك بإزالة الإضافات السابقة واللاحقة لها، وتشمل المرحلة الثالثة محللاً صرفياً مبنياً على قواعد محددة، يستخرج الجذر والنمط الصرفي لكل كلمة، أما المرحلة الأخيرة فتضيف توصيفات على النص تشمل الخصائص الصرفية لكل كلمة. تمكن الطريقة المقترحة في هذه الورقة من التعامل مع النصوص العربية المشكلة وغير المشكلة وتنتج لكل كلمة من النص مجموعة من المعلومات اللغوية الضرورية للعديد من التطبيقات. تم تصميم المعالج بحيث يمكن استخدامه مع الكثير من تطبيقات المعالجة الآلية للغات الطبيعية مثل ترجمة وتلخيص وتصحيح النصوص، إلى جانب استخراج المعلومات والتشكيل الآلي للنصوص العربية. |b A new approach for preprocessing vowelized and unvowelized Arabic texts in order to prepare them for Natural Language Processing (NLP) purposes is described. The developed apprach is rule-based and made up of four phases: text tokenization, word light stemming, words’ morphological analysis, and text annotation. The first phase preprocesses the input text in order to isolate the words and represent them in a formal way. The second phase applies a light stemmer in order to extract the stem of each word by eliminating the prefixes and suffixes. The third phase is a rule-based morphological analyzer that determines the root and the morphological pattern for each extracted stem. The last phase produces an annotated text where each word is tagged with its morphological attributes. The preprocessor presented in this paper is capable of dealing with vowelized and unvowelized words, and provides the input words along with relevant linguistics information needed by different applications. It is designed to be used with different NLP applications such as machine translation, text summarization, text correction, information retrieval, and automatic vowelization of Arabic text. | ||
653 | |a علوم الحاسبات الإلكترونية |a النصوص العربية |a المعالجة الآلية |a جذور الكلمات |a التحليل الصرفي |a اللغات الطبيعية | ||
773 | |4 التربية والتعليم |6 Education & Educational Research |c 004 |e Arab Gulf Journal of Scientific Research |l 004 |m مج 25, ع 4 |o 1039 |s مجلة الخليج العربي للبحوث العلمية |v 025 |x 1985-9899 | ||
856 | |u 1039-025-004-004.pdf | ||
930 | |d n |p y | ||
995 | |a science | ||
995 | |a EduSearch | ||
999 | |c 504333 |d 504333 |