ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Towards an Improvement of Arabic Root Extraction Techniques

العنوان بلغة أخرى: نحو تحسين تقنيات استخراج جذور الكلمات العربية
المؤلف الرئيسي: السراج، سرين محمود خليل (مؤلف)
مؤلفين آخرين: عبيد، نديم على (مشرف), حمو، بسام حسن (مشرف)
التاريخ الميلادي: 2017
موقع: عمان
الصفحات: 1 - 77
رقم MD: 1241477
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: الجامعة الاردنية
الكلية: كلية الدراسات العليا
الدولة: الاردن
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

3

حفظ في:
المستخلص: إن عملية استخلاص جذور الكلمات هي واحدة من أهم التقنيات في معالجة اللغات الطبيعية، وكذلك تعتبر هذه العملية عملية معقدة بسبب الطرق المتنوعة التي يتم فيها بناء الكلمات العربية من الجذور. على سبيل المثال يمكن إضافة بعض المقاطع والحروف في بداية الكلمة أو وسطها أو نهايتها من اجل اشتقاق كلمات جديدة مختلفة، وقد تحتوي جذور أخرى على حروف عله (الألف، الواو، الياء) التي قد تنقلب أثناء الاشتقاق إلى حروف أخرى، وهناك حاجة لعملية استخلاص الجذور بطريقة سليمة. كان الهدف من هذا البحث هو تحسين تقنيات استخلاص الجذور. لقد تم القيام، في هذه الأطروحة، ببعض الخطوات نحو هذا الهدف. لقد تم تحليل نقاط الضعف في بعض تقنيات استخلاص الجذور اللغة العربية المستخدمة. وأظهرت عملية التحليل أن تقنية شيرين خوجا كان نسبيا الأكثر قدرة على العثور على الجذور المناسبة. ومع ذلك، كشفت عدم قدرة هذه التقنية على العثور على الجذور للكلمات التي تنتمي لجمع التكسير. وقدمت في هذا البحث خوارزمية جديدة، تقوم بإرجاع الكلمات العربية إلى جذورها باستخدام الأسلوب الإحصائي، دون الرجوع إلى القواعد الصرفية، وذلك لتفادي التعقيد الناشئ عن الثراء الصرفي للغة وتعدد القواعد الصرفية التي يصعب ضبطها برمجيا. وتم دمجها مع تقنية شرين خوجا للحصول على تقنية تدمج الطريقتين القواعد الصرفية والأسلوب الإحصائي. تعتمد الخوارزمية المقترحة على تقسيم الكلمة المراد استخلاص جذرها إلى أجزاء ثنائية (bigram)، ويتم بالمثل تقسيم الجذور المرشحة من قاعدة البيانات إلى أجزاء ثنائية أيضا، وبناء على درجة التشابه بين الكلمة المراد استخلاص جذرها وبين مجموعة الجذور المقترحة، يتم إرجاع الجذر المقترح للكلمة. تم تقييم H-Stemmer من مصدرين، واحد يحتوي على العربية القياسية الحديثة (MSA) والآخر يحتوي على النصوص العربية الكلاسيكية القديمة (OCAT). أول مجموعة بيانات من نص متوسط الحجم تم اختياره من كتاب بعنوان "مناهج البحث في العلوم السياسية" للمؤلف "دكتور محمد محمود ربيع"، ويتألف من 12946 كلمة، منها 8001 كلمة جذور ثلاثية لا تحتوي على حروف العلة، و920 كلمة جذور ثلاثية تبدأ بحرف علة، و1179 كلمة جذور ثلاثية تنتهي بحرف علة، و2230 كلمة جذور ثلاثية يتوسطها حرف علة، وتحتوي على 116 كلمة جذور رباعية لا تحتوي حروف علة، و21 كلمة اصلها جذور رباعية تبدأ بحرف علة، و9 كلمات جذور رباعية تنتهي بحرف علة، و96 كلمة جذور رباعية يتوسطها حرف علة، أما مجموعة البيانات الثانية فهي أكبر في الحجم، وتم اختيارها من مرجع عربي مشهور بعنوان "كتاب عيون الأخبار للمؤلف أبو محمد بن قتيبة الدينوري" الذي يحتوي على الكلمات العربية الكلاسيكية القديمة التي تتكون من 50604 كلمة، و30195 كلمة جذور ثلاثية لا تحتوي حرف علة، و2425 كلمة جذور ثلاثية تبدأ حرف علة، و4885 كلمة جذور ثلاثية تنتهي بحرف علة، 7691 كلمة جذور ثلاثية يتوسطها حرف، وتحتوي على 733 كلمة تنتمي للجذور الرباعية لا تحتوي جذور علة و171 كلمة جذور رباعية تبدأ بحرف علة، و17 كلمة جذور رباعية تنتهي بحرف علة، و512 كلمة جذور رباعية يتوسطها حرف علة. عند تطبيقها على النص العربي الحديث (MSA) تم الحصول على النتائج الآتية 84.40% ل H-Stemmer مقارنه بشيرين خواجا التي حصلت على 81.38% بينما حصل الخليل على 73.09% وPSUT حصل على 70.39%. وعند تطبيقها على النص العربي القديم الكلاسيكي (OCAL) تم الحصول على النتائج الآتية 80.19% ل H-Stemmer مقارنه بشيرين خواجا التي حصلت على 77.38% بينما حصل الخليل على 68.30% وPSUT حصل على 67.18%.

عناصر مشابهة