ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Part-of-Speech Tagging for Arabic Text Based on Particle Swarm Optimization

العنوان بلغة أخرى: تحديد أقسام الكلام في النصوص العربية باستخدام خوارزمية التحسين بأسراب الجسيمات
المؤلف الرئيسي: الخزاعلة، فادي عواد (مؤلف)
مؤلفين آخرين: الطعاني، أحمد توفيق (مشرف)
التاريخ الميلادي: 2019
موقع: إربد
الصفحات: 1 - 89
رقم MD: 1125331
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: جامعة اليرموك
الكلية: كلية تكنولوجيا المعلومات وعلوم الحاسوب
الدولة: الاردن
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

42

حفظ في:
المستخلص: تصنيف جزء الخطاب هو عملية تحديد جزء الخطاب المناسب، لكل كلمة في السياق المعطى، مثل تحديد إذا الكلمة: فعل، أو اسم، أو أداة. تطبيقات معالجة اللغة الطبيعية، مثل نظم إجابة السؤال، وتلخيص النصوص، ونظم استرجاع المعلومات، تستخدم تصنيف أقسام الكلام في مرحلة قبل المعالجة الخاصة بها، هذه المصنفات تؤثر على أداء تطبيقات معالجة اللغة الطبيعية، وبذلك تتطلب مصنفات جزء خطاب دقيقة من اجل زيادة أداء تطبيقات معالجة اللغة الطبيعية. العديد من الأبحاث المتعلقة بتحديد جزء الخطاب للغة العربية أنجزت، لكن هنالك أبحاث متعلقة بتصنيف جزء الخطاب للغة العربية ما زالت قيد البحث. هدفنا في هذه الرسالة أن نعرض نظام تصنيف جزء خطاب للغة العربية مشرف عليه معتمد على نظرات إحصائية ونظرات تطورية ونظرات السرب. بحثنا المقترح يقوم باستخدام خوارزمية التحسين باسراب الجسيمات، ومشغلات الخوارزمية الجينية، ونموذج ماركوف المخفي، حتى نطبق هذا المقترح، نقوم بتحويل وتوضيح مشكلة تحديد أقسام الكلام على شكل سرب يحوي مجموعة من الجزيئات، كل جزئية تمثل سلسلة من التصنيفات، حيث خوارزمية تحسين سرب الجزيئة مطبقة لإيجاد افضل سلسلة من التصنيفات التي تمثل التصنيفات الصحيحة للجملة، هنالك ثلاث متغيرات يجب أن نجدها لنستطيع تطبيق خوارزمية تحسين سرب الجزيئة، المتغيرات هي الشخصي الأفضل، والعالمي الأفضل، والسرعة، مشغلات الخوارزمية الجينية (التقاطع والتغيير) مستخدمة لإيجاد متغير الشخصي الأفضل ومتغير السرعة التابعة لخوارزمية تحسين سرب الجزيئة، ونموذج ماركوف المخفي مستخدم لإيجاد اللياقة أو الوزن في كل جزيئة من جزيئات السرب، أداء النظام مقيم بشكل رئيسي باستخدام مقياس الدقة بالاعتماد على بيانات معيارية (كلمات) التي تحتوي على 18 مليون كلمة. وأظهرت النتائج أن المنهج المقترح انجز 90.5% من الدقة مقارنة بنسبة 98.2% و 98% و 97.4% و 94.6% للمنهج المعتمد على السرب والمنهج الهجين ونموذج ماركوف المخفي والمنهج المعتمد على القواعد على التوالي. وعلاوة على ذلك فإن المنهج المقترح يحدد جميع العلامات الموجودة في البيانات المعيارية. من ناحية أخرى، فان المناهج التي تمت المقارنة معها يمكنها تحديد ثلاث أقسام فقط باستثناء المنهج المعتمد على السرب الذي يكنه أيضا تحديد جميع العلامات الموجودة في البيانات المعيارية، أيضا المنهج المقترح اظهر دقة اعلى من المنهج المعتمد على السرب فيما يتعلق بخمسة تصنيفات فقط.