ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Automatic Topic Classification System of Spoken Arabic News

العنوان بلغة أخرى: النظام الآلي للتصنيف الموضوعي للأخبار المنطوقة باللغة العربية
المؤلف الرئيسي: أبو سليمان، ناصر صادق (مؤلف)
مؤلفين آخرين: Alhanjouri, Mohammed A.M (Advisor)
التاريخ الميلادي: 2017
موقع: غزة
الصفحات: 1 - 107
رقم MD: 875164
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: الجامعة الإسلامية (غزة)
الكلية: كلية الهندسة
الدولة: فلسطين
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

18

حفظ في:
المستخلص: إن أهم العواقب الرئيسية لما يعرف ب "عصر الإنترنت" هو الانتشار الواسع للبيانات المتنوعة نوعا وموضوعا. هذا الانتشار بحاجة ملحة إلى نظام آلي لتصنيف هذه البيانات لتسهيل عملية البحث. مثل هذا النظام معمول به بشكل كبير في البيانات النصية المكتوبة ولكن مع ازدياد حجم البيانات النصية المنطوقة (الصوتية) بشكل كبير تظهر الحاجة إلى نظام آلي لتصنيف البيانات النصية المنطوقة بشكل مباشر دون الحاجة لتحويلها لنصوص مكتوبة ومن ثم تطبيق الخوارزميات المتبعة في النصوص المكتوبة. النظام المباشر تم مناقشته بشكل بسيط في الأبحاث السابقة على النصوص المنطوقة باللغة الإنجليزية وبشكل يكاد ينعدم على نظيراتها باللغة العربية نظرا لصعوبة التعامل مع اللغة العربية إضافة لعدم توفر مجموعة بيانات نصية منطوقة باللغة العربية تصلح لعملية التصنيف الموضوعي. هذا البحث يرتكز بشكل رئيسي على إنشاء نظام متكامل ابتداء من استخراج الكلمات المفتاحية آليا لكل صنف على حدا. ولاحقا يتم الاستفادة من هذه الكلمات في نظام تصنيف النص المنطوق بشكل مباشر وذلك اعتمادا على الخصائص الصوتية للكلمة وليس بالطريقة المعتادة عبر تحويله إلى نص مكتوب. تم تحويل النصوص المكتوبة باللغة العربية المستخدمة كثيرا في التصنيف الموضوعي للنصوص المكتوبة (ALJ-NEWS) إلى نصوص منطوقة عبر متحدثين متنوعين للاستفادة منها في هذا البحث. في عملية استخراج الكلمات المفتاحية تم الاعتماد على DTW كطريقة لقياس تكرار الكلمة المنطوقة داخل الصنف عبر مقارنة الخصائص المستخرجة (MFCC) لكل كلمة. في هذا البحث تم الاعتماد على (HMM and DTW) كطرق لتصنيف الكلمة المنطوقة اعتمادا على الخصائص المستخرجة (MFCC and PLP-RASTA) من الكلمة المنطوقة. تم اقتراح آلية جديدة لعمل تقطيع للملف الصوتي إلى كلمات منفصلة في هذا البحث. وبالنظر إلى تقييم الأداء التصنيفي للنظام. تم استخدام معايير عدة: (F1-measure, Accuracy, Precision and Recall). النظام المقترح أعطى نتائج جيدة في عملية التصنيف حيث سجل نظام التصنيف ما متوسطة 90.26% باستخدام DTW و91.36% باستخدام HMM على مقياس F1-measure بالإضافة إلى أن دقة تحديد الكلمات المفتاحية كانت 89.65%.

عناصر مشابهة