ارسل ملاحظاتك

ارسل ملاحظاتك لنا







تقييم طرق التعرف الموضوعي للنصوص العربية والترابط بينها باستعمال مدونة مستخرجة من جريدة الوطن العمانية

العنوان بلغة أخرى: Evaluation of Topic Identification Methods for Arabic Texts and Their Combination by Using A Corpus Extracted from the Omani Newspaper Alwatan
المصدر: مجلة الخليج العربي للبحوث العلمية
الناشر: جامعة الخليج العربي
المؤلف الرئيسي: عباس، مراد (مؤلف)
مؤلفين آخرين: سماعيلي، كمال (م. مشارك), بركاني، داود (م. مشارك)
المجلد/العدد: مج 29, ع 3,4
محكمة: نعم
الدولة: البحرين
التاريخ الميلادي: 2011
الشهر: سبتمبر / ديسمبر
الصفحات: 183 - 191
ISSN: 1985-9899
رقم MD: 510456
نوع المحتوى: بحوث ومقالات
قواعد المعلومات: EduSearch, science
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون
حفظ في:
المستخلص: يستعمل التعرف الموضوعي في تطبيقات عديدة، منها التعرف الآلي على الكلام، الترجمة الآلية ومحركات البحث. ويقصد بالتعرف الموضوعي، إيجاد الموضوع أو مجموعة المواضيع التي تعالج نصا معينا. يتبلور محور هذه الدراسة حول التعرف الموضوعي للخوص المربية. للبدء في هذا العمل. قمنا بجمع عدد من النصوص من الموقع الإلكتروني للجريدة العمانية الوطن، والهدف من ذلك هو إنشاء مدونة عربية تمكننا من إجراء تجارب تقييم الطرق والخوارزميات المستعملة. إن بعض الطرق التي تم عرضها في هذا المقال معروفة في ميدان تصنيف النصوص والتي استعملت لمعالجة اللغات اللاتينية مثل خوارزمية الجار الأقرب "خ.ج.أ" و (TF-IDF) (تردد اللفظة. عكس تردد الوثيقة)، وحديثا اقترحنا طريقة جديدة تدعى مصنف الزناد، تعتمد على حساب الزنادات أو المعلومة المتبادلة المتوسطة لكل زوج من الكلمات. للحصول على نتائج أفضل، قمنا بعملية الترابط بين مختلف الطرق المستعملة. وقد استعملنا لهذا الغرض ثلاث طرق هي على التوالي؛ تصويت الأغلبية٠ تصويت الأغلبية المحسن والترابط الخطي.

Topic identification is used in several applications, as adapting language models for speech recognition and machine translation, focusing on a specific use for search engines, etc. Topic identification consists to assign one or several topic labels to a flow of textual data. Labels are chosen from a set of topics fixed a priori. In this paper, we present a study about identifying topics of Arabic texts. For this, a considerable amount of data is needed. Thus, we started by collecting texts from the website of the Omani newspaper “Alwatan”. The result is an Arabic corpus composed of more than 9000 articles corresponding to nearly 10 millions words. The considered topics in our experiments are: Culture, Religion, Economy, Local news, International news and sports. Some of the methods presented in this study, are well known in the text categorization community, as TFIDF classifier and kNN “k Nearest Neighbors”. The objective to use these methods is to compare them to TR-classifier “TRiggers-based classifier”, a new method that we have proposed, which is based on computing triggers or the Average Mutual Information of each couple of words. In order to enhance performances, we have combined results of the three methods by using three approaches: Majority Vote, Enhanced Majority Vote and Linear Combination.

ISSN: 1985-9899