ارسل ملاحظاتك

ارسل ملاحظاتك لنا







وسم كلمات اللغة العربية باستخدام نظام ستانفورد: حروف الجر نموذجا

العنوان بلغة أخرى: Arabic Part of Speech Tagging by Using the Stanford System: Prepositions as a Case Study
المصدر: مجلة جامعة النجاح للأبحاث - العلوم الإنسانية
الناشر: جامعة النجاح الوطنية
المؤلف الرئيسي: أبو زينة، ضياء الدين (مؤلف)
المؤلف الرئيسي (الإنجليزية): Abu Zeina, Dia Eddin
مؤلفين آخرين: التميمي، تقي الدين مصطفى محمد عبدالباسط (م. مشارك)
المجلد/العدد: مج35, ع5
محكمة: نعم
الدولة: فلسطين
التاريخ الميلادي: 2021
الصفحات: 743 - 768
DOI: 10.35552/0247-035-005-003
ISSN: 1727-8449
رقم MD: 1159232
نوع المحتوى: بحوث ومقالات
اللغة: العربية
قواعد المعلومات: HumanIndex
مواضيع:
كلمات المؤلف المفتاحية:
معالجة اللغات الطبيعية | اللغة العربية | أقسام الكلام | وسم حروف الجر | الصيغ الصرفية | مدونة القرآن الكريم | Natural Language Processing "NLP" | Arabic | Part of Speech | Tagging | Prepositions | Syntactic Category | Holy Quran Data Set
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

15

حفظ في:
المستخلص: تتناول هذه الدراسة مسألة وسم الكلمات (تحديدا حروف الجر) في النصوص العربية المكتوبة وهو ما يعرف بـــ Arabic part of speech tagging)). تحتوي اللغة العربية على عدد محدد من مجموعات الحروف (particles)، مثل: حروف الجر، وحروف الجزم، وحروف النصب، إلخ. وتؤدي كل مجموعة دوراً معينا في السياق الذي ترد فيه. بشكل عام، فإن الوسم هو عملية تحديد الصيغة الصرفية لكل كلمة سواء كانت اسما، أو فعلاً، أو حرفا بأنواعها المختلفة وذلك بالاعتماد على السياق الذي ترد فيه. يفيد وسم النصوص في كثير من تطبيقات معالجة اللغات الطبيعية، إذ يستخدم بشكل رئيسي في تحليل النصوص (syntactic parsing) للتحقق من صحة الجملة وتوافقها مع قواعد اللغة، وكذلك يستخدم لتحليل النص لفهم المعنى المطلوب لاستخدامه في محركات البحث search engines)). تشمل تطبيقات معالجة اللغات أيضا الترجمة الآلية (machine translation)، تأليف الكلام(speech synthesis) ، التعرف على الكلامspeech recognition) )، التشكيل الآلي (diacritization) وغيرها. وبذلك فإن جودة الأداء في كثير من التطبيقات اللغوية تعتمد على دقة مخرجات نظام الوسم المستخدم، فكانت هذه الدراسة التي تشير إلى نظام ستانفورد (Stanford tagger) لوسم النصوص العربية وذلك بهدف تحديد أقسام الكلام المستخدمة في النص موضع الفحص (مجموعة الصيغ الصرفية) وكذلك تهدف الدراسة إلى التعرف على أداء نظام ستانفورد عند وسم حروف الجر في اللغة العربية. تناقش هذه الدراسة كذلك جوانب الضعف في نظام ستانفورد؛ فقد توصل الباحثان إلى أن هذا النظام لا يعالج مسألة الاقتران كأن يقترن حرف الجر بالكلمة، مثل (بِـــــ) و (لِـــــ)، وكذلك فإنه يعطي وسما مشتركاً لحروف مختلفة من حيث الوظائف اللغوية كالجزم والاستفهام، فعبر دراستنا الاستقرائية لحروف الجر لم نلحظ خلافا في وسمها، مثل: إلى، في. ويصعب تمييز الحروف الأخرى إلا عبر السياق مثل: حتى، عدا؛ مما يشير إلى عدم الدقة في هذا الوسم والحاجة إلى تطويره لمواكبة الأنظمة المرتبطة بعملية الوسم؛ وهنا تأتي أهمية هذا البحث. تم استخدام مدونة القرآن الكريم للتعرف على أداء نظام ستانفورد عند وسم حروف الجر الواردة في القرآن الكريم. وبشكل عام فإن نتائج هذه الدراسة تدعو إلى مزيد من البحث والتمحيص في مسألة وسم الحروف الأخرى في العربية بهدف دراسة مدى توافق رموز الوسم المستخدمة في نظام ستانفورد مع الحروف المستخدمة في اللغة بشكل عام.

This paper discusses part of speech (PoS) tagging for Arabic prepositions. Arabic has a number of predefined sets of particles such as particles of Nasb, particles of Jazm, particles of Jarr (also called prepositions), etc. Each set has a particular role in the context in which it appears. In general, PoS is the process of assigning a tag for each word (e.g. name, verb, particle, etc.) based on the context. In fact, PoS is a beneficial tool for many natural language processing (NLP) toolkits. For instance, it is used in syntactic parsing to validate the grammar of the sentence in question. It is also beneficial to understand the required meaning via textual analysis for further processing in search engines. Many other language-processing applications utilize PoS such as machine translation, speech synthesis, speech recognition, diacritization, etc. Hence, the performance quality of many NLP applications depends on the accuracy of outputs of the used tagging system. Hence, this study examines the Stanford tagger to explore its tag set in the text under examination and its performance for tagging Arabic prepositions. This study also discusses the weaknesses of the Stanford tagger, as it does not handle the merging case when a preposition joins with an adjacent word to form one single word. Another concern of the Stanford tagger is that it gives a unique tag for different particles such as Jarr and Jazm in terms of linguistic functions. Through our inductive study of prepositions in terms of linguistic functions such as Jazm and Istifham (interrogation), we did not note differences in tagging prepositions like “to” ((إلى and “in” (في). Other prepositions are also difficult to distinguish unless they are contextualized; these include “until” (حتى) and “except” (عدا). This shows that this tagging system is inaccurate and the need for keeping up with tagging-related systems is vital, hence is the significance of our research. In this work, we used the Holy Quran to identify the performance of the Stanford System in tagging prepositions in the Quran. This work encourages more research on tagging other Arabic prepositions to explore the compatibility of tagging symbols employed in the Stanford System and prepositions used in the Arabic language, in general.

ISSN: 1727-8449

عناصر مشابهة