ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Characteristics of Written Kuwaiti Arabic and their Use in Creating Resources for Morphological Analysis

العنوان بلغة أخرى: خصائص اللهجة الكويتية المكتوبة واستخدامها في إنشاء موارد للتحليل الصرفي الآلي
المصدر: المجلة العربية للعلوم الإنسانية
الناشر: جامعة الكويت - مجلس النشر العلمي
المؤلف الرئيسي: العتيبي، بشاير عبدالله (مؤلف)
المؤلف الرئيسي (الإنجليزية): Alotaibi, Bashayer Abdullah
مؤلفين آخرين: الشرهان، إيمان توفيق (م. مشارك)
المجلد/العدد: مج42, ع166
محكمة: نعم
الدولة: الكويت
التاريخ الميلادي: 2024
الشهر: ربيع
الصفحات: 275 - 301
DOI: 10.34120/0117-042-166-009
ISSN: 1026-9576
رقم MD: 1457667
نوع المحتوى: بحوث ومقالات
اللغة: الإنجليزية
قواعد المعلومات: HumanIndex
مواضيع:
كلمات المؤلف المفتاحية:
العربية المكتوبة | المحلل الصرفي | المعالجة الآلية للغة الطبيعية | التواصل الاجتماعي | الكتابة الصوتية | معايير الكتابة | Written Arabic | Morphological Analyzer | NLP | Social Media | Phonemic Writing | Written Convention
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

4

حفظ في:
المستخلص: إن اللهجة الكويتية كبقية لهجات العربية لهجة متداولة شفهيا، ولا تمتلك معايير مكتوبة موحدة على خلاف اللغة العربية الفصحى. وبعد ظهور منصات التواصل الاجتماعي وانتشارها وجدت اللهجات طريقها إلى الوسائط المكتوبة، وبرزت الحاجة لمعالجتها آليا جنبا إلى جنب مع اللغة العربية الفصحى. ولعل أبرز مشكلة واجهت المعالجات الآلية أن اللهجات لا تتمتع بمعايير كتابية ثابتة كالفصحى، وعادة ما يتبع الكتاب باللهجة نظام الكتابة الصوتية؛ أي كتابة الكلمات كما تنطق، مما فتح المجال لوجود تباين في كتابة اللهجة الواحدة وبين اللهجات والفصحى. ولعل أهم المتطلبات التي تحتاجها المعالجات الآلية لمعالجة اللغة الطبيعية هي وجود معايير كتابية واضحة للغة أو اللهجة المراد معالجتها وتحليلها، وقد توالت الجهود لضبط معايير كتابة اللهجات العربية، إلا أن اللهجة الكويتية لم تلق الاهتمام المطلوب. ويقدم البحث الحالي حلا عمليا لمعالجة اللهجة الكويتية المكتوبة آليا، فقد تضمنت الدراسة تحديد واستخراج أهم معايير اللهجة الكويتية المكتوبة من بيانات طبيعية جمعت من تغريدات مغردين كويتيين في تويتر بوصفها نموذجا من الاستخدام الحقيقي والطبيعي للهجة المكتوبة تجاوزت مئة ألف تغريدة، ثم تعزيز المحلل الصرفي ((MADAMIRA- وهو محلل صر في مخصص للغة العربية الفصحى- بهذه المعايير المستخلصة للهجة الكويتية. كما تضمن العمل إثراء المحلل الصرفي بقاموس من المصطلحات والمفردات الكويتية التي جمعت من موسوعة اللهجة الكويتية، ومن أكثر الكلمات الكويتية شيوعا في تويتر؛ حتى يتعرف المحلل الآلي على هذه المفردات ويحللها تحليلا سليما. وتعد النسخة الموسعة من المحلل الصرفي (MADAMIRA-KA) الأولى من نوعها المخصصة كليا لمعالجة اللهجة الكويتية، وقد حققت أداء متميزا في تحليل أكثر من مئة ألف تغريدة كويتية بنجاح. وتكمن أهمية هذه الدراسة في توفير هذا المعالج الصرفي الذي يمكن استخدامه في برامج الترجمة الآلية، والتعرف الآلي على اللهجات، والاستقراء الآلي للرأي والانطباعات.

Kuwaiti Arabic (KA), like other Arabic dialects, is a spoken variety of Arabic that does not have a standardized written convention contrary to Modern Standard Arabic (MSA). With the emergence and spread of social media platforms, Arabic dialects have found their way into the written medium, and hence a need arose to process them alongside MSA. The biggest challenge facing NLP tools is that dialects do not have consistent written conventions contrary to MSA, and writers expressing their dialects usually follow a phonet- ic writing system, or they write words as they pronounce them. This has opened the door for variations within the same dialect and between dialects and MSA. Furthermore, a pre- requisite for analysing any language or dialect is the presence of clear written conventions. Therefore, efforts have been made to establish written conventions for Arabic dialects, but the Kuwaiti dialect has not received the required attention. The current study offers a prac- tical solution for processing written KA. It identified and extracted the written conventions of KA from natural data collected from over 100K Kuwaiti tweets since they represent a good model of natural language. The morphological analyzer (MADAMIRA)- which is de- signed to process MSA- was enhanced with the extracted criteria. Furthermore, the study involved enriching the analyzer with a dictionary of Kuwaiti terms and vocabulary 'lemmas' collected from the Encyclopaedia of Kuwaiti Arabic and from the most used Kuwaiti words on Twitter (currently X). Providing the analyzer with this dictionary of KA words helps it process KA more accurately. The expanded version of the analyzer (MADAMIRA-KA) is the first of its kind designed entirely to process the Kuwaiti dialect and has achieved excellent performance in analyzing over 100K Kuwaiti tweets successfully. The importance of this study lies in developing such a morphological analyzer, which can be used for automated translation, dialect recognition and sentiment analysis.

ISSN: 1026-9576

عناصر مشابهة