ارسل ملاحظاتك

ارسل ملاحظاتك لنا









يجب تسجيل الدخول أولا

"مدار": موارد حاسوبية للهجات العربية

العنوان بلغة أخرى: "MADAR": Multi-Arabic Dialect Applications and Resources
المصدر: مجلة اللغويات الحاسوبية والمعالجة الآلية للغة العربية
الناشر: مجمع الملك سلمان العالمي للغة العربية
المؤلف الرئيسي: بوعمر، هدى (مؤلف)
المؤلف الرئيسي (الإنجليزية): Bouamor, Houda
مؤلفين آخرين: حبش، نزار (م. مشارك) , خليفة، سلام (م. مشارك) , الإرياني، فضل (م. مشارك)
المجلد/العدد: مج1, ع2
محكمة: نعم
الدولة: السعودية
التاريخ الميلادي: 2024
التاريخ الهجري: 1446
الشهر: أكتوبر
الصفحات: 110 - 133
DOI: 10.60161/2521-001-002-005
ISSN: 1658-9483
رقم MD: 1520296
نوع المحتوى: بحوث ومقالات
اللغة: العربية
قواعد المعلومات: AraBase, Open
مواضيع:
كلمات المؤلف المفتاحية:
اللهجات العربية | معالجة اللغة الطبيعية | مكنز مدار | معجم مدار للهجات | Arabic Dialects | Natural Language Processing | Madar Corpus | Madar Lexicon
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

5

حفظ في:
المستخلص: تقدم هذه الورقة البحثية نتائج مشروع (مدار) الذي عمد إلى بناء أسس علمية لتحديد وتنظيم أساليب التعامل مع الاختلافات اللغوية بين العربية الفصحى ولهجاتها، وتطوير موارد وتطبيقات متخصصة لمعالجتها. الميزة الأساسية في هذا المشروع هي التركيز غير المسبوق على عدد كبير من المدن العربية، ٢٥ مدينة من المحيط إلى الخليج. نركز في هذه الورقة على أربعة مواد نجح المشروع في تطويرها: أ-مكنز مدار للسفر: ويحتوي على ١٤۰,۰۰۰ جملة من لهجات ٢٥ مدينة، مقترنة بترجمات بالفصحى والإنجليزية والفرنسية. ب-معجم مدار: ويحتوي على أكثر من ٤٧,٠٠٠ مدخلا من لهجات المدن الـ ٢٥. ج-مكنز مدار تويتر: ويضم قرابة 3٠٠,٠٠٠ تغريدة من ۲٫۹۸۰ مستخدما، مع تصنيف لهجاتهم يدويا. د-مكنز مدار كودا: الذي يثري جزءا من مكنز مدار بتصحيح إملائي على نهج كودا، كتابة واحدة للدارجة.

This paper presents the results of the MADAR project, which aims to build scientific foundations for managing linguistic differences between Modern Standard Arabic (MSA) and its dialects, while developing specialized resources and applications. A key feature is its focus on 25 Arab cities, from the Maghrib to the Gulf. The project successfully developed: (a) the MADAR Corpus, with 140K dialectal sentences and translations in MSA, English, and French; (b) the MADAR Lexicon, with 47K dialectal entries; (c) the MADAR Twitter Corpus, containing nearly 300K tweets from 3K users; and (d) the MADAR CODA Corpus, which provides spelling corrections for dialectal Arabic.

ISSN: 1658-9483

عناصر مشابهة