العنوان بلغة أخرى: |
"MADAR": Multi-Arabic Dialect Applications and Resources |
---|---|
المصدر: | مجلة اللغويات الحاسوبية والمعالجة الآلية للغة العربية |
الناشر: | مجمع الملك سلمان العالمي للغة العربية |
المؤلف الرئيسي: | بوعمر، هدى (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | Bouamor, Houda |
مؤلفين آخرين: | حبش، نزار (م. مشارك) , خليفة، سلام (م. مشارك) , الإرياني، فضل (م. مشارك) |
المجلد/العدد: | مج1, ع2 |
محكمة: | نعم |
الدولة: |
السعودية |
التاريخ الميلادي: |
2024
|
التاريخ الهجري: | 1446 |
الشهر: | أكتوبر |
الصفحات: | 110 - 133 |
DOI: |
10.60161/2521-001-002-005 |
ISSN: |
1658-9483 |
رقم MD: | 1520296 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | AraBase, Open |
مواضيع: | |
كلمات المؤلف المفتاحية: |
اللهجات العربية | معالجة اللغة الطبيعية | مكنز مدار | معجم مدار للهجات | Arabic Dialects | Natural Language Processing | Madar Corpus | Madar Lexicon
|
رابط المحتوى: |
PDF (صورة)
[مفتوح]
|
المستخلص: |
تقدم هذه الورقة البحثية نتائج مشروع (مدار) الذي عمد إلى بناء أسس علمية لتحديد وتنظيم أساليب التعامل مع الاختلافات اللغوية بين العربية الفصحى ولهجاتها، وتطوير موارد وتطبيقات متخصصة لمعالجتها. الميزة الأساسية في هذا المشروع هي التركيز غير المسبوق على عدد كبير من المدن العربية، ٢٥ مدينة من المحيط إلى الخليج. نركز في هذه الورقة على أربعة مواد نجح المشروع في تطويرها: أ-مكنز مدار للسفر: ويحتوي على ١٤۰,۰۰۰ جملة من لهجات ٢٥ مدينة، مقترنة بترجمات بالفصحى والإنجليزية والفرنسية. ب-معجم مدار: ويحتوي على أكثر من ٤٧,٠٠٠ مدخلا من لهجات المدن الـ ٢٥. ج-مكنز مدار تويتر: ويضم قرابة 3٠٠,٠٠٠ تغريدة من ۲٫۹۸۰ مستخدما، مع تصنيف لهجاتهم يدويا. د-مكنز مدار كودا: الذي يثري جزءا من مكنز مدار بتصحيح إملائي على نهج كودا، كتابة واحدة للدارجة. This paper presents the results of the MADAR project, which aims to build scientific foundations for managing linguistic differences between Modern Standard Arabic (MSA) and its dialects, while developing specialized resources and applications. A key feature is its focus on 25 Arab cities, from the Maghrib to the Gulf. The project successfully developed: (a) the MADAR Corpus, with 140K dialectal sentences and translations in MSA, English, and French; (b) the MADAR Lexicon, with 47K dialectal entries; (c) the MADAR Twitter Corpus, containing nearly 300K tweets from 3K users; and (d) the MADAR CODA Corpus, which provides spelling corrections for dialectal Arabic. |
---|---|
ISSN: |
1658-9483 |