ارسل ملاحظاتك

ارسل ملاحظاتك لنا







يجب تسجيل الدخول أولا

An Exploratory Study of the Development of a Speech Corpus Annotated for the Main Arabic Dialects

العنوان بلغة أخرى: تطوير مدونة لغوية كلامية تتضمن معلومات حول لهجات المتحدثين
المصدر: المجلة العربية للعلوم الإنسانية
الناشر: جامعة الكويت - مجلس النشر العلمي
المؤلف الرئيسي: الشرهان، إيمان (مؤلف)
المؤلف الرئيسي (الإنجليزية): Al-Sharhan, Eiman Tawfeeq
مؤلفين آخرين: رامزى، آلان (م. مشارك)
المجلد/العدد: مج38, ع150
محكمة: نعم
الدولة: الكويت
التاريخ الميلادي: 2020
الصفحات: 365 - 386
DOI: 10.34120/0117-038-150-012
ISSN: 1026-9576
رقم MD: 1061414
نوع المحتوى: بحوث ومقالات
اللغة: الإنجليزية
قواعد المعلومات: HumanIndex
مواضيع:
كلمات المؤلف المفتاحية:
قاعدة بيانات | اللهجات العربية | المعالجة الآلية للغة | التعرف الآلى على الكلام العربى
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

19

حفظ في:
المستخلص: تتباين اللهجات العربية فيما بينها تباينا واضحاً على جميع المستويات اللغوية؛ هذا التباين يستدعي مراعاة تصميم نظام خاص بكل لهجة عند بناء أنظمة تعرف آلي على الكلام العربي. يقدم هذا البحث محاولة لتضمين معلومات حول لهجات المتحدثين المشاركين في قاعدة البيانات GALE (phase 3)، التي توفرها الجمعية اللغوية للبيانات (Linguistic Data Consortium LDC)، تتضمن قاعدة البيانات هذه مجموعة من التسجيلات الصوتية تشكل ما يقارب 200 ساعة من برامج نشرات الأخبار وبرامج تحادثية لقنوات عربية، عملية التضمين نتجت من تحديد لهجة ما يقارب 2900 متحدث من المتحدثين الذين أسهموا في قاعدة البيانات الكبيرة هذه، عملية التقييم النهائي لعملية التضمين أكدت تحقيقها لنسبة توافق عالية بين المضمنين؛ ما يزيد من كفاءة المادة اللغوية المقدمة، هذه التضمينات متوافرة على الشبكة للتنزيل كما أنا قد قمنا بإضافة مجموعة من الأدوات الحاسوبية التي تساعد على البحث واستخراج المعلومات من قاعدة البيانات. يشكل هذا البحث المرحلة الأولى لمشروع يهدف إلى تصميم نظام حاسوبي لتعرف اللهجات العربية Dialect identification tool، كما تعتبر المدونة اللغوية المقدمة مصدراً ثريا للباحثين المهتمين في مجال تطوير أنظمة معالجة حاسوبية للغة العربية، يقدم هذا البحث أيضاً دراسة لغوية تبين الفروقات بين اللهجات العربية بحسب تحليل الكلام الوارد في قاعدة البيانات.

Arabic varieties differ substantially in all aspects of linguistics. These differences call for dialect specific modeling when building Arabic automatic speech recognition systems. The paper introduces the development of a multi-dialect annotated corpus of dialectal Arabic with data obtained from Linguistic Data Consortium (LDC). The annotation process is applied to GALE (phase 3) broadcast news and broadcast conversational speech. The annotation process resulted in assigning a dialect label for about 2900 speakers who contributed to this substantial Arabic resource. The final evaluation of the annotations shows that it achieved a substantial level of agreement. The annotations are fully available online for searching and downloading along with a set of access tools to help extract specific information from the database. The researchers’ goal is for this dataset to be used for the development of NLP applications, which pay attention to issues that arise because of the wide range of Arabic accents.

ISSN: 1026-9576

عناصر مشابهة