ارسل ملاحظاتك

ارسل ملاحظاتك لنا









Syllable-Based Arabic Speech Recognition Using Wav2Vec

العنوان بلغة أخرى: التعرف على الكلام العربي على أساس المقطع باستخدام Wav2Vec
المصدر: مجلة اللغويات الحاسوبية والمعالجة الآلية للغة العربية
الناشر: مجمع الملك سلمان العالمي للغة العربية
المؤلف الرئيسي: عبدالعال، إبراهيم (مؤلف)
المؤلف الرئيسي (الإنجليزية): Abdalaal, Ibrahim
مؤلفين آخرين: الشافعي، مصطفى (م. مشارك) , عبدالواحد، محمد (م. مشارك)
المجلد/العدد: مج1, ع1
محكمة: نعم
الدولة: السعودية
التاريخ الميلادي: 2024
التاريخ الهجري: 1445
الشهر: أبريل
الصفحات: 91 - 109
DOI: 10.60161/2521-001-001-006
ISSN: 1658-9483
رقم MD: 1454848
نوع المحتوى: بحوث ومقالات
اللغة: الإنجليزية
قواعد المعلومات: Open, AraBase
مواضيع:
كلمات المؤلف المفتاحية:
نموذج لغة | المقاطع الصوتية | قواعد النطق | Wav2Vec | WER | Language Model | Syllables | Pronunciation Rules
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

1

حفظ في:
المستخلص: تقدم هذه الورقة طريقة مبتكرة للتعرف على الكلام العربي، بالاستفادة من الخصائص الفريدة للمقاطع الصوتية العربية، ونموذج لغة ٥ جرام، بالإضافة إلى نموذج Wav2Vec-2 الحديث. تبدأ الطريقة بتقسيم الكلام العربي إلى مقاطع صوتية يتم تكوينها برمجيا باستعمال قواعد نطق اللغة العربية، وتتميز بقدرتها على وصف التفاصيل الصوتية الدقيقة. ولزيادة تحسين الدقة، تم استخدام نموذج لغوي 5 جرام للمقاطع الصوتية والذي يأخذ في الاعتبار الظواهر اللغوية المتأصلة في اللغة العربية، بما في ذلك الاختلافات الكبيرة على مستوى الكلمات والتبعيات السياقية. كما تم استعمال نموذج Wav2Vec كنموذج صوتي، وهو معروف بتمثيلاته الصوتية القوية التي تم تعلمها من خلال التدريب المسبق غير الخاضع للإشراف على كميات كبيرة من بيانات الكلام غير المسماة. وتم ضبط النموذج بدقة على مجموعة بيانات أصغر، مما عزز قدرته على التعرف على الكلام العربي. قد حقق هذا المزيج الجديد من التقنيات معدل خطأ في الكلمات بلغ ٠,٠٦٦ مع تشكيل النص، و٠,٠٥٩٦ بدون تشكيل النص، مما يدل على فعالية هذا النهج.

This paper introduces an innovative Arabic speech recognition method that relies on Arabic syllables, a 5-gram language model, and the Wav2Vec-2 architecture. It starts by segmenting Arabic speech into syllables, improving accuracy by handling the language›s complexity. The method is rigorously evaluated, showing a significant boost in system performance. To enhance accuracy further, a 5-gram language model is used to address linguistic nuances. The Wav2Vec-2 architecture, known for its robust acoustic representations, is employed as the acoustic model. Fine-tuning on a smaller labelled dataset improves Arabic speech recognition, making it resilient to pronunciation variations and noise. This unique combination yields impressive Word Error Rates (WER) of 0.06624 with Tashkeel and 0.05959 without Tashkeel, demonstrating its effectiveness.

ISSN: 1658-9483

عناصر مشابهة