العنوان بلغة أخرى: |
التعرف على الكلام العربي على أساس المقطع باستخدام Wav2Vec |
---|---|
المصدر: | مجلة اللغويات الحاسوبية والمعالجة الآلية للغة العربية |
الناشر: | مجمع الملك سلمان العالمي للغة العربية |
المؤلف الرئيسي: | عبدالعال، إبراهيم (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | Abdalaal, Ibrahim |
مؤلفين آخرين: | الشافعي، مصطفى (م. مشارك) , عبدالواحد، محمد (م. مشارك) |
المجلد/العدد: | مج1, ع1 |
محكمة: | نعم |
الدولة: |
السعودية |
التاريخ الميلادي: |
2024
|
التاريخ الهجري: | 1445 |
الشهر: | أبريل |
الصفحات: | 91 - 109 |
DOI: |
10.60161/2521-001-001-006 |
ISSN: |
1658-9483 |
رقم MD: | 1454848 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | الإنجليزية |
قواعد المعلومات: | Open, AraBase |
مواضيع: | |
كلمات المؤلف المفتاحية: |
نموذج لغة | المقاطع الصوتية | قواعد النطق | Wav2Vec | WER | Language Model | Syllables | Pronunciation Rules
|
رابط المحتوى: |
PDF (صورة)
[مفتوح]
|
المستخلص: |
تقدم هذه الورقة طريقة مبتكرة للتعرف على الكلام العربي، بالاستفادة من الخصائص الفريدة للمقاطع الصوتية العربية، ونموذج لغة ٥ جرام، بالإضافة إلى نموذج Wav2Vec-2 الحديث. تبدأ الطريقة بتقسيم الكلام العربي إلى مقاطع صوتية يتم تكوينها برمجيا باستعمال قواعد نطق اللغة العربية، وتتميز بقدرتها على وصف التفاصيل الصوتية الدقيقة. ولزيادة تحسين الدقة، تم استخدام نموذج لغوي 5 جرام للمقاطع الصوتية والذي يأخذ في الاعتبار الظواهر اللغوية المتأصلة في اللغة العربية، بما في ذلك الاختلافات الكبيرة على مستوى الكلمات والتبعيات السياقية. كما تم استعمال نموذج Wav2Vec كنموذج صوتي، وهو معروف بتمثيلاته الصوتية القوية التي تم تعلمها من خلال التدريب المسبق غير الخاضع للإشراف على كميات كبيرة من بيانات الكلام غير المسماة. وتم ضبط النموذج بدقة على مجموعة بيانات أصغر، مما عزز قدرته على التعرف على الكلام العربي. قد حقق هذا المزيج الجديد من التقنيات معدل خطأ في الكلمات بلغ ٠,٠٦٦ مع تشكيل النص، و٠,٠٥٩٦ بدون تشكيل النص، مما يدل على فعالية هذا النهج. This paper introduces an innovative Arabic speech recognition method that relies on Arabic syllables, a 5-gram language model, and the Wav2Vec-2 architecture. It starts by segmenting Arabic speech into syllables, improving accuracy by handling the language›s complexity. The method is rigorously evaluated, showing a significant boost in system performance. To enhance accuracy further, a 5-gram language model is used to address linguistic nuances. The Wav2Vec-2 architecture, known for its robust acoustic representations, is employed as the acoustic model. Fine-tuning on a smaller labelled dataset improves Arabic speech recognition, making it resilient to pronunciation variations and noise. This unique combination yields impressive Word Error Rates (WER) of 0.06624 with Tashkeel and 0.05959 without Tashkeel, demonstrating its effectiveness. |
---|---|
ISSN: |
1658-9483 |