العنوان بلغة أخرى: |
Toxicity Detection of Arabic Generative Models in Search and Recommendation Systems |
---|---|
المصدر: | مجلة اللغويات الحاسوبية والمعالجة الآلية للغة العربية |
الناشر: | مجمع الملك سلمان العالمي للغة العربية |
المؤلف الرئيسي: | حراق، فوزي (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | Harrag, Fouzi |
المجلد/العدد: | مج1, ع2 |
محكمة: | نعم |
الدولة: |
السعودية |
التاريخ الميلادي: |
2024
|
التاريخ الهجري: | 1446 |
الشهر: | أكتوبر |
الصفحات: | 12 - 38 |
DOI: |
10.60161/2521-001-002-001 |
ISSN: |
1658-9483 |
رقم MD: | 1520215 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | AraBase, Open |
مواضيع: | |
كلمات المؤلف المفتاحية: |
الكشف عن السمية | نماذج التوليد العربية | المحولات | فهم اللغة الطبيعية العربية "NLU" | البحث | أنظمة التوصية | Toxicity Detection | Arabic Generative Models | Transformers | Arabic Natural Language Understanding (NLU) | Search | Recommendation Systems
|
رابط المحتوى: |
PDF (صورة)
[مفتوح]
|
المستخلص: |
بعد التدريب المسبق لنماذج اللغات الكبيرة على كميات هائلة من النصوص المحذوفة على الويب هو الاتجاه الحالي في معالجة اللغة الطبيعية. وفي حين أن النماذج الناتجة قادرة على توليد نص مقنع، فإنها تنتج أيضا إشكاليات اجتماعية ضارة ومن أهمها التحيز وسمية النصوص. يستكشف هذا البحث التعبيرات الدالة على السمية في توليد النص العربي. ستجرى التحليلات على العينات التي ينتجها النموذج التوليدي AraGPT2، وسيستخدم مصنف لاستكشاف سمية النص العربي (Toxicity Classifier) استنادا إلى نموذج المحول الجديد Ara-BERT لالتقاط سمية الجملة أو النص المنشأ باللغة العربية من أجل تطوير هذا المصنف، ستجمع مجموعة البيانات من مصادر جماعية وتنظف ويجري توسيمها بشكل مستقل، سيستخدم AraGPT2 لإنشاء أوصاف أكثر سمية من المطالبات القياسية. سيعتمد نموذج كشف السمية (TDM) الخاص بنا على مزيج من نموذجي المحولات (AraGPT-AraBERT). لقد حقق نموذجنا المقترح نتائج مشجعة للغاية حيث وصل إلى نسبة دقة بلغت ۸۱%. Pre-training large language models on vast amounts of web-scraped texts is a current trend in natural language processing. While the resulting models are capable of generating convincing text, they also reproduce harmful social issues such as bias and toxicity. This paper explores expressions of toxicity in Arabic text generation. Analyses will be performed on samples produced by the generative model AraGPT2 (a GPT-2 fine-tuned for Arabic). An Arabic Toxicity Classifier (ATC) based on new transformer model AraBERT (a BERT fine-tuned for Arabic) will be used to captures the toxicity of an Arabic-generated sentence or text. For the development of this classifier, a dataset will be crowd-sourced, cleaned, and independently annotated. AraGPT2 will be used to generate more toxic descriptions from the standard prompts. Our Toxicity Detection Model (TDM) will be based on the combination of the two transformers (AraGPT2-AraBERT) models. Our proposed model has achieved very encouraging results by reaching an accuracy percentage of 81%. |
---|---|
ISSN: |
1658-9483 |