العنوان بلغة أخرى: |
Semantic Similarity between Arabic Sentences through BERT Electronic Technology: A Computational Evaluation Study |
---|---|
المصدر: | مجلة جامعة مصر للدراسات الإنسانية |
الناشر: | جامعة مصر للعلوم والتكنولوجيا |
المؤلف الرئيسي: | حامد، محمد مجدي لبيب (مؤلف) |
المجلد/العدد: | مج4, ع1 |
محكمة: | نعم |
الدولة: |
مصر |
التاريخ الميلادي: |
2024
|
الشهر: | يناير |
الصفحات: | 155 - 194 |
ISSN: |
2735-5861 |
رقم MD: | 1444576 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | HumanIndex |
مواضيع: | |
كلمات المؤلف المفتاحية: |
التشابه الدلالي بين النصوص | معالجة اللغات الطبيعية | المدونات اللغوية | الترجمة الآلية | Bert | Semantic Text Similarity | Natural Language Processing | Linguistic Corpora | Machine Translation
|
رابط المحتوى: |
المستخلص: |
يهدف البحث إلى تقييم وتقويم أداة قياس تشابه الجمل (Sentence similarity) الملحقة بـ (BERT) المعدة من (Google)، التي يعتمد عليها بشكل كبير في البحوث المهتمة بمعالجة اللغات الطبيعية، خاصة في تحسين مخرجات الترجمة الآلية، وذلك من خلال تتبع دقة مخرجاتها ودراسة تلك المخرجات، ثم ترجمة النتائج إلى إحصاءات توضح مدى دقة تعامل هذه الأداة المهمة مع اللغة. وللوصول للهدف المنشود من البحث، تم الاعتماد على مدونة متوازية بين اللغة العربية واللغة الإنجليزية، ثم ترجمة عينة عشوائية من المدونة باللغة الإنجليزية على (Google Translate)، ثم محاذاة نتائج الترجمة مع المدونة باللغة العربية، ثم إدخال أزواج الجمل المتحاذية (Patterns) باللغة العربية إلى (BERT)؛ لقياس مدى التشابه الدلالي بينها من خلال الأداة (Sentence similarity). وأمكن البحث من خلال التطبيق العملي وتحليل مخرجات (BERT)، التوصل إلى مواضع الخلل التي تعيق عمل الأداة مع اللغة العربية، مقارنا تلك النتائج بتعامل الأداة نفسها مع اللغة الإنجليزية، وكانت النتيجة في صالح اللغة الإنجليزية؛ حيث بلغت نسبة كفاءة الأداة معها حوالي (65%)، في مقابل (40 %) مع اللغة العربية. وقد وضع البحث مقترحاً يسهم إلى تحسين مخرجات تعامل (BERT) مع اللغة العربية، مستندًا في ذلك على نتائج تحليل عينة الدراسة، والوقوف على أبرز الأخطاء التي لم تستطع الأداة تخطيها، مما قلل من كفاءتها. This research aims to evaluate and calibrate the sentence similarity measurement tool associated with BERT (developed by Google), which is heavily relied upon in research concerning natural language processing, particularly in enhancing the outputs of machine translation. This is achieved by tracking the accuracy of its outputs and studying these outputs, then translating the results into statistics that illustrate the accuracy of this essential tool's handling of the language. To achieve the desired research objective, a parallel corpus between Arabic and English was used. A random sample from the corpus in English was translated using Google Translate, followed by aligning the translation results with the Arabic corpus. Then, pairs of aligned sentences (Patterns) in Arabic were fed into BERT to measure the semantic similarity between them through the Sentence similarity tool. Through practical application and analysis of BERT's outputs, the research identified the shortcomings that hinder the tool's performance with the Arabic language, comparing these results with the tool's performance in English. The outcome was in favor of the English language, where the tool's efficiency with it was about 65%, compared to 40% with Arabic. The research proposed a solution that contributes to improving BERT's outputs with the Arabic language. This was based on the results of analyzing the study sample and identifying the most significant errors that the tool could not overcome, which reduced its efficiency. |
---|---|
ISSN: |
2735-5861 |