أداء النماذج اللغوية الضخمة في الحوارات الفكرية: دراسة تطبيقية
| العنوان بلغة أخرى: |
Large Language Models in Intellectual Discourse: An Empirical Evaluation of Performance |
|---|---|
| المصدر: | مجلة العلوم الهندسية وتكنولوجيا المعلومات |
| الناشر: | المركز القومي للبحوث |
| المؤلف الرئيسي: | البصري، عبدالناصر (مؤلف) |
| المؤلف الرئيسي (الإنجليزية): | Elbasri, Abdennacer |
| المجلد/العدد: | مج9, ع2 |
| محكمة: | نعم |
| الدولة: |
فلسطين |
| التاريخ الميلادي: |
2025
|
| الشهر: | يونيو |
| الصفحات: | 26 - 41 |
| ISSN: |
2522-3321 |
| رقم MD: | 1583981 |
| نوع المحتوى: | بحوث ومقالات |
| اللغة: | العربية |
| قواعد المعلومات: | HumanIndex |
| مواضيع: | |
| كلمات المؤلف المفتاحية: |
النماذج اللغوية الضخمة | الحوارات الفكرية | استمرارية السياق | استدلال منطقي | تقييم أداء النماذج | Large Language Models | Intellectual Dialogues | Context Retention | Logical Reasoning | Model Performance Evaluation
|
| رابط المحتوى: |
| المستخلص: |
شهدت النماذج اللغوية الضخمة طفرة نوعية مكنتها من توليد نصوص طويلة مترابطة وفهم متقدم للسياق والاستدلال، غير أن كفاءتها في إدارة الحوارات الفكرية العميقة ما تزال متفاوتة. تسعى هذه الدراسة إلى مقارنة أداء 24 نموذجا، مفتوحة ومغلقة المصدر (يُعد كل إصدار فرعي نموذجًا مستقلًا)، من بينها النماذج المغلقة "جي بي تي-4"، "جيميناي 2"، و"فنار"، إضافة إلى إصدارات مفتوحة مثل "ديبسيك آر 1"، "لاما"، "جيما"، "ميسترال"، و«"بي إتش آي-4". اعتمد التقييم على أكثر من 500 ألف تبادل (تعليقات، تعقيبات، اقتباسات) داخل نحو 30 ألف منشور في منصة "فكران"، حيث أنتجت النماذج ≈ 99% من المحتوى. ارتكزت الدراسة على أربعة معايير رئيسة: (1) جودة الاستدلال الفلسفي والمنطقي، (2) ترابط الأفكار عبر المحادثات الطويلة، (3) دقة استخدام اللغة العربية، (4) سرعة فقدان السياق وتكرار المعلومات. أظهرت النتائج تفوّق النماذج المغلقة في التحليل المنطقي مع ميل إلى تجنّب القضايا الجدلية وقيود تتعلّق بالتخصيص والوصول؛ وتميّز "فنار" بدقة لغوية عربية تضاهي النماذج الكبرى لكنه يُظهر ضعفًا نسبيًّا في الحفاظ على السياق في الحوارات المطوّلة. في المقابل، حققت النماذج المفتوحة أداءً تنافسيًا بعد الضبط الدقيق؛ إذ امتازت الإصدارات المضغوطة بسرعة المعالجة على حساب الترابط، بينما قدّمت النماذج الأكبر تحليلاً أعمق بزمن استجابة أطول. وتؤكد الدراسة الحاجة إلى استراتيجيات تقلّل فقدان السياق وتختصر زمن الاستجابة لدى النماذج المفتوحة (مثل الاسترجاع المعرفي التفاعلي) لتمكينها من إدارة الحوارات الفكرية المطوّلة ومنافسة النماذج المغلقة مستقبلًا. أظهرت النتائج أن النماذج المغلقة حققت أداء أعلى في جودة الاستدلال (بمتوسط تجاوز 85%)، بينما تراوحت نتائج النماذج المفتوحة بين 60% و70% تقريبًا. Large language models (LLMs) have witnessed a qualitative leap that enables them to generate long, coherent texts with advanced contextual understanding and reasoning. Nevertheless, their proficiency in managing deep intellectual dialogues remains uneven. This study compares the performance of 24 models, both closed- and open-source (each sub-release is treated as a separate model). The closed models include GPT-4, Gemini 2, and Fanar, while the open models feature DeepSeek R1, Llama, Gemma, Mistral, and PHI-4. The evaluation draws on more than 500,000 exchanges (comments, replies, quotations) across about 30,000 posts on the Fikran platform, where the models produced ~ 99% of the content. Assessment relied on four main criteria: (1) the quality of philosophical and logical reasoning, (2) coherence of ideas throughout long conversations, (3) accuracy of Arabic usage, and (4) speed of context loss and information repetition. Results show that closed models excel in logical analysis but tend to avoid controversial topics and suffer from customization and accessibility constraints. Fanar delivers Arabic linguistic accuracy comparable to larger models yet displays relative weakness in sustaining context over extended dialogues. Open models achieved competitive performance after fine-tuning; compressed variants offered faster responses at the expense of coherence, whereas larger models provided deeper analysis with longer latency. The study underscores the need for strategies (such as interactive knowledge retrieval) that reduce context loss and shorten response time in open models, enabling them to handle extended intellectual dialogues and compete with closed models in the future. Closed models scored higher in reasoning quality (averaging over 85%), while open models ranged between / approximately 60% and 70%. |
|---|---|
| ISSN: |
2522-3321 |
عناصر مشابهة
-
أثر الاتجاه نحو تبني تقنية سلاسل الكتل على قابلية القوائم المالية للمقارنة وانعكاس ذلك على القيمة السوقية للشركة: دراسة تطبيقية
بواسطة: محمد، أمل عبدالفضيل عطية منشور: (2025) -
أثر تبني تكنولوجيا البيانات الضخمة على جودة اتخاذ القرار بقطاع الاتصالات: دراسة تطبيقية على شركات الاتصالات العاملة في ليبيا
بواسطة: الرباطي، أحمد سعد فرج منشور: (2025) -
دور استخدام تقنيات البيانات الضخمة في كفاءة التحاسب الضريبي عن إيرادات مؤثري شبكات التواصل الاجتماعي كمرتكز لتحسين الحصيلة الضريبية: دراسة تطبيقية
بواسطة: عاشور، عبدالرحمن نصر رمضان منشور: (2025) -
أثر خصائص القيمة للبيانات الضخمة في جودة التدقيق الداخلي بناء على مقاييس هيئة المعارف المشتركة "CBOK": دراسة تطبيقية على الشركات الصناعية المساهمة العامة في الأردن
بواسطة: أبو سليم، خليل سليمان محمد منشور: (2021) -
دور البيانات الضخمة في تحسين جودة الخدمات: دراسة حالة الجامعة الإسلامية بغزة
بواسطة: أبو سعدة، أحمد مصطفي أحمد منشور: (2019)