ارسل ملاحظاتك

ارسل ملاحظاتك لنا







بناء ذخيرة لغوية قياسية معاصرة للغة العربية لأغراض استرجاع المعلومات

العنوان المترجم: Building a Contemporary Standard Linguistic Corpus for The Arabic Language for Information Retrieval Purposes
المصدر: مجلة بحوث في علم المكتبات والمعلومات
الناشر: جامعة القاهرة - كلية الآداب - مركز بحوث نظم وخدمات المعلومات
المؤلف الرئيسي: أبو الخير، إبراهيم حسن (مؤلف)
المؤلف الرئيسي (الإنجليزية): Abu El Khair, Ibrahim Hassan
المجلد/العدد: ع18
محكمة: نعم
الدولة: مصر
التاريخ الميلادي: 2017
الشهر: مارس
الصفحات: 77 - 115
DOI: 10.21608/sjrc.2017.82652
ISSN: 2090-0988
رقم MD: 853065
نوع المحتوى: بحوث ومقالات
اللغة: العربية
قواعد المعلومات: HumanIndex
مواضيع:
كلمات المؤلف المفتاحية:
الذخائر اللغوية | استرجاع المعلومات | بناء الذخائر اللغوية | المعالجة الطبيعية للغة | اللغويات الحاسوبية | Corpus Corpora | Information Retrieval | Corpus Creation | Natural Language Processing | Computational Linguistics
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

132

حفظ في:
LEADER 04794nam a22002537a 4500
001 1608229
024 |3 10.21608/sjrc.2017.82652 
041 |a ara 
044 |b مصر 
100 |a أبو الخير، إبراهيم حسن  |g Abu El Khair, Ibrahim Hassan  |e مؤلف  |9 400622 
242 |a Building a Contemporary Standard Linguistic Corpus for The Arabic Language for Information Retrieval Purposes 
245 |a بناء ذخيرة لغوية قياسية معاصرة للغة العربية لأغراض استرجاع المعلومات 
260 |b جامعة القاهرة - كلية الآداب - مركز بحوث نظم وخدمات المعلومات  |c 2017  |g مارس 
300 |a 77 - 115 
336 |a بحوث ومقالات  |b Article 
520 |a الذخيرة اللغوية هي مجموعة من النصوص المكتوبة بلغة معينة، أو بأكثر من لغة، والتي يتم جمعها، وتخزينها، ومعالجتها، آليا بشكل منظم على الحاسب الآلي؛ وفقا لطريقة استخدامها والعمل عليها، وهي تعد أحد أهم المصادر في مجال البحث في استرجاع المعلومات، والمعالجة الطبيعية للغة، وكذلك اللغويات الحاسوبية، وقد أصبح بناء الذخائر اللغوية أمرا شائعا ومألوفا في هذه المجالات منذ سنوات، كما أن أحجام الذخائر قد زادت بشكل كبير في الآونة الأخيرة؛ بسبب التطور الهائل في التكنولوجيا المستخدمة في بنائها. إن هذه الدراسة هي محاولة من قبل الباحث لبناء ذخيرة لغوية قياسية معاصرة للغة العربية. والذخيرة الناتجة، هي ذخيرة نصية مكتوبة مكونة مما يزيد على خمسة ملايين مقال وتحقيق صحفي، بإجمالي عدد كلمات يزيد على مليار ونصف المليار كلمة، منها حوالي أكثر من ثلاث ملايين كلمة فريدة لم تتكرر، وقد تم جمعها من المقالات الصحفية في عشرة مصادر من ثمان دول عربية، على مدار أربع عشرة سنة، وقد تم تشفير الذخيرة بنوعين من التشفير هما: الكود الموحد UTF-8، وكود ويندوز للغة العربية Windows cp-1256، كما تم توسيمها بلغة SGML ، ولغة XML. 
520 |f Language corpus (vocabulary) is a collection of texts written in a particular language, or in more than one language, that is collected, stored, and processed automatically on a computer; according to the way they are used and worked on them. It is one of the most important sources in the field of research in information retrieval, natural processing of language, as well as computational linguistics. The construction of language corpus has become common and common in these areas for years, and the volumes of the corpus have recently increased significantly, owing to the dramatic development of technology used to build them. This study is an attempt by the researcher to build a contemporary standard language repertoire for the Arabic language. The resulting corpus is a written text repertoire composed of more than five million articles and investigative journalism, with a total number of words of more than one and a half billion words, of which more than three million unique words have not been repeated. It has been collected from press articles in ten sources from eight Arab countries over the course of fourteen years. The corpus has been encrypted with two types of encryption: UTF-8 and Windows cp-1256, and is also labeled in SGML and XML.\nThis abstract translated by Dar AlMandumah Inc. 2021 
653 |a اللغة العربية  |a الذخائر اللغوية  |a اللغويات الحاسوبية  |a استرجاع المعلومات 
692 |a الذخائر اللغوية  |a استرجاع المعلومات  |a بناء الذخائر اللغوية  |a المعالجة الطبيعية للغة  |a اللغويات الحاسوبية  |b Corpus Corpora  |b Information Retrieval  |b Corpus Creation  |b Natural Language Processing  |b Computational Linguistics 
773 |4 علوم المعلومات وعلوم المكتبات  |6 Information Science & Library Science  |c 002  |e Research in Library And information Science  |f Buḥūṯ fi ʿilm Al-Maktabāt wa Al-Maʿlūmāt  |l 018  |m ع18  |o 1508  |s مجلة بحوث في علم المكتبات والمعلومات  |v 000  |x 2090-0988 
856 |n https://sjrc.journals.ekb.eg/article_82652.html  |u 1508-000-018-002.pdf 
930 |d y  |p y  |q y 
995 |a HumanIndex 
999 |c 853065  |d 853065 

عناصر مشابهة