ارسل ملاحظاتك

ارسل ملاحظاتك لنا







A Proposal of Deep Web Crawling System by Using Breath-First Approach

المصدر: المجلة العراقية لتكنولوجيا المعلومات
الناشر: الجمعية العراقية لتكنولوجيا المعلومات
المؤلف الرئيسي: Tahseen, Israa (Auth)
مؤلفين آخرين: Salim, Duaa (Co-Auth)
المجلد/العدد: مج9, ع2
محكمة: نعم
الدولة: العراق
التاريخ الميلادي: 2018
الصفحات: 48 - 61
DOI: 10.34279/0923-009-002-004
ISSN: 1994-8638
رقم MD: 1028880
نوع المحتوى: بحوث ومقالات
اللغة: الإنجليزية
قواعد المعلومات: HumanIndex
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون
حفظ في:
المستخلص: الكثير من البيانات الموجودة على الشبكة العنكبوتية العالمية لا تزال غير متاحة للغوص من قبل محركات البحث، في ضوء الحقيقة لابد من الكشف عن هذه البيانات عند الطلب من قبل المستخدم عندما يقوم بمليء النموذج. الجزء الغامض من الويب والذي يكون مخبأ وراء الواجهات يعرف بالويب العميق ويسمى أيضاً بالويب الغير مرئي، حوالي 96% من البيانات تكون مخفية وراء واجهات الويب العميق. هذه الرسالة تهدف إلى بناء نظام الغوص العميق للويب الذي يستخرج البيانات المخفية وكذلك جميع الروابط التشعبية التي تشير إلى صفحات الويب الأخرى باستخدام طريقة السعة أولاً. الاستنتاجات التي تم التوصل إليها في هذا البحث هي: تحميل محتويات الويب العميق بواسطة استخدام طريقة الطفو السطحي مع قواعد البيانات الغير مهيكلة، والنتائج المدخلة أثبتت بأن الصفحات ذات الجودة العالية بالنسبة لاستعلام المستخدم يتم عرضها للمستخدم في أعلى قائمة النتائج.

A lot of data on the WWW stay unavailable to crawlers of web search engines, so it must uncovered data when the users submits form with valid inputs. The obscure of some portion of web which is hidden behind the interfaces is define as a Deep web, It is also called invisible web. Around 96% of data are hidden behind the Deep web interfaces. This paper aims to build a Deep web Crawling system that extract the hidden data and all hyperlinks that are pointing to other web pages by using Breath-first search. The concluded issues in this research are: downloading the deep web content by using the surfacing approach with un-structural DB, the yielded results prove that a higher quality pages which relevant to user query is displayed to the user at the top of the results list.

ISSN: 1994-8638

عناصر مشابهة