خزنده وب Web Crawler

خزنده وب یا Web Crawler چیست؟

خزنده وب (Web Crawler) یک ربات اینترنتی است که به صورت سازماندهی شده به مرور و گردش در صفحات تارنمای جهانی وب می‌پردازد و اطلاعاتی را جمع‌آوری می‌کند که توسط موتور جستجو برای ایندکس کردن صفحات مورد استفاده قرار می‌گیرد. عنکبوت وب (Web Spider) نیز معادلی رایج برای این اصطلاح به شمار می‌رود.

خزنده‌ها در واقع یک نرم افزار هستند که معمولا می‌توانند از محتوای صفحات نسخه‌برداری کنند. از این نسخه‌ها برای ایندکس کردن صفحات استفاده می‌شود (در واقع هنگامی که یک کاربر عبارتی را در یک Search Engine جستجو می‌کند به جای این که هربار جستجو مستقیما در حجم انبوهی از صفحات وب انجام شود تنها از اطلاعات ایندکس شده برای یافتن بهترین نتایج استفاده می‌شود درنتیجه، جستجو در زمانی کوتاه‌تر انجام شده و کارایی بالاتری خواهد داشت).

خزنده‌ها در ابتدا لیستی از نشانی‌های وب را در اختیار دارند که به آنها دانه (Seed) گفته می‌شود. با مرور دانه‌ها و بررسی کد HTML این صفحات، تمامی پیوندهای صفحه مشخص شده و آنها را به لیست نشانی‌هایی که باید مرور نماید اضافه می‌کند. این روند به صورت تکراری ادامه یافته و درنتیجه حجم وسیعی از صفحات توسط خزنده مرور و احتمالا نسخه‌برداری می‌شود. از اینرو این ربات‌ها را خزنده نامیده‌اند چرا که در میان صفحات سایت‌ها می‌خزند و از سایتی به سایت دیگر می‌روند.

بسته به میزان پویایی محتوای وبسایت‌ها، خزنده باید با مرور دوره‌ای، محتوای جمع‌آوری شده‌ی خود را بروزرسانی کند. از جمله ربات‌های خزنده‌ی مشهور می‌توان به Googlebot و Bingbot اشاره کرد که به ترتیب توسط موتورهای جستجوی گوگل و بینگ مورد استفاده قرار می‌گیرد.

پیوندهای پیشنهادی تک دیک

لینک واژه در ویکیپدیا

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *