خزنده وب Web Crawler
خزنده وب یا Web Crawler چیست؟
خزنده وب (Web Crawler) یک ربات اینترنتی است که به صورت سازماندهی شده به مرور و گردش در صفحات تارنمای جهانی وب میپردازد و اطلاعاتی را جمعآوری میکند که توسط موتور جستجو برای ایندکس کردن صفحات مورد استفاده قرار میگیرد. عنکبوت وب (Web Spider) نیز معادلی رایج برای این اصطلاح به شمار میرود.
خزندهها در واقع یک نرم افزار هستند که معمولا میتوانند از محتوای صفحات نسخهبرداری کنند. از این نسخهها برای ایندکس کردن صفحات استفاده میشود (در واقع هنگامی که یک کاربر عبارتی را در یک Search Engine جستجو میکند به جای این که هربار جستجو مستقیما در حجم انبوهی از صفحات وب انجام شود تنها از اطلاعات ایندکس شده برای یافتن بهترین نتایج استفاده میشود درنتیجه، جستجو در زمانی کوتاهتر انجام شده و کارایی بالاتری خواهد داشت).
خزندهها در ابتدا لیستی از نشانیهای وب را در اختیار دارند که به آنها دانه (Seed) گفته میشود. با مرور دانهها و بررسی کد HTML این صفحات، تمامی پیوندهای صفحه مشخص شده و آنها را به لیست نشانیهایی که باید مرور نماید اضافه میکند. این روند به صورت تکراری ادامه یافته و درنتیجه حجم وسیعی از صفحات توسط خزنده مرور و احتمالا نسخهبرداری میشود. از اینرو این رباتها را خزنده نامیدهاند چرا که در میان صفحات سایتها میخزند و از سایتی به سایت دیگر میروند.
بسته به میزان پویایی محتوای وبسایتها، خزنده باید با مرور دورهای، محتوای جمعآوری شدهی خود را بروزرسانی کند. از جمله رباتهای خزندهی مشهور میتوان به Googlebot و Bingbot اشاره کرد که به ترتیب توسط موتورهای جستجوی گوگل و بینگ مورد استفاده قرار میگیرد.
پیوندهای پیشنهادی تک دیک