Crawling, web sitelerini programatik bir şekilde gezerek belirli sayıdaki linkleri veya bütün linkleri elde etmek anlamına gelmektedir. Türkçe olarak arama robotu ismi verilebilir. Bu robotlar web sitelerini otomatik olarak gezerek bilgi toplarlar ve hedef bir adresten başlayarak girdiği yeni adresleri kendi listesine ekler. Daha sonra listeye eklediği adresleri tek tek dolaşmaya ve edindiği yeni linkleri listeye eklemeye devam eder.
Özetle Crawling, arama motorlarının tasarımı esnasında kullanılan, internet üzerindeki linkleri gezerek bilgi toplayan, bütün sayfaları gezip sayfa ve sayfalardaki kelimeleri çıkaran internet örümcekleridir. Bu programlar sırasıyla şu işlemleri yapmaktadırlar. Bir internet sayfasını indirirler, sayfadaki bağlantıları çıkarırlar, sayfadaki anahtar kelimeleri çıkarırlar, kelime veya sayfa bilgisini geçirirler, bulduğu bağlantılara devam ederek aynı işlemleri tekrar yaparlar.
Web Crawler nasıl çalışır?
Web crawler bilindiği üzere web sitelerinde dolaşan botlardır. Google botları olarak da adlandırılan web crawler url sitelerine girip normal bir kullanıcı gibi gezmektedir. Web crawlerın çalışma mantığı diğer botlardan farklıdır. Diğer botlar siteleri tek tek gezerken web crawler hızlı ve düşük yer kaplayarak gezinti yapmaktadır. Web crawlerin mantığı ise web sayfalarını indirmeyle başlamaktadır. Web sayfalarını indiren botlar ilk olarak sayfada bulunan bağlantıları çıkarmaktadır. Daha sonrasında anahtar kelime etiketleri arasında bulunan anahtar kelimeleri düzenli bir şekilde çıkararak seo açısından da önemli bir gözlem yapmaktadır.
Sitenin içerisinde dağınık halde bulunan içerikleri belli bir liste halinde çıkartan web crawler botları kelime ve sayfaların index bilgisini de çıkartmaktadır. Bulunduğu sayfanın içeriğini tamamladıktan sonra bir sonraki bağlantıyı ziyaret edip aynı işlemleri tekrardan yapmaktadır. Ortalama bir site için fazlasıyla hızlı gezinti yapan web crawler botları seo açısından da önemli bir etken arasında bulunmaktadır.
Web crawler botlarının çalışma mantığı ele alındığında aslında günümüzde en çok kullanılan ve kabul edilen sistemler arasında olduğu belirtilmektedir. Temelde bağlantıyı indirme, bağlantıyı ayıklama ve bir sonraki bağlantıyı ziyaret etme mantığıyla çalışan web crawler birçok site yöneticisi tarafından SEO ayarlamaları yapılırken dikkat edilen botlar arasında yer almaktadır. Seeds olarak adlandırılan ve gezilmesi gereken siteler listesinde bulunan tüm bağlantıları ziyaret eden web crawler, dizinde bulunan tüm siteleri iki kez kontrol etmektedir. Hata alınan sayfalarında raporunu sunan web crawler robotları site üzerindeki gezintisi sırasında sayfanın yapısıyla alakalı çıktılar sağlamaktadır.