Robot TXT Dosyası dijital platformlarla ilgilenen birçok bireyin araştırdığı ve merak ettiği alanlardan birisi olarak karşımıza çıkmaktadır. Arama motoru botları görevleri herhangi bir web sitesinin sayfalarını taramak ve arşivleme başta olmak üzere buna benzer işlemlerden oluşmaktadır. Bazı durumlarda sayfaları veya bölümleri arama motoru botlarının erişimine kapatmak ve engellemek isteyebilirsiniz. Tam da bu noktada Robots.txt dosyası sizlerin imdadına koşmaktadır. Yanlış oluşturulan üretilen herhangi bir robots.txt dosyası web adresinizin önemli bölümlerinin arama motorları erişimine kapanması anlamına gelebilmektedir. Bu metnimizde Robotx.txt nedir ve nasıl oluşturulur gibi önemli detaylardan söz edeceğiz.
Robots.txt Nedir?
Robots.txt ne olduğunu anlamak için nerelere ne kadar etkisinin olduğunu öğrenmek daha sağlıklı olacaktır. İlk olarak arama Robots.txt; motoru yazılımlarına web adresinizin hangi bölümlerine dizine ekleyebileceğini, hangi dizini veya sayfayı taraması gerektiğini, hangi arama motoru yazılımlarının giriş izni olduğunu veya olmadığını sizlere söyleyen bir komut dosyasıdır. Diğer bir adıyla ‘’Örümcek’’ olarak da isimlendirilen arama motoru yazılımları sitenizi ziyaret ettiğin ilk olarak bu dosyayı taramaktadır. Sonrasında dosyadaki komutlara ve direktiflere göre web adresinizin bölümlerini dizine eklemektedir. Elbette hangi bölümü dizine ekleyip, ekleyemeyeceği sizin oluşturduğunuz Robotx.txt dosyasına bağlıdır.
Robot.txt biraz daha detaylı açıklamak gerekirse; sitenizin sınır kapılarını kontrol etmesine benzemektedir. Çeşitli arama motorlarının hangi sınır kapısından girebileceğini, hangi sınır kapısından giremeyeceğini sizlerin oluşturduğu komut sistemi belirlemektedir. Eğer ki sizlerin onay verdiği dizilimlere ve sayfalara girebilmektedir. Robots.txt dosyası ve içerdiği komutlara doğru bir şekilde hazırlanması ve uygulanması durumunda sitenizin faydası korunur. Bu işlemin diğer bir adı da ‘’Robotları Engelleme Standardı’’ olarak adlandırılmaktadır.
Robots.txt Nasıl Oluşturulur?
Robots.txt oluşturmak sanıldığı kadar zor ve karmaşık bir iş değildir. Basit bir mantığı bulunmaktadır. Sadece önemli olan nokta hangi noktada, hangi komut sistemini kullandığınız önemlidir. Bunları zamanında ve doğru bir şekilde gerçekleştirdiğiniz durumda oldukça faydasını göreceğinizi söyleyebiliriz. Aşağıda oluşturulmuş örnek Robot.txt dosyaları bulunuyor:
Bir metin dosyası açarak adını ‘’Robotx.txt’’ olarak belirleyin. Robots.txt dosyasının içerisinde farklı değişkenler olacaktır. Bu değişkenlerin anlamları şu şekildedir:
User – agetn: Google Botunun adının geleceği yerdir.
Disallow: Botun hangi izinlere sahip olup, olamayacağına dair komutlar yer alacak
Örnek 1:
User-agent: *
Allow: /
Yukarıdaki kodlara baktığımızda şu şekilde yorumlanması gerekmektedir: Google botlarının isimleri gelmesi gerekirken “*” işaretini gördüğünüz. Bunun anlamına bakıldığında siteniz tüm Google botlarınca herhangi bir istisna uygulanmadan izin verdiğiniz anlamına gelmektedir.
Örnek 2:
User-agent: *
Allow: /
Yukarıda görüldüğü gibi birinci satırdaki user – agent kodu anlamı tüm Google botlarına siteniz indexlemesi için izin vermesi anlamına gelmekteydi. Fakat ikinci satırda ‘’/’’ böyle bir karakter görünmektedir. Bu karakterin anlamına bakıldığında site üzerinde tüm dosyaların taranmaması anlamına gelmektedir. Yani Google botları, bu komutu gördüğünde tüm dosyaların taranmaması istendiği anlayacaktır.
Genel olarak bu komut sistemine bakıldığı takdirde bütününde anlayacağınız durum; bütün Google botlarınca web adresinizin hiçbir dosyası indexlenmeyecek ve taranmayacaktır. Bunun dışında bir durumun gerçekleşmesi mümkün değildir.
Örnek 3
User – agent: *
Disallow: /directory/dosya.html
Yukarıdaki komut dizilimine bakıldığında takirde tüm botlar, ilgili dosyayı indexlemeyecektir. Fakat directory dizindeki dosya.html hariç diğer tüm dosyaları tarar ve indexler.
Örnek 4
User – agent: *
Allow: /dosya1/site.html
Disallow: /dosya1/
Yukarıdaki kod komut sistemine bakıldığında tüm Google botları dosya dizinde bulunan site.html dosyası hariç bütün dosyaları taramaz ve indexlemeyeceği anlamına gelmektedir.
Kaynak:
https://www.liquidweb.com/kb/create-a-robots-txt-file/