Robots.txt Dosyası Nedir ? Nasıl Oluşturulur? adlı çalışmamızdan bahsedeceğiz bugün. Robots.txt dosyası, arama motoru botlarının web sitenizde erişmesini istemediğiniz alanları arşivlemek amacıyla kullanılması gereken kısmıdır. Web sitenizi tarayan ve Google sıralamasında bulunmasını sağlayan botların, web sitenizin ziyaretinde varsa şayet ilk uğrayacağı yer ”Robots.txt” dosyasıdır.

Robots.txt dosyasını doğru oluşturmak, web siteniz ve kurumsal kimliğiniz için büyük derecede bir önem taşımaktadır. Doğru hazırlanamamış ”robots.txt” dosyası bu botların web sitenizde bulunan içerikleri doğru, gerçek ve önemli bilgileri erişime kapatmasına sebep olabilir.

Robots.txt Dosyası Nedir?

Basit bir komut dosyası olan fakat çoğu veriyi nasıl yönetilmesi gerektiği ile ilgili botlara imkanlar tanıyan ” robots.txt ” dosyası, web sitenizi ziyaret eden arama motorlarının botları ilk olarak burayı ziyaret etmektedir. Burada tespit edilen dosyaları tarar ve indekse ekleyip eklemeyeceği izinleri kontrol ederek, sitede gerekli görülen ve yapılması gereken hiyerarşiyi oluşturur.

Robots.txt nedir  dediğimizde bu dosyanın her internet sitesinde olması gereken bir dosya türüdür. Bunun sayesinde arama motorlarında görünmesini dilediğiniz, olmasını gerek gördüğünüz ya da istemediğiniz veri ve alanları denetim altına alabilirsiniz.

Doğru hazırlanan bu komut dosyası vasıtası ile taranmasını dilediğiniz alanları düzenleyebilirsiniz. Yanlış hazırlanan robots.txt dosyası ise sitenin büyük zararlar görmesine farklı sorunlar yaratmasına sebep olabilir.

Robots.txt Dosyası Kuralları

Belli başlı kuralları olan ” robots.txt” dosyasının büyük bir önem taşıyan 3 noktası bulunmaktadır. Bu noktalar dahilinde hazırlanmalı ve sitenin kök endeksine yerleştirilmelidir. Bu noktalar internet siteniz için çok önemlidir.

Robots.txt dosyasının kesinlikle kök endeksinde olması gerekmektedir.
Robots.txt dosyasının sitenin URL’si ile aynı formatta olması aynı fonksiyonlu olması gerekir.
Robots.txt dosyasının karakter kodlamasının UTF-8 idealliği sağlanması gerekir.
Robots.txt dosyasının gelişi güzel veya rastgele bir diğer klasör içerisinde yer almaması yalnızca sitenin ana dizininde olması gerekli görülmektedir. Buna misal olarak;

https://www.siteismi.com/robots.txt Doğru Olan

https://www.siteismi.com/main/robots.txt Yanlış olan

UTF-8 Karakter Kodlaması

Düz metinden oluşması gereken robots.txt dosyası kesinlikle UTF-8 karakteri ile hazırlanmalıdır. Farklı karakter kullanmamaya özen göstermelisiniz. Bu kullanıma dikkat etmelisiniz. Önemli bir nokta ise dosyanın her zaman amacına uygun çalışır halde olması gerekmektedir. Robots.txt dosyanı site URL’niz ile aynı olmalıdır.

Grup Komutları

Arama Motoru robotu Engelleme – İzin Verme
Dizin Engelleme – İzin Verme
Sayfa Engelleme – İzin Verme
Tarama Gecikmesi Belirtme

Grup Dışı Komutlar

– Site Haritası Belirtme
– Yorum ve Notlar
– User – Agent

Sitenize hangi arama motoru botunun ziyaret edebileceğini belirlemenize yarayan indekstir. Hangi arama motoru doğrultusundan taranmak istemiyorsanız User-agent kullanabilirsiniz.

Kullanımı

Arama motoru botlarının tümüne önleme koymak amacıyla;

User-agent: *
Disallow
Arama motoru botlarının tümüne izin vermek amacıyla;

User-agent:
Dizin Engelleme – İzin Verme

Sitenizde belirleyeceğiniz alanların botlar doğrultusundan taranmasını yada taranmamasını sağlayabileceğiniz komuttur.

Kullanımı

Sitenizde yer alan birtakım görsellerin taranmasını istemiyor iseniz;

User-agent:*
Disallow: /resim/

İstediğiniz indeksin botlar doğrultusundan taranmasını ve incelenmesini bu sayede engelleyebilirsiniz.

Sayfa Engelleme – İzin Verme

Arama botlarının hangi sayfalara erişmesini istemediğiniz komutları içermektedir. Allow seçeneği ya da disallow ile dilediğiniz sayfanın erişimini durdurabilirsiniz.

Kullanımı

User-agent: *
Disallow: /belge.html/
Bu sayede yukarıda belirti edilen satırın erişimi engellenecektir. Mesela, https://www.siteismi.com/belge.html

Tarama Gecikmesi Sağlama

Sitenizin sizin belirleyeceği vakit zarfında botlar doğrultusundan taranmasının sağlanacağı bir komut sistemidir. Bu prosedürü pek çok kullanmanız önerilmez. Fakat site trafiği çok yoğun olan ve buna bağlı yaşanan hatalarda ya da sunucuya bağlı site problemlerinde bu prosedürü gerçekleştirebilirsiniz.

Kullanımı

Belirleyeceğiniz vakit diliminde botların sitenizi ziyaret etmesi ve bu vakit içersinde lüzumlu sayfaları taraması prosedürünü yapabilirsiniz. Fakat tespit edilen vakit bittiğinde botlar geri kalan endeks dosyalarını tarayamamış olacaktır.

User-agent: Googlebot
Crawl-delay: 10
Crawl – delay komutu ile botların tarama vakit dilimini belirleyebilirsiniz. Örnek vermek gerekilirse 10 dakika.

Sitemap – Grup Dışı Komutlar

Arama motoru botları internet sitenizi ziyarete geldiği vakit Robots.txt dosyası ile eş güdümlü sitemap.xml olması gerekmektedir. Botlara en doğru bilgileri verecek olan dosya Sitemap.xml‘dir. Her sitede olması gereken bir sayfadır. Bu detay göz ardı edilemeyecek kadar önemlidir. Diğerlerinde oldu gibi bu sayfada da doğru URL yazılmalıdır.

User-agent: *
Sitemap: https://www.siteismi.com/sitemap.xml

Özel Komutlar

Arama robotlarının sitenizde ulaşmasını istemediğiniz alanlarda uygulayabileceğiniz özel komutları Robots.txt ye ekleyebilirsiniz.

User-agent: *
Disallow: / *!
URL içerisinde yer alan ünlem işareti ile sahip olunan URL tamamı ile robotların erişimine kapatılmıştır. Bunun amacıyla değişik karakterlerde kullanabilirsiniz. Bütün hazırlanan bu karakterler ile robotlar erişime engellenecektir.

Hem de .asp uzantısına sahip olduğunuz URL içerisinde bu hal geçerlidir.

User-agent: Googlebot
Disallow: /*.asp!
.asp! ünlem işaretine sahip .asp uzantısında da bu prosedürü gerçekleştirebilirsiniz.

Robots.txt Neden Kullanmalısınız?

Robots.txt dosyası hemen hemen her sitede kesinlikle olması gereken bir dosyadır. Bu sayede Google ve diğer arama botları ile iletişim kurabilir. Sitenizin robotlar ile iletişim doğrultusundan nasıl, hangi şekilde ziyaret edilmesine yön verebilirsiniz.

Sitenizde yürüttüğünüz bir çalışma, dizayn değişikliği, güncelleme ve aynı hallerde bu komut dosyasını kullanarak robotların erişimini engelleyebilirsiniz. Bu sayede henüz tamamlanmamış ve sona ermemiş projenize robotları dahil etmeden devam edebilirsiniz.

Her vakit amacıyla robots.txt dosyası ile bu molanın sonrasında robotları web site ziyaretine çekmeniz daha uygun ve doğru bir etkinlik olacaktır. Sonuç olarak parça parça sitenizi taramaları ve dezavantaj yaratmaları yerine sitenizin bitmiş ve güncel durumu ile tarayıp arşivlemeleri en mantıklısı olacaktır. Böylece daha doğru bir özellik katmış olacaksınız web sitenize.

Not: Daha evvelce indekslenen ve taranan sayfaları Robots.txt dosyasıyla yine önleme yapılamaz.

Sayfa engellenmiş ve arama motoru ziyaretçisi o sayfa adına bir arama gerçekleştirmiş ise sayfa açıklaması yerine şu ibareyi gösterecektir.

‘’Bu sitenin robots.txt dosyası olduğundan, bu netice amacıyla bir açıklama bulunmamaktadır. Daha çok bilgi ediniz.’’ Yazmaktadır.

Not: Robots.txt dosyasında yaptığınız önleme, o sayfayı hala arama motorlarında gösteriyorsa, bunun en büyük sebebi değişik internet sitelerinden o sayfanın link almış olması olabilir. Fakat bu durumu bundan sonra robots.txt dosyasından endeks önleme ile değiştiremezsiniz. Bunun yerine önlemeye son verip ‘’noindex meta’’ etiketini kullanabilirsiniz.

Örneklemeler

User-agent: *
Disallow: /gizli/
Allow: /gizli/gizli.html
Disallow erişime kapalı, allow erişime açık ibaresidir.
User-agent: *
Disallow: /tasarim/
User-agent: *
Allow: /tasarim/

Robots.txt dosyasında bir hata olduğunda dikkatli incelemeli ve dikkatli kullanmalısınız. Herhangi bir yanlışlık yapma halinde ise Google Search Console Robots.txt test aracını kullanabilirsiniz.

Hem de robots.txt dosyası ile ilgili daha çeşitli bilgiye erişmek amacıyla bu blog yazımızı okuyabilir daha detaylı bilgiye sahip olabilirsiniz.

Yeni kuracağınız, yada hazır olan internet sitenizde ilk yapmanız gereken prosedür robots.txt dosyası oluşturmaktır. Seo konusu ile ilgili da dezavantaj yaratacak olan bu dosyanın olmayışı, sizi arama motorlarında göstermeyecektir. Fakat bir robots.txt dosyasına sahip olarak rekabete başlayabilirsiniz. Yani arama motorlarının sizi bulmasını, sitenizi arşivlemesi, ziyaretçilere sitenizden sayfalar önermesini, aratılan olarak sizi neticelere çıkarmasını fakat bu dosya ile sağlayabilirsiniz.

Cpanel ya da ftp ile dosyalarınızın ana dizinine girerek, robots.txt dosyası oluşturabilirsiniz.

Yazılımsal veya Donanımsal Problem Yaşamanız durumunda bizimle iletişime geçebilir veya bir önceki web tasarım nedir ? yazımızı okuyabilirsiniz.

İçeriği Puanlayabilirsiniz !

0 / 5

Your page rank:

Open chat
İletişime Geç