Manual:robots.txt/tr

From Linux Web Expert


robots.txt dosyaları Robot Engelleme Standardı'nın bir parçasıdır ve Search engine optimization konusunda yardımcı olabilir. web robotlarına bir sitenin nasıl taranacağını söylerler. Bir etki alanının web köküne bir robots.txt dosyası yerleştirilmelidir.

Örnekler

Tüm taramayı önleyin

Bu kod, tüm botların sitenizdeki tüm sayfaları taramasını engeller:

User-agent: *
Disallow: /

Yalnızca belirli bir örümceği engellemek istiyorsanız, yıldız işaretini örümceğin kullanıcı aracısı ile değiştirin.

Madde dışı sayfaların taranmasını önleyin

MediaWiki, yalnızca canlı insanlar için yararlı olan birçok sayfa oluşturur: eski revizyonlar ve farklılıklar, maddelerde bulunan içeriği çoğaltma eğilimindedir. Düzenleme sayfaları ve çoğu özel sayfa dinamik olarak oluşturulur, bu da onları yalnızca editörler için yararlı ve sunmaları nispeten pahalı hâle getirir. Aksi belirtilmedikçe, örümcekler binlerce benzer sayfayı dizine eklemeye çalışarak web sunucusunu aşırı yükleyebilir.

Kısa URL'ler ile

Vikipedi tarzı kısa URL'ler kullanıyorsanız, örümceklerin madde olmayan sayfaları taramasını önlemek kolaydır. Maddelere /wiki/Some_title üzerinden erişilebildiğini ve diğer her şeyin /w/index.php?title=Some_title&someoption=blah üzerinden erişilebilir olduğunu varsayarak:

User-agent: *
Disallow: /w/

Yine de dikkatli olun! Bu satırı yanlışlıkla koyarsanız:

Disallow: /w

/w dizinine erişimi engelleyeceksiniz ve arama motorları vikinizi bırakacak!

Bu çözümün CSS, JavaScript ve resim dosyalarının da engellenmesine neden olacağını unutmayın, bu nedenle Google gibi arama motorları viki maddelerinin önizlemelerini oluşturamaz. Bunu aşmak için, /w dizininin tamamını engellemek yerine, yalnızca index.php engellenmesi gerekir:

User-agent: *
Disallow: /w/index.php?

Bu işe yarar çünkü CSS ve JavaScript /w/load.php aracılığıyla alınır. Alternatif olarak, bunu Wikimedia çiftliğinde yapıldığı gibi yapabilirsiniz:

User-agent: *
Allow: /w/load.php?
Disallow: /w/

Kısa URL'ler olmadan

Kısa URL'ler kullanmıyorsanız, robotları kısıtlamak biraz daha zordur. PHP as CGI çalıştırıyorsanız ve URL'leri güzelleştirmediyseniz, böylece maddelere /index.php?title=Some_title ile erişilebilir:

User-agent: *
Disallow: /index.php?diff=
Disallow: /index.php?oldid=
Disallow: /index.php?title=Help
Disallow: /index.php?title=Image
Disallow: /index.php?title=MediaWiki
Disallow: /index.php?title=Special:
Disallow: /index.php?title=Template
Disallow: /skins/

PHP'yi Apache modülü olarak çalıştırıyorsanız ve URL'leri güzelleştirmediyseniz, böylece maddelere /index.php/Some_title üzerinden erişilebilir:

User-agent: *
Disallow: /index.php?
Disallow: /index.php/Help
Disallow: /index.php/MediaWiki
Disallow: /index.php/Special:
Disallow: /index.php/Template
Disallow: /skins/

Sonunda iki nokta üst üste (:) bulunmayan satırlar, bu ad alanlarının tartışma sayfalarını kısıtlar.

İngilizce olmayan vikilerin yukarıdaki satırların çeşitli çevirilerini eklemesi gerekebilir.

/skins/ kısıtlamasını atlamak isteyebilirsiniz çünkü bu, görünüme ait görüntülere erişilmesini engelleyecektir. Google gibi önizleme resimlerini işleyen arama motorları, /skins/ dizinine erişemezlerse, eksik resimleri olan maddeleri gösterir.

Ayrıca deneyebilirsin

Disallow: /*&

çünkü Googlebot gibi bazı robotlar, yukarıdaki /w/ çözümünde olduğu gibi, robots.txt standardına yönelik bu joker karakter uzantısını kabul eder ve bu, robotların elenmesini istemediğimiz şeylerin çoğunu durdurur. Ancak bu, CSS'ye erişimi engellemesi ve arama motorlarının önizleme görüntülerini doğru şekilde oluşturmasını engellemesi bakımından aynı sınırlamalardan muzdariptir. Bunu başka bir satır Allow: /load.php ekleyerek çözmek mümkün olabilir, ancak bu yazım sırasında test edilmemiştir.

İnternet Arşivi tarafından işlenmemiş kenarların indekslenmesine izin ver

İnternet Arşivleyicisi ​'nin ham sayfaları indekslemesine izin vermek isteyebilirsiniz, böylece sayfaların ham viki metni kalıcı kayıtta olacaktır. Bu şekilde, vikinin düşmesi durumunda, insanların içeriği başka bir vikiye koyması daha kolay olacaktır. Şunu kullanacaksın:

# Allow the Internet Archiver to index action=raw and thereby store the raw wikitext of pages
User-agent: ia_archiver
Allow: /*&action=raw

Sorunlar

Hız kontrolü

Yalnızca bir botun webi hangi yolları koyabileceğini belirleyebilirsiniz. Yalnızca düz sayfa alanına izin vermek bile, iki yüz bin sayfadan fazla bir örümcek tarafından saniyede iki veya üç sayfa talep edildiğinde büyük bir yük olabilir.

Bazı botların bunun için özel bir özelliği vardır; Inktomi, isabetler arasındaki minimum gecikmeyi saniye cinsinden belirleyebilen bir "Crawl-delay" satırına yanıt verir. (Varsayılan değerleri 15 saniyedir.)

Kötü robotlar

Bazen özel olarak yazılmış bir bot çok akıllı değildir veya düpedüz kötü niyetli olabilir ve robots.txt dosyasına hiç uymaz (veya yol kısıtlamalarına uyuyor ancak çok hızlı örümceklerle siteyi tıkıyor). Belirli kullanıcı aracısı dizelerini veya suçluların bireysel IP'lerini engellemek gerekli olabilir.

Daha genel olarak, istek azaltma, tekrarlayan müdahalenizi gerektirmeden bu tür botları durdurabilir.

Alternatif veya tamamlayıcı bir strateji, bir web tuzağı kullanmaktır.

Web oluşturmaya karşı indeksleme

Robots.txt (kötü olmayan) botların URL'yi indirmesini durdursa da, botları dizine eklemelerini engellemez. Bu, onlara işaret eden harici bağlantılar olduğu sürece, Google ve diğer arama motorlarının sonuçlarında görünmeye devam edebileceği anlamına gelir. (Daha da kötüsü, botlar bu tür sayfaları indirmediğinden, bunlara yerleştirilen noindex meta etiketlerinin hiçbir etkisi olmayacaktır.) Tekli viki sayfaları için, __NOINDEX__ sihirli kelimesi, onları arama sonuçlarının dışında tutmak için daha güvenilir bir seçenek olabilir.