Merhabalar, robots.txt bu dosya genel olarak google indexlerine sitelerin kayıt olmasını engellemek için kullanılır ki bu sadece tarama zamanı google botlarının geldiği zaman taramayıp geri dönmesini sağlar yani eğer siteniz başka yerler'den yönlendiriliyor ise dizine eklenmesini genede engel olmazsınız.
Bunun için şifre koruması veya no index etiketleri ya da yönergeler gibi yöntem kullanmalısınız. Bunu ek olarak söyledim aklınızda bilgi olarak dursun ben size gerekli olan kısmını yani robotları yönetmeyi nereleri taramanızı sağlayacağını söyleceğim siteleriniz google dizinine eklenmesi için google veya yandex vb. tarayıcıların botlarının sitenize gelip ilk olarak taraması gerekir botlar ilk geldiği zaman ilk olarak ilk dizin'de robots.txt dosyasını ararlar var ise onun yönlendirmelerine göre tarama işlemi yaparlar eğer o yok ise tüm sayfayı tararlar ki bu da istiyeceğiniz bir şey değildir.
Neden isteyeceğim bir şey değil diye soracak olur iseniz'de admin veya google'da görünmesini istemediğiniz bir çok dizinide yarar ama bunu önlemek mümkün.
Şimdi robots kullanımına gelelim ;
Yeni bir metin belgesi açalım ismini robots.txt yapalım. Robots.txt dosyamız içersinde iki farklı değişkenimiz olacak. Bunlar ve anlamları şöyledir:
User-agent: Google Botu’nun adı gelecek
Disallow: Botun izinlerini gireceğimiz komutlar yer alacak
User-agent: *
Allow: /
Kodlarımızı yorumlayalım. 1. satırdaki kodumuz da bakınız Google Botları’nın isimleri gelecekti fakat “*” işaretini gördünüz. Bunun anlamı, siteniz tüm Google Botları’nca istisnasız indexlenmesine izin vermişsiniz demektir.
User-agent: *
Disallow: /
Gördüğünüz gibi birinci satırdaki user-agent kodumuzun anlamı tüm Google Botları’na sitenizi indexlemesi için izin verilmesiydi. Fakat ikinci satırda “/” böyle bir karakter görüyorsunuz. Bu karakterin anlamı site üzerinde tüm dosyaların taranmaması isteniyor.
Yani bu Robots.txt kod bütününden de anlayacağımız şey, bütün Google Botları’nca sitemizin hiçbir dosyası indexlenmeyecek, taranmayacak.
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
Bütün google botları, bu 4 dosyayı indexlemeyecektir.
User-agent: DeepCrawl
Disallow: /private/
DeepCrawl, bir google botudur. Görevi ise; sitenizi uzun aralıklarla ziyaret edip, indexlenmesi için gerekli bilgileri toplar. Bu kodların anlamı ise, ismi verilen botun ilgili private klasörünü indexlememeli.
User-agent: *
Disallow: /directory/dosya.html
Tüm botlar, ilgili dosyayı indexlemeyecektir. Ama directory dizinindeki dosya.html hariç diğer tüm dosyaları tarar ve indexler.
User-agent: *
Allow: /dosya1/site.html
Disallow: /dosya1/
Bu kodların anlamı ise, tüm Google Botları dosya dizininde bulunan site.html dosyası hariç diğer tüm dosyaları taramaz ve indexlemeyecektir.
User-agent: Googlebot
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /index.php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: */feed/
Disallow: */trackback/
User-agent: Googlebot-Image
Disallow: /wp-includes/
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /
Robots.txt hakkında bilgi bu kadardı ben size misal kendi sitem'de kullandığım robots.txt atıp birde son bi üzerinden geçelim ;
User-agent: *
allow: /
Disallow: /admin
Disallow: /upload
sitemap: http://www.field.arcface.net/mtp-v-1/sitemap.xml
Ben burda arkadaşlar allow: / diyerek bütün dizindeki dosyaları tarat dedim ve daha sonra disallow ile'de admin panelimin ve upload ettiğim dosyaları google'nin çekmesini engelledim ve sitemap dosyamın yolunu google veya diğer tarayıcı botlarına belirttim.