Robots.txt

 Ako na vašem sajtu ne postoji fajl robots.txt, ovaj članak će vam pokazati kako da ga kreirate.
Ako imate fajl robots.txt, pročitajte nekoliko saveta kako bi izbegli eventualne greške koje ovaj fajl može da sadrži.



Osnovne stvari o fajlu robots.txt

Kada web pretraživač poseti vaš sajt, on prvo traži jedan poseban fajl. Taj fajl nosi naziv robots.txt a njegova je namena da pretraživaču kaže koje strane vašeg sajta treba da budu indeksirane a koje treba da ignoriše.


Robots.txt fajl je običan tekstualni fajl (ne HTML) pomoću koga je moguće dati odredjene instrukcije pretraživačima ili web robotima u pogledu toga koje stranice na sajtu da indeksiraju, a koje ne.
Google, Bing, Yahoo… imaju svoje web crawler-e tj. scripte koji pretražuju internet i indeksiraju sve web stranice na koje naiđu.
Pomoću robots.txt fajla moguće je reći Googlu da neku stranicu ili ceo direktorijum ne indeksira i samim tim ne prikazuje u rezultatima pretraživanja.
Dakle, pomoću robots.txt fajla se govori web crawler pretraživača šta da indeksiraju na sajtu a šta ne, tako da je pravljenje ovog fajla jedna od prvih stvari koje se rade u procesu optimizacije sajta za pretraživače.
Da bi se napravio robots.txt fajl dovoljno je koristiti običan Notepad.

Primer jednog osnovnog robots fajla bio bi:
User-agent: *
Disallow: /

Sa ove dve linije zabranjuje se svim pretraživačima da indeksiraju bilo šta sa web sajta. Naravno, ovo je pod pretpostavkom da pretraživač koji je posetio sajt poštuje Robots Exclusion Protocol , što glavni pretraživači i čine (za razliku od spam ili malware botova).
Još neke naredbe koje se mogu napisati u robots.txt fajlu:
User-agent: Googlebot
Disallow: /cgi-bin/ 
Ako bi vam iz nekog razloga ne zelite da Google bot indeksira neki folder, to biste postigli sa gornjom naredbom. Znači, pomoću naredbe Disallow: / može se sakriti od pretraživača neki folder ili neki fajl. Spisak svih web crawlera ili botova možete pogledati na ovoj adresi www.user-agents.org

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Na ovaj način Google robot ima pristup celom sajtu ( samo se izostavi kosa crta / posle Disallow: ) dok je svim ostalim robotima zabranjeno da pristupe.
Robots.txt može biti korisan u raznim situacijama, na primer dok je sajt još uvek u fazi izrade ili testiranja, ako postoje dve verzije istog sajta ili istog fajla, ako ne želite da se neka stranica nadje u rezultatima pretraživanja itd.
Osim posebnog robots.txt fajla koji se postavlja u root direktorijum sajta na web serveru (www.mojwebsajt.com/robots.txt), mogu se koristiti i robots meta tagovi, koji se ubacuju u head deo html dokumenta.

Moguće varijante su:


Prilikom korišćenja robots.txt fajla treba imati u vidu da pojedini roboti mogu jednostavno da ignorišu robots.txt fajl (malware ili spam botovi), kao i da je robots.txt fajl moguće lako videti.
Drugim rečima, ne koristite robots.txt fajl da biste sakrili važne informacije na sajtu.

Par saveta

1. Ne koristite komentare u robots.txt fajlu
Iako su komentari dozvoljeni u okviru robots.txt fajlova, oni ipak mogu zbuniti spajdere nekih pretraživača.
“Disallow: support # “Don’t index the support directory” može biti interpretirano kao “Disallow: support#Don’t index the support directory”

2. Ne menjajte raspored komandi. Nemojte pisati:
Disallow: /kupovina
User-agent: * 
već
User-agent: *
Disallow: /kupovina
 
3. Ne stavljajte više od jednog direktorijuma u jednoj Disallow liniji.
Na primer:
User-agent: *
Disallow: /podrska/cgi-bin/ /images
Roboti pretraživača ne razumeju ovaj format.
Prava sintaksa izgleda ovako:
User-agent: *
Disallow: /kupovina
Disallow: /cgi-bin/
Disallow: /images/ 
4. Ne nabrajajte sve fajlove. Ukoliko želite da spajderi pretraživača ignorišu sve fajlove određenog direktorijuma, ne morate nabrajati sve fajlove.

Primer:
User-agent: *
Disallow: /podrska/narucivanje.html
Disallow: /podrska/pomoc.html
Disallow: /podrska/index.html
Umesto toga, dovoljno je samo:
User-agent: *
Disallow: /podrska
Ne postoji “Allow” komanda
Ne koristite “Allow” komandu u vašem robots.txt fajlu.
Samo navedite fajlove i direktorijume koji ne trebaju biti indeksirani.
Svi ostali fajlovi će automatski biti indeksirani.

I na kraju jedna korisna adresa: Robots.txt Generator