Robots.txt
Ako imate fajl robots.txt, pročitajte nekoliko saveta kako bi izbegli eventualne greške koje ovaj fajl može da sadrži.
Osnovne stvari o fajlu robots.txt
Kada web pretraživač poseti vaš sajt, on prvo traži jedan poseban fajl. Taj fajl nosi naziv robots.txt a njegova je namena da pretraživaču kaže koje strane vašeg sajta treba da budu indeksirane a koje treba da ignoriše.Robots.txt fajl je običan tekstualni fajl (ne HTML) pomoću koga je moguće dati odredjene instrukcije pretraživačima ili web robotima u pogledu toga koje stranice na sajtu da indeksiraju, a koje ne.
Google, Bing, Yahoo… imaju svoje web crawler-e tj. scripte koji pretražuju internet i indeksiraju sve web stranice na koje naiđu.
Pomoću robots.txt fajla moguće je reći Googlu da neku stranicu ili ceo direktorijum ne indeksira i samim tim ne prikazuje u rezultatima pretraživanja.
Dakle, pomoću robots.txt fajla se govori web crawler pretraživača šta da indeksiraju na sajtu a šta ne, tako da je pravljenje ovog fajla jedna od prvih stvari koje se rade u procesu optimizacije sajta za pretraživače.
Da bi se napravio robots.txt fajl dovoljno je koristiti običan Notepad.
Primer jednog osnovnog robots fajla bio bi:
User-agent: * Disallow: /
Sa ove dve linije zabranjuje se svim pretraživačima da indeksiraju bilo šta sa web sajta. Naravno, ovo je pod pretpostavkom da pretraživač koji je posetio sajt poštuje Robots Exclusion Protocol , što glavni pretraživači i čine (za razliku od spam ili malware botova).
Još neke naredbe koje se mogu napisati u robots.txt fajlu:
User-agent: Googlebot Disallow: /cgi-bin/Ako bi vam iz nekog razloga ne zelite da Google bot indeksira neki folder, to biste postigli sa gornjom naredbom. Znači, pomoću naredbe Disallow: / može se sakriti od pretraživača neki folder ili neki fajl. Spisak svih web crawlera ili botova možete pogledati na ovoj adresi www.user-agents.org
User-agent: Googlebot Disallow: User-agent: * Disallow: /Na ovaj način Google robot ima pristup celom sajtu ( samo se izostavi kosa crta / posle Disallow: ) dok je svim ostalim robotima zabranjeno da pristupe.
Robots.txt može biti korisan u raznim situacijama, na primer dok je sajt još uvek u fazi izrade ili testiranja, ako postoje dve verzije istog sajta ili istog fajla, ako ne želite da se neka stranica nadje u rezultatima pretraživanja itd.
Osim posebnog robots.txt fajla koji se postavlja u root direktorijum sajta na web serveru (www.mojwebsajt.com/robots.txt), mogu se koristiti i robots meta tagovi, koji se ubacuju u head deo html dokumenta.
Moguće varijante su:
Prilikom korišćenja robots.txt fajla treba imati u vidu da pojedini roboti mogu jednostavno da ignorišu robots.txt fajl (malware ili spam botovi), kao i da je robots.txt fajl moguće lako videti.
Drugim rečima, ne koristite robots.txt fajl da biste sakrili važne informacije na sajtu.
Par saveta
1. Ne koristite komentare u robots.txt fajluIako su komentari dozvoljeni u okviru robots.txt fajlova, oni ipak mogu zbuniti spajdere nekih pretraživača.
“Disallow: support # “Don’t index the support directory” može biti interpretirano kao “Disallow: support#Don’t index the support directory”
2. Ne menjajte raspored komandi. Nemojte pisati:
Disallow: /kupovina User-agent: *već
User-agent: * Disallow: /kupovina
3. Ne stavljajte više od jednog direktorijuma u jednoj Disallow liniji.
Na primer:
User-agent: * Disallow: /podrska/cgi-bin/ /imagesRoboti pretraživača ne razumeju ovaj format.
Prava sintaksa izgleda ovako:
User-agent: * Disallow: /kupovina Disallow: /cgi-bin/ Disallow: /images/4. Ne nabrajajte sve fajlove. Ukoliko želite da spajderi pretraživača ignorišu sve fajlove određenog direktorijuma, ne morate nabrajati sve fajlove.
Primer:
User-agent: * Disallow: /podrska/narucivanje.html Disallow: /podrska/pomoc.html Disallow: /podrska/index.htmlUmesto toga, dovoljno je samo:
User-agent: * Disallow: /podrskaNe postoji “Allow” komanda
Ne koristite “Allow” komandu u vašem robots.txt fajlu.
Samo navedite fajlove i direktorijume koji ne trebaju biti indeksirani.
Svi ostali fajlovi će automatski biti indeksirani.
I na kraju jedna korisna adresa: Robots.txt Generator
0 komentara: