Roboti koji pišu. Preporuke za postavljanje robots txt datoteke

Prvo ću vam reći šta je robots.txt.

Robots.txt– fajl koji se nalazi u root folderu sajta, gde su napisana posebna uputstva za robote za pretragu. Ova uputstva su neophodna kako robot pri ulasku na sajt ne bi uzeo u obzir stranicu/odeljak drugim rečima, zatvorili stranicu iz indeksiranja.

Zašto vam treba robots.txt?

Datoteka robots.txt smatra se ključnim zahtjevom za SEO optimizaciju apsolutno bilo koje web stranice. Nedostatak ove datoteke može negativno utjecati na opterećenje robota i sporo indeksiranje, a osim toga, stranica neće biti u potpunosti indeksirana. Shodno tome, korisnici neće moći pristupiti stranicama putem Yandex-a i Google-a.

Utjecaj robots.txt na pretraživače?

Pretraživači(posebno Google) će indeksirati stranicu, ali ako nema robots.txt datoteke, onda, kao što sam rekao, ne sve stranice. Ako postoji takva datoteka, onda se roboti rukovode pravilima koja su navedena u ovoj datoteci. Štoviše, postoji nekoliko vrsta robota za pretraživanje, neki mogu uzeti u obzir pravilo, dok ga drugi ignoriraju. Konkretno, robot GoogleBot ne uzima u obzir direktive Host i Crawl-Delay, robot YandexNews je nedavno prestao da uzima u obzir direktivu Crawl-Delay, a roboti YandexDirect i YandexVideoParser zanemaruju općenito prihvaćene direktive u robots.txt (ali uzeti u obzir one koji su napisani posebno za njih).

Stranica se najviše učitava od strane robota koji učitavaju sadržaj sa vaše stranice. Shodno tome, ako kažemo robotu koje stranice da indeksira, a koje da ignoriše, kao i u kojim vremenskim intervalima da učitava sadržaj sa stranica (ovo se više odnosi na velike sajtove koji imaju više od 100.000 stranica u indeksu pretraživača). To će robotu znatno olakšati indeksiranje i preuzimanje sadržaja sa stranice.


Datoteke koje su nepotrebne pretraživačima uključuju datoteke koje pripadaju CMS-u, na primjer, u Wordpress-u – /wp-admin/. Osim toga, ajax, json skripte odgovorne za iskačuće forme, banere, captcha izlaz i tako dalje.

Za većinu robota također preporučujem blokiranje indeksiranja svih Javascript i CSS datoteka. Ali za GoogleBot i Yandex, bolje je indeksirati takve datoteke, jer ih pretraživači koriste za analizu pogodnosti stranice i njenog rangiranja.

Šta je direktiva robots.txt?



Direktive– ovo su pravila za robote za pretraživanje. Prvi standardi za pisanje robots.txt i, shodno tome, pojavili su se 1994. godine, a prošireni standard 1996. godine. Međutim, kao što već znate, ne podržavaju svi roboti određene direktive. Stoga sam u nastavku opisao čime se rukovode glavni roboti prilikom indeksiranja web stranica.

Šta znači korisnički agent?

Ovo je najvažnija direktiva koja određuje koji će roboti za pretraživanje slijediti daljnja pravila.

Za sve robote:

Za određenog bota:

Korisnički agent: Googlebot

Registar u robots.txt nije važan, možete pisati i Googlebot i googlebot

Google roboti za pretragu







Yandex roboti za pretragu

Yandexov glavni robot za indeksiranje

Koristi se u usluzi Yandex.Images

Koristi se u usluzi Yandex.Video

Multimedijalni podaci

Pretraga blogova

Robot za pretraživanje koji pristupa stranici kada je dodaje putem obrasca „Dodaj URL“.

robot koji indeksira ikone web stranice (favikone)

Yandex.Direct

Yandex.Metrica

Koristi se u usluzi Yandex.Catalog

Koristi se u usluzi Yandex.News

YandexImageResizer

Robot za pretraživanje mobilnih usluga

Roboti za pretragu Bing, Yahoo, Mail.ru, Rambler

Disallow i Allow direktive

Disallow blokira indeksiranje odjeljaka i stranica vaše web stranice. U skladu s tim, Allow ih, naprotiv, otvara.

Postoje neke posebnosti.

Prvo, dodatni operatori su *, $ i #. Za šta se koriste?

“*” – ovo je bilo koji broj znakova i njihovo odsustvo. Podrazumevano je već na kraju reda, tako da nema smisla ponovo ga stavljati.

“$” – označava da bi lik prije trebao biti posljednji.

“#” – komentar, robot ne uzima u obzir sve što dolazi nakon ovog simbola.

Primjeri korištenja Disallow:

Disallow: *?s=

Disallow: /kategorija/

U skladu s tim, robot za pretraživanje će zatvoriti stranice kao što su:

Ali stranice poput ove će biti otvorene za indeksiranje:

Sada morate razumjeti kako se izvršavaju pravila gniježđenja. Redosled kojim su direktive napisane je apsolutno važan. Nasljeđivanje pravila je određeno prema tome koji direktoriji su specificirani, odnosno ako želimo blokirati stranicu/dokument od indeksiranja, dovoljno je napisati direktivu. Pogledajmo primjer

Ovo je naš robots.txt fajl

Disallow: /template/

Ova direktiva se također može navesti bilo gdje, a može se navesti i nekoliko datoteka mape stranice.

Direktiva hosta u robots.txt

Ova direktiva je neophodna za označavanje glavnog ogledala stranice (često sa ili bez www). Imajte na umu da je direktiva hosta navedena bez http:// protokola, ali sa https:// protokolom. Direktivu uzimaju u obzir samo pretraživači Yandex i Mail.ru, a drugi roboti, uključujući GoogleBot, neće uzeti u obzir pravilo. Host treba jednom navesti u datoteci robots.txt

Primjer sa http://

Domaćin: website.ru

Primjer sa https://

Direktiva odgode puzanja

Postavlja vremenski interval za indeksiranje stranica web stranice od strane robota za pretraživanje. Vrijednost je prikazana u sekundama i milisekundama.

primjer:

Koristi se uglavnom na velikim internet prodavnicama, informativnim sajtovima, portalima, gde je posećenost sajta od 5.000 dnevno. Neophodno je da robot za pretraživanje u određenom vremenskom periodu napravi zahtjev za indeksiranje. Ako ova direktiva nije navedena, može stvoriti ozbiljno opterećenje na serveru.

Optimalna vrijednost kašnjenja indeksiranja je različita za svaku lokaciju. Za pretraživače Mail, Bing, Yahoo, vrijednost se može podesiti na minimalnu vrijednost od 0,25, 0,3, pošto ovi roboti pretraživača mogu indeksirati vašu stranicu jednom mjesečno, 2 mjeseca i tako dalje (vrlo rijetko). Za Yandex je bolje postaviti višu vrijednost.


Ako je opterećenje vaše stranice minimalno, onda nema smisla navoditi ovu direktivu.

Clean-param direktiva

Pravilo je zanimljivo jer govori indeksiranju da stranice sa određenim parametrima ne moraju biti indeksirane. Navedena su dva argumenta: URL stranice i parametar. Ovu direktivu podržava Yandex pretraživač.

primjer:

Disallow: /admin/

Disallow: /plugins/

Zabraniti: /traži/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

Korisnički agent: GoogleBot

Disallow: /admin/

Disallow: /plugins/

Zabraniti: /traži/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

Dozvoli: /plugins/*.css

Dozvoli: /plugins/*.js

Dozvoli: /plugins/*.png

Dozvoli: /plugins/*.jpg

Dozvoli: /plugins/*.gif

Korisnički agent: Yandex

Disallow: /admin/

Disallow: /plugins/

Zabraniti: /traži/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

Dozvoli: /plugins/*.css

Dozvoli: /plugins/*.js

Dozvoli: /plugins/*.png

Dozvoli: /plugins/*.jpg

Dozvoli: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

U primjeru smo zapisali pravila za 3 različita bota.

Gdje dodati robots.txt?

Dodano u korijenski folder stranice. Osim toga, tako da možete pratiti link:

Kako provjeriti robots.txt?

Yandex Webmaster

Na kartici Alati odaberite Robots.txt Analiza, a zatim kliknite na provjeri

Google Search Console

Na kartici Skeniranje izabrati Alat za pregled datoteka Robots.txt a zatim kliknite na provjeri.

zaključak:

Datoteka robots.txt mora biti prisutna na svakoj web stranici koja se promovira, a samo njena ispravna konfiguracija će vam omogućiti da dobijete potrebno indeksiranje.

I na kraju, ako imate bilo kakvih pitanja, postavite ih u komentarima ispod članka i također se pitam, kako se piše robots.txt?

Zdravo! Bilo je trenutaka u mom životu kada nisam znao apsolutno ništa o kreiranju web stranica, a sigurno nisam imao pojma o postojanju datoteke robots.txt.

Kada je jednostavno zanimanje preraslo u ozbiljan hobi, pojavila se snaga i želja za proučavanjem svih zamršenosti. Na forumima možete pronaći mnoge teme vezane za ovaj fajl, zašto? Jednostavno je: robots.txt reguliše pristup pretraživača sajtu, upravlja indeksiranjem, a to je veoma važno!

Robots.txt je tekstualna datoteka dizajnirana da ograniči pristup robota za pretraživanje odjeljcima i stranicama web-mjesta koje je potrebno isključiti iz pretraživanja i rezultata pretraživanja.

Zašto sakriti određeni sadržaj web stranice? Malo je vjerovatno da ćete biti sretni ako robot za pretraživanje indeksira datoteke administracije stranice, koje mogu sadržavati lozinke ili druge osjetljive informacije.

Postoje različite direktive za regulisanje pristupa:

  • Korisnički agent - korisnički agent za koji su specificirana pravila pristupa,
  • Disallow - zabranjuje pristup URL-u,
  • Dozvoli - omogućava pristup URL-u,
  • Sitemap - označava put do,
  • Odgoda indeksiranja - postavlja interval indeksiranja URL-a (samo za Yandex),
  • Clean-param - zanemaruje dinamičke parametre URL-a (samo za Yandex),
  • Host - označava glavno ogledalo stranice (samo za Yandex).

Napominjemo da je od 20. marta 2018. Yandex službeno prestao podržavati direktivu Host. Može se ukloniti iz robots.txt, a ako se ostavi, robot će ga jednostavno ignorirati.

Datoteka se mora nalaziti u korijenskom direktoriju stranice. Ako stranica ima poddomene, tada se za svaku poddomenu kompajlira vlastiti robots.txt.

Uvijek treba imati na umu sigurnost. Ovu datoteku može vidjeti bilo tko, tako da nema potrebe za specificiranjem eksplicitne putanje do administrativnih resursa (kontrolne ploče, itd.) u njoj. Kako kažu, što manje znaš, to bolje spavaš. Stoga, ako nema linkova na stranicu i ne želite je indeksirati, onda je ne morate registrirati u robotima, ionako je niko neće pronaći, čak ni roboti pauci.

Kada robot za pretraživanje indeksira web lokaciju, prvo provjerava prisutnost robots.txt datoteke na web lokaciji, a zatim slijedi njegove direktive prilikom indeksiranja stranica.

Odmah želim napomenuti da pretraživači drugačije tretiraju ovaj fajl. Na primjer, Yandex bezuvjetno slijedi svoja pravila i isključuje zabranjene stranice iz indeksiranja, dok Google ovaj fajl doživljava kao preporuku i ništa više.

Da biste zabranili indeksiranje stranica, možete koristiti druga sredstva:

  • preusmjeriti ili u direktorij koristeći .htaccess datoteku,
  • noindex meta tag (ne treba ga brkati sa zabraniti indeksiranje dijela teksta),
  • atribut za linkove, kao i uklanjanje linkova na nepotrebne stranice.

Istovremeno, Google može uspješno dodati stranice kojima je zabranjeno indeksiranje u rezultate pretraživanja, uprkos svim ograničenjima. Njegov glavni argument je da ako je stranica povezana, onda se može pojaviti u rezultatima pretraživanja. U ovom slučaju, preporučljivo je ne povezivati ​​se na takve stranice, ali izvinite, datoteka robots.txt je upravo namijenjena da takve stranice isključi iz rezultata pretraživanja... Po mom mišljenju, nema logike 🙄

Uklanjanje stranica iz pretrage

Ako su zabranjene stranice i dalje indeksirane, tada trebate koristiti Google Search Console i uključeni alat za uklanjanje URL-ova:

Sličan alat dostupan je u Yandex Webmasteru. Pročitajte više o uklanjanju stranica iz indeksa tražilice u posebnom članku.

Provjera robots.txt

Nastavljajući temu s Googleom, možete koristiti drugi alat Search Console i provjeriti datoteku robots.txt da vidite da li je ispravno kompajlirana kako bi se spriječilo indeksiranje određenih stranica:

Da biste to učinili, jednostavno unesite URL-ove koje je potrebno provjeriti u tekstualno polje i kliknite na dugme Provjeri - kao rezultat provjere će se otkriti da li je ovoj stranici zabranjeno indeksiranje ili je njen sadržaj dostupan robotima za pretraživanje .

Yandex također ima sličan alat koji se nalazi u Webmasteru, provjera se vrši na sličan način:

Ako ne znate kako ispravno kreirati datoteku, jednostavno kreirajte prazan tekstualni dokument s imenom robots.txt, i dok proučavate karakteristike CMS-a i strukture sajta, dopunite ga potrebnim direktivama.

Za informacije o tome kako pravilno kompajlirati datoteku, slijedite vezu. Vidimo se!

Robots.txt fajl— tekstualni fajl u .txt formatu koji ograničava pristup robotima za pretragu sadržaju na http serveru. Kako definicija, Robots.txt- Ovo Standard izuzetaka robota, koji je usvojio W3C 30. januara 1994. godine i koji većina pretraživača dobrovoljno koristi. Datoteka robots.txt sastoji se od skupa uputstava za robote za pretraživanje kako bi spriječili indeksiranje određenih datoteka, stranica ili direktorija na web mjestu. Razmotrimo opis robots.txt za slučaj kada stranica ne ograničava robotima pristup stranici.

Jednostavan primjer robots.txt:

Korisnički agent: * Dozvoli: /

Ovdje roboti u potpunosti omogućavaju indeksiranje cijele stranice.

Datoteka robots.txt mora biti učitana u korijenski direktorij vaše stranice tako da je dostupan na:

Your_site.ru/robots.txt

Postavljanje datoteke robots.txt u korijen stranice obično zahtijeva FTP pristup. Međutim, neki sistemi upravljanja (CMS) omogućavaju kreiranje robots.txt direktno sa kontrolne table lokacije ili preko ugrađenog FTP menadžera.

Ako je datoteka dostupna, vidjet ćete sadržaj robots.txt u pretraživaču.

Čemu služi robots.txt?

Roots.txt za web lokaciju je važan aspekt. Zašto vam treba robots.txt?? Na primjer, u SEO robots.txt je potreban da se iz indeksiranja izuzmu stranice koje ne sadrže koristan sadržaj i još mnogo toga.. Kako, šta, zašto i zašto je isključeno već je opisano u članku o tome, ovdje se nećemo zadržavati. Da li je neophodna datoteka robots.txt? na sve stranice? Da i ne. Ako korištenje robots.txt podrazumijeva isključivanje stranica iz pretraživanja, onda za male web stranice sa jednostavnom strukturom i statičnim stranicama takva izuzimanja mogu biti nepotrebna. Međutim, neki mogu biti korisni za malu web lokaciju robots.txt direktive, na primjer direktiva Host ili Sitemap, ali više o tome u nastavku.

Kako kreirati robots.txt

Zato što je robots.txt tekstualna datoteka i to kreirajte robots.txt datoteku, možete koristiti bilo koji uređivač teksta, na primjer Notepad. Nakon što ste otvorili novi tekstualni dokument, već ste započeli kreiranje robots.txt, preostaje vam samo da komponujete njegov sadržaj, ovisno o vašim zahtjevima, i sačuvate ga kao tekstualnu datoteku koja se zove roboti u txt formatu. Sve je jednostavno, a kreiranje robots.txt datoteke ne bi trebalo stvarati probleme čak ni početnicima. U nastavku ću vam pokazati kako sastaviti robots.txt i šta napisati u robotima koristeći primjere.

Kreirajte robots.txt na mreži

Opcija za lijene - kreirajte robote na mreži i preuzmite datoteku robots.txt već u gotovom obliku. Kreiranje robota txt online nudi mnoge usluge, izbor je na vama. Glavna stvar je jasno razumjeti šta će u suprotnom biti zabranjeno, a šta dozvoljeno kreiranje robots.txt datoteke na mreži može se pretvoriti u tragediju, što kasnije može biti teško ispraviti. Pogotovo ako pretraga uključuje nešto što je trebalo zatvoriti. Budite oprezni - provjerite svoju datoteku robota prije nego što je otpremite na stranicu. Ipak prilagođena datoteka robots.txt preciznije odražava strukturu ograničenja od one koja je automatski generirana i preuzeta s druge stranice. Čitajte dalje da biste saznali na šta treba obratiti posebnu pažnju prilikom uređivanja robots.txt.

Uređivanje robots.txt

Nakon što ste uspjeli kreirati robots.txt datoteku na mreži ili vlastitim rukama, možete uredi robots.txt. Njegov sadržaj možete mijenjati po želji, najvažnije je da se pridržavate nekih pravila i sintakse robots.txt. Dok radite na web stranici, datoteka robots se može promijeniti, a ako uređujete robots.txt, ne zaboravite učitati ažuriranu, trenutnu verziju datoteke sa svim promjenama na stranici. Zatim, pogledajmo pravila za postavljanje datoteke tako da znamo kako promijeniti robots.txt datoteku i "ne cijepaj drva."

Ispravna postavka robots.txt

Ispravna postavka robots.txt omogućava vam da izbjegnete ulazak privatnih informacija u rezultate pretraživanja glavnih pretraživača. Međutim, to ne treba zaboraviti Naredbe robots.txt nisu ništa drugo do vodič za akciju, a ne zaštita. Roboti iz pouzdanih pretraživača kao što su Yandex ili Google slijede upute robots.txt, ali ih drugi roboti lako mogu zanemariti. Ispravno razumijevanje i primjena robots.txt je ključ za postizanje rezultata.

Razumjeti kako napraviti ispravan txt robota, prvo morate razumjeti opća pravila, sintaksu i direktive datoteke robots.txt.

Ispravan robots.txt počinje direktivom User-agent, koji ukazuje na koje su direktive specifične za robote upućene.

Primjeri korisničkog agenta u robots.txt:

# Označava direktive za sve robote u isto vrijeme Korisnički agent: * # Označava direktive za sve Yandex robote Korisnički agent: Yandex # Označava direktive samo za glavnog Yandex robota za indeksiranje Korisnički agent: YandexBot # Označava direktive za sve Google robote Korisnik -agent: Googlebot

Imajte na umu da je takva postavljanje datoteke robots.txt govori robotu da koristi samo direktive koje odgovaraju korisničkom agentu s njegovim imenom.

Primjer robots.txt s višestrukim pojavljivanjem User-agenta:

# Koristit će ga svi Yandex roboti. agent: * Dozvoli: / *utm_

Direktiva korisnik-agent kreira samo instrukciju određenom robotu, a odmah nakon User-agent direktive treba da stoji komanda ili komande koje direktno ukazuju na stanje za izabranog robota. Gornji primjer koristi direktivu "Disallow", koja ima vrijednost "/*utm_". Time zatvaramo sve. Ispravno postavljanje robots.txt zabranjuje prisustvo praznih prijeloma reda između direktiva „User-agent“, „Disallow“ i direktiva koje slijede „Disallow“ unutar trenutnog „User-agenta“.

Primjer pogrešnog dodavanja reda u robots.txt:

Primjer ispravnog dodavanja reda u robots.txt:

Korisnički agent: Yandex Disallow: /*utm_ Dozvoli: /*id= Korisnički agent: * Disallow: /*utm_ Dozvoli: /*id=

Kao što se može vidjeti iz primjera, uputstva u robots.txt dolaze u blokovima, od kojih svaki sadrži upute za određenog robota ili za sve robote "*".

Također je važno osigurati ispravan redoslijed i sortiranje naredbi u robots.txt kada zajedno koristite direktive kao što su "Disallow" i "Allow". Direktiva “Allow” je dopuštena direktiva i suprotna je naredbi robots.txt “Disallow”, zabranjujućoj direktivi.

Primjer zajedničkog korištenja direktiva u robots.txt:

Korisnički agent: * Dozvoli: /blog/stranica Disallow: /blog

Ovaj primjer sprječava sve robote da indeksiraju sve stranice koje počinju sa “/blog”, ali dozvoljava da se indeksiraju sve stranice koje počinju sa “/blog/page”.

Prethodni primjer robots.txt u ispravnom sortiranju:

Korisnički agent: * Disallow: /blog Dozvoli: /blog/page

Prvo zabranjujemo cijeli dio, a zatim dozvoljavamo neke njegove dijelove.

Drugi ispravan primjer robots.txt sa zajedničkim direktivama:

Korisnički agent: * Dozvoli: / Disallow: /blog Dozvoli: /blog/stranica

Obratite pažnju na ispravan slijed direktiva u ovoj robots.txt.

“Allow” i “Disallow” direktive se mogu specificirati bez parametara, u kom slučaju će vrijednost biti interpretirana obrnuto od parametra “/”.

Primjer "Disallow/Allow" direktive bez parametara:

Korisnički agent: * Disallow: # ekvivalentno Dozvoli: / Disallow: /blog Dozvoli: /blog/page

Kako kreirati ispravan robots.txt a kako ćete koristiti tumačenje direktiva je vaš izbor. Obje opcije će biti ispravne. Glavna stvar je da se ne zbunite.

Da biste ispravno sastavili robots.txt, potrebno je u parametrima direktiva precizno naznačiti prioritete i šta će roboti zabraniti za preuzimanje. U nastavku ćemo detaljnije pogledati upotrebu direktiva “Disallow” i “Allow”, ali sada ćemo pogledati sintaksu datoteke robots.txt. Poznavanje sintakse robots.txt će vas približiti kreirajte savršene robote txt vlastitim rukama.

Sintaksa robots.txt

Roboti pretraživača dobrovoljno slijede komande robots.txt- standard za iznimke robota, ali svi pretraživači ne tretiraju sintaksu robots.txt na isti način. Datoteka robots.txt ima strogo definiranu sintaksu, ali u isto vrijeme pisati robots txt nije teško, jer je njegova struktura vrlo jednostavna i lako razumljiva.

Evo određene liste jednostavnih pravila, slijedeći koja ćete eliminirati uobičajene greške robots.txt:

  1. Svaka direktiva počinje u novom redu;
  2. Nemojte specificirati više od jedne direktive u jednom redu;
  3. Ne stavljajte razmak na početak reda;
  4. Parametar direktive mora biti u jednom redu;
  5. Nema potrebe stavljati parametre direktive u navodnike;
  6. Parametri direktive ne zahtijevaju zadnje točke i zareze;
  7. Komanda u robots.txt je specificirana u formatu - [ime_direktive]:[opcijski prostor][vrijednost][opcijski razmak];
  8. Komentari su dozvoljeni u robots.txt nakon znaka #;
  9. Prazan prijelom reda može se protumačiti kao kraj direktive User-agent;
  10. Direktiva “Disallow:” (sa praznom vrijednošću) je ekvivalentna “Allow: /” - dozvoli sve;
  11. “Allow” i “Disallow” direktive ne specificiraju više od jednog parametra;
  12. Naziv datoteke robots.txt ne dozvoljava velika slova, pogrešno je napisano ime datoteke Robots.txt ili ROBOTS.TXT;
  13. Pisanje imena direktiva i parametara velikim slovima smatra se lošim oblikom, pa čak i ako robots.txt prema standardu ne razlikuje velika i mala slova, nazivi datoteka i direktorija često su osjetljivi na velika i mala slova;
  14. Ako je parametar direktive direktorij, tada imenu direktorija uvijek prethodi kosa crta “/”, na primjer: Disallow: /category
  15. Preveliki robots.txt (više od 32 KB) smatra se potpuno dopuštenim, što je ekvivalentno “Disallow:”;
  16. Robots.txt koji je nedostupan iz bilo kojeg razloga može se protumačiti kao potpuno dopušten;
  17. Ako je robots.txt prazan, tada će se tretirati kao potpuno dopušteno;
  18. Kao rezultat navođenja više direktiva "User-agent" bez prazne linije, sve naredne direktive "User-agent" osim prve mogu se zanemariti;
  19. Upotreba bilo kakvih znakova iz nacionalnih abeceda u robots.txt nije dozvoljena.

Budući da različiti pretraživači mogu različito tumačiti sintaksu robots.txt, neke klauzule se mogu izostaviti. Na primjer, ako unesete nekoliko direktiva “User-agent” bez praznog prijeloma reda, sve direktive “User-agent” će Yandex ispravno interpretirati, budući da Yandex odabire zapise na osnovu njihovog prisustva u redu “User-agent”.

Roboti trebaju striktno naznačiti samo ono što je potrebno i ništa suvišno. Nemoj misliti kako sve napisati u robots txt, šta je moguće i kako to popuniti. Idealni roboti txt je onaj s manje redaka, ali više značenja. "Kratkoća je duša duhovitosti". Ovaj izraz ovdje dobro dođe.

Kako provjeriti robots.txt

Da bi provjeri robots.txt Da biste provjerili ispravnost sintakse i strukture datoteke, možete koristiti jedan od online servisa. Na primjer, Yandex i Google nude vlastite usluge za webmastere, koje uključuju analiza robots.txt:

Provjera datoteke robots.txt u Yandex.Webmasteru: http://webmaster.yandex.ru/robots.xml

Da bi provjerite robots.txt na mreži neophodno prenesite robots.txt na stranicu u korijenskom direktoriju. U suprotnom, služba to može prijaviti nije uspio učitati robots.txt. Preporučuje se da prvo provjerite dostupnost robots.txt na adresi na kojoj se datoteka nalazi, na primjer: your_site.ru/robots.txt.

Osim usluga verifikacije od Yandexa i Googlea, postoje mnoge druge na mreži robots.txt validatori.

Robots.txt u odnosu na Yandex i Google

Postoji subjektivno mišljenje da Yandex naznaku zasebnog bloka direktiva "Korisnički agent: Yandex" u robots.txt doživljava pozitivnije nego opći blok direktiva s "Korisnički agent: *". Slična je situacija i sa robots.txt i Google-om. Navođenje zasebnih direktiva za Yandex i Google omogućava vam da kontrolirate indeksiranje web stranice putem robots.txt. Možda im lično laska ova žalba, pogotovo jer će za većinu stranica sadržaj blokova robots.txt Yandexa, Googlea i drugih pretraživača biti isti. Uz rijetke izuzetke, svi blokovi "User-agent" će imati standard za robots.txt set direktiva. Takođe, koristeći različite "korisničke agente" možete instalirati zabrana indeksiranja u robots.txt za Yandex, ali, na primjer, ne za Google.

Zasebno, vrijedno je napomenuti da Yandex uzima u obzir tako važnu direktivu kao što je "Host", a ispravan robots.txt za Yandex bi trebao uključivati ​​ovu direktivu kako bi označio glavno ogledalo stranice. U nastavku ćemo detaljnije pogledati direktivu "Host".

Onemogući indeksiranje: robots.txt Disallow

Disallow - zabranjujuća direktiva, koji se najčešće koristi u datoteci robots.txt. Disallow sprečava indeksiranje stranice ili njegovog dijela, ovisno o putanji navedenoj u parametru Disallow direktive.

Primjer kako spriječiti indeksiranje stranice u robots.txt:

Korisnički agent: * Disallow: /

Ovaj primjer blokira indeksiranje cijele stranice za sve robote.

Parametar direktive Disallow dozvoljava upotrebu posebnih znakova * i $:

* - bilo koji broj bilo kojeg karaktera, na primjer, /page* parametar zadovoljava /page, /page1, /page-be-cool, /page/kak-skazat, itd. Međutim, nema potrebe specificirati * na kraju svakog parametra, jer se na primjer sljedeće direktive tumače isto:

Korisnički agent: Yandex Disallow: /stranica Korisnički agent: Yandex Disallow: /stranica*

$ - označava tačno podudaranje izuzetka sa vrijednosti parametra:

Korisnički agent: Googlebot Disallow: /page$

U ovom slučaju, direktiva Disallow će zabraniti /page, ali neće zabraniti indeksiranje stranice /page1, /page-be-cool ili /page/kak-skazat.

Ako zatvori indeksiranje web stranice robots.txt, pretraživači mogu odgovoriti na ovaj potez greškom “Blokirano u datoteci robots.txt” ili “url ograničeno robots.txt” (url zabranjen fajlom robots.txt). Ako trebaš onemogući indeksiranje stranica, možete koristiti ne samo robote txt, već i slične html oznake:

  • - ne indeksirajte sadržaj stranice;
  • - nemojte pratiti linkove na stranici;
  • - zabranjeno je indeksirati sadržaj i pratiti linkove na stranici;
  • - slično content="none".

Dozvoli indeksiranje: robots.txt Dozvoli

Dozvoli - dopuštena direktiva i suprotno od Disallow direktive. Ova direktiva ima sintaksu sličnu Disallow.

Primjer kako zabraniti indeksiranje web stranice osim nekih stranica u robots.txt:

Korisnički agent: * Disallow: /Dozvoli: /stranica

Zabranjeno je indeksiranje cijele stranice, osim stranica koje počinju sa /page.

Disallow i Allow s praznom vrijednošću parametra

Ispraznite Disallow direktivu:

Korisnički agent: * Disallow:

Nemojte ništa zabranjivati ​​niti dozvoliti indeksiranje cijele stranice i jednako je:

Korisnički agent: * Dozvoli: /

Isprazni direktivu o dozvoli:

Korisnički agent: * Dozvoli:

Ne dopuštati ništa ili potpuno zabranjivati ​​indeksiranje web stranica je ekvivalentno:

Korisnički agent: * Disallow: /

Glavno ogledalo stranice: robots.txt Host

Direktiva Host se koristi da Yandex robotu ukaže na glavno ogledalo vaše stranice. Od svih popularnih pretraživača, direktiva Host prepoznaju samo Yandex roboti. Direktiva Host je korisna ako je vašoj web stranici dostupno preko nekoliko kanala, na primjer:

Mysite.ru mysite.com

Ili da odredite prioritet između:

Mysite.ru www.mysite.ru

Yandex robotu možete reći koje je ogledalo glavno. Direktiva Host je naznačena u bloku direktive “User-agent: Yandex” i kao parametar je naznačena preferirana adresa web mjesta bez “http://”.

Primjer robots.txt koji ukazuje na glavno ogledalo:

Korisnički agent: Yandex Disallow: /page Host: mysite.ru

Ime domene mysite.ru bez www je naznačeno kao glavno ogledalo. Stoga će ova vrsta adrese biti naznačena u rezultatima pretrage.

Korisnički agent: Yandex Disallow: /page Host: www.mysite.ru

Ime domene www.mysite.ru je naznačeno kao glavno ogledalo.

Host direktiva u datoteci robots.txt može se koristiti samo jednom, ali ako je Host direktiva specificirana više puta, samo će prva biti uzeta u obzir, ostale Host direktive će biti zanemarene.

Ako želite da odredite glavno ogledalo za Googlebot, koristite uslugu Google Webmaster Tools.

Mapa sajta: robots.txt mapa sajta

Koristeći Sitemap direktivu, možete odrediti lokaciju na web mjestu u robots.txt.

Primjer robots.txt koji ukazuje na adresu mape web lokacije:

User-agent: * Disallow: /page Sitemap: http://www.mysite.ru/sitemap.xml

Određivanje adrese mape sajta putem Sitemap direktiva u robots.txt omogućava robotu za pretragu da sazna o prisutnosti mape sajta i počne da je indeksira.

Clean-param direktiva

Direktiva Clean-param vam omogućava da isključite stranice sa dinamičkim parametrima iz indeksiranja. Slične stranice mogu poslužiti isti sadržaj, ali imaju različite URL-ove stranica. Jednostavno rečeno, kao da je stranica dostupna na različitim adresama. Naš zadatak je da uklonimo sve nepotrebne dinamičke adrese, kojih može biti milion. Da bismo to učinili, isključujemo sve dinamičke parametre, koristeći Clean-param direktivu u robots.txt.

Sintaksa Clean-param direktive je:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Put]

Pogledajmo primjer stranice sa sljedećim URL-om:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Primjer robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # samo za stranicu.html

Clean-param: parm1&parm2&parm3 / # za sve

Direktiva odgode puzanja

Ovo uputstvo vam omogućava da smanjite opterećenje servera ako roboti prečesto posećuju vašu stranicu. Ova direktiva je relevantna uglavnom za sajtove sa velikim brojem stranica.

Primjer robots.txt Odlaganje indeksiranja:

Korisnički agent: Yandex Disallow: /stranica Odlaganje indeksiranja: 3

U ovom slučaju, "tražimo" Yandex robote da preuzmu stranice naše stranice najviše jednom u tri sekunde. Neki pretraživači podržavaju format razlomaka kao parametar Crawl-dey robots.txt direktive.

Jedna od faza optimizacije sajta za pretraživače je kompajliranje datoteke robots.txt. Koristeći ovu datoteku, možete spriječiti neke ili sve robote za pretraživanje da indeksiraju vašu web lokaciju ili određene njene dijelove koji nisu namijenjeni za indeksiranje. Konkretno, možete spriječiti da se duplirani sadržaj indeksira, kao što su verzije stranica za štampanje.

Prije početka indeksiranja, roboti za pretraživanje uvijek upućuju na datoteku robots.txt u korijenskom direktoriju vaše stranice, na primjer, http://site.ru/robots.txt, kako bi znali koji su dijelovi web stranice robotu zabranjeni od indeksiranja. Ali čak i ako nećete ništa zabraniti, ipak se preporučuje da kreirate ovu datoteku.

Kao što možete vidjeti iz ekstenzije robots.txt, ovo je tekstualni fajl. Da biste kreirali ili uredili ovu datoteku, bolje je koristiti najjednostavnije uređivače teksta kao što je Notepad. robots.txt mora biti smješten u korijenskom direktoriju stranice i ima svoj vlastiti format, o čemu ćemo govoriti u nastavku.

Format datoteke Robots.txt

Datoteka robots.txt mora sadržavati najmanje dva potrebna unosa. Prva je direktiva User-agent koja pokazuje koji robot za pretragu treba da prati sledeća uputstva. Vrijednost može biti ime robota (googlebot, Yandex, StackRambler) ili simbol * ako pristupate svim robotima odjednom. Na primjer:

Korisnički agent: googlebot

Naziv robota možete pronaći na web stranici odgovarajuće tražilice. Zatim bi trebala postojati jedna ili više Disallow direktiva. Ove direktive govore robotu koje datoteke i foldere nije dozvoljeno indeksirati. Na primjer, sljedeće linije sprječavaju robote da indeksiraju feedback.php datoteku i cgi-bin direktorij:

Disallow: /feedback.php Disallow: /cgi-bin/

Također možete koristiti samo početne znakove datoteka ili foldera. Red Disallow: /forum zabranjuje indeksiranje svih fajlova i fascikli u korenu sajta čije ime počinje sa forum, na primer, fajl http://site.ru/forum.php i folder http://site. ru/forum/ sa svim sadržajem. Ako je Disallow prazan, to znači da robot može indeksirati sve stranice. Ako je vrijednost Disallow simbol /, to znači da je čitava web stranica zabranjena za indeksiranje.

Za svako polje User-agent mora postojati barem jedno Disallow polje. Odnosno, ako nećete ništa zabraniti za indeksiranje, onda bi datoteka robots.txt trebala sadržavati sljedeće unose:

Korisnički agent: * Disallow:

Dodatne direktive

Pored regularnih izraza, Yandex i Google dozvoljavaju upotrebu direktive Allow, koja je suprotna od Disallow, odnosno označava koje stranice mogu biti indeksirane. U sljedećem primjeru, Yandexu je zabranjeno da indeksira sve osim adresa stranica koje počinju sa /articles:

Korisnički agent: Yandex Dozvoli: /articles Disallow: /

U ovom primjeru, direktiva Allow mora biti napisana prije Disallow, inače će Yandex ovo shvatiti kao potpunu zabranu indeksiranja stranice. Prazna direktiva Allow također potpuno onemogućuje indeksiranje stranice:

Korisnički agent: Yandex Dozvoli:

ekvivalentno

Korisnički agent: Yandex Disallow: /

Nestandardne direktive moraju biti specificirane samo za one pretraživače koji ih podržavaju. U suprotnom, robot koji ne razumije ovaj unos može pogrešno obraditi njega ili cijelu datoteku robots.txt. Više informacija o dodatnim direktivama i općenito o razumijevanju naredbi u datoteci robots.txt od strane pojedinačnog robota može se pronaći na web stranici odgovarajuće tražilice.

Regularni izrazi u robots.txt

Većina pretraživača uzima u obzir samo eksplicitno određena imena datoteka i fascikli, ali postoje i napredniji pretraživači. Google Robot i Yandex Robot podržavaju upotrebu jednostavnih regularnih izraza u robots.txt, što značajno smanjuje količinu posla za webmastere. Na primjer, sljedeće naredbe sprječavaju Googlebot-a da indeksira sve datoteke s ekstenzijom .pdf:

Korisnički agent: googlebot Disallow: *.pdf$

U gornjem primjeru, * je bilo koji niz znakova, a $ označava kraj veze.

Korisnički agent: Yandex Dozvoli: /articles/*.html$ Disallow: /

Gore navedene direktive dozvoljavaju Yandexu da indeksira samo datoteke sa ekstenzijom ".html" koje se nalaze u folderu /articles/. Sve ostalo je zabranjeno za indeksiranje.

Mapa sajta

Možete odrediti lokaciju XML sitemapa u datoteci robots.txt:

Korisnički agent: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Ako imate jako veliki broj stranica na vašoj web lokaciji i morali ste podijeliti sitemap na dijelove, tada morate navesti sve dijelove mape u datoteci robots.txt:

Korisnički agent: Yandex Disallow: Mapa sajta: http://mysite.ru/my_sitemaps1.xml Mapa sajta: http://mysite.ru/my_sitemaps2.xml

Site mirrors

Kao što znate, obično se istom sajtu može pristupiti na dve adrese: i sa www i bez njega. Za robota za pretraživanje, site.ru i www.site.ru su različite stranice, ali sa istim sadržajem. Zovu se ogledala.

Zbog činjenice da postoje veze ka stranicama stranice i sa i bez www, težina stranica se može podijeliti između www.site.ru i site.ru. Da se to ne bi dogodilo, pretraživač treba da naznači glavno ogledalo stranice. Kao rezultat „lepljenja“, sva težina će pripadati jednom glavnom ogledalu i sajt će moći da zauzme višu poziciju u rezultatima pretrage.

Možete odrediti glavno ogledalo za Yandex direktno u datoteci robots.txt koristeći Host direktivu:

Korisnički agent: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Host: www.site.ru

Nakon lijepljenja, ogledalo www.site.ru će imati svu težinu i zauzet će višu poziciju u rezultatima pretraživanja. I tražilica uopće neće indeksirati site.ru.

Za druge pretraživače, izbor glavnog ogledala je trajno preusmeravanje na strani servera (šifra 301) sa dodatnih ogledala na glavno. Ovo se radi pomoću datoteke .htaccess i modula mod_rewrite. Da biste to učinili, stavite .htaccess datoteku u korijen stranice i tamo napišite sljedeće:

RewriteEngine On Opcije +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Kao rezultat toga, svi zahtjevi sa site.ru ići će na www.site.ru, odnosno site.ru/page1.php će biti preusmjereni na www.site.ru/page1.php.

Metoda preusmjeravanja će raditi za sve pretraživače i pretraživače, ali se i dalje preporučuje dodavanje direktive Host u datoteku robots.txt za Yandex.

Komentari u robots.txt

Također možete dodati komentare u datoteku robots.txt - oni počinju simbolom # i završavaju se novim redom. Komentare je preporučljivo pisati u posebnom redu, ili ih je bolje uopće ne koristiti.

Primjer korištenja komentara:

User-agent: StackRambler Disallow: /garbage/ # nema ništa korisno u ovoj fascikli Disallow: /doc.xhtml # i na ovoj stranici # i svi komentari u ovoj datoteci su takođe beskorisni

Primjeri datoteka robots.txt

1. Dozvolite svim robotima da indeksiraju sve dokumente stranice:

Korisnički agent: * Disallow:
Korisnički agent: * Disallow: /

3. Zabranjujemo Google robotu za pretraživanje da indeksira datoteku feedback.php i sadržaj direktorija cgi-bin:

Korisnički agent: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Dozvoljavamo svim robotima da indeksiraju cijelu stranicu i zabranjujemo robotu Yandex tražilice da indeksira datoteku feedback.php i sadržaj direktorija cgi-bin:

Korisnički agent: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Host: www.site.ru Korisnički agent: * Disallow:

5. Dozvoljavamo svim robotima da indeksiraju cijelu stranicu, a Yandex robotu dozvoljavamo da indeksira samo dio stranice namijenjen za njega:

Korisnički agent: Yandex Dozvoli: /yandex Disallow: / Host: www.site.ru Korisnički agent: * Disallow:

Prazne linije razdvajaju ograničenja za različite robote. Svaki blok ograničenja mora početi redom s poljem User-Agent, koji označava robota na kojeg se primjenjuju ova pravila indeksiranja web mjesta.

Uobičajene greške

Važno je uzeti u obzir da je prazan red u datoteci robots.txt separator između dva unosa za različite robote. Također ne možete specificirati više direktiva u jednoj liniji. Kada sprječavaju indeksiranje datoteke, webmasteri često izostavljaju / ispred naziva datoteke.

Nema potrebe da u robots.txt navedete zabranu indeksiranja stranice za različite programe koji su dizajnirani za potpuno preuzimanje stranice, na primjer TeleportPro. Ni programi za preuzimanje ni pretraživači nikada ne gledaju ovu datoteku i ne izvršavaju uputstva koja su tamo zapisana. Namijenjen je isključivo pretraživačima. Također ne biste trebali blokirati admin panel svoje stranice u robots.txt, jer ako nigdje nema linka do njega, onda neće biti indeksiran. Otkrit ćete lokaciju administrativnog područja samo ljudima koji ne bi trebali znati za to. Također je vrijedno zapamtiti da pretraživač robots.txt koji je prevelik može zanemariti. Ako imate previše stranica koje nisu namijenjene za indeksiranje, onda je bolje da ih jednostavno uklonite sa stranice ili ih premjestite u poseban direktorij i spriječite indeksiranje ovog direktorija.

Provjeravam greške u fajlu robots.txt

Obavezno provjerite kako pretraživači razumiju vašu datoteku robota. Da biste provjerili Google, možete koristiti Google Webmaster Tools. Ako želite da saznate kako Yandex razumije vašu datoteku robots.txt, možete koristiti uslugu Yandex.Webmaster. To će vam omogućiti da na vrijeme ispravite sve greške. Također na stranicama ovih servisa možete pronaći preporuke za kreiranje datoteke robots.txt i mnoge druge korisne informacije.

Kopiranje članka je zabranjeno.

1) Šta je robot za pretragu?
2) Šta je robots.txt?
3) Kako kreirati robots.txt?
4) Šta i zašto se može upisati u ovaj fajl?
5) Primjeri imena robota
6) Primjer gotove datoteke robots.txt
7) Kako mogu provjeriti da li moj fajl radi?

1. Šta je robot za pretraživanje?

Robot (engleski pretraživač)čuva listu URL-ova koje može indeksirati i redovno preuzima dokumente koji im odgovaraju. Ako robot pronađe novu vezu dok analizira dokument, dodaje je na svoju listu. Dakle, bilo koji dokument ili stranica koja ima linkove može pronaći robot, a samim tim i Yandex pretraživanje.

2. Šta je robots.txt?

Roboti za pretraživanje prvo traže datoteku robots.txt na web stranicama. Ako na svom sajtu imate direktorijume, sadržaj itd. koje biste, na primer, želeli da sakrijete od indeksiranja (pretraživač nije dao informacije o njima. Na primer: admin panel, drugi paneli stranica), onda pažljivo proučite uputstva za rad sa ovom datotekom.

robots.txt- ovo je tekstualna datoteka (.txt) koja se nalazi u korijenskom (root direktoriju) vaše stranice. Sadrži upute za robote za pretraživanje. Ova uputstva mogu zabraniti indeksiranje određenih sekcija ili stranica na sajtu, ukazati na ispravno „zrcaljenje“ domene, preporučiti robotu za pretragu da posmatra određeni vremenski interval između preuzimanja dokumenata sa servera, itd.

3. Kako kreirati robots.txt?

Kreiranje robots.txt je vrlo jednostavno. Idemo u običan uređivač teksta (ili desnu tipku miša - kreiraj - tekstualni dokument), na primjer, Notepad. Zatim kreirajte tekstualnu datoteku i preimenujte je robots.txt.

4. Šta i zašto se može upisati u datoteku robots.txt?

Prije nego što odredite komandu tražilici, morate odlučiti kojem botu će ona biti adresirana. Za ovo postoji komanda Korisnički agent
Ispod su primjeri:

Korisnički agent: * # naredba napisana nakon ovog reda će biti adresirana na sve robote za pretraživanje
Korisnički agent: YandexBot # pristup glavnom Yandex robotu za indeksiranje
Korisnički agent: Googlebot # pristup glavnom Google robotu za indeksiranje

Omogućavanje i onemogućavanje indeksiranja
Da biste omogućili i onemogućili indeksiranje, postoje dvije odgovarajuće komande - Dopustiti(moguće) i Disallow(zabranjeno je).

Korisnički agent: *
Disallow: /adminka/ # zabranjuje svim robotima da indeksiraju adminka direktorij, koji navodno sadrži admin panel

Korisnički agent: YandexBot # naredba u nastavku će biti adresirana na Yandex
Disallow: / # zabranjujemo indeksiranje cijele stranice od strane Yandex robota

Korisnički agent: Googlebot # naredba ispod će pozvati Google
Dozvoli: /images # dozvoljava da se sav sadržaj direktorija slika indeksira
Disallow: / # i sve ostalo je zabranjeno

Red nije bitan

Korisnički agent: *
Dozvoli: /slike
Disallow: /

Korisnički agent: *
Disallow: /
Dozvoli: /slike
# objema je dozvoljeno da indeksiraju datoteke
# koji počinje sa "/images"

Sitemap Directive
Ova komanda specificira adresu vaše mape web-lokacije:

Mapa sajta: http://yoursite.ru/structure/my_sitemaps.xml # Označava adresu mape sajta

Direktiva o hostu
Ova komanda je umetnuta NA KRAJ vašeg fajla i označava glavno ogledalo
1) je napisano NA KRAJU vašeg fajla
2) je naznačeno samo jednom. inače se prihvata samo prvi red
3) naznačeno nakon Dozvoli ili Zabrani

Host: www.yoursite.ru # ogledalo vaše stranice

#Ako je www.yoursite.ru glavno ogledalo stranice, onda
#robots.txt za sve stranice sa ogledalom izgleda ovako
Korisnički agent: *
Disallow: /images
Disallow: /include
Domaćin: www.yoursite.ru

# prema zadanim postavkama Google ignoriše Host, morate to učiniti
Korisnički agent: * # indeksiraj sve
Disallow: /admin/ # zabrani admin indeks
Host: www.mainsite.ru # označava glavno ogledalo
Korisnički agent: Googlebot # sada komanduje za Google
Disallow: /admin/ # ban za Google

5. Primjeri imena robota

Yandex roboti
Yandex ima nekoliko vrsta robota koji rješavaju različite probleme: jedan je odgovoran za indeksiranje slika, drugi je odgovoran za indeksiranje rss podataka radi prikupljanja podataka na blogovima, a treći su odgovorni za multimedijalne podatke. prije svega - YandexBot, indeksira stranicu kako bi se sastavila opšta baza podataka stranice (naslovi, linkovi, tekst, itd.). Tu je i robot za brzo indeksiranje (indeksiranje vijesti i sl.).

YandexBot-- glavni robot za indeksiranje;
YandexMedia-- robot koji indeksira multimedijalne podatke;
YandexImages-- Yandex.Images indekser;
YandexCatalog-- "prisluškivanje" Yandex.Catalog, koji se koristi za privremeno uklanjanje iz objavljivanja nepristupačnih lokacija u Katalogu;
YandexDirect-- Yandex.Direct robot, tumači robots.txt na poseban način;
YandexBlogs-- robot za pretraživanje blogova koji indeksira postove i komentare;
YandexNews-- robot Yandex.News;
YandexPagechecker-- validator mikro markupa;
Yandexmetric-- Yandex.Metrica robot;
YandexMarket-- Yandex.Market robot;
YandexCalendar-- Yandex.Calendar robot.

6. Primjer gotovog robots.txt

Zapravo smo došli do primjera gotovog fajla. Nadam se da će vam nakon gore navedenih primjera sve biti jasno.

Korisnički agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /components/

Korisnički agent: Yandex
Disallow: /admin/
Disallow: /cache/
Disallow: /components/
Disallow: /slike/
Disallow: /uključuje/

Mapa sajta: http://yoursite.ru/structure/my_sitemaps.xml

mob_info