Rašymo robotai. Rekomendacijos, kaip nustatyti robotų txt failą

Pirmiausia aš jums pasakysiu, kas yra robots.txt.

Robotai.txt– failas, esantis svetainės šakniniame aplanke, kuriame parašytos specialios instrukcijos paieškos robotams. Šios instrukcijos reikalingos, kad įeidamas į svetainę robotas neatsižvelgtų į puslapį/skiltį, kitaip tariant, uždarytume puslapį nuo indeksavimo.

Kodėl jums reikia robots.txt?

Failas robots.txt laikomas pagrindiniu reikalavimu optimizuojant absoliučiai bet kurią svetainę. Šio failo nebuvimas gali neigiamai paveikti robotų apkrovą ir lėtą indeksavimą, be to, svetainė nebus visiškai indeksuota. Atitinkamai, vartotojai negalės pasiekti puslapių per „Yandex“ ir „Google“.

Robots.txt poveikis paieškos sistemoms?

Paieškos sistemos(ypač Google) indeksuos svetainę, bet jei nėra robots.txt failo, tai, kaip sakiau, ne visi puslapiai. Jei toks failas yra, tada robotai vadovaujasi taisyklėmis, kurios nurodytos šiame faile. Be to, yra keletas paieškos robotų tipų, kai kurie gali atsižvelgti į tai, o kiti nepaiso. Visų pirma, „GoogleBot“ robotas neatsižvelgia į pagrindinio kompiuterio ir nuskaitymo delsos direktyvas, „YandexNews“ robotas neseniai nustojo atsižvelgti į „Crawl-Delay“ direktyvą, o „YandexDirect“ ir „YandexVideoParser“ robotai nepaiso visuotinai priimtų direktyvų faile robots.txt (bet atsižvelgti į tuos, kurie parašyti specialiai jiems).

Svetainę daugiausiai įkelia robotai, kurie įkelia turinį iš jūsų svetainės. Atitinkamai, jei nurodysime robotui, kuriuos puslapius indeksuoti, o kuriuos ignoruoti, taip pat kokiais laiko intervalais įkelti turinį iš puslapių (tai labiau taikoma didelėms svetainėms, kurių paieškos sistemos indekse yra daugiau nei 100 000 puslapių). Taip robotui bus daug lengviau indeksuoti ir atsisiųsti turinį iš svetainės.


Paieškos sistemoms nereikalingi failai apima failus, priklausančius TVS, pavyzdžiui, Wordpress – /wp-admin/. Be to, ajax, json scenarijai, atsakingi už iššokančias formas, reklamjuostes, captcha išvestį ir pan.

Daugumai robotų taip pat rekomenduoju blokuoti visų Javascript ir CSS failų indeksavimą. Tačiau „GoogleBot“ ir „Yandex“ tokius failus geriau indeksuoti, nes juos naudoja paieškos sistemos, kad analizuotų svetainės patogumą ir jos reitingą.

Kas yra robots.txt direktyva?



direktyvas– tokios taisyklės taikomos paieškos robotams. Pirmieji robots.txt rašymo standartai ir atitinkamai pasirodė 1994 m., o išplėstas standartas – 1996 m. Tačiau, kaip jau žinote, ne visi robotai palaiko tam tikras direktyvas. Todėl žemiau aprašiau, kuo vadovaujasi pagrindiniai robotai indeksuodami interneto puslapius.

Ką reiškia vartotojo agentas?

Tai yra svarbiausia direktyva, kuri nustato, kurie paieškos robotai laikysis tolimesnių taisyklių.

Visiems robotams:

Konkrečiam robotui:

Vartotojo agentas: Googlebot

Registras robots.txt nėra svarbus, galima rašyti ir Googlebot, ir googlebot

Google paieškos robotai







„Yandex“ paieškos robotai

Pagrindinis „Yandex“ indeksavimo robotas

Naudojamas „Yandex.Images“ paslaugoje

Naudojamas Yandex.Video paslaugoje

Multimedijos duomenys

Tinklaraščio paieška

Paieškos robotas pasiekia puslapį, kai jį prideda per formą „Pridėti URL“.

robotas, indeksuojantis svetainių piktogramas (favicon)

Yandex.Direct

Yandex.Metrica

Naudojamas „Yandex.Catalog“ paslaugoje

Naudojamas Yandex.News tarnyboje

YandexImageResizer

Mobiliųjų paslaugų paieškos robotas

Paieškos robotai Bing, Yahoo, Mail.ru, Rambler

Neleisti ir leisti direktyvos

Neleisti blokuoti svetainės skyrių ir puslapių indeksavimo. Atitinkamai „Leisti“, priešingai, juos atidaro.

Yra keletas ypatumų.

Pirma, papildomi operatoriai yra *, $ ir #. Kam jie naudojami?

“*” – tai bet koks simbolių skaičius ir jų nebuvimas. Pagal numatytuosius nustatymus jis jau yra eilutės gale, todėl nėra prasmės dėti dar kartą.

“$” – nurodo, kad prieš tai esantis simbolis turi būti paskutinis.

“#” – komentuokite, robotas neatsižvelgia į viską, kas yra po šio simbolio.

Disallow naudojimo pavyzdžiai:

Neleisti: *?s=

Neleisti: /kategorija/

Atitinkamai, paieškos robotas uždarys tokius puslapius kaip:

Tačiau tokie puslapiai kaip šis bus atviri indeksavimui:

Dabar turite suprasti, kaip vykdomos įdėjimo taisyklės. Direkcijos rašymo tvarka yra labai svarbi. Taisyklių paveldimumas nustatomas pagal tai, kokie katalogai nurodyti, tai yra, jei norime blokuoti puslapio/dokumento indeksavimą, užtenka parašyti direktyvą. Pažiūrėkime į pavyzdį

Tai mūsų robots.txt failas

Neleisti: /template/

Šią direktyvą taip pat galima nurodyti bet kur, taip pat galima nurodyti kelis svetainės schemos failus.

Prieglobos direktyva robots.txt

Ši direktyva būtina norint nurodyti pagrindinį svetainės veidrodį (dažnai su www arba be jo). Atminkite, kad pagrindinio kompiuterio direktyva nurodyta be http:// protokolo, bet su https:// protokolu. Į direktyvą atsižvelgia tik „Yandex“ ir „Mail.ru“ paieškos robotai, o kiti robotai, įskaitant „GoogleBot“, į taisyklę neatsižvelgs. Priegloba turi būti nurodyta vieną kartą robots.txt faile

Pavyzdys su http://

Priegloba: website.ru

Pavyzdys su https://

Nuskaitymo delsos direktyva

Nustato laiko intervalą, per kurį paieškos robotas indeksuoja svetainės puslapius. Reikšmė nurodoma sekundėmis ir milisekundėmis.

Pavyzdys:

Jis dažniausiai naudojamas didelėse internetinėse parduotuvėse, informacinėse svetainėse, portaluose, kur svetainės lankomumas yra nuo 5000 per dieną. Būtina, kad paieškos robotas pateiktų indeksavimo užklausą per tam tikrą laikotarpį. Jei ši direktyva nenurodyta, tai gali sukelti rimtą serverio apkrovą.

Optimali tikrinimo delsos vertė kiekvienoje svetainėje yra skirtinga. Paieškos sistemoms „Mail“, „Bing“, „Yahoo“ vertė gali būti nustatyta iki minimalios vertės 0,25, 0,3, nes šie paieškos sistemų robotai gali tikrinti jūsų svetainę kartą per mėnesį, 2 mėnesius ir tt (labai retai). „Yandex“ geriau nustatyti didesnę vertę.


Jei jūsų svetainės apkrova yra minimali, nėra prasmės nurodyti šios direktyvos.

Clean-param direktyva

Taisyklė įdomi, nes ji nurodo tikrintuvui, kad puslapių su tam tikrais parametrais indeksuoti nereikia. Nurodomi du argumentai: puslapio URL ir parametras. Šią direktyvą palaiko „Yandex“ paieškos sistema.

Pavyzdys:

Neleisti: /admin/

Neleisti: /plugins/

Neleisti: /search/

Neleisti: /krepšelis/

Neleisti: *rūšiuoti=

Neleisti: *view=

Vartotojo agentas: GoogleBot

Neleisti: /admin/

Neleisti: /plugins/

Neleisti: /search/

Neleisti: /krepšelis/

Neleisti: *rūšiuoti=

Neleisti: *view=

Leisti: /plugins/*.css

Leisti: /plugins/*.js

Leisti: /plugins/*.png

Leisti: /plugins/*.jpg

Leisti: /plugins/*.gif

Vartotojo agentas: „Yandex

Neleisti: /admin/

Neleisti: /plugins/

Neleisti: /search/

Neleisti: /krepšelis/

Neleisti: *rūšiuoti=

Neleisti: *view=

Leisti: /plugins/*.css

Leisti: /plugins/*.js

Leisti: /plugins/*.png

Leisti: /plugins/*.jpg

Leisti: /plugins/*.gif

„Clean-Param“: utm_source&utm_medium&utm_campaign

Pavyzdyje mes surašėme taisykles 3 skirtingiems robotams.

Kur pridėti robots.txt?

Pridėta prie šakninio svetainės aplanko. Be to, kad galėtumėte sekti nuorodą:

Kaip patikrinti robots.txt?

„Yandex“ žiniatinklio valdytojas

Skirtuke Įrankiai pasirinkite Robots.txt analizė ir spustelėkite patikrinti

Google Search Console

Skirtuke Nuskaitymas pasirinkti Robots.txt failų tikrinimo įrankis ir tada spustelėkite patikrinti.

Išvada:

Failas robots.txt turi būti kiekvienoje reklamuojamoje svetainėje ir tik teisinga jo konfigūracija leis gauti reikiamą indeksavimą.

Ir galiausiai, jei turite klausimų, užduokite juos komentaruose po straipsniu ir man taip pat įdomu, kaip rašote robots.txt?

Sveiki! Mano gyvenime buvo laikas, kai visiškai nieko nežinojau apie svetainių kūrimą ir tikrai nežinojau apie robots.txt failo egzistavimą.

Kai paprastas pomėgis išaugo į rimtą hobį, atsirado jėgų ir noro studijuoti visas subtilybes. Forumuose galite rasti daug su šiuo failu susijusių temų, kodėl? Tai paprasta: robots.txt reguliuoja paieškos sistemų prieigą prie svetainės, valdo indeksavimą, ir tai labai svarbu!

Robotai.txt yra tekstinis failas, skirtas apriboti paieškos robotų prieigą prie svetainės skilčių ir puslapių, kuriuos reikia pašalinti iš tikrinimo ir paieškos rezultatų.

Kodėl slėpti tam tikrą svetainės turinį? Vargu ar būsite patenkinti, jei paieškos robotas indeksuos svetainės administravimo failus, kuriuose gali būti slaptažodžių ar kitos jautrios informacijos.

Yra įvairių direktyvų, reglamentuojančių prieigą:

  • User-agent – ​​vartotojo agentas, kuriam nurodytos prieigos taisyklės,
  • Neleisti – uždraudžiama prieiga prie URL,
  • Leisti – leidžia pasiekti URL,
  • Svetainės schema – nurodo kelią į
  • Crawl-delay – nustato URL tikrinimo intervalą (tik Yandex),
  • Clean-param – nepaiso dinaminių URL parametrų (tik Yandex),
  • Priegloba - nurodo pagrindinį svetainės veidrodį (tik „Yandex“).

Atkreipkite dėmesį, kad nuo 2018 m. kovo 20 d. „Yandex“ oficialiai nustojo palaikyti pagrindinio kompiuterio direktyvą. Jį galima pašalinti iš robots.txt, o jei paliks, robotas jį tiesiog ignoruos.

Failas turi būti svetainės šakniniame kataloge. Jei svetainėje yra padomenių, kiekvienam padomeniui sudaromas atskiras robots.txt failas.

Visada turėtumėte prisiminti saugumą. Šį failą gali peržiūrėti bet kas, todėl jame nereikia nurodyti aiškaus kelio į administracinius išteklius (valdymo pultus ir pan.). Kaip sakoma, kuo mažiau žinai, tuo geriau miegosi. Todėl jei nėra nuorodų į puslapį ir nenorite jo indeksuoti, tada nereikia jo registruoti robotuose, niekas jo taip ir neras, net robotai vorai.

Kai paieškos robotas tikrina svetainę, jis pirmiausia patikrina, ar svetainėje yra failo robots.txt, o tada tikrindamas puslapius vadovaujasi jo nurodymais.

Iš karto norėčiau pastebėti, kad paieškos sistemos šį failą traktuoja skirtingai. Pavyzdžiui, „Yandex“ besąlygiškai laikosi savo taisyklių ir neleidžia indeksuoti draudžiamų puslapių, o „Google“ šį failą suvokia kaip rekomendaciją ir nieko daugiau.

Norint uždrausti puslapių indeksavimą, galima naudoti kitas priemones:

  • peradresuoti arba į katalogą naudojant .htaccess failą,
  • noindex metažyma (nereikia painioti su uždrausti indeksuoti teksto dalį),
  • atributas nuorodoms, taip pat nuorodų į nereikalingus puslapius pašalinimas.

Tuo pačiu metu „Google“, nepaisant visų apribojimų, į paieškos rezultatus gali sėkmingai įtraukti puslapius, kuriems draudžiama indeksuoti. Pagrindinis jo argumentas yra tas, kad jei puslapis yra susietas, jis gali būti rodomas paieškos rezultatuose. Tokiu atveju rekomenduojama nesieti į tokius puslapius, bet atsiprašau, robots.txt failas yra būtent skirtas pašalinti tokius puslapius iš paieškos rezultatų... Mano nuomone, nėra jokios logikos 🙄

Puslapių pašalinimas iš paieškos

Jei draudžiami puslapiai vis dar indeksuojami, turite naudoti „Google Search Console“ ir įtrauktą URL pašalinimo įrankį:

Panašus įrankis yra „Yandex Webmaster“. Daugiau apie puslapių pašalinimą iš paieškos variklio rodyklės skaitykite atskirame straipsnyje.

Tikrinama robots.txt

Tęsdami temą naudodami „Google“, galite naudoti kitą „Search Console“ įrankį ir patikrinti robots.txt failą, kad pamatytumėte, ar jis tinkamai sukompiliuotas, kad nebūtų indeksuojami tam tikri puslapiai:

Norėdami tai padaryti, tiesiog įveskite URL, kuriuos reikia patikrinti teksto laukelyje ir spustelėkite mygtuką Tikrinti - patikrinimo rezultatas bus atskleistas, ar šį puslapį draudžiama indeksuoti, ar jo turinys pasiekiamas paieškos robotams .

„Yandex“ taip pat turi panašų įrankį, esantį „Webmaster“, patikrinimas atliekamas panašiai:

Jei nežinote, kaip teisingai sukurti failą, tiesiog sukurkite tuščią tekstinį dokumentą su pavadinimu robots.txt, o studijuodami TVS ypatybes ir svetainės struktūrą papildykite ją reikiamomis direktyvomis.

Norėdami gauti informacijos apie tai, kaip tinkamai sudaryti failą, spustelėkite nuorodą. Iki!

Robots.txt failas– tekstinis failas .txt formatu, ribojantis paieškos robotų prieigą prie turinio http serveryje. Kaip apibrėžimas, Robots.txt- Tai roboto išimties standartas, kurį W3C priėmė 1994 m. sausio 30 d. ir kurį savanoriškai naudoja dauguma paieškos sistemų. Failą robots.txt sudaro paieškos robotams skirtų instrukcijų rinkinys, kad tam tikri svetainės failai, puslapiai ar katalogai nebūtų indeksuojami. Panagrinėkime robots.txt aprašą tuo atveju, kai svetainė neriboja robotų prieigos prie svetainės.

Paprastas robots.txt pavyzdys:

Vartotojo agentas: * Leisti: /

Čia robotai visiškai leidžia indeksuoti visą svetainę.

Failas robots.txt turi būti įkeltas į jūsų svetainės šakninį katalogą kad jį būtų galima rasti adresu:

Jūsų_svetainė.ru/robots.txt

Norint įdėti robots.txt failą į svetainės šaknį, paprastai reikia FTP prieigos. Tačiau kai kurios valdymo sistemos (TVS) leidžia sukurti robots.txt tiesiogiai iš svetainės valdymo skydelio arba per integruotą FTP tvarkyklę.

Jei failas yra, naršyklėje matysite robots.txt turinį.

Kam skirtas robots.txt?

Svetainės Roots.txt yra svarbus aspektas. Kodėl jums reikia robots.txt?? Pavyzdžiui, in SEO robots.txt reikalingas norint iš indeksavimo pašalinti puslapius, kuriuose nėra naudingo turinio ir daug daugiau.. Kaip, kas, kodėl ir kodėl neįtraukiama, jau buvo aprašyta straipsnyje apie tai, mes čia nesigilinsime. Ar reikalingas failas robots.txt?į visas svetaines? Taip ir ne. Jei robots.txt naudojimas reiškia puslapių pašalinimą iš paieškos, tada mažose svetainėse su paprasta struktūra ir statiniais puslapiais tokie išskyrimai gali būti nereikalingi. Tačiau kai kurie gali būti naudingi mažai svetainei robots.txt direktyvas, pavyzdžiui, prieglobos arba svetainės schemos direktyvą, bet daugiau apie tai toliau.

Kaip sukurti robots.txt

Kadangi robots.txt yra tekstinis failas, ir į sukurti robots.txt failą, galite naudoti, pavyzdžiui, bet kurį teksto rengyklę Užrašų knygelė. Atidarę naują tekstinį dokumentą, jau pradėjote kurti robots.txt, belieka susidėlioti jo turinį, atsižvelgiant į jūsų poreikius, ir išsaugoti kaip tekstinis failas, vadinamas robotais txt formatu. Viskas paprasta, o robots.txt failo kūrimas neturėtų sukelti problemų net pradedantiesiems. Žemiau parodysiu, kaip sukurti robots.txt ir ką rašyti robotuose naudojant pavyzdžius.

Sukurkite robots.txt internete

Pasirinkimas tinginiams - sukurkite robotus internete ir atsisiųskite failą robots.txt jau baigtoje formoje. Robotų txt kūrimas internete siūlo daugybę paslaugų, pasirinkimas yra jūsų. Svarbiausia yra aiškiai suprasti, kas bus draudžiama, o kas – leidžiama, kitaip robots.txt failo sukūrimas internete gali virsti tragedija, kurią vėliau gali būti sunku ištaisyti. Ypač jei paieškoje yra kažkas, kas turėjo būti uždaryta. Būkite atsargūs – patikrinkite savo robotų failą prieš įkeldami jį į svetainę. Dar tinkintas robots.txt failas tiksliau atspindi apribojimų struktūrą nei tas, kuris buvo sukurtas automatiškai ir atsisiųstas iš kitos svetainės. Skaitykite toliau, kad sužinotumėte, į ką atkreipti ypatingą dėmesį redaguojant robots.txt.

Redaguoti robots.txt

Sukūrę robots.txt failą internete arba savo rankomis, galite redaguoti robots.txt. Jo turinį galite keisti kaip norite, svarbiausia laikytis tam tikrų robots.txt taisyklių ir sintaksės. Dirbant svetainėje, robotų failas gali keistis, o jei redaguosite robots.txt, nepamirškite įkelti atnaujintos, dabartinės failo versijos su visais svetainės pakeitimais. Toliau pažvelkime į failo nustatymo taisykles, kad žinotume kaip pakeisti failą robots.txt ir „neskaldykite medienos“.

Teisingas robots.txt nustatymas

Teisingas robots.txt nustatymas leidžia išvengti privačios informacijos patekimo į didžiųjų paieškos sistemų paieškos rezultatus. Tačiau nereikėtų to pamiršti robots.txt komandos yra ne kas kita, kaip veiksmų vadovas, o ne apsauga. Robotai iš patikimų paieškos sistemų, tokių kaip „Yandex“ ar „Google“, vykdo robots.txt instrukcijas, tačiau kiti robotai gali lengvai jų nepaisyti. Tinkamas robots.txt supratimas ir taikymas yra raktas į rezultatus.

Suprasti kaip padaryti teisingą robotų txt failą, pirmiausia turite suprasti bendrąsias robots.txt failo taisykles, sintaksę ir direktyvas.

Teisingas robots.txt prasideda naudotojo priemonės direktyva, kuri nurodo, kurioms konkrečioms roboto direktyvoms skirtos.

„User-agent“ faile robots.txt pavyzdžiai:

# Nurodo nurodymus visiems robotams vienu metu User-agent: * # Nurodo nurodymus visiems Yandex robotams User-agent: Yandex # Nurodo nurodymus tik pagrindiniam Yandex indeksavimo robotui User-agent: YandexBot # Nurodo nurodymus visiems Google robotams User – agentas: Googlebot

Atkreipkite dėmesį, kad toks nustatydami failą robots.txt liepia robotui naudoti tik tas direktyvas, kurios atitinka vartotojo agentą su jo pavadinimu.

Pavyzdys robots.txt su keliais User-agent atvejais:

# Naudos visi „Yandex“ robotai User-agent: Yandex Disallow: /*utm_ # Naudos visi „Google“ robotai User-agent: Googlebot Disallow: /*utm_ # Naudos visi robotai, išskyrus „Yandex“ robotus ir „Google“ naudotoją- agentas: * Leisti: / *utm_

Vartotojo agento direktyva sukuria tik nurodymą konkrečiam robotui, o iškart po User-agent direktyvos turi būti komanda ar komandos, tiesiogiai nurodančios pasirinkto roboto būseną. Anksčiau pateiktame pavyzdyje naudojama direktyva „Disallow“, kurios reikšmė yra „/*utm_“. Taigi mes viską uždarome. Teisingai nustačius robots.txt, dabartiniame naudotojo agente draudžiama naudoti tuščių eilučių pertraukas tarp direktyvų „User-agent“, „Disallow“ ir direktyvų po „Disallow“.

Neteisingo eilutės tiekimo robots.txt pavyzdys:

Tinkamo eilutės tiekimo robots.txt pavyzdys:

Vartotojo priemonė: Yandex Neleisti: /*utm_ Leisti: /*id= Vartotojo priemonė: * Neleisti: /*utm_ Leisti: /*id=

Kaip matyti iš pavyzdžio, instrukcijos robots.txt pateikiamos blokais, kurių kiekviename yra instrukcijos, skirtos konkrečiam robotui arba visiems robotams „*“.

Taip pat svarbu užtikrinti teisingą komandų tvarką ir rūšiavimą faile robots.txt, kai kartu naudojate tokias direktyvas kaip „Disallow“ ir „Allow“. „Allow“ direktyva yra leistinoji direktyva ir yra priešinga robots.txt komandai „Disallow“, draudžiančiai direktyvai.

Pavyzdys, kaip kartu naudoti direktyvas robots.txt:

Vartotojo agentas: * Leisti: /blog/page Disallow: /blog

Šis pavyzdys neleidžia visiems robotams indeksuoti visų puslapių, prasidedančių raide „/blog“, tačiau leidžia indeksuoti visus puslapius, prasidedančius raide „/blog/page“.

Ankstesnis tinkamo rūšiavimo robots.txt pavyzdys:

Vartotojo agentas: * Neleisti: /blog Leisti: /blog/puslapis

Pirmiausia uždraudžiame visą skyrių, tada leidžiame kai kurias jo dalis.

Kitas teisingas robots.txt pavyzdys su bendromis direktyvomis:

Vartotojo agentas: * Leisti: / Neleisti: /blog Leisti: /blog/puslapis

Atkreipkite dėmesį į teisingą direktyvų seką šiame robots.txt faile.

„Allow“ ir „Disallow“ direktyvos gali būti nurodytos be parametrų, tokiu atveju reikšmė bus interpretuojama atvirkščiai kaip „/“ parametras.

„Disallow/Allow“ direktyvos be parametrų pavyzdys:

Vartotojo agentas: * Disallow: # atitinka Leisti: / Neleisti: /blog Leisti: /blog/puslapis

Kaip sukurti tinkamą robots.txt o kaip naudoti direktyvų aiškinimą – jūs pasirenkate. Abu variantai bus teisingi. Svarbiausia nesusipainioti.

Norint teisingai sudaryti robots.txt, direktyvų parametruose reikia tiksliai nurodyti prioritetus ir ką bus draudžiama atsisiųsti robotams. Toliau išsamiau apžvelgsime direktyvų „Disallow“ ir „Allow“ naudojimą, bet dabar pažvelgsime į robots.txt sintaksę. Žinodami robots.txt sintaksę priartėsite prie jos sukurkite tobulą robotų txt savo rankomis.

Robots.txt sintaksė

Paieškos sistemų robotai savanoriškai vykdo robots.txt komandas– standartinis robotų išimčių atveju, tačiau ne visi paieškos varikliai robots.txt sintaksę traktuoja vienodai. Failas robots.txt turi griežtai apibrėžtą sintaksę, bet tuo pačiu metu Rašyti robotai txt nėra sunku, nes jo struktūra yra labai paprasta ir lengvai suprantama.

Čia yra konkretus paprastų taisyklių sąrašas, kurių laikydamiesi pašalinsite dažnos robots.txt klaidos:

  1. Kiekviena direktyva prasideda nauja eilute;
  2. Vienoje eilutėje nenurodykite daugiau nei vienos direktyvos;
  3. Nedėkite tarpo eilutės pradžioje;
  4. Direktyvos parametras turi būti vienoje eilutėje;
  5. Nereikia pateikti direktyvos parametrų kabutėse;
  6. Direktyvos parametrams nereikia kabliataškių;
  7. Komanda robots.txt yra nurodyta tokiu formatu - [Directive_name]:[pasirinktinai tarpas][reikšmė][neprivalomas tarpas];
  8. Komentarai leidžiami robots.txt po maišos ženklo #;
  9. Tuščios eilutės lūžis gali būti interpretuojamas kaip vartotojo agento direktyvos pabaiga;
  10. „Disallow:“ direktyva (su tuščia reikšme) yra lygiavertė „Allow: /“ - leisti viską;
  11. „Allow“ ir „Disallow“ direktyvose nurodomas ne daugiau kaip vienas parametras;
  12. Failo robots.txt pavadinimas neleidžia didžiosiomis raidėmis, neteisinga failo pavadinimo rašyba yra Robots.txt arba ROBOTS.TXT;
  13. Direktyvų ir parametrų pavadinimų rašymas didžiosiomis raidėmis laikomas bloga forma ir net jei robots.txt pagal standartą yra neskiriamas didžiosioms ir mažosioms raidėms, failų ir katalogų pavadinimuose dažnai skiriamos didžiosios ir mažosios raidės;
  14. Jei direktyvos parametras yra katalogas, tada prieš katalogo pavadinimą visada rašomas pasvirasis brūkšnys „/“, pavyzdžiui: Disallow: /category
  15. Per didelis robots.txt failas (daugiau nei 32 KB) laikomas visiškai leistinu, atitinkančiu „Disallow:“;
  16. Dėl kokių nors priežasčių nepasiekiamas Robots.txt gali būti interpretuojamas kaip visiškai leistinas;
  17. Jei robots.txt yra tuščias, jis bus traktuojamas kaip visiškai leistinas;
  18. Išvardijant kelias „User-agent“ direktyvas be tuščios eilutės tiekimo, gali būti nepaisoma visų paskesnių „User-agent“ direktyvų, išskyrus pirmąją;
  19. Jokių nacionalinių abėcėlių simbolių naudoti robots.txt neleidžiama.

Skirtingi paieškos varikliai gali skirtingai interpretuoti robots.txt sintaksę, todėl kai kurios sąlygos gali būti praleistos. Pavyzdžiui, jei įvesite kelias „User-agent“ direktyvas be tuščios eilutės pertraukos, „Yandex“ teisingai interpretuos visas „User-agent“ direktyvas, nes „Yandex“ pasirenka įrašus pagal jų buvimą eilutėje „User-agent“.

Robotai turėtų griežtai nurodyti tik tai, ko reikia, ir nieko nereikalingo. negalvok Kaip parašyti viską robotai (txt)., kas įmanoma ir kaip tai užpildyti. Idealūs robotai txt yra tas, kuriame yra mažiau eilučių, bet daugiau prasmės. "Trumpumas yra sąmojingumo siela". Ši išraiška čia praverčia.

Kaip patikrinti robots.txt

Tam, kad patikrinkite robots.txt Norėdami patikrinti failo sintaksės ir struktūros teisingumą, galite naudoti vieną iš internetinių paslaugų. Pavyzdžiui, „Yandex“ ir „Google“ siūlo savo paslaugas žiniatinklio valdytojams, įskaitant robots.txt analizė:

Failo robots.txt tikrinimas Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

Tam, kad Patikrinkite robots.txt internete būtina įkelti robots.txt į svetainę šakniniame kataloge. Priešingu atveju tarnyba gali apie tai pranešti nepavyko įkelti robots.txt. Pirmiausia rekomenduojama patikrinti robots.txt prieinamumą adresu, kuriame yra failas, pvz.: your_site.ru/robots.txt.

Be „Yandex“ ir „Google“ patvirtinimo paslaugų, internete yra daugybė kitų robots.txt tikrintuvai.

Robots.txt prieš „Yandex“ ir „Google“.

Yra subjektyvi nuomonė, kad „Yandex“ atskiro direktyvų bloko „User-agent: Yandex“ rodymą faile robots.txt suvokia pozityviau nei bendrą direktyvų bloką su „User-agent: *“. Panaši situacija yra su robots.txt ir Google. Nurodę atskiras „Yandex“ ir „Google“ direktyvas, galite valdyti svetainių indeksavimą per robots.txt. Galbūt juos asmeniškai pamalonina patrauklumas, juolab kad daugumoje svetainių „Yandex“, „Google“ ir kitų paieškos sistemų robots.txt blokų turinys bus toks pat. Išskyrus retas išimtis, visi „Vartotojo agento“ blokai turės robots.txt standartas direktyvų rinkinys. Taip pat galite įdiegti naudodami skirtingus „vartotojo agentus“. draudimas indeksuoti robots.txt, skirtą Yandex, bet, pavyzdžiui, ne „Google“.

Atskirai verta paminėti, kad „Yandex“ atsižvelgia į tokią svarbią direktyvą kaip „Host“, o teisingame „Yandex“ robots.txt faile turėtų būti ši direktyva, nurodanti pagrindinį svetainės veidrodį. Toliau išsamiau pažvelgsime į „Host“ direktyvą.

Išjungti indeksavimą: robots.txt Neleisti

Neleisti – draudžiamoji direktyva, kuris dažniausiai naudojamas robots.txt faile. Disallow neleidžia indeksuoti svetainės ar jos dalies, atsižvelgiant į kelią, nurodytą parametre Neleisti.

Pavyzdys, kaip neleisti indeksuoti svetainės robots.txt:

Vartotojo agentas: * Neleisti: /

Šis pavyzdys blokuoja visą svetainę nuo visų robotų indeksavimo.

Parametras Disallow leidžia naudoti specialiuosius simbolius * ir $:

* - bet koks simbolių skaičius, pavyzdžiui, parametras /page* atitinka /page, /page1, /page-be-cool, /page/kak-skazat ir kt. Tačiau kiekvieno parametro pabaigoje nereikia nurodyti *, nes, pavyzdžiui, šios direktyvos aiškinamos vienodai:

Vartotojo agentas: Yandex Disallow: /puslapis Vartotojo agentas: Yandex Disallow: /puslapis*

$ – nurodo tikslią parametro reikšmės išimties atitiktį:

Vartotojo agentas: Googlebot Disallow: /page$

Tokiu atveju direktyva Disallow neleis /page, bet nedraus indeksuoti puslapio /page1, /page-be-cool arba /page/kak-skazat.

Jeigu uždaryti svetainės indeksavimą robots.txt, paieškos varikliai į šį žingsnį gali reaguoti su klaida „Užblokuota robots.txt faile“ arba „url ribojama robots.txt“ (url draudžiama robots.txt failo). Jei tau reikia išjungti puslapių indeksavimą, galite naudoti ne tik robots txt, bet ir panašias html žymas:

  • - neindeksuoti puslapio turinio;
  • - nesekti nuorodų puslapyje;
  • - draudžiama indeksuoti turinį ir sekti nuorodas puslapyje;
  • - panašus į turinį = "nėra".

Leisti indeksuoti: robots.txt Leisti

Leisti – leidžiamoji direktyva ir priešinga Neleisti direktyvai. Šios direktyvos sintaksė panaši į Disallow.

Pavyzdys, kaip uždrausti indeksuoti svetainę, išskyrus kai kuriuos puslapius faile robots.txt:

Vartotojo agentas: * Neleisti: /Leisti: /puslapis

Draudžiama indeksuoti visą svetainę, išskyrus puslapius, prasidedančius raide /page.

Neleisti ir leisti su tuščia parametro reikšme

Empty Disallow direktyva:

Vartotojo agentas: * Neleisti:

Nieko nedrausti arba leisti indeksuoti visą svetainę ir yra lygiavertis:

Vartotojo agentas: * Leisti: /

Tuščia leisti direktyva:

Vartotojo agentas: * Leisti:

Nieko neleisti arba visiškai uždrausti svetainės indeksavimą yra tolygu:

Vartotojo agentas: * Neleisti: /

Pagrindinės svetainės veidrodis: robots.txt priegloba

„Host“ direktyva naudojama „Yandex“ robotui nurodyti pagrindinį jūsų svetainės veidrodį. Iš visų populiarių paieškos sistemų direktyva Šeimininką atpažįsta tik „Yandex“ robotai. Prieglobos direktyva naudinga, jei jūsų svetainė pasiekiama keliais kanalais, pavyzdžiui:

Mano svetainė.ru mysite.com

Arba nustatyti prioritetą tarp:

Mano svetainė.ru www.mysite.ru

Galite pasakyti „Yandex“ robotui, kuris veidrodis yra pagrindinis. „Host“ direktyva nurodyta direktyvų bloke „User-agent: Yandex“, o kaip parametras nurodomas pageidaujamos svetainės adresas be „http://“.

Pavyzdys robots.txt, nurodantis pagrindinį veidrodį:

Vartotojo agentas: „Yandex Disallow“: /puslapis Priegloba: mysite.ru

Domeno vardas mysite.ru be www nurodomas kaip pagrindinis veidrodis. Taigi tokio tipo adresas bus nurodytas paieškos rezultatuose.

Vartotojo agentas: Yandex Disallow: /puslapis Priegloba: www.mysite.ru

Domeno pavadinimas www.mysite.ru nurodomas kaip pagrindinis veidrodis.

Prieglobos direktyva robots.txt faile galima naudoti tik vieną kartą, bet jei Host direktyva bus nurodyta daugiau nei vieną kartą, bus atsižvelgta tik į pirmąją, kitos Host direktyvos bus ignoruojamos.

Jei norite nurodyti pagrindinį „Googlebot“ veidrodį, naudokite „Google Webmaster Tools“ paslaugą.

Svetainės schema: robots.txt svetainės schema

Naudodami svetainės schemos direktyvą, robots.txt galite nurodyti vietą svetainėje.

Svetainės schemos adresą nurodančio robots.txt pavyzdys:

Vartotojo priemonė: * Neleisti: /puslapis Svetainės schema: http://www.mysite.ru/sitemap.xml

Nurodykite svetainės schemos adresą per Svetainės schemos direktyva robots.txt leidžia paieškos robotui sužinoti apie svetainės schemą ir pradėti ją indeksuoti.

Clean-param direktyva

„Clean-param“ direktyva leidžia neįtraukti puslapių su dinaminiais parametrais indeksavimo. Panašiuose puslapiuose gali būti pateikiamas tas pats turinys, bet jų puslapių URL yra skirtingi. Paprasčiau tariant, puslapis yra pasiekiamas skirtingais adresais. Mūsų užduotis – pašalinti visus nereikalingus dinaminius adresus, kurių gali būti milijonas. Norėdami tai padaryti, neįtraukiame visų dinaminių parametrų, naudojant robots.txt direktyvą Clean-param.

„Clean-param“ direktyvos sintaksė yra tokia:

Švarus parametras: parm1[&parm2&parm3&parm4&..&parmn] [Kelias]

Pažvelkime į puslapio su šiuo URL pavyzdį:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Pavyzdys robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # tik page.html

Clean-param: parm1&parm2&parm3 / # visiems

Nuskaitymo delsos direktyva

Ši instrukcija leidžia sumažinti serverio apkrovą, jei robotai per dažnai lankosi jūsų svetainėje. Ši direktyva daugiausia aktuali svetainėms, kuriose yra daug puslapių.

Pavyzdys robots.txt tikrinimo delsa:

Vartotojo agentas: „Yandex Disallow“: /puslapis Tikrinimo delsa: 3

Tokiu atveju „prašome“ „Yandex“ robotų atsisiųsti mūsų svetainės puslapius ne dažniau kaip kartą per tris sekundes. Kai kurios paieškos sistemos palaiko trupmeninių skaičių formatą kaip parametrą Nuskaitymo delsos robots.txt direktyvos.

Vienas iš svetainės optimizavimo paieškos sistemoms etapų yra robots.txt failo sudarymas. Naudodami šį failą galite neleisti kai kuriems arba visiems paieškos robotams indeksuoti jūsų svetainės ar tam tikrų jos dalių, kurios nėra skirtos indeksuoti. Visų pirma galite neleisti indeksuoti pasikartojančio turinio, pvz., spausdinamų puslapių versijų.

Prieš pradėdami indeksuoti, paieškos robotai visada kreipiasi į robots.txt failą jūsų svetainės šakniniame kataloge, pvz., http://site.ru/robots.txt, kad sužinotų, kuriose svetainės dalyse robotas yra draudžiamas. nuo indeksavimo. Bet net jei neketinate nieko drausti, vis tiek rekomenduojama sukurti šį failą.

Kaip matote iš robots.txt plėtinio, tai yra tekstinis failas. Norėdami sukurti ar redaguoti šį failą, geriau naudoti paprasčiausias teksto rengykles, tokias kaip Notepad. robots.txt turi būti patalpintas šakniniame svetainės kataloge ir turi savo formatą, kurį aptarsime toliau.

Robots.txt failo formatas

Robots.txt faile turi būti bent du būtini įrašai. Pirmoji yra vartotojo agento direktyva, nurodanti, kuris paieškos robotas turi vykdyti tolesnius nurodymus. Reikšmė gali būti roboto pavadinimas (googlebot, Yandex, StackRambler) arba simbolis *, jei vienu metu pasiekiate visus robotus. Pavyzdžiui:

Vartotojo agentas: googlebot

Roboto pavadinimą galite rasti atitinkamos paieškos sistemos svetainėje. Toliau turėtų būti viena ar daugiau Neleisti direktyvų. Šios direktyvos nurodo robotui, kurių failų ir aplankų neleidžiama indeksuoti. Pavyzdžiui, šios eilutės neleidžia robotams indeksuoti failo feedback.php ir cgi-bin katalogo:

Neleisti: /feedback.php Neleisti: /cgi-bin/

Taip pat galite naudoti tik pradinius failų ar aplankų simbolius. Eilutė Disallow: /forum draudžia indeksuoti visus failus ir aplankus, esančius svetainės, kurios pavadinimas prasideda forume, šaknyje, pavyzdžiui, failą http://site.ru/forum.php ir aplanką http://site. ru/forumas/ su visu turiniu. Jei „Disallow“ laukas tuščias, tai reiškia, kad robotas gali indeksuoti visus puslapius. Jei Neleisti reikšmė yra simbolis /, tai reiškia, kad draudžiama indeksuoti visą svetainę.

Kiekviename vartotojo priemonės lauke turi būti bent vienas Neleisti laukelis. Tai yra, jei neketinate nieko uždrausti indeksuoti, faile robots.txt turi būti šie įrašai:

Vartotojo agentas: * Neleisti:

Papildomos direktyvos

Be įprastų išraiškų, „Yandex“ ir „Google“ leidžia naudoti direktyvą „Allow“, kuri yra priešinga „Disallow“, tai yra, ji nurodo, kuriuos puslapius galima indeksuoti. Šiame pavyzdyje „Yandex“ draudžiama indeksuoti viską, išskyrus puslapių adresus, prasidedančius raide /articles:

Vartotojo agentas: Yandex Leisti: /articles Neleisti: /

Šiame pavyzdyje „Allow“ direktyva turi būti parašyta prieš „Disallow“, kitaip „Yandex“ tai supras kaip visišką draudimą indeksuoti svetainę. Tuščia direktyva „Leisti“ taip pat visiškai išjungia svetainių indeksavimą:

Vartotojo agentas: „Yandex“ Leisti:

lygiavertis

Vartotojo agentas: „Yandex Disallow“: /

Nestandartinės direktyvos turi būti nurodytos tik toms paieškos sistemoms, kurios jas palaiko. Priešingu atveju robotas, nesuprantantis šio įrašo, gali neteisingai apdoroti jį arba visą robots.txt failą. Daugiau informacijos apie papildomas direktyvas ir apskritai apie tai, kaip atskiras robotas supranta komandas robots.txt faile, rasite atitinkamos paieškos sistemos svetainėje.

Reguliarūs reiškiniai faile robots.txt

Dauguma paieškos sistemų atsižvelgia tik į aiškiai nurodytus failų ir aplankų pavadinimus, tačiau yra ir sudėtingesnių paieškos sistemų. „Google Robot“ ir „Yandex Robot“ palaiko paprastų reguliariųjų išraiškų naudojimą faile robots.txt, o tai žymiai sumažina žiniatinklio valdytojų darbą. Pavyzdžiui, šios komandos neleidžia „Googlebot“ indeksuoti visų failų su plėtiniu .pdf:

Vartotojo agentas: googlebot Disallow: *.pdf$

Aukščiau pateiktame pavyzdyje * yra bet kokia simbolių seka, o $ nurodo nuorodos pabaigą.

Vartotojo agentas: Yandex Leisti: /articles/*.html$ Neleisti: /

Aukščiau pateiktos direktyvos leidžia „Yandex“ indeksuoti tik failus su plėtiniu „.html“, esančius aplanke /articles/. Visa kita indeksuoti draudžiama.

Svetainės žemėlapis

Galite nurodyti XML svetainės schemos vietą robots.txt faile:

Vartotojo agentas: googlebot Disallow: Svetainės schema: http://site.ru/sitemap.xml

Jei jūsų svetainėje yra labai daug puslapių ir turėjote padalinti svetainės schemą į dalis, tada faile robots.txt turite nurodyti visas žemėlapio dalis:

Vartotojo agentas: Yandex Disallow: Svetainės schema: http://mysite.ru/my_sitemaps1.xml Svetainės schema: http://mysite.ru/my_sitemaps2.xml

Svetainės veidrodžiai

Kaip žinia, dažniausiai tą pačią svetainę galima pasiekti dviem adresais: ir su www, ir be jo. Paieškos robotui site.ru ir www.site.ru yra skirtingos svetainės, tačiau to paties turinio. Jie vadinami veidrodžiais.

Dėl to, kad yra nuorodų į svetainės puslapius tiek su www, tiek be jo, puslapių svorį galima padalyti į www.site.ru ir site.ru. Kad taip nenutiktų, paieškos sistema turi nurodyti pagrindinį svetainės veidrodį. Dėl „klijavimo“ visas svoris priklausys vienam pagrindiniam veidrodžiui ir svetainė galės užimti aukštesnę poziciją paieškos rezultatuose.

Galite nurodyti pagrindinį „Yandex“ veidrodį tiesiogiai robots.txt faile naudodami pagrindinio kompiuterio direktyvą:

Vartotojo agentas: Yandex Disallow: /feedback.php Neleisti: /cgi-bin/ Priegloba: www.site.ru

Po klijavimo veidrodžiui www.site.ru priklausys visas svoris ir jis užims aukštesnę vietą paieškos rezultatuose. Ir paieškos sistema visiškai neindeksuos site.ru.

Kitose paieškos sistemose pagrindinio veidrodžio pasirinkimas yra serverio nuolatinis peradresavimas (kodas 301) iš papildomų veidrodžių į pagrindinį. Tai atliekama naudojant .htaccess failą ir mod_rewrite modulį. Norėdami tai padaryti, įdėkite .htaccess failą į svetainės šaknį ir parašykite ten:

RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Dėl to visos užklausos iš site.ru bus nukreiptos į www.site.ru, tai yra, site.ru/page1.php bus nukreiptos į www.site.ru/page1.php.

Peradresavimo metodas veiks visuose paieškos varikliuose ir naršyklėse, tačiau vis tiek rekomenduojama „Host“ direktyvą įtraukti į „Yandex“ failą robots.txt.

Komentarai faile robots.txt

Taip pat galite pridėti komentarų prie failo robots.txt – jie prasideda simboliu # ir baigiasi nauja eilute. Patartina komentarus rašyti atskiroje eilutėje arba geriau jų visai nenaudoti.

Komentarų naudojimo pavyzdys:

Vartotojo agentas: StackRambler Disallow: /garbage/ # šiame aplanke nėra nieko naudingo Disallow: /doc.xhtml # ir šiame puslapyje taip pat # ir visi šio failo komentarai taip pat nenaudingi

Robots.txt failų pavyzdžiai

1. Leiskite visiems robotams indeksuoti visus svetainės dokumentus:

Vartotojo agentas: * Neleisti:
Vartotojo agentas: * Neleisti: /

3. Neleidžiame Google paieškos robotui indeksuoti failo feedback.php ir cgi-bin katalogo turinio:

Vartotojo priemonė: googlebot Disallow: /cgi-bin/ Neleisti: /feedback.php

4. Leidžiame visiems robotams indeksuoti visą svetainę, o Yandex paieškos variklio robotui neleidžiame indeksuoti failo feedback.php ir cgi-bin katalogo turinio:

Vartotojo agentas: Yandex Disallow: /cgi-bin/ Neleisti: /feedback.php Priegloba: www.site.ru Vartotojo priemonė: * Neleisti:

5. Visiems robotams leidžiame indeksuoti visą svetainę, o Yandex robotui leidžiame indeksuoti tik jam skirtą svetainės dalį:

Vartotojo priemonė: Yandex Leisti: /yandex Neleisti: / Priegloba: www.site.ru Vartotojo priemonė: * Neleisti:

Tuščios eilutės atskiria apribojimus skirtingiems robotams. Kiekvienas apribojimų blokas turi prasidėti eilutėje su lauku User-Agent, nurodant robotą, kuriam taikomos šios svetainės indeksavimo taisyklės.

Dažnos klaidos

Svarbu atsižvelgti į tai, kad tuščia eilutė robots.txt faile yra skirtukas tarp dviejų skirtingų robotų įrašų. Taip pat negalite nurodyti kelių direktyvų vienoje eilutėje. Neleisdami indeksuoti failo, žiniatinklio valdytojai dažnai praleidžia / prieš failo pavadinimą.

Nereikia robots.txt nurodyti draudimo indeksuoti svetainę įvairioms programoms, skirtoms visiškai atsisiųsti svetainę, pavyzdžiui, TeleportPro. Nei atsisiuntimo programos, nei naršyklės niekada nežiūri į šį failą ir nevykdo jame parašytų instrukcijų. Jis skirtas tik paieškos sistemoms. Taip pat neturėtumėte blokuoti savo svetainės administratoriaus skydelio robots.txt faile, nes jei niekur nėra nuorodos į ją, ji nebus indeksuojama. Administravimo srities vietą atskleisite tik tiems žmonėms, kurie apie tai neturėtų žinoti. Taip pat verta atsiminti, kad per didelis robots.txt gali būti ignoruojamas paieškos sistemoje. Jei turite per daug puslapių, kurie nėra skirti indeksuoti, geriau juos tiesiog pašalinti iš svetainės arba perkelti į atskirą katalogą ir neleisti indeksuoti šio katalogo.

Tikrinama, ar faile robots.txt nėra klaidų

Būtinai patikrinkite, kaip paieškos sistemos supranta jūsų robotų failą. Norėdami patikrinti „Google“, galite naudoti „Google Webmaster Tools“. Jei norite sužinoti, kaip jūsų robots.txt failą supranta „Yandex“, galite naudoti „Yandex.Webmaster“ paslaugą. Tai leis jums laiku ištaisyti visas klaidas. Taip pat šių paslaugų puslapiuose galite rasti robots.txt failo kūrimo rekomendacijų ir daug kitos naudingos informacijos.

Straipsnį kopijuoti draudžiama.

1) Kas yra paieškos robotas?
2) Kas yra robots.txt?
3) Kaip sukurti robots.txt?
4) Ką ir kodėl galima įrašyti į šį failą?
5) Robotų pavadinimų pavyzdžiai
6) Baigto robots.txt pavyzdys
7) Kaip patikrinti, ar failas veikia?

1. Kas yra paieškos robotas?

Robotas (anglų k. robotas) saugo URL, kuriuos gali indeksuoti, sąrašą ir reguliariai atsisiunčia juos atitinkančius dokumentus. Jei robotas, analizuodamas dokumentą, randa naują nuorodą, jis įtraukia ją į sąrašą. Taigi, bet kurį dokumentą ar svetainę, kurioje yra nuorodos, gali rasti robotas, taigi ir „Yandex“ paieška.

2. Kas yra robots.txt?

Paieškos robotai pirmiausia ieško robots.txt failo svetainėse. Jei jūsų svetainėje yra katalogų, turinio ir pan., kuriuos, pavyzdžiui, norėtumėte paslėpti nuo indeksavimo (paieškos variklis nepateikė informacijos apie juos. Pavyzdžiui: administratoriaus skydelis, kitos puslapio plokštės), tuomet turėtumėte atidžiai perskaitykite darbo su šiuo failu instrukcijas.

robots.txt– tai tekstinis failas (.txt), esantis jūsų svetainės šakniniame kataloge. Jame pateikiamos instrukcijos paieškos robotams. Šios instrukcijos gali uždrausti indeksuoti tam tikras svetainės dalis ar puslapius, nurodyti teisingą domeno „veidrodizavimą“, rekomenduoti paieškos robotui laikytis tam tikro laiko tarpo tarp dokumentų atsisiuntimo iš serverio ir pan.

3. Kaip sukurti robots.txt?

Sukurti robots.txt yra labai paprasta. Einame į įprastą teksto rengyklę (arba dešinįjį pelės mygtuką - sukurti - tekstinį dokumentą), pavyzdžiui, "Notepad". Tada sukurkite tekstinį failą ir pervardykite jį robots.txt.

4. Ką ir kodėl galima įrašyti į robots.txt failą?

Prieš nurodydami komandą paieškos varikliui, turite nuspręsti, kuriam robotui ji bus skirta. Tam yra komanda Vartotojo atstovas
Žemiau pateikiami pavyzdžiai:

User-agent: * # komanda, parašyta po šios eilutės, bus skirta visiems paieškos robotams
Vartotojo agentas: „YandexBot“ # prieiga prie pagrindinio „Yandex“ indeksavimo roboto
Vartotojo agentas: „Googlebot“ # prieiga prie pagrindinio „Google“ indeksavimo roboto

Indeksavimo leidimas ir išjungimas
Norėdami įjungti ir išjungti indeksavimą, yra dvi atitinkamos komandos - Leisti(galima) ir Neleisti(tai uždrausta).

Vartotojo atstovas: *
Neleisti: /adminka/ # draudžia visiems robotams indeksuoti adminka katalogą, kuriame tariamai yra administratoriaus skydelis

Vartotojo agentas: YandexBot # toliau pateikta komanda bus skirta Yandex
Neleisti: / # draudžiame „Yandex“ robotui indeksuoti visą svetainę

Vartotojo agentas: Googlebot # toliau pateikta komanda iškvies „Google“.
Leisti: /images # leidžia indeksuoti visą vaizdų katalogo turinį
Neleisti: / # ir visa kita draudžiama

Tvarka nesvarbu

Vartotojo atstovas: *
Leisti: /images
Neleisti: /

Vartotojo atstovas: *
Neleisti: /
Leisti: /images
# abiem leidžiama indeksuoti failus
# prasidedantis "/images"

Svetainės schemos direktyva
Ši komanda nurodo svetainės schemos adresą:

Svetainės schema: http://yoursite.ru/structure/my_sitemaps.xml # Nurodo svetainės schemos adresą

Priimančiojo direktyva
Ši komanda įterpiama failo PABAIGOJE ir žymi pagrindinį veidrodį
1) yra parašyta failo PABAIGOJE
2) nurodomas tik vieną kartą. kitu atveju priimama tik pirmoji eilutė
3) nurodyta po Leisti arba Neleisti

Priegloba: www.yoursite.ru # jūsų svetainės veidrodis

#Jei www.yoursite.ru yra pagrindinis svetainės veidrodis, tada
#robots.txt visoms veidrodinėms svetainėms atrodo taip
Vartotojo atstovas: *
Neleisti: /images
Neleisti: /include
Priegloba: www.yoursite.ru

# pagal numatytuosius nustatymus „Google“ nepaiso pagrindinio kompiuterio, jums reikia tai padaryti
Vartotojo agentas: * # indeksuoti viską
Neleisti: /admin/ # neleisti administratoriaus indekso
Priegloba: www.mainsite.ru # nurodykite pagrindinį veidrodį
Vartotojo agentas: „Googlebot“ # dabar komandos, skirtos „Google“.
Neleisti: /admin/ # uždraudimas „Google“.

5. Robotų pavadinimų pavyzdžiai

Yandex robotai
„Yandex“ turi kelių tipų robotus, kurie sprendžia įvairias problemas: vienas atsakingas už vaizdų indeksavimą, kiti – už rss duomenų indeksavimą, kad būtų galima rinkti duomenis tinklaraščiuose, treti – už daugialypės terpės duomenis. Pirmiausia - „YandexBot“., ji indeksuoja svetainę, kad sudarytų bendrą svetainės duomenų bazę (antraštės, nuorodos, tekstas ir kt.). Taip pat yra robotas greitam indeksavimui (naujienų indeksavimui ir pan.).

„YandexBot“.-- pagrindinis indeksavimo robotas;
„YandexMedia“.-- robotas, indeksuojantis multimedijos duomenis;
„YandexImages“.-- Yandex.Images indeksavimo priemonė;
„Yandex“ katalogas-- Yandex.Catalogue "palietimas", naudojamas laikinai pašalinti iš Katalogo neprieinamų svetainių paskelbimo;
„YandexDirect“.-- Yandex.Direct robotas, ypatingu būdu interpretuoja robots.txt;
„Yandex“ dienoraščiai-- tinklaraščių paieškos robotas, indeksuojantis įrašus ir komentarus;
„YandexNews“.-- Yandex.News robotas;
„YandexPagechecker“.-- mikro žymėjimo tikrintuvas;
„YandexMetrika“.-- Yandex.Metrica robotas;
„Yandex Market“.-- Yandex.Market robotas;
„Yandex“ kalendorius-- Yandex.Calendar robotas.

6. Baigto robots.txt pavyzdys

Tiesą sakant, mes priėjome baigto failo pavyzdį. Tikiuosi, kad po aukščiau pateiktų pavyzdžių jums viskas bus aišku.

Vartotojo atstovas: *
Neleisti: /admin/
Neleisti: /cache/
Neleisti: /komponentai/

Vartotojo agentas: „Yandex
Neleisti: /admin/
Neleisti: /cache/
Neleisti: /komponentai/
Neleisti: /images/
Neleisti: /įeina/

Svetainės schema: http://yoursite.ru/structure/my_sitemaps.xml

mob_info