Vienas iš įrankių valdyti svetainių indeksavimą paieškos sistemose yra robots.txt failas. Jis dažniausiai naudojamas tam, kad visi ar tik tam tikri robotai negalėtų atsisiųsti tam tikrų puslapių grupių turinio. Tai leidžia atsikratyti „šiukšlių“paieškos sistemos rezultatuose ir kai kuriais atvejais žymiai pagerinti išteklių reitingą. Svarbu turėti tinkamą failą robots.txt, kad programa būtų sėkmingai naudojama.
Būtinas
teksto redaktorius
Nurodymai
1 žingsnis
Sudarykite robotų, kuriems bus nustatytos specialios pašalinimo taisyklės, sąrašą arba bus naudojamos išplėstinio robots.txt standarto direktyvos, taip pat nestandartinės ir specifinės direktyvos (konkretaus paieškos variklio plėtiniai). Į šį sąrašą įveskite HTTP užklausos antraščių laukų „User-Agent“reikšmes, kurias pasirinkti robotai siuntė svetainės serveriui. Robotų pavadinimus taip pat galite rasti paieškos sistemų svetainių nuorodų skyriuose.
2 žingsnis
Pirmajame žingsnyje sudarytame sąraše pasirinkite visų šaltinių URL grupes, prie kurių turėtų būti uždrausta prieiga prie kiekvieno iš robotų. Atlikite tą pačią operaciją su visais kitais robotais (neapibrėžtu indeksavimo robotų rinkiniu). Kitaip tariant, rezultatas turėtų būti keli sąrašai, kuriuose yra nuorodos į svetainės skyrius, puslapių grupes ar žiniasklaidos turinio šaltinius, kuriuos draudžiama indeksuoti. Kiekvienas sąrašas turi atitikti skirtingą robotą. Taip pat turėtų būti draudžiamų visų kitų robotų URL sąrašas. Sudarykite sąrašus, pagrįstus svetainės loginės struktūros palyginimu su fizine duomenų vieta serveryje, taip pat grupuodami puslapių URL pagal jų funkcinės savybės. Pavyzdžiui, į atsisakymo sąrašus galite įtraukti bet kokių paslaugų katalogų (sugrupuotų pagal vietą) arba visų vartotojo profilių puslapių (sugrupuotų pagal paskirtį) turinį.
3 žingsnis
Pasirinkite kiekvieno iš antrojo veiksmo sudarytuose sąrašuose esančių išteklių URL ženklus. Apdorodami robotų išskyrimo sąrašus, naudojančius tik standartines robots.txt direktyvas ir neapibrėžtus robotus, paryškinkite maksimalaus ilgio unikalias URL dalis. Likusiems adresų rinkiniams galite sukurti šablonus pagal konkrečių paieškos sistemų specifikacijas.
4 žingsnis
Sukurkite failą robots.txt. Prie jo pridėkite direktyvų grupes, kurių kiekviena atitinka tam tikro roboto draudžiamųjų taisyklių rinkinį, kurio sąrašas buvo sudarytas pirmajame etape. Po pastarojo turėtų atsirasti direktyvų grupė visiems kitiems robotams. Taisyklių grupes atskirkite viena tuščia eilute. Kiekvienas taisyklių rinkinys turi prasidėti robotu identifikuojančia „User-agent“direktyva, o po to - „Disallow“direktyva, draudžiančia indeksuoti URL grupes. Padarykite trečiajame etape gautas eilutes su direktyvų Neleisti vertėmis. Atskirkite direktyvas ir jų reikšmes dvitaškiu. Apsvarstykite šį pavyzdį: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Šis direktyvų rinkinys nurodo pagrindinį robotą „Yandex“paieškos variklis neindeksuoja URL. Kuriame yra substring / temp / data / images /. Tai taip pat neleidžia visiems kitiems robotams indeksuoti URL, kuriuose yra / temp / data /.
5 žingsnis
Papildykite robots.txt su išplėstinėmis standartinėmis direktyvomis arba konkrečiomis paieškos sistemų direktyvomis. Tokių direktyvų pavyzdžiai yra: Priimančioji, Svetainės schema, Užklausų rodiklis, Apsilankymo laikas, Tikrinimo atidėjimas.