Ang mga search engine ay nilagyan ng mga robot, na kilala rin bilang mga spider o bot, na nag-crawl at nag-index ng mga webpage. Kung ang iyong site o pahina ay nasa ilalim ng pag-unlad o naglalaman ng sensitibong nilalaman, baka gusto mong harangan ang mga bot mula sa pag-crawl at pag-index ng iyong site. Alamin kung paano harangan ang buong mga website, pahina, at link sa mga robots.txt file at harangan ang mga tukoy na pahina at link na may mga html na tag. Magbasa pa upang matuklasan kung paano harangan ang mga partikular na bot mula sa pag-access sa iyong nilalaman.
Mga hakbang
Paraan 1 ng 2: Pag-block sa Mga Engine sa Paghahanap gamit ang mga robots.txt Files
Hakbang 1. Maunawaan ang mga file ng robots.txt
Ang isang robots.txt file ay isang payak o ASCII text file na nagsasabi sa mga spider ng search engine kung ano ang pinapayagan nilang mai-access sa iyong site. Ang mga file at folder na nakalista sa isang robots.txt file ay maaaring hindi ma-crawl at ma-index ng mga spider ng search engine. Maaaring kailanganin mo ang isang file ng robots.txt kung:
- Nais mong harangan ang tukoy na nilalaman mula sa mga spider ng search engine.
- Bumubuo ka ng isang live na site at hindi handa na magkaroon ng crawl ng mga search engine spider at i-index ang site
- Nais mong limitahan ang pag-access sa kagalang-galang na mga bot.
Hakbang 2. Lumikha at i-save at robots.txt file
Upang likhain ang file, maglunsad ng isang simpleng text editor o isang code editor. I-save ang file bilang: robots.txt. Dapat na maliit ang maliit na pangalan ng file.
- Huwag kalimutan ang mga "s."
- Kapag nai-save mo ang file, piliin ang extension na "'.txt"'. Kung gumagamit ka ng Word, piliin ang opsyong "Plain Text".
Hakbang 3. Sumulat ng isang buong-hindi pinapayagan na file ng robots.txt
Posibleng harangan ang bawat kagalang-galang spider ng search engine mula sa pag-crawl at pag-index ng iyong site gamit ang isang "buong-hindi pinapayagan" na robots.txt. Isulat ang mga sumusunod na linya sa iyong text file:
User-agent: * Huwag payagan: /
Hakbang 4. Sumulat ng isang kondisyong payagan ang file ng robots.txt
Sa halip na harangan ang lahat ng mga bot, isaalang-alang ang pag-block ng mga tukoy na spider mula sa ilang mga lugar ng iyong site. Kasama sa mga karaniwang utos na pinapayagan ng kondisyonal ang:
- I-block ang isang tukoy na bot: palitan ang mga asterisk sa tabi Ahente ng gumagamit kasama si googlebot, googlebot-news, imahe ng googlebot, bingbot, o teoma.
-
I-block ang isang direktoryo at ang mga nilalaman nito:
User-agent: * Huwag payagan: / sample-Directory /
-
I-block ang isang webpage:
User-agent: * Huwag payagan: /private_file.html
-
I-block ang isang imahe:
User-agent: googlebot-image Disallow: /images_mypicture.jpg
-
I-block ang lahat ng mga imahe:
User-agent: imahe ng googlebot na Hindi Pinapayagan: /
-
I-block ang isang tukoy na format ng file:
User-agent: * Huwag payagan: /p*.gif$
Hakbang 5. Hikayatin ang mga bot na i-index at i-crawl ang iyong site
Maraming mga tao ang nais na maligayang pagdating, sa halip na harangan, mga search engine spider dahil nais nila ang kanilang buong site na na-index. Upang magawa ito, mayroon kang tatlong mga pagpipilian. Una, maaari kang mag-opt out sa paglikha ng isang robots.txt file-kapag ang robot ay hindi makahanap ng isang robots.txt file, magpapatuloy itong i-crawl at i-index ang iyong buong site. Pangalawa, maaari kang lumikha ng isang walang laman na file ng robots.txt-mahahanap ng robot ang file na robots.txt, makikilala na walang laman ito, at patuloy na mag-crawl at i-index ang iyong site. Panghuli, maaari kang sumulat ng isang ganap na payagan ang file ng robots.txt. Gamitin ang code:
User-agent: * Hindi Pinapayagan:
Hakbang 6. I-save ang txt file sa ugat ng iyong domain
Matapos mong isulat ang robots.txt file, i-save ang mga pagbabago. I-upload ang file sa root Directory ng iyong site. Halimbawa, kung ang iyong domain ay www.yourdomain.com, ilagay ang robots.txt file sa www.yourdomain.com/robots.txt.
Paraan 2 ng 2: Pag-block sa Mga Engine sa Paghahanap gamit ang Meta Tags
Hakbang 1. Maunawaan ang mga meta tag ng mga robot ng HTML
Pinapayagan ng meta tag ng mga robot ang mga programmer na magtakda ng mga parameter para sa mga bot, o mga spider ng search engine. Ginagamit ang mga tag na ito upang harangan ang mga bot mula sa pag-index at pag-crawl ng isang buong site o mga bahagi lamang ng site. Maaari mo ring gamitin ang mga tag na ito upang harangan ang isang tukoy na spider ng search engine mula sa pag-index ng iyong nilalaman. Lumilitaw ang mga tag na ito sa ulo ng iyong HTML file.
Ang pamamaraang ito ay karaniwang ginagamit ng mga programmer na walang access sa root direktoryo ng isang website
Hakbang 2. I-block ang mga bot mula sa isang solong pahina
Posibleng harangan ang lahat ng mga bot mula sa pag-index ng isang pahina at o mula sa pagsunod sa mga link ng isang pahina. Karaniwang ginagamit ang tag na ito kapag ang isang live na site ay nasa ilalim ng pag-unlad. Kapag kumpleto na ang site, masidhing inirerekumenda na alisin mo ang tag na ito. Kung hindi mo aalisin ang tag, ang iyong pahina ay hindi mai-index o mahahanap sa pamamagitan ng mga search engine.
- Maaari mong harangan ang mga bot mula sa pag-index ng pahina at mula sa pagsunod sa alinman sa mga link:
- Maaari mong harangan ang lahat ng mga bot mula sa pag-index ng pahina:
- Maaari mong harangan ang lahat ng mga bot mula sa pagsunod sa mga link ng pahina:
Hakbang 3. Payagan ang mga bot na mag-index ng isang pahina, ngunit huwag sundin ang mga link nito
Kung papayagan mong i-index ng mga bot ang pahina, mai-index ang pahina; kung pipigilan mo ang mga spider mula sa pagsunod sa mga link, masisira ang path ng link mula sa tukoy na pahina na ito sa iba pang mga pahina. Ipasok ang sumusunod na linya ng code sa iyong header:
Hakbang 4. Hayaan ang mga search engine spider na sundin ang mga link ngunit huwag i-index ang pahina
Kung papayagan mong sundin ng mga bot ang mga link ang path ng link mula sa tukoy na pahina na ito sa iba pang mga pahina ay mananatili sa taktika; kung paghihigpitan mo ang mga ito mula sa pag-index ng pahina, ang iyong web page ay hindi lilitaw sa index. Ipasok ang sumusunod na linya ng code sa iyong header:
Hakbang 5. I-block ang isang solong papalabas na link
Upang maitago ang isang solong link sa isang pahina, mag-embed ng rel tag sa loob ng link tag. Maaari mong gamitin ang tag na ito upang harangan ang mga link sa iba pang mga pahina na hahantong sa tukoy na pahina na nais mong i-block.
Ipasok ang Link sa Naka-block na Pahina
Hakbang 6. I-block ang isang tukoy na spider ng search engine
Sa halip na harangan ang lahat ng mga bot mula sa iyong web page, maaari mong hilingin na pigilan ang isang bot mula sa pag-crawl at pag-index ng pahina. Upang magawa ito, palitan ang "'robot"' sa loob ng meta tag ng pangalan ng isang tukoy na bot. Kabilang sa mga halimbawa ay: googlebot, googlebot-news, imahe ng googlebot, bingbot, at teoma.
Hakbang 7. Hikayatin ang mga bot na mag-crawl at i-index ang iyong pahina
Kung nais mong matiyak na mai-index ang iyong pahina at susundan ang mga link nito, maaari kang magpasok ng isang follow-allow meta "robot" i-tag sa iyong header. Gamitin ang sumusunod na code: