Paano Harangan ang Mga Engine sa Paghahanap (na may Mga Larawan)

Talaan ng mga Nilalaman:

Paano Harangan ang Mga Engine sa Paghahanap (na may Mga Larawan)
Paano Harangan ang Mga Engine sa Paghahanap (na may Mga Larawan)

Video: Paano Harangan ang Mga Engine sa Paghahanap (na may Mga Larawan)

Video: Paano Harangan ang Mga Engine sa Paghahanap (na may Mga Larawan)
Video: CS50 2014 — неделя 8, продолжение 2024, Mayo
Anonim

Ang mga search engine ay nilagyan ng mga robot, na kilala rin bilang mga spider o bot, na nag-crawl at nag-index ng mga webpage. Kung ang iyong site o pahina ay nasa ilalim ng pag-unlad o naglalaman ng sensitibong nilalaman, baka gusto mong harangan ang mga bot mula sa pag-crawl at pag-index ng iyong site. Alamin kung paano harangan ang buong mga website, pahina, at link sa mga robots.txt file at harangan ang mga tukoy na pahina at link na may mga html na tag. Magbasa pa upang matuklasan kung paano harangan ang mga partikular na bot mula sa pag-access sa iyong nilalaman.

Mga hakbang

Paraan 1 ng 2: Pag-block sa Mga Engine sa Paghahanap gamit ang mga robots.txt Files

576315 1
576315 1

Hakbang 1. Maunawaan ang mga file ng robots.txt

Ang isang robots.txt file ay isang payak o ASCII text file na nagsasabi sa mga spider ng search engine kung ano ang pinapayagan nilang mai-access sa iyong site. Ang mga file at folder na nakalista sa isang robots.txt file ay maaaring hindi ma-crawl at ma-index ng mga spider ng search engine. Maaaring kailanganin mo ang isang file ng robots.txt kung:

  • Nais mong harangan ang tukoy na nilalaman mula sa mga spider ng search engine.
  • Bumubuo ka ng isang live na site at hindi handa na magkaroon ng crawl ng mga search engine spider at i-index ang site
  • Nais mong limitahan ang pag-access sa kagalang-galang na mga bot.
576315 2
576315 2

Hakbang 2. Lumikha at i-save at robots.txt file

Upang likhain ang file, maglunsad ng isang simpleng text editor o isang code editor. I-save ang file bilang: robots.txt. Dapat na maliit ang maliit na pangalan ng file.

  • Huwag kalimutan ang mga "s."
  • Kapag nai-save mo ang file, piliin ang extension na "'.txt"'. Kung gumagamit ka ng Word, piliin ang opsyong "Plain Text".
576315 3 1
576315 3 1

Hakbang 3. Sumulat ng isang buong-hindi pinapayagan na file ng robots.txt

Posibleng harangan ang bawat kagalang-galang spider ng search engine mula sa pag-crawl at pag-index ng iyong site gamit ang isang "buong-hindi pinapayagan" na robots.txt. Isulat ang mga sumusunod na linya sa iyong text file:

    User-agent: * Huwag payagan: /

  • Ang paggamit ng isang "buong-hindi pinapayagan" na robots.txt file ay hindi masidhing inirerekomenda. Kapag binasa ng isang bot, tulad ng Bingbot, ang file na ito, hindi nito mai-index ang iyong site at hindi ipapakita ng search engine ang iyong website.
  • Mga ahente ng gumagamit: ito ay isa pang term para sa mga spider ng search engine, o mga robot
  • *: ang asterisk ay nangangahulugang nalalapat ang code sa lahat ng mga ahente ng gumagamit
  • Huwag payagan: /: ipinapahiwatig ng forward slash na ang buong site ay naka-off-limit sa mga bot
576315 4 1
576315 4 1

Hakbang 4. Sumulat ng isang kondisyong payagan ang file ng robots.txt

Sa halip na harangan ang lahat ng mga bot, isaalang-alang ang pag-block ng mga tukoy na spider mula sa ilang mga lugar ng iyong site. Kasama sa mga karaniwang utos na pinapayagan ng kondisyonal ang:

  • I-block ang isang tukoy na bot: palitan ang mga asterisk sa tabi Ahente ng gumagamit kasama si googlebot, googlebot-news, imahe ng googlebot, bingbot, o teoma.
  • I-block ang isang direktoryo at ang mga nilalaman nito:

    User-agent: * Huwag payagan: / sample-Directory /

  • I-block ang isang webpage:

    User-agent: * Huwag payagan: /private_file.html

  • I-block ang isang imahe:

    User-agent: googlebot-image Disallow: /images_mypicture.jpg

  • I-block ang lahat ng mga imahe:

    User-agent: imahe ng googlebot na Hindi Pinapayagan: /

  • I-block ang isang tukoy na format ng file:

    User-agent: * Huwag payagan: /p*.gif$

576315 5
576315 5

Hakbang 5. Hikayatin ang mga bot na i-index at i-crawl ang iyong site

Maraming mga tao ang nais na maligayang pagdating, sa halip na harangan, mga search engine spider dahil nais nila ang kanilang buong site na na-index. Upang magawa ito, mayroon kang tatlong mga pagpipilian. Una, maaari kang mag-opt out sa paglikha ng isang robots.txt file-kapag ang robot ay hindi makahanap ng isang robots.txt file, magpapatuloy itong i-crawl at i-index ang iyong buong site. Pangalawa, maaari kang lumikha ng isang walang laman na file ng robots.txt-mahahanap ng robot ang file na robots.txt, makikilala na walang laman ito, at patuloy na mag-crawl at i-index ang iyong site. Panghuli, maaari kang sumulat ng isang ganap na payagan ang file ng robots.txt. Gamitin ang code:

    User-agent: * Hindi Pinapayagan:

  • Kapag binasa ng isang bot, tulad ng googlebot, ang file na ito, malaya itong bisitahin ang iyong buong site.
  • Mga ahente ng gumagamit: ito ay isa pang term para sa mga spider ng search engine, o mga robot
  • *: ang asterisk ay nangangahulugang nalalapat ang code sa lahat ng mga ahente ng gumagamit
  • Huwag payagan: ang blangko na hindi pinapayagan na utos ay nagpapahiwatig na ang lahat ng mga file at folder ay naa-access
576315 6
576315 6

Hakbang 6. I-save ang txt file sa ugat ng iyong domain

Matapos mong isulat ang robots.txt file, i-save ang mga pagbabago. I-upload ang file sa root Directory ng iyong site. Halimbawa, kung ang iyong domain ay www.yourdomain.com, ilagay ang robots.txt file sa www.yourdomain.com/robots.txt.

Paraan 2 ng 2: Pag-block sa Mga Engine sa Paghahanap gamit ang Meta Tags

576315 7
576315 7

Hakbang 1. Maunawaan ang mga meta tag ng mga robot ng HTML

Pinapayagan ng meta tag ng mga robot ang mga programmer na magtakda ng mga parameter para sa mga bot, o mga spider ng search engine. Ginagamit ang mga tag na ito upang harangan ang mga bot mula sa pag-index at pag-crawl ng isang buong site o mga bahagi lamang ng site. Maaari mo ring gamitin ang mga tag na ito upang harangan ang isang tukoy na spider ng search engine mula sa pag-index ng iyong nilalaman. Lumilitaw ang mga tag na ito sa ulo ng iyong HTML file.

Ang pamamaraang ito ay karaniwang ginagamit ng mga programmer na walang access sa root direktoryo ng isang website

576315 8
576315 8

Hakbang 2. I-block ang mga bot mula sa isang solong pahina

Posibleng harangan ang lahat ng mga bot mula sa pag-index ng isang pahina at o mula sa pagsunod sa mga link ng isang pahina. Karaniwang ginagamit ang tag na ito kapag ang isang live na site ay nasa ilalim ng pag-unlad. Kapag kumpleto na ang site, masidhing inirerekumenda na alisin mo ang tag na ito. Kung hindi mo aalisin ang tag, ang iyong pahina ay hindi mai-index o mahahanap sa pamamagitan ng mga search engine.

  • Maaari mong harangan ang mga bot mula sa pag-index ng pahina at mula sa pagsunod sa alinman sa mga link:
  • Maaari mong harangan ang lahat ng mga bot mula sa pag-index ng pahina:
  • Maaari mong harangan ang lahat ng mga bot mula sa pagsunod sa mga link ng pahina:
576315 9
576315 9

Hakbang 3. Payagan ang mga bot na mag-index ng isang pahina, ngunit huwag sundin ang mga link nito

Kung papayagan mong i-index ng mga bot ang pahina, mai-index ang pahina; kung pipigilan mo ang mga spider mula sa pagsunod sa mga link, masisira ang path ng link mula sa tukoy na pahina na ito sa iba pang mga pahina. Ipasok ang sumusunod na linya ng code sa iyong header:

576315 10
576315 10

Hakbang 4. Hayaan ang mga search engine spider na sundin ang mga link ngunit huwag i-index ang pahina

Kung papayagan mong sundin ng mga bot ang mga link ang path ng link mula sa tukoy na pahina na ito sa iba pang mga pahina ay mananatili sa taktika; kung paghihigpitan mo ang mga ito mula sa pag-index ng pahina, ang iyong web page ay hindi lilitaw sa index. Ipasok ang sumusunod na linya ng code sa iyong header:

576315 11
576315 11

Hakbang 5. I-block ang isang solong papalabas na link

Upang maitago ang isang solong link sa isang pahina, mag-embed ng rel tag sa loob ng link tag. Maaari mong gamitin ang tag na ito upang harangan ang mga link sa iba pang mga pahina na hahantong sa tukoy na pahina na nais mong i-block.

    Ipasok ang Link sa Naka-block na Pahina

576315 12
576315 12

Hakbang 6. I-block ang isang tukoy na spider ng search engine

Sa halip na harangan ang lahat ng mga bot mula sa iyong web page, maaari mong hilingin na pigilan ang isang bot mula sa pag-crawl at pag-index ng pahina. Upang magawa ito, palitan ang "'robot"' sa loob ng meta tag ng pangalan ng isang tukoy na bot. Kabilang sa mga halimbawa ay: googlebot, googlebot-news, imahe ng googlebot, bingbot, at teoma.

576315 13
576315 13

Hakbang 7. Hikayatin ang mga bot na mag-crawl at i-index ang iyong pahina

Kung nais mong matiyak na mai-index ang iyong pahina at susundan ang mga link nito, maaari kang magpasok ng isang follow-allow meta "robot" i-tag sa iyong header. Gamitin ang sumusunod na code:

Inirerekumendang: