記憶盒子

把記憶裝進(jìn)灰色的盒子,封裝起來,那年那月,重新拾起。

首頁搜索目錄
search
當(dāng)前主題: 互聯(lián)網(wǎng)絡(luò)

使用noindex而不是robots.txt屏蔽搜素引擎(baidu/google)收錄網(wǎng)頁

作者:Kaka    時(shí)間:2018-7-18 10:50:33    瀏覽:    評論:0

上篇文章分析了使用robots.txt不能阻止網(wǎng)頁被抓取收錄的原因,那么,如何有效阻止網(wǎng)頁被收錄呢,方法是使用noindex元標(biāo)記。本文將給大家詳細(xì)介紹。

 noindex與robots.txt

noindex與robots.txt

要阻止某個(gè)網(wǎng)頁出現(xiàn)在搜索結(jié)果中,您可以將 noindex 元標(biāo)記加入該網(wǎng)頁的 HTML 代碼中,或在 HTTP 請求中返回“noindex”標(biāo)頭。當(dāng)爬蟲下次抓取該網(wǎng)頁并看到相應(yīng)的標(biāo)記或標(biāo)頭時(shí),就會(huì)完全阻止該網(wǎng)頁出現(xiàn)在搜索結(jié)果中(不論是否有其他網(wǎng)站鏈接到該網(wǎng)頁)。

重要提示!

要想讓 noindex 指令生效,就不得使用 robots.txt 文件屏蔽相應(yīng)網(wǎng)頁。如果該網(wǎng)頁被 robots.txt 文件屏蔽了,抓取工具將永遠(yuǎn)無法看到 noindex 指令,因此該網(wǎng)頁可能仍會(huì)顯示在搜索結(jié)果中(例如,如果有其他網(wǎng)頁鏈接到該網(wǎng)頁的話)。

如果你不具備對服務(wù)器的 root 訪問權(quán)限,則可借助非常實(shí)用的 noindex 工具控制搜索引擎對你網(wǎng)站上各個(gè)網(wǎng)頁的訪問權(quán)限。

實(shí)施 noindex

你可采用以下兩種方法來實(shí)施 noindex:將 noindex 用作元標(biāo)記,或用作 HTTP 響應(yīng)標(biāo)頭。這兩種方法的效果是等同的,但你可根據(jù)自己對服務(wù)器的控制程度和所用的具體發(fā)布流程,從中任選一種對你而言較為便捷的方式。

<meta> 標(biāo)記

要想阻止大部分搜索引擎網(wǎng)頁抓取工具將你網(wǎng)站中的網(wǎng)頁編入索引,請將以下元標(biāo)記放入相應(yīng)網(wǎng)頁的 <head> 部分中:

<meta name="robots" content="noindex">

要阻止 baidu 網(wǎng)頁抓取工具將網(wǎng)頁編入索引,請放入以下元標(biāo)記:

<meta name="Baiduspider" content="noindex">

要阻止 Google 網(wǎng)頁抓取工具將網(wǎng)頁編入索引,請放入以下元標(biāo)記:

<meta name="googlebot" content="noindex">

屏蔽所有蜘蛛爬蟲抓取該頁面的寫法是:

<meta name="robots" content="noindex" >

請注意,某些搜索引擎網(wǎng)頁抓取工具對 noindex 指令可能會(huì)有不同的解讀,因此,你的網(wǎng)頁可能仍會(huì)出現(xiàn)在其他搜索引擎的結(jié)果中。

◆幫助搜索引擎發(fā)現(xiàn)你的noindex元標(biāo)記

只有在抓取你的網(wǎng)頁后才能看到元標(biāo)記。如果你的網(wǎng)頁仍出現(xiàn)在搜索結(jié)果中,可能是因?yàn)樵谀闾砑訕?biāo)記之后搜索引擎尚未抓取過你的網(wǎng)站。你可以向搜索引擎主動(dòng)提交你的網(wǎng)頁,讓爬蟲重新抓取你的網(wǎng)頁。此外,也可能是因?yàn)槟愕?robots.txt 文件禁止了爬蟲訪問該網(wǎng)址,因此無法看到此標(biāo)記。要允許搜索引擎訪問你的網(wǎng)頁,你必須修改 robots.txt 文件。

HTTP 響應(yīng)標(biāo)頭

除了使用元標(biāo)記,你還可在響應(yīng)中返回一個(gè)值為 noindex 或 none 的 X-Robots-Tag 標(biāo)頭。下面的 HTTP 響應(yīng)示例便含有一個(gè)可指示抓取工具不要將某一網(wǎng)頁編入索引的 X-Robots-Tag

HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)

如何利用 Apache 實(shí)際實(shí)施 X-Robots-Tag

你可以使用基于 Apache 的網(wǎng)絡(luò)服務(wù)器上默認(rèn)提供的 .htaccess 和 httpd.conf 文件,將 X-Robots-Tag 添加到網(wǎng)站的 HTTP 響應(yīng)中。在 HTTP 響應(yīng)中使用 X-Robots-Tag 的好處是,你可以指定要應(yīng)用于整個(gè)網(wǎng)站的抓取指令。系統(tǒng)對正則表達(dá)式的支持提供了很高的靈活性。

例如,要將 noindex, nofollow X-Robots-Tag 添加到整個(gè)網(wǎng)站上所有 .PDF 文件的 HTTP 響應(yīng)中,請將以下代碼段添加到網(wǎng)站的 root .htaccess 文件或 httpd.conf 文件中:

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

你可以對無法使用漫游器元標(biāo)記的非 HTML 文件(如圖片文件)使用 X-Robots-Tag。下面的示例說明了如何針對整個(gè)網(wǎng)站上的所有圖片文件(.png、.jpeg、.jpg、.gif)添加 noindex X-Robots-Tag 指令:

<Files ~ "\.(png|jpe?g|gif)$">
Header set X-Robots-Tag "noindex"
</Files>

如何合并使用抓取指令與索引編制/內(nèi)容顯示指令

只有當(dāng)網(wǎng)頁被抓取時(shí),漫游器元標(biāo)記和 X-Robots-Tag HTTP 標(biāo)頭才會(huì)被抓取工具發(fā)現(xiàn)。如果你通過 robots.txt 文件禁止抓取某一網(wǎng)頁,那么抓取工具就不會(huì)找到任何關(guān)于索引編制/內(nèi)容顯示指令的信息,因此會(huì)忽略這些信息。如果索引編制/內(nèi)容顯示指令必須被遵循,那么你就不能禁止抓取工具抓取包含這些指令的網(wǎng)址。

您可能對以下文章也感興趣

屏蔽百度蜘蛛或某一爬蟲的四種方法

x

標(biāo)簽: robots.txt  noindex  

※ 網(wǎng)站速度慢?試試網(wǎng)站自動(dòng)優(yōu)化工具 ※

上一篇: 使用robots.txt不能阻止網(wǎng)頁被抓取收錄的原因
下一篇: SSLDUN多域名ssl DV證書最多支持250個(gè)域名

發(fā)表評論:

◎歡迎參與討論,請?jiān)谶@里發(fā)表您的看法、交流您的觀點(diǎn)。

訂閱博客                   QQ交流群(312716741)

  • 通過Google訂閱本站 通過鮮果訂閱本站 通過抓蝦訂閱本站
  • 通過QQ郵箱訂閱本站 通過Yahoo訂閱本站 通過有道訂閱本站

Search

最新評論及回復(fù)

最近留言

網(wǎng)站分類

Powered By Z-Blog 1.8 Walle Build 91204 Designed by Han'space

Copyright @2009-2024 All Rights Reserved. 粵ICP備14028160號(hào)-1

Powered By Z-Blog 1.8 Walle Build 91204
Copyright @2009-2024 All Rights Reserved.