上篇文章分析了使用robots.txt不能阻止網(wǎng)頁被抓取收錄的原因,那么,如何有效阻止網(wǎng)頁被收錄呢,方法是使用noindex元標(biāo)記。本文將給大家詳細(xì)介紹。
noindex與robots.txt
要阻止某個(gè)網(wǎng)頁出現(xiàn)在搜索結(jié)果中,您可以將 noindex 元標(biāo)記加入該網(wǎng)頁的 HTML 代碼中,或在 HTTP 請求中返回“noindex”標(biāo)頭。當(dāng)爬蟲下次抓取該網(wǎng)頁并看到相應(yīng)的標(biāo)記或標(biāo)頭時(shí),就會(huì)完全阻止該網(wǎng)頁出現(xiàn)在搜索結(jié)果中(不論是否有其他網(wǎng)站鏈接到該網(wǎng)頁)。
重要提示!
要想讓 noindex 指令生效,就不得使用 robots.txt 文件屏蔽相應(yīng)網(wǎng)頁。如果該網(wǎng)頁被 robots.txt 文件屏蔽了,抓取工具將永遠(yuǎn)無法看到 noindex 指令,因此該網(wǎng)頁可能仍會(huì)顯示在搜索結(jié)果中(例如,如果有其他網(wǎng)頁鏈接到該網(wǎng)頁的話)。
如果你不具備對服務(wù)器的 root 訪問權(quán)限,則可借助非常實(shí)用的 noindex 工具控制搜索引擎對你網(wǎng)站上各個(gè)網(wǎng)頁的訪問權(quán)限。
實(shí)施 noindex
你可采用以下兩種方法來實(shí)施 noindex:將 noindex 用作元標(biāo)記,或用作 HTTP 響應(yīng)標(biāo)頭。這兩種方法的效果是等同的,但你可根據(jù)自己對服務(wù)器的控制程度和所用的具體發(fā)布流程,從中任選一種對你而言較為便捷的方式。
◆<meta> 標(biāo)記
要想阻止大部分搜索引擎網(wǎng)頁抓取工具將你網(wǎng)站中的網(wǎng)頁編入索引,請將以下元標(biāo)記放入相應(yīng)網(wǎng)頁的 <head> 部分中:
<meta name="robots" content="noindex">
要阻止 baidu 網(wǎng)頁抓取工具將網(wǎng)頁編入索引,請放入以下元標(biāo)記:
<meta name="Baiduspider" content="noindex">
要阻止 Google 網(wǎng)頁抓取工具將網(wǎng)頁編入索引,請放入以下元標(biāo)記:
<meta name="googlebot" content="noindex">
屏蔽所有蜘蛛爬蟲抓取該頁面的寫法是:
<meta name="robots" content="noindex" >
請注意,某些搜索引擎網(wǎng)頁抓取工具對 noindex 指令可能會(huì)有不同的解讀,因此,你的網(wǎng)頁可能仍會(huì)出現(xiàn)在其他搜索引擎的結(jié)果中。
◆幫助搜索引擎發(fā)現(xiàn)你的noindex元標(biāo)記
只有在抓取你的網(wǎng)頁后才能看到元標(biāo)記。如果你的網(wǎng)頁仍出現(xiàn)在搜索結(jié)果中,可能是因?yàn)樵谀闾砑訕?biāo)記之后搜索引擎尚未抓取過你的網(wǎng)站。你可以向搜索引擎主動(dòng)提交你的網(wǎng)頁,讓爬蟲重新抓取你的網(wǎng)頁。此外,也可能是因?yàn)槟愕?robots.txt 文件禁止了爬蟲訪問該網(wǎng)址,因此無法看到此標(biāo)記。要允許搜索引擎訪問你的網(wǎng)頁,你必須修改 robots.txt 文件。
HTTP 響應(yīng)標(biāo)頭
除了使用元標(biāo)記,你還可在響應(yīng)中返回一個(gè)值為 noindex 或 none 的 X-Robots-Tag
標(biāo)頭。下面的 HTTP 響應(yīng)示例便含有一個(gè)可指示抓取工具不要將某一網(wǎng)頁編入索引的 X-Robots-Tag
:
HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)
如何利用 Apache 實(shí)際實(shí)施 X-Robots-Tag
你可以使用基于 Apache 的網(wǎng)絡(luò)服務(wù)器上默認(rèn)提供的 .htaccess 和 httpd.conf 文件,將 X-Robots-Tag
添加到網(wǎng)站的 HTTP 響應(yīng)中。在 HTTP 響應(yīng)中使用 X-Robots-Tag
的好處是,你可以指定要應(yīng)用于整個(gè)網(wǎng)站的抓取指令。系統(tǒng)對正則表達(dá)式的支持提供了很高的靈活性。
例如,要將 noindex, nofollow X-Robots-Tag 添加到整個(gè)網(wǎng)站上所有 .PDF 文件的 HTTP 響應(yīng)中,請將以下代碼段添加到網(wǎng)站的 root .htaccess 文件或 httpd.conf 文件中:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
你可以對無法使用漫游器元標(biāo)記的非 HTML 文件(如圖片文件)使用 X-Robots-Tag
。下面的示例說明了如何針對整個(gè)網(wǎng)站上的所有圖片文件(.png、.jpeg、.jpg、.gif)添加 noindex X-Robots-Tag 指令:
<Files ~ "\.(png|jpe?g|gif)$">
Header set X-Robots-Tag "noindex"
</Files>
如何合并使用抓取指令與索引編制/內(nèi)容顯示指令
只有當(dāng)網(wǎng)頁被抓取時(shí),漫游器元標(biāo)記和 X-Robots-Tag HTTP 標(biāo)頭才會(huì)被抓取工具發(fā)現(xiàn)。如果你通過 robots.txt 文件禁止抓取某一網(wǎng)頁,那么抓取工具就不會(huì)找到任何關(guān)于索引編制/內(nèi)容顯示指令的信息,因此會(huì)忽略這些信息。如果索引編制/內(nèi)容顯示指令必須被遵循,那么你就不能禁止抓取工具抓取包含這些指令的網(wǎng)址。
您可能對以下文章也感興趣