日韩欧美成人免费电影,中文无码日韩欧免费视频APP

上篇文章分析了使用robots.txt不能阻止網(wǎng)頁被抓取收錄的原因，那么，如何有效阻止網(wǎng)頁被收錄呢，方法是使用noindex元標(biāo)記。本文將給大家詳細(xì)介紹。

noindex與robots.txt

要阻止某個(gè)網(wǎng)頁出現(xiàn)在搜索結(jié)果中，您可以將 noindex 元標(biāo)記加入該網(wǎng)頁的 HTML 代碼中，或在 HTTP 請求中返回“noindex”標(biāo)頭。當(dāng)爬蟲下次抓取該網(wǎng)頁并看到相應(yīng)的標(biāo)記或標(biāo)頭時(shí)，就會完全阻止該網(wǎng)頁出現(xiàn)在搜索結(jié)果中（不論是否有其他網(wǎng)站鏈接到該網(wǎng)頁）。

重要提示！
要想讓 noindex 指令生效，就不得使用 robots.txt 文件屏蔽相應(yīng)網(wǎng)頁。如果該網(wǎng)頁被 robots.txt 文件屏蔽了，抓取工具將永遠(yuǎn)無法看到 noindex 指令，因此該網(wǎng)頁可能仍會顯示在搜索結(jié)果中（例如，如果有其他網(wǎng)頁鏈接到該網(wǎng)頁的話）。

如果你不具備對服務(wù)器的 root 訪問權(quán)限，則可借助非常實(shí)用的 noindex 工具控制搜索引擎對你網(wǎng)站上各個(gè)網(wǎng)頁的訪問權(quán)限。

實(shí)施 noindex

你可采用以下兩種方法來實(shí)施 noindex：將 noindex 用作元標(biāo)記，或用作 HTTP 響應(yīng)標(biāo)頭。這兩種方法的效果是等同的，但你可根據(jù)自己對服務(wù)器的控制程度和所用的具體發(fā)布流程，從中任選一種對你而言較為便捷的方式。

◆<meta> 標(biāo)記

要想阻止大部分搜索引擎網(wǎng)頁抓取工具將你網(wǎng)站中的網(wǎng)頁編入索引，請將以下元標(biāo)記放入相應(yīng)網(wǎng)頁的 <head> 部分中：

要阻止 baidu 網(wǎng)頁抓取工具將網(wǎng)頁編入索引，請放入以下元標(biāo)記：

要阻止 Google 網(wǎng)頁抓取工具將網(wǎng)頁編入索引，請放入以下元標(biāo)記：

屏蔽所有蜘蛛爬蟲抓取該頁面的寫法是：

請注意，某些搜索引擎網(wǎng)頁抓取工具對 noindex 指令可能會有不同的解讀，因此，你的網(wǎng)頁可能仍會出現(xiàn)在其他搜索引擎的結(jié)果中。

◆幫助搜索引擎發(fā)現(xiàn)你的noindex元標(biāo)記

只有在抓取你的網(wǎng)頁后才能看到元標(biāo)記。如果你的網(wǎng)頁仍出現(xiàn)在搜索結(jié)果中，可能是因?yàn)樵谀闾砑訕?biāo)記之后搜索引擎尚未抓取過你的網(wǎng)站。你可以向搜索引擎主動提交你的網(wǎng)頁，讓爬蟲重新抓取你的網(wǎng)頁。此外，也可能是因?yàn)槟愕?robots.txt 文件禁止了爬蟲訪問該網(wǎng)址，因此無法看到此標(biāo)記。要允許搜索引擎訪問你的網(wǎng)頁，你必須修改 robots.txt 文件。

HTTP 響應(yīng)標(biāo)頭

除了使用元標(biāo)記，你還可在響應(yīng)中返回一個(gè)值為 noindex 或 none 的 X-Robots-Tag 標(biāo)頭。下面的 HTTP 響應(yīng)示例便含有一個(gè)可指示抓取工具不要將某一網(wǎng)頁編入索引的 X-Robots-Tag：

HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)

如何利用 Apache 實(shí)際實(shí)施 X-Robots-Tag

你可以使用基于 Apache 的網(wǎng)絡(luò)服務(wù)器上默認(rèn)提供的 .htaccess 和 httpd.conf 文件，將 X-Robots-Tag 添加到網(wǎng)站的 HTTP 響應(yīng)中。在 HTTP 響應(yīng)中使用 X-Robots-Tag 的好處是，你可以指定要應(yīng)用于整個(gè)網(wǎng)站的抓取指令。系統(tǒng)對正則表達(dá)式的支持提供了很高的靈活性。

例如，要將 noindex, nofollow X-Robots-Tag 添加到整個(gè)網(wǎng)站上所有 .PDF 文件的 HTTP 響應(yīng)中，請將以下代碼段添加到網(wǎng)站的 root .htaccess 文件或 httpd.conf 文件中：

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

你可以對無法使用漫游器元標(biāo)記的非 HTML 文件（如圖片文件）使用 X-Robots-Tag。下面的示例說明了如何針對整個(gè)網(wǎng)站上的所有圖片文件（.png、.jpeg、.jpg、.gif）添加 noindex X-Robots-Tag 指令：

<Files ~ "\.(png|jpe?g|gif)$">
Header set X-Robots-Tag "noindex"
</Files>

如何合并使用抓取指令與索引編制/內(nèi)容顯示指令

只有當(dāng)網(wǎng)頁被抓取時(shí)，漫游器元標(biāo)記和 X-Robots-Tag HTTP 標(biāo)頭才會被抓取工具發(fā)現(xiàn)。如果你通過 robots.txt 文件禁止抓取某一網(wǎng)頁，那么抓取工具就不會找到任何關(guān)于索引編制/內(nèi)容顯示指令的信息，因此會忽略這些信息。如果索引編制/內(nèi)容顯示指令必須被遵循，那么你就不能禁止抓取工具抓取包含這些指令的網(wǎng)址。

您可能對以下文章也感興趣

屏蔽百度蜘蛛或某一爬蟲的四種方法