記憶盒子

把記憶裝進(jìn)灰色的盒子,封裝起來(lái),那年那月,重新拾起。

首頁(yè)搜索目錄
search
當(dāng)前主題: 互聯(lián)網(wǎng)絡(luò)

使用robots.txt不能阻止網(wǎng)頁(yè)被抓取收錄的原因

作者:Kaka    時(shí)間:2018-7-18 9:53:25    瀏覽:    評(píng)論:0

要阻止某些網(wǎng)頁(yè)被搜索引擎抓取收錄,大家首先想到的方法應(yīng)該是使用 robots.txt 吧。沒(méi)錯(cuò),幾乎每個(gè)網(wǎng)站都有一個(gè) robots.txt 文件,目的是禁止某些目錄被搜索引擎抓取收錄并加入都搜索結(jié)果索引中。不過(guò),如果想禁止搜索引擎抓取某些網(wǎng)頁(yè),使用 robots.txt 是不夠的。

robots.txt

robots.txt

請(qǐng)不要將 robots.txt 用作隱藏網(wǎng)頁(yè)的方法

robots.txt 文件位于網(wǎng)站的根目錄下,用于表明你不希望搜索引擎抓取工具訪問(wèn)你網(wǎng)站上的哪些內(nèi)容。此文件使用的是漫游器排除標(biāo)準(zhǔn),該標(biāo)準(zhǔn)是一種內(nèi)含一小組命令的協(xié)議,可依照網(wǎng)站各部分和特定的網(wǎng)頁(yè)抓取工具類(lèi)型(例如移動(dòng)版抓取工具與桌面版抓取工具),表明可訪問(wèn)的網(wǎng)站內(nèi)容。

非圖片文件

對(duì)于非圖片文件(即網(wǎng)頁(yè)),您應(yīng)僅將 robots.txt 用于控制抓取流量,因?yàn)橥ǔG闆r下你不會(huì)希望搜索引擎抓取工具造成你的服務(wù)器超負(fù)荷,或是將抓取預(yù)算浪費(fèi)在抓取你網(wǎng)站上不重要或相似的網(wǎng)頁(yè)上。如果你不想讓自己的網(wǎng)頁(yè)顯示在搜索引擎搜索結(jié)果中,請(qǐng)不要將 robots.txt 用作隱藏網(wǎng)頁(yè)的方法。 這是因?yàn)槠渌W(wǎng)頁(yè)可能會(huì)指向你的網(wǎng)頁(yè),導(dǎo)致你的網(wǎng)頁(yè)被編入索引,而讓 robots.txt 文件失去效用。如果你想從搜索結(jié)果中屏蔽自己的網(wǎng)頁(yè),請(qǐng)使用其他方法,例如密碼保護(hù)或 noindex 標(biāo)記或指令。

圖片文件

robots.txt 可以阻止圖片文件出現(xiàn)在搜索引擎搜索結(jié)果中(不過(guò)它不會(huì)阻止其他網(wǎng)頁(yè)或用戶(hù)鏈接到你的圖片)。

資源文件

如果你認(rèn)為加載網(wǎng)頁(yè)時(shí)跳過(guò)不重要的圖片、腳本或樣式文件等資源并不會(huì)造成太大影響,那么你可以使用 robots.txt 來(lái)屏蔽這些資源文件。不過(guò),如果缺少這些資源會(huì)增加抓取工具在分析網(wǎng)頁(yè)方面的難度,則建議你不要屏蔽這些資源,否則搜索引擎將無(wú)法正確分析需要依賴(lài)這些資源的網(wǎng)頁(yè)。

了解 robots.txt 的限制

在創(chuàng)建 robots.txt 之前,你應(yīng)該了解這種網(wǎng)址屏蔽方法的潛在風(fēng)險(xiǎn)。有時(shí)候,你可能需要考慮采用其他機(jī)制來(lái)確保搜索引擎無(wú)法在網(wǎng)絡(luò)上找到你的網(wǎng)址。

Robots.txt 命令僅僅只是指令

robots.txt 文件中的命令并不能強(qiáng)制抓取工具對(duì)你的網(wǎng)站采取具體的操作;對(duì)于訪問(wèn)你網(wǎng)站的抓取工具來(lái)說(shuō),這些命令僅作為指令。正規(guī)的網(wǎng)頁(yè)抓取工具都會(huì)遵循 robots.txt 文件中的命令,但其他抓取工具未必也會(huì)如此。因此,如果你想確保自己網(wǎng)站上的特定信息不會(huì)被網(wǎng)頁(yè)抓取工具抓取,建議你采用其他屏蔽方法(如為您服務(wù)器上的隱私文件提供密碼保護(hù))。

不同的抓取工具對(duì)語(yǔ)法的解析各不相同

雖然正規(guī)的網(wǎng)頁(yè)抓取工具會(huì)遵循 robots.txt 文件中的指令,但這些抓取工具可能會(huì)以不同的方式來(lái)解析這些指令。你應(yīng)該好好了解一下適用于不同網(wǎng)頁(yè)抓取工具的正確語(yǔ)法,因?yàn)橛行┳ト」ぞ呖赡軙?huì)無(wú)法理解某些命令。

如果其他網(wǎng)站上有鏈接指向被 robots.txt 文件屏蔽的網(wǎng)頁(yè),則此網(wǎng)頁(yè)仍可能會(huì)被編入索引

盡管搜索引擎不會(huì)抓取被 robots.txt 屏蔽的內(nèi)容或?qū)⑵渚幦胨饕?,但如果網(wǎng)絡(luò)上的其他位置有鏈接指向被禁止訪問(wèn)的網(wǎng)址,搜索引擎仍可能會(huì)找到該網(wǎng)址并將其編入索引。因此,相關(guān)網(wǎng)址和其他公開(kāi)顯示的信息(如相關(guān)頁(yè)面鏈接中的定位文字)仍可能會(huì)出現(xiàn)在搜索結(jié)果中。要想正確阻止你的網(wǎng)址出現(xiàn)在搜索結(jié)果中,你應(yīng)該為你服務(wù)器上的文件提供密碼保護(hù)或使用 noindex 元標(biāo)記或響應(yīng)標(biāo)頭(或者徹底移除相關(guān)網(wǎng)頁(yè))。

您可能對(duì)以下文章也感興趣

robots.txt Disallow和Allow上下級(jí)目錄或文件的寫(xiě)法

robots.txt 語(yǔ)法詳解:*、$、?等字符的含義及用法

x

標(biāo)簽: robots.txt  

※ 網(wǎng)站速度慢?試試網(wǎng)站自動(dòng)優(yōu)化工具 ※

  • 擴(kuò)展閱讀
上一篇: iis7/iis7.5/iis10設(shè)置gzip壓縮臨時(shí)/緩存目錄的方法
下一篇: 使用noindex而不是robots.txt屏蔽搜素引擎(baidu/google)收錄網(wǎng)頁(yè)

發(fā)表評(píng)論:

◎歡迎參與討論,請(qǐng)?jiān)谶@里發(fā)表您的看法、交流您的觀點(diǎn)。

訂閱博客                   QQ交流群(312716741)

  • 通過(guò)Google訂閱本站 通過(guò)鮮果訂閱本站 通過(guò)抓蝦訂閱本站
  • 通過(guò)QQ郵箱訂閱本站 通過(guò)Yahoo訂閱本站 通過(guò)有道訂閱本站

Search

最新評(píng)論及回復(fù)

最近留言

網(wǎng)站分類(lèi)

Powered By Z-Blog 1.8 Walle Build 91204 Designed by Han'space

Copyright @2009-2024 All Rights Reserved. 粵ICP備14028160號(hào)-1

Powered By Z-Blog 1.8 Walle Build 91204
Copyright @2009-2024 All Rights Reserved.