要阻止某些網(wǎng)頁(yè)被搜索引擎抓取收錄,大家首先想到的方法應(yīng)該是使用 robots.txt 吧。沒(méi)錯(cuò),幾乎每個(gè)網(wǎng)站都有一個(gè) robots.txt 文件,目的是禁止某些目錄被搜索引擎抓取收錄并加入都搜索結(jié)果索引中。不過(guò),如果想禁止搜索引擎抓取某些網(wǎng)頁(yè),使用 robots.txt 是不夠的。
robots.txt
請(qǐng)不要將 robots.txt 用作隱藏網(wǎng)頁(yè)的方法
robots.txt 文件位于網(wǎng)站的根目錄下,用于表明你不希望搜索引擎抓取工具訪問(wèn)你網(wǎng)站上的哪些內(nèi)容。此文件使用的是漫游器排除標(biāo)準(zhǔn),該標(biāo)準(zhǔn)是一種內(nèi)含一小組命令的協(xié)議,可依照網(wǎng)站各部分和特定的網(wǎng)頁(yè)抓取工具類(lèi)型(例如移動(dòng)版抓取工具與桌面版抓取工具),表明可訪問(wèn)的網(wǎng)站內(nèi)容。
◆非圖片文件
對(duì)于非圖片文件(即網(wǎng)頁(yè)),您應(yīng)僅將 robots.txt 用于控制抓取流量,因?yàn)橥ǔG闆r下你不會(huì)希望搜索引擎抓取工具造成你的服務(wù)器超負(fù)荷,或是將抓取預(yù)算浪費(fèi)在抓取你網(wǎng)站上不重要或相似的網(wǎng)頁(yè)上。如果你不想讓自己的網(wǎng)頁(yè)顯示在搜索引擎搜索結(jié)果中,請(qǐng)不要將 robots.txt 用作隱藏網(wǎng)頁(yè)的方法。 這是因?yàn)槠渌W(wǎng)頁(yè)可能會(huì)指向你的網(wǎng)頁(yè),導(dǎo)致你的網(wǎng)頁(yè)被編入索引,而讓 robots.txt 文件失去效用。如果你想從搜索結(jié)果中屏蔽自己的網(wǎng)頁(yè),請(qǐng)使用其他方法,例如密碼保護(hù)或 noindex 標(biāo)記或指令。
◆圖片文件
robots.txt 可以阻止圖片文件出現(xiàn)在搜索引擎搜索結(jié)果中(不過(guò)它不會(huì)阻止其他網(wǎng)頁(yè)或用戶(hù)鏈接到你的圖片)。
◆資源文件
如果你認(rèn)為加載網(wǎng)頁(yè)時(shí)跳過(guò)不重要的圖片、腳本或樣式文件等資源并不會(huì)造成太大影響,那么你可以使用 robots.txt 來(lái)屏蔽這些資源文件。不過(guò),如果缺少這些資源會(huì)增加抓取工具在分析網(wǎng)頁(yè)方面的難度,則建議你不要屏蔽這些資源,否則搜索引擎將無(wú)法正確分析需要依賴(lài)這些資源的網(wǎng)頁(yè)。
了解 robots.txt 的限制
在創(chuàng)建 robots.txt 之前,你應(yīng)該了解這種網(wǎng)址屏蔽方法的潛在風(fēng)險(xiǎn)。有時(shí)候,你可能需要考慮采用其他機(jī)制來(lái)確保搜索引擎無(wú)法在網(wǎng)絡(luò)上找到你的網(wǎng)址。
◆Robots.txt 命令僅僅只是指令
robots.txt 文件中的命令并不能強(qiáng)制抓取工具對(duì)你的網(wǎng)站采取具體的操作;對(duì)于訪問(wèn)你網(wǎng)站的抓取工具來(lái)說(shuō),這些命令僅作為指令。正規(guī)的網(wǎng)頁(yè)抓取工具都會(huì)遵循 robots.txt 文件中的命令,但其他抓取工具未必也會(huì)如此。因此,如果你想確保自己網(wǎng)站上的特定信息不會(huì)被網(wǎng)頁(yè)抓取工具抓取,建議你采用其他屏蔽方法(如為您服務(wù)器上的隱私文件提供密碼保護(hù))。
◆不同的抓取工具對(duì)語(yǔ)法的解析各不相同
雖然正規(guī)的網(wǎng)頁(yè)抓取工具會(huì)遵循 robots.txt 文件中的指令,但這些抓取工具可能會(huì)以不同的方式來(lái)解析這些指令。你應(yīng)該好好了解一下適用于不同網(wǎng)頁(yè)抓取工具的正確語(yǔ)法,因?yàn)橛行┳ト」ぞ呖赡軙?huì)無(wú)法理解某些命令。
◆如果其他網(wǎng)站上有鏈接指向被 robots.txt 文件屏蔽的網(wǎng)頁(yè),則此網(wǎng)頁(yè)仍可能會(huì)被編入索引
盡管搜索引擎不會(huì)抓取被 robots.txt 屏蔽的內(nèi)容或?qū)⑵渚幦胨饕?,但如果網(wǎng)絡(luò)上的其他位置有鏈接指向被禁止訪問(wèn)的網(wǎng)址,搜索引擎仍可能會(huì)找到該網(wǎng)址并將其編入索引。因此,相關(guān)網(wǎng)址和其他公開(kāi)顯示的信息(如相關(guān)頁(yè)面鏈接中的定位文字)仍可能會(huì)出現(xiàn)在搜索結(jié)果中。要想正確阻止你的網(wǎng)址出現(xiàn)在搜索結(jié)果中,你應(yīng)該為你服務(wù)器上的文件提供密碼保護(hù)或使用 noindex 元標(biāo)記或響應(yīng)標(biāo)頭(或者徹底移除相關(guān)網(wǎng)頁(yè))。
您可能對(duì)以下文章也感興趣
robots.txt Disallow和Allow上下級(jí)目錄或文件的寫(xiě)法
robots.txt 語(yǔ)法詳解:*、$、?等字符的含義及用法