正如你所知道的,你不能總是依賴蜘蛛引擎在訪問(wèn)或者索引你的網(wǎng)站時(shí)能夠十分有效的運(yùn)作。完全依靠他們自己的端口,蜘蛛會(huì)產(chǎn)生許多重復(fù)內(nèi)容,把一些重要頁(yè)面當(dāng)成垃圾,索引本不應(yīng)該展示給用戶的鏈接入口,還會(huì)有其他的問(wèn)題。有一些工具可以讓我們能夠充分控制蜘蛛在網(wǎng)站內(nèi)部的活動(dòng),如meta robots標(biāo)簽,robots.txt、canonical標(biāo)簽等。
今天,我講一下機(jī)器人控制技術(shù)使用的局限。為了讓蜘蛛不抓取某一個(gè)頁(yè)面,站長(zhǎng)們有時(shí)會(huì)使用多個(gè)機(jī)器人控制技術(shù), 來(lái)禁止搜索引擎訪問(wèn)某個(gè)網(wǎng)頁(yè)。不幸的是,這些技術(shù)能有時(shí)互相抵觸:從另一方面說(shuō)這樣的限制會(huì)把某些死鏈給隱藏掉了。
那么,當(dāng)一個(gè)頁(yè)面的robots文件中被禁止訪問(wèn),或者被使用noindex tag 和 canonical tag時(shí)會(huì)發(fā)生什么?
快速?gòu)?fù)習(xí)
在我們進(jìn)入主題之前,讓我們看一下那些主流的robots的一些限制技巧吧:
元機(jī)器人標(biāo)簽
元機(jī)器人標(biāo)簽(Meta Robots Tag)為搜索引擎機(jī)器人建立頁(yè)面等級(jí)說(shuō)明。元機(jī)器人標(biāo)簽應(yīng)放在HTML文件的頭部。
規(guī)范標(biāo)簽(canonical tag)
規(guī)范標(biāo)簽(canonical tag)是一個(gè)位于網(wǎng)頁(yè)HTML頭部的頁(yè)面等級(jí)的元標(biāo)簽。它告訴搜索引擎哪一個(gè)URL的顯示是規(guī)范的。它的目的是不讓搜索引擎抓取重復(fù)內(nèi)容,同時(shí)將重復(fù)頁(yè)面的權(quán)重集中在規(guī)范的那一個(gè)頁(yè)面上。
X機(jī)器人標(biāo)簽
自2007年以來(lái),谷歌和其他搜索引擎已經(jīng)支持把X-Robots-Tag作為一種方法來(lái)告訴蜘蛛爬行和索引的優(yōu)先順序,X-Robots-Tag位于HTTP頭部,曾用于通知蜘蛛爬行和索引文件而用。該標(biāo)簽對(duì)控制那些非HTML文件的索引是很有用的,如PDF文件。
機(jī)器人標(biāo)簽
robots.txt允許一些搜索引擎進(jìn)入網(wǎng)站內(nèi)部,但是它并不能保證具體某個(gè)頁(yè)面會(huì)不會(huì)被抓取和索引。除非出于SEO的原因,否則只有當(dāng)確實(shí)有必要或者在站點(diǎn)上有需要屏蔽的robots時(shí)robots.txt才確實(shí)值得使用。我總是推薦使用元數(shù)據(jù)標(biāo)簽“noindex”來(lái)代替它。
避免沖突
同時(shí)利用兩種方法來(lái)限制robot入口是不明智的:
· Meta Robots ‘noindex‘ (元機(jī)器人標(biāo)簽“noindex”)
· Canonical Tag (when pointing to a different URL) (標(biāo)準(zhǔn)標(biāo)簽)
· Robots.txt Disallow
· X-Robots-Tag(x機(jī)器人標(biāo)簽)
盡管你很想去保持頁(yè)面的搜索結(jié)果,但是一個(gè)辦法總是比兩個(gè)好。讓我們來(lái)看看當(dāng)在一個(gè)單一的URL中有很多robots路徑控制技術(shù)時(shí)會(huì)發(fā)生什么。
Meta Robots ’noindex‘ 和 Canonical標(biāo)簽
如果你的目標(biāo)是一個(gè)URL的權(quán)重傳遞給另一個(gè)URL,而你卻沒(méi)有其他的更好辦法的時(shí)候,那就只能用Canonical標(biāo)簽。不要用元機(jī)器人標(biāo)簽的“noindex”來(lái)給自己添麻煩。如果你使用兩個(gè)robot的方法,搜索引擎可能根本看不到你的Canonical標(biāo)簽。權(quán)重傳遞的效用將會(huì)被忽略,因?yàn)闄C(jī)器人的noindex標(biāo)簽會(huì)使它看不到Canonical標(biāo)簽!
Meta Robots ’noindex‘ & X-Robots-Tag ’noindex‘
這些標(biāo)簽是多余的。這兩個(gè)標(biāo)簽放置在同一個(gè)頁(yè)面我只能看到的是給SEO造成的不良影響。如果你能在元機(jī)器人‘noindex’中改變頭文件,你就不應(yīng)該使用x機(jī)器人標(biāo)簽吧。
Robots.txt Disallow &Meta Robots ’noindex‘
這是我看過(guò)的最常見(jiàn)的沖突:
我之所以青睞Meta Robots“noindex”的原因是因?yàn)樗梢杂行У淖柚挂粋(gè)頁(yè)面被索引,同時(shí)它還還是可以傳遞權(quán)重到連接這個(gè)頁(yè)面的更深層次的頁(yè)面。這是一個(gè)雙贏的方法。
robots.txt文件不允許完全限制搜索引擎查看頁(yè)面上的信息(以及其中有價(jià)值的內(nèi)部鏈接),特別是不能限制url被索引。有什么好處?我曾經(jīng)單獨(dú)寫(xiě)過(guò)一篇關(guān)于這個(gè)主題的文章。
如果兩個(gè)標(biāo)簽都使用,robots.txt保證會(huì)使Meta Robots ‘noindex’ 不被蜘蛛看到。你會(huì)受到robots.txt中disallow的影響并且錯(cuò)過(guò)了所有的Meta Robots‘noindex’帶來(lái)的所有好處。
推薦閱讀
騰訊公布最新的數(shù)據(jù)顯示,手機(jī) QQ 瀏覽器月 PV 超過(guò)了 1200 億,這也是首個(gè) PV 破千億的第三方手機(jī)瀏覽器,而易觀數(shù)據(jù)顯示,手機(jī) QQ 瀏覽器市場(chǎng)份額首次超越 UC 瀏覽器,位居市場(chǎng)第一。雖然不是下載量也不是安裝量,>>>詳細(xì)閱讀
本文標(biāo)題:避免蜘蛛爬行和索引錯(cuò)誤的技巧:繞開(kāi)沖突
地址:http://www.geekbao.cn/a/34/20110915/11791.html