robots.txt文件,相比朋友們都或多或少的聽說過,也可能自己已經寫過了。其實到目前為止我本人還沒寫過robots.txt文件,不是不會寫,只是感覺博客中沒什么內容需要阻止蜘蛛抓取的。而且想必大家也知道一個個人獨立博客中出現死鏈接的概率應該是非常小的,不需要過多的進行死鏈接處理所以我感覺沒什么必要。但是robots.txt文件寫法作為個人站長的必須掌握的技能之一,其用處還是很廣泛的。這里就詳細介紹下,也算是自己溫習溫習。
什么是robots.txt文件
我們從這個文件名來看,它是.txt后綴名的,大家也應該知道這是一個文本文件,也就是記事本。robots,懂點英語的人應該都人士,是機器人的意思,對我們而言這個機器人代表的就是搜索引擎機器人,從名字上就可以猜到這個文件是我們專門寫給蜘蛛看的。它的作用就是告訴蜘蛛,那些欄目或者是那些頁面不需要抓取,當然也可以直接屏蔽掉某個蜘蛛的訪問。注意,這個文件是放在網站根目錄下的,這樣才能保證蜘蛛可以在第一時間讀取文件內容。
robots文件的作用
其實robots文件最常被我們用到的就是屏蔽網站內的死鏈接。大家應該知道一個網站死鏈接多了會影響網站的權重。但是網站死鏈接清理雖然說不上是麻煩,還是需要花上不少時間的,特別是如果站內死鏈接較多的情況下,清理起來很費勁,這時候robots文件的用處就體現出來了,我們可以直接將這些死鏈接按照格式寫入文件中阻止蜘蛛抓取,想清理的或以后在慢慢清理。有些網站內容中包含一些站長不想讓蜘蛛抓取的url或文件,也可以直接屏蔽。對于屏蔽蜘蛛,用到的一般都比較少。
robots文件的寫法
這一點應該是比較重要的了。如果寫錯了想屏蔽的沒成功,想被抓取的卻寫進去自己不能及時發現可就虧大了。首先我們要知道兩個標簽,Allow和Disallow,一個是允許,一個是不允許,它的作用相比大家也都能理解。
User-agent: *
Disallow:
或者
User-agent: *
Allow:
這兩段內容表示的都是允許抓取所有,實際上屏蔽url和文件用到的是Disallow標簽,除非你的網站只有幾條想要被抓取采用Allow標簽。這個User-agent:后面跟的就是蜘蛛名稱,大家對主流的搜索引擎蜘蛛名稱應該比較熟悉。下面以搜搜蜘蛛為例:Sosospider。
當我們想屏蔽搜搜蜘蛛的時候:
User-agent: sosospider
Disallow: /
大家可以發現這個屏蔽蜘蛛跟上面允許相比只是多了一個“/”,其含義就起了翻天覆地的變化,所以在書寫的時候要千萬注意,可不能因為多寫個斜杠屏蔽了蜘蛛自己卻不知道。還有就是在user-agent:后邊不屑固定蜘蛛名稱跟的如果是“*”表示是針對所有蜘蛛的。
禁止某個目錄被搜索引擎蜘蛛抓取,設置代碼如下:
User-agent: *
Disallow: /目錄/
注意,這里如果是阻止抓取某目錄的話目錄名字一定要注意“/”,不帶“/”表示的是阻止訪問這個目錄頁面和目錄下的頁面,而帶上“/”則表示進阻止目錄下的內容頁面,這兩點要分清楚。如果是想屏蔽多個目錄就需要采用
User-agent: *
Disallow: /目錄1/
Disallow: /目錄2/
這樣的形式,不能采用 /目錄1/目錄2/ 這樣的形式。
如果是阻止蜘蛛訪問某一類型的文件,例如阻止抓取.jpg格式的圖片可以設置成:
User-agent: *
Disallow: .jpg$
以上是上海seo小馬針對整個網站的robots文件的寫法,只是講的robots寫法的類型和注意事項,像針對性屏蔽蜘蛛或者是其他的具體寫法描述的少了點,但是知道allow和disallow的含義進行思考可以衍生出不少其他的寫法含義。還有針對具體網頁的robots meta網頁標簽寫法,不過一般情況下用的不是很多。
以上由上海seo小馬http://www.mjlseo.com/整理,轉載請注明,謝謝
推薦閱讀
我們在網站優化過程中,或多或少都會遇到快照回檔的問題。通常,網站的快照是衡量一個網站權重高低的標準,但這并不是決定性的因素。影響網站好壞的還有網站收錄量和PR值。人們在尋找友情鏈接的時候通常都是看網站的>>>詳細閱讀
地址:http://www.geekbao.cn/a/34/20120224/33996.html