之前我一直強調細節的優化,是的現在的百度對網站的要求就是看你的細節做得好不好,代碼、標簽等等有屬于細節,那么Robots也屬于網站細節的一部分,做好他對我們網站有一個很大的幫助,可能有很多新站長不知道Robots是一個什么東東,下面我就給大家說幾點關于Robots的操作。
一、Robots.txt的由來
我們首先要明白Robots不是一個命令或者指令,Robots是一個網站和搜索引擎的第三方協議,協議的內容就是Robots.txt里面的內容,早期在網站是用于隱私保護用的,他是存在于我們網站根目錄的一個txt文件。
二、Robots.txt的作用
我們做好網站上線的時候,會有很多不可抗拒的因素被搜索引擎放出來,從而導致我們的網頁的質量整體下降,導致我們網站在搜索引擎的印象變差,Robots的作用就是屏蔽這些不可抗拒的因素不讓蜘蛛把他們放出來,那么我們具體應該屏蔽哪一些頁面呢?
1.屏蔽一些無內容頁面:給大家舉個例子就了然了,例如:注冊頁、登陸頁、購物頁、發帖頁、留言頁、搜索首頁、如果你做了404錯誤頁面也要屏蔽。
2.屏蔽重復頁面:如果我們發現我們網站有兩個內容相同的頁面,但是路徑不同,我們就要用Robots屏蔽一個頁面,蜘蛛還是會抓取但是不會放出來,我們可以在谷歌站長工具里面直接查看被攔截的頁面數量。
3.屏蔽一些死鏈接頁面
我們只屏蔽那些帶有普通特征的頁面就可以,蜘蛛爬取不到并不意味著蜘蛛抓取不到地址,能夠抓取到地址和能否抓取到是兩個概念,當然我們可以進行處理的死鏈接我們是不需求屏蔽的,不可以處理的比如我們該路徑造成的死鏈接我們是需要屏蔽的。
4.屏蔽一些較長的路徑:超過網址輸入框的長路徑我們可以用Robots屏蔽。
三、Robots.txt的使用
1.Robots.txt的建立
在本地新建一個記事本文件,把它命名為Robots.txt,然后把這個文件放到我們的根目錄下,這樣我們的Robots.txt就建立完成了,有些開源程序比如織夢是自帶Robots的,我們修改的時候只要從根目錄下載就行。
2.常見的語法
User-agent這個語法是定義搜索引擎爬取程序的。Disallow這個是禁止的意思。Allow這個是允許的意思。
我們先來認識搜索引擎抓取程序也就是蜘蛛或者機器人
百度蜘蛛我們在Robots里就寫Baiduspider而谷歌機器人我們就寫Googlebot
我們來介紹寫法,我們的第一行是先要定義搜索引擎
User-agent: Baiduspider(特別要注意的是我們在寫Robots的時候冒號后面一定要有一個空格,同時如果我們要定義所有搜索引擎我們就要用*帶代替Baiduspider)
Disallow: /admin/
這句話的意思是告訴百度蜘蛛您不要來收錄我網站的admin文件夾當中的網頁,如果我們把admin后面的斜杠去掉這個的意思即完全變了,意思就成了告訴百度蜘蛛您不要收錄我根目錄里所有的admin文件夾當中的網頁。
Allow意思是允許、不禁止,一般來說不會單獨使用它,他會和Disallow一起使用,一起使用的目的是便于目錄的屏蔽靈活的應用,更為了減少代碼的使用,舉個例子比如我們/seo/文件夾中有10萬個文件,有兩個文件是需要抓取的,我們總不能寫幾萬個代碼那樣會累夠嗆,我們配合起來僅需要幾行就行了。
User-agent: *(定義所有搜索引擎)
Disallow: /seo/ (禁止對seo文件夾進行收錄)
Allow: /seo/ccc.php
Allow: /seo/ab.html
同時允許這兩個文件需要抓取收錄,這樣我們四行代碼就解決了,有人會問是Disallow放在前面還是Allow放在前面,還是Disallow放在前面更規范。
本文由http://www.51diaoche.net原創 歡迎轉載 轉載請注明原作者
推薦閱讀
任何的一次成功,都有一個付出的過程,沒有人可以一步登天,凡事都需要一步一個腳印的經歷。所謂欲速則不達,急功近利往往是功敗垂成的罪魁禍首。新站優化更是需要如此,太過于急著求成,往往會使網站優化過度而受到>>>詳細閱讀
本文標題:站長們千萬不要忽略Robots的使用
地址:http://www.geekbao.cn/a/34/20120224/33999.html