2016/12

如何正確設(shè)置使用robots.txt文件

發(fā)布時(shí)間：2016-12-29 09:00:07

發(fā)布者：xueye

瀏覽量:

Robots.txt文件就是網(wǎng)站根目錄下面的純文本文件，是蜘蛛索引網(wǎng)站時(shí)第一個(gè)要讀取的文件，它用于指定spider在網(wǎng)站上的抓取范圍?？梢杂脕碜鰞?yōu)化減少無效頁面的收錄。濟(jì)南文匯傳媒作為專業(yè)的濟(jì)南建站公司，會(huì)為客戶充分考慮到優(yōu)化問題，在編寫程序、代碼的時(shí)候就會(huì)合理設(shè)置，方便中小企業(yè)后期的網(wǎng)站運(yùn)營。
第一：如何正確書寫robots.txt文件，robots.txt文件的書寫格式是什么？
要想正確的書寫robots文件，首頁要對(duì)文件的基本函數(shù)進(jìn)行了解：

User-agent：在后面加上* 意思是允許任何搜索引擎對(duì)網(wǎng)站進(jìn)行抓取;User-agent: Baiduspider意思是允許百度搜索引擎對(duì)網(wǎng)站進(jìn)行抓取，如果網(wǎng)站中只寫了這個(gè)屬性，那就表明此網(wǎng)站只接受百度蜘蛛的抓取，其他蜘蛛不可以索引。

Disallow：這個(gè)函數(shù)的意思是靜止蜘蛛訪問函數(shù)后面的網(wǎng)站目錄，如果網(wǎng)站所有的都允許那就寫：如果都允許收錄: Disallow:，像淘寶網(wǎng)的文件中寫到，禁止百度蜘蛛的抓取，網(wǎng)站任何位置都不允許抓取。

Allow:該項(xiàng)的值用于描述希望被訪問的一組URL，與Disallow項(xiàng)相似，這個(gè)值可以是一條完整的路徑，也可以是路徑的前綴，以Allow項(xiàng)的值開頭的URL 是允許robot訪問的。例如"Allow:/hibaidu"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個(gè)網(wǎng)站的所有URL默認(rèn)是Allow的，所以Allow通常與Disallow搭配使用，實(shí)現(xiàn)允許訪問一部分網(wǎng)頁同時(shí)禁止訪問其它所有URL的功能。

使用"*"and"$"：Baiduspider支持使用通配符"*"和"$"來模糊匹配url。

"*" 匹配0或多個(gè)任意字符
"$" 匹配行結(jié)束符。
第二：設(shè)置Robots.txt文件時(shí)應(yīng)注意哪些事項(xiàng)？
1、作為搜索引擎最先訪問的目錄，過長(zhǎng)的robots文件也會(huì)影響蜘蛛的爬取速度，所以對(duì)于禁止搜索引擎的網(wǎng)頁，可以適度的去使用noffollow標(biāo)記，使其不對(duì)該網(wǎng)站傳遞權(quán)重。

2、在robots設(shè)置當(dāng)中關(guān)于Disallow當(dāng)中/和//的區(qū)別。舉例：Disallow; /a 與Disallow: /a/的區(qū)別，很多站長(zhǎng)都見過這樣的問題，為什么有的協(xié)議后加斜杠，有的不加斜杠呢?筆者今天要說的是：如果不加斜杠，屏蔽的是以a字母開頭的所有目錄和頁面，而后者代表的是屏蔽當(dāng)前目錄的所有頁面和子目錄的抓取。

通常來講，我們往往選擇后者更多一些，因?yàn)槎x范圍越大，容易造成“誤殺”。

3、對(duì)于Disallow和Allow的設(shè)置是有先后順序之分的，搜索引擎會(huì)根據(jù)第一個(gè)匹配成功的Allow與Disallow來確定首先訪問那個(gè)url地址。

4、已經(jīng)刪除的目錄屏蔽不建議使用Robots.txt文件屏蔽。很多站長(zhǎng)往往刪除一些目錄后，怕出現(xiàn)404問題，而進(jìn)行了屏蔽，禁止搜索引擎再抓取這樣的鏈接。事實(shí)上，這樣做真的好嗎?即使你屏蔽掉了，如果之前的目錄存在問題，那么沒有被蜘蛛從庫中剔除，同樣會(huì)影響到網(wǎng)站。

建議最佳的方式是：將對(duì)應(yīng)的主要錯(cuò)誤頁面整理出來，做死鏈接提交，以及自定義404頁面的處理，徹底的解決問題，而不是逃避問題。

5、在robots設(shè)置當(dāng)中“*”和“$”的設(shè)置，其中”$” 匹配行結(jié)束符?！?” 匹配0或多個(gè)任意字符。