Robots.txt文件就是網(wǎng)站根目錄下面的純文本文件,是蜘蛛索引網(wǎng)站時(shí)第一個(gè)要讀取的文件,它用于指定spider在網(wǎng)站上的抓取范圍??梢杂脕碜鰞?yōu)化減少無效頁面的收錄。濟(jì)南文匯傳媒作為專業(yè)的濟(jì)南建站公司,會(huì)為客戶充分考慮到優(yōu)化問題,在編寫程序、代碼的時(shí)候就會(huì)合理設(shè)置,方便中小企業(yè)后期的網(wǎng)站運(yùn)營。
第一:如何正確書寫robots.txt文件,robots.txt文件的書寫格式是什么?
要想正確的書寫robots文件,首頁要對(duì)文件的基本函數(shù)進(jìn)行了解:
User-agent:在后面加上* 意思是允許任何搜索引擎對(duì)網(wǎng)站進(jìn)行抓取;User-agent: Baiduspider意思是允許百度搜索引擎對(duì)網(wǎng)站進(jìn)行抓取,如果網(wǎng)站中只寫了這個(gè)屬性,那就表明此網(wǎng)站只接受百度蜘蛛的抓取,其他蜘蛛不可以索引。
Disallow:這個(gè)函數(shù)的意思是靜止蜘蛛訪問函數(shù)后面的網(wǎng)站目錄,如果網(wǎng)站所有的都允許那就寫:如果都允許收錄: Disallow:,像淘寶網(wǎng)的文件中寫到,禁止百度蜘蛛的抓取,網(wǎng)站任何位置都不允許抓取。
Allow:該項(xiàng)的值用于描述希望被訪問的一組URL,與Disallow項(xiàng)相似,這個(gè)值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項(xiàng)的值開頭的URL 是允許robot訪問的。例如"Allow:/hibaidu"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個(gè)網(wǎng)站的所有URL默認(rèn)是Allow的,所以Allow通常與Disallow搭配使用,實(shí)現(xiàn)允許訪問一部分網(wǎng)頁同時(shí)禁止訪問其它所有URL的功能。
使用"*"and"$":Baiduspider支持使用通配符"*"和"$"來模糊匹配url。
"*" 匹配0或多個(gè)任意字符
"$" 匹配行結(jié)束符。
第二:設(shè)置Robots.txt文件時(shí)應(yīng)注意哪些事項(xiàng)?
1、作為搜索引擎最先訪問的目錄,過長(zhǎng)的robots文件也會(huì)影響蜘蛛的爬取速度,所以對(duì)于禁止搜索引擎的網(wǎng)頁,可以適度的去使用noffollow標(biāo)記,使其不對(duì)該網(wǎng)站傳遞權(quán)重。
2、在robots設(shè)置當(dāng)中關(guān)于Disallow當(dāng)中/和//的區(qū)別。舉例:Disallow; /a 與Disallow: /a/的區(qū)別,很多站長(zhǎng)都見過這樣的問題,為什么有的協(xié)議后加斜杠,有的不加斜杠呢?筆者今天要說的是:如果不加斜杠,屏蔽的是以a字母開頭的所有目錄和頁面,而后者代表的是屏蔽當(dāng)前目錄的所有頁面和子目錄的抓取。
通常來講,我們往往選擇后者更多一些,因?yàn)槎x范圍越大,容易造成“誤殺”。
3、對(duì)于Disallow和Allow的設(shè)置是有先后順序之分的,搜索引擎會(huì)根據(jù)第一個(gè)匹配成功的Allow與Disallow來確定首先訪問那個(gè)url地址。
4、已經(jīng)刪除的目錄屏蔽不建議使用Robots.txt文件屏蔽。很多站長(zhǎng)往往刪除一些目錄后,怕出現(xiàn)404問題,而進(jìn)行了屏蔽,禁止搜索引擎再抓取這樣的鏈接。事實(shí)上,這樣做真的好嗎?即使你屏蔽掉了,如果之前的目錄存在問題,那么沒有被蜘蛛從庫中剔除,同樣會(huì)影響到網(wǎng)站。
建議最佳的方式是:將對(duì)應(yīng)的主要錯(cuò)誤頁面整理出來,做死鏈接提交,以及自定義404頁面的處理,徹底的解決問題,而不是逃避問題。
5、在robots設(shè)置當(dāng)中“*”和“$”的設(shè)置,其中”$” 匹配行結(jié)束符?!?” 匹配0或多個(gè)任意字符。