站長的工作是設計精美的網(wǎng)站,為大眾展現(xiàn)網(wǎng)站豐富多彩的內容。當然,我們也希望精心設計的網(wǎng)站獲得理想的排名,這就要求我們去研究網(wǎng)站優(yōu)化排名規(guī)律,最大程度的獲得機會展現(xiàn)給客戶。然而,搜索引擎種類很多,有時候,我們對某一種搜索引擎的排名很好,卻在另外的搜索引擎上面獲得不到一樣的排名,原因是各個搜索引擎規(guī)則不一樣。為此,有人復制出相同的內容以應付不同搜索引擎的排名規(guī)則。然而,一旦搜索引擎發(fā)現(xiàn)站內有大量“克隆”的頁面,就會給以懲罰,不收錄這些重復的頁面。另一方面,我們網(wǎng)站的內容屬于個人私密文件,不想暴露在搜索引擎中。這時,robot.txt文件就是為了解決這兩個問題。
一、搜索引擎和其對應的User-Agent
那么,目前有哪些搜索引擎和其對應的User-Agent呢?下面,我列出了一些,以供參考。
搜索引擎User-Agent
AltaVistaScooter
baiduBaiduspider
InfoseekInfoseek
HotbotSlurp
AOLSearchSlurp
ExciteArchitextSpider
GoogleGooglebot
GotoSlurp
LycosLycos
MSNSlurp
NetscapeGooglebot
NorthernLightGulliver
WebCrawlerArchitextSpider
IwonSlurp
FastFast
DirectHitGrabber
YahooWebPagesGooglebot
LooksmartWebPagesSlurp
二、robots基本概念
Robots.txt文件是網(wǎng)站的一個文件,它是給搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我們的網(wǎng)站首先就是抓取這個文件,根據(jù)里面的內容來決定對網(wǎng)站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑,為我們站長做好seo創(chuàng)造必要的條件。尤其是我們的網(wǎng)站剛剛創(chuàng)建,有些內容還不完善,暫時還不想被搜索引擎收錄時。
robots.txt也可用在某一目錄中。對這一目錄下的文件進行搜索范圍設定。
幾點注意:
網(wǎng)站必須要有一個robot.txt文件。
文件名是小寫字母。
當需要完全屏蔽文件時,需要配合meta的robots屬性。
三、robots.txt的基本語法
內容項的基本格式:鍵:值對。
1)User-Agent鍵
后面的內容對應的是各個具體的搜索引擎爬行器的名稱。如百度是Baiduspider,谷歌是Googlebot。
一般我們這樣寫:
User-Agent:*
表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某一個搜索引擎蜘蛛來爬行,在后面列出名字即可。如果是多個,則重復寫。
注意:User-Agent:后面要有一個空格。
在robots.txt中,鍵后面加:號,后面必有一個空格,和值相區(qū)分開。
2)Disallow鍵
該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。
例如:Disallow:/index.php禁止網(wǎng)站index.php文件
Allow鍵
該鍵說明允許搜索引擎蜘蛛爬行的URL路徑
例如:Allow:/index.php允許網(wǎng)站的index.php
通配符*
代表任意多個字符
例如:Disallow:/*.jpg網(wǎng)站所有的jpg文件被禁止了。
結束符$
表示以前面字符結束的url。
例如:Disallow:/?$網(wǎng)站所有以?結尾的文件被禁止。
四、robots.txt實例分析
例1.禁止所有搜索引擎訪問網(wǎng)站的任何部分
User-agent:*
Disallow:/
例2.允許所有的搜索引擎訪問網(wǎng)站的任何部分
User-agent:*
Disallow:
例3.僅禁止Baiduspider訪問您的網(wǎng)站
User-agent:Baiduspider
Disallow:/
例4.僅允許Baiduspider訪問您的網(wǎng)站
User-agent:Baiduspider
Disallow:
例5.禁止spider訪問特定目錄
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/data/
注意事項:1)三個目錄要分別寫。2)請注意最后要帶斜杠。3)帶斜杠與不帶斜杠的區(qū)別。
例6.允許訪問特定目錄中的部分url
我希望a目錄下只有b.htm允許訪問,怎么寫?
User-agent:*
Allow:/a/b.htm
Disallow:/a/
注:允許收錄優(yōu)先級要高于禁止收錄。
從例7開始說明通配符的使用。通配符包括("$"結束符;
"*"任意符)
例7.禁止訪問網(wǎng)站中所有的動態(tài)頁面
User-agent:*
Disallow:/*?*
例8.禁止搜索引擎抓取網(wǎng)站上所有圖片
User-agent:*
Disallow:/*.jpg$
Disallow:/*.jpeg$
Disallow:/*.gif$
Disallow:/*.png$
Disallow:/*.bmp$
其他很多情況呢,需要具體情況具體分析。只要你了解了這些語法規(guī)則以及通配符的使用,相信很多情況是可以解決的。
五、metarobots標簽
meta是網(wǎng)頁html文件的head標簽里面的標簽內容。它規(guī)定了此html文件對與搜索引擎的抓取規(guī)則。與robot.txt不同,它只針對寫在此html的文件。
寫法:
。
…里面的內容列出如下
noindex-阻止頁面被列入索引。
nofollow-阻止對于頁面中任何超級鏈接進行索引。
noarchive-不保存該頁面的網(wǎng)頁快照。
nosnippet-不在搜索結果中顯示該頁面的摘要信息,同時不保存該頁面的網(wǎng)頁快照。
noodp-在搜索結果中不使用OpenDirectoryProject中的描述信息作為其摘要信息。
六、robots的測試與生成
在百度站長工具中,添加網(wǎng)站后使用左側的網(wǎng)站分析工具的權限,就可以對網(wǎng)站的robots進行測試和生成了,詳細見圖。
淺談網(wǎng)站優(yōu)化時robots的寫法
robots.txt和mtearobots的內容就介紹到這里,相信大家對robot已經(jīng)有了比較詳細的了解。使用好robots對于我們網(wǎng)站的seo有著重要作用,做的好,可以有效的屏蔽那些我們不想讓搜索引擎抓取的頁面,也就是對用戶體驗不高的頁面,從而將有利于關鍵詞排名的內頁充分展示個客戶,獲得搜索引擎對站內頁面的權重,從而有利于我們將關鍵詞排名做的更好。