推薦欄目

做網(wǎng)站/做SEO/解決各類網(wǎng)站問題，直接與技術談！

熱門閱讀

詳細內容

當前位置：首頁 > SEO知識 > 詳情

淺談網(wǎng)站優(yōu)化時robots的寫法

發(fā)布時間：2014-01-14 來源：本站原創(chuàng) 作者：野狼SEO團隊閱讀：655次

　　站長的工作是設計精美的網(wǎng)站，為大眾展現(xiàn)網(wǎng)站豐富多彩的內容。當然，我們也希望精心設計的網(wǎng)站獲得理想的排名，這就要求我們去研究網(wǎng)站優(yōu)化排名規(guī)律，最大程度的獲得機會展現(xiàn)給客戶。然而，搜索引擎種類很多，有時候，我們對某一種搜索引擎的排名很好，卻在另外的搜索引擎上面獲得不到一樣的排名，原因是各個搜索引擎規(guī)則不一樣。為此，有人復制出相同的內容以應付不同搜索引擎的排名規(guī)則。然而，一旦搜索引擎發(fā)現(xiàn)站內有大量“克隆”的頁面，就會給以懲罰，不收錄這些重復的頁面。另一方面，我們網(wǎng)站的內容屬于個人私密文件，不想暴露在搜索引擎中。這時，robot.txt文件就是為了解決這兩個問題。

　　一、搜索引擎和其對應的User-Agent

　　那么，目前有哪些搜索引擎和其對應的User-Agent呢?下面，我列出了一些，以供參考。

　　搜索引擎User-Agent

　　AltaVistaScooter

　　baiduBaiduspider

　　InfoseekInfoseek

　　HotbotSlurp

　　AOLSearchSlurp

　　ExciteArchitextSpider

　　GoogleGooglebot

　　GotoSlurp

　　LycosLycos

　　MSNSlurp

　　NetscapeGooglebot

　　NorthernLightGulliver

　　WebCrawlerArchitextSpider

　　IwonSlurp

　　FastFast

　　DirectHitGrabber

　　YahooWebPagesGooglebot

　　LooksmartWebPagesSlurp

　　二、robots基本概念

　　Robots.txt文件是網(wǎng)站的一個文件，它是給搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我們的網(wǎng)站首先就是抓取這個文件，根據(jù)里面的內容來決定對網(wǎng)站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下，從而有效的控制蜘蛛的爬取路徑，為我們站長做好seo創(chuàng)造必要的條件。尤其是我們的網(wǎng)站剛剛創(chuàng)建，有些內容還不完善，暫時還不想被搜索引擎收錄時。

　　robots.txt也可用在某一目錄中。對這一目錄下的文件進行搜索范圍設定。

　　幾點注意：

　　網(wǎng)站必須要有一個robot.txt文件。

　　文件名是小寫字母。

　　當需要完全屏蔽文件時，需要配合meta的robots屬性。

　　三、robots.txt的基本語法

　　內容項的基本格式：鍵:值對。

　　1)User-Agent鍵

　　后面的內容對應的是各個具體的搜索引擎爬行器的名稱。如百度是Baiduspider，谷歌是Googlebot。

　　一般我們這樣寫：

　　User-Agent:*

　　表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某一個搜索引擎蜘蛛來爬行，在后面列出名字即可。如果是多個，則重復寫。

　　注意：User-Agent:后面要有一個空格。

　　在robots.txt中，鍵后面加：號，后面必有一個空格，和值相區(qū)分開。

　　2)Disallow鍵

　　該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。

　　例如：Disallow:/index.php禁止網(wǎng)站index.php文件

　　Allow鍵

　　該鍵說明允許搜索引擎蜘蛛爬行的URL路徑

　　例如：Allow:/index.php允許網(wǎng)站的index.php

　　通配符*

　　代表任意多個字符

　　例如：Disallow:/*.jpg網(wǎng)站所有的jpg文件被禁止了。

　　結束符$

　　表示以前面字符結束的url。

　　例如：Disallow:/?$網(wǎng)站所有以?結尾的文件被禁止。

　　四、robots.txt實例分析

　　例1.禁止所有搜索引擎訪問網(wǎng)站的任何部分

　　User-agent:*

　　Disallow:/

　　例2.允許所有的搜索引擎訪問網(wǎng)站的任何部分

　　User-agent:*

　　Disallow:

　　例3.僅禁止Baiduspider訪問您的網(wǎng)站

　　User-agent:Baiduspider

　　Disallow:/

　　例4.僅允許Baiduspider訪問您的網(wǎng)站

　　User-agent:Baiduspider

　　Disallow:

　　例5.禁止spider訪問特定目錄

　　User-agent:*

　　Disallow:/cgi-bin/

　　Disallow:/tmp/

　　Disallow:/data/

　　注意事項：1)三個目錄要分別寫。2)請注意最后要帶斜杠。3)帶斜杠與不帶斜杠的區(qū)別。

　　例6.允許訪問特定目錄中的部分url

　　我希望a目錄下只有b.htm允許訪問，怎么寫?

　　User-agent:*

　　Allow:/a/b.htm

　　Disallow:/a/

　　注：允許收錄優(yōu)先級要高于禁止收錄。

　　從例7開始說明通配符的使用。通配符包括("$"結束符;

　　"*"任意符)

　　例7.禁止訪問網(wǎng)站中所有的動態(tài)頁面

　　User-agent:*

　　Disallow:/*?*

　　例8.禁止搜索引擎抓取網(wǎng)站上所有圖片

　　User-agent:*

　　Disallow:/*.jpg$

　　Disallow:/*.jpeg$

　　Disallow:/*.gif$

　　Disallow:/*.png$

　　Disallow:/*.bmp$

　　其他很多情況呢，需要具體情況具體分析。只要你了解了這些語法規(guī)則以及通配符的使用，相信很多情況是可以解決的。

　　五、metarobots標簽

　　meta是網(wǎng)頁html文件的head標簽里面的標簽內容。它規(guī)定了此html文件對與搜索引擎的抓取規(guī)則。與robot.txt不同，它只針對寫在此html的文件。

　　寫法：

　　。

　　…里面的內容列出如下

　　noindex-阻止頁面被列入索引。

　　nofollow-阻止對于頁面中任何超級鏈接進行索引。

　　noarchive-不保存該頁面的網(wǎng)頁快照。

　　nosnippet-不在搜索結果中顯示該頁面的摘要信息，同時不保存該頁面的網(wǎng)頁快照。

　　noodp-在搜索結果中不使用OpenDirectoryProject中的描述信息作為其摘要信息。

　　六、robots的測試與生成

　　在百度站長工具中，添加網(wǎng)站后使用左側的網(wǎng)站分析工具的權限，就可以對網(wǎng)站的robots進行測試和生成了，詳細見圖。

　　淺談網(wǎng)站優(yōu)化時robots的寫法

　　robots.txt和mtearobots的內容就介紹到這里，相信大家對robot已經(jīng)有了比較詳細的了解。使用好robots對于我們網(wǎng)站的seo有著重要作用，做的好，可以有效的屏蔽那些我們不想讓搜索引擎抓取的頁面，也就是對用戶體驗不高的頁面，從而將有利于關鍵詞排名的內頁充分展示個客戶，獲得搜索引擎對站內頁面的權重，從而有利于我們將關鍵詞排名做的更好。