WordPress 自從2.1版本開始,在 Privacy 選項(xiàng)里面允許用戶設(shè)置是否被搜索引擎索引。但是它只有2個選項(xiàng),一個是允許所有搜索引擎的機(jī)器人(Spider)索引所有內(nèi)容,另外一個就是不允許。其實(shí)robots.txt的用法有很多,我們可以通過它來告訴搜索引擎那些目錄可以爬,哪些不可以爬。
在WordPress中阻止Spider爬行一些目錄和文件,不但可以有效的節(jié)省搜索引擎對服務(wù)器帶寬的占用,還可以提高網(wǎng)站在搜索引擎中的排名。
使用WordPress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目錄及文件,歸納大致有以下幾種方法。
最簡單的開放寫法:
User-agent: *
Disallow:
使用說明:允許所有蜘蛛訪問,允許訪問所有內(nèi)容。Wordpress只要模板中鏈接設(shè)計(jì)合理,沒有需要限制的特殊內(nèi)容,推薦使用這種寫法。
最簡單的嚴(yán)格寫法:
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
使用說明:允許所有蜘蛛訪問,限制以“wp-”開頭的目錄及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索結(jié)果。
Disallow: /wp-* 會連同附件目錄一起限制抓取,如果想讓搜索引擎抓取附件中的內(nèi)容,將第三行的 # 號注釋去掉。Allow 不是所有搜索引擎都支持。
最合理的寫法:
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://domain/sitemap.xml
使用說明:允許所有搜索引擎抓取,逐一列舉需要限制的目錄,限制抓取搜索結(jié)果。
包含sitemap.xml地址(這一項(xiàng)wiki中有專門的說明,但Google管理員工具會提示‘檢測到無效的 Sitemap 引用’,有效性尚有爭議)。
robots.txt其他寫法:為避免在搜索引擎中出現(xiàn)重復(fù)頁面,Wordpress玩家自創(chuàng)了很多robots寫法,列舉一些常用的,作為參考(適用于偽靜態(tài)方式的永久鏈接):
* Disallow: /page/ #限制抓取Wordpress分頁
* Disallow: /category/*/page/* #限制抓取分類的分頁
* Disallow: /tag/ #限制抓取標(biāo)簽頁面
* Disallow: */trackback/ #限制抓取Trackback內(nèi)容
* Disallow: /category/* #限制抓取所有分類列表
最后,推薦使用 Google管理員工具,登錄后訪問“工具 -> 分析 robots.txt”,檢查文件有效性。
聯(lián)系客服