每个博客或者网站都会有robots.txt,设置正确的robots.txt一定程度上利于SEO,毕竟每个人的WordPress总会有那么一些页面不希望让爬虫抓取,比如wp-admin或者wp-login等等…
什么是robot.txt呢?
引用下百度百科的说明:
搜索引擎通过robot(又称spider),自动访问互联网上的网站并获取网页信息。在网站根目录创建一个纯文本文件robots.txt,在这个文件中编写一些命令告诉robot 不要抓取和访问的这些部分,防止这些内容不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。更详细说明
使用robots.txt阻止爬虫抓取博客没必要被收录的内容是有必要的,毕竟这些内容仅需网站管理员知道即可,搜索引擎收录了相反不利于博客内容的真实反映。通过“Disallow”命令限制spider访问博客的部分页面,这也是SEO工作的一部分。
优秀博客的robots.txt举例
如果你不知道如何编写你博客的robots.txt,你可以参考一些优秀的博客,再结合自己的实际情况编写即可。
Labnol.org
Sitemap: http://www.labnol.org/sitemap.xml
User-Agent: *
Disallow: /wp/wp-admin/
Disallow: /wp/wp-includes/
Disallow: /wp/wp-content/
Disallow: /wp/wp-
Disallow: /go/
Disallow: /translate.php
Dailyblogtips.com
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: /trackback/
Disallow: /cgi-bin/
williamlong.info(月光博客) 注:月光用的是z-blog
User-agent: *
Disallow: /ads/
Disallow: /function/
Disallow: /FCKeditor/
Disallow: /CACHE/
Disallow: /SCRIPT/
Disallow: /ADMIN/
Disallow: /google/ADMIN/
Disallow: /google/CACHE/
Disallow: /google/function/
Disallow: /blog/function/
Disallow: /info/function/
Disallow: /anni/function/
Disallow: /wap.asp
Disallow: /cmd.asp
Disallow: /google/wap.asp
Disallow: /google/cmd.asp
Disallow: /blog/wap.asp
Disallow: /blog/cmd.asp
Disallow: /info/wap.asp
Disallow: /info/cmd.asp
Disallow: /anni/wap.asp
Disallow: /anni/cmd.aspSitemap: http://www.williamlong.info/sitemap.xml
appinn.com(小众软件)
User-agent: * Disallow: /*/feed Disallow: /*/trackback Disallow: /page/ Disallow: /down/ Disallow: /wap/ Disallow: /out/ Disallow: /gc/ Sitemap: http://www.appinn.com/sitemap.xml
你会发现大部分的robots.txt中会包含Sitemap.xml,目的是为了搜索引擎更好的抓取博客内容。你可以通过安装All in One SEO Pack插件生成博客的Sitemap.xml。在10 个必备的WordPress插件和20个优秀WordPress SEO插件都有较详细的介绍。
如何编辑robots.txt文件:
一般情况下,robots.txt文件包含三个部分,分别是User-agent: *、Disallow:和Sitemap:。一般地,robots.txt存放在http://www.x-berry.com/robots.txt,你可以手动编写robots.txt上传至网站根目录即可。
(转载)原文链接:http://www.x-berry.com/best-robots-txt-for-your-wordpress-blog