现在的位置: 首页 > seo学习 > wordpress优化 > 正文

wordpress如何设置robots.txt

2011年10月10日 seo学习, wordpress优化 ⁄ 共 2221字 ⁄ 字号 暂无评论 ⁄ 阅读 1 次

wordpress如何设置robots.txt?今天seo方法发现了一篇适用于Wordpress的robots.txt的设置方法,那么因为本身就有很多地方是非添加robots.txt不可的,比如:用了伪静态链接之后动态链接依然能访问seo博客优化。用Wordpress架设的博客有很多不同链接但相同内容的页面。

wordpress如何设置robots.txt:

①Robots.txt的误区

不添加Robots.txt

Robots.txt作为搜索引擎机器人来到网站查看的第一个文件是很有必要精心设置的,搜索引擎机器人访问网站时,首先会查看站点根目录有没有 Robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就默认访问以及收录所有页面。这是不是意味着,要想让搜索引擎收录全部链接就可以不设置这个文件了?其实不是的,搜索引擎机器人查看没有Robots.txt文件的时候就产生一个404错误日志在服务器上,增加服务器的负担。

Robots.txt文件Allow所有页面

这是平时比较容易犯到的错误,以为要让搜索引擎更多地收录网站就设置Robots.txt为:

User-agent: *

Disallow:

或者:

User-agent: *

Allow: /

这样搜索引擎不单单收录了你文章页面,还收录了管理界面,模板链接,CSS、JS链接,虽然说Wordpress的管理界面谁都可以猜得到,不怕泄漏出去,但是这样一来就浪费服务器的资源,而且搜索引擎收录了这些链接是不会增加网站收录数的。

②Robots.txt的写法

Robots.txt文档以User-agent: 开头,标识语句对应的搜索引擎机器人,后面跟上Disallow: 和Allow:表示起作用的链接。

User-agent: baiduspider 表示对百度机器人起作用。

User-agent: * 表示对所有搜索引擎机器人起作用。

Robots.txt文档中至少要有一条User-agent:记录而User-agent: * 记录只允许有一条。

Disallow: /giisi 表示不允许搜索引擎访问或者收录/giisi.html、/giisi /index.html、/giisi.php等包含/giisi的链接,而Disallow: /giisi/则允许访问 /giisi.html、/giisi.php等,但是禁止访问/giisi/index.html。

Disallow: / 表示禁止搜索引擎机器人访问收录所有页面。

Disallow: 表示允许搜索引擎访问收录所有页面。

Allow: /giisi 表示允许搜索引擎访问或者收录/giisi.html、/giisi /index.html、/giisi.php等包含/giisi的链接,而Allow:/giisi/则表示允许搜索引擎机器人访问/giisi/index.html等链接,但是对/giisi.html、/giisi.php未置可否。

“*”和“$”通配符

Disallow: */comments 表示不允许访问和收录所有wordpress 评论留言页面。比如:http://www.giisi.com/born/tianxi ... o.html#comment-3715 是禁止收录的。

Disallow: /category/*/page/ 表示禁止访问和收录分类的相关分页。比如集思博客中网页设计分类有很多页面:

http://www.giisi.com/category/design/page/2

记录中用“*”通配符表示了分类的别称“design”。

Disallow: .jpg$ 和Disallow: .php$ 分别表示禁止访问收录 “,jpg”和“.php”后缀的文件

seo学习博客的Robots.txt

User-agent: *

Disallow: /*?* (屏蔽搜索引擎机器人收录动态网页,因为/?q=id也是能访问文章的哦!)

Disallow: /index.php (因为我的博客在windows主机呆过,发现www.giisi.com/index.php/postname.html也能访问现在的日志)(这条是原文的文字,本人没用。)

Disallow: /wp-admin (屏蔽搜索引擎机器人收录管理界面)

Disallow: /wp-content/plugins (屏蔽搜索引擎机器人收录插件文件)

Disallow: /wp-content/themes (屏蔽搜索引擎机器人收录模板文件)

Disallow: /wp-includes (屏蔽搜索引擎机器人收录JS文件)

Disallow: /trackback (屏蔽搜索引擎机器人收录trackback等垃圾信息,关闭trackback的可以忽略)

Disallow: /feed (Feed中都是与日志相同的信息当然要屏蔽)

Disallow: /comments(下面三个上面有介绍了)

Disallow: /category/*/page/

Disallow: /tag/*/page/

Sitemap: http://www.giisi.com/sitemap.xml (这个用来告诉搜索引擎sitemap的路径,我用了两个)

Sitemap: http://www.giisi.com/sitemap_baidu.xml

以上就是本人找到的非常不错的关于wordpress如何设置robots.txt的文章,与大家分享。相关文章:robots.txt怎么写

猜你喜欢

给我留言

留言无头像?