现在的位置: 首页 > seo学习 > 正文

robots.txt怎么写

2011年10月10日 seo学习 ⁄ 共 5643字 ⁄ 字号 评论 3 条 ⁄ 阅读 1 次

还是谷歌收录过期的问题,对于seo学习博客在谷歌的收录有很多的过期页面的问题,黑雨seo找了很多的资料,robots.txt怎么写?首先要解决的问题是:什么是robots.txt?

①什么是robots.txt?

这是一个文本文件,是搜索引擎爬行网页要查看的第一个文件,你可以告诉搜索引擎哪些文件可以被查看,哪些禁止。当搜索机器人(也叫搜索蜘蛛)访问一个站点时,它首先会检查根目录是否存在robots.txt,如果有就确定抓取范围,没有就按链接顺序抓取。

②robots.txt有什么用

为何需要用robots.txt这个文件来告诉搜索机器人不要爬行我们的部分网页,比如:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。说到底了,这些页面或文件被搜索引擎收录了,用户也看不了,多数需要口令才能进入或是数据文件。既然这样,又让搜索机器人爬行的话,就浪费了服务器资源,增加了服务器的压力,因此我们可以用robots.txt告诉机器人集中注意力去收录我们的文章页面。增强用户体验。

③robots.txt如何配置:

robots.txt基本语法

我们先看一个简单的例子:

http://27ying.com/robots.txt

# robots.txt file from http://27ying.com

# All robots will spider the domain

User-agent: *

Disallow: /

这个是seo学习博客的一个例子,我们在说这四行是什么意思之前来先看看robots.txt的几个关键语法:

a、User-agent: 应用下文规则的漫游器,比如Googlebot,Baiduspider等。

b、Disallow: 要拦截的网址,不允许机器人访问。

c、Allow: 允许访问的网址

d、"*" : 通配符---匹配0或多个任意字符。

e、"$" : 匹配行结束符。

f、"#" : 注释---说明性的文字,不写也可。

g、Googlebot: 谷歌搜索机器人(也叫搜索蜘蛛)。

h、Baiduspider: 百度搜索机器人(也叫搜索蜘蛛)。

i、目录、网址的写法:都以以正斜线 (/) 开头。

Disallow:/

Disallow:/images/

Disallow:/admin/

Disallow:/css/

由此可看:上面例子所表示的意思是禁止所有搜索引擎访问网站的任何部分。

下面,我们列举一些robots.txt 具体用法:

1、允许所有的robot访问

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

或者建一个空文件"robots.txt"即可。

2、仅禁止某个机器人访问您的网站,如Baiduspider。

User-agent: Baiduspider

Disallow: /

3、仅允许某个机器人访问您的网站,如Baiduspider。

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

4、禁止访问特定目录

User-agent: *

Disallow: /admin/

Disallow: /css/

Disallow: /*script/

5、允许访问特定目录中的部分url

User-agent: *

Allow: /admin/user/

Allow: /data/d.html

Disallow: /admin/

Disallow: /data/

6、使用"*"限制访问url

User-agent: *

Disallow: /upload/*.jspx

禁止访问/upload/目录下的所有以".jspx"为后缀的URL(包含子目录)。

7、使用"$"限制访问url

User-agent: *

Allow: .htm$

Disallow: /

仅允许访问以".htm"为后缀的URL。

8、禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

9、禁止Baiduspider抓取网站上所有图片

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

10、仅允许Baiduspider抓取网页和.gif格式图片

User-agent: Baiduspider

Allow: .gif$

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .png$

Disallow: .bmp$

允许抓取网页和gif格式图片,不允许抓取其他格式图片

怎么样,例子也不难理解吧... 紧接着再来看下一个问题:

robots.txt文件里还可以直接包括在sitemap文件的链接。

就像这样:Sitemap: http://www.yourhost.com/sitemap.xml

但加上这句话时,请特别读下面这段话:

目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分

,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。

注意:

robots.txt的所有指令都区分大小写。例如:Disallow: /junk_file.asp 会拦截 http://www.example.com/junk_file.asp,却会允许 http://www.example.com/Junk_file.asp。一般与程序有关

的都是区分大小写的,并且要以英文状态下编写。

另:Googlebot 会忽略 robots.txt 中的空白内容(特别是空行)和未知指令。

另外下面进行一些扩展知识,对robots与meta的关系进行一些介绍。

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎

ROBOTS如何抓取该页的内容。

今日访进谷歌网站管理工具查看软问吧,突然发现受robots.txt 限制页面106个,进软问吧-找软件论坛看,发现限制了很多目录。

关于这个robots.txt,此文件为一纯文本文件,放置于网站根目录下,其作用就是声明不被搜索引擎或者说蜘蛛抓去的目录。

④范例robots.txt文件

(discuz7.0官方robots.txt文件http://www.discuz.net/robots.txt):

#

# robots.txt for Discuz! Board

# Version 7.0.0

#

User-agent: *

Disallow: /admin/

Disallow: /api/

Disallow: /attachments/

Disallow: /images/

Disallow: /install/

Disallow: /forumdata/

Disallow: /include/

Disallow: /ipdata/

Disallow: /modcp/

Disallow: /templates/

Disallow: /plugins/

Disallow: /wap/

Disallow: /uc_client/

Disallow: /uc_server/

Disallow: /admincp.php

Disallow: /ajax.php

Disallow: /logging.php

Disallow: /member.php

Disallow: /memcp.php

Disallow: /misc.php

Disallow: /my.php

Disallow: /pm.php

Disallow: /post.php

Disallow: /register.php

Disallow: /rss.php

Disallow: /search.php

Disallow: /seccode.php

Disallow: /topicadmin.php

Disallow: /space.php

Disallow: /modcp.php

对此文件的简单解释:

1.#后面为注释行,可以随意写。

2.User-agent 是一种特定的搜索引擎漫游器后面的*代表所有搜索引擎,如果是Googlebot就代表Google网页搜索,如果是Baiduspider就代表百度网页抓取,其他代表见网络漫游器数据库。

3.Disallow则表示不允许访问的目录,allow表示允许访问的目录。

最简单的 robots.txt 文件使用两条规则:

User-agent:应用以下规则的漫游器

Disallow:要拦截的网址

这两行会视为文件中的一个条目。您可根据需要加入任意多个条目。您可在一个条目中加入多个 Disallow 行和多个 User-agent。

User-agent 是一种特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用的漫游器。您可以将某一条目设置为适用于某一特定漫游器(以显示名称的方式列出)或适用于所有漫游器(以标记为星号

的方式列出)。适用于所有漫游器的条目应为以下格式:

User-agent: *

Google 使用多种不同的漫游器 (User-agent)。Google的网页搜索所使用的漫游器为 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫游器也会遵循您为 Googlebot 所设置的规则,但您也

可以为这些特定的漫游器设置特定的规则。

Disallow 行列出的是您要拦截的网页。您可以列出某一特定的网址或模式。条目应以正斜线 (/) 开头。

要拦截整个网站,请使用正斜线。 Disallow: /

要拦截某一目录以及其中的所有内容,请在目录名后添加正斜线。 Disallow: /无用目录/

要拦截某个网页,请列出该网页。 Disallow: /私人文件.html

要从 Google 图片搜索中删除某张特定图片,请添加以下内容: User-agent: Googlebot-ImageDisallow: /图片/狗.jpg

要从 Google 图片搜索中删除您网站上的所有图片,请使用以下内容: User-agent: Googlebot-ImageDisallow: /

要拦截某一特定文件类型的文件(例如 .gif),请使用以下内容: User-agent: GooglebotDisallow: /*.gif$

要阻止抓取您网站上的网页,而同时又能在这些网页上显示 Adsense 广告,请禁止除 Mediapartners-Google 以外的所有漫游器。这样可使网页不出现在搜索结果中,同时又能让 Mediapartners-

Google 漫游器分析网页,从而确定要展示的广告。Mediapartners-Google 漫游器不与其他 Google User-agent 共享网页。例如:

User-agent: *

Disallow: /文件夹 1/

User-agent: Mediapartners-Google

Allow: /文件夹 1/

请注意,指令区分大小写。例如,Disallow: /no.htm 会拦截 http://www.ruanwen8.com/no.htm,但却会允许 http://www.ruanwen8.com/No.htm。

Googlebot(但并非所有搜索引擎)遵循某些模式匹配原则。

要匹配连续字符,请使用星号 (*)。例如,要拦截对所有以 private 开头的子目录的访问,请使用以下内容:

User-agent: Googlebot

Disallow: /private*/

要拦截对所有包含问号 (?) 的网址的访问(具体地说,这种网址以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串),请使用以下内容:

User-agent: Googlebot

Disallow: /*?

要指定与某个网址的结尾字符相匹配,请使用 $。例如,要拦截以 .xls 结尾的所有网址,请使用以下内容: User-agent: Googlebot

Disallow: /*.xls$

您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 代表一个会话 ID,那么您可能希望排除包含 ? 的所有网址,以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是您希望包含

在内的网页的版本。在此情况下,您可以对您的 robots.txt 文件进行如下设置:

User-agent: *

Allow: /*?$

Disallow: /*?

Disallow: /*? 指令会阻止包含 ? 的所有网址(具体地说,它将拦截所有以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串的网址)。

Allow: /*?$ 指令将允许以 ? 结尾的任何网址(具体地说,它将允许所有以您的域名开头、后接任意字符串,然后接 ?,? 之后不接任何字符的网址)。

以上介绍多数都是Google的http://www.google.com/support/we ... cn&answer=40360,百度的大同小异具体可以看http://www.baidu.com/search/robots.html

PS:一般网站查看robots.txt文件的方法是主页后面加robots.txt就可以,比如淘宝网的就是http://www.taobao.com/robots.txt请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

相关文章:wordpress如何设置robots.txt

以上解决了robots.txt文件、robots.txt 怎么写、robots.txt如何配置,robots.txt雷子 具体用法等系列问题。相信,您要是从头一字不漏地看到这,并深刻理解再一结合上面的例子通过举一反三便可以写出适合自己网站的一个robots.txt。

猜你喜欢

目前有 3 条留言    访客:3 条, 博主:0 条

  1. 防火茅草 2012年11月04日 上午4:54  @回复  Δ-49楼 回复

    写的很详细,通俗易懂 不错啊

  2. 欧蒂芙 2012年11月05日 上午9:13  @回复  Δ-48楼 回复

    先mark一下,好好学学

  3. 筱惠博客 2013年02月04日 上午9:31  @回复  Δ-47楼 回复

    谢谢,我懂了

给我留言

留言无头像?