Mar 27

加速网站收录之Robots.txt

分类:一知半解 | 点击量380次 | 给我留言

不可否认国内绝大多数网站没有重视Robots.txt的编写,同样leesum也没有放在心上,但N多的事实证明我们需要告诉搜索引擎的蜘蛛可以访问我们网站的某些目录、页面而且是尽快去访问,但某些目录和页面是禁止蜘蛛去爬取的。Robots简单来说就是网站在搜索引擎中收录“开关”,写下相应的规则就可以按规则阻止各类搜索引擎收录网站的页面。
Robots.txt相关规则:
Robots.txt的写法简单且统一,百度关于Robots.txt的详细解说Google关于Robots.txt的详细解说

Robots.txt使用中的注意事项:
1、语法千万别出错,比如没有写对目录名,还有就无意间使用”/”把所有目录都禁止。

2、搜索引擎对Robots.txt的反应速度不一,比如google就反应比较快,一般在索引后的四天之内就把收录页面删除掉了,而且每次索引Robots.txt,如果你把以前的Robots.txt去掉的话,google一般在一周内做出反应。(时间不是很确定,不过1个月内重新收录是正常的。)这里需要强调的是,百对对Robots.txt规则也很尊重,但是你去掉以前已经有规则的Robots.txt的话,那么百度可能不再收录你的页面(或者周期时间比较常,有兴趣的朋友可以试试)。

3、利用Robots.txt来屏蔽掉网站一些不重要的内容页面,可以有效的提高其他内容的索引效率,间接的提高收录效率,所以有的时候Robots.txt也是很管用的工具。

下面leesum列举一些robots.txt的具体用法:
允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “/robots.txt” file

禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

下面leesum再摘录一些关于robots meta的介绍:
Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

其中

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

百度HI内测邀请中 烟花三月下扬州
  • 关键字词: 
  • 原文链接: http://www.leesum.com/blog/archives/139
  • 转请注明: 金枫网络
  • 推荐收藏: Google书签 新浪ViVi 365Key网摘 天极网摘 我摘 POCO网摘 博采网摘 YouNote网摘 和讯网摘 博拉网 igooi网摘 I2Key网摘 天下图摘 百特门网摘 Del.icio.us Yahoo书签 奇贴 QQ娱乐摘 添加到Digg! 添加到Facebook!
  • 发表留言

    180*150