也谈robots.txt
记得曾经有一位朋友,她非要我帮她写一个,我问她,
你要拒绝哪个搜索引擎呢?
不拒绝,收的越多越好。
你有哪些目录或者页面不允许访问呢?
好像没有。
那你放个空的robots.txt吧。
她就是不干,我怎么说她都不信,最后没办法帮她写了行
User-agent: *
Disallow:
Disallow:
应付
其实这个文件和空文件是没有区别的。
如果你没有什么特别的要求,其实就应该放一个空文件。
几种特别的需求写法。
0,基本语法:
# Robots.txt file from http://www.x2y2.com
User-agent: *
Disallow:
"#"后面文字为说明信息;
User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;
Disallow:后面为不允许访问的文件目录。
1,允许所有的robot访问
留空或者
User-agent: *
Disallow:
Disallow:
2,禁止所有搜索引擎访问网站的所有目录
User-agent: *
Disallow: /
Disallow: /
3,禁止所有搜索引擎访问网站的部分目录
User-agent: *
Disallow: /admin/
Disallow: /personal/
Disallow: /download/
Disallow: /admin/
Disallow: /personal/
Disallow: /download/
4,禁止特定的搜索引擎
User-agent: BotName
Disallow: /
Disallow: /
5,只允许特定的搜索引擎
User-agent: BotName
Disallow:
User-agent: *
Disallow: /
Disallow:
User-agent: *
Disallow: /
最后关于google的robots.txt
http://www.google.com/robots.txt
其中使用了Allow语法,但实际上并没有这个语法。
既然Google自己使用了,我想google的bots应该支持吧,但这句完全是多次一举,个人认为。
我想也许加了Allow以后爬虫会主动去爬吧。
我自己的robots.txt
http://www.x2y2.com/robots.txt
User-agent: *
Disallow:/cert/
Disallow:/files/
Disallow:/files4blogger/
Disallow:/fisker/admin.asp
Disallow:/cert/
Disallow:/files/
Disallow:/files4blogger/
Disallow:/fisker/admin.asp
写完以后我在Google的文档中找到了关于Allow的说明
http://www.google.com/support/webmasters/bin/answer.py?answer=40364&query=allow&topic=&type=
评论Feed: http://ifisker.com/blog/feed.asp?q=comment&id=1008
引用链接: loading...
浏览模式: 显示全部 |评论: 1 |引用: 0 | 排序 | 浏览: 0
[ 2008-03-17 00:50:55 ]
抢个沙发

