【Robots.txt】禁止搜索引擎收录的方法

云码酷  于 2018-4-26 21:49:56 回帖奖励 |阅读模式
2 2680

马上注册,自学更多教程,下载更多资源。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
1. 什么是robots.txt文件?

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫
做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中
声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。               
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。   

2. robots.txt文件放在哪里?

robots.txt
文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在
http://www.abc.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的
范围。
网站 URL
相应的 robots.txt的 URL
http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt
http://w3.org/
http://w3.org/robots.txt



3. 我在robots.txt中设置了禁止百度收录我网站的内容,为何还出现在百度搜索结果中?

如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。

4. 禁止搜索引擎跟踪网页的链接,而只对网页建索引

如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的<HEAD> 部分:
<meta name=&quot;robots&quot; content=&quot;nofollow&quot;>
如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:
<a href=http://www.seozixuewang.com/post/"signin.php" rel="nofollow">signin
要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的<HEAD> 部分:
<meta name=&quot;Baiduspider&quot; content=&quot;nofollow&quot;>


5. 禁止搜索引擎在搜索结果中显示网页快照,而只对网页建索引

要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的<HEAD>部分:
<meta name=&quot;robots&quot; content=&quot;noarchive&quot;>
要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:
<meta name=&quot;Baiduspider&quot; content=&quot;noarchive&quot;>
注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。

6. 我想禁止百度图片搜索收录某些图片,该如何设置?

禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现,请参考“robots.txt文件用法举例”中的例10、11、12。

7. robots.txt文件的格式

&quot;robots.txt&quot;文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

&quot;<field>:<optional space><value><optionalspace>&quot;

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:

User-agent:

该项的值用于描述搜索引擎robot的名字。在&quot;robots.txt&quot;文件中,如果有多条User-agent记录说明有多个robot会
受 到&quot;robots.txt&quot;的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有
效, 在&quot;robots.txt&quot;文件中,&quot;User-agent:*&quot;这样的记录只能有一条。如果在&quot;robots.txt&quot;文件中,加
入&quot;User- agent:SomeBot&quot;和若干Disallow、Allow行,那么名为&quot;SomeBot&quot;只受到&quot;User-
agent:SomeBot&quot;后面的 Disallow和Allow行的限制。



Disallow:


项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会
被 robot访问。例如&quot;Disallow:/help&quot;禁止robot访问/help.html、/helpabc.html、
/help /index.html,而&quot;Disallow:/help/&quot;则允许robot访问/help.html、/helpabc.html,不
能访问 /help/index.html。&quot;Disallow:&quot;说明允许robot访问该网站的所有url,在&quot;/robots.txt&quot;文件中,至
少要有一条Disallow记录。如果&quot;/robots.txt&quot;不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。




Allow:


该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头 的
URL 是允许robot访问的。例如&quot;Allow:/hibaidu&quot;允许robot访问/hibaidu.htm、
/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与
Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。


使用&quot;*&quot;and&quot;$&quot;:
Baiduspider支持使用通配符&quot;*&quot;和&quot;$&quot;来模糊匹配url。
&quot;$&quot; 匹配行结束符。
&quot;*&quot; 匹配0或多个任意字符。

注:我们会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,我们会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。           



8. URL匹配举例
Allow或Disallow的值
URL
匹配结果
/tmp
/tmp
yes
/tmp
/tmp.html
yes
/tmp
/tmp/a.html
yes
/tmp
/tmphoho
no



/Hello*
/Hello.html
yes
/He*lo
/Hello,lolo
yes
/Heap*lo
/Hello,lolo
no
html$
/tmpa.html
yes
/a.html$
/a.html
yes
htm$
/a.html
no



9. robots.txt文件用法举例
例1. 禁止所有搜索引擎访问网站的任何部分
下载该robots.txt文件
User-agent: *
Disallow: /
例2. 允许所有的robot访问
(或者也可以建一个空文件 &quot;/robots.txt&quot;)
User-agent: *
Allow: /
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Allow: /

User-agent: *
Disallow: /
例5. 仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

例6. 禁止spider访问特定目录
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 &quot;Disallow: /cgi-bin/ /tmp/&quot;。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例8. 使用&quot;*&quot;限制访问url
禁止访问/cgi-bin/目录下的所有以&quot;.htm&quot;为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
例9. 使用&quot;$&quot;限制访问url
仅允许访问以&quot;.htm&quot;为后缀的URL。
User-agent: *
Allow: /*.htm$
Disallow: /
例10. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
例11. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
例12. 仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例13. 仅禁止Baiduspider抓取.jpg格式图片
User-agent: Baiduspider
Disallow: /*.jpg$
[size=$1]$2

robots.txt文件的更具体设置,请参看以下链接:
Web Server Administrator&#39;s Guide to the Robots Exclusion Protocol
HTML Author&#39;s Guide to the Robots Exclusion Protocol
The original 1994 protocol description, as currently deployed
The revised Internet-Draft specification, which is not yet completed or implemented


上一篇:【404页面详解】404页面设置方法_404页面案例
下一篇:【Robots.txt】使用Robots.txt引导百度爬虫合理分配抓取资源

云码酷 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
2、本站所有主题由该帖子作者发表,该帖子作者与云码酷享有帖子相关版权
3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和云码酷的同意
4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
7、云码酷管理员和版主有权不事先通知发贴者而删除本文

| 0 人收藏
回复

使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    0

    主题

    173

    帖子

    173

    积分

    注册会员

    Rank: 2

    积分
    173
    发表于 2018-4-27 08:44:11 来自手机 | 只看该作者
    沙发
    为保住菊花,这个一定得回复!
    回复 支持 反对

    使用道具 举报

    0

    主题

    210

    帖子

    210

    积分

    中级会员

    Rank: 3Rank: 3

    积分
    210
    发表于 2018-4-27 23:44:39 | 只看该作者
    板凳
    我擦!我要沙发!
    回复 支持 反对

    使用道具 举报

    • 售后服务
    • 关注我们
    • 社区新手

    申请友链|Archiver|手机版|小黑屋|云码酷 ( 京ICP备13037810号 )

    Powered by Discuz! X3.2  © 2001-2022 云码酷