【Robots.txt】Robots.txt文件

云码酷  于 2018-4-26 21:51:35 回帖奖励 |阅读模式
1 2576

马上注册,自学更多教程,下载更多资源。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
  Robots.txt对于任何一个从事SEO研究工作的人都是至关重要的,因为透过 Robots.txt 我们可以直接与搜索引擎蜘蛛进行对话,告诉他们哪些可以抓取,哪些不可以抓取。
  一、为什么设置Robots.txt?
  在进行SEO操作的时候,我们需要告诉搜索引擎哪些页面重要哪些页面不重要,重要的页面让蜘蛛进行抓取,不重要的页面进行屏蔽可以减少网站服务器的负担。
  二、一些常见的问题和知识点
  1、蜘蛛在发现一个网站的时候,第一步是抓取网站的Robots.txt文件(当然官方上是这么说的,有时候也会出现不遵守的情况);
  2、建议所有的网站都要设置Robots.txt文件,如果你认为网站上所有内容都是重要的,你可以建立一个空的robots.txt文件;
  三、在robots.txt文件中设置网站地图
  你可以在robots.txt中添加网站的地图,告诉蜘蛛网站地图所在的地址。
  四、Robots.txt的顺序
  在蜘蛛协议中,Disallow 与 Allow是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。
  引擎蜘蛛程序会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL,一个例子可以让你更清楚明白:
  1.User-agent: * 2.Allow: /seojc/bbs 3.Disallow: /seojc/  这个情况下,蜘蛛/seojc/bbs目录可以正常抓取,但/seojc/目录的文件无法抓取。通过这种方式可以允许蜘蛛访问特定目录中的部分url。
  我们对调下位置观察一下。
  1.User-agent: * 2.Disallow: /根目录下的文件夹/ 3.Allow: /seojc/bbs  /seojc/目录出现在第一行,禁止抓取目录下的所有文件,那么第二行的Allow就无效,因为第一行中已经禁止抓取seojc目录下的所有文件,而 bbs目录正好位于seowhy目录下。因此匹配不成功。
  五、Robots.txt路径问题
  在蜘蛛协议中,Allow和Disallow后面可以跟两种路径形式,即绝对链接、相对链接。绝对链接就是完整的URL形式,而相对链接只针对根目录。这是重点记住。
  六、斜杠问题
  Disallow: /seojc表示禁止抓取seoic这个目录下的所有文件,如seojc/1.html、seojc/rmjc.php;
  Disallow: /seojc/ 表示禁止抓取seojc这个目录,而seojc.1.html、seojc/rmjc.php是可以抓取的。


上一篇:【Robots.txt】谷歌针对智能手机推出的新型Googlebot
下一篇:【Robots.txt】robots.txt文件的格式

云码酷 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
2、本站所有主题由该帖子作者发表,该帖子作者与云码酷享有帖子相关版权
3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和云码酷的同意
4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
7、云码酷管理员和版主有权不事先通知发贴者而删除本文

| 0 人收藏
回复

使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    0

    主题

    186

    帖子

    186

    积分

    注册会员

    Rank: 2

    积分
    186
    发表于 2018-4-27 09:59:01 来自手机 | 只看该作者
    沙发
    very good
    回复 支持 反对

    使用道具 举报

    • 售后服务
    • 关注我们
    • 社区新手

    申请友链|Archiver|手机版|小黑屋|云码酷 ( 京ICP备13037810号 )

    Powered by Discuz! X3.2  © 2001-2022 云码酷