Typecho网站配置Robots规则教程

什么是Robots协议(Robots.txt)？

Robots协议(又称爬虫协议、机器人协议等)全称为网络爬虫排除标准（Robots Exclusion Protocol），是国际互联网界通行的道德规范，Robots是站点与spider重要的沟通渠道，网站通过robots告诉搜索引擎哪些页面可以捕获，哪些页面不能捕获。其目的是保护网站数据和敏感信息，确保用户的个人信息和隐私不受侵犯。搜索引擎需要自觉遵守，因为它不是命令。

为什么需要？robots.txt？

优化搜索引擎SEO从角度看，robots.txt文件起着至关重要的作用。它告诉搜索引擎如何最好地抓取你的网站。robots.txt文件可以防止搜索引擎访问网站的某些部分，防止重复内容，并为搜索引擎提供有用的提示，如何更有效地捕捉您的网站。robots.txt更改时要小心：因为设置错误可能会使搜索引擎无法访问网站的大部分内容。

robots.txt如何工作？

搜索引擎机器人访问网站时，首先会找到网站根目录是否 robots.txt如果有文件，则根据文件的内容确定包含范围。如果没有，则默认访问并包含所有页面。此外，当搜索蜘蛛发现它不存在时robots.txt在文件中，服务器上会产生一个404错误的日志，从而增加服务器的负担，所以在网站上添加一个robots.txt文件仍然很重要。百度也将严格遵守robots对于相关协议，要注意区分你不想被抓或收录的目录的大小写。robots文件准确匹配你不想被抓和收录的目录，否则robots协议无效。robots.txt基本语法User-agent：描述搜索引擎robot : 你可以指定这个规则只对baidu 或者google 或其他指定搜索引擎有效可使用通配符Disallow: 描述一组不想被访问的人URL也就是说，可以使用设置禁止访问的部分url，也可以使用相对路径，可以是单目文件，也可以是整个文件夹，定类型。Allow: 描述一组希望被访问的人URL也就是说，设置允许访问的部分，但由于默认允许，这种语法通常是合作的disallow用它来完成如除了xxx.html所有这些设置都不能在目录下访问。需要注意的是，allow和disallow的顺序是有讲究的，搜索引擎会以它先看到的规则为判断标准。

Sitemap：指示蜘蛛去爬取网站的sitemap文件。通配符："$" 匹配行结束符；"*" 匹配0或多个任意字符。如何区分你的网站是否配置了？robots.txt第一种方法：访问网站 http(s):你的域名/robots.txt第二种方法：通过 [百度站长工具] 检测如何正确编写保护网站隐私的方法robots.txt我们想要的效果是：所有搜索引擎都必须遵循我的协议，禁止蜘蛛抓取我的背景地址和Typecho安装路径引导蜘蛛抓住我Sitemap

然后我们可以这样写，在网站根目录下新建一个robots.txt文件，内容如下*User-agent:

Allow: /*.html$

Allow: /usr

Disallow: /admin/

Disallow: /install/

Disallow: /var/

Disallow: /config.inc.php

Disallow: /install.php

搜索引擎网站 html php 爬虫

0 人点赞