什么是Robots协议(Robots.txt)?
Robots协议(又称爬虫协议、机器人协议等)全称为网络爬虫排除标准(Robots Exclusion Protocol),是国际互联网界通行的道德规范,Robots是站点与spider重要的沟通渠道,网站通过robots告诉搜索引擎哪些页面可以捕获,哪些页面不能捕获。其目的是保护网站数据和敏感信息,确保用户的个人信息和隐私不受侵犯。搜索引擎需要自觉遵守,因为它不是命令。
为什么需要?robots.txt?
优化搜索引擎SEO从角度看,robots.txt文件起着至关重要的作用。它告诉搜索引擎如何最好地抓取你的网站。robots.txt文件可以防止搜索引擎访问网站的某些部分,防止重复内容,并为搜索引擎提供有用的提示,如何更有效地捕捉您的网站。robots.txt更改时要小心:因为设置错误可能会使搜索引擎无法访问网站的大部分内容。
robots.txt如何工作?
搜索引擎机器人访问网站时,首先会找到网站根目录是否 robots.txt如果有文件,则根据文件的内容确定包含范围。如果没有,则默认访问并包含所有页面。此外,当搜索蜘蛛发现它不存在时robots.txt在文件中,服务器上会产生一个404错误的日志,从而增加服务器的负担,所以在网站上添加一个robots.txt文件仍然很重要。百度也将严格遵守robots对于相关协议,要注意区分你不想被抓或收录的目录的大小写。robots文件准确匹配你不想被抓和收录的目录,否则robots协议无效。robots.txt基本语法User-agent:描述搜索引擎robot : 你可以指定这个规则只对baidu 或者google 或其他指定搜索引擎有效 可使用通配符Disallow: 描述一组不想被访问的人URL也就是说,可以使用设置禁止访问的部分url,也可以使用相对路径,可以是单目文件,也可以是整个文件夹,定类型。Allow: 描述一组希望被访问的人URL也就是说,设置允许访问的部分,但由于默认允许,这种语法通常是合作的disallow用它来完成 如除了xxx.html所有这些设置都不能在目录下访问。需要注意的是,allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。
Sitemap:指示蜘蛛去爬取网站的sitemap文件。通配符:"$" 匹配行结束符;"*" 匹配0或多个任意字符。如何区分你的网站是否配置了?robots.txt第一种方法:访问网站 http(s):你的域名/robots.txt第二种方法:通过 [百度站长工具] 检测如何正确编写保护网站隐私的方法robots.txt我们想要的效果是:所有搜索引擎都必须遵循我的协议,禁止蜘蛛抓取我的背景地址和Typecho安装路径引导蜘蛛抓住我Sitemap
然后我们可以这样写,在网站根目录下新建一个robots.txt文件,内容如下*User-agent:
Allow: /*.html$
Allow: /usr
Disallow: /admin/
Disallow: /install/
Disallow: /var/
Disallow: /config.inc.php
Disallow: /install.php