酒香也怕巷子深,教你一招,轻松让百度收录你的个人站点

2020-07-16 10:37:13 浏览数 (1)

引言

俗话说,酒香不怕巷子深,可是对于我们写技术文章的小伙伴,酒香也怕巷子深呀,为什么呢?

技术文章不同于资讯类文章,资讯类文章主要靠第一时间推送给用户,而技术文章不需要主动推送给用户,一般都是用户通过主动在搜索引擎(百度)来搜索,然后选择前几个进行阅读就可以解决问题,一般搜索引擎第2页的结果都很少看了,对吧~

不吹不黑,CSDN平台在文章SEO这块做的很好,之前在TencentOS-tiny正式开源的第2天,我发了一篇评测文章,目前还占据百度搜索结果榜首

那么,我们自己搭建的博客,如何像CSDN这样,被百度搜索引擎收录,并且占据一个不错的排名呢?且听本文慢慢分享~

0. 准备工作

  • 使用自定义域名 <>.github.io的域名不可用,Github不允许百度爬虫,所以请使用自定义域名!
  • 优化文章链接 Hexo默认的链接有四级,比较长,而且有时还会包含中文,所以一定要优化链接为编号,具体可以参考我的这篇博客:
  • Hexo搭建个人博客(十四) | 修改文章永久链接为随机编号

需要访问我的CSDN查看:mculover666.blog.csdn.net

1. 查看站点是否被百度收录

打开百度搜索,在搜索框输入:

代码语言:javascript复制
site:你的站点域名

这里我首先测试一个我并没有使用的域名

可以看到,如果百度没有收录,会显示无结果,这个时候就需要点击提交网址向百度提交你的站点了~

接下来再看看我的个人站点域名查询结果

因为我之前已经向百度提交过,所以我的博客域名 www.mculover666.cn已经被百度收录。

2. 生成站点地图

在上面的查询结果中看到,百度收录的只有三条记录,两条还是重复的,这也太可怜了吧~继续搞!

站点地图的作用是告诉搜索引擎你的网站结构等信息,让搜索引擎更智能抓取整个网站内容,所以接下来为我们的站点生成站点地图~

Hexo博客生成站点地图需要安装插件:

代码语言:javascript复制
npm install hexo-generator-sitemap --save
npm install hexo-generator-baidu-sitemap --save

安装之后重新生成部署,这两个插件会在网站根目录生成 sitemap.xml 文件和baidusitemap.xml文件,其中:

  • sitemap.xml:搜索引擎通用的站点文件
  • baidusitemap.xml:百度专用的sitemap文件

3. 向百度提交站点地图

站点地图需要在百度搜索资源平台进行链接提交。

百度搜索资源平台:https://ziyuan.baidu.com/

添加网站

首次登录百度搜索资源平台后,进入用户中心 -> 站点管理

添加站点:

尽量选择http,https要求全站所有链接都是https!

设置站点属性:

验证网站所有权

添加站点后百度需要验证网站所有权,这里有三种方式:

  • 文件验证
  • HTML标签验证
  • CNAME验证

为了方便起见,我使用CNAME验证,在阿里云进行DNS解析(我的域名是阿里云买的):

按照提示在阿里云DNS进行解析:

然后在百度点击完成验证即可:

提交链接

进入百度资源平台 -> 链接提交页面:

提交链接有两种方式:

  • 自动提交
  • 主动推送(实时):一般用于推送每天站点产生的新链接;
  • 自动推送:将JS代码放入每个页面,一般用于全站推送;
  • sitemap文件:手动提交站点的sitemap文件;
  • 手动提交:手动提交所有链接

这里我的站点属于首次推送,所以设置使用自动推送和提交sitemap两种方式:

设置自动推送

自动推送: 百度搜索资源平台为提高站点新增网页发现速度推出的工具,安装自动推送JS代码的网页,在页面被访问时,页面URL将立即被推送给百度。

首先获取自动推送JS代码:

我使用的主题是matery,首先在主题配置文件_config.yml中开启自定推送选项:

然后在 /themes/hexo-theme-matery/layout/_partial 中的head.ejs中加入下面JS代码:

安装完成之后,在页面被访问时,页面URL将立即被推送给百度。

提交sitemap

提交成功后可以看到抓取结果:

4. 设置 robots.txt

robots.txt 存放于网站根目录下,它的作用是告诉搜索引擎此网站中哪些内容是可以被爬取的,哪些是禁止爬取的

在Hexo博客中,robots.txt 放在博客目录下的 source 文件夹中,生成后会自动复制到站点目录 /public/ 下。

robots.txt 文件内容如下:

代码语言:javascript复制
User-agent: *
Allow: /
Allow: /posts/
Allow: /archives/
Allow: /categories/
Allow: /about/
Allow: /contact/
Allow: /page/
Allow: /tags/
Allow: /medias/

Disallow: /js/
Disallow: /css/
Disallow: /libs/

robots.txt 文件更新后,可以进入百度资源搜索平台 -> 网站支持 -> Robots进行检查:

点击检测并更新开始检查:

至此,百度收录站点及站点的所有内容就结束了,接下来耐心等待吧,至少要大半个月百度才可以搜索的到~


0 人点赞