俗话说,酒香不怕巷子深,可是对于我们写技术文章的小伙伴,酒香也怕巷子深呀,为什么呢?
技术文章不同于资讯类文章,资讯类文章主要靠第一时间推送给用户,而技术文章不需要主动推送给用户,一般都是用户通过主动在搜索引擎(百度)来搜索,然后选择前几个进行阅读就可以解决问题,一般搜索引擎第2页的结果都很少看了,对吧~
不吹不黑,CSDN平台在文章SEO这块做的很好,之前在TencentOS-tiny正式开源的第2天,我发了一篇评测文章,目前还占据百度搜索结果榜首:
那么,我们自己搭建的博客,如何像CSDN这样,被百度搜索引擎收录,并且占据一个不错的排名呢?且听本文慢慢分享~
0. 准备工作
- 使用自定义域名 <>.github.io的域名不可用,Github不允许百度爬虫,所以请使用自定义域名!
- 优化文章链接 Hexo默认的链接有四级,比较长,而且有时还会包含中文,所以一定要优化链接为编号,具体可以参考我的这篇博客:
- Hexo搭建个人博客(十四) | 修改文章永久链接为随机编号
需要访问我的CSDN查看:mculover666.blog.csdn.net
1. 查看站点是否被百度收录
打开百度搜索,在搜索框输入:
代码语言:javascript复制site:你的站点域名
这里我首先测试一个我并没有使用的域名:
可以看到,如果百度没有收录,会显示无结果,这个时候就需要点击提交网址
向百度提交你的站点了~
接下来再看看我的个人站点域名查询结果:
因为我之前已经向百度提交过,所以我的博客域名 www.mculover666.cn已经被百度收录。
2. 生成站点地图
在上面的查询结果中看到,百度收录的只有三条记录,两条还是重复的,这也太可怜了吧~继续搞!
站点地图的作用是告诉搜索引擎你的网站结构等信息,让搜索引擎更智能抓取整个网站内容,所以接下来为我们的站点生成站点地图~
Hexo博客生成站点地图需要安装插件:
代码语言:javascript复制npm install hexo-generator-sitemap --save
npm install hexo-generator-baidu-sitemap --save
安装之后重新生成部署,这两个插件会在网站根目录生成 sitemap.xml
文件和baidusitemap.xml文件
,其中:
sitemap.xml
:搜索引擎通用的站点文件baidusitemap.xml
:百度专用的sitemap
文件
3. 向百度提交站点地图
站点地图需要在百度搜索资源平台进行链接提交。
百度搜索资源平台:https://ziyuan.baidu.com/
添加网站
首次登录百度搜索资源平台后,进入用户中心 -> 站点管理
:
添加站点:
尽量选择http,https要求全站所有链接都是https!
设置站点属性:
验证网站所有权
添加站点后百度需要验证网站所有权,这里有三种方式:
- 文件验证
- HTML标签验证
- CNAME验证
为了方便起见,我使用CNAME验证,在阿里云进行DNS解析(我的域名是阿里云买的):
按照提示在阿里云DNS进行解析:
然后在百度点击完成验证
即可:
提交链接
进入百度资源平台 -> 链接提交
页面:
提交链接有两种方式:
- 自动提交
- 主动推送(实时):一般用于推送每天站点产生的新链接;
- 自动推送:将JS代码放入每个页面,一般用于全站推送;
- sitemap文件:手动提交站点的sitemap文件;
- 手动提交:手动提交所有链接
这里我的站点属于首次推送,所以设置使用自动推送和提交sitemap两种方式:
设置自动推送
自动推送: 百度搜索资源平台为提高站点新增网页发现速度推出的工具,安装自动推送JS代码的网页,在页面被访问时,页面URL将立即被推送给百度。
首先获取自动推送JS代码:
我使用的主题是matery
,首先在主题配置文件_config.yml中开启自定推送选项:
然后在 /themes/hexo-theme-matery/layout/_partial
中的head.ejs
中加入下面JS
代码:
安装完成之后,在页面被访问时,页面URL将立即被推送给百度。
提交sitemap
提交成功后可以看到抓取结果:
4. 设置 robots.txt
robots.txt
存放于网站根目录下,它的作用是告诉搜索引擎此网站中哪些内容是可以被爬取的,哪些是禁止爬取的。
在Hexo博客中,robots.txt
放在博客目录下的 source 文件夹中,生成后会自动复制到站点目录 /public/
下。
robots.txt 文件内容如下:
代码语言:javascript复制User-agent: *
Allow: /
Allow: /posts/
Allow: /archives/
Allow: /categories/
Allow: /about/
Allow: /contact/
Allow: /page/
Allow: /tags/
Allow: /medias/
Disallow: /js/
Disallow: /css/
Disallow: /libs/
robots.txt 文件更新后,可以进入百度资源搜索平台 -> 网站支持 -> Robots
进行检查:
点击检测并更新
开始检查:
至此,百度收录站点及站点的所有内容就结束了,接下来耐心等待吧,至少要大半个月百度才可以搜索的到~