「知识」你不知道的百度网页分块权重评估方法

2018-05-17 11:31:27 浏览数 (1)

我从来不信什么一夜成名,一夜暴富,只信一分耕耘一分收获。如果有一天,你的努力配得上你的梦想,那么你的梦想也绝对不会辜负你的努力。记住一句话:越努力越幸运!

原创文章越来越难写,这些天一直在看有关SEO的内容。又让我感觉到那种久违的感觉:学无止境。今天,给大家分享的是有关页面权重的算法,在这里,我也只是说说我自己的看法,希望,各位同学能够学到新的SEO知识。 — — 及时当勉励,岁月不待人。

一种网页分块的重要度评估方法

时本文总计约1000个字左右,需要花 5 分钟以上仔细阅读。

《一种网页分块的重要度评估方法和设备》这是百度在2011年提交申请的一项专利。在网上已经有过类似的文章出现,已经是几年前的,看到互联网上,并没用多少人引用该内容,我想估计很少有人注意到该内容。

在网上找到相关内容,我仔细的看了好几个小时,发现其内容,真的值得我们每个人去学习,这个专利主要讲的是:

本发明提供一种网页分块的重要度评估方法和设备。其中该方法包括以下步骤:识别网页分块所在网页的类型以及所述网页分块的类型;根据所述网页的类型、所述网页分块的类型以及所述网页分块的属性,确定所述网页分块的权重值;对所述网页内的所述网页分块的权重值进行排序。本发明的优点是,根据网页的类型、网页分块的类型以及网页分块的属性,更为准确地确定网页分块的权重值,然后根据权重值对网页分块进行展开或者折叠,使网页适合于移动终端显示,便于用户浏览。

看完上面内容时,相信懂SEO的人,已经知道它的重要性,为了避免不必要的麻烦,大家可以去百度搜索:一种网页分块的重要度评估方法和设备。

下面,来谈谈我自己对该文章的理解与看法,如有什么问题,大家在一起探讨探讨。

第一步:识别网页分块所在网页的类型以及所述网页分块的类型

对于这个,我们简单的理解就是:搜索引擎抓取到一个URL时,首先要判断,该URL是HTML、图像、文本还是别的什么东西(根据标头Content-Type来判断)。

接下来我关心的是,当搜索引擎判断这个URL为HTML时,在这当中又分为很多种,如该URL是首页、频道页、详情页、产品页、搜索页等等。搜索引擎识别这些估计有自己的一套逻辑,但百度站长学院没有公布,我们SEOer站长怎么样操作能够加快搜索引擎识别的方法。简单的就是通过URL来大致判断,如URL后缀为html/htm的页面为详情页,反斜杠“/”结尾的为频道页、产品页等等,首页最好判断。所以,在这我又想到,现在有很多网站把详情页的URL由原来的html结尾的变成反斜杠结尾。这种做法真的可取吗?是不是影响了搜索引擎判断该URL的页面类型?(当然搜索引擎肯定还有其他办法来判断)。

当搜索引擎判断好网页的类型后,在对该页面上的所有内容进行分块,分完后,在根据自己的算法,把相邻的版块进行有必要的合并,如下图:

分块的同时,就要对相对应的模块进行识别并分配属性,看是导航块、链接块、广告块、文本块、标题块、来源块、图片块等等。

第二步:根据所述网页的类型、所述网页分块的类型以及所述网页分块的属性,确定所述网页分块的权重值

在这里面主要讲到网页分开的权重值计算,文档里面写的比较详细专业,大家可以去看看。在这里面特别提到一点:在链接块中,如果一个链接用户点击的特别多,则该链接的权重值就大(这也印证了,只有用户点击过的链接才有意义)。

第三步:对所述网页内的所述网页分块的权重值进行排序

对于这一点,就比较简单了,因为权重值已经出来,那就直接根据权重值进行排序即可。

在看这内容时,也发现了一个特别的东西,我们都知道URL伪静态有利于蜘蛛抓取,但却不知道为什么(虽然,以前有个说法是动态链接有可能让蜘蛛陷入死循环或一些特别的参数不好识别等等),大家看看下面的图:

这样的作用,就是减少URL数据传输的方法。具体事例,大家可以看看专利里面的内容。

今天就写到这里,后续会有更精彩的内容等着你,喜欢的话就帮忙分享下吧!

您的关注与分享就是我最大的动力

0 人点赞