Google PageRank 的过去、现在和未来

2021-12-20 19:12:47 浏览数 (1)

作者主页:海拥

作者简介:CSDN全栈领域优质创作者、HDZ核心组成员、蝉联C站周榜前十

Google PageRank 的过去、现在和未来
  • PageRank的过去
    • 原始 PageRank 公式
    • PageRank 操纵漏洞和 Google 对链接垃圾邮件的战争
  • PageRank的存在
    • 今天是否应用了 PageRank 算法?
    • PageRank 的随机冲浪者与合理冲浪者模型
      • 链接位置与链接权限的相关性
      • 流量、用户行为、链接权限的相关性
    • Nofollow、赞助和 UGC 标签
    • 传出链接及其对排名的影响
    • 谷歌与垃圾链接的斗争
    • 内部链接
  • PageRank的未来
    • 没有反向链接的搜索引擎
    • 新闻和其他时效性结果
    • 新的 rel="sponsored" 和 rel="UGC" 属性

PageRank算法(或简称 PR)是由 Larry Page 和 Sergey Brin 在 90 年代后期在斯坦福大学开发的网页排名系统。PageRank 实际上是 Page 和 Brin 创建 Google 搜索引擎的基础。

从那时起许多年过去了,当然,谷歌的排名算法变得更加复杂。它们仍然基于 PageRank 吗?PageRank 究竟是如何影响排名的,未来 SEO 应该准备什么?现在,我们将查找并总结有关 PageRank 的所有事实和奥秘,以使图片清晰。好吧,我们尽可能多。

PageRank的过去

如上所述,在他们的大学研究项目中,Brin 和 Page 试图发明一种系统来估计网页的权威性。他们决定在链接上构建该系统,链接作为对页面的信任投票。根据该机制的逻辑,链接到页面的外部资源越多,它对用户的有价值的信息就越多。而 PageRank(根据传入链接的数量和质量计算的从 0 到 10 的分数)显示了一个页面在互联网上的相对权威。

原始 PageRank 公式

让我们来看看 PageRank 是如何工作的。从一个页面 (A) 到另一个页面 (B) 的每个链接都会进行所谓的投票,投票的权重取决于链接到页面 A 的所有页面的集体权重。 我们无法知道它们的权重,直到我们计算它,所以这个过程循环进行。

原始PageRank的数学公式如下:

其中A、B、C和D是一些页面,L是从每个页面发出的链接数,N是集合中(即 Internet 上的)页面的总数。

至于d,d是所谓的阻尼系数。考虑到 PageRank 是模拟用户随机进入页面并点击链接的行为计算的,我们将此阻尼 d因子应用为用户感到无聊并离开页面的概率。

从公式中可以看出,如果没有页面指向该页面,则其PR不会为零,而是

因为用户可能不是从其他一些页面而是从书签进入这个页面。

PageRank 操纵漏洞和 Google 对链接垃圾邮件的战争

起初,PageRank 分数在 Google 工具栏中是公开可见的,每个页面的分数从 0 到 10,很可能是对数刻度。

那个时候谷歌的排名算法非常简单——高公关和关键字密度是页面在 SERP 上排名靠前的唯一两件事。结果,网页上塞满了关键字,网站所有者开始通过人为增加垃圾反向链接来操纵 PageRank。这很容易做到——链接农场和链接销售可以为网站所有者提供“帮助”。

谷歌决定反击垃圾链接。2003 年,谷歌对广告网络公司 SearchKing 的网站进行了链接操作处罚。SearchKing 起诉谷歌,但谷歌赢了。这是谷歌试图限制每个人进行链接操作的一种方式,但它没有结果。林克农场刚刚转入地下,数量成倍增加。

此外,博客上的垃圾评论也成倍增加。机器人攻击任何(例如)WordPress 博客的评论,并留下大量“点击此处购买魔法药丸”的评论。为了防止评论中的垃圾邮件和公关操纵,谷歌在 2005 年引入了nofollow标签。谷歌本意在链接操纵战争中迈出的成功一步又一次以扭曲的方式实施。人们开始使用nofollow标签人为地将 PageRank 引导到他们需要的页面。这种策略被称为 PageRank 雕刻。

为了防止公关雕刻,谷歌改变了 PageRank 的流动方式。以前,如果一个页面同时具有nofollow和dofollow链接,则该页面的所有PR 量都会传递给与dofollow链接链接的其他页面 。2009 年,Google 开始在页面拥有的所有链接之间平均分配页面的 PR,但只传递那些分配给dofollow链接的份额 。

完成 PageRank 雕刻后,Google 并没有停止垃圾链接战争,并因此开始将 PageRank 分数从公众的视线中剔除。首先,谷歌推出了新的 Chrome 浏览器,没有显示公关分数的谷歌工具栏。然后他们停止在 Google Search Console 中报告 PR 分数。然后 Firefox 浏览器停止支持 Google 工具栏。2013 年,PageRank 为 Internet Explorer 进行了最后一次更新,2016 年 Google 正式关闭了面向公众的工具栏。

谷歌用来对抗链接方案的另一种方法是企鹅更新,它降低了带有可疑反向链接配置文件的网站的排名。Penguin 于 2012 年推出,并没有成为谷歌实时算法的一部分,而是一个“过滤器”,时不时更新并重新应用于搜索结果。如果一个网站受到企鹅的处罚,SEO 必须仔细审查他们的链接配置文件并删除有害链接,或者将它们添加到拒绝列表中(当时引入的一个功能是告诉谷歌在计算 PageRank 时忽略哪些传入链接)。以这种方式审核链接配置文件后,SEO 不得不等待半年左右,直到企鹅算法重新计算数据。

2016 年,谷歌将企鹅作为其核心排名算法的一部分。从那时起,它一直在实时工作,通过算法更成功地处理垃圾邮件。

与此同时,谷歌致力于促进链接的质量而不是数量,在其针对链接方案的质量指南中明确指出。

PageRank的存在

好吧,我们已经完成了 PageRank 的过去。现在发生了什么事?

早在 2019 年,一位前谷歌员工表示 ,最初的 PageRank 算法自 2006 年以来就没有使用过,随着互联网的发展,它被另一种资源密集度较低的算法所取代。这很可能是真的,因为在 2006 年谷歌提交了新的 使用网络链接图 专利中的距离为页面生成排名。

今天是否应用了 PageRank 算法?

是的。它与 2000 年代初期的 PageRank 不同,但 Google 一直严重依赖链接权限。例如,谷歌前员工安德烈·利帕特采夫 (Andrey Lipattsev)在 2016 年就提到了这一点。在谷歌问答环节中,有用户问他谷歌使用的主要排名信号是什么。安德烈的回答非常直接。

我可以告诉你它们是什么。它是指向您网站的内容和链接。 ———安德烈·利帕采夫

2020 年,约翰·穆勒 (John Mueller) 再次确认:

是的,我们确实在内部使用PageRank,以及许多其他信号。它与原始论文不太一样,有很多怪癖(例如,拒绝链接、忽略链接等),而且,我们再次使用了许多其他可能更强的信号。 ———约翰·穆勒

如您所见,PageRank 仍然存在并被 Google 在对网络页面进行排名时积极使用。

有趣的是,谷歌员工不断提醒我们,还有很多很多其他的排名信号。但我们对此持保留态度。考虑到 Google 为打击垃圾链接付出了多少努力,将 SEO 的注意力从易受操纵的因素(如反向链接)上转移开,并将这种注意力转移到一些无辜而美好的事物上,这可能符合 Google 的利益。但由于 SEO 善于从字里行间阅读,他们一直将 PageRank 视为强大的排名信号,并尽其所能增加反向链接。他们仍然使用 PBN,练习一些灰帽分层链接构建,购买链接等等,就像很久以前一样。随着 PageRank 的存在,垃圾链接也将存在。我们不推荐任何这些,但这就是 SEO 的现实,我们必须理解这一点。

PageRank 的随机冲浪者与合理冲浪者模型

好吧,您知道现在的 PageRank 已不是 20 年前的 PageRank。

PR 的关键现代化之一是在 2012 年从上面简要提到的 Random Surfer 模型转变为Reasonable Surfer模型。 Reasonable Surfer 假设用户不会在页面上表现混乱,并且只单击他们感兴趣的链接片刻。比如说,阅读一篇博客文章,您更有可能点击文章内容中的链接,而不是页脚中的使用条款链接。

此外,在评估链接的吸引力时,Reasonable Surfer 可能会使用多种其他因素。Bill Slawski 在他的文章中仔细审查了所有这些因素,但我想重点关注 SEO 更经常讨论的两个因素。这些是链接位置和页面流量。关于这些因素,我们能说什么?

链接位置与链接权限的相关性

链接可以位于页面上的任何位置——在其内容、导航菜单、作者简介、页脚以及页面包含的实际任何结构元素中。并且不同的链接位置 会影响链接值。约翰穆勒证实了这一点,他说放置在主要内容中的链接比所有其他链接都重要:

这是您拥有主要内容的页面区域,该页面实际上是关于内容的,而不是菜单、侧边栏、页脚、页眉……然后这是我们确实考虑过的事情,我们会尝试使用这些链接。 ———约翰·穆勒

因此,据说页脚链接和导航链接传递的权重较小。这一事实不时得到谷歌发言人和现实案例的证实。

在BrightonSEO 的 Martin Hayman最近提出的一个案例中 ,Martin 添加了他在导航菜单中已有的链接到页面的主要内容。结果,这些类别页面及其链接的页面的流量增加了 25%。

这个实验证明内容链接确实比其他任何链接传递的权重都大。

至于作者简历中的链接,SEO 假定生物链接有一定的权重,但不如内容链接有价值。尽管我们在这里没有太多证据,但马特·卡茨 (Matt Cutts)在 Google 积极与过多的访客博客以获取反向链接时所说的话。

流量、用户行为、链接权限的相关性

约翰·穆勒澄清了谷歌在Search Console Central 的其中一个环聊中传递链接汁的方式来处理流量和用户行为 。一位用户问穆勒,谷歌在评估链接质量时是否考虑了点击概率和链接点击次数。穆勒回答的关键要点是:

谷歌在评估链接质量时不会考虑链接点击次数和点击概率。

Google 了解链接通常会添加到参考资料等内容中,并且不希望用户点击他们遇到的每个链接。

尽管如此,与往常一样,搜索引擎优化人员怀疑是否值得盲目相信谷歌所说的一切,并继续尝试。因此,来自 Ahrefs 的人进行了一项研究,以检查页面在 SERP 上的位置是否与其来自高流量页面的反向链接数量有关。研究表明,几乎没有任何相关性。此外,一些排名靠前的页面根本没有来自高流量页面的反向链接。

这项研究为我们指出了与约翰·穆勒 (John Mueller) 的话类似的方向——您不必为您的页面建立产生流量的反向链接,即可在 SERP 上获得高位。另一方面,额外的流量从未对任何网站造成任何伤害。这里唯一的信息是流量丰富的反向链接似乎不会影响谷歌排名。

Nofollow、赞助和 UGC 标签

您还记得,谷歌在 2005 年引入了 nofollow标签,作为对抗垃圾链接的一种方式。今天有什么变化吗?其实,是。

首先,Google 最近引入了另外两种类型的nofollow属性。在此之前,Google 建议将您不想参与 PageRank 计算的所有反向链接标记为nofollow,无论是博客评论还是付费广告。今天,谷歌建议使用相对=“主办的”付费和会员链接和相对=“UGC”用户生成的内容。

有趣的是,这些新的标签是不是强制性的(至少目前还没有),而谷歌指出,您不必手动更改所有的相对=” nofollow”到相对=‘主办的’和为rel =” UGC”。这两个新属性现在的工作方式与普通的nofollow标签相同。

其次,谷歌现在说 nofollow的标签,以及新的,赞助和UGC,索引页面时被视为提示,而不是一个指令。

传出链接及其对排名的影响

除了传入链接之外,还有传出链接,即指向您的其他页面的链接。

许多 SEO 认为传出链接会影响排名,但这种假设已被视为 SEO 神话。但是在这方面有一项有趣的研究值得一看。

Reboot Online在 2015 年进行了一项实验,并在 2020 年重新运行。他们想弄清楚是否存在指向高权限页面的传出链接会影响该页面在 SERP 上的位置。他们创建了 10 个网站,其中包含 300 字的文章,所有网站都针对一个不存在的关键字进行了优化 - Phylandocic。5 个网站完全没有外链,5 个网站包含高权限资源的外链。结果,有权威外链的网站开始排名最高,根本没有链接的网站排名最低。

一方面,这项研究的结果可以告诉我们,传出链接确实会影响页面的位置。另一方面,研究中的搜索词是全新的,网站内容以药品和药物为主题。因此,该查询很有可能被归类为 YMYL。谷歌也多次说明EAT 对 YMYL 网站的重要性。因此,外链很可能被视为 EAT 信号,证明页面具有事实准确的内容。

对于普通查询(不是 YMYL),John Mueller 多次说过,您不必害怕从您的内容链接到外部资源,因为外向链接对您的用户有好处。

此外,传出链接也可能对 SEO 有益,因为Google AI在从垃圾邮件中过滤网络时可能会将它们考虑在内。因为垃圾邮件页面往往很少有传出链接(如果有的话)。他们要么链接到同一域下的页面(如果他们考虑过 SEO),要么只包含付费链接。所以,如果你链接到一些可靠的资源,你就可以向 Google 表明你的页面不是垃圾页面。

曾经有一种观点认为,Google 可能会因为外向链接过多而手动惩罚您,但约翰·穆勒 (John Mueller) 表示,只有当外向链接显然是某些链接交换计划的一部分时才有可能,而且该网站通常是质量不高。谷歌在明显之下的意思实际上是一个谜,所以请记住常识、高质量的内容和基本的搜索引擎优化。

谷歌与垃圾链接的斗争

只要 PageRank 存在,SEO 就会寻找新的方法来操纵它。

早在 2012 年,Google 就更有可能针对链接操纵和垃圾邮件发布手动操作。但是现在,凭借其训练有素的反垃圾邮件算法,谷歌在计算 PageRank 时能够忽略某些垃圾邮件链接,而不是总体上降低整个网站的排名。正如约翰·穆勒所说,

多年来收集的随机链接不一定有害,我们也已经看到它们很长时间了,并且可以忽略很久以前的所有那些奇怪的网络涂鸦。 ———约翰·穆勒

当您的反向链接配置文件被竞争对手破坏时,负面 SEO也是如此:

一般来说,我们会自动考虑这些,并尝试……当我们看到它们发生时自动忽略它们。在大多数情况下,我怀疑这很有效。我看到很少有人在这方面有实际问题。所以我认为这主要是运作良好。关于拒绝这些链接,我怀疑这些是否只是为您的网站弹出的普通垃圾链接,那么我不会太担心它们。可能是我们自己想出来的。 ———约翰·穆勒

但是,这并不意味着您无需担心。如果您网站的反向链接被忽略太多和太频繁,您仍然很有可能获得手动操作。正如 Marie Haynes 在她关于 2021 年链接管理的建议中所说:

手动操作仅用于在其他方面不错的站点具有指向它的非自然链接的情况下,该链接的规模如此之大,以至于 Google 的算法不愿意忽略它们。 ———玛丽·海恩斯

要尝试找出触发问题的链接,您可以使用像SEO SpyGlass这样的反向链接检查器 。在该工具中,转到反向链接配置文件>惩罚风险部分。注意高风险和中等风险的反向链接。

要进一步调查这个或那个链接被报告为有害的原因,请单击惩罚风险列中的i符号。在这里,您将了解为什么该工具认为链接是错误的,并决定您是否拒绝链接。

如果您决定拒绝一组链接中的某个链接,请右键单击它们并选择拒绝反向链接选项:

形成要排除的链接列表后,您可以从 SEO SpyGlass 导出拒绝文件并通过 GSC 将其提交给 Google。

内部链接

说到PageRank,就不能不提内链。传入的 PageRank 是我们无法控制的事情,但我们可以完全控制 PR 在我们网站页面上的传播方式。

谷歌也多次强调内部链接的重要性。约翰·穆勒 (John Mueller) 在最新的Search Console Central 聚会之一中再次强调了这一点。一位用户询问如何使某些网页更强大。约翰·穆勒 (John Mueller) 说:

您可以帮助进行内部链接。因此,在您的网站中,您可以真正突出显示您想要更多突出显示的页面,并确保它们在内部具有良好的链接。也许您认为不那么重要的页面,请确保它们的内部链接少一点。 ———约翰·穆勒

内部链接确实意义重大。它可以帮助您在网站上的不同页面之间共享传入的 PageRank,从而增强表现不佳的页面并使您的网站整体更强大。

至于内部链接的方法,SEO有许多不同的理论。一种流行的方法与网站点击深度有关。这个想法是说您网站上的所有页面都必须与主页保持最多 3 次点击的距离。尽管谷歌也多次强调了浅层网站结构的重要性,但实际上,对于所有规模较大的网站来说,这似乎是遥不可及的。

另一种方法是基于集中式和分散式内部链接的概念。正如凯文·英迪格 (Kevin Indig) 所描述的:

集中式站点具有指向一个关键页面的单一用户流和漏斗。具有分散内部链接的站点有多个转换接触点或不同的注册格式。 ———凯文·英迪格

在集中内链的情况下,我们有一小群转换页面或一个页面,我们希望它变得强大。如果我们应用去中心化的内部链接,我们希望所有网站页面都具有同等的功能和相同的 PageRank,以使所有页面都对您的查询进行排名。

哪个选项更好?这一切都取决于您的网站和业务利基特性,以及您要定位的关键字。例如,集中式内部链接更适合具有中高搜索量的关键字,因为它会生成一组狭窄的超级强大的页面。

相反,搜索量低的长尾关键词更适合去中心化的内部链接,因为它在众多网站页面之间平均传播公关。

成功的内部链接的另一个方面是页面上传入和传出链接的平衡。对此,很多SEO使用CheiRank(CR),其实就是逆PageRank。但是 PageRank 是获得的力量,而 CheiRank 是给予的链接力量。一旦你为你的页面计算了 PR 和 CR,你就可以看到哪些页面有链接异常,即页面获得了很多 PageRank 但通过了一点点的情况,反之亦然。

这里一个有趣的实验是 Kevin Indig对链接异常的扁平化。只需确保网站每个页面上传入和传出的 PageRank 平衡即可带来非常令人印象深刻的结果。此处的红色箭头表示异常得到修复的时间:

链接异常并不是唯一会损害 PageRank 流量的因素。确保您不会陷入任何技术问题,这可能会破坏您辛苦赚来的 PR:

孤页。孤立页面不会链接到您网站上的任何其他页面,因此它们只是闲置,不会收到任何链接汁。谷歌看不到它们,也不知道它们确实存在。

重定向链。虽然谷歌说重定向现在通过了 100% 的 PR,但仍然建议避免长重定向链。首先,它们无论如何都会消耗您的抓取预算。其次,我们知道我们不能盲目相信谷歌所说的一切。

无法解析的 JavaScript 中的链接。由于 Google 无法读取它们,因此它们不会通过 PageRank。

404链接。404 链接无处可去,因此 PageRank 也无处可去。

链接到不重要的页面。当然,您不能让任何页面完全没有链接,但页面并非生而平等。如果某个页面不太重要,那么花太多精力优化该页面的链接配置文件是不合理的。

太远的页面。如果某个页面位于您网站上的位置太深,则它可能会收到很少的 PR 或根本没有 PR。因为谷歌可能无法找到并索引它。

为确保您的网站不受这些 PageRank 危害,您可以使用WebSite Auditor对其进行审核。该工具在“站点结构” >“站点审核”部分中包含一组全面的模块,可让您检查网站的整体优化情况,当然还可以查找并修复所有与链接相关的问题,例如长重定向:

和断开的链接:

PageRank的未来

今年 PageRank 已经 23 岁了。我想,它比我们今天的一些读者还要老:) 但是 PageRank 未来会怎样?它会有一天完全消失吗?

没有反向链接的搜索引擎

当试图想到一个流行的搜索引擎在他们的算法中不使用反向链接时,我能想到的唯一想法是2014 年的Yandex 实验。搜索引擎宣布,从他们的算法中删除反向链接可能最终阻止垃圾链接发送者的操纵,并帮助他们将努力引导到高质量的网站创建。

这可能是转向替代排名因素的真正努力,或者只是试图说服大众放弃链接垃圾邮件。但无论如何,在宣布后的短短一年内,Yandex 确认反向链接因素又回到了他们的系统中。

但是为什么反向链接对于搜索引擎来说如此不可或缺?

虽然有无数其他数据点在开始显示后重新排列搜索结果(如用户行为和 BERT调整),但反向链接仍然是形成初始 SERP 所需的最可靠的权威标准之一。他们在这里唯一的竞争对手可能是实体。

正如 Bill Slawski 在被问及 PageRank 的未来时所说:

谷歌正在探索机器学习和事实提取以及理解业务实体的关键值对,这意味着向语义搜索方向发展,以及更好地利用结构化数据和数据质量。 ———Bill Slawski,海边的 SEO

尽管如此,谷歌并不像放弃他们投入数十年开发的东西。

谷歌非常擅长链接分析,这是现在非常成熟的网络技术。因此,很有可能 PageRank 将继续用于对有机 SERP 进行排名。 ———Bill Slawski,海边的 SEO

新闻和其他时效性结果

Bill Slawski 指出的另一个趋势是新闻和其他短暂的搜索结果类型:

谷歌告诉我们,对于及时性更重要的页面,例如实时结果(如来自 Twitter)或新闻结果,及时性非常重要,它较少依赖 PageRank。 ———Bill Slawski,海边的 SEO

事实上,一条新闻存在于搜索结果中的数量太少,无法积累足够的反向链接。因此,在处理新闻时,谷歌一直并且可能会继续努力用其他排名因素替代反向链接。

但是,就目前而言,新闻排名很大程度上取决于出版商的小众权威性,我们仍然将权威性视为反向链接:

“权威性信号有助于对来自最可靠来源的高质量信息进行优先排序。为此,我们的系统旨在识别信号,这些信号可以帮助确定哪些页面在给定主题上展示了专业知识、权威性和可信度,基于搜索评估者的反馈. 这些信号可以包括其他人是否重视类似查询的来源,或者有关该主题的其他著名网站是否链接到该故事。”

新的 rel=“sponsored” 和 rel=“UGC” 属性

最后但并非最不重要的一点是,我对谷歌为识别赞助和用户生成的反向链接并将它们与其他非关注链接区分开来所做的努力感到非常惊讶。

如果所有这些反向链接都被忽略,为什么要区分一个?尤其是 John Muller 暗示 Google 以后可能会尝试以不同的方式对待这些类型的链接。

我最疯狂的猜测是,谷歌可能正在验证广告和用户生成的链接是否可能成为积极的排名信号。

毕竟,在热门平台上投放广告需要巨额的预算,而巨额的预算是一个大品牌和热门品牌的属性。

在垃圾评论范式之外考虑时,用户生成的内容是关于真实客户提供他们现实生活中的认可。

然而,我接触过的专家认为这是不可能的:

我怀疑谷歌是否会认为赞助商链接是一个积极的信号。 ———Barry Schwartz,搜索引擎圆桌会议

这里的想法似乎是,通过区分不同类型的链接,Google 会尝试找出哪些 nofollow 链接将用于实体构建目的:

Google 对网站上的用户生成内容或赞助内容没有任何问题,但是这两种方法在历史上都被用作操纵 pa​​gerank 的方法。因此,鼓励网站管理员在这些链接上放置 nofollow 属性(使用 nofollow 的其他原因之一)。但是,nofollow 链接仍然可以帮助 Google 处理某些事情(例如实体识别),因此他们之前已经指出可能会将这更多地视为建议,而不是像 robots.txt 禁止规则这样的指令会出现在您自己的网站上。约翰·穆勒 (John Mueller) 的声明是“我可以想象在我们的系统中,随着时间的推移,我们可能会学会以稍微不同的方式对待它们。” 这可能是指 Google 将 nofollow 视为建议的情况。假设,谷歌有可能 s 系统可以根据从标记为 ugc 和赞助的链接类型中收集的见解来了解要关注哪些 nofollowed 链接。同样,这不应该对网站的排名产生太大影响 - 但理论上它也可能对被链接的网站产生影响。 ———卡勒姆·斯科特,玛丽·海恩斯咨询公司

0 人点赞