作者 | 梁唐
大家好,我是梁唐。
今天和大家聊聊搜索、广告、推荐算法当中很重要的一个指标,也就是大名鼎鼎的点击率。
点击率这个指标相信很多同学都有所耳闻,它的含义也很简单,顾名思义就是点击的概率,英文叫做CTR。如果我们用公式来表达的话就是click / impression,这里的click也就是发生的总点击数,分母的impression也就是曝光的数量。两者的商就是点击率。这些大家都很好理解,但问题是为什么点击率它这么重要呢?这个问题能回答上来的就不多了。
为什么点击率是核心指标
搜索、广告和推荐在几乎所有互联网公司当中都是最重要的三个业务,也是三个流量大头。
大家回想一下自己使用某宝的体验就可以了,逛得最多的是不是就是搜索和首页的推荐?广告严格来说不算是一个场景,它和搜索以及推荐深度结合。无论是搜索区域还是推荐区域,都有广告的存在。并且广告也是当今互联网公司最主要的收入来源,没有之一。
对于这些场景来说,有一个非常严肃和关键的问题:就是我们如何量化展示的结果好坏呢?
我们作为使用者感受当然非常简单,我输入了一个搜索词,你返回的结果不相关那么自然就是坏结果。但问题是该怎么使用严谨的数学表达式来反应呢?也就是如何量化返回的效果呢?
像是搜索场景可能还好一点,比较在意相似度。但对于推荐、广告场景则不是很合适了,因为推荐场景并没有一个强信息的搜索词,所以也就没有什么相似不相似之说了。而即使是搜索场景,相似度也并不非常适合,因为相似并不代表优质。比如说我搜索手机,出来的结果都是山寨机或者是没听说过的杂牌子,单纯从相似度来说,这些结果都相似,但显然效果不能算好。
而以点击率作为核心指标是一种相对来说比较合适也比较高明的做法,点击率高,说明了用户点击的意愿高,某种程度上也就反应了展出的效果。
这也是为什么点击率会成为各大场景的核心指标的原因。
点击率与广告
不仅如此,点击率的预测对于广告领域尤其重要,它是广告系统最核心的指标,没有之一。
当前电商领域的广告一般有三种模式,一种是基于曝光的,一种是基于点击的,最后一种是基于成交的。这三种模式在生活当中也很常见,我举几个例子,大家一看就明白了。
一
比如说我们看的电视广告、电线杆上贴的小广告或者是报纸广告,这些都属于第一种。因为我们没有太好的手段追踪广告的效果,像是电视广告,电视节目的冠名广告等等。因为我们看完就完了,也不像是电商广告一样还可以点击商品浏览详情。
曝光模式在电商场景当中也一样存在,比如某宝的首页推荐,以及双十一等活动的展品推荐都属于这类。商家支付一定的费用参与活动,一次性买断,平台不负责任何投放效果。
这类广告往往有一些共性,比如广告服务提供方比较强势,以及广告的展位非常出众,含金量很高,竞争很激烈。除此之外则是一些主打长期价值的广告,比如可口可乐、零食、汽车等商品。这些商品往往不会因为广告起到立竿见影的效果,而是通过对消费者施加长期的影响力来取得商业回报。
二
第二种模式是基于点击的广告,也是最常见的广告。它的特点是需要用户点击,也就是用户有打开广告的意愿。也是目前互联网行业最主流的广告,比如电商平台中的大部分广告,视频媒体中的广告以及搜索引擎中的广告都属于这一种。
这种广告的服务商都可以简单理解成流量贩子,靠着贩卖流量盈利。要想将手上的流量利益最大化,那么自然就要展出最有价值的广告。广告的价值有两个部分组成,一个部分是广告主给与的开价,这个是已知的。另外一个就是产生点击的期望,也就是点击率。所以最终某一个广告的收益期望为广告主的开价price乘上广告的点击率CTR。
但这里有一个小问题,广告的点击率是一个后验值,也就是说我们只有先展示了才能知道它的点击率,是无法提前获取的。为了解决这个问题,所以引入了机器学习,使用智能算法来预测点击率。我们假设模型预测的点击率是pCTR,再拿它乘上价格price,就得到了这个广告的收益期望。
这样广告的收益期望就成了一个具体的值,有了这个值我们就可以在展示的时候进行排序,将期望最大的广告展示在前面,期望小的广告展示在后,从而达到利益最大化的目的。
三
最后一种是基于成交的广告,这种广告一般规模不大,有些类似于各大导购网站。像是什么礼物说、什么值得买这类网站的模式都是这一种。这些网站通过将流量引导到商家进行成交,从中获得抽成,也是最传统的广告模式了。
在这三种模式当中,在互联网行业当中应用最广泛的是第二种,而这一种广告机制的核心就在于点击率的预测。点击率预测得越准确,那么排序之后得到的收益就越高,公司的盈利也就越好。既然事关盈利,那么它占据重要地位也就不足为奇了。
点击率有哪些问题
聊了这么多,相信大家对于点击率这个指标的用处以及重要性也有一定的认知了。但世上没有完美的事物,算法模型的指标也是一样,如果单单使用点击率作为模型的训练目标也会有许多问题。
我下面也举几个例子和大家盘点盘点。
低俗与标题党
一个是普通的标题配上普通的图片,一个是各种震惊、惊悚的标题党配上热辣的美女图片,哪一个点击率高相信不用我多说大家都能体会。
毕竟人类是视觉动物,看到美女图片,很少有直男能忍住不点,这些是我们的本能。但这样就带来了一个问题,点击率高的内容未必质量就好,反而恰恰相反往往质量很差。现在各大内容平台中标题党以及封面图党的内容大行其道就是这个原因,长此以往,必然会引发用户审美疲劳对平台丧失信心,也就必然会导致用户的流式。
关于这点有一个经典的例子,我在百度和搜狗当中搜索“透视”这两个字,出来的结果大相径庭。
这是百度的结果:
这是搜狗的结果:
不管是什么样的网站,如果只是一味地追求点击率,到最后往往平台上充斥的都是标题党、眼球党等各种不良内容。真正优质的核心用户往往早就流式干净了,那么离倒闭也就不远了。
跷跷板效应
第二个问题是跷跷板效应,也就是说点击率提升了,可能会导致其他的指标降低。
这个也很好理解,比如我在购物网站里搜索商品,搜出来的全都是美女封面,可能点击率会猛涨一波,因为吸引眼球嘛。但是搜出来的结果并不是我想要的,那么订单数以及成交额显然就会大幅度降低。
高点击率与高成交本身就是两个特质,算法加强了对于点击率的刻画,势必会牺牲一些其他的特质。像是一些视频网站可能更加明显,比如点击率虽然增加了,但是可能观看的时长减少了,用户每天花的时间也更少了。虽然用户打开了更多的视频,但是也丧失了更多的耐心,显然对于平台长久的发展也是有害的。
对于推荐场景也是如此,如果给用户推荐的东西点击率明显提升了,也许用户一下就找到了想要的东西,提前达成了购物的目标。那么用户闲逛的时间会减少,浏览的商品数也会减少,自然产生的成交也会减少,对于平台同样是不利的。
应对方法
那么针对点击率的这些问题,我们有什么特别好的应对方法吗?
很遗憾,并没有。
因为点击率太有用了,不用它是不可能的,整个算法体系都会乱套。而且它也的确很能反映问题,作为核心指标肯定是没问题的。
但是如果过度依赖点击率,的确又会产生上述说的这些问题。非常头疼,但业界的确也没有什么特别好的方法。更多地还是依赖工程师发挥主观能动性,基于人的理解来进行调整,而没有什么通用的策略。
目前比较主流的办法是让模型同时学习多个目标,不止在一棵树上吊死,想办法在提升点击率的同时也能优化一下其他的目标。也有的团队是先不管其他指标,先盯着点击率优化,等优化到头了,再反过来优化其他指标。
这些方法不能说没用,只能说有些头疼医头脚疼医脚,不能根治。其实这也是正常的,本身算法场景以及算法优化的目标就是一个非常复杂的问题。我们想要用简单的指标去定义、覆盖一个复杂的场景本身就是不现实的,而目前的模型也只能识别和学习简单的指标,一旦复杂了,也就超出范围了。
所以目前来看,这个问题还找不到根治的办法,还是只能靠人力来解决。而对于这些问题的思考和理解,也是一个高阶算法工程师的必备知识,远比模型的原理以及调参的方法重要得多。
好了,关于点击率就聊到这里,祝大家周末愉快。