人人直播带货的时代，推荐模型为什么比不过李佳琦们？

大数据文摘投稿作品

作者：袁峻峰

疫情期间，各平台在线直播带货量都大幅上涨，具研究机构艾媒咨询发布的数据显示，2019年中国直播电商行业的总规模达到4338亿元，预计2020年中国在线直播的用户规模将达5.24亿人，市场规模将突破9000亿元。本文将探讨，对比与直播带货，推荐模型有哪些不足。

既然是对比，我们限定直播带货中特定模式，流量、知识带货：内容种草电商变现，内容种草的地方包括小红书、抖音、快手以及自媒体等，然后把种的草集中到天猫、淘宝成交。淘宝直播一哥李佳琦，之前是欧莱雅BA，美妆博主，专业性没话说，随意说一个口红色号，他能够3秒从身后的几千只口红中找出这支。加上形象好，有个性：毒舌嫌弃脸翻白眼，大牌照样吐槽，破除大家的品牌迷信，建立了一种“听李佳琦没错”的信任。罗永浩，更不用说，用自己的形象为锤子手机代言，粉丝们买票看产品发布会。转战直播带货，原有的锤子粉丝也跟随罗永浩到抖音，创下了首播支付交易总额超1.1亿元，累计观看人数超4800万人的记录。因为粉丝还是信任老罗的专业能力，相信他带的货是性价比高的。

信任是前提，可以降低选择成本，购买大品牌的原因也是如此。生活中从来不缺推荐与建议，来自父母、老师、朋友、专业顾问，以及各种社交媒体，大部分建议是徒劳和空洞的，建议者和被建议者之间是要有支点的，这种支点是可以是亲情、友情或各种其他感情或专业性等等。

直播主的口碑和信任需要积累，只有能给客户带来价值，才能长期赚钱。按道理来说，电商、视频等平台的推荐模型应该也是如此。但事实上，推荐模型的评价指标是非常短期、甚至是实时的。在互联网公司，一个模型是否上线是要经过AB 测试。各大互联网公司都会有完善AB测试框架，以方便不同功能快速部署AB测试，通过客户实际效果反馈不断迭代完善功能。AB测试本质上是个分离式组间实验，不断获取客户反馈既新信息，持续优化模型效果。而评价不同推荐模型的最终效果，决定是否上线，是由一系列模型指标决定的。

这里需要先介绍几个推荐模型评价指标概念。推荐模型评价指标，通常最主要指标是准确性指标，包括准确率和召回率。

准确率：推荐列表中用户喜欢的物品占全部推荐列表的比例。
召回率：推荐列表中用户喜欢的物品占有全部用户喜欢列表比例。

其他的评价推荐指标还包括：

用户满意度 (User Satisfaction)：用户反馈的满意率，可通过点击率、转化率等指标衡量。
覆盖率(Coverage)：是否公平的覆盖了全部物品列表和用户列表。
多样性(Diversity)：推荐列表中涵盖用户各方面的兴趣的比例。
新颖性(Novelty)：算法推荐给用户可能感兴趣，但很少接触的物品。
可解释性(explanation)：推荐理由。
健壮性(Robustness)：指推荐系统中抗攻击、反作弊等功能。

这些模型评价标准看过去都是和客户利益一致的。但最终决定一个模型是否上线是由推荐系统的商业目的决定的。对于电子商务的推荐系统，最终的商业目标通常是平台的交易量。对于音乐、电影、新闻、短视频等平台的推荐系统，最终的商业目标是用户点击与平台观看停留时间。

大数据中很大一部分是互联网平台的用户行为数据，正是有了这些数据基础，才能构建推荐模型。推荐模型的本身原理是合理的，基于用户偏好等相关特征进行推荐，有效降低了用户搜索的成本；推荐模型的评价标准大抵是合乎用户利益的。但最终，推荐模型是否线上部署的评价标准必然是基于平台自身商业目标考虑。不由让人觉得是“白眼狼”，他们用着用户的数据，模型的终极目标却是为了各互联网平台自己的商业目的。当然，如果既能提升那些用户满意度、覆盖率、多样性、公平性等指标，又能提升平台的各项商业指标当然最好。只要当鱼和熊掌不可兼得时，最终线上模型往往不一定是完全从用户利用考虑。虽然，从商业角度来看，诚然亦是无可厚非的。

重要的是，点击率、转化率作为模型目标得到结果只能是预测了用户最可能的行为，但用户需要的是做出更理性的决策。

诺贝尔经济学获得者保罗·萨缪尔森提出显示偏好公理(Weak Axiom of Revealed Preference)认为：如果消费者的行为是追求效用最大化，那么消费者在市场上所能购买的商品组合就是他所能购买的最优商品组合，这些实际购买的商品组合优于那些消费者有能力购买而没有购买的商品组合。即如果组合A直接显示出比B更被消费者所偏好，而且，A和B不同，则不可能有直接显示出B比A更被消费者偏好。显示偏好公理是现代新古典主义经济学的基石之一。通过可观察行为，揭示了行为主体的偏好包括隐藏偏好。比起那些不可观测的其他经济学效用理论，更可实践。可观测、可量化也正是数据建模的基础。推荐与排序模型都是基于用户偏好的，这也十分符合以上经济学原理。如，基于协同过滤的推荐模型，对用户喜欢的产品或内容进行分析, 发现用户A和用户B很像，所以假设他们有类似偏好，即他们都喜欢差不多的东西, 用户B喜欢了某个产品或内容, 而用户A还没有购买或看过, 那么就把这个东西推荐给用户A，这就是用户协同过滤模型(User-Based CF)的原理。可以看出该模型的前提假设和显示偏好公理是一致的。

但神经科学发现，偏好之间关系是不稳定的，当一个行为主体进行知觉判断时，他要经历一个随机的认知过程，做出一个随机的偏好决策。保罗·格莱姆齐教授分析、设计了几个神经科学实验，其中之一是通过监控猴子脑区神经元放电率与对某个给定的事物之间的关系，试图估计猴子对该事物的奖赏相关偏好概率。神经科学实验详细描述还是先行略过。该实验得到的结论是，猴子的偏好决策是采用激活一个神经回路实现的，该神经回路会在多个备选项之间设定一些阈值，类似一个“赢家通吃”的运算。“神经生物学家对神经系统的研究告诉我们，所有的信号（期望主观价值也是一个神经信号）都是随机的。”[1]

所以，偏好是存在随机性，新古典经济学的显示偏好公理中，固定的偏好序列假设是有缺陷的，基于该假设的期望效用理论下理性决策是不成立的。应该认为偏好是情境的、过程敏感的，甚至是有可能偏好反转的。借助各种诱导能够改变偏好因素的相对权重，从而产生不同的偏好顺序，或者说，偏好是在诱导过程中建立起来的。这也是广告的价值所在，也是推荐模型，直播带货的价值所在。“经济学家通常假设人们知道他们想要什么，而广告商则假定人们并不知道这些？”随着这些年理论的发展，经济学中理性人假设，行为主体了解自身偏好的假设等，已逐渐被有限理性假设所取代。

推荐模型基础假设和优化指标点击率、交易转化率都是和显示偏好公理的原理一致的。亦是说，既然人们效用偏好具有随机性，推荐模型中基于点击率、交易转化率的模型优化目标和真实用户最优效用并不一定一致。而直播带货是引导粉丝偏好，主播们为了构建长期信任，是需要帮用户做出更好、更合理的选择。

所以，对比与直播带货，推荐模型有这么几点不足：

缺乏信任的支点。专业性体现不足，推荐模型可解释性也是目前业内重点改进方向之一。
模型评价指标偏短期，并且不能完全反映用户效用。
模型上线最终取决于APP、平台的商业利益。
模型目标是预测用户未来最可能的选择，而不是建议用户更合理的选择。

当年苹果创始人乔布斯被问及Siri定位时，其回答“Siri不是搜索公司，它是人工智能公司。”由此可见，乔布斯心里，Siri的定位是作为跨时代的前驱性智能产品，也预示着未来信息处理将从搜索推荐进化到智能助理。更多的领域智能助理探讨，请参见即将出版的《人工智能为金融投资带来了什么》[2]。

作者介绍：袁峻峰，蚂蚁金服人工智能部，复旦金融学硕士，FRM金融风险管理师。10年以上从事金融IT相关领域工作经验，目前从事公司内机器学习的资金优化项目。新书《人工智能为金融投资带来了什么》即将出版，欢迎探讨。微信: IA_FIN。

[1] 保罗·格莱姆齐. 神经经济学分析基础[M]. 浙江大学出版社. 2016,9.

[2] 袁峻峰. 人工智能为金融投资带来了什么[M]. 经济科学出版社. 2020.

云直播神经网络深度学习人工智能推荐系统

0 人点赞