大数据文摘出品
编译:韦梦夙、张秋玥、蒋宝尚
结合了数据与机器学习的产品可成为解决用户需求的利器。它们能够创造一条可以帮你避免激烈竞争的“数据护城河”。
当前已经有了一些非常经典的案例,例如谷歌搜索引擎以及亚马逊产品推荐系统,两者利用数据与机器学习做出的改进都吸引了更多用户使用它们的产品。
但是机会并不会只青睐技术巨头:各个领域各种规模的公司都在投资它们自己的数据产品。在Coursera,我们使用机器学习帮助学习者寻找最佳的内容去达成他们的学习目标,保证他们获得成功所需要的支持——无论是机器支持,亦或人工支持。
所谓“数据产品”的生命周期反映了当前基本的产品开发现状:找到解决用户核心需求的机会,建立一个初始版本,然后评估其影响并进行迭代。
但是数据的引入增加了一层额外的复杂度。为了应对此挑战,公司应该加强跨职能合作,用长期眼光去评估并优先考虑数据产品机会,然后从简单之处开始做起。
阶段1:辨识机会
数据产品是一项团体运动
找到最佳的数据产品机会需要把产品业务的洞察和技术数据的洞察结合起来。产品经理、用户研究员以及商务领袖们通常有很强的直觉和领域专长去辨识关键且尚未解决的用户与业务需求。与此同时,数据科学家和工程师们拥有敏锐的眼光去辨识可行的数据驱动解决方法;他们还在什么能够拓展和如何拓展等问题上有很强的直觉。
为了辨识并优先考虑正确的数据产品机会,我们需要让讨论桌上的各方聚到一起。如下的几条规范就能够很有帮助:
让数据科学家认识用户和业务需求。保持数据科学家与产品经理、用户研究员、商业领袖的紧密联系,以保证他们能够直接深入挖掘数据来理解用户以及他们的需求。
让数据科学家承担数据传播者的角色,与整个公司交流数据能够带来的机会。这包括从为公司提供更易于使用的原始数据、在早期构想阶段即提供模型输出样本,到在后期搭建全功能产品样本。
培养具有良好数据意识的产品与业务小组。不同职能与行业的人们都在提高自己的数据相关能力,而雇主们则能够通过投资培训项目来加速这个趋势。产品与业务部门的数据相关能力越强,他们就能够更好地和数据科学以及技术小组合作。
讨论桌上为数据科学保留一席之地。数据科学能在组织不同的地方存在(无论是集中或去中心化的管理模式),但是无论是什么样的组织形式,参与产品与商业策略讨论的数据科学领袖们都能够帮助加速数据产品的开发。
优先考虑未来
最好的数据产品像美酒一样,随着时间流逝会变得越来越好。有如下两个原因:
- 首先,数据产品应用通常能够加速数据的收集,反之又有助于提高应用本身。设想一个基于用户自反馈资料数据的推荐系统产品吧:目前使用有限的个人资料数据,初始推荐系统可能效果并不明显。但如果用户在个性化自己的偏好时拥有有非常强的意愿去补充资料,这将推动推荐系统去加速收集资料数据,逐渐提高推荐系统的效果。
- 其次,许多数据产品能够支持多种应用。这不仅是为了在各件应用上均摊昂贵的研发成本,还是通过共享数据加强网络效应。各种应用产生的数据反馈给底层数据架构,有助于提升应用的利用率和数据收集——这样的良性循环将持续进行。Coursera的技能图就是其中一个例子。一系列算法给课程内容、职业生涯以及学习者本身匹配了一个强大的技能库。该技能图加强了一系列帮助发现相关课程的应用表现,而其中许多应用产生了增强技能图的训练数据,反过来提高应用的效果。
过度关注近期表现会错失中长期的机会。普遍来说,高质量数据的关键性不容小觑。每一个步骤都应该在收集和储存数据上优先投资。
阶段2:建设产品
通过分布执行来降低风险
数据产品通常需要验证算法是否有效和用户是否喜欢。因此,数据产品的建设者面临着一个固有的矛盾——在前期研发上投资多少,以及尽快发布应用以验证它是否能够解决某一核心需求的速度。
在验证产品与市场是否匹配之前过度投资于技术验证,会加大研发力量浪费在错误的问题或者解决方案上的风险。反过来,缺乏有效研发、仅仅过度投资于用户需求验证会导致呈现给用户一个无力的样品,会有被错误否定的风险。偏向于后者的团队也许会产生一个由并不有力的模型驱动的MVP(Minimum Viable Product,最小可行产品)。如果用户反馈差强人意,那当我们投入更高研发力度去改善产品时结果其实有可能将有所不同。
当没有合适手段同时验证技术并测评产品与市场是否匹配时,分布执行就能够帮得上忙了。从简单部分入手将能够加速测试以及收集高价值数据。在建立技能图的过程中,我们起初推出基于技能的搜索——一项只需要技能图一个小子集的应用。它随后产生了丰富的训练数据。如下一系列MVP方法同样能够减少测试时间:
- 轻量级模型通常搭建并投入市场更快,而且更容易解释、调试并逐渐升级。虽然深度学习在大部分案例中非常有用(确实是一个趋势),但它并不适合被用于数据产品启动阶段。
- 外部数据资源——无论是公开资源、购买资源或合作伙伴的解决方案——都能够加速数据产品的开发。如果产品产生的数据中可以明显看出(某个特性)很受欢迎或很有效果,该产品就可以向该有竞争力的方向进行改进,或直接将其作为卖点。
- 在起步的时候缩小适用领域能使算法不那么具有挑战性。例如,一些应用在初始搭建阶段时可以先着眼于一小部分用户群体或适用范围。
- 手工处理——要么人工完成你希望最终机器模型能做的事情,要么至少是人工评估调整初始模型的输出——都能更进一步加速开发。着眼于让手工综合处理的步骤能随时间推移实现自动化以提高产品的效果,将会十分理想。
阶段3 评估和迭代
当评估数据产品表现时,思考其未来的潜力
在发布产品后评估结果就对数据产品做出有用或者无用的定论不像简单的UI调整那么直接。这是因为,当你收集到更多数据的时候,数据产品的效果基本都会提高,而且基础数据产品会随着时间推移实现更多功能。在封装一个没有明显优于竞争对手的数据产品前,请你的数据科学家准备好一些重要问题的回答。例如,产品和原先比数据收集效率提升了多少?提高算法效果上有多少成果?未来将会解锁什么样的应用?基于这些问题的回答,一件当前指标并不耀眼的产品也许其实值得保存下来。
迭代速度很重要
数据产品经常需要在算法和UI上进行迭代。挑战在于决定在哪里进行迭代的价值最高。数据和用户反馈将帮助团队知道什么功能需要改进。算法迭代成为核心时(通常在复杂的推荐系统或者通信系统中算法迭代会无比重要,比如Coursera的个人学习干预项目算一个),我们将需要考虑到系统设计是否方便数据科学家在开发中独立地部署并测试新模型。
在产品与商业领袖和数据科学家之间培养合作的默契,优先考虑用未来的眼光投资,然后从简单之处开始起步,任何类型和规模的公司都能加速开发出能有效解决用户核心需求的数据产品,以给为企业添加能量,创造持续性的竞争力。
相关报道:
https://hbr.org/2018/10/how-to-build-great-data-products
【今日机器学习概念】
Have a Great Definition