视频领域的 A/B 测试

2022-04-11 18:22:03 浏览数 (1)

来源:video @scale 2021 主讲人:Vineeth Madhusudanan 内容整理:王珅 本次分享的主讲人为来自 STATSIG 的 Vineeth Madhusudanan。视频的 A/B 测试不仅仅是调整建议或挑选完美的缩略图的问题。视频的每个方面都受益于快速实验,包括基础设施--流媒体算法、编解码器、比特率、缓存策略、网络拥堵控制算法。主讲人从业内工作者的角度介绍了实验是如何帮助工作者了解用户的需求的。同时,主讲人也分享了过去一些令人费解的实验结果,以及关于基础设施的见解。

目录

  • 大多数学科都是从艺术中发展起来的
  • 艺术 科学:市场营销
  • 短视频的推出
    • 一个分歧的故事
    • 实际路径
  • 功能发布前会自动进行 A/B 测试

大多数学科都是从艺术中发展起来的

许多学科都是从艺术开始的,并随着时间的推移演变成艺术与科学的混合体。市场营销曾经被品牌广告和电视创意所主导,几乎没有办法将原因和效果联系起来。今天,虽然这是由绩效营销人员推动的,但是可以衡量广告创意的有效性,并衡量客户获取成本和价值等方面的指标。主讲人在这里引用了 "Mad Men"(广告狂人),因为没有他们,现在的人很难想象营销曾经是主要的艺术形式。

艺术 科学:市场营销

今天我们肯定无法想象曾经销售被定义为打高尔夫。但现在的销售业务使它很容易衡量。如果你问任何一个失败的团队,谁是上一季度销售总额最高的的销售代表,回答这个问题是非常简单的。但如果你问大多数产品团队,他们上个季度对 KPI 最有影响的功能是什么,他们很难回答这个问题。他们可能会告诉你,他们最喜欢什么功能,但这和对产品销量的影响是完全不一样的。产品开发仍处于从艺术向科学过渡的早期阶段。

主讲人将产品管理中的几种危险问题比作动物:

  • HiPPO(Highest Paid Person's Opinion 最高薪酬者的意见) 对“河马”说“不”是很难的,但让他们做所有的决定会导致产品或功能没有得到验证。这可能会扼杀团队的士气并引入风险。
  • ZEbRA(Zero Evidence But Really Arrogant 零证据但相当傲慢者) “斑马”认为他们知道一切,但依靠他们的直觉而不是任何实际的证据。“斑马”可能运气好,偶尔会把事情做对。但仅凭运气并不是一个好的策略。
  • Seagull(Seagull Manager 海鸥经理) 海鸥式的管理者会突然闯入,制造混乱,然后又突然离开,让团队去收拾残局。他们的意图是好的,但他们缺乏对产品的有价值的实地观点。
  • WoLF(Working on Latest Fire) 当忽视之前的技术问题而只关注新功能时,最终会陷入一个需要所有资源的恶性循环。严重阻碍了生产力和创新。
  • RHiNO(Really High-value New Opportunity) "如果我们有了 X 功能,我们就能提高销售/获得更多客户”,“犀牛”仅关注一次性要求,把重心转移到解决方案上,而不是解决真正的客户问题。

每个人都曾与“河马”合作过,这通常是薪酬最高者的意见,而且没有数据支撑。但实际上,未来就在于数据分析和实验。像 Facebook、YouTube、Etsy、Amazon、Spotify 这样的公司,运行的实验是其他公司的 10 倍。

短视频的推出

一个分歧的故事

在视频工作中,实际实验是非常合适的,因为在现实世界中情况相当复杂。现实的网络是拥挤的,并且现实中存在许多设备计算能力弱,可能视频在一个很好的网络上运行得非常好。但是当来到现实世界时,才能真正了解什么是有效的,什么是无效的。

主讲人分享了一个他刚开始从事视频工作时的故事。主讲人说他最初的直觉是错误的,当时他在做视频摄取的工作,允许用户从一个应用程序中拍摄和上传视频。当上传这些视频时,必须在比特率的可靠性和延迟之间做出权衡。视觉质量越好,上传的数据量越大,时间越长,这就增加了失败的概率。传统的智慧告诉我们,一旦视觉质量足够好。让它变得更好就没有什么意义了。主讲人认为他们找到了应用程序的关键点。现在是短视频时代,那时候短视频还不为人所知,几乎没有人在应用中使用它们。主讲人仍然记得与一位工程师的谈话,他热衷于进一步提高视频质量,使视频质量更好。但工程领导和我都持不同意见,因为他们相信传统的智慧,认为现在改善视觉质量对我们的用户来说并没有什么帮助。

实际路径

然后这一工程师在一周内实际建立了一个原型,并提高了视频的视觉质量。当他把它运送给一小部分用户的时候。主讲人看到延迟增加,可靠性下降。但有趣的是,主讲人也看到在这些高质量视频中,用户的参与度远远高于低质量视频。用户是可以看到其中的差别的,并重视它。此时工程负责人和主讲人都对此非常感兴趣。招募新的工作人员来投资修复可靠性和延迟问题是很容易的,因为此时我们知道用户关心这种更好的视觉质量,而且正在对高质量视频作出反应。

如果没有实验,这一工程师的想法将永远不会得到实现,更不会说服任何人投资改善这一方面。短视频通常在手机上全屏播放,而之前视频则在应用中的一个小窗口里播放。因此用户对视觉质量更加敏感是有道理的。主讲人认为这一经历让他感到惭愧,因为这里工程领导和他的想法显然是错误的。找到一种方法来快速而廉价地测试一个想法,主讲人体会到了向用户学习的实验是多么强大。随着时间的推移,主讲人已经得到了在 Facebook 的视频实验的工作,现在在主讲人目前的工作中,视频的实验是无处不在的。并且用户往往没有意识到他们正在进行实验。在视频链路的每一层都建立了新的功能,把它们作为 AB 测试发给用户,并在决定这个变化是否对我们的用户有好处之前捕捉到对指标的影响。

功能发布前会自动进行 A/B 测试

在视频链路的每一层,从产品和用户体验到我们用来传输视频的网络协议,都因为实验而不断发展。在任何特定的时间点,可能有数百个视频实验,在许许多多成功的视频应用程序上运行。这里主讲人有几个有趣的现象。有时视频流的质量非常低,因为它是在一个非常差的网络条件下播放的。那么当用户在一个更好的网络条件时播放它,比如现在有 Wi-Fi,我们是否应该放弃之前的视频流,重新下载。这是一个典型的“一鸟在手 ”与“两鸟在丛”的案例,主讲人试图管理风险,并确定在现实世界中哪个更好。在这里通过实验可以找到正确的平衡。

附上演讲视频:

http://mpvideo.qpic.cn/0bc3jmaa2aaabiahsdixgfrfas6dbvfqadia.f10002.mp4?dis_k=2e24ba0d05f3600ca1a5894fe0513471&dis_t=1649672488&vid=wxv_2283580197683806219&format_id=10002&support_redirect=0&mmversion=false

0 人点赞