推荐书籍:
阿里的一本《强化学习实战--技术演进和业务创新》的可以有空阅览,18年10月出版的。在早几年大厂们都已经沉淀技术了,下面总结一些大佬们的建议。
参考链接:强化学习应用简述 - 知乎
1、目前成功案例
我们已经见证了强化学习的一些突破,比如深度Q网络 (Deep Q-Network, DQN)应用于雅达利(Atari)游戏、AlphaGo (也包括AlphaGo Zero和AlphaZero)、以及DeepStack/Libratus等。它们每一个都代表了一大类问题,也都会有大量的应用。DQN应用于雅达利游戏代表着单玩家游戏,或更一般性的单智能体 (agent) 控制问题。DQN点燃了这一波研发人员对深度强化学习的热情。AlphaGo代表着双人完美信息零和游戏。AlphaGo在围棋这样超级难的问题上取得了举世瞩目的成绩,是人工智能的一个里程碑。AlphaGo让普罗大众认识到人工智能,尤其是强化学习的实力和魅力。DeepStack/Libratus代表着双人不完美信息零和游戏,是一类很难的问题,也取得了人工智能里程碑级别的成绩。
谷歌Deepmind AlphaStar打败了星际争霸人类高手。Deepmind在一款多人抢旗游戏(Catch the Flag)中达到了人类玩家水平。OpenAI Five打败了人类刀塔(Dota)高手。OpenAI训练了类人机器人手Dactyl, 用于灵活地操纵实物。谷歌人工智能把强化学习用到数据中心制冷这样一个实用系统。DeepMimic模拟人形机器人,掌握高难度的运动技能。强化学习也应用于化学分子逆合成和新药设计。等等。
强化学习也已经被用到产品和服务中。谷歌云的自动机器学习 (AutoML) 提供了自动优化神经元网络结构设计这样的服务。脸书开源了Horizon产品和服务,实现通知传达、视频流比特率优化等功能。谷歌研发了基于强化学习的YouTube视频推荐算法。亚马逊与英特尔合作,发布了一款强化学习实体测试平台AWS DeepRacer. 滴滴出行则把强化学习应用于派单等业务。阿里、京东、快手等把强化学习应用于推荐系统。
1.1 某阿里大佬阐述
广告方面,落地有合约/GD广告,流量分配/预估,售卖系数/rtb,智能出价/建议价/保留价,预算控制/反馈等,基本大部分ocpx的rs重排都可以用rl来优化,dpn/ddpg/cem等等。
推荐的话,最早的EE/ucb/bandit那一套就是在推荐落地的,在资源冷启/用户冷启/流量试投上有一些收益。然后比如多路召回的召回个数k的判定;另外,建模用户长期兴趣/用户未来收益,平衡即时收益(ctr/cvr)和未来长期收益(留存/回访/复购)也有应用。
搜索方面少点,sug/query理解(query改写知乎就用rl上线过),然后相关性排序/session挖掘里应用也有落地。
另外在三者交叉领域,例如搜索广告/推荐广告中,自然流量和广告流量的资源博弈。在一般业务部门,广告结果和推荐结果可能分别是不同团队输出的,在推荐信息流/搜索结果页要插入广告的话,可能是固定位置给到广告位,这样相对限制了收益天花板。例如广告位顺序/数量其实是可以动态决策的,merge自然流量和广告流量后用rl的思路优化下,能提高不少(抖音19年文章有写类似思路)。
同样的思路也可用于常见异构信息流混排场景,视频/图集/图文混排之类。
1.2 某实战员工回答
1.广告出价业务强化学习已经是标配中的标配,各大厂都已经上线了,这块貌似国内是百度凤巢做的最早? 2.推荐方向,一般都是排序侧,这块在阿里的某些业务下的实时多样性策略,商品重排序上都线了,效果不错,毕竟能直接优化GMV。
这两个业务大厂里面rl应该上属于比较广泛的了。其他的小众的业务线也有上线,比如搜索引擎中的query重写,任务型对话系统对话策略,滴滴派单等。
1.3 xxx
强化学习主要是决策和优化层面的,在特定场景的应用: 游戏场景(经典应用场景),推荐场景(貌似YouTube已经用了,国内也有互联网公司尝试应用),自动化机器人领域(无人机航迹规划,无地图导航,自主避障等)。
针对机器人领域,比如无人车或飞机的航迹规划,目前主要困难是模拟器与真实世界的迁移,数据利用效率低 以及 安全性(safe reinforcement learning,包括输出信号的稳定性以及过程可解释性)。
1.4 xxxx
在一家电商做rl的搜索应用,加上实习时间已经两年了。目前线上效果可以。看了很多在搜索推荐领域的paper,发现落地成功的比较少,做的人也基本上都是工业界的,学术圈没有平台的话很难做。
落地可以尝试 model based RL,offpolicy policy evalution 以及监督学习warmstart的方向。
关键在于如何定义好一个强化学习问题。最好可以把rl问题和已有的监督学习问题联系起来,这样也比较好实现。
2、现实世界中强化学习面临的挑战
谷歌Deepmind和谷歌研究院合作发表论文,研究为什么强化学习虽然在游戏等问题获得了巨大成功,但在现实世界中仍然没有被大规模应用。他们讨论了下面九个制约因素:1)能够对现场系统从有限的采样中学习;2)处理系统执行器、传感器、或奖赏中存在的未知、可能很大的延迟;3)在高维状态空间和动作空间学习、行动;4)满足系统约束,永远或极少违反;5)与部分可观察的系统交互,这样的系统可以看成是不平稳的或随机的;6)从多目标或没有很好指明的奖赏函数学习;7)可以提供实时动作,尤其是为高控制频率的系统;8)从外部行为策略的固定的日志数据离线学习;9)为系统操作员提供可解释的策略。他们辨识并定义了这些挑战因素,对每个挑战设计实验并做分析,设计实现基线任务包含这些挑战因素,并开源了软件包。