强化学习解释：概述、比较和商业应用

0.来源说明

来源 | altexsoft

翻译 | 九三山人

1.概述

想象你正在电脑游戏中完成一项任务，例如，穿过一个军事仓库去寻找一件秘密武器。正确的行动(杀死敌人)会得到额外的分数，而错误的行动(掉进坑里或被击中)会失去额外的分数。

如果你的难度很高，你可能不会一次就完成这项任务。一次又一次的尝试，你会知道需要哪些连续的动作才能安全、武装并装备额外的生命值或包中的小物品。每当你在虚拟世界中挑战自己并与其他玩家竞争时，你就扮演了一个强化学习智能体的角色。

在本文中，我们将讨论强化学习的核心原则，并讨论行业如何从实施强化学习中获益。

2.什么是强化学习?

强化学习(RL)是一种机器学习技术，它的重点是训练一种算法遵循“试一试”的方法。该算法(agent)评估当前的情况(状态)，采取行动，并在每个行动之后从环境中获得反馈(奖励)。积极的反馈是一种奖励(在通常意义上对我们来说)，而消极的反馈是对犯错的惩罚。

强化学习是如何起作用的

来源：Sutton, R. S. and Barto, A. G. Introduction to Reinforcement Learning

RL算法学习如何在多次尝试和失败中表现最佳。试错学习与所谓的长期奖励有关。这种奖励是主体在与环境进行大量试验和错误交互时学习的最终目标。这个算法得到的短期回报加起来就是累积的长期回报。

因此，今天使用的强化学习的关键目标是定义最佳决策序列，使智能体在解决问题的同时最大化长期回报。而这一套连贯的行为是通过与环境的互动以及对每个州奖励的观察而习得的。

3.强化学习、有监督学习和非监督学习的区别

强化学习的训练目标和方式不同于其他训练方式，如监督学习和非监督学习。

三种ML训练方式，来源：Analytics Vidhya

强化学习vs有监督学习。在监督学习中，智能体知道要执行什么任务，以及哪一组操作是正确的。数据科学家用目标变量(通过预测分析得到的期望答案)，即标记数据，在历史数据上训练智能体。智能体接收直接的反馈。通过训练，智能体可以预测新数据中是否存在目标变量。监督学习允许解决分类和回归任务。强化学习不依赖于标记的数据集:智能体不被告知要采取哪些行动，以及执行任务的最佳方式是什么。

RL使用奖励和惩罚，而不是数据集中与每个决策相关联的标签，来表明所采取的行动是好是坏。因此，代理只有在完成任务后才会得到反馈。这就是为什么时滞反馈和试错原理将强化学习和监督学习区分开来。由于RL的目标之一是找到一组能够最大化回报的连续操作，因此序列决策是这些算法训练风格之间的另一个显著差异。每个智能体的决策都会影响其未来的行为。

强化学习vs非监督学习。在无监督学习中，该算法通过分析未标记的数据，找出数据点之间隐藏的相互联系，并通过相似性或差异性来构造它们。RL的目标是定义最佳的行为模型以获得最大的长期回报，这使得它在关键目标上不同于无监督学习。

强化和深度学习。大多数强化学习实现都使用深度学习模型。它们需要使用深度神经网络作为智能体训练的核心方法。与其他机器学习方法不同，深度学习最适合于识别图像、声音和文本中的复杂模式。此外，神经网络允许数据科学家将所有的过程放入一个模型中，而不需要将智能体的体系结构分解为多个模块。

4.强化学习用例

强化学习适用于许多行业，包括互联网广告和电子商务、金融、机器人和制造业。让我们仔细看看这些用例。

个性化

新闻推荐。机器学习通过分析客户的偏好、背景和在线行为模式的数据，使企业能够大规模地个性化客户交互。然而，推荐像在线新闻这样的内容类型仍然是一项复杂的任务。新闻特写本质上是动态的，很快就会变得不相关。主题中的用户首选项也会发生变化。

DRN:新闻推荐研究论文的深度强化学习框架的作者讲述了与新闻推荐方法相关的三个主要挑战。

首先，这些方法只尝试模拟当前(短期)奖励(例如，显示页面/广告/电子邮件浏览者点击链接的比率的点击率)。
第二个问题是，当前的推荐方法通常将点击/不点击标签或评级作为用户反馈来考虑。 第三，这些方法通常会继续向读者推荐类似的新闻，这样用户就会感到厌烦。研究人员使用了基于深度q学习的推荐框架，该框架同时考虑了当前奖励和未来奖励，以及用户反馈而不是点击数据。

个性化的游戏。游戏公司也加入了个性化派对。真的，为什么不考虑个人玩家的技能水平、游戏风格或偏好的游戏玩法来定制电子游戏体验呢?

游戏体验的个性化是通过玩家建模来实现的，其目的是增加玩家的乐趣。

玩家模型是基于玩家在游戏中的行为对其进行的抽象描述。可以改编的游戏组件包括空间、任务、角色、叙事、音乐和声音、游戏机制、难度缩放和玩家匹配(在多人游戏中)。

RL可用于实时优化游戏体验。在边缘设备的游戏个性化强化学习中，研究人员以Pong游戏为例，展示了这种机器学习技术的能力。

Unity为研究人员和开发人员提供了一个ML工具集，它允许通过一个简单的Python API通过强化学习和演进方法来训练智能。值得一提的是，我们还没有发现RL智能体在生产中的任何应用。

电子商务和互联网广告

专家们正在试验强化学习算法，以解决eBay、淘宝或亚马逊(Amazon)等电子商务网站的印象分配问题。印象是指访问者看到网页、广告或带有描述的产品链接的某些元素的次数。印象通常用来计算广告客户在网站上展示自己的信息需要支付多少钱。每次用户加载一个页面并弹出广告时，它都被视为一种印象。

这些平台的目标是最大限度地从交易中获得总收入，这就是为什么它们必须使用算法，将买家印象(显示买家对商品的要求)分配给最合适的潜在商户。

大多数平台使用协作过滤或基于内容的过滤等推荐方法。这些算法使用依赖于卖家交易历史的历史分数，对具有相似特征的客户进行排名。卖家通过实验价格来获得更高的排名位置，而这些算法没有考虑定价方案的变化。

为了解决这一问题，研究人员应用了一种通用的强化机制设计框架。该框架使用深度强化学习来开发评估卖家行为的有效算法。网上商家还可以通过欺诈交易来提高自己在电子商务平台上的排名，吸引更多的买家。据研究人员称，这降低了利用买家印象的效率，并威胁到商业环境。

但是，通过强化学习，可以在提高平台利润、减少欺诈活动的同时，完善平台的印象分配机制。在关于AI和DS的进展和趋势的文章中，我们讨论了另一个RL用例实时投标策略优化。它允许企业动态分配广告活动预算在所有可用印象的基础上，即时和未来的奖励。在实时竞价过程中，广告客户对一种印象进行竞价，如果他们中标，他们的广告就会显示在出版商的平台上。

金融行业交易

金融机构使用人工智能驱动的系统来自动化交易任务。

通常，这些系统使用监督学习来预测股票价格。他们不能做的是决定在特定情况下采取什么行动:买进、卖出或持有。交易员仍然需要制定业务趋势跟踪、基于模式或反趋势的规则来管理系统选择。另一个问题是，分析人员可能以不同的方式定义模式和确认条件，因此需要一致性。

宾夕法尼亚大学计算机科学教授迈克尔卡恩斯(Michael Kearns)于2018年6月被摩根士丹利(Morgan Stanley)股票交易公司聘用。

此外，交易员还可以了解到最合适的行动时间和/或最佳的交易规模。IBM在其数据科学体验平台上构建了一个利用强化学习的金融交易系统。

IBM的艾西瓦娅•斯里尼瓦桑说:“该模型利用每一步的随机行为对历史股价数据进行训练，我们根据每笔交易的盈亏来计算回报函数。”开发人员使用积极的投资回报来评估model s的性能。主动回报是基准与实际回报率(以百分比表示)之间的差异。

基于监督学习和强化基于学习的交易管道

图片模版： IBM Analytics/Inside Machine Learning on Medium

专家们还根据代表市场总体走势的市场指数来评估投资的表现。最后，我们以简单的买入持有策略和ARIMA-GARCH策略来评估模型。斯里尼瓦桑说:“我们发现，这个模型可以根据市场走势进行非常精确的调整，甚至可以捕捉到头部和肩部的模式，这些都是可以预示市场反转的重要趋势。”

自主车辆的训练

强化学习已被证明是一种有效的方法，用于训练为自动驾驶汽车系统提供动力的深度学习网络。英国公司Wayve声称是第一家在RL的帮助下开发无人驾驶汽车的公司。

开发人员通常会编写大量手写规则来告诉自动驾驶车辆如何驾驶，这导致开发周期变慢。Wayve的专家选择了另一种方式。他们只花了15-20分钟的时间教会一辆汽车从零起步，经过反复试验。

在一次实验中，一名人类驾驶员坐在车里，当算法出错，一辆车偏离轨道时，他进行了干预。该算法在不进行干预的情况下进行长距离驾驶。通过这种方式，汽车在虚拟世界中学会了在每次探险中安全驾驶。研究人员在他们的博客中解释了训练方法的技术细节。

机器人

机器人学中的许多问题可以表述为强化学习问题。机器人通过探索，从环境中获得反馈，学习最优的连续动作，以最大的累积回报完成任务。开发人员不会给出解决问题的详细说明。

《机器人研究中的RL》的作者指出，强化学习为复杂和难以设计的行为设计提供了一个框架和一系列工具。来自谷歌Brain Team和X公司的专家介绍了一种可伸缩的强化学习方法，用于解决训练机器人基于视觉的动态操作技能的问题。其具体目标是训练机器人掌握各种物体，包括在训练过程中看不见的物体。

他们将深度学习和RL技术相结合，使机器人能够不断地从他们的经验中学习，提高他们的基本感觉运动技能。专家们不必自己设计行为:机器人会自动学会如何完成这项任务。专家们设计了一种深度Q-learning算法(QT-Opt)，该算法利用了过去训练期间收集的数据(抓取尝试)。

在四个多月的时间里，7个机器人在800个小时内接受了1000多个视觉和物理上不同的物体的训练。通过对摄像机图像的分析，提出了机器人应该如何移动手臂和抓手的建议。

机器人正在收集抓取数据。来源： Google AI Blog

这种新颖的方法使得在700次测试中，对先前看不见的物体进行抓取的成功率达到96%。专家们之前使用的基于监督学习的方法显示成功率为78%。结果表明，该算法在不需要太多训练数据的情况下也能达到这样的精度(尽管训练时间更长)。

工业自动化

RL具有广泛应用于机械和设备调优的工业环境的潜力，以补充人类操作员。

Bonsai是提供深度强化学习平台的初创企业之一，为建立自主的工业解决方案以控制和优化系统的工作提供了一个深度强化学习平台。

例如，客户可以提高能源效率，减少停机时间，增加设备寿命，实时控制车辆和机器人。您可以收听O Reilly Data Show播客，在该播客中，Bonsai首席执行官和创始人描述了公司和企业各种可能的RL用例。

谷歌利用强化学习的力量变得更加环保。科技公司 IA research group, DeepMind，开发和部署了RL模型，该模型帮助冷却数据中心减少了高达40%的能源消耗和15%的总能源开销。

5.在商业中实施强化学习的挑战

应用RL解决业务问题可能会带来严重的挑战。这是因为这种技术本质上是探索性的。智能体在运行中收集数据，因为没有标记或未标记的数据来指导它实现任务目标。所做的决策会影响接收到的数据。这就是为什么智能体可能需要尝试不同的操作来获取新数据。

环境的不可预测性。RL算法在封闭的、合成的环境中训练时可能表现得很好。例如，在电子游戏中，智能体重复其决策过程的条件不会改变。现实世界并非如此。正是由于这些原因，金融、保险或医疗等行业在将资金投入基于RL的系统的试验之前要三思。

延迟反馈。在实际应用中，不确定需要多少时间才能实现特定决策的结果。例如，如果人工智能交易系统预测对某些资产(房地产)的投资将是有益的，我们将需要等待一个月、一年或几年，直到我们弄清楚这是否是一个好主意。

无限的时间范围。在RL中，智能体的首要目标是获得尽可能高的奖励。由于我们不知道需要多少时间或尝试，我们必须建立一个无限视野的目标。例如，如果我们测试一辆自动驾驶汽车(使用RL)改变车道，我们无法知道它会撞到路上的其他车辆多少次，直到它做对为止。

定义精确的奖励函数。数据科学家可能很难用数学的方法来表达好或坏行为的定义，计算出行为的回报。建议根据当前状态来考虑奖励函数，让代理知道它将要采取的行动是否会帮助它更接近最终目标。例如，如果需要训练一辆自动驾驶汽车在不撞上围栏的情况下右转，奖励功能的大小将取决于汽车与围栏之间的距离以及转向的开始。

数据问题和勘探风险。RL比监督学习需要更多的数据。对于强化学习算法来说，获取足够的数据是非常困难的。计算机科学家、企业家Andrew Ng在2017年旧金山人工智能大会上发表演讲时表示，要将这一理念应用到商业和实践中，还有很多工作要做。试想一下，如果只在街道上测试自动驾驶汽车系统，它会在道路上造成怎样的混乱:它会撞上邻居的汽车、行人，或者撞上护栏。

因此，在真实环境中测试使用RL的设备或系统可能是困难的、经济上不合理的和危险的。其中一种解决方案是在综合数据(3D环境)上进行测试，同时考虑在每个情况或时间步长(行人、道路类型和质量、天气条件等)上可能影响智能体决策的所有变量。

6.结论

尽管训练困难，强化学习仍能在实际业务场景中有效使用。

一般来说，当需要在不断变化的环境中寻找最优解时，RL是有价值的。强化学习用于作业自动化、机械设备控制与维护、能耗优化。

金融业也承认了强化学习的能力，为基于人工智能的培训系统提供动力。虽然通过反复试验来训练机器人是很耗时的，但它可以让机器人更好地评估真实世界的情况，使用它们的技能来完成任务或对意想不到的结果做出相应的反应。此外，RL在收入优化、欺诈预防和通过个性化增强客户体验方面为电子商务参与者提供了机会。

原文地址：https://www.altexsoft.com/blog/datascience/reinforcement-learning-explained-overview-comparisons-and-applications-in-business/

强化学习编程算法监督学习无监督学习机器人

0 人点赞