27次训练即可解决小车双摆的强化学习算法

2023-11-07 13:40:28 浏览数 (1)

摘要

动力系统的有效控制设计传统上依赖于高水平的系统理解,通常用精确的物理模型来表达。与此相反,强化学习采用数据驱动的方法,通过与底层系统交互来构建最优控制策略。为了尽可能降低真实世界系统的磨损,学习过程应该很短。在我们的研究中,我们使用最先进的强化学习方法PILCO设计了一种反馈控制策略,用于小车上双摆的摆动,在测试台上的测试迭代非常少。PILCO代表“学习控制的概率推理”,学习只需要很少的专家知识。为了实现小车上的双摆摆动到其上不稳定平衡位置,我们在PILCO中引入了额外的状态约束,从而可以考虑有限的小车距离。由于这些措施,我们第一次能够在真正的测试台上学习摆起,并且仅用了27次学习迭代。

关键词:强化学习;皮尔科;双摆;实验验证

1.介绍

基于模型的控制设计需要对技术系统的物理行为有一个总体的了解,与此相反,强化学习(RL)算法[7]试图通过与系统的交互来学习最优的控制策略。因此,RL本质上是数据驱动的,需要很少的先验知识。因此,它可以被看作是一个有希望的选择,我们正在研究合理地补充控制领域中更经典的方法。在本文中,我们通过学习推车上双摆的控制展示了RL的潜力,同时也首次展示了真实测试台上的摆起。

我们的方法基于PILCO(Probabilistic Inference for Learning Control)算法[2],它能够以一种非常数据有效的方式处理连续的状态和动作空间,并且在测试台上需要相当少的交互。它属于基于模型的RL方法的类别,并且使用高斯过程(GP)作为系统的非参数近似。这种基于模型的学习能够非常有效地提取有价值的信息。由于PILCO采用了一种概率方法,它能够适当地表示在学习过程开始时普遍存在的不确定或未知的系统行为。

小车上的双摆是一个具有确定性混沌行为的欠驱动系统。对于摆锤从较低平衡位置到不稳定的较高平衡位置的摆动和稳定,两自由度方法是一种标准方法,并且可以确定最佳摆动轨迹,例如通过最佳控制[10],[4]。为了使问题可以服从RL,我们扩展了PILCO以包括状态约束,例如,测试台上的线性电机的行程限制被可靠地遵守。由于学习过程的这些扩展,我们能够在测试台上仅用27次学习迭代就学习双摆摆动到上平衡位置。据我们所知,这是第一次通过学习方法实际实施该策略,并清楚地展示了我们实施的效率。

在下一节中,我们将介绍PILCO,并更详细地描述我们的扩展。然后,在第3节中讨论了推车上的双摆和PILCO在这个实际例子中的应用。第4节给出了实际实现的结果和相应的分析,第5节给出了结论和对未来工作的展望。

2.学习控制的概率推理:PILCO及其扩展

在本节中,我们简要回顾了PILCO框架[2]并通过状态空间约束对其进行了扩展。

(1)中我们的目标函数的结构是由贝叶斯优化[9]激发的,特别是由置信上限(UCB)方法实现的“面对不确定性的乐观”原则。通过加权因子λ 0,我们能够平衡勘探和开发,这对于避免局部最小值是重要的:λ越大,勘探越强。

2.2.高斯过程动态模型和控制器

2.4.PILCO算法

算法1总结了PILCO框架,这是一种用于复杂控制任务的数据高效强化学习方法。第1行和第2行描述了初始化阶段,其中随机设置控制器参数,并将随机控制序列应用于系统。在与系统的第一次交互过程中,并行进行测量。此后,PILCO在基于当前可用的测量数据学习系统动态(线4)和关于当前学习的模型优化控制器参数(线5)之间交替。

3.实验装置

在本节中,我们将介绍推车上双摆的建模和实验设置。物理模型用于在适当的模拟环境中测试学习算法。此外,我们描述了根据建模的GPs和成本函数的参数设置。

3.1.推车上双摆的建模与实验装置

为了说明所提出的方法,我们将其应用于推车试验台上的双摆。我们的测试平台的图片显示在图1的左侧。这个系统由一个串联的双摆组成,以高性能的线性马达为枢轴。直线电机的最大行程为0.6 m,最大允许速度为6 m/s,最大允许加速度为100 m/s2。我们使用图1右侧的抽象方案来表示系统的基本动态。草图模型具有三个自由度:摆和垂直轴之间的两个角度,用ϕ1和ϕ2表示,小车的位置用y表示。我们使用拉格朗日形式推导微分方程。这种推导和与试验台相对应的明确的机械参数可以在[10]中找到。部分反馈线性化使得减少钟摆的系统动态成为可能。新的输入是电机的加速度u = y,它的实现由底层的快速控制器保证。在将基于仿真的学习方法应用于实际系统之前,使用推车上的双摆的简化物理模型来测试该学习方法。模拟研究显示了有希望的结果,因此我们相信学习过程也将在真实系统上成功。

图一。推车上的双摆试验台(左)和代表性物理模型(右)。

3.2.参数设置

4.实验验证和结果分析

我们将PILCO与上述参数设置和调整一起应用于推车上的真实双摆。这一部分专门介绍和分析从这个实验中获得的结果。图2示出了第10次和第27次(最后一次)学习迭代的状态和成本轨迹。

第一次迭代的特点是预测的高度不确定性(标准偏差)。这是由于动态GP模型的初始不准确性,并导致在最初几次迭代中违反状态限制。在与系统进行更多的交互之后,控制器开发出一种基本的回避策略。在第10次迭代中,在1.8秒时第一次接近目标(上平衡)状态。这是学习过程中的一个重要步骤,因为在此之前,目标状态必须在现有数据的基础上进行外推,现有数据主要包含下平衡状态周围的观察值。在第10次迭代之后,找到的上摆轨迹被保持和改进。此外,预测范围逐渐增加到6 s,从而也学习到上平衡状态的稳定。图2(右)显示了最后一个学习步骤后的最终结果。手推车位置预测的1.8秒和3.8秒之间的剩余不确定性可以通过从摆动到平衡的转变来解释,因为高度加速的质量必须充分减速。

总的来说,我们需要27次迭代,这接近于[1]中报告的23次迭代,其中PILCO应用于推车上的双摆的模拟模型。主要区别如下:(1)我们将PILCO应用于一个真实的测试平台;(ii)我们的系统输入是推车加速度,而不是作用在推车上的致动器力;(iii )[ 1]中最终轨迹的最大推车位移为1.4 m,在我们的实验中为0.4 m,因为学习过程中会考虑cart限制。实验验证的视频可从以下网址获得

https://www.youtube.com/watch?v=N-yrQu9zuOI。

5.结论和未来工作

通过修改和应用PILCO算法,我们能够在几个学习迭代内,在测试台上演示双摆摆动到上部不稳定静止位置。在未来,我们打算探索Deep-PILCO [5],以调查贝叶斯神经网络的更好的缩放属性是否也有利于推车上双摆的相对高维状态向量。此外,我们希望详细说明在至少部分了解技术系统的情况下,将PILCO等数据驱动方法与已建立的基于模型的控制理论方法相结合的优势。

参考

[1]戴森罗斯,议员,2010年。使用高斯过程的有效强化学习。:卡尔斯鲁厄,基特,迪斯。, 2009.智能传感器-执行器-系统卡尔斯鲁厄系列第9卷。科学出版和技术信息。

[2]戴森罗斯,议员,福克斯,d,拉斯穆森,2015。机器人和控制中数据有效学习的高斯过程。IEEE模式分析与机器智能汇刊37,408–423。

[3]Deisenroth,M.P.b .,Turner,R.D.b .,Huber,M.F.b .,Hanebeck,U.D.b .,Rasmussen,C.E.b .,2012。高斯过程的鲁棒滤波和平滑。IEEE自动控制汇刊57,1865-1871。

[4]Flaß kamp,j . Timmermann,s . Ober-Blo Baum,Tra chtler,a .,2014年。双摆节能起摆的稳定流形控制策略。国际控制杂志87,1886-1905。

[5]Gal,Yarin和McAllister,Rowan和Rasmussen,Carl Edward,2016。用贝叶斯神经网络动力学模型改进PILCO。数据高效机器学习研讨会,ICML。

[6]诺塞达尔,j,赖特。), 2005.数值优化。运筹学和金融工程斯普林格系列。2.,艾德。由…编辑、斯普林格纽约和斯普林格Bln、柏林和柏林。

[7]理查德·萨顿和安德鲁·巴尔托,1998年。强化学习:导论。麻省理工出版社。

[8]西格博士,2004年。机器学习的高斯过程。国际神经系统杂志14,69–104。

[9]Shahriari,b .,Swersky,k .,Wang,z .,Adams,R.P .,de Freitas,n .,2016。把人带出循环:贝叶斯优化综述。IEEE 104,148–175会议录。

[10]Timmermann,j .,Khatab,s .,Ober-Blo baum,s .,Tra chtler,a .,2011年。离散力学和最优控制及其在小车上双摆的应用。国际会计师联合会会议录第44卷,10199-10206。

0 人点赞