大家好,又见面了,我是你们的朋友全栈君。
- 概念: 1)不同于监督学习,强化学习被用于处理复杂的决策任务,但是决策空间巨大,强化学习需要试错,样本的复杂程度较高(sample complexity),限制了强化学习的应用场景; 2)模仿学习,直接从专家样本中进行学习;由于比较高质量的决策行为数据,模仿学习被认为是可以降低样本复杂度的手段之一。 3)难点:决策行为的rewarding难以定义,高质量的决策示例可以确定合理的奖励设定方法。
- 局限性: 2.1 数据的可获得性 影子模式可以有效的解决数据的可获得性,但是其中的数据也包括了不值得提倡的司机行为; 2.2 模型的有效性 端到端的特性: 1)可解释性较差;可解释性上刚刚有所进展(可解释机器学习?-文档) 2)难以在中间过程中,接收信息和指令; 2.3 预测能力 不能教Autopilot系统处理无法轻易预测的危险情景。比如,老司机看到飘在前方的塑料袋时会不转向,但自动驾驶系统会;存在识别训练数据相关性问题,它不能通过纯粹观察相关性来建构因果模型,并且无法在模拟中主动测试反事实。
- 应用方式: 1)基于规则的规划、控制模块,还是基础的功能实现方案; 2)强化学习、模仿学习,作为规划、控制模块的备份方案,在极端场景下-conner case 或规则无法覆盖的场景,能够有效的实现相应功能模块。
- 论文及学习: 1)https://arxiv.org/abs/1812.03079v1; 学习:https://blog.csdn.net/Nick_cloud/article/details/109701213;https://zhuanlan.zhihu.com/p/57275593 2)https://arxiv.org/abs/2111.08575v1
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/192705.html原文链接:https://javaforall.cn