强化学习_字节宝

首页 / 技术

强化学习从基础到进阶--案例与实践含面试必知必答10：模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人

模仿学习（imitation learning，IL）讨论的问题是，假设我们连奖励都没有，要怎么进行更新以及让智能体与环境交互呢？模仿学习又被称为示范学习（learning from demonstration），学徒学习（apprenticeship learning），观察学习（learning by...

人工智能深度学习强化学习

2023-06-29

1

强化学习从基础到进阶-常见问题和面试必知必答8：近端策略优化（proximal policy optimization，PPO）算法

经典策略梯度的大部分时间花在数据采样上，即当我们的智能体与环境交互后，我们就要进行策略模型的更新。但是对于一个回合我们仅能更新策略模型一次，更新完后我们就要花时间重新采样数据，然后才能再次进行如上的更新。...

人工智能深度学习强化学习

2023-06-28

1

强化学习从基础到进阶-常见问题和面试必知必答[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

深度确定性策略梯度（deep deterministic policy gradient，DDPG）：在连续控制领域经典的强化学习算法，是深度Q网络在处定性”表示其输出的是一个确定的动作，可以用于连续动作环境；“策略梯度”代表的是它用到的是策略网络，并且...

人工智能深度学习强化学习

2023-06-27

1

强化学习从基础到进阶-常见问题和面试必知必答[6]：演员-评论员算法（advantage actor-critic，A2C），异步A2C、与生成对抗网络的联系等

在传统的方法中，我们有一个策略 $pi$ 以及一个初始的演员与环境交互、收集数据以及反馈。通过每一步得到的反馈，我们进一步更新我们的策略 $pi$ ，通常我们使用的更新方式是策略梯度。但是对于演员-评论员算法，我们不是...

人工智能深度学习强化学习

2023-06-26

1

强化学习从基础到进阶-案例与实践[4.1]：深度Q网络-DQN项目实战CartPole-v0

相比于Q learning，DQN本质上是为了适应更为复杂的环境，并且经过不断的改良迭代，到了Nature DQN（即Volodymyr Mnih发表的Nature论文）这里才算是基本完善。DQN主要改动的点有三个：...

人工智能深度学习强化学习

2023-06-24

1

强化学习从基础到进阶-常见问题和面试必知必答3：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

状态、动作、状态转移概率和奖励，分别对应$(S,A,P,R)$，后面有可能会加上折扣因子构成五元组。

人工智能深度学习强化学习

2023-06-23

1

强化学习从基础到进阶-常见问题和面试必知必答[2]：马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代

（2）另外，我们想把不确定性也表示出来，希望尽可能快地得到奖励，而不是在未来的某个时刻得到奖励。

人工智能深度学习强化学习

2023-06-20

1

强化学习从基础到进阶-常见问题和面试必知必答1：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

本质上是智能体与环境的交互。具体地，当智能体在环境中得到当前时刻的状态后，其会基于此状态输出一个动作，这个动作会在环境中被执行并输出下一个状态和当前的这个动作得到的奖励。智能体在环境里存在的目标是最大化期望...

人工智能深度学习强化学习

2023-06-19

1

GPT模型训练阶段概述

2022年末，生成式对话型人工智能ChatGPT和AI生成图片应用Midjourney问世，1个月内获取过亿用户。根据IDC发布的《2022-2023中国人工智能计算力发展评估报告》显示，我国AI计算力保持快速增长，2022年智能算力规模达到268百亿...

机器学习强化学习 gpt 模型数据

2023-06-08

1

解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

前三章都围绕指令微调，这一章来唠唠RLHF。何为优秀的人工智能？抽象说是可以帮助人类解决问题的AI, 也可以简化成3H原则：Helpful + Honesty + Harmless。面向以上1个或多个原则，RLHF只是其中一种对齐方案，把模型输出和人类...

prompt 自然语言处理 chatgpt 强化学习 nlp

2023-05-21

1

8 9 10 11 12