强化学习_字节宝

深度学习500问——Chapter10：强化学习（2）

强化学习不需要监督信号，可以在模型未知的环境中平衡探索和利用，其主要算法有蒙特卡罗强化学习，时间差分（temporal difference：TD）学习，策略梯度等。典型的深度强化学习算法特点及性能比较如下图所示。...

2024-06-07

了解强化学习算法 PPO

PPO 算法，即 Proximal Policy Optimization（近端策略优化），是一种强化学习算法。它的主要目的是改进策略梯度方法，使得训练过程更加稳定高效。PPO 算法通过限制策略更新的步长，来避免训练过程中出现的性能剧烈波动，因而在实...

算法网络优化强化学习函数

2024-05-25

算法人生（6）：从“反馈学习”看“战胜拖延”（被动gong击版）

现代人拖延产生的原因有很多，比如因为害怕失败而拖延，因为完美主义倾向而拖延，不想走出“舒适区”而拖延等等，今天我们要针对一个常见的原因“对安排事情的人或事心有不满，被动gong击”而产生的拖延来看，如何从“反馈学习...

机器学习算法人工智能强化学习数据结构与算法算法拖延算法人生反馈学习

2024-05-16

算法人生（7）：从“时间折扣策略”看“战胜拖延”（等待最佳时机版）

现代人拖延产生的原因有很多，比如因为害怕失败而拖延，因为完美主义倾向而拖延，不想走出“舒适区”而拖延等等，今天我们要针对一个常见的原因“一直觉得没有准备好，想等最佳时机再开始”而产生的拖延来看，如何从“时间折扣...

强化学习数据结构与算法算法机器学习人工智能拖延算法人生时间折扣策略

2024-05-16

算法人生（4）：从“选项学习”看“战胜拖延”（担心失败版）

现代人拖延产生的原因有很多，比如因为担心失败而拖延，觉得要做的事情没有意思而拖延，不想走出“舒适区”而拖延等等，今天我们要针对一个常见的原因“担心失败”而产生的拖延来看，如何从“选项学习”的思路中找到些启发。...

机器学习人工智能强化学习算法拖延

2024-05-14

算法人生（2）：从“强化学习”看如何“活在当下”

AIGC时代里每种算法都各有特色，各有优缺点，如何应用到业务层面还是要看实际的场景，但这些算法的思路也可以被应用到个人的生活中。今天我们聊一聊在个人的生活可中，可以从“强化学习”的思路里借鉴到什么。...

人工智能强化学习算法机器学习活在当下

2024-05-14

算法人生（1）：从“强化学习”看如何“战胜拖延”

这个系列旨在关联各种“算法”的思路介绍各种成长“方法”，让算法思路不止可以用在程序上，也可以用在“人生成长”上！

强化学习程序人生深度强化学习第二期热点征文-程序人生强化学习拖延战胜拖延走出拖延克服拖延

2024-05-12

强化学习系列（八）--PPO

回顾上文中的DDPG，DDPG是源于DQN，它使用神经网络替换maxQ(s',a')的功能来解决连续空间问题。也就是说DDPG的Actor网络输出的是一个动作，他的目标是输出一个动作，这个动作输入到Critic后，能过获得最大的Q值。和DQ...

强化学习

2024-05-09

强化学习系列（三）-gym介绍和实例

gym是openAI下的一个开发和对比强化学习算法的工具包，内部提供了强化学习需要的环境。

强化学习

2024-05-09

强化学习系列（七）--DDPG

DDPG（deep deterministic policy gradient），深度确定性策略梯度算法。

强化学习

2024-05-09

1 2 3 4 5

深度学习500问——Chapter10：强化学习（2）

了解强化学习算法 PPO

算法人生（6）：从“反馈学习”看“战胜拖延”（被动gong击版）

算法人生（7）：从“时间折扣策略”看“战胜拖延”（等待最佳时机版）

算法人生（4）：从“选项学习”看“战胜拖延”（担心失败版）

算法人生（2）：从“强化学习”看如何“活在当下”

算法人生（1）：从“强化学习”看如何“战胜拖延”

强化学习系列（八）--PPO

强化学习系列（三）-gym介绍和实例

强化学习系列（七）--DDPG

热门文章

热门手册