最新 最热

深度学习500问——Chapter10:强化学习(2)

强化学习不需要监督信号,可以在模型未知的环境中平衡探索和利用,其主要算法有蒙特卡罗强化学习,时间差分(temporal difference:TD)学习,策略梯度等。典型的深度强化学习算法特点及性能比较如下图所示。...

2024-06-07
0

了解强化学习算法 PPO

PPO 算法,即 Proximal Policy Optimization(近端策略优化),是一种强化学习算法。它的主要目的是改进策略梯度方法,使得训练过程更加稳定高效。PPO 算法通过限制策略更新的步长,来避免训练过程中出现的性能剧烈波动,因而在实...

2024-05-25
0

算法人生(6):从“反馈学习”看“战胜拖延”(被动gong击版)

现代人拖延产生的原因有很多,比如因为害怕失败而拖延,因为完美主义倾向而拖延,不想走出“舒适区”而拖延等等, 今天我们要针对一个常见的原因“对安排事情的人或事心有不满,被动gong击”而产生的拖延来看,如何从“反馈学习...

2024-05-16
0

算法人生(7):从“时间折扣策略”看“战胜拖延”(等待最佳时机版)

现代人拖延产生的原因有很多,比如因为害怕失败而拖延,因为完美主义倾向而拖延,不想走出“舒适区”而拖延等等, 今天我们要针对一个常见的原因“一直觉得没有准备好,想等最佳时机再开始”而产生的拖延来看,如何从“时间折扣...

2024-05-16
1

算法人生(4):从“选项学习”看“战胜拖延”(担心失败版)

现代人拖延产生的原因有很多,比如因为担心失败而拖延,觉得要做的事情没有意思而拖延,不想走出“舒适区”而拖延等等, 今天我们要针对一个常见的原因“担心失败”而产生的拖延来看,如何从“选项学习”的思路中找到些启发。...

2024-05-14
0

算法人生(2):从“强化学习”看如何“活在当下”

AIGC时代里每种算法都各有特色,各有优缺点,如何应用到业务层面还是要看实际的场景,但这些算法的思路也可以被应用到个人的生活中。今天我们聊一聊在个人的生活可中,可以从“强化学习”的思路里借鉴到什么。...

2024-05-14
0

算法人生(1):从“强化学习”看如何“战胜拖延”

这个系列旨在关联各种“算法”的思路介绍各种成长“方法”,让算法思路不止可以用在程序上,也可以用在“人生成长”上!

2024-05-12
1

强化学习系列(八)--PPO

回顾上文中的DDPG,DDPG是源于DQN,它使用神经网络替换maxQ(s',a')的功能来解决连续空间问题。也就是说DDPG的Actor网络输出的是一个动作,他的目标是输出一个动作,这个动作输入到Critic后,能过获得最大的Q值。和DQ...

2024-05-09
0

强化学习系列(三)-gym介绍和实例

gym是openAI下的一个开发和对比强化学习算法的工具包,内部提供了强化学习需要的环境。

2024-05-09
0

强化学习系列(七)--DDPG

DDPG(deep deterministic policy gradient),深度确定性策略梯度算法。

2024-05-09
0