最新 最热

MeRL:强化学习分配奖励机制的新方法

强化学习一直是过去五年中一些最大的人工智能 (AI) 突破的核心。在围棋、雷神之锤 III 或星际争霸等游戏中,强化学习模型证明它们可以超越人类的表现,并创造出前所未有的独特长期策略。强化学习的部分魔力依赖于定期奖...

2021-10-11
1

反向用随机梯度下降来优化人生

看完李沐老师的文章亚马逊首席李沐 | 用随机梯度下降来优化人生,深受感慨,本人阅读大量文献,提出了下面“反向用随机梯度下降来优化人生“的方案。下文与李沐老师的文章一一对应,李沐老师的放在了引用块里。...

2021-10-11
0

DeepMind的FIRE PBT自动超参数调整,更快的模型训练和更好的最终性能

神经网络训练超参数调整不仅需要大量的训练时间,还需要很大的人力成本。Population Based Training(PBT)是一个很好的自动化调整的方法,但是他的最大问题是决策机制关注短期的性能改进,在大轮次训练时效果不好。...

2021-10-09
0

用于文本生成的GAN模型

生成对抗网络(GAN)包含两个部分:一个是生成器(generator),一个是判别模型(discriminator)。生成器的任务是生成看起来逼真与原始数据相似的样本。判别器的任务是判断生成模型生成的样本是真实的还是伪造的。换句话说,生成器要...

2021-10-08
0

DeepMind的新强化学习系统是迈向通用AI的下一步吗?

对于精通围棋、星际争霸 2 以及其他游戏的深度强化学习模型而言,关键的挑战之一是它们无法将其能力泛化到训练领域之外。这种限制使得将这些系统应用到现实世界中变得非常困难,在现实世界中,情况比训练 AI 模型的环境复...

2021-09-30
0

被infoQ采访:游戏中应用强化学习技术,目的就是要打败人类玩家?

2016 年,DeepMind 公司开发的 AlphaGo 4:1 大胜韩国著名棋手李世石,成为第一个战胜围棋世界冠军的人工智能机器人,一时风头无两。AlphaGo 的巨大成功开启了“人工智能元年”,也让强化学习渐为大众熟悉。...

2021-09-29
0

200字带你看完一本书,GPT-3已经会给长篇小说写摘要了

先把原文总结成276个摘要(24796词),然后进一步压缩成25个摘要(3272词),再到4个摘要(475词)。

2021-09-29
0

深度强化学习:如何在AI工程实践中选择合适的算法?

在使用深度强化学习(Deep Reinforcement Learning,DRL)算法解决实际问题的过程中,明确任务需求并初步完成问题定义后,就可以为相关任务选择合适的DRL算法了。...

2021-09-27
1

机器学习01-入门

其实机器学习的理论在2010年后已经有了重大突破,为什么在这一年突然爆发了呢?AlphaGo的推动只是催化剂,主要的原因在于摩尔定律,也就是计算机硬件发展了到了足够承载海量的数据进行计算。...

2021-09-26
1