强化学习_字节宝

北大全新「机械手」算法：辅助花式抓杯子，GTX 1650实现150fps推断｜NeurIPS 2023

北京大学董豪团队通过将扩散模型和强化学习结合，使机械手能根据人手腕部的移动轨迹，自适应的抓取物体的不同部位，满足人类多样化的抓取需求，目前该工作已被NeurIPS 2023接收。...

强化学习论文模型数据算法

2023-11-19

Nature：大模型只会搞角色扮演，并不真正具有自我意识

现在，一篇发表Nature上的文章，直接否决了这个观点——所有大模型，都不过是在玩角色扮演而已！

游戏强化学习测试论文模型

2023-11-19

【强化学习】时间循环最优决策：原理与Python实战

时间循环是一类热门的影视题材，其设定常常如下：主人公可以主动或被动的回到过去。与此同时，主人公会希望利用这样的机会改变在之前的经历中不完美的结果。为此，主人公调整自己的行为，使得结果发生变化。...

Python 强化学习函数算法原理

2023-11-18

火星探测器背后的人工智能：从原理到实战的强化学习

火星，作为人类探索太空的下一个重要目标，一直吸引着科学家们的眼球。火星探测器作为探索这一未知世界的先锋，承担着巨大的任务和挑战。在这一任务中，强化学习（Reinforcement Learning, RL）作为一种智能学习方法，为火星探测器...

人工智能强化学习模型网络原理

2023-11-17

OpenAI成功的背后，鲜为人知的游戏训练史

2022年，OpenAI旗下ChatGPT横空出世，人工智能再次成为全球瞩目的焦点。ChatGPT的成功得益于OpenAI团队在人工智能大语言模型和强化学习领域持续不断地投入、探索和创新。但鲜为人知的是，在OpenAI不断迭代升级的过程中，电子...

人工智能游戏强化学习 openai 模型

2023-11-16

斯坦福提出对比偏好学习：无需强化学习即可从人类反馈中学习

在模型与人类意图对齐方面，根据人类反馈的强化学习（RLHF）已经成为一大流行范式。通常来说，RLHF 算法的工作过程分为两个阶段：一、使用人类偏好学习一个奖励函数；二、通过使用强化学习优化所学习的奖励来对齐模型。...

强化学习函数模型数据优化

2023-11-13

让大模型自主探索开放世界，北大&智源提出训练框架LLaMA-Rider

大语言模型因其强大而通用的语言生成、理解能力，展现出了成为通用智能体的潜力。与此同时，在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此，大语言模型如何适配开放世界是一个重要的研究问题。...

强化学习框架模型数据 LLM

2023-11-07

27次训练即可解决小车双摆的强化学习算法

动力系统的有效控制设计传统上依赖于高水平的系统理解，通常用精确的物理模型来表达。与此相反，强化学习采用数据驱动的方法，通过与底层系统交互来构建最优控制策略。为了尽可能降低真实世界系统的磨损，学习过程应该很短。...

强化学习测试模型算法系统

2023-11-07

J. Chem. Inf. Model. | 双重驱动的深度强化学习用于靶标特异性分子生成

今天为大家介绍的是来自 Hao Liu和 Liang Hong团队的一篇论文。基于深度学习的分子生成模型在新药设计领域引起了广泛关注。然而，大多数现有模型专注于基于配体或基于结构的策略之一，因此未能有效利用从配体和结合靶点...

强化学习迁移学习 model 模型深度强化学习

2023-11-06

每日学术速递11.4

1.Convolutional State Space Models for Long-Range Spatiotemporal Modeling

人工智能强化学习模型系统性能