最新 最热

北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023

北京大学董豪团队通过将扩散模型和强化学习结合,使机械手能根据人手腕部的移动轨迹,自适应的抓取物体的不同部位,满足人类多样化的抓取需求,目前该工作已被NeurIPS 2023接收。...

2023-11-19
1

Nature:大模型只会搞角色扮演,并不真正具有自我意识

现在,一篇发表Nature上的文章,直接否决了这个观点——所有大模型,都不过是在玩角色扮演而已!

2023-11-19
2

【强化学习】时间循环最优决策:原理与Python实战

时间循环是一类热门的影视题材,其设定常常如下:主人公可以主动或被动的回到过去。与此同时,主人公会希望利用这样的机会改变在之前的经历中不完美的结果。为此,主人公调整自己的行为,使得结果发生变化。...

2023-11-18
0

火星探测器背后的人工智能:从原理到实战的强化学习

火星,作为人类探索太空的下一个重要目标,一直吸引着科学家们的眼球。火星探测器作为探索这一未知世界的先锋,承担着巨大的任务和挑战。在这一任务中,强化学习(Reinforcement Learning, RL)作为一种智能学习方法,为火星探测器...

2023-11-17
1

OpenAI成功的背后,鲜为人知的游戏训练史

2022年,OpenAI旗下ChatGPT横空出世,人工智能再次成为全球瞩目的焦点。ChatGPT的成功得益于OpenAI团队在人工智能大语言模型和强化学习领域持续不断地投入、探索和创新。但鲜为人知的是,在OpenAI不断迭代升级的过程中,电子...

2023-11-16
2

斯坦福提出对比偏好学习:无需强化学习即可从人类反馈中学习

在模型与人类意图对齐方面,根据人类反馈的强化学习(RLHF)已经成为一大流行范式。通常来说,RLHF 算法的工作过程分为两个阶段:一、使用人类偏好学习一个奖励函数;二、通过使用强化学习优化所学习的奖励来对齐模型。...

2023-11-13
1

让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider

大语言模型因其强大而通用的语言生成、理解能力,展现出了成为通用智能体的潜力。与此同时,在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此,大语言模型如何适配开放世界是一个重要的研究问题。...

2023-11-07
1

27次训练即可解决小车双摆的强化学习算法

动力系统的有效控制设计传统上依赖于高水平的系统理解,通常用精确的物理模型来表达。与此相反,强化学习采用数据驱动的方法,通过与底层系统交互来构建最优控制策略。为了尽可能降低真实世界系统的磨损,学习过程应该很短。...

2023-11-07
1

J. Chem. Inf. Model. | 双重驱动的深度强化学习用于靶标特异性分子生成

今天为大家介绍的是来自 Hao Liu和 Liang Hong团队的一篇论文。基于深度学习的分子生成模型在新药设计领域引起了广泛关注。然而,大多数现有模型专注于基于配体或基于结构的策略之一,因此未能有效利用从配体和结合靶点...

2023-11-06
4

每日学术速递11.4

1.Convolutional State Space Models for Long-Range Spatiotemporal Modeling

2023-11-06
1