强化学习_字节宝

首页 / 技术

每日学术速递10.31

1.Motif: Intrinsic Motivation from Artificial Intelligence Feedback

游戏开源强化学习模型数据

2023-11-01

1

超越强化学习：生命启发的AI

构建自主的（即基于个人需求选择目标）和自适应的（即在不断变化的环境中生存）智能体一直是人工智能（al）的圣杯。一个活的有机体是这种代理的一个主要例子，提供了关于适应性自主的重要课程。在这里，我们把重点放在内感受上，这是...

人工智能强化学习代理框架系统

2023-11-01

1

使用Panda-Gym的机器臂模拟进行Deep Q-learning强化学习

强化学习(RL)是一种机器学习方法，它允许代理通过试错来学习如何在环境中表现。行为主体因采取行动导致预期结果而获得奖励，因采取行动导致预期结果而受到惩罚。随着时间的推移，代理学会采取行动，使其预期回报最大化。...

强化学习代理函数算法优化

2023-10-31

1

机器学习(四)机器学习分类及场景应用

监督学习(supervised learning)从训练数据（training data）集合中学习模型，对测试数据（test data）进行预测。

机器学习强化学习监督学习模型数据

2023-10-28

1

强化学习的一周「GitHub 热点速览」

当强化学习遇上游戏，会擦出什么样的火花呢？PokemonRedExperiments 将经典的 Pokeman 游戏接上了强化学习，效果非同凡响，不然能一周获得 4.5k star 么？看看效果图就知道，那是真得强。...

Github 游戏开源强化学习工具

2023-10-25

1

每日学术速递10.24

1.VeRA: Vector-based Random Matrix Adaptation

强化学习代理工作模型性能

2023-10-24

1

ICCV 2023 | DIMOS: 在 3D 室内场景中合成多样化人物运动

图 1：我们提出了一种在真实世界的复杂场景中生成自然的人物-场景交互事件序列的方法。如图所示，人物首先走到凳子旁坐下（黄色到红色），然后走到另一张椅子旁坐下（红色到洋红色），最后走到沙发旁躺下（洋红色到蓝色）。...

强化学习框架模型设计网络

2023-10-24

1

狂揽4k star，AI通过强化学习玩宝可梦，两万场后成功拿下

「口袋妖怪」是「宝可梦」的非官方译名。从 1996 年至今，它可以被分为数个世代，成为很多玩家心中的经典之作。游戏画风简单，但是身为策略游戏，其中包含的角色、属性、战术、体系等让这个游戏入门容易精通难。...

游戏强化学习函数视频数据

2023-10-24

1

Brief. Bioinform. | 强化学习驱动PROTAC linker的3D生成

今天为大家介绍的是来自广州国家实验室陈红明团队发在Briefings in Bioinformatics上的一篇论文“3D based generative PROTAC linker design with reinforcement learning”[1]。PROTAC 全称为 proteolysis-targe......

强化学习 linker 模型算法优化

2023-10-24

1

一个强化学习案例：Q-learning！！

强化学习是一种机器学习范式，其中智能体学习通过与环境互动来选择行动以最大化累积奖励。

强化学习 state 表格算法原理

2023-10-24

1

5 6 7 8 9