最新 最热

为何RL泛化这么难:UC伯克利博士从认知POMDP、隐式部分可观察解读

当今强化学习(RL)的问题很多,诸如收敛效果不好。在偏弱的实验环境里,模型测试结果看起来尚可,许多问题暴露得不明显,但大量实验已经证明深度 RL 泛化很困难:尽管 RL 智能体可以学习执行非常复杂的任务,但它似乎对不同任务的泛...

2021-11-30
1

三分钟了解下机器学习

机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)...

2021-11-25
1

华人博士用强化学习回收了SpaceX火箭 | 开源

于是,这位SpaceX的铁杆粉丝首先基于气缸动力学,将火箭简化为一个二维平面上的刚体:

2021-11-23
0

【2021GTC】帮助四足机器人学习具有挑战性的任务:从模拟到现实

我将在苏黎世联邦理工学院机器人系统实验室解释我们如何依靠 NVIDIA 的 Omniverse 生态系统来开展机器人技术研究。首先,我将描述我们的四足机器人 ANYmal,以及它的扩展臂,称为 ALMA。接下来,我将展示我们如何使用强化学...

2021-11-23
0

为什么要研究游戏AI呢?

AI作为时下计算机算法的超级巨星,在例如CV、NLP、语音、机器人等诸多领域都有广泛的应用。而在游戏领域,AI的应用往往被认为只是把游戏角色拟人化,算法的第一印象也通常是强化学习。但实际当中,AI在游戏中的应用却不止于...

2021-11-23
1

如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习

Stuart Russell等人使用Gromov-Wasserstein距离来对齐和比较智能体不同空间之间的状态,从而使人模仿猎豹走路成为可能。

2021-11-23
1

空中悬停、翻滚转身、成功着陆,我用强化学习「回收」了SpaceX的火箭

SpaceX 作为一家太空探索技术公司是美国一家民营航天制造商和太空运输公司,由伊隆 · 马斯克于 2002 年创办,目标是降低太空运输的成本,并进行火星探索。SpaceX 成立近 20 年以来,吸引了无数的火箭爱好者。...

2021-11-18
0

华人学者再创佳绩!包揽CoRL2021最佳论文奖项

备受关注的论文大奖全部被华人学者包揽。来自麻省理工大学的Tao Chen, Jie Xu, Pulkit Agrawal(导师)拿下最佳论文奖;来自哥伦比亚大学的Huy Ha, 宋舒然(导师)拿下最佳系统论文奖。...

2021-11-17
1

ICLR 2022初审结果公布:平均分最高8分,姚班李志远等39名一作拿到单项满分

11月9日,ICLR 2022公开了第一轮评审结果。根据Criteo AI Lab机器学习研究科学家Sergey Ivanov的统计分析,今年共收到有效提交3355篇,desk rejected30篇。

2021-11-17
1

只需1/500数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL模型,引爆AI社区

EfficientZero的性能接近 DQN(Deep Q-Learning)在 2 亿帧时的性能,但消耗的数据却减少 500 倍。

2021-11-17
0