最新 最热

直接放大推荐模型可行吗?存在什么问题?

现在出现了很多大模型,大模型已经成为现在的主流研究方向,那么推荐模型是否也可以做成大模型呢?

2023-10-24
1

将强化学习引入NLP:原理、技术和代码实现

强化学习是机器学习的一个分支,涉及智能体(agent)如何在一个环境中采取行动,从而最大化某种长期的累积奖励。

2023-10-21
1

一文读懂强化学习:RL全面解析与Pytorch实战

强化学习(Reinforcement Learning, RL)是人工智能(AI)和机器学习(ML)领域的一个重要子领域,与监督学习和无监督学习并列。它模仿了生物体通过与环境交互来学习最优行为的过程。与传统的监督学习不同,强化学习没有事先标记好的...

2023-10-21
1

在自己的电脑运行清华开源语言模型 ChatGLM-6B

有人说 AIGC 用 2 年时间走完了互联网 10 年的路,因为大家看到的是围绕 AI 的产品在最近如雨后春笋般涌现,看不到的事各领域大佬早在几年前已经开始了相关布局。...

2023-10-21
1

机器人瓦力来了!迪士尼亮出新机器人,用RL学习走路,还能进行社交互动

这个可爱的小机器人由迪士尼研究团队开发,在底特律举行的2023年IEEE/RSJ智能机器人和系统国际会议(IROS)上被展示。

2023-10-20
1

生动形象好玩的深度学习资源推荐(一)

偶尔翻翻深度学习方面的新闻信息,不得不再次感慨:深度学习真的是太好玩了!兴趣最重要,抛开深度学习玄妙复杂的内涵不谈,我们不应该咱直接被其复杂公式和理论而吓退。相反,让我们来看看利用深度学习完成的好玩的应用,寓教于乐...

2023-10-19
1

阅读笔记|Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills

info: T. Benson, A. Akella, and D. A. Maltz, “Mining policies from enterprise network configuration,” in Proceedings of the 9th ACM SIGCOMM conference on Intern...

2023-10-15
1

强化学习从基础到进阶-常见问题和面试必知必答[7]:深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

深度确定性策略梯度(deep deterministic policy gradient,DDPG):在连续控制领域经典的强化学习算法,是深度Q网络在处定性”表示其输出的是一个确定的动作,可以用于连续动作环境;“策略梯度”代表的是它用到的是策略网络,并且...

2023-10-11
1

强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法(advantage actor-critic,A2C),异步A2C、与生成对抗网络的联系等详解

以及一个初始的演员与环境交互、收集数据以及反馈。通过每一步得到的反馈,我们进一步更新我们的策略

2023-10-11
1

强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)

演员做的事情就是操控游戏的摇杆,比如向左、向右、开火等操作;环境就是游戏的主机,负责控制游戏的画面、控制怪物如何移动等;奖励函数就是当执行什么动作、发生什么状况的时候,我们可以得到多少分数,比如击杀一只怪兽得到20...

2023-10-11
1