最新 最热

Compute the Optimal Policy & the Optimal Value 计算最佳策略和计算最佳价值

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

2019-10-22
2

从Markov Process到Markov Decision Process

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

2019-10-22
1

强化学习读书笔记(11)| On-policy Control with Approximation

本讲我们关注on-policy control问题,这里采用参数化方法逼近action-value函数。主要介绍的semi-gradient Sarsa算法是对上一章中介绍的semi-gradient TD(0)的一种扩展。在episodic任务中,这种扩展十分直观,但是对于conti...

2019-10-18
2

今日头条首次改进DQN网络,解决推荐中的在线广告投放问题

随着最近RL研究的火热,在推荐平台上在线广告投放策略中如何利用RL引起了大家极大的兴趣。然而,大部分基于RL的在线广告投放算法只聚焦于如何使广告收益最大化,却忽略了广告对推荐列表的用户体验可能会带来的负面影响。在...

2019-10-10
2

从这篇YouTube论文,剖析强化学习在工业级场景推荐系统中的应用

【导读】本文作者根据两篇工业界背景的论文解答了 RL 在推荐场景需要解决的问题与困难,以及入门需要学习得相关知识点。

2019-09-03
3

RL Algorithm Components - 强化学习算法组件

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

2019-08-31
2

OCP-052考试题库汇总(38)-CUUG内部解答版

You want to audit update statements that refer to USER1.DEPT.DNAME.

2019-08-20
2

【模型训练】如何选择最适合你的学习率变更策略

如果让我投票给深度学习中,最不想调试,但又必须要小心调试的参数,毫无疑问会投给学习率,今天就来说说这个。

2019-07-26
3

案例:AWR手工创建快照失败,SYSAUX表空间剩余不足处理

版本:Oracle 11.2.0.4 RAC 问题现象:AWR手工创建快照失败,SYSAUX表空间剩余不足。

2019-05-24
2

微软小冰的设计与实现

小冰设计相关的论文多年来一直没有对外公布,得益于近几年小冰的快速发展,在对话领域形成技术壁垒。与此同时拥有大量的用户和数据,我们才有幸看到如下的文章,开放了一些系统框架和技术细节。...

2019-01-19
3