原文标题:A Scheme for Dynamic Risk-Sensitive Sequential Decision Making
摘要:提出了一种动态环境下具有风险敏感目标和约束的序贯决策方案。将神经网络训练成具有风险敏感约束的参数空间到风险空间和策略映射的逼近器。对于目标和约束是或可以用收益均值和方差函数估计的风险敏感问题,我们生成一个综合数据集作为训练数据。定义目标过程的参数可能是动态的,也就是说,它们可能随时间而变化,因此我们在指定的时间间隔内对它们进行采样,以处理这些动态。我们证明:大多数风险度量可以使用收益差异来估计;利用状态增强变换,在风险敏感的情况下,可以求解具有随机报酬的马尔可夫决策过程建模的实际问题;通过数值实验验证了该方案的有效性。
地址:https://arxiv.org/abs/1907.04269
作者:Shuai Ma, Jia Yuan Yu, Ahmet Satir