PARL 的名字来源于 PAddlepaddle Reinfocement Learning,是一款基于百度 PaddlePaddle 打造的深度强化学习框架。
连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、DDPG、A3C、PPO算法做决策)和离散动作(围棋、贪吃蛇游戏,Alpha Go,可通过算法Q-Learning、DQN、A3C及PPO算法做决策)。...
上面的大脑代表我们的算法执行个体,我们可以操作个体来做决策,即选择一个合适的动作(Action)AtAt。下面的地球代表我们要研究的环境,它有自己的状态模型,我们选择了动作AtAt后,环境的状态(State)会变,我们会发现环境状态已经...
今天给大家介绍的是华为发表在 arxiv 上的预印本《Structured Q-learning For Antibody Design》。作者将用于组合优化的结构先验融入进 Q 学习中,提出了结构化 Q 学习 (SQL),这是一种 Q 学习的扩展。经过分子对接模拟...
本文介绍的是由中国科学院深圳先进技术研究所的Fan Hu、Dongqi Wang等人发表在arXiv上的预印文章《Bridging the gap between target-based and cell-based drug discovery with a graph generative multi-task ......
今天介绍一篇由密歇根州立大学Mengying Sun等人于2022年8月在线发表在KDD上的文章。本文基于搜索的方法提出了一个简单而有效的框架,称为MolSearch,用于多目标生成和优化。作者声称,在适当的设计和足够的领域信息的情况...
本文介绍由瑞典分子人工智能研究所的Atanas Patronov团队发表在Nature Machine Intelligence的研究成果。作者将课程学习应用于药物发现中。在全新的设计平台中实现课程学习(CL),并将其应用于不同复杂性的分子设计问题中...
2018:Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review
3 CLASSIFICATION OF GRAPH NEURAL NETWORKS
对比学习在计算机视觉的发展历程大概分为四个阶段(1)百花齐放:有InstDisc(Instance Discrimination)、CPC、CMC代表工作。在这个阶段方法模型都还没有统一,目标函数也没有统一,代理任务也没有统一,所以是一个百花齐放的时代...