7 Papers & Radios | 联邦图机器学习综述;基于知识图谱和分子图的药物筛选模型

2022-08-25 19:39:28 浏览数 (1)

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周重要论文包括普林斯顿大学的研究人员应用人工智能来预测过冷水中冰核的形成速率;湖大等开发药物筛选新模型等研究。

目录:

  1. Homogeneous ice nucleation in an ab initio machine-learning model of water
  2. KG-MTL: Knowledge Graph Enhanced Multi-Task Learning for Molecular Interaction
  3. Learning with Combinatorial Optimization Layers: a Probabilistic Approach
  4. Federated Graph Machine Learning: A Survey of Concepts, Techniques, and Applications 
  5. A Neural Network Solves, Explains, and Generates Universitymath Problems by Program Synthesis and Few-shot Learning Athuman Level
  6. Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation
  7. Collaboration Equilibrium in Federated Learning 
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Homogeneous ice nucleation in an ab initio machine-learning model of water

  • 作者:Pablo M. Piaggi、Jack Weis 等
  • 论文地址:https://www.pnas.org/doi/abs/10.1073/pnas.2207294119

摘要:分子模拟为了解均匀冰核形成的微观机制提供了有价值的见解。虽然经验模型已被广泛用于研究这一现象,但迄今为止,基于第一性原理计算的模拟已被证明过于昂贵。即使是近期,由于量子力学计算的计算成本过高,大部分人认为以量子精度模拟冰核形成是不可能的。机器学习的最新进展使这些计算变得易于处理,从而大大扩展了基于从头计算量子力学理论的分子动力学的应用领域。

普林斯顿大学(Princeton University)的研究人员应用人工智能来预测过冷水中冰核的形成速率,并在不依赖经验力场的情况下研究与成核相关的其他量,尽管引用了经典成核理论的组织框架。这项工作是朝着,在更现实的环境和化学反应发挥重要作用的条件下,模拟成核过程,迈出的重要一步。

液态水 - 冰 Ih 界面自由能。

推荐:在模拟水如何冻结时,人工智能打破了僵局。

论文 2:KG-MTL: Knowledge Graph Enhanced Multi-Task Learning for Molecular Interaction

  • 作者:Tengfei Ma、Xuan Lin 等
  • 论文地址:https://ieeexplore.ieee.org/document/9815157

摘要:分子相互作用预测在药物发现和自然科学等领域中发挥着至关重要的作用,这个问题十分具有挑战性,现有的大多数方法不能准确地利用知识图谱和分子图的信息。

本文中,研究人员提出了一种大规模的知识图谱增强多任务学习模型 KG-MTL,KG 即 Knowledge Graph(知识图谱),旨在描述药物、基因、疾病等实体及它们之间的关联。MTL 即 Multi Task Learning(多任务学习),在学习一个问题的同时,可以通过使用共享机制来获得其他相关问题的知识。具体地,KG-MTL 设计了一个新颖的共享单元以协同的方式从知识图谱和分子图中提取特征,充分利用了知识图谱和分子图的信息。

KG-MTL 的框架。

推荐:利用知识图谱和分子图,湖大等开发药物筛选新模型。本研究在《IEEE 知识与数据工程汇刊》(TKDE)上发表。

论文 3:Learning with Combinatorial Optimization Layers: a Probabilistic Approach

  • 作者:Guillaume Dalle、Léo Baty 等
  • 论文地址:https://arxiv.org/abs/2207.13513

摘要:机器学习 (ML) 和组合优化 (CO) 是现代工业流程的两个重要组成部分。ML 方法能从嘈杂的数据中提取有意义的信息,而 CO 可以在高维受限环境中做出决策。在许多情况下,我们希望将这两种工具结合使用,例如从数据中生成预测,然后使用这些预测做出优化决策。因此,混合 ML-CO pipeline 成为一个新兴的研究方向。

然而这里存在两个问题。首先,CO 问题的解通常表现为其目标参数的分段常函数,而 ML pipeline 通常使用随机梯度下降进行训练,因此斜率是非常关键的。其次,标准的 ML 损失在组合环境中效果不佳。此外,组合优化层(CO 层)往往缺乏良好的实现。

近日一项新研究从概率学的角度提出了实现 CO 层的方法,有助于近似微分和结构化损失的构建。该研究提出了一个开源的 Julia 包——InferOpt.jl,它的功能包括允许将任何具有线性目标函数的 CO oracle 转换为可微层;定义损失函数来训练包含可微层的 pipeline。

概率 CO 层的影响。 

推荐:利用概率学实现组合优化层,新研究构建 Julia 开源包 InferOpt.jl。

论文 4:Federated Graph Machine Learning: A Survey of Concepts, Techniques, and Applications

  • 作者:Xingbo Fu、Binchi Zhang 等
  • 论文地址:https://arxiv.org/pdf/2207.11812.pdf

摘要:联邦学习(FL)是一种分布式机器学习方案,通过协作训练解决数据孤岛问题。它使参与者(即客户)能够在不共享其私有数据的情况下联合训练机器学习模型。因此,将 FL 与图机器学习相结合成为解决上述问题的有希望的解决方案。

本文中,来自弗吉尼亚大学的研究者提出联邦图机器学习(FGML)。一般来说,FGML 可以根据结构信息的级别分为两种设置:第一种是具有结构化数据的 FL,在具有结构化数据的 FL 中,客户基于其图数据协作训练图机器学习模型,同时将图数据保留在本地。第二种是结构化 FL,在结构化 FL 中,客户端之间存在结构信息,形成客户端图。可以利用客户端图设计更有效的联合优化方法。

原始 FL、具有结构化数据的 FL 以及结构化 FL 的框架比较。

推荐:一文综述「联邦图机器学习」,概念、技术、应用全都有。

论文 5:A Neural Network Solves, Explains, and Generates Universitymath Problems by Program Synthesis and Few-shot Learning Athuman Level

  • 作者:Iddo Droria、Sarah Zhang 等
  • 论文地址:https://www.pnas.org/doi/epdf/10.1073/pnas.2123433119

摘要:MIT 的学生可以不费吹灰之力就能解决多元微积分、微分方程、线性代数等数学课题,但这些却把机器学习模型给难倒了。因为机器学习模型只能回答小学或高中水平的数学问题,而且它们并不总是能找到正确答案。

MIT、哥伦比亚大学、哈佛大学和滑铁卢大学的研究者,他们使用小样本学习、OpenAI 的 Codex 来自动合成程序,在几秒钟内解决大学数学问题,达到了人类水平。这项研究发表在《美国国家科学院院刊》(PNAS)上。

该模型对生成的解决方案还能进行解释,并能快速生成新的大学数学问题。当研究人员向学生展示这些机器生成的问题时,学生们甚至无法判断这些问题是由算法生成的还是由人类生成的。这项研究还可以用来简化课程内容生成,这对拥有数千名学生的学校和大型开放式网络课程尤其有用。该系统还可以充当在线导师,向学生展示解决数学问题的步骤。

出自六门 MIT 课程的示例问题和解。

推荐:AI 几秒钟内解决大学数学问题,拿到 80% 多准确率,还充当出题老师。

论文 6:Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation

  • 作者:Yuyuan Liu、Yu Tian 等
  • 论文地址:https://arxiv.org/abs/2111.12903

摘要:在本工作中,来自阿德莱德大学、乌鲁姆大学的研究者针对当前一致性学习出现的三个问题做了针对性的处理, 使得经典的 teacher-student 架构 (A.K.A Mean-Teacher) 在半监督图像切割任务上得到了显著的提升。该研究已被计算机视觉顶会 CVPR 2022 大会接收。

方法概览。

推荐:基于一致性的半监督语义分割方法:刷新多项 SOTA,还有更好泛化性。

论文 7:Collaboration Equilibrium in Federated Learning

  • 作者:Sen Cui、Jian Liang 等
  • 论文地址:https://arxiv.org/pdf/2108.07926.pdf

摘要:联邦学习(federated learning,FL)是指在保护数据隐私的前提下实现分布式多数据源模型训练的学习范式。由于各个数据源的统计异质性在现实场景下广泛存在,同时统计异质性也给联邦学习下合作式的模型学习带来了负面影响,甚至会损害模型性能。因而,这也带来了一个基本问题:一个机构(client)加入合作网络能否获得增益,即参与合作是否意味着自身模型性能的提升。事实上,一个机构并非总是与所有机构合作才能带来自身性能的最大化。

清华大学三年级博士生崔森等人建立了联邦学习下的合作均衡理论,其中各个机构只与对其有利的机构合作,最大程度上避免负迁移的影响,从而实现自身模型性能的最大化。具体地,提出通过两个公理刻画合作均衡:自私原则:没有利益,就没有合作;理性原则:各个机构致力于最大化自身模型性能。他们还提出增益图(benefit graph)的概念,描述了每个机构的最优合作者,并提出了一种基于帕累托优化的方法确定最优合作者。最后在理论上证明了合作均衡的存在性,并提出了一种基于图论的方法,实现 O(V E) 时间复杂度下的合作均衡。

算法 1:实现合作均衡。

推荐:从自私和理性原则的视角,看联邦学习下的合作均衡理论。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. Recognizing and Extracting Cybersecurtity-relevant Entities from Text.  (from Tim Finin)

2. Unravelling Interlanguage Facts via Explainable Machine Learning.  (from Fabrizio Sebastiani)

3. Smoothing Entailment Graphs with Language Models.  (from Mark Steedman)

4. Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning.  (from Yossi Matias, Craig Boutilier)

5. GTrans: Grouping and Fusing Transformer Layers for Neural Machine Translation.  (from Jian Yang, Haoyang Huang)

6. Composable Text Control Operations in Latent Space with Ordinary Differential Equations.  (from Xiaodong He, Shuguang Cui)

7. Building an Efficiency Pipeline: Commutativity and Cumulativeness of Efficiency Operators for Transformers.  (from Jimmy Lin)

8. Improving Distantly Supervised Relation Extraction by Natural Language Inference.  (from Qi Li)

9. What Can Transformers Learn In-Context? A Case Study of Simple Function Classes.  (from Percy Liang)

10. Efficient Fine-Tuning of Compressed Language Models with Learners.  (from James J. Clark)

本周 10 篇 CV 精选论文是:

1. Automatic dense annotation of large-vocabulary sign language videos.  (from Andrew Zisserman)

2. TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation.  (from Larry S. Davis)

3. Revisiting the Critical Factors of Augmentation-Invariant Representation Learning.  (from Xiangyu Zhang)

4. Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation.  (from Alan Yuille)

5. Global-Local Self-Distillation for Visual Representation Learning.  (from Tinne Tuytelaars)

6. High Dynamic Range and Super-Resolution from Raw Image Bursts.  (from Jean Ponce, Julien Mairal)

7. Matching with AffNet based rectifications.  (from Jiří Matas)

8. Vision-Centric BEV Perception: A Survey.  (from Yu Qiao, Ruigang Yang, Dinesh Manocha)

9. Augmenting Vision Language Pretraining by Learning Codebook with Visual Semantics.  (from C.-C. Jay Kuo)

10. Statistical Attention Localization (SAL): Methodology and Application to Object Classification.  (from C.-C. Jay Kuo)

本周 10 篇 ML 精选论文是:

1. Flow Annealed Importance Sampling Bootstrap.  (from Bernhard Schölkopf)

2. Boosted Off-Policy Learning.  (from Thorsten Joachims)

3. Link Prediction on Heterophilic Graphs via Disentangled Representation Learning.  (from Charu Aggarwal)

4. A Hybrid Complex-valued Neural Network Framework with Applications to Electroencephalogram (EEG).  (from Xiaogang Wang)

5. Bayesian regularization of empirical MDPs.  (from Inderjit Dhillon)

6. AdaCat: Adaptive Categorical Discretization for Autoregressive Models.  (from Pieter Abbeel)

7. Semi-supervised Learning of Partial Differential Operators and Dynamical Flows.  (from Lior Wolf)

8. Robust Graph Neural Networks using Weighted Graph Laplacian.  (from Sandeep Kumar)

9. De-biased Representation Learning for Fairness with Unreliable Labels.  (from Yang Wang)

10. Understanding the classes better with class-specific and rule-specific feature selection, and redundancy control in a fuzzy rule based framework.  (from Nikhil R. Pal)

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

0 人点赞