DTI特征工程 | iDTI-ESBoost | 2017 | REP

2022-03-15 11:49:52 浏览数 (1)

  • 文章转自微信公众号:机器学习炼丹术
  • 论文名称:iDTI-ESBoost: Identifcation of Drug Target Interaction Using Evolutionary and Structural Features with Boosting
  • 作者:炼丹兄(欢迎交流共同进步)
  • 论文链接:https://github.com/farshidrayhanuiu/FRnet-DTI/

【前言】:我百度了一下,sci reports是四大水刊之一,发文量巨大一年几万的发文量,2021影响因子4点多。

0 摘要与intro

学习的目的,主要是看他们对数据集特征提取的方式。是从之前的FRnet-DTI的论文中,使用的数据集就是这一篇iDTI-ESBoost的特征提取。这一篇从标题看,应该是集成模型Boost类型的,所以重点放在特征工程而非Method。

1 Dataset

在特征提取阶段,drug的标识符(identifier)可以在KEGG数据集中查询到,然后相应的SMILES表示在DrugBank数据库中获取。之后的特征生成是基于SMILES data来生成的。

相似的,对于protein对象,现在KEGG中查询到对应的protein的序列,然后将序列输入到两个软件当中:

  • Position Specific Iterated PSI-BLAST:这个软件基于Position Specific Scoring Matric (PSSM)获取evolutionary sequence profile
  • SPIDER2:这个软件生成SPD file,其中包含了structural information。

SMILES Based Features

❝Several descriptors are used to represent the features or properties of drug com pounds. To this end, one of the most popular features is molecular fingerprints which is widely used for similarity searching, clustering, and classifcation. Each drug compound is represented by 881 chemical substructures defned in PubChem database. Te presence (absence) of a particular substructure is encoded as 1 (0). Thus the length of this molecular fingerprint based feature is 881.

这一段文件是解释molecular fingerprints分子指纹最好,我目前看到最好的说明了。基于SMILES的表示方法,由PubChem数据库提出了881个子结构。然后这个分子指纹其实就是881维度的0/1稀疏特征向量。

PSSM-binary

这里有400个特征。

Secondary Structure Composition

Accessible Surface Area Composition

Torsional Angles Composition

Torsional Angles Bigram

Structural Probabilities Bigram

Torsional Angles Auto-Covariance

Structural Probablities Auto-Covariance

这篇文章的特征工程的方式,还是不少的。相对于之前transformer单纯的直接用字典编码,这种特征工程加上字典编码肯定可以起到更好的效果。

0 人点赞