不要再出现25%的同源性这种说法了——生物知识科普

2023-11-07 15:38:57 浏览数 (1)

花了好几个小时写了一个科普,希望能帮上大家,也期望不要再出现25%的同源性这种说法了。

缘起

DOI: 10.16438/j.0513-4870.2015-0906

我有好几次在中文的正式文献中竟然看到上面这样的描述,而且是好几次了,这些描述特别见于一些医学方面的中文文献。上面这幅图只是其中一个例子,每次看到这样的描述都有一些恼火。

所以我决定来写一篇科普文章,希望能够减少这样的描述。本人博士阶段就是研究进化问题的,所以感觉特别有发言权。

太长不看版

  • 如果你不是研究进化相关的生物问题的话,就不要把同源性引入进来,直接就描述你观察到的相似性(similarity)、一致性(identity)即可。
  • 理论上所有的序列都是同源的,因为生物都起源于40多亿年前。如果要引入同源性,那么需要考虑序列长度、时间和突变速率。
  • 同源性一般都是一个推论,推论即为无法直接观察到。而相似性或者一致性是你能够观察到的。
  • 你可以说:“A基因在进化上是保守的”,“A和B的序列相似度高达99.999%”,但是不要出现“25%的同源性”。

三个极易混淆的概念

同源性(homology)、相似性(similarity)、一致性(identity)

这三个概念是极易混淆的,三者蕴含的意思有相关联的地方也有明显的不同之处,万不可认为它们是一样的。

同源性

首先说同源性,它的意思就是说来自于同一个祖先,就这么简单。所以只有两个结果,同源或者非同源。

你可能还是有点懵逼的,让我们来展开一次思辨之旅:

  • 首先我们构造一个具体的例子,假设我们讨论的“操作分类单元”是个体,比如小明和小红
  • 假设小明和小红是兄妹,那他们有一个父母肯定是同源的啊。
  • 假设他们不是,我们之前一直有一句话,叫做“五百年前是一家”,其实对于一个村子里面的人来说。他们几乎都是同源的。
  • 所以这里需要引入一个时间的概念,你可以描述为近期同源,或者他们“溯祖”的时间很长。
  • 假如追溯到生命形成的40多亿年前,所有的物种、个体、序列都是同源的。
  • 假设操作分类单元是基因,也就是DNA序列或者蛋白质序列,那么他们是不是同源呢?
  • 也是一样,我们要有一个比较的时间尺度,一个很有意思的进化问题是追溯他们的分歧时间节点,例如距今100万年前。

所以脱离了时间去谈同源性其实是没有什么意义的,因为在40多亿年前,所有生物,所有个体,所有的序列可以说都有一个最终的共同祖先。

所有进化中有一个很重要的概念叫做MRCA,most recent common ancestor,最近共同祖先。我们一般认为上的同源就是指这个MRCA距离当前2023年时间很近,那么有多近呢?不同的序列演化速率不一样,所以这也是进化的一大研究方向。

上面我说到了溯祖,溯祖其实有一个坚实的溯祖理论的,这也是上世纪80年代之后的很大成就。

所以进化可以研究如下问题:1)同源是直系同源还是旁系同源?2)如何更好地估计MRCA的时间?3)如何算个进化树来精确地表示这个过程

但是这样的进化研究有三个问题我一直想不通,所以我转方向了:

  1. 在进化中我分不清对与错,真与假的感觉。就是说无论如何,我们都能算出来一个值 likelihood或者概率,所有东西都没有一个对错标准。
  2. 进化如何证伪?这个问题我一直想不出有什么方法,进化事件只会发生一次,而且无法重复。更多的人都像是在诉说自己的故事,就是研究进化也都是一些推测,没有像“结构生物学”,“成相系统等”这样的直接能够观察到的直接证据。
  3. 第三个,也是最核心的,进化的研究我看不到这到底有什么用。它在理论上就是提出更多的新概念和更多的新假设。这些最终都无法证伪,很多都是以标题来吸引人,有点像《世界未解之谜》,你看之前是一个谜,看了还是一个谜。你只能知道现在的多样性,推断之前的过程都是一个推论。

再次总结核心要点:

  • 同源性只能是有或者无,而且是要在给定时间尺度下才行,时间足够长所有东西都是同源的
  • 要分清楚是序列的同源还是个体、物种的同源性,注意他们会不一样,由此会产生不完全谱系 分流
  • 计算给定时间下是否同源,都是推论、都是推论、都是推论。这里的推论指的是有可能在这个时间点之前溯祖到共同祖先了,也有可能在这个时间点之后。一般序列长度超过20bp,相似度大于50%不可能是随机突变造成的。
  • 既然是推论我们就要有一个能观察到的,确切的统计量
  • 也没有什么“部分同源”或者“完全同源”这种说法,我知道你可能想表达他们同源的概率

我知道大部分情况,可能,你就想表达A和B两条序列当前看起来一模一样。而且这个看起来一模一样的序列是A和B在独立演化的过程中突变速率很低所导致的。也就是说他们是由于从共同祖先演化而来突变速率低导致看起来一模一样,也就是identity by descendant

一般我们认为A和B看起来一模一样有两个原因,除了identity by descendant 之外还有identity by states,也就是说有可能是两条序列在给定的时间段之内不是同源的,但是后面由于突变使得现在你观察到他们看起来一模一样。

所以你一旦扯到同源性这个上面去,一定需要有突变速率,时间和序列的长度。其实我推荐你还是不要把同源性这个概念引入进来。

那么我推荐你用如下的表达方式:

  1. 进化上保守的
  1. 相似度或者一致性很高,相似度或者一致性达99.9%
  2. 或者直接说A和B的演化速率很低
  3. AAA这个基因家族有很大进化压力,演化速率很低,蕴含着不可替代的核心生物学功能

不过3和4都有一些假定条件,就是你已经知道这个基因不是近期产生的,他们很早就独立演化了。因为演化时间短也会导致相似度高,推荐还是用1和2来描述比较妥当。

在给定时间、突变速率和长度下,A和B之间要么就是由同一个祖先来的(有同源性),要么就不是同一祖先进化来的(没有同源性),同源性百分之多少的说法是“不确切的”。也不能说你错,只能说你没有准确把握着三个概念的区别。

对和错其实只存在于数学中,“说你错,很大程度上是你没有理解我这里定义的同源性概念的标准”。所以我说是不确切的。

相似性和一致性

上面所说的同源性很多情况下是一种推断,当然很近期的情况下是确实可证伪的。例如对于个体而言,三代以内我们都是很清楚这个进化关系的。但是五代之外谁还记得清楚呢?

所以我们需要对于现在收集到的数据的一种量化度量方式,这其中相似性和一致性就是两种度量方式。其中一致性更加精确一点。

同样我们要制定一个操作分类单元,通俗地说,就是你比较的对象是什么?我们下面再来一次思维之旅:

  • 假设你比较的对象还是人类个体,小明和小红。
  • 那么相似性就比较好理解,就是他们的长相。长相基本上就是一种相似性,你还可以比较他们的爱好、特长等。
  • 那么我们怎么样定义标准来衡量这个相似性呢?好问题。
  • 对于个体来说衡量方式太多了,在生物学里面一般现在用全基因组数据,比如我们可以测一测小明和小红的DNA,然后看他们的相似性有多高

这个相似性和同源性的很大区别在于,相似性是比较现在存在的物质的统计量,它不是推论,是我们客观观察到的数据。

一致性呢?

一致性是个什么统计量,我们把操作分类单元换成DNA或者蛋白质序列才能理解这个概念。

以下内容摘自:https://qinqianshan.com/bioinformatics/align/identity-simlarity/

侵删,这里我觉得作为一个具体的例太好了:

我们需要看看序列比对的结果,你就能理解一致性是个什么东西。它其实就是一种更加保守的相似性度量方式。

总结一下:

  • 相似度的概念比较广泛,一致性需要知道序列联配的知识。你可以将一致性理解为一种特殊的相似性度量方式。

最后,综合来看

这个总结我觉得不错:

Similarity does not imply homology!(相似不代表同源); Non-homology cannot from non-similarity.(但不同源肯定不会相似); Do not use the term “percent homology”.(不要用百分之多少同源性)

但是这里的第二条要注意一下,如果是短序列,比如5个bp,那么突变率很高也会造成相似的。当然序列超过20bp,就不大可能相似。否则我们PCR的引物不是经常要换了吗?

我这里再做几个“说人话”的总结:

  1. 一般情况下,我们的序列是论述A这个基因的同源性,所以比较的对象是DNA或者蛋白质序列。你要注意文献说的是物种、个体、还是序列。
  2. 同源性大部分情况十足是一个推论,记住是一个推论,我们观察不到。我们能观察到的是相似性和一致性。同源性的结果就是要么同源,要么非同源,而且要在一定的时间尺度下。同时要推断进化速率和
  3. 当相似程度高于50%时,比较容易得到两条序列可能是在一个比较近的时间段内是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其在特定时间段内是否具有同源性。当然还要综合突变速率和长度。总之进化推断是个比较难的统计问题,很难给出确切的定论。
  4. 所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。

或者如果你不做进化,那就干脆直接说比较对象的相似性吧。不要扯上同源性,让进化研究者去推断吧。你就说一个相似性,序列保守性就好了,这是你直接观察到的现象啊。

0 人点赞