动物育种统计发展的百年
翻译:微软翻译 付光栋
Daniel Gianola1–5 and Guilherme J.M. Rosa1,2
1Department of Animal Sciences, 2Department of Biostatistics and Medical Informatics, and 3Department of Dairy Science, University of Wisconsin-Madison, Madison, Wisconsin 53706; email: gianola@ansci.wisc.edu,grosa@wisc.edu
4Institute of Advanced Studies, Technical University of Munich, 85748 Garching, Germany
5Chair of Plant Breeding at TUM-Weihenstephan, 85354 Freising, Germany
关键字
动物育种、统计方法、定量遗传学、选择性育种、复杂性状
摘要
统计方法在科学的动物育种中发挥了关键作用。回顾了大约一百年来动物育种的统计发展。讨论了该领域的一些科学基础,并从历史和批判的角度考察了许多里程碑。本综述最后讨论了牲畜、植物和人类基因组项目产生的大量数据带来的一些未来挑战和机遇。
介绍
统计方法在将动物育种从一门艺术转变为一门科学方面发挥了重要作用,许多学者为这一过程的历史做出了贡献。大多数动物育种问题都有定量维度,但并非所有问题都是推论性的,因此统计数据何时何地进入画面有时很难决定。例如,配偶分配是一个决策问题(即没有推理),可以用线性程序(1,2)确定性地解决。同样,将基因表达数据组织成具有生物学意义的子集是一种模式识别练习,可以通过聚类忽略统计数据来进行(3)。然而,对未来表型的预测,显然是一个统计问题,可以从非推理的角度进行(4,5)。大多数动物育种者都关心预测育种价值,并使用亨德森(6-11)开发的具有明确推理目标的理论来做到这一点。
统计方法是畜牧生产遗传学应用世界大会的一个重要特点,第一届大会于1974年在马德里举行,第十届大会于2014年8月在温哥华举行。此外,统计学在定量遗传学国际会议上占有重要地位,该会议首先在爱荷华州埃姆斯举行(1976年),最近在爱丁堡(2012年)举行,接下来将在威斯康星州麦迪逊举行(2016年)。在相应的论文集中可以找到许多创新的统计思想。例如,在参考文献12-14和Hill(15)中可以找到动物育种统计方法的综述,后者在更广泛的背景下。此外,许多统计方法源于动物育种研讨会和科学会议(例如,美国乳品科学协会),区域项目,甚至在咖啡或啤酒休息时间进行的集体努力和非正式科学交流。自由科学给予和接受想法的热点的例子是(已解散的)美国农业部(USDA) NCR21定量遗传学区域项目、爱丁堡和康奈尔咖啡休息时间、爱荷华州 QTL 休息室和威斯康星州早餐。
我们在这里的目的是回顾上述进程的历史,通常是批判性的,通过提供我们认为是里程碑的说明,因为不可能讨论每一个贡献。我们不会试图提供与动物育种有关的制度发展的年表。假设读者已经接触到定量遗传学的基本思想,最近关于基本原则和结果的讨论可在参考文献16和17中找到。论文的组织结构如下:首先,从历史的角度介绍了该领域的一些科学基础。随后,通过对统计处理的几个动物育种问题的概述,进一步发展该阶段。本综述继续描述里程碑,然后是最佳线性无偏预测、遗传参数估计、应用于该领域的贝叶斯思想、非线性模型和纵向数据、选择偏倚的统计处理和基因组选择的部分。结论部分提出了一些未来的挑战。
基础
统计思想在动物育种和遗传学中的应用可以追溯到维多利亚时代的高尔顿(1822-1911)和皮尔逊(1857-1936),他们都在孟德尔定律被重新发现之前工作。高尔顿(18)发现,平均而言,高个子父母的后代比他们的父母小,而来自矮个子父母的后代则更高。这种“回归均值”与遗传力和对选择的预期反应的概念密切相关。极端父母群体之间的特质平均值差异类似于选择差异;对应后代组均值之间的差异等效于选择响应。
后代对父母的统计回归是众所周知的遗传力参数(19),观察到的反应和有效选择差异之间的比率是实现遗传力,这是Falconer(1913-2004)创造的一个术语。与推断已实现的遗传力相关的统计问题在参考文献20和21中讨论。高尔顿的工作为线性模型的使用提供了主要的推动力,线性模型在二十一世纪仍在使用。高尔顿的数据表明回归线是线性的,但使用非参数方法(22)的重新分析发现,父女,父子,母女和母子回归在大约67-68英寸的高度处表现出弯曲。这种弯曲表明了一个隐藏的结构,并说明了统计遗传模型如何提供对模式的良好描述并产生有用的数量,例如遗传力,而不必解释现象。皮尔森(23,24)撰写了大量关于性状进化和派生公式的论文,亨德森(10)最终将其用于一篇关于选择导致的估计和预测偏差的有影响力的论文中。皮尔逊关于选择如何修改方差-协方差结构的公式对亨德森的发展至关重要,并检索了作为特例计算方差减少的标准表达式,给定正态性假设下的某些选择强度(25-27)。某种程式化选择对遗传变异的影响,称为布尔默效应,已被用于许多研究。然而,皮尔逊公式的最简单版本只是一个近似值,因为它要求所有选择的候选者都是独立的和相同的分布。在动物育种中,候选者是相关的(因此,不是独立的),并且具有不等量的信息;例如,一头经过后代测试的公牛可能拥有数千个有记录的后代,而年轻的公牛可能没有。风格化的公式为比较理想化的选择方案提供了一些粗略的基础。
在遗传学的颗粒基础建立之后,一个问题是如何调和连续变化的特征与孟德尔遗传。富山龟太郎(1867-1918)在研究蚕时发现了动物孟德尔遗传的第一个案例(28),而尤尔(1871-1951)(29)调和了孟德尔主义与连续变异,尽管皮尔逊不接受他的工作。现代定量遗传学基础(对动物育种有重大影响)的两个巨大贡献者是费舍尔和赖特,在一系列论文中。在一篇非常困难的论文中,Fisher(30)介绍了使用最广泛的定量遗传学模型(无穷小模型)以及将遗传变异分解为碎片的方差分析。Wright(31)使用路径分析和相关性推导出近亲繁殖系数(F),并在一系列论文(如参考文献32)中推导出孟德尔种群的性质,包括在随机交配和突变下有限种群中等位基因频率的惊人平衡分布。赖特通过引用物理学中扩散的福克-普朗克方程(也称为随机过程中的柯尔莫果洛夫正向方程)来呈现结果,而无需推导。达到平衡分布需要许多页的代数运算。
Fisher的无穷小模型一直是动物育种的核心。在这个模型的简化版本中,假设有K个位点在起作用,使得在基因座k(k = 1,2,..,K)处,添加一个A等位基因将固定(即非随机)数量ak添加到个体的基因型值u(加性值)中,然后可以写成u = W1a1 W2a2 ... Wkak。在这里,W 是一个随机指示变量,取值 0,1 或 2,具体取决于个体在适当上是 aa、Aa 还是 AA;如果种群处于哈代-温伯格(HW)平衡状态,则这些基因型分别以概率(1 – pk)2、2(1 - pk)pk和 pk2出现,其中 pk是在位点 k 处随机抽取 A 等位基因的概率。u的边际分布取决于K位点基因型的联合概率分布。因为u是随机变量的线性组合,如果W是相互独立的(基因型之间的连锁平衡),那么随着k的增加,u的分布收敛到高斯分布,但连锁不平衡(LD)减慢收敛速度。要获得有限的均值和方差,单个位点效应和频率必须变得无穷小,如 K→∞。在极限情况下最终得到的分布是 u ∼ N(m,σU2),其中均值 m 通常设置为 0,σu2是加性遗传方差(通常称为多基因性)。Henderson在1960年代推出了奶牛模型(L.R. Schaeffer,个人通讯),后来被称为动物模型(34)。该规范是费舍尔模型的向量扩展:加性效应u成为育种值u的向量,加性遗传方差σu2被Aσu2取代,其中A是一个加性关系矩阵,如果个体之间没有近亲繁殖(这里有技术细节),则A矩阵传达亲缘关系:该矩阵的一个条目是一对个体在随机位点上的等位基因相同的概率的两倍。这项工作建立在Sewall Wright使用相关性和Malécot(35)使用概率等配子相似性的基础概念之上。
Fisher(30,36)影响育种价值概念的另一个想法是基因替换在位点的平均效应。这个想法由Lush在动物育种课程中教授,后来由Falconer(37)一本杰出的著作协助。假设上述所有 K 位点都处于HW平衡状态,引入优势效应 dk,并设 1-pk= qk,u 的平均值为:
基因替换在基因座 k 处的平均效应为=。该位点的育种值为,和分别对应AA,Aa,和aa基因型,而u的育种价值对于具有某种基因型配置的个体是通过对位点求和获得的。育种价值既取决于频率又取决于优势偏差,并且表达式依赖于HW假设。在理想化假设下,只有加性效应被传递;因此,ak在育种中非常重要,所以u被更严格地定义为所有ak之和。因此,在基因组学出现之前,u成为了一个涉及仅加性效应(无限小育种价值)的随机变量,并且是推断的焦点,因为基因和等位基因效应无法被观察到。
直到最近,应用于动物育种的数量遗传学基本上是一门无基因科学。这解释了统计程序,特别是Henderson的方法的巨大影响,其中唯一的遗传输入是前面定义的矩阵A。尽管有基因组学,但人们对影响复杂性状的单个基因知之甚少,因为使用标记物寻找数量性状基因座(QTL)并未产生与投入的巨大资源相符的回报;参考文献17讨论了这个问题。
一些动物育种问题的概述
遗传选择是动物育种的关键工具,旨在最大化某些综合优点函数(例如,利润)随时间增长的速率,反映所寻求改进的性状的综合经济价值。与环境影响相关的性状,例如甲烷产生或能源资源使用,越来越被视为该函数的一部分。优点可以是线性的或非线性的,取决于目标性状的未观察到的遗传值。这些性状被称为复杂性状,因为它们的遗传仍未解决,并且人们认为环境影响很大并可能与遗传因素相互作用。只要优点函数的组成部分具有遗传基础,即如果个体之间存在遗传变异,则可能通过选择产生遗传改进,但这取决于可用方差的种类和数量。通常,被认为具有最高加性优点的动物被保留作为父母,而那些优点最低的动物被淘汰,尽管选择也可以针对某个中间最优值。
在缺乏详细的遗传知识的情况下,需要抽象来从观察到的数据中获取遗传优点,数量遗传学理论提供了一些基础。尽管这种理论有用,在考虑到新兴的关于代谢途径、基因网络和基因组组织的知识时,它在机制上过于简化。统计方法将理论付诸实践,并且通常需要复杂的多元分析,因为必须考虑性状之间的遗传或环境关联,以便合理地评估选择的多种效应。罗纳德·费希尔(1890-1972)的自然选择基本定理和艾伦·罗伯逊(1920-1989)受动物育种问题激励的次要定理指出,选择下进展的速率与加性遗传方差和协方差成正比;Crow&Kimura(33)和Edwards(38)给出了易读的描述。这两个指标是统计学的,并且用于估计这些参数的模型主要基于加性遗传的假设。如果存在非加性遗传变异,则大部分理论都基于不现实的假设来适应未知基因之间复杂的相互作用。由于家畜种群规模小且经过选择,连锁不平衡在家畜中普遍存在,这使得划分遗传方差变得困难(39)。如果一组基因处于连锁不平衡状态,则推断特定基因对方差的贡献是混乱的。变异性要么通过直接路径产生,要么通过源自连锁不平衡(40)的相关性间接产生。Sewall Wright(1889-1988),群体遗传学理论创始人之一,引入了路径分析以区分直接效应和间接效应,但这需要了解因果基因之间的连锁不平衡关系。
用于评估性状的遗传基础并推断动物的遗传优点的输入信息包括农场的性能表现记录和家谱数据,现在辅以了大量称为SNP(单核苷酸多态性)的分子标记。这些遗传标记被用作散弹枪,旨在捕捉基因组区域与表型之间的关联,并用于所谓的基因组选择(41)。性能记录可能是肉类动物的生长速度和饲料摄入量;绵羊和山羊的羊毛重量和质量;奶牛的产奶量、成分、繁殖性能和存活率;以及多胎物种(如鸡或猪)的产蛋量或窝数。关于生殖事件或疾病(例如奶牛乳腺炎)的记录更难获得,通常使用代理变量,例如奶牛乳中的体细胞计数(SCC)和热带或亚热带条件下牛皮肤中的蜱虫数量。其他性状,例如奶牛的存活率或生产寿命,受到统计审查的困扰:有时只知道动物在时间t时仍然活着,但之后就不知道了。此外,许多性状被记录为计数(窝产仔数)或分类分配(例如分娩困难或某些疾病的阶段)。因此,统计建模通常需要超越假设高斯分布,尽管后者通常提供了合理且有用的近似值。即使一个性状是连续的,除了高斯之外的规格,例如双指数或t分布,也可能为分析提供稳健性。
与简单的孟德尔性状不同,影响复杂性状的基因可能有很多。Lush(1896–1982),被认为是科学动物育种育种之父,他经常表达这样的观点(19, 42),即可能所有的基因都影响所有这些性状。尽管基因组学取得了惊人的进展,但我们仍然不知道基因的数量,基因作用的形式,以及等位基因频率和对大多数复杂性状的影响。动物育种中使用的统计方法将基因组对表型的整体影响归结为一种称为基因型值的东西。表型使用某种数学模型来表示,其中一个部分是加性遗传值,称为育种值。然而,遗传值或模型的任何组成部分都是不可观察的,必须从具有记录或来自亲缘个体的数据中推断出来。推断过程通常(但不总是)使用线性模型,因为这种模型在分析上是可行的;比非线性模型计算起来更省力;并且可以产生有用、易于解释的结果。
在某些情况下,拥有亲缘个体的记录是至关重要的;例如,一头有价值的肉牛不能为了获得胴体信息而被屠宰,所以要使用与之遗传相关的公牛的数据。鉴于基于基因组的标记的丰富性,人们很容易推测亲缘个体可能不需要,因为似乎只要个体在分子水平上相似,而不具有明确的遗传关系就足够了。除非标记与QTL之间存在强连锁不平衡(LD),否则标记处的基因组相似性并不能很好地转化为与致病变异相关的遗传相似性。后者是另一种抽象概念,用来表示对表型有一些统计上显著影响的基因组区域。动物育种中使用标记辅助推断可能起源于Neiman-Sorensen和Robertson(43)的一篇论文,他们打算将血型变异与牛的产量联系起来。
尽管许多性状似乎具有多基因遗传模式,但基于单个标记对表型进行回归的标准全基因组关联方法(GWAS)通常无法发现许多具有统计学意义的变异,而后者仅解释了性状变异的一小部分(44)。在GWAS中未能拒绝零假设(注:零假设通常指没有关联,即基因型和表型之间没有关联)通常被视为支持多基因模型的证据,但从因果角度来看,这是不够的。
动物育种数据集可能非常大(例如,数百万个奶牛泌乳记录),多元(必须同时建模多个性状),在某些情况下似乎是高斯的(例如,牛奶中体细胞浓度的对数,表明乳房疾病),或在其他情况下非正态(例如离散性状)。数据结构可以是横截面的或纵向的(例如肉鸡的生长曲线),并且极不平衡,经常呈现非随机缺失的模式。例如,并非所有第一次泌乳的奶牛都能产生第二次泌乳,这是由于为了提高产量而进行的顺序选择、生殖失败或疾病。由于遗传价值上的差异,有些公牛比其他公牛使用得更加频繁,因此遗传选择是由于对后代出生贡献的变化而产生的。因此,观察到的数据很少是随机样本,从而引入了偏差。另一个在遗传评估中造成混乱的问题是未声明对有价值公牛后代的优先处理;这会产生统计混淆:真正的遗传优势不能与环境效应区分开来。在这些方面,它与人类医学中观察数据遇到的问题相似。不幸的是,随机实验对人类来说很少可行,并且即使在实验室动物中,动物育种实验所需的适当复制范围也经常无法达到。
我们的观点与Robertson(45)编辑的书中的许多作者或Hill(15)的观点相反,认为选择或杂交实验在促进生物学理解方面几乎没有超出实验前已知的知识。正如Hill(15,第8页)所述,“Wright和Lush的模型和论点,甚至Fisher的模型和论点都没有真正受到冲击。”然而,许多实验在许多情况下用于产生遗传上不同的品系(例如,在猪的平均体重或背膘厚度方面),用于详细的生物学分析并激发重要的理论工作。后者的例子包括与选择极限相关的有利等位基因固定概率(46,47),或遗传漂移、选择反应变异性和遗传相关性之间的关系(20,48,49)。由于基因组标记的出现,许多这些理论观点得到了重新振兴,因为现在可以识别基因型(尽管不一定是相关的基因型)。
在学习遗传价值的过程中,会遇到至少两种类型的统计问题。第一种是评估性状是否具有遗传基础,称为遗传参数的估计。第二种是开发合理准确的推断优点或遗传评估的方法,这是Charles Henderson(1911–1989)创造的术语。第三种类型的问题,这里不讨论,是决定如何处理评估最好的动物;例如,近亲繁殖避免方案、配偶分配和利用杂种优势(如果存在非加性遗传变异)。对后一个问题有重要贡献的是Gordon Dickerson(1912–2000),他研究了杂交的用途,以及Ralph Comstock(1912–1999),他引入了一种基于杂交后代的选择方案,称为互换循环选择(50)。此外,在克莱中心(内布拉斯加州的一个USDA实验站)工作的许多科学家对肉牛品种的使用和杂交进行了大量研究,包括杂种优势和品种母性效应的估计;Dickerson在这里的影响是显而易见的。这些实验工作没有导致方法论上的突破,也没有对近交衰退或杂种优势的本质提供更多信息,这些现象已经为玉米育种者所知。然而,它对于在受控条件下定量表征品种是有用的。
性别限制性状(例如雌性动物的产奶量和公牛的阴囊周长,被认为与奶牛的生育能力有正的遗传相关性)带来了额外的困难。在奶牛中,准确推断雄性动物的遗传价值是相关的,因为这些动物对选择性改良的收益产生了影响。奶牛也被评估,但精度低于公牛。由于人工授精技术的改进和冷冻精液和胚胎的广泛可用性,一些奶牛公牛可以在多个国家产生数千头女儿,为通过遗传联系进行国际公牛评估创造了机会,尽管以复杂的统计建模和实施为代价(51)。自20世纪90年代初以来,国际奶牛公牛评估一直在瑞典由一个多国组织(Interbull)进行,并且该组织的公开会议促进了遗传评估方法的发展,特别是大数据的巧妙计算过程。
可以说,动物育种中大多数方法论发展都是受到事后数据分析的启发,而在康奈尔大学工作的Henderson在这方面是一位巨人。这种方法在当今基因组学时代是显而易见的,其中数据挖掘(被视为钓鱼探险)通常超越了假设形成、给定某些实验设计的统计功率计算和分析的标准协议(注:研究人员通常会使用数据挖掘技术来分析大量复杂的数据,而不是遵循传统的统计方法,即先提出假设,然后根据实验设计进行统计功效计算,最后进行分析。)。Henderson(个人通讯)很少认真对待统计显著性,要么是因为概念上重复抽样相同的动物育种方案(需要校准长期频率)难以想象,要么是因为如果不求助于近似值,就无法在具有未知方差分量的真实模型中获得标准误差。基因组计划带来的大量数据的出现催化了一个新领域的发展:生物信息学。在这里,数据挖掘算法询问和分析通常在统计指定协议之外生成的大型复杂数据集。大多数想法来自计算机科学,但统计学家通过创建一个称为统计学习(52-54)的接口领域来补充它们的观点,在其中概率框架进入画面,从而有助于评估不确定性。假设是在观察到数据之后提出的,在经典统计思维中是禁忌。也许未来动物育种者的培训将更多地关注生物信息学和人工智能,这是动物育种中很少有团队采取的方向。简而言之,在动物育种数据中遇到了大量统计困难,并且分析范式在过去一百年中发生了巨大变化。下一节将讨论导致统计遗传模型的基础思想。
里程碑
数学模型的使用
动物育种中使用数学模型可以追溯到Lush,他受到Wright的影响,也许在较小程度上受到Fisher的影响。Lush(55、56)基于相关性使用路径图隐藏了一个底层的线性模型,因为路径分析是一个具有标准化系数的回归模型。奥斯卡·肯普索恩(1919-2000),一位在爱荷华州立大学工作的英国统计学家,经常表达这种观点(例如,参考文献57)。在Henderson(6)的论文之后过了几年,将分析与模型关联起来才成为常规,即使假设并不总是精确地陈述。Eisenhart(58)的想法,如混合模型,被纳入Henderson(7)关于(协)方差分量的论文中,他在那里提出了纯随机和混合效应模型的估计量。
动物育种中的模型通常包括一个数学函数,将观测值与固定位置(定义分布的均值)参数和随机效应(如u)联系起来,这些参数和效应是在无穷小模型或额外遗传成分(例如显性和遗传相互作用(上位性))的假设下得出的。声明为随机的其他因素可能是牧群(群),重复测量应用中的永久性环境效应以及与同窝幼仔共同的环境效应。随机效应有助于表型之间的相关性(由于遗传和环境相似性)或纵向记录之间的相关性。随机效应的分布由遗传和环境离散参数编制索引,例如方差和协方差的组成部分;后者出现在多元模型中,或者当多元结构嵌入到单响应变量的模型中时,例如遗传母体效应。这种设置导致了许多用于估计方差和协方差分量的程序的开发(7, 59-61)。固定效应代表未知常数,这些常数在每次假设重复实验中都具有相同的值;声明一个效应为随机意味着它是从统计分布中抽取的,因此实现值会随着重复而改变,例如在抛硬币实验中。然而,正如前面所解释的,公畜的育种价值是一个固定的实体,但是每次形成配子时都会从这只公畜中抽取一组不同的等位基因的样本(除非公猪是完全近交的),从而产生遗传上不同的后代。
对公猪进行随机效应处理有一些原因:当在固定效应假设(11,62)下可能并非如此时,它使育种价值可估计,它在均方误差意义上产生更稳定的估计,它缓和了未来记录预测中的过度拟合,并且即使对于没有记录的个体,它也允许关于育种价值的概率陈述。在当今的基因组标记时代,必须将后一种效应视为随机,因为要推断的数量(p标记效应)远远超过样本量(n),这与动物模型出现的情况没有区别,在那里育种价值的数量也超过了样本量。然而,当n < p时存在微妙的推理问题,动物育种者经常忽略这些问题,试图通过统计建模来揭示遗传结构(5)。一个矛盾之处在于,定量遗传学的基本模型假定基因型是随机的,替换效应是固定的,但全基因组预测模型使用实现的基因型(即固定)和随机标记效应。这种矛盾必须牢记,以便正确解释诸如基因组遗传力和性状之间的基因组相关性等概念(63)。
大多数情况下,模型功能形式是线性的。实际上,在Henderson (10)之后,下面的规范(或多或少)成为一种灵丹妙药,无论性状和物种如何:固定的当代群体,固定的遗传群体和随机的加性效应,再加上残差。这种直线观点的原因是,基本的定量遗传模型对未知位点的影响是线性的,线性模型在分析和计算上是可处理的,并且加性模型导致代数产生A矩阵的稀疏逆(64)。正态性的额外假设产生闭式似然函数,促进方差分量推断(59,65)。除了一些例外,适当的建模需要计算大量的线性方程来评估育种价值,并且方程越多越好。Feldman&Lewontin(66)指出,遗传数据的线性模型不应被视为局部近似值,Kempthorne(67)强烈反驳了这一观点。尽管方便,但线性并不总是一个合理的规范,例如,在分析生长和泌乳曲线(68)时,这是动物育种中一个重要的领域。然而,非线性轨迹可以用线性样条或再生核(69)来重现,尽管代价是这要放弃关于泌乳和生长(70)的优美理论。Feldman和Lewontin(66)提醒我们,统计遗传模型和自然状态往往是不同的实体。
关于观察结果和随机效应的联合分布形式的假设可能会对分析产生重大影响。在动物育种模型构建中,最广泛使用的假设是正态性。这是因为人们认为有大量的基因以无限小的替代效应加性作用。然而,这个模型可以被推翻:当位点和等位基因数量无限时,发现显著效应的概率应该为0。标记辅助选择(MAS)(71,72),将QTL抽象引入动物育种,提供了一个反驳。然而,随后的分子信息表明,许多基因共同作用于定量性状的假设并非不合理,至少在许多情况下是这样。例如,使用遗传标记,Zhang等人(73)报道了影响牛奶中脂肪百分比的QTL位于2、6、14、26和28号染色体上,并且在许多物种中都有类似的报道。QTL行业一直很有成效:Animal QTLdb(http://www.animalgenome.org/cgi-bin/QTLdb/index)发布的一份报告(日期为2014年4月23日)显示,经过策划的QTL数量分别为:10,497头(猪),9,180头(牛),4,282头(鸡)和798头(绵羊),马中的QTL为0,因为没有关于马科动物的论文发表。一些用于标记辅助遗传评估的统计模型需要了解未观察到的QTL与标记之间的重组率(74,75)。这些QTL是什么(一个基因组区域?)尚不清楚,在QTL毕业前调整Koch's postulates进可能是有用的:(a)QTL的不良变体必须在病例(患病或极端表型)中大量发现,但在对照中没有。(b)在案件中必须对QTL进行分子鉴定和克隆。(c)不良等位基因在渗入对照组时应引起疾病。(d)应从这些对照中重新克隆不良等位基因,并核实其与a中确定的等位基因相同。这些标准是在十九世纪反战起来的的,除了一些特殊情况(76)外,尚未得到应用。
并不总是清楚一个假定的QTL何时以及如何成为一个合法的QTL,因此在用于遗传评估的模型中使用时应谨慎。将QTL映射与来自选择性扫描分析的大量序列扫描并置可能有助于这一过程(77)。在许多物种中发现了如此多影响如此多特征的QTL,这表明Fisher大致正确。然而,Fisher从未建议人们应该自动从单变量跳到多变量正态性(如在多重性状分析中),除非满足某些条件。无论如何,大多数遗传相关性估计都是从具有明显不同边际分布(例如,产犊难易得分和妊娠期)的性状的多元分析中获得的。如果目标仅仅是描述性的(例如,如果x增加,则y减少)或预测性的,那么这种违反理论的情况,也许是次要的,但这并不是统计科学的最佳使用。
上位性
该理论提到了两种类型的非加性(即等位基因效应之间的统计相互作用)基因作用:显性和上位性。即同一位点上等位基因之间的相互作用,主要在杂交方案的背景下讨论;Gowen(78)回顾了二十世纪中叶的技术状况。在这本书中,Comstock和Robinson提出了北卡罗来纳设计I、II和III,用于估计基因的平均显性,但随后并没有发展出太多有用的理论。这本书还包含了一个具有历史价值的章节,由Henderson撰写,因为它似乎是他混合模型方程(标量形式)的首次出版说明;Rohan Fernando在伊利诺伊大学学习时发现了这一点,甚至Henderson也感到惊讶。显性的实际利用主要是交配方案问题。此外,当将显性效应视为随机时,很难在一个群体内获得相应方差的精确估计,因为数据必须包含来自两个血统等位基因的亲戚,如全同胞或双表亲。可以使用显性关系矩阵A来估计显性方差(在没有近交的情况下),该矩阵是从A的条目构建的。在近亲繁殖下构建很复杂,正如Smith和Mäki-Tanila(79)所示。动物育种者经常试图通过使用加性模型来解释杂种优势或近交衰退,从而导致矛盾。品种杂交的模型通常是固定效应。最近,Sun等人(80)重新审视了使用SNP标记物进行配偶分配,并估计了显性基因组方差,如参考文献81所示。这种标记显性方差与遗传方差之间的关系必须澄清,因为标记物不是QTL。
关于上位性的文章很多,讨论也经常在语义方面(82)。费舍尔(30,第408页)在讨论双位点上位时写道:
这种双重上位性,我们可以称之为这样,是我们唯一要处理的那种。毫无疑问,可能存在更复杂的联系,但是仅由双重上位性引入的未知数数量(四个)超过了现有数据所能确定的数量。此外,任何不同于我们正在考虑的性质的统计效应,实际上都是由更复杂的联系产生的,这是非常不可能的。
假设没有显性、HW和连锁平衡,可以通过对每个基因座上等位基因数量的表型(y)建立线性回归模型来直观地获得上位性。
其中X1和X2表示给定位点中A等位基因的拷贝数,E(.|.)是条件期望。如果回归系数为零,则有一个加性模型(无上位性)。等位基因替对位点1的影响对应于:
表明它取决于位点2的拷贝数,即上位性。整个群体的性状平均值是
所以
与育种价值类似,上位性也是频率依赖的。根据Hill等人(83)的观点,前面的内容说明当等位基因罕见时,频率变化引起的平均值变化主要由加性项控制,除非很大。实际上,即使上位性涉及到性状的生物学,大多数遗传方差通常也是加性的。
然而,后者必须是这样的,因为复杂性状是协同代谢反应的结果,其酶由不同的基因编码,而Michaelis-Menten动力学决定了底物浓度和反应速率之间的非线性关系,从而以某种非线性方式影响基因产物的输出。最近关于数量性状大量上位的证据由参考文献84和85使用基因组数据给出。此外,高阶上位似乎并不总是可以忽略不计的。例如,Taylor和Ehrenreich(86)报告了酵母中五个基因系统之间的相互作用。然而,Hill等人(83)的结果表明,相当大的上位转化为很小的上位方差。一个推论可能是,如果上位性在生物学上很重要但并没有转化为更多的加性方差,那么方差分量作为遗传结构探测器的极限就会被放置于平台期。这样的分析将否定它是什么并解释它不是什么。Lush(19)通过指出选择上位效应就像在海滩上建沙堆一样给育种者提供了安慰:波浪(例如,重组)最终会把沙堆抹平。动物育种者一直能够通过专注于育种价值并忽略上位性来取得进展。
尽管Fisher(30)提到了上位性,但直到Cockerham(87)和Kempthorne(88)将这种相互作用的方差划分为所谓的上位性分量时才有所改变。Cockerham采用正交多项式,而Kempthorne使用了Malécot(35)发展的同源(血统恒定)概率。他们的假设包括一个大的泛配群体和缺乏连锁。然后,上位性方差分解为几个正交分量,具体取决于参与表型表达的基因座数量。例如,对于两个基因座,上位性方差是加性×加性、加性×显性、显性×加性和显性×显性之和。Henderson(89,90)利用这个结果来推断显性和上位遗传效应,并通过BLUP预测总遗传价值,这个话题将在后面讨论。
其他遗传效应的模型
在1960年代,人们对几种牲畜的母体遗传效应非常感兴趣,例如肉牛,猪,甚至鸡,此后发表了许多论文。基本思想是,即使母体的影响相对于拥有性能记录的后代是环境性的,但母亲之间的差异可能部分是遗传的。Willham(91)和Falconer(92)提出了两个重要的模型。Willham的(91)规范在单变量结构中嵌入了多变量。这个结果是通过假设一个直接的遗传效应对表型产生影响,这种效应特定于后代,而母体遗传效应虽然特定于母体,但起到了环境因素的作用。
如果直接和母体遗传效应相关,则遗传方差包括直接和母体遗传效应之间的协方差,从而形成多元结构。许多肉牛遗传评估方案使用Willham的变体。在Falconer(92)中,母体表型作为协变量进入后代记录模型,允许将后代表型与母体和祖母的表型联系起来。Koerkhuis和Thompson(93)建议采用一个综合模型。Van Vleck(94)写了一篇关于具有母体和祖母效应的模型的可读性说明,并在提到这些或类似来源的的变异来源时使用了“嵌入字符”这个术语(注,模型中嵌入了其他遗传效应,例如母体和祖母效应,以解释表型变异的来源。)。参考文献95提供了一个有用的回顾。
Skjervold和Fimland(96)提出了一个类似于Willham的模型,其目的是考虑母牛所携带的胎儿对其产奶量的影响,这是奶牛中报告的一种现象。Van Vleck(97)改编了Willham的模型,使表型方差包括加性直接遗传方差、胎儿效应的加性方差和加性直接与胎儿效应之间的协方差。还提出了细胞质效应的模型(雄性不将线粒体基因传递给后代)(有关文献,请参见94、98、99)。最近,Muir(100)和Bijma等人(101)解决了群体选择问题,并引入了一个模型,Bijma(102)详细讨论了这个模型,在他的论文中,对于一个大小为n的群体,个体的表型受到其遗传价值和来自n-1个群体成员的影响,称为关联效应。这些文献还使用了社会效应和交互效应(代替关联效应)这些术语,但这具有误导性:模型中没有交互。这个问题从动物福利角度引起了人们的兴趣,但需要更真实地表示基因型之间的竞争或相互作用。Wright(103)关于互惠效应的工作可能会成为灵感来源,并且有关于经济学诺贝尔奖主题(104)的计量经济学文献,使用变量之间的同时性概念来解决相互影响。
在20世纪80年代,一个非常感兴趣的问题是环境中异质方差的问题。Hill(105)发现,例如,如果环境方差在畜群之间是异质的,并且遗传评估假定同方差性,则会从最可变的环境中选择过多的个体。这启动了大量关于适应异质分散的模型的研究,但兴趣逐渐消失,尽管问题仍然存在并且在基因组选择中也可能很重要(大多数模型假定残差方差均匀)。
表观遗传学在统计动物育种中受到的关注很少,其在家畜中的相关性记录在参考文献106中。表观遗传学指的是基因表达的遗传可传递变化,这些变化不是由于DNA结构引起,例如胞嘧啶的差异甲基化。最著名的表观遗传机制之一是基因组印迹:如果基因在雌性或雄性生殖系中被印迹(由于差异甲基化),则胚胎携带该基因的单个有效拷贝。目前尚不清楚复杂性状的方差有多少百分比与印迹有关(可能是由于缺乏数据),但早期证据表明它可能不多。Neugebauer等人(107)开发了一种基于谱系的模型,具有父系和母系印迹加性效应,并允许它们之间的协方差,并分析了超过65,000头德国Simmental公牛的10个性状的数据。他们发现,在最多情况下,印迹解释了25%的加性方差,假设他们的模型能够实现预期目标。如何通过了解印迹来改善表型或育种价值预测仍有待观察。
最佳线性无偏预测(BLUP)
概述
育种价值的“预测”或“估计”在家畜改良中非常重要。这种措辞在该领域造成了混淆,因为从统计学角度来看,估计一个随机量是无意义的,在我们的例子中,u是无穷小的加性效应。预测传达了一种未来的含义,但在动物育种中,人们通常对排名候选者(例如公牛)感兴趣,与一些可能尚不存在的候选者(例如公牛)一起进行排名,例如公牛A和母牛B之间交配的未来结果。Lush(55)使用路径系数给出了评估奶牛种公牛遗传优势的公式,假设均值和遗传和环境方差分量是已知的。他发现需要回归平均值,即收缩。Robertson(108)表明Lush的统计量是人口信息和数据之间的加权平均值,预示着贝叶斯解释。简而言之,让s成为传递能力(育种价值的一半,TA)的公畜,并假设TA在某个群体中的分布是s∼N(m,vs),其中括号中的数量是正态分布的均值和方差。进一步假设后代中测量记录的模型为y = μ s e,其中μ是已知的总体均值,e是残差,假定具有独立于 TA 的正态分布,并且均值为 0 和方差 ve。如果这只公畜有n个后代,平均产量(偏离μ),则这个偏差与m的加权平均数产生了一个估计的TA。
这里,比率,其中是狭义遗传力;之所以出现4,是因为记录之间的内部关联是遗传力的四分之一。前面的方程是在给定后代记录的情况下,公畜TA的条件分布的均值。而
是一个回归系数(不是最小二乘意义上的),介于0和1之间。b的取值取决于公畜的信息量(n)和不确定性的度量是:
这等于,Henderson(9)称之为预测误差方差。
这个表达式还给出了上面提到的条件分布的方差。Dempfle(109)和Gianola & Fernando(110)后来证明,和分别是公畜TA的后验分布(贝叶斯)的均值和方差,假设已知方差和正态性。贝叶斯方法在动物育种中一直是禁忌,直到20世纪90年代,因为这些想法没有在生物统计课程中教授,主要是由于Fisher和尤其是Kempthorne的影响,他们对这些方法持否定态度。Blasco(111)从动物育种的角度介绍了一些问题的历史,Grosu & Schaeffer(112)描述了更简单(但过时)的方法的历史进程,例如女儿-母亲比较,当代比较和累积差异。
前面提供了一个由Henderson(8,9,11)发展的预测的一般理论的典型示例,尽管它主要适用于线性模型。Henderson(9)引入了最佳预测器(BP),最佳线性预测器(BLP)和最佳线性无偏预测器(BLUP)。BP是数据的函数(线性或非线性),它最小化预测的均方误差;答案是条件期望函数。计算BP需要知道表型和遗传值的联合分布的所有参数。已经证明(26,113),BP提供了一个最优排名规则:如果使用BP对n个个体中的r个进行排名,则通过选择改善的不可观察量的平均值最大化。BP的一个简单示例是上面的,但该过程也适用于给定观察表型向量时预测遗传值向量。在BLP中,对最佳性的搜索仅限于线性预测器,并且可以简单地通过假设多元正态性获得相同的答案。BLP的一个特殊情况是Smith(114)和Hazel(115)在植物和动物育种中的选择指数。假设您希望预测线性聚合遗传值Mu,其中u~(m,G)是一组动物(或植物)中一个或多个特征的加性遗传值向量,M是包含经济权重的适当阶数矩阵,反映每单位遗传输入的利润;(m,G)表示u分布的均值向量和协方差矩阵。信息来自分布为y~(u,V)的表型。结果是BLP(Mu)= MBLP(u),其中BLP(u)= m Cov(u,y’)V-1(y-u)。将B设置为Cov(u,y’)V-1会产生Smith-Hazel方程,Smith(114)为所有个体在基因上都不相关且每个个体都测量了p个特征的特殊情况而开发;Hazel(115)使用了路径系数。Henderson将其设置称为平等信息案例,经典选择指数是BLP的一个特殊情况,并且进一步,经济权重M仅在计算BLP(u)后才干预计算。这是一个线性不变性属性(也适用于BLUP),并且它的第一个报告应用是使用来自威斯康星州农场的数据选择羔羊(116)。这是由A.B.Chapman(1908-2004)组织的记录程序,他是Lush的前两名学生之一,并且受到Sewall Wright的极大影响。无论如何,BP需要知道V,,m(通常设为0)和y的平均值。
一个关键的突破是BLUP的发展。Henderson假设预测量(u)和表型的方差-协方差结构是已知的,但,表型的均值向量是未知固定向量和已知发生矩阵X的线性组合。BLUP 在线性无偏预测变量类中搜索预测误差方差最小的线性预测因子,从某种意义上说,预期的预测变量的值等于u的期望值,通常是一个育种价值的随机向量。通过将育种价值和表型联系起来,得到了一般线性模型,其中X和Z是已知发生矩阵,u~(m,G)和e~(0,R)是不相关的随机向量,G和R是方差-协方差矩阵,它们是(已知)离散参数的函数。向量u还可以包括群体效应和非加性遗传效应、对同一动物所有记录都通用的永久环境偏差,并且发生矩阵允许任何类型的协变量,例如纵向模型中的时间变量。该设置适用于任何线性模型,单变量或多变量,横截面或纵向。在这种模型下,表型的方差-协方差矩阵为,并且
,其中是固定向量的广义最小二乘估计量。这里,m被假定为已知,但它可以被赋予一些线性结构(如遗传组模型)并作为未知数包含在模型中。注意,如果Z是单位矩阵且m = 0,则,其中是一种遗传力矩阵。这就是著名的动物(加性)模型,在遗传学上,它是Fisher无穷小模型的向量表示,它提供了某种意义上固定和随机效应的最优估计。
混合模型方程
Henderson在一次偶然的错误中发现了著名的混合模型方程,这些方程通常可以用来计算BLUP;参见参考文献9。简而言之,通过使用正态性假设,标准混合效应模型下的u和y的联合分布, 假设离散矩阵 G 和 R 是已知的。如果同时最大化固定和随机效应的联合密度,则会得到线性方程组。
其中,-解和-解后来被证明的最大似然(ML)估计量(在正态性下)和的BLUP。后者也是BP的估计量(在正态性下),其中固定向量被方差分量的ML估计量替换。混合模型方程在n很大时特别有利,因此暴力求V的逆不可行,或者当G的逆容易获得时,因为u效应的数量可以超过n,即样本大小。Henderson等人(117)错误地认为最大化了似然函数,因此这些解被称为和的ML估计量。后者向量不能被估计,因为它是随机的,并且它的数量级别可能超过样本大小,因此似然函数未被识别。今天,我们知道Henderson最大化的目标函数在某种贝叶斯设置中是一个联合后验密度,或者是一个惩罚或扩展似然。Henderson(个人交流)在20世纪60年代初在北卡罗来纳州的一个统计会议上介绍了他的推导。其中一位与会者,著名统计学家C.R. Rao指出,目标函数不是似然,并且Kempthorne对BLUP的收缩特征感到困扰,这导致了已识别模型中估计偏差。然而,另一位参与者Irwin Bross(1921-2004)观察到这是一个合法的贝叶斯程序。Henderson评论说:“我几乎从讲台上摔下来”(C.R. Henderson,个人通讯)。
Henderson的理论,尤其是BLUP,是动物育种中第一次出现的一个全面的预测范式。在BLUP之前,奶牛公牛的评估是基于牛群配偶方法、回归最小二乘法和当代比较法或其变体(112),这些方法都是通过最小二乘法对数据进行校正,由此产生的偏差通过选择指数理论回归。这些方法是由美国农业部的生物统计学家Walter Harvey和Alan Robertson倡导的。Walter Harvey编写了一个最小二乘程序(118),在动物育种中广泛使用;后来,一个混合模型软件包(119)叫做LSML76,包含了一个BLUP选项,不正确地称为最大似然法。
动物育种者经常误解BLUP的无偏性。这种方法在概念上重复抽样分布下是无偏的,但在 (5)下不是无偏的。后者是实践者心目中的分布,即u是已实现的育种值的向量。BLUP给出了特定育种值的有偏预测,但这种偏差可以消失,例如,在公畜模型中,通过让每个公牛的后代数趋于无穷大。这可以从Robertson的加权平均中看出:当n趋于无穷大时,回归系数趋于1,最终得到公畜的真实遗传能力。当要推断的育种值的数量超过样本量或者当一些个体甚至没有表现记录时,这种渐近特性很难证明是合理的。
解混合模型方程
在动物育种中,一个明显的困难是在u的阶数巨大时(例如,在美国常规的奶牛遗传评估中)对G进行求逆(除非这个矩阵具有可利用的模式,如块对角性)。例如,如果u是多重性状模型中的加性效应向量,那么,其中是Kronecker积,的阶数等于性状数(比如说12),动物之间的加性遗传关系矩阵非常大。这里,。在一个了不起的突破中,Henderson(64)发现A-1可以直接从动物父母的列表中写出。这使得在遗传评估中使用所有可用的关系成为可能,从而更精确地推断遗传值,并有可能纠正由于选择或忽略关系而导致的方差分量分析中的一些偏差。最佳线性无偏估计和BLUP的混合模型方程已经在全球范围内用于家畜遗传评估,主要是因为在计算算法领域做了大量工作。线性系统的阶数可能非常大,特别是对于多变量模型,因此需要开发迭代方法。当每只有生产记录的动物都拟合一个随机加性遗传效应,并且包括没有记录的动物时,也会出现这种维度问题,以便正确处理亲戚之间的遗传协方差。早期迭代方法的实现是在康奈尔大学使用东北部公牛比较方法(9)完成的。这本质上是一个聚类模型,在混合模型方程中对角项占据了主导地位,所以高斯-赛德尔算法具有保证收敛性。后来,提出了更合适的方法,例如对数据(120,121)的迭代。
BLUP在欧洲比在美国更早地被用于奶牛的遗传评估。这种延迟主要是因为美国农业部使用了一种称为修正当代比较的方法,尽管它在理论上不如BLUP吸引人,但可以以可行的方式计算。1988-1989年,乔治·威根斯(George Wiggans),华盛顿动物改良计划(USDA)的奶牛饲养员,在伊利诺伊大学假期,该校已成为国家超级计算中心,并与Ignacy Misztal合作。这两位科学家是推动美国使用动物模型的主要力量。其他主要贡献者包括Karin Meyer、Steve Smith、Bruce Tier、Hans Graser和Arthur Gilmour(澳大利亚);Brian Kennedy(1943-1994)和Larry Schaeffer(加拿大);Just Jensen和Per Madsen(丹麦);Esa Mäntysaari、Martin Lidauer和Ismo Strandén(芬兰);Vincent Ducrocq和Andres Legarra(法国);Eildert Groeneveld(德国);Robin Thompson(英国);Ignacio Aguilar(乌拉圭);以及Dick Quaas、Paul Van Raden、Curt Van Tassel、Dale Van Vleck和Keith Boldman(美国),等等。奇怪的是,混合模型方程在统计理论文献中出现得很晚且很少见(65, 122-124)。这令人惊讶,因为这些方程可以用来优化计算广义混合效应线性模型中方差分量估计的算法(125-127)。
遗传参数估计
动物育种中的重要公式,如预期的直接和相关选择反应,取决于遗传和环境方差和协方差分量的知识,这些分量转化为遗传力和遗传相关性。对于育种价值的预测也是如此,因为BLUP假定遗传参数是已知的,没有错误。在过去的六十年中,已经开发了许多用于估计这些参数的方法,但由于缺乏普遍性或统计最优性质,只有少数方法经受住了时间的考验。基于最小二乘回归(类似于高尔顿)或不同类型亲属之间的乘积矩相关性的方法现在被视为过时。Hofer(128)回顾了在20世纪末应用于动物育种的程序。
如今,大多数动物育种数据来自现场记录,而不是随机研究。在动物育种中,数据集庞大、无结构、不平衡且包含错误和偏差来源,如未记录的优先处理。数据最终在区域或国家中心进行处理,那里存储着谱系库和现在的大量DNA标记信息。需要统计方法来考虑这种混乱,其中一个目标是将信号(遗传价值)与噪声(其他所有内容)分开,这因存在大量令人讨厌的参数而变得复杂,(例如牧场-年-季节类别)。Lush、Hazel和其他先驱使用的更简单的方差分析类型方法缺乏普遍性。Henderson(7)在一篇关于方差和协方差分量估计的经典论文中,描述了三种用于不平衡数据的方法:一种是纯随机效应模型,另外两种是混合效应模型。最通用的方法3计算了一系列(通常不唯一)基于数据的最小二乘二次式,并将其等同于模型下的期望值。如果规范成立,该方法会产生无偏估计量;然而,关于它们的统计性质(例如抽样分布)知之甚少,因此很难构建置信区间。不幸的是,这些程序可能产生负遗传力估计,并且如果扩展到多重特征设置,则会产生具有负特征值的协方差矩阵估计。超出参数空间的估计是荒谬的,无论程序是否无偏。方法3被实现在广泛用于动物育种的软件中(118,119)。Searle,一位在Cornell工作的新西兰统计学家(1928-2013),澄清了Henderson的方法并以矩阵形式呈现了这些方法(61,129)。动物育种中矩阵代数的常规使用始于20世纪70年代;正如Henderson(9, p. 10)预测的那样,“下面所述的大部分内容都采用矩阵符号,为此我没有任何歉意,因为这已经迅速成为任何认真的动物育种学生的必备工具。”这一声明曾被一些人持怀疑态度,但如今,在动物育种领域很少看到不使用矩阵代数的论文。
遗传参数估计的另一个时代始于Rao(60)和LaMotte(130)分别引入了最小范数二次无偏估计及其最小方差版本(在正态下)。通过使用大量的矩阵代数,Cornell的许多工作都是将这些估计量表示为混合模型方程的解,因为原始表示中需要表型协方差矩阵的逆。这些方法需要知道真实参数才能达到最优,这是一种自我挫败的练习,但如果迭代这些程序,结果会令人满意。尽管它们比方法3更先进,但使用这些程序仍然可能得到方差分量的负值或令人尴尬的协方差矩阵估计值。然后,在正态性假设下的ML成为了一个焦点。ML可以追溯到Fisher(131),他引入了似然作为信念的合理度量,而不是概率;后者如果以贝叶斯方式表述则是一个危险的概念(111)。
Hartley和Rao(59)以及Harville(65)的论文是关于方差分量的ML估计的序曲。随后,许多ML估计算法通过使用混合模型方程(11, 65,132)推导出来,包括著名的EM算法(133)。动物育种中向基于似然的方法转移是否是由于混合模型方程(迭代使用,因为大多数模型的ML估计量不能显式写出)可以计算新东西的结果,还是由于该方法的大样本性质的吸引力,这一点尚不清楚。在参数空间内获得估计在概念上是重要的,因为研究人员将遗传力的负估计解释为支持假设不存在可恢复的遗传变异的证据。这是错误的,因为人们可以模拟具有非零遗传方差的数据并获得负估计,仅仅是因为无偏性是一个弱且可能被高估的性状。Henderson经常对人为的标准错误持保留态度,例如Harvey包中呈现的那些,这并非没有道理,因为所使用的公式很少适用于混合模型。ML也提供了一个解决方案,因为可以作为副产品获得模型特定的渐进置信区间。
尽管有偏差,但ML估计量最吸引人的性质是它的一致性:当信息含量无限时,假设模型成立加上一些额外的条件,它接近于真实值。然而,回归模型中残差方差的ML似然估计量的众所周知的向下降偏差使一些研究人员感到不安,并引发了对一种称为残差或限制最大似然(简称REML)方法的广泛兴趣。基本思想可以追溯到1950年代初,但Patterson和Thompson(122)给出了更通用的描述,适用于混合效应模型。REML是一种先进的尝试,旨在解决在估计固定效应时损失自由度的问题,这将减少估计值的偏差;即搜索缺乏偏差似乎是驱动因素。Patterson和Thompson(122)指出,对似然性的修改导致了类似于ANOVA中那些估计方程,至少在平衡布局中是这样。逻辑并不完全是笛卡尔式的:消除偏差总是以减少估计精度为代价。统计学中一个众所周知的现象是偏差-方差权衡:偏差减少方差并且经常减少估计的均方误差。Meyer和Kirkpatrick(134)在一篇使用惩罚ML(REML)的动物育种论文中认识到了这一点。惩罚旨在减少均方误差,但实际上人们很少知道给定数据集的最佳惩罚是什么。
很难在REML和ML之间进行选择,因为这两种方法具有完全相同的渐近特性。Harville(135)后来为REML提供了更有说服力的证据,表明它是方差参数的(贝叶斯)后验分布的模式,在联合后验分布中将固定效应(在不适当的均匀先验下)积分掉后,这与似然函数成正比。在分层或方差分量模型中,ML和REML都是有偏差的,因此专注于偏差只是不公平的。一般来说,在这个意义上,任何有利于 REML 的东西都可以通过估计器精度的损失来补偿。它的贝叶斯解释表明,如何通过积分解决固定效应(作为麻烦参数)的不确定性,这一点令人信服(对某些人来说),比许多基于似然性剖面的复杂论点更清晰。REML逐渐成为估计遗传参数的首选方法,此后不久出现了多性状的基因化。Robin Thompson是一位对动物育种感兴趣的英国统计学家,在这个过程中扮演了重要角色,并为REML软件开发做出了很多贡献。简而言之,在Henderson的BLUP之后,ML和REML的出现是动物育种统计方法学中的下一个重大突破。这也对统计培训产生了影响,因为动物育种者意识到需要理解联合和边际分布才能理解似然函数。训练有素的动物育种者现在至少需要两个学期的研究生水平数理统计学。
在后REML世界中,仍然有一个重要的问题有待解决,即当终点是预测时,估计遗传参数的最佳方法是什么。对于估计方差分量(参数永远不可观察,因此人们只能依赖理论论证)来说,一种好的方法可能不适用于预测可观察量,例如后代平均值或表型。在这种情况下,可以通过适当设计的交叉验证来校准预测质量,例如目前在基因组选择的交叉验证。由于交叉验证后来才出现,因此论点仍然是理论性的。例如,Gianola等人(110,136)采用了贝叶斯思想来回答这个问题,并认为REML提供了一个合理的近似解。在20世纪90年代末,动物育种数据分析的最新技术是REML BLUP串联。REML具有似然性证明,而BLUP具有频率主义证明。这种重组是否产生了最佳预测性能的问题仍然悬而未决。答案似乎是否定的,至少由Harville和Carriquiry(137)所示。
动物育种中的贝叶斯思想
在20世纪的大部分时间里,频率主义和基于似然性的方法主导了动物育种中的统计观点,因为统计学的教学重点是这些方法。由于Savage(1917-1971)、Lindley(1923-2013)和Box(1919-2013)等统计科学家开始质疑该领域的基础,贝叶斯思想在世纪中叶重新进入统计学领域。James和Stein(138)的工作提供了动力:这些作者表明,在正交线性模型中具有至少两个参数的向量的ML估计器总是不如缩小估计的估计量(均方误差意义上),后来被证明具有贝叶斯解释。然而,这项工作过于程式化,无法吸引动物育种者的注意,因为该领域已被BLUP和REML所代表的pensée unique所主导。尽管如此,Lindley和Smith(139)在Henderson混合模型和分层贝叶斯方法之间的联系,Box和Tiao(140)提供了有助于将贝叶斯主义付诸实践的技术细节。
贝叶斯方法为所有未知数分配先验分布,包括模型、广义线性模型中的链接函数和协方差矩阵。先验分布与数据结合,得到一个后验分布,通常是多维分布,传达修订后的知识状态。边际和预测分布以及经典假设检验的对应物都基于后验概率。估计、预测和模型评估都基于单一公式,结果总是以概率的形式传达,便于解释。需要进行多维积分才能获得精确结果,这限制了全贝叶斯方法的使用,直到采样算法出现并且可以在不知道后验分布的情况下获得样本。有争议的一点是,先验分布是任意确定的,特别是在具有许多参数的问题中。贝叶斯结构的灵活性、优雅和力量在先验方面有其致命弱点,并且只需检查基因组选择文献就可以看到如何通过选择更多或更少任意的先验和超先验(凭空产生)来构建一系列模型,这些超先验来自对遗传结构的某些天真期望(5)。
对动物育种中贝叶斯方法的兴趣可能源于统计学家Daniel Solomon在康奈尔大学举办的一次研讨会,他讲述了如何将选择指数视为贝叶斯程序。Henderson(个人通讯)表示,这次演讲促使Rönningen(141)调查BLUP和贝叶斯思想之间的联系。Dempfle(109)进一步追求这个问题,表明BLUP是最小二乘估计量和先验分布的均值向量之间的矩阵加权平均值,代表了对种群中遗传效应分布的知识,沿着Robertson(108)的思路。后来,Gianola&Fernando(110)建议将贝叶斯方法作为一种通用推断方法来解决许多动物育种问题,无论是线性还是非线性,即使存在关于遗传参数的不确定性。
动物育种的早期应用使用高斯近似来联合或部分边缘化后验,因为进行所需的积分存在技术困难。随着马尔科夫链蒙特卡罗(MCMC)采样方法的出现,贝叶斯方法的力量和灵活性得以充分利用。最流行的MCMC方法一直是吉布斯采样器,尽管它只能在某些条件下使用(142)。吉布斯采样首先由Guo和Thompson(143)在数量遗传学中使用,然后由Wang等人(144)在动物育种中使用。此后,许多使用MCMC的论文发表,特别是在基因组选择方面,这个话题将在后面讨论。使用贝叶斯度量来评估设计实验中的遗传趋势是一个有用的发展(145,146)。趋势评估在动物育种中很困难,而似然-频率串联方法只能给出近似答案,即使在正态性假设下。结果严重依赖于输入的遗传参数,正如Thompson(147)所证明的那样。此外,获得估计趋势的标准误差并不容易,因为选择改变了表型和遗传值的分布。贝叶斯方法在忽略选择的条件下估计遗传变化度量的后验分布。Sorensen等人(148)提出了一种监测选择过程中加性遗传方差演变的方法。贝叶斯方法随后在遗传学的许多领域中得到应用,如基因定位、QTL检测、群体分化、系统发育分析、序列比对和动植物育种中的基因组选择。动物育种者是先驱,但道路并非没有石头。
非线性模型,生存分析和纵向数据。
混合线性模型方法的原则是逐渐建立的,但线性模型虽然有用,但并不总是一个明智的统计规范,特别是对于被截断或受到审查的特征。例如离散变量(全有或全无),通常用于生育力和疾病特征,以及生产寿命或生存时间。因此,挑战仍然存在,并且通过建立在混合模型方法的基础上来解决这些问题。在20世纪80年代和90年代,动物饲养者更多地了解统计研究文献,并且更好的数理统计培训使他们能够超越最小二乘法和BLUP。下一个挑战是应对非线性。
分类和计数响应变量
在二十世纪末,动物育种家们使用线性模型来处理离散变量,即使这引起了统计学家和一些遗传学家的担忧。事实上,这些模型今天仍在使用。Wright(149,150)已经提出了发生等位基因替换的潜在尺度的想法,并引入了概率,二分类数据的逆概率转换,以及有序分类响应的阈值模型,例如豚鼠杂交的位数。Dempster&Lerner(151)已经表明,0-1数据的线性模型分析受到问题的困扰,例如频率相关的估计,导致对遗传参数的错误解释。Falconer(152)开发了一种简单而优雅的方法,用于在这样的潜在尺度上推断遗传力。汤普森(153,第350页)说,“我对使用这些二分类特征的线性模型感到不安”,并提出了一种直观吸引人的方法来使用二进制数据进行混合模型预测,但没有正式的理由。
尽管用于参数估计的ML估计已经嵌入到广义线性模型(154)的框架中,但尚不清楚在遇到0-1或分类评分变量时如何并行混合线性模型。
在1980年代,有三篇论文提出了阈值模型的解决方案,但没有提供一种理论上清晰的方法来同时估计遗传参数,就像BLUP-REML分析一样。Harville & Mee(125)和Gianola & Foulley(155)解决了混合模型中固定和随机效应的推断问题,用于二元和有序分类响应。这两种方法在预测育种值和估计固定效应时给出相同的答案,并且在数据为高斯而不是离散时产生BLUP。他们的技术类似于Henderson等人(117)在推导BLUP时使用的技术,尽管采用了贝叶斯或半贝叶斯框架。对于有序分类数据,假设存在一个称为负债的潜在高斯变量,该变量遵循混合效应线性模型。如果负债介于两个连续阈值之间,则相当于相应响应类别中的观察结果。Gilmour等人(126)基于广义线性模型的思想提出了一种不同的方法来处理二项数据。
在这里,在整合遗传效应后估计固定效应,但假设责任量表中存在已知的遗传方差;遗传方差和遗传效应是通过与混合线性模型的类比来推断的。当模型是线性的并且方差分量已知并且需要使用一组重新加权的 MME 进行迭代时,此方法也会产生 BLUP,因为估计方程不是显式的。程序(125,126)在数据为高斯时产生REML。Sorensen等人(156)在贝叶斯处理中提供了更一般的解决方案。Sorensen等人(156)在基于吉布斯抽样的有序多分法的贝叶斯处理中提供了一个更通用的解决方案。许多国家现在使用阈值模型进行常规遗传评估,遵循这一基础研究加上大量的软件开发。Misztal等人(157)报告了早期可用的程序之一。
扩展适用于具有高斯和分类响应的模型(158),多变量二元响应(159),以及分类响应变量(例如,存活)取决于具有泊松分布的计数(例如,窝大小)的模型(160)。Tempelman&Gianola(161,162)提出了一个用于计数数据的非线性混合模型实现,该模型利用拉普拉斯积分来近似遗传方差的边际后验分布。从历史上看,前面的工作表明,动物育种已经超越了BLUP强加的线性限制,尽管线性方法通常足以令人满意地对候选者进行排名以供选择。
生存分析
生存分析在医学科学中具有明显的重要性,但直到1980年代才在动物育种中受到重视,当时人们开始关注功能性特征。其中一个特征是动物的生产寿命长度(163,164)。Famula(165)提出了一种带协变量的指数生存模型,下一步是将生物统计学和工程学中使用的比例风险模型适应于定量遗传学的需求。风险函数是在时间t时瞬间死亡的概率,前提是个体已经存活到时间t,关键在于以一种允许亲属之间相关性的方式对风险进行建模。生命期数据的一个共同特征是存在审查观察,这会带来困难。例如,可能已知某头奶牛在某个时间在牧群中存在,但之后由于生产目的而被卖到另一个牧群,而没有关于她职业终止日期的信息。使用销售日期作为终止时间是不正确的。另一个困难是动物在其职业生涯的不同阶段会遇到不同的淘汰风险,因此需要随时间变化的协变量。
在这种情况下,经验贝叶斯方法被用于推断育种值(164),但现在也有完全贝叶斯的分析(166),尽管它们在计算上更费力。一个有争议的领域是在生存模型中定义遗传力。与阈值模型相反,在阈值模型中,混合效应模型存在明确的高斯尺度,生存模型需要对数尺度。可以为这样的尺度导出遗传参数,但不清楚这些参数如何转化为生存时间的遗传力。然而,遗传力的概念,适用于一个线性尺度,其中存在方差的线性分解,并不总是必要的。如果显著性检验表明存在加性变异性,那么无论遗传力是低还是高,选择都可以改变总体(费舍尔基本定理)。困难在于制定一个具有合理准确度和精度的选择标准,但生存模型确实提供了BLUP的对应物。为此目的广泛使用的一个软件程序是生存工具包(167),自成立以来一直在更新。
线性和非线性模型用于纵向数据
重复测量的处理一直是动物育种中感兴趣的问题,对可重复性(动物连续记录之间的相关性)的兴趣可以追溯到20世纪40年代和50年代(168)。然而,可重复性并不能充分解决连续记录遵循某种轨迹的时间序列的情况,如泌乳曲线或生长曲线(68,169)。由于更加密集的记录系统(例如,现在可以监测奶牛的瞬时产奶量),需要更精细的统计方法来处理纵向混合效应模型。线性(在参数上,但不一定在时间上)随机回归模型和类似方法开始在动物育种中开发,并出现了大量关于奶牛试验日产量分析的文献。肉类生产物种也进行了类似的应用。主要推动者是Schaeffer和Dekkers(170)以及Kirkpatrick和Lofsvold(1)的论文。后者更具数学精细度,但思路相似。
简而言之,这种纵向数据的处理方法如下。在随机抽取的样本中,每个个体都进行纵向测量。例如,从几个品种中抽取的雄性和雌性动物,在它们从出生到成年的几个阶段都被称重。目标可能是研究每个品种的生长模式,同时考虑到个体间的变异。通常,每个个体的测量次数不同,导致纵向不平衡。分层或多阶段模型分配一系列嵌套的函数规范,以及分布假设。在模型的第一阶段,数学函数(线性或非线性)描述了个体的预期轨迹,具有某种分布的残差反映了观察值与此轨迹的偏差。在第二阶段,子模型描述了第一阶段规范参数的个体间变异。第二阶段残差反映了子模型无法完全解释参数变化。在贝叶斯上下文中,可以施加额外的阶段来描述所有参数的不确定性。对于感兴趣的固定效应组合和每个个体,都会得到一条曲线,并且系数的随机处理完全由时间驱动产生协方差函数。可以获得时间相关的遗传力和遗传相关性。然而,这些具有可疑的生物学意义,因为遗传变异和协变异与回归参数有关,并且正是在这个水平上假设基因替换发生。在这种类型的模型中,基因效应随时间保持不变,由此产生的相关图和遗传力图仅由时间变量的修改驱动。通常,随机回归模型在时域结束时会产生奇怪的结果。
Meyer(172)描述了协方差函数的REML实现,但仅适用于参数线性的模型。还进行了贝叶斯分析和一些使用样条曲线的半参数方法的工作,并发表了许多论文。对随机回归模型进行了大量研究,该模型有数百种主题变体,每种模型几乎没有提供额外的优势。奇怪的是,正如在BLUP的进展过程中发生的那样,很少或根本没有使用交叉验证。研究人员仍然认为越大越好,主要目标是使大规模计算成为可能。许多国家最终对奶牛采用了测试日模型(具有随机系数的线性纵向混合模型的行话),除了美国由于康奈尔大学持有的专利所带来的限制。
使用稳健性分布
已经有通过使用谱系或基因组数据拟合厚尾分布而不是正态分布(173-177)的工作。这些研究人员讨论了如何扩展单变量和多性状混合效应线性模型以适应t分布,从而在减少异常数据影响的意义上获得更可靠的分析。这些研究使用贝叶斯度量作为证据强度,发现厚尾残差分布比假设正态时产生更合理的模型。高斯假设对于整个概率推理可能是危险的,而不仅仅是寻求育种价值的点预测。例如,在给定一些数据的情况下,计算正确排序既不独立又不同分布的育种价值的概率是动物育种中感兴趣的一个老问题(9)。Reber等人(178)将这一想法应用于公畜排名,尽管他们采用了高斯假设和贝叶斯MCMC。厚尾分布可能会提供与BLUP类似的育种价值排名(例如,基于后验均值),但具有不同的概率,即给定后验均值排名,某只动物真正最好。(注:在动物育种中,使用厚尾分布来评估育种价值排名可能会产生与BLUP(最佳线性无偏预测)类似的结果。但是,由于厚尾分布对异常数据更具稳健性/鲁棒性,因此它可能会产生不同的概率,即在给定后验均值排名的情况下,某只动物真正最好的概率可能会有所不同。)
混合模型
将有限混合模型应用于遗传学可以追溯到Pearson(23)。这些模型可以揭示由于隐藏结构(例如,未知的具有主要影响的基因座)而产生的异质性。通常,这种异质性可以通过拟合混合物来解决,从而产生一个副产品,即数据来自若干假定但未知的基因型之一的条件概率。隐藏的异质性会产生奇怪的现象:后代-父母回归取决于混合比例,混合特征与高斯特征之间的遗传相关性是混合比例和混合组分之间遗传方差比率的函数(179)。忽略异质性可能会产生误导性的解释和不切实际的关于应用于异质性特征时选择反应的期望。在使用全基因组预测时,必须考虑隐藏的群体结构,这是一个典型的混合模型问题。
许多QTL检测程序都基于混合模型的想法,在某些情况下,使用有限混合模型推断育种价值可能是必要的。例如,乳腺炎是与细菌感染相关的奶牛乳腺炎症。许多国家并不常规记录乳腺炎事件,因此在公牛遗传评估中使用SCC作为代理,因为SCC升高通常是疾病的迹象。健康和患病动物的SCC显示不同但重叠分布,这些分布在没有疾病记录的情况下是隐藏的。在这种情况下应用了有限混合模型(180-183)。在处理计数(例如,一种疾病的发作次数)时,观察到的零数通常比在某些分布(如泊松分布)下预期的要多。
零膨胀泊松混合模型可能很有用,Rodrigues-Motta等人(184)实现了一种完全贝叶斯的零膨胀泊松分析(通过MCMC)来处理奶牛乳腺炎发作次数。Meuwissen等人(41)也建议使用混合模型进行全基因组预测。
尽管有限混合可以近似任何分布(例如,最常用的密度估计方法是基于混合N个高斯分布,其中N为样本大小),但应用并非没有陷阱。除非所有参数都在似然中被识别,否则算法通常不会收敛,由于一种称为标签切换的现象而产生虚假结果,即算法无法识别混合物的基础真实组分的标签。Celeux等人(185)曾警告过这个问题,但他们的建议经常被忽略。
计算软件
由于动物育种数据集的庞大规模,人们投入了大量精力使BLUP、REML和贝叶斯方法在多元模型中具有计算可行性。有一些广泛使用的混合效应线性模型软件包可用(186-191)。一些非线性模型、生存分析和有限依赖变量的软件也可用,但不是通用的。一个例子是已经提到的生存模型生存工具包(167)。Mistzal和合作者(http://nce.ads.uga.edu/wiki/doku.php)和Fernando & Garrick(http://www.biomedcentral.com/content/supplementary/1471-2105-12-186-S1.PDF)开发了使用基因组数据进行大规模计算的程序。动物育种者越来越多地使用R,一个用于统计计算和图形的自由软件环境(http://www.r-project.org)。例如,Bates & Vazquez的软件包Pedigreemm(http://cran.r-project.org/web/packages/ pedigreemm/pedigreemm.pdf)使用R进行混合模型分析,de los Campos和Perez的软件包BGLR(http://bglr.r-forge.r-project.org/BGLR-tutorial.pdf)使用它来实现基因组BLUP和其他贝叶斯回归模型,在本文的基因组选择部分进行了讨论。
选择过程中的偏差
动物育种数据很少来自真正的随机机制。除了设计实验外,选择过程的历史是不完全知道的,因为所使用的现场记录包含某种统计意义上的缺失数据,就像医学研究中的回顾性数据一样。选择和分类交配如何影响遗传参数估计和育种值预测是一个重要问题。在这里,Henderson等人(10,117)和Curnow(192)做出了重要贡献。
Kempthorne和vonKrosigk,在Henderson等人(117)的一节中,以及后来在Curnow(192)中,假设正态性和某种形式的顺序选择。他们发现,参数的ML估计量在有无选择时具有相同的形式,前提是用于选择决策的所有数据都已在分析中使用。Imetal。(193)发现这个结果对任何分布和更一般形式的选择都成立。这并不意味着ML估计量的渐近分布不受选择影响,因为需要在给定选择的观察值的未知分布下取期望,而不是在随机抽样下取期望。因此,如果需要标准误差,则选择并非完全可以忽略。
在这方面可能最有影响力的论文中,Henderson(10)假设已知遗传参数和多元正态性,并在特定的选择模型下推导出育种值的BLUP。他使用了Pearson(24)的一个公式,该公式强制发生率和亲缘关系矩阵在概念上的重复中保持不变。这个选择模型没有受到动物育种者的批判,除了Thompson(153)。他是第一个指出,一个关键的矩阵(被Henderson称为L)必须在重复之间保持不变,以使Henderson的结果成立。这是不现实的,因为选择决策(至少当代际重叠时)是是在代际之间和世代之间,在年份之间和内部,在家庭之间和内部进行的,导致L随机变化的抽样情景,这种情况不能很好地用Henderson的方法来表示。1975年的论文给出了无偏性的条件以及一些动物育种界广泛遵循的补救措施。其中一个例子是,如果选择是基于(不可观测的)育种值的线性函数,那么模型中的一些随机元素(例如群体)必须被视为固定,以获得育种值的无偏预测。然而,如果构建选择所基于的线性函数需要知道育种值,那么预测任何东西就没有意义了。这种特定的设置并不能描述实践中遇到的任何类型的选择,并导致了可能不幸和普遍的将当代群体视为固定的做法。这至少可以出于两个原因受到批评。一个是,固定对当代群体的处理会消耗掉信息,因为成千上万个自由度被用来估计每个信息很少的水平(例如,在芬兰,一个养殖场-年-季节类别,其中养殖场通常很小),导致不必要的估计方差很大。第二个原因源自James和Stein(138)的结果:将具有大量效应的向量视为固定会导致估计值具有不必要的大均方误差。Henderson(10)代表了一种勇敢的尝试,在选择下对随机效应进行无偏预测,但他的方法也有缺陷。
Im等人(193)使用基于似然的框架解决了选择问题,Gianola和Fernando(110)采用了贝叶斯方法。他们证明,如果选择所基于的所有数据都用于构建似然或后验分布,则可以忽略选择进行点推断(似然)和更一般的后验推断(贝叶斯)。Im等人(193)使用了一个包含指示变量的向量r,表示记录是否存在(由于淘汰而缺失),如果观察到了整个选择过程的历史,那么r可以作为数据的一部分;然而,r很少被知道。他们证明,如果(a)给定观察到的和缺失的记录的条件分布不依赖于后者,且(b)的分布参数与数据分布参数可分离(不同),则可以忽略选择进行似然推断(注:只有当r给定观察到的和缺失的记录的条件分布不依赖于后者,且r的分布参数与数据分布参数可分离(不同)时,才可以忽略选择进行似然推断。)。Sorensen等人(148)将这个想法应用到在选择过程中推断遗传方差的问题上(在结构化实验的背景下),并为贝叶斯情况提供了详细的证明。总之,这些结果部分支持多性状分析可以减轻偏差的说法,因为它通常提供了关于选择过程历史的额外信息(与单变量分析相比)。
不幸的是,选择并不总是可以忽略的。例如,在对一组牛肉牛的胴体性状进行基于基因组的分析时,如果忽略了对生长速率的预选,将导致不正确的推断。在这些情况下,尝试对缺失数据或选择过程进行建模或使用更稳健的推断方法是至关重要的。然而,结果将严重依赖于假定的缺失数据过程。
基因组选择时代
在对选择的预期响应的程式化公式中,遗传进展的速度与加性遗传方差、精度和选择强度的平方根成正比,与世代间隔成反比,而这些因素是相互依赖的。多年来,人们一直在寻找早期的育种值预测器,而BLUP利用了所有可用的亲缘信息,因此可以获得动物的育种值预测,而不管它们的年龄如何。DNA标记辅助选择(MAS)也一直受到人们的关注,正如前面所述。Blasco和Toro(17)介绍了MAS和相关QTL寻找的进展(或缺乏进展),这是一个结果低于预期的领域。在MAS时代,一些统计方法被开发出来,如QTL检测的扫描(75, 194, 195),回归有限数量的标记(196),以及MAS的BLUP(74)。然而,一个限制是缺乏足够数量的覆盖整个基因组的标记。随着一些项目试图测序几个物种的基因组,随后出现了大量的双等位基因标记:SNP。
在一篇改变了动植物育种的论文中,Meuwissen等人(41)提出了一个相对简单的想法:给定一组p个SNP和一个样本,其中n个个体被基因分型为这些标记,对每个p个位点上参考等位基因的拷贝数进行多元线性回归。因为p>>n(当个体基因组序列数据可用时,这种情况将变为p>>>n,因为p将增加,n将减少,至少在开始时),标记发生矩阵X,阶数为n3p,最多只有n阶,导致至少有p-n个回归在似然中未被识别。
解决方案是引入对系数大小的限制或使用一些随机效应或贝叶斯模型,这会产生回归的收缩。这里有一个问题,关于从数据中学习到关于单个回归系数的有效程度,但从预测的角度来看这并不重要(5)。Meuwissen等人(41)认识到,将BLUP程序应用于标记效应提供了对这类问题的答案,并建议了两种方法,后来称为BayesA和BayesB,通过MCMC遵循贝叶斯路径。BayesA为未知标记效应分配一个t先验分布,而BayesB假定一个零状态和t分布的混合作为先验,尽管BayesB的原始公式具有不同的思路(197)。通过将数据分为训练(模型拟合)和测试(预测)集,可以在训练集中获得标记效应或遗传值的估计值,以预测测试集中的表型。在某种程度上,这些预测可以在生命的早期获得(注:早期选择和留种),并且可能比基于谱系的BLUP更准确和精确,那么获得的遗传进步的速度可以加快(198)。
是否获得更具成本效益的遗传进展因物种而异(17),但动物育种行业热情地接受了这一概念,早期选留在奶牛育种方面的结果令人鼓舞(199,200)。然而,人们认为这种方法将成为低遗传力的性状的灵丹妙药,选择精度低的性状尚未得到证实。也许这是一种天真的期望:遗传力低意味着信噪比低。一个比喻可能是,即使是最先进的计算机也无法应对弱的互联网信号。
最初,人们期望一组标记(现在在最先进的家畜芯片中有800,000个)能够捕捉标记位点和难以捉摸的QTL之间的相关LD关系。然而,Habier等人(201)发现,基因组回归的更好预测能力可能是因为标记提供了比谱系更好的遗传相关性表示。观察分子相似性允许区分遗传关联,例如,在一组全同胞中。使用谱系,所有全同胞都具有相同的预期关联性,但实现的关联性会有所不同。这促使VanRaden(202)建议将BLUP中的A替换为G,一种基于标记的矩阵,从而为机器增加额外的分辨率。这个建议很有影响力,BLUP演变成了基因组BLUP(G-BLUP),迅速成为使用SNP进行家畜遗传评估的标准方法。有一种错误的观念认为,给定G,矩阵A就是多余的。至少有两个原因表明这并非如此。首先,谱系和基因组可以被视为预测机器的不同输入。其次,只有在没有选择或HW平衡成立的情况下,G才具有A作为期望值。目前尚不清楚通过关系矩阵估计分子相似性的最佳方式是什么。一个关键点是,重要的遗传相关性是由QTL水平的相似性引起的,但标记不是QTL,因此,仍然存在一个尚未解决的差距(注:在使用基于标记的方法进行遗传评估时,仍然存在一些不确定性和局限性,因为标记并不能完全代表QTL水平的相似性。这种差距尚未完全解决)。也许序列信息将有所帮助,但它将带来额外的问题和挑战。人们还认识到(203)G-BLUP和标记上的BLUP将共同方差分配给随机效应的正态分布是等价的。因此,为了获得动物分子标记加性遗传值的预测,G-BLUP就足够了。
Meuwissen等人(41)提出的BayesA和BayesB成为贝叶斯基因组预测方法的始祖,之后出现了大量的贝叶斯线性回归方法。例如,BayesLasso(204),BayesC(205)和BayesR(206),其中R代表基因组区域,仅举几个绰号为Bayes字母表(197)的庞大列表的成员。这些方法在参考文献207中进行了回顾,它们共享相同的回归模型,但在标记效应的先验分布的假设上有所不同。最终结果是,后者以不同程度的严重程度收缩。例如,BayesB和BayesLasso比标记效应的BLUP收缩更多。除非存在主效基因,否则大多数方法在预测能力方面表现出微不足道的差异,在这种情况下,基于混合物的方法,如BayesB或者可能是BayesR,可能表现得更好(208)。其他方法与将独立先验分布分配给标记效应相反,已经纳入了这些效应之间的相关性,这可能反映了某些LD结构对预测产生影响(209-210)。在没有主效基因的情况下,大多数方法提供的预测能力几乎相同,这一点由Wimmer等人(211)生动地展示了。使用模拟和植物数据以及估计损失函数的度量,这些作者发现G-BLUP相当稳健,除非有一些基因组区域具有很强的影响。我们的观点是,通过使用统计扫描检测到的QTL(在宽松意义上)很少成为因果区域。
一种更有成效的方法似乎是候选基因,即通过分子遗传学和途径的知识来指导搜索,这种方法在肿瘤基因组学中非常有前景,尽管并非没有假设。生化考虑可能是错误的,但这同样适用于任何先验分布。相反,如果给定一个QTL,一个好的统计方法很可能会找到它。p>>n条件使先验对后验产生了很大的影响,数据对先验知识状态的修改很少。Gianola(5)在理论上证明了这一点,并由Lehermeier等人(212)用植物数据说明。
Meuwissen等人的另一个结果是引入了交叉验证作为校准预测性能的常规形式。认为更大更好(模型中更多的特征和参数)使动物育种者有些不加思索地认为这种额外的包袱必然会带来更好的预测。然而,在预测中,这可能并非如此。一个高度参数化的模型,即使基于机制考虑(育种者使用的多元线性回归方法远非如此),拟合到有限大小的样本可能会产生过拟合,从而影响预测性能。此外,交叉验证分布反映了所有不确定性来源,如规范错误、参数错误、训练和测试集之间的结构差异以及环境方差波动。因此,交叉验证置信区间通常比方法之间的预测能力差异要宽得多(213,214)。许多动物育种者只进行一次交叉验证,但这相当这相当于在不产生标准误差的情况下估计参数。关于方法之间的差异的讨论通常是关于噪声,因为交叉验证的可变性要比这些差异大得多。
Goddard (203) 和 Daetwyler 等人 (215) 开发了用于评估基于 G-BLUP 模型的基因组选择精度(准确性这个词是误导性的)的公式。这里,一个重要的因素是训练集的标称大小,尽管一个大的训练样本的大小为 N 可能包含很少的遗传变异,因此一些基因型配置可能在测试集中找不到。然而,另一个大小为 N 的具有更大遗传变异的集合可能表现得更好,因此分子冗余度是一个重要的因素。Goddard (203) 试图考虑这一点,但他的公式需要关于有效群体大小的假设,众所周知,这个参数很难很好地估计。关于基因加性效应的基因组选择的一个实际重要问题仍然没有得到回答:由于只有少数(通常是精英)动物被基因分型,我们如何利用非基因分型个体的信息(谱系或表型)?一个国际团队,包括 D. Johnson(新西兰)、A. Legarra(法国)、I. Aguilar(乌拉圭)、I. Misztal 和 T. Tsuruta(美国)等人提出了一个解决方案,说明了动物育种研究已经成为全球化。该方法被称为一步 BLUP;可以在参考文献 216 中找到一个代表性的论文。这个可能有不祥(注:文中的不详应该是指这种方法可能存在一些问题或不确定性)的名为 SS-BLUP 的方法有启发性的组件,但它代表了一种试图整合可用的基因型、谱系和表型信息的有价值的尝试,并且可以使用现有的 BLUP 机制很好地实现。
从某种意义上说,上述基因组预测模型是参考文献30中无穷小规格的有限数量的位点对应物,但不包括非加性遗传方差。Dekkers 和Hospital (217) 指出了基于加性假设的全基因组关联研究的局限性,其中一些观察也适用于预测。一个挑战是提出一个函数形式,将表型与 SNP 基因型(数十万或数百万种可能的配置)联系起来,同时允许交互作用。显式建模交互作用会产生一个结构,需要大量计算(技术约束),并且具有过度复杂性,因为 n < p 的问题进一步加剧,上位效应的回归系数由于严重收缩而几乎为零。Gianola (5) 关于缺乏可识别性的警告在这里更加强烈。然而,基因组比标准定量遗传分析所显示的更具交互性,通通常最终遗传变异主要是加性的(83)。例如,参考文献 84-86 给出了大量上位效应相互作用的例子。理论上,遗传方差可以分解为正交加性、显性、加性 * 加性、加性*显性和显性 * 显性成分,仅在高度理想化的条件下,如前所述。这些包括没有连锁,但 MAS 应该利用 LD,并且甚至机会也会产生不平衡。因此,理论崩溃了。
分子生物学关于影响途径的基因网络的重要性的证据,加上缺乏良好的理论,表明非参数化处理数据可能是有价值的,因为这些方法适用于复杂问题(54)。再生核希尔伯特空间回归(RKHS)和神经网络(218-221)被认为是能够利用非加性的贝叶斯字母表中的竞争者。RKHS使用遗传距离和个体之间相似性的概念,并在未知函数的丰富空间中搜索具有最佳预测能力的函数。神经网络基于它们作为函数的通用逼近器的数学性质。尽管已经对贝叶斯字母表中的成员进行了相当广泛的比较(例如,参考文献 212),但涉及 RKHS 的类似研究仍然缺乏,特别是与动物相关的研究。González-Recio等人 (213, 222) 发现 RKHS 比参数方法在肉鸡早期死亡率和饲料效率方面略有优势,但差异在交叉验证分布产生的噪声范围内。Heslot等人(208)使用18个植物育种数据集比较了许多预测方法,包括岭回归BLUP,贝叶斯C-pi(字母表中的另一个成员,使用具有未知混合概率的混合模型作为标记效应的先验)和RKHS(神经网络和支持向量机也包括在内)。平均而言,大多数方法产生了相同的预测相关性;然而,通过使用参考文献 208 中的数字,如果对使用18 对预测相关性绘制散点图,则可以发现 RKHS 在 16 次比较中优于 G-BLUP 或 Bayes C-pi。这种形式的分析表明,对于特定的预测问题,某些方法始终更好。在缺乏对一个特征基础详细了解的情况下,关于为什么一个预测器在一组情况下比其他机器更好的解释主要基于猜测。
Jarquín 等人 (223) 使用了一种反应规范模型,其中环境相似性矩阵进入协方差结构。该方法应用于用 2,395 个标记基因分型的 139 条小麦品系,模拟了 68 种环境条件。通过构建Hadamard产物矩阵(本质上是RKHS表示)来拟合基因型*环境相互作用。通过适应环境和相互作用输入,预测能力大大提高。这些研究表明,RKHS 至少与参数方法一样好,但神经网络可能非常不稳定,除非通过 MCMC 实现 (221, 224)。Hill (15) 批评这些方法,因为它们没有产生估计育种价值的结果,而标准理论认为育种价值是遗传改良的重点。然而,这并非如此,因为神经网络或 RKHS 可以配置成产生预测的育种价值。事实上,BLUP 和 G-BLUP 是 RKHS 的特殊情况,并且后者可以定制以捕获育种价值本身以及其他形式的遗传信号。Ornella 等人 (225) 发现这些方法可以更好地分类分布尾部的优秀个体。缺乏针对不同方法的前瞻性预测能力的研究。线性回归在加法标记代码上是否比 RKHS 更好,在一、二或三代之后呢?
结论
我们的历史回顾表明,动物育种者们迅速地接受了新的统计思想,并且也为生物统计学领域做出了重要的贡献,尤其是在BLUP、REML、贝叶斯方法和全基因组预测方面。该领域的主要理论基础是数量遗传学,它主要是一门描述性和预测性的科学,尽管与分子遗传学惊人的成就相比,它在发现基因方面可能不够有效。然而,由于基因组项目产生的大量数据,为改进和提高复杂性状的预测提供了手段和机会,这是一个令人兴奋的领域,但不太适合进行还原论的推理或实验。下文概述了对一些未来发展和问题的初步预测。
不久,个体的基因组序列信息将越来越多地可用(例如,1000 Bull Genomes Project),期望值也很高。许多作者认为,所有因果突变都将存在于序列中,并且这一优势将得到富有成效的利用。这里有一些注意事项。第一个是这种观点是基于对基因组的某种线性映射,即一串碱基可以产生一个准确的基因型-表型映射。第二个是更多的信息更好;例如,不是80万个标记,而是1000万个。关于第一个想法,DNA-蛋白质过程并不是线性的,因为存在蛋白质折叠和代谢中普遍存在的相互作用和反馈以及非线性酶动力学。DNA和甲基化信息可能对评估育种价值至关重要,但适当的环境建模(环境组学)以及补充的组学类型信息也应该被考虑,以建立更有效的预测机器。
人类遗传学的一项研究(226)表明,整合mRNA和microRNA表达数据可显着提高个性化医疗背景下的预测性能; 这个AP-proach是RKHS的一个特例。关于第二个论点,来自序列信息的潜在协变量数量爆炸性增长的一个困难是p/n比将显著增加。例如,如果对1000头公牛进行测序,p/n比将轻松超过1000-2000。这意味着由于强正则化,所有线性回归系数都将变得微不足道。人们仍然可以使用贝叶斯字母表(给定大量的计算资源)进行预测,但对基因组区域的推断必须谨慎进行,因为先验知识比SNP数据更重要。也许基因组和后基因组数据会进一步使信号与噪声的分离变得复杂,因为人们很容易过度建模。无论如何,大的p/n比对n*n方法(如G-BLUP或RKHS)具有很大的优势。
期望动物育种中的所有定量性状都由具有高斯残差的线性模型适当描述似乎是不明智的。鉴于计算机能力和算法的持续增长,我们可以灵活地拟合更现实的误差分布,例如t分布。交叉验证残差的分析也是一个重要的诊断工具,使用自举方法(227)将使我们能够获得候选特定交叉验证可靠性的现实度量。动物育种者虔诚地使用理论推导的可靠性度量,这些度量在训练数据中传达信息内容,而不考虑预测机器的实际准确性。如果一个非常可靠的预测因子相对于测试集中已实现的目标表型不准确,则它的交叉验证性能可能会很差。
动物育种者还应谨慎对待关于模型维度的过强假设。多元分析并不一定更好,除非某些性状作为有价值的协变量进入预测机器,而不是通过相关性。选择和确定偏差应该是基因组启用预测中值得关注的问题,需要更仔细地评估偏倚来源。
动物育种者虔诚地使用理论衍生的可靠性度量,这些度量在训练数据中传达信息内容,而不考虑预测机器的实际准确性。如果一个非常可靠的预测因子相对于测试集中已实现的目标表型不准确,则它的交叉验证性能可能会很差。
动物育种者也应该谨慎对待对模型的维度做出过于强烈的假设。多变量分析不一定更好,除非某些特征作为有价值的协变量作为预测机器的一部分进入,而不是通过相关性。选择和确定偏倚应该是基因组预测中关注的问题,需要更仔细地评估偏倚来源。
基因组数据的出现还将使我们能够使用系统和因果视角研究基因组区域之间的关系,例如,通过图形和结构方程模型影响通路的基因网络(228-231)。然而,系统分析在动物育种中并不新鲜(232),而且可以说这种方法带来的收益很少。新系统视图利用更精细的数据,但了解系统的动态需要了解速率系数。为了估计后者,需要合理规模的实验,但这些实验在农场动物身上几乎不提可能,从酵母或苍蝇到奶牛是一个巨大的推断。
在过去的一个世纪里,有许多统计方法对动物育种的贡献者,所以它不是一种孤独的领域。表彰每一项贡献或提供全面的参考书目既不可能也不有趣。任何历史叙事都依赖于叙述者的经验和视角,从而引入了不可避免的主观性。我们试图制作一个涉及的叙述,提供许多动物动物育种者可能不同意的观点,以及引入一些个人偏见。另一种推荐的叙述,重点是遗传学问题,是Hill(15)的文章。我们抄袭了他文章的最后一句话,为任何事实错误、误解和遗漏道歉,但意见我们可以讨论。
披露声明
作者不知道任何可能影响本综述客观性的关联、会员资格、资助或财务持有。
致谢
研究部分由美国农业部哈奇拨款(142-PRJ63CV)资助
D.G.和威斯康星州农业实验站。该论文在
慕尼黑工业大学(TUM)高等研究所,D.G.由汉斯·费歇尔高级奖学金支持。TUM-Weihenstephan植物育种主席Chris-Carolin Schön教授及其团队感谢他们的讨论和提供愉快的工作环境。W.G. Hill教授(爱丁堡大学)提出了许多有益和有见地的意见,Larry Schaeffer教授(圭尔夫大学)提出了建设性的建议。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。