聚道科技创始人兼CEO李厦戎:为生命计算,基因数据独特的魅力在于造福个体

2018-04-23 14:34:44 浏览数 (1)

数据猿导读

每个人如果在刚出生时采集的基因数据,会在整个生命中都产生价值,甚至还能帮助到后代分析家族遗传特征,对于遗传疾病的诊断和治疗会有很大的帮助。个体数据聚沙成塔,最后造福个体,这是基因数据独特的魅力。

作者 | 李厦戎

本文长度为3500字,建议阅读7分钟

本文为数据猿年关策划活动《大数据的2016,我的2016》系列稿件,感谢本文作者 聚道科技创始人兼CEO 李厦戎 先生的投稿。

敬请期待2月16日,由数据猿与中欧商学院、腾讯视频共同举办的高端领袖线下演讲栏目中欧微论坛之《超声波》。

在《圣经-创世纪》里的第六天,上帝按照自己的模样,创造了第一个人类亚当。而在此前五天里,上帝还创造了光、天地、海洋、花草鱼虫、牲畜猛兽。从此,生命开始了繁衍进化。当然,这只是宗教传说,但确是漫长的生命进化过程的准确刻画和缩影。

所以,人类基因组计划(Human Genome Project, HGP)的负责人Francis Collins把DNA比喻为“上帝的语言“,DNA中保存着生命的遗传信息,这些信息让个体与众不同。从1953年Watson和Crick所提出的DNA双螺旋结构开始,人类走上了解读“上帝的语言”的漫漫征程。1990年,由包括中国在内的六国科学家启动了人类基因组计划,于2000年绘制出了人类基因组的第一个草图。

DNA是一个大分子,由糖-磷酸骨架和碱基对构成,共有四种碱基A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤),所以DNA序列数字化后可以用ATCG这四个字母的排列组合来表示。人类基因组有30亿个碱基对,可以理解为这是一本由30亿个字母构成的“书”(对于基因组研究历史和人类基因组计划感兴趣的朋友可以阅读杨焕明院士撰写的《基因组学》)。四种碱基的不同组合顺序,以及对DNA的剪切、转录和蛋白编码方式,造就了多姿多彩的生命世界。

事实上,每个碱基对的长度只有1-2个埃,1埃相当于头发直径的50万分之一。基因测序技术正是在这个尺度上面将碱基的信息读取出来,帮助我们数字化遗传信息和生命过程。基因测序技术包括一代Sanger测序、高通量二代测序(Next Generation Sequencing, NGS)技术和三代单分子测序技术,但从数据产出占比上,目前还是以二代测序技术为主。

二代测序技术是将DNA的长链分子随机打断,然后用化学方法一批批的将小片段DNA扩增和读取出来。打个形象的比方,假设人的DNA是一本书,测序就相当于将这本书投进碎纸机,变成了一条条碎纸片段(序列打断),每个片段上只有100-200个字母,接着我们用扫描仪把这些碎纸片段上面的字母读出来。

并且,由于碎纸片段实在细碎繁多,可能遗漏某些重要片段,所以通常会把碎纸片复印(聚合酶链式反应,PCR)多份,再进行扫描(基于荧光标记dNTP的光学检测)。碎纸-复印-扫描,这就是二代测序过程的一个形象比喻。

拿到了这些扫描后的片段数据(短序列),我们需要用计算机去处理(生物信息分析),尽可能拼回原来完整的书,并寻找书中独特的词(基因变异)。然后去查字典(变异数据库),看看究竟这些词表示什么意思(信息注释)。

当然,这只是对某本书的理解。如果我们有很多本书都来自同一个作者,我们就能来分析语言特质和作者的相关性。这里作者代表某种疾病或者某种遗传特征(简称表型,Phenotype),人们正在用更多的测序数据找到基因信息(简称基因型,Genotype)和表型的相关性,构建帮助我们读懂“上帝的语言”的全面字典。

目前,使用二代测序技术进行个人全基因组测序成本不到1000美元,而在5年前,该成本还高达1000万美元,所以测序成本的下降速度是超过“摩尔定律”的。

但是,由于二代测序技术需要一定倍数的冗余(通常是30倍以上)以保证覆盖率,一个人全基因组测序产生原始数据量在100GB左右,因此给后续的数据传输、存储、计算、协作带来了压力和挑战,这是基因行业所面临的“甜蜜烦恼”。

我们2014年成立聚道科技GeneDock,其使命和愿景就是研发基因领域适用的数据技术,帮助医疗机构、科研机构、商业公司建设基因数据管理和协作平台,摆脱这些“甜蜜烦恼”,从而更高效率的去探索和应用基因数据。

GeneDock为基因行业提供云计算模式的技术方案和服务,提供覆盖元数据采集、测序数据传输、生物信息分析、基因数据仓库、权限账户管理、注释报告生成的完整PaaS层解决方案,对接下面包括公有云设施以及本地计算基础设施。同时,提供包括API、SDK、开发环境、功能组件。基于GeneDock提供的行业通用的PaaS层的模块和技术支持,上层的临床应用,科研类的应用以及基因测序方面的应用场景,就能够去构建适合于他们应用场景的SaaS服务。

创办GeneDock之前,我是阿里巴巴友盟的首席数据科学家,友盟是中国最大的移动互联网数据服务平台,我当时的主要工作是基于大规模分布式系统构建移动设备数据仓库,运用机器学习算法开发设备ID匹配、用户画像构建、广告点击预测等大数据应用。

联合创始人王乐珩之前是阿里云大数据服务ODPS的产品经理,在此之前他在中科院计算所从事生物信息算法系统的开发工作。GeneDock的商务副总裁李清林之前是华大基因科技服务的副总裁,负责华大基因科技服务部分产品线的市场和运营工作。可以说,我们的核心团队平衡结合了阿里巴巴对云计算大数据以及华大基因对基因测序的理解。

这两年多的时间,很多人都问过我为什么离开互联网行业而进入看似差别巨大的基因行业。其实,我们在GeneDock所做的还是数据技术和应用,而基因数据领域的独特魅力在于:

基因数据是基础性数据。前面也提到,基因深刻影响甚至决定着生命体的遗传、发育、演化。我们想解答自己从哪来、身体发生了什么变化、为什么跟别人不一样这些问题,是需要用到基因数据的。除了我们能直接看到的医疗健康外,包括农业、环境、疾控、食品等领域,都需要用到基因数据。

我们和中国农科院、华智水稻、阿里云一起做了一个“云之稻”数据平台的公益项目,这是比尔盖茨基金会资助旨在为贫困地区培育“绿色超级稻”项目的后续数据分享。我们在平台上共享了3000株野生水稻的测序数据,并提供分析工具帮助农业领域的科学家去分析挖掘性状基因从而指导育种工作。

基因数据有简单的价值链条。之前在做互联网数据的时候,我经常思考这个问题:互联网用户的数据,对他自己能产生多大的价值? 数据的价值体现似乎复杂而漫长。但是,基因领域的数据价值链条是简单的。我们的合作伙伴WeGene 提供个人基因组服务,帮助个人了解祖源信息和疾病风险。

我的WeGene报告发现痛风的风险较高,前几年也确实有过轻微的痛风症状没在意,我父母也做了检测,发现这个痛风的风险是遗传自父亲的,所以会更注意低嘌呤饮食和运动。自己的基因组数据帮助了解自己,并找到更好的生活方式,这就是我想说的简单的价值链条。

基因数据巨大的应用意义。之前我们做互联网数据的主要应用还是广告精准投放,经常听到有团队用超大规模计算集群跑好几个星期去训练点击率深度神经网络模型。我深深认同Facebook数据科学团队创始人 Hammerbacher 所说的“我们这一代最杰出的头脑都在拼命思考如何吸引人点击更多的广告。这糟透了”!

所以,我们公司的招聘页面第一句就是“生命本该浪费在美好的事物上”。我们和中国疾病预防控制中心(CDC)传染病预防控制所合作建设了病原微生物分析云平台,帮助各级疾控部门分析病原微生物的基因组数据,得到微生物种属信息和进化关系,从而更快速准确的了解传染病的来源,传播途径和控制预防策略。我认为这是一个美好的数据应用。

基因数据的长周期和聚集价值。互联网数据的生命周期和价值的半衰期是比较短的,可能跟互联网本身产品和服务的变化速度快是有关的,5年前的淘宝数据除了能用淘宝时光机让用户缅怀下青葱岁月之外,似乎不会有更大的价值。而在广告重定向中用到的数据则更是越近越好。

相比之下,每个人如果在刚出生时采集的基因数据,会在整个生命中都产生价值,甚至还能帮助到后代分析家族遗传特征,对于遗传疾病的诊断和治疗会有很大的帮助。西南医院医学遗传中心的袁慧军教授团队与我们合作开发了面向遗传病的基因数据管理平台。

她们团队在过去的3年时间里面,深入全国31个省市自治区的特殊学校和基层医疗机构,为2万多个受遗传性耳聋问题困扰的个人和他们的家属进行了免费的基因检测,通过对家系的基因数据的汇集和处理,准确的帮助这些受到困扰的家庭明确病因,并提供有效的遗传咨询和指导。

我作为志愿者参加过她们团队在基层的检测活动,在现场真切的感受到基因数据所提供的信息让这些家庭走出了无知的恐慌,支持他们面对更长久的未来,指导他们孕育健康的下一代,这是知识和技术的力量。此外,由于基因组中尚有大量未知,很多个例所携带的基因变异无法明确致病性,就需要累积更多个体基因组数据,并通过群体分析去发现规律。

近年来由于“冰桶挑战”所受到关注的罕见性疾病(Rare Disease)很多是遗传性疾病,由于病例分布的稀疏性,如何聚集足够多的病例和基因数据,是帮助了解这些疾病,找到致病原因,进而开发治疗方案的重要起点。个体数据聚沙成塔,最后造福个体,这是基因数据独特的魅力。

GeneDock的Slogan是“为生命计算”,我们是一个只有两年历史的“算命”创业团队。我们希望能用数据技术帮助和支持基因领域的能人志士,降低基因数据的使用难度,加速对上帝语言的解读,产生更多有价值的应用。

关于作者

李厦戎,中科院自动化所博士,聚道科技 GeneDock 创始人兼CEO。在创业前,他是友盟(阿里巴巴子公司)首席数据科学家,带领数据挖掘团队基于数亿移动设备数据,采用大规模分布式计算框架开发大规模机器学习系统,构建标识图谱(ID Graph)、用户画像(User Profiling),以及广告点击率(CTR)预测模型。

0 人点赞