我国:基因大数据成为精准医学时代的核心竞争力之一

基因组学中的关键词/大数据研究/Gene Hui

2018年10月10日,华大基因正式发布14万中国人基因组学研究成果(详情),标志着我国亿万人基因大数据研究迈出重要一步,基因大数据成为关键进入精准医疗时代。核心竞争力之一。基因汇对该研究的共同通讯作者金鑫博士进行了独家深度访谈,欢迎留言讨论。

图片[1]-我国:基因大数据成为精准医学时代的核心竞争力之一-8118体育网

图片、《细胞》文章截图

研究背景

·深度低,样本量大

· 基因频率库向国内科研机构免费开放

· 研究团队能力多元化

【基因智慧】1. 感谢您参加基因智慧专访。据悉,华大基因已对350万孕妇的基因进行了测序。您的团队有什么机会开始分析其中 140,000 人的基因组? 这14万人的选择标准是什么?

【金鑫】其实我们并没有选择把它作为自然种群来研究。我们的研究属于样本量比较大,但每个样本的数据比较少的情况。当时我们想到做这个研究的时候,也是通过理论算法推导出来的,认为应该可以进行相关的基因研究。但是在数据计算方面确实有很多困难,所以从真正的设计到这篇文章的发表,花了两年时间。

关于项目使用的数据,实验中的样本深度在0.1X左右,比较浅,因为这些数据来自于无创产前基因检测(简称NIPT),NIPT是应用于染色体综合征等疾病 由于这些疾病的异常来自于整个染色体水平,只需少量数据即可完成检测和分析,因此我们对单个样本的数据量并不多。通过模拟数据外推,我们发现整合这些数据后,我们可以做更多的事情。

关于实验一开始的设计,我们并不是先假设一个好的研究方向,然后再找到满足这个条件的样本,而是先找到一系列可用的数据和样本,保证数据是在知情同意、伦理隐私等各个方面都没有问题,可以做研究,然后分析数据得出结论。

【基因智慧】2. 该项目挖掘了中国人群的独特基因,将900万个基因座信息存入CMDB数据库。这个数据库有多开放,从功能上来说有哪些应用场景?

【金鑫】本次分析后,所有数据将存入国家基因库。针对对外开放的情况,我们推出了可以对外提供服务的数据库,即炎黄华人群体基因频率数据库,简称CMDB,包含超过900万个多态位点。通过这个数据库,我们可以查询到我们在人群中找到的基因多态性位点以及在人群中对应的频率。用户可以查询我们分析得到的结果,但不能查询原始数据,这些都是受到保护的。该数据库对国内科研人员免费开放,可注册使用。

图片[2]-我国:基因大数据成为精准医学时代的核心竞争力之一-8118体育网

图,课题组主要成员(左起):刘思扬博士(第一作者)、徐迅博士(第一作者)、陈芳(共同第一作者)、金鑫博士(共同第一作者)通讯作者),黄书佳博士(共同第一作者)

【基因智慧】3.要完成如此庞大的实验项目,必须由测序实验、生物信息学、大数据等不同人才共同完成。听说你们团队很年轻,能介绍一下吗? ?

【金鑫】这个团队有许迅院长这样的资深科学家,还有刘思洋博士这样的年轻成员。她虽然年纪很小,但其实接受过非常系统的训练,经验也很丰富。在分工方面,越资深的项目团队成员越负责项目的设计和分析。一线同事主要是在读和刚毕业的博士生,他们会完成更多的内容分析。

因为要对数据进行分析,所以涉及到算法的建立,基本上都是全新的算法,还有新的统计模型,以及能够支持相应大量数据的计算能力,最后是能力,将分析结果翻译成科学语言,所以我们的团队必须具备这些能力,成员在能力上相辅相成。

大数据拓展生活认知边界

· 算力、大数据、算法相得益彰

·AI 是更好的算法

· 各种数据之间的互操作性很重要

【Gene Hui】4. 14万多人的测序数据和分析数据,是数据管理的一大挑战。构建与海量数据相匹配的基础设施,云计算扮演什么角色? ?

【金鑫】云计算起到补充算力的作用。我们主要的分析是在国家基因库做的,但是有的因为计算量大,非常耗时,所以通过云计算加速,这样可以在更短的时间内完成。需要注意的是,云计算也是在中国完成的,所有数据都受到严格保护。计算完成后,数据全部返回国家基因库。

由于每个样本的测序深度比较低,一些常用的分析软件和工具不能直接用于我们的数据分析。我们得出了几个主要结论,包括中国人群基因频率库的构建。 ,遗传结构的绘制,基因与疾病的关联分析,这些都是我们自己新开发的方法得出的结论,有的是自己开发的,有的是合作开发的,但基本上关键的方法都是都是我们从头开始设计的。

【基因智慧】5.第三届基因组云计算技术开发者大会(GCTA Conference)将于10月下旬举行,其中提到了生物智能。您认为2018年,AI、云、基因大数据会有什么样的新融合点,未来可以期待什么样的应用场景?

【金鑫】云计算、超算、国家基因库计算中心等提供计算能力;数据相当于石油;算法是一个处理器,它使用一堆数据来生成新知识或新内容。这三者必须相辅相成。只有计算能力、优化的算法和足够大的数据量,三者才能共同产生新的价值。

我认为大数据的一个有趣之处在于,很难预测它会得出什么结论。因为在做研究分析的时候,我们并不期待。在不假设我们想要得出什么样的结论的情况下收集和分析数据。但是拿到数据之后,根据数据分析各种问题,有可能得出完全出乎意料的结论,也有可能得出的结论一点都不新鲜。

AI 是一种更好的算法,相同的数据在更合适的算法的帮助下可能会更快地产生新的发现。所以我认为在AI和算力的加持下,大数据可以拓展我们的认知边界和理解边界。通过大数据研究,我们一定会获得很多新的认识,进而影响临床应用或者在健康人身上的应用,可能会让检测更准确,也可能会带来新的应用。这些现在都不得而知了,希望经过进一步的研究能有更清晰的结论。

【Gene Hui】6.国内很多医院或实验室也进行了一些实验,有自己的数据库。未来有可能整合这些数据库吗?

【金鑫】各种数据之间的交流其实很重要,因为数据的维度越多,可以做的事情和可能性就越多。从我们的角度来看,有几个方面需要优先考虑。一是合规,所有数据的联动必须以合规为前提。其次,可能需要一个好的机制和技术来支持,比如区块链技术,未来可能会用于数据授权。三是合作精神。如果你只从你拥有的数据中学习,它会受到更多的限制。如果能在以上前提下进行合作,将会产生更多的价值。

【基因智慧】7.作为华大在线的负责人,你最近有什么新进展吗?

【金鑫】BGI Online是华大基因的基因云平台,体现算力的组织能力,通过云平台输出,对数据分析师友好,让他们轻松调用数十万服务器处理分析任务,是基因大数据时代的重要基础设施。此次14万项目的顺利完成,也得益于之前积累的算力组织能力。

今年,华大在线完成了超过20000条高深度全基因组数据的分析,处理了超过2PB的数据,体现了其卓越的性能和效率。我们还将在今年的 ICG(第 13 届国际基因组学大会)期间推出新版 BGI Online,进一步提升其性能。

NIPT的广阔应用前景

· 有望加速早期肿瘤筛查

· 与临床专家密切合作

【基因智慧】8. 关于NIPT,在这个项目中非常有价值,NIPT已经帮助了数百万孕妇及其家庭,并且也在不断的发展。 13三体、18三体、21三体以外的应用,哪些有望在1-2年内落地临床?

[金鑫]对于1三体3、18、21,NIPT技术应该比较成熟。然而,在这项技术不断发展的过程中,特别是随着数据的不断积累,也发现了其他各种异常情况,比如微缺失和重复等出生缺陷,或者怀孕期间的肿瘤。这些异常将包含在数据中。反映。如果我们能对这些数据有更深入的了解,并以正常人的数据水平作为参考,我们就有可能提前发现妊娠肿瘤等异常情况,对早期肿瘤筛查有很大帮助。

至于技术的实施中国人基因组大数据,我认为有必要和很多临床专家进行密切的沟通与合作。目前,我们的研究成果还是一个非常纯粹的科学研究,更多的是一个基础信息和知识数据库。未来,我们建立的数据集可能会作为其他临床应用的参考。但能否发展得更快,还需要与临床专家反复沟通,寻找更清晰的路径。

关于临床应用,这取决于具体的方向。例如,单基因疾病的诊断取决于中国人群的参考情况。有了好的参考集,诊断的准确性就会大大提高。在这方面,这项研究的结果可以立即应用。但在肿瘤或病原体领域应用可能需要更多时间,因此不同方面的进展速度可能有所不同。

项目的后续计划

· 未来三年完成数百万人的基因数据分析

· 基因数据与药物靶点关系的初步研究

·疱疹病毒相关基因与疾病的关系

【基因智慧】9.关于这个项目的下一步,有没有深化深度或者扩大样本量的计划?另外,是否会与药企合作,将这些海量数据应用到药物研发中?

【金鑫】接下来,我们的主要工作是进一步扩大样本量,希望在未来三年内完成100万人的基因数据分析。我们目前掌握的数据的主要特点是样本量大、测序深度低。这也是因为目前的临床应用主要是无创产前基因检测。如果未来还有其他基于更高深度测序数据的应用,我们也会考虑使用新数据进行科学研究。

目前没有与药企合作,但我们会针对这些数据与药物靶点的关系做一些探索和初步研究。

图片[3]-我国:基因大数据成为精准医学时代的核心竞争力之一-8118体育网

图片、血浆病毒谱分析

【基因智慧】10. 研究还发现了与疱疹病毒相关的基因,这可能导致阿尔茨海默病疗法的发现。有没有进一步的研究计划?

【金鑫】这个结果也是一个意外的发现。在我们提交时,关于疱疹病毒和阿尔茨海默病的研究尚未发表,但这两项独立的研究发现了一些与这种病毒有关的研究。特征,我们发现的是感染这种病毒和人类基因的关系,他们发现了疱疹病毒和人类疾病的关系。接下来,如果将这两个研究成果结合起来,可能会有更多的可能性,还需要进一步的研究。

精准医疗时代如何掌握核心竞争力

·技术和工程挑战

· 不同领域大数据平台的交流很重要

· 具有自主知识产权的基因测序仪

【基因智慧】11.英国近日宣布启动500万基因组研究(详情),中国要开展这一百万级基因大手术,主要困难和挑战是什么?数据研究?

【金鑫】处理这么大的数据量还是有很多挑战的,需要一些更复杂的算法,还有一些算法需要重新开发。其中一个困难是技术挑战,另一个是工程挑战。设计这样一套算法,从技术上来说难度不小;在工程方面,难度可能不会随着样本量的增加而线性增加。比如1万人的样本量,两者的比较是10000×10000的矩阵,但是如果100000×100000或者100000×100万,增长率要大得多,求解矩阵的难度也是会大很多。因此,对计算基础设施和工程的要求会比较高。

在这方面,国内互联网大数据平台也积累了一些基础能力,其他行业积累的一些经验也可以应用到基因行业。不同领域之间的沟通很重要,有些问题对我们来说可能很难,但他们可能已经有了解决方案;还有一些问题只有我们自己才能做这个算法,所以我们需要加强沟通。

此外,拥有自主知识产权的基因测序仪是重中之重中国人基因组大数据,因为这涉及到基因样本数字化过程中基因资源的质量、成本和自主权。华大基因推出了多款国产测序仪和试剂,大大降低了测序成本。数据质量也得到了UK BioBank等项目的高度认可。这对我国开展类似的百万级基因大数据研究也是一大利好。

◆炎黄中国人群基因频率数据库CMDB:

◆ 无创产前检测的基因组分析揭示遗传关联、病毒感染模式和中国人口历史:(18)31032-8

编辑:Candice 校对:Eric 审阅:Mark

扫码参与GeneSmart读者调查

获取年中报告的硬拷贝

基因智能招聘

新媒体编辑/行业分析师/互联网产品经理

加入我们:让连接产生价值,用数据预见未来

简历投递邮箱:info@genonet.cn

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片