1 绪论

声明:基于Hadoop的基因组测序大数据分析平台研究是本人2018年的本科毕业设计课题,根据网络资源和自己的专业知识,独立完成整个流程设计、平台搭建和单元测试等工作。本系列文章是对该项目的一个整理总结和分享记录。该目录提及的系列文章可供转载,并无需通知作者,但需要在明显地方标注文章出处

开发环境介绍:通过个人便携式笔记本ThinkPad开发,内存是8GB。

  • 操作系统:Ubuntu16
  • 开发平台:IDEA
  • 开发时间:2018年2月~5月

项目源码GitHub托管:https://github.com/yilong0722/wgs

1.1 论文的研究背景及意义

全基因组测序的英文是 Whole Genome Sequencing,简称WGS。它是将物种细胞里从第一个DNA开始一直到最后一个DNA的完整基因组序列,通过相关仪器和技术手段检测出来并排序好得到一种文本格式的文件,最后再将其和参考基因组做比对,鉴定出基因组上任何类型的突变。对于人类来说,全基因组测序能帮助我们更好的了解我们自身的基因位点信息,检测变异基因并应用在遗传病方面等。

1.1.1 全基因组测序原理及发展历程

基因测序技术经过四十多年的发展,作为二十一世纪的朝阳行业,已是时下热门。测序技术发展简史如图1-1所示,从图中可以看出,基因测序技术的开端在20世纪70年代中期,以当时英国生物化学家弗雷德里克·桑格(Sanger)开创的双脱氧链终止法[1]为开端。这是一种常用的核酸测序技术,主要用于DNA的测序分析。正因为此次的研究成果,将双脱氧链终止法与化学降解法以及其衍生方法统称为第一代DNA测序技术。

图1-1 测序技术发展简史

经过不断的技术开发和改进,在二十世纪初期随着人类基因组计划的完成,第二代测序技术诞生了。主要是以Illumina的Solexa/Hiseq技术和ABI的SOLID技术为代表,能够对一个物种的转录组或基因组进行深度测序[2]。第二代测序技术也使得DNA测序进入了高通量、低成本的功能基因组时代[3]。再后来,以PacBio的SMRT和ONT的纳米孔单分子测序技术为标志的第三代测序技术[4]。与之前的第一代和第二代测序技术相比,最大的不同点在于单分子测序技术的引入,测序过程不采用PCR扩增技术,并且可以进行超长读长,使得测序技术又有了进一步的提升。

对于人类的全基因组测序来说,人类的全基因组一共有23对染色体,包含超过30亿个碱基[5],而目前仅有3%的碱基信息能从临床医学上给予解释,因此还有大量的测序工作值得我们去发掘。由测序服务公司提供的原始测序序列文件在经过系统地分析处理前,无法提供任何有效的信息进行疾病的分析和预测.因此要想能够解密人类基因组的奥秘,就必须建立更加高效快速的数据分析平台,并结合生物测序仪器,将生物的蛋白质物质提取并转换为文本序列格式的数据,对其进行质量剔除、序列比对和基因测序等一系列测序分析工作[6]

纵观我国的基因组测序行业的状况,在2017年底,我国启动“中国十万人基因组计划”[7],这是我国在人类全基因组测序领域的一个重大战略举措,也是目前世界最大规模的人类基因组计划,对我国的基因测序行业的发展有着深远的意义。

1.1.2 Hadoop分布式平台

Hadoop 是Apache基金会下的一个顶级项目,主要用于在商业硬件网络上进行大规模计算和数据处理,该项目发展到目前已有超过十年的时间。这个分布式计算平台是用Java编写,最初是由Doug Cutting创建的,可以通过一个简单的MapReduce编程模型[8],跨集群地对大型数据集进行分布式存储和计算处理等,Hadoop1.x与2.x的比较如图1-2所示。

图1 2 Hadoop1.x与2.x的比较

如今Hadoop项目已经发展为了一个大数据处理的应用框架体系,但其中主要应用在数据处理模块的仍然是HDFS分布式存储系统和MapReduce计算框架。在Hadoop2.0[9]之后,将集群的资源管理和任务调度的功能分离成了一个YARN服务模块。在其1.0版本中,原本计算、资源管理及调度是统一管理的,但由于调度任务的增多导致集群资源调度的性能瓶颈问题,为了打破原来的性能瓶颈,将任务调度和资源管理从原来的模块中分离出来。也正是因为这种改进,使得一些其他的计算框架如SparkHBase 等能够轻松应用在Hadoop集群中。

1.2 国内外研究现状

1.2.1 基因测序的研究现状

在基因测序服务方面,目前全球有上千家厂商提供测序服务,美国是基因测序服务发展较早的国家,因此大部分的服务产商都分布在美国。目前有超过200家分布在中国。在奥巴马政府于2015年初颁布“精准医疗计划” ;第二年中国国家科技部也将精准医疗列入重点研发计划 ,精准医疗受到中美两国政府的高度重视。政府机构对于个性化精准医疗的战略部署,直接反映了基因测序在当今时代的重要性。

随着全球市场对基因测序的需求不断提升,一些大型的测序产商也在快速更新自己的测序仪产品。如Illumina测序公司在2014年推出了HiSeqX Ten测序仪系统,是第一个每年处理20,000个基因组的高通量系统,每个成本为1,000美元,从2015年,Illumina开始提供该系统的缩小版本HiSeq X Five。由于测序成本的不断降低,恰好也推动着一些医院和科研机构纷纷加入个性化医疗的研究领域中来,使得个性化精准医疗能够快速发展[10]

1.2.2 Hadoop与基因测序的研究现状

下图是每个DNA序列的测序费用,早在2007年末,测序费用已打破摩尔定律迅猛下降,而截止到2017年对于每条DNA序列的测序费用已低于0.01美元。这十年间测序技术的发展和世界各国科研的投入,使得基因测序的成本和门槛越来越低。

每段DNA序列的测序成本如图1-3所示,面对如此低廉的测序成本,使得个性化测序医疗的成本也会越来越低。普通人群也可以享受基因测序带来的红利,想通过基因测序了解自己的基因变异位点和遗传病的情况等。单随之而来的会面临大数据量的基因测序问题,因此我们必须寻求其他手段来高效并发的处理基因测序,在此可以利用Hadoop大数据批量处理的优势来并行化测序。在国外已经有科研机构或者公司进行这方面的尝试,如Broad Institute研究所,他们采用Hadoop、Spark的方式和基因测序结合起来,发挥Hadoop和Spark基于内存的实时分析能力,对基因测序和大数据结合的尝试。在GATK4.0的时候推出了“在Spark集群上启用Spark的GATK工具”等系列课题 。

图1 3 每段DNA序列的测序成本

1.3 论文的主要研究内容

通过全基因组测序流程分析并引入参考基因组,将测序样本进行一系列的处理操作如:

  1. 原始数据质量控制
  2. 数据预处理(包括:序列比对、排序、标记重复序列以及建立索引等)
  3. 基因变异检测

接着通过Hadoop大数据分析平台,并引入第三方模板引擎来构建分析处理脚本,结合MapReduce计算处理框架和分布式存储系统HDFS来并行计算和存储基因数据,从而实现对基因测序进行并行化测序,最终完成全基因组测序的全过程,获得样本准确的变异基因位点的集合。最后可以将这个变异集合用来指导一些疾病的研究和精准化医疗的应用方面等。

1.4 章节安排

在第一章绪论中,主要介绍全基因组测序的研究背景及意义,其中包括对全基因组测序原理及发展历程的介绍,并对Hadoop分布式平台加以介绍,最后对国内外基因测序的研究现状和本论文主要的研究内容作了阐述。

第二章中,将会重点介绍基因测序所需要的Hadoop平台,包括HDFS组件和MapReduce组件的内部原理和相关特性。接着对全基因组测序所用到的相关流程模块及测序技术作整体介绍,主要包括三大模块:原始数据质控、数据预处理以及变异检测。最后对测序技术中出现的主要文件格式,如FASTA、FASTQ、gVCF和VCF这四种格式做了概述和格式说明。

第三章中,基于Hadoop平台基因测序的关键技术作了剖析和研究。其中包括测序逻辑与MapReduce的结合,不同格式数据的访问和存储,以及如何保证分析流程的完整性,最后引入FreeMarker模板引擎完成关键性的定制化脚本的搭建工作。

第四章中,基于Hadoop平台基因测序的流程处理和MapReduce计算框架的代码实现方面。首先是对Hadoop伪分布式环境和分布式环境的搭建和功能比较比较,其次实现Shell脚本执行引擎的构建,并分析Mappe阶段和Reduce阶段作业设计与分配,最后将对作业进行整体调度的实现。

第五章中,主要对第四章搭建的大数据处理平台的测试、优化及扩展。考虑到测试数据的易用性和分析平台测序流程的完整性,这里使用E.coli_K12的样本组数据。通过将该项目的样本数据引大数据分析平台,可以很好的对该平台进行测试和系统优化。最后对Hadoop分布式的基因测序效率与传统的脚本式的测序效率作比较,将系统平台进行扩展应用等。

第六章,对基于Hadoop的基因测序大数据平台研究与设计的总结,通过对基于Hadoop的基因组测序大数据分析平台的研究,实现自动并行化的样本数据的基因测序,大大改善传统串行处理的测序分析处理流程,从而有效的提升基因测序处理效率,并有望将该平台研究成果应用于实际基因精准化测序和个性化医疗领域中。


  1. Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating[P]. 74, 5463–5467 (1977).

  2. Struster SC.Next-generation sequencing transform today’s biology[J].Nat Methods.5(1):16-18 (2008).

  3. 解增言,林俊华,谭军,舒坤贤. DNA测序技术的发展历史与最新进展[J]. 生物技术通报. 2010(08).

  4. Rusk N. Cheap third-generation sequecing[J]. Nature. 6(4): 244-245 (2011).

  5. J. Craig Venter, Mark D. Adams, Eugene W. Myers. The Sequence of the Human Genome[J]. Science, 2001, 291(5507): 1304-1351.

  6. 高通量DNA测序技术及其应用进展[J]. 于聘飞,王英,葛芹玉. 南京晓庄学院学报 2010-05-20 (05).

  7. 衣春翔. 哈工大牵头启动十万人基因组计划[N]. 黑龙江日报. 2017-12-29 (003).

  8. Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters[C]. America:Google, Inc., 2004. 137-149.

  9. Garry Turkington. Hadoop基础教程[M]. 张治起译. 人民邮电出版社 第1版, 2014.

  10. 新一代基因组测序-通往个性化医疗[M]. 贾尼特编著,薛庆中等译. 科学出版社, 2012.