摘要

本论文主要研究内容是将传统的全基因组测序与Hadoop框架结合的大数据测序平台研发,通过Hadoop中的HDFS分布式存储系统来提供高可靠的存储服务,结合基因测序的一系列软件工具(如:BWA、Samtools、Picard和GATK等)来进行测序流程设计,并引入第三方FreeMarker模板引擎来制定模板脚本,针对不同的样本数据生成定制化的脚本处理文件。将各个样本的处理脚本与Hadoop框架的MapReduce计算框架结合,以Map任务的方式提交到Hadoop集群的各个计算节点的Container容器中运行,从而实现基因测序的并行化测序处理流程,得到样本组中各个样本对的单体变异检测gVCF文件。再通过一个Reduce任务,将各个Map阶段的变异检测结果中包含基因变异位点的信息汇总到一个VCF文件,得到最终多个样本准确的变异集合。

Read More

1 绪论

声明:基于Hadoop的基因组测序大数据分析平台研究是本人2018年的本科毕业设计课题,根据网络资源和自己的专业知识,独立完成整个流程设计、平台搭建和单元测试等工作。本系列文章是对该项目的一个整理总结和分享记录。该目录提及的系列文章可供转载,并无需通知作者,但需要在明显地方标注文章出处

Read More

2 相关技术及原理

2.1 Hadoop相关技术和原理

本节主要对基于Hadoop平台的相关技术,如:HDFS、YARN和MapReduce三大模块进行原理介绍 ,为后续基因测序在Hadoop平台上的搭建作相应的准备。

2.1.1 HDFS分布式存储系统

Hadoop分布式存储系统,即Hadoop Dirstributed FileSystem,简称HDFS[1]。由于Hadoop集群的基础架构设施,使得HDFS是一个能提供可扩展性和高可靠性的基于Java的文件系统,并且适用于大型商业服务器集群或是廉价服务器上,从而可以提供PB级的存储容量和上千个服务器的计算能力。

Read More

3 基于Hadoop基因测序数据处理关键技术的研究

3.1 测序处理流程与MapReduce结合

基因测序处理流程中有gVCF和VCF文件生成两个阶段,而MapReduce恰好是一种分阶段处理的编程模型,它拥有Mapper和Reducer两个处理阶段,因此将MapReduce框架和测序流程结合在一起,既能保证测序流程的有序进行,又能在MapReduce框架中进行并行调度,提升测序数据处理的效率。

3.1.1 测序流程与MapReduce结合的可行性分析

MapReduce是一种可用于数据处理的编程模型,可以将数据分析处理流程分为映射阶段和归约阶段[1]。在映射阶段,各个Map程序在不同的Container中运行彼此互不干扰,即各个Mapper阶段的程序本质上是并行运行的;而到了Reducer规约阶段,将各个Mapper阶段产生的中间结果做规约整合得到最终的处理结果。因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心,也正是因为其强劲的数据分析和并行处理能力,所以选择其和测序处理流程作整合。

Read More

4 基于Hadoop的平台搭建与MapReduce作业设计

4.1 基于Hadoop的伪分布式平台搭建

在搭建Hadoop分布式系统平台[1]时,我们有两种方式可以选择,分别是伪分布的模式和完全分布式模式。这两种模式的主要区别在于前者是在本地一台机器中运行Hadoop框架中的各种服务,是一种模拟分布式的集群环境。而完全分布式的环境就是在真实的多个主机上配置Hadoop,并搭建整个集群环境。

Read More