制作带有java监控命令的镜像

在生产环境中,经常有docker容器的CPU消耗太高而导致宿主机的CPU占用率攀升,引起AWS CloudWatch的警报邮件等,另外在批量重启容器的时候,也会经常遇到短暂对宿主机的CPU消耗过高的情况,现阶段准备再原来的容器中新增java的监控命令。具体是在镜像中包含如:jps、jstat和ps等命令的容器。

Read More

致 谢

从论文的选题、资料收集再到撰写的整个过程,在碰到基因测序的疑难问题时,得到了许多老师和同学的热情帮助。

首先,我要感谢的是我的导师邝祝芳老师,当他得知我的毕设课题需要大数据平台与基因测序结合,询问我是否需要高性能计算的服务器,并随后立马帮我申请了湖南大学的天河一号超级计算机的使用账号。在我毕业设计的基因样本数据的准备过程,和基于Hadoop大数据平台的搭建过程中,他对我的研究提出了很多宝贵的意见,这也使我基因测序的研究方向更加清晰了,最后得以顺利开发出系统平台。

Read More

结 论

在本次的论文中,主要对Hadoop大数据框架做了深入了解,并对生物信息学中基因测序领域有了一个全新的认识。在这次基于Hadoop的基因组测序大数据分析平台研究的课题中,构建了针对生物全基因组的测序流程,并将自己所学的大数据领域的知识与全基因组测序流程相结合,利用Hadoop特有的HDFS分布式存储系统的特性,来容错的存储样本数据,并通过MapReduce计算框架将原本串行分析的WGS流程构建成不同的Map任务和Reduce任务,达到对不同的样本流程进行并行分析,提高基因测序的时效性和高扩展性。

Read More

5 系统的测试与扩展

5.1 MRUnit测试类编写

MRUnit是一个MapReduce的测试库,它能将已知的输入通过函数的形式直接传递给Map()函数,然后该函数直接被调用运行,或者检查Reduce()函数的输出和测试的指定输出匹配,看是否符合预期输出。MRUnit与标准的测试执行框架(如:JUnit)一起使用[1],因此可以在正常的开发环境中运行MapReduce作业的测试。

Read More

4 基于Hadoop的平台搭建与MapReduce作业设计

4.1 基于Hadoop的伪分布式平台搭建

在搭建Hadoop分布式系统平台[1]时,我们有两种方式可以选择,分别是伪分布的模式和完全分布式模式。这两种模式的主要区别在于前者是在本地一台机器中运行Hadoop框架中的各种服务,是一种模拟分布式的集群环境。而完全分布式的环境就是在真实的多个主机上配置Hadoop,并搭建整个集群环境。

Read More

3 基于Hadoop基因测序数据处理关键技术的研究

3.1 测序处理流程与MapReduce结合

基因测序处理流程中有gVCF和VCF文件生成两个阶段,而MapReduce恰好是一种分阶段处理的编程模型,它拥有Mapper和Reducer两个处理阶段,因此将MapReduce框架和测序流程结合在一起,既能保证测序流程的有序进行,又能在MapReduce框架中进行并行调度,提升测序数据处理的效率。

3.1.1 测序流程与MapReduce结合的可行性分析

MapReduce是一种可用于数据处理的编程模型,可以将数据分析处理流程分为映射阶段和归约阶段[1]。在映射阶段,各个Map程序在不同的Container中运行彼此互不干扰,即各个Mapper阶段的程序本质上是并行运行的;而到了Reducer规约阶段,将各个Mapper阶段产生的中间结果做规约整合得到最终的处理结果。因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心,也正是因为其强劲的数据分析和并行处理能力,所以选择其和测序处理流程作整合。

Read More

2 相关技术及原理

2.1 Hadoop相关技术和原理

本节主要对基于Hadoop平台的相关技术,如:HDFS、YARN和MapReduce三大模块进行原理介绍 ,为后续基因测序在Hadoop平台上的搭建作相应的准备。

2.1.1 HDFS分布式存储系统

Hadoop分布式存储系统,即Hadoop Dirstributed FileSystem,简称HDFS[1]。由于Hadoop集群的基础架构设施,使得HDFS是一个能提供可扩展性和高可靠性的基于Java的文件系统,并且适用于大型商业服务器集群或是廉价服务器上,从而可以提供PB级的存储容量和上千个服务器的计算能力。

Read More

1 绪论

声明:基于Hadoop的基因组测序大数据分析平台研究是本人2018年的本科毕业设计课题,根据网络资源和自己的专业知识,独立完成整个流程设计、平台搭建和单元测试等工作。本系列文章是对该项目的一个整理总结和分享记录。该目录提及的系列文章可供转载,并无需通知作者,但需要在明显地方标注文章出处

Read More

摘要

本论文主要研究内容是将传统的全基因组测序与Hadoop框架结合的大数据测序平台研发,通过Hadoop中的HDFS分布式存储系统来提供高可靠的存储服务,结合基因测序的一系列软件工具(如:BWA、Samtools、Picard和GATK等)来进行测序流程设计,并引入第三方FreeMarker模板引擎来制定模板脚本,针对不同的样本数据生成定制化的脚本处理文件。将各个样本的处理脚本与Hadoop框架的MapReduce计算框架结合,以Map任务的方式提交到Hadoop集群的各个计算节点的Container容器中运行,从而实现基因测序的并行化测序处理流程,得到样本组中各个样本对的单体变异检测gVCF文件。再通过一个Reduce任务,将各个Map阶段的变异检测结果中包含基因变异位点的信息汇总到一个VCF文件,得到最终多个样本准确的变异集合。

Read More

显示边栏