2 相关技术及原理

2.1 Hadoop相关技术和原理

本节主要对基于Hadoop平台的相关技术,如:HDFS、YARN和MapReduce三大模块进行原理介绍 ,为后续基因测序在Hadoop平台上的搭建作相应的准备。

2.1.1 HDFS分布式存储系统

Hadoop分布式存储系统,即Hadoop Dirstributed FileSystem,简称HDFS[1]。由于Hadoop集群的基础架构设施,使得HDFS是一个能提供可扩展性和高可靠性的基于Java的文件系统,并且适用于大型商业服务器集群或是廉价服务器上,从而可以提供PB级的存储容量和上千个服务器的计算能力。

Read More

1 绪论

声明:基于Hadoop的基因组测序大数据分析平台研究是本人2018年的本科毕业设计课题,根据网络资源和自己的专业知识,独立完成整个流程设计、平台搭建和单元测试等工作。本系列文章是对该项目的一个整理总结和分享记录。该目录提及的系列文章可供转载,并无需通知作者,但需要在明显地方标注文章出处

Read More

摘要

本论文主要研究内容是将传统的全基因组测序与Hadoop框架结合的大数据测序平台研发,通过Hadoop中的HDFS分布式存储系统来提供高可靠的存储服务,结合基因测序的一系列软件工具(如:BWA、Samtools、Picard和GATK等)来进行测序流程设计,并引入第三方FreeMarker模板引擎来制定模板脚本,针对不同的样本数据生成定制化的脚本处理文件。将各个样本的处理脚本与Hadoop框架的MapReduce计算框架结合,以Map任务的方式提交到Hadoop集群的各个计算节点的Container容器中运行,从而实现基因测序的并行化测序处理流程,得到样本组中各个样本对的单体变异检测gVCF文件。再通过一个Reduce任务,将各个Map阶段的变异检测结果中包含基因变异位点的信息汇总到一个VCF文件,得到最终多个样本准确的变异集合。

Read More

接口与内部类

接口

重难点总结:
1、接口中的所有方法自动地属于public,在接口声明方法时,不必提供关键字public,但是在实现接口 编写具体的接口方法时,需要加上public修饰符。

2、在接口中可以定义常量(默认就是用public static final修饰)。接口中绝对不能含有实例域或静态方法,也不能在接口中实现方法。

Read More

零碎注意点

在DOS命令行下执行命令运行Java文件:
1、运行jar包 java -jar test.jar
2、编译Java文件 javac test.java
3、运行Java的字节码文件 java test
4、调试Java文件 jdb test.java
5、生成Java doc文件 javadoc test.java

Read More

异常与泛型

捕获异常

异常分为两种类型:未检查异常和已检查异常。

已检查异常:系统已检查可能发生异常的地方,程序员编写再精细的程序也无法保证不发生异常的地方。(派生于IOException)
未检查异常:派生于Error类或RuntimeException

Read More

类和对象的易错点

  • 总结Java程序设计语言中方法参数的使用情况:

    • 一个方法不能修改一个基本数据类型的参数(即数值型和布尔型,在Java中只有基本类型不是对象)。当参数是传入一个数值或布尔值时,传入的参数和原数据基本类型参数是两份不同的拷贝,互不影响。

    Read More

Java笔试易错点

  • 启动线程方法start();线程stop方法已经被弃用;守护线程在非守护线程结束后,会自动结束;等待其他线程通知方法是wait()
  • switch结构中没有break的话,匹配完不会跳出,会继续匹配下一个case直到整个结构结束
  • Java.awt.*只能导入awt这个包中的所有类,awt中的包中的类不会导入
  • public>protected>默认(包访问权限)>private,因为protected除了可以被同一包访问,还可以被包外的子类所访问

Read More

显示边栏