基于并行技术的遗传变异鉴定工具的优化文献综述

 2023-01-03 16:09:16

随着分子生物技术的高速发展,测序技术及其商业运作模式不断成熟,很多物种完成了全基因组从头测序,使基因组研究逐步向重测序方向发展,研究的对象也从个体向群体过渡。随着测序成本的持续降低,大规模物种重测序从理想变成了可能,如千人基因组计划和1 001株拟南芥重测序计划都已付诸实施。烟草是我国重要的经济作物,对农业经济具有重大价值,同时烟草作为科学研究的模式植物,常被用于基础生化代谢、基因组进化和转基因等领域的研究。烟草基因组测序的完成使大规模鉴定烟草中的遗传变异(SNP、InDel 等)和构建高密度单体型图成为可能。Samtools、SOAPsnp、GATK、realSFS、Beagle 等一系列工具被开发出来,用于单/多样本的遗传变异位点鉴定。随着烟草基因组计划重大专项的持续推进,烟草重测序研究将在烟草分子育种方面发挥重要作用。而遗传变异鉴定是重测序分析中最关键和耗时的一步。每一种工具都有其局限与优势,因此如何更好的使用这些工具以使其效率最大化是目前比较急切的任务。目前,基因组重测数据分析后期存在多个方向,如群体进化、基因定位等,但研究前期目标基本一致,即从测序数据中提取变异信息。按照提取变异信息分析流程的先后顺序,分析步骤依次为过滤测序原始数据、短片段数据比对到参考基因组上和变异位点的检测。使用到的分析软件按功能划分为数据过滤软件、比对软件和变异提取软件。本课题所拥有的烟草基因数据为已经过滤的数据,因此本课题将重心放在比对之上。SNP,全称Single Nucleotide Polymorphisms,是指在基因组上单个核苷酸的变异,包括转换、颠换、缺失和插入,形成的遗传标记,其数量很多,多态性丰富。从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2:1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的胞嘧啶常被甲基化,而后自发地脱氨成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 10^6 个 。因此,SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。因此,本课题是关于烟草基因的SNP位点的寻找与分析。本课题拟先对一系列筛选工具做一个测评,以烟草基因为数据,分析其利弊,先找到相对来说效率较高的工具。预计采用几种工具进行分析;samtools、GATK、bcftools等,分别将烟草基因的比对数据与测序数据输入,再将其结果与标准的SNP数据比较,分析其准确率;将分析时间作为指标,分析其速率,综合准确率及效率,找到较好的工具。牵扯到了基因组,那么就有一个特点:数据庞大。其数据动辄上千万数亿,要想提高效率,那么提高计算能力就是首当其冲的。在高性能计算告诉发展的今天,并行计算是高性能的热点,也是提高效率最有效的方法。因此,本课题准备利用并行技术来对遗传鉴定工具进行优化,使其能拥有更快的处理速度。

并行计算或称平行计算是相对于串行计算来说的。它是一种一次可执行多个指令的算法,目的是提高计算速度,及通过扩大问题求解规模,解决大型而复杂的计算问题。所谓并行计算可分为时间上的并行和空间上的并行。 时间上的并行就是指流水线技术,而空间上的并行则是指用多个处理器并发的执行计算。并行的编程框架与我们传统的编程框架有很多不一样的地方,目前最常用的几种并行框架如下:基于共享内存的OpenMP、与GPU架构高度契合的CUDA、平台兼容性很强的OpenCL、将处理数据切割的MapReduce、 Hadoop ,MapReduce的开源版本等。几种框架各有各自的适应条件,OpenMP适用于多核CPU,CUDA适用于让CPU与GPU协同的情况,OpenCL适用于CPU、GPU及其他处理器组成的异构群,MapReduce 适用于输入可分割的情况。鉴于SNP检测中,测序数据与比对数据的一一对应性,因此考虑采用MapReduce的框架结构,将测序数据与比对数据均划分为相等小块,分别将其放入不同的处理器中处理,以此来提高运行的速度。比对数据是要拿来寻找SNP的样本即测试集,测序数据是一个标准的参考数据即标准集,这种数据一般由权威机构发表。将比对数据与测序数据对比发现有那些位点不一样即哪些位点发生了变异,这些位点就是SNP位点。

至于考虑说测序数据中,SNP的变换可能会有导致数量变化的情况,导致与比对数据错位,划分时就会产生错误。在上文中我们可以知道,SNP理论上有四种情况,但是实际情况中却只有两种:转换和颠换,因此数量不会产生变化,按固定大小的长度来划分也就不成问题了。

如若能提前完成的情况下,时间还依旧充足则考虑可以将GPU与CPU的协同运算加进来,以进一步提高运行速率,预计采用CUDA框架,将其与MapReduce框架结合。根据课题进行中的实际情况,也可选择OpenMe的框架来进行并行编程。

以上是本人根据自己所寻找的相关文献做的开题报告,请老师查阅。如有不妥之处,望给出指导意见。

参考文献:

[1]李泽锋,卢鹏,张剑锋,张慧,许亚龙,金静静.群体遗传变异鉴定工具系统比较[J].烟草科技,2018(01):8-14.

[2]余世洲,曹培健,李泽锋,林世锋,张洁,郭玉双,余婧,任学良.基于烟草基因组重测序数据的SNP提取软件组合比较[J].烟草科技,2017,50(10):1-7.

[3]李鹏飞. 医疗健康大数据的并行处理方法研究[D].浙江大学,2016.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版