生物信息学中序列拼接程序的并行化研究.pdfVIP

生物信息学中序列拼接程序的并行化研究.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息学中序列拼接程序的并行化研究

摘要 j当前随着生物领域测序等技术的飞速发展,人类越来越多的获得了关于动植 物生命的信息,诸如其DNA和蛋白质组成等等。在日益累计的数据面前,以往 所用的近乎手工操作的处理分析方法显然大大的落后于研究的要求。于是借助于 计算技术来加快处理速度,加大处理规模成为一个新兴的研究领域,引起了全世 界生物学家和计算技术研究人员的广泛关注。将生物体上的生命信息转化为计算 机所能理解的形式(例如字符串),测序是关键的一步。由于测序精确度的限制, 目前只能保证一定长度范围内的序列是准确可信的,于是就需要将众多的序列拼 接组合以恢复原来长序列的面貌。 当前测序技术的发展使得每次拼接任务所面对的数据量越来越大,而且我们 需要同时进行越来越多的任务07本文主要就是针对当前应用最为广泛的一个拼接 程序phrap来作出分析,加以并行化改造以期在存储和时间上有所优化,扩展其 处理能力并使得现有的计算资源能容纳更多的拼接任务。文章首先介绍了序列拼 接所依赖的理论基础,然后着重分析了程序的数据结构,流程和主要函数,为并 行化作好准备并提供方向。在第三和第四章分别针对phrap占用内存量大和运行 时间的问题作出了并行化的改造。第五章就今后的工作的方向重点阐述了个人观 点。本文主要贡献如下: 1. 针对目前还没有解决方案的phrap大量消耗存储问题,在集群上用共 享存储的方式进行了改造,使得起码一半的内存消耗可以在集群各 节点上基本均匀的分布,突破了phrap对单节点可用资源的依赖。对 于一定的计算资源,从整体上扩充了其处理数据的能力,从而一定 程度内缓解了当前数据产生速度和处理速度之间的矛盾。而且其中 对内存分布的分析信息对以后同类工作提供了极大的便利。 2. 分析phrap中一个主要的耗时部分:序列拼接过程。对原来只能串行 执行的过程挖掘出了其隐藏的并行性,实现并进行了测试。就本人 所知,当前对phrap的时间优化主要是从程序的序列比对部分入手, 针对拼接部分的算法优化是没有先例的,这部分的工作对phrap的优 化在理论上是一个切实的推进,目前phrap中的主要部分都已经没有 了结构上的串行性,怼于以后的工作带来很大的便利。 关键词:情;歹旺-j井接_了1扔日■。phrarr舛得~一 Abstract Withthe of are biologicalsequencingtechnique,Human rapidimprovement ofthelivesthe astheDNAand information in world,such andmore the more getting to datamanual able the researchersarenot overwhelmingby protein。But analyze thenatureofjire。 has our of asusual。Thissituation work alreadydelayed knowing

文档评论(0)

118zhuanqian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档