一种高效集成分类器及其在蛋白质折叠识别中的应用分析-an efficient integrated classifier and its application analysis in protein folding recognition.docxVIP

一种高效集成分类器及其在蛋白质折叠识别中的应用分析-an efficient integrated classifier and its application analysis in protein folding recognition.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种高效集成分类器及其在蛋白质折叠识别中的应用分析-an efficient integrated classifier and its application analysis in protein folding recognition

1.1 研究背景第一章绪论随着人类基因组计划的完成 ,序列数据信 息如潮水般涌现 。目前 ,仅登录在 GeneBank 数据库中的 DNA 序列总量已经超过 100 亿碱基对 。与 DNA 序列同步 增长的还有氨基酸序列数据和蛋 白质结构数据,截至 2007 年 4 月 20 日, PDB中已知蛋白质结构的数目为 42861 [1], NCBI 中非冗余的蛋白质序列数目为 3438099 条 。处在这种数据的海洋中 ,人们亟需了 解这些数据所包含的生物学意 义 ,由此产生了一门新兴的交叉学科 ━生物信息学 。根据美国人类基因组实施五 年后的总结报告 ,生物信息学定义为 :生物信息学是一门交叉学科 ,它包含了生 物信息的获取 、处理 、储存 、分发 、分 析和解释等在内的所有方面 ,它综合运用 数学 ,计算机科学和生物学的各种工具 ,来阐明和理解大量数据所包含的生物学 意义。 蛋白质是一切生命的物质基础 ,是生命活 动的承担者 ,没有蛋白质就没有生 命。蛋白质构成人体的每个组织,如:毛发 、 皮肤 、 肌肉 、 骨骼 、内脏 、 大脑 、 血液 、神经 、内分泌等 ;蛋白质 构成人体必需的催化和调节功能的各 种 酶 ,保 证 我们体内的生化反应正常进行 ;蛋白质维持肌体正常的新陈代谢和各类物质在体 内的输送 ;蛋白质帮助凝血和伤口愈合 ;蛋白质是制造抗体唯一来源 ,增加免疫 力抵抗感染 ;蛋白质调节体内水份平衡 ,维持身体各种机能 。所有的蛋白质都是 由 20 种氨基酸排列组合而成,按照组成的 比例和排列顺序的不同,人体中的蛋 白质可达数 10 万种。它们的结构、功能千 差万别,形成了生命的多样性和复杂 性 。蛋白质的结构决定其生物功能 ,只有当蛋白质折叠为正确的三维空间构象时, 它才具有正常的生物功能 。蛋白质研究的根本目的是根据需要的生物功能对蛋白 质结构进行改造以及设计新的蛋白质来满 足人类的需要 。因此 ,蛋白质结构预测 成为生物信息学的研究领域中最重要的问题之一 。它主要研究蛋白质如何从氨基 酸序列出发构成特定的三维空间构象 ,这是 人类破译生命奥秘的重大问题 。科学 家们通过对这一问题的研究最终 将阐明遗传信息的全过程 ,加深对蛋白质空间结 构与功能间关系的了解。 目前蛋白质结构的实验测量方法主要包含两类:X 射线衍射技术和核磁共振 方法。 X 射线衍射技术需要得到高质量的晶 体,结晶的时间长、代价高。此外, 由于技术上的限制 ,许多蛋白质都无法得 到合适的晶体 。核磁共振方法不需要结 晶 ,可以在溶液中进行结构的测定 ,但它 只限于较小的蛋白质结构测量 ,测试对 象非常有限。因此,急需发展快速的自动的理论计算方法来预测蛋白质结构。 由氨基酸残基构成的线性序列称为蛋白质 的一级结构 ,也称多肽 链(图 1.1)。 研究发现 ,在适当的环境下 ,一条伸展的多肽链能够自动折叠成特定的空间结构。 即使这种稳定的空间结构遭到破坏 ,在适 当的条件下 ,蛋白质序列仍可恢复其稳 定的三维结构(图 1.1)。这就是著名的蛋白质复性理论 [2]。它表明,氨基酸序列 是决定蛋白质空间构象的最基本因素,即 蛋白质空间信息蕴含在氨基酸序列中。 这为科学家们利用计算方法从序列出发预 测蛋白质结构提供了理论依据。然而, 自然界中蛋白质结构种类的数目高达数十万种 ,导致其研究复杂度非常高 。研究 发现 ,属于同种折叠模式的蛋白质功能相 似 ,而自然界存在的折叠模式还不到一 千种(蛋白质结构分类数据库 SCOP) [3]。因此,通过蛋白质折叠预测来研究蛋 白质结构能大大降低复杂度 。此外 ,研究蛋白质的折叠模式还具有重要的现实意 义。许多疾病的发生是由蛋白质错误折叠引起的,这类病被称为 “蛋白质错误折 叠病 ”。迄今已发现 20多种蛋白质错误折叠病,如:阿尔茨海默病 (Alzheimer’sdisease , AD) , 帕金森病 (Parkinson’s disease , PD) ,亨廷顿舞蹈病 (Huntington’s disease ,HD) ,朊蛋白病 (prion disease) ,家族性肌萎缩侧索硬化症 (familialamyotrophic lateral scleros- is ,ALS) 等。可见,高效预测蛋白质的折叠类型无论 对于生物学还是人们的实际生活都具有非常重要的意义。 图 1.1 蛋白质的结构层次 1.2 国内外的研究现状蛋白质折叠是一类三维结构的集合 ,这类三维结构中的大部分二级结构是相 同的 ,而且这些二级结 构以相同的排列和拓扑结构相连 [4]。蛋白质折叠识别就是 根据氨基酸序列预测蛋白质所属的折叠模 式 。目前 ,蛋白质折叠预测的研究方法 主要分为两大类。 1.2.1基于相似性的方法一般

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档