一种高效集成分类器及其在蛋白质折叠识别中的应用分析-an efficient integrated classifier and its application analysis in protein folding recognition.docxVIP

下载本文档

6
0
约4.18万字
约 41页
2018-06-03 发布于上海
举报
版权申诉

一种高效集成分类器及其在蛋白质折叠识别中的应用分析-an efficient integrated classifier and its application analysis in protein folding recognition.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种高效集成分类器及其在蛋白质折叠识别中的应用分析-an efficient integrated classifier and its application analysis in protein folding recognition

1.1 研究背景第一章绪论随着人类基因组计划的完成，序列数据信息如潮水般涌现。目前，仅登录在 GeneBank 数据库中的 DNA 序列总量已经超过 100 亿碱基对。与 DNA 序列同步增长的还有氨基酸序列数据和蛋白质结构数据，截至 2007 年 4 月 20 日， PDB中已知蛋白质结构的数目为 42861 [1], NCBI 中非冗余的蛋白质序列数目为 3438099 条。处在这种数据的海洋中，人们亟需了解这些数据所包含的生物学意义，由此产生了一门新兴的交叉学科 ━生物信息学。根据美国人类基因组实施五年后的总结报告，生物信息学定义为：生物信息学是一门交叉学科，它包含了生物信息的获取、处理、储存、分发、分析和解释等在内的所有方面，它综合运用数学，计算机科学和生物学的各种工具，来阐明和理解大量数据所包含的生物学意义。蛋白质是一切生命的物质基础，是生命活动的承担者，没有蛋白质就没有生命。蛋白质构成人体的每个组织，如：毛发、皮肤、肌肉、骨骼、内脏、大脑、血液、神经、内分泌等；蛋白质构成人体必需的催化和调节功能的各种酶，保证我们体内的生化反应正常进行；蛋白质维持肌体正常的新陈代谢和各类物质在体内的输送；蛋白质帮助凝血和伤口愈合；蛋白质是制造抗体唯一来源，增加免疫力抵抗感染；蛋白质调节体内水份平衡，维持身体各种机能。所有的蛋白质都是由 20 种氨基酸排列组合而成，按照组成的比例和排列顺序的不同，人体中的蛋白质可达数 10 万种。它们的结构、功能千差万别，形成了生命的多样性和复杂性。蛋白质的结构决定其生物功能，只有当蛋白质折叠为正确的三维空间构象时，它才具有正常的生物功能。蛋白质研究的根本目的是根据需要的生物功能对蛋白质结构进行改造以及设计新的蛋白质来满足人类的需要。因此，蛋白质结构预测成为生物信息学的研究领域中最重要的问题之一。它主要研究蛋白质如何从氨基酸序列出发构成特定的三维空间构象，这是人类破译生命奥秘的重大问题。科学家们通过对这一问题的研究最终将阐明遗传信息的全过程，加深对蛋白质空间结构与功能间关系的了解。目前蛋白质结构的实验测量方法主要包含两类：X 射线衍射技术和核磁共振方法。 X 射线衍射技术需要得到高质量的晶体，结晶的时间长、代价高。此外，由于技术上的限制，许多蛋白质都无法得到合适的晶体。核磁共振方法不需要结晶，可以在溶液中进行结构的测定，但它只限于较小的蛋白质结构测量，测试对象非常有限。因此，急需发展快速的自动的理论计算方法来预测蛋白质结构。由氨基酸残基构成的线性序列称为蛋白质的一级结构，也称多肽链（图 1.1）。研究发现，在适当的环境下，一条伸展的多肽链能够自动折叠成特定的空间结构。即使这种稳定的空间结构遭到破坏，在适当的条件下，蛋白质序列仍可恢复其稳定的三维结构（图 1.1）。这就是著名的蛋白质复性理论 [2]。它表明，氨基酸序列是决定蛋白质空间构象的最基本因素，即蛋白质空间信息蕴含在氨基酸序列中。这为科学家们利用计算方法从序列出发预测蛋白质结构提供了理论依据。然而，自然界中蛋白质结构种类的数目高达数十万种，导致其研究复杂度非常高。研究发现，属于同种折叠模式的蛋白质功能相似，而自然界存在的折叠模式还不到一千种（蛋白质结构分类数据库 SCOP） [3]。因此，通过蛋白质折叠预测来研究蛋白质结构能大大降低复杂度。此外，研究蛋白质的折叠模式还具有重要的现实意义。许多疾病的发生是由蛋白质错误折叠引起的，这类病被称为 “蛋白质错误折叠病 ”。迄今已发现 20多种蛋白质错误折叠病，如：阿尔茨海默病 (Alzheimer’sdisease , AD) , 帕金森病 (Parkinson’s disease , PD) ,亨廷顿舞蹈病 (Huntington’s disease ,HD) ,朊蛋白病 (prion disease) ,家族性肌萎缩侧索硬化症 (familialamyotrophic lateral scleros- is ,ALS) 等。可见，高效预测蛋白质的折叠类型无论对于生物学还是人们的实际生活都具有非常重要的意义。图 1.1 蛋白质的结构层次 1.2 国内外的研究现状蛋白质折叠是一类三维结构的集合，这类三维结构中的大部分二级结构是相同的，而且这些二级结构以相同的排列和拓扑结构相连 [4]。蛋白质折叠识别就是根据氨基酸序列预测蛋白质所属的折叠模式。目前，蛋白质折叠预测的研究方法主要分为两大类。 1.2.1基于相似性的方法一般