- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
化学计量学应用课程论文写作模板
支持向量回归用于氨基酸描述符在肽QSAR建模中的性能评价 (黑体三号、居中) 应用化学 2008级张 任课教师 印家健 副教授摘要:Times New Roman小四号、两端对齐) 关键词: 多肽具有高活性、高选择性及副作用小的特点,是维持生命过程中必不可少的物质,目前已成为药物研究的热点之一。在多肽类似物的研究和开发中,定量构效关系(Quantitative structure-activity relationships,QSAR)是一个重要的理论计算方法和常用手段。所谓多肽QSAR,就是用数学模式来表达多肽类似物的化学结构信息与特定的生物活性强度间的相互关系[1,2]。 多肽的化学结构描述符普遍采用氨基酸的结构描述参数去定量描述多肽的化学结构和性质,其基本思路是以多肽的最基本的结构信息——氨基酸序列为基础,对一系列多肽类似物中变化的氨基酸残基进行定量描述,并把氨基酸序列转换成结构描述符矩阵的一个向量[1,2]。目前在肽QSAR模型中常用的氨基酸描述符主要有:基于实验的z-scales[1]、基于理论计算的t-scales[3]、ISA(isotropic surface area)-ECI(electronic charge index)[4]、MS-WHIM scores[5]、PRIN[6]、c-scales[7]以及基于分子拓扑学的MHDV(molecular holographic distance vector)及其衍变的拓扑描述符[8-10]。 在多肽QSAR数学模型方面,文献中常用的有多元线性回归(multiple linear regression, MLR)[10]、主成分回归(principal component regression, PCR)[8]、偏最小二乘(partial least squares,PLS)[1,4,5]和遗传算法与偏最小二乘法相结合(genetic algorithm-partial least squares,G/PLS)等方法[7],但这些方法都是线性方法,且对高维、非线性、小样本问题的解析能力有限。 目前,支持向量机[12](support vector machine, SVM)已广泛的用于各学科领域[1315],故我们尝试采用支持向量回归(support vector regression, SVR)[16]方法研究多肽QSAR数学建模,分别用48个苦味二肽、58个ACE(angiotensin converting enzyme)抑制Times New Roman小四号、段前缩进2个汉字,两端对齐) 1 支持向量回归算法[12,15,17]及其实现 (中文用宋体四号、英文用Times New Roman四号、加粗,顶格、两端对齐,序号后空1格,不用标点符号) 近年来,有限样本情况下的机器学习理论研究逐渐成熟,形成了一个较完善的理论体系—--统计学习理论[17]。支持向量机是Vapnik等人根据统计学习理论提出的一种新的模式识别方法,它是建立在统计学理论VC维(Vapnik-Chervonenks dimension)理论和结构风险最小原理(structural risk minimization inductive principle)基础上的,能较好地解决小样本、非线性、高维数等实际问题,并成功地解决了过拟合的控制问题,提高了算法的预报能力,并成功的应用于分类、函数逼近和时间序列预测等方面。而肽生物活性值的预测问题也可以看作是一种对活性值与其影响因子之间复杂的非线性函数关系的逼近问题,因此我们尝试将支持向量回归应用于肽活性值的预测建模并利用SVR方法来评价各氨基酸描述符在肽QSAR模型中的建模能力,以及分析多肽中各氨基酸性质对其活性值的影响。利用MATLAB语言及所带的优化工具箱可以很容易的实现上述算法。 2 数据来源及处理 2.1 5个重要的氨基酸描述符(中文用宋体小四号、英文用Times New Roman小四号、加粗,顶格、两端对齐,序号间用圆点隔开,最后空1格,不再用标点符号) 利用SVR模型对氨基酸描述符作肽QSAR预测性能的评价,选用的5个氨基酸描述符见表1,其中code为20个天然氨基酸的单字母符。 (表格采用三线表)(表题:中文用宋体五号、英文用Times New Roman五号、加粗,居中,表序后空1格,不用标点符号)(英文表题: Times New Roman五号、加粗,居中,表序后空2格,不用标点符号) 表1 5个氨基酸描述符的数值 Table1 numerical value of five amino acid descriptors CODE z-scales c-scales ISA-ECI MS-WHIM PRIN
文档评论(0)