- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于机器学习凋亡蛋白亚细胞位点预测
基于机器学习凋亡蛋白亚细胞位点预测 摘要: 准确预测凋亡蛋白的亚细胞位点有利于理解细胞死亡的机理和其生物学功能。本文利用裂解位点的蛋白质序列信息提出了一种新的凋亡蛋白的预测算法PSSP. 对三个凋亡蛋白数据集进行Jackknife验证表明我们的方法得到了令人满意的结果。 Abstract: Prediction of subcellular location for apoptosis proteins is helpful for understanding the mechanism of cell death and their biological functions. In this paper, a new apoptosis proteins localization algorithm, named PSSP, is proposed based on the predicted cleavage sites of primary protein sequences. Jackknife test on three datasets of apoptosis proteins demonstrated our method provides a satisfying performance. 关键词: 凋亡蛋白;伪氨基酸组分;Jackknife检验 Key words: Apoptosis proteins;Pseudo-amino acid composition;Jackknife test 中图分类号:Q629 文献标识码:A 文章编号:1006-4311(2012)30-0325-02 0 引言 细胞凋亡在控制细胞增殖和死亡的平衡中起着非常基础的作用,异常激活凋亡细胞会导致获得性免疫缺陷综合症(艾滋病),中枢神经系统退行性疾病,缺血性损伤等[1]。因此,理解细胞的凋亡机制对于这些疾病的临床治疗和药物研究都有很重要的意义。 确定蛋白质的亚细胞位点是理解蛋白质结构和功能的一个重要方法。1994年,Nakashima和Nishikawa首先提出了基于蛋白质序列和结构特征确定蛋白质亚细胞位置[2]。这个方法分为两步:①提取特征,即用不同的特征来描述蛋白质序列。比如氨基酸组分AAC,功能域(FunD),基因本体(GO)信息等;②选取分类器,比如神经网络(NN),支持向量机(SVM),模糊K近邻(F-kNN)等机器学习算法。本文提出了凋亡蛋白的亚细胞位点预测的一种新方法。首先将每一个蛋白质序列分成N端信号和成熟端序列,并计算两部分子序列的氨基酸组分,再结合伪氨基酸组分(Pse-AAC)和氨基酸的立体化学特性(SP)得到了一个特征表示模型,称为PSSP。将模型应用到三个数据集ZD98、ZW225、CL317分别得了93.9%、87.6%、91.5%的总测精度。 1 方法和结果 1.1 数据集 本文采用的数据集为ZD98、ZW225、CL317三个 数据集。ZD98数据集包括了43个细胞质蛋白,13个线粒体蛋白,12种其他的蛋白和30个等离子体的膜结合蛋白。ZW225数据集包括了70种细胞质蛋白,89种质膜蛋白质,25种线粒体蛋白和41种核酸蛋白质。CL317数据集包括了6个亚细胞的定位,112种细胞质蛋白,55种质膜蛋白质,34种线粒体蛋白质,17种分泌蛋白和52种核酸蛋白和47种面内质网蛋白质。 1.2 特征的提取 氨基酸组分是20个氨基酸在序列中的出现频率。首先,我们把每个蛋白质序列分为N端分选信号和成熟端分选信号,然后对每个部分提取特征。记 ■=[s■,s■,s■,…,s■]■,■=[m■,m■,m■,…,m■]■ 这里的■、■表示信号肽区域和成熟蛋白区域的氨基酸组分特性,si,mi(i=1,2,…,20)是两种序列中氨基酸i的出现频率。 伪氨基酸组分特征提取方法是zhou提出的。根据chou的伪氨基酸组分模型蛋白质序列可以表示成一个(20+λ)维的空间向量[3] ■=[r■,r■,…,r■,r■,…,r■]■ 其中 r■=■ (1?燮ξ?燮20)■ (21?燮ξ?燮20+λ) 公式中的f■是每个氨基酸的出现频率,θ■是第j层序列相关因子,ω为θ■的权重因子。 利用物理化学特性进行分类最近是蛋白质亚细胞定位研究中的一个热点问题。蛋白质的一级结构是蛋白质多肽链中氨基酸残基的排列顺序,蛋白质的生物学活性和理化性质主要决定于空间结构的完整,因此仅仅测定蛋白质分子的氨基酸组成和它们的排列顺序不能完全了解蛋白质分子的生物学和理化性质。本文采用泰勒提出的氨基酸的立体化学特性[4],即将氨基酸的10个立体化学特性表示为一个10维向量■=[p■,p
您可能关注的文档
最近下载
- 2025晋能控股集团有限公司审计事务中心和法律事务中心内部招聘54人(山西)考试备考试题及答案解析.docx VIP
- 冀教版六年级英语下册复习要点.doc VIP
- 中国现代文学30年.docx VIP
- dota英雄出装及技能图解.doc VIP
- 高中毕业生登记表(A4版).pdf VIP
- 2025晋能控股集团有限公司审计事务中心和法律事务中心内部招聘54人(山西)笔试备考题库及答案解析.docx VIP
- Power Up精品教学课件PU1-U1词汇1.pptx VIP
- 2025年安徽分类考试对口升学语文真题试卷 .pdf VIP
- LS产电变频器S100说明书.pptx VIP
- 国有企业股权投资风险管理及解决措施.docx VIP
文档评论(0)