- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于三层集成多标记学习的蛋白质多亚细胞定位预测
基于三层集成多标记学习的蛋白质多亚细胞定位预测 摘要:针对多标记学习和集成学习在解决蛋白质多亚细胞定位预测问题上应用还不成熟的状况,研究基于集成多标记学习的蛋白质多亚细胞定位预测方法。首先,从多标记学习和集成学习相结合的角度提出了一种三层的集成多标记学习系统框架结构,该框架将学习算法和分类器进行了层次性分类,并把二分类学习、多分类学习、多标记学习和集成学习进行有效整合,形成一个通用型的三层集成多标记学习模型;其次,基于面向对象技术和统一建模语言对系统模型进行了设计,使系统具备良好的可扩展性,通过扩展手段增强系统的功能和提高系统的性能;最后,使用Java编程技术对模型进行扩展,实现了一个学习系统软件,并成功应用于蛋白质多亚细胞定位预测问题上。通过在革兰氏阳性细菌数据集上进行测试,验证了系统功能的可操作性和较好的预测性能,该系统可以作为解决蛋白质多亚细胞定位预测问题的一个有效工具。 关键词:蛋白质多亚细胞定位预测;多标记学习;集成学习;面向对象技术;Java 中图分类号:TP391 文献标志码:A 0引言 蛋白质亚细胞定位对于确定蛋白质功能、阐明蛋白质相互作用机制和新药物开发等都具有重要意义。蛋白质亚细胞定位的传统方法是通过生物化学实验进行测定,如荧光检测法[1]和谱分析法[2]等。虽然实验方法准确度高,但费时耗力、代价昂贵,实验中还会出现偶然因素的干扰,致使测定工作冗长且不稳定。DBMLoc数据库[3]的统计结果表明,具有多个亚细胞位置的蛋白质数量不断增长且功能特殊,如何对这类蛋白质进行亚细胞定位是一个非常值得研究的问题。然而,相对于单亚细胞定位而言,不论是采用实验方法,还是基于计算技术的预测方法,蛋白质多亚细胞定位问题都具有更大的挑战性[4]。在过去的20多年中,针对蛋白质的单亚细胞定位预测,利用统计学习和监督学习已取得了较大的成功[5-6]。但对于蛋白质的多亚细胞定位预测,自XX年Chou等[7]和Gardy等[8]分别开始研究以来,目前还远未达到人们所期待的水平,需要进行更深入的探索[9]。 从机器学习的角度来看,蛋白质多亚细胞定位预测问题属于多标记学习的范畴。在多标记学习框架中,每个对象由一个示例描述,该示例具有多个而不再是唯一的类别标记,学习的目标是将所有合适的类别标记赋予待测示例。近年来,虽然多标记学习技术得到了较快的发展[10],但在解决蛋白质多亚细胞定位预测问题上的应用却不太成熟,特别是能够将集成学习与多标记学习相结合的研究还很少,尚有很多内容需要研究:第一,针对蛋白质数据的海量、关联性和不完整等复杂特征,需要设计更加适合于解决蛋白质多亚细胞定位问题的学习算法,或者引入更多现有的多标记学习方法,以扩展多标记学习技术在该领域的应用;第二,需要将多标记学习和集成学习更好地结合来构建学习系统,以充分发挥集成学习的优势;第三,需要设计扩展性好、易于使用且具有一定通用性的学习系统平台,为相关研究人员提供良好的技术和服务支持。 基于上述思路,本文提出了一种三层集成多标记学习框架,通过将学习算法和分类器进行层次性分类,并把多种学习模型合理地综合在一起,形成了一种通用型的集成多标记学习模型;在该模型基础上,使用面向对象技术并结合统一建模语言设计了一个可扩展的多层集成多标记学习系统;最后构建了一套基于Java技术的集成多标记学习软件,为基于机器学习的蛋白质多亚细胞定位预测提供了一条有效途径。 1学习系统的框架结构 为了能更清晰地对系统进行描述和便于理解,这里将“学习算法”和“分类器”这两个概念进行了必要的区分:学习算法是指解决某个一般性学习问题的一种方法,如K最近邻和支持向量机等;而分类器则是一个学习算法针对某个特定的分类问题在给定的基准训练数据集上的一个具体实现,是解决某个一般性分类问题的实例,它通常是由某个学习算法通过优化算法结构或优化其中的某些参数而产生出来的。 在集成多标记学习框架下,本文把学习算法分为二分类学习算法、面向标记集的学习算法和集成多标记学习算法三大类;相应地,分类器分为二分类器、多标记分类器和集成分类器三大类。图1所示是本文所建立的集成多标记学习系统的框架体系结构以及各部分之间的依赖关系。该结构共包括三层:二分类学习层、多标记学习层和集成学习层。二分类学习层针对二分类学习算法和二分类器,多标记学习层针对面向标记集的学习算法和多标记分类器,集成学习层针对集成多标记学习算法、集成策略和集成分类器。值得注意的是,属于同一层的分类器可以由位于同层但不同种类的学习算法产生出来,例如:对于一个二类分类器,既可以使用KNN算法生成,也可以通过SVM算法获得。 二分类学习层 二分类学习层是三层中最为简单的一层,任何能够解决二分类问题的算法都可以归到这一层。一个二分类算法用
您可能关注的文档
最近下载
- 统编版高中语文选择性必修中册第二单元苦难与新生中国革命传统作品研习单元任务群(一)苦难与新生课件(共14张PPT).ppt VIP
- 100海上大型绞吸疏浚装备的自主研发与产业化.pdf VIP
- 电阻式传感器课件.pptx VIP
- 杭州市第三届景点景区讲解员服务技能大赛笔试题库.docx VIP
- JVC摄像机GR-DV5000AC用户手册.pdf
- 沙原隐泉 优秀剖析.ppt VIP
- 公文写作:决定.ppt VIP
- 增碳剂对球墨铸铁的孕育作用.pdf VIP
- 上汽通用别克-全新一代GL8-产品使用说明书-28T Avenir-SGM6522UAA3-2018年款别克全新一代GL8用户手册.pdf
- 杭州市第三届景点景区讲解员服务技能大赛笔试题库.pdf VIP
有哪些信誉好的足球投注网站
文档评论(0)