- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于核模糊C均值聚类算法的词义排歧研究.doc
基于核模糊C均值聚类算法的词义排歧研究
摘要:该文建立了一个无监督的词义排歧系统,并将它应用于生物医学领域的语料中。该系统使用未进行人工标注的语料进行机器学习,学习过程只需预先定义标准词义的数量,不需要其他人工干预。该系统使用了一种通常使用于图像识别领域的基于核的模糊C均值算法。该文针对文本应用改进该算法并将其应用在生物医学文本的词义排歧领域,并取得了较好的效果。
关键词:词义排歧;核模糊;C均值;聚类;无监督
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)34-0001-03
1 研究问题简介
词义排歧任务的目标是为多义词在当前上下文环境中选择合适的义项从而消除歧义。词义排歧是自然语言处理的基础工作,它是信息抽取、机器翻译、信息有哪些信誉好的足球投注网站等自然语言处理工作的基础。
目前主流的基于语意的词义排歧方法主要有两种:第一种是基于有指导机器学习的方法,该方法使用一部分预先标注好的语料进行机器学习,训练好的算法再之后用于测试语料测试。该类方法往往有较好的实验效果,但是存在的问题是需要大量的人工标注语料,人工语料的标注成本较高使得该方法应用有所局限。第二种方法是基于无指导机器学习的方法,这种方法直接使用原始语料进行训练学习,将训练好的算法用于测试语料,直接得到结果。
2 生物医学领域词义排歧研究现状
在自然语言处理中,词义排歧问题在很多领域都是一项具有挑战性的基础工作。词义排歧的准确性会直接影响机器翻译、信息检索等工作的最终效果。词义排歧算法在生物医学领域主要分为以下三种研究方法:有监督学习方法、无监督学习方法和基于知识的学习方法。
目前大量的工作是基于有监督的机器学习方法。Hatzivassiloglou et al.使用三种机器学习方法的组合,它们是简单贝叶斯,决策树以及总结的规则用来训练模型用于蛋白质、基因和mRNA的词义排岐工作。Gnter et al. 使用了一种统计分类的方法并且对词袋权重表示做了改进。他们将靠近歧义词的上下文赋予更高的权重,之后使用基于SVM的分类器进行分类工作,他们的将基因、蛋白质名称的词义排歧工作的准确率由79%提高到了82%。Leroy and Rindflesch 提出了一种有监督的词义排歧方法将歧义词的词义映射到了UMLS上词义上,该方法在生物医学词义排歧领域有广泛的影响。在非生物领域也有些学者使用了一些核函数方法来提高词义排歧的效果。
第二类方法为基于特征的无监督学习方法。这类方法使用通用的词典义项作为词义排歧的目标,通常使用通用词典义项作为最终评估标准,或者使用不同词义类别的区分程度来评估词义排歧的效果。Agirre et al. 提出了一种基于图的方法实现了为另外一种常见的无监督学习思路。Duan W et al. 提出了一种最大边的图模型无监督方法,在之前的方法基础上准确率有所提高。
第三类方法是基于大规模外部资源的方法。Wren et al. 提出了一个数据库包含缩略语和它们的完整义项。Jimeno-Yepes et al. 提出基于知识的词义排歧方法进一步提高的准确率。
目前生物医学领域词义排歧问题已经研究比较深入,各个大类方法都有学者做出了深入研究取得较佳的研究效果。我们将在前人的研究基础上开展自己的工作,将研究深入下去。
3 相关算法介绍
模糊C均值算法是经典的软聚类方法,它解决了传统K均值算法中聚类分割可能存在的问题。在近期的研究当中很多的学者将基于核函数的方法融入到其他算法中,对算法的改进提高有很大的帮助。
3.1 模糊C均值算法(FCM)
模糊聚类(FCM)[9]中,每个点都有一个属于各个类的度。按照模糊理论,每个点不会完全的属于某一个类,而是应该不同程度的属于各个类。一个点属于离它较远的类的程度较低,属于离它较近的点的程度较高。通常我们赋给一个点X到一个聚类C的权重度uic 代表X相对于C的隶属度。所有的uic之和为固定值1,参见公式(1)。针对每个X属于每个C的距离和权重的关系由一个参数m来控制。 表示点i到聚类C的距离。模糊C均值聚类的方法和普通的K均值聚类方法比较类似,开始都是随机分配一个类别方案,迭代运行聚类算法,保证每次聚类的结果比上一次要优,直到算法收敛。关于确定收敛这里有个ε参数,当两次迭代结果差异小于参数ε时,我们认为算法已经收敛,迭代停止。这个参数有助于我们平衡算法效果和算法消耗的时间。模糊C均值算法相关的公式定义如下:
具体的模糊C均值(FCM)算法步骤如下:
算法 1: 模糊C均值算法
1) 给出N个初始点 和聚类个数C,生成矩阵
2) 初始化 U
3) 使用公式(4)更新V(t) = []
文档评论(0)