互联网定义挖掘多特征N-gram Plus分类方法.docVIP

下载本文档

20
0
约1.06万字
约 11页
2018-01-03 发布于河北
举报
版权申诉

互联网定义挖掘多特征N-gram Plus分类方法.doc

1、本文档共11页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

互联网定义挖掘多特征N-gram Plus分类方法

互联网定义挖掘:多特征N-gram Plus分类方法于洁福建信息职业技术学院计算机工程系 X 关注成功！加关注后您将方便地在我的关注中得到本文献的被引频次变化的通知！新浪微博腾讯微博人人网开心网豆瓣网网易微博摘????要：互联网大数据的飞速发展对知识库的自动构建提出了迫切需求, 互联网定义挖掘是知识发现研究的基础.文章基于N-gram语言模型提出了一种改进的N-gram Plus语言模型, 综合了词语、词性、语法依赖关系和定义的语言学模式等多种特征.通过定义挖掘框架生成互联网语料库, 在定义抽取研究中引入N-gram Plus特征集和句子最大定义隶属度, 将句子转换为多特征向量, 比较使用几种分类器进行学习和分类.该方法在实验中取得了较好的F2-measure成绩. 关键词：知识库; 文本分类; 定义抽取; N元模型; 维基百科; 作者简介：于洁, 讲师, E-mail:yjdeyou@ 收稿日期：2017-03-25 基金：福建省教育厅科技项目 (JA11304) Internet Definition Mining: Multi-feature N-gram Plus Classification Method YU Jie Department of Computer Engineering, Fujian Polytechnic of Information Technology; Abstract： The rapid development of large internet data puts forward the urgent need for the automatic construction of knowledge base.Internet definition mining is the foundation of knowledge discovery research.Based on the N-gram language model, this paper proposes an improved N-gram Plus language model, which combines various features such as word features, part of speech features, grammatical dependencies and linguistic patterns.Internet corpus is generated by definition mining framework.The N-gram Plus feature set and the max membership degrees of sentences are introduced in the definition extraction study.The sentence is transformed into vectors with multi-features, and several classifiers are used for learning and classification.The method obtains a good F2-measure result in the experiment. Keyword： knowledge base; text classification; definition extraction; N-gram model; Wikipedia; Received： 2017-03-25 随着互联网的飞速发展和网络数据的海量涌现, 从自然语言中自动或半自动抽取知识已成为自然语言处理领域的研究热点.大数据时代下, 大规模知识库的构建与应用需要通过知识挖掘技术从公开的半结构化、非结构化数据中提取出知识要素[1]. 从互联网文本中挖掘出词语的定义有着重要的理论研究意义和实际应用价值.词语的定义可以作为知识发现研究的数据基础, 在知识库自动构建、智能问答系统、移动学习系统等多个方面有着广泛的应用.国内外对定义挖掘的研究主要采用基于规则、基于统计或两者互为补充的方法. 张运良等通过对汽车领域语料的实验证明了贝叶斯概率统计学习算法在定义挖掘中的有效性[2];刘一宁等针对学术论文开展定义抽取实验, 证明了模式规则、语法规则等多重规则定义抽取的可行性[3];田金凤等采用9种定义规则匹配模式开展定义抽取[4] 潘湑等针对航空领域术语定义语料库开展研究, 通过改进的重采样方法生成多个训练集, 证明了BRF (Balanced Random Forest) 分类方法的有效性[