基于统计和特征相结合的查询纠错方法研究.pdf

基于统计和特征相结合的查询纠错方法研究.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于统计和特征相结合的查询纠错方法研究

研究论文 基于统计和特征相结合的查询纠错方法 研究* 段建勇 关晓龙 (北方工业大学计算机学院 北京 100144) 摘要: 【目的 】提高有哪些信誉好的足球投注网站引擎查询纠错过程中的准确率和召回率, 改善用户的检索体验。【方法 】提出一种基于 统计和特征相结合的查询纠错模型, 建立混淆集生成模型, 将用户输入的查询关键字生成其对应的混淆集; 建 立混淆集排序模型, 对混淆集中的词条进行排序, 选出混淆集中最佳的词条与用户输入的查询关键字对照, 以 此达到查错纠错的目的。【结果 】实验结果证明该模型在有哪些信誉好的足球投注网站引擎查询时具有较好的效果, 测试集在 110k 时的 准确率和召回率分别达到92.2%和95%, 相对于N-gram 纠错模型准确率和召回率分别提高 13.6%和8.3%。【局 限 】该模型中混淆集的生成规则有限、模型的训练需要大量的计算。【结论 】本模型能够提高有哪些信誉好的足球投注网站引擎查询的准 确率及效率, 改善用户的检索体验。 关键词: 查询纠错 混淆集 N-gram 模型 N-gram 相似度 编辑距离 点击词频 分类号: TP391 G35 1 引 言 2 研究现状 随着互联网技术的不断进步和创新, 人们对有哪些信誉好的足球投注网站 国外对于拼写纠错技术研究早于国内, 英文文本 引擎在查询、检索过程中的准确性和方便性提出更高 的勘校中, 不需要考虑分词问题, 英文单词之间用空 的要求, 这些需求对有哪些信誉好的足球投注网站引擎在查询纠错方面的技术 格分开, 只需对单个词进行拼写检查, 通常用编辑距 也提出更高的挑战。对用户查询意图的识别研究[1]发 离[2]计算词与词之间的相似度, 再结合词在文本中的 现, 用户在使用有哪些信誉好的足球投注网站引擎查询时, 目标往往不是非常 统计信息判断错误拼写, 如 Senger 等[3]通过分析查询 明确或者说是准确的, 作为计算机系统来说, 如何正 关键字的拼写错误以及错误的特征对药物信息系统的 确识别用户的查询、检索条件, 对输入有误的查询关 拼写错误进行纠正。 键字自动检错并纠错, 并给出用户满意的查询结果成 中文表达使用的是汉字, 具有中文语言的特殊 为有哪些信誉好的足球投注网站引擎查询技术研究的重要方面。 性。中文信息处理过程存在的同义词、同音词、多音 本文针对有哪些信誉好的足球投注网站引擎查询纠错的过程和方法进行研 字等问题常常会出现在中文的查错纠错中, 使得中文 究, 提出基于统计和语言特征相结合的查询纠错方法, 的查询纠错变得错综复杂。目前中文查询纠错常见的 建立模型并通过实验验证了该方法在有哪些信誉好的足球投注网站引擎查询纠 方法有两种: 基于字典的方法[4]和基于文本统计信息 错过程中的有效性, 提高了有哪些信誉好的足球投注网站引擎的容错能力和易 的方法[5] 。基于字典的处理方法需要建立一个庞大的 用性, 同时也改善了用户的有哪些信誉好的足球投注网站体验。 字典, 应用字符串匹配的方式在字典中查询, 查询纠 通讯作者: 段建勇, ORCID: 0000-0002-2244-3764, E-mail: duanjy@ 。 *本文系北京市社会科学基金项目“北京市公共危机事件在网络传播中的演化机制与模型研究”(项目编号:13SHC031)和国家自然 科学基金项目“面向维基百科的多粒度一体化信息抽取方法研究”(项目编号的研究成果之一。 34 现代图书情报技术 总第267 期 2016 年 第2 期 错准确率很高, 但是词典需要维护, 随着网络和自然 实现混淆集的排序。混淆集排序模型的建立是一个关 语言的飞速发展, 新词、网络流行词汇层出不穷, 仅仅 键和重要的环节, 此过程也是对混淆集中的候选串进 依靠扩大词典的收录规模难以满足当前的查询纠错效 行评价和选择的过程, 候选串排序后选择其中评分最 率[4] 。而基于文本统计信息的方法借助于大规模的语 高的作为最优候选结果, 与用户输入串比较得出

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档