基于统计和特征相结合的查询纠错方法研究.pdf

下载文档 降价啦

12
0
约3.02万字
约 9页
2017-08-15 发布于天津
举报
版权申诉
保障服务

基于统计和特征相结合的查询纠错方法研究.pdf

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于统计和特征相结合的查询纠错方法研究

研究论文基于统计和特征相结合的查询纠错方法研究* 段建勇关晓龙 (北方工业大学计算机学院北京 100144) 摘要: 【目的】提高有哪些信誉好的足球投注网站引擎查询纠错过程中的准确率和召回率, 改善用户的检索体验。【方法】提出一种基于统计和特征相结合的查询纠错模型, 建立混淆集生成模型, 将用户输入的查询关键字生成其对应的混淆集; 建立混淆集排序模型, 对混淆集中的词条进行排序, 选出混淆集中最佳的词条与用户输入的查询关键字对照, 以此达到查错纠错的目的。【结果】实验结果证明该模型在有哪些信誉好的足球投注网站引擎查询时具有较好的效果, 测试集在 110k 时的准确率和召回率分别达到92.2%和95%, 相对于N-gram 纠错模型准确率和召回率分别提高 13.6%和8.3%。【局限】该模型中混淆集的生成规则有限、模型的训练需要大量的计算。【结论】本模型能够提高有哪些信誉好的足球投注网站引擎查询的准确率及效率, 改善用户的检索体验。关键词: 查询纠错混淆集 N-gram 模型 N-gram 相似度编辑距离点击词频分类号: TP391 G35 1 引言 2 研究现状随着互联网技术的不断进步和创新, 人们对有哪些信誉好的足球投注网站国外对于拼写纠错技术研究早于国内, 英文文本引擎在查询、检索过程中的准确性和方便性提出更高的勘校中, 不需要考虑分词问题, 英文单词之间用空的要求, 这些需求对有哪些信誉好的足球投注网站引擎在查询纠错方面的技术格分开, 只需对单个词进行拼写检查, 通常用编辑距也提出更高的挑战。对用户查询意图的识别研究[1]发离[2]计算词与词之间的相似度, 再结合词在文本中的现, 用户在使用有哪些信誉好的足球投注网站引擎查询时, 目标往往不是非常统计信息判断错误拼写, 如 Senger 等[3]通过分析查询明确或者说是准确的, 作为计算机系统来说, 如何正关键字的拼写错误以及错误的特征对药物信息系统的确识别用户的查询、检索条件, 对输入有误的查询关拼写错误进行纠正。键字自动检错并纠错, 并给出用户满意的查询结果成中文表达使用的是汉字, 具有中文语言的特殊为有哪些信誉好的足球投注网站引擎查询技术研究的重要方面。性。中文信息处理过程存在的同义词、同音词、多音本文针对有哪些信誉好的足球投注网站引擎查询纠错的过程和方法进行研字等问题常常会出现在中文的查错纠错中, 使得中文究, 提出基于统计和语言特征相结合的查询纠错方法, 的查询纠错变得错综复杂。目前中文查询纠错常见的建立模型并通过实验验证了该方法在有哪些信誉好的足球投注网站引擎查询纠方法有两种: 基于字典的方法[4]和基于文本统计信息错过程中的有效性, 提高了有哪些信誉好的足球投注网站引擎的容错能力和易的方法[5] 。基于字典的处理方法需要建立一个庞大的用性, 同时也改善了用户的有哪些信誉好的足球投注网站体验。字典, 应用字符串匹配的方式在字典中查询, 查询纠通讯作者: 段建勇, ORCID: 0000-0002-2244-3764, E-mail: duanjy@ 。 *本文系北京市社会科学基金项目“北京市公共危机事件在网络传播中的演化机制与模型研究”(项目编号:13SHC031)和国家自然科学基金项目“面向维基百科的多粒度一体化信息抽取方法研究”(项目编号的研究成果之一。 34 现代图书情报技术总第267 期 2016 年第2 期错准确率很高, 但是词典需要维护, 随着网络和自然实现混淆集的排序。混淆集排序模型的建立是一个关语言的飞速发展, 新词、网络流行词汇层出不穷, 仅仅键和重要的环节, 此过程也是对混淆集中的候选串进依靠扩大词典的收录规模难以满足当前的查询纠错效行评价和选择的过程, 候选串排序后选择其中评分最率[4] 。而基于文本统计信息的方法借助于大规模的语高的作为最优候选结果, 与用户输入串比较得出