英文信息检索系统中文档反馈.docVIP

下载本文档

4
0
约4.46万字
约 45页
2018-01-26 发布于河南
举报
版权申诉

英文信息检索系统中文档反馈.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

英文信息检索系统中文档反馈

第1章绪论 1.1 背景和意义从2002年开始，中国网页的规模一直保持在高位增长。根据2009年1月中国互联网络发展状况统计报告1.1 中国网页数网页总数 16,086,370,233 静态网页个7,891,388,272 占网页总数比例 49.06% 动态网页个8,194,981,961 占网页总数比例 50.94% 静态/动态网页的比例 0.96:1 网页长度（总字节数） KB 460,217,386,099 平均每个网站的网页数个 5,588 平均每个网页的字节数 KB 28.6 除了信息检索系统返回无关结果的问题，影响信息检索系统质量的另一个原因是用户不能构造优秀查询。2009年1月《中国互联网络发展状况统计报告》，截至2008年底，中国网民规模达到2.98亿人，较2007年增长41.9%，互联网普及率达到22.6%，略高于全球平均水平21.9 %）。与2007年相比，网民中大专及以上学历人口进一步下降，高中、初中学历所占比重继续提升互联网日益向低学历人口普及如图1.1 在信息检索中几乎所有的方法都是利用统计信息做为计算的基础。但是由于查询者对所要查询的内容理解不足、表达不清或者用户只是想以浏览的方式检索文档，用户可能在第一次查询中不能得到预期的结果。根据Tefko Saracevic等人的试验，有多种因素影响用户的查询：用户获取信息的目的、用户对手边问题的知识状态、用户对公共知识的预期等。用户需要在检索的过程中经过一步一步的探索之后，逐渐接近实际需要查询的内容。图 1.1 互联网人群调查反馈feedback）又称回馈，是控制论的基本概念，指将系统的输出返回到输入端并以某种方式改变输入，进而影响系统功能的过程1.2 反馈技术在国内外的发展近年来，研究者们进行了大量的基于数学模型来推导检索策略的工作，这些工作的共同点是他们大都使用基于原始查询检索到的文献的相关信息来估算权重公式中的各个参数，以达到修改查询的目的。比较常用的模型有布尔模型、向量空间模型、概率模型和逻辑模型。信息检索的相关反馈可以从1960年Maron和Kuhns提出的“与原始查询相近的特征项可以加到查询中，以便检索到更多的相关文献”中的观点中找到最初的痕迹。在1965年，Rocchio研究了在向量空间模型中把查询扩展和语词重新加权相结合的经典技术，Ide继承了Rocchio的研究，并提出了语词重新加权公式的变形。目前，学术界通常认为正式的相关反馈源于Rocchio，1971年他基于向量空间模型在SMAR系统中完成了相关反馈实验。1976年，Robertson和Sparck Jones 提出了概率模型，Croft和Harper提出了初始查询应当使用不同的计算。学术界便将相关反馈研究分别扩展到了概率模型以及布尔模型中。研究显示出在比较小的测试集上应用相关反馈技术能给检索性能带来极大的改进。1983年，Croft提出了将概率公式扩展到包含内文献频率，并引入参数C和K。由于概率模型并没有提供扩展查询的方式，因而应各自进行查询扩展。1978年，Harper和van Rijsbergen使用基于最大生成树的语词——语词聚类技术来选择语词进行概率查询扩展。1981年，Wu和Salton使用相关反馈来给从相关文献中提取出来的语词（用概率公式）重新加权，并用这些语词来扩展查询。实验表明了这些方法能提高检索的性能。关于自动查询扩展，Lesk在Smart系统中尝试使用了语词——语词聚类的变形，但并没有得出好的实验结果。之后，Sparck Jones和Barber，Minker、Wilson和Zimmerman也发现了基于语词——语词全局聚类的查询扩展并没有提高检索的性能。这些早期的研究结果给人个留下了这样的印象，即基于全局分析的查询扩展并不是一种很有效的技术。然而，最近的研究结果表明情况并非如此。事实上，Vorhees，Crouch和Tang，Qiu和Frei的研究成果表明，基于全局分析技术的查询扩展确实能提高检索的性能。在2003年时，TREC（Text Retrieval Conference）开始的对主动反馈的研究。最近几届的TREC实验也说明相关反馈和查询扩展可以提高检索效率。而近年来，学者们也纷纷提出了各种各样的基于不同检索模型的相关反馈算法，这些算法都在一定程度上提高了系统性能，帮助用户更贴近真正的信息需求，同时各种算法也都存在着很大的改进空间。 1.3本文结构本文主要的内容是讲述了英文信息检索系统中文档反馈技术的设计与实现过程。下面是每章的主要内容。第1章的主要内容是介绍本文英文信息检索系统中反馈技术的研究背景和意义，反馈技术在国内外的发展情况和本文的结