中文文本信息处理课件第十三章信息检索.ppt

下载文档 降价啦

1
0
约1.08万字
约 92页
2018-04-28 发布于天津
举报
版权申诉
保障服务

中文文本信息处理课件第十三章信息检索.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文文本信息处理课件第十三章信息检索

中文文本信息处理的原理与应用基于NLP的方法实例问天IR系统地址：/product_yanshi.html 检索词扩展中文文本信息处理的原理与应用主要内容信息检索(Information Retrieval)的基本概念信息检索的一般模型基于语义的信息检索方法基于Web的信息检索相关会议及工具介绍中文文本信息处理的原理与应用基于WEB的IR WEB页面的特点 Web数据本身的特点 Web数据来源广泛，结构性差而且数量庞大(很多地方以海量来形容Web数据) 内容亦是良莠不齐用户检索行为的特点 Web信息查询可以分为如下三类: 普通信息查询精确信息查询相似信息的查询中文文本信息处理的原理与应用 WEB页面的特点(续1) Web页面特点页面中链接多超链接作用大网页以网站为单位组织 Web页面的多样化中文文本信息处理的原理与应用有哪些信誉好的足球投注网站引擎的工作原理三步: 从互联网上抓取网页建立索引数据库在索引数据库中有哪些信誉好的足球投注网站排序中文文本信息处理的原理与应用有哪些信誉好的足球投注网站引擎的有哪些信誉好的足球投注网站机制 Google为例功能上同样可以分为三大部分: 网页抓取索引入库用户检索中文文本信息处理的原理与应用 Google总体系统结构 URL服务器索引库抓取器存储服务器 URL解析器锚库资源库 Web页有哪些信誉好的足球投注网站链接库桶索引器分类器词典库索引入库页级别评定器查询器用户检索中文文本信息处理的原理与应用 PageRank算法简介 Google采用PageRank算法进行网页分级，重要和高质量的网页会获得较高的网页级别 PageRank是基于从许多优质的网页链接过来的网页，必定还是优质网页的回归关系，来判定所有网页的重要性中文文本信息处理的原理与应用 PageRank算法简介(续1) PageRank的算法1如下： PageRank的算法2如下：其中：PR(A):页面A的网页级别, PR(Ti)：页面Ti的网页级别，页面Ti链向页面A， C(Ti)：页面Ti链出的链接数量，d：阻尼系数，取值在0－1之间其中N是互联网上所有网页的数量中文文本信息处理的原理与应用 PageRank算法简介(续2) 反向链接数 (单纯的意义上的受欢迎度指标) 反向链接是否来自推荐度高的页面 (有根据的受欢迎指标) 反向链接源页面的链接数 (被选中的几率指标) 中文文本信息处理的原理与应用 IR的缺陷网络信息质量控制欠缺大量占用昂贵的网络带宽和CPU资源覆盖面有限索引数据库更新困难，提供的信息滞后有哪些信誉好的足球投注网站引擎之间各行其事，缺乏合作有哪些信誉好的足球投注网站速度不理想误检率低，漏检率高有哪些信誉好的足球投注网站引擎的功能尚待完善检索结果重现性差缺乏检索专业信息的能力中文文本信息处理的原理与应用 IR的研究前景采用建立用户兴趣模型、站点聚类等方法提高检索的准确率基于智能代理的信息过滤和个性化服务采用分布式体系结构提高系统规模和性能重视交叉语言检索的研究和开发基于语义理解技术中文文本信息处理的原理与应用主要内容信息检索(Information Retrieval)的基本概念信息检索的一般模型基于语义的信息检索方法基于Web的信息检索相关会议及工具介绍中文文本信息处理的原理与应用 IR的主要国际会议和活动 TREC (Text REtrieval Conference) 文本检索会议它是文本检索领域人气最旺、最权威的评测会议由美国国防部和美国国家技术标准局（NIST）联合主办该会议细分为几大主要方向：问题回答（QA）特定领域检索（Legal、Genomics、Enterprise、Blog）传统Web检索中文文本信息处理的原理与应用 TREC介绍会议负责组织收集并向与会者提供标准的语料库（Corpus）、检索条件和问题集（Query Set）、以及评测办法（Evaluation）与会者则被要求在规定的时间内构造检索系统并提交检索结果（Runs）由会议负责评测各个检索结果的优劣，最终依据评测结果召开大会进行学术交流，发表会议论文其官方网站为：/ 中文文本信息处理的原理与应用 IR的工具资源介绍 Lemur： Lemur工具箱是由于卡内基-梅隆大学“信息检索及语言模型工作组”于2002年1月发布的，目前必威体育精装版版本为2.0.1 其目的在于促进语言模型信息检索的研究工作。它支持对大规模文本数据库的索引，以及对文档、提问或文档子集构建简单的语言模型除此之外，它还支持传统的检索模型，如向量空间模型(VSM)等其官方网站为：/ 中文文本信息处理的原理与应用 IR的工具