- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本信息处理课件第十三章信息检索
中文文本信息处理的原理与应用 基于NLP的方法实例 问天IR系统地址:/product_yanshi.html 检索词扩展 中文文本信息处理的原理与应用 主要内容 信息检索(Information Retrieval)的基本概念 信息检索的一般模型 基于语义的信息检索方法 基于Web的信息检索 相关会议及工具介绍 中文文本信息处理的原理与应用 基于WEB的IR WEB页面的特点 Web数据本身的特点 Web数据来源广泛,结构性差 而且数量庞大(很多地方以海量来形容Web数据) 内容亦是良莠不齐 用户检索行为的特点 Web信息查询可以分为如下三类: 普通信息查询 精确信息查询 相似信息的查询 中文文本信息处理的原理与应用 WEB页面的特点(续1) Web页面特点 页面中链接多 超链接作用大 网页以网站为单位组织 Web页面的多样化 中文文本信息处理的原理与应用 有哪些信誉好的足球投注网站引擎的工作原理 三步: 从互联网上抓取网页 建立索引数据库 在索引数据库中有哪些信誉好的足球投注网站排序 中文文本信息处理的原理与应用 有哪些信誉好的足球投注网站引擎的有哪些信誉好的足球投注网站机制 Google为例 功能上同样可以分为三大部分: 网页抓取 索引入库 用户检索 中文文本信息处理的原理与应用 Google总体系统结构 URL服务器 索引库 抓取器 存储服务器 URL解析器 锚库 资源库 Web页有哪些信誉好的足球投注网站 链接库 桶 索引器 分类器 词典库 索引入库 页级别评定器 查询器 用户检索 中文文本信息处理的原理与应用 PageRank算法简介 Google采用PageRank算法进行网页分级,重要和高质量的网页会获得较高的网页级别 PageRank是基于从许多优质的网页链接过来的网页,必定还是优质网页的回归关系,来判定所有网页的重要性 中文文本信息处理的原理与应用 PageRank算法简介(续1) PageRank的算法1如下: PageRank的算法2如下: 其中:PR(A):页面A的网页级别, PR(Ti):页面Ti的网页级别,页面Ti链向页面A, C(Ti):页面Ti链出的链接数量,d:阻尼系数,取值在0-1之间 其中N是互联网上所有网页的数量 中文文本信息处理的原理与应用 PageRank算法简介(续2) 反向链接数 (单纯的意义上的受欢迎度指标) 反向链接是否来自推荐度高的页面 (有根据的受欢迎指标) 反向链接源页面的链接数 (被选中的几率指标) 中文文本信息处理的原理与应用 IR的缺陷 网络信息质量控制欠缺 大量占用昂贵的网络带宽和CPU资源 覆盖面有限 索引数据库更新困难,提供的信息滞后 有哪些信誉好的足球投注网站引擎之间各行其事,缺乏合作 有哪些信誉好的足球投注网站速度不理想 误检率低,漏检率高 有哪些信誉好的足球投注网站引擎的功能尚待完善 检索结果重现性差 缺乏检索专业信息的能力 中文文本信息处理的原理与应用 IR的研究前景 采用建立用户兴趣模型、站点聚类等方法提高检索的准确率 基于智能代理的信息过滤和个性化服务 采用分布式体系结构提高系统规模和性能 重视交叉语言检索的研究和开发 基于语义理解技术 中文文本信息处理的原理与应用 主要内容 信息检索(Information Retrieval)的基本概念 信息检索的一般模型 基于语义的信息检索方法 基于Web的信息检索 相关会议及工具介绍 中文文本信息处理的原理与应用 IR的主要国际会议和活动 TREC (Text REtrieval Conference) 文本检索会议它是文本检索领域人气最旺、最权威的评测会议 由美国国防部和美国国家技术标准局(NIST)联合主办 该会议细分为几大主要方向: 问题回答(QA) 特定领域检索(Legal、Genomics、Enterprise、Blog) 传统Web检索 中文文本信息处理的原理与应用 TREC介绍 会议负责组织收集并向与会者提供标准的语料库(Corpus)、检索条件和问题集(Query Set)、以及评测办法(Evaluation) 与会者则被要求在规定的时间内构造检索系统并提交检索结果(Runs) 由会议负责评测各个检索结果的优劣,最终依据评测结果召开大会进行学术交流,发表会议论文 其官方网站为:/ 中文文本信息处理的原理与应用 IR的工具资源介绍 Lemur: Lemur工具箱是由于卡内基-梅隆大学“信息检索及语言模型工作组”于2002年1月发布的,目前必威体育精装版版本为2.0.1 其目的在于促进语言模型信息检索的研究工作。它支持对大规模文本数据库的索引,以及对文档、提问或文档子集构建简单的语言模型 除此之外,它还支持传统的检索模型,如向量空间模型(VSM)等 其官方网站为:/ 中文文本信息处理的原理与应用 IR的工具
文档评论(0)