数据库应用的设计-非结构化数据处理.pdf

  1. 1、本文档共173页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 非结构化数据处理 IR 布尔检索 倒排表 模糊检索 相似性 TFIDF 提纲 信息检索概述 倒排索引 布尔查询的处理 信息检索INFORMATION RETRIEVAL Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). 信息检索是从大规模非结构化数据(通常是文本)的集合(通常保 存在计算机上)中找出满足用户信息需求的资料(通常是文档)的 过程。 Document –文档 Unstructured – 非结构化 Information need –信息需求 Collection—文档集、语料库 3 IR VS数据库: 结构化 VS 非结构化 数据 结构化数据即指“表”中的数据 Employee Manager Salary Smith Jones 50000 Chang Smith 60000 Ivy Smith 50000 数据库常常支持范围或者精确匹配查询 。e.g., Salary 60000 AND Manager = Smith . 非结构化数据 通常指自由文本 允许 • 关键词加上操作符号的查询 • 更复杂的概念性查询, • 找出所有的有关药物滥用(drug abuse)的网页 经典的检索模型一般都针对自由文本进行处理 半结构化数据 没有数据是完全无结构的 title李甲主页/title body…/body … 半结构化查询 • Title contains data AND Bullets contain search • … 这里还没有提文本的语言结构 非结构化数据(文本) VS. 结构化数据(数据库) @ 1996年 200 180 160 140 120 100 80 Unstructured 60 Structured 40 20 0 Data volume Market Cap 数据量 市场规模 非结构化数据(文本) VS. 结构化数据(数据库) @ 2009年 数据量 市场规模 布尔检索 • 针对布尔查询的检索,布尔查询是指利用AND, OR 或者NOT 操作符将词项连接起来的查询 • 信息 AND 检索 • 信息OR 检索 • 信息AND 检索 AND NOT 教材 提纲 ① 信息检索概述 ② 倒排索引 ③ 布尔查询的处理 一个简单的例子( 《莎士比亚全集》) 莎士比亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia? 布尔表达式为 Brutus AND Caesar AND NOT C

文档评论(0)

wpxuang12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档