信息检索教程第四章文本信息检索技术与方法.pptVIP

下载本文档

26
0
约1.16万字
约 83页
2017-08-17 发布于湖北
举报
版权申诉

信息检索教程第四章文本信息检索技术与方法.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息检索教程第四章文本信息检索技术与方法

4.0 文本信息概述文本：是基于一定的语言符号系统而形成的一个有限符号序列。人工语言文本：人为设计自然语言文本：人类使用过程中齐普夫定律（书82） Heaps分布模型（书83）文本文件：是由若干行字符构成的计算机文件，存在于计算机文件系统中。主要的文本文件格式： TXT格式（扩展名为.txt） DOC格式（扩展名为.doc） WPS格式（扩展名为.wps） RTF格式（扩展名为.rtf） PDF格式（扩展名为.pdf）字符集与编码标准字符集及其编码标准是计算机输入、处理和显示各种字符的技术基础字符（Character）是文字与符号的总称，包括文字、图形符号、数学符号等。一组抽象字符的集合就是字符集（Charset）。字符集常常和一种具体的语言文字对应起来，该文字中的所有字符或者大部分常用字符就构成了该文字的字符集，比如英文字符集。在计算机中，所有的数据在存储和运算时都要使用二进制数表示，计算机要处理各种字符，就需要将字符和二进制内码对应起来，这种对应关系就是字符编码（Encoding）。 ASCII码、UCS、Unicode、GB2312 4.1 文本信息预处理思考：为什么进行预处理？预处理包括：文本词汇分析停用词去除词干提取名词（或名词性短语）识别 4.2.1 文本词汇分析文本词汇分析主要是对文档中的文本（字符）进行识别或转换成词的过程，这些词可以作为标引词。通常这一步的分析处理称作分词或断词思考：用户输入的查询是否需要分词？英文的分词标记化，是将给定的字符序列拆分成一系列子序列的过程，其中每个子序列称为符号单元（token），该过程称为标记化（tokenization）。 IR中，研究最多的是以词为单位对文本进行划分，称为断词（wordtokenization）,简称tokenization。在断词过程中，可能会同时除去一些特殊符号，比如，标点符号。举例 Ihaveadream. (I) (have) (a) (dream) 英文断词时需要考虑的情况（1）句点：是英文中最常引起歧义的符号，也是最难处理的符号。表示句子的结尾缩写的一部分小数点举例： The experiments led by Dr. Alan achieved a precision of 90 .7%. He was born in U.S. 英文断词时需要考虑的情况（2）撇号：主要用于构成英文的动词缩写式和名词所有格。动词缩写式，Im,wont,dont等等；歧义：hes:heis,hewas,hehas;he d: he would, he had; 名词所有格，The cat s, children s, parents‘ 年份的复数 the late 1950s 英文断词时需要考虑的情况（3）连字符：主要用处是标志合成词以及用在排版工序。构成合成词已经固定成词的情况E-mail,co-operate 根据特定语法或语言环境生成的词Four-year;SteveJobs,1955-2011;All-In-One 用在排版上英文的大小写转换英文句首的单词第一个字母大写，这可能导致一些单词不能正确的匹配。比如查询“automobile”和句首的“Automobile” 一个一般的策略是将所有字母转换成小写。但也会导致一些例外：比如： “ China” 和 “ china” 全部转换成小写可能导致那些本应区分的词语同化。由于用户查询往往忽略大小写，而使用小写，因此，所有字母转换成小写有助于用户的查询。中文的分词中文IR系统有两种主要检索方案基于字的检索，按照字建立索引，需要在检索时进行逻辑运算。基于词的检索，按照词建立索引，检索时直接命中。优点：检索速度快、准确率高。中文分词（ ChineseWordSegmentation）：中文文本中词与词之间没有空格，为了获取词语信息，需要对词语进行自动的词语切分。李明是一名优秀的学生。李明 _是_ 一名_ 优秀_ 的 _学生_ 。中文分词面临的首要问题是如何定义一个词。举例：自然语言处理 1）自然_语言_处理 2）自然语言_ 处理中文词的定义没有统一的标准，语言学家从不同的角度对词进行定义。汉语书写过程中并不分词连写，对词组和词、单字语素和单字词的划分因人而异，甚至因时而异；汉语信息处理现在需要制订统一的分词标准，否则将严重影响计算机的处理；《信息处理用现代汉语分词规范及自动分词方法》对词的定义：结合紧密、使用频繁。分词算法的主要困难是歧义消除和未登录词

您可能关注的文档

文档评论（0）

yaocen + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

信息检索教程第四章文本信息检索技术与方法.pptVIP