- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索教程第四章 文本信息检索技术与方法
4.0 文本信息概述 文本:是基于一定的语言符号系统而形成的一个有限符号序列。 人工语言文本:人为设计 自然语言文本:人类使用过程中 齐普夫定律(书82) Heaps分布模型(书83) 文本文件:是由若干行字符构成的计算机文件,存在于计算机文件系统中。 主要的文本文件格式: TXT格式(扩展名为.txt) DOC格式(扩展名为.doc) WPS格式(扩展名为.wps) RTF格式(扩展名为.rtf) PDF格式(扩展名为.pdf) 字符集与编码标准 字符集及其编码标准是计算机输入、处理和显示各种字符的技术基础 字符(Character)是文字与符号的总称,包括文字、图形符号、数学符号等。 一组抽象字符的集合就是字符集(Charset)。 字符集常常和一种具体的语言文字对应起来,该文字中的所有字符或者大部分常用字符就构成了该文字的字符集,比如英文字符集。 在计算机中,所有的数据在存储和运算时都要使用二进制数表示,计算机要处理各种字符,就需要将字符和二进制内码对应起来,这种对应关系就是字符编码(Encoding)。 ASCII码、UCS、Unicode、GB2312 4.1 文本信息预处理 思考:为什么进行预处理? 预处理包括: 文本词汇分析 停用词去除 词干提取 名词(或名词性短语)识别 4.2.1 文本词汇分析 文本词汇分析主要是对文档中的文本(字符)进行识别或转换成词的过程,这些词可以作为标引词。 通常这一步的分析处理称作分词或断词 思考:用户输入的查询是否需要分词? 英文的分词 标记化 ,是将给定的字符序列拆分成 一系列子序列的过程,其中每个子序列称为符号单元(token),该过程称为标记化 (tokenization)。 IR中,研究最多的是以词为单位对文本进行划分,称为断词(wordtokenization),简称tokenization。 在断词过程中,可能会同时除去一些特殊符号,比如,标点符号。 举例 Ihaveadream. (I) (have) (a) (dream) 英文断词时需要考虑的情况(1) 句点 :是英文中最常引起歧义的符号, 也是最难处理的符号。 表示句子的结尾 缩写的一部分 小数点 举例: The experiments led by Dr. Alan achieved a precision of 90 .7%. He was born in U.S. 英文断词时需要考虑的情况(2) 撇号 :主要用于构成英文的动词缩写式和名词所有格。 动词缩写式,Im,wont,dont等等;歧义:hes:heis,hewas,hehas;he d: he would, he had; 名词所有格,The cat s, children s, parents‘ 年份的复数 the late 1950s 英文断词时需要考虑的情况(3) 连字符 :主要用处是标志合成词以及 用在排版工序。 构成合成词 已经固定成词的情况E-mail,co-operate 根据特定语法或语言环境生成的词Four-year;SteveJobs,1955-2011;All-In-One 用在排版上 英文的大小写转换 英文句首的单词第 一个字母大写 ,这可能导致一些单词不能正确的匹配。比如查询“automobile”和句首的“Automobile” 一个一 般的策略是将所有字母转换成小写。但也会导致一些例外: 比如: “ China” 和 “ china” 全部转换成小写可能导致那些本应区分的词语同化。 由于用户查询往往忽略大小写, 而使用小写, 因此,所有字母转换成小写有助于用户的查询。 中文的分词 中文IR系统有两种主要检索方案 基于字的检索,按照字建立索引,需要在检索时进行逻辑运算。 基于词的检索,按照词建立索引,检索时直接命中。优点:检索速度快、准确率高。 中文分 词( ChineseWordSegmentation):中文文本中词与词之间没有空格,为了获 取词语信 息,需 要 对词语进行自动的词语切分。 李明是一名优秀的学生。 李明 _是_ 一 名_ 优秀_ 的 _学生_ 。 中文分词面临的首要问题是如何定义一 个词。 举例:自然语言处理 1)自然_语言_处理 2)自然语言_ 处理 中文词的定义没有统一的标准,语言学家从不同的角度对词进行定义。 汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异; 汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理; 《信息处理用现代汉语分词规范及自动分词方法》对词的定义:结合紧密、使用频繁。 分词算法的主要困难是歧义消除和未登录词
文档评论(0)