- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* Wu Gangshan: Modern Information Retrieval * 小结 不适合做大规模的文件检索处理。 实时性比较差。 但非常适合做模式提取 字符串的模式提取 * Wu Gangshan: Modern Information Retrieval * 补:通配符查询 对某些查询词记忆不是非常精确的情况下需要使用通配符来定义查询请求。 Sydney or sidney? ?S*dney * 表示可以不匹配或者匹配任意数量的字符串。 通常的做法: 先从词典中查找出全部匹配请求格式的词。 基于这些词来进行倒排索引的查询。 两种实现方法。 * Wu Gangshan: Modern Information Retrieval * 方法1、General wildcard queries Permuterm indexes First, introduce a special symbol $ into our character set, to mark the end of a term; hello ? hello$. Next, we construct a permuterm index, in which the dictionary consists of all rotations of each term. Ll0$he?hello Lo$hel?hello 将所有这些索引词构成一个索引词典。 B树查询。 * Wu Gangshan: Modern Information Retrieval * 方法1、General wildcard queries 通配符检索请求改写方法: 将查询请求单词的通配符循环移位到最后。 M*n?n$m* 这样通配问题转换成了前缀匹配问题了。 在前述的B树结构上进行前缀匹配处理。 所有匹配的词都是符合通配符请求的单词。 多个统配符的情况: 忽略中间部分,处理单个通配符,然后再过滤。 * Wu Gangshan: Modern Information Retrieval * 方法2、k-gram indexes A k-gram is a sequence of k characters. cas, ast and stl are all 3-grams occurring in the term castle. use a special character $ to denote the beginning or end of a term, so the full set of 3-grams generated for castle is: $ca, cas, ast, stl, tle, le$. A k-gram index is an index in which the dictionary consists of all k-grams k-GRAM INDEX that occur in any term in the lexicon. * Wu Gangshan: Modern Information Retrieval * 方法2、k-gram indexes 查询处理 Consider the wildcard query re*ve. run the Boolean query $re AND ve$. This is looked up in the 3-gram index and yields a list of matching re*ve. such as relive, remove and retrieve. Red* ? $re and red,然后再过滤。 3、结构化查询 * Wu Gangshan: Modern Information Retrieval * 3. 结构化查询 文档都会有一定的结构信息,这些信息可以用来辅助检索。 结构信息有: 特定的域名, e.g. title, author, abstract, etc. 层次化的树型结构 (recursive) : chapter title section title section title subsection chapter book * Wu Gangshan: Modern Information Retrieval * 3.1 固定结构查询 有些文档具有非常稳定的结构描述,很象表的形式。 (email archive.) 可以通过查询某些域是否是特定词来检索: “nuclear fusion” appearing in a chapter title SFQL: 在关系数据库查询语言SQL基础上,进行扩充,以实现全文检索的需要。 Se
有哪些信誉好的足球投注网站
文档评论(0)