有哪些信誉好的足球投注网站引擎基本原理与实现技术——索引.pptVIP

有哪些信誉好的足球投注网站引擎基本原理与实现技术——索引.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
有哪些信誉好的足球投注网站引擎基本原理与实现技术——索引

有哪些信誉好的足球投注网站引擎基本原理及实现技术;网络爬虫辛辛苦苦的把网页爬回来之后……;预处理系统;信息抽取;分词;分词思想设计的原则;3、总体词数越少越好,在相同字数的情况下,总词数越少,说明语义单元越少,那么相对的单个语义单元的权重会越大,因此准确性会越高。 ;基于字符串匹配的分词方法;最大匹配法;正向最大匹配法;第3次:“生动物”,扫描3字词典,无 第4次:“生动”,扫描2字词典,有 扫描中止,输出第3个词为“生动”,第4轮扫描,即: 第4轮扫描: 第1次:“物园玩”,扫描3字词典,无 第2次:“物园”,扫描2字词典,无 第3次:“物”,扫描1字词典,无 扫描中止,输出第4个词为“物”,非字典词数加1,开始第5轮扫描,即: 第5轮扫描: 第1次:“园玩”,扫描2字词典,无 第2次:“园”,扫描1字词典,有 扫描中止,输出第5个词为“园”,单字字典词数加1,开始第6轮扫描,即: 第6轮扫描: 第1次:“玩”,扫描1字字典词,有 扫描中止,输出第6个词为“玩”,单字字典词数加1,整体扫描结束。 正向最大匹配法,最终切分结果为:“我们/在野/生动/物/园/玩”,其中单字字典词为2,非词典词为1。 ;逆向最大匹配法: 逆向即从后往前取词,其他逻辑和正向相同。即: 第1轮扫描:“在野生动物园玩” 第1次:“在野生动物园玩”,扫描7字词典,无 第2次:“野生动物园玩”,扫描6字词典,无 。。。。 第7次:“玩”,扫描1字词典,有 扫描中止,输出“玩”,单字字典词加1,开始第2轮扫描 第2轮扫描:“们在野生动物园” 第1次:“们在野生动物园”,扫描7字词典,无 第2次:“在野生动物园”,扫描6字词典,无 第3次:“野生动物园”,扫描5字词典,有 扫描中止,输出“野生动物园”,开始第3轮扫描 第3轮扫描:“我们在” 第1次:“我们在”,扫描3字词典,无 第2次:“们在”,扫描2字词典,无;第3次:“在”,扫描1字词典,有 扫描中止,输出“在”,单字字典词加1,开始第4轮扫描 第4轮扫描:“我们” 第1次:“我们”,扫描2字词典,有 扫描中止,输出“我们”,整体扫描结束。 逆向最大匹配法,最终切分结果为:“我们/在/野生动物园/玩”,其中,单字字典词为2,非词典词为0。 ;双向最大匹配法;基于理解的分词方法;基于统计的分词方法;分词工具;;网页特征提取;索引;建立倒排索引的基本过程;倒排索引(Inverted Index);倒排索引的建立; 实际上在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term保存在文件头部,并且对数据进行压缩,这些涉及到的技术自行学习。;建立索引;排序法(Sort-basedInversion);归并法(Merge-basedInversion);正排索引;多字段索引(自学);索引更新;;原地更新策略(In-Place) ?原地更新策略试图改进“再合并策略”的缺点。就是说,在索引更新过程中,如果老索引的倒排列表没有变化,可以不需要读取这些信息,而只对那些倒排列表变化的单词进行处理。即使老索引的倒排列表发生变化,只在其末尾进行追加操作,而不需要读取原先的倒排列表并重写到磁盘另外一个位置? 在索引合并时,不生成新的索引文件,而是直接在原先老的索引文件里进行追加操作,将增量索引里单词的倒排列表项追加到老索引相应位置的末尾;混合策略(Hybrid) 将单词根据其不同性质进行分类,不同类别的单词,对其索引采取不同的索引更新策略。 根据单???的倒排列表长度进行区分,将单词划分为 “长倒排列表单词”----原地更新策略 “短倒排列表单词”--- -再合并策略 因为“原地更新策略” 策略能够节省磁盘读写次数。而 “短倒排列表单词”读写开销不算太大,所以利用“再合并策略”来处理,充分利用其顺序读写优势 ;;索引建立的过程;抑走羽恋绣接丧蹋埃歧区蓬网扁晰亭胃卖罩又缎饶莹谴闭窃漆谗隘助湘馏有哪些信誉好的足球投注网站引擎基本原理与实现技术——索引有哪些信誉好的足球投注网站引擎基本原理与实现技术——索引;3)关键词的提取(出现次数比较多的选为关 键词) 4)词频的统计 5)正向索引文件的写入(词项:词频) 3 根据正向索引建立倒排索引 存储形式是: 词项:(文档名,词频),(文档名,词频)…… ;注意:存储的过程中需要判断重复性

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档