- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SE4Topic掀起你的盖头来-北京大学
SE4Topic掀起你的盖头来
Organized by Hongfei Yan, May 2003
说起“天网”有哪些信誉好的足球投注网站引擎(/ ),大家都是耳闻已久了。“天网”是北京大学网络实验室研制开发的,历经8年,尽管没有商业化,在国内有哪些信誉好的足球投注网站引擎领域却占有举足轻重的地位。SE4Topic是从“天网”有哪些信誉好的足球投注网站引擎定制而来,天生具有“天网”有哪些信誉好的足球投注网站引擎的技术指标。因此下面的叙述是围绕“天网”有哪些信誉好的足球投注网站引擎来展开的。
系统概貌
整个“天网”系统构建于GNU/Linux之上,由搜集,预处理,检索3个子系统构成。5台机器负责从Web上搜集网页,20台机器做预处理,20台机器做索引,1台机器作为Web查询服务节点。此外有一台网关机器,隔绝外网与内网,保证系统安全运行。所有设备通过100Mb/1Gb 的交换机连接,如图1所示。
图1 天网体系结构图
搜集系统
搜集系统的目标是高效搜集尽可能多的网页,同时具有如下特点:
各节点的负载均衡,即保证在一定时间内每个节点负责搜集的Web主机数目基本相等。从而保证每个节点负责搜集的网页数目基本相等,充分发挥并行分布式体系结构的优点。
尽可能减少搜集节点之间网络通信量,即各节点之间通信量尽量少。在Web搜集系统中,采用并行分布式体系结构,各个节点并不是独立的,因为一个节点可能发现不属于自己负责搜集Web主机下的网页,此时应该传送给相应负责搜集的主机。
具有可扩展性,即当任务扩大N倍,系统处理和存储能力也扩大N倍时(节点数目扩大N倍),单个系统性能波动较小。从而保证整个系统的可扩展性。
系统可以动态变化。搜集系统面对的是海量信息,通常会长期连续运转。要保证工作期间,无论是硬件故障还是人为干预造成的系统结构变化(即节点数目的增减)都不影响系统的性能。
图2 分布搜集结构图
图2所示为系统运行示意图。其中的协调进程之间两两建立连接通信,形成一个逻辑全互连关系,直接传递它们之间的交叉URL。调度模块(记为WSR)有特别的意义,它维护系统内所有登记协调进程的信息,包括它们的IP和端口号。当任一个协调进程的信息有所改变时,WSR负责将更新的信息转送给其他协调进程,便于建立连接和变更连接。协调进程从0开始编号,直到n-1,各自负责收集存储属于自己范围内的网页。每个节点上运行若干抓取进程,它们在协调进程的管理下工作。抓取进程负责接收从所属协调进程发送的URL,抓取该URL指向的网页并传送回给所属协调进程。各协调进程之间都建立有双向连接,可以全双工的工作。当任一协调进程发现自己的收集模块发回的网页中包含不属于自己的URL时,就将此URL传送给负责它的协调进程去处理。为减少通讯量,各协调进程之间只传送URL。
预处理系统
Web上存在网页内容转载的情况,被转载的网页称为原始网页的镜像。如果是热门话题、重大新闻或经典文章,则转载的频率会很高。因此,Web上存在大量的镜像网页。在有哪些信誉好的足球投注网站引擎中,需要将搜集到的网页中的镜像网页去掉,而后再建索引提供服务,从而保证用户查询时不会出现大量内容重复的网页。去掉镜像网页的过程被称为消重。由于大量的镜像网页并不是对原始网页的简单拷贝,而是将要转载的内容放在新的模板中再提供服务。因此模板中的内容就会干扰消重程序对镜像网页的判断,从而导致错误消重。常见的错误消重有以下两种情况:
相同的内容,由于放在了不同的模板中导致应该被消掉但实际上被消重程序判断为非镜像网页而保留。
不同的内容,由于放在了相同的模板中导致不应该被消掉但实际上被消重程序判断为镜像网页而消掉。
从实际系统中也可以看出,模板因素是导致消重不够准确的一个主要原因。鉴于此,在做消重之前,先对网页进行净化,去掉网页的模板内容,进而提取出网页的正文,然后,对网页的正文进行消重。
检索系统
图3 天网WWW检索系统图
“天网”检索系统如图3所示,包括三个部分,分别是查询服务节点、索引服务节点和文档服务节点,每个部分都可以有多个节点配置。索引服务子系统是一个share-nothing结构的分布式信息检索系统,其中每个节点提供独立的信息检索服务,各个节点间数据独立,这种结构在检索时节点相互间无网络通信开销,具有良好的扩展性。文档服务子系统设计时采用和索引服务类似的分布式结构,提供对文档提取动态摘要和提供原文数据的服务。查询节点对用户提供查询的交互界面,通过Intranet网络调用索引服务和文档服务来完成用户的查询请求。
目前“天网”检索系统的基本技术特征包括:支持布尔(AND)查询,短语查询和临近关系查询;支持pagerank的排序策略;支持关键词居中的动态摘要。底层采用带位置数据的全文索引技术,索引的物理组织形式为倒排索引文件。
根据“天网”系统维护的日志数据,统计分析了用户行为的分布特征,主要包括以下内容:
用户查询词的分布情况
雷同查询词的衰减统计
相邻N项
文档评论(0)