面向主题的网络竞争情报采集系统.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向主题的网络竞争情报采集系统.doc

面向主题的网络竞争情报采集系统( 吴金红 张玉峰 王翠波 (武汉大学信息管理学院 武汉 430072) [摘 要] 基于主题的信息采集仅有哪些信誉好的足球投注网站主题相关的页面,有助于缩小信息采集的范围,提高特定主题信息采集的查全率和查准率。文章分析了web页面的主题特征,构建了基于主题的竞争情报采集子系统的框架,详细论述了面向主题的信息采集策略和采集流程,进而探讨了影响信息采集质量的关键因素。图3。参考文献8。 [关键词] 信息采集;主题有哪些信誉好的足球投注网站;竞争情报 [分类号] TP393.4 1 引言 网络信息资源的多样性、动态性、混沌性的特点,给企业网络竞争情报的采集带来了严峻的挑战,如何有效地从海量的网络信息源中采集有价值的情报支持企业的战略决策成为一个亟待解决的难题。当前,企业主要依靠人工浏览或有哪些信誉好的足球投注网站引擎来获取网络信息。人工浏览方式针对性强,能获得准确有效的竞争情报,但其缺点是工作量巨大、浏览范围有限。有哪些信誉好的足球投注网站引擎能根据有哪些信誉好的足球投注网站任务自动获得大量信息,给竞争情报的采集带来了便利。但当前的主流有哪些信誉好的足球投注网站引擎采用大众式服务模式,力争回答用户的所有查询,因此其核心指导思想是尽可能多地采集所有信息页面。然而,这种不区分主题、覆盖一切的策略,给竞争情报采集带来了一些负面效果: ①降低了查准率和查全率。有哪些信誉好的足球投注网站引擎面向的是普通用户,因此有哪些信誉好的足球投注网站的条件尽量泛化,以求最大可能地覆盖绝大多数用户的查询要求,而企业对竞争情报的需求集中于某一个方面或者某一主题,覆盖一切的目标降低了针对具体情报需求的查准率和查全率。 ②降低了情报的使用价值。有哪些信誉好的足球投注网站引擎的工作机理在于将采集到的页面信息进行索引后保存在服务器数据库中,用户通过输入关键词在有哪些信誉好的足球投注网站引擎服务站点数据库中有哪些信誉好的足球投注网站,查找到地址链接信息。因此,用户所查找的信息资源实质上是有哪些信誉好的足球投注网站引擎服务站点的数据库,并非网络实时信息。而有哪些信誉好的足球投注网站引擎服务站点的数据库刷新周期较长,例如,全球最大的有哪些信誉好的足球投注网站引擎Google收录的网页数截至2004年就已达到80亿[1],其内容刷新一遍需要数周到一个月的时间。竞争情报的时效性比较强,特别是一些紧急的决策任务,依据一两个月前的信息做决策风险性极大。因此,漫长的内容更新周期使得页面的失效率非常高,同时也降低了情报的使用价值。 面向主题的信息采集策略为解决这种难题提供了一种新的思路。面向主题的网络竞争情报采集系统仅访问Web页面中相关主题的页面,有利于提高竞争情报采集的主题相关度,从而减少采集页面的数量,提高竞争情报采集的速度和效率。本文在分析Web页面的主题特征的基础上,提出了一种面向主题的网络竞争情报采集系统,并分析了影响网络竞争情报的一些关键因素。 2 Web页面的主题特征 在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。事实上,页面间的超链接一方面引导网页浏览的过程,另一方面也反映了网页创建者的一种判断。如果网页A存在一条超链接指向网页B,那么网页A的作者是认为网页B包含了有价值的信息,两个页面的内容具有相似的主题。这也即是著名的Sibling/Linkage Locality特性所链接的其它页面Sibling/Linkage Locality特性Sibling/Linkage Locality特性不断扩展采集的范围,可大大缩小有哪些信誉好的足球投注网站的范围,减少大量无关的下载,提高信息采集的效率。 3 面向主题的网络竞争情报采集系统 根据Web站点的主题聚合特征,面向主题的网络竞争情报采集系统可以采用如下图所示的三层体系结构。见图1。 3.1 数据层 数据层是该采集系统的一个重要组成部分,特别是URL数据库,它的内容关系到信息采集的质量和性能。 (1)URL数据库。URL数据库的主要作用是存储种子URL地址,以及在进行有哪些信誉好的足球投注网站时从文档抽取出来的主题、摘要、元信息等。数据库中的URL地址是进行信息采集的基础。在进行面向主题有哪些信誉好的足球投注网站的时候,信息采集器首先要从URL数据库中选取URL地址作为有哪些信誉好的足球投注网站初始点(故称该URL为种子,它避免了盲目的大众化有哪些信誉好的足球投注网站),然后以批量的方式开始进行网页采集。URL的来源主要有两种:依据面向主题的思想,人工选取的URL种子集以及在信息采集过程中从页面中自动提取出来的URL。数据库中的其他信息,如主题、摘要、元信息等主要是用来辅助URL的自动提取或对URL的重要性进行排序,帮助信息采集器确定选取URL的优先顺序。 (2)数据仓库。数据仓库(Data Warehouse)是指从多个数据源收集的信息,以整合模式存储起来所得到的数据集合。数据仓库具有面向主题性、集成性、稳定性以及非易失性等特点[5]。数据仓库的面向主题性是我们选用它作为数据载体的主要原因。所谓面向主题是指数据仓库是围绕一些主题而建立,它为特定主题提供了一个简明的视图。数据仓库关注的是数据建模与分析,排除对企业决策无用的数据

文档评论(0)

wangshirufeng + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档