基于正则表达式的Web资源采集系统的设计与实现.pdfVIP

基于正则表达式的Web资源采集系统的设计与实现.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
E-mail:xsjl@eeee.net.ca ISSN 1009—3044 ComputerKnowledgeAndTechnology电脑知识 J_;技术 http://www.dnzs.net.cn Vo1.4,No.4,November2008,PP.888—889 Tel:+86—551—5690963 5690964 基于iE~ll表达式的Web资源采集系统的设计与实现 马建华.邵斌,李赛红 (南京师范大学 教育技术系 ,汀苏 南京 210097) 摘要 :介绍 了Web资源类型和采集策略中的对采集质量有影响的因素 。设计实现 了一套基于正则表达式的web资源采集系统,系 统具有灵活的可扩展性和可配置性,重点介绍了采集系统结构和采集技术。 关键词 :正则表达式;采集;web资源 中图分类号 :TP311 文献标识码 :A 文章编号 :1009—3044(2008)31—0888—02 ToDetectIntranetW ormsUsingNetworkFlow Technologies MAJian—hua,SHAObin,LISai—hong (DepartmentofEducationalTechnology,NanjingNormalUnive~ity,Nanjing210097,China) Abstract:IllthispagertheW ebResourcesonthetypeandacquisitionstrategyinthequ~iw ofthecollectiontOinfluentidfactorsarein— troduced.A W ebResourceCollectionSystem basedOilasetofRegularExpressionsisdesigned.Thesystem isflexible,scalableandCOn— figurable,focusonthecollectionsystem structureandcoHectiontechnoloyg . Keywords:regularexpression;collection;web resources 1引言 、 随着可=联网信息的持续爆炸性增长 ,网络能够为我们提供无穷的数据 ,像实时新闻、大型论坛或一些资源 网站每天都会提供大 量的新的数据 。但面对这些杂乱无章的数据我们一般人又束手无策。对于每个企业来说,互联 网上都会有他们感兴趣 的数据。作为 一 个 业 的决策者 ,需要知道竞争对手的一些情报为企业 的下一步决策作参考 ;作为一个网站的管理员,不希望手工录入大批量 的 文章或资料 ,而希望能够从一些站点上 自动抓取数据并放人数据库 中;企业 的销售人员希望能够获得大量 的目标客户的联系信息 , 从而能够扩大销售量等等 如何从互联网 抓取定 向大批量 的数据成为一个重要问题 。 2Web资源介绍 自1990年代以来 ,随着因特网和Web技术的迅速发展与普及 ,一些与网络有关的新名词 、新概念不断出现,如网络游戏 、网络 经济等等。Web资源,或称 “网络资源”,越来越为人们所接纳与采用 ,它直观、准确而且简洁地表达 了网络环境下信息资源所蕴涵的 时代气息。在此 ,Web资源是一个泛指概念 ,包括通过网络发布的一切信息。 Web资源包罗万象,几乎函盖了所有重要的人类活动信息。常见的Web资源可分为如下几类 : 网络出版物 :包括电子书籍、网络报纸、电子期刊 ,其中很多免费向用户提供。据统计_1j,在因特 网上 ,1991年有电子期刊110种 , 】993年 240种,1994年 400种 ,1995年近 700种 ,1996年千余种 ,而 1998年则达到万余种。 数据库 :有资料统计 ,1997 有 3000多种数据库通过 因特 网直接为用户提供信息检索服务 ,这些数据库的内容涉及不同领域 和专业 ,其 中大多数可以免费使用 。在 网络环境下,数据库生产商将其产 品联入因特 网,从而降低了成本 ,提高了资源的利用率。同 时,数据库作为高质量的学术、商业 、政府和新 闻信息的重要来源 ,

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档