通用互联网信息采集系统的设计与初步实现.docxVIP

通用互联网信息采集系统的设计与初步实现.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 1 期杜义华等: 通用互联网信息采集系统的设计与初步实现通用互联网信息采集系统的设计与初步实现杜义华, 及俊川( 中 国科 学院 计 算机 网络 信息 中心 管理 服务 中心 , 北 京 100864 )?187?摘要 : 通 过建 立网 页资 源库 , 结 合 Spider 技 术、内 容分 析 技 术、引 入 用 户 数 据 项和 替 换 抽 取 指 令 编 辑器 等 , 提供和 定制 可视 化通用 性较 强的 互联 网信 息采 集系 统 , 能 定期 自 动 跟 踪 相关 网 站 或 网 页 , 进 行 比 较 分 析、抽 取 、规整入 库、分类 等 , 从互 联网 上获 取所 需信 息。关键 词 : 互 联网 信息 采集 系统 ; 网 络信息 挖掘 ; Spider中图 法分 类号 : TP393文献 标识码 : A文章 编号 : 1001- 3695( 2005) 01- 0187 - 03Design and Implementation of Internet Information Gather and Process SystemDU Yi-hua, JI Jun-chuan( OA Center, Computer Network Information Center, Chinese Academy of Sciences, Beijing 100864, China)Abstract: By using Web page database technology, Spider searching technology and content parsing technology, providing withuser-defined field config tool and batch get replace script language editor, a flexible visual internet Information gather process system is developed, which according to user’s setting, can automatic track Web, filter information, gather informa-tion, extract information, classify information and save to database termly. This paper introduces the design and implementationof the system in detail.Key words: Internet Information Gather and Process System; Web Mining; Spider采集系统根据用户提供的 这些信 息进行 采集。它不 是用于 互1引言联 网 上 未 知 信 息 、未 知 网 站 的 自 动 搜 索 , 而 主 要 是 用 于 指 定 网信 息 多 、有用 的 少 、分布 杂 乱 无 章 、不 断 发 展 变 化 是 互 联 网上信 息 资 源 的 特 点 , 信 息 来 源 的 异 构 性 是 网络 信 息 难 以 采 集 整理再 利 用 的 焦 点 [ 1] 。 近 年 来 关 于 Web 信 息 的 利 用 研 究 很 多 ,大多 集 中 在 搜 索 引 擎 技 术 [ 2] , 旨 在 利 用 先 进 系 统 和 人 工 智 能技术 , 以 一 定 策 略 在 互 联 网 中 搜 集 、发 现 、理 解 、组 织 信 息 后 为用户 提 供 网 页 、图 片 、软 件 等 检 索 服 务 。 互 联 网 信 息 采 集 系 统是对 Internet 上 某 些 或 某 类 站 点 进 行 内 容 分 析 和 分 类 整 理 , 从网页 中 提 取 有 效 数 据 加 工 , 得 到 所 需 要 的 常常 是 该 领 域 绝 大 部分资 料 , 是 新 一代 网 络 应 用 的 方 向 , 它 不 同 于 搜 索 引 擎, 纯 智 能化技 术 不 能 满 足 需 要 ; 它 也 不 同 于 基 于 代 理因 特 网 信 息 获 取 的[ 3]直接 让 用 户 抽 取 所 需 要 的 数 据项 , 不 便 自 动实 时 监 测 源 网 站 的更新 信 息 等 。站 、指 定 栏 目下 的 信 息 , 其 采 集 的 最 终 结 果 不 再 是 页面 , 而 是 深入到站点和页面内部 , 采集 中有效 数据项 和相关 图片附 件 , 并直接进入用户指定库。采 集 系 统 的 开 发 目 的 就是 提 供 一 个 有 力 的

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档