通用互联网信息采集系统的设计与初步实现.docxVIP

下载本文档

13
0
约1.44万字
约 8页
2017-09-19 发布于安徽
举报
版权申诉

通用互联网信息采集系统的设计与初步实现.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第 1 期杜义华等: 通用互联网信息采集系统的设计与初步实现通用互联网信息采集系统的设计与初步实现杜义华, 及俊川( 中国科学院计算机网络信息中心管理服务中心 , 北京 100864 )?187?摘要 : 通过建立网页资源库 , 结合 Spider 技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等 , 提供和定制可视化通用性较强的互联网信息采集系统 , 能定期自动跟踪相关网站或网页 , 进行比较分析、抽取、规整入库、分类等 , 从互联网上获取所需信息。关键词 : 互联网信息采集系统 ; 网络信息挖掘 ; Spider中图法分类号 : TP393文献标识码 : A文章编号 : 1001- 3695( 2005) 01- 0187 - 03Design and Implementation of Internet Information Gather and Process SystemDU Yi-hua, JI Jun-chuan( OA Center, Computer Network Information Center, Chinese Academy of Sciences, Beijing 100864, China)Abstract: By using Web page database technology, Spider searching technology and content parsing technology, providing withuser-defined field config tool and batch get replace script language editor, a flexible visual internet Information gather process system is developed, which according to user’s setting, can automatic track Web, filter information, gather informa-tion, extract information, classify information and save to database termly. This paper introduces the design and implementationof the system in detail.Key words: Internet Information Gather and Process System; Web Mining; Spider采集系统根据用户提供的这些信息进行采集。它不是用于互1引言联网上未知信息、未知网站的自动搜索 , 而主要是用于指定网信息多、有用的少、分布杂乱无章、不断发展变化是互联网上信息资源的特点 , 信息来源的异构性是网络信息难以采集整理再利用的焦点 [ 1] 。近年来关于 Web 信息的利用研究很多 ,大多集中在搜索引擎技术 [ 2] , 旨在利用先进系统和人工智能技术 , 以一定策略在互联网中搜集、发现、理解、组织信息后为用户提供网页、图片、软件等检索服务。互联网信息采集系统是对 Internet 上某些或某类站点进行内容分析和分类整理 , 从网页中提取有效数据加工 , 得到所需要的常常是该领域绝大部分资料 , 是新一代网络应用的方向 , 它不同于搜索引擎, 纯智能化技术不能满足需要 ; 它也不同于基于代理因特网信息获取的[ 3]直接让用户抽取所需要的数据项 , 不便自动实时监测源网站的更新信息等。站、指定栏目下的信息 , 其采集的最终结果不再是页面 , 而是深入到站点和页面内部 , 采集中有效数据项和相关图片附件 , 并直接进入用户指定库。采集系统的开发目的就是提供一个有力的