- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络信息采集处平台的研究.pdf
中文摘要 摘要:随着社会信息化的迅猛发展,网络已经成为人们获取信息的重要来源。而 网络信息具有海量,复杂,非结构化等特点,为网络信息的获取以及基于网络信 息搜集的分析与研究工作都带来了很大困难。网络信息采集处理平台整合了网络 信息获取及处理中的各项关键技术,实现了将复杂、非结构化的网络信息进行整 理以及结构化存储的功能。 本文综合介绍了B/S架构的网络信息采集处理平台设计,构建与实现技术, 合理地设计了一整套具有创新性的用于信息采集和信息处理的技术方案。系统描 述了方案中的各实现环节,具有针对性地解决了网络信息采集处理平台中的由网 络信息数据特性所带来的难题。 本文的主要创新点及研究工作包括:一、将网页URL分析和匹配技术引入网 络信息处理设计方案中,在基于网页解析模板进行网页解析及网页信息抽取时, 用于辅助网页筛选、网站识别、解析模板选择和网页之间联系的发掘,优化了网 络信息处理模块设计,改善了信息处理效率和准确度;二、创新性地提出了基于 哈希函数的“抽象特征码比较法,用于识别重复网络信息数据,避免由页面二次 解析带来的重复数据存入数据库,通过相关实验及实验结果分析,验证了该方法 对于海量网络信息数据存储效率有较大程度优化。三、在对Nutch爬虫系统进行 深入研究的基础上,改进Nutch爬虫系统,进行多线程封装和配置接口设计,实 现了分布,可灵活配置的信息采集模块。 基于以上研究成果,本文规划了网络信息采集处理平台的总体框架结构,设 Web 计了系统功能模块逻辑,数据库结构和用户界面;应用新型GWT(Google Toolkit)T具开发了交互性良好的用户界面;引入多线程技术对平台的信息处理效 率进行优化,并通过相关实验加以验证。最终实现了一套运行稳定,效率优良的 网络信息采集处理平台。 关键词:信息采集;信息处理;网络爬虫;网页信息抽取 分类号:TP319 ABSTRACT ABSTRACT:Withthe ofinformation-basedhas rapiddevelopment society,intemet becomea sourcefor to information’s information.However,interact major peoplegain as and variousdifficulties characteristics,suchmass,complexitynon-structure,bring for intheresearchofinternetinformation wellasthe and people acquisition,asanalysis studiesbasedoninteractinformationcollection.TheIntemetInformation Acquisition and Platform various inthefieldofinternet Processingintegratedkeytechnologies information and thefunctionof the acquisition collecting processing,accomplished data.
文档评论(0)