- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络矿工数据采集软件培训教程之基础操作 一孑工作室 2010年4月 网络矿工数据采集软件培训教程基础操作 网络矿工是干什么的? 初识网络矿工 配置一个简单的采集任务 结 束 语 4 1 2 3 网络矿工数据采集软件是做什么的? 采集网站数据; 将采集得到的数据实现自动、手工加工,以满足对数据的要求; 将采集得到的数据发布到数据库或网站; 为何要采集网站数据? 为自己的网站提供数据内容支持; 为企业决策做数据支撑; 建立自己的数据服务中心; 进行网站数据监控; 网络矿工有何优势? 采集能力强:支持各种web请求;支持常用网页及Url编码、甚至支持URL BASE64编解码;支持多级导航、导航自动分页、分级采集;支持外部参数;支持正则,核心为强大的正则引擎;此方面可参见官方介绍或相关视频; 具备数据加工操作:可对采集获取的数据进行常用的数据加工,比使用SQL更加容易、更加便捷; 自动化程度高:支持计划任务,几乎可定制任意的计划内容;支持任务触发器,可将分割的任务由触发器自动维护起来; 同类产品性价比最高:不绑定计算机,仅按用户授权,服务更加完善; 网络矿工有哪些不足之处? 中文处理能力较弱,对非结构化数据管理稍显欠缺; 数据加工能力还略微不足,当前仅为基本的数据加工操作,对数据清理加工还有待加强; 采集任务配置过于专业化,应提供可视化或向导式任务配置,降低配置难度,提高采集任务配置的质量;(采集任务配置的质量将直接决定于数据采集质量及效率) 网络矿工数据采集软件的历史 2007年 Soukey采摘 诞生 2008年 Soukey采摘 开源免费 2009年 网络矿工 诞生 2010年 网络矿工 07年下半年,由于网站需要,开始涉足数据采集,使用了部分软件均不感到满意,因此与07年10月开始开发Soukey采摘采集引擎; 根据内部使用经验形成软件,08年底正式完成开源软件0.8版本。 09年初在Sourceforge上建立了开源项目,并开始推广。 09年中,根据用户反馈经验,并结合此方面的技术积累,开始制作网络矿工; 10年1月正式完成网络矿工1.0版本,并开始推广 至今已经发展为网络矿工 专业版V1.8及个人版V1.6; 网络矿工数据采集软件培训教程基础操作 网络矿工介绍 初识网络矿工 配置一个简单的采集任务 结 束 语 4 1 2 3 第一次运行 下载; 下载后文件为:SoMiner.exe,此文件为自解压缩文件,双击,选择释放文件的目录; 点击SoukeyNetget.exe运行软件; 无需安装,直接运行; 无法运行? 请检查是否安装了Microsoft .NetFramework 2.0,网络矿工需要此环境; 没有安装? /downloads/details.aspx?FamilyID=0856EACB-4362-4B0D-8EDD-AAB15C5E04F5displaylang=zh-cn 点击链接进行下载; 还是无法运行?请检查是否对目录具备写操作权限?解压缩文件是否释放完整? 网络矿工主界面 如果是注册用户此处为“已激活” 此处为采集任务结构树。 系统日志 采集任务信息区域,根据右侧所选不同,所呈现的信息会有所不同 运行采集示例—选择需要运行的任务 选择“一孑博客文章”采集任务。 运行采集示例—运行 任务运行状态显示 任务运行采集数据输出,可直接存储数据库或发布网站。 任务运行日志显示,可跟踪任务采集情况,请记录出错信息。 网络矿工数据采集软件培训教程基础操作 网络矿工介绍 初识网络矿工 配置一个简单的采集任务 结 束 语 4 1 2 3 新建采集任务 输入采集任务名称,并选择采集任务所属分类 采集数据临时存储位置,如无特殊情况请勿修改。 选择执行类型:此处可选择直接入库,或采集发布数据 如数据采集需要Cookie,可在此数据,或点击“获取Cookie”自动获取 新建采集任务 输入需要采集网站数据的Url,通过“参数/变量”可设置参数变量,完成多数量集网址配置,譬如:翻页参数 如果需要导航,选择“导航页”,设置导航规则,网络矿工支持多级导航,同时也支持分级采集,都在此进行设置。 点击“增加”将配置好的网址增加到采集任务中。如果是导航网址,则仅记录第一层的网址总数。 新建采集任务 配置采集规则,即所谓的前置、后置的标识符号。 配置完成后点击“增加”添加到采集任务中。 新建采集任务 对采集得到的数据进行加工,譬如:去掉网页符号。 新建采集任务 通过测试来判断采集任务是否配置正确。 新建采集任务 点击“确定”保存任务,运行即可看到采集效果。 此任务非常简单,对于采集任务的配置,还需有更多的内容需要掌握,后续会逐步进行介绍。 再次说明:采集任务配置具备一定的专业性,同时一个高质量的采集任务会带来采集的高效率
文档评论(0)