- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1 怎样定义抓取网页数据的规则
MetaSeeker 工具的用处是定义抓取网页数据的规则,就像首 页所说,手工编写抓取网
页数据的规则容易出错,MetaSeeker 能够自动生成抓取规则,使用直观的图形化界面,将人
为编码错误的可能降到最 小,而且能够用极短的时间定义一套新的信息提取规则。
与其它网页数据抓取工具不同,MetaSeeker 首先引导用户为目标网页定义语义结构(我
们称之为信息结构), 并且存储到信息结构描述文件中,这一步看似多余,实际上意义重
大,因为目标网站的页面结构可能随着时间进行改变,例如,网站软件进行升级等,原先定
义的抓 取网页数据的规则可能会部分失效,需要针对必威体育精装版页面结构进行调整,调整信息结
构要比直接调整抓取规则直观的多,因为信息结构直接对应网页内容的语义结构, 加上图
形化用户界面(GUI )的便利性,锁定目标网站信息结构变化很容易。
另外,定义信息结构,而不是直接对网页在浏览器上的展现形式或者 HTML 源代码文
档进行分析,网站更换界面风格(称为皮肤,skin 或者 theme )或者修改HTML 文档中各内
容块的位置和顺序不会导致原先定义的网页数据抓取规则失效。
定义信息结构还有更重大的意义,将网页数据抓取演进到语义网络时代的内容格式化和
结构化数据(data sets )管理,抓取下来的结构化网页数据由于包含语义元数据,既可以很
容易的集成到Web 2.0 的服务器系统中,例如,垂直有哪些信誉好的足球投注网站、SNS、商品比价服务、商业情报
(智能)分析等等,又可以顺利地向Web 3.0 (语义网络)时代演进,例如,建设异构数据
对象有哪些信誉好的足球投注网站、结构化数据对象的多形式展现(例如,手机有哪些信誉好的足球投注网站或者手机 mashup 混搭)等。
与其它网页数据抓取工具的另外一个重大区别是:MetaSeeker 工具包将生成抓取网页数
据规则和使用抓取规则进行数据抽取的工作分到两个软件工 具上,即 MetaStudio 和
DataScraper , 是一种高度模块化设计,而且增加了部署的灵活性。实际上,生成网页数据
抓取规则和爬行网络提取信息是两个泾渭分明的任务,分别用不同的模块实现可以最恰当
的贴合软件运行逻辑,例如,DataScraper 采用了工作流框架,既确保软件执行效率又确保系
统的扩展性,如果想增强DataScraper 爬行网络 的能力,只需要扩展工作流的处理节点即可,
关于DataScraper 的特点和分析留待 《 DataScraper 使用手册》 详述。
MetaStudio 生成的抓取网页数据的规则存储在信息提取指令文件中,即数据提取指 令
文件和线索提取指令文件,顾名思义,这两个文件命令DataScraper 连续不断地从目标网站
上抓取页面数据和网页上的超链接。
围绕MetaStudio 的核 目标——生成抓取网页数据的规则,用户需要在图形用户界面上
执行下面的步骤:
1. 选定和加载样本页面:目标网站上特定主题的页面都有相似的网页结构,选定其中一
个作为样本,为其定义的抓取网页数据的规则将适用其它所有同主题的 页面,当然,
网站上同主题的多个页面结构往往有细微的差别,在后续的章节中可以看到,
MetaStudio 提供很多精巧的手段应对网页结构的变化。
2. 命名主题: 给正在定义的信息结构和网页数据抓取规则取一个名字,代表特定的语
义,DataScraper 中的定题网络爬虫按照这个名字分主题爬行网络。
3. 定义数据提取规则:首先需要使用 GUI 将信息结构描述出来,就像用图形用户界面操
作关系数据库一样,定义一张表,并定义很多字段,但 是,MetaStudio 的语义表述
能力强大得多,除了能够定义表状信息结构外,还能够定义树状信息结构。定义了信
息结构后,需要使用鼠标点选页面上的内 容,并点击菜单,将页面上的内容映射到
信息结构的各字段上(我们称之为信息属性, 是信息结构的组成部分),
MetaSeeker 与其它网页抓取工具相比能够更精确的抽取网页内容而且不容易受网页结
构变化的影响,这得益于采用了 专利的 FreeFormat 技术 ,所以,在GUI 上除了映射
网页内容以外,还要做一些网页结构信息的映射,将在后续章节详述。
4. 定义线索提取规则:用于从页面上提取进一步爬行的线索,一般属于另一个
您可能关注的文档
最近下载
- 济阳坳陷页岩油气勘探现状及研究进展.pptx VIP
- 控制高血脂的药物治疗与监测.pptx VIP
- JL-075业务持续性管理计划评审报告.docx VIP
- 南方电网公司分布式光伏发电项目并网服务知识手册(2025试行版).docx
- 2025-2030年中国国际物流行业跨境出海及战略规划研究报告.docx
- 2025四川成都新都投资集团有限公司招聘23人考试备考试题及答案解析.docx VIP
- 《城镇燃气设计规范》GB_50028.doc VIP
- 控制高血脂的药物治疗与日常管理.pptx VIP
- GWDC-SOP-04-02-02-004 调相机安装工程监理标准化作业指导书(19693770bc4511e61a4f6c0b8443582a).doc VIP
- 征信报告模板带水印可编辑2025年4月版.pdf
文档评论(0)