网络数据采集与爬虫-数据科学与社会研究.PDFVIP

网络数据采集与爬虫-数据科学与社会研究.PDF

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络数据采集与爬虫-数据科学与社会研究

网络数据采集与爬 虫 陈华珊(中国社科院社会发展战略研究院) 网络数据获取方式 • 模拟鼠标点击 − 按键精灵 − sikulix • 调用浏览器进行自动操作 − IE:DocumentObjectModel(DOM) − Chrome,Firefox ⋆ rdom ⋆ RSelenium ⋆ headless • HTTP采集 2017--03--02 网络数据采集与爬虫-@陈华珊 2 HTML基础知识 1 html 2 metatitle, description, keywords/meta 3 body 4 div.../div 5 p 正文 a href=Google/a /p 6 table表格/table 7 /body 8 /html 2017--03--02 网络数据采集与爬虫-@陈华珊 3 HTTP基础知识 HTTPprotocal(超文本传输协议) • 计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则, 超文本传输协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文 档从Web服务器传送到客户端的浏览器。 • 目前我们使用的是HTTP/1.1版本 • HTTP/2iscoming 2017--03--02 网络数据采集与爬虫-@陈华珊 4 Web服务器,浏览器,代理服务器 2017--03--02 网络数据采集与爬虫-@陈华珊 5 2017--03--02 网络数据采集与爬虫-@陈华珊 6 URL URL(UniformResourceLocator)地址用于描述一个网络上的资源,基本格式如下 1 schema://host[:port#]/path/.../[;url-params][?query-string][#anchor] Name Desc. scheme 指定低层使用的协议(例如:http,https,ftp) host HTTP服务器的IP地址或者域名 port# HTTP服务器的默认端口是80,这种情况下端口号可以省略。如果使用了别的端口, 必须指明,例如:8080/ path 访问资源的路径 url-params query-string 发送给http服务器的数据 anchor- 锚 2017--03--02 网络数据采集与爬虫-@陈华珊 7 URL的一个例子 1 /sj/test;id=8079?name=sviergnx=true#stuff 2 3 Schema: http 4 5 host: 6 7 path: /sj/test 8 9 URL params: id=8079 10 11 Query String: name=sviergnx=true 12 13 Anchor: stuff 2017--03--02 网络数据采集与爬虫-@陈华珊 8 HTTP消息的结构 • Request − 请求行 − httpheader − body 2017--03--02 网络数据采集与爬虫-@陈华珊

文档评论(0)

sunshaoying + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档