网页的收集(预备知识).pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网页的收集(预备知识)

网页的收集(预备知识) 李晓明,2003年9月 主要内容 有哪些信誉好的足球投注网站引擎的模块安排 HTML 书写网页的“框架语言” HTTP 浏览器(爬取器)和Web服务器交流的语言 两段式有哪些信誉好的足球投注网站引擎 三段式有哪些信誉好的足球投注网站引擎 HTML HyperText Markup Language “标记(tags)” + “文字内容(text)” 标记用来 说明网页的元数据(例如“标题”等) 说明内容的布局和字体(font)、字号(size) 嵌入图片,img src=“url” 创建超链 用a标记的HREF属性表达一个链接,a href=“url”…/a HREF利用一个URL来指明另一个网页 URL = 协议域 (“HTTP://”) + 服务器主机名字(“”) + 文件路径 (/, 所发布文件系统的“根目录”). 例如,/973/index.htm HTML(示例框架) !DOCTYPE HTML PUBLIC -//W3C//DTD HTML 3.2 Final//EN html head title This is the title but often omitted /title /head body img src = “url1” alt=“text” other text a href = “url2” title=“anchor text” this is link text /a /body /html 网页中几处有特别意义的文字 headtitle text /text/head 是有哪些信誉好的足球投注网站服务显示的内容之一(URL,标题,摘要) img src=“url” alt=“text” 常常给出图片的一种描述,例如可以帮助我们做“文字?图片”查询 a href=“url” title=“text”link text/a 这两项文字对链接分析,对理解网页之间在内容上的关系很有用?“对url所指网页的外部认识” HTTP HyperText Transport Protocol 工作在TCP之上(请求/应答方式) HTTP 1.1容许在一个TCP连接上发多个HTTP请求 工作步骤(从客户端看) 通过域名服务器(DNS)得到服务器主机的IP地址 用TCP和服务器建立联系 服务器上缺省的HTTP端口号是80. 发送HTTP请求(例如,GET) 接收HTTP应答头 MIME (Multipurpose Internet Mail Extensions),A meta-data standard for email and Web content transfer 接收HTML网页内容 MIME 用文件的扩展名表示文件的编码类型,从而形成客户方和服务器之间对文件内容的一种共识 在text大类中有若干子类,包括html。对应的文件扩展名可以是html, htm, 等 在UNIX系统上用telnet实验 %telnet 80 由于指定了端口号80,telnet服务器将期望客户方发出一个HTTP请求,从80端口接收后按照HTTP的规定进行分析,返回相应的HTTP应答 GET / http/1.0 服务器将返回一个HTTP应答,包含 应答头(response header) 空行 应答体(response body) 用telnet演示http 抓取一篇网页的程序(fetcher)框架 给定一个输入url; gethostbyname():从url得IP地址 connect():用IP和段口号向服务器建立socket连接 write():在该连接上发HTTP请求 read():在该连接上读取HTTP应答头 read():在该连接上读取HTTP应答体 名词 crawler, spider, robot:“爬取器”,在Web上按照一定策略收集网页的程序 a crawl:一次爬取(指的不是一篇网页,而是收集到的一批网页) fetcher:按照一个url抓取一篇网页的程序(函数) 于是,“爬取”和“抓取”在我们这里有明确不同的含义 search engine:有哪些信誉好的足球投注网站引擎 如果我们将“有哪些信誉好的足球投注网站”理解为“寻找某些特定的东西”,那么crawler的工作一般不是做“有哪些信誉好的足球投注网站”,而是“收集”(collect)。用户做有哪些信誉好的足球投注网站。有时候,出于习惯,我们混用“搜集”和“收集”。 * * “天网1.0”就是如此,其特点是收集模块中的网页抓取程序包含了切词功能,收集模块留下来的只有切词的结果。简单,省设备;慢,一台机器一天搜不到10万。 “服务”包含建索引等 “天网2.0”如此,应该是大规模、高质量有哪些信誉好的足球投注网站引擎的基本安排。 独立出一个专门的“整理”阶段,既便于提高“收集”的效率和质量,还便于安排各种中间处理环节。 *

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档