《人工智能》Focused-crawler.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《人工智能》Focused-crawler

Focused Crawler Topic Crawler 主题爬虫 Start Here 何晓楠、彭升辉、刘静 NLSDE, Beihang University Dec 20th, 2012 Beihang University 一分钟内 微博 Twitter 上新収的数据数 超过10万 社交网络 Facebook 的浏览量 超过600万 Google宣称索引的网页数目已超过10000亿 中国的网页规模超过100亿 …… Beihang University Next page “这是一场革命,庞大的数据资源使得各个领域开始了量化迚程,无论学术 界、商界还是政府,所有领域都将开始这种迚程。” ——哈佛大学社会学教授 加里·金 Beihang University Next page Big Data 大数据时代 Beihang University Next page 有哪些信誉好的足球投注网站引擎 Beihang University Next page Web Beihang University Next page 第一步:爬行 有哪些信誉好的足球投注网站引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬 到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被 称为“机器人”。 Beihang University Next page 第二步:抓取存储 有哪些信誉好的足球投注网站引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存 入原始页面数据库。 第三步:预处理 有哪些信誉好的足球投注网站引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。 提取文字、中文分词、去停词、消除噪音、去重、正向索引、 倒排索引、链接关系计算、特殊文件处理 第四步:排序 Beihang University Next page 网络爬虫 » 1 )人工给定一个URL作为入口,从这里开始爬叏。 » 2 )用运行队列和完成队列来保存丌同状态的链接。 » 3 )线程从运行队列读叏队首URL ,若存在,则继续执行,反乊则停止爬叏。 » 4 )每处理完一个URL ,将其放入完成队列,防止重复访问。 » 5 )每次抓叏网页乊后分析其中的URL (URL是字符串形式,功能类似指针), 将经过过滤的合法链接写入运行队列,等待提叏。 » 6 )重复步骤 3 )、4 )、5 )。 Beihang University Next page A Simplest Web Crawler

文档评论(0)

skvdnd51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档