- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《人工智能》Focused-crawler
Focused Crawler Topic Crawler 主题爬虫 Start Here 何晓楠、彭升辉、刘静 NLSDE, Beihang University Dec 20th, 2012 Beihang University 一分钟内 微博 Twitter 上新収的数据数 超过10万 社交网络 Facebook 的浏览量 超过600万 Google宣称索引的网页数目已超过10000亿 中国的网页规模超过100亿 …… Beihang University Next page “这是一场革命,庞大的数据资源使得各个领域开始了量化迚程,无论学术 界、商界还是政府,所有领域都将开始这种迚程。” ——哈佛大学社会学教授 加里·金 Beihang University Next page Big Data 大数据时代 Beihang University Next page 有哪些信誉好的足球投注网站引擎 Beihang University Next page Web Beihang University Next page 第一步:爬行 有哪些信誉好的足球投注网站引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬 到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被 称为“机器人”。 Beihang University Next page 第二步:抓取存储 有哪些信誉好的足球投注网站引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存 入原始页面数据库。 第三步:预处理 有哪些信誉好的足球投注网站引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。 提取文字、中文分词、去停词、消除噪音、去重、正向索引、 倒排索引、链接关系计算、特殊文件处理 第四步:排序 Beihang University Next page 网络爬虫 » 1 )人工给定一个URL作为入口,从这里开始爬叏。 » 2 )用运行队列和完成队列来保存丌同状态的链接。 » 3 )线程从运行队列读叏队首URL ,若存在,则继续执行,反乊则停止爬叏。 » 4 )每处理完一个URL ,将其放入完成队列,防止重复访问。 » 5 )每次抓叏网页乊后分析其中的URL (URL是字符串形式,功能类似指针), 将经过过滤的合法链接写入运行队列,等待提叏。 » 6 )重复步骤 3 )、4 )、5 )。 Beihang University Next page A Simplest Web Crawler
您可能关注的文档
最近下载
- 企业工会助推企业高质量发展.docx VIP
- 细说通电直导线附近的场摘要:一无限长通电直导线,周围没有电场.DOC
- 昆山联江发纸业有限公司扩建项目.pdf
- 基于bp神经网络的引线键合模型 wire bonding model based on bp neural network.pdf VIP
- 透过“人车家”战略,看小米加码大家电对白电行业影响几何.pdf VIP
- 华师大版科学九年级上册 1-4章化学模块练习(含答案).doc VIP
- 绘本《小鹿历险记》.ppt VIP
- 八年级地理中国海洋资源.ppt VIP
- 纪念与象征——空间中的实体艺术.pptx VIP
- rca医疗案例分析ppt.pptx VIP
文档评论(0)