- 1、本文档共59页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 大数据采集;数据采集基础;;利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。;数据采集基础;传统数据采集;大数据采集;大数据采集;大数据采集;大数据收集;;大数据采集架构;大数据采集架构;大数据采集架构;大数据采集架构;大数据采集架构;;互联网数据中沉淀着大量能反映用户偏好倾向、事件趋势等的相关信息。更重要的是,互联网数据均是以共享和开放的形式存放于互联网中的,因此互联网数据采集的成本较低。常用的数据采集方式为APP端数据采集和web端数据采集。;APP端数据收集;APP端数据收集;APP端数据收集;APP端数据收集;网络爬虫技术;网络爬虫技术;网络爬虫技术;网络爬虫工作流程共4步,分别是
第三步:从待抓取URL队列中取出待抓取URL,解析DNS,并且得到主机的ip地址,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。;网络爬虫工作流程共4步,分别是
第四步:分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。;抓取策略;在爬虫系统中,待抓取URL队列是很重要的一部分。同时待抓取URL队列中的URL排序也是一个很重要的问题。网络爬虫的抓取策略是指在网络爬虫系统中决定URL在待抓取URL队列中排序顺序的方法。;在爬虫系统中,待抓取URL队列是很重要的一部分。同时待抓取URL队列中的URL排序也是一个很重要的问题。网络爬虫的抓取策略是指在网络爬虫系统中决定URL在待抓取URL队列中排序顺序的方法。;在爬虫系统中,待抓取URL队列是很重要的一部分。同时待抓取URL队列中的URL排序也是一个很重要的问题。网络爬虫的抓取策略是指在网络爬虫系统中决定URL在待抓取URL队列中排序顺序的方法。;在爬虫系统中,待抓取URL队列是很重要的一部分。同时待抓取URL队列中的URL排序也是一个很重要的问题。网络爬虫的抓取策略是指在网络爬虫系统中决定URL在待抓取URL队列中排序顺序的方法。;互联网中的网页信息经常更新,而网络爬虫程序须在网页更新后,对这些网页进行重新爬取。常见的网页更新策略包括用户体验策略、历史数据策略以及聚类分析策略等。;??联网中的网页信息经常更新,而网络爬虫程序须在网页更新后,对这些网页进行重新爬取。常见的网页更新策略包括用户体验策略、历史数据策略以及聚类分析策略等。;按网络爬虫功能可以分为批量型爬虫、增量型爬虫和垂直型爬虫三类。;按网络爬虫系统结构和实现技术可以分为通用网络爬虫、聚焦网络爬虫、深层网络爬虫、分布式网络爬虫等方法。;按网络爬虫系统结构和实现技术可以分为通用网络爬虫、聚焦网络爬虫、深层网络爬虫、分布式网络爬虫等方法;网络爬虫技术;按网络爬虫系统结构和实现技术可以分为通用网络爬虫、聚焦网络爬虫、深层网络爬虫、分布式网络爬虫等方法;按网络爬虫系统结构和实现技术可以分为通用网络爬虫、聚焦网络爬虫、深层网络爬虫、分布式网络爬虫等方法;b)对等式:
hash算法:分配待抓取的URL至不同的服务器
抓取服务器:负责实际的网页下载工作,;文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。
中文分词也称为切分,是将中文文本分割成若干个独立、有意义的基本单位的过程。中文分词的准确度会直接影响有哪些信誉好的足球投注网站结果的相关度排序。
分词算法的基本原理是根据输入的字符串文本进行分词处理、过滤处理,然后输出分词后的结果,包括英文单词、中文单词以及数字串等一系列切分好的字符串。;现有的中文分词方法可分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。;现有的中文分词方法可分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。;现有的中文分词方法可分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。;文本数据处理;1. 词典:
chas.dic(汉字字典)
units.dic(中文单位词语)
words..dic(自定义词典): 存储自定义词条,作为新名词、专有词的判断。;2. 匹配算法
简单最大匹配:从待分词文本的左边开始,列出所有可能的分词结果。;
“研究大数据”的复杂最大匹配算法的分词结果为:
研|究|大
研|究|大数
研究|大|数
研究|大|数据
研究|大数|据
研究大|数|据
…;3. 消除歧义
MMSEG词算法根据汉语语言的基本成词习惯提出了四个规则进行过滤,直到只有一种结果或者第四个规则使用完毕。这四种规则为:
规则1: 备选词组合的最大匹配规则(maximun matching)
规则2: 备选词组合的平均词长最大规则(largest average word length)。
规则3: 备选词组合的词长变化最小规
文档评论(0)