- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据导论;第3章 数据采集与预处理;3.1 大数据的来源;2.网络信息系统 基于网络运行的信息系???即网络信息系统是大数据产生的重要方式,如电子商务系统、社交网络、社会媒体、有哪些信誉好的足球投注网站引擎等,都是常见的网络信息系统。网络信息系统产生的大数据多为半结构化或非结构化数据。 在本质上,网络信息系统是信息管理系统的延伸,是专属于某个领域的应用,具备某个特定的目的。 ;3.物联网系统 物联网是新一代信息技术,其核心和基础仍然是互联网,是在互联网基础上延伸和扩展的网络,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信,而其具体实现是通过传感技术获取外界的物理、化学、生物等数据信息。 ;4.科学实验系统 科学实验系统主要用于科学技术研究,可以由真实的实验产生数据,也可以通过模拟方式获取仿真数据。 大数据的数据类型按来源可分为传统商业数据、互联网数据与物联网数据。 ;3.1.1 传统商业数据 传统商业数据是来自于企业ERP系统、各种POS终端及网上支付系统等业务系统的数据,传统商业是主要的数据来源。 3.1.2 互联网数据 这里的互联网数据是指网络空间交互过程中产生的大量数据,包括通信记录及?QQ、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用。 互联网数据具有大量化、多样化、快速化等特点。;1.大量化 在信息化时代背景下,网络空间数据增长迅猛,数据集合规模已实现了从?GB?级到PB级的飞跃,互联网数据则需要通过ZB表示。 2.多样化 互联网数据的类型多样化,包括结构化数据、半结构化数据和非结构化数据。 3.快速化 互联网数据一般以数据流形式快速产生,且具有动态变化的特征,其时效性要求用户必须准确掌握互联网数据流,以更好地利用这些数据。 ; 互联网是大数据信息的主要来源,能够采集什么样的信息、采集到多少信息及哪些类型的信息,直接影响着大数据应用功能最终效果的发挥。信息数据采集需要考虑采集量、采集速度、采集范围和采集类型,信息数据采集速度可以达到秒级甚至还能更快;采集范围涉及微博、论坛、博客,新闻网、电商网站、分类网站等各种网页;采集类型包括文本、数据、URL、图片、视频、音频等。;3.1.3 物联网数据 物联网指在计算机互联网的基础上,利用射频识别、传感器、红外感应器、无线数据通信等技术,构造一个覆盖世界上万事万物的The Internet of??Things,也就是“实现物物相连的互联网络”。其内涵包含两个方面:一是物联网的核心和基础仍是互联网,是在互联网基础之上延伸和扩展的一种网络;二是其用户端延伸和扩展到了任何物品与物品之间。; 物联网的定义:通过射频识别(Radio Frequency IDentification,RFID)装置、传感器、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,以进行信息交换和通信,从而实现智慧化识别、定位、跟踪、监控和管理的一种网络体系。物联网数据是除了人和服务器之外,在射频识别、物品、设备、传感器等节点产生的大量数据,包括射频识别装置、音频采集器、视频采集器、传感器、全球定位设备、办公设备、家用设备和生产设备等产生的数据。; 物联网数据的主要特点如下。 (1)物联网中的数据量更大。 (2)物联网中的数据传输速率更高。 (3)物联网中的数据更加多样化。 (4)物联网对数据真实性的要求更高。;3.2 数据的采集方法;3.2.1 系统日志的采集方法 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Facebook公司的Scribe、Hadoop平台的Chukwa、Cloudera公司的Flume等。这些工具均采用分布式架构,能满足每秒数百兆的日志数据采集和传输需求。;1.Scribe Scribe是Facebook公司开源的日志收集系统,在Facebook公司内部已经得到大量的应用。Scribe可以从各种日志源上收集日志,存储到一个中央存储系统[其可以是网络文件系统(Network File System,NFS)、分布式文件系统等],以便于进行集中的统计分析处理。 Scribe为日志的“分布式收集,统一处理”提供了一个可扩展的、高容错的方案。Scribe架构如图3-1所示。 ;图3-1 Scribe架构;(1)Scribe Agent Scribe Agent实际上是一个Thrift Client,也是向Scribe发送数据的唯一方法。Scribe内部定义了一个Thrift接口,用户使用该接口将数据发送给不同的对象。Scribe Agent发送的每条数据记录包含一个种
文档评论(0)