大数据分析与计算习题答案.pdfVIP

下载本文档

1126
4
约4.63万字
约 38页
2020-03-16 发布于广东
举报
版权申诉

大数据分析与计算习题答案.pdf

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据分析与计算问题解答第1 章绪论 1. 数据(data)、信息(information)、知识(knowledge)与价值(value)这四个词在信息科学中既相关联、又具有不同的含义。请举例说明四个概念的关联与区别。参考答案：数据体现的是一种过程、状态或结果的记录，这类记录数字化（digitalized）后可以被计算机存储和处理。信息则是包含在数据之中的能够为人脑理解和思维推理和结论，比如，0110010101101100 00100000011011110110110000100001 是一串二进制数值，是一组能被计算机识别、存储和处理的数据。经计算机程序识别转换（ASCII 码值字符转换），我们知道它代表“Hello world ！”这样一个字符串，包含了向世界问好的特殊信息。更进一步，在计算机编程语言世界，Hello world ！实际上是一个约定俗成的机器或程序语言启动显示语句，这就上升为了知识。最终，如果有人把这一固有的显示方法拿去注册了专利并因此获利，于是就产生了价值。 2. 数据科学家的主要知识技能包括哪几方面？参考答案：数据科学家的主要知识技能包括如下学科领域（按重要性依次排列）：统计学数学计算机科学机器学习数据可视化沟通能力行业知识 3. 阐述大数据的四大基本特征？参考答案：4V (Volume, Velocity, Variety and Value)特性 1）大数据的超大规模 (Volume)特点使得它处理的数据量级超过了传统的GB 规模，达到了PB 甚至更高量级。超大规模的数据量对数据存储架构、计算模型和应用软件系统都提出了全新的挑战。在后面可以看到，传统的基于行键(row key) 表格存储格式的关系型数据库（RDBS）已很难适应大数据海量存储和快速检索查询的需要，基于分布式文件系统的分布式数据库设计越来越多地用于大数据存储与管理系统。 2）Velocity 特征意指大数据的计算处理速度是其可用性、效益性的一个重要衡量指标。 3）Variety 特征指大数据来源、种类的多样性、异构性。大数据的类型按照其结构特征可以分为结构化/半结构化/非结构化数据；按时效性又可分为离线非实时数据/在线实时数据。 4）大数据的Value 特点是指它的价值低密度、或者说碎片数据毫无价值但大规模整体数据就体现价值的特性。 4. 大数据计算与传统统计学方法的差别？参考答案：传统统计学是对样本空间基于独立同分布(independent and identically distributed)原理随机抽取一个样本集进行统计分析，而大数据计算是以样本空间整体或完整数据集（也可能不是完整数据集，而只是研究者手中现在掌握的全部数据）作为计算对象。统计研究者记录下样本的观察数据，根据样本特征推断总体的情况。采样的方法多种多样，有些采样方法会存在偏差，使得样本失真，而不能被视为一个缩小版的总体，去推断总体的特征。当这种情况发生时，基于样本分析所推断出来的结论常常是失真或完全错误的。”这表明传统统计分析方法的正确性和可信性很大程度上依赖于所选取样本集对整个样本空间的代表性，而这不是一个容易的任务。大数据计算可以处理整个数据集（或研究者手中现在掌握的全部数据），这就避免了只计算一个数据子集（样本集）带来的难题，而可以专注于改进计算模型和算法来提高计算结果的可靠性。传统统计分析所采用的计算公式或方法是固定的，即统计学家首先建立一个确定的数学模型，再通过选定的样本集测算模型的参数，然后用这个模型去预测总体空间的结果。在这一过程中，所采用的数学模型是确定的、不变的。大数据计算则主要采用机器学习方法(machine learning)，其特点是预测结果的精度改进是一个动态过程，需要一定规模的数据计算来训练和改进预测算法 (prediction algorithm)，这与统计学一开始就确定数学模型不同。具体而言，机器学习是从输入数据中学习(learning)或训练(training)预测算法，通过训练数据集(training set)的大量计算来改进预测算法的性能，使其逐步逼近正确的结果。这一过程中另有一个学习算法(learning algorithm)来控制对预测模型的改进和测试。显然