- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析与计算问题解答 第1 章绪论 1. 数据(data)、信息(information)、知识(knowledge)与价值(value)这四个词 在信息科学中既相关联、又具有不同的含义。请举例说明四个概念的关联与区别。 参考答案:数据体现的是一种过程、状态或结果的记录,这类记录数字化 (digitalized)后可以被计算机存储和处理。信息则是包含在数据之中的能够 为人脑理解和思维推理和结论,比如,0110010101101100 00100000011011110110110000100001 是一串二进制数值,是一组能被计算机识别、存储和处理的数据。经计算机程序 识别转换(ASCII 码值字符转换),我们知道它代表“Hello world !”这样一个 字符串,包含了向世界问好的特殊信息。更进一步,在计算机编程语言世界,Hello world !实际上是一个约定俗成的机器或程序语言启动显示语句,这就上升为了 知识。最终,如果有人把这一固有的显示方法拿去注册了专利并因此获利,于是 就产生了价值。 2. 数据科学家的主要知识技能包括哪几方面? 参考答案:数据科学家的主要知识技能包括如下学科领域(按重要性依次排列): 统计学 数学 计算机科学 机器学习 数据可视化 沟通能力 行业知识 3. 阐述大数据的四大基本特征? 参考答案:4V (Volume, Velocity, Variety and Value)特性 1)大数据的超大规模 (Volume)特点使得它处理的数据量级超过了传统的GB 规 模,达到了PB 甚至更高量级。超大规模的数据量对数据存储架构、计算模型和 应用软件系统都提出了全新的挑战。在后面可以看到,传统的基于行键(row key) 表格存储格式的关系型数据库(RDBS)已很难适应大数据海量存储和快速检索查 询的需要,基于分布式文件系统的分布式数据库设计越来越多地用于大数据存储 与管理系统。 2)Velocity 特征意指大数据的计算处理速度是其可用性、效益性的一个重要衡 量指标。 3)Variety 特征指大数据来源、种类的多样性、异构性。大数据的类型按照其 结构特征可以分为结构化/半结构化/非结构化数据;按时效性又可分为离线非实 时数据/在线实时数据。 4)大数据的Value 特点是指它的价值低密度、或者说碎片数据毫无价值但大规 模整体数据就体现价值的特性。 4. 大数据计算与传统统计学方法的差别? 参考答案:传统统计学是对样本空间基于独立同分布(independent and identically distributed)原理随机抽取一个样本集进行统计分析,而大数据计 算是以样本空间整体或完整数据集(也可能不是完整数据集,而只是研究者手中 现在掌握的全部数据)作为计算对象。 统计研究者记录下样本的观察数据,根据样本特征推断总体的情况。采样的 方法多种多样,有些采样方法会存在偏差,使得样本失真,而不能被视为一个缩 小版的总体,去推断总体的特征。当这种情况发生时,基于样本分析所推断出来 的结论常常是失真或完全错误的。”这表明传统统计分析方法的正确性和可信性 很大程度上依赖于所选取样本集对整个样本空间的代表性,而这不是一个容易的 任务。 大数据计算可以处理整个数据集(或研究者手中现在掌握的全部数据),这 就避免了只计算一个数据子集(样本集)带来的难题,而可以专注于改进计算模 型和算法来提高计算结果的可靠性。 传统统计分析所采用的计算公式或方法是固定的,即统计学家首先建立一个 确定的数学模型,再通过选定的样本集测算模型的参数,然后用这个模型去预测 总体空间的结果。在这一过程中,所采用的数学模型是确定的、不变的。 大数据计算则主要采用机器学习方法(machine learning),其特点是预测结 果的精度改进是一个动态过程,需要一定规模的数据计算来训练和改进预测算法 (prediction algorithm),这与统计学一开始就确定数学模型不同。具体而言, 机器学习是从输入数据中学习(learning)或训练(training)预测算法,通过训练 数据集(training set)的大量计算来改进预测算法的性能,使其逐步逼近正确的 结果。这一过程中另有一个学习算法(learning algorithm)来控制对预测模型的 改进和测试。显然
您可能关注的文档
- 系统分析与设计_管理.pdf
- 第4讲 词法分析器的设计--状态转换图.pdf
- 灵活就业版劳动合同(兼职产品经理)签订协议 (2).docx
- 2025年中国电磁紧急切断阀行业市场规模及未来投资方向研究报告.docx
- 2026-2031年中国木门软件行业市场发展趋势与前景展望战略研究报告.docx
- 文物修复师职业技能测试全攻略与规划.docx
- 3C锂电池生产线项目建筑工程方案.docx
- 产品研发过程质量控制检查表模板.doc
- 2025年新能源行业新能源产业创新驱动与服务模式研究报告.docx
- 2025年乳制品低温奶产品创新与市场差异化.docx
- 2025年工业化豆制品生产成本控制与优化报告.docx
- 2026-2031年中国木棉行业市场发展趋势与前景展望战略研究报告.docx
- 农产品进口贸易合同实训教程.pptx
- 光伏支架材料创新引领,2025年抗风性能提升解决方案报告.docx
- 《2025年游戏软件行业深度分析:国产游戏出海市场机遇与云游戏技术优化前景》.docx
- 房屋租赁代理合同(代理机构与租户专用范本).docx
- 2025年中国电磁流量计市场发展策略及投资潜力可行性预测报告.docx
- 2025年数字人民币在餐饮零售场景落地实施方案.docx
- 《2025年智能网联汽车操作系统技术发展趋势报告》.docx
- 日记谷雨450字(14篇).docx
有哪些信誉好的足球投注网站
文档评论(0)