数据挖掘者眼中的SQL.PDFVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘者眼中的SQL

第 1 章 数据挖掘者眼中的 SQL 数据收集一直都在发生。每一件事务、每一次网页浏览、每一次支付以及更多其他信 息都正在以原始数据的形式存储于数据库及相关的类似存储中。计算能力和存储的性价比 已经越来越高,今天的智能手机甚至比往年的超级电脑更强大,这已经是一种趋势。数据 库不再是数据排序的平台;在将数据转换为关于客户、产品、业务实践相关的有用信息时, 数据库是强大的数据转换引擎。 对于数据挖掘的关注起源于统计学家和机器自学专家对复杂算法的开发。曾经,研究 数据挖掘需要从研究所或大学下载源代码,编译代码并使之运行,有时甚至需要对代码进 行调试。当数据和软件准备好时,业务上的问题早已不再紧急。 本书以数据开始,因此使用了不同的方法。每天有数以亿万计的事务发生——信用卡 刷卡、网页浏览、电话等——这些事务通常都存储于关系型数据库中。在业务世界里,关 系型数据库引擎可以被认为是最强大、最复杂的软件产品,而关系型数据库的通用语言则 是 SQL。 本书的重点更多侧重于数据和如何处理数据,较少侧重于理论。相比于从简单的示例 中提取每一个细微信息——多数统计分析的目标——本书的目标是从吉字节和太字节的业 务数据中抓取有用信息。相对于要求程序员学习数据分析,本书旨在为数据分析者和其他 人使用 SQL 从数据中学习奠定坚实的基础。 本书致力于通过描述使用 SQL 和 Excel 的强大数据分析功能,帮助所有人解决如何分 析大型数据中数据的问题。SQL,即结构化查询语言,是从数据中提取数据的语言。Excel 是分析少量数据并能够展示结果的流行且有用的电子数据表格。 本书中的大量章节用于介绍关于 SQL 查询和以图表展示结果集的技巧。纵观全书,从 基础的表查询到数据拓展,SQL 查询被应用于越来越复杂的分析中。这些章节还介绍了理 解从时间到事件的问题(time-to-event problem) 的不同方法,例如,客户什么时候停止,以 及用于理解客户购买内容的市场分析。数据分析经常有关创建模型,并且有些模型可以直 2 数据分析技术(第 2 版)——使用 SQL 和 Excel 工具 接在 SQL 中创建(详见第 11 章“SQL 中的数据挖掘”)——这可能会使多数读者感到惊讶。 任何分析的重要一步,就是为建模构建可用格式的数据——客户签名。 最后一章由分析转到讨论性能。该章是对在不同表之间做查询的良好性能主题的综述。 本章介绍用来做数据分析和数据挖掘的 SQL。不可否认,该介绍严重偏向于查询数据, 而非建立和管理数据。从三个不同的方面介绍 SQL,有些方面可能会与不同的读者产生强 烈的共鸣。第一个方面是介绍数据的结构,着重强调实体关系型图表。第二个方面是使用 数据流处理数据,这也是多数关系型数据库引擎中的“底层实现”。第三方面是后续章节的 主要思路,介绍 SQL 自身的语法。尽管通过关系和实体详细地描述了数据,并以数据流进 行处理,但最终目的是在 SQL 中实现数据转换并通过Excel 展示结果。 1.1 数据库、SQL 和大数据 收集和分析数据是一项主要任务,很多工具也由此而生。这些工具中,有些侧重于“大 数据”(暂且忽略它的意思) ,有些侧重于持续快速地存储数据,有些侧重于深度分析,有 些有非常直观的操作界面;其他的则是编程语言。 SQL 和关系型数据库这对组合,在做分析时,是这些工具中的强大组合,特别是对于 特定的分析,这对组合: ● 是访问数据的成熟且标准化的语言 ● 拥有多个供应商,包括开源 ● 扩展性可以涵盖广泛的硬件范围 ● 拥有用于操作数据的非编程的操作界面 在继续介绍 SQL 之前,了解 SQL 在其他环境中的作用是很有价值的。 1.1.1 什么是大数据? 在过去的时间里,大数据的定义几经变化。在 19 世纪,最初发明统计学时,研究者 只处理几十或几百条数据。这看起来并不多,但如果是使用铅笔和纸张来完成,并通过使 用计算尺手动做除法,那就是很多的数据了。 大数据的概念总是相对的,至少在数据处理被发明以前是这样的。与以前不同的是, 现在的数据都以吉字节和太字节来估量——字节数量足以存下国会图书馆中的所有书 籍——而且我们能够容易地随身携带这些数据。好消息是分析“大数据”时,不再

文档评论(0)

ldj215322 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档