java大数据教程.docxVIP

下载本文档

6
0
约1.84千字
约 5页
2017-02-05 发布于重庆
举报
版权申诉

java大数据教程.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

java大数据教程

1 数据挖掘数据挖掘（Data Mining，简称DM），是指从大量的数据中，挖掘出未知的且有价值的信息和知识的过程。?2 机器学习与数据挖掘与数据挖掘类似的有一个术语叫做”机器学习“，这两个术语在本质上的区别不大，如果在书店分别购买两本讲数据挖掘和机器学习的书籍，书中大部分内容都是互相重复的。具体来说，小的区别如下：机器学习：更侧重于技术方面和各种算法，一般提到机器学习就会想到语音识别，图像视频识别，机器翻译，无人驾驶等等各种其他的模式识别，甚至于谷歌大脑等AI，这些东西的一个共同点就是极其复杂的算法，所以说机器学习的核心就是各种精妙的算法。数据挖掘：更偏向于“数据”而非算法，而且包括了很多数据的前期处理，用爬虫爬取数据，然后做数据的清洗，数据的整合，数据有效性检测，数据可视化（画图）等等，最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。所以，数据挖掘的范畴要更广泛一些。?3 数据挖掘所覆盖的学科?java大数据教程中数据挖掘是一门交叉学科，覆盖了统计学、计算机程序设计、数学与算法、数据库、机器学习、市场营销、数据可视化等领域的理论和实践成果?4 数据挖掘的误区误区一：算法至上论。认为数据挖据是某些对大量数据操作的算法，这些算法能够自动地发现新的知识。误区二：技术至上论。认为数据挖据必须需要非常高深的分析技能，需要精通高深的数据挖掘算法，需要熟练程序开发设计。这两种认知都有一定的偏颇。实际上，数据挖掘本质上是人们处理商业问题的方法，通过适量的数据挖掘来获得有价值的结果，技术在随着大数据时代的来临变得愈发重要，但是最好的数据挖掘工程师往往是那些熟悉和理解业务的人。?5 数据挖掘能解决什么问题商业上的问题多种多样，例如：“如何能降低用户流失率？”“某个用户是否会响应本次营销活动？“如何细分现有目标市场？“如何制定交叉销售策略以提升销售额？”“如何预测未来销量？”从数据挖掘的角度看，都可以转换为五类问题：分类问题聚类问题回归问题关联分析推荐系统?5.1 分类问题简单来说，就是根据已经分好类的一推数据，分析每一类的潜在特征建立分类模型。对于新数据，可以输出新出具属于每一类的概率。比如主流邮箱都具备的垃圾邮件识别功能：一开始，正常邮件和垃圾邮件都是混合在一起的，如果我们手工去点击哪些是垃圾邮件，逐渐的，垃圾邮件就会自动被识别放到垃圾文件夹。如果我们对于混在正常邮件中的垃圾持续进行判断，系统的识别率就会越来越高。我们人工点击判断，相当于预先分类（两类：垃圾邮件和非垃圾邮件），系统就会自己学习两类邮件的特征建立模式，对于新邮件，会根据模式判断属于每个类别的可能性。?5.2 聚类问题和分类算法是不同概念，但是工作中业务人员经常误用。聚类的的目的也是把数据分类，但类别并不是预先定义的，算法根据“物以类聚”的原则，判断各条数据之间的相似性，相似的就归为一类。比如我有十万消费者的信息数据，比如包括性别，年龄，收入，消费等，通过聚类的方法事可以把这些数据分成不同的群，理论上每群用户内都是相似性较高的，就可以覆盖分群用户制定不同的策略?5.3 回归问题回归问题和分类问题有点类似，但是回归问题中的因变量是一个数值，而分类问题，最终输出的因变量是一个类别。简单理解，就是定义一个因变量，在定义若干自变量，找到一个数学公式，描述自变量和因变量之间的关系。比如，我们要研究房价（Y），然后收集房子距离市中心的距离（X1），面积（X2），收集足够多的房子的数据，就可以建立一个房价和距离、面积的方程式（例如Y=aX1+bX2），这样给出一个新的距离和面积数据，就可以预测这个房子的价格。?5.4 关联分析关联分析主要就是指”购物篮分析“，很有名气案例是【啤酒与尿布】的故事，”据说“这是一个真实的案例：沃尔玛在分析销售记录时，发现啤酒和尿布经常一起被购买，于是他们调整了货架，把两者放在一起，结果真的提升了啤酒的销量。后来还分析背后的原因，说是因为爸爸在给宝宝买尿布的时候，会顺便给自己买点啤酒……所以，关联分析就是基于数据识别产品之间潜在的关联，识别有可能频繁发生的模式。?5.5 推荐系统利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。也就是平时我们在浏览电商网站、视频网站、新闻App中的猜你喜欢、“其他人也购买了XXX”等类似的功能。