西安交大数据挖掘第一次作业.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第一次作业

WeihuaWang

给出一个例子,其中数据挖掘对于商务的成功是至关重要的。该商务需要什么数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?

答:亚马逊在线交易平台上的数据挖掘,显示出数据挖掘对于商务的成功是至关重要的。该商务需要统计交易用户的消费信息,对用户进行分类;根据用户的历史消费信息,给出推荐广告,并定期往用户邮箱发送商品推荐邮件等等。

该商务应用了关联规那么数据挖掘功能。

数据挖掘是一个非常重要且复杂的模块,要发现数据间的关联规那么,不可能通过简单的数据查询处理或者简单的统计分析实现。亚马逊有非常大的数据库,然后也会有各种各样的数据分析包括会跟很多的出版社还有一些中间商建立合作,然后会帮助他们去做书籍的整理、销售,就是客户满意度。所以,数据量很大,然后亚马逊还需要通过这些数据去挖掘一些对于客户,对于用户有指导性的数据,他们建立的复杂的系统去分析这些数据。

使用你熟悉的生活中的数据库,给出关联规那么挖掘、序列模式分析、分类、聚类、孤立点分析等数据挖掘功能的例子。

关联规那么挖掘

超市货架的商品摆放:方便面---火腿肠〔大局部人买方便面的同时会买火腿肠〕。

序列模式分析

可口可乐公司根据往年月份销售额的分析,给出不同季节的生产量。

分类

移动公司根据用户的话费和缴费情况等信息,将用户分为不同的等级的用户,给予不同的透支欠费额度。

聚类

研究人员通过对全国各省份经济的分析,将全国经济大致划分为三种不同的经济类型。

孤立点分析

税务部门根据纳税户的相关数据,重点调查孤立点的纳税情况。

与挖掘少量数据相比,挖掘海量数据的挑战有哪些?

规模大。需要高效算法,进行并行处理。

高维特征。导致有哪些信誉好的足球投注网站空间指数级增长,需要更好的算法进行维度约减。

过拟合。因过分强调对训练样本的效果导致过度拟合,使得对未知预测样本效果就会变差。

动态、缺失、噪音数据的存在。

领域知识的运用。

模式的可理解性。

假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:

计算age和%fat的均值、中位数和标准差。

绘制age和%fat的盒图。

age:Q1=39,Q3=57,IQR=57-39=18,1.5IQR=27,

(39-27,57+27)=(12,84)

%fat:Q1=26.5,Q3=34.1,IQR=34.1-26.5=7.6,1.5IQR=11.4,

(26.5-11.4,34.1+11.4)=(15.1,45.5)

绘制基于这两个变量的散点图和q-q图。

散点图:

q-q图:

文档评论(0)

liuzhouzhong + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档