- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析与R语言
数据分析与R语言
数据挖掘
数据挖掘是以查找隐藏在数据中的信息为目的的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关系,并且向用户显示这些关联。
数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习。
常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等
例:啤酒与尿布的故事。
例:《Science》的文章《科学家摸索出大型数据集内的趋势》
展现层:报表与图形
老土的报表
展现层
常见的报表
展现层
一些有趣的图表
展现层
某条微博的扩散路径
展现层
Mr Android
根据信息图显示,Android先生的头发有47%的可能是黑色的,戴眼镜的几率为37%,有36%的可能是北美人,30%的可能脸上长雀斑,71%的时间会穿T恤,62%的人喜欢穿牛仔裤,工作只占了38%,玩游戏却占了62%,平均每个月会用掉582MB的数据流量。
展现层
Mr Android
展现层
网站点击“热力图”
R
R的起源
R是S语言的一种实现。S语言是由ATT贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的RobertGentleman和Ross Ihaka及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。
R
R的特点
有效的数据处理和保存机制。
拥有一整套数组和矩阵的操作运算符。
一系列连贯而又完整的数据分析中间工具。
图形统计可以对数据直接进行分析和显示,可用于多种图形设备。
一种相当完善、简洁和高效的程序设计语言。它包括条件语句、循环语句、用户自定义的递归函数以及输入输出接口。
R语言是彻底面向对象的统计编程语言。
R语言和其他编程语言、数据库之间有很好的接口。
R语言是自由软件,可以放心地使用,但其功能却不比任何其它同类软件差。
R语言具有丰富的网上资源。
R
商业版本的R
Revolution R (官网:/)
很多大型厂商也在开始推出自己的R或兼容R的产品,例如Oracle、IBM、Sybase
创建向量和矩阵
函数c( ), length( ), mode( ), rbind( ), cbind( )
x1=c(2,4,6,8,0)
x2=c(1,3,5,7,9)
length(x1)
mode(x1)
x1
x1[3]
al=c(1:100)
length(al)
rbind(x1,x2)
cbind(x1,x2)
m1=rbind(x1,x2)
m1
语句:
结果:
求平均值,和,连乘,最值,方差,标准差
函数mean( ), sum( ), min( ), max( ), var( ), sd( ), prod( )
x=c(1:100)
mean(x)
sum(x)
max(x)
min(x)
var(X)
var(x)
prod(x)
sd(x)
语句:
结果:
注:R语言是区分大小写的。
寻求帮助
函数help( )
help(prod)
产生向量
1:10
1:10-1
1:10*2
2:60*2-1
a=2:60*2+1
a
a[5]
a[-5]
语句:
结果:
产生向量
a[1:5]
a[-(1:5)]
a[1,2,3]
a[c(1,2,3)]
a[3:8]
a[a20]
a[a30 a50]
a[a(3)]
语句:
结果:
生成矩阵
a1=c(1:12)
matrix(a1,nrow=3,ncol=4)
matrix(a1,nrow=4,ncol=3)
matrix(a1,nrow=3,ncol=4,byrow=T)
语句:
结果:
函数matrix( )
数据的R语言表示-数据框
x1=c(10,13,45,26,23,12,24,78,23,43,31,56)
x2=c(20,65,32,32,27,87,60,13,42,51,77,35)
x=data.frame(x1,x2)
x
语句:
结果:
矩阵形式,但列可以不同数据类型
每列是一个变量,每行是一个观测值
散点点图
plot(x)
语句:
结果:
函数plot( )
综合性例子
模拟产生统计专业同学的名单(学号区分),记录数学分析,线性代数,概率统计三科成绩,然后进行一些统计分析
语句:
结果:
num=seq10378100)
num
模拟成绩
用runif和rnorm
语句:
结果:
x1=round(runif(100,min=80,max=100))
x2=round(rnorm(100,mean=80,sd=7))
注:round是四舍五入函数。Runif是均匀分布函数
您可能关注的文档
最近下载
- 护理三基三严测试题(含答案).docx VIP
- 附件:《福建省房建工程质量易发问题防治手册》(主体结构篇).pdf VIP
- 外研版高三英语一轮复习必修第一册Unit4 Friends forever课件.ppt VIP
- 启功书法《论书绝句百首》全集.pdf VIP
- 廉洁进校园知识竞赛参考题库200题(含答案).docx VIP
- 《中药药理学》课件第一讲详解.ppt VIP
- 精【基恩士】LR——W500——C使用说明书——简体中文.pdf VIP
- 2026《衡中学案》高考一轮总复习 英语(外研版) 必修第一册 Unit 4 Friends forever.pptx VIP
- 电子标准院:中小企业特色产业集群发展情况报告(2024).pdf VIP
- Q SQR S1-16-2012(X1)内饰件油漆涂层.pdf VIP
文档评论(0)