- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【大数据分析分享系列】
之数据挖掘和统计名词汇总
目 录
一、数据挖掘术语 1
二、统计名词 2
三、其他 10
一、数据挖掘术语
【算法】指的是用于实现某一数据挖掘技术-如分类树、辨识分析等等的特定程
序。
【属性】也被称为“特性”、“变量”、或者从数据库的观点,是一个 “域” 。
【个体】是关于一个单元的测量值的集合――例如一个人的身高、体重、年龄等
等;它也被称作 “记录”、 或 者 “行” (每一行通常代表一个记录,每一列代
表一个变量)。
【置信度】在形如“如果买了 A 和 B,就要买 C”的关联法则里有特定的含义。
置信度是已经买了 A 和 B,还要买 C 的条件概率。
【因变量】在有约束学习里是那个被预测的变量;也被称作“输出变量”、 “目
标变量”、或者 “结果变量”
【估计】指的是预测一个连续型输出变量的值;也被称作“预测”。
【特征】也被称作“属性”、 “变量”,或者从数据库的观点,称为 “域”。
【输入变量】是在有约束学习里作预测的变量;也被称作“自变量”、 “预测变
量”。
【模型】通常指的是一个数学公式,包括为它设置的参数(许多模型具有用户可
以调节的参数)。
【结果变量】在有约束学习里是那个被预测的变量;也被称作 “因变量” “输
出变量”、 “目标变量”、或者 “输出变量”。
【P(A|B)】读作 “已知B 已经发生,A 将发生的概率”
【预测】指的是预测一个连续输出变量的值;也被称作“估计”。
1
【记录】是关于一个单元的测量值的集合-例如一个人的身高、体重、年龄等等;
它也被称作 “个体”、或者 “排” (每一排通常代表一个记录,每一列代表一个
变量)。
【分数】指的是一个估计的值或者类。
【给新数据打分】意思是利用用训练数据得出的模型预测新数据里的输出值。
二、统计名词
【统计】就是“统而计之”对所考察事物的量的取值在其出现的全部范围内作总
体的把握,全局性的认识。
【教育统计】对教育领域各种现象量的取值从总体上的把握与认识,它是为教育
工作的良好进行,科学管理、革新发展服务的。
【教育统计学】社会科学中的一门应用统计,是数理统计跟教育学、心理学交叉
结合产物
【测量】按一定规则给对象在某种性质的量尺上指定值。
【教育测量】就是给所考察研究的教育现象,按一定的规则在某种性质量尺上指
定值
【心理量表】心理测验工具与常模的结合
【数据】用数量或数字形式表示的资料事实称为数据。
【计数数据】是以计算个数或次数获得的,多表现为整数。
【测量评估数据】借助测量工具或评估方法对事物的某种属性指派给数字后所获
数据。人工编码数据以人们按一定规则给不同类别的事物指派适当的数字号码后
所形成的数据
2
【称名变量】只说明某一事物与其他事物在名称、类别或属性上的不同,并不说
明事物与事物之间差异的大小、顺序的先后及质的优劣。
【顺序变量】是指可以就事物的某一属性的多少或大小按次序将各事物加以排列
的变量,具有等级性和次序性的特点。
【等距变量】除能表明量的相对大小外,还具有相等的单位。
【比率变量】除了具有量的大小、相等单位外,还有绝对零点。比率变量数据可
以进行加、减、乘、除运算
【次数分布】一批数据中各个不同数值所出现次数多少的情况,或者是这批数据
在数轴上各个区间内所出现的次数多少的情况。
【简单次数分布表】通常简称为次数分布表,其实质是反映一批数据在各等距区
组内的次数分布结构。
【相对次数】各组的次数f 与总次数 N 之间的比值
【次数分布曲线】从理论上讲,如若总次数无限增大,则随着组距的缩小,这些
折线所接近的极限便将成为极光滑而富有规则性的曲线,称为次数分布曲线
【散点图】用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联
系模式。散点图适合于描述二元变量的观测数据。
【线形图】以起伏的折线来表示某种事物的发展变化及演变趋势的统计图,适用
于描述某种事物在时间序列上的变化趋势,也适用于描述一种事物随另一事物发
展变化的趋势模式,还可适用于比较不同的人物团体在同一心理或教育现象上的
变化特征及相互联系
【观测数据不仅具有离散性的特点
您可能关注的文档
- (播放版)第14章线性动态电路复频域分析.ppt
- (精)2011年必威体育精装版英语四级词汇和重点词汇.doc
- (课标版)2011年高考政治一轮复习精品课件:经济生活 第八课 财政与税收.ppt
- (新)CDS伺服系统双轴自动进给专用调机步序三轴.doc
- [分布式电源并网系统研究].pdf
- [贵州]矿山机电设备交易综合市场评估报告.doc
- [王府井大饭店]BIM在王府井大饭店改造机电安装工程中应用(定).doc
- _电力系统分析_暂态_中同步发电机部分教案.pdf
- “S”特性对可逆式机组低水头发电并网影响分析及对策.pdf
- “单耗分析”中经济因素处理.pdf
- 【高中地理】城市化过程中问题及解决途径.ppt
- 【好】人教版四年级上册《估算》课件.ppt
- 【金版教程】2015届高考物理大一轮总复习 热点专题突破 八法求解直线运动问题课件.ppt
- 【聚集高考】2014高三物理一轮复习《对点训练+通关训练》:专题10 电磁感应.doc
- 【楼宇自动化与节能】 某火车站房基于环网冗余以太网架构设备监控系统.pdf
- 【名师一号】2011届高考物理一轮复习 第七章 机械振动和机械波(B卷)单元检测卷.doc
- 【强烈推荐】高考物理复习资料大全第九章__电磁感应.doc
- 【人教版三维设计】2011年高考地理一轮复习:第28讲交通与通信、商贸.doc
- 【物理】2011届高考模拟试卷分类汇编:电磁感应.doc
- 【优化方案】2012高三地理一轮复习 第六单元第24讲城市化和城市化过程中问题及解决途径课件.ppt
最近下载
- 年产30万吨甲醇工艺设计方案.doc VIP
- 2025年6月南昌市建设投资集团有限公司招聘31人笔试备考试题及答案解析.docx VIP
- 医院药学副高精品试题.docx VIP
- 2024版年度绘本故事《小猪变形记》 .pdf VIP
- 贯彻八项规定自查报告 贯彻落实中央八项规定精神情况自查报告word版.pdf VIP
- DBL_5307_2008-03 国家行业标准规范.pdf VIP
- 2025年6月南昌市建设投资集团有限公司招聘31人笔试备考题库附答案解析.docx VIP
- AQ3025-2008《化学品生产单位高处作业安全规范》0.pdf VIP
- 2024版年度绘本故事《小猪变形记》 .pdf VIP
- 贯彻八项规定自查报告贯彻落实中央八项规定精神情况自查报告word版.doc VIP
文档评论(0)