- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联探析技术在学生成绩探析中应用
关联分析技术在学生成绩分析中的应用 摘 要:采用Visual Basic对学生管理系统数据仓库进行关联分析,揭示了各科成绩之间的联系,详细描述了关联规则算法及实时优化,分析了使用高维数据结构在关联分析中的优化效果 关键词:数据挖掘;关联分析;高维数据 DOIDOI:10.11907/rjdk.161962 中图分类号:TP391 文献标识码:A 文章编号文章编号2016)011017303 0 引言 互联网及信息技术的发展,产生了大量的历史数据,这些数据迫切需要转换为有用的信息和知识[12],通过这些信息和知识,研究经营管理状况、分析市场、控制生产,发现和挖掘可以改进的地方,甚至预测将来的发展和变化,由此产生数据仓库与数据挖掘技术。数据挖掘是从大型数据库或数据仓库中发现并提取隐藏其中的信息的一种技术,目的是帮助决策者寻找数据间潜在关联,发现被忽略的要素,这些信息对预测趋势和决策十分重要[34]。数据挖掘技术涉及数据库、人工智能(AI)、机器学习和统计分析等多种技术 数据仓库与数据挖掘正越来越多地应用到传统数据库技术领域[5]。本文介绍了一个关联分析技术在教育领域的应用。学生某些课程成绩比较好会导致另外一门或几门课程成绩比较好,对此进行关联分析可得到其对课程偏好之间的联系。本文讨论了经典频繁集算法进行关联分析过程,描述了关联分析中发现多维关联规则方法,分析了使用高维数据结构在关联分析中的优化效果 1 相关数据库结构与分析 学生成绩关联分析数据来自一个学生管理系统数据仓库,数据仓库中包含学生成绩信息和住宿信息等,由于分析的是各科成绩关系,故相关的只有成绩事实表和学生、课程两个维表,表中出生年月、教师、课程类型、学分、籍贯、考试日期等不相关属性可以去掉,相关数据仓库结构如表1、表2、表3所示 2 数据挖掘准备工作 数据预处理包括数据清理、数据集成、数据抽取、数据变换和数据归约。数据清理和数据集成在数据仓库构建过程中已经完成 对预处理后数据进行统计,以直方图表示成绩的分布情况,直方图用分箱的方法来表示数据的近似分布。图1以横坐标表示成绩,纵坐标表示百分比,用Visual Basic 处理数据 从图1可以看出,考试中成绩优秀的只占很小一部分,而成绩及格和中等却占比很大。一般意义上成绩良好也可以说是成绩好,因此将成绩良好和优秀(score=3)都定义为成绩好 3 数据挖掘算法及改进 3.1 关联分析和经典频繁集算法 关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联规则是形如X=Y的规则,支持度为在所有交易集中同时符合X与Y的交易数与所有交易数之比,可信度指在所有交易集中同时符合X与Y的交易数与符合X的交易数之比。关联规则可表示为: 关联分析主要算法有经典频繁集算法和FP-growth等改进算法,本文采用经典频集算法思想对数据进行关联分析。经典频繁集算法思想如下:①找出所有具有超出最小支持度的支持度项集(itemsets),由Apriori算法实现;②利用大项集(litemsets)产生所需规则(rules)。算法实现如下: 3.2 关联分析算法优化 根据上面的归约,分析学生某科(几科)成绩与其它科目成绩关系。把一门课程成绩好(score=3)作为一个项,每个学生的考试可作为一项交易,下面讨论进行关联分析时遇到的问题和解决办法 3.2.1 关联分析问题 由于数据结构关系,本次关联分析遇到以下问题:①经典频繁集算法理论一般只介绍同一字段值之间的关系,而考试成绩分析涉及到课程和成绩两个字段,属于多维关联规则;②课程数量很多(1 000门左右),但大多数课程只有部分学生选修,如果支持度要求太高就得不到有意义的规则,故频繁-1项集也会比较多。数据仓库中每次考试都存储为一条记录,需要过于频繁地扫描数据量巨大的事实表 3.2.2 多维关联规则处理方法和频繁-1项集找寻 为了简化多维关联规则,建立一个频繁项集表,结构如表4所示 3.2.3 交易集表产生和算法优化 如果直接在事实表中搜寻层次为2以上的频繁项集,需对每个学生确认频繁集组合条件是否符合,对每个学生都要扫描记录数巨大的考试事实表数次。为解决此问题,建立了专门的交易集表(也可在学生表中直接加一个字段,但这需要更新数据仓库的学生表,并影响其它分析),表结构见表5 3.2.4 层次较高的频繁集和规则产生 找出频繁-1项集并生成交易集表后,即可依次找出频繁-2项集等层次的频繁集,其中一个2项集由两项频繁-1项集构成,一个 n项集由一个频繁n-1项集和一个频繁-1项集构成。可从频繁项集表中推出构成每个多项集的频
文档评论(0)