- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于改进的C4.5算法在成绩分析中的应用.doc
基于改进的C4.5算法在成绩分析中的应用
摘要:该文介绍了数据挖掘中的一种改进的C4.5算法,简化了原C4.5算法中复杂的对数运算问题。并将该C4.5算法应用于《网站建设管理与维护》的成绩分析中,为教学提供相应的指导。
关键字:数据挖掘;改进的C4.5
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)27-0164-03
数据挖掘(Data Mining) 是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则[1]。随着高校信息化的推进,仅是简单统计成绩分布的需求已不能满足当前教学的需要,如何从庞大的教学数据中提取出有价值的知识,用于指导并提高教学,成为了当今大数据时代所关注的焦点。数据分类算法是数据挖掘中最重要的技术之一。决策树作为一种重要的数据分类方法,它能从一组没有任何关联的数据中寻找出它们的分类规则,并利用这些规则对这组数据以外的相似数据进行分类或预测。常见的决策树算法有:CART、ID3、C4.5等[2]。其中:C4.5算法是通过信息增益率进而进行属性的选择,可以支持对连续值和空缺值属性的处理。然而C4.5算法的缺点在于:在计算每个属性的信息量的时候,都需要用到对数函数来进行计算,由此增加了许多计算的时间和复杂度。因此,本文找到一种对C4.5进行改进的算法,来尽可能少地减少计算量,从而加快树的生成速度。
1 改进的C4.5算法
2 改进C4.5算法在成绩分析中的应用举例
《网站建设管理与维护》作为高职院校大三计算机专业实训课程,是将之前所学专业知识应用于网站实际开发中的综合技能的检验与提升。应用改进的C4.5算法来找出影响《网站建设管理与维护》的成绩因素,对教与学而言都起着重要的作用。
1) 数据采集
根据本门课程的特点,本次研究所采集的数据来自两个部分:一部分源自于学校教务管理系统中的学生基本信息以及与《网站建设管理与维护》这门课相关的前导课程的成绩数据。它们为:学号、姓名、性别、《ASP.net》、《Web编程基础(DW,div,css,ajax+HTML+JS)》、《XML Web Service开发》、《ADO.NET2.0》、《网站建设管理与维护》成绩。另一部分数据来自于学生问卷调查表的结果。包括:本课程兴趣程度、本课程课外所花时间。第三部分数据是由授课老师所提供学生本门课程的出勤率。本次共采集了1220条数据。
2) 数据集成
数据挖掘一般都需要涉及多个数据源的数据。数据集成是将多个数据源中的数据结合起来,存于统一的数据表中。根据上一步所采集到的数据,以学生的“学号”为主键,将它们汇总在一起。
3) 数据清理
数据清理目的是去除数据中存在的噪声。针对第2) 步收集成好的数据表,发现其中有些学生的某些成绩存在缺考的情况,则将它们直接删除。
4) 数据归约
数据归约是在原数据集的各属性中,选取与本次的挖掘任务关系密切的属性。因此,在第1)步所采集到的各成绩属性中,由于我们不是要研究某个前导课程对《网站建设管理与维护》这门课程成绩的影响,而是想了解学生之前所学的前导课程的总体学习情况对本门课程的影响程度。因此,对第1)步所采集到《ASP.net》、《Web编程基础(DW,div,css,ajax+HTML+JS)》、《XML Web Service开发》、《ADO.NET2.0》这几门前导课程的成绩取平均值,形成“前导课程学习情况”列的数据。并将“学号、姓名、性别”这些相关度较小的属性删除。最后构建的相关属性表如下表1所示:
5) 数据泛化
将“前导课程学习情况”所获得的成绩泛化为:85以上的为“优”,84~70分的为“良”,60~69分的为“中”,60以下的为“差”。由于前导课程60以下的,在《网站建设管理与维护》这门课最后的成绩基本也为不及格,对本次挖掘没有实质性意义,故将“前导课程学习情况”不及格的这部分数据删除。然后以“《网站建设管理与维护》成绩”为本次挖掘任务的类别属性,规定:成绩中大于60分的为“合格”,小于60分的为“不合格”。最后所得到的数据共1170条。数据表的各属性如下表2所示:
6) 利用改进的C4.5算法生成决策树
在表2中,以“前导课程学习情况”、“本课程到课率”“本课程兴趣程度”、“本课程课外所花时间”四个属性为决策属性,以“成绩”为类别标识属性。根据改进C4.5算法所得到的公式(1-7)、(1-8)、(1-9),计算各个决策属性的信息熵,信息量和信息增益率,以“前导课程学习情况”为例,计算如下:
7) 从决策树提取分类规则
从上图2-1中提取出如下的分类规则,其中成绩“合格”的为:
文档评论(0)