- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘分类算法研究及应用论文
摘要
摘 要
数据挖掘技术是机器学习、数据库和统计理论相结合的产物,是从大量的、不
完全的、有噪声的、模糊的、随机的实际数据中,提取隐含的、先前未知的并有潜
在价值的信息的非平凡过程。在数据挖掘领域中,分类问题是数据挖掘技术中的主
要研究课题。分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的
样本赋予类别的一种技术。目前的分类算法主要有统计分类法、决策树、神经网络
等。不同的分类方法会产生不同的分类器,分类器的优劣直接影响数据挖掘的效率
与准确性。因此,当对大规模的海量的数据进行分类时,选择最有效的分类算法是至关
重要的。
决策树是分类应用中采用最广泛的模型之一。它是建立在信息论基础上的,其
基本思想是,通过一批已知的训练数据建立一棵决策树,然后利用建好的决策树,
对数据进行预测。与神经网络和贝叶斯方法相比,决策树无须花费大量的时间和进
行上千次的迭代来训练模型,适用于大规模数据集,除了训练数据中的信息外不再
需要其他额外信息,表现了很好的分类精确度。其核心问题是测试属性选择的策略,
以及对决策树进行剪枝。连续属性离散化和对高维大规模数据降维,也是扩展决策
树算法应用范围的关键技术。
针对以上情况,本文的研究工作主要包括如下几个方面:
1.本文首先介绍了数据挖掘的定义和主要方法,重点对分类的各种算法作了详
细的介绍和比较,并分析了基于变形的FP-tree 关联分类算法。
2.本文仔细学习了决策树算法,对经典算法ID3 进行了详细的介绍,然后详
细地研究了C4.5 算法对ID3 算法5 个方面进行了改进。针对粗糙集理论善于处理
不精确和不确定性知识的特点,将粗糙集理论引入决策树算法分析中,对C4.5 算法
进行了相应的改进,通过实例分析验证了这种改进算法的有效性,分析了算法在时
间上有明显的优越性。
3.本文最后将改进的算法应用于一个英语在线学习系统,可以为网络教育提供
监控和个性化指导,学生在学习过程中每一个动作都会被记录下来作为个性化评价
I
数据挖掘分类算法研究及应用
的条件,这样就不会忽略学生的每一个细节,形成的评价也就越准确,经过实验表
明,我们最终形成的模型是可用的。
关键词:数据挖掘,分类,决策树,粗糙集,英语在线学习系统
II
Abstract
Abstract
The data mining technique is a combination of machine learning, database and
Statistical theory. Data mining can seek interesting or valuable information within large,
incomplete, noisy, rough, and random databases.The problem of classification is a major
subject of research in data mining technology. Classification is the technology for
building a model according to the characteristics of the data set and assigning categories
to samples of unknown type by means of the model. At present classification algorithm
includes statistical classification, decision tree and nerve network and so on. Different
classification methods will produce d
文档评论(0)