- 1、本文档共69页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习算法介绍;基本概念分类;监督式学习;非监督式学习;强化学习;十大机器学习算法;监督式学习与非监督式学习的差别;线性回归;线性回归;线性回归;逻辑回归;逻辑回归;决策树;细说决策树(1)——混乱度判断;细说决策树(2)——建构树;细说决策树(3)——剪枝prune;决策树代码 ;支持向量机;支持向量机;支持向量机优缺点;朴素贝叶斯;朴素贝叶斯;KNN(K最邻近算法);KNN(K最邻近算法);KNN(K最邻近算法);K均值算法;K均值算法;工作流程
;K-MEANS性能分析;K-MEANS性能分析;K-MEANS补充;AdaBoost;AdaBoost;Apriori;强化学习-马尔科夫决策过程;马尔科夫决策模型;数据挖掘;数据挖掘主要模型:分类、聚类、预测及关联;数据挖掘主要模型:分类、聚类、预测及关联;一、非线性拟合;二、货运量预测;二、货运量预测;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;四、时间序列预测法—交通流量预测;四、时间序列预测法—交通流量预测;一、数据探索;一、数据探索;二、数据预处理;二、数据预处理;(1)删除数据:主要针对缺失值数量较少、且删除数据对整体数据几乎没有影响;也可以根据数据缺失挖掘信息.
文献[1]利用5组医疗数据集测试了缺失数据对于病情阳性概率的影响,以及对分类结果精确度的影响,并通过knn、判别分析和朴素贝叶斯3种方法在数据缺失不同比例的情况下,对分类结果进行了分析比较;
(2)数据插补:属性间的关联性在缺失值估计过程中非常重要,在数据挖掘方法中,关键是挖掘属性间的关系。数据插补的目的在于估计正确的替代值。
文献[2]提出了基于不完备数据聚类的缺失数据填补方法,针对分类变量不完备数据集定义约束容差集合差异度,从集合的角度判断不完备数据对象的总体相异程度,并以不完备数据聚类的结果对基础进行缺失数据的填补。
文献[3]提出一种基于进化算法的自适应聚类方法,该方法的基本思想是将聚类问题转化成一个全局优化问题,利用聚类方法填充缺失值。
文献[4]针对缺失数据问题,提出???多元回归方法,弥补一元回归方法的不足。
[1] Juhola M, Laurikkala J. Missing values: how many can they be to preserve classification reliability [J/OL]. Artificial Intelligence Review,2011. (2011-08-01) [2012-12-28].
[2]武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8): 1726-1738.
[3] Silva J A,Hruschka E R. An evolutionary algorithm for missing values substitution in classification tasks[C] ∥ Proceedings of the HAIS′09. Salamanca:Springer,2009: 195-202.
[4] Zhang Shichao, Jin Zhi,Zhu Xiaofeng,et al. Missing data analysis: a kernel-based multi-imputation ap-proach[C]∥Proceedings of Transactions on Comput-ational Science III. Berlin,Heidelberg: Springer,2009:122-142.
;(2) 相似重复对象检测
文献[5]:邻近排序算法(SNM)是重复记录检测的常用方法,该方法基于排序比较的思想
文献[6]:多趟排序;文献[7]:优先队列排序
文献[8]:提出了基于N-gram的重复记录检测方法,并给出了改进的优先权队列算法以准确地
聚类相似重复记录。
文献[9]:用依赖图的概念,计算数据表中的关键属性,根据关键属性值将记录集划分为小记录集,在每个小记录集中进行相似重复记录检测。
文献[10]:针对非结构化数据的重复检测,介绍了复杂数据实体识别的概念和应用,分别就XML数据、图数据和复杂网络上实体识别技术进行了讨论。
[5]张建中,方正,熊拥军,等.对基于SNM数据清洗算法的优化[J].中南大学学报:自然科学版,2010,41(6):2240-2245.
[6]Monge A E
您可能关注的文档
- 09汉语言秘书写作课程.pptx
- 09大堂前室消防通道等观感质量要求.pptx
- 09表空间和数据文件的管理.pptx
- 09自主创新定稿.pptx
- 0企业市场营销观念及新发展.pptx
- 0银行核心业务交流(总则).pptx
- 1002理智面对学习压力.pptx
- 1011学年高中历史41《经济建设的发展和曲折》课件5新人教版必修.pptx
- 1021营业税改征增值税会计处理.pptx
- 101专业行销必修课业.pptx
- 人工智能在高中跨学科教学评价中的应用研究:以评价标准创新为方向教学研究课题报告.docx
- 小学科学实验:校园鸟类迁徙行为与生态保护教育的结合教学研究课题报告.docx
- 电商包装废弃物回收与绿色包装材料技术创新研究教学研究课题报告.docx
- 《幼儿园阅读环境创设对幼儿阅读兴趣持续性的影响研究》教学研究课题报告.docx
- 高中化学实验安全教育课程与实验安全知识的整合研究教学研究课题报告.docx
- 机器人技术在小学生信息技术素养培养中的应用研究教学研究课题报告.docx
- 2025年在线医疗平台患者信任度提升与医疗质量控制.docx
- 《制造企业绿色供应链管理中的绿色供应链绿色供应链绿色供应链绩效评价方法创新研究》教学研究课题报告.docx
- 《基于大数据的电商用户行为预测模型在用户行为预测模型创新性中的应用》教学研究课题报告.docx
- 2025年在线医疗平台患者信任度提升与品牌建设研究报告.docx
文档评论(0)