- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2014年 第23卷 第 2期 http://www.c—S—a.org.cn 计 算 机 系 统 应 用
GSwMKnn:基于类别基尼系数子空间的加权互K近
邻算法①
陈雪云 ,一,卢伟胜
(龙岩学院 数学与计算机科学学院,龙岩 364012)
。(福建师范大学 数学与计算机科学学院,福州 350007)
摘 要:在高维数据空间中,存在大量冗余或无用的属性,这使得在子空间中寻找 目标类更为有效.为此文章提
出基于类别基尼系数子空间的加权互 k近邻算法,利用类别基尼系数求出其对应的软子空间并将待分类样本和
训练样本投影到各个类别子空间中,再在各软子空间中使用类别基尼系数加权距离互 k近邻算法计算出待分类
样本在各个子空间的投票权重并叠加,最终得出待分类样本的类标签.在公共数据集上的实验结果验证了该方
法的有效性.
关键词:类属性数据;子空间;互k.近邻:基尼系数
GSwMKnn:W eightedM KnnAlgorithm BasedontheCategory’sGiniSubspace
CHEN Xue.Yun ,_.LUWei.Sheng
(SchoolofMathematicsandComputerScience,LongyanUniversity,Longyan364012,China)
(SchoolofMathematicsandComputerScience,FujianNormalUniversiyt,Fuzhou350007,China)
Abstract:Inhigh—dimensionaldataspaces,thereexistsalargenumberofredundantoruselessattributes,andthereforeit
mightbemoreeffectivetofindtargetclassintheirsubspaces.A weightedMKnnalgorithm basedontheCategory’SGini
Coeffi cientsubspaceisproposedinthispaper.UsingtheCategory ’SGiniCoefficient,thealgorithm firstlycalculatesthe
correspondingsoftsubspaces,andprojectsthetrainingandtestingsamplesontoeachcategorysubspaces.Secondly,it
calculatesthevoteweightsofunclassified sampleson each subspaceby theweighted MKnn algorithm and then
accumulatesthem.Finally,itobtainsthecategory labelsofunclassifiedsamples.TheexperimentalresultsonsomeUCI
publicdatasetsdemonstratetheeffectivenessoftheproposedmethod.
Keywords:nominaldata;subspace;mutualk—nearestneighbor;Giniindex
数据挖掘研究领域涉及数据库和人工智能等学科, 新建立分类模型;而 Eager分类算法只需建立一次分
是当前相当活跃的研究领域,是指从大型数据库 中, 类模型,之后就可利用该分类模型对待分类样本进行
挖掘潜在 的,未知模式 的过程 .其 中,分类 (Data 分类.许多传统的分类算法,如 k近邻(K皿),朴素贝
Classification)在实际应用中得到广泛运用,也是数据 叶斯(NBC),支持 向量机(SVM)~I决策树算法(C4.5)已
挖掘 中非常重要的任务之一.分类的目的是学会一个 被广泛应用于入侵检测、故障监测、信用卡欺诈分析
分类 函数或者分类模型(也常常称为分类器),该模型 等领域.
能把数据库中的数据项映射到给定类别 中的某一个. k近邻(K加)是由 Cover和 Hart[]提出的一个有
分类算法一般分为 Lazy和 Eager两种类型 ”.Lazy 效和强大的懒惰学习算法.它的分类思想是:给定一
分类算法,每当对一个待分类样本进行分类时需要重
您可能关注的文档
最近下载
- DGTJ08-2001-2016 基坑工程施工监测规程.docx VIP
- 污泥( 废水)运输服务方案(技术方案).doc
- 中国特色国有企业公司治理结构的形成和发展 2025.docx
- 初中英语语法大全.pdf VIP
- 八升九分班考数学试卷.docx VIP
- DB3711_T 165-2025 中小企业劳动用工风险防控服务规范.pdf VIP
- DB3711_T 167-2025 夏玉米病虫害绿色防控技术规程.pdf VIP
- 北师大版八升九数学试卷.docx VIP
- 原子结构 高一化学人教版(2019)必修第一册.pptx VIP
- 沃尔沃-V90 Cross Country-产品使用说明书-2020款 T5 AWD 智尊版-V90CC T5 PZ10GC1-3110819w46V90CC_OMA~Z.pdf
文档评论(0)