GSwMKnn:基于类别基尼系数子空间的加权互K近邻算法.pdfVIP

GSwMKnn:基于类别基尼系数子空间的加权互K近邻算法.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2014年 第23卷 第 2期 http://www.c—S—a.org.cn 计 算 机 系 统 应 用 GSwMKnn:基于类别基尼系数子空间的加权互K近 邻算法① 陈雪云 ,一,卢伟胜 (龙岩学院 数学与计算机科学学院,龙岩 364012) 。(福建师范大学 数学与计算机科学学院,福州 350007) 摘 要:在高维数据空间中,存在大量冗余或无用的属性,这使得在子空间中寻找 目标类更为有效.为此文章提 出基于类别基尼系数子空间的加权互 k近邻算法,利用类别基尼系数求出其对应的软子空间并将待分类样本和 训练样本投影到各个类别子空间中,再在各软子空间中使用类别基尼系数加权距离互 k近邻算法计算出待分类 样本在各个子空间的投票权重并叠加,最终得出待分类样本的类标签.在公共数据集上的实验结果验证了该方 法的有效性. 关键词:类属性数据;子空间;互k.近邻:基尼系数 GSwMKnn:W eightedM KnnAlgorithm BasedontheCategory’sGiniSubspace CHEN Xue.Yun ,_.LUWei.Sheng (SchoolofMathematicsandComputerScience,LongyanUniversity,Longyan364012,China) (SchoolofMathematicsandComputerScience,FujianNormalUniversiyt,Fuzhou350007,China) Abstract:Inhigh—dimensionaldataspaces,thereexistsalargenumberofredundantoruselessattributes,andthereforeit mightbemoreeffectivetofindtargetclassintheirsubspaces.A weightedMKnnalgorithm basedontheCategory’SGini Coeffi cientsubspaceisproposedinthispaper.UsingtheCategory ’SGiniCoefficient,thealgorithm firstlycalculatesthe correspondingsoftsubspaces,andprojectsthetrainingandtestingsamplesontoeachcategorysubspaces.Secondly,it calculatesthevoteweightsofunclassified sampleson each subspaceby theweighted MKnn algorithm and then accumulatesthem.Finally,itobtainsthecategory labelsofunclassifiedsamples.TheexperimentalresultsonsomeUCI publicdatasetsdemonstratetheeffectivenessoftheproposedmethod. Keywords:nominaldata;subspace;mutualk—nearestneighbor;Giniindex 数据挖掘研究领域涉及数据库和人工智能等学科, 新建立分类模型;而 Eager分类算法只需建立一次分 是当前相当活跃的研究领域,是指从大型数据库 中, 类模型,之后就可利用该分类模型对待分类样本进行 挖掘潜在 的,未知模式 的过程 .其 中,分类 (Data 分类.许多传统的分类算法,如 k近邻(K皿),朴素贝 Classification)在实际应用中得到广泛运用,也是数据 叶斯(NBC),支持 向量机(SVM)~I决策树算法(C4.5)已 挖掘 中非常重要的任务之一.分类的目的是学会一个 被广泛应用于入侵检测、故障监测、信用卡欺诈分析 分类 函数或者分类模型(也常常称为分类器),该模型 等领域. 能把数据库中的数据项映射到给定类别 中的某一个. k近邻(K加)是由 Cover和 Hart[]提出的一个有 分类算法一般分为 Lazy和 Eager两种类型 ”.Lazy 效和强大的懒惰学习算法.它的分类思想是:给定一 分类算法,每当对一个待分类样本进行分类时需要重

文档评论(0)

lizhencai0920 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档